인공신경망

Artificial neural network
인공 신경 네트워크는 뉴런의 단순화에 의해 영감을 받아 상호 연결된 노드 그룹이다.여기서 각각의 원형 노드는 인공 뉴런을 나타내고 화살표는 인공 뉴런의 출력에서 다른 뉴런의 입력까지의 연결을 나타낸다.

보통 단순히 신경망(Neural Networks, NN)이라고 불리는 인공신경망(ANNs)은 동물의 를 구성하는 생물학적 신경망에서 영감을 받은 컴퓨터 시스템이다.

ANN은 생물학적 의 뉴런을 느슨하게 모형화하는 인공 뉴런이라고 불리는 연결된 단위나 노드의 집합에 기초한다.각각의 연결은 생물학적 뇌의 시냅스처럼 다른 뉴런들에게 신호를 전송할 수 있다.인공 뉴런은 신호를 받은 다음 그것을 처리하고 그것에 연결된 뉴런을 신호할 수 있다.연결에서 "신호"는 실제 숫자로, 각 뉴런의 출력은 입력의 합계의 어떤 비선형 함수에 의해 계산된다.그 연결은 가장자리라고 불린다.뉴런과 가장자리는 전형적으로 학습이 진행됨에 따라 조절되는 무게를 가진다.무게는 연결부에서 신호의 강도를 증가시키거나 감소시킨다.뉴런은 골재 신호가 그 임계값을 넘을 경우에만 신호가 전송될 수 있는 임계값을 가질 수 있다.전형적으로 뉴런은 층으로 집합된다.다른 계층들은 입력에 대해 다른 변환을 수행할 수 있다.신호는 첫 번째 레이어(입력 레이어)에서 마지막 레이어(출력 레이어)로 이동하며, 아마도 레이어를 여러 번 가로지른 후에 이동한다.

트레이닝

신경 네트워크는 각각 알려진 "입력"과 "결과"를 포함하는 예시를 처리함으로써 학습(또는 훈련)하며, 두 개 사이의 확률 가중 연관성을 형성하며, 이는 네트 자체의 데이터 구조 내에 저장된다.주어진 예에서 나온 신경망의 훈련은 대개 네트워크의 처리된 산출물(흔히 예측)과 목표 산출물의 차이를 결정함으로써 이루어진다.이 차이는 오류다.그런 다음 네트워크는 학습 규칙과 이 오류 값을 사용하여 가중 연관성을 조정한다.연속적인 조정은 신경 네트워크가 목표 출력과 점점 유사한 출력을 생성하게 할 것이다.이러한 조정 횟수가 충분하면 특정 기준에 따라 훈련을 종료할 수 있다.이것은 감독된 학습으로 알려져 있다.

그러한 시스템은 일반적으로 작업별 규칙을 프로그래밍하지 않고 예를 고려하여 작업을 수행하는 "학습"을 한다.를 들어, 이미지 인식에서, 그들은 수동으로 "고양이" 또는 "고양이 없음"으로 표시된 예제 이미지를 분석하고 그 결과를 다른 이미지에서 고양이를 식별하는 데 사용함으로써 고양이가 포함된 이미지를 식별하는 법을 배울 수 있다.예를 들어 털, 꼬리, 수염, 고양이 같은 얼굴을 가지고 있다는 것을 고양이에 대한 사전 지식도 없이 이렇게 한다.대신, 그들은 그들이 처리하는 예에서 식별 특성을 자동으로 생성한다.

역사

워렌 맥컬로치월터 피츠[1](1943)는 신경망 계산 모델을 만들어 주제를 열었다.[2]1940년대 후반, D. O. Hebb[3] 헤비안 학습으로 알려지게 된 신경 가소성의 메커니즘을 바탕으로 학습 가설을 만들었다.팔리와 웨슬리 A. 클라크[4](1954)는 헤비안 네트워크를 시뮬레이션하기 위해 처음에는 계산기(calculator)라고 불리던 연산기를 사용했다.1958년 심리학자 프랭크 로젠블라트는 미국 해군연구소의 자금으로 최초의 인공신경망인 퍼셉트론을 발명했다.[5][6][7][8][9]레이어가 많은 최초의 기능 네트워크는 1965년 이바크넨코와 라파가 그룹 Method of Data Handling으로 출판하였다.[10][11][12]연속적인 백프로포메이션의[10][13][14][15] 기본은 1960년 켈리에 의해 그리고 1961년[16] 브라이슨[17]동적 프로그래밍의 원리를 이용하여 제어 이론의 맥락에서 도출되었다.그 후 민스키파퍼트(1969년)에 이어 연구가 정체되었는데,[18] 그는 기본적인 지각자들이 배타적 또는 회로를 처리할 능력이 없고 컴퓨터가 유용한 신경 네트워크를 처리할 수 있는 충분한 전력이 부족하다는 것을 발견했다.

1970년, 세포 린네마아는 내포된 차별화 함수의 이산 연결망의 자동 분화(AD)에 관한 일반적 방법을 발표했다.[19][20]1973년에 Dreyfus는 오류 구배에 비례하여 컨트롤러의 매개변수를 조정하기 위해 백프로파게션을 사용했다.[21]Werbos(1975)의 백프로파게이션 알고리즘은 다층 네트워크의 실질적인 훈련을 가능하게 했다.1982년에는 린네마아의 AD 방식을 신경망에 적용하여 널리 사용하게 되었다.[13][22]

MOS(금속-산화물-반도체) 초대형 집적(VLSI)을 보완 MOS(CMOS) 기술의 개발로 디지털 전자제품에서 MOS 트랜지스터 수를 늘릴 수 있었다.이는 1980년대 실용적 인공신경망 개발에 더 많은 처리 능력을 제공했다.[23]

1986년 루멜하트, 힌튼윌리엄스는 백프로포메이션이 다음 단어를 순서에 따라 예측하는 훈련을 받았을 때 특징 벡터로서 단어의 흥미로운 내부 표현을 배웠다는 것을 보여주었다.[24]

1992년, 3D 물체 인식을 돕기 위해 최소 이동 불변도와 변형에 대한 내성을 돕기 위해 max-pooling이 도입되었다.[25][26][27]슈미두버는 감독되지 않은 학습에 의해 한 번에 한 단계씩 사전 훈련된 다단계 네트워크 계층화(1992)를 채택하고, 백프로포즈로 미세 조정했다.[28]

뉴럴 네트워크의 초기 성공에는 주식시장 예측과 1995년(대부분) 자율주행차가 포함됐다.[a][29]

제프리 힌튼(2006) 각 레이어를 모델링하기 위해 볼츠만 기계가 제한[30] 이진수 또는 실질가치의 잠재변수의 연속 레이어를 사용하여 높은 수준의 표현을 배울 것을 제안했다.2012년 ng은 라벨이 부착되지 않은 영상을 보면서 고양이와 같은 상위 개념들을 인식하는 법을 배우는 네트워크를 만들었다.[31]GPU분산 컴퓨팅의 관리되지 않은 사전 훈련과 향상된 컴퓨팅 능력은 특히 "딥 러닝"[32]으로 알려진 이미지 및 시각적 인식 문제에서 더 큰 네트워크를 사용할 수 있게 했다.

Ciresan과 동료들(2010)[33]은 GPU가 소멸하는 구배 문제에도 불구하고 다층 피드포워드 신경망에 대해 백프로포즈를 가능하게 한다는 것을 보여주었다.[34]2009년과 2012년 사이에 ANN은 이미지 인식 대회에서 상을 받기 시작했으며, 처음에는 패턴 인식과 필기 인식에서 다양한 작업에 대한 인간 수준 성과에 근접했다.[35][36]예를 들어 Graves 등의 양방향 및 다차원 장단기메모리(LSTM)[37][38][39][40]는 학습할 3개 언어에 대한 사전 지식 없이 2009년 커넥티드 필적인식에서 3개 대회에서 우승했다.[39][38]

Ciresan과 동료들은 교통 신호 인식(IJCNN 2012)과 같은 벤치마크에서 인간 경쟁/초인적인 성과를[41] 달성하기 위해 최초의 패턴 인식자를 구축했다.

모델

덴드라이트의 입력에서 액손 단자의 출력으로 신호 흐름이 있는 뉴런 및 몰리미네이트 액손

ANN은 기존의 알고리즘이 거의 성공하지 못한 작업을 수행하기 위해 인간의 두뇌 구조를 이용하려는 시도로 시작되었다.그들은 곧 경험적 결과를 개선하는 방향으로 방향을 바꾸었고, 대부분 그들의 생물학적 전구들에 충실하려는 시도를 포기했다.뉴런은 다양한 패턴으로 서로 연결되어, 어떤 뉴런의 출력이 다른 뉴런의 입력이 되도록 한다.네트워크는 지시가중 그래프를 형성한다.[42]

인공 신경망은 모의 뉴런의 집합체로 구성되어 있다.각 뉴런은 생물학적 액손-시냅스-덴드라이트 연결에 해당하는 링크를 통해 다른 노드에 연결되는 노드다.각 링크에는 무게가 있는데, 이것은 다른 노드에 대한 한 노드의 영향력의 강도를 결정한다.[43]

인공 뉴런

ANN은 생물학적 뉴런에서 개념적으로 파생된 인공 뉴런으로 구성되어 있다.각각의 인공 뉴런은 입력을 가지고 있고 여러 개의 다른 뉴런으로 보내질 수 있는 단일 출력을 생성한다.[44]입력은 이미지나 문서와 같은 외부 데이터 샘플의 특징 값이 될 수도 있고, 다른 뉴런의 출력이 될 수도 있다.신경망의 최종 출력 뉴런의 출력은 이미지 속의 물체를 인식하는 것과 같은 임무를 완수한다.

뉴런의 출력을 찾으려면 우선 모든 입력의 가중치 합계를 입력에서 뉴런까지의 연결부 무게에 의해 가중치 부여를 받아야 한다.우리는 이 합계에 편향된 용어를 추가했다.[45]이 가중 합을 활성화라고도 한다.이 가중 합계는 출력(일반적으로 비선형) 활성화 함수를 통해 전달된다.초기 입력은 영상과 문서와 같은 외부 데이터다.궁극적인 출력은 이미지에서 개체를 인식하는 것과 같은 작업을 수행한다.[46]

조직

뉴런은 특히 딥러닝에서 일반적으로 여러 층으로 구성된다.한 층의 뉴런은 바로 앞 층의 뉴런과 바로 이어지는 층의 뉴런에만 연결된다.외부 데이터를 수신하는 계층은 입력 계층이다.궁극적인 결과를 내는 계층은 출력 계층이다.그 사이에 숨겨진 층이 0개 이상 있다.단일 레이어 및 비 레이어드 네트워크도 사용된다.두 레이어 사이에서는 여러 연결 패턴이 가능하다.그것들은 '완전히 연결'될 수 있으며, 한 층의 모든 뉴런이 다음 층의 모든 뉴런과 연결된다.그들은 풀링(pooling)이 될 수 있는데, 한 층의 뉴런 그룹이 다음 층의 단일 뉴런에 연결되고, 따라서 그 층의 뉴런의 수가 감소한다.[47]그러한 연결만 있는 뉴런은 방향의 순환 그래프를 형성하며 피드포워드 네트워크로 알려져 있다.[48]대안으로, 동일 계층이나 이전 계층의 뉴런들 사이에 연결을 허용하는 네트워크를 반복 네트워크라고 한다.[49]

하이퍼 파라미터

하이퍼 파라미터는 학습 과정이 시작되기 전에 값이 설정되는 상수 파라미터다.매개변수의 가치는 학습을 통해 도출된다.하이퍼 파라미터의 예로는 학습 속도, 숨겨진 레이어의 수 및 배치 크기를 들 수 있다.[50]일부 하이퍼 파라미터의 값은 다른 하이퍼 파라미터의 값에 따라 달라질 수 있다.예를 들어, 일부 층의 크기는 전체 층 수에 따라 달라질 수 있다.

학습

학습은 네트워크가 샘플 관찰을 고려하여 업무를 더 잘 처리하도록 적응하는 것이다.학습에는 네트워크의 가중치(및 선택적 임계값)를 조정하여 결과의 정확성을 향상시키는 것이 포함된다.이것은 관찰된 오류를 최소화함으로써 이루어진다.추가 관찰을 검토할 때 학습이 완료되지만 오류율은 유용하게 감소하지 않는다.학습 후에도 일반적으로 오류율이 0에 이르지 않는다.학습 후 오류율이 너무 높은 경우, 일반적으로 네트워크를 다시 설계해야 한다.실제로 이것은 학습 중에 주기적으로 평가되는 비용 함수를 정의함으로써 이루어진다.생산량이 계속 감소하는 한 학습은 계속된다.원가는 종종 근사치만 낼 수 있는 통계로 정의된다.출력은 실제로 숫자들이기 때문에 오차가 낮을 때 출력(대부분 확실히 고양이)과 정답(고양이)의 차이는 작다.학습은 관찰에 걸친 차이의 총계를 줄이려고 시도한다.대부분의 학습 모델은 최적화 이론과 통계적 추정을 직접적으로 응용한 것으로 볼 수 있다.[51][42]

학습율

학습률은 각 관측치의 오류를 조정하기 위해 모델이 취하는 교정 단계의 크기를 정의한다.[52]높은 학습 비율은 훈련 시간을 단축하지만 궁극적인 정확도는 낮으며, 낮은 학습 속도는 더 오래 걸리지만 더 높은 정확도를 가질 수 있는 잠재력이 있다.Quickprop과 같은 최적화는 주로 오류 최소화 속도를 높이는 것을 목표로 하는 반면, 다른 개선사항은 주로 신뢰성을 높이려고 한다.교번 연결 가중치와 같은 네트워크 내부의 진동을 피하고, 융합 속도를 개선하기 위해, 정밀한 학습은 적절하게 증가하거나 감소하는 적응 학습 속도를 이용한다.[53]운동량의 개념은 구배와 이전 변화 사이의 균형을 가중시킬 수 있게 하여 체중 조절이 이전 변화에 어느 정도 의존하도록 한다.0에 가까운 모멘텀은 구배를 강조하는 반면 1에 가까운 값은 마지막 변화를 강조한다.

원가함수

비용함수를 임시로 정의할 수 있지만, 종종 선택은 함수의 바람직한 특성(대류도 등) 또는 모델에서 발생하기 때문에(예: 확률론적 모델에서 모델의 후방 확률을 역비용으로 사용할 수 있다)에 의해 결정된다.

백프로파게이션

백프로포메이션은 학습 중 발견된 각 오류를 보상하기 위해 연결 가중치를 조정하는 방법이다.오류량은 연결부 간에 효과적으로 구분된다.기술적으로, 백프로프는 가중치와 관련하여 주어진 상태와 관련된 비용 함수구배(파생상품)를 계산한다.체중 업데이트는 확률적 경사로 강하 또는 Extreme Learning Machine,[54] "No-prop" 네트워크,[55] 역추적 없는 훈련,[56] "무중력" 네트워크,[57][58] 비연결 신경 네트워크와 같은 다른 방법을 통해 수행될 수 있다.

학습 패러다임

세 가지 주요 학습 패러다임은 감독 학습, 감독되지 않은 학습, 강화 학습이다.그들은 각각 특정한 학습 과제에 대응한다.

감독 학습

감독된 학습은 쌍으로 구성된 입력 자료와 원하는 결과를 사용한다.학습 과제는 각 입력에 대해 원하는 출력을 생성하는 것이다.이 경우 비용 함수는 부정확한 공제를 제거하는 것과 관련이 있다.[59]일반적으로 사용되는 비용은 평균 제곱 오차로, 네트워크 출력과 원하는 출력 사이의 평균 제곱 오차를 최소화하려고 시도한다.감독 학습에 적합한 과제는 패턴 인식(분류라고도 함)과 회귀(함수 근사라고도 함)이다.감독된 학습은 순차적 데이터(예: 손 글쓰기, 음성 및 몸짓 인식)에도 적용된다.이것은 지금까지 얻은 해결책의 질에 대해 지속적인 피드백을 제공하는 기능의 형태로, 「선생님」과 함께 배우는 것으로 생각할 수 있다.

무감독 학습

감독되지 않은 학습에서 입력 데이터는 비용 함수, x 일부 기능 및 네트워크 출력과 함께 제공된다.비용 함수는 작업(모델 영역)과 모든 선행 가설(모델의 암묵적 특성, 매개변수 및 관측 변수)에 따라 달라진다.사소한 예로 f )= 을(를) 고려하십시오. 여기서 (는) 상수이고 비용 = [( - f() C이 비용을 최소화하면 데이터의 평균과 동일한 의 값이 생성된다.비용 기능은 훨씬 더 복잡할 수 있다.그것의 형태는 애플리케이션에 따라 달라진다. 예를 들어 압축에서는 x 상호 정보와 관련될 수 있지만 통계 모델링에서는 데이터가 주어진 모델의 후방 확률과 관련될 수 있다(두 가지 모두에 유의).예를 들어 그러한 수량은 최소화하기 보다는 극대화될 것이다).감독되지 않은 학습의 패러다임에 속하는 과업은 일반적인 추정 문제에 있다. 응용 프로그램에는 클러스터링, 통계 분포의 추정, 압축필터링이 포함된다.

강화학습

비디오 게임을 하는 것과 같은 어플리케이션에서, 배우는 일련의 행동을 취하며, 각각의 행동 이후에 일반적으로 환경으로부터 예측할 수 없는 반응을 받는다.게임 승리, 즉 가장 긍정적인(최저비용) 반응을 내는 것이 목표다.강화학습에서, 네트워크의 가중치(정책 파괴)를 책정해, 장기적인(기대 누적) 비용을 최소화하는 행동을 실시하는 것을 목표로 한다.각 시점에서 에이전트가 작업을 수행하고 환경은 일부(일반적으로 알 수 없는) 규칙에 따라 관찰과 즉각적인 비용을 생성한다.규칙과 장기비용은 대개 추정할 수 있을 뿐이다.어떤 경우든 에이전트는 비용을 파악하기 위한 새로운 조치를 탐색할지, 아니면 더 빨리 진행하기 위해 선행 학습을 이용할지를 결정한다.

Formally the environment is modeled as a Markov decision process (MDP) with states and actions . Because the state transitions are not known, probability distributions대신 즉각적인 비용 분포 t) 관찰 P t {\} s_{t 및 전환 분포 + , ) stylease stylease stylease \textstylease stylease stylease stylease \ stylease \ \ 정책이 관찰된 작업에 대한 조건부 배포로 정의되는 동안두 사람은 합쳐 마코프 체인(MC)을 정의한다.가장 저렴한 MC를 발굴하는 것이 목적이다.

ANN은 그러한 애플리케이션에서 학습 구성요소 역할을 한다.[60][61]동적 계획 법 ANNs(neurodynamic 프로그래밍을 주는)[62]과 더불어 차량 routing,[63]비디오 게임에 연루된 천연 자원 management[64][65]과 medicine[66]ANNs는 때 숫자로 approximat의 불연속화 그리드의 농도를 낮추는 정확성의 손실을 완화하기 때문에 같은 문제들에 적용되어 왔다.해결의 ing문제를 다스리다강화학습의 패러다임 안에 드는 과제는 제어문제, 게임, 기타 순차적 의사결정 과제다.

자기 학습

신경망에서의 자기학습은 1982년 크로스바 적응 배열(CAA)이라는 이름의 자가 학습이 가능한 신경망과 함께 도입되었다.[67]입력, 상황 s, 출력, 동작(또는 동작) a가 하나만 있는 시스템이다.외부 자문 투입물도 없고 환경으로부터 외부 강화 투입물도 없다.CAA는 마주친 상황에 대한 행동과 감정(감정)에 대한 결정을 크로스바 방식으로 계산한다.그 시스템은 인식과 감정 사이의 상호작용에 의해 추진된다.[68]메모리 매트릭스 W = w(a,s)를 감안하여 각 반복에서 크로스바 자체 학습 알고리즘은 다음과 같은 계산을 수행한다.

상황의 경우, 조치 a; 결과 상황 s'; 결과 상황 v('s')에 있는 감정의 계산; 크로스바 메모리 w'(a,s) = w(a,s) + v(s') 업데이트. 

역제안 가치(2차 보강)는 결과 상황에 대한 감정이다.CAA는 두 가지 환경에 존재한다. 하나는 행동환경이 행동하는 행동환경이고, 다른 하나는 유전환경이다. 행동환경에서 처음 그리고 오직 한 번만 상황에 맞닥뜨리게 되는 초기감정을 받는 것이다.유전자 환경으로부터 게놈 벡터(종 벡터)를 받은 CAA는 바람직한 상황과 바람직하지 않은 상황을 모두 담고 있는 행동 환경에서 목표 추구 행동을 배우게 된다.[69]

경화화화화화

신경진화진화적 계산을 통해 신경망 위상과 가중치를 만들 수 있다.그것은 정교한 경사 하강 접근법으로[citation needed] 경쟁력이 있다.신경진화의 한 가지 이점은 "막다른 골목"[70]에 덜 걸릴 수 있다는 것이다.

셔링턴-키크패트릭 모델에서 유래한 확률신경망은 네트워크의 인공신경세포확률전달 기능을 부여하거나 확률적 가중치를 부여하여 네트워크에 무작위 변동을 도입함으로써 구축된 인공신경망의 일종이다.이것은 임의의 변동이 네트워크가 로컬 미니마에서 탈출하는 것을 돕기 때문에 최적화 문제에 유용한 도구가 된다.[71]

기타

베이시안 프레임워크에서는 비용을 최소화하기 위해 허용된 모델 집합에 대한 분포를 선택한다.진화적 방법,[72] 유전자 표현 프로그래밍,[73] 시뮬레이션된 어닐링,[74] 기대 최대화, 비모수적 방법 입자 군집 최적화[75] 다른 학습 알고리즘이다.수렴재귀는 소뇌 모델 관절 제어기(CMAC) 신경 네트워크를 위한 학습 알고리즘이다.[76][77]

모드

두 가지 방식의 학습이 가능하다: 확률적 학습과 배치.확률적 학습에서 각 입력은 체중 조절을 생성한다.일괄 학습 중량은 일괄 입력에 기초하여 조정되며 일괄 입력에 오류가 누적된다.확률적 학습은 한 데이터 지점에서 계산된 국소 구배를 사용하여 프로세스에 "소음"을 도입하며, 이는 네트워크가 국소 최소점에 고착될 가능성을 감소시킨다.그러나 배치 학습은 각 업데이트가 배치의 평균 오류 방향으로 수행되기 때문에 일반적으로 국소 최소값으로 더 빠르고 더 안정적인 하강을 산출한다.일반적인 절충안은 "미니 배치"를 사용하는 것인데, 각 배치의 샘플이 있는 작은 배치로 전체 데이터 세트에서 확률적으로 선택된다.

종류들

ANN은 여러 영역에 걸쳐 예술의 상태를 발전시킨 광범위한 기술 계열로 진화해 왔다.가장 단순한 유형에는 단위 수, 층 수, 단위 무게 및 위상 등 하나 이상의 정적 구성요소가 있다.동적 유형은 이들 중 하나 이상이 학습을 통해 진화할 수 있도록 한다.후자는 훨씬 더 복잡하지만, 학습 기간을 단축할 수 있고 더 나은 결과를 낼 수 있다.어떤 유형은 운영자가 학습을 "감독"하도록 허용/요구하는 반면, 다른 유형은 독립적으로 운영한다.어떤 종류는 순수하게 하드웨어에서 작동하는 반면, 다른 종류는 순전히 소프트웨어로서 범용 컴퓨터에서 실행된다.

그 중 주요 업적 중의:;[78][79] 긴 단기 기억과 높은 주파수 성분large-vocabulary 연설 recogni을 믹스한이 신호를 할 수 있는 한계 경사 problem[80]을 피하는 다른 2차원 데이터 시각 처리하는 과정에서 성공적인 것으로 입증되고 나선형의. 신경 네트워크를 포함한다.text-t tion,[81][82]o-프로토콜 합성 [83][13][84]및 포토-리얼 토킹 헤드:[85] (다양한 구조의) 복수의 네트워크가 서로 경쟁하는 생성적 적대적 네트워크와 같은 경쟁적 네트워크, 게임[86] 승리와 같은 작업이나 입력의 진위에 대해 상대방을 속이는 작업.[87]

네트워크 설계

신경 아키텍처 검색(NAS)은 기계 학습을 사용하여 ANN 설계를 자동화한다.NAS에 대한 다양한 접근방식은 손으로 디자인한 시스템과 잘 비교되는 네트워크를 설계했다.기본 검색 알고리즘은 후보 모델을 제안하고, 데이터 세트에 대해 평가한 후, 그 결과를 NAS 네트워크를 가르치기 위한 피드백으로 사용하는 것이다.[88]사용 가능한 시스템으로는 AutoML과 AutoKeras가 있다.[89]

설계 문제에는 네트워크 계층의 수, 유형 및 연결성뿐만 아니라 각 계층의 크기와 연결 유형(전체, 풀링, ...)을 결정하는 것이 포함된다.

하이퍼 파라미터는 또한 설계의 일부로 정의되어야 하며(학습되지 않음), 각 레이어에 얼마나 많은 뉴런이 있는지, 학습 속도, 스텝, 보폭, 깊이, 수용적 필드 및 패딩(CNN의 경우) 등과 같은 문제를 통제한다.[90]

사용하다

인공신경망을 이용하려면 그 특징에 대한 이해가 필요하다.

  • 모델 선택:이것은 데이터 표현과 응용 프로그램에 따라 달라진다.지나치게 복잡한 모델은 학습 속도가 느리다.
  • 학습 알고리즘:학습 알고리즘 사이에는 수많은 절충이 존재한다.거의 모든 알고리즘이 특정 데이터 집합에 대한 훈련을 위한 정확한 하이퍼 파라미터와 잘 작동할 것이다.그러나 보이지 않는 데이터에 대한 훈련을 위한 알고리즘을 선택하고 조정하려면 상당한 실험이 필요하다.
  • 견고성:모델, 비용함수, 학습 알고리즘을 적절하게 선택한다면, 결과적으로 ANN은 견고해질 수 있다.

ANN 기능은 다음과 같은 광범위한 범주에 속한다.[citation needed]

적용들

비선형 프로세스를 재현하고 모델링하는 능력 때문에, 인공 신경 네트워크는 많은 분야에서 응용 분야를 찾아냈다.적용 지역 시스템 식별 번호 및 통제(차량 제어, 탄도 prediction,[92]공정 제어, 천연 자원 관리), 양자 chemistry,[93]일반 게임 playing,[94]패턴 인식(레이더 시스템, 얼굴 식별, 신호 classification,[95]3Dreconstruction,[96]개체 인식과 더 많은), 센서가 포함됩니다. analysis,[97]순서인식(인증, 음성, 필기 및 인쇄 텍스트 인식[98]), 의료 진단, 금융[99](예: 자동화된 거래 시스템), 데이터 마이닝, 시각화, 기계 번역, 소셜 네트워크 필터링[100]이메일 스팸 필터링.ANN은 여러 종류의 암을[101][102] 진단하고 세포 형태 정보만을 사용하여 고도로 침습적인 암세포선과 덜 침습적인 암세포선을 구별하는 데 사용되어 왔다.[103][104]

ANN은 자연재해[105][106] 대상 인프라의 신뢰성 분석을 가속화하고 기반 정산을 예측하는 데 사용되어 왔다.[107]ANN은 또한 수문학,[108][109] 해양 모델링 및 연안 공학,[110][111] 그리고 지질학지구과학에서 블랙박스 모델을 만드는 데 사용되어 왔다.[112]ANN은 합법적인 활동과 악의적인 활동을 구별하기 위한 목적으로 사이버 보안에 고용되어 왔다.예를 들어, 머신러닝은 Android 맬웨어의 분류,[113] 위협 행위자에 속하는 도메인을 식별하고 보안 위험을 초래하는 URL을 탐지하는 데 사용되어 왔다.[114]봇넷,[115] 신용카드 사기[116] 및 네트워크 침입을 탐지하기 위해 침투 테스트를 위해 설계된 ANN 시스템에 대한 연구가 진행 중이다.

ANN은 물리학의[117][118][119] 부분 미분 방정식을 해결하고 다체 오픈 양자 시스템의 특성을 시뮬레이션하는 도구로 제안되어 왔다.[120][121][122][123]뇌 연구에서 ANN은 개별 뉴런의 단기적 행동을 연구해 왔으며,[124] 신경 회로의 역학은 개별 뉴런들 사이의 상호작용에서 비롯되며 완전한 서브시스템을 나타내는 추상적 신경 모듈에서 어떻게 행동이 발생할 수 있는지 연구하였다.연구는 신경계의 장단기 가소성과 개별 뉴런에서 시스템 수준에 이르는 학습 및 기억과의 관계를 고려했다.

이론적 특성

계산력

다층 수용체보편적 근사치 정리에서 입증된 보편적 함수 근사치이다.그러나, 필요한 뉴런의 수, 네트워크 위상, 가중치 및 학습 매개변수에 관한 증거는 건설적이지 않다.

합리적 가치의 가중치를 갖는 특정한 반복적 구조(완전정밀 실제 수치의 가중치와는 대조적으로)는 한정된 수의 뉴런과 표준 선형 연결을 사용하는 범용 튜링 기계의 힘을 가지고 있다.[125]또한, 가중치에 비합리적인 값을 사용하면 초 튜링 파워를 가진 기계가 된다.[126]

역량

모델의 "용량" 속성은 주어진 기능을 모델링하는 능력에 해당한다.네트워크에 저장할 수 있는 정보의 양과 복잡성의 개념과 관련이 있다.그 지역사회는 두 가지 개념의 수용능력을 알고 있다.정보 용량 및 VC 치수.수용자의 정보 능력은 토마스 커버의 작품을 요약한 데이비드 맥케이 경의 저서에서[127] 집중적으로 논의된다.[128]표준 뉴런 네트워크(콘볼루션이 아님)의 용량은 뉴런을 전기 원소로 이해함으로써 도출되는 네 가지 규칙에[129] 의해 도출될 수 있다.정보용량은 입력으로 주어진 데이터를 네트워크에서 모델링할 수 있는 기능을 포착한다.두 번째 개념은 VC 차원이다.VC Dimension은 측정 이론의 원리를 사용하고 가능한 최상의 상황에서 최대 용량을 찾는다.이것은 특정 형태의 입력 데이터 입니다.에서 언급한 바와 같이 임의 입력에 대한 VC Dimension은 Perceptron의 정보 용량의 절반이다.[127]임의 포인트에 대한 VC Dimension을 메모리 용량이라고도 한다.[130]

수렴

모델은 비용 함수와 모델에 따라 국부적 미니마가 존재할 수 있기 때문에 단일 솔루션에 일관적으로 수렴되지 않을 수 있다.둘째로, 사용하는 최적화 방법은 그것이 국소 최소치에서 멀리 시작할 때 수렴을 보장하지 않을 수 있다.셋째, 충분히 큰 데이터나 매개변수에 대해서는 일부 방법이 비실용적이 된다.

또 다른 언급할 가치가 있는 문제는 훈련이 잘못된 방향으로 수렴을 이끌 수 있는 Saddle 포인트를 넘을 수 있다는 것이다.

특정 유형의 ANN 아키텍처의 융합 동작은 다른 아키텍처보다 더 이해된다.네트워크의 폭이 무한대에 가까워지면, ANN은 훈련 내내 그것의 첫 번째 순서인 테일러 확장에 의해 잘 설명되고, 따라서 아핀 모델의 융합 동작을 계승한다.[131][132]또 다른 예로는 파라미터가 작을 때, ANN이 저주파에서 고주파까지 표적 함수를 적합시키는 경우가 종종 관찰된다.이 행동을 신경망의 스펙트럼 편향 또는 주파수 원리라고 한다.[133][134][135][136]이러한 현상은 자코비법과 같은 몇몇 잘 연구된 반복적인 수치 체계들의 행동과는 반대되는 것이다.더 깊은 신경망은 저주파 함수에 더 편중된 것으로 관찰되었다.[137]

일반화 및 통계

보이지 않는 예에 잘 부합하는 시스템을 만드는 것이 목표인 애플리케이션은 과잉 훈련의 가능성에 직면한다.이것은 네트워크 용량이 필요한 자유 매개변수를 현저히 초과할 때 복잡하거나 지나치게 지정된 시스템에서 발생한다.두 가지 접근방식은 과도한 훈련을 다룬다.첫째는 교차검증 및 이와 유사한 기법을 사용하여 과잉훈련의 유무를 확인하고, 하이퍼 매개변수를 선택하여 일반화 오류를 최소화하는 것이다.

두 번째는 어떤 형태로든 정규화를 사용하는 것이다.이 개념은 확률론적(베이지안) 틀에서 나타나는데, 여기서 더 단순한 모델보다 더 큰 사전 확률을 선택하여 정규화를 수행할 수 있다. 그러나 통계학 이론에서도 두 가지 양에 걸쳐서 최소화하는 것이 목표인 '감염적 위험'과 '구조적 위험'에 대한 오류에 대략 해당하는 '구조적 위험'에서 나타난다.교육 세트 및 과다 피팅으로 인한 데이터 봉인 해제 오류 예측.

신경망의 신뢰도 분석

평균 제곱 오차(MSE) 비용 함수를 사용하는 감독 신경 네트워크는 공식 통계 방법을 사용하여 훈련된 모델의 신뢰도를 결정할 수 있다.검증 세트의 MSE는 분산을 위한 추정치로 사용할 수 있다.그런 다음 이 값을 사용하여 정규 분포를 가정하여 네트워크 출력의 신뢰 구간을 계산할 수 있다.이러한 방식으로 이루어진 신뢰 분석은 출력 확률 분포가 그대로 유지되고 네트워크가 수정되지 않는 한 통계적으로 유효하다.

범주형 표적 변수에 대해 신경망(또는 요소 기반 네트워크의 소프트맥스 구성 요소)의 출력 계층에 로지스틱 함수의 일반화인 소프트맥스 활성화 함수를 할당함으로써 출력을 후확률로 해석할 수 있다.이것은 분류에 대한 확실한 척도를 제공하기 때문에 분류에 유용하다.

소프트맥스 활성화 기능은 다음과 같다.


비판

트레이닝

신경망, 특히 로봇공학에 대한 일반적인 비판은 현실적 운영을 위해 너무 많은 훈련이 필요하다는 것이다.[citation needed]잠재적 해결책에는 예를 따라 네트워크 연결을 변경할 때 너무 큰 단계를 취하지 않는 수치 최적화 알고리즘을 사용하여 무작위로 셔플링 훈련 예시, 이른바 미니 배치의 그룹화 예시 및/또는 CMAC에 대한 재귀 최소 제곱 알고리즘 도입 등이 포함된다.[76]

이론

근본적인 반대는 ANN이 뉴런 기능을 충분히 반영하지 못한다는 것이다.생물학적 신경망에는 그러한 메커니즘이 존재하지 않지만, 백프로포메이션은 중요한 단계다.[138]정보가 실제 뉴런에 의해 어떻게 암호화된지는 알려져 있지 않다.센서 뉴런은 센서 활성화로 작용 전위를 더 자주 발사하고 근육 세포는 관련 운동 뉴런이 더 자주 작용 전위를 받을 때 더 강하게 당긴다.[139]센서 뉴런에서 운동 뉴런으로 정보를 중계하는 경우를 제외하고는 생물학적 신경망에 의해 정보가 처리되는 원리의 거의 알려진 것이 없다.

ANN의 주된 주장은 정보 처리에 대한 새롭고 강력한 일반 원칙을 구현한다는 것이다.이 원칙들은 정의가 잘못되어 있다.흔히 그들이 네트워크 자체에서 출현한다고 주장한다.이를 통해 단순한 통계적 연관성(인공신경망의 기본 기능)을 학습이나 인식으로 기술할 수 있다.1997년 알렉산더 듀드니는 그 결과 인공신경망은 "아무것도 아닌 품질"을 가지고 있으며, 이는 게으름의 독특한 기미를 주며, 이러한 컴퓨터 시스템이 얼마나 우수한지에 대한 뚜렷한 호기심이 결여되어 있다고 말했다.사람의 손(또는 마음)이 개입하지 않고, 마법에 걸린 것처럼 해결책이 발견되며, 그 누구도 아무것도 배운 것 같지 않다."[140]드웨드니에 대한 한 가지 대응은 자율 비행기에서[141] 신용카드 사기 적발, 바둑 게임 숙달 등 신경망이 복잡하고 다양한 업무를 처리한다는 점이다.

기술 작가 로저 브리그먼은 다음과 같이 논평했다.

예를 들어, 신경 네트워크는 높은 천국으로 과대 포장되었기 때문만이 아니라, 그것이 어떻게 작동하는지 이해하지 않고 성공적인 그물을 만들 수 있기 때문이기도 하다: 그것의 행동을 포착하는 많은 숫자들은 "불투명하고 읽을 수 없는 표... 과학 자원으로서 가치 없는 것"일 가능성이 있다.

과학이 기술이 아니라는 그의 단호한 선언에도 불구하고, 드웨드니는 신경망을 고안하는 대부분의 사람들이 단지 좋은 엔지니어가 되려고 노력하고 있을 때 나쁜 과학으로 여기 있는 것처럼 보인다.유용한 기계가 읽을 수 있는 읽을 수 없는 테이블은 여전히 충분히 가치가 있을 것이다.[142]

생물학적 뇌는 뇌 해부학에서 보고된 대로 얕은 회로와 깊은 회로를 모두 사용하며 다양한 [143]불협화음을 보여준다.Weng은[144] 뇌가 신호 통계에 따라 자급자족하므로 연속적인 폭포는 모든 주요 통계 의존성을 잡을 수 없다고 주장했다.

하드웨어

크고 효과적인 신경망은 상당한 컴퓨팅 자원을 필요로 한다.[145]뇌는 뉴런의 그래프를 통해 신호를 처리하는 일에 맞춘 하드웨어를 가지고 있지만, 폰 노이만 건축에 단순화된 뉴런이라도 시뮬레이션하면 엄청난 양의 기억력과 저장량을 소비할 수 있다.게다가, 설계자는 종종 이러한 연결과 관련 뉴런을 통해 신호를 전송할 필요가 있는데, 이 뉴런은 엄청난 CPU의 힘과 시간을 필요로 한다.

Schmidhuber는 21세기 신경망의 부활은 하드웨어의 진보에 크게 기인한다고 언급했다. 1991년부터 2015년까지 GPU(GPUs)에 의해 제공되는 컴퓨팅 파워가 약 백만 배 증가하여 여러 레이어인 훈련 네트워크에 표준 백프로포메이션 알고리즘이 가능해졌다.전보다 더 깊이 [10]rs하다FPGA나 GPU와 같은 가속기를 사용하면 훈련 시간을 수개월에서 수일로 줄일 수 있다.[145]

뉴로모픽 엔지니어링이나 물리적 신경망은 비본-뉴만 칩을 구성하여 회로에 신경망을 직접 구현함으로써 하드웨어 난이도를 직접 해결한다.신경망 처리에 최적화된 또 다른 형태의 칩은 텐서 처리 장치(Tensor Processing Unit, TPU)라고 불린다.[146]

실제 계수샘플

ANN에 의해 학습된 것을 분석하는 것은 생물학적 신경망에 의해 학습된 것을 분석하는 것보다 훨씬 쉽다.나아가 신경망의 학습 알고리즘을 탐구하는 데 관여하는 연구자들은 학습 기계가 성공할 수 있도록 하는 일반 원리를 점차 밝혀내고 있다.예를 들어, 로컬 대 비 로컬 학습, 얕은 대 깊은 아키텍처.[147]

하이브리드 접근 방식

하이브리드 모델(신경망과 상징적 접근)의 옹호자들은 그러한 혼합물이 인간의 정신의 메커니즘을 더 잘 포착할 수 있다고 주장한다.[148][149]

갤러리

참고 항목

메모들

  1. ^ 1995년 "No Hands Over America"를 위한 운영은 "몇 가지 인간적인 도움"만 필요로 했다.

참고문헌

  1. ^ McCulloch, Warren; Walter Pitts (1943). "A Logical Calculus of Ideas Immanent in Nervous Activity". Bulletin of Mathematical Biophysics. 5 (4): 115–133. doi:10.1007/BF02478259.
  2. ^ Kleene, S.C. (1956). "Representation of Events in Nerve Nets and Finite Automata". Annals of Mathematics Studies. No. 34. Princeton University Press. pp. 3–41. Retrieved 17 June 2017.
  3. ^ Hebb, Donald (1949). The Organization of Behavior. New York: Wiley. ISBN 978-1-135-63190-1.
  4. ^ Farley, B.G.; W.A. Clark (1954). "Simulation of Self-Organizing Systems by Digital Computer". IRE Transactions on Information Theory. 4 (4): 76–84. doi:10.1109/TIT.1954.1057468.
  5. ^ Haykin(2008) 신경망 및 학습기, 3판
  6. ^ Rosenblatt, F. (1958). "The Perceptron: A Probabilistic Model For Information Storage And Organization in the Brain". Psychological Review. 65 (6): 386–408. CiteSeerX 10.1.1.588.3775. doi:10.1037/h0042519. PMID 13602029.
  7. ^ Werbos, P.J. (1975). Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences.
  8. ^ Rosenblatt, Frank (1957). "The Perceptron—a perceiving and recognizing automaton". Report 85-460-1. Cornell Aeronautical Laboratory.
  9. ^ Olazaran, Mikel (1996). "A Sociological Study of the Official History of the Perceptrons Controversy". Social Studies of Science. 26 (3): 611–659. doi:10.1177/030631296026003005. JSTOR 285702. S2CID 16786738.
  10. ^ a b c Schmidhuber, J. (2015). "Deep Learning in Neural Networks: An Overview". Neural Networks. 61: 85–117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
  11. ^ Ivakhnenko, A. G. (1973). Cybernetic Predicting Devices. CCM Information Corporation.
  12. ^ Ivakhnenko, A. G.; Grigorʹevich Lapa, Valentin (1967). Cybernetics and forecasting techniques. American Elsevier Pub. Co.
  13. ^ a b c Schmidhuber, Jürgen (2015). "Deep Learning". Scholarpedia. 10 (11): 85–117. Bibcode:2015SchpJ..1032832S. doi:10.4249/scholarpedia.32832.
  14. ^ Dreyfus, Stuart E. (1 September 1990). "Artificial neural networks, back propagation, and the Kelley-Bryson gradient procedure". Journal of Guidance, Control, and Dynamics. 13 (5): 926–928. Bibcode:1990JGCD...13..926D. doi:10.2514/3.25422. ISSN 0731-5090.
  15. ^ Mizutani, E.; Dreyfus, S.E.; Nishio, K. (2000). "On derivation of MLP backpropagation from the Kelley-Bryson optimal-control gradient formula and its application". Proceedings of the IEEE-INNS-ENNS International Joint Conference on Neural Networks. IJCNN 2000. Neural Computing: New Challenges and Perspectives for the New Millennium. IEEE: 167–172 vol.2. doi:10.1109/ijcnn.2000.857892. ISBN 0-7695-0619-4. S2CID 351146.
  16. ^ Kelley, Henry J. (1960). "Gradient theory of optimal flight paths". ARS Journal. 30 (10): 947–954. doi:10.2514/8.5282.
  17. ^ "A gradient method for optimizing multi-stage allocation processes". Proceedings of the Harvard Univ. Symposium on digital computers and their applications. April 1961.
  18. ^ Minsky, Marvin; Papert, Seymour (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press. ISBN 978-0-262-63022-1.
  19. ^ Linnainmaa, Seppo (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors (Masters) (in Finnish). University of Helsinki. pp. 6–7.
  20. ^ Linnainmaa, Seppo (1976). "Taylor expansion of the accumulated rounding error". BIT Numerical Mathematics. 16 (2): 146–160. doi:10.1007/bf01931367. S2CID 122357351.
  21. ^ Dreyfus, Stuart (1973). "The computational solution of optimal control problems with time lag". IEEE Transactions on Automatic Control. 18 (4): 383–385. doi:10.1109/tac.1973.1100330.
  22. ^ Werbos, Paul (1982). "Applications of advances in nonlinear sensitivity analysis" (PDF). System modeling and optimization. Springer. pp. 762–770.
  23. ^ Mead, Carver A.; Ismail, Mohammed (8 May 1989). Analog VLSI Implementation of Neural Systems (PDF). The Kluwer International Series in Engineering and Computer Science. Vol. 80. Norwell, MA: Kluwer Academic Publishers. doi:10.1007/978-1-4613-1639-8. ISBN 978-1-4613-1639-8.
  24. ^ 데이비드 E.루멜하트, 제프리 E힌튼 & 로널드 J. 윌리엄스, "백프로포즈 오류에 의한 표현 학습", 네이처, 323, 533–536 1986페이지.
  25. ^ J. Weng, N.아후자와 T. S. 황, "Cresceptron: 적응적으로 성장하는 자기 조직 신경망" 프로크. 1992년 6월, 메릴랜드 주 볼티모어의 신경망 국제공동회의 제1권 576~581쪽.
  26. ^ J. Weng, N.아후자와 T. S. Huang, "2-D 영상에서 3-D 객체의 인식 분할 학습" Proc. 제4차 국제 콩프 1993년 5월 독일 베를린의 컴퓨터 비전 121-128페이지.
  27. ^ J. Weng, N.아후자와 T. S. Huang, "크레스셉트론을 이용한 인식세분화 학습," 국제 컴퓨터 비전 저널 25권, 2, 페이지 105–139, 1997년 11월.
  28. ^ J. Schmidhuber, "학습 콤플렉스, 역사 압축 원리를 이용한 시퀀스 확장", Neural Computing, 4, 페이지 234–242, 1992.
  29. ^ Domingos, Pedro (22 September 2015). The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World. chapter 4: Basic Books. ISBN 978-0465065707.{{cite book}}: CS1 maint : 위치(링크)
  30. ^ Smolensky, P. (1986). "Information processing in dynamical systems: Foundations of harmony theory.". In D. E. Rumelhart; J. L. McClelland; PDP Research Group (eds.). Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Vol. 1. pp. 194–281. ISBN 978-0-262-68053-0.
  31. ^ Ng, Andrew; Dean, Jeff (2012). "Building High-level Features Using Large Scale Unsupervised Learning". arXiv:1112.6209 [cs.LG].
  32. ^ Ian Goodfellow and Yoshua Bengio and Aaron Courville (2016). Deep Learning. MIT Press.
  33. ^ Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Jürgen (21 September 2010). "Deep, Big, Simple Neural Nets for Handwritten Digit Recognition". Neural Computation. 22 (12): 3207–3220. arXiv:1003.0358. doi:10.1162/neco_a_00052. ISSN 0899-7667. PMID 20858131. S2CID 1918673.
  34. ^ 안드레아스 C의 도미니크 스캐러뮐러 및 스벤 베뉴: "객체 인식을 위한 콘볼루션 아키텍처의 풀링 운영 평가", 제20차 국제회의 인공신경망(ICANN)의 페이지 92–101, 2010. doi:10.1007/978-3-642-15825-4_10.
  35. ^ 2012 Kurzweil AI 인터뷰 2009-2012 딥러닝 팀이 우승한 8개 대회에서 위르겐 슈미두버와 함께 웨이백 머신에 2018년 8월 31일 보관
  36. ^ "How bio-inspired deep learning keeps winning competitions KurzweilAI". www.kurzweilai.net. Archived from the original on 31 August 2018. Retrieved 16 June 2017.
  37. ^ 그레이브스, 알렉스, 슈미두버, 위르겐, 다차원 리커런트 신경망이용한 오프라인 필적 인식 요수아 벤지오, 슈우르만, 데일, 라퍼티, 존, 윌리엄스, 크리스 K.I., 그리고 컬로타, 아론 (eds.), 신경 정보 처리 시스템의 진보 22 (NIPS'22), 2009년 12월 7–10, 밴쿠버, BC, 신경 정보 처리 시스템 (NIPS) 재단, 2009, 페이지 545–552.
  38. ^ a b Graves, A.; Liwicki, M.; Fernandez, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (2009). "A Novel Connectionist System for Improved Unconstrained Handwriting Recognition" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 31 (5): 855–868. CiteSeerX 10.1.1.139.4502. doi:10.1109/tpami.2008.137. PMID 19299860. S2CID 14635907.
  39. ^ a b Graves, Alex; Schmidhuber, Jürgen (2009). Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris editor-K. I.; Culotta, Aron (eds.). "Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks". Neural Information Processing Systems (NIPS) Foundation. Curran Associates, Inc. 21: 545–552. {{cite journal}}: editor-first4=일반 이름 포함(도움말)
  40. ^ Graves, A.; Liwicki, M.; Fernández, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (May 2009). "A Novel Connectionist System for Unconstrained Handwriting Recognition". IEEE Transactions on Pattern Analysis and Machine Intelligence. 31 (5): 855–868. CiteSeerX 10.1.1.139.4502. doi:10.1109/tpami.2008.137. ISSN 0162-8828. PMID 19299860. S2CID 14635907.
  41. ^ Ciresan, Dan; Meier, U.; Schmidhuber, J. (June 2012). Multi-column deep neural networks for image classification. 2012 IEEE Conference on Computer Vision and Pattern Recognition. pp. 3642–3649. arXiv:1202.2745. Bibcode:2012arXiv1202.2745C. CiteSeerX 10.1.1.300.3283. doi:10.1109/cvpr.2012.6248110. ISBN 978-1-4673-1228-8. S2CID 2161592.
  42. ^ a b Zell, Andreas (2003). "chapter 5.2". Simulation neuronaler Netze [Simulation of Neural Networks] (in German) (1st ed.). Addison-Wesley. ISBN 978-3-89319-554-1. OCLC 249017987.
  43. ^ Artificial intelligence (3rd ed.). Addison-Wesley Pub. Co. 1992. ISBN 0-201-53377-4.
  44. ^ Abbod, Maysam F (2007). "Application of Artificial Intelligence to the Management of Urological Cancer". The Journal of Urology. 178 (4): 1150–1156. doi:10.1016/j.juro.2007.05.122. PMID 17698099.
  45. ^ DAWSON, CHRISTIAN W (1998). "An artificial neural network approach to rainfall-runoff modelling". Hydrological Sciences Journal. 43 (1): 47–66. doi:10.1080/02626669809492102.
  46. ^ "The Machine Learning Dictionary". www.cse.unsw.edu.au. Archived from the original on 26 August 2018. Retrieved 4 November 2009.
  47. ^ Ciresan, Dan; Ueli Meier; Jonathan Masci; Luca M. Gambardella; Jurgen Schmidhuber (2011). "Flexible, High Performance Convolutional Neural Networks for Image Classification" (PDF). Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence-Volume Volume Two. 2: 1237–1242. Retrieved 17 November 2013.
  48. ^ Zell, Andreas (1994). Simulation Neuronaler Netze [Simulation of Neural Networks] (in German) (1st ed.). Addison-Wesley. p. 73. ISBN 3-89319-554-8.
  49. ^ Miljanovic, Milos (February–March 2012). "Comparative analysis of Recurrent and Finite Impulse Response Neural Networks in Time Series Prediction" (PDF). Indian Journal of Computer and Engineering. 3 (1).
  50. ^ Lau, Suki (10 July 2017). "A Walkthrough of Convolutional Neural Network – Hyperparameter Tuning". Medium. Retrieved 23 August 2019.
  51. ^ Kelleher, John D. (2020). "7-8". Fundamentals of machine learning for predictive data analytics : algorithms, worked examples, and case studies. Brian Mac Namee, Aoife D'Arcy (2 ed.). Cambridge, Massachusetts. ISBN 978-0-262-36110-1. OCLC 1162184998.
  52. ^ Wei, Jiakai (26 April 2019). "Forget the Learning Rate, Decay Loss". arXiv:1905.00094 [cs.LG].
  53. ^ Li, Y.; Fu, Y.; Li, H.; Zhang, S. W. (1 June 2009). The Improved Training Algorithm of Back Propagation Neural Network with Self-adaptive Learning Rate. 2009 International Conference on Computational Intelligence and Natural Computing. Vol. 1. pp. 73–76. doi:10.1109/CINC.2009.111. ISBN 978-0-7695-3645-3. S2CID 10557754.
  54. ^ Huang, Guang-Bin; Zhu, Qin-Yu; Siew, Chee-Kheong (2006). "Extreme learning machine: theory and applications". Neurocomputing. 70 (1): 489–501. CiteSeerX 10.1.1.217.3692. doi:10.1016/j.neucom.2005.12.126.
  55. ^ Widrow, Bernard; et al. (2013). "The no-prop algorithm: A new learning algorithm for multilayer neural networks". Neural Networks. 37: 182–188. doi:10.1016/j.neunet.2012.09.020. PMID 23140797.
  56. ^ Ollivier, Yann; Charpiat, Guillaume (2015). "Training recurrent networks without backtracking". arXiv:1507.07680 [cs.NE].
  57. ^ 2009ESAN. 2009년 11월 11일
  58. ^ Hinton, G. E. (2010). "A Practical Guide to Training Restricted Boltzmann Machines". Tech. Rep. UTML TR 2010-003.
  59. ^ Ojha, Varun Kumar; Abraham, Ajith; Snášel, Václav (1 April 2017). "Metaheuristic design of feedforward neural networks: A review of two decades of research". Engineering Applications of Artificial Intelligence. 60: 97–116. arXiv:1705.05584. Bibcode:2017arXiv170505584O. doi:10.1016/j.engappai.2017.01.013. S2CID 27910748.
  60. ^ Dominic, S.; Das, R.; Whitley, D.; Anderson, C. (July 1991). "Genetic reinforcement learning for neural networks". IJCNN-91-Seattle International Joint Conference on Neural Networks. IJCNN-91-Seattle International Joint Conference on Neural Networks. Seattle, Washington, USA: IEEE. doi:10.1109/IJCNN.1991.155315. ISBN 0-7803-0164-1.
  61. ^ Hoskins, J.C.; Himmelblau, D.M. (1992). "Process control via artificial neural networks and reinforcement learning". Computers & Chemical Engineering. 16 (4): 241–251. doi:10.1016/0098-1354(92)80045-B.
  62. ^ Bertsekas, D.P.; Tsitsiklis, J.N. (1996). Neuro-dynamic programming. Athena Scientific. p. 512. ISBN 978-1-886529-10-6.
  63. ^ Secomandi, Nicola (2000). "Comparing neuro-dynamic programming algorithms for the vehicle routing problem with stochastic demands". Computers & Operations Research. 27 (11–12): 1201–1225. CiteSeerX 10.1.1.392.4034. doi:10.1016/S0305-0548(99)00146-X.
  64. ^ de Rigo, D.; Rizzoli, A. E.; Soncini-Sessa, R.; Weber, E.; Zenesi, P. (2001). "Neuro-dynamic programming for the efficient management of reservoir networks". Proceedings of MODSIM 2001, International Congress on Modelling and Simulation. MODSIM 2001, International Congress on Modelling and Simulation. Canberra, Australia: Modelling and Simulation Society of Australia and New Zealand. doi:10.5281/zenodo.7481. ISBN 0-86740-525-2.
  65. ^ Damas, M.; Salmeron, M.; Diaz, A.; Ortega, J.; Prieto, A.; Olivares, G. (2000). "Genetic algorithms and neuro-dynamic programming: application to water supply networks". Proceedings of 2000 Congress on Evolutionary Computation. 2000 Congress on Evolutionary Computation. La Jolla, California, USA: IEEE. doi:10.1109/CEC.2000.870269. ISBN 0-7803-6375-2.
  66. ^ Deng, Geng; Ferris, M.C. (2008). Neuro-dynamic programming for fractionated radiotherapy planning. Springer Optimization and Its Applications. Vol. 12. pp. 47–70. CiteSeerX 10.1.1.137.8288. doi:10.1007/978-0-387-73299-2_3. ISBN 978-0-387-73298-5.
  67. ^ 보지노프스키, S. (1982)"2차 강화를 이용한 자가 학습 시스템"R. Trappl (ed.) 사이버네틱스와 시스템 연구: 사이버네틱스와 시스템 연구에 관한 제6차 유럽 회의의 진행.북 홀랜드 397-402페이지ISBN 978-0-444-86488-8.
  68. ^ 보지노프스키, S. (2014) "인공 신경망에서의 인지-감동 상호작용의 모델링 메커니즘, 1981년 이후."프로세시아 컴퓨터 사이언스 페이지 255-263
  69. ^ Bozinovski, Stevo; Bozinovska, Liljana (2001). "Self-learning agents: A connectionist theory of emotion based on crossbar value judgment". Cybernetics and Systems. 32 (6): 637–667. doi:10.1080/01969720118145. S2CID 8944741.
  70. ^ "Artificial intelligence can 'evolve' to solve problems". Science AAAS. 10 January 2018. Retrieved 7 February 2018.
  71. ^ Turchetti, Claudio (2004), Stochastic Models of Neural Networks, Frontiers in artificial intelligence and applications: Knowledge-based intelligent engineering systems, vol. 102, IOS Press, ISBN 9781586033880
  72. ^ de Rigo, D.; Castelletti, A.; Rizzoli, A. E.; Soncini-Sessa, R.; Weber, E. (January 2005). "A selective improvement technique for fastening Neuro-Dynamic Programming in Water Resources Network Management". In Pavel Zítek (ed.). Proceedings of the 16th IFAC World Congress – IFAC-PapersOnLine. 16th IFAC World Congress. Vol. 16. Prague, Czech Republic: IFAC. doi:10.3182/20050703-6-CZ-1902.02172. hdl:11311/255236. ISBN 978-3-902661-75-3. Retrieved 30 December 2011.
  73. ^ Ferreira, C. (2006). "Designing Neural Networks Using Gene Expression Programming". In A. Abraham; B. de Baets; M. Köppen; B. Nickolay (eds.). Applied Soft Computing Technologies: The Challenge of Complexity (PDF). Springer-Verlag. pp. 517–536.
  74. ^ Da, Y.; Xiurun, G. (July 2005). "An improved PSO-based ANN with simulated annealing technique". In T. Villmann (ed.). New Aspects in Neurocomputing: 11th European Symposium on Artificial Neural Networks. Elsevier. doi:10.1016/j.neucom.2004.07.002. Archived from the original on 25 April 2012. Retrieved 30 December 2011.
  75. ^ Wu, J.; Chen, E. (May 2009). "A Novel Nonparametric Regression Ensemble for Rainfall Forecasting Using Particle Swarm Optimization Technique Coupled with Artificial Neural Network". In Wang, H.; Shen, Y.; Huang, T.; Zeng, Z. (eds.). 6th International Symposium on Neural Networks, ISNN 2009. Springer. doi:10.1007/978-3-642-01513-7_6. ISBN 978-3-642-01215-0. Archived from the original on 31 December 2014. Retrieved 1 January 2012.
  76. ^ a b 팅진 등"RLS에 기초한 CMAC의 학습 알고리즘." 신경 처리 문자 19.1(2004): 49–61.
  77. ^ 팅진 등"연속 CMAC-QRLS 및 해당 수축기 배열."신경 처리 문자 22.1(2005년): 1–16.
  78. ^ LeCun 등, 1989년 1, 페이지 541–551, "수기 우편 번호 인식에 적용된 백프로포메이션," 신경 계산.
  79. ^ 얀 르쿤(2016년).딥러닝 온라인 슬라이드
  80. ^ Hochreiter, Sepp; Schmidhuber, Jürgen (1 November 1997). "Long Short-Term Memory". Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. S2CID 1915014.
  81. ^ Sak, Hasim; Senior, Andrew; Beaufays, Francoise (2014). "Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling" (PDF). Archived from the original (PDF) on 24 April 2018.
  82. ^ Li, Xiangang; Wu, Xihong (15 October 2014). "Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition". arXiv:1410.4281 [cs.CL].
  83. ^ Fan, Y.; Qian, Y.; Xie, F.; Soong, F. K. (2014). "TTS synthesis with bidirectional LSTM based Recurrent Neural Networks". Proceedings of the Annual Conference of the International Speech Communication Association, Interspeech: 1964–1968. Retrieved 13 June 2017.
  84. ^ Zen, Heiga; Sak, Hasim (2015). "Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis" (PDF). Google.com. ICASSP. pp. 4470–4474.
  85. ^ Fan, Bo; Wang, Lijuan; Soong, Frank K.; Xie, Lei (2015). "Photo-Real Talking Head with Deep Bidirectional LSTM" (PDF). Proceedings of ICASSP.
  86. ^ Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5 December 2017). "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm". arXiv:1712.01815 [cs.AI].
  87. ^ Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). Generative Adversarial Networks (PDF). Proceedings of the International Conference on Neural Information Processing Systems (NIPS 2014). pp. 2672–2680.
  88. ^ Zoph, Barret; Le, Quoc V. (4 November 2016). "Neural Architecture Search with Reinforcement Learning". arXiv:1611.01578 [cs.LG].
  89. ^ "AutoKeras". autokeras.com. Retrieved 21 August 2019.
  90. ^ "Claesen, Marc, and Bart De Moor. "Hyperparameter Search in Machine Learning." arXiv preprint arXiv:1502.02127 (2015)". arXiv:1502.02127. Bibcode:2015arXiv150202127C.
  91. ^ Turek, Fred D. (March 2007). "Introduction to Neural Net Machine Vision". Vision Systems Design. 12 (3). Retrieved 5 March 2013.
  92. ^ Zissis, Dimitrios (October 2015). "A cloud based architecture capable of perceiving and predicting multiple vessel behaviour". Applied Soft Computing. 35: 652–661. doi:10.1016/j.asoc.2015.07.002.
  93. ^ Roman M. Balabin; Ekaterina I. Lomakina (2009). "Neural network approach to quantum-chemistry data: Accurate prediction of density functional theory energies". J. Chem. Phys. 131 (7): 074104. Bibcode:2009JChPh.131g4104B. doi:10.1063/1.3206326. PMID 19708729.
  94. ^ Silver, David; et al. (2016). "Mastering the game of Go with deep neural networks and tree search" (PDF). Nature. 529 (7587): 484–9. Bibcode:2016Natur.529..484S. doi:10.1038/nature16961. PMID 26819042. S2CID 515925.
  95. ^ Sengupta, Nandini; Sahidullah, Md; Saha, Goutam (August 2016). "Lung sound classification using cepstral-based statistical features". Computers in Biology and Medicine. 75 (1): 118–129. doi:10.1016/j.compbiomed.2016.05.013. PMID 27286184.
  96. ^ Choy, Christopher B 등."3d-r2n2: 단일다중3d 객체 재구성을 위한 통일된 접근방식"컴퓨터 비전에 관한 유럽 회의.스프링거, 챔, 2016.
  97. ^ Gessler, Josef (August 2021). "Sensor for food analysis applying impedance spectroscopy and artificial neural networks". RiuNet UPV (1): 8–12.
  98. ^ Maitra, D. S.; Bhattacharya, U.; Parui, S. K. (August 2015). "CNN based common approach to handwritten character recognition of multiple scripts". 2015 13th International Conference on Document Analysis and Recognition (ICDAR): 1021–1025. doi:10.1109/ICDAR.2015.7333916. ISBN 978-1-4799-1805-8. S2CID 25739012.
  99. ^ French, Jordan (2016). "The time traveller's CAPM". Investment Analysts Journal. 46 (2): 81–96. doi:10.1080/10293523.2016.1255469. S2CID 157962452.
  100. ^ Schechner, Sam (15 June 2017). "Facebook Boosts A.I. to Block Terrorist Propaganda". Wall Street Journal. ISSN 0099-9660. Retrieved 16 June 2017.
  101. ^ Ganesan, N (2010). "Application of Neural Networks in Diagnosing Cancer Disease Using Demographic Data". International Journal of Computer Applications. 1 (26): 81–97. Bibcode:2010IJCA....1z..81G. doi:10.5120/476-783.
  102. ^ Bottaci, Leonardo (1997). "Artificial Neural Networks Applied to Outcome Prediction for Colorectal Cancer Patients in Separate Institutions" (PDF). Lancet. The Lancet. 350 (9076): 469–72. doi:10.1016/S0140-6736(96)11196-X. PMID 9274582. S2CID 18182063. Archived from the original (PDF) on 23 November 2018. Retrieved 2 May 2012.
  103. ^ Alizadeh, Elaheh; Lyons, Samanthe M; Castle, Jordan M; Prasad, Ashok (2016). "Measuring systematic changes in invasive cancer cell shape using Zernike moments". Integrative Biology. 8 (11): 1183–1193. doi:10.1039/C6IB00100A. PMID 27735002.
  104. ^ Lyons, Samanthe (2016). "Changes in cell shape are correlated with metastatic potential in murine". Biology Open. 5 (3): 289–299. doi:10.1242/bio.013409. PMC 4810736. PMID 26873952.
  105. ^ Nabian, Mohammad Amin; Meidani, Hadi (28 August 2017). "Deep Learning for Accelerated Reliability Analysis of Infrastructure Networks". Computer-Aided Civil and Infrastructure Engineering. 33 (6): 443–458. arXiv:1708.08551. Bibcode:2017arXiv170808551N. doi:10.1111/mice.12359. S2CID 36661983.
  106. ^ Nabian, Mohammad Amin; Meidani, Hadi (2018). "Accelerating Stochastic Assessment of Post-Earthquake Transportation Network Connectivity via Machine-Learning-Based Surrogates". Transportation Research Board 97th Annual Meeting.
  107. ^ Díaz, E.; Brotons, V.; Tomás, R. (September 2018). "Use of artificial neural networks to predict 3-D elastic settlement of foundations on soils with inclined bedrock". Soils and Foundations. 58 (6): 1414–1422. doi:10.1016/j.sandf.2018.08.001. hdl:10045/81208. ISSN 0038-0806.
  108. ^ Govindaraju, Rao S. (1 April 2000). "Artificial Neural Networks in Hydrology. I: Preliminary Concepts". Journal of Hydrologic Engineering. 5 (2): 115–123. doi:10.1061/(ASCE)1084-0699(2000)5:2(115).
  109. ^ Govindaraju, Rao S. (1 April 2000). "Artificial Neural Networks in Hydrology. II: Hydrologic Applications". Journal of Hydrologic Engineering. 5 (2): 124–137. doi:10.1061/(ASCE)1084-0699(2000)5:2(124).
  110. ^ Peres, D. J.; Iuppa, C.; Cavallaro, L.; Cancelliere, A.; Foti, E. (1 October 2015). "Significant wave height record extension by neural networks and reanalysis wind data". Ocean Modelling. 94: 128–140. Bibcode:2015OcMod..94..128P. doi:10.1016/j.ocemod.2015.08.002.
  111. ^ Dwarakish, G. S.; Rakshith, Shetty; Natesan, Usha (2013). "Review on Applications of Neural Network in Coastal Engineering". Artificial Intelligent Systems and Machine Learning. 5 (7): 324–331.
  112. ^ Ermini, Leonardo; Catani, Filippo; Casagli, Nicola (1 March 2005). "Artificial Neural Networks applied to landslide susceptibility assessment". Geomorphology. Geomorphological hazard and human impact in mountain environments. 66 (1): 327–343. Bibcode:2005Geomo..66..327E. doi:10.1016/j.geomorph.2004.09.025.
  113. ^ Nix, R.; Zhang, J. (May 2017). "Classification of Android apps and malware using deep neural networks". 2017 International Joint Conference on Neural Networks (IJCNN): 1871–1878. doi:10.1109/IJCNN.2017.7966078. ISBN 978-1-5090-6182-2. S2CID 8838479.
  114. ^ "Detecting Malicious URLs". The systems and networking group at UCSD. Archived from the original on 14 July 2019. Retrieved 15 February 2019.
  115. ^ Homayoun, Sajad; Ahmadzadeh, Marzieh; Hashemi, Sattar; Dehghantanha, Ali; Khayami, Raouf (2018), Dehghantanha, Ali; Conti, Mauro; Dargahi, Tooska (eds.), "BoTShark: A Deep Learning Approach for Botnet Traffic Detection", Cyber Threat Intelligence, Advances in Information Security, Springer International Publishing, pp. 137–153, doi:10.1007/978-3-319-73951-9_7, ISBN 978-3-319-73951-9
  116. ^ and (January 1994). "Credit card fraud detection with a neural-network". 1994 Proceedings of the Twenty-Seventh Hawaii International Conference on System Sciences. 3: 621–630. doi:10.1109/HICSS.1994.323314. ISBN 978-0-8186-5090-1. S2CID 13260377.
  117. ^ Ananthaswamy, Anil (19 April 2021). "Latest Neural Nets Solve World's Hardest Equations Faster Than Ever Before". Quanta Magazine. Retrieved 12 May 2021.
  118. ^ "AI has cracked a key mathematical puzzle for understanding our world". MIT Technology Review. Retrieved 19 November 2020.
  119. ^ "Caltech Open-Sources AI for Solving Partial Differential Equations". InfoQ. Retrieved 20 January 2021.
  120. ^ Nagy, Alexandra (28 June 2019). "Variational Quantum Monte Carlo Method with a Neural-Network Ansatz for Open Quantum Systems". Physical Review Letters. 122 (25): 250501. arXiv:1902.09483. Bibcode:2019PhRvL.122y0501N. doi:10.1103/PhysRevLett.122.250501. PMID 31347886. S2CID 119074378.
  121. ^ Yoshioka, Nobuyuki; Hamazaki, Ryusuke (28 June 2019). "Constructing neural stationary states for open quantum many-body systems". Physical Review B. 99 (21): 214306. arXiv:1902.07006. Bibcode:2019arXiv190207006Y. doi:10.1103/PhysRevB.99.214306. S2CID 119470636.
  122. ^ Hartmann, Michael J.; Carleo, Giuseppe (28 June 2019). "Neural-Network Approach to Dissipative Quantum Many-Body Dynamics". Physical Review Letters. 122 (25): 250502. arXiv:1902.05131. Bibcode:2019arXiv190205131H. doi:10.1103/PhysRevLett.122.250502. PMID 31347862. S2CID 119357494.
  123. ^ Vicentini, Filippo; Biella, Alberto; Regnault, Nicolas; Ciuti, Cristiano (28 June 2019). "Variational Neural-Network Ansatz for Steady States in Open Quantum Systems". Physical Review Letters. 122 (25): 250503. arXiv:1902.10104. Bibcode:2019arXiv190210104V. doi:10.1103/PhysRevLett.122.250503. PMID 31347877. S2CID 119504484.
  124. ^ Forrest MD (April 2015). "Simulation of alcohol action upon a detailed Purkinje neuron model and a simpler surrogate model that runs >400 times faster". BMC Neuroscience. 16 (27): 27. doi:10.1186/s12868-015-0162-6. PMC 4417229. PMID 25928094.
  125. ^ Siegelmann, H.T.; Sontag, E.D. (1991). "Turing computability with neural nets" (PDF). Appl. Math. Lett. 4 (6): 77–80. doi:10.1016/0893-9659(91)90080-F.
  126. ^ Balcázar, José (July 1997). "Computational Power of Neural Networks: A Kolmogorov Complexity Characterization". IEEE Transactions on Information Theory. 43 (4): 1175–1183. CiteSeerX 10.1.1.411.7782. doi:10.1109/18.605580.
  127. ^ a b MacKay, David, J.C. (2003). Information Theory, Inference, and Learning Algorithms (PDF). Cambridge University Press. ISBN 978-0-521-64298-9.
  128. ^ Cover, Thomas (1965). "Geometrical and Statistical Properties of Systems of Linear Inequalities with Applications in Pattern Recognition" (PDF). IEEE Transactions on Electronic Computers. IEEE. EC-14 (3): 326–334. doi:10.1109/PGEC.1965.264137.
  129. ^ Gerald, Friedland (2019). "Reproducibility and Experimental Design for Machine Learning on Audio and Multimedia Data". MM '19: Proceedings of the 27th ACM International Conference on Multimedia. ACM: 2709–2710. doi:10.1145/3343031.3350545. ISBN 978-1-4503-6889-6. S2CID 204837170.
  130. ^ "The Tensorflow Meter".
  131. ^ Lee, Jaehoon; Xiao, Lechao; Schoenholz, Samuel S.; Bahri, Yasaman; Novak, Roman; Sohl-Dickstein, Jascha; Pennington, Jeffrey (2020). "Wide neural networks of any depth evolve as linear models under gradient descent". Journal of Statistical Mechanics: Theory and Experiment. 2020 (12): 124002. arXiv:1902.06720. Bibcode:2020JSMTE2020l4002L. doi:10.1088/1742-5468/abc62b. S2CID 62841516.
  132. ^ [1], 신경 접선 커널:신경망의 융합과 일반화.
  133. ^ [2] 주파수 영역 내 심층 신경망의 훈련 거동
  134. ^ [3] 신경망의 스펙트럼 편향에 대하여.
  135. ^ [4], 주파수 원리:푸리에 분석은 깊은 신경망을 밝혀준다.
  136. ^ [5], 일반심층신경망의 주파수 원리 이론.
  137. ^ Xu, Zhiqin John; Zhou, Hanxu (18 May 2021). "Deep Frequency Principle Towards Understanding Why Deeper Learning Is Faster". Proceedings of the AAAI Conference on Artificial Intelligence. 35 (12): 10541–10550. arXiv:2007.14313. ISSN 2374-3468.
  138. ^ Crick, Francis (1989). "The recent excitement about neural networks". Nature. 337 (6203): 129–132. Bibcode:1989Natur.337..129C. doi:10.1038/337129a0. PMID 2911347. S2CID 5892527.
  139. ^ Adrian, Edward D. (1926). "The impulses produced by sensory nerve endings". The Journal of Physiology. 61 (1): 49–72. doi:10.1113/jphysiol.1926.sp002273. PMC 1514809. PMID 16993776.
  140. ^ Dewdney, A. K. (1 April 1997). Yes, we have no neutrons: an eye-opening tour through the twists and turns of bad science. Wiley. p. 82. ISBN 978-0-471-10806-1.
  141. ^ NASA – 드라이든 비행 연구 센터 – 뉴스룸: 뉴스 보도자료: NASA NEARNEL 네트워크 프로젝트는 이정표를 통과한다. Nasa.gov2013년 11월 20일에 검색됨
  142. ^ "Roger Bridgman's defence of neural networks". Archived from the original on 19 March 2012. Retrieved 12 July 2010.
  143. ^ D. J. 펠레만과 D.C. Van Essen, "원초 대뇌피질에서 계층적 처리 분산," 대뇌피질, 1, 페이지 1–47, 1991.
  144. ^ J. Weng "자연과 인공지능: Computing Brain-Mind 소개" BMI Press, ISBN 978-0-98577-2-5, 2012.
  145. ^ a b Edwards, Chris (25 June 2015). "Growing pains for deep learning". Communications of the ACM. 58 (7): 14–16. doi:10.1145/2771283. S2CID 11026540.
  146. ^ Cade Metz (18 May 2016). "Google Built Its Very Own Chips to Power Its AI Bots". Wired.
  147. ^ "Scaling Learning Algorithms towards {AI} – LISA – Publications – Aigaion 2.0". www.iro.umontreal.ca.
  148. ^ 태양과 북맨 (1990년)
  149. ^ Tahmasebi; Hezarkhani (2012). "A hybrid neural networks-fuzzy logic-genetic algorithm for grade estimation". Computers & Geosciences. 42: 18–27. Bibcode:2012CG.....42...18T. doi:10.1016/j.cageo.2012.02.004. PMC 4268588. PMID 25540468.

참고 문헌 목록