반복신경망
Recurrent neural network시리즈의 일부 |
기계 학습 및 데이터 마이닝 |
---|
![]() |
RNN(Recurrent Neural Network)은 노드 간의 연결이 시간적 시퀀스를 따라 방향 또는 무방향 그래프를 형성하는 인공 신경망의 한 종류입니다.이를 통해 시간적 동적 동작을 나타낼 수 있습니다.피드포워드 뉴럴 네트워크에서 파생된 RNN은 내부 상태(메모리)를 사용하여 가변 길이 입력 [1][2][3]시퀀스를 처리할 수 있습니다.이를 통해 분할되지 않은 연결 필기[4] 인식 또는 [5][6]음성 인식과 같은 작업에 적용할 수 있습니다.반복 신경망은 이론적으로 튜링 완전하며 임의 입력 [7]시퀀스를 처리하기 위해 임의 프로그램을 실행할 수 있습니다.
"재귀 신경망"이라는 용어는 무한 임펄스 응답을 가진 네트워크의 클래스를 나타내는데 사용되는 반면, "컨볼루션 신경망"은 유한 임펄스 응답의 클래스를 나타냅니다.양쪽 네트워크의 클래스에서 일시적인 동적 [8]동작이 나타납니다.유한 임펄스 반복 네트워크는 엄밀하게 피드포워드 뉴럴 네트워크로 풀어서 대체할 수 있는 방향성 비순환 그래프이며 무한 임펄스 반복 네트워크는 풀 수 없는 방향성 순환 그래프입니다.
유한 임펄스 및 무한 임펄스 반복 네트워크 모두 추가 저장 상태를 가질 수 있으며, 이 스토리지는 뉴럴 네트워크에 의해 직접 제어될 수 있습니다.시간 지연이 있거나 피드백 루프가 있는 경우 스토리지를 다른 네트워크나 그래프로 대체할 수도 있습니다.이러한 제어 상태는 게이트 상태 또는 게이트 메모리라고 불리며, Long Short-Term Memory Network(LSTM; 장단기 메모리 네트워크) 및 게이트 반복 장치의 일부입니다.이것은 피드백 뉴럴 네트워크(FNN)라고도 불립니다.
역사
반복신경망은 [9]1986년 데이비드 루멜하트의 연구에 기초했다.특별한 종류의 RNN인 홉필드 네트워크는 1982년 John Hopfield에 의해 발견되었습니다.1993년 신경사 압축기 시스템은 RNN에서 1000개 이상의 후속 레이어가 [10]필요한 "매우 깊은 학습" 과제를 해결했다.
LSTM
Long Short-Term Memory(LSTM; 장기단기메모리) 네트워크는 1997년 Hochreiter와 Schmidhuber에 의해 발명되어 여러 응용 프로그램 [11]도메인에서 정확도 레코드를 설정합니다.
2007년경, LSTM은 음성 인식에 혁명을 일으켜 특정 음성 애플리케이션에서 기존 모델을 [12]능가했습니다.2009년, 연결주의 시간 분류(CTC)로 훈련된 LSTM 네트워크는 연결 필기 [13][14]인식에서 여러 대회에서 우승했을 때 패턴 인식 대회에서 우승한 최초의 RNN이었다.2014년 중국 기업 Baidu는 CTC 교육을 받은 RNN을 사용하여 기존의 음성 처리 방법을 [16]사용하지 않고 2S09 Switchboard Hub5'00 음성 인식 데이터셋[15] 벤치마크를 깼습니다.
LSTM은 또한 대용량 어휘 음성[5][6] 인식과 텍스트-투-스피치[17] 합성을 개선하여 구글 [13][18]안드로이드에서 사용되었습니다.2015년 구글의 음성 인식은 CTC 훈련 [19]LSTM을 통해 49%[citation needed]의 극적인 성능 향상을 경험했다고 한다.
LSTM은 기계번역,[20] 언어모델링[21], 다국어 언어처리 [22]개선의 기록을 경신했습니다.LSTM과 CNN(Convolutional Neural Network)을 결합하여 자동 이미지 [23]캡션을 개선했습니다.
아키텍처
RNN에는 다양한 종류가 있습니다.
완전 재발
완전반복신경망(FRNN)은 모든 뉴런의 출력을 모든 뉴런의 입력에 연결합니다.이것은 가장 일반적인 뉴럴 네트워크 토폴로지입니다.다른 모든 토폴로지는 이들 뉴런 간의 연결 부족을 시뮬레이션하기 위해 연결 가중치를 0으로 설정함으로써 나타낼 수 있기 때문입니다.오른쪽 그림은 실제 뉴럴 네트워크 토폴로지가 자주 "레이어"로 구성되고 도면이 그러한 모습을 보여주기 때문에 많은 사람들에게 오해를 불러일으킬 수 있습니다.그러나, 층으로 보이는 것은, 사실, 완전히 반복되는 동일한 뉴럴 네트워크의 시간에 있어서의 다른 단계입니다.그림의 맨 왼쪽 항목에는 반복 연결부가 'v'로 표시된 호 형태로 표시되어 있습니다.레이어의 외관을 만들기 위해 시간에 맞춰 "접힘"을 푼다만,
Elman 네트워크 및 Jordan 네트워크
Elman 네트워크는 컨텍스트유닛 세트(그림에서는 u)가 추가된3층 네트워크(그림에서는 x, y, z로 수평으로 배열)입니다.중간(숨김) 계층은 가중치 [24]1로 고정된 이러한 컨텍스트 장치에 연결됩니다.각 시간 스텝에서 입력이 전송되어 학습 규칙이 적용된다.고정 백 연결은 숨겨진 장치의 이전 값 복사본을 컨텍스트 단위로 저장합니다(학습 규칙이 적용되기 전에 연결을 통해 전파되기 때문입니다).따라서 네트워크는 일종의 상태를 유지할 수 있으며, 표준 멀티레이어 퍼셉트론의 능력을 벗어나는 시퀀스 예측 등의 작업을 수행할 수 있습니다.
조던 네트워크는 Elman 네트워크와 비슷합니다.컨텍스트 유닛은 숨겨진 레이어가 아닌 출력 레이어에서 공급됩니다.조던 네트워크의 컨텍스트유닛은 스테이트레이어라고도 불립니다그들은 [24]자신들과 반복되는 관계를 가지고 있다.
Elman 및 Jordan 네트워크는 Simple Recurrent Networks(SRN; 단순 반복 네트워크)라고도 불립니다.
변수 및 함수
- t {\ : 입력 벡터
- t{ style _ { :숨김 레이어 벡터
- t\ : 출력 벡터
- {\ W , {\ U 및 {\ b : 파라미터 매트릭스 및 벡터
- \ \ { h } \ \ { y} :활성화 함수
홉필드
홉필드 네트워크는 레이어 간의 모든 접속 크기가 동일한 RNN입니다.고정 입력이 필요하므로 패턴 시퀀스를 처리하지 않으므로 일반 RNN이 아닙니다.다만, 수렴을 보증합니다.Hebbian 러닝을 사용하여 접속을 훈련하는 경우 Hopfield 네트워크는 접속 변경에 대한 내성을 가진 견고한 콘텐츠 주소 지정 메모리로 동작할 수 있습니다.
쌍방향 관련 메모리
Bart Kosko에 [27]의해 도입된 양방향 연관 메모리(BAM) 네트워크는 연관 데이터를 벡터로 저장하는 홉필드 네트워크의 변형입니다.쌍방향성은 매트릭스와 그 전치(transpose)를 통해 정보를 전달함으로써 얻을 수 있습니다.일반적으로 관련 쌍의 바이너리 부호화보다 바이너리 부호화가 우선됩니다.최근 마르코프 스테핑을 이용한 확률적 BAM 모델은 네트워크 안정성과 [28]실제 애플리케이션과의 관련성을 높이기 위해 최적화되었다.
BAM 네트워크는 2개의 레이어를 가지며, 어느 한쪽 레이어는 어소시에이션을 호출하여 다른 한쪽 [29]레이어에서 출력을 생성하기 위한 입력으로 구동할 수 있습니다.
에코 상태
Echo State Network(ESN; 에코 스테이트 네트워크)에는, 접속이 드문 랜덤 숨김 레이어가 있습니다.출력 뉴런의 무게는 네트워크에서 변경(훈련)할 수 있는 유일한 부분입니다.ESN은 특정 시계열을 [30]재현하는 데 능숙합니다.신경세포의 스파이크를 위한 변종은 액체 상태의 [31]기계로 알려져 있다.
독립 RNN(IndRNN)
(IndRNN)[32]은 전통적인게 완전히 연결된 RNN에는 그라데이션 소실과 폭발하는 문제들을 다루고 그 독립적으로 반복되는 신경 네트워크. 각 뉴런은 한층에 컨텍스트 정보(이 계층의 모든 다른 뉴런들 대신 완전한 연결성의)로 되며, 따라서 뉴런들 서로의 안녕에 독립적이다 과거 스스로의 상태를 받는다.story. 구배 역전파는 장기 또는 단기 기억을 유지하기 위해 구배 소실 및 폭발을 방지하도록 조절할 수 있습니다.교차 신경 정보는 다음 계층에서 탐색됩니다.IndRNN은 ReLU와 같은 비포화 비선형 함수로 견고하게 훈련할 수 있습니다. 스킵 연결을 사용하여 심층 네트워크를 훈련할 수 있습니다.
재귀적
반복뉴럴네트워크는[33] 구조물을 위상순서로 횡단함으로써 미분 가능한 그래프 형태의 구조물에 동일한 세트의 가중치를 재귀적으로 적용함으로써 생성된다.이러한 네트워크는 일반적으로 자동 차별화 [34][35]역모드로 훈련됩니다.논리적 용어와 같은 구조의 분산 표현을 처리할 수 있습니다.재귀 뉴럴 네트워크의 특별한 경우는 구조가 선형 체인에 대응하는 RNN입니다.자연어 처리에 [36]재귀적 신경망이 적용되어 왔다.재귀 신경 텐서 네트워크는 [37]트리의 모든 노드에 대해 텐서 기반 합성 함수를 사용합니다.
신경 이력 압축기
신경 이력 압축기는 감독되지 않은 RNN [38]스택입니다.입력 레벨에서는, 이전의 입력으로부터 다음의 입력을 예측하는 방법을 학습합니다.계층 내 일부 RNN의 예측 불가능한 입력만이 다음 상위 레벨의 RNN에 대한 입력이 되며, 따라서 내부 상태는 거의 재계산되지 않습니다.따라서 각 상위 레벨 RNN은 아래의 RNN에 있는 정보의 압축 표현을 연구합니다.이것은 입력 시퀀스를 가장 높은 레벨의 표현에서 정밀하게 재구성할 수 있도록 이루어집니다.
시스템은 데이터 [39]확률의 설명 길이 또는 음의 로그를 효과적으로 최소화합니다.들어오는 데이터 시퀀스에서 많은 학습 가능한 예측 가능성을 고려할 때, 최고 수준 RNN은 감독 학습을 사용하여 중요한 이벤트 사이에 긴 간격이 있는 심층 시퀀스도 쉽게 분류할 수 있다.
RNN 계층을 "의식적" 청커(상위 레벨)와 "의식적" 오토마타이저(하위 레벨)[38]의 2개의 RNN으로 증류할 수 있습니다.청커가 자동화에 의해 예측할 수 없는 입력을 예측하고 압축하는 방법을 학습한 후에는 다음 학습 단계에서 자동화가 더 느리게 변화하는 청커의 숨겨진 단위를 예측하거나 모방하도록 강제할 수 있습니다.이를 통해 오토메이저는 적절한 메모리를 쉽게 학습할 수 있으며, 드물게 변경되는 메모리를 장시간 학습할 수 있습니다.그 결과, 오토마타이저는 이전에는 예측할 수 없었던 입력의 대부분을 예측할 수 있게 되어, 청커가 나머지 예측 [38]불가능한 이벤트에 집중할 수 있게 됩니다.
생성 모델은 1992년 뉴럴 네트워크에서의 자동 분화 또는 역전파의 소멸 구배[40] 문제를 부분적으로 극복했다.1993년, 그러한 시스템은 RNN에서 1000개 이상의 후속 레이어를 필요로 하는 "매우 딥 러닝" 과제를 시간 [10]내에 해결했다.
2차 RNN
2차 RNN은 w 가중치 대신 } 가중치를 합니다는 곱이 될 수 있습니다.이를 통해 훈련, 안정성 및 [41][42]표현 모두에서 유한 상태 기계에 직접 매핑할 수 있습니다.장기 단기 기억은 그 예이지만, 이러한 형식적인 매핑이나 안정성의 증거는 없습니다.
장기 단기 기억력
Long Short-Term Memory(LSTM; 장기 단기 메모리)는 소실 구배 문제를 회피하는 딥 러닝 시스템입니다.LSTM은 보통 "포기 게이트"[43]라고 불리는 반복 게이트에 의해 강화됩니다.LSTM은 역방향 전파 오류가 사라지거나 [40]폭발하는 것을 방지합니다.대신 공간에 전개된 가상 레이어의 수에 제한 없이 오류가 역류할 수 있습니다.즉, LSTM은 수천 또는 수백만 번의 개별적인 시간 스텝 전에 발생한 이벤트에 대한 기억을 필요로 하는 태스크를 학습할[13] 수 있습니다.문제 고유의 LSTM 유사 토폴로지를 전개할 [44]수 있습니다.LSTM은 중요한 이벤트 사이에 긴 지연이 발생하더라도 작동하며 저주파수와 고주파수가 혼재하는 신호를 처리할 수 있습니다.
많은 애플리케이션은 LSTM RNN[45] 스택을 사용하고 Connectistian Temporal Classification(CTC;[46] 접속주의 시간 분류)에 의해 훈련하여 대응하는 입력 시퀀스에 따라 트레이닝 세트의 라벨 시퀀스의 확률을 최대화하는 RNN 가중치 매트릭스를 찾습니다.CTC는 정렬과 인식을 모두 실현합니다.
LSTM은 숨겨진 마르코프 모델(HMM) 및 유사한 [47]개념에 기초한 이전 모델과 달리 컨텍스트에 민감한 언어를 인식하는 방법을 배울 수 있습니다.
게이트 반복 단위
게이트 반복 단위(GRU)는 2014년에 도입된 반복 신경망의 게이트 메커니즘이다.그것들은 완전한 형태와 몇 가지 단순화된 [48][49]변형으로 사용된다.폴리폰 음악 모델링과 음성 신호 모델링에서 그들의 성능은 장기 단기 [50]기억의 그것과 비슷한 것으로 밝혀졌다.출력 [51]게이트가 없기 때문에 LSTM보다 파라미터가 적습니다.
쌍방향
양방향 RNN은 유한 시퀀스를 사용하여 요소의 과거와 미래 상황에 따라 시퀀스의 각 요소를 예측하거나 레이블을 지정합니다.이것은 2개의 RNN의 출력을 연결하여 이루어집니다.하나는 왼쪽에서 오른쪽으로 시퀀스를 처리하고 다른 하나는 오른쪽에서 왼쪽으로 시퀀스를 처리합니다.조합된 출력은 교사가 지정한 목표 신호의 예측입니다.이 기술은 LSTM RNN과 [52][53]결합할 때 특히 유용한 것으로 입증되었습니다.
연속 시간
연속시간반복신경망(CTRNN)은 통상미분방정식 시스템을 사용하여 들어오는 입력의 뉴런에 대한 영향을 모델링한다.
인 네트워크 내 의 경우 활성화 변화율은 다음과 같습니다.
장소:
- \ \ { i} : 시냅스 후 노드의 시간
- }} : 시냅스 후 노드 활성화
- i \ \ { { i : 시냅스 후 노드 활성화 변화율
- i\ w { } { } : 시냅스 전 노드에서 시냅스 후 노드로의 접속 중량
- ( ) {\ ( ) / ( + - x \ ( ) = / ( 1 + {- } } 。
- j \ : 시냅스 전 노드 활성화
- \ \_ { j } : 시냅스 전 노드의 바이어스
- ( ) { _ { } ( ) : 노드에 입력(있는 경우)
CTRNN은 진화 로봇에 적용되어 시각,[54] 협력 [55]및 최소 인지 [56]행동을 다루는 데 사용되었다.
섀넌 샘플링 정리에 따르면 이산 시간 반복 신경망은 미분 방정식이 등가 차분 [57]방정식으로 변환된 연속 시간 반복 신경망으로 볼 수 있습니다.이 변환은 시냅스 후 노드 활성화 {이 (가) 샘플링 전에 로우패스 필터링된 후에 발생하는 것으로 간주할 수 있습니다.
계층적
![]() | 이 섹션은 확장해야 합니다.추가하시면 됩니다. (2019년 8월) |
계층적 RNN은 다양한 방법으로 뉴런을 연결하여 계층적 행동을 유용한 하위 [38][58]프로그램으로 분해합니다.그러한 인식의 계층 구조는 철학자 앙리 베르그송에 의해 제시된 기억의 이론에 존재한다. 그의 철학적인 관점은 계층적 [59]모델에 영감을 주었다.
반복 다층 퍼셉트론 네트워크
일반적으로 Recurrent Multilayer Perceptron Network(RMLP; 반복 멀티레이어 퍼셉트론 네트워크) 네트워크는 캐스케이드 서브네트워크로 구성됩니다.각 서브네트워크에는 복수의 노드의 레이어가 포함됩니다.이들 서브네트워크 각각은 피드백 접속이 가능한 마지막 레이어를 제외하고 피드 포워딩됩니다.이러한 각 서브넷은 피드 전송 연결로만 연결됩니다.[60]
다중 타임스케일 모델
MTRNN(Multiple timescales recurrent neural network)은 뉴런 사이의 공간적 연결과 각각 다른 시간 [61][62]특성을 가진 뉴런 활동의 유형에 의존하는 자기 조직을 통해 뇌의 기능적 위계를 시뮬레이션할 수 있는 신경 기반 계산 모델이다.그러한 다양한 신경 활동을 통해, 모든 행동 세트의 연속적인 시퀀스는 재사용 가능한 원시 요소로 분할되고, 이는 다시 다양한 순차적 행동에 유연하게 통합된다.그러한 종류의 계층구조의 생물학적 승인에 대해서는 호킨스의 저서 '지능에 [citation needed]대하여'에서 뇌 기능에 대한 기억-예측 이론에서 논의되었다.이러한 계층 구조는 MTRNN 모델에 [59][63]통합된 철학자 앙리 베르그송에 의해 배치된 기억 이론과도 일치합니다.
신경 튜링 기계
신경 튜링 기계(NTM)는 신경 네트워크가 주의 프로세스에 의해 상호작용할 수 있는 외부 메모리 자원에 결합함으로써 반복되는 신경 네트워크를 확장하는 방법입니다.결합된 시스템은 튜링 기계 또는 폰 노이만 아키텍처와 유사하지만 엔드 투 엔드로 미분할 수 있으므로 경사 [64]강하로 효율적으로 훈련될 수 있습니다.
미분 가능한 신경 컴퓨터
미분 가능한 신경 컴퓨터(DNC)는 뉴럴 튜링 기계의 확장으로, 각 메모리 주소의 퍼지 양과 연대기 기록을 사용할 수 있습니다.
뉴럴 네트워크 푸시다운 오토마타
Neural Network Pushdown Automata(NNPDA; 신경 네트워크 푸시다운오토마타)는 NTM과 비슷하지만 테이프는 구별 가능하고 훈련되는 아날로그 스택으로 대체됩니다.이와 같이, 문맥 자유 문법(CFG)[65]의 인식자와 복잡도가 유사합니다.
멤리스티브 네트워크
HP Labs의 Greg Snider는 memristive nano [66]device를 사용한 피질 컴퓨팅 시스템을 설명합니다.멤리스터(메모리 저항기)는 박막 재료에 의해 구현됩니다. 박막 재료는 필름 내의 이온 또는 산소 공극을 통해 저항을 전기적으로 조정합니다.DARPA의 SyNAPS 프로젝트는 IBM Research 및 HP Labs와 Boston University Department of Cognitive and Neural Systems(CNS)와 협력하여 멤리스틱 시스템을 기반으로 할 수 있는 신경형 아키텍처를 개발하기 위해 자금을 지원했습니다.멤리스티브 네트워크는 (Little-)와 매우 유사한 특성을 가진 특정 유형의 물리적 신경 네트워크입니다.홉필드 네트워크는 연속적인 역동성을 가지고 있기 때문에 메모리 용량이 한정되어 있어 Ising 모델에 점근적인 기능의 최소화를 통해 자연스럽게 완화됩니다.이러한 의미에서 멤리스티브 회로의 다이내믹스는 저항 캐패시터 네트워크에 비해 더 흥미로운 비선형 거동을 갖는 이점이 있습니다.이러한 관점에서 아날로그 멤리스티브네트워크의 엔지니어링은 디바이스의 동작이 회선 배선 또는 토폴로지에 따라 달라지는 특수한 유형의 뉴로모픽 엔지니어링을 설명합니다.[67][68]
트레이닝
경사 강하강
경사 하강은 함수의 최소값을 구하기 위한 1차 반복 최적화 알고리즘입니다.뉴럴 네트워크에서는 비선형 활성화 함수가 미분 가능한 경우, 그 가중치에 대한 오차 도함수에 비례하여 각 가중치를 변화시킴으로써 오차항을 최소화하는 데 사용할 수 있다.1980년대와 1990년대 초에 베르보스, 윌리엄스, 로빈슨, 슈미드허버, 호크레이터, 펄머터 등에 의해 다양한 방법이 개발되었다.
표준적인 방법은 「시간을 통한 역전파」(BPTT)라고 불리며, 피드 포워드 네트워크의 [69][70]역전파의 일반화입니다.이 방법처럼 폰트랴긴의 최소 원리의 역축적 모드에서 자동 미분하는 경우이다.계산 비용이 더 많이 드는 온라인 변형은 "실시간 반복 학습" 또는 [71][72]RTRL이라고 불리며, 이는 누적 접선 벡터를 사용하여 전진 누적 모드에서 자동 미분하는 인스턴스입니다.BPTT와 달리 이 알고리즘은 시간적으로는 로컬이지만 공간적으로는 로컬이 아닙니다.
이 맥락에서 공간 내 로컬이란 연결된 단위 및 단위 자체에 저장되어 있는 정보만을 사용하여 단위의 가중 벡터를 갱신할 수 있다는 것을 의미하며, 단위 자체의 갱신 복잡도는 가중 벡터의 차원성에 선형이다.local in time은 업데이트가 지속적으로(온라인) 이루어지며 BPTT와 같이 특정 시간 범위 내의 여러 시간 스텝에 의존하지 않고 최신 시간 스텝에만 의존함을 의미합니다.생물학적 신경망은 시간과 [73][74]공간 둘 다에 대해 국지적인 것으로 보인다.
부분 도함수를 재귀적으로 계산하기 위해, RTRL은 제이콥 행렬을 계산하기 위한 시간 단계당 O(숨겨진 x 가중치 수)의 시간 복잡성을 갖는 반면, BPTT는 주어진 시간 [75]범위 내에서 모든 전진 활성화를 저장하는 비용으로 시간 단계당 O(무게 수)만 취한다.중간 복잡도를 가진 BPTT와 RTRL 사이의 온라인 하이브리드가 [76][77]연속 [78]시간에 대한 변형과 함께 존재한다.
표준 RNN 아키텍처의 구배 강하 시 주요 문제는 오류 구배가 중요한 [40][79]이벤트 간의 시간 지연 크기와 함께 기하급수적으로 빠르게 사라진다는 것이다.LSTM은 BPTT/RTRL 하이브리드 학습 방식과 조합하여 이러한 [11]문제를 해결하려고 합니다.이 문제는 또한 뉴런의 맥락을 과거 상태로 줄임으로써 독립적으로 반복되는 뉴럴 네트워크(IndRNN)[32]에서 해결되며 교차 뉴런 정보는 다음 계층에서 탐색될 수 있다.또, 구배 소실이나 폭발 문제 없이, 장기 기억을 포함한 다른 범위의 기억을 학습할 수 있다.
causic recursive back propagation(CRBP; 인과 재귀 역전파)라고 불리는 온라인 알고리즘은 로컬로 반복되는 네트워크에 대해 [80]BPTT 및 RTRL 패러다임을 구현 및 결합합니다.가장 일반적인 로컬 순환 네트워크와 연동됩니다.CRBP 알고리즘은 글로벌 오류 기간을 최소화할 수 있습니다.이 사실에 의해 알고리즘의 안정성이 향상되어 반복 네트워크의 구배 계산 기법에 대해 로컬피드백과 통일된 뷰를 얻을 수 있습니다.
임의 아키텍처를 사용하는 RNN의 경사 정보 계산에 대한 한 가지 접근법은 신호 흐름 그래프에 기초한다.[81]네트워크 감도 [82]계산에 대한 Lee의 정리에 기초한 BPTT 배치 알고리즘을 사용합니다.Wan과 Beaufays가 제안했고, 빠른 온라인 버전은 Campolucci, Uncini,[82] Piazza가 제안했습니다.
글로벌 최적화 방법
뉴럴 네트워크에서 가중치를 훈련하는 것은 비선형 전역 최적화 문제로 모델링될 수 있다.다음과 같이 특정 무게 벡터의 적합성 또는 오류를 평가하기 위한 표적 함수를 구성할 수 있습니다.우선, 네트워크내의 웨이트를 웨이트 벡터에 따라서 설정한다.다음으로 네트워크를 트레이닝 시퀀스에 대해 평가합니다.일반적으로 훈련 시퀀스에 지정된 목표값과 예측값 사이의 제곱차이는 현재 가중치 벡터의 오차를 나타내기 위해 사용됩니다.그런 다음 임의 전역 최적화 기법을 사용하여 이 대상 함수를 최소화할 수 있습니다.
RNN 훈련을 위한 가장 일반적인 글로벌 최적화 방법은 특히 구조화되지 않은 네트워크에서 [83][84][85]유전 알고리즘입니다.
처음에 유전 알고리즘은 염색체 내의 하나의 유전자가 하나의 체중 링크를 나타내는 사전 정의된 방식으로 뉴럴 네트워크 가중치로 부호화된다.전체 네트워크는 단일 염색체로 표현됩니다.피트니스 기능은 다음과 같이 평가됩니다.
- 염색체에 부호화된 각 가중치는 네트워크의 각 가중치 링크에 할당된다.
- 트레이닝 세트는 입력 신호를 앞으로 전파하는 네트워크에 제시됩니다.
- mean-square-error는 피트니스 함수로 반환됩니다.
- 이 기능은 유전자 선택 과정을 촉진합니다.
많은 염색체들이 모집단을 구성하기 때문에, 정지 기준이 충족될 때까지 많은 다른 신경망이 진화한다.일반적인 정지 방식은 다음과 같습니다.
- 뉴럴 네트워크가 교육 데이터의 일정 비율을 학습한 경우 또는
- mean-squared-error의 최소값이 충족된 경우 또는
- 최대 교육 세대 수에 도달했을 때.
정지 기준은 훈련 중에 각 네트워크로부터 평균 제곱 오차의 역수를 얻기 때문에 적합성 함수에 의해 평가됩니다.따라서 유전자 알고리즘의 목표는 적합성 함수를 최대화하여 평균 제곱 오차를 줄이는 것이다.
시뮬레이션 어닐링 또는 입자 군집 최적화와 같은 우수한 가중치 세트를 찾기 위해 다른 전역(및/또는 진화) 최적화 기법을 사용할 수 있다.
관련 필드 및 모델
RNN이 무질서하게 동작할 수 있습니다.이 경우 동적 시스템 이론을 분석에 사용할 수 있다.
그것들은 사실 선형 사슬의 구조를 가진 재귀적 신경 네트워크입니다.재귀신경망은 자녀표현을 부모표현으로 결합하는 계층구조로 동작하는 반면, 재귀신경망은 이전 시간단계와 숨겨진 표현을 현재 시간단계에 대한 표현으로 결합하는 시간의 선형진행으로 동작한다.
특히, RNN은 유한 임펄스 응답 및 무한 임펄스 응답 필터의 비선형 버전 및 비선형 자기 회귀 외생 모델(NARX)[86]로 나타날 수 있다.
라이브러리
- 아파치 싱가
- 카페: 버클리 비전과 학습 센터(BVLC)에 의해 작성되었습니다.CPU와 GPU를 모두 지원하며, C++로 개발되었으며, Python과 MATLAB 래퍼가 있습니다.
- 체인:동적 정의별 신경망을 지원하는 최초의 안정적인 딥 러닝 라이브러리입니다.Python에서는, CPU, GPU, 분산 트레이닝의 프로덕션 서포트를 제공합니다.
- Deeplearning 4j: 멀티 GPU 대응 Spark에서의 Java 및 Scala에서의 딥 러닝.C++ 과학 컴퓨팅 엔진에서 실행되는 JVM 프로덕션 스택용 범용 딥 러닝 라이브러리입니다.사용자 지정 계층을 생성할 수 있습니다.Hadoop 및 Kafka와 통합됩니다.
- Flux: Julia로 작성된 GRU 및 LSTM을 포함한 RNN용 인터페이스가 포함됩니다.
- Keras: 높은 수준의 사용하기 쉬운 API로 다른 많은 딥 러닝 라이브러리에 래퍼를 제공합니다.
- Microsoft Cognitive Toolkit
- MXNet: 심층 신경 네트워크를 훈련 및 배치하는 데 사용되는 현대적인 오픈 소스 딥 러닝 프레임워크입니다.
- PyTorch: 강력한 GPU 가속 기능을 갖춘 Python의 텐서 및 다이내믹 뉴럴 네트워크.
- TensorFlow: Apache 2.0 라이선스를 취득한 Theano와 같은 라이브러리(CPU, GPU 및 Google의 독자 사양 TPU,[87] 모바일 지원)
- Theano: 널리 사용되는 NumPy 라이브러리와 대부분 호환되는 API를 갖춘 Python용 참조 딥 러닝 라이브러리입니다.사용자가 기호 수식을 작성한 다음 해당 도함수를 자동으로 생성하므로 사용자가 구배 또는 역전파를 코드화할 필요가 없습니다.이러한 심볼식은 GPU 상에서 신속하게 구현하기 위해 자동으로 CUDA 코드로 컴파일됩니다.
- 토치(www.torch.ch):C와 lua로 작성된 기계학습 알고리즘을 폭넓게 지원하는 과학적 컴퓨팅 프레임워크.주요 저자는 로난 콜로버트이며 현재 페이스북 AI 리서치와 트위터에서 사용되고 있다.
적용들
반복 신경망의 적용 분야는 다음과 같습니다.
- 기계 번역[20]
- 로봇 제어[88]
- 시계열 예측[89][90][91]
- 음성 인식[92][93][94]
- 음성 합성[95]
- 뇌-컴퓨터 인터페이스[96]
- 시계열 이상[97] 검출
- 리듬[98] 러닝
- 작곡[99]
- 문법[100][101][102] 학습
- 필기 인식[103][104]
- 인간의 행동 인식[105]
- 단백질 호몰로지[106] 검출
- 단백질의[53] 세포하 국재성 예측
- 비즈니스 프로세스[107] 관리 분야의 몇 가지 예측 태스크
- 의료진료[108] 경로 예측
레퍼런스
- ^ Dupond, Samuel (2019). "A thorough review on the current advance of neural network structures". Annual Reviews in Control. 14: 200–230.
- ^ Abiodun, Oludare Isaac; Jantan, Aman; Omolara, Abiodun Esther; Dada, Kemi Victoria; Mohamed, Nachaat Abdelatif; Arshad, Humaira (2018-11-01). "State-of-the-art in artificial neural network applications: A survey". Heliyon. 4 (11): e00938. doi:10.1016/j.heliyon.2018.e00938. ISSN 2405-8440. PMC 6260436. PMID 30519653.
- ^ Tealab, Ahmed (2018-12-01). "Time series forecasting using artificial neural networks methodologies: A systematic review". Future Computing and Informatics Journal. 3 (2): 334–340. doi:10.1016/j.fcij.2018.10.003. ISSN 2314-7288.
- ^ Graves, Alex; Liwicki, Marcus; Fernandez, Santiago; Bertolami, Roman; Bunke, Horst; Schmidhuber, Jürgen (2009). "A Novel Connectionist System for Improved Unconstrained Handwriting Recognition" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 31 (5): 855–868. CiteSeerX 10.1.1.139.4502. doi:10.1109/tpami.2008.137. PMID 19299860. S2CID 14635907.
- ^ a b Sak, Haşim; Senior, Andrew; Beaufays, Françoise (2014). "Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling" (PDF).
- ^ a b Li, Xiangang; Wu, Xihong (2014-10-15). "Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition". arXiv:1410.4281 [cs.CL].
- ^ Hyötyniemi, Heikki (1996). "Turing machines are recurrent neural networks". Proceedings of STeP '96/Publications of the Finnish Artificial Intelligence Society: 13–24.
- ^ Miljanovic, Milos (Feb–Mar 2012). "Comparative analysis of Recurrent and Finite Impulse Response Neural Networks in Time Series Prediction" (PDF). Indian Journal of Computer and Engineering. 3 (1).
- ^ Williams, Ronald J.; Hinton, Geoffrey E.; Rumelhart, David E. (October 1986). "Learning representations by back-propagating errors". Nature. 323 (6088): 533–536. Bibcode:1986Natur.323..533R. doi:10.1038/323533a0. ISSN 1476-4687. S2CID 205001834.
- ^ a b Schmidhuber, Jürgen (1993). Habilitation thesis: System modeling and optimization (PDF). Page 150 ff는 전개된 RNN의 1,200 레이어에 상당하는 신용 할당을 나타냅니다.
- ^ a b Hochreiter, Sepp; Schmidhuber, Jürgen (1997-11-01). "Long Short-Term Memory". Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. S2CID 1915014.
- ^ Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). An Application of Recurrent Neural Networks to Discriminative Keyword Spotting. Proceedings of the 17th International Conference on Artificial Neural Networks. ICANN'07. Berlin, Heidelberg: Springer-Verlag. pp. 220–229. ISBN 978-3-540-74693-5.
- ^ a b c Schmidhuber, Jürgen (January 2015). "Deep Learning in Neural Networks: An Overview". Neural Networks. 61: 85–117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
- ^ Graves, Alex; Schmidhuber, Jürgen (2009). Koller, D.; Schuurmans, D.; Bengio, Y.; Bottou, L. (eds.). "Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks". Advances in Neural Information Processing Systems. Neural Information Processing Systems (NIPS) Foundation. 21: 545–552.
- ^ "2000 HUB5 English Evaluation Speech - Linguistic Data Consortium". catalog.ldc.upenn.edu.
- ^ Hannun, Awni; Case, Carl; Casper, Jared; Catanzaro, Bryan; Diamos, Greg; Elsen, Erich; Prenger, Ryan; Satheesh, Sanjeev; Sengupta, Shubho (2014-12-17). "Deep Speech: Scaling up end-to-end speech recognition". arXiv:1412.5567 [cs.CL].
- ^ ICASSP 2015 진행에서 Fan, Bo, Wang, Lijuan, Song, Frank K.; Xie, Lei (2015) "Photo-Real Talking Head with Deep Bidirectional LSTM"
- ^ Zen, Heiga; Sak, Haşim (2015). "Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis" (PDF). Google.com. ICASSP. pp. 4470–4474.
- ^ Sak, Haşim; Senior, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (September 2015). "Google voice search: faster and more accurate".
- ^ a b Sutskever, Ilya; Vinyals, Oriol; Le, Quoc V. (2014). "Sequence to Sequence Learning with Neural Networks" (PDF). Electronic Proceedings of the Neural Information Processing Systems Conference. 27: 5346. arXiv:1409.3215. Bibcode:2014arXiv1409.3215S.
- ^ Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (2016-02-07). "Exploring the Limits of Language Modeling". arXiv:1602.02410 [cs.CL].
- ^ Gillick, Dan; Brunk, Cliff; Vinyals, Oriol; Subramanya, Amarnag (2015-11-30). "Multilingual Language Processing From Bytes". arXiv:1512.00103 [cs.CL].
- ^ Vinyals, Oriol; Toshev, Alexander; Bengio, Samy; Erhan, Dumitru (2014-11-17). "Show and Tell: A Neural Image Caption Generator". arXiv:1411.4555 [cs.CV].
- ^ a b Cruse, Holk; Neural Networks as Cybernetic Systems, 제2판 및 개정판
- ^ Elman, Jeffrey L. (1990). "Finding Structure in Time". Cognitive Science. 14 (2): 179–211. doi:10.1016/0364-0213(90)90002-E.
- ^ Jordan, Michael I. (1997-01-01). "Serial Order: A Parallel Distributed Processing Approach". Neural-Network Models of Cognition - Biobehavioral Foundations. Advances in Psychology. Neural-Network Models of Cognition. Vol. 121. pp. 471–495. doi:10.1016/s0166-4115(97)80111-2. ISBN 9780444819314.
- ^ Kosko, Bart (1988). "Bidirectional associative memories". IEEE Transactions on Systems, Man, and Cybernetics. 18 (1): 49–60. doi:10.1109/21.87054. S2CID 59875735.
- ^ Rakkiyappan, Rajan; Chandrasekar, Arunachalam; Lakshmanan, Subramanian; Park, Ju H. (2 January 2015). "Exponential stability for markovian jumping stochastic BAM neural networks with mode-dependent probabilistic time-varying delays and impulse control". Complexity. 20 (3): 39–65. Bibcode:2015Cmplx..20c..39R. doi:10.1002/cplx.21503.
- ^ Rojas, Rául (1996). Neural networks: a systematic introduction. Springer. p. 336. ISBN 978-3-540-60505-8.
- ^ Jaeger, Herbert; Haas, Harald (2004-04-02). "Harnessing Nonlinearity: Predicting Chaotic Systems and Saving Energy in Wireless Communication". Science. 304 (5667): 78–80. Bibcode:2004Sci...304...78J. CiteSeerX 10.1.1.719.2301. doi:10.1126/science.1091277. PMID 15064413. S2CID 2184251.
- ^ Maass, Wolfgang; Natschläger, Thomas; Markram, Henry (2002-08-20). "A fresh look at real-time computation in generic recurrent neural circuits". Technical report. Institute for Theoretical Computer Science, Technische Universität Graz.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ a b Li, Shuai; Li, Wanqing; Cook, Chris; Zhu, Ce; Yanbo, Gao (2018). "Independently Recurrent Neural Network (IndRNN): Building a Longer and Deeper RNN". arXiv:1803.04831 [cs.CV].
- ^ Goller, Christoph; Küchler, Andreas (1996). Learning task-dependent distributed representations by backpropagation through structure. IEEE International Conference on Neural Networks. Vol. 1. p. 347. CiteSeerX 10.1.1.52.4759. doi:10.1109/ICNN.1996.548916. ISBN 978-0-7803-3210-2. S2CID 6536466.
- ^ Linnainmaa, Seppo (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors. M.Sc. thesis (in Finnish), University of Helsinki.
- ^ Griewank, Andreas; Walther, Andrea (2008). Evaluating Derivatives: Principles and Techniques of Algorithmic Differentiation (Second ed.). SIAM. ISBN 978-0-89871-776-1.
- ^ Socher, Richard; Lin, Cliff; Ng, Andrew Y.; Manning, Christopher D., "Parsing Natural Scenes and Natural Language with Recursive Neural Networks" (PDF), 28th International Conference on Machine Learning (ICML 2011)
- ^ Socher, Richard; Perelygin, Alex; Wu, Jean Y.; Chuang, Jason; Manning, Christopher D.; Ng, Andrew Y.; Potts, Christopher. "Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank" (PDF). Emnlp 2013.
- ^ a b c d Schmidhuber, Jürgen (1992). "Learning complex, extended sequences using the principle of history compression" (PDF). Neural Computation. 4 (2): 234–242. doi:10.1162/neco.1992.4.2.234. S2CID 18271205.
- ^ Schmidhuber, Jürgen (2015). "Deep Learning". Scholarpedia. 10 (11): 32832. Bibcode:2015SchpJ..1032832S. doi:10.4249/scholarpedia.32832.
- ^ a b c Hochreiter, Sepp(1991) Untersuchungen zu dynamischen neurolonen Netzen, 졸업장 논문, 연구소 f.Informatik, Technische University.뮌헨, 위르겐 슈미트후버 고문
- ^ Giles, C. Lee; Miller, Clifford B.; Chen, Dong; Chen, Hsing-Hen; Sun, Guo-Zheng; Lee, Yee-Chun (1992). "Learning and Extracting Finite State Automata with Second-Order Recurrent Neural Networks" (PDF). Neural Computation. 4 (3): 393–405. doi:10.1162/neco.1992.4.3.393. S2CID 19666035.
- ^ Omlin, Christian W.; Giles, C. Lee (1996). "Constructing Deterministic Finite-State Automata in Recurrent Neural Networks". Journal of the ACM. 45 (6): 937–972. CiteSeerX 10.1.1.32.2364. doi:10.1145/235809.235811. S2CID 228941.
- ^ Gers, Felix A.; Schraudolph, Nicol N.; Schmidhuber, Jürgen (2002). "Learning Precise Timing with LSTM Recurrent Networks" (PDF). Journal of Machine Learning Research. 3: 115–143. Retrieved 2017-06-13.
- ^ Bayer, Justin; Wierstra, Daan; Togelius, Julian; Schmidhuber, Jürgen (2009-09-14). Evolving Memory Cell Structures for Sequence Learning (PDF). Artificial Neural Networks – ICANN 2009. Lecture Notes in Computer Science. Vol. 5769. Berlin, Heidelberg: Springer. pp. 755–764. doi:10.1007/978-3-642-04277-5_76. ISBN 978-3-642-04276-8.
- ^ Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). "Sequence labelling in structured domains with hierarchical recurrent neural networks". Proc. 20th International Joint Conference on Artificial Intelligence, Ijcai 2007: 774–779. CiteSeerX 10.1.1.79.1887.
- ^ Graves, Alex; Fernández, Santiago; Gomez, Faustino J. (2006). "Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks". Proceedings of the International Conference on Machine Learning: 369–376. CiteSeerX 10.1.1.75.6306.
- ^ Gers, Felix A.; Schmidhuber, Jürgen (November 2001). "LSTM recurrent networks learn simple context-free and context-sensitive languages". IEEE Transactions on Neural Networks. 12 (6): 1333–1340. doi:10.1109/72.963769. ISSN 1045-9227. PMID 18249962. S2CID 10192330.
- ^ Heck, Joel; Salem, Fathi M. (2017-01-12). "Simplified Minimal Gated Unit Variations for Recurrent Neural Networks". arXiv:1701.03452 [cs.NE].
- ^ Dey, Rahul; Salem, Fathi M. (2017-01-20). "Gate-Variants of Gated Recurrent Unit (GRU) Neural Networks". arXiv:1701.05923 [cs.NE].
- ^ Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun; Bengio, Yoshua (2014). "Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling". arXiv:1412.3555 [cs.NE].
- ^ Britz, Denny (October 27, 2015). "Recurrent Neural Network Tutorial, Part 4 – Implementing a GRU/LSTM RNN with Python and Theano – WildML". Wildml.com. Retrieved May 18, 2016.
- ^ Graves, Alex; Schmidhuber, Jürgen (2005-07-01). "Framewise phoneme classification with bidirectional LSTM and other neural network architectures". Neural Networks. IJCNN 2005. 18 (5): 602–610. CiteSeerX 10.1.1.331.5800. doi:10.1016/j.neunet.2005.06.042. PMID 16112549.
- ^ a b Thireou, Trias; Reczko, Martin (July 2007). "Bidirectional Long Short-Term Memory Networks for Predicting the Subcellular Localization of Eukaryotic Proteins". IEEE/ACM Transactions on Computational Biology and Bioinformatics. 4 (3): 441–446. doi:10.1109/tcbb.2007.1015. PMID 17666763. S2CID 11787259.
- ^ Harvey, Inman; Husbands, Phil; Cliff, Dave (1994), "Seeing the light: Artificial evolution, real vision", 3rd international conference on Simulation of adaptive behavior: from animals to animats 3, pp. 392–401
- ^ Quinn, Matthew (2001). "Evolving communication without dedicated communication channels". Advances in Artificial Life. Lecture Notes in Computer Science. Vol. 2159. pp. 357–366. CiteSeerX 10.1.1.28.5890. doi:10.1007/3-540-44811-X_38. ISBN 978-3-540-42567-0.
{{cite book}}
:누락 또는 비어 있음title=
(도움말) - ^ Beer, Randall D. (1997). "The dynamics of adaptive behavior: A research program". Robotics and Autonomous Systems. 20 (2–4): 257–289. doi:10.1016/S0921-8890(96)00063-2.
- ^ Sherstinsky, Alex (2018-12-07). Bloem-Reddy, Benjamin; Paige, Brooks; Kusner, Matt; Caruana, Rich; Rainforth, Tom; Teh, Yee Whye (eds.). Deriving the Recurrent Neural Network Definition and RNN Unrolling Using Signal Processing. Critiquing and Correcting Trends in Machine Learning Workshop at NeurIPS-2018.
- ^ Paine, Rainer W.; Tani, Jun (2005-09-01). "How Hierarchical Control Self-organizes in Artificial Adaptive Systems". Adaptive Behavior. 13 (3): 211–225. doi:10.1177/105971230501300303. S2CID 9932565.
- ^ a b "Burns, Benureau, Tani (2018) A Bergson-Inspired Adaptive Time Constant for the Multiple Timescales Recurrent Neural Network Model. JNNS".
- ^ Tutschku, Kurt (June 1995). Recurrent Multilayer Perceptrons for Identification and Control: The Road to Applications. Institute of Computer Science Research Report. Vol. 118. University of Würzburg Am Hubland. CiteSeerX 10.1.1.45.3527.
{{cite book}}
: CS1 유지보수: 날짜 및 연도(링크) - ^ Yamashita, Yuichi; Tani, Jun (2008-11-07). "Emergence of Functional Hierarchy in a Multiple Timescale Neural Network Model: A Humanoid Robot Experiment". PLOS Computational Biology. 4 (11): e1000220. Bibcode:2008PLSCB...4E0220Y. doi:10.1371/journal.pcbi.1000220. PMC 2570613. PMID 18989398.
- ^ Alnajjar, Fady; Yamashita, Yuichi; Tani, Jun (2013). "The hierarchical and functional connectivity of higher-order cognitive mechanisms: neurorobotic model to investigate the stability and flexibility of working memory". Frontiers in Neurorobotics. 7: 2. doi:10.3389/fnbot.2013.00002. PMC 3575058. PMID 23423881.
- ^ "Proceedings of the 28th Annual Conference of the Japanese Neural Network Society (October, 2018)" (PDF).
- ^ Graves, Alex; Wayne, Greg; Danihelka, Ivo (2014). "Neural Turing Machines". arXiv:1410.5401 [cs.NE].
- ^ Sun, Guo-Zheng; Giles, C. Lee; Chen, Hsing-Hen (1998). "The Neural Network Pushdown Automaton: Architecture, Dynamics and Training". In Giles, C. Lee; Gori, Marco (eds.). Adaptive Processing of Sequences and Data Structures. Lecture Notes in Computer Science. Berlin, Heidelberg: Springer. pp. 296–345. CiteSeerX 10.1.1.56.8723. doi:10.1007/bfb0054003. ISBN 9783540643418.
- ^ Snider, Greg (2008), "Cortical computing with memristive nanodevices", Sci-DAC Review, 10: 58–65
- ^ Caravelli, Francesco; Traversa, Fabio Lorenzo; Di Ventra, Massimiliano (2017). "The complex dynamics of memristive circuits: analytical results and universal slow relaxation". Physical Review E. 95 (2): 022140. arXiv:1608.08651. Bibcode:2017PhRvE..95b2140C. doi:10.1103/PhysRevE.95.022140. PMID 28297937. S2CID 6758362.
- ^ Caravelli, Francesco (2019-11-07). "Asymptotic Behavior of Memristive Circuits". Entropy. 21 (8): 789. Bibcode:2019Entrp..21..789C. doi:10.3390/e21080789. PMC 789. PMID 33267502.
- ^ Werbos, Paul J. (1988). "Generalization of backpropagation with application to a recurrent gas market model". Neural Networks. 1 (4): 339–356. doi:10.1016/0893-6080(88)90007-x. S2CID 205001834.
- ^ Rumelhart, David E. (1985). Learning Internal Representations by Error Propagation. San Diego (CA): Institute for Cognitive Science, University of California.
- ^ Robinson, Anthony J.; Fallside, Frank (1987). The Utility Driven Dynamic Error Propagation Network. Technical Report CUED/F-INFENG/TR.1. Department of Engineering, University of Cambridge.
- ^ Williams, Ronald J.; Zipser, D. (1 February 2013). "Gradient-based learning algorithms for recurrent networks and their computational complexity". In Chauvin, Yves; Rumelhart, David E. (eds.). Backpropagation: Theory, Architectures, and Applications. Psychology Press. ISBN 978-1-134-77581-1.
- ^ Schmidhuber, Jürgen (1989-01-01). "A Local Learning Algorithm for Dynamic Feedforward and Recurrent Networks". Connection Science. 1 (4): 403–412. doi:10.1080/09540098908915650. S2CID 18721007.
- ^ Príncipe, José C.; Euliano, Neil R.; Lefebvre, W. Curt (2000). Neural and adaptive systems: fundamentals through simulations. Wiley. ISBN 978-0-471-35167-2.
- ^ Yann, Ollivier; Tallec, Corentin; Charpiat, Guillaume (2015-07-28). "Training recurrent networks online without backtracking". arXiv:1507.07680 [cs.NE].
- ^ Schmidhuber, Jürgen (1992-03-01). "A Fixed Size Storage O(n3) Time Complexity Learning Algorithm for Fully Recurrent Continually Running Networks". Neural Computation. 4 (2): 243–248. doi:10.1162/neco.1992.4.2.243. S2CID 11761172.
- ^ Williams, Ronald J. (1989). "Complexity of exact gradient computation algorithms for recurrent neural networks". Technical Report NU-CCS-89-27. Boston (MA): Northeastern University, College of Computer Science.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ Pearlmutter, Barak A. (1989-06-01). "Learning State Space Trajectories in Recurrent Neural Networks". Neural Computation. 1 (2): 263–269. doi:10.1162/neco.1989.1.2.263. S2CID 16813485.
- ^ Hochreiter, Sepp; et al. (15 January 2001). "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies". In Kolen, John F.; Kremer, Stefan C. (eds.). A Field Guide to Dynamical Recurrent Networks. John Wiley & Sons. ISBN 978-0-7803-5369-5.
- ^ Campolucci, Paolo; Uncini, Aurelio; Piazza, Francesco; Rao, Bhaskar D. (1999). "On-Line Learning Algorithms for Locally Recurrent Neural Networks". IEEE Transactions on Neural Networks. 10 (2): 253–271. CiteSeerX 10.1.1.33.7550. doi:10.1109/72.750549. PMID 18252525.
- ^ Wan, Eric A.; Beaufays, Françoise (1996). "Diagrammatic derivation of gradient algorithms for neural networks". Neural Computation. 8: 182–201. doi:10.1162/neco.1996.8.1.182. S2CID 15512077.
- ^ a b Campolucci, Paolo; Uncini, Aurelio; Piazza, Francesco (2000). "A Signal-Flow-Graph Approach to On-line Gradient Calculation". Neural Computation. 12 (8): 1901–1927. CiteSeerX 10.1.1.212.5406. doi:10.1162/089976600300015196. PMID 10953244. S2CID 15090951.
- ^ Gomez, Faustino J.; Miikkulainen, Risto (1999), "Solving non-Markovian control tasks with neuroevolution" (PDF), IJCAI 99, Morgan Kaufmann, retrieved 5 August 2017
- ^ Syed, Omar (May 1995). "Applying Genetic Algorithms to Recurrent Neural Networks for Learning Network Parameters and Architecture". M.Sc. thesis, Department of Electrical Engineering, Case Western Reserve University, Advisor Yoshiyasu Takefuji.
- ^ Gomez, Faustino J.; Schmidhuber, Jürgen; Miikkulainen, Risto (June 2008). "Accelerated Neural Evolution Through Cooperatively Coevolved Synapses". Journal of Machine Learning Research. 9: 937–965.
- ^ Siegelmann, Hava T.; Horne, Bill G.; Giles, C. Lee (1995). "Computational Capabilities of Recurrent NARX Neural Networks". IEEE Transactions on Systems, Man and Cybernetics, Part B (Cybernetics). 27 (2): 208–15. CiteSeerX 10.1.1.48.7468. doi:10.1109/3477.558801. PMID 18255858.
- ^ Metz, Cade (May 18, 2016). "Google Built Its Very Own Chips to Power Its AI Bots". Wired.
- ^ Mayer, Hermann; Gomez, Faustino J.; Wierstra, Daan; Nagy, Istvan; Knoll, Alois; Schmidhuber, Jürgen (October 2006). A System for Robotic Heart Surgery that Learns to Tie Knots Using Recurrent Neural Networks. 2006 IEEE/RSJ International Conference on Intelligent Robots and Systems. pp. 543–548. CiteSeerX 10.1.1.218.3399. doi:10.1109/IROS.2006.282190. ISBN 978-1-4244-0258-8. S2CID 12284900.
- ^ Wierstra, Daan; Schmidhuber, Jürgen; Gomez, Faustino J. (2005). "Evolino: Hybrid Neuroevolution/Optimal Linear Search for Sequence Learning". Proceedings of the 19th International Joint Conference on Artificial Intelligence (IJCAI), Edinburgh: 853–858.
- ^ Petneházi, Gábor (2019-01-01). "Recurrent neural networks for time series forecasting". arXiv:1901.00069 [cs.LG].
- ^ Hewamalage, Hansika; Bergmeir, Christoph; Bandara, Kasun (2020). "Recurrent Neural Networks for Time Series Forecasting: Current Status and Future Directions". International Journal of Forecasting. 37: 388–427. arXiv:1909.00590. doi:10.1016/j.ijforecast.2020.06.008. S2CID 202540863.
- ^ Graves, Alex; Schmidhuber, Jürgen (2005). "Framewise phoneme classification with bidirectional LSTM and other neural network architectures". Neural Networks. 18 (5–6): 602–610. CiteSeerX 10.1.1.331.5800. doi:10.1016/j.neunet.2005.06.042. PMID 16112549.
- ^ Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). An Application of Recurrent Neural Networks to Discriminative Keyword Spotting. Proceedings of the 17th International Conference on Artificial Neural Networks. ICANN'07. Berlin, Heidelberg: Springer-Verlag. pp. 220–229. ISBN 978-3540746935.
- ^ Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey E. (2013). "Speech Recognition with Deep Recurrent Neural Networks". Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on: 6645–6649. arXiv:1303.5778. Bibcode:2013arXiv1303.5778G. doi:10.1109/ICASSP.2013.6638947. ISBN 978-1-4799-0356-6. S2CID 206741496.
- ^ Chang, Edward F.; Chartier, Josh; Anumanchipalli, Gopala K. (24 April 2019). "Speech synthesis from neural decoding of spoken sentences". Nature. 568 (7753): 493–498. Bibcode:2019Natur.568..493A. doi:10.1038/s41586-019-1119-1. ISSN 1476-4687. PMID 31019317. S2CID 129946122.
- ^ 모세, 데이비드 A, 션 L.메츠거, 제시 R.류, 고팔라 K.아누만치팔리, 조셉 G. 마킨, 펑페이 F.Sun, Josh Chartier 등"무신경 동토증이 있는 마비된 사람의 말을 해독하는 신경 동토층"New England Journal of Medicine, 제3호(2021년 7월 15일): 217~27일.https://doi.org/10.1056/NEJMoa2027540 를 참조해 주세요.
- ^ Malhotra, Pankaj; Vig, Lovekesh; Shroff, Gautam; Agarwal, Puneet (April 2015). "Long Short Term Memory Networks for Anomaly Detection in Time Series" (PDF). European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning — ESANN 2015.
- ^ Gers, Felix A.; Schraudolph, Nicol N.; Schmidhuber, Jürgen (2002). "Learning precise timing with LSTM recurrent networks" (PDF). Journal of Machine Learning Research. 3: 115–143.
- ^ Eck, Douglas; Schmidhuber, Jürgen (2002-08-28). Learning the Long-Term Structure of the Blues. Artificial Neural Networks — ICANN 2002. Lecture Notes in Computer Science. Vol. 2415. Berlin, Heidelberg: Springer. pp. 284–289. CiteSeerX 10.1.1.116.3620. doi:10.1007/3-540-46084-5_47. ISBN 978-3540460848.
- ^ Schmidhuber, Jürgen; Gers, Felix A.; Eck, Douglas (2002). "Learning nonregular languages: A comparison of simple recurrent networks and LSTM". Neural Computation. 14 (9): 2039–2041. CiteSeerX 10.1.1.11.7369. doi:10.1162/089976602320263980. PMID 12184841. S2CID 30459046.
- ^ Gers, Felix A.; Schmidhuber, Jürgen (2001). "LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages" (PDF). IEEE Transactions on Neural Networks. 12 (6): 1333–1340. doi:10.1109/72.963769. PMID 18249962.
- ^ Pérez-Ortiz, Juan Antonio; Gers, Felix A.; Eck, Douglas; Schmidhuber, Jürgen (2003). "Kalman filters improve LSTM network performance in problems unsolvable by traditional recurrent nets". Neural Networks. 16 (2): 241–250. CiteSeerX 10.1.1.381.1992. doi:10.1016/s0893-6080(02)00219-8. PMID 12628609.
- ^ Graves, Alex; Schmidhuber, Jürgen (2009). "Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks". Advances in Neural Information Processing Systems 22, NIPS'22. Vancouver (BC): MIT Press: 545–552.
- ^ Graves, Alex; Fernández, Santiago; Liwicki, Marcus; Bunke, Horst; Schmidhuber, Jürgen (2007). Unconstrained Online Handwriting Recognition with Recurrent Neural Networks. Proceedings of the 20th International Conference on Neural Information Processing Systems. NIPS'07. Curran Associates Inc. pp. 577–584. ISBN 9781605603520.
- ^ Baccouche, Moez; Mamalet, Franck; Wolf, Christian; Garcia, Christophe; Baskurt, Atilla (2011). Salah, Albert Ali; Lepri, Bruno (eds.). "Sequential Deep Learning for Human Action Recognition". 2nd International Workshop on Human Behavior Understanding (HBU). Lecture Notes in Computer Science. Amsterdam, Netherlands: Springer. 7065: 29–39. doi:10.1007/978-3-642-25446-8_4. ISBN 978-3-642-25445-1.
- ^ Hochreiter, Sepp; Heusel, Martin; Obermayer, Klaus (2007). "Fast model-based protein homology detection without alignment". Bioinformatics. 23 (14): 1728–1736. doi:10.1093/bioinformatics/btm247. PMID 17488755.
- ^ Tax, Niek; Verenich, Ilya; La Rosa, Marcello; Dumas, Marlon (2017). Predictive Business Process Monitoring with LSTM neural networks. Proceedings of the International Conference on Advanced Information Systems Engineering (CAiSE). Lecture Notes in Computer Science. Vol. 10253. pp. 477–492. arXiv:1612.02130. doi:10.1007/978-3-319-59536-8_30. ISBN 978-3-319-59535-1. S2CID 2192354.
- ^ Choi, Edward; Bahadori, Mohammad Taha; Schuetz, Andy; Stewart, Walter F.; Sun, Jimeng (2016). "Doctor AI: Predicting Clinical Events via Recurrent Neural Networks". Proceedings of the 1st Machine Learning for Healthcare Conference. 56: 301–318. arXiv:1511.05942. Bibcode:2015arXiv151105942C. PMC 5341604. PMID 28286600.
추가 정보
- Mandic, Danilo P. & Chambers, Jonathon A. (2001). Recurrent Neural Networks for Prediction: Learning Algorithms, Architectures and Stability. Wiley. ISBN 978-0-471-49517-8.
외부 링크
- Dalle Molle Institute의 위르겐 슈미드후버 그룹의 60개 이상의 RNN 논문을 포함한 반복 신경 네트워크
- WEKA를 위한 Elman Neural Network 구현