고속도로망
Highway network기계학습에서 Highway Network는 이전의 [1][2][3]인공신경망보다 훨씬 더 깊은 수백 개의 층을 가진 최초의 매우 깊은 피드포워드 신경망이었다.Long Short-Term Memory(LSTM; 롱단기메모리) 반복뉴럴 [4][5]네트워크에서 영감을 받아 학습된 게이트 메커니즘에 의해 변조된 스킵 접속을 사용하여 정보 흐름을 조정합니다.고속도로 네트워크가 일반적인 심층 신경망에 비해 갖는 이점은 사라지는 구배 [6]문제를 해결하거나 부분적으로 방지하여 신경망을 보다 쉽게 최적화할 수 있다는 것이다.게이트 메커니즘은 많은 계층("정보 고속도로")[1][2]에 걸쳐 정보 흐름을 촉진합니다.
고속도로 네트워크는 텍스트 시퀀스 라벨링 및 음성 인식 작업의 일부로 사용되어 왔다.[7][8]Residual neural network라 불리는 개방 게이트[9] 또는 게이트리스 고속도로 네트워크 변종이 ImageNet 2015 경쟁에서 승리하기 위해 사용되었습니다.이것은 21세기에 [3]가장 많이 인용되는 신경망이 되었다.
모델
이 모델에는 HH(W, x) 게이트 외에 트랜스폼게이트 TT(W, x)와 캐리게이트 CC(W, x)의 2개의 게이트가 있습니다.마지막 두 개의 게이트는 비선형 전달 함수(규칙 Sigmoid 함수에 의한)입니다.H(WH, x) 함수는 원하는 전송 함수일 수 있습니다.
반송 게이트는 C(WC, x) = 1 - T(WT, x)로 정의됩니다.변환 게이트는 S자형 전달 함수를 가진 게이트일 뿐입니다.
구조.
숨겨진 레이어의 구조는 다음 방정식을 따릅니다.
레퍼런스
- ^ a b Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen (2 May 2015). "Highway Networks". arXiv:1505.00387 [cs.LG].
- ^ a b Srivastava, Rupesh K; Greff, Klaus; Schmidhuber, Juergen (2015). "Training Very Deep Networks". Advances in Neural Information Processing Systems 28. Curran Associates, Inc. 28: 2377–2385.
- ^ a b Schmidhuber, Jürgen (2021). "The most cited neural networks all build on work done in my labs". AI Blog. IDSIA, Switzerland. Retrieved 2022-04-30.
- ^ Sepp Hochreiter; Jürgen Schmidhuber (1997). "Long short-term memory". Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. S2CID 1915014.
- ^ Felix A. Gers; Jürgen Schmidhuber; Fred Cummins (2000). "Learning to Forget: Continual Prediction with LSTM". Neural Computation. 12 (10): 2451–2471. CiteSeerX 10.1.1.55.5709. doi:10.1162/089976600300015015. PMID 11032042. S2CID 11598600.
- ^ Hochreiter, Sepp (1991). Untersuchungen zu dynamischen neuronalen Netzen (PDF) (diploma thesis). Technical University Munich, Institute of Computer Science, advisor: J. Schmidhuber.
- ^ Liu, Liyuan; Shang, Jingbo; Xu, Frank F.; Ren, Xiang; Gui, Huan; Peng, Jian; Han, Jiawei (12 September 2017). "Empower Sequence Labeling with Task-Aware Neural Language Model". arXiv:1709.04109 [cs.CL].
- ^ Kurata, Gakuto; Ramabhadran, Bhuvana; Saon, George; Sethy, Abhinav (19 September 2017). "Language Modeling with Highway LSTM". arXiv:1709.06436 [cs.CL].
- ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE. pp. 770–778. arXiv:1512.03385. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.