잔류신경망

Residual neural network
잔류 신경망의 표준 형태.계층 - 1은 - 2의 활성화에서 건너뛰어진다.

잔류신경망(ResNet)은 인공신경망(ANN)이다.잔류 신경망은 스킵 연결 또는 단축키를 이용하여 일부 층을 뛰어넘는다.일반적인 ResNet 모델은 비선형성(ReLU)과 배치 정규화를 포함하는 이중 또는 삼중 계층 스킵으로 구현된다.[1]스킵 웨이트를 배우기 위해 추가적인 웨이트 매트릭스를 사용할 수 있다. 이러한 모델은 HighwayNets로 알려져 있다.[2]여러 개의 병렬 스킵이 있는 모델을 밀도넷트라고 한다.[3]잔류 신경망의 맥락에서 비잔상 네트워크는 평이한 네트워크라고 설명할 수 있다.


스킵 연결을 추가하는 주된 이유는 두 가지가 있다. 즉, 그라데이션이 사라지는 문제를 피하기 위해 또는 분해(정확성 포화) 문제를 완화하기 위해. 적절한 깊이의 모델에 레이어를 더 추가하면 교육 오류가 더 높아진다.[1]훈련 중에 웨이트들은 업스트림 층을[clarification needed] 음소거하고 이전에 스키를 탄 층을 증폭시키기 위해 적응한다.가장 간단한 경우, 인접 계층의 연결에 대한 가중치만 적용되며, 업스트림 계층에 대한 명시적 가중치는 없다.이것은 단일 비선형 레이어가 넘어질 때 또는 중간 레이어가 모두 선형일 때 가장 잘 작동한다.그렇지 않은 경우, 건너뛴 연결에 대해 명시적 중량 매트릭스를 학습해야 한다(HighwayNet을 사용해야 함).

건너뛰기는 초기 교육 단계에서[clarification needed] 더 적은 레이어를 사용하여 네트워크를 효과적으로 단순화한다.이것은 전파할 층이 적기 때문에, 감소하는 그라데이션의 영향을 줄임으로써 학습 속도를 가속화한다.그런 다음 네트워크는 피쳐 공간을 학습하면서 건너뛴 레이어를 점차 복원한다.훈련이 끝나갈 무렵, 모든 층이 확장되면 다지관에[clarification needed] 더 가까이 머물게 되고 따라서 학습 속도가 빨라진다.잔여 부품이 없는 신경망은 더 많은 형상 공간을 탐색한다.이는 다지관을 이탈하게 하는 섭동에 더 취약하게 만들고, 회복하려면 추가적인 훈련 데이터가 필요하다.

전진 전파

Given a weight matrix for connection weights from layer to , and a weight matrix for connection weights from layer to 그러면 활성화 기능을 통한 전방 전파는 (HighwayNets라고 함)

어디에

에 있는 뉴런의 활성화(동작
도면층 에 대한 활성화 함수
- , W- } {{\ 사이의 뉴런에 대한 중량 매트릭스

명시적 매트릭스 - 2, W일명 ResNets)이 없으면 활성화 기능을 통한 전방 전파는 다음과 같이 단순화된다.

이것을 공식화하는 또 다른 방법은 ID 를 W - , {\^{\ -2ell 로 대체하는 것이지만, 그것은 치수가 일치해야 유효하다.이를 다소 혼란스럽게 ID 블록이라고 하는데, 이는 계층 - -2의 활성화가 가중치 없이 layer 에 전달된다는 것을 의미한다.

대뇌피질에서는 그러한 전진 스킵이 여러 층에 걸쳐 행해진다.일반적으로 모든 전진 스킵은 동일한 계층에서 시작하여 이후 계층에 연속적으로 연결된다.일반적인 경우 이는 (일명 조밀 네트워크)로 표현된다.

.

후진 전파

정상 경로에 대한 백프로파게이션 학습 중

및 스킵 경로에 대해(동일해야 함)

.

두 경우 모두

학습률( < )
층에 있는 뉴런의 오류 신호
계층에서 뉴런의 활성화

스킵 경로에 고정된 가중치(예: 위의 ID 매트릭스)가 있는 경우 업데이트되지 않는다.이러한 규칙을 업데이트할 수 있는 경우 규칙은 일반적인 백프로포메이션 업데이트 규칙

일반적인 경우 스킵 경로 중량 매트릭스가 있을 수 있으므로

학습규칙이 비슷해 체중계도 같은 단계에서 병합해 학습할 수 있다.

참조

  1. ^ a b He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE. pp. 770–778. arXiv:1512.03385. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.
  2. ^ Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen (2015-05-02). "Highway Networks". arXiv:1505.00387 [cs.LG].
  3. ^ Huang, Gao; Liu, Zhuang; Van Der Maaten, Laurens; Weinberger, Kilian Q. (2017). Densely Connected Convolutional Networks. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI: IEEE. pp. 2261–2269. arXiv:1608.06993. doi:10.1109/CVPR.2017.243. ISBN 978-1-5386-0457-1.