배치 정규화

배치 정규화(일명 배치 노름)는 재센터화 및 재스케일링을 통해 레이어 입력의 정규화를 통해 인공 신경망의 훈련을 보다 빠르고 안정적으로 하기 위해 사용되는 방법입니다.2015년 ^[1]세르게이 이오페와 크리스티안 체게디가 제안했다.

배치 정규화의 효과는 분명하지만, 그 유효성의 배경에는 아직 논의되고 있습니다.이는 매개 변수 초기화 및 각 계층의 입력 분포 변화가 네트워크의 ^[1]학습 속도에 영향을 미치는 내부 공변량 이동의 문제를 완화할 수 있다고 믿었다.최근 일부 학자들은 배치 정규화가 내부 공변량 이동을 감소시키는 것이 아니라 오히려 목적 함수를 부드럽게 하여 ^[2]성능을 향상시킨다고 주장한다.다만, 초기화시에, 실제로는 배치 정규화에 의해서, 딥 네트워크에서는 큰 그라데이션의 폭발이 발생합니다.이것은 나머지 네트워크에서의 ^[3]스킵 접속에 의해서만 완화됩니다.다른 한편에서는 배치 정규화에 의해 길이 방향의 디커플링이 실현되어 ^[4]뉴럴네트워크가 고속화된다는 견해도 있습니다.최근에는 노멀라이저 프리넷(NF-Nets)에 정규화된 그라데이션 클리핑 기법과 스마트 하이퍼 파라미터 튜닝이 도입되어 배치 ^[5]^[6]정규화의 필요성이 경감되고 있습니다.

내부 공변량 이동

뉴럴 네트워크의 각 레이어는 대응하는 분포를 가지는 입력을 가지며, 트레이닝 프로세스 중에 파라미터 초기화에서의 랜덤성 및 입력 데이터의 랜덤성에 의해 영향을 받는다.훈련 중 내부 계층에 대한 입력의 분포에 대한 이러한 무작위성 소스의 영향은 내부 공변량 이동으로 설명된다.명확한 정확한 정의가 결여된 것처럼 보이지만, 실험에서 관찰된 현상은 훈련 중 내부 계층에 대한 입력의 평균과 분산의 변화이다.

배치 정규화는 처음에 내부 공변량 ^[1]이동을 완화하기 위해 제안되었다.네트워크의 트레이닝 스테이지에서는, 선행하는 레이어의 파라메타가 변화하면, 현재의 레이어에의 입력의 분포도 그에 따라서 변화해, 현재의 레이어가 항상 새로운 분포로 재조정할 필요가 있습니다.이 문제는 특히 딥 네트워크에서는 심각합니다.이는 얕은 은닉층의 작은 변화가 네트워크 내에서 전파될 때 증폭되어 은닉층의 대폭적인 이동이 발생하기 때문입니다.따라서, 이러한 불필요한 이동을 줄여 훈련 속도를 높이고 보다 신뢰할 수 있는 모델을 생산하기 위해 배치 정규화 방법이 제안된다.

내부 공변량 이동을 줄이는 것 외에도 배치 정규화는 다른 많은 이점을 도입하는 것으로 여겨진다.이 추가 조작에 의해 네트워크는 구배가 사라지거나 폭발하지 않고 보다 높은 학습률을 사용할 수 있습니다.또, 배치 정규화는, 네트워크의 일반화 특성을 향상시키도록 정규화 효과가 있는 것 같기 때문에, 드롭 아웃을 사용해 과적합을 경감할 필요는 없습니다.또한 배치 규범을 통해 네트워크는 다양한 초기화 체계와 학습 속도에 대해 더욱 견고해지는 것으로 관찰되었다.

절차들

변혁

뉴럴 네트워크에서 배치 정규화는 각 레이어 입력의 평균과 분산을 고정하는 정규화 단계를 통해 달성됩니다.이상적으로는 정규화가 전체 훈련 세트에 걸쳐 수행될 것이지만, 확률적 최적화 방법과 함께 이 단계를 사용하려면 글로벌 정보를 사용하는 것이 비현실적이다.따라서 정규화는 훈련 프로세스에서 각 미니 배치로 제한됩니다.

B를 사용하여 전체 트레이닝 세트의 m 크기의 미니 배치를 나타냅니다.따라서 B의 경험적 평균과 분산은 다음과 같이 나타낼 수 있다.

$\mu _{B}={\frac {1}{m}}\sum _{i=1}^{m}x_{i}$ $\sigma _{B}^{2}={\frac {1}{m}}\sum _{i=1}^{m}(x_{i}-\mu _{B})^{2}$ B $\mu _{B}={\frac {1}{m}}\sum _{i=1}^{m}x_{i}$ $\mu _{B}={\frac {1}{m}}\sum _{i=1}^{m}x_{i}$ m $\mu _{B}={\frac {1}{m}}\sum _{i=1}^{m}x_{i}$ i $\mu _{B}={\frac {1}{m}}\sum _{i=1}^{m}x_{i}$ $\mu _{B}={\frac {1}{m}}\sum _{i=1}^{m}x_{i}$ $\mu _{B}={\frac {1}{m}}\sum _{i=1}^{m}x_{i}$ x $\mu _{B}={\frac {1}{m}}\sum _{i=1}^{m}x_{i}$ \ $displaystyle$ \ $mu _$ { B } $=$ 1 $\sigma _{B}^{2}={\frac {1}{m}}\sum _{i=1}^{m}(x_{i}-\mu _{B})^{2}$ $\mu _{B}={\frac {1}{m}}\sum _{i=1}^{m}x_{i}$ $\sigma _{B}^{2}={\frac {1}{m}}\sum _{i=1}^{m}(x_{i}-\mu _{B})^{2}$ $\sigma _{B}^{2}={\frac {1}{m}}\sum _{i=1}^{m}(x_{i}-\mu _{B})^{2}$ $\mu _{B}={\frac {1}{m}}\sum _{i=1}^{m}x_{i}$ $\sigma _{B}^{2}={\frac {1}{m}}\sum _{i=1}^{m}(x_{i}-\mu _{B})^{2}$ $\sigma _{B}^{2}={\frac {1}{m}}\sum _{i=1}^{m}(x_{i}-\mu _{B})^{2}$ m † i $\sigma _{B}^{2}={\frac {1}{m}}\sum _{i=1}^{m}(x_{i}-\mu _{B})^{2}$ $\sigma _{B}^{2}={\frac {1}{m}}\sum _{i=1}^{m}(x_{i}-\mu _{B})^{2}$ m $\sigma _{B}^{2}={\frac {1}{m}}\sum _{i=1}^{m}(x_{i}-\mu _{B})^{2}$ † $\sigma _{B}^{2}={\frac {1}{m}}\sum _{i=1}^{m}(x_{i}-\mu _{B})^{2}$ = $\sigma _{B}^{2}={\frac {1}{m}}\sum _{i=1}^{m}(x_{i}-\mu _{B})^{2}$ \ $displaystyle$ \ $mu$ _ { $B$ } = 1 m ® $\sigma _{B}^{2}={\frac {1}{m}}\sum _{i=1}^{m}(x_{i}-\mu _{B})^{2}$ { $1$ $\sigma _{B}^{2}={\frac {1}{m}}\sum _{i=1}^{m}(x_{i}-\mu _{B})^{2}$ } $frac$ { 1 }

d차원 입력이 있는 네트워크의 $x=(x^{(1)},...,x^{(d)})$ $x=(x^{(1)},...,x^{(d)})$ ( $x=(x^{(1)},...,x^{(d)})$ ( $x=(x^{(1)},...,x^{(d)})$ 1 $x=(x^{(1)},...,x^{(d)})$ ) $x=(x^{(1)},...,x^{(d)})$ , . $x=(x^{(1)},...,x^{(d)})$ , $x=(x^{(1)},...,x^{(d)})$ ( $x=(x^{(1)},...,x^{(d)})$ d $x=(x^{(1)},...,x^{(d)})$ ) { $displaystyle$ x $x=(x^{(1)},...,x^{(d)})$ = ( x ^ { (1 $)$ } , , $x$ ^ { ( d ) $x=(x^{(1)},...,x^{(d)})$ } $x=(x^{(1)},...,x^{(d)})$ 에서는, 입력의 각 치수가 개별적으로 정규화됩니다(즉, 재중심화 및 재실행).

${\hat {x}}_{i}^{(k)}={\frac {x_{i}^{(k)}-\mu _{B}^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}$ ^ ${\hat {x}}_{i}^{(k)}={\frac {x_{i}^{(k)}-\mu _{B}^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}$ ( ${\hat {x}}_{i}^{(k)}={\frac {x_{i}^{(k)}-\mu _{B}^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}$ ) $=$ ${\hat {x}}_{i}^{(k)}={\frac {x_{i}^{(k)}-\mu _{B}^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}$ i ( ${\hat {x}}_{i}^{(k)}={\frac {x_{i}^{(k)}-\mu _{B}^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}$ ) - ${\hat {x}}_{i}^{(k)}={\frac {x_{i}^{(k)}-\mu _{B}^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}$ B ( ${\hat {x}}_{i}^{(k)}={\frac {x_{i}^{(k)}-\mu _{B}^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}$ ) ${\hat {x}}_{i}^{(k)}={\frac {x_{i}^{(k)}-\mu _{B}^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}$ ( ${\hat {x}}_{i}^{(k)}={\frac {x_{i}^{(k)}-\mu _{B}^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}$ ) 2 + ${\hat {x}}_{i}^{(k)}={\frac {x_{i}^{(k)}-\mu _{B}^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}$ { $displaystyle$ { $hat$ { $x } _$ { $i }^{$ ( k ) } - \ $mu$ _ { $b$ }^{ ( k ) } { \ $sqrt$ _ { { x _ { x _ { b }^{ i } ( k } + s } ^{ s } （ k } } } $ssss22ss$ ）。 $displaystyle$ \ $mu$ _ ${B}^{(k)}}$ 은 $\mu _{B}^{(k)}$ $\sigma _{B}^{(k)^{2}}$ 치수별 $평균$ 및 $\sigma _{B}^{(k)^{2}}$ 입니다 $.$

${\$ { $displaystyle$ \ silon $}$ 은 $\epsilon$ 수치 안정성을 위해 분모에 추가되며 임의로 작은 상수이다. $\epsilon$ 으로 정규화된 ${\hat {x}}^{(k)}$ ( ${\hat {x}}^{(k)}$ ) ( \ $displaystyle$ { x }^{ ${\hat {x}}^{(k)}$ ( k ) ) ${\$ \ $displaystyle$ \ $epsilon }$ 를 ${\hat {x}}^{(k)}$ $\epsilon$ 고려하지 않은 경우 평균 및 단위 분산은 제로입니다.네트워크의 표현력을 회복하기 위해 변환 스텝은 다음과 같습니다.

$y_{i}^{(k)}=\gamma ^{(k)}{\hat {x}}_{i}^{(k)}+\beta ^{(k)}$ i ( $y_{i}^{(k)}=\gamma ^{(k)}{\hat {x}}_{i}^{(k)}+\beta ^{(k)}$ ) $y_{i}^{(k)}=\gamma ^{(k)}{\hat {x}}_{i}^{(k)}+\beta ^{(k)}$ ^ $y_{i}^{(k)}=\gamma ^{(k)}{\hat {x}}_{i}^{(k)}+\beta ^{(k)}$ ( $y_{i}^{(k)}=\gamma ^{(k)}{\hat {x}}_{i}^{(k)}+\beta ^{(k)}$ ) + $y_{i}^{(k)}=\gamma ^{(k)}{\hat {x}}_{i}^{(k)}+\beta ^{(k)}$ ( $y_{i}^{(k)}=\gamma ^{(k)}{\hat {x}}_{i}^{(k)}+\beta ^{(k)}$ ) { $displaystyle$ y $_$ { $i }^{$ ( k ) } = \ $hat$ { $x } _$ { $i$ }^{ ( k ) } + \ $hat ^$ { ( k $y_{i}^{(k)}=\gamma ^{(k)}{\hat {x}}_{i}^{(k)}+\beta ^{(k)}$ ) $y_{i}^{(k)}=\gamma ^{(k)}{\hat {x}}_{i}^{(k)}+\beta ^{(k)}$ } 、

$\gamma ^{(k)}$ $\gamma ^{(k)}$ ( $\gamma ^{(k)}$ ) { $display style$ \ display ^ { ( $\gamma ^{(k)}$ $k$ ) } β $\gamma ^{(k)}$ $\beta ^{(k)}$ ( $\beta ^{(k)}$ ) $\beta ^{(k)}$ { $displaystyle$ \ $display$ ^ { ( $\beta ^{(k)}$ k ) }}는 $\beta ^{(k)}$ 최적화 프로세스에서 학습됩니다.

정식으로 배치 정규화를 실행하는 연산은 $BN_{\gamma ^{(k)},\beta ^{(k)}}:x_{1...m}^{(k)}\rightarrow y_{1...m}^{(k)}$ $BN_{\gamma ^{(k)},\beta ^{(k)}}:x_{1...m}^{(k)}\rightarrow y_{1...m}^{(k)}$ N $BN_{\gamma ^{(k)},\beta ^{(k)}}:x_{1...m}^{(k)}\rightarrow y_{1...m}^{(k)}$ ( $BN_{\gamma ^{(k)},\beta ^{(k)}}:x_{1...m}^{(k)}\rightarrow y_{1...m}^{(k)}$ ) , $BN_{\gamma ^{(k)},\beta ^{(k)}}:x_{1...m}^{(k)}\rightarrow y_{1...m}^{(k)}$ ( $BN_{\gamma ^{(k)},\beta ^{(k)}}:x_{1...m}^{(k)}\rightarrow y_{1...m}^{(k)}$ ) : $BN_{\gamma ^{(k)},\beta ^{(k)}}:x_{1...m}^{(k)}\rightarrow y_{1...m}^{(k)}$ 1 $BN_{\gamma ^{(k)},\beta ^{(k)}}:x_{1...m}^{(k)}\rightarrow y_{1...m}^{(k)}$ ( $BN_{\gamma ^{(k)},\beta ^{(k)}}:x_{1...m}^{(k)}\rightarrow y_{1...m}^{(k)}$ ) $BN_{\gamma ^{(k)},\beta ^{(k)}}:x_{1...m}^{(k)}\rightarrow y_{1...m}^{(k)}$ $BN_{\gamma ^{(k)},\beta ^{(k)}}:x_{1...m}^{(k)}\rightarrow y_{1...m}^{(k)}$ 1 $m$ ( $BN_{\gamma ^{(k)},\beta ^{(k)}}:x_{1...m}^{(k)}\rightarrow y_{1...m}^{(k)}$ ) { $displaystyle BN$ _ { \ $gamma ^$ { ( k ) $}$ , \ $rightarrow$ y $_$ 1 . k }^{ ( k ) } ^{ $x _$ { 1 } } （ k $BN_{\gamma ^{(k)},\beta ^{(k)}}:x_{1...m}^{(k)}\rightarrow y_{1...m}^{(k)}$ } ）。 ${\hat {x}}_{i}^{(k)}$ 으로 $y^{(k)}=BN_{\gamma ^{(k)},\beta ^{(k)}}(x^{(k)})$ BN $y^{(k)}=BN_{\gamma ^{(k)},\beta ^{(k)}}(x^{(k)})$ y ( $y^{(k)}=BN_{\gamma ^{(k)},\beta ^{(k)}}(x^{(k)})$ ) $y^{(k)}=BN_{\gamma ^{(k)},\beta ^{(k)}}(x^{(k)})$ $y^{(k)}=BN_{\gamma ^{(k)},\beta ^{(k)}}(x^{(k)})$ $y^{(k)}=BN_{\gamma ^{(k)},\beta ^{(k)}}(x^{(k)})$ $y^{(k)}=BN_{\gamma ^{(k)},\beta ^{(k)}}(x^{(k)})$ ( $y^{(k)}=BN_{\gamma ^{(k)},\beta ^{(k)}}(x^{(k)})$ ) , $y^{(k)}=BN_{\gamma ^{(k)},\beta ^{(k)}}(x^{(k)})$ ( $y^{(k)}=BN_{\gamma ^{(k)},\beta ^{(k)}}(x^{(k)})$ ) ( $y^{(k)}=BN_{\gamma ^{(k)},\beta ^{(k)}}(x^{(k)})$ ) $y^{(k)}=BN_{\gamma ^{(k)},\beta ^{(k)}}(x^{(k)})$ \ $display style$ y^ { ( k ) = $BN$ _ { \ $gamma$ ^ { ( k ) $} （$ x $y^{(k)}=BN_{\gamma ^{(k)},\beta ^{(k)}}(x^{(k)})$ ^ { ( k ) }} （ x ^ { ( $y^{(k)}=BN_{\gamma ^{(k)},\beta ^{(k)}}(x^{(k)})$ k ) }}}} （ ${\hat {x}}_{i}^{(k)}$ ^ { normalizalized ${\hat {x}}_{i}^{(k)}$ ）） ${\hat {x}}_{i}^{(k)}$ 。

역전파

상술한 BN 변환은 미분 가능한 연산이며, 다른 파라미터에 대한 손실 l의 구배는 체인 규칙을 사용하여 직접 계산할 수 있습니다.

구체적으로는 활성화 함수의 선택에 따라 ${\frac {\partial l}{\partial y_{i}^{(k)}}}$ ${\frac {\partial l}{\partial y_{i}^{(k)}}}$ l ${\frac {\partial l}{\partial y_{i}^{(k)}}}$ ${\frac {\partial l}{\partial y_{i}^{(k)}}}$ ( ${\frac {\partial l}{\partial y_{i}^{(k)}}}$ ) { \ $displaystyle$ \ $frac$ { $partial$ l } { \ $partial$ y ${\frac {\partial l}{\partial y_{i}^{(k)}}}$ $_$ { ${\frac {\partial l}{\partial y_{i}^{(k)}}}$ i ${\frac {\partial l}{\partial y_{i}^{(k)}}}$ } ${\frac {\partial l}{\partial y_{i}^{(k)}}}$ } ${\frac {\partial l}{\partial y_{i}^{(k)}}}$ ( ${\frac {\partial l}{\partial y_{i}^{(k)}}}$ ) ( k ) ${\frac {\partial l}{\partial y_{i}^{(k)}}}$ \ ${\frac {\partial l}{\partial y_{i}^{(k)}}}$ \ $frac$ { $partial l$ } : { k ${\frac {\partial l}{\partial y_{i}^{(k)}}}$ })의 ${\frac {\partial l}{\partial y_{i}^{(k)}}}$ 함수로 표현될 수 있습니다.

${\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}={\frac {\partial l}{\partial y_{i}^{(k)}}}\gamma ^{(k)}$ ${\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}={\frac {\partial l}{\partial y_{i}^{(k)}}}\gamma ^{(k)}$ ∂ ${\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}={\frac {\partial l}{\partial y_{i}^{(k)}}}\gamma ^{(k)}$ ${\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}={\frac {\partial l}{\partial y_{i}^{(k)}}}\gamma ^{(k)}$ ${\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}={\frac {\partial l}{\partial y_{i}^{(k)}}}\gamma ^{(k)}$ ${\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}={\frac {\partial l}{\partial y_{i}^{(k)}}}\gamma ^{(k)}$ ( k ${\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}={\frac {\partial l}{\partial y_{i}^{(k)}}}\gamma ^{(k)}$ ) ${\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}={\frac {\partial l}{\partial y_{i}^{(k)}}}\gamma ^{(k)}$ l ${\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}={\frac {\partial l}{\partial y_{i}^{(k)}}}\gamma ^{(k)}$ ( ${\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}={\frac {\partial l}{\partial y_{i}^{(k)}}}\gamma ^{(k)}$ ) $γ$ k $（$ k ) 、 { display ${ frac l$ }{ \ $hat$ { $x$ }^{ ( $k$ ) } = $flac$ { \ $frac$ y $_$ { $x$ }{ ( k ${\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}={\frac {\partial l}{\partial y_{i}^{(k)}}}\gamma ^{(k)}$ ) } $、$

${\frac {\partial l}{\partial \gamma ^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\hat {x}}_{i}^{(k)}$ ${\frac {\partial l}{\partial \gamma ^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\hat {x}}_{i}^{(k)}$ ∂ ${\frac {\partial l}{\partial \gamma ^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\hat {x}}_{i}^{(k)}$ k ${\frac {\partial l}{\partial \gamma ^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\hat {x}}_{i}^{(k)}$ ） ${\frac {\partial l}{\partial \gamma ^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\hat {x}}_{i}^{(k)}$ m ${\frac {\partial l}{\partial \gamma ^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\hat {x}}_{i}^{(k)}$ ∂ ${\frac {\partial l}{\partial \gamma ^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\hat {x}}_{i}^{(k)}$ ∂ ${\frac {\partial l}{\partial \gamma ^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\hat {x}}_{i}^{(k)}$ ${\frac {\partial l}{\partial \gamma ^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\hat {x}}_{i}^{(k)}$ ( k ${\frac {\partial l}{\partial \gamma ^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\hat {x}}_{i}^{(k)}$ ) $x$ ${\frac {\partial l}{\partial \gamma ^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\hat {x}}_{i}^{(k)}$ ${\frac {\partial l}{\partial \gamma ^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\hat {x}}_{i}^{(k)}$ ( ${\frac {\partial l}{\partial \gamma ^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\hat {x}}_{i}^{(k)}$ k ) { display $style$ \ frac { \ $flac l }$ { \ $sum _$ { i ${\frac {\partial l}{\partial \gamma ^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\hat {x}}_{i}^{(k)}$ = ${\frac {\partial l}{\partial \gamma ^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\hat {x}}_{i}^{(k)}$ 1 $}^{$ m }{ \ $frac l$ }{ \ $frac y$ _ { } { { \ frac （ $k$ } } { k $}$ } { x $hat$ } $부분$ l $}{\sum$ \ $sum ^{i=1}^{m}{\frac {\sum y_{i}^{(k$
${\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}(x_{i}^{(k)}-\mu _{B}^{(k)})\left(-{\frac {\gamma ^{(k)}}{2}}(\sigma _{B}^{(k)^{2}}+\epsilon )^{-3/2}\right)$ $)\left {\frac$ {\frac $^{(k)}{2}}({B}^{(k$ )}+\epsilon)^{- $3/2}\right$ ${\frac {\partial l}{\partial \mu _{B}^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\frac {-\gamma ^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {1}{m}}\sum _{i=1}^{m}(-2)\cdot (x_{i}^{(k)}-\mu _{B}^{(k)})$ 、 ∂ l ${\frac {\partial l}{\partial \mu _{B}^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\frac {-\gamma ^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {1}{m}}\sum _{i=1}^{m}(-2)\cdot (x_{i}^{(k)}-\mu _{B}^{(k)})$ ( ${\frac {\partial l}{\partial \mu _{B}^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\frac {-\gamma ^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {1}{m}}\sum _{i=1}^{m}(-2)\cdot (x_{i}^{(k)}-\mu _{B}^{(k)})$ ) ${\frac {\partial l}{\partial \mu _{B}^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\frac {-\gamma ^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {1}{m}}\sum _{i=1}^{m}(-2)\cdot (x_{i}^{(k)}-\mu _{B}^{(k)})$ ${\frac {\partial l}{\partial \mu _{B}^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\frac {-\gamma ^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {1}{m}}\sum _{i=1}^{m}(-2)\cdot (x_{i}^{(k)}-\mu _{B}^{(k)})$ ${\frac {\partial l}{\partial \mu _{B}^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\frac {-\gamma ^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {1}{m}}\sum _{i=1}^{m}(-2)\cdot (x_{i}^{(k)}-\mu _{B}^{(k)})$ ${\frac {\partial l}{\partial \mu _{B}^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\frac {-\gamma ^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {1}{m}}\sum _{i=1}^{m}(-2)\cdot (x_{i}^{(k)}-\mu _{B}^{(k)})$ ${\frac {\partial l}{\partial \mu _{B}^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\frac {-\gamma ^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {1}{m}}\sum _{i=1}^{m}(-2)\cdot (x_{i}^{(k)}-\mu _{B}^{(k)})$ l ${\frac {\partial l}{\partial \mu _{B}^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\frac {-\gamma ^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {1}{m}}\sum _{i=1}^{m}(-2)\cdot (x_{i}^{(k)}-\mu _{B}^{(k)})$ ${\frac {\partial l}{\partial \mu _{B}^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\frac {-\gamma ^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {1}{m}}\sum _{i=1}^{m}(-2)\cdot (x_{i}^{(k)}-\mu _{B}^{(k)})$ ( ${\frac {\partial l}{\partial \mu _{B}^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\frac {-\gamma ^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {1}{m}}\sum _{i=1}^{m}(-2)\cdot (x_{i}^{(k)}-\mu _{B}^{(k)})$ ) - ${\frac {\partial l}{\partial \mu _{B}^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\frac {-\gamma ^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {1}{m}}\sum _{i=1}^{m}(-2)\cdot (x_{i}^{(k)}-\mu _{B}^{(k)})$ （ ${\frac {\partial l}{\partial \mu _{B}^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\frac {-\gamma ^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {1}{m}}\sum _{i=1}^{m}(-2)\cdot (x_{i}^{(k)}-\mu _{B}^{(k)})$ ）、 ${\frac {\partial l}{\partial \mu _{B}^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\frac {-\gamma ^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {1}{m}}\sum _{i=1}^{m}(-2)\cdot (x_{i}^{(k)}-\mu _{B}^{(k)})$ ${\frac {\partial l}{\partial \mu _{B}^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\frac {-\gamma ^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {1}{m}}\sum _{i=1}^{m}(-2)\cdot (x_{i}^{(k)}-\mu _{B}^{(k)})$ 、、、、 ${\frac {\partial l}{\partial \mu _{B}^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\frac {-\gamma ^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {1}{m}}\sum _{i=1}^{m}(-2)\cdot (x_{i}^{(k)}-\mu _{B}^{(k)})$ 、 ${\frac {\partial l}{\partial \mu _{B}^{(k)}}}=\sum _{i=1}^{m}{\frac {\partial l}{\partial y_{i}^{(k)}}}{\frac {-\gamma ^{(k)}}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {1}{m}}\sum _{i=1}^{m}(-2)\cdot (x_{i}^{(k)}-\mu _{B}^{(k)})$ ） $c$ {\ $flac$ l} ${\flac$ \ $mu$ _{ $B}^{(k)}=\sum$ _ ${i=1}^{m}{\flac$ {\ $flac {-\flac ^{(k)}}{\flac$ {-\flac {-\flac }{-\flac ^{{(k $)^{(k}}}}}}$ {\flac {\flac {{{{{{{( $k}}}}}}}$ {\ $flac$ }} {\ $flac}$ {\fl

및 ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ l ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ ( ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ ) ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ x ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ i ( k ) ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ B ( ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ ) ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ + ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ + ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ B ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ ( ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ ) ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ ( $x$ ) - ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ ( ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ k ) ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ m + ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ l ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ B ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ ) ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ + ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ l $μ$ B ( k ) 1 ${\frac {\partial l}{\partial x_{i}^{(k)}}}={\frac {\partial l}{\partial {\hat {x}}_{i}^{(k)}}}{\frac {1}{\sqrt {\sigma _{B}^{(k)^{2}}+\epsilon }}}+{\frac {\partial l}{\partial \sigma _{B}^{(k)^{2}}}}{\frac {2(x_{i}^{(k)}-\mu _{B}^{(k)})}{m}}+{\frac {\partial l}{\partial \mu _{B}^{(k)}}}{\frac {1}{m}}$ \ style { $frac$ { $frac$ }{ i } $\frac {1}{\sqrt$ {\ $sigma$ _ ${B}^{(k)^2}}+\epsilon }}+{\frac$ {{ $partial$ l $}{\partial \sigma$ _{(k $)^2}}{\frac {2(x_i}^{(k)-\mu_{b}}}{{}}}}{}}}{\$ epsilon}}}{{}}}}}}}{\frac {\frac}}}}}}}{{{{\ $frac$ }}}}

추론

훈련 단계에서 정규화 단계는 효율적이고 신뢰할 수 있는 훈련을 보장하기 위해 미니 목욕에 의존합니다.그러나 추론 단계에서 이 의존성은 더 이상 유용하지 않다.대신, 이 단계의 정규화 단계는 모집단 통계로 계산되므로 출력이 결정론적 방식으로 입력에 의존할 수 있습니다.모집단 평균 $E[x^{(k)}]$ [ $E[x^{(k)}]$ ( $E[x^{(k)}]$ ) \ $displaystyle$ E [ $x$ $\operatorname {Var} [x^{(k)}]$ $^$ { ( k ) $E[x^{(k)}]$ ] $E[x^{(k)}]$ } 및 분산 $\operatorname {Var} [x^{(k)}]$ $\operatorname {Var} [x^{(k)}]$ [ $\operatorname {Var} [x^{(k)}]$ ( $k$ ) $]{$ $displaystyle \operatorname { Var$ } [ $x$ ^ { ( k ) $\operatorname {Var} [x^{(k)}]$ } $\operatorname {Var} [x^{(k)}]$ }는 다음과 같이 계산됩니다.

$k$ $E_{B}[\mu$ _ ${B}^{(k$ $\operatorname {Var} [x^{(k)}]={\frac {m}{m-1}}E_{B}[\sigma _{B}^{(k)^{2}}]$ Var $\operatorname {Var} [x^{(k)}]={\frac {m}{m-1}}E_{B}[\sigma _{B}^{(k)^{2}}]$ [ $\operatorname {Var} [x^{(k)}]={\frac {m}{m-1}}E_{B}[\sigma _{B}^{(k)^{2}}]$ ( $\operatorname {Var} [x^{(k)}]={\frac {m}{m-1}}E_{B}[\sigma _{B}^{(k)^{2}}]$ ) $\operatorname {Var} [x^{(k)}]={\frac {m}{m-1}}E_{B}[\sigma _{B}^{(k)^{2}}]$ ] $\operatorname {Var} [x^{(k)}]={\frac {m}{m-1}}E_{B}[\sigma _{B}^{(k)^{2}}]$ - $\operatorname {Var} [x^{(k)}]={\frac {m}{m-1}}E_{B}[\sigma _{B}^{(k)^{2}}]$ $\operatorname {Var} [x^{(k)}]={\frac {m}{m-1}}E_{B}[\sigma _{B}^{(k)^{2}}]$ [ $\operatorname {Var} [x^{(k)}]={\frac {m}{m-1}}E_{B}[\sigma _{B}^{(k)^{2}}]$ B $\operatorname {Var} [x^{(k)}]={\frac {m}{m-1}}E_{B}[\sigma _{B}^{(k)^{2}}]$ ( $\operatorname {Var} [x^{(k)}]={\frac {m}{m-1}}E_{B}[\sigma _{B}^{(k)^{2}}]$ ) $]{$ $displaystyle \operatorname {Var$ } [ $x^{(k$ )} ] = $varcfrac {m}{m-1}E_igm_{S$ }

따라서 인구 통계는 미니 목욕의 완전한 표현이다.

추론 단계의 BN 변환은 다음과 같이 됩니다.

$y^{(k)}=BN_{\gamma ^{(k)},\beta ^{(k)}}^{\text{inf}}(x^{(k)})=\gamma ^{(k)}{\frac {x^{(k)}-E[x^{(k)}]}{\sqrt {\operatorname {Var} [x^{(k)}]+\epsilon }}}+\beta ^{(k)}$ $y^{(k)}=BN_{\gamma ^{(k)},\beta ^{(k)}}^{\text{inf}}(x^{(k)})=\gamma ^{(k)}{\frac {x^{(k)}-E[x^{(k)}]}{\sqrt {\operatorname {Var} [x^{(k)}]+\epsilon }}}+\beta ^{(k)}$

$y^{(k)}$ 서 y $)$ {{ $displaystyle$ y $^{(k)}}}$ 는 $y^{(k)}$ x $)$ { $style x^{(k$ $x^{(k)}$ 미래 레이어에 전달됩니다.이 변환에서는 파라미터가 고정되어 있기 때문에 배치 정규화 절차는 기본적으로 활성화에 선형 변환을 적용합니다.

이론적 이해

강력한 경험적 성능으로 인해 배치 정규화가 보편화되었지만, 이 방법의 작동 메커니즘은 아직 잘 이해되지 않았습니다.원래의^[1] 논문에서 설명한 것은 배치 노름은 내부 공변량 이동을 줄임으로써 작동한다는 것이지만, 이것은 보다 최근의 연구에서 도전을 받았다.한 실험은^[2] VGG-16 네트워크를^[7] 표준(배치 기준 없음), 배치 기준 및 훈련 중 각 계층에 노이즈가 추가된 배치 기준의 세 가지 다른 훈련 체제 하에서 훈련시켰다.세 번째 모델에서 소음은 0이 아닌 평균과 비단위 분산을 가진다. 즉, 공변량 편이를 명시적으로 도입한다.그럼에도 불구하고, 두 번째 모델과 유사한 정확도를 보였고, 두 가지 모두 첫 번째 모델보다 더 나은 성능을 보였으며, 이는 공변량 이동이 배치 규범이 성능을 향상시키는 이유가 아님을 시사한다.

부드러움

한 가지 다른 ^[2]설명은 배치 정규화를 통한 개선은 더 작은 Lipschitz 상수로 공식화된 보다 부드러운 매개변수 공간과 부드러운 구배를 생성하기 때문이라는 것입니다.

2개의 동일한 네트워크를 생각할 수 있습니다.하나는 배치 정규화 레이어를 포함하고 다른 하나는 포함되지 않습니다.이러한 2개의 네트워크의 동작을 비교합니다.손실 함수는 각각L(\ $displaystyle$ L $)$ ${\hat {L}}$ L ${\hat {L}}$ ^(\ $displaystyle {L$ 로 나타냅니다.양쪽 네트워크에 대한 $x$ 은 x{\ $displaystyle$ x $},$ 출력은y {\ $displaystyle$ y $y$ $y$ 서 $y=Wx$ = $W$ $y=Wx$ {\ $displaystyle$ $y=$ Wx $y=Wx$ 여기서 W {\ $displaystyle$ w $}$ 는 $W$ 레이어 가중치입니다.두 번째 네트워크의 경우 y $\displaystyle$ y는 $y$ 정규화 레이어를 추가로 거칩니다.정규화된 활성화는 y $^(\$ 로 ${\hat {y}}$ . 평균 및 단위 분산은 0입니다.변환된 활성화는 z $=$ $z=\gamma {\hat {y}}+\beta$ y $z=\gamma {\hat {y}}+\beta$ + $z=\gamma {\hat {y}}+\beta$ β { $displaystyle$ z $=\hat {y}+\display$ 로 $z=\gamma {\hat {y}}+\beta$ , $\gamma$ $\beta$ {displaystyle $\$ display}와 $\gamma$ $\beta$ β { $displaystyle\$ display $}$ 를 $\beta$ 상수라고 가정합니다.마지막으로 mini-batch ${\hat {y_{j}}}\in \mathbb {R} ^{m}$ ^ ${\hat {y_{j}}}\in \mathbb {R} ^{m}$ R ${\hat {y_{j}}}\in \mathbb {R} ^{m}$ \ $mathbb$ { $R}^{m$ 에 대한 표준편차를 $\sigma _{j}$ j { $displaystyle \sigma$ _ ${j$ 로 나타냅니다.

우선, 배치 정규화된 네트워크의 구배 크기 $||\triangledown _{y_{i}}{\hat {L}}||$ $||\triangledown _{y_{i}}{\hat {L}}||$ $||\triangledown _{y_{i}}{\hat {L}}||$ $||\triangledown _{y_{i}}{\hat {L}}||$ { $displaystyle$ \ $leadown$ _ { y _ { $i$ }} { \ $hat$ { $L$ 은 다음과 같이 경계가 있음을 알 수 있습니다.

$||\triangledown _{y_{i}}{\hat {L}}||^{2}\leq {\frac {\gamma ^{2}}{\sigma _{j}^{2}}}{\Bigg (}||\triangledown _{y_{i}}L||^{2}-{\frac {1}{m}}\langle 1,\triangledown _{y_{i}}L\rangle ^{2}-{\frac {1}{m}}\langle \triangledown _{y_{i}}L,{\hat {y}}_{j}\rangle ^{2}{\bigg )}$ $i}}L ^{2}-{\frac {1}{m}}\langle$ 1 $,\triangle down _{$ y_{ $i}L\rangle$ ^{2 $}-{\$ frac {1}{ $m}\langle$ \ $triangle down$ _ ${y}L,{\hat {j}\langle ^2}.g$ g}.

구배 크기는 손실의 립시츠니스를 나타내기 때문에 이 관계는 배치 정규화된 네트워크가 상대적으로 더 큰 립시츠니스를 달성할 수 있음을 나타냅니다.구배 $\triangledown _{y_{i}}{\hat {L}}$ $\triangledown _{y_{i}}{\hat {L}}$ $\triangledown _{y_{i}}{\hat {L}}$ L $^$ { $displaystyle$ \ $leadown$ _ { $y _$ { i $\triangledown _{y_{i}}{\hat {L}}$ } } { \ $hat$ ${\hat {y_{i}}}$ { L $\triangledown _{y_{i}}{\hat {L}}$ }} 이 활성화 $^$ { \ $display$ style { $y$ _ { $i$ } ${\hat {y_{i}}}$ the $\triangledown _{y_{i}}{\hat {L}}$ the the the the the the the the the the the the the the the the the the the the the the notice notice notice notice notice notice notice notice notice notice notice notice notice notice notice notice notice the the notice the the the the the theates notice notice notice theatesatesatesatesates§ ${\frac {\gamma ^{2}}{\sigma _{j}^{2}}}$ † j 2 ({ $displaystyle$ { $frac$ { $gamma$ ^ { 2 $}$ } {\ $sigma$ _ { $j}^2}}$ )의 ${\frac {\gamma ^{2}}{\sigma _{j}^{2}}}$ 스케일링도 중요합니다.왜냐하면 편차가 크기 때문입니다.

둘째, 경사 방향의 활성화에 관한 손실 헤시안 2차 형식은 다음과 같이 제한될 수 있다.

$(\triangledown _{y_{j}}{\hat {L}})^{T}{\frac {\partial {\hat {L}}}{\partial y_{j}\partial y_{j}}}(\triangledown _{y_{j}}{\hat {L}})\leq {\frac {\gamma ^{2}}{\sigma ^{2}}}{\bigg (}{\frac {\partial {\hat {L}}}{\partial y_{j}}}{\bigg )}^{T}{\bigg (}{\frac {\partial L}{\partial y_{j}\partial y_{j}}}{\bigg )}{\bigg (}{\frac {\partial {\hat {L}}}{\partial y_{j}}}{\bigg )}-{\frac {\gamma }{m\sigma ^{2}}}\langle \triangledown _{y_{j}}L,{\hat {y_{j}}}\rangle {\bigg |}{\bigg |}{\frac {\partial {\hat {L}}}{\partial y_{j}}}{\bigg |}{\bigg |}^{2}$ $(\triangledown _{y_{j}}{\hat {L}})^{T}{\frac {\partial {\hat {L}}}{\partial y_{j}\partial y_{j}}}(\triangledown _{y_{j}}{\hat {L}})\leq {\frac {\gamma ^{2}}{\sigma ^{2}}}{\bigg (}{\frac {\partial {\hat {L}}}{\partial y_{j}}}{\bigg )}^{T}{\bigg (}{\frac {\partial L}{\partial y_{j}\partial y_{j}}}{\bigg )}{\bigg (}{\frac {\partial {\hat {L}}}{\partial y_{j}}}{\bigg )}-{\frac {\gamma }{m\sigma ^{2}}}\langle \triangledown _{y_{j}}L,{\hat {y_{j}}}\rangle {\bigg |}{\bigg |}{\frac {\partial {\hat {L}}}{\partial y_{j}}}{\bigg |}{\bigg |}^{2}$ $T}{\frac {\frac {\partial y_{j}\partial y_{j}}(\triangledown_{y_{j}{\hat {L})\leq {\frac {gama ^2}}{\sigma ^{2}}{\frac {\frac} {\frac} {\fr} {\fr}$ $T}{\bigg(\frac {\partial$ L $}{\partial y_{j}}{\bigg}}{\bigg}}{\frac$ {\ $partial y_{hat {L}}{\bigg}-{\frac {\gama}}{\sigma}}{\$ bigg}}{\bigg}}{\bigg}

§ ${\frac {\gamma ^{2}}{\sigma _{j}^{2}}}$ ${\frac {\gamma ^{2}}{\sigma _{j}^{2}}}$ ${\frac {\gamma ^{2}}{\sigma _{j}^{2}}}$ 2 ( \ $displaystyle$ \ $frac$ { $gamma$ ^ { $2}$ } { \ $sigma$ _ { $j$ }^2}}}의 ${\frac {\gamma ^{2}}{\sigma _{j}^{2}}}$ 스케일링은 Hessian이 미니 배치 분산에 대해 탄력성이 있음을 나타내며, 오른쪽의 두 번째 항은 Hessian과 내부 제품이 음이 아닐 때 더 부드러워짐을 나타냅니다.손실이 국소적으로 볼록한 경우 Hessian은 양의 반확정이고, g ${\hat {g_{j}}}$ ^({ $displaystyle {g_{j}}})$ 이 ${\hat {g_{j}}}$ 손실 최소 방향으로 향하는 경우 ${\hat {g_{j}}}$ 곱은 양의 값입니다.따라서 이러한 부등식에서 구배는 일반적으로 배치 정규화 층과 함께 더 예측 가능하게 된다는 결론을 내릴 수 있다.

다음으로 정규화된 활성화에 관한 손실과 관련된 경계를 네트워크 가중치에 관한 손실의 경계로 변환합니다.

${\hat {g_{j}}}\leq {\frac {\gamma ^{2}}{\sigma _{j}^{2}}}(g_{j}^{2}-m\mu _{g_{j}}^{2}-\lambda ^{2}\langle \triangledown _{y_{j}}L,{\hat {y}}_{j}\rangle ^{2})$ j ${\hat {g_{j}}}\leq {\frac {\gamma ^{2}}{\sigma _{j}^{2}}}(g_{j}^{2}-m\mu _{g_{j}}^{2}-\lambda ^{2}\langle \triangledown _{y_{j}}L,{\hat {y}}_{j}\rangle ^{2})$ ^ ${\hat {g_{j}}}\leq {\frac {\gamma ^{2}}{\sigma _{j}^{2}}}(g_{j}^{2}-m\mu _{g_{j}}^{2}-\lambda ^{2}\langle \triangledown _{y_{j}}L,{\hat {y}}_{j}\rangle ^{2})$ ${\hat {g_{j}}}\leq {\frac {\gamma ^{2}}{\sigma _{j}^{2}}}(g_{j}^{2}-m\mu _{g_{j}}^{2}-\lambda ^{2}\langle \triangledown _{y_{j}}L,{\hat {y}}_{j}\rangle ^{2})$ 2 $j$ j ${\hat {g_{j}}}\leq {\frac {\gamma ^{2}}{\sigma _{j}^{2}}}(g_{j}^{2}-m\mu _{g_{j}}^{2}-\lambda ^{2}\langle \triangledown _{y_{j}}L,{\hat {y}}_{j}\rangle ^{2})$ （ ${\hat {g_{j}}}\leq {\frac {\gamma ^{2}}{\sigma _{j}^{2}}}(g_{j}^{2}-m\mu _{g_{j}}^{2}-\lambda ^{2}\langle \triangledown _{y_{j}}L,{\hat {y}}_{j}\rangle ^{2})$ j ${\hat {g_{j}}}\leq {\frac {\gamma ^{2}}{\sigma _{j}^{2}}}(g_{j}^{2}-m\mu _{g_{j}}^{2}-\lambda ^{2}\langle \triangledown _{y_{j}}L,{\hat {y}}_{j}\rangle ^{2})$ - ${\hat {g_{j}}}\leq {\frac {\gamma ^{2}}{\sigma _{j}^{2}}}(g_{j}^{2}-m\mu _{g_{j}}^{2}-\lambda ^{2}\langle \triangledown _{y_{j}}L,{\hat {y}}_{j}\rangle ^{2})$ ${\hat {g_{j}}}\leq {\frac {\gamma ^{2}}{\sigma _{j}^{2}}}(g_{j}^{2}-m\mu _{g_{j}}^{2}-\lambda ^{2}\langle \triangledown _{y_{j}}L,{\hat {y}}_{j}\rangle ^{2})$ ${\hat {g_{j}}}\leq {\frac {\gamma ^{2}}{\sigma _{j}^{2}}}(g_{j}^{2}-m\mu _{g_{j}}^{2}-\lambda ^{2}\langle \triangledown _{y_{j}}L,{\hat {y}}_{j}\rangle ^{2})$ ${\hat {g_{j}}}\leq {\frac {\gamma ^{2}}{\sigma _{j}^{2}}}(g_{j}^{2}-m\mu _{g_{j}}^{2}-\lambda ^{2}\langle \triangledown _{y_{j}}L,{\hat {y}}_{j}\rangle ^{2})$ 2 - $2$ 2 ${\hat {g_{j}}}\leq {\frac {\gamma ^{2}}{\sigma _{j}^{2}}}(g_{j}^{2}-m\mu _{g_{j}}^{2}-\lambda ^{2}\langle \triangledown _{y_{j}}L,{\hat {y}}_{j}\rangle ^{2})$ ${\hat {g_{j}}}\leq {\frac {\gamma ^{2}}{\sigma _{j}^{2}}}(g_{j}^{2}-m\mu _{g_{j}}^{2}-\lambda ^{2}\langle \triangledown _{y_{j}}L,{\hat {y}}_{j}\rangle ^{2})$ ${\hat {g_{j}}}\leq {\frac {\gamma ^{2}}{\sigma _{j}^{2}}}(g_{j}^{2}-m\mu _{g_{j}}^{2}-\lambda ^{2}\langle \triangledown _{y_{j}}L,{\hat {y}}_{j}\rangle ^{2})$ ${\hat {g_{j}}}\leq {\frac {\gamma ^{2}}{\sigma _{j}^{2}}}(g_{j}^{2}-m\mu _{g_{j}}^{2}-\lambda ^{2}\langle \triangledown _{y_{j}}L,{\hat {y}}_{j}\rangle ^{2})$ L , ${\hat {g_{j}}}\leq {\frac {\gamma ^{2}}{\sigma _{j}^{2}}}(g_{j}^{2}-m\mu _{g_{j}}^{2}-\lambda ^{2}\langle \triangledown _{y_{j}}L,{\hat {y}}_{j}\rangle ^{2})$ ^ ${\hat {g_{j}}}\leq {\frac {\gamma ^{2}}{\sigma _{j}^{2}}}(g_{j}^{2}-m\mu _{g_{j}}^{2}-\lambda ^{2}\langle \triangledown _{y_{j}}L,{\hat {y}}_{j}\rangle ^{2})$ 2 ${\hat {g_{j}}}\leq {\frac {\gamma ^{2}}{\sigma _{j}^{2}}}(g_{j}^{2}-m\mu _{g_{j}}^{2}-\lambda ^{2}\langle \triangledown _{y_{j}}L,{\hat {y}}_{j}\rangle ^{2})$ ） { $style$ { g $_ frac ^$ { j $}$ \ $leq$ { \ $frac$ ^ { $2}$ } } } （ g $_ { j$ } $）$ 。 $g_{j}=max_{||X||\leq \lambda }||\triangledown _{W}L||^{2}$ $X$ $g_{j}=max_{||X||\leq \lambda }||\triangledown _{W}L||^{2}$ $g_{j}=max_{||X||\leq \lambda }||\triangledown _{W}L||^{2}$ L $g_{j}=max_{||X||\leq \lambda }||\triangledown _{W}L||^{2}$ $({$ $displaystyle$ g _ { j $}$ = $max$ _ { $X$ \ $leq$ \ $ledown$ _ { W } L ^ { $g_{j}=max_{||X||\leq \lambda }||\triangledown _{W}L||^{2}$ } ) ${\hat {g}}_{j}=max_{||X||\leq \lambda }||\triangledown _{W}{\hat {L}}||^{2}$ $g$ ${\hat {g}}_{j}=max_{||X||\leq \lambda }||\triangledown _{W}{\hat {L}}||^{2}$ ^ ${\hat {g}}_{j}=max_{||X||\leq \lambda }||\triangledown _{W}{\hat {L}}||^{2}$ ${\hat {g}}_{j}=max_{||X||\leq \lambda }||\triangledown _{W}{\hat {L}}||^{2}$ ${\hat {g}}_{j}=max_{||X||\leq \lambda }||\triangledown _{W}{\hat {L}}||^{2}$ ${\hat {g}}_{j}=max_{||X||\leq \lambda }||\triangledown _{W}{\hat {L}}||^{2}$ X ${\hat {g}}_{j}=max_{||X||\leq \lambda }||\triangledown _{W}{\hat {L}}||^{2}$ ${\hat {g}}_{j}=max_{||X||\leq \lambda }||\triangledown _{W}{\hat {L}}||^{2}$ ${\hat {g}}_{j}=max_{||X||\leq \lambda }||\triangledown _{W}{\hat {L}}||^{2}$ $^$ 2 ( \ $displaystyle$ { $g } ▽ max$ _ { $j$ $}$ ） \ l $le 。$

보다 부드러운 경관에 가세해, 배치 정규화를 실시하면, 다음과 같은 부등식을 수반하는 보다 나은 초기화가 실현될 가능성이 있는 것을 알 수 있습니다.

$||W_{0}-{\hat {W}}^{*}||^{2}\leq ||W_{0}-W^{*}||^{2}-{\frac {1}{||W^{*}||^{2}}}(||W^{*}||^{2}-\langle W^{*},W_{0}\rangle )^{2}$ 0 $||W_{0}-{\hat {W}}^{*}||^{2}\leq ||W_{0}-W^{*}||^{2}-{\frac {1}{||W^{*}||^{2}}}(||W^{*}||^{2}-\langle W^{*},W_{0}\rangle )^{2}$ - $||W_{0}-{\hat {W}}^{*}||^{2}\leq ||W_{0}-W^{*}||^{2}-{\frac {1}{||W^{*}||^{2}}}(||W^{*}||^{2}-\langle W^{*},W_{0}\rangle )^{2}$ ^ $||W_{0}-{\hat {W}}^{*}||^{2}\leq ||W_{0}-W^{*}||^{2}-{\frac {1}{||W^{*}||^{2}}}(||W^{*}||^{2}-\langle W^{*},W_{0}\rangle )^{2}$ 2 $||W_{0}-{\hat {W}}^{*}||^{2}\leq ||W_{0}-W^{*}||^{2}-{\frac {1}{||W^{*}||^{2}}}(||W^{*}||^{2}-\langle W^{*},W_{0}\rangle )^{2}$ W $||W_{0}-{\hat {W}}^{*}||^{2}\leq ||W_{0}-W^{*}||^{2}-{\frac {1}{||W^{*}||^{2}}}(||W^{*}||^{2}-\langle W^{*},W_{0}\rangle )^{2}$ - $||W_{0}-{\hat {W}}^{*}||^{2}\leq ||W_{0}-W^{*}||^{2}-{\frac {1}{||W^{*}||^{2}}}(||W^{*}||^{2}-\langle W^{*},W_{0}\rangle )^{2}$ 2 - $||W_{0}-{\hat {W}}^{*}||^{2}\leq ||W_{0}-W^{*}||^{2}-{\frac {1}{||W^{*}||^{2}}}(||W^{*}||^{2}-\langle W^{*},W_{0}\rangle )^{2}$ $||W_{0}-{\hat {W}}^{*}||^{2}\leq ||W_{0}-W^{*}||^{2}-{\frac {1}{||W^{*}||^{2}}}(||W^{*}||^{2}-\langle W^{*},W_{0}\rangle )^{2}$ 2 $||W_{0}-{\hat {W}}^{*}||^{2}\leq ||W_{0}-W^{*}||^{2}-{\frac {1}{||W^{*}||^{2}}}(||W^{*}||^{2}-\langle W^{*},W_{0}\rangle )^{2}$ （ $||W_{0}-{\hat {W}}^{*}||^{2}\leq ||W_{0}-W^{*}||^{2}-{\frac {1}{||W^{*}||^{2}}}(||W^{*}||^{2}-\langle W^{*},W_{0}\rangle )^{2}$ 2 - " $||W_{0}-{\hat {W}}^{*}||^{2}\leq ||W_{0}-W^{*}||^{2}-{\frac {1}{||W^{*}||^{2}}}(||W^{*}||^{2}-\langle W^{*},W_{0}\rangle )^{2}$ ） $||W_{0}-{\hat {W}}^{*}||^{2}\leq ||W_{0}-W^{*}||^{2}-{\frac {1}{||W^{*}||^{2}}}(||W^{*}||^{2}-\langle W^{*},W_{0}\rangle )^{2}$ 、 $||W_{0}-{\hat {W}}^{*}||^{2}\leq ||W_{0}-W^{*}||^{2}-{\frac {1}{||W^{*}||^{2}}}(||W^{*}||^{2}-\langle W^{*},W_{0}\rangle )^{2}$ 0 $||W_{0}-{\hat {W}}^{*}||^{2}\leq ||W_{0}-W^{*}||^{2}-{\frac {1}{||W^{*}||^{2}}}(||W^{*}||^{2}-\langle W^{*},W_{0}\rangle )^{2}$ ) ) $||W_{0}-{\hat {W}}^{*}||^{2}\leq ||W_{0}-W^{*}||^{2}-{\frac {1}{||W^{*}||^{2}}}(||W^{*}||^{2}-\langle W^{*},W_{0}\rangle )^{2}$ ( \ $display$ W $_ 0$ ）、 { \ hat { W } { * } $^$ { 2 $||W_{0}-{\hat {W}}^{*}||^{2}\leq ||W_{0}-W^{*}||^{2}-{\frac {1}{||W^{*}||^{2}}}(||W^{*}||^{2}-\langle W^{*},W_{0}\rangle )^{2}$ } \ $leq$ W _ 0 - 0 - W ^ { 1 } ^ { $1 ^$ { $fr$ } $W^{*}$ W ${\$ \ $displaystyle$ W $^$ { * } 、 $W$ ${\hat {W}}^{*}$ \ $displaystyle$ { $W }^{$ * } are ${\hat {W}}^{*}$ 。각각 2개의 네트워크에 최적인 로컬 가중치입니다.

일부 학자들은 위의 분석이 배치 정규화의 성능을 완전히 포착할 수 없다고 주장한다. 왜냐하면 증거는 모든 점에서 풍경에서 가장 큰 고유값 또는 동등한 한 방향에만 관련되기 때문이다.최종 ^[4]분석을 위해서는 완전한 아이겐스펙트럼을 고려할 필요가 있다.

^[2]

재다

배치 정규화 계층이 내부 공변량 이동을 줄일 수 있다는 가설이 있으므로, 얼마나 많은 공변량 이동이 감소하는지 정량적으로 측정하기 위한 실험이 설정됩니다^{[citation needed]}.첫째, 내부 공변량 이동의 개념을 수학적으로 정의할 필요가 있다.특히, 이전 계층의 업데이트에 대응하여 계층 매개변수가 수행하는 조정을 정량화하기 위해, 구배는 1차 훈련 방법으로부터의 변화를 포착할 수 있기 때문에, 이전의 모든 계층이 업데이트되기 전과 후의 손실 구배 간의 상관관계를 측정한다.이전 레이어의 변경으로 인한 이동이 작을 경우 그라데이션 간의 상관 관계는 1에 가깝습니다.

그라데이션 간의 상관관계는 4가지 모델에 대해 계산됩니다.표준 VGG 네트워크,^[7] 배치 정규화 레이어를 갖춘 VGG 네트워크, 풀 배치 그라데이션 강하 훈련을 받은 25층 DLN(딥 리니어 네트워크) 및 배치 정규화 레이어를 갖춘 DLN 네트워크입니다.흥미롭게도 표준 VGG 및 DLN 모델은 모두 상대 모델에 비해 구배 상관관계가 높아 추가 배치 정규화 계층이 내부 공변량 이동을 감소시키지 않는 것으로 나타났다.

소실/폭발 구배

배트놈은 원래 경사 소실 또는 폭발 문제를 완화하기 위해 도입되었지만, 실제로는 초기화 시 깊은 배트놈 네트워크는 비선형성을 위해 무엇을 사용하든 상관없이 경사 폭발에 시달립니다.따라서 무작위로 초기화된 딥 배트놈 네트워크에 대한 최적화 환경은 매우 원활하지 않습니다.보다 정확하게는 네트워크에L층(\ $displaystyle$ $L층$ )이 $L$ $있는$ 경우 첫 번째 레이어 무게의 구배는 비선형성에만 의존하여 일부 $\lambda >1,c>0$ , $\lambda >1,c>0$ c $>$ $(\displaystyle$ \ $lambda$ > $\lambda >1,c>0$ 1 $, c$ > 0 $)$ 에 $\lambda >1,c>0$ 대해 $>c\lambda ^{L}$ > $>c\lambda ^{L}$ $>$ L > L > c\lambda $\lambda >1,c>0$ $^{L}$ 이 $>c\lambda ^{L}$ 됩니다.고정된 비선형성에 대해서는 배치 크기가 커짐에 따라 $\lambda$ \ $lambda)$ 가 $\lambda$ 감소합니다.예를 들어 ReLU의 경우, 배치 사이즈가 무한대에 가까워짐에 따라 $\lambda$ $\pi /(\pi -1)\approx 1.467$ $\lambda)$ 는 $\lambda$ $\pi /(\pi -1)\approx 1.467$ / ( $\pi /(\pi -1)\approx 1.467$ - $\pi /(\pi -1)\approx 1.467$ ) $\pi /(\pi -1)\approx 1.467$ 1 1. $\ displaystyle \pi$ / ( \ $pi$ - 1 $)\약$ 1. $467$ 로 $\pi /(\pi -1)\approx 1.467$ 감소합니다.사실상, 이것은 깊은 밧츠놈 네트워크는 훈련할 수 없다는 것을 의미합니다.이 문제는 ^[3]나머지 네트워크 방식으로 연결을 건너뛰는 것만으로 해결됩니다.

표면의 이러한 경사 폭발은 이전 절에서 설명한 평활도 특성과 모순되지만 실제로는 일치한다.이전 섹션에서는 네트워크에 단일 배트놈을 삽입하는 경우의 영향에 대해 연구했습니다.구배폭발은 현대의 심층 뉴럴 네트워크의 전형적인 배트놈 스택에 의존합니다.

디커플링

배치 정규화가 성공한 또 다른 가능한 이유는 체중 벡터의 길이와 방향을 분리하여 더 나은 훈련을 용이하게 하기 때문이다.

배치 노름을 중량공간의 재자극으로 해석함으로써 중량물의 길이와 방향이 분리되어 있어 별도로 트레이닝할 수 있음을 알 수 있다. $입력$ x {\ $displaystyle$ x $}$ 및 $x$ 무게 $벡터$ w {\ $displaystyle$ w $w$ 를 사용하는 특정 뉴럴 네트워크 장치의 경우 $f(w)=E_{x}[\phi (x^{T}w)]$ 은 f $f(w)=E_{x}[\phi (x^{T}w)]$ $=$ $f(w)=E_{x}[\phi (x^{T}w)]$ x [ $f(w)=E_{x}[\phi (x^{T}w)]$ ( $f(w)=E_{x}[\phi (x^{T}w)]$ $f(w)=E_{x}[\phi (x^{T}w)]$ w $f(w)=E_{x}[\phi (x^{T}w)]$ ) $f(w)=E_{x}[\phi (x^{T}w)]$ ](\ $displaystyle$ f $(w$ )= $E_{x}[\phi (x^{T}w$ $\phi$ 서 ${\$ { $displaystyle \phi }$ 는 $\phi$ 활성화 함수이며, $S=E[xx^{T}]$ $S=E[xx^{T}]$ [ $x$ $]$ { $displaystyle$ S $= E$ [ xxx $^$ {T}해결}. E, 매트릭스 S의 스펙트럼{S\displaystyle}0<>μ)나의 스녀(S){0<, =\lambda \mu_{분\displaystyle}(S)}, L)λ,∞{\displaystyle L=\lambda_{맥스}(S)<, x(S)<>m \infty}, S{S\displaystyle}λ m로 제한됩니다=0{E[)]=0\displaystyle}[)]를 취하다 대칭 요강좌식 확정이 유닛에 배치 정규화를 추가하면

$f_{BN}(w,\gamma ,\beta )=E_{x}[\phi (BN(x^{T}w))]=E_{x}{\bigg [}\phi {\bigg (}\gamma ({\frac {x^{T}w-E_{x}[x^{T}w]}{var_{x}[x^{T}w]^{1/2}}})+\beta {\bigg )}{\bigg ]}$ $E_{x}{\bigg [}\phi {bigg (}\gamma {\frac {x^}$ $T}w-E_{x}[x^{$ $T}w]}{var_{x}[x^{$ $T}w]$ {{ $1/2}}}+\beta$ {\ $bigg$ }{\bigg $f_{BN}(w,\gamma ,\beta )=E_{x}[\phi (BN(x^{T}w))]=E_{x}{\bigg [}\phi {\bigg (}\gamma ({\frac {x^{T}w-E_{x}[x^{T}w]}{var_{x}[x^{T}w]^{1/2}}})+\beta {\bigg )}{\bigg ]}$ 정의상.

$var_{x}[x^{T}w]=w^{T}Sw$ 은 $var_{x}[x^{T}w]=w^{T}Sw$ a $var_{x}[x^{T}w]=w^{T}Sw$ x [ $var_{x}[x^{T}w]=w^{T}Sw$ T $var_{x}[x^{T}w]=w^{T}Sw$ ] $var_{x}[x^{T}w]=w^{T}Sw$ $var_{x}[x^{T}w]=w^{T}Sw$ $var_{x}[x^{T}w]=w^{T}Sw$ $var_{x}[x^{T}w]=w^{T}Sw$ w \ $display$ style $var_{x}[x^{$ $T}w]=w^{$ T $}Sw$ $}.$ $x의$ 평균이 $\beta$ 이고 $\beta$ β(\ $displaystyle$ \ $beta)$ 를 $\beta$ 생략할 수 $있다고$ 가정하면 다음과 $같습니다$ .

$=$ $T}w}{(w^{T}$ Sw}{ $1/2}}{\bigg}}{\$ bigg $f_{BN}(w,\gamma )=E_{x}{\bigg [}\phi {\bigg (}\gamma {\frac {x^{T}w}{(w^{T}Sw)^{1/2}}}{\bigg )}{\bigg ]}$ 여기서 $(w^{T}Sw)^{\frac {1}{2}}$ ( $(w^{T}Sw)^{\frac {1}{2}}$ $(w^{T}Sw)^{\frac {1}{2}}$ $(w^{T}Sw)^{\frac {1}{2}}$ $||w||_{s}$ w $)$ $(w^{T}Sw)^{\frac {1}{2}}$ 2 {{ $displaystyle$ (w $^{T}$ Sw $)^{\frac {1}{$ 2}}는 $(w^{T}Sw)^{\frac {1}{2}}$ S {{ $displaystyle$ w $||w||_{s}$ 의 $유도$ 규범입니다 $.$

따라서 f $f_{BN}(w,\gamma )=E_{x}[\phi (x^{T}{\tilde {w}})]$ N $f_{BN}(w,\gamma )=E_{x}[\phi (x^{T}{\tilde {w}})]$ ( $f_{BN}(w,\gamma )=E_{x}[\phi (x^{T}{\tilde {w}})]$ , $f_{BN}(w,\gamma )=E_{x}[\phi (x^{T}{\tilde {w}})]$ ) $=$ $f_{BN}(w,\gamma )=E_{x}[\phi (x^{T}{\tilde {w}})]$ [ $f_{BN}(w,\gamma )=E_{x}[\phi (x^{T}{\tilde {w}})]$ ( $f_{BN}(w,\gamma )=E_{x}[\phi (x^{T}{\tilde {w}})]$ $f_{BN}(w,\gamma )=E_{x}[\phi (x^{T}{\tilde {w}})]$ w $f_{BN}(w,\gamma )=E_{x}[\phi (x^{T}{\tilde {w}})]$ ~ $f_{BN}(w,\gamma )=E_{x}[\phi (x^{T}{\tilde {w}})]$ ) $](\style f_{BN}($ w,\ $gamma$ )= $E_{x$ }[\ $phi($ x^{)]로 $f_{BN}(w,\gamma )=E_{x}[\phi (x^{T}{\tilde {w}})]$ 수 있다. $T}{\tilde$ ${\tilde {w}}=\gamma {\frac {w}{||w||_{s}}}$ { $w$ 여기서 ${\tilde {w}}=\gamma {\frac {w}{||w||_{s}}}$ ~ ${\tilde {w}}=\gamma {\frac {w}{||w||_{s}}}$ ${\tilde {w}}=\gamma {\frac {w}{||w||_{s}}}$ w $w$ s ${\tilde {w}}=\gamma {\frac {w}{||w||_{s}}}$ {\displaystyle {w $} = \$ $frac$ ${w}$ { w _ ${s$ 및 $\gamma$ ww $w$ { $displaystyle$ \displaystyle w $}$ 는 $\gamma$ $w$ 길이와 방향을 별도로 설명합니다.이 속성을 사용하여 배치 정규화에 따른 문제의 고속 컨버전스를 증명할 수 있습니다.

선형 수렴

최소 제곱 문제

리파라메트리제이션 해석을 통해, 일반 최소 제곱 문제에 배치 정규화를 적용하면 경사 하강에서 선형 수렴 속도를 달성한다는 것을 증명할 수 있으며, 이는 준선형 수렴만 있는 일반 경사 하강보다 더 빠르다.

일반적인 최소 제곱 문제를 최소화하는 목표를 다음과 같이 나타냅니다.

$){\tilde r }$ $T}{\tilde {w}})^{2})=min_{\tilde {w}}\in R^{d}(2u^{T}{\tilde {w}}+{\tilde {w}}^{$ $T}S{\tilde {w$ $u=E[-yx]$ 서 $u=E[-yx]$ $u=E[-yx]$ E $u=E[-yx]$ [ - $u=E[-yx]$ x $u=E[-yx]$ ](\ $displaystyle$ u $=E$ [ - $yx$

w ${\tilde {w}}=\gamma {\frac {w}{||w||_{s}}}$ ~ ${\tilde {w}}=\gamma {\frac {w}{||w||_{s}}}$ ${\tilde {w}}=\gamma {\frac {w}{||w||_{s}}}$ ${\tilde {w}}=\gamma {\frac {w}{||w||_{s}}}$ w w s ( \ $displaystyle$ \ $tilde$ { ${\tilde {w}}=\gamma {\frac {w}{||w||_{s}}}$ w } = \ $frac$ { $w$ } { w $_$ { $s$ } ${\tilde {w}}=\gamma {\frac {w}{||w||_{s}}}$ } ） ${\tilde {w}}=\gamma {\frac {w}{||w||_{s}}}$ thus thus thus thus thus thus thus thus thus thus thus thus thus since since since since since since since since since since since since since since since since

$min_{w\in R^{d}\backslash \{0\},\gamma \in R}f_{OLS}(w,\gamma )=min_{w\in R^{d}\backslash \{0\},\gamma \in R}{\bigg (}2\gamma {\frac {u^{T}w}{||w||_{S}+\gamma ^{2}}}{\bigg )}$ $T}w}{$ w _ ${S}+\gamma$ ^{ $2}}{\bigg$ 여기서 0은 분모에서 0을 피하기 위해 제외됩니다.

${\$ { $displaystyle$ \ $gamma$ 에 대하여 볼록형이기 때문에 ${\$ { \ $displaystyle$ \ $gamma$ }에 $\gamma$ 대하여 {\ { \ displaystyle \ gamma }를 0으로 설정하여 최적값을 산출할 수 있었다.목표는 더욱 단순화될 수 있습니다.

$=$ $T}uu^{T}w}{w^{$ $T}Sw}}{\bigg$

이 목표는 일반화 레일리 지수의 한 형태입니다.

$A$ $B\in R^{d\times d}$ $}Aw$ ( $B\in R^{d\times d}$ R $B\in R^{d\times d}$ × d \ $display style B$ \ $in R^$ { d \ $times$ d $B\in R^{d\times d}$ } ) $A\in R^{d\times d}$ A $A\in R^{d\times d}$ $A\in R^{d\times d}$ d $A\in R^{d\times d}$ × d \ $display style A$ \ $in$ R $^$ { d \ $times$ d $A\in R^{d\times d}$ } ) t t definite R matrix R definite definite definite matrix R d $A\in R^{d\times d}$ matrix d \ time d matrix ) 。

일반화 레일리 지수의 경사 강하 수렴 속도는 다음과 같습니다.

$t$ $da$ _ ${min}}{\bigg}{2t}{\frac$ { $lambda _$ { $1}-\rho (w_{t}}}}{\lambda _{$ 2 ${\frac {\lambda _{1}-\rho (w_{t+1})}{\rho (w_{t+1}-\lambda _{2})}}\leq {\bigg (}1-{\frac {\lambda _{1}-\lambda _{2}}{\lambda _{1}-\lambda _{min}}}{\bigg )}^{2t}{\frac {\lambda _{1}-\rho (w_{t})}{\rho (w_{t})-\lambda _{2}}}$ 여기서 $\lambda _{1}$ 1 { $\lambda _{1}$ $display style$ \ $lambda$ $B$ _ ${1$ }는 $\lambda _{1}$ B $display 2$ 의 $최대$ 고유값입니다. $ambda$ _ ${min}$ 은 $\lambda _{min}$ B의 $최소$ 고유값입니다({ $displaystyle$ B $}$ ^[8] 。

$B=uu^{T}$ 경우 B $B=uu^{T}$ $B=uu^{T}$ T $B=uu^{T}$ \ $displaystyle$ B = $u^{$ $T}}$ 는 $B=uu^{T}$ 랭크 1 매트릭스이므로 그에 따라 수렴 결과를 단순화할 수 있다. $w_{t+1}=w_{t}-\eta _{t}\triangledown \rho (w_{t})$ 으로는 $\eta _{t}={\frac {w_{t}^{T}Sw_{t}}{2L|\rho (w_{t})|}}$ $\eta _{t}={\frac {w_{t}^{T}Sw_{t}}{2L|\rho (w_{t})|}}$ $\eta _{t}={\frac {w_{t}^{T}Sw_{t}}{2L|\rho (w_{t})|}}$ $\eta _{t}={\frac {w_{t}^{T}Sw_{t}}{2L|\rho (w_{t})|}}$ $w_{t+1}=w_{t}-\eta _{t}\triangledown \rho (w_{t})$ + $1$ $w_{t+1}=w_{t}-\eta _{t}\triangledown \rho (w_{t})$ - $\eta _{t}={\frac {w_{t}^{T}Sw_{t}}{2L|\rho (w_{t})|}}$ $t ▽$ w $_$ { $}$ - \ $eta$ $_$ { $t$ } \ $controlledown \rho$ ( $w$ _ { $t$ $\eta _{t}={\frac {w_{t}^{T}Sw_{t}}{2L|\rho (w_{t})|}}$ } ) $\eta _{t}={\frac {w_{t}^{T}Sw_{t}}{2L|\rho (w_{t})|}}$ 의 $w_{t+1}=w_{t}-\eta _{t}\triangledown \rho (w_{t})$ 구배 강하 스텝을 $검토합니다.$ $\rho (w_{0})\neq 0$ from $\rho (w_{0})\neq 0$ ( w $\rho (w_{0})\neq 0$ ) $0$ 0 \ displaystyle \ $rho$ ( $w$ _ { $0$ ) \ $neq$ 0 $\rho (w_{0})\neq 0$ 、

$\rho (w_{t})-\rho (w^{*})\leq {\bigg (}1-{\frac {\mu }{L}}{\bigg )}^{2t}(\rho (w_{0})-\rho (w^{*}))$ ( $\rho (w_{t})-\rho (w^{*})\leq {\bigg (}1-{\frac {\mu }{L}}{\bigg )}^{2t}(\rho (w_{0})-\rho (w^{*}))$ t ) - $\rho (w_{t})-\rho (w^{*})\leq {\bigg (}1-{\frac {\mu }{L}}{\bigg )}^{2t}(\rho (w_{0})-\rho (w^{*}))$ ( ( $\rho (w_{t})-\rho (w^{*})\leq {\bigg (}1-{\frac {\mu }{L}}{\bigg )}^{2t}(\rho (w_{0})-\rho (w^{*}))$ ) $\rho (w_{t})-\rho (w^{*})\leq {\bigg (}1-{\frac {\mu }{L}}{\bigg )}^{2t}(\rho (w_{0})-\rho (w^{*}))$ ( $\rho (w_{t})-\rho (w^{*})\leq {\bigg (}1-{\frac {\mu }{L}}{\bigg )}^{2t}(\rho (w_{0})-\rho (w^{*}))$ - $\rho (w_{t})-\rho (w^{*})\leq {\bigg (}1-{\frac {\mu }{L}}{\bigg )}^{2t}(\rho (w_{0})-\rho (w^{*}))$ $\rho (w_{t})-\rho (w^{*})\leq {\bigg (}1-{\frac {\mu }{L}}{\bigg )}^{2t}(\rho (w_{0})-\rho (w^{*}))$ ) $($ $\rho (w_{t})-\rho (w^{*})\leq {\bigg (}1-{\frac {\mu }{L}}{\bigg )}^{2t}(\rho (w_{0})-\rho (w^{*}))$ $\rho (w_{t})-\rho (w^{*})\leq {\bigg (}1-{\frac {\mu }{L}}{\bigg )}^{2t}(\rho (w_{0})-\rho (w^{*}))$ ( $\rho (w_{t})-\rho (w^{*})\leq {\bigg (}1-{\frac {\mu }{L}}{\bigg )}^{2t}(\rho (w_{0})-\rho (w^{*}))$ 0 $\rho (w_{t})-\rho (w^{*})\leq {\bigg (}1-{\frac {\mu }{L}}{\bigg )}^{2t}(\rho (w_{0})-\rho (w^{*}))$ ) - $($ ( $\rho (w_{t})-\rho (w^{*})\leq {\bigg (}1-{\frac {\mu }{L}}{\bigg )}^{2t}(\rho (w_{0})-\rho (w^{*}))$ ) \ $rho$ ( w _ { t } $)\rho$ ( w $^{$ t } $)\leq \bigg$ ( $\rho (w_{t})-\rho (w^{*})\leq {\bigg (}1-{\frac {\mu }{L}}{\bigg )}^{2t}(\rho (w_{0})-\rho (w^{*}))$ - { \ $frac$ { $mu$ } { L } { L $\rho (w_{t})-\rho (w^{*})\leq {\bigg (}1-{\frac {\mu }{L}}{\bigg )}^{2t}(\rho (w_{0})-\rho (w^{*}))$ } { $l$ } } } （ 2 $t$ ）

학습 반공간 문제

반공간 학습 문제는 가장 단순한 형태의 뉴럴 네트워크인 퍼셉트론의 훈련과 관련이 있다.이 경우의 최적화 문제는

$min_{{\tilde {w}}\in R^{d}}f_{LH}({\tilde {w}})=E_{y,x}[\phi (z^{T}{\tilde {w}})]$ $LH}({\tilde {w}})=$ $E_{y,x}[\phi(z^{)$ $T}{\tilde {w$ 여기서 $z=-yx$ $=$ - $z=-yx$ x $z=-yx$ {\ $displaystyle$ z=- $yx}$ 및 $z=-yx$ ${\$ {\ $displaystyle \phi }$ 는 $\phi$ 임의 손실 함수입니다.

$(\displaystyle \phi)$ 가 $\phi$ 무한히 미분 가능하며 유계 도함수를 갖는다고 가정합니다.목적 $f_{LH}$ $f_{LH}$ $f_{LH}$ H $(\$ 를 가정합니다.LH}}은ζ{\zeta\displaystyle}-smooth고 해결책은 α ∗)rg나는{\displaystyle \alpha ^{*}=argmin_{\alpha}\triangledown f(w\alpha)^{2}}과 경계 존재하고 있α ▽ f(wα)2의 스녀 m은− ∞<>α ∗<>∞{\displaystyle-\infty<>\alpha ^{*}<, \infty}. 또한 생각한다. z{\displ $aystyle$ z $}$ 는 $z$ 다변량 정규 랜덤 변수입니다.가우스 가정에서는 모든 임계점이 모든 손실 함수 $\phi$ 에서 동일한 선상에 있음을 알 수 있다 $.$ $f_{LH}$ 으로는 f $f_{LH}$ 의 기울기 $(\$ $displaystyle$ $\phi$ $LH}}$ 는 $f_{LH}$ 다음과 같이 나타낼 수 있습니다.

$\triangledown _{\tilde {w}}f_{LH}({\tilde {w}})=c_{1}({\tilde {w}})u+c_{2}({\tilde {w}})S{\tilde {w}}$ $LH}({\tilde {w}})=c_{1}({\tilde {w}})u+c_{2}({\tilde {w})$ $S{\tilde {w$ 여기서 $c_{1}({\tilde {w}})=E_{z}[\phi ^{(1)}(z^{T}{\tilde {w}})]-E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})](u^{T}{\tilde {w}})$ 1 ( $c_{1}({\tilde {w}})=E_{z}[\phi ^{(1)}(z^{T}{\tilde {w}})]-E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})](u^{T}{\tilde {w}})$ ~ ) $c_{1}({\tilde {w}})=E_{z}[\phi ^{(1)}(z^{T}{\tilde {w}})]-E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})](u^{T}{\tilde {w}})$ $c_{1}({\tilde {w}})=E_{z}[\phi ^{(1)}(z^{T}{\tilde {w}})]-E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})](u^{T}{\tilde {w}})$ [ ( $c_{1}({\tilde {w}})=E_{z}[\phi ^{(1)}(z^{T}{\tilde {w}})]-E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})](u^{T}{\tilde {w}})$ ( $c_{1}({\tilde {w}})=E_{z}[\phi ^{(1)}(z^{T}{\tilde {w}})]-E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})](u^{T}{\tilde {w}})$ ) $c_{1}({\tilde {w}})=E_{z}[\phi ^{(1)}(z^{T}{\tilde {w}})]-E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})](u^{T}{\tilde {w}})$ ( z $c_{1}({\tilde {w}})=E_{z}[\phi ^{(1)}(z^{T}{\tilde {w}})]-E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})](u^{T}{\tilde {w}})$ $c_{1}({\tilde {w}})=E_{z}[\phi ^{(1)}(z^{T}{\tilde {w}})]-E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})](u^{T}{\tilde {w}})$ ~ ) $c_{1}({\tilde {w}})=E_{z}[\phi ^{(1)}(z^{T}{\tilde {w}})]-E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})](u^{T}{\tilde {w}})$ - $c_{1}({\tilde {w}})=E_{z}[\phi ^{(1)}(z^{T}{\tilde {w}})]-E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})](u^{T}{\tilde {w}})$ z $c_{1}({\tilde {w}})=E_{z}[\phi ^{(1)}(z^{T}{\tilde {w}})]-E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})](u^{T}{\tilde {w}})$ [ $c_{1}({\tilde {w}})=E_{z}[\phi ^{(1)}(z^{T}{\tilde {w}})]-E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})](u^{T}{\tilde {w}})$ ( 2 ) $c_{1}({\tilde {w}})=E_{z}[\phi ^{(1)}(z^{T}{\tilde {w}})]-E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})](u^{T}{\tilde {w}})$ ( $c_{1}({\tilde {w}})=E_{z}[\phi ^{(1)}(z^{T}{\tilde {w}})]-E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})](u^{T}{\tilde {w}})$ $c_{1}({\tilde {w}})=E_{z}[\phi ^{(1)}(z^{T}{\tilde {w}})]-E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})](u^{T}{\tilde {w}})$ ~ ) ( $u$ T w $c_{1}({\tilde {w}})=E_{z}[\phi ^{(1)}(z^{T}{\tilde {w}})]-E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})](u^{T}{\tilde {w}})$ ~ ) \ display style $c_{1}$ ( {\ $tilde {w$ }} $=$ $E_{z}[\phi$ ^{( $1)}(z^{T}{\tilde {w}})]-E_{$ z}[\ $phi ^{T}{\tilde$ {w}}} ]( $c_{2}({\tilde {w}})=E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})]$ $^{T}{\tilde {w$ $c_{2}({\tilde {w}})=E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})]$ ) $c_{2}({\tilde {w}})=E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})]$ $c_{2}({\tilde {w}})=E_{z}[\phi ^{(2)}(z^{T}{\tilde {w}})]$ phi }) $E_{z}[\phi$ ^{( $2)(z^{T}{\tilde {w$ 및 $\phi ^{(i)}$ $\phi ^{(i)}$ ） { $displaystyle$ $\phi$ $^{(i)}}$ 는 $\phi ^{(i)}$ ${\$ {\ {\ {\ $\phi$ {\ $display$ display $display$ {\ {\ {\ {\ {\ {\ {\ {\ {\ e e e e e e e 。

따라서 구배를 0으로 설정하면 ${\tilde {w}}_{*}=g_{*}S^{-1}u$ ${\tilde {w}}_{*}$ ~ ${\$ { \ $display$ style { $tilde$ { $w$ ${\tilde {w}}_{*}=g_{*}S^{-1}u$ $}$ _ { * } {\ S ${\tilde {w}}_{*}$ ${\tilde {w}}_{*}=g_{*}S^{-1}u$ - ${\tilde {w}}_{*}=g_{*}S^{-1}u$ ( \ $display$ style { $w$ } _ { * } $= g$ _ { * ${\tilde {w}}_{*}=g_{*}S^{-1}u$ } $S^$ { - { - $1 u$ )로 나타낼 수 있습니다. $g_{*}$ 서 g는 ${\tilde {w}}_{*}$ w $g_{*}$ ~ ${\tilde {w}}_{*}$ $g_{*}$ { $display style$ g _ { display style } ${\tilde {w}}_{*}$ 에 $g_{*}$ ${\tilde {w}}_{*}$ 합니다 $.$ $w}_{*}$ 및 ${\tilde {w}}_{*}$ ${\$ {\ $display\phi$ $\phi$ 글로벌 속성과 길이 방향 디커플링을 조합하면 이 최적화 문제가 선형적으로 수렴됨을 증명할 수 있습니다.

첫째, 배치 정규화를 수반하는 경사 강하 변화인 GDNP는 목적 $min_{w\in R^{d}\backslash \{0\},\gamma \in R}f_{LH}(w,\gamma )$ $min_{w\in R^{d}\backslash \{0\},\gamma \in R}f_{LH}(w,\gamma )$ n w g R d $min_{w\in R^{d}\backslash \{0\},\gamma \in R}f_{LH}(w,\gamma )$ { $min_{w\in R^{d}\backslash \{0\},\gamma \in R}f_{LH}(w,\gamma )$ $min_{w\in R^{d}\backslash \{0\},\gamma \in R}f_{LH}(w,\gamma )$ , $min_{w\in R^{d}\backslash \{0\},\gamma \in R}f_{LH}(w,\gamma )$ $min_{w\in R^{d}\backslash \{0\},\gamma \in R}f_{LH}(w,\gamma )$ $min_{w\in R^{d}\backslash \{0\},\gamma \in R}f_{LH}(w,\gamma )$ $min_{w\in R^{d}\backslash \{0\},\gamma \in R}f_{LH}(w,\gamma )$ ( w $min_{w\in R^{d}\backslash \{0\},\gamma \in R}f_{LH}(w,\gamma )$ , $)$ ) \ $displaystyle min$ _ { $w$ \ $in R^$ { $d$ } \ $gam$ in \ $gam }$ ,LH $(w,\gamma$ 무게의 방향과 길이가 개별적으로 업데이트되도록 $합니다$ .GDNP의 정지 기준을 나타냅니다.

$h(w_{t},\gamma _{t})=E_{z}[\phi '(z^{T}{\tilde {w}}_{t})](u^{T}w_{t})-E_{z}[\phi ''(z^{T}{\tilde {w}}_{t})](u^{T}w_{t})^{2}$ $=E_{z}[\phi '($ $T}{\tilde {w}}_{t}]](u^{T}w_{t})-E_{z}[\phi ''(z^{)$ $T}$ {\ $tilde {w}}_{t$ }} $](u^{T}w_{t})^{2$

스텝 사이즈를 설정합니다.

$s_{t}=s(w_{t},\gamma _{t})=-{\frac {||w_{t}||_{S}^{3}}{Lg_{t}h(w_{t},\gamma _{t})}}$ t $s_{t}=s(w_{t},\gamma _{t})=-{\frac {||w_{t}||_{S}^{3}}{Lg_{t}h(w_{t},\gamma _{t})}}$ ( $s_{t}=s(w_{t},\gamma _{t})=-{\frac {||w_{t}||_{S}^{3}}{Lg_{t}h(w_{t},\gamma _{t})}}$ t , $s_{t}=s(w_{t},\gamma _{t})=-{\frac {||w_{t}||_{S}^{3}}{Lg_{t}h(w_{t},\gamma _{t})}}$ t ) $s_{t}=s(w_{t},\gamma _{t})=-{\frac {||w_{t}||_{S}^{3}}{Lg_{t}h(w_{t},\gamma _{t})}}$ - $s_{t}=s(w_{t},\gamma _{t})=-{\frac {||w_{t}||_{S}^{3}}{Lg_{t}h(w_{t},\gamma _{t})}}$ t $s_{t}=s(w_{t},\gamma _{t})=-{\frac {||w_{t}||_{S}^{3}}{Lg_{t}h(w_{t},\gamma _{t})}}$ 3 $s_{t}=s(w_{t},\gamma _{t})=-{\frac {||w_{t}||_{S}^{3}}{Lg_{t}h(w_{t},\gamma _{t})}}$ $s_{t}=s(w_{t},\gamma _{t})=-{\frac {||w_{t}||_{S}^{3}}{Lg_{t}h(w_{t},\gamma _{t})}}$ $s_{t}=s(w_{t},\gamma _{t})=-{\frac {||w_{t}||_{S}^{3}}{Lg_{t}h(w_{t},\gamma _{t})}}$ h ( $s_{t}=s(w_{t},\gamma _{t})=-{\frac {||w_{t}||_{S}^{3}}{Lg_{t}h(w_{t},\gamma _{t})}}$ , $s_{t}=s(w_{t},\gamma _{t})=-{\frac {||w_{t}||_{S}^{3}}{Lg_{t}h(w_{t},\gamma _{t})}}$ t ) $s_{t}=s(w_{t},\gamma _{t})=-{\frac {||w_{t}||_{S}^{3}}{Lg_{t}h(w_{t},\gamma _{t})}}$ { $displaystyle s$ _ { $t$ } $= s$ ( w $_$ { t , \ $display$ style s _ { t } ) = - { $\ frac$ { $t$ } _ { { { s } { { { { s } { { { { { { S } _ { { { { { $t }$ } } { $Lgam$ } { $Lgam$ } } { $Lgam$ } $s_{t}=s(w_{t},\gamma _{t})=-{\frac {||w_{t}||_{S}^{3}}{Lg_{t}h(w_{t},\gamma _{t})}}$ } } }

각 스텝에 대해h $h(w_{t},\gamma _{t})\neq 0$ $h(w_{t},\gamma _{t})\neq 0$ t , " $h(w_{t},\gamma _{t})\neq 0$ ) $h(w_{t},\gamma _{t})\neq 0$ 0 $h(w_{t},\gamma _{t})\neq 0$ \ $displaystyle$ h ( $w$ _ { $t$ , \ $gamma$ _ { $t$ ) \ $neq$ 0 $h(w_{t},\gamma _{t})\neq 0$ 인 경우 $h(w_{t},\gamma _{t})\neq 0$ 과 같이 방향을 업데이트합니다.

$w_{t+1}=w_{t}-s_{t}\triangledown _{w}f(w_{t},\gamma _{t})$ t $w_{t+1}=w_{t}-s_{t}\triangledown _{w}f(w_{t},\gamma _{t})$ + $w_{t+1}=w_{t}-s_{t}\triangledown _{w}f(w_{t},\gamma _{t})$ $w_{t+1}=w_{t}-s_{t}\triangledown _{w}f(w_{t},\gamma _{t})$ $w_{t+1}=w_{t}-s_{t}\triangledown _{w}f(w_{t},\gamma _{t})$ - $w_{t+1}=w_{t}-s_{t}\triangledown _{w}f(w_{t},\gamma _{t})$ $w_{t+1}=w_{t}-s_{t}\triangledown _{w}f(w_{t},\gamma _{t})$ $w_{t+1}=w_{t}-s_{t}\triangledown _{w}f(w_{t},\gamma _{t})$ $w_{t+1}=w_{t}-s_{t}\triangledown _{w}f(w_{t},\gamma _{t})$ ( $w_{t+1}=w_{t}-s_{t}\triangledown _{w}f(w_{t},\gamma _{t})$ , $w_{t+1}=w_{t}-s_{t}\triangledown _{w}f(w_{t},\gamma _{t})$ t t t $){$ $displaystyle$ w _ { $t$ + $1 =$ w _ { t } - $s$ _ { t } \ $controldown _$ { $w } f$ ( $w$ _ { $t$ , \ $t}$ )

다음에 따라 길이를 업데이트합니다.

$\gamma _{t}=Bisection(T_{s},f,w_{t})$ § $\gamma _{t}=Bisection(T_{s},f,w_{t})$ = $\gamma _{t}=Bisection(T_{s},f,w_{t})$ $\gamma _{t}=Bisection(T_{s},f,w_{t})$ $\gamma _{t}=Bisection(T_{s},f,w_{t})$ $\gamma _{t}=Bisection(T_{s},f,w_{t})$ o $\gamma _{t}=Bisection(T_{s},f,w_{t})$ ( $\gamma _{t}=Bisection(T_{s},f,w_{t})$ $\gamma _{t}=Bisection(T_{s},f,w_{t})$ , f , $\gamma _{t}=Bisection(T_{s},f,w_{t})$ $t$ ) { $displaystyle$ \ $disection$ _ { t } = $Bisection$ $Bisection()$ ( T _ { $s$ , f , $w$ _ { t $\gamma _{t}=Bisection(T_{s},f,w_{t})$ } ) 。 $Bisection()$ 서 $Bisection()$ $c$ $Bisection()$ o n $Bisection()$ ( )는 고전적인 이등분 $T_{s}$ 이고 $T_{s}$ sylearginations ( )는 $Bisection()$ $Tisplay$ style tyle tyle terations 입니다 $T_{s}$ $.$

총 반복 횟수를 $T_{d}$ \ $displaystyle$ T_ ${d$ 로 $T_{d}$ .GDNP 의 최종 출력은 다음과 같습니다.

${\tilde {w}}_{T_{d}}=\gamma _{T_{d}}{\frac {w_{T_{d}}}{||w_{T_{d}}||_{S}}}$ $T_{d}=\gamma_{T_{d}}{\frac {w_{$ $T_{d}}{w_{$ $T_{d}_{S$

따라서 GDNP 알고리즘은 수학적 분석을 용이하게 하기 위해 배치 정규화 단계를 약간 변경합니다.

GDNP에서 f $f_{LH}$ H의 $f_{LH}$ 도함수 {\ $displaystyle f_{$ $길이$ 구성요소에 대한 $f_{LH}$ LH}}는 $f_{LH}$ 선형 속도로 0으로 수렴되며, 다음과 같이 됩니다.

$)$ $LH}(w_{t},a_{t}^{(T_{s})^{2}\leq {frac {2^{-T_{s$ }}\ $zeta$ b_ ${t}^{(0)}{\mu$ ^{ $2$ mu （ t $a_{t}^{(0)}$ ）。 $a_{t}^{(0)}$ 서 $a_{t}^{(0)}$ a ( $a_{t}^{(0)}$ ) { $display style$ a _ 0 $a_{t}^{(0)}$ } } $b_{t}^{0}$ (( _(( $b_{t}^{0}$ { tyle $a_{t}^{(0)}$ a _ 0 ( ( ( ( { 0 $a_{t}^{(0)}$ } (( ( ( { { {( {( (

또한 각 반복마다 $f_{LH}$ H의 $f_{LH}$ 기준(\ $displaystyle f_{)$ $w\displaystyle$ w에 $대해$ LH}는 $f_{LH}$ 다음과 같이 선형적으로 수렴됩니다 $w$ .

$||w_{t}||_{S}^{2}||\triangledown f_{LH}(w_{t},g_{t})||_{S^{-1}}^{2}\leq {\bigg (}1-{\frac {\mu }{L}}{\bigg )}^{2t}\Phi ^{2}\gamma _{t}^{2}(\rho (w_{0})-\rho ^{*})$ $Phi$ ^{ $2}\gamma$ _ ${t}^2}(\rho$ ( $w_{$ 0})-\ $rho$

따라서 이 두 부등식을 결합하면 w ${\tilde {w}}_{T_{d}}$ ~ ${\tilde {w}}_{T_{d}}$ d ${\tilde {w}}_{T_{d}}$ \ $displaystyle$ \ $tilde$ { $w}_{$ 에 ${\tilde {w}}_{T_{d}}$ 기울기에 대한 경계를 얻을 수 있다. $T_{d$

$($ $T_{d})^{2}\leq {bigg (}1-{\frac {mu }{L}}{\bigg}}^{2$ $T_{d}}\Phi$ ^{ $2}(\rho (w_{0}-\rho$ ^{*})+{\ $frac {2^{-T_{s}}}\zeta b_{t}^{(0)}-a_{{(0)}}}{\mu^2$ 알고리즘이 선형 수렴이 보장됩니다.

증명은 가우스 입력의 가정에 근거하고 있지만, GDNP가 이러한 제약 없이 최적화를 가속할 수 있다는 것도 실험에서 증명되었다.

뉴럴 네트워크

1개의 숨김 $m$ 와 $m개$ 의 $m$ 숨김 $유닛$ 을 가진 Multilayer Perceptron( $MLP$ ; 멀티레이어 퍼셉트론)과 입력 x $x\in R^{d}$ R $^$ { $d$ } 에서 $x\in R^{d}$ 다음과 같이 스칼라 출력에 매핑하는 것을 검토합니다.

$F_{x}({\tilde {W}},\Theta )=\sum _{i=1}^{m}\theta _{i}\phi (x^{T}{\tilde {w}}^{(i)})$ $T}{\tilde {w}^{(i$ ${\tilde {w}}^{(i)}$ 서 ${\tilde {w}}^{(i)}$ w ${\tilde {w}}^{(i)}$ ~ ( $i)$ { $displaystyle {$ w $}^{($ $i$ )})}은 $\theta _{i}$ $i$ {{ $displaystyle$ i $}$ 의 입력 $i$ 및 출력 무게이며, ${\$ { $displaystyle \$ phi $}$ 는 $\theta _{i}$ $\phi$ 활성화 함수로 간주됩니다.

입력 및 출력 가중치는 다음 방법으로 최적화할 수 있습니다.

$min_{{\tilde {W}},\Theta }(f_{NN}({\tilde {W}},\Theta )=E_{y,x}[l(-yF_{x}({\tilde {W}},\Theta ))])$ $E_{y,x}[l(-yF_{x}({\tilde {$ ${\tilde {W}}=\{{\tilde {w}}^{(1)},...,{\tilde {w}}^{(m)}\}$ $}},\Theta)]$ } $min_{{\tilde {W}},\Theta }(f_{NN}({\tilde {W}},\Theta )=E_{y,x}[l(-yF_{x}({\tilde {W}},\Theta ))])$ }, l{ $displaystyle$ l $}$ 은 $l$ 손실 ${\tilde {W}}=\{{\tilde {w}}^{(1)},...,{\tilde {w}}^{(m)}\}$ 이며 ${\tilde {W}}=\{{\tilde {w}}^{(1)},...,{\tilde {w}}^{(m)}\}$ W ${\tilde {W}}=\{{\tilde {w}}^{(1)},...,{\tilde {w}}^{(m)}\}$ ~ ${\tilde {W}}=\{{\tilde {w}}^{(1)},...,{\tilde {w}}^{(m)}\}$ { ${\tilde {W}}=\{{\tilde {w}}^{(1)},...,{\tilde {w}}^{(m)}\}$ ~ ${\tilde {W}}=\{{\tilde {w}}^{(1)},...,{\tilde {w}}^{(m)}\}$ ( ${\tilde {W}}=\{{\tilde {w}}^{(1)},...,{\tilde {w}}^{(m)}\}$ ) , ${\tilde {W}}=\{{\tilde {w}}^{(1)},...,{\tilde {w}}^{(m)}\}$ . ~ ${\tilde {W}}=\{{\tilde {w}}^{(1)},...,{\tilde {w}}^{(m)}\}$ ( ${\tilde {W}}=\{{\tilde {w}}^{(1)},...,{\tilde {w}}^{(m)}\}$ ) $}$ { $displaystyle$ { W} $=$ \ ${\tilde$ { w } } } } } } } {{{{\ $tilde$ { tilde { tilde { 1 } } } } } } } } } } 。 $ta ^{(m$

고정 $\Theta$ (\ $displaystyle$ $\Theta)$ 와 $\Theta$ W $~(\$ $displaystyle$ { $W$ ${\tilde {W}}$ 만을 최적화한다고 가정하면 특정 숨겨진 $i$ 의 $fN($ 의 $f_{NN}({\tilde {W}})$ 임계점이 있음을 알 수 있습니다 $tilde$ { $}).$ 은닉 레이어에 착신하는 정보에 따라 1개의 라인을 따라 정렬합니다.이렇게 하면,

${\hat {w}}^{(i)}={\hat {c}}^{(i)}S^{-1}u$ $S^{-1}u$ ${\hat {c}}^{(i)}\in R$ 서 c ${\hat {c}}^{(i)}\in R$ ( ${\hat {c}}^{(i)}\in R$ ) ${\hat {c}}^{(i)}\in R$ R ${\displaystyle {c}^{(i)}\in$ R ${\hat {c}}^{(i)}\in R$ }는 ${\hat {c}}^{(i)}\in R$ $i=1,...,m$ $,$ $i=1,...,m$ $i=1,...,m$ 1, $i=1,...,m$ . $i=1,...,m$ , $i=1,...,m$ { $displaystyle$ i= $i=1,...,m$ 1 $,$ . $m$ } 입니다.

$f_{NN}$ 결과는 f $f_{NN}$ 의 $f_{NN}$ 를 설정하여 입증할 수 있습니다 $.$ $NN$ 0으로 계산하고 방정식 시스템을 푼다.

이 최적화 문제에 GDNP 알고리즘을 적용하기 위해서는 숨겨진 다른 유닛에 대한 최적화를 번갈아 실시합니다.특히 숨김 유닛별로 GDNP를 실행하여 $W$ 의 W $(\displaystyle$ W $)$ $\gamma$ {\(\ $displaystyle \gamma$ 를 찾습니다.정지 기준과 스텝사이즈를 동일하게 선택하면 다음과 같이 됩니다.

$2$ $1-{\frac {mu}{L}}{\$ bigg $}}{2t}C(\rho$ (w_ ${0$ })-\ $rho ^{*})+{\frac {2^{-T_{s}^{(i$ )}}}\ $zeta b_{t$ }^{{(2 $)}}$ ^{} } $^2}$

숨겨진 각 유닛의 파라미터가 선형으로 수렴되기 때문에 최적화 문제 전체가 선형 ^[4]수렴 속도를 가집니다.

레퍼런스

^ ^a ^b ^c ^d Ioffe, Sergey; Szegedy, Christian (2015). "Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift". arXiv:1502.03167 [cs.LG].
^ ^a ^b ^c ^d Santurkar, Shibani; Tsipras, Dimitris; Ilyas, Andrew; Madry, Aleksander (29 May 2018). "How Does Batch Normalization Help Optimization?". arXiv:1805.11604 [stat.ML].
^ ^a ^b Yang, Greg; Pennington, Jeffrey; Rao, Vinay; Sohl-Dickstein, Jascha; Schoenholz, Samuel S. (2019). "A Mean Field Theory of Batch Normalization". arXiv:1902.08129 [cs.NE].
^ ^a ^b ^c Kohler, Jonas; Daneshmand, Hadi; Lucchi, Aurelien; Zhou, Ming; Neymeyr, Klaus; Hofmann, Thomas (27 May 2018). "Exponential convergence rates for Batch Normalization: The power of length-direction decoupling in non-convex optimization". arXiv:1805.10694 [stat.ML].
^ "Papers with Code - High-Performance Large-Scale Image Recognition Without Normalization". paperswithcode.com. Retrieved 11 October 2021.
^ Brock, Andrew; De, Soham; Smith, Samuel L.; Simonyan, Karen (11 February 2021). "High-Performance Large-Scale Image Recognition Without Normalization". arXiv:2102.06171 [cs.CV].
^ ^a ^b Simonyan, Karen; Andrew, Zisserman (2014). "Very Deep Convolution Networks for Large Scale Image Recognition". arXiv:1409.1556 [cs.CV].
^ Knyazev, Neymeyr, A.V., K. (2003). "A geometric theory for preconditioned inverse iteration III: A short and sharp convergence estimate for generalized eigenvalue problems". Linear Algebra and Its Applications. 358 (1–3): 95–114. doi:10.1016/S0024-3795(01)00461-X.

Iofe, Sergey; Szegedy, Christian (2015)."배치 정규화:내부 공변량 시프트를 줄임으로써 심층 네트워크 훈련 가속화, ICML'15: 제32회 기계학습 국제회의 진행 - 제37권, 2015년 7월, 448~456쪽
Simonyan, Karen; Zisserman, Andrew (2014). "Very Deep Convolutional Networks for Large-Scale Image Recognition". arXiv:1409.1556 [cs.CV].

[:0-1] Ioffe, Sergey; Szegedy, Christian (2015). "Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift". arXiv:1502.03167 [cs.LG].

[:1-2] Santurkar, Shibani; Tsipras, Dimitris; Ilyas, Andrew; Madry, Aleksander (29 May 2018). "How Does Batch Normalization Help Optimization?". arXiv:1805.11604 [stat.ML].

[:7-3] Yang, Greg; Pennington, Jeffrey; Rao, Vinay; Sohl-Dickstein, Jascha; Schoenholz, Samuel S. (2019). "A Mean Field Theory of Batch Normalization". arXiv:1902.08129 [cs.NE].

[:2-4] Kohler, Jonas; Daneshmand, Hadi; Lucchi, Aurelien; Zhou, Ming; Neymeyr, Klaus; Hofmann, Thomas (27 May 2018). "Exponential convergence rates for Batch Normalization: The power of length-direction decoupling in non-convex optimization". arXiv:1805.10694 [stat.ML].

[5] "Papers with Code - High-Performance Large-Scale Image Recognition Without Normalization". paperswithcode.com. Retrieved 11 October 2021.

[6] Brock, Andrew; De, Soham; Smith, Samuel L.; Simonyan, Karen (11 February 2021). "High-Performance Large-Scale Image Recognition Without Normalization". arXiv:2102.06171 [cs.CV].

[VGG-7] Simonyan, Karen; Andrew, Zisserman (2014). "Very Deep Convolution Networks for Large Scale Image Recognition". arXiv:1409.1556 [cs.CV].

[8] Knyazev, Neymeyr, A.V., K. (2003). "A geometric theory for preconditioned inverse iteration III: A short and sharp convergence estimate for generalized eigenvalue problems". Linear Algebra and Its Applications. 358 (1–3): 95–114. doi:10.1016/S0024-3795(01)00461-X.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Search