확률적 경사 강하

확률적 경사 강하(흔히 SGD로 약칭됨)는 적절한 평활성 특성(예: 미분 가능 또는 하위 미분 가능)을 가진 목적 함수를 최적화하는 반복 방법이다.실제 구배(전체 데이터 집합에서 계산)를 추정치(임의로 선택된 데이터의 하위 집합에서 계산)로 대체하기 때문에 구배 강하 최적화의 확률적 근사치로 간주할 수 있다.특히 고차원 최적화 문제에서 이는 매우 높은 계산 부담을 줄여 낮은 수렴률을 ^[1]위한 거래에서 더 빠른 반복을 달성합니다.

확률적 근사 뒤에 있는 기본 아이디어는 1950년대의 로빈스-몬로 알고리즘으로 거슬러 올라갈 수 있지만, 확률적 경사 강하법은 기계 ^[2]학습에서 중요한 최적화 방법이 되었다.

배경

통계적 추정과 기계학습은 모두 합의 형태를 갖는 객관적 함수를 최소화하는 문제를 고려한다.

{{displaystyle Q(w)=subfrac {1}{n}\sum _{i=1}^{n}Q_{i}(w)}

여기서 Q $($ 를 $Q(w)$ $Q(w)$ 하는 $파라미터$ w $($ $w)$ 를 $w$ 추정한다.각 summand $Q_{i}$ $Q_{i}$ {\ $displaystyle$ Q_{i}는 $Q_{i}$ 일반적으로 데이터 집합의 i {\ $displaystyle$ i $}$ 번째 $i$ 관찰과 관련됩니다(훈련에 사용).

고전 통계량에서는 최소 제곱과 최대우도 추정(독립 관측치의 경우)에서 합계 최소화 문제가 발생합니다.합계의 최소화로 발생하는 일반적인 추정치를 M-추정기라고 합니다.그러나, 통계학에서는 국소 최소화를 요구하는 것이 최대우도 ^[3]추정의 일부 문제에 대해 너무 제한적이라는 것이 오랫동안 인식되어 왔다.따라서, 현대의 통계 이론가들은 종종 우도함수의 정지점(또는 도함수의 0, 점수 함수 및 기타 추정 방정식)을 고려한다.

총 최소화 문제는 경험적 위험 최소화에 대해서도 발생한다.이 경우 $Q_{i}(w)$ ( $Q_{i}(w)$ w $){displaystyle Q_{i}(w)$ 는 $Q_{i}(w)$ i { $displaystyle$ i $}$ 번째 $i$ $i$ 에서 손실함수의 $Q(w)$ 이고 $Q(w)$ Q ( $)$ { $displaystyle$ Q $(w)}$ 는 $Q(w)$ 경험적 리스크입니다.

위의 기능을 최소화하기 위해 사용되는 경우, 표준(또는 "배치") 경사 강하 방법은 다음과 같은 반복을 수행한다.

w:=w-\eta Q(w)=w-{\frac {eta}{n}\sum _{i=1}^{n}\timela Q_{i}(w)

$\eta$ 서 ${\$ { $displaystyle \eta }$ 는 $\eta$ 스텝 크기(기계 학습에서는 학습 속도라고도 함)입니다.

많은 경우, SUMD 함수는 합함수와 합 구배를 저렴하게 평가할 수 있는 단순한 형태를 가지고 있다.예를 들어, 통계에서 단일 모수 지수 패밀리는 경제적인 함수 평가와 구배 평가를 허용합니다.

그러나, 다른 경우, 합계 기울기를 평가하려면 모든 가산 함수의 기울기에 대한 값비싼 평가가 필요할 수 있다.훈련 세트가 거대하고 간단한 공식이 존재하지 않는 경우, 구배를 평가하려면 모든 가산 함수의 구배를 평가해야 하기 때문에 구배 합계를 평가하는 데 비용이 매우 많이 든다.모든 반복에서 계산 비용을 절약하기 위해 확률적 경사 강하에서는 모든 단계에서 가산 함수의 하위 집합을 샘플링한다.이는 대규모 기계학습 ^[4]문제의 경우에 매우 효과적입니다.

반복법

미니 배치에 대한 경사 단계로서의 총 목적 함수의 변동을 취한다.

확률적(또는 "온라인") 경사 강하 시 Q $($ w $)$ 의 $Q(w)$ 실제 경사도는 단일 표본의 경사도에 의해 근사된다.

w:=w-\eta\sq_{i}(w)

알고리즘은 트레이닝 세트를 스위프하면 각 트레이닝 샘플에 대해 위의 업데이트를 수행합니다.알고리즘이 수렴될 때까지 트레이닝 세트를 여러 번 패스할 수 있습니다.이렇게 하면 각 패스에 대해 데이터를 셔플하여 사이클을 방지할 수 있습니다.일반적인 구현에서는 알고리즘이 ^[5]수렴되도록 적응형 학습 속도를 사용할 수 있습니다.

의사 코드에서 확률적 경사 강하는 다음과 같이 나타낼 수 있다.

$파라미터의$ 초기 벡터는 $w\$ displaystyle과 $w$ learning $\eta$ \ $eta$ 로 선택합니다 $.$
대략적인 최소값이 될 때까지 반복합니다.
- 교육 세트에서 샘플을 무작위로 섞습니다.
- $i=1,2,...,n$ $i=1,2,...,n$ , $i=1,2,...,n$ 2, $i=1,2,...,n$ n ${\displaystyle$ i $=1,2,...n$ 의 경우 $i=1,2,...,n$ 을 수행합니다.
  - $w:=w-\eta\sq_{i}(w)$

단일 샘플에서 실제 구배와 구배 계산 사이의 절충안은 각 단계에서 둘 이상의 훈련 샘플("미니 배치"라고 함)에 대해 구배를 계산하는 것입니다.이것은 "진정한" 확률적 구배 강하보다 훨씬 더 잘 수행될 수 있다. 왜냐하면 코드는 "번치 모드 역전파 알고리즘"이라고 처음 나타난 것처럼 각 단계를 따로 계산하는 대신 벡터화 라이브러리를 사용할 수 있기 때문이다.또한 각 단계에서 계산된 구배가 더 많은 훈련 샘플에 대해 평균화되므로 보다 원활한 수렴이 이루어질 수 있습니다.

확률적 경사 강하 수렴은 볼록 최소화 이론과 확률적 근사 이론을 사용하여 분석되었다.간단히 말해, 학습율 $\eta$ { $style \eta}$ 이 $\eta$ 적절한 비율로 감소하고 비교적 가벼운 가정 하에 있을 때 확률적 경사 강하(stochastic gradient descent)는 목적 함수가 볼록 또는 의사 볼록일 때 전역 최소값으로 거의 확실하게 수렴되고 그렇지 않을 경우 국소 ^[7]^[8]최소값으로 수렴된다.이것은 사실 로빈스 가족의 결과이다.-시그문트 정리.^[9]

예

${\hat {y}}=\!w_{1}+w_{2}x$ 를 들어 ${\hat {y}}=\!w_{1}+w_{2}x$ y ^ ${\hat {y}}=\!w_{1}+w_{2}x$ ${\hat {y}}=\!w_{1}+w_{2}x$ ${\hat {y}}=\!w_{1}+w_{2}x$ + w ${\hat {y}}=\!w_{1}+w_{2}x$ x \ $displaystyle \ hat$ { y} $=$ \ 。 $w_{1}+w_{2}x}$ 에서 ${\hat {y}}=\!w_{1}+w_{2}x$ 관찰 $(x_{1},x_{2},\ldots ,x_{n})$ $(x_{1},x_{2},\ldots ,x_{n})$ $)$ { $displaystyle (x_{$ 1}, $x_{2},\ldots, x_{n$ $})$ 및 $(x_{1},x_{2},\ldots ,x_{n})$ 대응하는 예상 응답 $({\hat {y_{1}}},{\hat {y_{2}}},\ldots ,{\hat {y_{n}}})$ 1 $({\hat {y_{1}}},{\hat {y_{2}}},\ldots ,{\hat {y_{n}}})$ $({\hat {y_{1}}},{\hat {y_{2}}},\ldots ,{\hat {y_{n}}})$ $({\hat {y_{1}}},{\hat {y_{2}}},\ldots ,{\hat {y_{n}}})$ $({\hat {y_{1}}},{\hat {y_{2}}},\ldots ,{\hat {y_{n}}})$ n ^) {displaystyle $({\hat {1},$ {n}) {n}, \ $hat},$ {n}, {n}, {n}, {n}, {n}, {n}, {n}, {n}, {n}, {n}, {n}, {n최소화하는 목적 함수는 다음과 같습니다.

({displaystyle Q(w)=\sum _{i=1}^{i}\left\hat {y_{i}}-y_{i}\right)^{2}=\sum _{i=1}^{n}\left(w_{1}+{i}_i}-{x}_i})=\sum

이 특정 문제에 대한 위의 의사 코드의 마지막 행은 다음과 같습니다.

{bmatrix}w_{1}\w_{2}\end{bmatrix}:=param {bmatrix}w_{1}\\w_{2}\end{bmatrix}-\eta {\frac {\frac}{\frac w_{1}(w_{1}+w_{2}x_y_{i}^2}\\frac {{bmatrix})

각 반복(업데이트라고도 함)에서 그라데이션은 모든 샘플 세트가 아닌 단일 $x_{i}$ x $(\$ })에서만 $x_{i}$ 평가됩니다.

표준(배치) 경사 강하와 비교되는 주요 차이점은 데이터 집합의 데이터를 하나만 사용하여 단계를 계산하고 각 단계에서 데이터 조각을 무작위로 선택한다는 것입니다.

주목할 만한 응용 프로그램

확률적 경사 하강은 (선형) 지원 벡터 기계, 로지스틱 회귀(예: 서약팔 와빗 참조) 및 그래픽 ^[10]모델을 포함한 기계 학습의 광범위한 모델을 훈련하기 위해 널리 사용되는 알고리즘이다.역전파 알고리즘과 결합하면 인공신경망을 ^[11]훈련하기 위한 사실상의 표준 알고리즘이다.지구물리학 커뮤니티, 특히 FWI(^[12]Full Waveform Inversion) 응용 프로그램에서도 이 사용이 보고되었습니다.

확률적 경사 하강은 또한 널리 사용되는 L-BFGS ^{[citation needed]}알고리즘과 경쟁한다.확률적 경사 강하(stochastic gradient descent)는 원래 ^[13]ADALIN이라는 이름으로 선형 회귀 모델을 훈련하기 위해 적어도 1960년부터 사용되어 왔다.

또 다른 확률적 경사 강하 알고리즘은 최소 평균 제곱(LMS) 적응 필터입니다.

확장 및 변형

기본적인 확률적 경사 강하 알고리즘에 대한 많은 개선이 제안되고 사용되었다.특히 머신러닝에서는 학습률(스텝 사이즈)을 설정할 필요성이 문제로 인식되고 있습니다.이 파라미터를 너무 높게 설정하면 알고리즘이 분산될 수 있습니다.너무 낮게 설정하면 ^[14]컨버지가 느려집니다.확률적 구배 강하의 개념적으로 단순한 확장에 의해 학습률이 $반복수$ t의 감소함수 $θ$ 가_t 되어 학습률 스케줄이 주어지고, 첫 번째 반복은 파라미터의 큰 변화를 가져오지만, 이후 반복은 미세조정만 한다.이러한 일정은 MacQueen의 k-평균 클러스터링 ^[15]연구 이후 알려져 왔다.Spall은 SGD의 여러 변형에서 단계 크기를 선택하는 방법에 대한 ^[16]실제 지침을 제공한다.

암묵적 갱신(ISGD)

앞서 언급했듯이, 고전적인 확률적 경사 강하법은 일반적으로 학습 속도 $δ$ 에 민감하다.빠른 컨버전스는 높은 학습률을 요구하지만 이는 수치적 불안정성을 유발할 수 있다.이 문제는 현재가 아닌 다음 반복 시 확률적 구배를 평가하는 암묵적 업데이트를 고려함으로써 크게 해결할^[17] 수 있다.

\displaystyle w^{\rm {new}:=w^{\rm {old}}-\eta \sq_{i}(w^{\rm {new})}

$w^{\rm {new}}$ 방정식은 wn e $w^{\rm {new}}$ {\ $display$ w $^{\rm {new}}}$ 가 $w^{\rm {new}}$ 방정식의 양쪽에 $w^{\rm {new}}$ 암묵적입니다.업데이트는 다음과 같이 기록될 수 있으므로 근위 경사법의 확률적 형식이다.

w^{\rm {new}:=\min \{w}\{Q_{i}(w)+{\frac {1}{2\eta}} w-w^{\rm {old}}^{2}\}.

예를 들어 $x_{1},\ldots ,x_{n}\in \mathbb {R} ^{p}$ $x_{1},\ldots ,x_{n}\in \mathbb {R} ^{p}$ 1, $x_{1},\ldots ,x_{n}\in \mathbb {R} ^{p}$ $x_{1},\ldots ,x_{n}\in \mathbb {R} ^{p}$ $r$ R $p,$ $x_{n}\in \mathbb {R}^{p}$ 및 $x_{1},\ldots ,x_{n}\in \mathbb {R} ^{p}$ $y_{1},\ldots ,y_{n}\in \mathbb {R}$ $y_{1},\ldots ,y_{n}\in \mathbb {R}$ 1, $y_{1},\ldots ,y_{n}\in \mathbb {R}$ $y_{1},\ldots ,y_{n}\in \mathbb {R}$ n $y_{1},\ldots ,y_{n}\in \mathbb {R}$ R {\ $displaystyle y_{1$ }, \ $ldots,$ y ${n}\in \mathbb$ R $y_{1},\ldots ,y_{n}\in \mathbb {R}$ 을 가진 최소 제곱에 대해 설명합니다.

\min _{w}\sum _{j=1}^{n}(y_{j}-x_{j}'w)^{2

$x_{j}'w=x_{j1}w_{1}+x_{j,2}w_{2}+...+x_{j,p}w_{p}$ 서 $x_{j}'w=x_{j1}w_{1}+x_{j,2}w_{2}+...+x_{j,p}w_{p}$ j $x_{j}'w=x_{j1}w_{1}+x_{j,2}w_{2}+...+x_{j,p}w_{p}$ $x_{j}'w=x_{j1}w_{1}+x_{j,2}w_{2}+...+x_{j,p}w_{p}$ $x_{j}'w=x_{j1}w_{1}+x_{j,2}w_{2}+...+x_{j,p}w_{p}$ $x_{j}'w=x_{j1}w_{1}+x_{j,2}w_{2}+...+x_{j,p}w_{p}$ $x_{j}'w=x_{j1}w_{1}+x_{j,2}w_{2}+...+x_{j,p}w_{p}$ $x_{j}'w=x_{j1}w_{1}+x_{j,2}w_{2}+...+x_{j,p}w_{p}$ $x_{j}'w=x_{j1}w_{1}+x_{j,2}w_{2}+...+x_{j,p}w_{p}$ + $x_{j}'w=x_{j1}w_{1}+x_{j,2}w_{2}+...+x_{j,p}w_{p}$ , $x_{j}'w=x_{j1}w_{1}+x_{j,2}w_{2}+...+x_{j,p}w_{p}$ $x_{j}'w=x_{j1}w_{1}+x_{j,2}w_{2}+...+x_{j,p}w_{p}$ 2 $x_{j}'w=x_{j1}w_{1}+x_{j,2}w_{2}+...+x_{j,p}w_{p}$ + $x_{j}'w=x_{j1}w_{1}+x_{j,2}w_{2}+...+x_{j,p}w_{p}$ . + $x_{j}'w=x_{j1}w_{1}+x_{j,2}w_{2}+...+x_{j,p}w_{p}$ , $x_{j}'w=x_{j1}w_{1}+x_{j,2}w_{2}+...+x_{j,p}w_{p}$ w \ $displaystyle$ x _ { $j$ } 'w $x_{j}'w=x_{j1}w_{1}+x_{j,2}w_{2}+...+x_{j,p}w_{p}$ = $x$ _ { $j1}$ + $x _$ { $j$ , $2}$ w $_$ {2 $} +$ $+x_{j,p}w_{p}$ 는 $x_{j}'w=x_{j1}w_{1}+x_{j,2}w_{2}+...+x_{j,p}w_{p}$ 내부 제품을 나타냅니다.x(\displaystyle x $)$ 는 $x$ $절편을 포함$ 하는 첫 번째 요소로 " $1$ "을 사용할 수 있습니다.고전적 확률적 경사 강하법은 다음과 같이 진행된다.

\displaystyle w^{\rm {new}}=w^{\rm {old}}+\eta(y_{i}-x_{i}'w^{\rm {old}})x_{i}

$i$ 서 i ${displaystyle$ i $}$ 는 $i$ $n$ 과n{ $displaystyle$ n $n$ 사이에서 균일하게 샘플링됩니다. 이 절차의 이론적 수렴은 비교적 가벼운 가정하에서 발생하지만 실제로는 절차가 상당히 불안정할 수 있습니다. $\eta$ $I-\eta x_{i}x_{i}'$ I - $I-\eta x_{i}x_{i}'$ $I-\eta x_{i}x_{i}'$ i $I-\eta x_{i}x_{i}'$ i ${\$ { $displaystyle I-\eta x_{i}x_{i}''$ 가 $I-\eta x_{i}x_{i}'$ 높은 확률로 절대 고유값을 $I-\eta x_{i}x_{i}'$ ${\$ { $displaystyle$ \eta $}$ 가 잘못 $\eta$ 지정되었을 경우, 수회 반복 내에 수치적으로 분산될 수 있다.이와는 대조적으로 암묵적 확률적 경사 강하(ISGD로 단축됨)는 다음과 같이 닫힌 형태로 해결할 수 있다.

\displaystyle w^{\rm {new}=w^{\rm {old}+{1+\eta x_{i}^{2}(y_{i}-x_{i}'w^{\rm {old}})x_{i}.}

이 절차는 학습 속도가 정규화되었기 때문에 사실상 $§(\displaystyle$ \eta $)$ 에 대해 안정적인 수치로 유지됩니다.최소 제곱 문제에서 고전적 및 암시적 확률적 경사 강하 간의 비교는 최소 평균 제곱(LMS)과 정규화된 최소 평균 제곱 필터(NLMS) 간의 비교와 매우 유사하다.

ISGD를 위한 폐쇄형 솔루션은 최소 정사각형에서만 가능하지만, 이 절차는 광범위한 모델에서 효율적으로 구현될 수 있습니다.구체적으로 $\nabla _{w}Q_{i}(w)=-q(x_{i}'w)x_{i}$ ( $Q_{i}(w)$ $){$ $displaystyle$ $Q_{i}(w)$ 가 $Q_{i}(w)$ $x_{i}$ i $(\displaystyle x_{i$ 를 가진 선형 조합을 통해서만 w $(\displaystyle$ x_{i})에 $w$ $w$ 한다고 가정하면, $\nabla _{w}Q_{i}(w)=-q(x_{i}'w)x_{i}$ that $\nabla _{w}Q_{i}(w)=-q(x_{i}'w)x_{i}$ ( w $\nabla _{w}Q_{i}(w)=-q(x_{i}'w)x_{i}$ ) $\nabla _{w}Q_{i}(w)=-q(x_{i}'w)x_{i}$ - $q$ ( $\nabla _{w}Q_{i}(w)=-q(x_{i}'w)x_{i}$ $\nabla _{w}Q_{i}(w)=-q(x_{i}'w)x_{i}$ ) $\nabla _{w}Q_{i}(w)=-q(x_{i}'w)x_{i}$ { $displaystyle {$ $w$ } = { w } { $i$ } {i } { displaystyle w } 라고 쓸 수 있습니다. $)$ {\ $displaystyle$ q $()\in \mathbb {R}$ 은 $q()\in \mathbb {R}$ $($ 는) $x_{i},y_{i}$ { $displaystyle x_{i$ }, $y_{i$ }}에도 $x_{i},y_{i}$ 의존할 수 있지만 $x_{i}'w$ w { $displaystyle x_{i}$ 를 $x_{i}'w$ 제외하고 w { $display$ w $}$ 에는 $w$ 의존하지 않습니다.최소 제곱은 이 규칙을 따르기 때문에 대부분의 선형 모델입니다.예를 들어 $q(x_{i}'w)=y_{i}-x_{i}'w$ ( $q(x_{i}'w)=y_{i}-x_{i}'w$ i $q(x_{i}'w)=y_{i}-x_{i}'w$ w ) $q(x_{i}'w)=y_{i}-x_{i}'w$ $q(x_{i}'w)=y_{i}-x_{i}'w$ - $q(x_{i}'w)=y_{i}-x_{i}'w$ $q(x_{i}'w)=y_{i}-x_{i}'w$ w { $displaystyle q$ ( $x$ _ { $i$ } )= $y _$ { i $q(x_{i}'w)=y_{i}-S(x_{i}'w)$ } - x _ { i }' $w$ $q(x_{i}'w)=y_{i}-x_{i}'w$ $q(x_{i}'w)=y_{i}-S(x_{i}'w)$ $q(x_{i}'w)=y_{i}-S(x_{i}'w)$ $q(x_{i}'w)=y_{i}-S(x_{i}'w)$ $q(x_{i}'w)=y_{i}-S(x_{i}'w)$ x $x$ w )= $q(x_{i}'w)=y_{i}-S(x_{i}'w)$ - $q(x_{i}'w)=y_{i}-S(x_{i}'w)$ S ( $q(x_{i}'w)=y_{i}-S(x_{i}'w)$ i $q(x_{i}'w)=y_{i}-S(x_{i}'w)$ w ) { $display style =$ { i _ i _ i _ { $i$ } { w $q(x_{i}'w)=y_{i}-S(x_{i}'w)$ } { w } { w } { w } { w 。오기스트 함수포아송 회귀 $q(x_{i}'w)=y_{i}-e^{x_{i}'w}$ 에서는 $q(x_{i}'w)=y_{i}-e^{x_{i}'w}$ q ( $q(x_{i}'w)=y_{i}-e^{x_{i}'w}$ i $q(x_{i}'w)=y_{i}-e^{x_{i}'w}$ w ) $=$ $q(x_{i}'w)=y_{i}-e^{x_{i}'w}$ - $q(x_{i}'w)=y_{i}-e^{x_{i}'w}$ $q(x_{i}'w)=y_{i}-e^{x_{i}'w}$ i $q(x_{i}'w)=y_{i}-e^{x_{i}'w}$ w \ $displaystyle$ q( $x_{i}'w$ )= y_{ $i}-e^{x_{i}'w$ 등입니다 $.$

이러한 설정에서는, ISGD는 다음과 같이 간단하게 실장됩니다. $f(\xi )=\eta q(x_{i}'w^{old}+\xi ||x_{i}||^{2})$ ( $f(\xi )=\eta q(x_{i}'w^{old}+\xi ||x_{i}||^{2})$ ) $f(\xi )=\eta q(x_{i}'w^{old}+\xi ||x_{i}||^{2})$ ( $f(\xi )=\eta q(x_{i}'w^{old}+\xi ||x_{i}||^{2})$ i $f(\xi )=\eta q(x_{i}'w^{old}+\xi ||x_{i}||^{2})$ $f(\xi )=\eta q(x_{i}'w^{old}+\xi ||x_{i}||^{2})$ $f(\xi )=\eta q(x_{i}'w^{old}+\xi ||x_{i}||^{2})$ d $f(\xi )=\eta q(x_{i}'w^{old}+\xi ||x_{i}||^{2})$ + $f(\xi )=\eta q(x_{i}'w^{old}+\xi ||x_{i}||^{2})$ x i $f(\xi )=\eta q(x_{i}'w^{old}+\xi ||x_{i}||^{2})$ ) $f(\xi )=\eta q(x_{i}'w^{old}+\xi ||x_{i}||^{2})$ { $display style$ f ( \ $xi$ ) = \ $eta$ q ( $x$ _ { $i$ } ' w^ { $old$ } + \ $xi$ x _ { $i }$ ^ {2} $f(\xi )=\eta q(x_{i}'w^{old}+\xi ||x_{i}||^{2})$ } 。 $\xi$ 서 $\xi$ ${\$ \ $displaystyle$ \ $xi$ } 。즉, ISGD는 다음과 같습니다.

\displaystyle w^{\rm {new}=w^{\rm {old}}+\xi^{i},~{\text{where}}~\xi^{\ast}=f(\xi^{\ast})}

스케일링 팩터 $\xi ^{\ast }\in \mathbb {R}$ R ${\$ $in$ $\mathbb {R}}$ 은 $\xi ^{\ast }\in \mathbb {R}$ $\xi ^{\ast }$ (는) 앞서 말한 일반 선형 모델 등 대부분의 정규 모델에서 $q()$ q $q()$ ) { $displaystyle q()$ 가 $q()$ 감소하므로 $\xi ^{\ast }$ 으로 구할 수 있습니다 $.$ $[\min(0,f(0)),\max(0,f(0))]$ [ $[\min(0,f(0)),\max(0,f(0))]$ ( $[\min(0,f(0)),\max(0,f(0))]$ , $[\min(0,f(0)),\max(0,f(0))]$ f ( $[\min(0,f(0)),\max(0,f(0))]$ ) $[\min(0,f(0)),\max(0,f(0))]$ 、 $[\min(0,f(0)),\max(0,f(0))]$ ( $[\min(0,f(0)),\max(0,f(0))]$ ) $]{$ $displaystyle$ [ \ $min$ ( $0$ , $f$ ( $0$ ) ] 、 \ $max$ ( $0$ , $f$ ( 0 ) $}$ ]

모멘텀

다른 제안으로는 Rumelhart, Hinton 및 Williams의 역전파 ^[18]학습에 관한 논문에서 나타난 모멘텀 방법이 있다.운동량을 포함한 확률적 경사 강하에서는 각 반복에서 업데이트 $δW$ 를 기억하고 다음 업데이트를 경사도와 이전 ^[19]^[20]업데이트의 선형 조합으로 결정한다.

\displaystyle \Delta w:=\alpha \Delta w-\eta \displayla Q_{i}(w)}

w:=w+\Delta w

그 결과:

w:=w-\eta \displayla Q_{i}(w)+\alpha \Delta w

Q $)$ 를 $Q(w)$ 하는 $파라미터$ w $(\$ $displaystyle$ Q $(w)$ 를 $w$ $Q(w)$ 추정한다.여기서 $\eta$ (\ $displaystyle \eta)$ 는 $\eta$ 스텝 크기(기계학습에서는 학습률이라고도 함)이고 $\alpha$ α(\ $displaystyle \alpha)$ 는 $\alpha$ 상대적인 기여도를 결정하는 0과 1 사이의 지수 감쇠 계수이다.무게 변화에 대한 현재 기울기 및 이전 기울기의 n.

모멘텀이라는 이름은 물리학의 모멘텀에 비유한 것에서 유래합니다. 무게 $벡터 w$ 는 파라미터 ^[18]공간을 이동하는 입자로 간주되며 손실의 기울기("힘 $w$ 에서 가속을 일으킵니다.전형적인 확률적 경사 하강과는 달리, 그것은 계속 같은 방향으로 이동하는 경향이 있어 진동을 방지한다.모멘텀은 ^[21]수십 년 동안 컴퓨터 과학자들에 의해 인공 신경망의 훈련에서 성공적으로 사용되어 왔다.운동량 방법은 언더댐프 랑게뱅 역학과 밀접하게 관련되어 있으며 시뮬레이션 어닐링과 결합될 수 있다.^[22]

평균화

1980년대 후반에 Ruppert와 Polyak에 의해 독립적으로 발명된 평균 확률적 경사 강하법은 시간에 따른 매개변수 벡터의 평균을 기록하는 일반적인 확률적 경사 강하이다.즉, 업데이트는 일반적인 확률적 경사 강하와 동일하지만 알고리즘은 또한 다음을 추적합니다^[23].

w

{\bar {w}}={\frac {1}{t}}\sum _{i=0}^{t-1}w_{i}

{\bar {w}}={\frac {1}{t}}\sum _{i=0}^{t-1}w_{i}

{\bar {w}}={\frac {1}{t}}\sum _{i=0}^{t-1}w_{i}

{\bar {w}}={\frac {1}{t}}\sum _{i=0}^{t-1}w_{i}

{\bar {w}}={\frac {1}{t}}\sum _{i=0}^{t-1}w_{i}

{\bar {w}}={\frac {1}{t}}\sum _{i=0}^{t-1}w_{i}

{\bar {w}}={\frac {1}{t}}\sum _{i=0}^{t-1}w_{i}

t -

{\bar {w}}={\frac {1}{t}}\sum _{i=0}^{t-1}w_{i}

{\bar {w}}={\frac {1}{t}}\sum _{i=0}^{t-1}w_{i}

{\bar {w}}={\frac {1}{t}}\sum _{i=0}^{t-1}w_{i}

= {

displaystyle

{ w

{\bar {w}}={\frac {1}{t}}\sum _{i=0}^{t-1}w_{i}

}

{\bar {w}}={\frac {1}{t}}\sum _{i=0}^{t-1}w_{i}

=

sum _ {

i =

0

}^{

t-1} w

_ {

i

}

최적화가 완료되면 이 평균 파라미터 벡터가 w를 $대신$ 합니다.

아다그라드

AdaGrad(적응 구배 알고리즘용)는 매개변수당 학습 속도를 가진 수정된 확률 구배 강하 알고리즘으로,^[24] 2011년에 처음 출판되었다.비공식적으로 이것은 희소 파라미터의 학습률을 증가시키고 희소성이 낮은 파라미터의 학습률을 감소시킵니다.이 전략은 종종 데이터가 희박하고 희소 매개변수가 더 유용한 환경에서 표준 확률적 경사 강하보다 수렴 성능을 향상시킨다.이러한 어플리케이션의 예로는 자연어 처리 및 이미지 ^[24]인식을 들 수 있다.아직 기본 학습률 $θ$ 이지만, 이것은 외부 제품 매트릭스의 대각선인 벡터 { $G j, j}$ 의 요소와 곱한다.

G=\sum _{\display =1}^{t}g_{\display }^{\mathsf {T}

$g_{\tau }=\nabla Q_{i}(w)$ 서 g $g_{\tau }=\nabla Q_{i}(w)$ $g_{\tau }=\nabla Q_{i}(w)$ ( $g_{\tau }=\nabla Q_{i}(w)$ w $g_{\tau }=\nabla Q_{i}(w)$ ) \ $displaystyle g_{\display$ } = \ $displayla Q_{i}(w)$ }, $반복$ 시 구배입니다.대각선은 다음과 같습니다.

G_{j,j}=\sum _{\tau =1}^{t}g_{\tau ,j}^{2}

j ,

G_{j,j}=\sum _{\tau =1}^{t}g_{\tau ,j}^{2}

G_{j,j}=\sum _{\tau =1}^{t}g_{\tau ,j}^{2}

G_{j,j}=\sum _{\tau =1}^{t}g_{\tau ,j}^{2}

G_{j,j}=\sum _{\tau =1}^{t}g_{\tau ,j}^{2}

G_{j,j}=\sum _{\tau =1}^{t}g_{\tau ,j}^{2}

G_{j,j}=\sum _{\tau =1}^{t}g_{\tau ,j}^{2}

G_{j,j}=\sum _{\tau =1}^{t}g_{\tau ,j}^{2}

、

G_{j,j}=\sum _{\tau =1}^{t}g_{\tau ,j}^{2}

2 \

displaystyle

G

_

{ j , j } = \ sum _ { \

displaystyle

=

G_{j,j}=\sum _{\tau =1}^{t}g_{\tau ,j}^{2}

1

}^{

t }g _ { \

displaystyle

, j }^{ \

t }^{

t} }^{ \

sum

}

G_{j,j}=\sum _{\tau =1}^{t}g_{\tau ,j}^{2}

} 、

이 벡터는 반복할 때마다 업데이트됩니다.업데이트 공식은 다음과 같습니다.

w:=w-\eta,\mathrm {diag}(G)^{-{\frac {1}{2}}\odot g

^[a]

또는 파라미터별 업데이트로 작성됩니다.

w_{j}:=w_{j}-{\frac {eta}{\frc {G_{j,j}}}g_{j}.

각 { $G (i, i)}$ 은(는) $단일 i$ 파라미터 w에 적용되는 학습률에 대한 스케일링 계수를 생성합니다.이 인자의 분모는 ${\sqrt {G_{i}}}={\sqrt {\sum _{\tau =1}^{t}g_{\tau }^{2}}}$ ${\sqrt {G_{i}}}={\sqrt {\sum _{\tau =1}^{t}g_{\tau }^{2}}}$ ${\sqrt {G_{i}}}={\sqrt {\sum _{\tau =1}^{t}g_{\tau }^{2}}}$ ${\sqrt {G_{i}}}={\sqrt {\sum _{\tau =1}^{t}g_{\tau }^{2}}}$ ${\sqrt {G_{i}}}={\sqrt {\sum _{\tau =1}^{t}g_{\tau }^{2}}}$ g ${\sqrt {G_{i}}}={\sqrt {\sum _{\tau =1}^{t}g_{\tau }^{2}}}$ 2 $({$ {\ $displayrt {G_{i$ }})= $sqrt$ {\ $sum =$ {\display $=1$ }^{ $t}g_{\$ displate $}}})$ 이므로 ${\sqrt {G_{i}}}={\sqrt {\sum _{\tau =1}^{t}g_{\tau }^{2}}}$ 파라미터는 이전 파생상품의 표준이며₂, 극도의 파라미터 업데이트 ^[21]속도는 낮아집니다.

볼록한 문제를 위해 설계된 동안, AdaGrad는 비볼록 ^[25]최적화에 성공적으로 적용되었습니다.

RMSProp

RMSProp(Root Mean Square Propagation의 경우)는 각 파라미터에 대해 학습 레이트가 조정되는 방식이기도 합니다.아이디어는 체중의 학습 속도를 해당 ^[26]체중의 최근 구배 크기의 실행 평균으로 나누는 것이다.먼저 평균 제곱을 기준으로 런 평균을 계산합니다.

v(w,t):=\caps v(w,t-1)+(1-\caps )(\capsla Q_{i}(w)^{2}

$\gamma$ 서 $,(\displaystyle\displaystyle)$ 은 $\gamma$ 잊어버리는 요인입니다.

파라미터는 다음과 같이 갱신됩니다.

w:=w-{\frac {\displayrt {v(w,t)}}\displayla Q_{i}(w)

RMSProp은 다양한 애플리케이션에서 학습률의 좋은 적응을 보여 왔다.RMSProp은 Rprop의 일반화로 볼 수 있으며 ^[27]풀배치만이 아니라 미니배치에서도 작업할 수 있습니다.

아담

Adam(Adaptive Moment Estimation의 줄임말)은^[28] RMSProp 최적화 도구에 대한 업데이트입니다.이 최적화 알고리즘에서는 그라데이션과 그라데이션의 두 번째 모멘트의 실행 평균이 사용됩니다. $w^{(t)}$ w ( $w^{(t)}$ ) { $display style w$ ^ { ( $w^{(t)}$ $t$ ) $L^{(t)}$ } a $w^{(t)}$ a $L^{(t)}$ L $L^{(t)}$ ( $L^{(t)}$ ) { $display style$ L^ { $L^{(t)}$ ( t ) } $L^{(t)}$ $0$ , $、$ t { $display style$ t $}$ $0$ training training training $、$ Adam의 파라미터 업데이트는 다음과 같이 이루어집니다.

m_{w}^{(t+1)}\왼쪽 화살표 \beta _{1}m_{(t)}+(1-\beta _{1}\nabla _{w}L^{(t)}}

\displaystyle v_{w}^{(t+1)\왼쪽 화살표 \beta _{2}v_{w}^{(t)}+(1-\beta _{2})(\nabla _{w}L^{(t)})^{2}}

{m}_{w}=sublic frac {m_{w}^{(t+1)}}{1-\sublic _{1}^{t}}

{v}_{w}=subscfrac {v_{w}^{(t+1)}}{1-\subsci _{2}^{t}}

{{displaystyle w^{(t+1)}\왼쪽 화살표 w^{(t)}-\eta {frac {\hat {m}_{w}}{\hat {v}}_{w}}}+\ilon }}}}

여기서 $\epsilon$ (\ $displaystyle \silon)$ 는 $\epsilon$ 0으로 분할되는 것을 방지하기 위해 사용되는 작은 스칼라( $예$ : 10 $10^{-8}$ - $10^{-8}$ { $displaystyle 10^{-$ $8$ $10^{-8}$ $\beta _{1}$ $\beta _{2}$ 이며, $\beta _{1}$ 1 $($ : 0.9 $)$ 과 $β$ 2 $(예$ : 0.99)는 각각 2차 구배율의 망각 계수이다.스쿼징과 스퀘어 루팅은 요소별로 이루어집니다.

역추적 회선 검색

역추적 선 검색은 경사 하강법의 또 다른 변형입니다.다음 내용은 모두 상기 링크에서 발신됩니다.이는 아르미조-골드스타인 조건이라고 알려진 조건을 기반으로 합니다.두 방법 모두 반복할 때마다 학습 속도를 변경할 수 있지만 변경 방법은 다릅니다.역추적 라인 검색은 함수 평가를 이용하여 아르미조의 상태를 체크하고, 원칙적으로 학습률을 결정하는 알고리즘의 루프가 길고 미리 알 수 없는 경우가 있다.적응형 SGD는 학습률을 결정할 때 루프가 필요하지 않습니다.한편, 적응형 SGD는 모든 n에 대해 f $f(x_{n+1})\leq f(x_{n})$ ( $x$ n + $f(x_{n+1})\leq f(x_{n})$ ) $f(x_{n+1})\leq f(x_{n})$ f ( $f(x_{n+1})\leq f(x_{n})$ ) \ $displaystyle$ f ( $x$ _ { $n$ + $1)\leq$ f ( $x$ _ { $n$ })의 $f(x_{n+1})\leq f(x_{n})$ "descent property"를 보증하지 않습니다.비용 함수의 구배가 글로벌하게 Lipschitz constant L로 Lipschitz continuous이고 학습률이 1/L 순서로 선택되는 경우 SGD의 표준 버전은 백트랙 라인 검색의 특별한 경우입니다.

2차 방법

표준(결정론적) 뉴턴-라프슨 알고리즘의 확률적 아날로그("2차" 방법)는 확률적 근사^{[citation needed]} 설정에서 점근적으로 최적 또는 거의 최적의 반복 최적 형태를 제공한다.Byrd, Hansen, Nocedal 및 ^[29]Singer에 의해 경험적 위험함수에서 총수의 헤시안 행렬의 직접 측정을 사용하는 방법이 개발되었습니다.그러나 최적화에 필요한 헤시안 행렬을 직접 결정하는 것은 실제로는 불가능할 수 있다.직접 헤시안 정보를 필요로 하지 않는 SGD의 2차 버전에 대한 실용적이고 이론적으로 건전한 방법은 Spall 및 ^[30]^[31]^[32]기타에 의해 제시된다. (동시 섭동 대신 유한 차이에 기초한 덜 효율적인 방법은 Ruppert에 의해 제시된다.^[33]직접 헤시안 정보가 필요하지 않은 이러한 방법은 위의 경험적 위험 함수의 SUMD 값 또는 SUMD 구배 값(즉, SGD 입력)에 기초한다.특히, 2차 최적성은 경험적 위험 함수에서 산술의 헤시안 행렬을 직접 계산하지 않고도 점근적으로 달성할 수 있다.

메모들

^ $⊙(\displaystyle$ \odot $)$ 은 $\odot$ 요소별 제품입니다.

「」를 참조해 주세요.

역추적 회선 검색
좌표 강하 – 한 번에 하나의 좌표만 변경할 수 있습니다.
선형 분류기
온라인 머신 러닝
확률적 언덕 등반
확률적 분산 감소

레퍼런스

^ Bottou, Léon; Bousquet, Olivier (2012). "The Tradeoffs of Large Scale Learning". In Sra, Suvrit; Nowozin, Sebastian; Wright, Stephen J. (eds.). Optimization for Machine Learning. Cambridge: MIT Press. pp. 351–368. ISBN 978-0-262-01646-9.
^ Bottou, Léon (1998). "Online Algorithms and Stochastic Approximations". Online Learning and Neural Networks. Cambridge University Press. ISBN 978-0-521-65263-6.
^ Ferguson, Thomas S. (1982). "An inconsistent maximum likelihood estimate". Journal of the American Statistical Association. 77 (380): 831–834. doi:10.1080/01621459.1982.10477894. JSTOR 2287314.
^ Bottou, Léon; Bousquet, Olivier (2008). The Tradeoffs of Large Scale Learning. Advances in Neural Information Processing Systems. Vol. 20. pp. 161–168.
^ Murphy, Kevin (2021). Probabilistic Machine Learning: An Introduction. Probabilistic Machine Learning: An Introduction. MIT Press. Retrieved 10 April 2021.
^ Bilmes, Jeff; Asanovic, Krste; Chin, Chee-Whye; Demmel, James (April 1997). "Using PHiPAC to speed error back-propagation learning". 1997 IEEE International Conference on Acoustics, Speech, and Signal Processing. ICASSP. Munich, Germany: IEEE. pp. 4153-4156 vol.5. doi:10.1109/ICASSP.1997.604861.
^ Bottou, Léon (1998). "Online Algorithms and Stochastic Approximations". Online Learning and Neural Networks. Cambridge University Press. ISBN 978-0-521-65263-6.
^ Kiwiel, Krzysztof C. (2001). "Convergence and efficiency of subgradient methods for quasiconvex minimization". Mathematical Programming, Series A. Vol. 90, no. 1. Berlin, Heidelberg: Springer. pp. 1–25. doi:10.1007/PL00011414. ISSN 0025-5610. MR 1819784.
^ Robbins, Herbert; Siegmund, David O. (1971). "A convergence theorem for non negative almost supermartingales and some applications". In Rustagi, Jagdish S. (ed.). Optimizing Methods in Statistics. Academic Press. ISBN 0-12-604550-X.
^ 제니 로즈 핑클, 알렉스 클라이먼, 크리스토퍼 D.매닝(2008년).효율적인 기능 기반의 조건부 랜덤 필드 해석.Proc. ACL 연차총회
^ 르쿤, Yann A. 등 "효율적인 역추진"뉴럴 네트워크:장사의 요령.스프링거 베를린 하이델베르크, 2012.9-48
^ 제롬 R. 크렙스, 존 E.Anderson, David Hinkley, Ramesh Neelamani, Sunwung Lee, Anatoly Baumstein 및 Martin-Daniel Lacasse, (2009), "부호화된 소스를 사용한 빠른 전파 지진 반전", GEOHYNGHY74: WCC177-WCC188.
^ Avi Pfeffer. "CS181 Lecture 5 — Perceptrons" (PDF). Harvard University.^{[영구 데드링크]}
^ Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). Deep Learning. MIT Press. p. 291. ISBN 978-0262035613.
^ 인용자
^ Spall, J. C. (2003). Introduction to Stochastic Search and Optimization: Estimation, Simulation, and Control. Hoboken, NJ: Wiley. pp. Sections 4.4, 6.6, and 7.5. ISBN 0-471-33052-3.
^ Toulis, Panos; Airoldi, Edoardo (2017). "Asymptotic and finite-sample properties of estimators based on stochastic gradients". Annals of Statistics. 45 (4): 1694–1727. arXiv:1408.2923. doi:10.1214/16-AOS1506. S2CID 10279395.
^ ^a ^b Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (8 October 1986). "Learning representations by back-propagating errors". Nature. 323 (6088): 533–536. Bibcode:1986Natur.323..533R. doi:10.1038/323533a0. S2CID 205001834.
^ Sutskever, Ilya; Martens, James; Dahl, George; Hinton, Geoffrey E. (June 2013). Sanjoy Dasgupta and David Mcallester (ed.). On the importance of initialization and momentum in deep learning (PDF). In Proceedings of the 30th international conference on machine learning (ICML-13). Vol. 28. Atlanta, GA. pp. 1139–1147. Retrieved 14 January 2016.
^ Sutskever, Ilya (2013). Training recurrent neural networks (PDF) (Ph.D.). University of Toronto. p. 74.
^ ^a ^b Zeiler, Matthew D. (2012). "ADADELTA: An adaptive learning rate method". arXiv:1212.5701 [cs.LG].
^ Borysenko, Oleksandr; Byshkin, Maksym (2021). "CoolMomentum: A Method for Stochastic Optimization by Langevin Dynamics with Simulated Annealing". Scientific Reports. 11 (1): 10705. arXiv:2005.14605. Bibcode:2021NatSR..1110705B. doi:10.1038/s41598-021-90144-3. PMC 8139967. PMID 34021212.
^ Polyak, Boris T.; Juditsky, Anatoli B. (1992). "Acceleration of stochastic approximation by averaging" (PDF). SIAM J. Control Optim. 30 (4): 838–855. doi:10.1137/0330046.
^ ^a ^b Duchi, John; Hazan, Elad; Singer, Yoram (2011). "Adaptive subgradient methods for online learning and stochastic optimization" (PDF). JMLR. 12: 2121–2159.
^ Gupta, Maya R.; Bengio, Samy; Weston, Jason (2014). "Training highly multiclass classifiers" (PDF). JMLR. 15 (1): 1461–1492.
^ Hinton, Geoffrey. "Lecture 6e rmsprop: Divide the gradient by a running average of its recent magnitude" (PDF). p. 26. Retrieved 19 March 2020.
^ Hinton, Geoffrey. "Lecture 6e rmsprop: Divide the gradient by a running average of its recent magnitude" (PDF). p. 29. Retrieved 19 March 2020.
^ Kingma, Diederik; Ba, Jimmy (2014). "Adam: A Method for Stochastic Optimization". arXiv:1412.6980 [cs.LG].
^ Byrd, R. H.; Hansen, S. L.; Nocedal, J.; Singer, Y. (2016). "A Stochastic Quasi-Newton method for Large-Scale Optimization". SIAM Journal on Optimization. 26 (2): 1008–1031. arXiv:1401.7020. doi:10.1137/140954362. S2CID 12396034.
^ Spall, J. C. (2000). "Adaptive Stochastic Approximation by the Simultaneous Perturbation Method". IEEE Transactions on Automatic Control. 45 (10): 1839−1853. doi:10.1109/TAC.2000.880982.
^ Spall, J. C. (2009). "Feedback and Weighting Mechanisms for Improving Jacobian Estimates in the Adaptive Simultaneous Perturbation Algorithm". IEEE Transactions on Automatic Control. 54 (6): 1216–1229. doi:10.1109/TAC.2009.2019793.
^ Bhatnagar, S.; Prasad, H. L.; Prashanth, L. A. (2013). Stochastic Recursive Algorithms for Optimization: Simultaneous Perturbation Methods. London: Springer. ISBN 978-1-4471-4284-3.
^ Ruppert, D. (1985). "A Newton-Raphson Version of the Multivariate Robbins-Monro Procedure". Annals of Statistics. 13 (1): 236–245. doi:10.1214/aos/1176346589.

추가 정보

Bottou, Léon (2004), "Stochastic Learning", Advanced Lectures on Machine Learning, LNAI, vol. 3176, Springer, pp. 146–168, ISBN 978-3-540-23122-6
Buduma, Nikhil; Locascio, Nicholas (2017), "Beyond Gradient Descent", Fundamentals of Deep Learning : Designing Next-Generation Machine Intelligence Algorithms, O'Reilly
LeCun, Yann A.; Bottou, Léon; Orr, Genevieve B.; Müller, Klaus-Robert (2012), "Efficient BackProp", Neural Networks: Tricks of the Trade, Springer, pp. 9–48, ISBN 978-3-642-35288-1
Spall, James C. (2003), Introduction to Stochastic Search and Optimization, Wiley, ISBN 978-0-471-33052-3

외부 링크

선형 회귀를 위해 C++, Boost, Ublas에서 확률적 경사 강하 사용
기계 학습 알고리즘
"Gradient Descent, How Neural Networks Learn". 3Blue1Brown. October 16, 2017. Archived from the original on 2021-12-22 – via YouTube.
Goh (April 4, 2017). "Why Momentum Really Works". Distill. 2 (4). doi:10.23915/distill.00006. 추진력을 설명하는 인터랙티브 페이퍼.

[25] $⊙(\displaystyle$ \odot $)$ 은 $\odot$ 요소별 제품입니다.

[1] Bottou, Léon; Bousquet, Olivier (2012). "The Tradeoffs of Large Scale Learning". In Sra, Suvrit; Nowozin, Sebastian; Wright, Stephen J. (eds.). Optimization for Machine Learning. Cambridge: MIT Press. pp. 351–368. ISBN 978-0-262-01646-9.

[2] Bottou, Léon (1998). "Online Algorithms and Stochastic Approximations". Online Learning and Neural Networks. Cambridge University Press. ISBN 978-0-521-65263-6.

[3] Ferguson, Thomas S. (1982). "An inconsistent maximum likelihood estimate". Journal of the American Statistical Association. 77 (380): 831–834. doi:10.1080/01621459.1982.10477894. JSTOR 2287314.

[4] Bottou, Léon; Bousquet, Olivier (2008). The Tradeoffs of Large Scale Learning. Advances in Neural Information Processing Systems. Vol. 20. pp. 161–168.

[5] Murphy, Kevin (2021). Probabilistic Machine Learning: An Introduction. Probabilistic Machine Learning: An Introduction. MIT Press. Retrieved 10 April 2021.

[6] Bilmes, Jeff; Asanovic, Krste; Chin, Chee-Whye; Demmel, James (April 1997). "Using PHiPAC to speed error back-propagation learning". 1997 IEEE International Conference on Acoustics, Speech, and Signal Processing. ICASSP. Munich, Germany: IEEE. pp. 4153-4156 vol.5. doi:10.1109/ICASSP.1997.604861.

[7] Bottou, Léon (1998). "Online Algorithms and Stochastic Approximations". Online Learning and Neural Networks. Cambridge University Press. ISBN 978-0-521-65263-6.

[8] Kiwiel, Krzysztof C. (2001). "Convergence and efficiency of subgradient methods for quasiconvex minimization". Mathematical Programming, Series A. Vol. 90, no. 1. Berlin, Heidelberg: Springer. pp. 1–25. doi:10.1007/PL00011414. ISSN 0025-5610. MR 1819784.

[9] Robbins, Herbert; Siegmund, David O. (1971). "A convergence theorem for non negative almost supermartingales and some applications". In Rustagi, Jagdish S. (ed.). Optimizing Methods in Statistics. Academic Press. ISBN 0-12-604550-X.

[10] 제니 로즈 핑클, 알렉스 클라이먼, 크리스토퍼 D.매닝(2008년).효율적인 기능 기반의 조건부 랜덤 필드 해석.Proc. ACL 연차총회

[11] 르쿤, Yann A. 등 "효율적인 역추진"뉴럴 네트워크:장사의 요령.스프링거 베를린 하이델베르크, 2012.9-48

[12] 제롬 R. 크렙스, 존 E.Anderson, David Hinkley, Ramesh Neelamani, Sunwung Lee, Anatoly Baumstein 및 Martin-Daniel Lacasse, (2009), "부호화된 소스를 사용한 빠른 전파 지진 반전", GEOHYNGHY74: WCC177-WCC188.

[13] Avi Pfeffer. "CS181 Lecture 5 — Perceptrons" (PDF). Harvard University.^{[영구 데드링크]}

[14] Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). Deep Learning. MIT Press. p. 291. ISBN 978-0262035613.

[15] 인용자

[16] Spall, J. C. (2003). Introduction to Stochastic Search and Optimization: Estimation, Simulation, and Control. Hoboken, NJ: Wiley. pp. Sections 4.4, 6.6, and 7.5. ISBN 0-471-33052-3.

[17] Toulis, Panos; Airoldi, Edoardo (2017). "Asymptotic and finite-sample properties of estimators based on stochastic gradients". Annals of Statistics. 45 (4): 1694–1727. arXiv:1408.2923. doi:10.1214/16-AOS1506. S2CID 10279395.

[Rumelhart1986-18] Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (8 October 1986). "Learning representations by back-propagating errors". Nature. 323 (6088): 533–536. Bibcode:1986Natur.323..533R. doi:10.1038/323533a0. S2CID 205001834.

[Sutskever2013-19] Sutskever, Ilya; Martens, James; Dahl, George; Hinton, Geoffrey E. (June 2013). Sanjoy Dasgupta and David Mcallester (ed.). On the importance of initialization and momentum in deep learning (PDF). In Proceedings of the 30th international conference on machine learning (ICML-13). Vol. 28. Atlanta, GA. pp. 1139–1147. Retrieved 14 January 2016.

[SutskeverPhD-20] Sutskever, Ilya (2013). Training recurrent neural networks (PDF) (Ph.D.). University of Toronto. p. 74.

[Zeiler_2012-21] Zeiler, Matthew D. (2012). "ADADELTA: An adaptive learning rate method". arXiv:1212.5701 [cs.LG].

[Borysenko2021-22] Borysenko, Oleksandr; Byshkin, Maksym (2021). "CoolMomentum: A Method for Stochastic Optimization by Langevin Dynamics with Simulated Annealing". Scientific Reports. 11 (1): 10705. arXiv:2005.14605. Bibcode:2021NatSR..1110705B. doi:10.1038/s41598-021-90144-3. PMC 8139967. PMID 34021212.

[23] Polyak, Boris T.; Juditsky, Anatoli B. (1992). "Acceleration of stochastic approximation by averaging" (PDF). SIAM J. Control Optim. 30 (4): 838–855. doi:10.1137/0330046.

[duchi-24] Duchi, John; Hazan, Elad; Singer, Yoram (2011). "Adaptive subgradient methods for online learning and stochastic optimization" (PDF). JMLR. 12: 2121–2159.

[26] Gupta, Maya R.; Bengio, Samy; Weston, Jason (2014). "Training highly multiclass classifiers" (PDF). JMLR. 15 (1): 1461–1492.

[27] Hinton, Geoffrey. "Lecture 6e rmsprop: Divide the gradient by a running average of its recent magnitude" (PDF). p. 26. Retrieved 19 March 2020.

[28] Hinton, Geoffrey. "Lecture 6e rmsprop: Divide the gradient by a running average of its recent magnitude" (PDF). p. 29. Retrieved 19 March 2020.

[Adam2014-29] Kingma, Diederik; Ba, Jimmy (2014). "Adam: A Method for Stochastic Optimization". arXiv:1412.6980 [cs.LG].

[30] Byrd, R. H.; Hansen, S. L.; Nocedal, J.; Singer, Y. (2016). "A Stochastic Quasi-Newton method for Large-Scale Optimization". SIAM Journal on Optimization. 26 (2): 1008–1031. arXiv:1401.7020. doi:10.1137/140954362. S2CID 12396034.

[31] Spall, J. C. (2000). "Adaptive Stochastic Approximation by the Simultaneous Perturbation Method". IEEE Transactions on Automatic Control. 45 (10): 1839−1853. doi:10.1109/TAC.2000.880982.

[32] Spall, J. C. (2009). "Feedback and Weighting Mechanisms for Improving Jacobian Estimates in the Adaptive Simultaneous Perturbation Algorithm". IEEE Transactions on Automatic Control. 54 (6): 1216–1229. doi:10.1109/TAC.2009.2019793.

[33] Bhatnagar, S.; Prasad, H. L.; Prashanth, L. A. (2013). Stochastic Recursive Algorithms for Optimization: Simultaneous Perturbation Methods. London: Springer. ISBN 978-1-4471-4284-3.

[34] Ruppert, D. (1985). "A Newton-Raphson Version of the Multivariate Robbins-Monro Procedure". Annals of Statistics. 13 (1): 236–245. doi:10.1214/aos/1176346589.

[1]

[2]

[3]

[4]

[5]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[a]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

Search

확률적 경사 강하

네임스페이스

더

목차

배경

반복법

예

주목할 만한 응용 프로그램

확장 및 변형

암묵적 갱신(ISGD)

모멘텀

평균화

아다그라드

RMSProp

아담

역추적 회선 검색

2차 방법

메모들

「」를 참조해 주세요.

레퍼런스

추가 정보

외부 링크

Search

확률적 경사 강하

배경

반복법

예

주목할 만한 응용 프로그램

확장 및 변형

암묵적 갱신(ISGD)

모멘텀

평균화

아다그라드

RMSProp

아담

역추적 회선 검색

2차 방법

메모들

「 」를 참조해 주세요.

레퍼런스

추가 정보

외부 링크

「」를 참조해 주세요.