온라인 머신 러닝

컴퓨터 과학에서 온라인 머신 러닝은 전체 트레이닝 데이터 세트를 동시에 학습하여 최적의 프레딕터를 생성하는 배치 학습 기법과 달리 데이터가 순차적으로 사용 가능하게 되고 각 단계에서 미래의 데이터에 대한 최적의 프레딕터를 업데이트하는 기계 학습 방법이다.온라인 학습은 전체 데이터 세트에 대한 훈련이 계산적으로 불가능한 기계 학습 영역에서 사용되는 일반적인 기술이며, 코어 외 알고리즘이 필요합니다.또한 알고리즘이 데이터의 새로운 패턴에 동적으로 적응해야 하는 상황이나 주가 예측과 같이 데이터 자체가 시간의 함수로 생성되는 상황에도 사용된다.온라인 학습 알고리즘은 치명적인 간섭을 일으키기 쉬우며, 이는 증분 학습 접근방식으로 해결할 수 있는 문제입니다.

서론

지도 학습 설정에서는 f $f:X\to Y$ : $f:X\to Y$ $f:X\to Y$ (\ $displaystyle$ f $:X\to$ Y )의 $f:X\to Y$ $f:X\to Y$ 를 학습합니다. $X$ 서 X $(\displaystyle$ X $)$ 는 $X$ 입력의 $Y$ 이고Y (\ $displaystyle$ Y)는 $Y$ 출력의 공간으로 간주되며, 이는 예를 들어 $p(x,y)$ $p(x,y)$ displaystyle Y $p(x,y)$ )에서 도출되는 것을 잘 예측합니다. $스타일$ p $($ $x,y)$ 는 $p(x,y)$ X $X\times Y$ × $X\times Y$ (\ $displaystyle$ X $\times$ Y $X\times Y$ 에 해당됩니다. 실제로 학습자는 인스턴스 $p(x,y)$ 에 대한 $실제$ 분포 p( $x,y)$ 를 $p(x,y)$ 결코 알지 못합니다.대신, 학습자는 $(x_{1},y_{1}),\ldots ,(x_{n},y_{n})$ 으로 교육용 예 $(x_{1},y_{1}),\ldots ,(x_{n},y_{n})$ $(x_{1},y_{1}),\ldots ,(x_{n},y_{n})$ $(x_{1},y_{1}),\ldots ,(x_{n},y_{n})$ , $(x_{1},y_{1}),\ldots ,(x_{n},y_{n})$ 1 $(x_{1},y_{1}),\ldots ,(x_{n},y_{n})$ $(x_{1},y_{1}),\ldots ,(x_{n},y_{n})$ , $(x_{1},y_{1}),\ldots ,(x_{n},y_{n})$ ( $(x_{1},y_{1}),\ldots ,(x_{n},y_{n})$ n , $(x_{1},y_{1}),\ldots ,(x_{n},y_{n})$ $),$ \ $ldots ,$ ( $x$ _ { $n$ , $y _$ { $n$ )에 $액세스할$ 수 있습니다. 이 $설정$ 에서는 손실 함수는 $V:Y\times Y\to \mathbb {R}$ : $V:Y\times Y\to \mathbb {R}$ × $V:Y\times Y\to \mathbb {R}$ $V:Y\times Y\to \mathbb {R}$ { $style$ V $:$ Y $\times$ Y $\to$ \ $mathbb {R}$ $V(f(x),y)$ $V:Y\times Y\to \mathbb {R}$ $V(f(x),y)$ ( $V(f(x),y)$ ) , $V(f(x),y)$ y $V(f(x),y)$ ) { $displaystyle$ V ( $f$ ( $x$ , y ) } $measures$ $V(f(x),y)$ 、 예측값 $f(x)$ ( $f(x)$ ) { $displaystyle$ f ( $x$ ) 、 $true값$ y ( \ $displaystyle$ y $y$ )의 $f(x)$ 차이를 측정합니다.이상적인 목표는 함수 $f\in {\mathcal {H}}$ $f\in {\mathcal {H}}$ ( ${\mathcal {H}}$ 서 ${\mathcal {H}}$ H {\ $displaystyle {H}}$ 는 ${\mathcal {H}}$ 가설 공간이라고 하는 함수의 공간)를 선택하여 전체 손실의 개념을 최소화하는 것입니다.모델의 유형(통계적 또는 적대적)에 따라 상실의 다른 개념을 고안할 수 있으며, 이는 상이한 학습 알고리즘으로 이어진다.

온라인 학습 통계 뷰

통계적 학습 모델에서 훈련 샘플 $(x_{i},y_{i})$ $)$ { $displaystyle (x_{i$ }, $y_{i})$ 은 $(x_{i},y_{i})$ 실제 $p(x,y)$ p $p(x,y)$ y $)$ { $displaystyle$ p $(x,y)}$ 에서 $p(x,y)$ 추출된 것으로 가정하며, 목표는 예상되는 "위험"을 최소화하는 것이다.

I[f]=\mathbb {E} [V(f(x),y)]=\int V(f(x),y),dp(x,y)\ .

이 상황에서 공통적인 패러다임은 경험적 위험 최소화 또는 정규화된 경험적 위험 최소화(일반적으로 티코노프 정규화)를 통해 ${\hat {f}}$ f $^(\$ 를 ${\hat {f}}$ 추정하는 것이다.여기서 손실 함수의 선택은 정규화된 최소 제곱 및 지원 벡터 기계와 같은 몇 가지 잘 알려진 학습 알고리즘을 발생시킨다.이 범주의 순수 온라인 모델은 새로운 입력 $(x_{t+1},y_{t+1})$ t + $(x_{t+1},y_{t+1})$ , $(x_{t+1},y_{t+1})$ t + $)(x$ style $(x_{t+1$ $현재$ 최고의 예측 $f_{t}$ $f_{t}$ { $displaystyle f_{t$ }}) 및 일부 추가 저장 정보(보통 교육 데이터 크기에 관계없이 저장 요구 사항이 있을 것으로 예상됨)만을 기반으로 학습합니다.예를 들어 비선형 커널 방식 등 많은 공식에서 진정한 온라인 학습은 불가능하지만 $f_{t+1}$ t $f_{t}$ + $f_{t+1}$ $({$ $displaystyle f_{t+$ $1})$ 및 $f_{t+1}$ $f_{t}$ 이전 데이터 포인트 $(x_{1},y_{1}),\ldots ,(x_{t},y_{t})$ 1, $(x_{1},y_{1}),\ldots ,(x_{t},y_{t})$ 에 $f_{t}$ 할 수 있는 $f_{t+1}$ 재귀 알고리즘을 사용한 하이브리드 온라인 학습 형식을 사용할 수 있습니다 $(x_{1},y_{1}),\ldots ,(x_{t},y_{t})$ $(x_{1},y_{1}),\ldots ,(x_{t},y_{t})$ ( $(x_{1},y_{1}),\ldots ,(x_{t},y_{t})$ , $(x_{1},y_{1}),\ldots ,(x_{t},y_{t})$ t $(x_{1},y_{1}),\ldots ,(x_{t},y_{t})$ ) { $display$ style ( $x _$ ${$ 1} , $y$ _ {1 $}$ ) , \ $ldots$ , ( x $_$ { $t$ , y $_$ { t ) $(x_{1},y_{1}),\ldots ,(x_{t},y_{t})$ 。이 경우 이전의 모든 데이터 포인트를 저장해야 하므로 공간 요건은 일정하지 않지만 새로운 데이터 포인트를 추가하는 경우 배치 학습 기술에 비해 계산에는 시간이 적게 소요될 수 있습니다.

위의 문제를 극복하기 위한 일반적인 전략은 미니 배치를 사용하여 학습하는 것입니다. 미니 배치는 한 번에 $b\geq 1$ 소량의 $b\geq 1$ 포인트를 처리하는 것으로, 이는 총 교육 포인트 수보다 훨씬 적은 b $b\geq 1$ $display style$ b $}$ 에 $b\geq 1$ $b$ $대한$ 의사 온라인 학습으로 간주할 수 있습니다.미니 배치 기법은 예를 들어 확률적 경사 하강과 같은 기계 학습 알고리즘의 최적화된 코어^{[clarification needed]} 외 버전을 얻기 위해 훈련 데이터를 반복적으로 전달하는 것과 함께 사용된다.역전파와 결합하면 현재 인공신경망을 양성하기 위한 사실상의 훈련방법이다.

예제: 선형 최소 제곱

선형 최소 제곱의 간단한 예는 온라인 학습에서 다양한 아이디어를 설명하는 데 사용됩니다.아이디어는 예를 들어 다른 볼록 손실 함수와 같은 다른 설정에 적용될 수 있을 정도로 충분히 일반적입니다.

배치 학습

f{\ $displaystyle$ f $}$ 가 $f$ 학습해야 할 선형 함수인 감독 학습 설정을 고려하십시오.

\displaystyle f(x_{j})=\cdot w,x_{j}\rangle =w\cdot x_{j}

$x_{j}\in \mathbb {R} ^{d}$ 서 x j $x_{j}\in \mathbb {R} ^{d}$ R \ $style x_{j}\in \mathbb {R}^{d}$ 는 $x_{j}\in \mathbb {R} ^{d}$ 입력(데이터 포인트)의 $w\in \mathbb {R} ^{d}$ 이고 w $w\in \mathbb {R} ^{d}$ $w\in \mathbb {R} ^{d}$ d $w\in \mathbb {R} ^{d}$ \ $displaystyle$ w $\in \mathbb {R}$ ^ { $d}$ 는 $w\in \mathbb {R} ^{d}$ 선형 필터 벡터입니다.필터 $w$ 를 w $displaystyle$ w로 계산하는 것이 목표입니다. 이를 위해 제곱 손실 함수

V(x_{j}), y_{j}=(f(x_{j})-y_{j})^{2}=(\langle w,x_{j}\rangle -y_{j})^{2}

경험적 손실을 최소화하는 $벡터$ w $\displaystyle$ w를 $w$ 계산하는 데 사용됩니다.

I_{n}[w]=\sum _{j=1}^{n}V(\langle w,x_{j}\rangle,y_{j}=\sum _{j=1}^{n}(x_{j}^{})^{n}T}w-y_{j}^{2}

어디에

y

y_{j}\in \mathbb {R}

{ R \

displaystyle

y_{

j}

\

in

\

mathbb

{ R

y_{j}\in \mathbb {R}

。

X $(\displaystyle$ X $)$ 를 $X$ $i\times d$ i × $i\times d$ (\ $displaystyle$ i $\times$ d $)$ $i\times d$ 매트릭스, $(\$ y $\in\mathbb {R} ^{$ i $y\in \mathbb {R} ^{i}$ })를 $첫$ 번째i(\ $displaystyle$ i) 데이터 $i$ 포인트 도착 후의 목표값 열 벡터라고 합니다.공분산 행렬 $\Sigma _{i}=X^{T}X$ i $=$ $\Sigma _{i}=X^{T}X$ $\Sigma _{i}=X^{T}X$ ({ $displaystyle \Sigma$ _ ${i$ }= $X^{T}X$ 가역행렬이라고 가정할 때(따라서 티코노프 정규화를 유사한 방식으로 진행하는 것이 선호됨), $f^{*}(x)=\langle w^{*},x\rangle$ 의 $f^{*}(x)=\langle w^{*},x\rangle$ f $f^{*}(x)=\langle w^{*},x\rangle$ δ ( $f^{*}(x)=\langle w^{*},x\rangle$ ) $displaystyle$ f $= rel$ ( $x$ )에 의해 주어집니다.

w^{*}=(X^{T}X)^{-1}X^{T}y=\Sigma _{i}^{-1}\sum _{j=1}^{i}x_{j}y_{j}

T}y=\Sigma

_

{i}^{-1}\sum

_{

j=1}^{i}x_{j}y_{j

이제 공분산 행렬 $\Sigma _{i}=\sum _{j=1}^{i}x_{j}x_{j}^{T}$ $\Sigma _{i}=\sum _{j=1}^{i}x_{j}x_{j}^{T}$ $=$ $\Sigma _{i}=\sum _{j=1}^{i}x_{j}x_{j}^{T}$ $\Sigma _{i}=\sum _{j=1}^{i}x_{j}x_{j}^{T}$ x j $\Sigma _{i}=\sum _{j=1}^{i}x_{j}x_{j}^{T}$ { $displaystyle \Sigma$ _ ${i}=\sum$ _{ $j=1$ }^{ $i}x_{$ }^{{j}^{T $}}$ 은 $\Sigma _{i}=\sum _{j=1}^{i}x_{j}x_{j}^{T}$ $d\times d$ 는) 시간 $O(id^{2})$ O( $O(id^{2})$ d2 $)$ { $displaystyle O(id^{2$ { $displaystyle$ d $\times$ d $}$ $d\times d$ 을 $d \times d$ 반전하면 $O(d^{3})$ O( $displaystyle$ d $O(d^{3})$ times d $O(d^{3})$ 가 소요되며 나머지 곱셈에는 $O(d^{2})$ O $displaystyle$ O $(d^{3$ $})$ $O(d^{2})$ {2 $O(d^{2})$ 가 소요되며 총 시간 $O(id^{2}+d^{3})$ d)가 소요됩니다. $yle$ O $(id^{2}+$ $O(n^{2}d^{2}+nd^{3})$ $^{3$ 데이터 세트에n개의 \ $displaystyle$ $i=1,\ldots ,n$ 의 $n$ 총점이 $i=1,\ldots ,n$ 경우 $,$ (\ $displaystyle$ i $=1,\ldots,n$ 의 도착 후 솔루션을 재계산하려면 순진한 접근법은 총 $O(n^{2}d^{2}+nd^{3})$ O $(n$ $O(n^{2}d^{2}+nd^{3})$ $O(n^{2}d^{2}+nd^{3})$ + $display$ 3 $)$ 가 됩니다.when storing the matrix $\Sigma _{i}$ , then updating it at each step needs only adding ${\displaystyle x_{i+1}x_{i+1}^{$ $T$ O $displaystyle$ O $(d^{2})$ 시간이 $O(d^{2})$ $O(d^{2})$ 총 시간은 O $O(nd^{2}+nd^{3})=O(nd^{3})$ $O(nd^{2}+nd^{3})=O(nd^{3})$ + $O(nd^{2}+nd^{3})=O(nd^{3})$ $O(nd^{2}+nd^{3})=O(nd^{3})$ ) $=$ $(ndisplaystyle$ O $(nd^{2}+nd^{3$ 로 $O(nd^{2}+nd^{3})=O(nd^{3})$ 되지만 O $(display$ 2 $)$ 의 추가 저장 공간이 $있습니다$ $.$

온라인 학습: 재귀 최소 제곱

재귀 최소 제곱(RLS) 알고리즘은 최소 제곱 문제에 대한 온라인 접근 방식을 고려합니다. $\textstyle w_{0}=0\in \mathbb {R} ^{d}$ 0 $\textstyle w_{0}=0\in \mathbb {R} ^{d}$ $\textstyle w_{0}=0\in \mathbb {R} ^{d}$ R $\textstyle w_{0}=0\in \mathbb {R} ^{d}$ \ $displaystyle w _$ { 0 } $= 0$ \ $in$ \ $mathbb { R$ } ^ { $d$ } { $\textstyle \Gamma _{0}=I\in \mathbb {R} ^{d\times d}$ $\textstyle \Gamma _{0}=I\in \mathbb {R} ^{d\times d}$ 0 $\textstyle \Gamma _{0}=I\in \mathbb {R} ^{d\times d}$ R $\textstyle \Gamma _{0}=I\in \mathbb {R} ^{d\times d}$ × $\textstyle \Gamma _{0}=I\in \mathbb {R} ^{d\times d}$ d \ $displaystyle \ Gamma$ _ { 0 $=$ $I\in \mathbb {R} ^{d\times$ d $\textstyle \Gamma _{0}=I\in \mathbb {R} ^{d\times d}$ 。이전 섹션에서 설명한 선형 최소 제곱 문제의 해법은 다음과 같은 반복으로 계산할 수 있습니다.

\displaystyle \Gamma _{i}=\Gamma _{i-1}-{\frac {Gamma _{i}x_{i}^{T}\Gamma _{i-1}}{1+x_{i}^{T}\Gamma _{i-1}x_{i}}}}

\displaystyle w_{i}=w_{i-1}-\Gamma_{i}x_{i}(x_{i}^{T}w_{i-1}-y_{i}}

위의 반복 알고리즘은 i $\displaystyle$ ^[2]인덕션을 사용하여 증명할 수 있습니다.이 증명은 또한 $\Gamma _{i}=\Sigma _{i}^{-1}$ i $\Gamma _{i}=\Sigma _{i}^{-1}$ $\Gamma _{i}=\Sigma _{i}^{-1}$ i - $\Gamma _{i}=\Sigma _{i}^{-1}$ { $displaystyle$ \ $Gamma$ _ { i } = \ $Sigma$ _ { $i$ }^{ - $1$ 이며, RLS는 적응형 필터의 맥락에서 볼 수도 있습니다(RLS 참조).

이 알고리즘의n개의 \ $displaystyle$ n 스텝의 $n$ $n$ 는 O $O(nd^{2})$ $)\displaystyle$ O $(nd^{2$ 로 대응하는 배치 학습 복잡도보다 훨씬 빠릅니다. $여기$ 서의 각 $i$ 의 스토리지 $i$ 요건은 O $O(d^{2})$ ( $O(d^{2})$ ) $O(d^{2})$ ( $displaystyle$ \ $Gamma$ _ { $i$ $}$ )에서 일정하게 행렬 $\Gamma _{i}$ i $\Gamma _{i}$ ( \ $displaystyle$ \ Sigma _ { $i$ $\Sigma _{i}$ } )를 저장하는 것입니다. $\Sigma _{i}$ \ $displaystyle$ \ $Sigma$ _ { $O(d^{2})$ $i$ } 가 $\Sigma _{i}$ 반전할 수 없는 경우, funced version의 일반적인 문제를 고려하십시오.tion $\sum _{j=1}^{n}(x_{j}^{T}w-y_{j})^{2}+\lambda ||w||_{2}^{2}$ j $\sum _{j=1}^{n}(x_{j}^{T}w-y_{j})^{2}+\lambda ||w||_{2}^{2}$ $\sum _{j=1}^{n}(x_{j}^{T}w-y_{j})^{2}+\lambda ||w||_{2}^{2}$ ( $\sum _{j=1}^{n}(x_{j}^{T}w-y_{j})^{2}+\lambda ||w||_{2}^{2}$ j $\sum _{j=1}^{n}(x_{j}^{T}w-y_{j})^{2}+\lambda ||w||_{2}^{2}$ - $\sum _{j=1}^{n}(x_{j}^{T}w-y_{j})^{2}+\lambda ||w||_{2}^{2}$ ) $\sum _{j=1}^{n}(x_{j}^{T}w-y_{j})^{2}+\lambda ||w||_{2}^{2}$ + $\sum _{j=1}^{n}(x_{j}^{T}w-y_{j})^{2}+\lambda ||w||_{2}^{2}$ $\sum _{j=1}^{n}(x_{j}^{T}w-y_{j})^{2}+\lambda ||w||_{2}^{2}$ 2 $\sum _{j=1}^{n}(x_{j}^{T}w-y_{j})^{2}+\lambda ||w||_{2}^{2}$ ( \ $displaystyle \sum$ _ { j $\sum _{j=1}^{n}(x_{j}^{T}w-y_{j})^{2}+\lambda ||w||_{2}^{2}$ = $1 }^{n}($ x_{ $j}^)$ $T}w-y_{j}^{2}+\lambda w_{2$ 그러면 동일한 알고리즘이 $\Gamma _{0}=(I+\lambda I)^{-1}$ 0 $\Gamma _{0}=(I+\lambda I)^{-1}$ ( $I$ + $\Gamma _{0}=(I+\lambda I)^{-1}$ I $\Gamma _{0}=(I+\lambda I)^{-1}$ - $\Gamma _{0}=(I+\lambda I)^{-1}$ \ $Gamma _{0$ } = (I $+\lambda$ I $)^{-$ 1 $\Gamma _{0}=(I+\lambda I)^{-1}$ 에서 $\Gamma _{i}=(\Sigma _{i}+\lambda I)^{-1}$ 하고 있음을 쉽게 알 수 있습니다.

확률적 경사 강하

이럴 때

\displaystyle w_{i}=w_{i-1}-\Gamma_{i}x_{i}(x_{i}^{T}w_{i-1}-y_{i}}

에 의해 대체됩니다.

\displaystyle w_{i}=w_{i-1}-\display_{i}x_{i}(x_{i}^{T}w_{i-1}-y_{i}=w_{i-1}-\gamma_{i}\gamma V(\langle w_{i},x_{i}\rangle,y_{i}})

또는 $\Gamma _{i}\in \mathbb {R} ^{d\times d}$ i $\Gamma _{i}\in \mathbb {R} ^{d\times d}$ $\Gamma _{i}\in \mathbb {R} ^{d\times d}$ d $\Gamma _{i}\in \mathbb {R} ^{d\times d}$ × $\Gamma _{i}\in \mathbb {R} ^{d\times d}$ \ $displaystyle$ \ $Gamma$ _ { $i$ } \ $in$ \ $mathbb { R$ } ^ { $d$ \ $times$ d $}$ by $\Gamma _{i}\in \mathbb {R} ^{d\times d}$ $\gamma _{i}\in \mathbb {R}$ i $\gamma _{i}\in \mathbb {R}$ R $\gamma _{i}\in \mathbb {R}$ \ $displaystyle$ \ $gamma$ _ { $i$ } \ $in$ \ $mathbb$ { $R$ 이것이 확률적 경사 하강 알고리즘이 됩니다.이 경우 이 알고리즘의 n개의 $\displaystyle$ n $n$ 의 $n$ 복잡도는 O $)\display$ O $(nd$ 로 감소합니다. $모든$ $i$ 에서의 스토리지요건은 $O(d)$ ( $O(d)$ ) { $displaystyle$ O ( $d$ ) $O(d)$ 。

단, 위와 같이 예상되는 리스크 최소화 문제를 해결하기 위해서는 스텝사이즈 $\gamma _{i}$ i $\display$ \ $gamma$ _ ${i}$ 를 $\gamma _{i}$ 신중하게 선택해야 합니다.감쇠 단계 $\gamma _{i}\approx {\frac {1}{\sqrt {i}}},$ i i $\gamma _{i}\approx {\frac {1}{\sqrt {i}}},$ 1 $\gamma _{i}\approx {\frac {1}{\sqrt {i}}},$ i $\gamma _{i}\approx {\frac {1}{\sqrt {i}}},$ , \ $displaystyle \ display style$ _ { i } \ {\ \ $frac$ { } { \ $frac$ { } { \ $frac$ { $i$ } } $\gamma _{i}\approx {\frac {1}{\sqrt {i}}},$ ${ n$ $1$ ${\overline {w}}_{n}={\frac {1}{n}}\sum _{i=1}^{n}w_{i}$ ${\overline {w}}_{n}={\frac {1}{n}}\sum _{i=1}^{n}w_{i}$ ${\overline {w}}_{n}={\frac {1}{n}}\sum _{i=1}^{n}w_{i}$ $1$ n w i = $frac$ { $1$ } = $frac$ { 1 $sum$ } { frac { displaysty } } } } } $1$ 。이 설정은 확률적 최적화의 특수한 경우로,^[1] 최적화의 잘 알려진 문제입니다.

증분 확률적 경사 강하

실제로는 데이터에 대해 복수의 확률적 경사 패스(사이클 또는 에폭이라고도 함)를 수행할 수 있습니다.이렇게 얻은 알고리즘은 증분 구배법이라고 불리며 반복에 대응한다.

\displaystyle w_{i}=w_{i-1}-\displayla V(\langle w_{i-1},x_{t_{i}}\rangle,y_{t_{i}}})

확률적 구배법의 주된 차이점은 i $\displaystyle$ i-step에서 $i$ $i$ 할 훈련 포인트를 결정하기 위해 $t_{i}$ 를 $t_i$ 선택한다는 것이다.그러한 순서는 확률적일 수도 있고 결정적일 수도 있다.그런 다음 반복 횟수가 포인트 수로 분리됩니다(각 포인트는 두 번 이상 고려될 수 있습니다).증분 경사 방법은 경험적 ^[3]위험에 대한 최소화를 제공하는 것으로 나타날 수 있다.증분 기법은 많은 용어의 합으로 구성된 객관적 함수를 고려할 때 유리할 수 있다. 예를 들어 매우 큰 데이터 ^[1]세트에 해당하는 경험적 오류이다.

커널 방식

커널을 사용하여 위의 알고리즘을 비파라미터 모델(또는 파라미터가 무한 차원 공간을 형성하는 모델)로 확장할 수 있습니다.대응하는 순서는 더 이상 진정한 온라인 상태가 아니라 모든 데이터 포인트를 저장해야 하지만 여전히 brute force 방식보다 빠릅니다.이 논의는 볼록 손실까지 확장될 수 있지만 제곱 손실의 경우로 제한됩니다. $Xi($ xisplaystyle $X_{i$ })가 $X_{i}$ 데이터 $w_{i}$ 이고 $wi($ xisplaystyle $w_{i$ })가 $w_{i}$ SGD 알고리즘의 i $(\displaystyle$ i $)$ 단계 $i$ $i$ 의 출력이라는 $X_{i}$ 을 쉽게 알 수 있습니다.

w_{i}=X_{i}^{T}c_{i}

$\textstyle c_{i}=((c_{i})_{1},(c_{i})_{2},...,(c_{i})_{i})\in \mathbb {R} ^{i}$ 서 c i $\textstyle c_{i}=((c_{i})_{1},(c_{i})_{2},...,(c_{i})_{i})\in \mathbb {R} ^{i}$ ( c $\textstyle c_{i}=((c_{i})_{1},(c_{i})_{2},...,(c_{i})_{i})\in \mathbb {R} ^{i}$ ) $\textstyle c_{i}=((c_{i})_{1},(c_{i})_{2},...,(c_{i})_{i})\in \mathbb {R} ^{i}$ , ( $\textstyle c_{i}=((c_{i})_{1},(c_{i})_{2},...,(c_{i})_{i})\in \mathbb {R} ^{i}$ i ) $\textstyle c_{i}=((c_{i})_{1},(c_{i})_{2},...,(c_{i})_{i})\in \mathbb {R} ^{i}$ , $\textstyle c_{i}=((c_{i})_{1},(c_{i})_{2},...,(c_{i})_{i})\in \mathbb {R} ^{i}$ . $\textstyle c_{i}=((c_{i})_{1},(c_{i})_{2},...,(c_{i})_{i})\in \mathbb {R} ^{i}$ , ( $\textstyle c_{i}=((c_{i})_{1},(c_{i})_{2},...,(c_{i})_{i})\in \mathbb {R} ^{i}$ ) $\textstyle c_{i}=((c_{i})_{1},(c_{i})_{2},...,(c_{i})_{i})\in \mathbb {R} ^{i}$ R $\textstyle c_{i}=((c_{i})_{1},(c_{i})_{2},...,(c_{i})_{i})\in \mathbb {R} ^{i}$ \ $displaystyle$ $c$ _ { i } $=$ ( ( $c _$ { $i$ ) $_$ { } _ {2} , ( c $\textstyle c_{i}=((c_{i})_{1},(c_{i})_{2},...,(c_{i})_{i})\in \mathbb {R} ^{i}$ $c_{i}$ { $i$ ) $_$ { $i$ } \ $c_{i}$ $\textstyle c_{i}=((c_{i})_{1},(c_{i})_{2},...,(c_{i})_{i})\in \mathbb {R} ^{i}$ \ $mathbb$ $R ^$ { $i$ $c_{i}$ } } 。

c_{0}=0

(c_{i})_{j}=(c_{i-1})_{j},j=1,2,...,i-1

(c_{i})_{j}=(c_{i-1})_{j},j=1,2,...,i-1

i )

(c_{i})_{j}=(c_{i-1})_{j},j=1,2,...,i-1

(

(c_{i})_{j}=(c_{i-1})_{j},j=1,2,...,i-1

i -

(c_{i})_{j}=(c_{i-1})_{j},j=1,2,...,i-1

)

(c_{i})_{j}=(c_{i-1})_{j},j=1,2,...,i-1

,

(c_{i})_{j}=(c_{i-1})_{j},j=1,2,...,i-1

=

(c_{i})_{j}=(c_{i-1})_{j},j=1,2,...,i-1

, 2,

(c_{i})_{j}=(c_{i-1})_{j},j=1,2,...,i-1

.

(c_{i})_{j}=(c_{i-1})_{j},j=1,2,...,i-1

,

(c_{i})_{j}=(c_{i-1})_{j},j=1,2,...,i-1

-

(c_{i})_{j}=(c_{i-1})_{j},j=1,2,...,i-1

( c

_

{

i } _

{

display

style ( c

_

{ i - 1 )

_

{

j

} _ {

j

, j = 1, 2,

...

i -

1

} 、

(c_{i})_{i}=\big (}y_{i}-\sum _{j=1}^{i-1}(c_{i-1})_{j}\nagle x_{j},x_{i}\rangle {Big}}

$\mathbb {R} ^{d}$ 서 $\langle x_{j},x_{i}\rangle$ x $\langle x_{j},x_{i}\rangle$ , $\langle x_{j},x_{i}\rangle$ i ${\$ { $displaystyle$ \ $langle x$ _ { $j$ , $x$ _ { $i$ } \ $rangle$ }는 $\langle x_{j},x_{i}\rangle$ R $\mathbb {R} ^{d}$ d \ $displaystyle$ \ $mathbb$ { $R }$ ^ { $d$ }의 표준 커널이며 프레딕터는 다음과 같습니다.

f_{i}(x)=\langle w_{i-1},x\rangle =\sum _{j=1}^{i-1}(c_{i-1})_{j}\langle x_{j},x\rangle

i (

f_{i}(x)=\langle w_{i-1},x\rangle =\sum _{j=1}^{i-1}(c_{i-1})_{j}\langle x_{j},x\rangle

)

f_{i}(x)=\langle w_{i-1},x\rangle =\sum _{j=1}^{i-1}(c_{i-1})_{j}\langle x_{j},x\rangle

f_{i}(x)=\langle w_{i-1},x\rangle =\sum _{j=1}^{i-1}(c_{i-1})_{j}\langle x_{j},x\rangle

f_{i}(x)=\langle w_{i-1},x\rangle =\sum _{j=1}^{i-1}(c_{i-1})_{j}\langle x_{j},x\rangle

i -

f_{i}(x)=\langle w_{i-1},x\rangle =\sum _{j=1}^{i-1}(c_{i-1})_{j}\langle x_{j},x\rangle

,

x

f_{i}(x)=\langle w_{i-1},x\rangle =\sum _{j=1}^{i-1}(c_{i-1})_{j}\langle x_{j},x\rangle

f_{i}(x)=\langle w_{i-1},x\rangle =\sum _{j=1}^{i-1}(c_{i-1})_{j}\langle x_{j},x\rangle

1

f_{i}(x)=\langle w_{i-1},x\rangle =\sum _{j=1}^{i-1}(c_{i-1})_{j}\langle x_{j},x\rangle

-

f_{i}(x)=\langle w_{i-1},x\rangle =\sum _{j=1}^{i-1}(c_{i-1})_{j}\langle x_{j},x\rangle

(

f_{i}(x)=\langle w_{i-1},x\rangle =\sum _{j=1}^{i-1}(c_{i-1})_{j}\langle x_{j},x\rangle

-

f_{i}(x)=\langle w_{i-1},x\rangle =\sum _{j=1}^{i-1}(c_{i-1})_{j}\langle x_{j},x\rangle

)

f_{i}(x)=\langle w_{i-1},x\rangle =\sum _{j=1}^{i-1}(c_{i-1})_{j}\langle x_{j},x\rangle

\

display f _

{

i

} ( x ) = \

sum

_ {

j = 1

^{

i }

( c

_ i

-

1

)

x

대신 일반 $커널$ K(\ $style$ K $)$ 가 $K$ 도입되어 프레딕터가

f_{i}(x)=\sum _{j=1}^{i-1}(c_{i-1})_{j}K(x_{j},x)

그리고 같은 증거는 또한 최소 제곱 손실을 최소화하는 예측 변수가 위의 재귀로 변경됨으로써 얻어진다는 것을 보여줄 것이다.

(c_{i})_{i}=\big (}y_{i}-\sum _{j=1}^{i-1}(c_{i-1})_{j}K(x_{j},x_{i}}{\Big}}}

위의 식에서는 $\$ 업데이트를 $c_{i}$ 모든 데이터를 저장해야 합니다. $(\displaystyle$ n $)$ -번째 $n$ 데이터 포인트의 평가 시 재귀의 총 복잡도는 O $O(n^{2}dk)$ $O(n^{2}dk)$ $O(n^{2}dk)$ $)(n displaystyle$ O $(n^{2} dk$ 입니다. $k$ 서k(\ $displaystyle$ k $)$ 는 $k$ 단일 포인트 ^[1]쌍으로 커널을 평가하는 비용입니다.따라서 커널의 사용은 $\textstyle c_{i}\in \mathbb {R} ^{i}$ $\textstyle c_{i}\in \mathbb {R} ^{i}$ 의 공간에서 재귀(recursive)를 수행하는 대신 $\textstyle w_{i}\in \mathbb {R} ^{d}$ K로 표현되는 유한 치수 파라미터 $공간$ ${i}\in \mathbb {R}$ ^{d $}$ 에서 $\textstyle w_{i}\in \mathbb {R} ^{d}$ $kernel$ K {\ $displaystyle$ K $}$ 로 $K$ 이동하는 것을 가능하게 했다. $§$ $Ri \displaystyle$ \ $textstyle$ c_{ $i}\$ in $\mathbb {R$ i}. 치수는 트레이닝 데이터 세트의 크기와 동일합니다 $\textstyle c_{i}\in \mathbb {R} ^{i}$ 일반적으로 이것은 대표자 ^[1]정리의 결과이다.

온라인 볼록 최적화

온라인 볼록 최적화(OCO)는 효율적인 알고리즘을 가능하게 하기 위해 볼록 최적화를 활용하는 의사 결정을 위한 일반적인 프레임워크입니다.이 프레임워크는 다음과 같이 반복 게임을 하는 것이다.

t $t=1,2,...,T$ , $t=1,2,...,T$ , $t=1,2,...,T$ $t=1,2,...,T$ { $displaystyle$ t $=1$ , $2, ...T}$ 의 경우

학습자가 $x_{t}$ $x_{t}$ t $(\$ 를 수신합니다.
학습자가 고정 볼록 $세트$ S $(\displaystyle$ S $)$ 에서 $\$ displaystyle $w_{t$ }를 $w_{t}$ $w_{t}$ 합니다.
자연은 볼록 손실 $v_{t}:S\rightarrow \mathbb {R}$ $v_{t}:S\rightarrow \mathbb {R}$ t $v_{t}:S\rightarrow \mathbb {R}$ : $v_{t}:S\rightarrow \mathbb {R}$ $v_{t}:S\rightarrow \mathbb {R}$ $v_{t}:S\rightarrow \mathbb {R}$ ${\$ $S\rightarrow \mathbb {R}$ 。
학습자가 $v_{t}(w_{t})$ v $v_{t}(w_{t})$ ( $v_{t}(w_{t})$ t $v_{t}(w_{t})$ ) { $displaystyle v$ _ { $t$ } ( $w$ _ { $t$ } )를 $v_{t}(w_{t})$ 경험하고 모델을 업데이트합니다.

$목표$ 는 후회, 즉 누적 손실과 $u\in S$ 의 $고정점$ 손실의 $u\in S$ 차이를 최소화하는 $것이다.$ 예를 들어 온라인 최소 제곱 선형 회귀 분석의 경우를 고려해 보십시오.여기서 무게 벡터는 볼록 $v_{t}(w)=(\langle w,x_{t}\rangle -y_{t})^{2}$ S $S=\mathbb {R} ^{d}$ $S=\mathbb {R} ^{d}$ $S=\mathbb {R} ^{d}$ \ $displaystyle$ S = \ $mathbb$ { $R$ } ^ { $d$ } 、 nature $v_{t}(w)=(\langle w,x_{t}\rangle -y_{t})^{2}$ ( $v_{t}(w)=(\langle w,x_{t}\rangle -y_{t})^{2}$ w , $v_{t}(w)=(\langle w,x_{t}\rangle -y_{t})^{2}$ $v_{t}(w)=(\langle w,x_{t}\rangle -y_{t})^{2}$ - $v_{t}(w)=(\langle w,x_{t}\rangle -y_{t})^{2}$ ) $v_{t}(w)=(\langle w,x_{t}\rangle -y_{t})^{2}$ ( $v_{t}(w)=(\langle w,x_{t}\rangle -y_{t})^{2}$ \ $displaystyle$ v $_$ { $t$ } = ( \ $displaystyle w$ , $x t$ } \ $rang$ } )^{ $rang$ { t } )로부터 반환한다. $v_{t}$ t $v_{t}$ { $display style$ v _ { $t$ } 。

그러나 일부 온라인 예측 문제는 OCO 프레임워크에 맞지 않는다.예를 들어 온라인 분류에서 예측 영역과 손실 함수는 볼록하지 않다.그러한 시나리오에서는 볼록화를 위한 두 가지 간단한 기법, 즉 무작위화와 대리 손실^{[citation needed]} 함수를 사용한다.

간단한 온라인 볼록 최적화 알고리즘은 다음과 같다.

리더에 따르기(FTL)

가장 간단한 학습 규칙은 (현재 단계에서) 과거 모든 라운드에서 손실이 가장 적은 가설을 선택하는 것입니다.이 알고리즘은 Follow the leader라고 불리며 다음과 같이 간단히 $라운드$ t $\displaystyle$ t로 표시됩니다 $t$ .

w_{t}=\operatorname {display,min}_{w\in S}\sum _{i=1}^{t-1}v_{i}(w)

따라서 이 방법은 탐욕 알고리즘으로 간주될 수 있습니다.온라인 2차 최적화(손실함수가 $v_{t}(w)=||w-x_{t}||_{2}^{2}$ t ( $v_{t}(w)=||w-x_{t}||_{2}^{2}$ ) $v_{t}(w)=||w-x_{t}||_{2}^{2}$ - $v_{t}(w)=||w-x_{t}||_{2}^{2}$ $v_{t}(w)=||w-x_{t}||_{2}^{2}$ 2 $v_{t}(w)=||w-x_{t}||_{2}^{2}$ 2 ( w ) = $v_{t}(w)=||w-x_{t}||_{2}^{2}$ w - x $_$ { $t$ } _ { { $2$ t } _ { 2 $v_{t}(w)=||w-x_{t}||_{2}^{2}$ })의 경우, 로그 $\log(T)$ ( $\log(T)$ T $)$ \ $displaystyle \log$ ( T $\log(T)$ ) $\log(T)$ log imp imp imp imp for for for for for for for for for for for for for for for for for for for for for for for for for for for for for for for for that that that that that that that that that that that that that that for that that that that that that for for for for for for for log log for for for for that that that that that온라인 선형 최적화와 같은 모델 제품군입니다.그러기 위해서는 정규화를 추가하여 FTL을 변경합니다.

정규화된 리더(FTRL)를 따릅니다.

이는 FTL 솔루션을 안정화하고 더 나은 후회 경계를 얻기 위해 사용되는 FTL의 자연스러운 수정입니다. $R:S\rightarrow \mathbb {R}$ $R:S\rightarrow \mathbb {R}$ R : S $R:S\rightarrow \mathbb {R}$ {\ $displaystyle$ R $:$ $S\rightarrow \mathbb {R}$ 을 $R:S\rightarrow \mathbb {R}$ $($ 를) 선택하고 다음과 같이 $라운드$ t에서 학습을 수행합니다.

w_{t}=\operatorname {display,min}_{w\in S}\sum _{i=1}^{t-1}v_{i}(w)+R(w)

특별한 예로서 온라인 선형 최적화의 예를 들어, 자연이 v $v_{t}(w)=\langle w,z_{t}\rangle$ ( $v_{t}(w)=\langle w,z_{t}\rangle$ w ) $v_{t}(w)=\langle w,z_{t}\rangle$ = $v_{t}(w)=\langle w,z_{t}\rangle$ , $v_{t}(w)=\langle w,z_{t}\rangle$ $v_{t}(w)=\langle w,z_{t}\rangle$ { $style v$ _ { $t$ } = \ $displayle$ w , z $_$ { $t$ } \ $rangle$ $v_{t}(w)=\langle w,z_{t}\rangle$ 의 손실 함수를 반송한다고 $S=\mathbb {R} ^{d}$ 합니다.또, S $S=\mathbb {R} ^{d}$ $S=\mathbb {R} ^{d}$ d $S=\mathbb {R} ^{d}$ { $display style$ S = \ $mathbbb$ } { d $}$ { display { d } $S=\mathbb {R} ^{d}$ } { display st} 。 $R(w)={\frac {1}{2\eta }}||w||_{2}^{2}$ $R(w)={\frac {1}{2\eta }}||w||_{2}^{2}$ ({ $displaystyle R$ (w ) = $flac$ { $1$ } { $2$ \ eta }} $w$ _ { $2$ } $\eta$ { { 2 } chosen chosen chosen chosen $。$ 그러면 후회를 최소화하는 반복이 되는 것을 알 수 있습니다.

w_{t+1}=-\eta \sum _{i=1}^{t}z_{i}=w_{t}-\eta z_{t

이 값은 $w_{t+1}=w_{t}-\eta \nabla v_{t}(w_{t})$ + $w_{t+1}=w_{t}-\eta \nabla v_{t}(w_{t})$ $=$ $w_{t+1}=w_{t}-\eta \nabla v_{t}(w_{t})$ t - $w_{t+1}=w_{t}-\eta \nabla v_{t}(w_{t})$ t ( $w_{t+1}=w_{t}-\eta \nabla v_{t}(w_{t})$ t $w_{t+1}=w_{t}-\eta \nabla v_{t}(w_{t})$ )\ $display w_{t+$ 1}= $w_{t}-\$ eta \ $display la$ v_ ${t}(w_$ {t $w_{t+1}=w_{t}-\eta \nabla v_{t}(w_{t})$ 로 고쳐 쓸 수 있습니다.이것은 온라인 구배 강하와 매우 유사합니다.

대신 S가 R $\$ 의 볼록 부분 공간인 $경우$ S를 투영해야 하므로 업데이트 규칙이 변경됩니다.

w_{t+1}=\Pi _{S}(-\eta \sum _{i=1}^{t}z_{i})=\Pi _{S}(\eta \theta _{t+1})

이 알고리즘은 $\theta _{t+1}$ t $\theta _{t+1}$ + $(\$ _ ${t+1})$ 이 구배를 누적하기 $\theta _{t+1}$ 때문에 느린 투영이라고 불립니다.네스테로프의 이중 평균 알고리즘이라고도 합니다.선형 손실 함수 및 2차 정규화의 이 시나리오에서는 후회는 O $O({\sqrt {T}})$ ( $O({\sqrt {T}})$ )(\ $displaystyle$ O $({\sqrt {T$ 에 의해 $O({\sqrt {T}})$ 되며, 따라서 평균 후회는 원하는 대로 $0$ 이 됩니다.

온라인 경사하강(OSD)

상기 선형 손실 $v_{t}(w)=\langle w,z_{t}\rangle$ v $v_{t}(w)=\langle w,z_{t}\rangle$ ( $v_{t}(w)=\langle w,z_{t}\rangle$ w ) $v_{t}(w)=\langle w,z_{t}\rangle$ $v_{t}(w)=\langle w,z_{t}\rangle$ , $v_{t}(w)=\langle w,z_{t}\rangle$ $v_{t}(w)=\langle w,z_{t}\rangle$ \ $displaystyle v$ _ { $t$ } = \ $sclle$ w , z $_$ { $t$ $v_{t}$ $}$ $v_{t}(w)=\langle w,z_{t}\rangle$ 알고리즘을 볼록 손실 함수로 일반화하려면 , ( $w$ $\partial v_{t}(w_{t})$ ) \ $display$ $v_{t}$ $\ class v_t$ ( $w)$ { t } $\partial v_{t}(w_{t})$ $。$ $w_{t}$ $v_{t}$ $w_{t}$ { $displaystyle w$ _ { $t$ } $w_{t}$ wv t { $t$ }에 $v_{t}$ $v_{t}$ 근사값으로, 온라인 준구배 강하 알고리즘으로 이어집니다.

$\eta ,w_{1}=0$ $\eta ,w_{1}=0$ $\eta ,w_{1}=0$ 1 $\eta ,w_{1}=0$ { $displaystyle \eta$ , $w$ _ {1} = $0$ } 을 초기화합니다.

t $t=1,2,...,T$ , $t=1,2,...,T$ , $t=1,2,...,T$ $t=1,2,...,T$ { $displaystyle$ t $=1$ , $2, ...T}$ 의 경우

$\$ 를 사용하여 $w_{t}$ 하고 자연에서 $\$ 를 $f_{t}$ 수신합니다.
$z_{t}\in \partial v_{t}(w_{t})$ t $z_{t}\in \partial v_{t}(w_{t})$ t ( $z_{t}\in \partial v_{t}(w_{t})$ ) $z_{t}\in \partial v_{t}(w_{t})$ \ $displaystyle z_{t}$ \ $in$ \ $partial v_{t}(w_{t})$ 를 $z_{t}\in \partial v_{t}(w_{t})$ 합니다.
S $S=\mathbb {R} ^{d}$ $S=\mathbb {R} ^{d}$ d $S=\mathbb {R} ^{d}$ \ $style$ S = \ $mathbb {R}$ ^{ $d$ $S=\mathbb {R} ^{d}$ 인 $S=\mathbb {R} ^{d}$ $w_{t+1}=w_{t}-\eta z_{t}$ + $w_{t+1}=w_{t}-\eta z_{t}$ $w_{t+1}=w_{t}-\eta z_{t}$ $w_{t+1}=w_{t}-\eta z_{t}$ - $w_{t+1}=w_{t}-\eta z_{t}$ z $w_{t+1}=w_{t}-\eta z_{t}$ t { $display$ w $_$ { $t$ + 1 } $= w$ _ { t } - \ $eta$ z $_$ { t } 로 $w_{t+1}=w_{t}-\eta z_{t}$ 합니다.
S $S\subset \mathbb {R} ^{d}$ $S\subset \mathbb {R} ^{d}$ d $S\subset \mathbb {R} ^{d}$ \ $style$ S \ $subset$ \ $mathbb { R$ } ^{ $d$ 인 $S\subset \mathbb {R} ^{d}$ , 누적 그라데이션이S { $display style$ S}에 $S$ 투영됩니다. $w_{t+1}=\Pi _{S}(\eta \theta _{t+1}),\theta _{t+1}=\theta _{t}+z_{t}$ $w_{t+1}=\Pi _{S}(\eta \theta _{t+1}),\theta _{t+1}=\theta _{t}+z_{t}$ + $w_{t+1}=\Pi _{S}(\eta \theta _{t+1}),\theta _{t+1}=\theta _{t}+z_{t}$ $w_{t+1}=\Pi _{S}(\eta \theta _{t+1}),\theta _{t+1}=\theta _{t}+z_{t}$ $w_{t+1}=\Pi _{S}(\eta \theta _{t+1}),\theta _{t+1}=\theta _{t}+z_{t}$ S $w_{t+1}=\Pi _{S}(\eta \theta _{t+1}),\theta _{t+1}=\theta _{t}+z_{t}$ ( $w_{t+1}=\Pi _{S}(\eta \theta _{t+1}),\theta _{t+1}=\theta _{t}+z_{t}$ $w_{t+1}=\Pi _{S}(\eta \theta _{t+1}),\theta _{t+1}=\theta _{t}+z_{t}$ t + $w_{t+1}=\Pi _{S}(\eta \theta _{t+1}),\theta _{t+1}=\theta _{t}+z_{t}$ $w_{t+1}=\Pi _{S}(\eta \theta _{t+1}),\theta _{t+1}=\theta _{t}+z_{t}$ + $w_{t+1}=\Pi _{S}(\eta \theta _{t+1}),\theta _{t+1}=\theta _{t}+z_{t}$ $w_{t+1}=\Pi _{S}(\eta \theta _{t+1}),\theta _{t+1}=\theta _{t}+z_{t}$ t $w_{t+1}=\Pi _{S}(\eta \theta _{t+1}),\theta _{t+1}=\theta _{t}+z_{t}$ + $w_{t+1}=\Pi _{S}(\eta \theta _{t+1}),\theta _{t+1}=\theta _{t}+z_{t}$ + $w_{t+1}=\Pi _{S}(\eta \theta _{t+1}),\theta _{t+1}=\theta _{t}+z_{t}$ + $w_{t+1}=\Pi _{S}(\eta \theta _{t+1}),\theta _{t+1}=\theta _{t}+z_{t}$ \ t \ t { \ $display w_{$ t + t + t + t1 } } } } $=$ $Pi _{S}(\eta \theta _{t+1}),\theta _{t+1}=\theta _{t}+z_{t}$

OSD 알고리즘을 사용하여 분류용 온라인 버전의 SVM에 대한 O $O({\sqrt {T}})$ ( $T$ ) ( \ $sqrt$ { $T }$ ) 후회 $O({\sqrt {T}})$ 경계를 $O({\sqrt {T}})$ 할 수 있습니다. 여기서 힌지 $v_{t}(w)=\max\{0,1-y_{t}(w\cdot x_{t})\}$ v $v_{t}(w)=\max\{0,1-y_{t}(w\cdot x_{t})\}$ ( $v_{t}(w)=\max\{0,1-y_{t}(w\cdot x_{t})\}$ ) $v_{t}(w)=\max\{0,1-y_{t}(w\cdot x_{t})\}$ { $v_{t}(w)=\max\{0,1-y_{t}(w\cdot x_{t})\}$ , $v_{t}(w)=\max\{0,1-y_{t}(w\cdot x_{t})\}$ - $v_{t}(w)=\max\{0,1-y_{t}(w\cdot x_{t})\}$ ( $v_{t}(w)=\max\{0,1-y_{t}(w\cdot x_{t})\}$ $v_{t}(w)=\max\{0,1-y_{t}(w\cdot x_{t})\}$ 0 - $v_{t}(w)=\max\{0,1-y_{t}(w\cdot x_{t})\}$ ) $v_{t}(w)=\max\{0,1-y_{t}(w\cdot x_{t})\}$ $、$ { $display v$ _ { t $v_{t}(w)=\max\{0,1-y_{t}(w\cdot x_{t})\}$ } $v_{t}(w)=\max\{0,1-y_{t}(w\cdot x_{t})\}$ = max { 1 . 0 . stylash } $\}}$

기타 알고리즘

직교적으로 정규화된 FTRL 알고리즘은 위에서 설명한 것처럼 느릿느릿하게 투영된 경사 알고리즘으로 이어집니다.임의의 볼록함수 및 정규자를 위해 위 사항을 사용하려면 온라인 미러 강하를 사용한다.선형 손실 함수에 대해 나중에 최적의 정규화를 도출할 수 있으며, 이는 AdaGrad 알고리즘으로 이어진다.유클리드 정규화의 경우 O $O({\sqrt {T}})$ ( $O({\sqrt {T}})$ ) \ $displaystyle$ O ( { \ $sqrt$ { $T$ } $O({\sqrt {T}})$ } )의 후회 $O({\sqrt {T}})$ 를 나타낼 수 있으며, 이는 O $O(\log T)$ ( $O(\log T)$ T $O(\log T)$ ) \ $displaystyle$ O ( \ $log$ T $O(\log T)$ )로 $O(\log T)$ 더욱 개선될 수 있다.

계속적인 학습

연속학습이란 연속적인 ^[5]정보 스트림을 처리함으로써 학습된 모델을 지속적으로 개선하는 것을 의미한다.끊임없이 변화하는 현실 세계에서 상호작용하는 소프트웨어 시스템과 자율 에이전트에 지속적인 학습 기능이 필수적입니다.그러나 비정상 데이터 분포에서 점진적으로 사용 가능한 정보를 지속적으로 획득하면 일반적으로 치명적인 망각으로 이어지기 때문에 지속적인 학습은 기계 학습과 뉴럴 네트워크 모델의 과제이다.

온라인 학습의 해석

온라인 학습의 패러다임은 학습 모델의 선택에 따라 해석이 다르며, 각 $f_{1},f_{2},\ldots ,f_{n}$ 은 $f_{1},f_{2},\ldots ,f_{n}$ $f_{1},f_{2},\ldots ,f_{n}$ $…,$ $f_{1},f_{2},\ldots ,f_{n}$ (\ $displaystyle f_{1}, f_{2},\ldots,$ f_ $n$ }) 순서의 예측 품질에 대해 명확한 의미를 갖는다.이 논의에는 프로토타입 확률적 경사 강하 알고리즘이 사용된다.위에서 설명한 바와 같이 그 재귀는 다음과 같습니다.

\displaystyle \textstyle w_{t}=w_{t-1}-\displayla V(\langle w_{t1},x_{t}\rangle,y_{t})}

첫 번째 해석은 확률적 경사 강하법을 ^[6]위에서 정의한 기대 $I[w]$ I [ $]$ \ $display style$ I [ $w$ ]의 $I[w]$ 최소화 문제에 적용하는 것으로 간주한다.실제로 무한 데이터 스트림의 경우 $(x_{1},y_{1}),(x_{2},y_{2}),\ldots$ ( $(x_{1},y_{1}),(x_{2},y_{2}),\ldots$ , y $(x_{1},y_{1}),(x_{2},y_{2}),\ldots$ $(x_{1},y_{1}),(x_{2},y_{2}),\ldots$ ( $(x_{1},y_{1}),(x_{2},y_{2}),\ldots$ 2, y $(x_{1},y_{1}),(x_{2},y_{2}),\ldots$ $(x_{1},y_{1}),(x_{2},y_{2}),\ldots$ (x $(x_{1},y_{1}),(x_{2},y_{2}),\ldots$ $),$ ( $x_{1}), (x_{2}, y_$ {2}), \ldots $}$ 는 $(x_{1},y_{1}),(x_{2},y_{2}),\ldots$ (x $p(x,y)$ , $p(x,y)$ )의 $p(x,y)$ p $(x$ , y )에서 도출된 것으로 $가정$ 됩니다 $p(x,y)$ $위$ 의 반복에서 $V(\cdot ,\cdot )$ cdot )는 $V(\cdot ,\cdot )$ 예상 $I[w]$ I [ $w$ \ $displaystyle$ I [ $w$ ] \ $displaystyle$ I $I[w_{t}]-I[w^{\ast }]$ [ $w ]$ } $} method$ } method } method } } } } } } } of of of of of of of of $I[w]$ of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of $w^{\ast }$ ${\$ { \ $display style$ w^ { \ $ast }$ is $w^{\ast }$ $I[w]$ 、 I [ $]{$ $display style$ I [ w $I[w]$ ^[7]의 최소값입니다.이 해석은 또한 유한 훈련 세트의 경우에도 유효하다. 데이터를 통과하는 다중 경로로 구배는 더 이상 독립적이지 않지만 특별한 경우에는 여전히 복잡성 결과를 얻을 수 있다.

두 번째 해석은 유한 훈련 세트의 경우에 적용되며 SGD 알고리즘을 증분 경사 강하 방법의 ^[3]인스턴스로 간주한다.이 경우 대신 경험적 위험을 살펴봅니다.

I_{n}[w]=sum _{i=1}^{n}V(\langle w,x_{i}\rangle,y_{i}\.

증분 경사 강하 반복에서 V $V(\cdot ,\cdot )$ ( $V(\cdot ,\cdot )$ , $V(\cdot ,\cdot )$ ) { $displaystyle$ V ( \ $cdot$ , \ $cdot$ ) $V(\cdot ,\cdot )$ }의 $V(\cdot ,\cdot )$ 경사도 역시 I $I_{n}[w]$ [ $]$ \ $displaystyle I_{n}[w]$ $I_{n}[w]$ 의 확률적 추정치이므로, 이 해석은 확률적 경사 강하법과도 관련이 있으나 경험적 위험을 최소화하기 위해 적용된다.예상되는 리스크에 대응합니다.이 해석은 예상 위험이 아닌 경험적 위험과 관련이 있으므로 데이터를 통과하는 다중 통과가 쉽게 허용되며 실제로 $I_{n}[w_{t}]-I_{n}[w_{n}^{\ast }]$ 에 대한 경계가 엄격해집니다 $I_{n}[w_{t}]-I_{n}[w_{n}^{\ast }]$ $w_{n}^{\ast }$ 서 ${$ $n}$ - $I_{n}[w_{t}]-I_{n}[w_{n}^{\ast }]$ {n $}$ [ $w_{t}$ - $I_{n}$ - { $n$ } - I_{n} $I_{n}[w_{t}]-I_{n}[w_{n}^{\ast }]$ w_style w_n $}$ ( $여기$ 서 $I_{n}[w_{t}]-I_{n}[w_{n}^{\ast }]$ w_n $)$ 는 I n $I_{n}[w]$ [ $]{$ $displaystyle I_{n}[w$ 의 최소값입니다.

실장

서약팔 와빗:오픈 소스 고속 코어 외 온라인 학습 시스템. 많은 기계 학습 감소, 중요도 가중치 부여 및 다양한 손실 기능 및 최적화 알고리즘의 선택을 지원하는 것으로 주목됩니다.해싱 트릭을 사용하여 훈련 데이터의 양에 관계없이 피쳐 세트의 크기를 제한합니다.
skikit-learn: 알고리즘의 핵심 외 구현을 제공합니다.
- 분류:퍼셉트론, SGD 분류기, Naigive Bayes 분류기.
- 회귀: SGD Regressor, Passive Aggressive Regressor.
- 클러스터링:미니 배치 K-평균
- 기능 추출:미니 배치 사전 학습, 증분 PCA.

「」를 참조해 주세요.

학습 패러다임

일반적인 알고리즘

학습 모델

레퍼런스

^ ^a ^b ^c ^d ^e ^f ^g L. Rosasco, T. Poggio, 기계학습: 정규화 접근법, MIT-9.520 강의 노트, Moscript, 2015년 12월.7장 - 온라인 학습
^ Yin, Harold J. Kushner, G. George (2003). Stochastic approximation and recursive algorithms and applications (Second ed.). New York: Springer. pp. 8–12. ISBN 978-0-387-21769-7.
^ ^a ^b Bertsekas, D. P. (2011년)볼록 최적화를 위한 증분 구배, 하위 구배 및 근위법: 조사.기계 학습을 위한 최적화, 85.
^ Hazan, Elad (2015). Introduction to Online Convex Optimization (PDF). Foundations and Trends in Optimization.
^ Parisi, German I.; Kemker, Ronald; Part, Jose L.; Kanan, Christopher; Wermter, Stefan (2019). "Continual lifelong learning with neural networks: A review". Neural Networks. 113: 54–71. arXiv:1802.07569. doi:10.1016/j.neunet.2019.01.012. ISSN 0893-6080.
^ Bottou, Léon (1998). "Online Algorithms and Stochastic Approximations". Online Learning and Neural Networks. Cambridge University Press. ISBN 978-0-521-65263-6.
^ 확률 근사 알고리즘 및 응용 프로그램, Harold J. Kushner 및 G.조지 인, 뉴욕: 스프링거-벨락, 1997년.ISBN 0-387-94916-X; 제2판, 2003, ISBN 0-387-00894-2.

외부 링크

http://onlineprediction.net/, 온라인 예측용 Wiki.
6.883: 머신 러닝의 온라인 방법:이론과 응용 프로그램알렉산더 라클린.MIT

[lorenzo-1] ^ ^a ^b ^c ^d ^e ^f ^g L. Rosasco, T. Poggio, 기계학습: 정규화 접근법, MIT-9.520 강의 노트, Moscript, 2015년 12월.7장 - 온라인 학습

[2] Yin, Harold J. Kushner, G. George (2003). Stochastic approximation and recursive algorithms and applications (Second ed.). New York: Springer. pp. 8–12. ISBN 978-0-387-21769-7.

[bertsekas-3] Bertsekas, D. P. (2011년)볼록 최적화를 위한 증분 구배, 하위 구배 및 근위법: 조사.기계 학습을 위한 최적화, 85.

[4] Hazan, Elad (2015). Introduction to Online Convex Optimization (PDF). Foundations and Trends in Optimization.

[5] Parisi, German I.; Kemker, Ronald; Part, Jose L.; Kanan, Christopher; Wermter, Stefan (2019). "Continual lifelong learning with neural networks: A review". Neural Networks. 113: 54–71. arXiv:1802.07569. doi:10.1016/j.neunet.2019.01.012. ISSN 0893-6080.

[6] Bottou, Léon (1998). "Online Algorithms and Stochastic Approximations". Online Learning and Neural Networks. Cambridge University Press. ISBN 978-0-521-65263-6.

[kushneryin-7] 확률 근사 알고리즘 및 응용 프로그램, Harold J. Kushner 및 G.조지 인, 뉴욕: 스프링거-벨락, 1997년.ISBN 0-387-94916-X; 제2판, 2003, ISBN 0-387-00894-2.

[2]

[1]

[3]

[5]

[6]

[7]

Search

온라인 머신 러닝

네임스페이스

더

목차

서론

온라인 학습 통계 뷰

예제: 선형 최소 제곱

배치 학습

온라인 학습: 재귀 최소 제곱

확률적 경사 강하

증분 확률적 경사 강하

커널 방식

온라인 볼록 최적화

리더에 따르기(FTL)

정규화된 리더(FTRL)를 따릅니다.

온라인 경사하강(OSD)

기타 알고리즘

계속적인 학습

온라인 학습의 해석

실장

「」를 참조해 주세요.

레퍼런스

외부 링크

Search

온라인 머신 러닝

서론

온라인 학습 통계 뷰

예제: 선형 최소 제곱

배치 학습

온라인 학습: 재귀 최소 제곱

확률적 경사 강하

증분 확률적 경사 강하

커널 방식

온라인 볼록 최적화

리더에 따르기(FTL)

정규화된 리더(FTRL)를 따릅니다.

온라인 경사하강(OSD)

기타 알고리즘

계속적인 학습

온라인 학습의 해석

실장

「 」를 참조해 주세요.

레퍼런스

외부 링크

「」를 참조해 주세요.