랜덤 좌표 강하

랜덤화(블록) 좌표 강하법은 네스테로프(2010)와 리치타릭 및 타카치(2011)에 의해 널리 보급된 최적화 알고리즘이다.매끄러운 볼록함수를 최소화하는 문제에 적용했을 때, 이 방법의 첫 번째 분석은 Nesterov(2010)^[1]에 의해 수행되었다.네스테로프의 분석에서, 이 방법은 알 수 없는 스케일 계수를 가진 원래 함수의 2차 섭동에 적용될 필요가 있다.리치타릭과 타카치(2011)는 이를 필요로 하지 않는 반복 복잡성 경계를 제공한다. 즉, 방법은 목적 함수에 직접 적용된다.또한 복합함수, 즉 매끄러운 볼록함수와 (아마도 매끄럽지 않은) 볼록 블록 분리 가능 함수의 합을 최소화하는 문제로 설정을 일반화한다.

$F(x)=f(x)+\Psi(x),$

여기서 $\Psi (x)=\sum _{i=1}^{n}\Psi _{i}(x^{(i)}),$ ( $\Psi (x)=\sum _{i=1}^{n}\Psi _{i}(x^{(i)}),$ ) $\Psi (x)=\sum _{i=1}^{n}\Psi _{i}(x^{(i)}),$ $\Psi (x)=\sum _{i=1}^{n}\Psi _{i}(x^{(i)}),$ i $\Psi (x)=\sum _{i=1}^{n}\Psi _{i}(x^{(i)}),$ $\Psi (x)=\sum _{i=1}^{n}\Psi _{i}(x^{(i)}),$ $\Psi (x)=\sum _{i=1}^{n}\Psi _{i}(x^{(i)}),$ $\Psi (x)=\sum _{i=1}^{n}\Psi _{i}(x^{(i)}),$ i ( $x$ ) , $\Psi (x)=\sum _{i=1}^{n}\Psi _{i}(x^{(i)}),$ { $displaystyle$ $\ Psi$ ( x ) = \ $sum$ _ { i } { $n }$ \ Psi $_$ $x\in R^{N}$ { $i$ } ( $x ^$ { $i$ $\Psi (x)=\sum _{i=1}^{n}\Psi _{i}(x^{(i)}),$ } ) , $\Psi (x)=\sum _{i=1}^{n}\Psi _{i}(x^{(i)}),$ $display$ $N 은$ n의 $변수$ 로서 $n$ 분해됩니다. $\Psi _{1},\dots ,\Psi _{n}$ 1, …, $\Psi _{1},\dots ,\Psi _{n}$ \ $displaystyle$ \ $Psi$ _ ${$ 1}, \ $dots$ , \ $Psi$ _ {n $\Psi _{1},\dots ,\Psi _{n}$ } 은 (단순한) $\Psi _{1},\dots ,\Psi _{n}$ 이다.

예(블록 분해): $R$ }에서 $=$ ( x 1, x 2, $x=(x_{1},x_{2},\dots ,x_{5})\in R^{5}$ , x $x=(x_{1},x_{2},\dots ,x_{5})\in R^{5}$ ) $display$ $x=(x_{1},x_{2},\dots ,x_{5})\in R^{5}$ 5 ( x _ { 1 , $x _$ { $2}$ , \ $display$ , x $_$ { $5$ } $n=3$ ) $n=3$ $n=3$ ( $x$ $x^{(1)}=(x_{1},x_{3}),x^{(2)}=(x_{2},x_{5})$ , $x^{(1)}=(x_{1},x_{3}),x^{(2)}=(x_{2},x_{5})$ ) $x^{(1)}=(x_{1},x_{3}),x^{(2)}=(x_{2},x_{5})$ $x^{(1)}=(x_{1},x_{3}),x^{(2)}=(x_{2},x_{5})$ ) $x^{(1)}=(x_{1},x_{3}),x^{(2)}=(x_{2},x_{5})$ 、 $laystyle$ x $^{(3)}=x_{4$

예(블록 구분 가능 정규화):

$n=N;\Psi(x)=\x\_{1}=\sum _{i=1}^{n} x_{i}$
$=$ $\Psi(x)=\sum$ _ ${i=1}^{n}\x^{(i)}\_{$ 2 $N=N_{1}+N_{2}+\dots +N_{n};\Psi (x)=\sum _{i=1}^{n}\|x^{(i)}\|_{2}$ $x^{(i)}\in R^{N_{i}}$ 서 $x^{(i)}\in R^{N_{i}}$ i) $x^{(i)}\in R^{N_{i}}$ r R^{N_i $}$ 및 $x^{(i)}\in R^{N_{i}}$ $\|\cdot \|_{2}$ R $\|\cdot \|_{2}$ $i$ }에서 x $($ $i)$ r $x^{(i)}\in R^{N_{i}}$ $\|\cdot \|_{2}$ $x^{(i)}\in R^{N_{i}}$ R^{n_ ${$ $displaystyle \cdot$ \{ $2}}$ 는 $\|\cdot \|_{2}$ 표준이다.

알고리즘.

최적화 문제를 고려하다

\displaystyle \min _{x\in R^{n}}f(x),}

$f$ 서 f $\displaystyle$ f는 $f$ 볼록하고 매끄러운 함수입니다.

부드러움:평활성이란 다음과 같은 것을 의미합니다 $.f$ {\ $displaystyle$ f}의 $f$ 구배는 $L_{1},L_{2},\dots ,L_{n}$ 1, $L_{1},L_{2},\dots ,L_{n}$ 2 $L_{1},L_{2},\dots ,L_{n}$ $L_{1},L_{2},\dots ,L_{n}$ { { $1}, L_{2},$ \ $dots, L_{n$ $L_{1},L_{2},\dots ,L_{n}$ 로 연속되는 좌표와 같은 Lipschitz라고 가정합니다. 즉, 다음과 같이 가정합니다.

\displaystyle \nabla _{i}f(x+he_{i})-\nabla _{i}f(x)\leq L_{i}h,}

$x\in R^{n}$ x $x\in R^{n}$ $h\in R$ ${\$ x $\in$ R $^{n}$ $h\in R$ h $h\in R$ r $h\in R$ {\ $displaystyle$ h $\in$ R $h\in R$ 에 대해 지정합니다. $\nabla _{i}$ 서 $\nabla _{i}$ i $\nabla _{i}$ {\ $displaystyle$ $\nabla$ _ ${$ $i}$ 는 $\nabla _{i}$ $x^{(i)}$ x $(i)$ 에 대한 부분 도함수를 나타냅니다 $x^{(i)}$

Nesterov, Richtarik 및 Takac은 다음 알고리즘이 최적의 포인트로 수렴됨을 보여 주었습니다.

알고리즘 랜덤 좌표 강하법 입력:  $x_{0}\in R^{n}$   $x_{0}\in R^{n}$   $x_{0}\in R^{n}$  n $x_{0}\in R^{n}$ {\ $displaystyle x_{0}\in$  R $^{n}$  // 시작점  $출력$ :x {\ $displaystyle$ x} set $x$  x:= x_0 for k : $i\in \{1,2,\dots ,n\}$ = 1,  $i\in \{1,2,\dots ,n\}$   $i\in \{1,2,\dots ,n\}$  { $style i\{1,\$ displaystyle x\{0},\ $n$ 를 균일하게 선택합니다. $x^{(i)}=x^{(i)}-{\frac {1}{L_{i}}}\nabla _{i}f(x)$ )  $x^{(i)}=x^{(i)}-{\frac {1}{L_{i}}}\nabla _{i}f(x)$  ( $x^{(i)}=x^{(i)}-{\frac {1}{L_{i}}}\nabla _{i}f(x)$ ) -  $x^{(i)}=x^{(i)}-{\frac {1}{L_{i}}}\nabla _{i}f(x)$   $x^{(i)}=x^{(i)}-{\frac {1}{L_{i}}}\nabla _{i}f(x)$   $x^{(i)}=x^{(i)}-{\frac {1}{L_{i}}}\nabla _{i}f(x)$   $x^{(i)}=x^{(i)}-{\frac {1}{L_{i}}}\nabla _{i}f(x)$   $x^{(i)}=x^{(i)}-{\frac {1}{L_{i}}}\nabla _{i}f(x)$ f ( $x^{(i)}=x^{(i)}-{\frac {1}{L_{i}}}\nabla _{i}f(x)$ ) {  $displaystyle$  x^ { ( i ) = $x$ ^ { ( i ) } - { \  $frac {$ 1} { L $_$  {  $i$ } \  $nabla$ _ {  $i }$ f $( x$  ) }종료일 $x^{(i)}=x^{(i)}-{\frac {1}{L_{i}}}\nabla _{i}f(x)$  경우

"←"는 할당을 나타냅니다.예를 들어 "가장 큰 ← 항목"은 가장 큰 값의 값이 항목 값으로 변경됨을 의미합니다.
"return"은 알고리즘을 종료하고 다음 값을 출력합니다.

컨버전스

이 알고리즘의 반복은 랜덤 벡터이기 때문에, 복잡도 결과는 방법이 높은 확률로 대략적인 해법을 출력하는 데 필요한 반복 횟수에 대한 한계를 줄 것이다.어디 RL()))[2]에 만약 k 2n≥은 RLϵ ρ){\displaystyle k\geq{\frac{2nR_{나는}(x_{0})}{\epsilon}∗(f(x0)− f⁡}ϵ 로그(x0)\log \left({\frac{f(x_{0})-f^{*}}{\epsilon \rho}}\right)}, max ymax x ∗∈ X∗{‖는 y−)∗ L:f(y)f≤())‖}{공개되었다.\dIsplaystyle R_ᆯ())=\max _{y}\max _{x^{*}\in X^{*}}\{)y-x^{*}\ _{L}:f(y)\leq f())\}}, f({\displaystyle f^{*}}이 최선의 해결책(f∗)분)∈ Rn{f())}{\displaystyle f^{*}=\min _{x\in R^{n}}\{f())\}}), ρ∈(0,1){\displaystyle \rho \in(0,1)}는 신뢰 수준은ϵ>0{년.경멸하다 $playstyle \epsilon$ > $0$ target $\epsilon >0$ $Prob(f(x_{k})-f^{*}>\epsilon )\leq \rho$ ,,, $Prob(f(x_{k})-f^{*}>\epsilon )\leq \rho$ , 、 P $Prob(f(x_{k})-f^{*}>\epsilon )\leq \rho$ b $Prob(f(x_{k})-f^{*}>\epsilon )\leq \rho$ ( f ( $Prob(f(x_{k})-f^{*}>\epsilon )\leq \rho$ ) - $Prob(f(x_{k})-f^{*}>\epsilon )\leq \rho$ > $Prob(f(x_{k})-f^{*}>\epsilon )\leq \rho$ （ \ $display style$ Prob ( $f$ ( $x _$ { $k$ } ) - $f^$ { * } > \ leq $\rho$ $Prob(f(x_{k})-f^{*}>\epsilon )\leq \rho$ 。

특정 기능의 예

다음 그림은 원칙적으로 x $x_{k}$ (\ $style x_{$ k $x_{k}$ })가 반복 중에 어떻게 $x_{k}$ 를 보여줍니다.문제는요.

f(x)=tfrac {1}{2}}x^{T}\left({\begin{array}{cc}1&0.5&1\end{array}\right)x-x-left({\begin{array}{cc}\right)x,\quad x_{0}=\left\parray{array}{0cc}\right})T}

블록 좌표 설정을 위한 확장

좌표 방향을 블록 좌표 방향으로 블록

이 알고리즘은 좌표뿐만 아니라 좌표 블록으로도 자연스럽게 확장할 수 있습니다. $R^{5}$ $(\$ R $^{$ 5 $R^{5}$ 가 있다고 가정합니다.이 공간에는 5개의 좌표 방향이 있습니다. $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ 으로는 $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ 1 $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ ( $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ , $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ , 0 $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ , $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ , 0 $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ , 0 ) $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ 2 $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ ( $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ , $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ , $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ , $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ , $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ ) $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ 3 $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ ( $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ , $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ , $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ , 0 $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ ) T $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ ( $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ , $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ , $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ , $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ , $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ , $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ 0 , $0$ ) $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ , e $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ 5 $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ = 0 , $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ , $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ , 0 , 0 , 0 , 0 , 0 , 0 , $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ) T $1,0)^{T},e_{5}=(0,0,0,0,$ $T}}:$ 랜덤 $e_{1}=(1,0,0,0,0)^{T},e_{2}=(0,1,0,0,0)^{T},e_{3}=(0,0,1,0,0)^{T},e_{4}=(0,0,0,1,0)^{T},e_{5}=(0,0,0,0,1)^{T}$ 좌표 강하법을 이동할 수 있습니다.그러나 일부 좌표 방향을 블록으로 그룹화할 수 있으며, 이 5개 좌표 방향 대신 3개 블록 좌표 방향을 가질 수 있습니다(이미지 참조).

「」를 참조해 주세요.

레퍼런스

^ Nesterov, Yurii (2010), "Efficiency of coordinate descent methods on huge-scale optimization problems", SIAM Journal on Optimization, 22 (2): 341–362, CiteSeerX 10.1.1.332.3336, doi:10.1137/100802001
^ Richtárik, Peter; Takáč, Martin (2011), "Iteration complexity of randomized block-coordinate descent methods for minimizing a composite function", Mathematical Programming, Series A, 144 (1–2): 1–38, arXiv:1107.2848, doi:10.1007/s10107-012-0614-z

[1] Nesterov, Yurii (2010), "Efficiency of coordinate descent methods on huge-scale optimization problems", SIAM Journal on Optimization, 22 (2): 341–362, CiteSeerX 10.1.1.332.3336, doi:10.1137/100802001

[2] Richtárik, Peter; Takáč, Martin (2011), "Iteration complexity of randomized block-coordinate descent methods for minimizing a composite function", Mathematical Programming, Series A, 144 (1–2): 1–38, arXiv:1107.2848, doi:10.1007/s10107-012-0614-z

[1]

Search

랜덤 좌표 강하

네임스페이스

더

목차

알고리즘.

컨버전스

특정 기능의 예

블록 좌표 설정을 위한 확장

「」를 참조해 주세요.

레퍼런스

Search

랜덤 좌표 강하

알고리즘.

컨버전스

특정 기능의 예

블록 좌표 설정을 위한 확장

「 」를 참조해 주세요.

레퍼런스

「」를 참조해 주세요.