랜덤 좌표 강하

Random coordinate descent

랜덤화(블록) 좌표 강하법은 네스테로프(2010)와 리치타릭 및 타카치(2011)에 의해 널리 보급된 최적화 알고리즘이다.매끄러운 볼록함수를 최소화하는 문제에 적용했을 때, 이 방법의 첫 번째 분석은 Nesterov(2010)[1]에 의해 수행되었다.네스테로프의 분석에서, 이 방법은 알 수 없는 스케일 계수를 가진 원래 함수의 2차 섭동에 적용될 필요가 있다.리치타릭과 타카치(2011)는 이를 필요로 하지 않는 반복 복잡성 경계를 제공한다. 즉, 방법은 목적 함수에 직접 적용된다.또한 복합함수, 즉 매끄러운 볼록함수와 (아마도 매끄럽지 않은) 볼록 블록 분리 가능 함수의 합을 최소화하는 문제로 설정을 일반화한다.

여기서 ( ) i i () ,{ ( x ) = \ _ { i } { \ Psi { } ( { } ) , n로서 분해됩니다.1, …, \ \ _ 1}, \, \_ {n} 은 (단순한) 이다.

예(블록 분해):}에서 ( x 1, x 2, , x ) 5 ( x _ { 1 , { , \ , x { }) ( , ) ) x

예(블록 구분 가능 정규화):

  1. _2 i)r R^{N_iR}에서 x r R^{n_\{ 표준이다.

알고리즘.

최적화 문제를 고려하다

서 ff는 볼록하고 매끄러운 함수입니다.

부드러움:평활성이란 다음과 같은 것을 의미합니다 {\ f}의 구배는 1,2 { { \ 로 연속되는 좌표와 같은 Lipschitz라고 가정합니다. 즉, 다음과 같이 가정합니다.

x x R hr{\ h R에 대해 지정합니다.i{\ _ x에 대한 부분 도함수를 나타냅니다

Nesterov, Richtarik 및 Takac은 다음 알고리즘이 최적의 포인트로 수렴됨을 보여 주었습니다.

알고리즘 랜덤 좌표 강하법 입력:    n{\ R // 시작점 :x {\x} set x:= x_0 for k := 1,   {displaystyle x\{0},\를 균일하게 선택합니다.)  () -     f () {  x^ { ( i ) =^ { ( i ) } - { \ 1} { L { } \ _ { f ) }종료일 경우
  • "←"는 할당을 나타냅니다.예를 들어 "가장 큰 ← 항목"은 가장 큰 의 값이 항목 으로 변경됨을 의미합니다.
  • "return"은 알고리즘을 종료하고 다음 값을 출력합니다.

컨버전스

이 알고리즘의 반복은 랜덤 벡터이기 때문에, 복잡도 결과는 방법이 높은 확률로 대략적인 해법을 출력하는 데 필요한 반복 횟수에 대한 한계를 줄 것이다.어디 RL()))[2]에 만약 k 2n≥은 RLϵ ρ){\displaystyle k\geq{\frac{2nR_{나는}(x_{0})}{\epsilon}∗(f(x0)− f⁡}ϵ 로그(x0)\log \left({\frac{f(x_{0})-f^{*}}{\epsilon \rho}}\right)}, max ymax x ∗∈ X∗{‖는 y−)∗ L:f(y)f≤())‖}{공개되었다.\dIsplaystyle R_ᆯ())=\max _{y}\max _{x^{*}\in X^{*}}\{)y-x^{*}\ _{L}:f(y)\leq f())\}}, f({\displaystyle f^{*}}이 최선의 해결책(f∗)분)∈ Rn{f())}{\displaystyle f^{*}=\min _{x\in R^{n}}\{f())\}}), ρ∈(0,1){\displaystyle \rho \in(0,1)}는 신뢰 수준은ϵ>0{년.경멸하다> target ,,, , 、 P b( f ( ) - >( \ Prob ( ( { } ) - { * } > \ leq

특정 기능의 예

다음 그림은 원칙적으로 x(\k})가 반복 중에 어떻게 를 보여줍니다.문제는요.

Convergence on small problem.jpg

블록 좌표 설정을 위한 확장

좌표 방향을 블록 좌표 방향으로 블록

이 알고리즘은 좌표뿐만 아니라 좌표 블록으로도 자연스럽게 확장할 수 있습니다. R5가 있다고 가정합니다.이 공간에는 5개의 좌표 방향이 있습니다.으로는 1 ( ,, 0, , 0, 0 ) 2 ( ,, , , ) 3 ( , ,, 0) T ( , , , , ,0 , ) , e5= 0 , , , 0 , 0 , 0 , 0 , 0 , 0 , , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ) T 랜덤 좌표 강하법을 이동할 수 있습니다.그러나 일부 좌표 방향을 블록으로 그룹화할 수 있으며, 이 5개 좌표 방향 대신 3개 블록 좌표 방향을 가질 수 있습니다(이미지 참조).

「 」를 참조해 주세요.

레퍼런스

  1. ^ Nesterov, Yurii (2010), "Efficiency of coordinate descent methods on huge-scale optimization problems", SIAM Journal on Optimization, 22 (2): 341–362, CiteSeerX 10.1.1.332.3336, doi:10.1137/100802001
  2. ^ Richtárik, Peter; Takáč, Martin (2011), "Iteration complexity of randomized block-coordinate descent methods for minimizing a composite function", Mathematical Programming, Series A, 144 (1–2): 1–38, arXiv:1107.2848, doi:10.1007/s10107-012-0614-z