확률적 근사
Stochastic approximation확률적 근사법은 근원 찾기 문제 또는 최적화 문제에 일반적으로 사용되는 반복 방법의 집합이다.확률적 근사 방법의 재귀적 업데이트 규칙은 무엇보다도 수집된 데이터가 노이즈에 의해 손상되었을 때 선형 시스템을 해결하거나 직접 계산할 수 없고 노이즈가 많은 관측치를 통해서만 추정되는 함수의 극한값을 근사하는 데 사용될 수 있다.
한마디로 확률적 근사 알고리즘은 의변수에 따라 함수의 기대치를 갖는 f ( [F ( \ ) = {} _ { \의 함수를 다룬다. 기능의 을 직접 평가하지 않고 복원하는 것이 목표입니다대신 확률적 근사 알고리즘은 0이나 극단값과 같은f의 을 으로 근사하기 위해 F , \xi)의 랜덤 표본을 F(\ F \로 만든다.
최근 확률적 근사치는 통계 및 기계 학습 분야, 특히 빅데이터가 있는 환경에서 광범위하게 적용되고 있다.이러한 애플리케이션은 확률적 최적화 방법 및 알고리즘에서 전자파 알고리즘의 온라인 형식, 시간적 차이를 통한 강화 학습, [1]딥 러닝 등에 이르기까지 다양하다.확률적 근사 알고리즘은 또한 집단 역학을 설명하기 위해 사회과학에서 사용되어 왔다: 학습 이론에서 가상의 놀이와 합의 알고리즘은 그들의 [2]이론을 사용하여 연구될 수 있다.
이러한 종류의 가장 초기의, 그리고 프로토타입의 알고리즘은 1951년과 1952년에 각각 도입된 로빈스-몬로와 키퍼-울포위츠 알고리즘이다.
로빈스-몬로 알고리즘
1951년 허버트 로빈스와 서튼 [3]먼로에 의해 도입된 로빈스-먼로 알고리즘은 함수를 기대치로 나타내는 근원 발견 문제를 해결하기 위한 방법론을 제시하였다. ( ) { ( \)} ( \ M ( \ ) = \ } ∗ ∗ ∗∗ ∗ ∗ ∗ ∗ ∗ ∗ {\ {\ {\ {\ {\ {\ {\ ( \ ^ { }}}) {\ {\{\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ 대신 N )(\ N)의 측정을 얻을 수 있습니다.서 E [ ( ) ( ) \ \{} [ ( \ ) =( \ ) 。알고리즘의 구조는 다음 형식의 반복을 생성하는 것입니다.
서 a ,2,는 양의 스텝사이즈 시퀀스입니다.Robbins와 Monro는[3], Theorem 2 다음과 같은 경우에 n \ \_ { }이(가) 에서 { L^ {및 확률적으로도)로 수렴됨을 증명했으며, Blum은[4] 나중에 수렴이 실제로 확률 1임을 증명했다.
- ( ) { N ( \) } 은 균일하게 경계되어 있습니다.
- ( ) { M ( \ ) }은(는) 감소하지 않습니다.
- {\ { M ( \ ^ { * } )이 존재하며 양의
- 의 시퀀스는 다음 요건을 충족합니다.
Robbins-Monro에 의해 제안되고 이러한 조건을 만족시키는 특정 일련의 단계는 0 { a 0 에 a/ { a의 형태를 가진다.다른 시리즈도 가능하지만 ()) \ N ( \)의 를 평균화하기 위해서는 위의 조건을 충족해야 합니다.
복잡도 결과
- { f가 2배 연속적으로 미분 가능하고 강하게 볼록하며 f { f의 미니마이저가 {의 내부에 있는 로빈스-몬로 알고리즘은 목적 함수에 대해 점근적으로 최적의 수렴률을 달성한다., E [ ( n) - ( /n){ { f ( \ _ { n} - f^ { *}O ( / n )。서 \ style f { * }}}는f ( tyle f (tyle) f ( ) style f ( tyle )의 최소값입니다.
- 반대로, 평활성과 강한 볼록성의 가정이 모두 결여된 일반적인 볼록의 경우, Nemirovski와 Yudin은[7] 목적 함수 값에 대해 점근적으로 최적의 수렴률이O(/ n) { O (을 보여주었다.그들은 또한 이 비율이 개선될 수 없다는 것을 증명했다.
후속 개발 및 Polyak-Ruppert 평균화
로빈스-몬로 알고리즘은 이론적으로 O( {O를 2회 연속 미분성과 강한 볼록성을 가정하여 달성할 수 있지만 구현 시 성능이 상당히 저하될 수 있습니다.이는 주로 알고리즘이 스텝사이즈 시퀀스의 선택에 매우 민감하기 때문에 점근적으로 최적의 스텝사이즈 정책이 [6][8]초기에는 상당히 해로울 수 있기 때문입니다.
Chung[9](1954년)과 Fabian[10](1968년)우리가 최적 융합률을 달성할 것 아 nx▽ 2f(θ ∗)−과{O(1/{\sqrt{n}})\textstyle}(1/n)을 보여 주1/n{\textstyle a_{n}=\bigtriangledown ^ᆳf(\theta ^{*})^{)}/n}(또는 n=1(nM′(θ ∗)){\textstyle a_{n}={\frac{1}{(n.M'(\theLai와[11][12] Robbins는 θ \ _이(가) 최소 점근 분산을 가지도록 Mθ M^{*})를 하는 적응 절차를 설계했다.그러나 그러한 최적의 방법을 적용하기 위해서는 대부분의 상황에서 얻기 어려운 많은 선험적 정보가 필요하다.이러한 부족을 극복하기 위해, Polyak[13](1991)과[14] Ruppert(1988)는 궤적을 평균화하는 아이디어를 바탕으로 새로운 최적 알고리즘을 독자적으로 개발했다.Polyak과 Juditsky는[15] 또한 더 긴 단계와 반복의 평균을 사용하여 선형 및 비선형 근원 탐색 문제에 대해 Robbins-Monro를 가속하는 방법을 제시했다.알고리즘의 구조는 다음과 같습니다.
답1)
- α({{ 는 이 제한을 하지만, 1 \ 1)은 충족되지 않으므로 긴 단계이다.Robbins-Monro 알고리즘에 기재되어 있는 전제 조건 하에서 변경 결과 동일한 점근적으로 최적의 컨버전스 O( O(1/{\가 됩니다.단,[15] 보다 견고한 스텝사이즈 정책이 적용됩니다.이에 앞서 Nemirovski와 Yudin은[16] 연속 볼록 목표와 볼록-오목 안장점 문제를 해결하는 경우에 대해 더 긴 단계를 사용하고 반복을 평균화하는 아이디어를 이미 제안했다.이러한 알고리즘은 비점근율(/ {O(에 도달하는 것이 관찰되었습니다.
보다 일반적인 결과는 Kushner와 In의[17] 11장에서 보간 시간 i 0 - { } = \_ { i=}^{ , 보간 프로세스 n () , n ( \^{ \u} )를 정의하고 정규화된 프로세스를 정의함으로써 주어진다.
A1) 및 다음 A2)의 전제 조건
답 2) 후르비츠 A A와 대칭 정의 행렬 δ \Sigma가 있습니다 서 은 약하게 U U로 수렴합니다
만족하고 V ( - 1) A - }}=(을 합니다. tt에 대해
평균화 아이디어의 성공은 원본 시퀀스 _과(와 시퀀스 textstyle }\}의 시간 척도 분리 때문이다. _ 앞의 시간 척도가 더 빠릅니다.
확률적 최적화에서의 응용
다음과 같은 확률적 최적화 문제를 해결하고 싶다고 가정합니다.
서 H H는 g의 편향되지 않은 추정치입니다X({})가 에 의존하는 으로 Hdisplaystyle \theta)를 생성할 수 없습니다그라데이션의 모방자.IPA 또는 우도비 방법을 적용할 수 있는 특수한 경우 편향되지 않은 구배 H,X )(\ , X를 얻을 수 X(\X가 \과 독립적으로 생성되는 "기본" 프로세스로 간주되는 ,파생 교환 연산을 위한 일부 정규화 조건 하에서 E[ [∂ ) ] ( )( \ } { [ } { \\ { \ } } \ ) = { } ) 。 frac는 기본적인 기울기 불편 추정치를 제공한다.단, 어플리케이션에 따라서는 H H(\X))의 기대치가 g에 가깝지만 정확히 는 않은 유한차이 방식을 사용해야 .
그런 다음 결정론적 알고리즘에서 뉴턴의 방법과 유사하게 재귀를 정의한다.
알고리즘의 컨버전스
결과는 알고리즘이 [18]수렴하기에 충분한 조건을 n _ { 에 제시합니다.
C1) 0、n0. \ \_ { } \ 0 , \ \ ; \ 0 .}
C2) n 0 = {\ n { _ {_{n}=\
C3) n 2 < \ _ {}\_{2}
C4) B의 nB {\ \ B,{\text{}
C5) ( )는볼록합니다 \ g
그 후, 「 _은, 거의 확실히 「displaystyle ^{*}」로 수렴합니다.
다음은 이러한 상황에 대한 직관적인 설명입니다. n + ){ _가 균일한 경계의 랜덤 변수라고 가정합니다.C2)가 충족되지 않는 경우(즉, n < \ displaystyle n=}^{\infty _{n} <\}),
예(확률적 경사법이 [8]적절한 경우)
(" , ) (" ) + ( \ ( \ ) ( \ ) + \ { } { f}는 미분 가능하며 X p( \ X \ \R X {\ g [)]=^{ X는의 에 의존하며, 이 문제에서는 확률적 경사법이 적합합니다.( ) ( ) ()+ .\ H ( \ ,X )( \ display H ( \ , X ) = ( \ , X ) =\ { } 를 할 수 .
키퍼-울포위츠 알고리즘
키퍼-울포위츠 알고리즘은 1952년 제이콥 울포위츠(Jacob Wolfowitz)와 잭 키퍼(Jack Kiefer)[19]에 의해 도입되었으며 로빈스-몬로 알고리즘의 출판에 의해 동기 부여되었다.그러나 알고리즘은 함수의 최대값을 확률적으로 추정하는 방법으로 제시되었다. { M을(를) \ 점에서 최대값을 갖는 라고 가정합니다.M) { M( {N { N은알 수 가정합니다. 서 EM은 알 수 없습니다.임의의 x(\ x알고리즘의 구조는 구배와 같은 방법을 따르며 반복은 다음과 같이 생성됩니다.
서N ( n + n ){ N ( x { ) + c _ { } 및 ( x - n) { N ( _ { }-_ { }} 은 독립적이며M x 의 는 유한차이를 사용하여 근사치됩니다.{ n { \ { _ { } \ }는 그라데이션 근사치에 사용되는 유한 차분 폭의 시퀀스를 지정합니다{ } {\ { a _ { n는 해당 방향을 따라 실행되는 양의 스텝사이즈 시퀀스를 지정합니다.키퍼와 월포위츠 만약 M()){M())\displaystyle}특정 규칙적 조건 만족하면,)n{\displaystyle x_{n}}θ{\theta\displaystyle}의 진실성에서 n→∞{\displaystyle n\to\infty}로, 그리고 후에 Blum[4]1954년에 나타났다)n{\displaystyle x_{n}}hub 모일 것이라는 것을 증명했습니다.s과 같은 거의 확실하게 (\ \theta에 전달합니다.
- (\x에 대해 Var" ( ( < \} ( ( ) \ S < \ }。
- { M 함수는 고유한 최대점(최소점)을 가지며 강한 오목(볼록점)입니다.
- 이 알고리즘은 처음에 M { M이 실현 가능한 공간 전체에 걸쳐 강한 전역 볼록성(요철성)을 유지해야 한다는 요건을 제시하였다.이 조건이 도메인 전체에 적용하기에는 너무 제한적이기 때문에 Kiefer와 Wolfowitz는 최적 솔루션을 포함하는 것으로 알려진 콤팩트 C \^{에 적용하면 충분하다고 제안했다.
- ( ){ M 함수는 다음과 같은 규칙성 조건을 충족합니다.
- 다음과 같이> 0(\)과 B>(\ B>이 합니다.
- 다음과 0(\> 과 R>(\ R>이 존재합니다.
- > 마다 과 같이(\ 0이 존재합니다
- 다음과 같이> 0(\)과 B>(\ B>이 합니다.
- 선택한 시퀀스{ n {및 { n {은(는) 다음과 같은 양의 무한 시퀀스여야 합니다.
Kiefer와 Wolfowitz가 권장하는 적절한 시퀀스 선택은 / (\}= n / (\}= 3입니다.
후속 개발 및 중요한 문제
- Kiefer Wolfowitz 알고리즘에서는 각 구배 계산에 대해 알고리즘의 반복마다 최소 + {\}개의 다른 파라미터 값을 시뮬레이션해야 합니다.서 dd는 서치 공간의 치수입니다.즉, dd가 Kiefer-Wolfowitz 알고리즘은 반복마다 상당한 계산 작업을 필요로 하므로 컨버전스가 느려집니다.
- 수렴에 필요한 조건에서는 강한 볼록함(또는 오목함)을 충족하고 고유한 용액을 포함하는 소정의 콤팩트 세트를 특정하는 능력은 찾기 어려울 수 있다.실제 어플리케이션과 관련하여 도메인이 상당히 큰 경우 이러한 가정은 상당히 제한적이고 비현실적일 수 있습니다.
추가 개발
수렴 조건, 수렴 속도, 다변량 및 기타 일반화, 단계 크기의 적절한 선택, 가능한 소음 모델 등에 [21][22]관한 광범위한 이론적 문헌이 이러한 알고리즘을 중심으로 개발되었다.이 방법들은 제어 이론에도 적용되는데, 이 경우 우리가 최적화하거나 0을 찾고자 하는 미지의 함수는 시간에 따라 달라질 수 있다.이 경우 n(\a_})는 0으로 수렴하지 않고 기능을 [21], 2nd ed., chapter 3추적하기 위해 선택해야 합니다.
C. 요한 마스렐리에즈와 R. Douglas Martin은 확률적 근사치를 강력한 [23]추정에 적용한 최초의 사람이다.
확률 근사 알고리즘(Robbins-Monro 및 Kiefer-Wolfowitz 알고리즘 포함)을 분석하기 위한 주요 도구는 수학 통계와 확률에 관한 제3차 버클리 심포지엄에서 발표된 아리에 드보레츠키의 정리이다.[24]
「 」를 참조해 주세요.
레퍼런스
- ^ Toulis, Panos; Airoldi, Edoardo (2015). "Scalable estimation strategies based on stochastic approximations: classical results and new insights". Statistics and Computing. 25 (4): 781–795. doi:10.1007/s11222-015-9560-y. PMC 4484776. PMID 26139959.
- ^ Le Ny, Jerome. "Introduction to Stochastic Approximation Algorithms" (PDF). Polytechnique Montreal. Teaching Notes. Retrieved 16 November 2016.
- ^ a b Robbins, H.; Monro, S. (1951). "A Stochastic Approximation Method". The Annals of Mathematical Statistics. 22 (3): 400. doi:10.1214/aoms/1177729586.
- ^ a b Blum, Julius R. (1954-06-01). "Approximation Methods which Converge with Probability one". The Annals of Mathematical Statistics. 25 (2): 382–386. doi:10.1214/aoms/1177728794. ISSN 0003-4851.
- ^ Sacks, J. (1958). "Asymptotic Distribution of Stochastic Approximation Procedures". The Annals of Mathematical Statistics. 29 (2): 373–405. doi:10.1214/aoms/1177706619. JSTOR 2237335.
- ^ a b Nemirovski, A.; Juditsky, A.; Lan, G.; Shapiro, A. (2009). "Robust Stochastic Approximation Approach to Stochastic Programming". SIAM Journal on Optimization. 19 (4): 1574. doi:10.1137/070704277.
- ^ 최적화의 문제 복잡성 및 방법 효율성, A.네미로브스키와 D.유딘, 와일리 - 인터시 Ser. 이산수학 15 John Wiley New York(1983)
- ^ a b 확률적 검색 및 최적화 소개: 추정, 시뮬레이션 및 제어, J.C. Spall, John Wiley Hoboken, NJ, (2003)
- ^ Chung, K. L. (1954-09-01). "On a Stochastic Approximation Method". The Annals of Mathematical Statistics. 25 (3): 463–483. doi:10.1214/aoms/1177728716. ISSN 0003-4851.
- ^ Fabian, Vaclav (1968-08-01). "On Asymptotic Normality in Stochastic Approximation". The Annals of Mathematical Statistics. 39 (4): 1327–1332. doi:10.1214/aoms/1177698258. ISSN 0003-4851.
- ^ Lai, T. L.; Robbins, Herbert (1979-11-01). "Adaptive Design and Stochastic Approximation". The Annals of Statistics. 7 (6): 1196–1221. doi:10.1214/aos/1176344840. ISSN 0090-5364.
- ^ Lai, Tze Leung; Robbins, Herbert (1981-09-01). "Consistency and asymptotic efficiency of slope estimates in stochastic approximation schemes". Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete. 56 (3): 329–360. doi:10.1007/BF00536178. ISSN 0044-3719. S2CID 122109044.
- ^ Polyak, B T (1990-01-01). "New stochastic approximation type procedures. (In Russian.)". 7 (7).
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ Ruppert, D. "Efficient estimators from a slowly converging robbins-monro process".
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ a b Polyak, B. T.; Juditsky, A. B. (1992). "Acceleration of Stochastic Approximation by Averaging". SIAM Journal on Control and Optimization. 30 (4): 838. doi:10.1137/0330046.
- ^ 볼록-오목 함수의 안장점 근사치를 위한 최경사 강하 방법의 세자리 수렴에 대해 A.네미로브스키와 D.유딘, 도클. 아카드, 나우크 SSR 2939(1978년(러시아어), 소련 수학.Dokl. 19(1978년(영어))
- ^ Kushner, Harold; George Yin, G. (2003-07-17). Stochastic Approximation and Recursive Algorithms and Harold Kushner Springer. www.springer.com. ISBN 9780387008943. Retrieved 2016-05-16.
- ^ Bouleau, N.; Lepingle, D. (1994). Numerical Methods for stochastic Processes. New York: John Wiley. ISBN 9780471546412.
- ^ Kiefer, J.; Wolfowitz, J. (1952). "Stochastic Estimation of the Maximum of a Regression Function". The Annals of Mathematical Statistics. 23 (3): 462. doi:10.1214/aoms/1177729392.
- ^ Spall, J. C. (2000). "Adaptive stochastic approximation by the simultaneous perturbation method". IEEE Transactions on Automatic Control. 45 (10): 1839–1853. doi:10.1109/TAC.2000.880982.
- ^ a b Kushner, H. J.; Yin, G. G. (1997). Stochastic Approximation Algorithms and Applications. doi:10.1007/978-1-4899-2696-8. ISBN 978-1-4899-2698-2.
- ^ 확률적 근사치와 재귀적 추정, 미하일 보리소비치 네벨손과 라팔 잘마노비치 하스민스키, 이스라엘 과학번역 프로그램 번역 및 B.Silver, Providence, RI: American Mathematical Society, 1973, 1976.ISBN 0-8218-1597-0.
- ^ Martin, R.; Masreliez, C. (1975). "Robust estimation via stochastic approximation". IEEE Transactions on Information Theory. 21 (3): 263. doi:10.1109/TIT.1975.1055386.
- ^ Dvoretzky, Aryeh (1956-01-01). "On Stochastic Approximation". The Regents of the University of California.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말)