유한메모리 BFGS

유한메모리 BFGS(Limited Memory BFGS, L-BFGS 또는 LM-BFGS)는 유사 뉴턴 방법군의 최적화 알고리즘으로 브로이든-에 근접한 것이다.Fletcher-Goldfarb-Shanno 알고리즘(BFGS)은 제한된 양의 컴퓨터 메모리를 사용한다.기계학습에서 매개 변수 추정을 위한 인기 알고리즘이다.^[1]^[2]알고리즘의 대상 문제는 $\mathbf {x}$ x $\mathbf {x}$ {\ $displaystyle$ $x$ {\displaystyle $\mathbf {x}$ 의 제한되지 않은 값에 대해 $f(\mathbf {x} )$ $f(\mathbf {x} )$ ) ${\$ displaystyle f}을 $($ 를) 최소화하는 것이다. 여기서 $\mathbf {x}$ $f$ ${\displaysty f}$ 은 $f$ 서로 다른 스칼라 함수다.

Like the original BFGS, L-BFGS uses an estimate of the inverse Hessian matrix to steer its search through variable space, but where BFGS stores a dense $n\times n$ approximation to the inverse Hessian (n being the number of variables in the problem), L-BFGS stores only a few vectors that represent the approximation impli특히 L-BFGS 방법은 선형 메모리 요구 사항으로 인해 변수가 많은 최적화 문제에 적합하다.Hessian H 역 대신에_k L-BFGS는 위치 x와 구배 gradientf(x)의 과거 m 업데이트의 기록을 유지하며, 여기서 일반적으로 m의 히스토리 크기는 작을 수 있다( $m<10$ m $m<10$ $m<10$ ${\displaystyle$ m $<10$ } $m<10$ 이러한 업데이트는 H-벡터_k 제품이 필요한 작업을 암묵적으로 수행하는 데 사용된다.

알고리즘.

알고리즘은 최적값의 초기 $\mathbf {x} _{0}$ 인 $\mathbf {x} _{0}$ 0 $\mathbf {x} _{0}$ {\ $displaystyle \mathbf {x} _{0$ 에서 시작하여 더 나은 $\mathbf {x} _{1},\mathbf {x} _{2},\ldots$ $\mathbf {x} _{1},\mathbf {x} _{2},\ldots$ , x $\mathbf {x} _{1},\mathbf {x} _{2},\ldots$ , $\mathbf {x} _{1},\mathbf {x} _{2},\ldots$ … ${\displaysty \mathbf {x} _{1},\mathbf {$ x $} _{2},\ldots }$ 로 그 추정치를 반복적으로 세분화한다 $g_{k}:=\nabla f(\mathbf {x} _{k})$ $\mathbf {x} _{1},\mathbf {x} _{2},\ldots$ $g_{k}:=\nabla f(\mathbf {x} _{k})$ : $g_{k}:=\nabla f(\mathbf {x} _{k})$ $g_{k}:=\nabla f(\mathbf {x} _{k})$ $g_{k}:=\nabla f(\mathbf {x} _{k})$ ) ${\displaystyle g_{k}:=\nabla f(\mathbf {x} _{k})$ 는 알고리즘의 핵심 드라이버로 사용되며 $g_{k}:=\nabla f(\mathbf {x} _{k})$ , 가장 가파른 하강 방향을 식별하고, $f(\mathbf {x} )$ ) $f(\mathbf {x} )$ {\ $displaystyle$ f $(\mathb {x})$ 의 헤시안 행렬(두 번째 파생)의 추정치를 형성하기도 한다 $f(\mathbf {x} )$

L-BFGS shares many features with other quasi-Newton algorithms, but is very different in how the matrix-vector multiplication $d_{k}=-H_{k}g_{k}$ is carried out, where $d_{k}$ is the approximate Newton's direction, $g_{k}$ is the current gradient, 그리고 $H_{k}$ $H_{k}$ ${\$ 는 헤시안 행렬의 역행이다 $H_{k}$ .이 방향 벡터를 형성하기 위해 업데이트 이력을 사용하는 여러 가지 게시된 접근방식이 있다.여기서 우리는 공통적인 접근법, 이른바 "두 개의 루프 재귀"^[3]^[4]를 제시한다.

x $x_{k}$ ${\$ k-th 반복의 위치 및 g $g_{k}\equiv \nabla f(x_{k})$ $g_{k}\equiv \nabla f(x_{k})$ $g_{k}\equiv \nabla f(x_{k})$ $g_{k}\equiv \nabla f(x_{k})$ ( $g_{k}\equiv \nabla f(x_{k})$ k $g_{k}\equiv \nabla f(x_{k})$ ) ${\displaystyle g_{k}\equiv \nabla f(x_{k}})$ 를 취하며, 여기서 $g_{k}\equiv \nabla f(x_{k})$ $f$ ${\displaystystyf}$ 는 $f$ 최소화되고 있는 함수로서 모든 벡터가 컬럼 벡터다.또한 양식의 마지막 m $업데이트$ 를 저장했다고 가정한다.

s_{k}=x_{k+1}-x_{k}

y_{k}=g_{k+1}-g_{k}

y_{k}=g_{k+1}-g_{k}

=

y_{k}=g_{k+1}-g_{k}

y_{k}=g_{k+1}-g_{k}

+

y_{k}=g_{k+1}-g_{k}

-

y_{k}=g_{k+1}-g_{k}

{\

$\rho _{k}={\frac {1}{y_{k}^{\top }s_{k}}}$ $\rho _{k}={\frac {1}{y_{k}^{\top }s_{k}}}$ = $\rho _{k}={\frac {1}{y_{k}^{\top }s_{k}}}$ k $\rho _{k}={\frac {1}{y_{k}^{\top }s_{k}}}$ s k $\rho _{k}={\frac {1}{y_{k}^{\top }s_{k}}}$ {\ $displaystyle \rho _{k}={\frac$ {1 $}{1$ }{k $}^{1}}{{k$ }^{k $\rho _{k}={\frac {1}{y_{k}^{\top }s_{k}}}$ 을 정의하고, $H_{k}^{0}$ $H_{k}^{0}$ 0 $H_{k}^{0}$ {\ $displaysty H_{k}^{0}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}$ 은(으)의 역행으로 시작하는 헤시안 근사량이 될 것이다 $H_{k}^{0}$ .

알고리즘은 다음과 같이 헤시안 역의 BFGS 재귀에 기초한다.

H_{k+1}=(I-\rho _{k}s_{k}y_{k}^{\top }})H_{k}(I-\rho _{k}y_{k}s_{k}s_{k}^{\top }+\rho _{k}s_{k}s_{k}^{k}^{\top }}}}}}}

For a fixed $k$ we define a sequence of vectors $q_{k-m},\ldots ,q_{k}$ as $q_{k}:=g_{k}$ and $q_{i}:=(I-\rho _{i}y_{i}s_{i}^{\top })q_{i+1}$ .그런 $q_{i}$ $q_{i+1}$ 다음 $q_{i+1}$ + $q_{i+1}$ ${\$ 에서 $q$ i {\ $displaystyle$ q_{i $}$ 를 계산하기 위한 재귀 알고리즘은 $\alpha _{i}:=\rho _{i}s_{i}^{\top }q_{i+1}$ i $\alpha _{i}:=\rho _{i}s_{i}^{\top }q_{i+1}$ i s $\alpha _{i}:=\rho _{i}s_{i}^{\top }q_{i+1}$ i $\alpha _{i}:=\rho _{i}s_{i}^{\top }q_{i+1}$ + $\alpha _{i}:=\rho _{i}s_{i}^{\top }q_{i+1}$ ${\$ $=\rho _{i}s_{i}^{\top }q_{i+1}}$ and $q_{i}=q_{i+1}-\alpha _{i}y_{i}$ . We also define another sequence of vectors $z_{k-m},\ldots ,z_{k}$ as ${\displaystyle z_{i}:$ $=H_{i}q_{i$ . $z_{k-m}=H_{k}^{0}q_{k-m}$ k - m $z_{k-m}=H_{k}^{0}q_{k-m}$ = $z_{k-m}=H_{k}^{0}q_{k-m}$ $z_{k-m}=H_{k}^{0}q_{k-m}$ $z_{k-m}=H_{k}^{0}q_{k-m}$ k - m ${\$ 를 정의하는 또 다른 벡터 계산 알고리즘이 있다 $z_{k-m}=H_{k}^{0}q_{k-m}$ $H_{k}^{0}q_{k-m}}$ 을 $z_{k-m}=H_{k}^{0}q_{k-m}$ (를) 재귀적으로 정의한 후 $\beta _{i}:=\rho _{i}y_{i}^{\top }z_{i}$ $\beta _{i}:=\rho _{i}y_{i}^{\top }z_{i}$ $\beta _{i}:=\rho _{i}y_{i}^{\top }z_{i}$ $\beta _{i}:=\rho _{i}y_{i}^{\top }z_{i}$ $\beta _{i}:=\rho _{i}y_{i}^{\top }z_{i}$ := $\beta _{i}:=\rho _{i}y_{i}^{\top }z_{i}$ $\beta _{i}:=\rho _{i}y_{i}^{\top }z_{i}$ $\beta _{i}:=\rho _{i}y_{i}^{\top }z_{i}$ $\beta _{i}:=\rho _{i}y_{i}^{\top }z_{i}$ i ${\$ $=\rho_{i}^{i}^{\$ $z_{i+1}=z_{i}+(\alpha _{i}-\beta _{i})s_{i}$ $}z_{i}},$ z $\beta _{i}:=\rho _{i}y_{i}^{\top }z_{i}$ i + $z_{i+1}=z_{i}+(\alpha _{i}-\beta _{i})s_{i}$ = $z_{i+1}=z_{i}+(\alpha _{i}-\beta _{i})s_{i}$ $z_{i+1}=z_{i}+(\alpha _{i}-\beta _{i})s_{i}$ + $z_{i+1}=z_{i}+(\alpha _{i}-\beta _{i})s_{i}$ ( $z_{i+1}=z_{i}+(\alpha _{i}-\beta _{i})s_{i}$ $z_{i+1}=z_{i}+(\alpha _{i}-\beta _{i})s_{i}$ - $z_{i+1}=z_{i}+(\alpha _{i}-\beta _{i})s_{i}$ i ) $z_{i+1}=z_{i}+(\alpha _{i}-\beta _{i})s_{i}$ ${\$ $z_{k}$ $z_{k}$ k $z_{k}$ {\ $displaystyle z_{k}$ 의 값이 우리의 상승 방향이다 $z_{k}$ .

따라서 다음과 같이 하강 방향을 계산할 수 있다.

{\begin{array}{l}q=g_{k}\\{\mathtt {For}}\ i=k-1,k-2,\ldots ,k-m\\\qquad \alpha _{i}=\rho _{i}s_{i}^{\top }q\\\qquad q=q-\alpha _{i}y_{i}\\\gamma _{k}={\frac {s_{k-1}^{\top }y_{k-1}}{y_{k-1}^{\top }y_{k-1}}}\\H_{k}^{0}=\감마 _{k}I\\z=H_{k}^{0}q\\{\mathtt {For}}\ i=k-m,k-m+1,\ldots ,k-1\\\qquad \beta _{i}=\rho _{i}y_{i}^{\top }z\\\qquad z=z+s_{i}(\alpha _{i}-\beta _{i})\\z=-z\end{array}}

이 공식은 $z=-H_{k}g_{k}$ = $z=-H_{k}g_{k}$ - $z=-H_{k}g_{k}$ k $z=-H_{k}g_{k}$ k $[\$ }g_{ $k$ $}}}}$ 와 같이 최소화 문제에 대한 검색 방향을 제시한다 $z=-H_{k}g_{k}$ 초기 헤시안 H $H_{k}^{0}$ $H_{k}^{0}$ ${\$ 의 반비례 행렬은 수치적으로 효율적이므로 대각 행렬 또는 ID 행렬의 배수로 선택된다 $H_{k}^{0}$ .

초기 매트릭스 스케일링 $γ$ $\gamma _{k}$ ${\$ }}은(는) 검색 방향이 잘 스케일링되도록 보장하므로 $\gamma _{k}$ 대부분의 반복에서 단위 스텝 길이가 허용된다.Wolfe 라인 검색은 곡률 조건이 충족되고 BFGS 업데이트가 안정적인지 확인하기 위해 사용된다.일부 소프트웨어 구현에서는 $y_{k}^{\top }s_{k}>0$ 라인 $y_{k}^{\top }s_{k}>0$ 을 사용하지만, 이 조건을 충족하기 위해 $1$ ${\displaystyle y_{$ k $1$ $}^{\top }s_{k}}}}0}$ 곡률 조건의 $y_{k}^{\top }s_{k}>0$ 을 $y_{k}^{\top }s_{k}>0$ 선택한 단계별로 보장할 수는 없다는 점에 유의하십시오. $y_{k}^{\top }s_{k}$ 구현에서는 y $y_{k}^{\top }s_{k}$ $y_{k}^{\top }s_{k}$ $y_{k}^{\top }s_{k}$ $y_{k}^{\top }s_{k}$ ${\$ }}}{k $}}}$ 이(가) 음수이거나 $y_{k}^{\top }s_{k}$ 0에 너무 가까울 때 BFGS 업데이트를 건너뛰어 이를 해결하지만, Hessian 근사치 $H_{k}$ k ${\$ 를 캡처할 $H_{k}$ 수 없도록 업데이트를 너무 자주 건너뛸 수 있으므로 일반적으로 권장되지 않는다.소변 정보

이 두 개의 루프 업데이트는 역 헤시안에만 적용된다.Hesian B $B_{k}$ ${\$ 에 직접 근사치를 사용한 L-BFGS 구현 접근법도 개발되었다 $B_{k}$ .^[5] Hesian의 역행렬 B_{k}.

적용들

L-BFGS는 $\ell _{2}$ $\ell _{2}$ ${\$ }} -정규화로 $\ell _{2}$ 로그-선형(MaxEnt) 모델과 조건부 무작위 필드를 적합시키기 위해 "선택의 알고리즘"으로 불려왔다.^[1]^[2]

변형

BFGS(따라서 L-BFGS)는 제약 없이 부드러운 기능을 최소화하도록 설계되었으므로 L-BFGS 알고리즘을 수정하여 차별화 불가능한 구성요소나 제약조건을 포함하는 기능을 다루어야 한다.일반적으로 사용되는 수정 클래스를 활성 집합의 개념에 기초하여 활성 집합 방법이라고 한다.현재의 반복의 작은 동네로 제한했을 때 기능과 제약이 단순화될 수 있다는 생각이다.

L-BFGS-B

L-BFGS-B 알고리즘은 변수에 대한 단순한 상자 제약 조건(일명 바운드 제약 조건)을 처리하도록 L-BFGS를 확장한다. 즉, $l$ 과_i_i_i $u$ 가_i_i 각각 변수 당 상수 하한과 상한인 경우( $각 i$ x에 대해, 또는 둘 다 생략할 수 있다).^[6]^[7]매 단계(단순 구배법을 사용하여)마다 고정변수와 자유변수를 식별한 다음 자유변수에 대한 L-BFGS 방법을 사용하여 정확도를 높인 다음 과정을 반복하는 방식으로 작동한다.

올빼미-QN

Orthant-wise 제한 메모리 준뉴턴(OWL-QN)은 $\ell _{1}$ ${\$ } 정규화된 $\ell _{1}$ 모델을 장착하기 위한 L-BFGS 변형으로, 이러한 모델의 내재된 첨탑성을 활용한다.^[2]폼의 기능을 최소화한다.

{\displaystyle f({\vec{x}=g({\vec{x})+C\ {\vec{x}\ _{1}.

여기서 $g$ $g$ 은 $g$ (는) 다른 볼록 손실 기능이다.이 방법은 활성 집합형 방법이다. 각 반복마다 변수의 각 성분의 부호를 추정하며, 후속 단계를 동일한 부호를 가지도록 제한한다.기호가 고정되면 $\|{\vec {x}}\|_{1}$ 인 $\|{\vec {x}}\|_{1}$ x $\|{\vec {x}}\|_{1}$ → $\|{\vec {x}}\|_{1}$ $\|{\vec {x}}\|_{1}$ ${\$ 항은 $\|{\vec {x}}\|_{1}$ L-BFGS가 처리할 수 있는 부드러운 선형 용어가 된다.L-BFGS 단계 후 이 방법을 사용하면 일부 변수가 부호를 변경하고 프로세스를 반복할 수 있다.

O-LBFGS

Schraudolph 등은 BFGS와 L-BFGS에 대한 온라인 근사치를 제시한다.^[8]확률적 구배 강하와 유사하게, 이것은 각 반복에서 전체 데이터 집합의 임의로 그려진 부분 집합에서 오류 기능과 구배를 평가함으로써 계산 복잡성을 줄이는 데 사용될 수 있다.O-LBFGS는 거의 확실한 글로벌 컨버전스를 가지고 있는 반면, BFGS(O-BFGS)의 온라인 근사치가 반드시 컨버전스를 이루고 있는 것은 아닌 것으로 나타났다.^[10]

변형 구현

L-BFGS-B 변종도 ACM TOMS 알고리즘 778로 존재한다.^[7]^[11]2011년 2월, 원본 L-BFGS-B 코드의 작성자 중 일부가 주요 업데이트(버전 3.0)를 게시했다.

참조 구현은 Fortran 77(Fortran 90 인터페이스 포함)에서 이용할 수 있다.^[12]^[13]이 버전뿐만 아니라 이전 버전도 많은 다른 언어로 변환되었다.

OWL-QN 구현은 설계자에 의한 C++ 구현으로 이용할 수 있다.^[2]^[14]

인용된 작품

^ ^a ^b Malouf, Robert (2002). "A comparison of algorithms for maximum entropy parameter estimation". Proceedings of the Sixth Conference on Natural Language Learning (CoNLL-2002). pp. 49–55. doi:10.3115/1118853.1118871.
^ ^a ^b ^c ^d Andrew, Galen; Gao, Jianfeng (2007). "Scalable training of L₁-regularized log-linear models". Proceedings of the 24th International Conference on Machine Learning. doi:10.1145/1273496.1273501. ISBN 9781595937933. S2CID 5853259.
^ Matthies, H.; Strang, G. (1979). "The solution of non linear finite element equations". International Journal for Numerical Methods in Engineering. 14 (11): 1613–1626. Bibcode:1979IJNME..14.1613M. doi:10.1002/nme.1620141104.
^ Nocedal, J. (1980). "Updating Quasi-Newton Matrices with Limited Storage". Mathematics of Computation. 35 (151): 773–782. doi:10.1090/S0025-5718-1980-0572855-7.
^ Byrd, R. H.; Nocedal, J.; Schnabel, R. B. (1994). "Representations of Quasi-Newton Matrices and their use in Limited Memory Methods". Mathematical Programming. 63 (4): 129–156. doi:10.1007/BF01582063. S2CID 5581219.
^ Byrd, R. H.; Lu, P.; Nocedal, J.; Zhu, C. (1995). "A Limited Memory Algorithm for Bound Constrained Optimization". SIAM J. Sci. Comput. 16 (5): 1190–1208. doi:10.1137/0916069.
^ ^a ^b Zhu, C.; Byrd, Richard H.; Lu, Peihuang; Nocedal, Jorge (1997). "L-BFGS-B: Algorithm 778: L-BFGS-B, FORTRAN routines for large scale bound constrained optimization". ACM Transactions on Mathematical Software. 23 (4): 550–560. doi:10.1145/279232.279236. S2CID 207228122.
^ Schraudolph, N.; Yu, J.; Günter, S. (2007). A stochastic quasi-Newton method for online convex optimization. AISTATS.
^ Mokhtari, A.; Ribeiro, A. (2015). "Global convergence of online limited memory BFGS" (PDF). Journal of Machine Learning Research. 16: 3151–3181. arXiv:1409.2045.
^ Mokhtari, A.; Ribeiro, A. (2014). "RES: Regularized Stochastic BFGS Algorithm". IEEE Transactions on Signal Processing. 62 (23): 6089–6104. arXiv:1401.7625. Bibcode:2014ITSP...62.6089M. CiteSeerX 10.1.1.756.3003. doi:10.1109/TSP.2014.2357775. S2CID 15214938.
^ "TOMS Home". toms.acm.org.
^ Morales, J. L.; Nocedal, J. (2011). "Remark on "algorithm 778: L-BFGS-B: Fortran subroutines for large-scale bound constrained optimization"". ACM Transactions on Mathematical Software. 38: 1–4. doi:10.1145/2049662.2049669. S2CID 16742561.
^ "L-BFGS-B Nonlinear Optimization Code". users.iems.northwestern.edu.
^ "Orthant-Wise Limited-memory Quasi-Newton Optimizer for L1-regularized Objectives". Microsoft Download Center.

추가 읽기

Liu, D. C.; Nocedal, J. (1989). "On the Limited Memory Method for Large Scale Optimization". Mathematical Programming B. 45 (3): 503–528. CiteSeerX 10.1.1.110.6443. doi:10.1007/BF01589116. S2CID 5681609.
Haghighi, Aria (2 Dec 2014). "Numerical Optimization: Understanding L-BFGS".
Pytlak, Radoslaw (2009). "Limited Memory Quasi-Newton Algorithms". Conjugate Gradient Algorithms in Nonconvex Optimization. Springer. pp. 159–190. ISBN 978-3-540-85633-7.

[malouf-1] Malouf, Robert (2002). "A comparison of algorithms for maximum entropy parameter estimation". Proceedings of the Sixth Conference on Natural Language Learning (CoNLL-2002). pp. 49–55. doi:10.3115/1118853.1118871.

[owlqn-2] Andrew, Galen; Gao, Jianfeng (2007). "Scalable training of L₁-regularized log-linear models". Proceedings of the 24th International Conference on Machine Learning. doi:10.1145/1273496.1273501. ISBN 9781595937933. S2CID 5853259.

[3] Matthies, H.; Strang, G. (1979). "The solution of non linear finite element equations". International Journal for Numerical Methods in Engineering. 14 (11): 1613–1626. Bibcode:1979IJNME..14.1613M. doi:10.1002/nme.1620141104.

[4] Nocedal, J. (1980). "Updating Quasi-Newton Matrices with Limited Storage". Mathematics of Computation. 35 (151): 773–782. doi:10.1090/S0025-5718-1980-0572855-7.

[5] Byrd, R. H.; Nocedal, J.; Schnabel, R. B. (1994). "Representations of Quasi-Newton Matrices and their use in Limited Memory Methods". Mathematical Programming. 63 (4): 129–156. doi:10.1007/BF01582063. S2CID 5581219.

[LBFGSB1-6] Byrd, R. H.; Lu, P.; Nocedal, J.; Zhu, C. (1995). "A Limited Memory Algorithm for Bound Constrained Optimization". SIAM J. Sci. Comput. 16 (5): 1190–1208. doi:10.1137/0916069.

[algo778-7] Zhu, C.; Byrd, Richard H.; Lu, Peihuang; Nocedal, Jorge (1997). "L-BFGS-B: Algorithm 778: L-BFGS-B, FORTRAN routines for large scale bound constrained optimization". ACM Transactions on Mathematical Software. 23 (4): 550–560. doi:10.1145/279232.279236. S2CID 207228122.

[8] Schraudolph, N.; Yu, J.; Günter, S. (2007). A stochastic quasi-Newton method for online convex optimization. AISTATS.

[9] Mokhtari, A.; Ribeiro, A. (2015). "Global convergence of online limited memory BFGS" (PDF). Journal of Machine Learning Research. 16: 3151–3181. arXiv:1409.2045.

[10] Mokhtari, A.; Ribeiro, A. (2014). "RES: Regularized Stochastic BFGS Algorithm". IEEE Transactions on Signal Processing. 62 (23): 6089–6104. arXiv:1401.7625. Bibcode:2014ITSP...62.6089M. CiteSeerX 10.1.1.756.3003. doi:10.1109/TSP.2014.2357775. S2CID 15214938.

[11] "TOMS Home". toms.acm.org.

[LBFGSB_update-12] Morales, J. L.; Nocedal, J. (2011). "Remark on "algorithm 778: L-BFGS-B: Fortran subroutines for large-scale bound constrained optimization"". ACM Transactions on Mathematical Software. 38: 1–4. doi:10.1145/2049662.2049669. S2CID 16742561.

[13] "L-BFGS-B Nonlinear Optimization Code". users.iems.northwestern.edu.

[14] "Orthant-Wise Limited-memory Quasi-Newton Optimizer for L1-regularized Objectives". Microsoft Download Center.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[10]

[11]

[12]

[13]

[14]

Search