학습률
Learning rate시리즈의 일부 |
기계 학습 및 데이터 마이닝 |
---|
기계학습 및 통계학에서 학습속도는 최소 [1]손실함수로 이동하면서 각 반복에서 스텝사이즈를 결정하는 최적화 알고리즘의 튜닝 파라미터이다.새롭게 취득한 정보가 낡은 정보에 어느 정도 우선하는지에 영향을 미치기 때문에, 기계 학습 모델이 「학습」하는 속도를 은유적으로 나타낸다.적응 제어 문헌에서 학습 속도는 일반적으로 [2]게인이라고 합니다.
학습률을 설정할 때 수렴률과 오버슈팅 사이에 트레이드오프가 있다.하강 방향은 일반적으로 손실 함수의 구배에서 결정되지만, 학습 속도는 해당 방향으로 얼마나 큰 단계를 밟는지 결정합니다.학습률이 너무 높으면 학습이 최소치를 뛰어넘지만, 너무 낮으면 수렴에 시간이 너무 오래 걸리거나 바람직하지 않은 로컬 최소치에 [3]갇히게 됩니다.
보다 고속의 컨버전스를 실현하기 위해서, 진동을 방지해 바람직하지 않은 국소 최소치에 갇히는 것을 막기 위해서, 학습 레이트는, 학습 레이트 스케줄에 따라서 또는 적응 학습 [4]레이트를 사용해 트레이닝중에 변동하는 경우가 많다.학습 속도와 그 조정은 매개변수마다 다를 수 있으며, 이 경우 뉴턴의 [5]방법에서 헤시안 행렬의 역행렬에 대한 근사치로 해석될 수 있는 대각 행렬이다.학습 속도는 준뉴턴 방법 및 관련 최적화 [6][7]알고리즘에서 부정확한 라인 검색에 의해 결정되는 단계 길이와 관련이 있다.
회선 검색을 실행할 때 미니 배치 서브샘플링(MBSS)은 학습 속도를 [8]해결해야 하는 손실 함수의 특성에 영향을 미칩니다.정적 MBSS는 검색 방향을 따라 미니 배치가 고정된 상태를 유지하므로 검색 방향을 따라 원활한 손실 함수를 제공합니다.동적 MBSS는 함수 평가 시마다 미니 배치를 업데이트하여 검색 방향을 따라 포인트 단위의 불연속 손실 함수를 생성합니다.정적 MBSS 손실 함수의 학습률을 적응적으로 해결하는 라인 검색에는 포물선 근사 라인([9]PAL) 검색이 포함됩니다.동적 MBSS 손실 함수의 학습률을 적응적으로 해결하는 라인 검색에는 확률론적 라인 검색,[10] 구배 전용 라인 검색(GOLS)[11] 및 2차 [12]근사치가 포함된다.
학습률 스케줄
초기 속도는 시스템 기본값으로 유지하거나 다양한 기술을 [13]사용하여 선택할 수 있습니다.학습 속도 스케줄은 학습 중에 학습 속도를 변경하며, 에폭/반복 사이에 가장 자주 변경됩니다.이것은 주로 붕괴와 운동량의 두 가지 파라미터로 이루어집니다.다양한 학습률 스케줄이 있지만 가장 일반적인 것은 시간 기반, 단계 기반 [4]및 지수입니다.
붕괴는 학습을 좋은 곳에 정착시키고 진동을 피하는 역할을 합니다. 이 상황은 너무 높은 지속적 학습률로 인해 학습이 최소치를 넘나들며 하이퍼 파라미터에 의해 제어될 수 있습니다.
모멘텀은 공이 언덕 아래로 굴러 떨어지는 것과 유사합니다. 공이 언덕의 가장 낮은 지점에 안착하기를 원합니다(가장 낮은 오차에 해당).모멘텀은 오류 비용 구배가 오랫동안 동일한 방향으로 진행 중일 때 학습 속도를 높이고 작은 범프를 '롤오버'하여 국소 최소화를 방지합니다.운동량은 수동으로 선택해야 하는 공의 질량과 유사한 하이퍼 매개 변수에 의해 제어되며, 공이 우리가 찾고자 하는 최소값 위로 굴러갑니다. 너무 낮으면 그 목적을 달성하지 못합니다.모멘텀을 인수분해하는 공식은 붕괴보다 복잡하지만 케라스와 같은 딥 러닝 라이브러리에서 가장 많이 구축됩니다.
시간 기반 학습 스케줄은 이전 시간 반복의 학습 속도에 따라 학습 속도를 변경합니다.붕괴에서 학습률의 수학 공식은 다음과 같다.
여기서 {는 학습률, d는 붕괴 파라미터, {\ n은 반복 스텝입니다.
단계 기반 학습 스케줄은 미리 정의된 단계에 따라 학습 속도를 변경합니다.붕괴 적용 공식은 다음과 같이 정의됩니다.
여기서 n \ _ { } 은 시 학습 속도, 0 { _ { } 은 초기 학습 속도, { d} 는 각 드롭에서 변화해야 하는 학습 속도(0.5 는 절반에 해당), { r 은 각 드롭에 대응합니다.즉, 레이트를 드롭하는 빈도(10은 10회마다 드롭에 대응합니다).플로어 함수( 는 1보다 작은 모든 값에 대해 입력 으로 드롭합니다
지수 학습 일정은 단계 기반과 유사하지만 단계 대신 감소 지수 함수를 사용합니다.붕괴를 인수분해하는 수학 공식은 다음과 같습니다.
서 dd는 붕괴 파라미터입니다.
적응 학습률
학습 속도 스케줄의 문제는 모든 스케줄이 주어진 학습 세션마다 수동으로 선택되어야 하는 하이퍼 파라미터에 의존하며, 당면한 문제나 사용된 모델에 따라 크게 달라질 수 있다는 것이다.이를 방지하기 위해 Adagrad, Adadelta, RMSprop 및[14] Adam과 같은 다양한 유형의 적응 경사 강하 알고리즘이 일반적으로 Keras와 [15]같은 딥 러닝 라이브러리에 내장되어 있다.
「 」를 참조해 주세요.
레퍼런스
- ^ Murphy, Kevin P. (2012). Machine Learning: A Probabilistic Perspective. Cambridge: MIT Press. p. 247. ISBN 978-0-262-01802-9.
- ^ Delyon, Bernard (2000). "Stochastic Approximation with Decreasing Gain: Convergence and Asymptotic Theory". Unpublished Lecture Notes. Université de Rennes. CiteSeerX 10.1.1.29.4428.
- ^ Buduma, Nikhil; Locascio, Nicholas (2017). Fundamentals of Deep Learning : Designing Next-Generation Machine Intelligence Algorithms. O'Reilly. p. 21. ISBN 978-1-4919-2558-4.
- ^ a b Patterson, Josh; Gibson, Adam (2017). "Understanding Learning Rates". Deep Learning : A Practitioner's Approach. O'Reilly. pp. 258–263. ISBN 978-1-4919-1425-0.
- ^ Ruder, Sebastian (2017). "An Overview of Gradient Descent Optimization Algorithms". arXiv:1609.04747 [cs.LG].
- ^ Nesterov, Y. (2004). Introductory Lectures on Convex Optimization: A Basic Course. Boston: Kluwer. p. 25. ISBN 1-4020-7553-7.
- ^ Dixon, L. C. W. (1972). "The Choice of Step Length, a Crucial Factor in the Performance of Variable Metric Algorithms". Numerical Methods for Non-linear Optimization. London: Academic Press. pp. 149–170. ISBN 0-12-455650-7.
- ^ Kafka, Dominic; Wilke, Daniel N. (2021). "An empirical study into finding optima in stochastic optimization of neural networks". Information Sciences. 560: 235–255. arXiv:1903.08552. doi:10.1016/j.ins.2021.01.005. S2CID 233313117.
- ^ Mutschler, Maximus; Zell, Andreas (2019). "Parabolic Approximation Line Search for DNNs". arXiv:1903.11991 [cs.LG].
- ^ Mahsereci, Maren; Hennig, Phillip (2016). "Probabilistic Line Searches for Stochastic Optimization". arXiv:1502.02846v4 [cs.LG].
- ^ Kafka, Dominic; Wilke, Daniel N. (2021). "Resolving learning rates adaptively by locating stochastic non-negative associated gradient projection points using line searches". Journal of Global Optimization. 79: 111–152. arXiv:2001.05113. doi:10.1007/s10898-020-00921-z. S2CID 210181099.
- ^ Chae, Younghwan; Wilke, Daniel N. (2019). "Empirical study towards understanding line search approximations for training neural networks". arXiv:1909.06893 [stat.ML].
- ^ Smith, Leslie N. (4 April 2017). "Cyclical Learning Rates for Training Neural Networks". arXiv:1506.01186 [cs.CV].
- ^ Murphy, Kevin (2021). Probabilistic Machine Learning: An Introduction. Probabilistic Machine Learning: An Introduction. MIT Press. Retrieved 10 April 2021.
- ^ Brownlee, Jason (22 January 2019). "How to Configure the Learning Rate When Training Deep Learning Neural Networks". Machine Learning Mastery. Retrieved 4 January 2021.
추가 정보
- Géron, Aurélien (2017). "Gradient Descent". Hands-On Machine Learning with Scikit-Learn and TensorFlow. O'Reilly. pp. 113–124. ISBN 978-1-4919-6229-9.
- Plagianakos, V. P.; Magoulas, G. D.; Vrahatis, M. N. (2001). "Learning Rate Adaptation in Stochastic Gradient Descent". Advances in Convex Analysis and Global Optimization. Kluwer. pp. 433–444. ISBN 0-7923-6942-4.
외부 링크
- de Freitas, Nando (February 12, 2015). "Optimization". Deep Learning Lecture 6. University of Oxford – via YouTube.