쌍강하
Double descent
통계학과 기계학습에서 이중 하강(double descent)은 매개변수의 수가 적은 통계적 모델과 매개변수의 수가 매우 많은 모델이 작은 오차를 갖지만, 매개변수의 수가 모델을 훈련하는 데 사용된 데이터 포인트의 수와 거의 같은 모델이 큰 오차를 갖는 현상입니다.[2]2018년경에 연구원들이 고전 통계학의 편향-분산 트레이드오프를 조정하려고 할 때 발견되었는데, 이는 너무 많은 매개 변수가 있으면 극단적으로 큰 오류를 초래할 것이라는 것을 의미하며, 2010년대 기계 학습 실무자들에 대한 경험적 관찰과 모델이 클수록 더 잘 작동한다는 것을 의미합니다.[3][4]이중 하강의 스케일링 거동은 깨진 신경 스케일링 법칙[5] 함수 형태를 따르는 것으로 밝혀졌습니다.
참고문헌
- ^ Schaeffer, Rylan; Khona, Mikail; Robertson, Zachary; Boopathy, Akhilan; Pistunova, Kateryna; Rocks, Jason W.; Fiete, Ila Rani; Koyejo, Oluwasanmi (2023-03-24). "Double Descent Demystified: Identifying, Interpreting & Ablating the Sources of a Deep Learning Puzzle". arXiv:2303.14151v1 [cs.LG].
- ^ "Deep Double Descent". OpenAI. 2019-12-05. Retrieved 2022-08-12.
- ^ evhub (2019-12-05). "Understanding "Deep Double Descent"". LessWrong.
- ^ Belkin, Mikhail; Hsu, Daniel; Ma, Siyuan; Mandal, Soumik (2019-08-06). "Reconciling modern machine learning practice and the bias-variance trade-off". Proceedings of the National Academy of Sciences. 116 (32): 15849–15854. arXiv:1812.11118. doi:10.1073/pnas.1903070116. ISSN 0027-8424. PMC 6689936. PMID 31341078.
- ^ 카바예로, 이단; 굽타, 크시티즈; 리쉬, 이리나; 크루거, 다비드 (2022)."신경 스케일링 법칙이 깨졌습니다."국제 학습 표현 회의(ICLR), 2023.
시리즈의 일부(on) |
머신 러닝 데이터 마이닝(data mining) |
---|
![]() |
추가열람
- Mikhail Belkin; Daniel Hsu; Ji Xu (2020). "Two Models of Double Descent for Weak Features". SIAM Journal on Mathematics of Data Science. 2 (4): 1167–1180. doi:10.1137/20M1336072.
- Preetum Nakkiran; Gal Kaplun; Yamini Bansal; Tristan Yang; Boaz Barak; Ilya Sutskever (29 December 2021). "Deep double descent: where bigger models and more data hurt". Journal of Statistical Mechanics: Theory and Experiment. IOP Publishing Ltd and SISSA Medialab srl. 2021 (12): 124003. arXiv:1912.02292. Bibcode:2021JSMTE2021l4003N. doi:10.1088/1742-5468/ac3a74. S2CID 207808916.
- Song Mei; Andrea Montanari (April 2022). "The Generalization Error of Random Features Regression: Precise Asymptotics and the Double Descent Curve". Communications on Pure and Applied Mathematics. 75 (4): 667–766. arXiv:1908.05355. doi:10.1002/cpa.22008. S2CID 199668852.
- Xiangyu Chang; Yingcong Li; Samet Oymak; Christos Thrampoulidis (2021). "Provable Benefits of Overparameterization in Model Compression: From Double Descent to Pruning Neural Networks". Proceedings of the AAAI Conference on Artificial Intelligence. 35 (8). arXiv:2012.08749.
- Marco Loog; Tom Viering; Alexander Mey; Jesse H. Krijthe; David M. J. Tax (2020). "A brief prehistory of double descent". Proceedings of the National Academy of Sciences of the United States of America. 117 (16): 10625–10626. arXiv:2004.04328. Bibcode:2020PNAS..11710625L. doi:10.1073/pnas.2001875117. PMC 7245109. PMID 32371495.
외부 링크
- Brent Werness; Jared Wilber. "Double Descent: Part 1: A Visual Introduction".
- Brent Werness; Jared Wilber. "Double Descent: Part 2: A Mathematical Explanation".