쌍강하

Double descent
2층 신경망에서의 이중 하강 현상의 예:데이터 점에 대한 모수의 비율이 증가하면 검정 오차가 먼저 감소한 다음 증가한 다음 다시 감소합니다.[1]수직선은 과소 모수화된 영역(모수보다 많은 데이터 점)과 과대 모수화된 영역(모수보다 많은 파라미터) 사이의 경계를 표시합니다.

통계학과 기계학습에서 이중 하강(double descent)은 매개변수의 수가 적은 통계적 모델과 매개변수의 수가 매우 많은 모델이 작은 오차를 갖지만, 매개변수의 수가 모델을 훈련하는 데 사용된 데이터 포인트의 수와 거의 같은 모델이 큰 오차를 갖는 현상입니다.[2]2018년경에 연구원들이 고전 통계학의 편향-분산 트레이드오프를 조정하려고 할 때 발견되었는데, 이는 너무 많은 매개 변수가 있으면 극단적으로 큰 오류를 초래할 것이라는 것을 의미하며, 2010년대 기계 학습 실무자들에 대한 경험적 관찰과 모델이 클수록 더 잘 작동한다는 것을 의미합니다.[3][4]이중 하강의 스케일링 거동은 깨진 신경 스케일링 법칙[5] 함수 형태를 따르는 것으로 밝혀졌습니다.

참고문헌

  1. ^ Schaeffer, Rylan; Khona, Mikail; Robertson, Zachary; Boopathy, Akhilan; Pistunova, Kateryna; Rocks, Jason W.; Fiete, Ila Rani; Koyejo, Oluwasanmi (2023-03-24). "Double Descent Demystified: Identifying, Interpreting & Ablating the Sources of a Deep Learning Puzzle". arXiv:2303.14151v1 [cs.LG].
  2. ^ "Deep Double Descent". OpenAI. 2019-12-05. Retrieved 2022-08-12.
  3. ^ evhub (2019-12-05). "Understanding "Deep Double Descent"". LessWrong.
  4. ^ Belkin, Mikhail; Hsu, Daniel; Ma, Siyuan; Mandal, Soumik (2019-08-06). "Reconciling modern machine learning practice and the bias-variance trade-off". Proceedings of the National Academy of Sciences. 116 (32): 15849–15854. arXiv:1812.11118. doi:10.1073/pnas.1903070116. ISSN 0027-8424. PMC 6689936. PMID 31341078.
  5. ^ 카바예로, 이단; 굽타, 크시티즈; 리쉬, 이리나; 크루거, 다비드 (2022)."신경 스케일링 법칙이 깨졌습니다."국제 학습 표현 회의(ICLR), 2023.

추가열람

외부 링크