경험적 리스크 최소화
Empirical risk minimization시리즈의 일부 |
기계학습 및 데이터 마이닝 |
---|
경험적 위험 최소화는 알려진 고정 데이터 세트에 대한 성능 평가를 기반으로 학습 알고리즘 제품군을 정의하는 통계 학습 이론의 원리입니다. 핵심 아이디어는 큰 수의 법칙을 적용하는 것에 기반을 두고 있습니다. 더 구체적으로, 우리는 데이터의 진정한 분포를 모르기 때문에 예측 알고리즘이 실제로 얼마나 잘 작동할 것인지(즉, 진정한 "위험") 정확히 알 수 없습니다. 대신 알려진 훈련 데이터 세트에서 알고리즘의 성능을 추정하고 최적화할 수 있습니다. 알려진 훈련 데이터 세트에 대한 성능을 경험적 위험이라고 합니다.
배경
많은 지도 학습 문제의 일반적인 설정인 다음과 같은 상황을 고려해 보십시오. We have two spaces of objects and and would like to learn a function (often called hypothesis) which outputs an object , given . To do so, 의 n개의,y1 (,yn {\\ },1}),\ (n})로 구성된 교육 세트가 있습니다. 여기서 X{\x_{i}\in X}는 입력이고 y Y {\displaystyle y_{i}\in Y}는 h (x i ) {\displaystyle h(x_{i})}에서 얻고자 하는 해당 응답입니다.
To put it more formally, we assume that there is a joint probability distribution over and , and that the training set consists of instances ( (x_{n},는 에서 i.i.d를 그렸습니다 {\ y는 x{\ x의 결정론적 함수가 아니기 때문에 합동 확률 분포의 가정을 통해 예측의 불확실성(예: 데이터의 노이즈)을 모델링할 수 있습니다 고정 에 대해 조건부 분포 ( ) P x를 갖는 랜덤 변수입니다
또한 가설의 예측 이 실제 y 와 얼마나 다른지 측정하는 비음의 실제 값 손실 함수 y y이 주어졌다고 가정합니다 분류 작업의 경우 이러한 손실 함수는 채점 규칙이 될 수 있습니다. ( 과 관련된 위험은 손실 함수의 기대치로 정의됩니다.
이론에서 일반적으로 사용되는 손실 함수는 0-1 손실 함수입니다: ( y) = ^ = y {\displaystyle L({\hat {y}}, y) = begin{case}1mbox{}}}\quad {\hat {y}}\n {\hat{y\case}}.
학습 알고리즘의 궁극적인 목표는된 함수 H {H}} 에서 위험R(h) R(h이 ∗ {\displaystyle ^{*}을 찾는 것입니다.
분류 문제의 경우 베이즈 분류기는 0–1 손실 함수로 정의된 위험을 최소화하는 분류기로 정의됩니다.
경험적 리스크 최소화
일반적으로 위험 R( 은 P y){\P( y를 학습 알고리즘이 알 수 없기 때문에 계산할 수 없습니다(이 상황을 불가지론 학습이라고[citation needed] 합니다). 그러나 id 훈련 데이터 포인트 샘플이 주어지면 훈련 세트에 대한 손실 함수의 평균을 계산하여 경험적 위험이라고 하는 추정치를 계산할 수 있습니다. 보다 공식적으로 경험적 측정과 관련된 기대치를 계산합니다.
경험적 위험 최소화 원칙은[1] 학습 알고리즘이 가설 클래스 보다 경험적 위험을 최소화하는 을 선택해야 한다는 것입니다
따라서 경험적 위험 최소화 원리에 의해 정의된 학습 알고리즘은 위의 최적화 문제를 해결하는 것으로 구성됩니다.
특성.
![]() | 이 구간은 확장이 필요합니다. 추가하여 도움을 드릴 수 있습니다. (2023년 2월) |
경험적 위험 최소화의 수행에 대한 보증은 선택된 함수 클래스와 분산 가정에 크게 의존합니다.[2] 일반적으로, 분배가 없는 방법은 너무 거칠고, 실용적인 경계로 이어지지 않습니다. 그러나 이들은 일관성과 같은 학습 알고리즘의 점근적 특성을 도출하는 데 여전히 유용합니다. 특히 고정 함수 클래스가 주어진 경험적 위험 최소화 성능에 대한 분배 없는 경계는 함수 클래스의 VC 복잡성에 대한 경계를 사용하여 도출할 수 있습니다.
단순화를 위해 이진 분류 작업의 경우를 고려하여 선택한 ϕ {n}}이(가) 가능한 최상의 ϕ ∗ displaystyle\phi ^{*}}보다 훨씬 낮을 확률을 제한할 수 있습니다. 성장 함수 C}}인 가설 {\mathcal {C에 정의된 위험 {\ {C}}({\mathcal {C에 가인 데이터 세트가 주어졌다고 가정합니다 그런 다음 모든ϵ > 0 > 0}에 대해:
비슷한 결과가 회귀 분석 작업에도 적용됩니다.[2] 이러한 결과는 종종 실제 위험에서 경험적 위험의 편차를 균일하게 제어하는 큰 수의 균일한 법칙에 기초합니다.[3]
불가결과
또한 분포 가정이 이루어지지 않을 경우 알고리즘 성능의 하한을 나타낼 수도 있습니다.[4] 이것은 때때로 무료 점심 식사 금지 정리라고 불립니다. 특정 학습 알고리즘이 임의의 분포에 대해 점근적으로 최적의 성능을 제공할 수 있음에도 불구하고, 유한 샘플 성능은 적어도 하나의 데이터 분포에 대해 항상 좋지 않습니다. 이는 모든 분포에 대해 주어진 표본 크기에 대한 오차를 분류기가 제공할 수 없음을 의미합니다.[3]
구체적으로, 0 >0}을ϵ 크기 n n} 및 ϕ n {\displaystyle phi _{n}}을 고려할 때 (X, Y){\displaystyle (X, L 0 displaystyle L^{*} 0}인 }(완벽한 예측이 가능하다는 의미)은 다음과 같습니다.
일부 분포에 대해 학습 알고리즘의 수렴 속도가 좋지 않다는 것을 보여줄 수 있습니다. 구체적으로, 양수 {\}}가 0으로 수렴하는 경우, 다음과 같은 분포를 찾을 수 있습니다.
n n에 대하여 이 결과는 규칙이 적어도 하나의 분포에 대해 낮은 품질이어야 한다는 의미에서 일반적으로 우수한 분류 규칙이 존재하지 않음을 보여줍니다.[3]
계산복잡도
0-1 손실 함수를 갖는 분류 문제에 대한 경험적 위험 최소화는 선형 분류기와 같은 비교적 간단한 함수 클래스에 대해서도 NP-hard 문제로 알려져 있습니다.[5] 그럼에도 불구하고 최소 경험적 위험이 0일 때, 즉 데이터를 선형적으로 분리할 수 있을 때 효율적으로 해결할 수 있습니다.[citation needed]
실제로 기계 학습 알고리즘은 최적화하기 쉬운 0–1 손실 함수(SVM의 힌지 손실과 같은)에 대한 볼록 근사를 사용하거나 분포 ( y )에 가정을 적용하여 이 문제를 해결합니다따라서 위의 결과가 적용되는 불가지론적 학습 알고리즘을 중단합니다.)
볼록화의 경우, Zhang의 보조정리는 볼록화된 문제의 초과 위험을 이용하여 원래 문제의 초과 위험을 주요하게 합니다.[6] 볼록 최적화를 사용하여 후자를 최소화하면 전자를 제어할 수도 있습니다.
기울어진 경험적 위험 최소화
틸트 경험적 위험 최소화는 틸트 파라미터를 도입하여 Square Error와 같은 표준 손실 함수를 수정하는 데 사용되는 기계 학습 기법입니다. 이 파라미터는 훈련 중에 데이터 포인트의 가중치를 동적으로 조정하여 알고리즘이 데이터 분포의 특정 영역이나 특성에 집중할 수 있도록 합니다. 기울어진 경험적 위험 최소화는 데이터가 불균형하거나 예측 공간의 특정 부분에서 오류를 강조할 필요가 있는 시나리오에서 특히 유용합니다.
참고 항목
참고문헌
- ^ V. Vapnik (1992). 학습 이론을 위한 위험 최소화의 원칙.
- ^ a b Györfi, László; Kohler, Michael; Krzyzak, Adam; Walk, Harro (2010-12-01). A Distribution-Free Theory of Nonparametric Regression (Softcover reprint of the original 1st ed.). New York: Springer. ISBN 978-1-4419-2998-3.
- ^ a b c d e Devroye, L., Gyorfi, L. & Lugosi, G. 패턴 인식의 확률론 이산 응용수학 73, 192–194 (1997)
- ^ Devroye, Luc; Györfi, László; Lugosi, Gábor (1996). "A Probabilistic Theory of Pattern Recognition". Stochastic Modelling and Applied Probability. doi:10.1007/978-1-4612-0711-5. ISSN 0172-4568.
- ^ V. Feldman, V. Guruswami, P. Raghavendra 및 Yu Wu(2009). 하프스페이스에 의한 모노미얼의 불가지론적 학습은 어렵습니다. (논문 및 참고문헌 참조)
- ^ "Mathematics of Machine Learning Lecture 9 Notes Mathematics of Machine Learning Mathematics". MIT OpenCourseWare. Retrieved 2023-10-28.
더보기
- Vapnik, V. (2000). The Nature of Statistical Learning Theory. Information Science and Statistics. Springer-Verlag. ISBN 978-0-387-98780-4.