휴버 손실

Huber loss

통계학에서 Huber 손실은 강력 회귀 분석에서 사용되는 손실 함수로서, 오차 손실 제곱보다 데이터특이치에 덜 민감합니다.분류를 위한 변종도 가끔 사용됩니다.

정의.

y- () \ y - f ( )의 함수로써 Huber 손실(녹색, , { \1) 및 제곱 오류손실(파란색)

Huber loss 함수는 추정 절차 f에 의해 발생하는 패널티를 설명합니다.Huber(1964)는 손실 함수를 다음과 같이 구분하여[1] 정의합니다.

이 함수는 a의 작은 값에 대해서는 2차, 큰 값에 대해서는 선형으로, a \ a = \인 두 지점에서 동일한 값과 기울기를 가진다. 변수 a는 종종 잔차, 즉 관측값과 a - (x 의 차이를 참조한다. a이므로 전자는 로 확장될[2] 수 있습니다.

동기

가장 일반적으로 사용되는 두 가지 손실 함수는 L ( 2 {\ L)=및 절대 L ( a입니다. 제곱 손실 함수는 산술 평균-편향 추정기(\display stylea)= a })를 생성하며, 절대값 손실 함수는 중앙값-편향 추정기(median-uniasibiator)를 생성한다.1차원 케이스와 다차원 케이스에 대한 기하학적 중위수 비편향 추정기).손실 제곱은 특이치에 의해 지배되는 경향이 있다는 단점이 있다. 즉, ( ( _과 같이) {\ as 를 합산할 때, 표본 평균이 값의 영향을 많이 받는다.추정 이론의 관점에서 평균의 점근적 상대 효율은 꼬리 부분이 두꺼운 분포에서 좋지 않습니다.

위에서 정의한 바와 같이 Huber 손실 함수는 0 { a의 균일한 근방에서 강하게 볼록하다. 이 균일한 근방의 경계에서 Huber 손실 함수는 a - { a=-\ a { a=\} 에서 아핀 함수로 미분 가능한 확장을 가진다. 이러한 특성을 통해 평균의 평균 비편향, 최소 분산 추정기(2차 손실 함수 사용)와 중앙값 비편향 추정기(절대값 함수 사용)의 강건성을 상당 부분 결합할 수 있다.

의사-허버 손실 함수

유사-휴버 손실 함수는 휴버 손실 함수의 부드러운 근사치로 사용할 수 있습니다.이 값은 목표/최소값에 가까울 때 강하게 볼록하고 극단값의 경우 덜 가파름으로써 L2 제곱 손실L1 절대 손실의 최상의 특성을 결합합니다.의사-휴버 손실 함수가 최소값에 가까운 값의 L2 손실에서 극단값의 L1 손실 및 극단값의 경사가 "\ 으로 전환되는 척도를 제어할 수 있습니다.유사-허버 손실 함수는 도수가 모든 도수에 대해 연속되도록 보장합니다.다음과 같이 정의됩니다[3][4].

따라서 이 함수는 a의 값에 대해서는 2 a \a의 값에 대해서는 \ 기울기를 갖는 직선에 가깝습니다.

위가 가장 일반적인 형태이지만, Huber 손실 함수의 다른 부드러운 근사도 존재합니다.[5]

분류용 변종

분류를 위해 변형된 Huber라고 불리는 Huber 손실의 변형이 사용되기도 합니다. f { f실제값 분류자 점수) 및 진정한 바이너리 클래스 y { + ,- { \ \ { + , 1 \} { display y \ in \ { + 1, 1 \}} a a a a a a a a a a a a a a a a 、 Huber loss given given is is is is is[6] is is is is is is is is is 。

max ( 0, - () { , 1 - , ( ) } is서포트 벡터머신이 사용하는 힌지 손실입니다.사각형 평활 힌지 손실은 L { L[6]입니다.

적용들

휴버 손실 함수는 강력한 통계, M 추정 가법 [7]모델링에 사용된다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Huber, Peter J. (1964). "Robust Estimation of a Location Parameter". Annals of Statistics. 53 (1): 73–101. doi:10.1214/aoms/1177703732. JSTOR 2238020.
  2. ^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). The Elements of Statistical Learning. p. 349. Archived from the original on 2015-01-26. Hastie 등과 비교하여 손실은 이전에 주어진 Huber의 원래 정의와 일치하도록 θ의 인수로 스케일링된다.
  3. ^ Charbonnier, P.; Blanc-Féraud, L.; Aubert, G.; Barlaud, M. (1997). "Deterministic edge-preserving regularization in computed imaging". IEEE Trans. Image Processing. 6 (2): 298–311. CiteSeerX 10.1.1.64.7521. doi:10.1109/83.551699. PMID 18282924.
  4. ^ Hartley, R.; Zisserman, A. (2003). Multiple View Geometry in Computer Vision (2nd ed.). Cambridge University Press. p. 619. ISBN 978-0-521-54051-3.
  5. ^ Lange, K. (1990). "Convergence of Image Reconstruction Algorithms with Gibbs Smoothing". IEEE Trans. Med. Imaging. 9 (4): 439–446. doi:10.1109/42.61759. PMID 18222791.
  6. ^ a b Zhang, Tong (2004). Solving large scale linear prediction problems using stochastic gradient descent algorithms. ICML.
  7. ^ Friedman, J. H. (2001). "Greedy Function Approximation: A Gradient Boosting Machine". Annals of Statistics. 26 (5): 1189–1232. doi:10.1214/aos/1013203451. JSTOR 2699986.