손실 함수

Loss function

수학적 최적화결정 이론에서 손실 함수 또는 비용 함수(때로는 오류 함수라고도 함)는 사건과 관련된 "비용"을 직관적으로 나타내는 하나 이상의 변수 값을 실수에 매핑하는 함수이다.최적화 문제는 손실 함수를 최소화하는 것입니다.목적함수는 손실함수 또는 그 반대(특정 영역에서는 보상함수, 수익함수, 효용함수, 적합성함수 등으로 다양하게 불린다)이며, 이 경우 최대화된다.손실 함수에는 계층의 여러 수준에서 가져온 항이 포함될 수 있습니다.

통계학에서 일반적으로 손실 함수는 모수 추정에 사용되며, 문제의 이벤트는 데이터의 인스턴스에 대한 추정된 값과 참 값 사이의 차이에 대한 함수입니다.라플라스만큼 오래된 이 개념은 20세기 [2]중반 아브라함 월드에 의해 통계학에서 다시 소개되었다.예를 들어, 경제학의 맥락에서, 이것은 보통 경제적 비용이나 후회이다.분류에서는 예를 잘못 분류했을 경우의 벌칙입니다.보험수리학에서는 보험료에 비해 지급되는 복리후생을 모델링하기 위해 보험 맥락에서 사용되며, 특히 1920년대 [3]Harald Cramér의 연구 이후로 더욱 그러하다.최적 제어에서 손실은 원하는 값을 달성하지 못한 경우의 패널티입니다.재무위험관리에서 그 기능은 금전적 손실로 연결된다.

후회한다

Leonard J. Savage미니맥스와 같은 비-베이지안 방법을 사용하여 손실 함수는 후회라는 생각에 기초해야 한다고 주장했다. 즉, 결정과 관련된 손실은 근본적인 상황을 알았을 때 이루어졌을 수 있는 최선의 결정의 결과와 실제로 알려진 결정 사이의 차이여야 한다.켄이 발견되기 전에 말이야

이차 손실 함수

예를 들어 최소 제곱 기법을 사용하는 경우 2차 손실 함수를 사용하는 것이 일반적입니다.분산의 특성뿐만 아니라 대칭이기 때문에 종종 다른 손실 함수보다 수학적으로 더 다루기 쉽습니다. 즉, 목표보다 높은 오차는 목표보다 낮은 오차와 동일한 크기의 손실을 유발합니다.목표가 t이면 2차 손실 함수는 다음과 같습니다.

일부 상수 C의 경우, 상수 값은 결정에 영향을 주지 않으며 1로 설정하면 무시할 수 있습니다.이것은 SEL([4]Square Error Loss)이라고도 합니다.

t-검정, 회귀 모형, 실험 설계 등을 포함한 많은 일반적인 통계량에서는 2차 손실 함수를 기반으로 하는 선형 회귀 이론을 사용하여 적용된 최소 제곱 방법을 사용합니다.

2차 손실 함수는 선형-4차 최적 제어 문제에도 사용됩니다.이러한 문제에서는 불확실성이 없는 경우에도 모든 목표 변수의 원하는 값을 달성할 수 없을 수 있다.종종 손실은 원하는 값에서 관심 변수의 편차에 2차 형식으로 표현된다. 이 접근법은 선형 1차 조건을 초래하기 때문에 다루기 쉽다.확률 제어의 맥락에서 2차 형식의 기대치를 사용한다.

0-1 손실 함수

통계결정 이론에서 자주 사용되는 손실 함수는 0-1 손실 함수이다.

서 II은 표시기 기능입니다.

손실 및 객관적 기능 구축

많은 응용 프로그램에서, 특정 경우로서의 손실 함수를 포함한 객관적인 함수는 문제의 공식에 의해 결정된다.다른 상황에서는 의사결정자의 선호도를 도출하여 최적화에 적합한 스칼라 값 함수(유틸리티 함수라고도 함)로 나타내야 합니다.이 문제는 라그나 프리쉬가 노벨상 [5]강연에서 강조했던 것입니다.객관적 기능을 구축하기 위한 기존 방법은 2개의 전용 [6][7]회의의 진행에서 수집됩니다.특히 Andranik Tangian은 가장 사용 가능한 목적 함수인 2차 및 가법 함수가 몇 개의 무관심 점에 의해 결정된다는 것을 보여주었다.그는 [8][9]의사결정자와의 컴퓨터 지원 인터뷰를 통해 도출된 서수 또는 기수 데이터에서 이러한 객관적 함수를 구성하기 위해 모델에 이 속성을 사용했다.무엇보다 그는 독일 271개 [11]지역의 실업률 균등화를 위한 16개 대학의[10] 예산과 유럽 보조금을 최적으로 배분하는 객관적 기능을 구축했다.

예상손실

경우에 따라서는 손실함수의 값 자체는 랜덤 변수 X의 결과에 따라 달라지기 때문에 랜덤한 양입니다.

통계 정보

빈도론과 베이지안 통계론은 모두 손실 함수의 기대값에 기초한 의사결정을 수반한다. 그러나 이 수량은 두 가지 패러다임에서 다르게 정의된다.

빈도주의 예상 손실

우선 예상되는 손실을 빈도주의 맥락에서 정의한다.관측된 데이터 X의 확률 분포θ P에 대한 기대치를 취함으로써 얻을 수 있습니다.이는 의사결정 규칙 and과 매개변수 θ위험함수라고도[12][13][14][15] 한다.여기서 결정 규칙은 X의 결과에 따라 달라집니다.위험 함수는 다음과 같이 제공됩니다.

X의 모든 인구 가치보다 더 관찰의 특성상 여기, θ은 아니라 아마 알려지지 않은 고정 상태, X는 벡터 확률적으로. 인구에서 꺼내어, Eθ{\displaystyle \operatorname{E}_{\theta}}은 기대 X(θ에 의해 parametrized)의 정수에 평가되는 이벤트 공간과, dPθ 있을 수 있는 일이다. t그가 X전폭적으로 지지하다

베이지안 예상 손실

베이지안 접근법에서 기대치는 모수 θ후방 분포 θ* 사용하여 계산된다.

그런 다음 예상되는 손실을 최소화하는 조치* a를 선택해야 한다.비록 이것이 빈도주의 위험을 사용하여 선택되는 것과 동일한 작용을 선택하게 되겠지만, 베이지안 접근법의 강조점은 실제 관측된 데이터에서 최적의 작용 선택에만 관심이 있는 반면, 가능한 모든 관측치의 함수인 실제 빈도주의 최적 의사결정 규칙을 선택하는 것은 다음과 같다.훨씬 더 어려운 문제

통계의 예

  • 스칼라 파라미터 ,에 대하여 출력 ,의 추정치인 결정함수 및 2차 손실함수(제곱 오차손실)
    위험 함수는 추정치의 평균 제곱 오차가 됩니다.
    평균 제곱 오차를 최소화하여 찾은 추정기는 사후 분포의 평균을 추정합니다.
  • 밀도 추정에서 미지의 파라미터는 확률밀도 그 자체입니다.손실 함수는 일반적으로 적절한 기능 공간에서 표준으로 선택됩니다.를 들어 L norm의 경우2,
    위험 함수는 평균 적분 제곱 오차가 됩니다.

불확실성 하에서의 경제적 선택

경제학에서 불확실성 하에서의 의사결정은 종종 기말 부와 같은 불확실한 관심 변수의 폰 노이만-모르겐슈타른 효용 함수를 사용하여 모델링된다.이 변수의 값은 불확실하기 때문에 효용 함수의 값도 불확실합니다.효용의 기대치가 최대화됩니다.

결정 규칙

결정 규칙은 최적성 기준을 사용하여 선택합니다.일반적으로 사용되는 기준은 다음과 같습니다.

  • Minimax: 최악의 손실이 가장 적은 결정 규칙을 선택합니다.즉, 최악의 경우(가능한 최대) 손실을 최소화합니다.
  • 불변성:불변성 요구 사항을 충족하는 결정 규칙을 선택합니다.
  • 평균 손실이 가장 낮은 결정 규칙을 선택합니다(즉, 손실 함수의 기대값을 최소화합니다).

손실 함수 선택

건전한 통계적 실천을 위해서는 특정 적용 문제의 맥락에서 경험하는 실제 허용 가능한 변동과 일치하는 추정기를 선택해야 한다.따라서 손실함수를 적용할 때, 적용된 문제를 모형화하기 위해 어떤 통계적 방법을 사용할지를 선택하는 것은 문제의 특정 [16]상황에서 잘못되어 경험하게 될 손실을 아는 것에 달려 있다.

일반적인 예로는 "위치"를 추정하는 것이 있습니다.일반적인 통계적 가정 하에서 평균 또는 평균은 제곱 오차 손실 함수에서 경험하는 기대 손실을 최소화하는 위치를 추정하기 위한 통계량이며, 중앙값은 절대 차분 손실 함수에서 경험하는 기대 손실을 최소화하는 추정치입니다.다른 일반적이지 않은 상황에서는 여전히 다른 추정치가 최적일 것이다.

경제학에서, 대리인이 위험 중립일 때, 목적 함수는 단순히 이익, 소득 또는 기말 부와 같은 화폐 수량의 기대 가치로 표현된다.위험을 회피하거나 위험을 좋아하는 에이전트의 경우, 손실은 효용 함수의 음수로 측정되며, 최적화하는 목적 함수는 효용의 기대치이다.

공중 보건 또는 안전 공학 분야의 사망률이나 질병률 등 다른 비용 측정이 가능하다.

대부분의 최적화 알고리즘에서는 글로벌하게 연속적이고 미분 가능한 손실 함수를 사용하는 것이 바람직합니다.

가장 일반적으로 사용되는 두 가지 손실 함수인 {{L)= 과()손실 L( a 입니다. 그러나 절대 손실은 { a에서 수 없다는 단점이 있습니다.손실의 제곱은 특이치에 의해 지배되는 경향이 있다는 단점이 있다. ( ( ){ \_ { L ( ) 최종 합은 특히 큰 몇 개의 평균값의 결과인 경향이 있다.a-value.

손실 함수의 선택은 임의적이지 않습니다.이는 매우 제한적이며 때로는 손실 함수가 바람직한 [17]특성에 의해 특징지어질 수 있습니다.예를 들어, 선택 원칙 중에는 i.d. 관측의 경우 대칭 통계 클래스의 완전성 요구, 완전한 정보의 원칙 등이 있다.

W. Edwards Deming과 Nassim Nicholas Taleb는 손실 함수를 선택하기 위한 유일한 근거는 경험적 실재성이어야 하며, 실제 손실은 종종 수학적으로 좋지 않고 미분, 연속, 대칭 등이 아니라고 주장한다.예를 들어, 비행기 게이트가 닫히기 전에 도착한 사람은 여전히 비행기를 만들 수 있지만, 그 후에 도착한 사람은 비행기를 만들 수 없다. 약간 늦게 도착하는 것보다 약간 늦게 도착하는 것이 훨씬 더 비용이 많이 든다.약물 투여에서, 너무 적은 약물의 비용은 효능의 결여일 수 있는 반면, 너무 많은 약물의 비용은 견딜 수 있는 독성일 수 있는데, 이는 비대칭성의 또 다른 예이다.교통, 배관, 보, 생태, 기후 등은 눈에 띄는 변화 없이 증가하는 부하나 응력을 견디다 역류하거나 치명적인 손상을 입을 수 있습니다.Deming과 Taleb는 이러한 상황은 실제 문제에서 흔히 볼 수 있으며, 아마도 전통적인 [18]매끄럽고 연속적이며 대칭적인 차이보다 더 흔할 것이라고 주장한다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Raschka, Sebastian (2019). Python machine learning : machine learning and deep learning with python, scikit-learn, and tensorflow 2. Birmingham: Packt Publishing, Limited. p. 37 - 38. ISBN 1-78995-829-6. OCLC 1135663723.
  2. ^ Wald, A. (1950). Statistical Decision Functions. Wiley.
  3. ^ Cramér, H. (1930). On the mathematical theory of risk. Centraltryckeriet.
  4. ^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome H. (2001). The Elements of Statistical Learning. Springer. p. 18. ISBN 0-387-95284-5.
  5. ^ Frisch, Ragnar (1969). "From utopian theory to practical applications: the case of econometrics". The Nobel Prize–Prize Lecture. Retrieved 15 February 2021.
  6. ^ Tangian, Andranik; Gruber, Josef (1997). Constructing Scalar-Valued Objective Functions. Proceedings of the Third International Conference on Econometric Decision Models: Constructing Scalar-Valued Objective Functions, University of Hagen, held in Katholische Akademie Schwerte September 5–8, 1995. Lecture Notes in Economics and Mathematical Systems. Vol. 453. Berlin: Springer. doi:10.1007/978-3-642-48773-6. ISBN 978-3-540-63061-6.
  7. ^ Tangian, Andranik; Gruber, Josef (2002). Constructing and Applying Objective Functions. Proceedings of the Fourth International Conference on Econometric Decision Models Constructing and Applying Objective Functions, University of Hagen, held in Haus Nordhelle, August, 28 — 31, 2000. Lecture Notes in Economics and Mathematical Systems. Vol. 510. Berlin: Springer. doi:10.1007/978-3-642-56038-5. ISBN 978-3-540-42669-1.
  8. ^ Tangian, Andranik (2002). "Constructing a quasi-concave quadratic objective function from interviewing a decision maker". European Journal of Operational Research. 141 (3): 608–640. doi:10.1016/S0377-2217(01)00185-0. S2CID 39623350.
  9. ^ Tangian, Andranik (2004). "A model for ordinally constructing additive objective functions". European Journal of Operational Research. 159 (2): 476–512. doi:10.1016/S0377-2217(03)00413-2. S2CID 31019036.
  10. ^ Tangian, Andranik (2004). "Redistribution of university budgets with respect to the status quo". European Journal of Operational Research. 157 (2): 409–428. doi:10.1016/S0377-2217(03)00271-6.
  11. ^ Tangian, Andranik (2008). "Multi-criteria optimization of regional employment policy: A simulation analysis for Germany". Review of Urban and Regional Development. 20 (2): 103–122. doi:10.1111/j.1467-940X.2008.00144.x.
  12. ^ Nikulin, M.S. (2001) [1994], "Risk of a statistical procedure", Encyclopedia of Mathematics, EMS Press
  13. ^ Berger, James O. (1985). Statistical decision theory and Bayesian Analysis (2nd ed.). New York: Springer-Verlag. Bibcode:1985sdtb.book.....B. ISBN 978-0-387-96098-2. MR 0804611.
  14. ^ DeGroot, Morris (2004) [1970]. Optimal Statistical Decisions. Wiley Classics Library. ISBN 978-0-471-68029-1. MR 2288194.
  15. ^ Robert, Christian P. (2007). The Bayesian Choice. Springer Texts in Statistics (2nd ed.). New York: Springer. doi:10.1007/0-387-71599-1. ISBN 978-0-387-95231-4. MR 1835885.
  16. ^ Pfanzagl, J. (1994). Parametric Statistical Theory. Berlin: Walter de Gruyter. ISBN 978-3-11-013863-4.
  17. ^ 손실함수 선택의 수학적 원리에 대한 자세한 정보는 책의 2장(및 참조)에 제시되어 있다.
  18. ^ Deming, W. Edwards (2000). Out of the Crisis. The MIT Press. ISBN 9780262541152.

추가 정보

  • Waud, Roger N. (1976). "Asymmetric Policymaker Utility Functions and Optimal Policy under Uncertainty". Econometrica. 44 (1): 53–66. doi:10.2307/1911380. JSTOR 1911380.