티코노프 정규화

Tikhonov regularization

안드레이 티코노프의 이름을 딴 티코노프 정규화병세가 좋지 않은 문제를 정규화하는 방법이다.능선 [a]회귀 분석이라고도 하는 선형 회귀 분석에서 다중 공선성 문제를 완화하는 데 특히 유용합니다. 선형 회귀 분석에서는 [1]모수가 많은 모형에서 일반적으로 발생합니다.일반적으로 이 방법은 허용 가능한 의 편향을 대가로 매개변수 추정 문제에 개선된 효율성을 제공한다(편향-분산 트레이드오프 [2]참조).

가장 간단한 경우, 대각선에 양의 요소를 추가하여 조건 수를 줄임으로써 근싱귤러 모멘트 행렬 X)(\ 문제를 완화한다.일반적인 최소 제곱 추정기와 유사하게 단순 능선 추정기는 다음과 같이 주어진다.

서 y 회귀 행렬 (\ 설계 행렬, \})는 항등 행렬,[3] 능선 파라미터0(\ 0 모멘트 행렬의 대각선 이동 상수입니다.이 추정치는 라그랑지안으로 표현될 수 있는 제약 조건 β β {\의 최소 제곱 문제에 대한 해라는 것을 보여줄 수 있다.

즉, 제약조건의 라그랑주 승수에 불과하다는 것을 나타냅니다.으로 { \ }는 휴리스틱 기준에 따라 선택되므로 제약조건이 정확하게 충족되지 않습니다.특히 구속조건이 비결합성 0(\=의 경우 능선 추정치는 일반 최소 제곱으로 감소한다.티코노프 정규화에 대한 보다 일반적인 접근방식은 다음과 같다.

역사

티코노프 정규화는 많은 다른 맥락에서 독립적으로 발명되었다.그것은 안드레이 티코노프[4][5][6][7][8] 데이비드 L의 연구에서 적분 방정식에 적용되면서 널리 알려지게 되었다.필립스[9]일부 저자는 티코노프-필립스 정규화라는 용어를 사용한다.유한 차원 사례는 Arthur E에 의해 설명되었다. Hoerl은 통계적 접근법을 [10]취했고 Manus Foster는 이 방법을 Wiener-Kolmogorov([11]Kriging) 필터로 해석했다.Hoerl에 이어 통계 문헌에서는 능선 [12]회귀로 알려져 있으며, 항등 행렬의 대각선을 따라 형상의 이름을 따 명명되었다.

티코노프 정규화

알려진 AA b(\displaystyle \mathbf 에 대해 다음과 같은[clarification needed] x(\ 구한다고 가정합니다.

표준 접근 방식은 일반 최소 제곱 선형 [clarification needed]회귀 분석입니다.그러나 x 방정식을 만족하지 않거나 x 하나 만족하지 못하는 경우(즉, 솔루션이 고유하지 않은 경우) 문제는 잘못된 것으로 간주됩니다.이러한 경우, 일반적인 최소 제곱 추정은 지나치게 결정되거나 종종 덜 결정되는 방정식의 시스템으로 이어진다.대부분의 현실현상은x \{ b 전방방향으로 로우패스 필터의 효과가 있으므로 역문제 해결 시 역매핑은 바람직하지 않은 앰프 성향을 갖는 하이패스 필터로 작용한다.ifing 노이즈(정방향 매핑에서 가장 작은 역방향 매핑에서 가장 큰 값/단수 값).또한 일반 최소 제곱은 모델을의 이전 하는 것이 아니라null 공간에 있는의 재구성된 버전 모든 요소를 암묵적으로 무효화합니다.일반 최소 제곱은x의 최소화를 추구합니다잔차 제곱의 합으로, 다음과 같이 간략하게 쓸 수 있습니다.

여기서 {\ \ \ \ 2)는 유클리드 노름입니다.

바람직한 특성을 가진 특정 솔루션을 우선시하기 위해 정규화 용어를 이 최소화에 포함할 수 있습니다.

적절하게 선택된 일부 티코노프 행렬(\에 대하여, 많은 경우, 이 행렬은 항등 행렬의 스칼라 (\displaystyle =\ I로 선택되며, 규격이 작은 를 선호한다. 이를 L [13]정규화라고 한다2.다른 경우에는 기초 벡터가 거의 연속적이라고 생각되는 경우 하이패스 연산자(를 들어 차분 연산자 또는 가중 푸리에 연산자)를 사용하여 평활성을 강제할 수 있다.이 정규화에 의해 문제의 컨디셔닝이 개선되어 직접적인 수치적 해결이 가능하게 됩니다.x되는 명시적 솔루션은 다음과 같습니다.

정규화의 효과는 행렬(\의 스케일에 따라 달라질 수 있으며, 0 \ 0)에 대해 (AAT)−1가 존재할 경우 정규화 최소값 용액으로 감소한다.

L2 정규화는 로지스틱 회귀 분석 또는 지원 벡터 [14]기계를 사용분류 및 행렬 [15]인수분해와 같은 선형 회귀 분석 외에도 많은 상황에서 사용됩니다.

일반화 티코노프 정규화

x{\ x 일반 다변량 정규 분포와 데이터 오류의 경우 위의 경우와 같이 변수의 변환을 적용할 수 있습니다.마찬가지로 x x 사용하여 최소화할 수 있습니다.

여기서 우리는 가중 노름 x Q {\ x} (Mahalanobis 거리와 비교)를 나타내기 위해 x Q 2{ \\ { }^ (Mahalanobis 거리와 비교)를 사용했다.베이지안 에서 PP)는 b b역공분산 행렬, 0x(\ x의 기대치, Q Qx(\ x의 역공분산 행렬입니다.다음으로 Tikhonov 매트릭스는 Q δ { Q= \ ^ { \ } \ }의 인수분해(예: 콜레스키 인수분해)로 주어지며 미백 필터로 간주된다.

이 일반화된 문제에는 최적의 해결 x (\ x 있으며, 이 방법은 다음 공식을 사용하여 명시적으로 기술할 수 있습니다.

또는 동등하게

라브렌티예프 정규화

경우에 따라서는 Mikhail [16]Lavrentev가 제안 A{\ (\ A예를 들어 A(\A)가 대칭 양의 유한인 . > ( \ A = { \ } )A -1 ( \ A - { - 에도 사용할 수

또는 상수항까지 동등하게

+ - 2 x + x 0){ x}(

이 최소화 문제에는 최적의 ( \ x * } )이 있습니다.이 해법은 다음 공식을 사용하여 명시적으로 기술할 수 있습니다.

( +) - ( + 0 x^{*}=(

A = -. { A } 문제의 해결책에 불과하다.

라브렌티예프 A+ (\A+ 티코노프 A+ {\ {\ {\ {\{\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ A + {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\

힐베르트 공간의 정규화

일반적으로 이산적인 선형 조건 문제는 적분 방정식의 이산화에 기인하며, 원래의 무한 차원 맥락에서 티코노프 정규화를 공식화할 수 있다.위에서는 A A Hilbert 공간상콤팩트 연산자로 x xb)를A( A 및 범위 내의 요소로 할 수 있습니다. AA + {\ display { A^ { * } A + \ ^ { \ } \ }는 자기접속형 반전 연산자가 됩니다.

특이치 분해 및 위너 필터와의 관계

I { \= \ I}일 때 특이값 분해를 이용하여 특수하게 분석할 수 있다.특이값 분해가 주어졌을 때

단수값 i \ _ { 이면 Tikhonov 정규화 용액은 다음과 같이 표현될 수 있다.

서 D D에는 대각 값이 있습니다.

다른 곳에서는 0입니다.이것은 정규화된 문제의 조건 번호에 대한 티코노프 매개변수의 영향을 보여준다.일반화 사례에서는 일반화 단수값 분해를 사용하여 [17]유사한 표현을 도출할 수 있다.

마지막으로 Wiener 필터와 관련이 있습니다.

여기서 Wiener의 는 fi + 2 {{} ={\^{입니다.{\q}는

티코노프 인자의 결정

최적의 정규화 일반적으로 알려져 있지 않으며, 실제 문제에서는 종종 애드혹 방법에 의해 결정됩니다.가능한 접근법은 아래에 설명된 베이지안 해석에 의존합니다.다른 접근법에는 불일치 원리, 교차 검증, L-곡선 방법,[18] 제한된 최대우도 및 편향되지 않은 예측 위험 추정기가 포함된다.Grace Wahba는 생략된 교차 검증[19][20] 관점에서 최적의 매개변수가

RSS { 나머지 제곱합이고, { \ 유효 자유도입니다.

앞의 SVD 분해를 사용하면 위의 식을 단순화할 수 있습니다.

그리고.

확률론적 공식과의 관계

역문제의 확률론적 공식은 (모든 불확실성이 가우스일 때) 모델 매개변수에 대한 선험적 불확실성을 나타내는 C M 스타일M})과 [21]관측된 매개변수에 대한 불확실성을 나타내는 공분산 D(\ 스타일D})를 도입한다.이 두 이 대각선 및 등방성인 특별한 경우, M M 2 \ C_} = \ _ {MI D 2 I \ {D} = \ _ 입니다=_ { / {\_ {

베이지안 해석

이 정규화된 문제에 대한 해결책의 선택은 처음에는 인위적으로 보일 수 있고 행렬 δ 다소 자의적으로 보일 수 있지만, 이 과정은 베이지안 관점에서 정당화될 수 있다.문제가 발생할 경우 고유한 솔루션을 얻기 위해 반드시 몇 가지 추가 전제를 도입해야 합니다.통계적으로 x x 사전 확률 분포는 다변량 정규 분포로 간주될 수 있습니다.여기서 간단하게 하기 위해 다음과 같은 가정을 합니다.평균은 제로, 컴포넌트는 독립적입니다.컴포넌트의 표준편차는 x와 같습니다.데이터도 오류가 발생할 수 있으며 b(\ b 오류도 평균과 표준편차가 0인 으로 한다. b _ 이러한 가정 하에서 x)의 이전 분포를 고려할 때 티코노프 정규화 솔루션이 가장 가능성이 높은 솔루션이다.bayes의 [22]정리에 따르면, x

정규성의 가정오차균질성과 상관없는 가정으로 대체되고, 여전히 평균이 0이라고 가정한다면, 가우스-마코프 정리는 해답이 최소한의 비편향 선형 [23]추정기라는 것을 수반한다.

「 」를 참조해 주세요.

메모들

  1. ^ 통계학에서, 방법은 능선 회귀로 알려져 있고, 기계학습에서 그 수정은 체중 감소로 알려져 있으며, 여러 독립적인 발견을 통해, 그것은 또한 Tikhonov-Miller 방법, Phillips로 다양하게 알려져 있다.–Twomey법, 구속선형 반전법, L정규화법2선형정규화법.이것은 비선형 최소 제곱 문제에 대한 Levenberg-Marquardt 알고리즘과 관련이 있습니다.

레퍼런스

  1. ^ Kennedy, Peter (2003). A Guide to Econometrics (Fifth ed.). Cambridge: The MIT Press. pp. 205–206. ISBN 0-262-61183-X.
  2. ^ Gruber, Marvin (1998). Improving Efficiency by Shrinkage: The James–Stein and Ridge Regression Estimators. Boca Raton: CRC Press. pp. 7–15. ISBN 0-8247-0156-9.
  3. ^ 선택에 대해서는, 을 참조해 주세요.
  4. ^ Tikhonov, Andrey Nikolayevich (1943). "Об устойчивости обратных задач" [On the stability of inverse problems]. Doklady Akademii Nauk SSSR. 39 (5): 195–198. Archived from the original on 2005-02-27.
  5. ^ Tikhonov, A. N. (1963). "О решении некорректно поставленных задач и методе регуляризации". Doklady Akademii Nauk SSSR. 151: 501–504.. 번역자:
  6. ^ Tikhonov, A. N.; V. Y. Arsenin (1977). Solution of Ill-posed Problems. Washington: Winston & Sons. ISBN 0-470-99124-0.
  7. ^ Tikhonov, Andrey Nikolayevich; Goncharsky, A.; Stepanov, V. V.; Yagola, Anatolij Grigorevic (30 June 1995). Numerical Methods for the Solution of Ill-Posed Problems. Netherlands: Springer Netherlands. ISBN 079233583X. Retrieved 9 August 2018.
  8. ^ Tikhonov, Andrey Nikolaevich; Leonov, Aleksandr S.; Yagola, Anatolij Grigorevic (1998). Nonlinear ill-posed problems. London: Chapman & Hall. ISBN 0412786605. Retrieved 9 August 2018.
  9. ^ Phillips, D. L. (1962). "A Technique for the Numerical Solution of Certain Integral Equations of the First Kind". Journal of the ACM. 9: 84–97. doi:10.1145/321105.321114. S2CID 35368397.
  10. ^ Hoerl, Arthur E. (1962). "Application of Ridge Analysis to Regression Problems". Chemical Engineering Progress. 58 (3): 54–59.
  11. ^ Foster, M. (1961). "An Application of the Wiener-Kolmogorov Smoothing Theory to Matrix Inversion". Journal of the Society for Industrial and Applied Mathematics. 9 (3): 387–392. doi:10.1137/0109031.
  12. ^ Hoerl, A. E.; R. W. Kennard (1970). "Ridge regression: Biased estimation for nonorthogonal problems". Technometrics. 12 (1): 55–67. doi:10.1080/00401706.1970.10488634.
  13. ^ Ng, Andrew Y. (2004). Feature selection, L1 vs. L2 regularization, and rotational invariance (PDF). Proc. ICML.
  14. ^ R.-E. Fan; K.-W. Chang; C.-J. Hsieh; X.-R. Wang; C.-J. Lin (2008). "LIBLINEAR: A library for large linear classification". Journal of Machine Learning Research. 9: 1871–1874.
  15. ^ Guan, Naiyang; Tao, Dacheng; Luo, Zhigang; Yuan, Bo (2012). "Online nonnegative matrix factorization with robust stochastic approximation". IEEE Transactions on Neural Networks and Learning Systems. 23 (7): 1087–1099. doi:10.1109/TNNLS.2012.2197827. PMID 24807135. S2CID 8755408.
  16. ^ Lavrentiev, M. M. (1967). Some Improperly Posed Problems of Mathematical Physics. New York: Springer.
  17. ^ Hansen, Per Christian (Jan 1, 1998). Rank-Deficient and Discrete Ill-Posed Problems: Numerical Aspects of Linear Inversion (1st ed.). Philadelphia, USA: SIAM. ISBN 9780898714036.
  18. ^ P. C. Hansen, "L-곡선과 역문제의 수치적 처리에서의 그 사용", [1]
  19. ^ Wahba, G. (1990). "Spline Models for Observational Data". CBMS-NSF Regional Conference Series in Applied Mathematics. Society for Industrial and Applied Mathematics. Bibcode:1990smod.conf.....W.
  20. ^ Golub, G.; Heath, M.; Wahba, G. (1979). "Generalized cross-validation as a method for choosing a good ridge parameter" (PDF). Technometrics. 21 (2): 215–223. doi:10.1080/00401706.1979.10489751.
  21. ^ Tarantola, Albert (2005). Inverse Problem Theory and Methods for Model Parameter Estimation (1st ed.). Philadelphia: Society for Industrial and Applied Mathematics (SIAM). ISBN 0898717922. Retrieved 9 August 2018.
  22. ^ Vogel, Curtis R. (2002). Computational methods for inverse problems. Philadelphia: Society for Industrial and Applied Mathematics. ISBN 0-89871-550-4.
  23. ^ Amemiya, Takeshi (1985). Advanced Econometrics. Harvard University Press. pp. 60–61. ISBN 0-674-00560-0.

추가 정보