티코노프 정규화
Tikhonov regularization![]() |
시리즈의 일부 |
회귀 분석 |
---|
모델 |
견적 |
배경 |
안드레이 티코노프의 이름을 딴 티코노프 정규화는 병세가 좋지 않은 문제를 정규화하는 방법이다.능선 [a]회귀 분석이라고도 하는 선형 회귀 분석에서 다중 공선성 문제를 완화하는 데 특히 유용합니다. 선형 회귀 분석에서는 [1]모수가 많은 모형에서 일반적으로 발생합니다.일반적으로 이 방법은 허용 가능한 양의 편향을 대가로 매개변수 추정 문제에 개선된 효율성을 제공한다(편향-분산 트레이드오프 [2]참조).
가장 간단한 경우, 대각선에 양의 요소를 추가하여 조건 수를 줄임으로써 근싱귤러 모멘트 행렬 X)(\의 문제를 완화한다.일반적인 최소 제곱 추정기와 유사하게 단순 능선 추정기는 다음과 같이 주어진다.
서 y는 회귀 행렬 (\는 설계 행렬, \})는 항등 행렬,[3] 능선 파라미터0(\ 0은 모멘트 행렬의 대각선 이동 상수입니다.이 추정치는 라그랑지안으로 표현될 수 있는 제약 조건 β β {\의 최소 제곱 문제에 대한 해라는 것을 보여줄 수 있다.
즉, 는 제약조건의 라그랑주 승수에 불과하다는 것을 나타냅니다.으로 { \ }는 휴리스틱 기준에 따라 선택되므로 제약조건이 정확하게 충족되지 않습니다.특히 구속조건이 비결합성인 0(\=의 경우 능선 추정치는 일반 최소 제곱으로 감소한다.티코노프 정규화에 대한 보다 일반적인 접근방식은 다음과 같다.
역사
티코노프 정규화는 많은 다른 맥락에서 독립적으로 발명되었다.그것은 안드레이 티코노프와[4][5][6][7][8] 데이비드 L의 연구에서 적분 방정식에 적용되면서 널리 알려지게 되었다.필립스[9]일부 저자는 티코노프-필립스 정규화라는 용어를 사용한다.유한 차원 사례는 Arthur E에 의해 설명되었다. Hoerl은 통계적 접근법을 [10]취했고 Manus Foster는 이 방법을 Wiener-Kolmogorov([11]Kriging) 필터로 해석했다.Hoerl에 이어 통계 문헌에서는 능선 [12]회귀로 알려져 있으며, 항등 행렬의 대각선을 따라 형상의 이름을 따 명명되었다.
티코노프 정규화
알려진 AA 및 b(\displaystyle \mathbf 에 대해 다음과 같은[clarification needed] x(\를 구한다고 가정합니다.
표준 접근 방식은 일반 최소 제곱 선형 [clarification needed]회귀 분석입니다.그러나 x가 방정식을 만족하지 않거나 x가 하나 만족하지 못하는 경우(즉, 솔루션이 고유하지 않은 경우) 문제는 잘못된 것으로 간주됩니다.이러한 경우, 일반적인 최소 제곱 추정은 지나치게 결정되거나 종종 덜 결정되는 방정식의 시스템으로 이어진다.대부분의 현실현상은x \{를 b에 전방방향으로 로우패스 필터의 효과가 있으므로 역문제 해결 시 역매핑은 바람직하지 않은 앰프 성향을 갖는 하이패스 필터로 작용한다.ifing 노이즈(정방향 매핑에서 가장 작은 역방향 매핑에서 가장 큰 값/단수 값).또한 일반 최소 제곱은 모델을의 이전 로 하는 것이 아니라의null 공간에 있는의 재구성된 버전 의모든 요소를 암묵적으로 무효화합니다.일반 최소 제곱은x의 최소화를 추구합니다잔차 제곱의 합으로, 다음과 같이 간략하게 쓸 수 있습니다.
여기서 {\ \ \ \ 2)는 유클리드 노름입니다.
바람직한 특성을 가진 특정 솔루션을 우선시하기 위해 정규화 용어를 이 최소화에 포함할 수 있습니다.
적절하게 선택된 일부 티코노프 행렬(\에 대하여, 많은 경우, 이 행렬은 항등 행렬의 스칼라 (\displaystyle =\ I로 선택되며, 규격이 작은 해를 선호한다. 이를 L [13]정규화라고 한다2.다른 경우에는 기초 벡터가 거의 연속적이라고 생각되는 경우 하이패스 연산자(예를 들어 차분 연산자 또는 가중 푸리에 연산자)를 사용하여 평활성을 강제할 수 있다.이 정규화에 의해 문제의 컨디셔닝이 개선되어 직접적인 수치적 해결이 가능하게 됩니다.x로 되는 명시적 솔루션은 다음과 같습니다.
정규화의 효과는 행렬(\의 스케일에 따라 달라질 수 있으며, 0 \ 0)에 대해 (AAT)−1가 존재할 경우 정규화 최소값 용액으로 감소한다.
L2 정규화는 로지스틱 회귀 분석 또는 지원 벡터 [14]기계를 사용한 분류 및 행렬 [15]인수분해와 같은 선형 회귀 분석 외에도 많은 상황에서 사용됩니다.
일반화 티코노프 정규화
x{\ x에 일반 다변량 정규 분포와 데이터 오류의 경우 위의 경우와 같이 변수의 변환을 적용할 수 있습니다.마찬가지로 x x를 사용하여 최소화할 수 있습니다.
여기서 우리는 가중 노름 x Q {\ x} (Mahalanobis 거리와 비교)를 나타내기 위해 x Q 2{ \\ { }^ (Mahalanobis 거리와 비교)를 사용했다.베이지안 에서 PP)는 b b의 역공분산 행렬, 0은x(\ x의 기대치, Q Q는x(\ x의 역공분산 행렬입니다.다음으로 Tikhonov 매트릭스는 Q δ { Q= \ ^ { \ } \ }의 인수분해(예: 콜레스키 인수분해)로 주어지며 미백 필터로 간주된다.
이 일반화된 문제에는 최적의 해결 x (\ x이 있으며, 이 방법은 다음 공식을 사용하여 명시적으로 기술할 수 있습니다.
또는 동등하게
라브렌티예프 정규화
경우에 따라서는 Mikhail [16]Lavrentev가 제안한 A{\ (\ A예를 들어 A(\A)가 대칭 양의 유한인 . > ( \ A = { \ } )A -1 ( \ A - { - 의 에도 사용할 수
또는 상수항까지 동등하게
- + ) - 2 x + x 0){ x}(
이 최소화 문제에는 최적의 ( \ x * } )이 있습니다.이 해법은 다음 공식을 사용하여 명시적으로 기술할 수 있습니다.
- ( +) - ( + 0 x^{*}=(
A ⊤= -. { A } 인 문제의 해결책에 불과하다.
라브렌티예프 A+ (\A+는 티코노프 A+ {\ {\ {\ {\{\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ A + {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\ {\
힐베르트 공간의 정규화
일반적으로 이산적인 선형 조건 문제는 적분 방정식의 이산화에 기인하며, 원래의 무한 차원 맥락에서 티코노프 정규화를 공식화할 수 있다.위에서는 A A를 Hilbert 공간상의 콤팩트 연산자로 x x와b)를A( A의 및 범위 내의 요소로 할 수 있습니다. AA + ⊤ {\ display { A^ { * } A + \ ^ { \ } \ }는 자기접속형 반전 연산자가 됩니다.
특이치 분해 및 위너 필터와의 관계
I { \= \ I}일 때 특이값 분해를 이용하여 특수하게 분석할 수 있다.특이값 분해가 주어졌을 때
단수값 i \ _ { 이면 Tikhonov 정규화 용액은 다음과 같이 표현될 수 있다.
서 D D에는 대각 값이 있습니다.
다른 곳에서는 0입니다.이것은 정규화된 문제의 조건 번호에 대한 티코노프 매개변수의 영향을 보여준다.일반화 사례에서는 일반화 단수값 분해를 사용하여 [17]유사한 표현을 도출할 수 있다.
마지막으로 Wiener 필터와 관련이 있습니다.
여기서 Wiener의 는 fi + 2 {{} ={\^{입니다.{\q}는의
티코노프 인자의 결정
최적의 정규화 는 일반적으로 알려져 있지 않으며, 실제 문제에서는 종종 애드혹 방법에 의해 결정됩니다.가능한 접근법은 아래에 설명된 베이지안 해석에 의존합니다.다른 접근법에는 불일치 원리, 교차 검증, L-곡선 방법,[18] 제한된 최대우도 및 편향되지 않은 예측 위험 추정기가 포함된다.Grace Wahba는 생략된 교차 검증의[19][20] 관점에서 최적의 매개변수가
서RSS {는 나머지 제곱합이고, { \는 유효 자유도입니다.
앞의 SVD 분해를 사용하면 위의 식을 단순화할 수 있습니다.
그리고.
확률론적 공식과의 관계
역문제의 확률론적 공식은 (모든 불확실성이 가우스일 때) 모델 매개변수에 대한 선험적 불확실성을 나타내는 C M 스타일M})과 [21]관측된 매개변수에 대한 불확실성을 나타내는 공분산 D(\ 스타일D})를 도입한다.이 두 이 대각선 및 등방성인 특별한 경우, M M 2 \ C_} = \ _ {MI D 2 I \ {D} = \ _ 입니다=_ { / {\_ {。
베이지안 해석
이 정규화된 문제에 대한 해결책의 선택은 처음에는 인위적으로 보일 수 있고 행렬 δ는 다소 자의적으로 보일 수 있지만, 이 과정은 베이지안 관점에서 정당화될 수 있다.문제가 발생할 경우 고유한 솔루션을 얻기 위해 반드시 몇 가지 추가 전제를 도입해야 합니다.통계적으로 x x의 사전 확률 분포는 다변량 정규 분포로 간주될 수 있습니다.여기서 간단하게 하기 위해 다음과 같은 가정을 합니다.평균은 제로, 컴포넌트는 독립적입니다.컴포넌트의 표준편차는 x와 같습니다.데이터도 오류가 발생할 수 있으며 b(\ b의 오류도 평균과 표준편차가 0인 것으로 한다. b _ 이러한 가정 하에서 x)의 이전 분포를 고려할 때 티코노프 정규화 솔루션이 가장 가능성이 높은 솔루션이다.bayes의 [22]정리에 따르면, x
정규성의 가정이 오차의 균질성과 상관없는 가정으로 대체되고, 여전히 평균이 0이라고 가정한다면, 가우스-마코프 정리는 해답이 최소한의 비편향 선형 [23]추정기라는 것을 수반한다.
「 」를 참조해 주세요.
메모들
레퍼런스
- ^ Kennedy, Peter (2003). A Guide to Econometrics (Fifth ed.). Cambridge: The MIT Press. pp. 205–206. ISBN 0-262-61183-X.
- ^ Gruber, Marvin (1998). Improving Efficiency by Shrinkage: The James–Stein and Ridge Regression Estimators. Boca Raton: CRC Press. pp. 7–15. ISBN 0-8247-0156-9.
- ^ 의 선택에 대해서는, 을 참조해 주세요.
- ^ Tikhonov, Andrey Nikolayevich (1943). "Об устойчивости обратных задач" [On the stability of inverse problems]. Doklady Akademii Nauk SSSR. 39 (5): 195–198. Archived from the original on 2005-02-27.
- ^ Tikhonov, A. N. (1963). "О решении некорректно поставленных задач и методе регуляризации". Doklady Akademii Nauk SSSR. 151: 501–504.. 번역자:
- ^ Tikhonov, A. N.; V. Y. Arsenin (1977). Solution of Ill-posed Problems. Washington: Winston & Sons. ISBN 0-470-99124-0.
- ^ Tikhonov, Andrey Nikolayevich; Goncharsky, A.; Stepanov, V. V.; Yagola, Anatolij Grigorevic (30 June 1995). Numerical Methods for the Solution of Ill-Posed Problems. Netherlands: Springer Netherlands. ISBN 079233583X. Retrieved 9 August 2018.
- ^ Tikhonov, Andrey Nikolaevich; Leonov, Aleksandr S.; Yagola, Anatolij Grigorevic (1998). Nonlinear ill-posed problems. London: Chapman & Hall. ISBN 0412786605. Retrieved 9 August 2018.
- ^ Phillips, D. L. (1962). "A Technique for the Numerical Solution of Certain Integral Equations of the First Kind". Journal of the ACM. 9: 84–97. doi:10.1145/321105.321114. S2CID 35368397.
- ^ Hoerl, Arthur E. (1962). "Application of Ridge Analysis to Regression Problems". Chemical Engineering Progress. 58 (3): 54–59.
- ^ Foster, M. (1961). "An Application of the Wiener-Kolmogorov Smoothing Theory to Matrix Inversion". Journal of the Society for Industrial and Applied Mathematics. 9 (3): 387–392. doi:10.1137/0109031.
- ^ Hoerl, A. E.; R. W. Kennard (1970). "Ridge regression: Biased estimation for nonorthogonal problems". Technometrics. 12 (1): 55–67. doi:10.1080/00401706.1970.10488634.
- ^ Ng, Andrew Y. (2004). Feature selection, L1 vs. L2 regularization, and rotational invariance (PDF). Proc. ICML.
- ^ R.-E. Fan; K.-W. Chang; C.-J. Hsieh; X.-R. Wang; C.-J. Lin (2008). "LIBLINEAR: A library for large linear classification". Journal of Machine Learning Research. 9: 1871–1874.
- ^ Guan, Naiyang; Tao, Dacheng; Luo, Zhigang; Yuan, Bo (2012). "Online nonnegative matrix factorization with robust stochastic approximation". IEEE Transactions on Neural Networks and Learning Systems. 23 (7): 1087–1099. doi:10.1109/TNNLS.2012.2197827. PMID 24807135. S2CID 8755408.
- ^ Lavrentiev, M. M. (1967). Some Improperly Posed Problems of Mathematical Physics. New York: Springer.
- ^ Hansen, Per Christian (Jan 1, 1998). Rank-Deficient and Discrete Ill-Posed Problems: Numerical Aspects of Linear Inversion (1st ed.). Philadelphia, USA: SIAM. ISBN 9780898714036.
- ^ P. C. Hansen, "L-곡선과 역문제의 수치적 처리에서의 그 사용", [1]
- ^ Wahba, G. (1990). "Spline Models for Observational Data". CBMS-NSF Regional Conference Series in Applied Mathematics. Society for Industrial and Applied Mathematics. Bibcode:1990smod.conf.....W.
- ^ Golub, G.; Heath, M.; Wahba, G. (1979). "Generalized cross-validation as a method for choosing a good ridge parameter" (PDF). Technometrics. 21 (2): 215–223. doi:10.1080/00401706.1979.10489751.
- ^ Tarantola, Albert (2005). Inverse Problem Theory and Methods for Model Parameter Estimation (1st ed.). Philadelphia: Society for Industrial and Applied Mathematics (SIAM). ISBN 0898717922. Retrieved 9 August 2018.
- ^ Vogel, Curtis R. (2002). Computational methods for inverse problems. Philadelphia: Society for Industrial and Applied Mathematics. ISBN 0-89871-550-4.
- ^ Amemiya, Takeshi (1985). Advanced Econometrics. Harvard University Press. pp. 60–61. ISBN 0-674-00560-0.
추가 정보
- Gruber, Marvin (1998). Improving Efficiency by Shrinkage: The James–Stein and Ridge Regression Estimators. Boca Raton: CRC Press. ISBN 0-8247-0156-9.
- Kress, Rainer (1998). "Tikhonov Regularization". Numerical Analysis. New York: Springer. pp. 86–90. ISBN 0-387-98408-9.
- Press, W. H.; Teukolsky, S. A.; Vetterling, W. T.; Flannery, B. P. (2007). "Section 19.5. Linear Regularization Methods". Numerical Recipes: The Art of Scientific Computing (3rd ed.). New York: Cambridge University Press. ISBN 978-0-521-88068-8.
- Saleh, A. K. Md. Ehsanes; Arashi, Mohammad; Kibria, B. M. Golam (2019). Theory of Ridge Regression Estimation with Applications. New York: John Wiley & Sons. ISBN 978-1-118-64461-4.
- Taddy, Matt (2019). "Regularization". Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions. New York: McGraw-Hill. pp. 69–104. ISBN 978-1-260-45277-8.