정규화(수학)
Regularization (mathematics)![]() | 이 기사에서는 관련 주제에 대해 고도로 전문화된 한 가지 측면만 설명합니다.(2020년 11월) |
시리즈의 일부 |
기계 학습 및 데이터 마이닝 |
---|
![]() |
수학, 통계학, [1]금융학, 컴퓨터 과학, 특히 기계 학습과 역문제에서 정규화는 결과 답을 더 단순하게 바꾸는 과정이다.잘못된 위치에 있는 문제에 대한 결과를 얻거나 [2]과적합을 방지하기 위해 자주 사용됩니다.
정규화 순서는 여러 가지 방법으로 나눌 수 있지만, 특히 다음과 같은 한 가지 설명이 도움이 됩니다.
- 명시적 정규화는 최적화 문제에 용어를 명시적으로 추가할 때마다 정규화하는 것입니다.이러한 용어는 이전 단계, 패널티 또는 제약 조건일 수 있습니다.명시적 정규화는 일반적으로 잘못된 최적화 문제에 사용됩니다.정규화 기간(패널티)은 최적화 기능에 비용을 부과하여 최적의 솔루션을 고유하게 만듭니다.
- 암묵적 정규화는 다른 모든 정규화 형식입니다.여기에는 조기 중지, 강력한 손실 함수 사용, 특이치 폐기 등이 포함됩니다.암묵적 정규화는 기본적으로 심층 신경망을 훈련하기 위한 확률적 경사 강하와 앙상블 방법(랜덤 포레스트 및 경사 부스트 트리 등)을 포함한 현대 기계 학습 접근법에 흔하다.
명시적 정규화에서는 문제 또는 모델과 무관하게 측정의 우도에 해당하는 데이터 항과 이전 모델에 해당하는 정규화 항이 항상 있습니다.베이지안 통계를 사용하여 두 가지 정보를 결합함으로써 두 가지 정보 소스를 모두 포함하는 후부를 계산할 수 있으며, 따라서 추정 과정을 안정화할 수 있다.두 가지 목표를 모두 교환함으로써 데이터에 더욱 중독되거나 일반화를 시행(과잉 방지를 위해)하는 방법을 선택할 수 있습니다.모든 가능한 정규화를 다루는 전체 연구 부서가 있다.작업 흐름은 보통 특정 정규화를 시도하고 그 정규화에 대응하는 확률 밀도를 계산하여 선택을 정당화하는 것입니다.그것은 또한 상식과 직관에 의해 신체적으로 동기부여가 될 수 있다.
기계학습에서 데이터 항은 훈련 데이터에 대응하며 정규화는 모델의 선택 또는 알고리즘의 수정 중 하나입니다.이는 항상 일반화 오류, 즉 교육 데이터가 [3]아닌 평가 세트에 있는 교육 모델의 오류 점수를 줄이기 위한 것입니다.
정규화의 초기 사용 중 하나는 최소 제곱법과 관련된 티코노프 정규화이다.
분류
(유한 데이터 집합에서) 분류자의 경험적 학습은 항상 충분히 결정되지 않은 문제이다. 는 x 1,2,. \ }, ...의 만 제시하면x {\ x의 함수를 추론하려고 하기 때문이다.
정규화 항또는 정규화기) () {R ( 이 손실 함수에 추가됩니다.
여기서V {\ V는 라벨이 때 f {f의 예측 비용을 나타내는 기본 손실 함수이며, {\ \는 용어의 중요성을 제어하는 파라미터입니다.) { R은 일반적으로 f{ f의 복잡성에 대한 패널티를 부과하기 위해 선택된다. 사용된 복잡성의 구체적인 개념에는 매끄러운 정도에 대한 제한과 벡터 공간 [4][page needed]노름에 대한 한계가 포함된다.
정규화를 위한 이론적 근거는 Occam의 면도칼을 용액에 적용하려는 것입니다(위 그림에서 보듯이 녹색 기능, 즉 단순한 것이 선호될 수 있습니다).베이지안 관점에서, 많은 정규화 기법은 모델 [5]모수에 특정한 사전 분포를 부과하는 것과 일치한다.
정규화는 보다 단순한 모델을 학습하는 것, 모델이 희박해지도록 유도하는 것, 학습 문제에[clarification needed] 그룹 구조를 도입하는 것 등 다양한 목적에 도움이 될 수 있다.
같은 생각이 과학의 많은 분야에서 일어났다.적분 방정식에 적용되는 단순한 정규화 형태(티코노프 정규화)는 본질적으로 데이터의 적합과 해법의 노름의 감소 사이의 트레이드오프입니다.최근에는 전변동 정규화를 포함한 비선형 정규화 방법이 인기를 끌고 있다.
일반화
정규화는 학습된 모델의 일반화 가능성을 개선하기 위한 기술로 동기 부여될 수 있습니다.
이 학습 문제의 목적은 가능한 모든 입력 및 레이블에서 예상되는 오차를 최소화하는 결과(레이블)를 적합시키거나 예측하는 함수를 찾는 것입니다.f_}) 의 예상되는 오류는 다음과 같습니다.
서 X X와 Y Y는 각각 입력 x(\ x 및 y(\ y의 도메인입니다.
일반적으로 학습 문제에서는 일부 노이즈로 측정되는 입력 데이터와 라벨의 하위 집합만 사용할 수 있습니다.따라서 예상되는 오차는 측정할 수 없으며 사용 가능한 가장 좋은 대체 오차는 사용 에 대한 경험 오차입니다.
이용 가능한 함수 공간(공식적으로 재현 커널 힐버트 공간)의 복잡성에 대한 경계가 없다면, 대리 경험적 오류에 제로 손실을 초래하는 모델을 학습할 것이다.노이즈로 측정(: xi 스타일 한 경우, 이 모델은 과적합으로 인해 불량한 예상 오류를 표시할 수 있습니다.정규화는 모델 구축에 사용되는 기능 공간의 특정 영역을 탐색하기 위한 패널티를 도입하여 일반화를 개선할 수 있습니다.
티코노프 정규화
이 기술들은 적분 방정식에 정규화를 적용하고 다른 많은 분야에서 중요한 공헌을 한 안드레이 니콜라예비치 티호노프의 이름을 딴 것이다.
f( ) ( \ f ( x ) \ x)로 특징지어지는 f { \ f}를 학습할 때 손실 표현에 L ( \ ) - w의 규범을 추가하여 sma를 선호한다.규범에 얽힌 규범티코노프 정규화는 가장 일반적인 형태 중 하나이다.이것은 능선 회귀로도 알려져 있습니다.다음과 같이 표현됩니다.
- w V ( ^ , y^) + w ( \ _ { } \ _ { i} { } ( { \ { { } \ w , { \ { } + \ { } ) 、 { n } } 、 { n } 、 { n } }
서( i, ) , ^ 、1 i \ ( { \ { { } , { \ { { i} , 1 \ i \, ) 。
일반 함수의 경우, 그 재현 커널 힐버트 공간에서의 함수의 규범은 다음과 같다.
은 구별이 가능하기 때문에 경사 강하로 학습을 진행할 수 있습니다.
티코노프 정규화 최소 제곱
최소 제곱 손실 함수와 티코노프 정규화의 학습 문제는 분석적으로 해결할 수 있습니다.매트릭스 형식으로 작성된 ww는 ww에 손실함수의 기울기가 0인 w이다.
- ^ ( ^ -Y) + {\ 0 { + n \ w} (1차 조건)
최적화 문제를 구성함으로써 ww의 값이 손실 함수에 더 큰 값을 제공합니다.이는 2차 도함수 _를 조사함으로써 확인할 수 있습니다.
훈련 중 이 알고리즘은 O( + ) { O ( 3} + nd2} } } 시간이 .이 용어는 각각 행렬 반전 및 TX (\ X에 해당합니다.테스트에는 O d { O시간이 됩니다.
얼리 스톱
조기 정지는 시간적 정규화로 볼 수 있습니다.직관적으로, 경사 하강과 같은 훈련 절차는 반복이 증가함에 따라 점점 더 복잡한 기능을 학습하는 경향이 있다.시간에 따라 정규화함으로써 모델의 복잡성을 제어할 수 있어 일반화를 향상시킬 수 있습니다.
조기 정지는 훈련용 데이터 세트, 검증용 통계적으로 독립된 데이터 세트 및 테스트용 데이터 세트를 사용하여 구현됩니다.검증 세트의 성능이 더 이상 향상되지 않을 때까지 모델을 교육한 다음 테스트 세트에 적용합니다.
최소 제곱에 대한 이론적 동기 부여
가역행렬 A에 대한 노이만 급수의 유한 근사치를 고려합니다. 여기서I - \ \ I - \ <:
이것은 노름이 1보다 작음을 보장하기 위해 θ를 도입할 경우 비정규화 최소 제곱의 분석해 근사치를 구할 수 있다.
정규화되지 않은 최소 제곱 학습 문제에 대한 정확한 해법은 경험적 오류를 최소화하지만 실패할 수 있습니다.상기 알고리즘의 유일한 자유 파라미터인T를 제한함으로써 문제는 시간에 따라 정규화되어 일반화가 개선될 수 있습니다.
위의 알고리즘은 경험적 위험에 대한 경사 강하 반복 횟수를 제한하는 것과 같다.
경사 강하 업데이트:
베이스 케이스는 사소합니다.유도 케이스는 다음과 같이 증명됩니다.
희소성을 위한 정규화 장치
p {\ p의 사전 j\ _가 주어지고 함수 공간의 함수가 다음과 같이 표현된다고 가정합니다.
w에 희소성 제한을 적용하면 보다 단순하고 해석 가능한 모델을 만들 수 있습니다.이것은 컴퓨터 생물학과 같은 많은 실제 응용 프로그램에서 유용합니다.예를 들어, 예측력을 최대화하는 동시에 의료 테스트 비용을 최소화하기 위해 질병에 대한 간단한 예측 테스트를 개발하는 것입니다.
적절한 희소성 제약은 0 normw0(\입니다.이것은w(\ w에서 0이 아닌 요소의 수로 정의됩니다., L0(\}) 학습 문제를 해결하는 것은 [6]NP-hard로 판명되었습니다.
1 L_{1}) 규범 참조)을 하여 볼록 이완을 통해 의 0 L_}) 규범을 근사할 수 있습니다 은 희소성을 유도한다는 것을 알 수 있다.최소 제곱의 경우, 이 문제는 통계학에서는 LASSO로 알려져 있으며 신호 처리에서는 기본 추구가 이루어집니다.
1 정규화로 인해 고유하지 않은 솔루션이 발생할 수 있습니다.그림에는 가능한 용액의 공간이 45도 선상에 놓여 있는 경우의 간단한 예가 제시되어 있습니다.이 문제는 특정 어플리케이션에서 발생할 수 있으며 L 과 L 정규화를하여 해결합니다.이 정규화는 다음과 같은 형태로 이루어집니다. 조합
탄력적 순 정규화는 그룹화 효과가 있는 경향이 있으며, 여기서 상관된 입력 피쳐에 동일한 가중치가 할당됩니다.
탄력적 네트 정규화는 실제로 일반적으로 사용되며 많은 기계 학습 라이브러리에 구현됩니다.
근위법
은 NP-hard 문제를 일으키지 않지만,({L_}) 은 볼록하지만 x = 0의 꼬임 때문에 엄밀하게 구분할 수 없다. L_}}) 정규 학습 문제를 데 서브그레이디언트 방법을 사용할 수 있다.그러나 근위법에 의해 보다 빠른 수렴을 달성할 수 있다.
({displaystyle F가 연속적이며 가능하며 연속 구배(최소 제곱 손실 함수 등)와 R가 적절한 문제 w () + ( w 문제는 다음과 같습니다.먼저 근위 연산자를 정의합니다.
그리고 반복한다.
근위부 방법은 반복적으로 경사 강하를 수행한 다음 R{\ R에서 허용된 공간에 결과를 투영합니다.
R R이 정규화기인 경우 연산자는 소프트 임계값 연산자와 동등합니다.
이것에 의해, 효율적인 연산이 가능하게 됩니다.
겹치지 않는 그룹 희소성
특징 그룹은 희소성 제약에 의해 정규화할 수 있으며, 이는 특정 사전 지식을 최적화 문제에 표현하는 데 유용합니다.
기존 그룹이 겹치지 않는 선형 모델의 경우 정규화기를 정의할 수 있습니다.
- ( ) g G 、 , \ R ( w ) = \ { G ( ) } 。서 2 ( w j ) { style \ { } { rt = { } _ { rt }
이는 각 그룹의 멤버에 대한(\ 에 대한 정규화를 유도한 것으로 볼 수 있으며, 그룹에는 }) 규범에 것입니다.
이 문제는 근위법(근위 연산자)으로 해결할 수 있습니다. 여기서 근위 연산자는 블록 단위의 소프트 임계값 홀딩 함수입니다.
중복되는 그룹 희소성
중복되지 않는 그룹 희소성에 대해 설명된 알고리즘은 특정 상황에서 그룹이 중복되는 경우에 적용할 수 있습니다.이로 인해 모든 요소가 0인 그룹과 0이 아닌 그룹과 0이 아닌 그룹이 발생할 수 있습니다.
그룹 구조를 유지할 필요가 있는 경우는, 새로운 레귤러 라이저를 정의할 수 있습니다.
g에 대해 w는 로 정의되며 w(\ w_ 및 w w_})의 그룹 g에 wdisplaystyle g의 제한은 w w_{와 스타일은 0입니다.레귤레이터는 w를 부품으로 분해하는 최적의 방법을 찾습니다.여러 그룹에 존재하는 모든 요소를 복제하는 것으로 볼 수 있습니다.이 정규화기의 학습 문제는 복잡한 근위법으로도 해결할 수 있습니다.근위 연산자는 닫힌 형태로 계산될 수 없지만 효과적으로 반복적으로 풀 수 있으며 근위법 반복 내에서 내부 반복을 유도한다.
준지도 학습을 위한 정규화 장치
라벨 수집 비용이 입력 예보다 높을 경우 반지도 학습이 유용할 수 있습니다.정규화기는 비감독 훈련 샘플의 구조를 존중하는 모델을 학습하도록 학습 알고리즘을 안내하도록 설계되었다.대칭 무게 W W가 지정되면 정규화기를 정의할 수 있습니다.
가 }) 및 j 포인트의 거리 메트릭의 결과를 하는 경우( f가 바람직합니다.이 레귤러라이저는 이 직감을 포착하여 다음과 같습니다.
- ( ) T L f { R ( f ) = { { T } { \ { } 。서 L - { \ L=}는 W{\ W에 유도된 그래프의 라플라시안 행렬입니다.
f R () , m + {\ \ \ {R^{),은 모든 감독 샘플에 f }) =를 적용하면 분석적으로 해결할 수 있다. 벡터 ff의 라벨 부분은 명백합니다.f{\ f의 레이블이 없는 부분은 다음과 같이 해결됩니다.
l{ L _ { } has 、 { display L _ {} as as as as as as as as as as as as as l as as as as as as as as as as as note note note note note note note note
멀티태스킹 학습용 레귤러라이저
멀티태스킹 학습의 경우 T T 문제가 에 고려되며 각각은 어떤 식으로든 관련이 있습니다.는 예측력이 있는 태스크의 관련성을 으로 이상적으로 강점을 차용한T\T 기능을 학습하는 것입니다.이는 W: W D 입니다.
열에 스파스 정규화기
이 정규화기는 각 열에 L2 노름을 정의하고 모든 열에 L1 노름을 정의합니다.그것은 근위법으로 해결할 수 있다.
핵 규범 정규화
- ( ) (W ) 1 { {R ( w )\( W ) \( W ) \r rvalues decompvaluesvaluesvaluesvaluesvalues decomp decomp decompvaluesvaluesvaluesvaluesvalues。
평균 제약 정규화
이 정규화기는 각 태스크에 대해 학습된 함수를 모든 태스크에 걸친 함수의 전체 평균과 유사하게 제한합니다.이것은 각 태스크가 서로 공유할 것으로 예상되는 이전 정보를 표현하는 데 유용합니다.한 예로 하루 중 다른 시간에 측정된 혈중 철분 수치를 예측하는 것이 있습니다. 각 작업은 개인을 나타냅니다.
군집화된 평균 제약 정규화
- ( 1 f ) tI ( ) - 1 ( ) sI ( ) k2 (\ ( f { } \ f { T } = \ { 1 \ { T )
이 정규화기는 평균 제약 정규화기와 유사하지만 대신 동일한 클러스터 내의 작업 간에 유사성을 적용합니다.이를 통해 보다 복잡한 사전 정보를 캡처할 수 있습니다.이 기술은 넷플릭스의 권장 사항을 예측하는 데 사용되었습니다.클러스터는 유사한 환경설정을 공유하는 사용자 그룹에 해당합니다.
그래프 기반 유사성
보다 일반적으로 태스크 간의 유사성은 함수에 의해 정의될 수 있습니다.정규화기는 모델이 유사한 작업에 대해 유사한 기능을 학습하도록 장려합니다.
- T}\ 특정 대칭 유사도 M(\ M에 대해 합니다.
통계 및 기계학습에서의 기타 정규화 사용
베이지안 학습 방법은 (일반적으로) 더 복잡한 모델에 낮은 확률을 제공하는 사전 확률을 이용한다.잘 알려진 모델 선택 기법에는 Akaike 정보 기준(AIC), 최소 기술 길이(MDL) 및 베이지안 정보 기준(BIC)이 있습니다.정규화를 수반하지 않는 과적합을 제어하는 다른 방법으로는 교차 검증을 들 수 있습니다.
선형 모델에 대한 다른 정규화 방법의 적용 예는 다음과 같습니다.
모델 | 적합 측도 | 엔트로피[4][7] 측정 |
---|---|---|
AIC/BIC | ||
능선 회귀[8] | ||
라소[9] | ||
베이스 추구 노이즈 제거 | ||
루딘-오셔-파테미 모델(TV) | ||
포츠 모형 | ||
RLAD[10] | ||
단치그[11] 셀렉터 | ||
경사[12] |
「 」를 참조해 주세요.
메모들
- ^ Kratsios, Anastasis (2020). "Deep Arbitrage-Free Learning in a Generalized HJM Framework via Arbitrage-Regularization Data". Risks. 8 (2): [1]. doi:10.3390/risks8020040.
Term structure models can be regularized to remove arbitrage opportunities [sic?].
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ Bühlmann, Peter; Van De Geer, Sara (2011). Statistics for High-Dimensional Data. Springer Series in Statistics. p. 9. doi:10.1007/978-3-642-20192-9. ISBN 978-3-642-20191-2.
If p > n, the ordinary least squares estimator is not unique and will heavily overfit the data. Thus, a form of complexity regularization will be necessary.
- ^ "Deep Learning Book". www.deeplearningbook.org. Retrieved 2021-01-29.
{{cite web}}
: CS1 maint :url-status (링크) - ^ a b Bishop, Christopher M. (2007). Pattern recognition and machine learning (Corr. printing. ed.). New York: Springer. ISBN 978-0-387-31073-2.
- ^ 최대 사후 추정과 능선 회귀 분석 사이의 연관성에 대해서는 을 참조하십시오.
- ^ Natarajan, B. (1995-04-01). "Sparse Approximate Solutions to Linear Systems". SIAM Journal on Computing. 24 (2): 227–234. doi:10.1137/S0097539792240406. ISSN 0097-5397.
- ^ Duda, Richard O. (2004). Pattern classification + computer manual : hardcover set (2. ed.). New York [u.a.]: Wiley. ISBN 978-0-471-70350-1.
- ^ Arthur E. Hoerl; Robert W. Kennard (1970). "Ridge regression: Biased estimation for nonorthogonal problems". Technometrics. 12 (1): 55–67. doi:10.2307/1267351. JSTOR 1267351.
- ^ Tibshirani, Robert (1996). "Regression Shrinkage and Selection via the Lasso" (PostScript). Journal of the Royal Statistical Society, Series B. 58 (1): 267–288. MR 1379242. Retrieved 2009-03-19.
- ^ Li Wang, Michael D. Gordon & Ji Zhu (2006). "Regularized Least Absolute Deviations Regression and an Efficient Algorithm for Parameter Tuning". Sixth International Conference on Data Mining. pp. 690–700. doi:10.1109/ICDM.2006.134. ISBN 978-0-7695-2701-7.
- ^ Candes, Emmanuel; Tao, Terence (2007). "The Dantzig selector: Statistical estimation when p is much larger than n". Annals of Statistics. 35 (6): 2313–2351. arXiv:math/0506081. doi:10.1214/009053606000001523. MR 2382644. S2CID 88524200.
- ^ Małgorzata Bogdan, Ewout van den Berg, Weijie Su & Emmanuel J. Candes (2013). "Statistical estimation and testing via the ordered L1 norm". arXiv:1310.1969 [stat.ME].
{{cite arxiv}}
: CS1 maint: 여러 이름: 작성자 목록(링크)
레퍼런스
- Neumaier, A. (1998). "Solving ill-conditioned and singular linear systems: A tutorial on regularization" (PDF). SIAM Review. 40 (3): 636–666. Bibcode:1998SIAMR..40..636N. doi:10.1137/S0036144597321909.