매트릭스 정규화

Matrix regularization

통계학습이론 분야에서 매트릭스 정규화는 학습할 대상이 매트릭스인 경우에 벡터 정규화의 개념을 일반화한다.정규화의 목적은 안정적인 예측 기능을 생산할 수 있는 조건(예: 첨사성이나 평활성)을 강제하는 것이다.예를 들어, 보다 일반적인 벡터 프레임워크에서는 Tikhonov 정규화가 최적화된다.

회귀 문제에 대한 안정적인 해결책인 x x을(를) 찾으십시오.시스템을 벡터가 아닌 매트릭스로 설명할 때, 이 문제는 다음과 같이 쓸 수 있다.

서 x 에 대한 정규화 페널티를 적용하는 벡터 X{\의 행렬 규범까지 확장되었다

매트릭스 정규화에는 매트릭스 완료, 다변량 회귀 분석, 다중 작업 학습에 응용이 있다.특징과 그룹선택에 대한 아이디어도 행렬로 확장될 수 있으며, 이는 다중 커널학습의 비모수적 사례로 일반화할 수 있다.

기본정의

Consider a matrix to be learned from a set of examples, , where goes from to , and goes from to . Let each input matrix be , and let be of size . A general model for the output can be posed as

여기서 내적인 제품은 프로베니우스 내적인 제품이다.다른 애플리케이션의 경우 행렬 i 은(는) 다른 형태를 가지지만,[1] 이들 각각에 대해 을(를) 추론하는 최적화 문제는 다음과 같이 기록될 수 있다.

여기서 은(는 주어진 W {\에 대한 경험적 오류를 정의하며 매트릭스 정규화 벌칙이다. 함수는 일반적으로 볼록한 것으로 선택되며 첨사성( -orms 사용) 및/또는 평활성( 2{\ -norms 사용)을 시행하기 위해 종종 선택된다.마지막으로, }은(는) H{\{\의 공간에 있고, 프로베니우스 내제품은 \

일반 응용 프로그램

매트릭스 완료

매트릭스 완료 문제에서는 X i 행렬이 를 취한다.

where and are the canonical basis in and . In this case the role of the Frobenius inner product is to select individual elements 행렬 W}에서t 를) 하면 행렬 의 항목이 샘플링된다.

소량 샘플링된 항목 에서W {\을 재구성하는 문제는 매트릭스에 대한 특정 제한사항에서만 가능하며, 이러한 제한사항은 정규화 함수에 의해 시행될 수 있다.예를 들어, (가) 낮은 등급이라고 가정할 수 있으며, 이 경우 정규화 벌칙은 핵 규범의 형태를 취할 수 있다.[2]

서 1 1에서 최소 까지i i를) 하는 는) 의 단수 값이다

다변량 회귀 분석

다변량 회귀 분석에 사용되는 모형은 계수 행렬에 의해 모수화된다.위의 프로베니우스 내부 제품에서 각 매트릭스 X은(는)

내부 제품의 출력이 계수 행렬의 한 열이 있는 입력의 한 행의 도트 곱인 경우.그러한 모델의 익숙한 형태는

단일 변수 회귀 분석에서 사용되는 벡터 규범의 대부분은 다변량 사례로 확장될 수 있다. }} - 입력 방법 또는 행렬의 단수 값에 작용하는 norm 2 {\displaystyle \ell 2}} -노orm로 볼 수 있는 프로베니우스 표준 제곱을 예로 들 수 있다.

다변량 사례에서 프로베니우스 규범과의 정규화의 효과는 벡터 케이스와 같다; 매우 복잡한 모델은 더 큰 규범을 가질 것이고, 따라서 더 많은 불이익을 받을 것이다.

멀티 태스킹 학습

다중 작업 학습에 대한 설정은 다변량 회귀 분석에 대한 설정과 거의 동일하다.일차적인 차이는 입력 변수 또한 작업( 의 열)에 의해 인덱싱된다는 것이다.프로베니우스 내제품으로 표현하면 그때가 된다.

이 설정에서 매트릭스 정규화의 역할은 다변량 회귀 분석에서와 동일할 수 있지만 매트릭스 규범도 학습 문제를 과제에 걸쳐 결합하는 데 사용될 수 있다.특히 최적화 문제의 경우

의 각 열에 해당하는 용액은 분리된다.즉, 공동 문제를 해결하거나 각 열에 대해 격리된 회귀 문제를 해결함으로써 동일한 해결책을 찾을 수 있다.해결책의 공분산성에 대한 정규화 페널티를 추가함으로써 문제를 결합할 수 있다.

여기서 은(는) 작업 간의 관계를 모델링한다.이 계획 둘 다면서 업무 사이 관계는 그래프 위에 눕는 것으로 알려져 W{W\displaystyle}과Ω의 최적화 사이에{\displaystyle \Omega}.[3]교대로 업무 유사성의 특정 구조를 배우기 해결책의 작업을 가로질러 유사성을 시행하기 위해, 그래프의Laplacian 행렬이 우리가 그렇게 될 수 있어 사용될 수 있다.교육학습 문제를 결합하는 것.

스펙트럼 정규화

스펙트럼 필터링에 의한 정규화는 잘못된 코의 매트릭스 반전을 다루어 위에서 논의한 것과 같은 문제에 대한 안정적인 해결책을 찾는 데 이용되었다(예: Tikhonov 정규화를 위한 필터 함수 참조).많은 경우에 정규화 함수는 입력(또는 커널)에 작용하여 작은 단수 값을 제거함으로써 경계 역치를 보장하지만, 학습해야 할 행렬에 작용하는 스펙트럼 규범을 갖는 것도 유용할 수 있다.

행렬의 단수 값에 작용하는 행렬 규범이 여럿 있다.자주 사용되는 예로는 Shatten p-norms있으며 p = 1 또는 2가 있다.예를 들어, 핵 규범이라고도 불리는 섀튼 1-규격을 사용한 매트릭스 정규화는 매트릭스의 스펙트럼에서 첨사성을 시행하는 데 사용될 수 있다.이는 문제의 행렬이 제한된 순위를 갖는 것으로 여겨질 때 행렬 완료의 맥락에서 사용되어 왔다.[2]이 경우 최적화 문제는 다음과 같이 된다.

대상, W =Y

스펙트럼 정규화는 다변량 회귀 분석에서 감소된 순위 계수 행렬을 시행하는 데도 사용된다.[4]이 설정에서 감소된 순위 계수 행렬은 n 개의 단수 값만 유지하면 찾을 수 있지만, 이는 축소된 단수 값과 벡터 집합을 유지하도록 확장될 수 있다.

구조화된 첨탑성

희소성 최적화는 소수의 변수에 의존하는 해결책을 찾는 방법으로서 많은 연구 관심의 초점이 되었다(예: 라소 방법 참조).원칙적으로 엔트리 와이즈 스페어리티는 매트릭스의 엔트리 와이즈 0^{ -노멀을 벌칙하여 시행할 수 있으나, but -노멀은 볼록하지 않다.실제로 -norm까지 볼록한 이완을 통해 이를 구현할 수 있다. -norm은 0이 아닌 소수의 원소를 가진 솔루션을 찾지만, 1 -norm을 다른 변수 그룹에 적용하면 솔루션의 첨예함에 구조를 강제할 수 있다.[5]

구조화된 첨탑성의 가장 간단한 예는 p= } 및 = 1 {\ , 규격을 사용한다

예를 들어, 2, 표준은 여러 과제에서 피쳐를 그룹화하는 다중 작업 학습에 사용되며, 계수 행렬의 주어진 행에 있는 모든 원소를 그룹으로 0으로 강제할 수 있다.[6]그룹화 효과는 각 행의 ^{2norm을 취한 후, 이러한 행-현행 규범의 합으로 총 벌점을 취함으로써 달성된다.이 정규화는 모든 0 또는 밀도가 되는 경향이 있는 행으로 귀결된다. 열의 ization2{\\ell ^{2}}- 보통을 취함으로써 기둥-현상적으로 첨사성을 집행하는 데 동일한 유형의 정규화를 사용할 수 있다.

보다 일반적으로 ,1 ,1}임의의 변수 그룹에 적용할 수 있다.

여기서 색인 이(가) 변수 그룹에 걸쳐 있고, g 의 카디널리티를 나타낸다

이러한 그룹 첨사성 문제를 해결하기 위한 알고리즘은 예를 들어, 겹치는 그룹을 허용함으로써 더 잘 알려진 라소와 그룹 라소 방법을 확장하며, 일치하는 추적:[7]근위부 그라데이션 방법을 통해 구현되었다.[8]주어진 계수에 대한 근위부 그라데이션 w 이 표준이 그룹화 소프트 임계값을[1] 강제하는 것을 볼 수 있다.

여기서 { {\1w_}\{}\은 그룹 규범에 대한 지표

따라서 , 규범을 사용하면 행렬의 첨탑성에 행, 열 또는 임의 블록에 구조를 적용하는 것이 간단하다.예를 들어, 다변량 또는 다중 작업 회귀 분석의 블록에 그룹 규범을 적용함으로써 출력 변수의 정의된 하위 집합(매트릭스 의 컬럼이 동일한 희박한 입력 변수 집합에 의존하는 입력 및 출력 변수 그룹을 찾을 수 있다.

다중 커널 선택

구조화된 첨탑성과 특징 선택에 대한 아이디어는 다중 커널 학습의 비모수적 사례로 확장될 수 있다.[9]이것은 각각의 적절한 커널이 서로 다른 여러 유형의 입력 데이터(예: 색상 및 텍스처)가 있거나 적절한 커널을 알 수 없는 경우에 유용할 수 있다.를 들어 기능 A B (가) 있는 경우 해당 재생성 커널 Hilbert H , B{\{\에 있는 커널이 두 개 있을 경우 그러면 더 큰 D 를) 두 공간의 합으로 생성할 수 있다.

B 에서 선형 독립성을 가정한다 이 경우 , -norm은 다시 표준의 합이다.

따라서 행렬 정규화 함수를 이런 종류의 규범으로 선택함으로써, 어떤 커널이 사용되는지 면에서는 희박하지만, 각각의 사용된 커널의 계수에 밀도가 높은 솔루션을 찾을 수 있다.다중 커널 학습은 비선형 변수 선택의 한 형태 또는 모델 집적 기법으로도 사용될 수 있다(예를 들어, 제곱된 규범과 이완된 첨사성 제약의 합을 취함).예를 들어 각 커널은 폭이 다른 가우스 커널로 간주할 수 있다.

참고 항목

참조

  1. ^ a b Rosasco, Lorenzo; Poggio, Tomaso (December 2014). "A Regularization Tour of Machine Learning". MIT-9.520 Lectures Notes (Manuscript).
  2. ^ a b Candès, Emmanuel J.; Recht, Benjamin (2009). "Exact Matrix Completion via Convex Optimization". Foundations of Computational Mathematics. 9 (6): 717–772. doi:10.1007/s10208-009-9045-5.
  3. ^ Zhang; Yeung (2012). "A Convex Formulation for Learning Task Relationships in Multi-Task Learning". Proceedings of the Twenty-Sixth Conference on Uncertainty in Artificial Intelligence (UAI2010). arXiv:1203.3536. Bibcode:2012arXiv1203.3536Z.
  4. ^ Izenman, Alan J. (1975). "Reduced Rank Regression for the Multivariate Linear Model". Journal of Multivariate Analysis. 5 (2): 248–264. doi:10.1016/0047-259X(75)90042-1.
  5. ^ Kakade; Shalev-Shwartz; Tewari (2012). "Regularization Techniques for Learning with Matrices". Journal of Machine Learning Research. 13: 1865–1890.
  6. ^ Argyriou, A.; Evgeniou, T.; Pontil, M. (2008). "Convex multi-task feature learning". Machine Learning. 73 (3): 243–272. doi:10.1007/s10994-007-5040-8.
  7. ^ Huang; Zhang; Metaxas (2011). "Learning with Structured Sparsity". Journal of Machine Learning Research. 12: 3371–3412.
  8. ^ Chen, Xi; et al. (2012). "Smoothing Proximal Gradient Method for General Structured Sparse Regression". Annals of Applied Statistics. 6 (2): 719–752. doi:10.1214/11-AOAS514.
  9. ^ Sonnenburg; Ratsch; Schafer; Scholkopf (2006). "Large Scale Multiple Kernel Learning". Journal of Machine Learning Research. 7: 1531–1565.