구조화된 첨탑성 정규화
Structured sparsity regularization구조화된 첨탑성 정규화(Structured sparsity regularization)는 방법의 한 종류로, 통계 학습 이론에서 첨탑성 정규화 학습 방법을 확장하고 일반화하는 연구 영역이다.[1]첨사도와 구조화된 첨사성 정규화 방법 모두 학습할 출력 Y Y즉, 응답 또는 종속 변수)가 입력 공간 즉, 도메인, 특징 공간 또는 설명 v)의 감소된 변수로 설명될 수 있다는 가정을 이용하려고 한다.아리아블(Ariables.Sparsity 정규화 방법은 출력을 가장 잘 설명하는 입력 변수를 선택하는 데 초점을 맞춘다.구조화된 첨탑성 정규화 방법은 에서 입력 변수의 그룹이나 네트워크와 같은 구조물에 대해 최적의 선택을 허용함으로써 첨탑성 정규화 방법을 일반화하고 확장한다[2][3]
구조화된 첨탑성 방법의 사용에 대한 일반적인 동기는 모델 해석성, 고차원 X {\ X}의 치수성이 수n {\보다 높을 수 있음), 계산 복잡성의 감소 등이다.[4]또한 구조화된 첨사성 방법은 겹치는 그룹,[2] 겹치지 않는 그룹 및 반복 그래프와 같은 입력 변수의 구조에 대한 이전 가정을 통합할 수 있다.[3]구조화된 첨탑성 방법의 사용 예로는 얼굴 인식,[5] 자기공명영상(MRI) 처리,[6] 자연어 처리에서의 사회 언어학적 분석,[7] 유방암에서의 유전자 표현 분석 등이 있다.[8]
스파르시티 정규화
손실 함수 , f () 및 0 "norm"을 정규화 벌칙으로 간주:
where , and denotes the "norm", defined as the number of nonzero entries of the vector . is는 만약 w0 = < < \ 즉, Y Y은(는) 입력 변수의 작은 부분집합으로 설명될 수 있다는 것을 의미한다.
보다 일반적으로 사전 :→ R 을 가정해 보십시오.\오른쪽 화살표과j ,. . , p {\ j}이(가) 제공되므로 학습 문제의 대상 함수 (는 다음과 같이 쓸 수 있다.
- ( )= j= 1 j (x) w_}}}, X x
의 0이 아닌 성분 수가 {\displaystyle w}으로 정의됨에 따라 0\{norm norm f === 0 = 0 = w은(으)로 정의된다.
- ={ j { ,. . , {\\\ 0 서는 다
은(는) 0 = 0 = s < < d \0}=\ {0경우 희박하다고 한다
그러나 정규화에 규격을 사용하면서 스파스 솔루션을 선호하지만, 계산적으로 사용이 어렵고 추가로 볼록하지 않다.스파스 용액을 선호하는 연산적으로 더 실현 가능한 규범은 } 규범이다. 이는 여전히 스파스 용액을 선호하고 있으며 추가로 볼록하다.[4]
구조화된 첨탑성 정규화
구조화된 첨탑성 정규화는 첨탑성 정규화를 특징짓는 가변 선택 문제를 확장하고 일반화한다.[2][3]일반 커널 및 관련 피쳐 맵 :→ 위에 정규화된 경험적 위험 최소화 문제를 고려하십시오. 화살표 = ,. , j= 포함).
정규화 용어 w { \ \ \ \\ _{는 각 성분을 개별적으로 벌칙화하므로 알고리즘이 입력 변수를 서로 독립적으로 억제한다는 것을 의미한다.
예를 들어 입력 변수가 사전 정의된 그룹에 따라 억제되도록 정규화 프로세스에서 더 많은 구조를 부과하는 것이 몇 가지 상황에서 가능하다.구조화된 첨탑성 정규화 방법은 정규화 용어를 정의하는 규범에 구조를 추가함으로써 그러한 구조를 부과할 수 있다.
구조와 규범
겹치지 않는 그룹: 그룹 라소
겹치지 않는 그룹 케이스는 구조화된 첨탑성의 가장 기본적인 예다. 안에서 G 비 겹침 그룹에 있는 계수 벡터 의 priori 파티션이 가정된다. 그룹의 계수 벡터가 되도록 한다 우리는 정규화 항과 그 그룹 규범을 다음과 같이 정의할 수 있다.
- ( )= = G
where is the group norm , is group , 및 는 그룹 G 의 j-th 성분이다
위의 규범을 그룹 라소라고도 한다.[2]이 정규화기는 개별 계수가 아닌 전체 계수 그룹을 0으로 강제한다.그룹이 오버랩되지 않기 때문에 0이 아닌 계수의 집합은 0으로 설정되지 않은 집합의 조합으로 얻을 수 있으며, 반대로 0 계수의 집합에 대해서는 0으로 설정되지 않은 집합의 조합으로 얻을 수 있다.
겹치는 그룹
겹치는 그룹은 변수가 둘 이상의 g 에 속할 수 있는 구조 첨단의 경우다이 경우는 나무 구조나 다른 유형의 그래프와 같이 겹치지 않는 그룹이 할 수 있는 것보다 더 일반적인 변수 사이의 관계 등급을 나타낼 수 있기 때문에 종종 관심을 갖는다.[3][8]
서로 다른 유형의 입력 변수 관계를 모델링하는 데 사용되는 두 가지 유형의 중복 그룹 스파리티 정규화 접근법이 있다.
보완재 교차로: 그룹 라소
보완 접근법의 교차점은 우리가 그들이 속한 모든 그룹에서 양의 계수를 갖는 입력 변수만을 선택하고자 하는 경우에 사용된다.정규화된 경험적 위험 최소화 문제에 대해 다시 한 번 그룹 Lasso를 고려하십시오.
- ( )= = G
where is the group norm, is group , and is the j-th component of group .
겹치지 않는 그룹의 경우와 마찬가지로, 그룹 라소 정규화기는 잠재적으로 전체 계수 그룹을 0으로 설정한다.된 변수는 계수가 보다보다 큰 계수를 변수 입니다그러나 이 경우 그룹이 중복될 수 있으므로 0으로 설정되지 않은 그룹의 보완점을 교차한다.
이러한 보완 선택 기준의 교차점은 특정 그룹 내의 일부 계수를 0으로 설정하도록 허용하는 모델링 선택을 의미하지만, 동일한 그룹 내의 다른 계수는 양성으로 유지될 수 있다.즉, 그룹 내의 계수는 그룹 내의 각 변수가 가질 수 있는 여러 그룹 멤버쉽에 따라 달라질 수 있다.
집단 연합: 잠복 집단 라소
다른 접근방식은 가변 선택을 위한 집단의 결합을 고려하는 것이다.이 접근방식은 변수가 양의 계수를 가진 적어도 하나의 그룹에 속하는 한 선택할 수 있는 모델링 상황을 포착한다.이러한 모델링 관점은 그룹 구조를 보존하고자 함을 의미한다.
그룹화 접근방법의 공식화를 잠복 집단 라소라고도 하며, 위에서 고찰한 그룹 2 }}개의 규범을 수정하고 다음과 같은 정규자를 도입할 것을 요구한다.
where , is the vector of coefficients of group g, and is a vector with coefficients for allvariables in group , and in all others, i.e., if in group and 그렇지 않으면.
이 정규화기는 둘 이상의 그룹에 속하는 변수를 효과적으로 복제하여 그룹 구조를 보존하는 것으로 해석할 수 있다.그룹화 접근방법의 의도대로 = = 1 의 w을(를) 요구하면 그들이 속한 모든 그룹의 모든 변수의 가중치를 효과적으로 요약하는 가중치 벡터가 생성된다.
그룹 라소 정규화 문제 및 대안적 접근법
그룹 라소를 이용한 객관적 함수는 일반적으로 볼록해야 하지만 반드시 강하게 볼록할 필요는 없는 오류 함수와 그룹 1} 정규화 항으로 구성된다.이 객관적 기능의 문제는 볼록하지만 반드시 강하게 볼록하지는 않기 때문에 일반적으로 고유한 해결책으로 이어지지 않는다는 것이다.[9]
이를 해결하는 방법의 예로는 그룹 라소 접근법에서 1 } 정규화 용어를 유지하면서 가중치 벡터의 제곱 _} 정규화 용어를 추가 정규화 항으로 도입하는 것이다.[9]제곱 2 }} 표준 항의 계수가 보다 크면 제곱 ℓ }} 표준 항이 강하게 볼록되기 때문에 결과 목적 함수 또한 강하게 볼록하게 된다.[9]ℓ }}개의계수가 적당하게 작지만 여전히 양수인 경우, 결과적 목적함수를 최소화하는 중량 벡터는 일반적으로 2{\2}}개의 정규자 그룹을 제거함으로써 초래되는 객관적 기능을 최소화하는 중량 벡터에 매우 가깝다.원래 목적함수에서 온 tion 용어 모두. 후자의 시나리오는 그룹 Lasso 접근법에 해당한다.[9]따라서 이 접근방식은 극성을 유지하면서 더 단순하게 최적화할 수 있다.[9]
입력 변수에 대한 구조 기반 표준
참고 항목: 서브모듈러 세트 기능
위에서 논의한 규범 외에도 구조화된 첨탑성 방법에 사용되는 다른 규범에는 그리드에 정의된 계층적 규범과 규범이 포함된다.이러한 규범들은 하위 모듈 함수에서 발생하며 입력 변수의 구조에 대한 이전 가정을 통합할 수 있다.계층적 규범의 맥락에서, 이 구조는 변수에 대한 지시된 아세클릭 그래프로 표현될 수 있는 반면, 그리드 기반 규범의 맥락에서, 구조를 그리드를 사용하여 나타낼 수 있다.[10][11][12][13][14][15]
계층적 규범
참조: 무감독 학습
잠재 변수 모델의 매개변수를 학습하기 위해 감독되지 않은 학습 방법이 종종 사용된다.잠재 변수 모형은 관측된 변수 외에 관찰되지 않은 잠재 변수 집합이 존재하는 통계적 모델이다.종종 그러한 모델에서 "계층구조"는 시스템의 변수 사이에 가정된다. 이 계층 구조 시스템은 지시된 반복 그래프를 사용하여 나타낼 수 있다.
잠재 변수의 계층 구조는 특히 텍스트 문서를 모형화하는 여러 응용 프로그램에서 자연 구조로 등장했다.[11]베이지안 비모수 방법을 사용한 계층적 모델은 주제 모델을 학습하는데 사용되었는데,[10] 이것은 문서 모음에서 발생하는 추상적인 "주제"를 발견하기 위한 통계 모델이다.계층 구조는 커널 방법의 맥락에서도 고려되었다.[13]계층적 규범이 생물정보학,[12] 컴퓨터 비전, 주제 모델에 적용되었다.[14]
그리드에 정의된 규범
변수에 걸쳐 가정된 구조가 1D, 2D 또는 3D 그리드의 형태일 경우, 겹치는 그룹에 기반한 서브모델 함수를 규범으로 간주하여 직사각형 또는 볼록형 모양과 같은 안정적 집합으로 이어질 수 있다.[13]그러한 방법들은 컴퓨터 비전에[15] 응용이 있다.
연산 알고리즘
최상의 부분 집합 선택 문제
입력 변수의 가장 좋은 부분집합을 선택하는 문제는 다음과 같이 벌칙 체계에서 자연스럽게 공식화될 수 있다.[4]
여기서 {\\은 w{\의 0이 아닌 항목 수로 정의된 "norm"을 나타낸다
이 공식은 모델링 관점에서 타당하지만, 가능한 모든 변수 하위 집합을 평가하는 전체 검색과 같기 때문에 계산적으로 타당하지 않다.[4]
최적화 문제를 해결하기 위한 두 가지 주요 접근법은 1) 통계에서의 단계적 회귀나 신호 처리에서의 일치 추구와 같은 탐욕스러운 방법, 그리고 2) 볼록 이완 제형 접근법과 근위부 구배 최적화 방법이다.
볼록 이완
최상의 부분 집합 선택 문제에 대한 자연스러운 근사치는 } 정규화:[4]
계획을 베이시스추구 또는 라소라고 하는데, 이는 conve norm"을 볼록하고 차별성이 없는 }의 표준으로 대체한다.
근위부 그라데이션 방법
근위부 경사법(proximal gradient method)은 전방-후방 분할이라고도 하며 볼록하고 서로 다른 구성 요소와 잠재적으로 구별할 수 없는 구성 요소를 가진 기능을 최소화하는 데 유용한 최적화 방법이다.
이와 같이 근위부 그라데이션 방법은 다음과 같은 형태의 첨탑성 및 구조화된 첨탑성 정규화 문제를[9] 해결하는 데 유용하다.
여기서 , , ) 는 2차 손실과 같은 볼록하고 차별화할 수 있는 손실 함수이며 , ) R은 1 _}norm}과 같은 볼록할 수 없는 정규재이다.
기계 학습의 다른 영역과의 연결
다중 커널 학습에 연결
구조화된 Sparsity 정규화는 다중 커널 학습의 맥락에서 적용될 수 있다.[16]다중 커널 학습은 알고리즘의 일부로 미리 정의된 커널 집합을 사용하고 커널의 최적 선형 또는 비선형 조합을 학습하는 머신러닝 방법을 말한다.
위에서 언급한 알고리즘에서는 한 번에 전체 공간을 고려하여 그룹, 즉 서브 스페이스로 분할하였다.보완적인 관점은 구별되는 공간이 결합되어 새로운 공간을 얻는 경우를 고려하는 것이다.유한한 사전을 고려해 이 사상을 논하는 것이 유용하다.선형 독립 원소가 있는 유한 사전 - 이 원소들은 원자라고도 알려져 있다 - 가설 공간을 정의하는 선형 독립 기초 함수의 유한 집합을 말한다.유한 사전은 보여질 것처럼 특정 커널을 정의하는 데 사용될 수 있다.[16]이 예에 대해 하나의 사전이 아닌 여러 개의 유한한 사전을 고려한다고 가정해 보자.
단순성을 위해 사전 ={ = { :→ = ., A, 및 ={: X→ R = ,. . . . B 과 (와) 이(가) 정수인 이(가) 고려된다. 의 원자와 B 의 원자는 선형 독립된 것으로 가정한다. D={ : X→ .... .. . .. .. . . . b {k=1, .컵 은 두 사전의 조합이다.폼의 선형 조합에 의해 주어진 함수 의 선형 공간을 고려하십시오.
계수 벡터 , , where . Assume the atoms in to still be linearly independent, or equivalently, that the map is one to one.공간 의 함수는 공간 H 에 있는 하나 A 에 있는 원자의 선형 결합 에 있는 하나 등 두 성분의 합으로 볼 수 있다
이 공간에 대한 한 가지 은 f= + w f = + 을 (를) H H {\ H}가스페이스페이스로 볼 수 있다는 점에 유의하십시오.In view of the linear independence assumption, can be identified with and with respectively.위에 언급된 표준은 H H 와 연관된 H displaystyle 에서 그룹 규범으로 볼 수 있으며 이는 구조화된 첨탑성 정규화에 대한 연결을 제공한다.
Here, , and can be seen to be the reproducing kernel Hilbert spaces with corresponding feature maps , given by ( ){A)=(a_), p : → , given by , and , given by the concatenation of , respe얄밉게
이 시나리오에 대한 구조화된 스페이시 정규화 접근방식에서, 그룹 규범이 고려하는 변수의 관련 그룹은 서브 H A 및 {\에 대응한다 이 접근방식은 이러한 서브스페이스에 해당하는 계수 그룹을 반대 방향으로 0으로 설정하는 것을 촉진한다.d 개별 계수에만 적용하여 희박한 다중 커널 학습을 촉진한다.
위의 추론은 한정된 수의 사전 또는 피쳐 맵에 직접 일반화된다.무한 치수 가설을 유도하는 형상 지도까지 확장할 수 있다.
공간[16]
스파스 다중 커널 학습이 유용한 경우
희박한 다중 커널 학습을 고려하는 것은 다음을 포함한 여러 상황에서 유용하다.
- 데이터 융합:각 커널이 다른 종류의 촬영장비/기능에 해당하는 경우.
- 비선형 변수 선택:입력의 한 차원에만 따라 커널 를 고려하십시오.
일반적으로 희박한 다중 커널 학습은 커널이 많고 모델 선택과 해석성이 중요한 경우에 특히 유용하다.[16]
추가 용도 및 애플리케이션
구조화된 첨탑성 정규화 방법은 정규화 프로세스에 선행 입력 변수 구조를 적용하고자 하는 여러 설정에서 사용되어 왔다.그러한 애플리케이션 중 일부는 다음과 같다.
- 자기 공명 영상(MRI)에서 압축 감지, 소수의 측정에서 MR 영상을 재구성하여 MR 스캔 시간을[6] 크게 단축할 수 있음
- 정렬 오류, 결절 및 조명 변화[5] 시 강력한 얼굴 인식
- Twitter 저자가 사용하는 어휘적 빈도와 그들의 지리적 커뮤니티의[7] 사회-기록적 변수 사이의 사회 언어적 연관성 발견
- 겹치는 그룹의 이전(예: 생물학적으로 의미 있는 유전자 집합[8])을 이용한 유방암 데이터의 유전자 선택 분석
참고 항목
참조
- ^ Rosasco, Lorenzo; Poggio, Tomasso (December 2014). "A Regularization Tour of Machine Learning". MIT-9.520 Lectures Notes.
- ^ a b c d Yuan, M.; Lin, Y. (2006). "Model selection and estimation in regression with grouped variables". J. R. Stat. Soc. B. 68 (1): 49–67. CiteSeerX 10.1.1.79.2062. doi:10.1111/j.1467-9868.2005.00532.x.
- ^ a b c d e Obozinski, G.; Laurent, J.; Vert, J.-P. (2011). "Group lasso with overlaps: the latent group lasso approach". arXiv:1110.0413 [stat.ML].
- ^ a b c d e L. 로사스코.9.520 강의 노트 10: 통계 학습 이론과 응용매사추세츠 공과대학교, 2014년 가을.https://www.mit.edu/~9.168/fall14/fall14/class18/class18_sparsity.pdf에서 이용 가능
- ^ a b Jia, Kui; et al. (2012). "Robust and Practical Face Recognition via Structured Sparsity".
{{cite journal}}
:Cite 저널은 필요로 한다.journal=
(도움말) - ^ a b Chen, Chen; et al. (2012). "Compressive Sensing MRI with Wavelet Tree Sparsity". Proceedings of the 26th Annual Conference on Neural Information Processing Systems. Curran Associates. pp. 1115–1123.
- ^ a b Eisenstein, Jacob; et al. (2011). "Discovering Sociolinguistic Associations with Structured Sparsity". Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics.
- ^ a b c Jacob, Laurent; et al. (2009). "Group Lasso with Overlap and Graph Lasso". Proceedings of the 26th International Conference on Machine Learning.
- ^ a b c d e f Villa, S.; Rosasco, L.; Mosci, S.; Verri, A. (2012). "Proximal methods for the latent group lasso penalty". arXiv:1209.0368 [math.OC].
- ^ a b Blei, D, Ng, A, Jordan, M. 잠재 디리클레 할당.J. 마하.2003년 3시 993–1022분.
- ^ a b Bengio, Y. "AI를 위한 심층 아키텍처 학습"기계학습의 기초와 동향, 2(1), 2009.
- ^ a b S. Kim과 E. Xing.구조화된 첨탑성을 가진 다중 작업 회귀 분석을 위한 트리 안내 그룹 라소.Proc.ICML, 2010.
- ^ a b c Jenatton, Rodolphe; Audibert, Jean-Yves; Bach, Francis (2011). "Structured Variable Selection with Sparsity-Inducing Norms". Journal of Machine Learning Research. 12 (2011): 2777–2824. arXiv:0904.3523. Bibcode:2009arXiv0904.3523J.
- ^ a b R. 제나트톤, J. 메이럴, G. 오보진스키, F.바흐. 희박한 계층적 사전 학습을 위한 근위법.Proc.ICML, 2010.
- ^ a b R. 제나튼, G. 오보진스키, F.바흐. 체계화된 희소성 주성분 분석.Proc. AISTATS, 2009.
- ^ a b c d Rosasco, Lorenzo; Poggio, Tomaso (Fall 2015). "MIT 9.520 course notes Fall 2015, chapter 6".
{{cite journal}}
:Cite 저널은 필요로 한다.journal=
(도움말)