희박한 사전 학습

Sparse dictionary learning

스파스 코딩은 기본 요소뿐만 아니라 기본 요소의 선형 조합의 형태로 입력 데이터의 스파스 표현(스퍼스 코딩이라고도 함)을 찾는 것을 목표로 하는 표현 학습 방법이다.이 원소들은 원자라고 불리며 사전을 구성합니다.사전에 기재되어 있는 원자는 직교할 필요가 없으며, 과잉 스패닝 세트일 수 있습니다.또한 이 문제를 설정하면 표시되는 신호의 치수가 관찰되는 신호보다 높아질 수 있습니다.위의 두 가지 특성은 동일한 신호를 여러 번 표현할 수 있는 것처럼 보이는 원자를 갖는 동시에 표현의 희소성과 유연성을 향상시킵니다.

희박한 사전 학습의 가장 중요한 응용 프로그램 중 하나는 압축 감지 또는 신호 복구 분야이다.압축감지에서는 신호가 희박하거나 거의 희박할 경우 몇 가지 선형 측정만으로 고차원 신호를 복구할 수 있습니다.모든 신호가 이 희소성 조건을 만족하는 것은 아니기 때문에 웨이브릿 변환이나 래스터화된 행렬의 방향 구배와 같은 신호의 희박한 표현을 찾는 것이 매우 중요합니다.행렬 또는 고차원 벡터가 희박한 공간에 전송되면 기본 추적, CoSaMP[1] 또는 고속 비반복 알고리즘과[2] 같은 다른 복구 알고리즘을 사용하여 신호를 복구할 수 있습니다.

사전 학습의 핵심 원칙 중 하나는 사전이 입력 데이터로부터 추론되어야 한다는 것이다.희박한 사전 학습 방법의 출현은 신호 처리에서 일반적으로 가능한 한 적은 구성요소를 사용하여 입력 데이터를 표현하기를 원한다는 사실에 의해 자극되었다.이 접근법 이전에는 사전 정의된 사전(푸리에 변환 또는 웨이브릿 변환 )을 사용하는 것이 일반적인 관행이었습니다.그러나 입력 데이터에 맞도록 훈련된 사전은 데이터 분해, 압축 및 분석에 적용되고 이미지 노이즈 제거 및 분류, 비디오 및 오디오 처리 분야에서 사용되어 온 희소성을 크게 개선할 수 있습니다.희소성 및 과잉 완성 사전은 이미지 압축, 이미지 융합 및 인페인팅에 매우 적합합니다.

사전 학습을 통한 이미지 노이즈 제거

문제문

입력 데이터 X [ 1 ,. , K , d d [ x _ {1} , x _ { , _ { } \ \ { ^ { } 、 [. d 찾습니다 ...,n}} 및 R [ 1,. , K , i R [ r _ {1} , r _ { ,_ { \ { { n } d ‖ ‖ ‖ ‖ ‖ ‖ ‖ ‖ ‖ ‖ d d d d ‖ ‖ ‖ d d 、 X - Ruh. 이는 다음과 같은 최적화 문제로 공식화할 수 있습니다.

D , i n 2 + 0 { { \ { D } \ \ { C } , _ { } \ \ { R ^ { n } \ text } { text } 2 1 i ,.. , n { \{ } \ \ { \ } \ \ { R } ^ { \ n : \ { } \ 1 \ 、 \ for i , . }} > \ styleq \ display styleq \ display style > > 0 > 0 、 0 、 0 。

원자가 임의로 높은 값에 도달하지 않도록 D 구속해야 하며, 임의의 낮은 값(그러나 0이 아님)을 허용한다nimization 오류입니다.

위의 최소화 문제는 "규범0" 때문에 볼록하지 않으며, 이 문제를 해결하는 [3]것은 NP-hard입니다.어떤 경우에는 L1-norm sparsity[4]을 보장하며 각각의 변수 D{\displaystyle \mathbf{D} 관한 그래서 위가 볼록 최적화 문제}, R{\displaystyle \mathbf{R}}일 경우 다른 하나의 고정된 것이라고 생각하지만 함께 공동(D, R){\displaystyle(\mathbf{D},\mathbf에 convex는 않은 것으로 알려져다. {R}

사전 속성

< < n < d > d> d 의 「undercomplete」, n > d < n d 의 경우는 「overcomplete」로 할 수 있습니다.이 경우, n< displaystyle > d > d 의 경우는 「overcomplete」로 정의되어 있습니다.완전한 사전의 경우는 표현적 관점에서 어떠한 개선도 제공하지 않으므로 고려되지 않습니다.

완전하지 않은 사전은 실제 입력 데이터가 저차원 공간에 있는 설정을 나타냅니다. 경우는 차원성 감소 및 원자, ..., 직교해야 하는 주성분 분석과 같은 기술과 강하게 관련되어 있습니다.이러한 서브스페이스의 선택은 효율적인 치수 절감을 위해 매우 중요하지만, 간단한 것은 아닙니다.또한 사전 표현을 기반으로 한 차원 축소는 데이터 분석이나 분류와 같은 특정 작업에 대처하도록 확장할 수 있습니다.하지만, 그들의 주된 단점은 원자의 선택을 제한하는 것이다.

그러나 너무 완전한 사전은 원자가 직교할 필요가 없기 때문에(어차피 기초가 되지 않는다), 보다 유연한 사전과 풍부한 데이터 표현을 가능하게 한다.

신호의 희박한 표현을 가능하게 하는 과완전사전은 유명한 변환행렬(웨이브릿 변환, 푸리에 변환)이 될 수도 있고, 소자가 주어진 신호를 최적의 방법으로 희박하게 표현하도록 변경되도록 공식화할 수도 있다.학습된 사전은 사전 정의된 변환 행렬에 비해 더 희박한 솔루션을 제공할 수 있습니다.

알고리즘

상기 최적화 문제는 한쪽이 고정되는 동안 사전 또는 스파스 부호화에 관한 볼록한 문제로서 해결할 수 있기 때문에 대부분의 알고리즘은 한쪽을 반복적으로 갱신하는 발상에 기초하고 있다.

특정 D(\에서 최적의 스파스 R(\ R 찾는 문제는 스파스 근사(또는 단순히 스파스 부호화 문제)로 알려져 있다.이를 해결하기 위해 다수의 알고리즘(예: 매칭 추적LASO)이 개발되었으며 아래에 설명된 알고리즘에 통합되었습니다.

최적방향법(MOD)

최적 방향 방법(또는 MOD)은 희박한 사전 학습 [5]문제를 해결하기 위해 도입된 첫 번째 방법 중 하나였다.이 방법의 핵심 아이디어는 표현 벡터의 0이 아닌 제한된 수의 구성요소에 따라 최소화 문제를 해결하는 것입니다.

여기서 F F 프로베니우스 규범을 나타냅니다.MOD는 D + {\= 주어진 문제의 분석 솔루션을 계산하여 매칭 추구와 같은 방법을 사용하여 스파스 부호화를 얻는 것과 사전 업데이트를 번갈아 한다. R+ {\ 무어 펜로즈 유사 역이다. 후 D 제약조건에 맞게 다시 정규화되어 새로운 스파스 부호화를 다시 얻습니다.수렴할 때까지(또는 잔류물이 충분히 작을 때까지) 이 과정을 반복합니다.

MOD는 저차원 입력 X(\ X 매우 효율적인 방법임이 입증되었습니다.그러나 매트릭스 반전 연산의 복잡성이 높기 때문에 고차원적인 경우에서의 의사 역산 계산은 많은 경우 다루기 어렵다.이 단점은 다른 사전 학습 방법의 개발에 영감을 주었다.

K-SVD

K-SVD는 사전의 원자를 하나씩 업데이트하기 위해 핵심에서 SVD를 수행하는 알고리즘으로, 기본적으로 K-평균의 일반화이다.입력 각 요소는 MOD 접근법과 동일한 방법으로 T 선형 조합으로 부호화됩니다.

이 알고리즘의 본질은 먼저 사전을 수정하고 (직교 매칭 퍼슈트를 사용하여) 위의 제약 조건 하에서 가장 한 R R 찾은 후 다음과 같은 방법으로 D 원자를 반복적으로 업데이트하는 것입니다.

알고리즘의 다음 단계에는 잔여 k의 순위 1 근사치(\ k}) 및 업데이트 후 x(\})의 희소성 적용이 포함됩니다.이 알고리즘은 사전 학습의 표준으로 간주되며 다양한 응용 프로그램에서 사용됩니다.단, MOD는 비교적 낮은 치수 신호의 경우에만 효율적이며 로컬 최소치에 고착될 가능성이 있다는 단점이 있습니다.

확률적 경사 강하

또한 이 문제를 [6][7]해결하기 위해 반복 투영을 통해 광범위한 확률적 경사 강하법을 적용할 수 있다. 방법의 개념은 1차 확률적 구배를 사용하여 사전을 업데이트하고 구속조건 C에 하는 것입니다 i번째 반복에서 발생하는 단계는 다음과 같습니다

C { - i D i S x- D + 1} { \ } { i} ={\ \ \ \ \ \ left { } S S {랜덤 서브셋입니다. i \ style _ { 그라데이션 스텝입니다.

라그랑주 이중법

이중 라그랑지안 문제를 푸는 데 기초하는 알고리즘은 [8]희소성 함수에 의해 유발되는 합병증이 없는 사전을 효율적으로 푸는 방법을 제공한다.다음 라그랑지안을 생각해 봅시다.

( , ) ) (( - ) + j ( i 2 -) \ style ( \ , \ ) { }{\c}는 원자의 규범에 대한 제약조건이며, i \i}는 대각행렬 {\ \를 형성하는 이른바 이중변수이다.

그런 다음 D에 대한 최소화 후 라그랑주 듀얼에 대한 해석식을 제공할 수 있습니다.

() ) L ( , ) ( - X + )- ( X ) - ) ( \ style \ { D } { \

최적화 방법 중 하나를 듀얼 값(예: 뉴턴의 방법 또는 켤레 그라데이션)에 적용하면 D {을 얻을 수 있습니다.

를 해결하는 것은 이중 변수양이 원래 문제의 변수 양보다 훨씬 적기 때문에 계산하기 어렵습니다.

밧소

이 접근방식에서는 최적화 문제는 다음과 같이 공식화됩니다.

r { r 1 }X - RF 2 <{\ {\ 、 ( \ \ _ \ \{ } ^ { } 、 { , \ \ { n } 、 { \ { to } , \ - \ { F } { to to F < < < < < 2 < < < < < 2 { < < < < < <2 < < < < < < < <2 { <

다음과 같이 공식화된 솔루션 벡터의 L-규범1 구속조건에 따른 최소 제곱 오차를 최소화하여 })의 추정치를 구한다.

r n 2X - r 2 + r 1 \_ { \ \{} ^ { } , { \ 1 2 \ - \ { \ 2 \ ,이를 통해 글로벌 최적의 솔루션을 [9]얻을 수 있습니다.스파스 코딩에 대한 자세한 내용은 온라인 사전 학습을 참조하십시오.

파라메트릭 트레이닝 방법

파라메트릭 트레이닝 방법은 분석적으로 구축된 사전과 학습된 [10]사전의 영역이라는 두 가지 장점을 모두 통합하는 것을 목적으로 합니다.이것에 의해, 임의의 사이즈의 신호의 경우에 적용할 수 있는 보다 강력한 범용 사전을 구축할 수 있습니다.주목할 만한 접근방식은 다음과 같습니다.

  • 번역 불변 사전.[11]이러한 사전은 유한 크기 신호 패치를 위해 구축된 사전에서 유래한 원자의 번역으로 구성됩니다.이를 통해 결과 사전은 임의 크기의 신호를 나타낼 수 있습니다.
  • 멀티스케일 [12]사전이 방법은 희소성을 개선하기 위해 서로 다른 크기의 사전으로 구성된 사전을 구성하는 데 초점을 맞춥니다.
  • 스파스 [13]딕셔너리이 방법은 희박한 표현을 제공하는 것뿐만 아니라 식 D \{} B} \ {A 의해 강제되는 희박한 사전 구축에 초점을 맞추고 있다. B \ \{B은 c와 같은 특성을 가진 사전 정의되어 있다.umputation A 스파스 매트릭스입니다.그러한 공식은 분석 사전의 빠른 구현과 희박한 접근법의 유연성을 직접적으로 결합할 수 있게 한다.

온라인 사전 학습(LASSO 접근법)

희박한 사전 학습에 대한 많은 일반적인 접근법은 전체 입력 X 적어도 충분히 큰 훈련 데이터 세트)가 알고리즘에 사용 가능하다는 사실에 의존한다.그러나 실제 시나리오에서는 입력 데이터의 크기가 너무 커서 메모리에 맞지 않을 수 있습니다.이 가정을 할 수 없는 다른 경우는 입력 데이터가 스트림의 형태로 들어오는 경우입니다.이러한 사례는 온라인 학습의 연구 분야에 있으며, 이는 근본적으로 데이터 포인트x\ stylex\를 사용할 수 있게 되었을 때 모델을 반복적으로 업데이트하도록 제안한다.

사전은 다음과 같은 [14]방법으로 온라인으로 학습할 수 있습니다.

  1. t ...
  2. x t{\t}}
  3. LARS를 사용하여 sparse coding을 찾습니다. t r n ( 2 - - 1 + r1) { r _ { t } = \ \ {} ^ { n ^ { } \ { n } } \ } } \ } { r } } } ({ }
  4. 블록 좌표 접근 방식을 사용하여 사전 : t D 1 i t ( x i2 + r 1 ) { \ }_ { t } { {\} { }

이 방법을 사용하면 희박한 표현 학습을 위해 새로운 데이터를 사용할 수 있게 되면서 사전을 점진적으로 업데이트할 수 있으며 데이터 집합을 저장하는 데 필요한 메모리 양을 크게 줄일 수 있습니다(대부분의 경우 크기가 크다).

적용들

사전 학습 프레임워크, 즉 데이터 자체에서 학습한 몇 가지 기본 요소를 사용한 입력 신호의 선형 분해는 다양한 영상 및 비디오 처리 작업에서 최첨단 결과를 이끌어냈다.이 기술은 클래스별로 특정 사전을 구축한 경우 입력 신호를 가장 희박한 표현에 대응하는 사전을 찾아 분류하는 방식으로 분류 문제에 적용할 수 있습니다.

또한 일반적으로 입력 신호의 의미 있는 부분을 희박한 방식으로 표현하기 위해 사전을 학습할 수 있지만 입력 노이즈의 [15]희박한 표현은 훨씬 적기 때문에 신호 노이즈 제거에 유용한 특성을 가지고 있습니다.

스퍼스 사전 학습은 텍스처[16] 합성 및 비감독 [17]클러스터링뿐만 아니라 다양한 이미지, 비디오 및 오디오 처리 작업에 성공적으로 적용되었다.Bag-of-Words [18][19]모델을 사용한 평가에서, 객체 범주 인식 작업에서 다른 부호화 접근법을 능가하는 희박한 부호화가 경험적으로 발견되었다.

사전 학습은 의료 신호를 자세히 분석하기 위해 사용됩니다.이러한 의료 신호에는 뇌파(EEG), 심전도(ECG), 자기공명영상(MRI), 기능성 MRI(fMRI), 연속 포도당 모니터 및 초음파 컴퓨터 단층촬영(USCT)의 신호가 포함되며, 각 신호를 분석하기 위해 서로 다른 가정이 사용됩니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Needell, D.; Tropp, J.A. (2009). "CoSaMP: Iterative signal recovery from incomplete and inaccurate samples". Applied and Computational Harmonic Analysis. 26 (3): 301–321. arXiv:0803.2392. doi:10.1016/j.acha.2008.07.002.
  2. ^ Lotfi, M.; Vidyasagar, M."이진 측정 매트릭스를 사용한 압축 감지를 위한 빠른 비반복 알고리즘"
  3. ^ A. M. 틸만, "정확하고 대략적인 사전 학습의 계산적 난해성에 대하여", IEEE 신호 처리 서신 22(1), 2015: 45~49.
  4. ^ Donoho, David L. (2006-06-01). "For most large underdetermined systems of linear equations the minimal 𝓁1-norm solution is also the sparsest solution". Communications on Pure and Applied Mathematics. 59 (6): 797–829. doi:10.1002/cpa.20132. ISSN 1097-0312.
  5. ^ Engan, K.; Aase, S.O.; Hakon Husoy, J. (1999-01-01). Method of optimal directions for frame design. 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing, 1999. Proceedings. Vol. 5. pp. 2443–2446 vol.5. doi:10.1109/ICASSP.1999.760624. ISBN 978-0-7803-5041-0. S2CID 33097614.
  6. ^ Aharon, Michal; Elad, Michael (2008). "Sparse and Redundant Modeling of Image Content Using an Image-Signature-Dictionary". SIAM Journal on Imaging Sciences. 1 (3): 228–247. CiteSeerX 10.1.1.298.6982. doi:10.1137/07070156x.
  7. ^ Pintér, János D. (2000-01-01). Yair Censor and Stavros A. Zenios, Parallel Optimization — Theory, Algorithms, and Applications. Oxford University Press, New York/Oxford, 1997, xxviii+539 pages. (US $ 85.00). Journal of Global Optimization. Vol. 16. pp. 107–108. doi:10.1023/A:1008311628080. ISBN 978-0-19-510062-4. ISSN 0925-5001. S2CID 22475558.
  8. ^ Lee, Honglak 등 "효율적인 희박 부호화 알고리즘"신경 정보 처리 시스템의 발전. 2006년.
  9. ^ Kumar, Abhay; Kataria, Saurabh. "Dictionary Learning Based Applications in Image Processing using Convex Optimisation" (PDF).
  10. ^ Rubinstein, R.; Bruckstein, A.M.; Elad, M. (2010-06-01). "Dictionaries for Sparse Representation Modeling". Proceedings of the IEEE. 98 (6): 1045–1057. CiteSeerX 10.1.1.160.527. doi:10.1109/JPROC.2010.2040551. ISSN 0018-9219. S2CID 2176046.
  11. ^ Engan, Kjersti; Skretting, Karl; Husøy, John H\a akon (2007-01-01). "Family of Iterative LS-based Dictionary Learning Algorithms, ILS-DLA, for Sparse Signal Representation". Digit. Signal Process. 17 (1): 32–49. doi:10.1016/j.dsp.2006.02.002. ISSN 1051-2004.
  12. ^ Mairal, J.; Sapiro, G.; Elad, M. (2008-01-01). "Learning Multiscale Sparse Representations for Image and Video Restoration". Multiscale Modeling & Simulation. 7 (1): 214–241. CiteSeerX 10.1.1.95.6239. doi:10.1137/070697653. ISSN 1540-3459.
  13. ^ Rubinstein, R.; Zibulevsky, M.; Elad, M. (2010-03-01). "Double Sparsity: Learning Sparse Dictionaries for Sparse Signal Approximation". IEEE Transactions on Signal Processing. 58 (3): 1553–1564. Bibcode:2010ITSP...58.1553R. CiteSeerX 10.1.1.183.992. doi:10.1109/TSP.2009.2036477. ISSN 1053-587X. S2CID 7193037.
  14. ^ Mairal, Julien; Bach, Francis; Ponce, Jean; Sapiro, Guillermo (2010-03-01). "Online Learning for Matrix Factorization and Sparse Coding". J. Mach. Learn. Res. 11: 19–60. arXiv:0908.0050. Bibcode:2009arXiv0908.0050M. ISSN 1532-4435.
  15. ^ Aharon, M, M Elad 및 A Bruckstein. 2006. "K-SVD: 희박한 표현을 위한 과잉 완전 사전 설계를 위한 알고리즘"신호처리, IEEE 트랜잭션 54 (11): 4311-4322
  16. ^ Peyré, Gabriel (2008-11-06). "Sparse Modeling of Textures" (PDF). Journal of Mathematical Imaging and Vision. 34 (1): 17–31. doi:10.1007/s10851-008-0120-3. ISSN 0924-9907. S2CID 15994546.
  17. ^ Ramirez, Ignacio; Sprechmann, Pablo; Sapiro, Guillermo (2010-01-01). Classification and clustering via dictionary learning with structured incoherence and shared features. 2014 IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos, CA, USA: IEEE Computer Society. pp. 3501–3508. doi:10.1109/CVPR.2010.5539964. ISBN 978-1-4244-6984-0. S2CID 206591234.
  18. ^ Koniusz, Piotr; Yan, Fei; Mikolajczyk, Krystian (2013-05-01). "Comparison of mid-level feature coding approaches and pooling strategies in visual concept detection". Computer Vision and Image Understanding. 117 (5): 479–492. CiteSeerX 10.1.1.377.3979. doi:10.1016/j.cviu.2012.10.010. ISSN 1077-3142.
  19. ^ Koniusz, Piotr; Yan, Fei; Gosselin, Philippe Henri; Mikolajczyk, Krystian (2017-02-24). "Higher-order occurrence pooling for bags-of-words: Visual concept detection" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 39 (2): 313–326. doi:10.1109/TPAMI.2016.2545667. hdl:10044/1/39814. ISSN 0162-8828. PMID 27019477.
  20. ^ AlMatouq, Ali; LalegKirati, TaousMeriem; Novara, Carlo; Ivana, Rabbone; Vincent, Tyrone (2019-03-15). "Sparse Reconstruction of Glucose Fluxes Using Continuous Glucose Monitors". IEEE/ACM Transactions on Computational Biology and Bioinformatics. 17 (5): 1797–1809. doi:10.1109/TCBB.2019.2905198. hdl:10754/655914. ISSN 1545-5963. PMID 30892232. S2CID 84185121.