자기 지도 학습

Self-supervised learning

자기관리학습(SSL)은 라벨이 부착되지 않은 데이터를 처리하여 다운스트림 학습 태스크에 도움이 되는 유용한 표현을 얻기 위한 기계학습 패러다임 및 이에 대응하는 방법을 말합니다.SSL 방식에서 가장 중요한 점은 사람이 주석을 다는 라벨이 필요하지 않다는 것입니다. 즉, 라벨이 부착되지 않은 데이터 샘플로 완전히 구성된 데이터셋을 받아들이도록 설계되어 있습니다.다음으로 일반적인 SSL 파이프라인은 첫 번째 단계의 학습 감시 신호(자동으로 생성된 라벨)로 구성됩니다.이러한 신호는 두 번째 단계 이후의 일부 감독 대상 학습 태스크에 사용됩니다.따라서 SSL은 비지도 및 지도 학습의 중간 형태라고 할 수 있습니다.

일반적인 SSL 방식은 인공 신경 네트워크 [1]또는 의사 결정 목록과 같은 다른 모델에 기초합니다.모델은 두 단계로 학습합니다.우선 모델 [2][3]파라미터 초기화에 도움이 되는 의사라벨을 사용하여 보조 또는 구실 분류 태스크에 기초하여 과제를 해결한다.둘째, 실제 작업은 감독 또는 비감독 [4][5][6]학습을 통해 수행됩니다.기타 보조 작업에는 마스크된 입력 패턴(음성 중 무음 일시 중지 또는 검은색으로 마스크된 이미지 부분)에서 패턴 완료가 포함됩니다.자기 지도 학습은 최근 몇 년 동안 유망한 결과를 낳았고 오디오 프로세싱에서 실용적인 응용을 발견했으며 페이스북과 다른 사람들이 음성 [7]인식을 위해 사용하고 있다.SSL의 주된 매력은 궁극적인 결과를 향상시키는 것이 아니라 낮은 품질의 데이터를 사용하여 훈련을 실시할 수 있다는 것입니다.자기 지도 학습은 인간이 [8]사물을 분류하는 방법을 더 가깝게 모방한다.

종류들

이진 분류 작업의 경우 교육 데이터는 긍정적인 예시와 부정적인 예시로 나눌 수 있습니다.긍정적인 예로는 목표와 일치하는 것을 들 수 있습니다.예를 들어, 새를 식별하는 법을 배운다면, 긍정적인 훈련 데이터는 새가 포함된 그림입니다.부정적인 예는 그렇지 [9]않은 것이다.

대조적인 자기 지도 학습

대조적인 자기 지도 학습은 긍정적인 예와 부정적인 예시를 모두 사용합니다.대조 학습의 손실 함수는 양의 샘플 간 거리를 최소화하는 동시에 음의 [9]샘플 간 거리를 최대화합니다.

비콘트라스트 자기 지도 학습

NCSL(Non-contrastrative Self-Supervised Learning)은 긍정적인 예만 사용합니다.NCSL은 직설적으로 단순한 솔루션에 도달하는 것이 아니라 유용한 로컬 최소값으로 수렴하며 손실은 없습니다.이항 분류의 예에서는 각 예제를 양으로 분류하는 방법을 학습합니다.NCSL을 유효하게 하려면 타깃 [9]측에서 역전파하지 않는 추가 프레딕터가 온라인 측에 필요합니다.

다른 형태의 기계 학습과의 비교

SSL은 입력에서 기밀 출력을 생성하는 것이 목표인 한 감독된 학습 방법에 속합니다.단, 동시에 라벨이 붙은 입출력 쌍을 명시적으로 사용할 필요는 없습니다.대신, 데이터에 포함된 상관 관계, 메타데이터 또는 입력에 포함된 도메인 지식은 암묵적이고 자율적으로 [10]데이터로부터 추출됩니다.데이터로부터 생성된 이러한 감시 신호는,[8] 트레이닝에 사용할 수 있습니다.

SSL은 샘플 데이터에 라벨이 필요 없다는 점에서 비지도 학습과 유사합니다.그러나 비지도 학습과 달리, 학습은 고유한 데이터 [10]구조를 사용하여 수행되지 않는다.

반지도 학습은 지도 학습과 비지도 학습을 결합하여 학습 데이터의 일부에만 레이블을 [3]지정하면 된다.

전송 학습에서는 한 작업에 대해 설계된 모델이 다른 [11]작업에 재사용됩니다.

출력 패턴이 입력 패턴 자체의 최적 재구성이 될 필요가 있기 때문에 자동 인코더를 훈련시키는 것은 본질적으로 자기 감독 프로세스를 구성한다.그러나 현재 전문용어에서는 '자체 감독'이라는 용어가 구실 업무 훈련 설정에 기초한 분류 업무와 관련지어지게 되었다.여기에는 완전 자기포함형 자동 인코더 [12]훈련의 경우와 달리 그러한 핑계 태스크의 (인간의) 설계가 포함됩니다.

강화 학습에서, 손실의 조합에서 자기 감독 학습은 상태에 대한 가장 중요한 정보만 압축된 방식으로 [13]보관되는 추상적인 표현을 만들 수 있다.

자기 지도 학습은 특히 음성 인식에 적합하다.예를 들어, 페이스북은 서로 [7]위에 구축된 두 개의 심층 컨볼루션 신경망을 사용하여 음성 인식을 수행하는 자체 감독 알고리즘인 wav2vec을 개발했다.

구글의 BERT(Bidirectional Encoder Representations from Transformers) 모델은 검색 [14]쿼리의 컨텍스트를 더 잘 이해하기 위해 사용됩니다.

OpenAIGPT-3는 언어 처리에 사용할 수 있는 자기 회귀 언어 모델입니다.그것은 무엇보다도 [15]텍스트를 번역하거나 질문에 대답하는 데 사용될 수 있다.

Bootstrap Your Own Lament는 ImageNet, 전송 [16]및 준감독 벤치마크에서 우수한 결과를 얻은 NCSL입니다.

야로스키 알고리즘은 자연어 처리에서의 자기 지도 학습의 한 예입니다.라벨이 붙은 소수의 예로부터, 텍스트의 특정 포인트에서 사용되는 다의어단어 감각을 예측하는 것을 배운다.

DirectPred는 예측 변수[9]가중치를 그라데이션업데이트를 통해 학습하지 않고 직접 설정하는 NCSL입니다.

레퍼런스

  1. ^ Yarowsky, David (1995). "Unsupervised Word Sense Disambiguation Rivaling Supervised Methods". Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics. Cambridge, MA: Association for Computational Linguistics: 189–196. doi:10.3115/981658.981684. Retrieved 1 November 2022.
  2. ^ Doersch, Carl; Zisserman, Andrew (October 2017). "Multi-task Self-Supervised Visual Learning". 2017 IEEE International Conference on Computer Vision (ICCV). IEEE: 2070–2079. arXiv:1708.07860. doi:10.1109/iccv.2017.226. ISBN 978-1-5386-1032-9. S2CID 473729.
  3. ^ a b Beyer, Lucas; Zhai, Xiaohua; Oliver, Avital; Kolesnikov, Alexander (October 2019). "S4L: Self-Supervised Semi-Supervised Learning". 2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE: 1476–1485. arXiv:1905.03670. doi:10.1109/iccv.2019.00156. ISBN 978-1-7281-4803-8. S2CID 167209887.
  4. ^ Doersch, Carl; Gupta, Abhinav; Efros, Alexei A. (December 2015). "Unsupervised Visual Representation Learning by Context Prediction". 2015 IEEE International Conference on Computer Vision (ICCV). IEEE: 1422–1430. arXiv:1505.05192. doi:10.1109/iccv.2015.167. ISBN 978-1-4673-8391-2. S2CID 9062671.
  5. ^ Zheng, Xin; Wang, Yong; Wang, Guoyou; Liu, Jianguo (April 2018). "Fast and robust segmentation of white blood cell images by self-supervised learning". Micron. 107: 55–71. doi:10.1016/j.micron.2018.01.010. ISSN 0968-4328. PMID 29425969.
  6. ^ Gidaris, Spyros; Bursuc, Andrei; Komodakis, Nikos; Perez, Patrick Perez; Cord, Matthieu (October 2019). "Boosting Few-Shot Visual Learning With Self-Supervision". 2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE: 8058–8067. arXiv:1906.05186. doi:10.1109/iccv.2019.00815. ISBN 978-1-7281-4803-8. S2CID 186206588.
  7. ^ a b "Wav2vec: State-of-the-art speech recognition through self-supervision". ai.facebook.com. Retrieved 2021-06-09.
  8. ^ a b Bouchard, Louis (2020-11-25). "What is Self-Supervised Learning? Will machines ever be able to learn like humans?". Medium. Retrieved 2021-06-09.
  9. ^ a b c d "Demystifying a key self-supervised learning technique: Non-contrastive learning". ai.facebook.com. Retrieved 2021-10-05.
  10. ^ a b R., Poornima; L., Ashok (2017). "Problem Based Learning a Shift from Teaching Paradigm to the Learning Paradigm". Indian Journal of Dental Education. 10 (1): 47–51. doi:10.21088/ijde.0974.6099.10117.6. ISSN 0974-6099.
  11. ^ Littwin, Etai; Wolf, Lior (June 2016). "The Multiverse Loss for Robust Transfer Learning". 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE: 3957–3966. arXiv:1511.09033. doi:10.1109/cvpr.2016.429. ISBN 978-1-4673-8851-1. S2CID 6517610.
  12. ^ Kramer, Mark A. (1991). "Nonlinear principal component analysis using autoassociative neural networks" (PDF). AIChE Journal. 37 (2): 233–243. doi:10.1002/aic.690370209.
  13. ^ Francois-Lavet, Vincent; Bengio, Yoshua; Precup, Doina; Pineau, Joelle (2019). "Combined Reinforcement Learning via Abstract Representations". Proceedings of the AAAI Conference on Artificial Intelligence. arXiv:1809.04506.
  14. ^ "Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing". Google AI Blog. Retrieved 2021-06-09.
  15. ^ Wilcox, Ethan; Qian, Peng; Futrell, Richard; Kohita, Ryosuke; Levy, Roger; Ballesteros, Miguel (2020). "Structural Supervision Improves Few-Shot Learning and Syntactic Generalization in Neural Language Models". Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, USA: Association for Computational Linguistics: 4640–4652. arXiv:2010.05725. doi:10.18653/v1/2020.emnlp-main.375. S2CID 222291675.
  16. ^ Grill, Jean-Bastien; Strub, Florian; Altché, Florent; Tallec, Corentin; Richemond, Pierre H.; Buchatskaya, Elena; Doersch, Carl; Pires, Bernardo Avila; Guo, Zhaohan Daniel; Azar, Mohammad Gheshlaghi; Piot, Bilal (2020-09-10). "Bootstrap your own latent: A new approach to self-supervised Learning". arXiv:2006.07733 [cs.LG].

외부 링크