약한 감독
Weak supervision![]() |
약한 감독이란 기계학습의 한 분야로서, 소음이 심하거나 제한적이거나 부정확한 출처를 사용하여 감독된 학습 환경에서 대량의 훈련 데이터에 라벨을 붙이는 감독신호를 제공한다.[1]이 접근법은 비용이 많이 들거나 비실용적일 수 있는 손으로 라벨을 붙인 데이터 세트를 얻는 부담을 덜어준다.대신에, 값싸고 약한 라벨은 불완전하지만, 그럼에도 불구하고 강력한 예측 모델을 만드는 데 사용될 수 있다.[2][3][4]
라벨이 부착된 교육 데이터의 문제
기계 학습 모델과 기법은 연구자와 개발자가 점점 더 쉽게 접근할 수 있다. 그러나 이러한 모델의 실제 유용성은 고품질 라벨링 교육 데이터에 대한 접근에 달려 있다.[5]라벨이 부착된 교육 데이터에 대한 이러한 필요성은 종종 조직 또는 산업 내 기계 학습 모델 적용에 중요한 장애물이 된다는 것을 입증한다.[1][dead link]이러한 병목현상은 다음과 같은 예를 포함하여 다양한 방법으로 나타난다.
라벨링된 데이터의 수량 부족
새로운 응용 프로그램이나 산업에서 머신러닝 기법을 처음 사용할 때, 전통적인 프로세스를 적용하기 위해 사용할 수 있는 교육 데이터가 충분하지 않은 경우가 많다.[6]일부 산업은 쉽게 구할 수 있는 수십 년간의 훈련 데이터의 이점을 가지고 있는데, 그렇지 않은 산업은 크게 불리하다.이러한 경우에, 훈련 데이터를 얻는 것은 비현실적이거나, 비용이 많이 들거나, 수 년을 기다리지 않고서는 불가능할 수 있다.
주제별 전문지식이 부족하여 데이터에 레이블을 붙일 수 없음
교육 데이터 라벨에 특정 관련 전문지식이 필요한 경우, 사용 가능한 교육 데이터 세트의 작성 비용이 급속도로 증가할 수 있다.[6]예를 들어, 이 문제는 기계 학습의 생물 의학 또는 보안 관련 애플리케이션에서 발생할 가능성이 높다.
데이터 레이블을 지정하고 준비할 시간이 부족함
머신러닝 구현에 필요한 대부분의 시간은 데이터 세트를 준비하는 데 소요된다.[6]산업이나 연구 분야가 본질적으로 빠르게 진화하는 문제를 다룰 때, 결과가 실제 애플리케이션에서 유용하게 쓰일 수 있을 만큼 충분히 빨리 데이터를 수집하고 준비하는 것은 불가능할 수 있다.예를 들어, 사기 탐지나 사이버 보안 애플리케이션에서 이 문제가 발생할 수 있다.
기계 학습의 다른 영역도 마찬가지로 라벨이 부착된 훈련 데이터의 양과 품질의 증가에 대한 수요에 의해 동기부여되지만 이러한 수요에 접근하기 위해 서로 다른 높은 수준의 기술을 사용한다.이러한 다른 접근법에는 능동적 학습, 준감독적 학습, 전수 학습이 포함된다.[1][dead link]
취약한 레이블의 유형
약한 라벨은 비용을 줄이고 손으로 라벨을 붙이는 데이터에 소비되는 인간의 노력의 효율성을 증가시키기 위한 것이다.여러 가지 형태를 취할 수 있으며, 다음과 같은 세 가지 유형으로 분류될 수 있다.
- 입력 그룹에 대한 글로벌 통계:이 설정은 샘플 봉지에 대한 글로벌 정보에 액세스하는 것으로 구성된다. 예를 들어, 주어진 샘플 하위 집합의 라벨 절반에 대한 정보를 알 수 있다.글로벌 통계 감리의 예로는 다중 인스턴스 학습과[7] 라벨 비율에 따른 학습이 있다.[8]
- 약한 분류자: 두 번째 접근법은 학습할 기능과 약하게 상관되는 많은 약한 분류자에 대한 접근을 가정하는 데 있다.이러한 분류자는 크라우드소싱 플랫폼, 전문가, 소음 측정 또는 경험적 규칙에서 라벨러를 모델링할 수 있다.보다 일반적으로 개발자는 기존 자원(예: 지식 기반, 대체 데이터 세트 또는 사전 교육된[1] 모델)을 활용하여 주어진 업무에 완벽히 적합하지는 않지만 유용한 라벨을 만들 수 있다.[9]
- 주석 미완료:마지막으로, 취약한 감독은 각 라벨에 있는 부분적인 지식의 접근으로 이해될 수 있다.이러한 부분적인 지식은 부패 과정으로 생각할 수 있다.[10]경우에 따라서는 부분 관찰을 이 부분 관찰과 양립할 수 있는 잠재적 라벨 집합으로 주조할 수 있는데, 이것이 부분 감시 설정이다.[11][12]부분 감시는 반 감독 학습의 일반화로서, 데이터 주석 병목 현상을 극복하기 위한 고전적 접근법이었다.
그 세 가지 설정을 넘어, 약하게 감독되는 학습에 동기를 부여하는 한계는 유도 논리 프로그래밍과 같은 인공지능의 오래된 접근방식을 되살리면서 사전이나[13] 기능 아키텍처의 형태로 인간의 지식을 활용함으로써 다루어질 수 있다.
취약한 감독 적용
약한 감독 적용은 기계 학습 연구 커뮤니티 내에서 수두룩하고 다양하다.
2014년 UC 버클리 연구진은 경험적 접근에 의해 생성된 라벨에만 의존하고 지상 진실 라벨 수집의 필요성을 완화시키는 반복 학습 알고리즘을 제안하기 위해 약한 감독 원칙을 이용했다.[14][15]스마트 미터 데이터에 알고리즘을 적용해 입주 데이터를 요구하지 않고 가구 점유에 대해 알아보는 것으로 IEEE Spectrum 기사에서 다루듯 사생활과 보안 문제가 제기돼 왔다.[16]
2018년 UC 리버사이드의 연구진은 훈련 중 행사의 시작 시간과 종료 시간에 대한 정보 없이 약한 감독, 즉 비디오 레벨 라벨만 사용하여 동영상의 동작/이벤트를 국지화하는 방법을 제안했다.그들의 작품은 두 비디오 사이에 주의력을 바탕으로 한 유사성을 도입했는데, 이것은 라벨이 약한 학습의 정석제 역할을 한다.이후 2019년 사용자들의 텍스트 쿼리를 이용해 동영상에 이벤트 현지화라는 새로운 문제를 도입했지만 훈련 중 주석이 약했다.후에 NEC Laboratory America와 협력하여 소스 의미 분할 모델을 대상 영역에 적응시키기 위해 약한 라벨을 가진 유사한 주의 기반 정렬 메커니즘이 도입되었다.[19]소스 모델을 이용하여 대상 영상의 취약한 라벨을 추정할 때는 감독되지 않은 도메인 적응이므로 대상 주석 비용이 필요하지 않으며, 주석자로부터 취약한 라벨을 획득할 때는 매우 적은 양의 주석 비용을 발생시켜 약하게 감독되는 도메인 적응 범주에 속하게 되는데, 이것이 첫 번째 침입이다.의미론적 세분화를 위해 이 작업에 투입되었다.
스탠퍼드대 연구진은 허술한 관리감독을 통해 훈련 데이터를 신속하게 조립할 수 있는 오픈소스 시스템인 스노클을 만들었다.[20]스노클은 데이터 프로그래밍 패러다임의 중심 원리를 채택하여 개발자들이 [9]프로그램적으로 데이터를 라벨링하는 데 사용되는 라벨링 기능을 만들고, 그러한 라벨링 기능의 정확성을 평가하기 위해 감독된 학습 기법을 채택한다.[21]이런 식으로 잠재적으로 낮은 품질의 입력을 사용하여 고품질 모델을 만들 수 있다.이후 스탠퍼드 AI랩 연구진은 최첨단 프로그램 데이터 라벨링과 취약한 관리 접근법을 이용해 스노클 프로젝트에서 유래한 스노클 AI를 만들어 AI 개발 비용과 시간을 대폭 줄이는 데 성공했다.[22]
스탠퍼드대 연구진은 구글과 공동 연구를 통해 기존 조직 지식자원이 취약한 감독원으로 전환돼 개발 비용과 시간을 크게 줄이는 데 활용할 수 있다는 사실을 보여줬다.[23]
2019년 매사추세츠공대와 구글 연구진은 기계학습과 딥러닝을 위한 최초의 표준화된 파이썬 패키지인 클린랩을 출시했다.[24]클린랩은 데이터 집합 라벨의 불확실성을 다루기 위한 이론과 알고리즘의 [25][26]프레임워크인 자신감 있는 학습을 (1) 데이터 집합에서 라벨 오류를 찾아내고 (2) 라벨 노이즈를 특성화하고 (3) 시끄러운 라벨로 취약한 감독과 학습에서 연구를 표준화 및 단순화한다.[27]
매사추세츠 대학교(University of Massachusetts Amherst)의 연구원들은 데이터 집합 내의 인스턴스(instance)가 아닌 특징에 대한 라벨을 요청함으로써 전통적인 능동적 학습 접근법을 강화할 것을 제안한다.[28]
존스 홉킨스 대학의 연구원들은 주석자가 각 데이터 주석을 지원하는 합리성을 제공하도록 함으로써 데이터 집합에 대한 라벨링 비용을 줄인 다음, 그러한 합리성을 사용하여 추가 데이터 표지를 위한 차별적 모델과 생성적 모델을 둘 다 훈련시킬 것을 제안한다.[29]
알버타 대학의 연구원들은 약한 감독으로 제공되는 불완전한 라벨의 품질을 높이기 위해 전통적인 능동적 학습 접근법을 적용하는 방법을 제안한다.[30]
참조
- ^ a b c d Alex Ratner, Stephen Bach, Paroma Varma, Chris Ré And referencing work by many other members of Hazy Research. "Weak Supervision: The New Programming Paradigm for Machine Learning". hazyresearch.github.io. Retrieved 2019-06-05.
{{cite web}}
: CS1 maint : 복수이름 : 작성자 목록(링크) - ^ Campagner, Andrea; Ciucci, Davide; Svensson, Carl Magnus; Figge, Marc Thilo; Cabitza, Federico (2021). "Ground truthing from multi-rater labeling with three-way decision and possibility theory". Information Sciences. 545: 771–790. doi:10.1016/j.ins.2020.09.049. S2CID 225116425.
- ^ Zhou, Zhi-Hua (2018). "A Brief Introduction to Weakly Supervised Learning" (PDF). National Science Review. 5: 44–53. doi:10.1093/NSR/NWX106. S2CID 44192968. Archived from the original (PDF) on 22 February 2019. Retrieved 4 June 2019.
- ^ Nodet, Pierre; Lemaire, Vincent; Bondu, Alexis; Cornuéjols, Antoine; Ouorou, Adam (2021). "From Weakly Supervised Learning to Biquality Learning: An Introduction". 2021 International Joint Conference on Neural Networks (IJCNN). pp. 1–10. arXiv:2012.09632. doi:10.1109/IJCNN52387.2021.9533353. ISBN 978-1-6654-3900-8. S2CID 237450775.
- ^ "Datasets Over Algorithms". Space Machine. Retrieved 2019-06-05.
- ^ a b c Roh, Yuji (8 Nov 2018). "A Survey on Data Collection for Machine Learning: A Big Data - AI Integration Perspective". arXiv:1811.03402 [cs.LG].
- ^ Dietterich, Thomas G.; Lathrop, Richard H.; Lozano-Pérez, Tomás (1 January 1997). "Solving the multiple instance problem with axis-parallel rectangles". Artificial Intelligence. 89 (1–2): 31–71. doi:10.1016/S0004-3702(96)00034-3.
- ^ Quadrianto, Novi; Smola, Alex J.; Caetano, Tibério S.; Le, Quoc V. (2009). "Estimating Labels from Label Proportions". Journal of Machine Learning Research. pp. 2349–2374.
- ^ a b Ré, Christopher; Selsam, Daniel; Wu, Sen; De Sa, Christopher; Ratner, Alexander (2016-05-25). "Data Programming: Creating Large Training Sets, Quickly". arXiv:1605.07723v3 [stat.ML].
- ^ Rooyen, Brendan van; Williamson, Robert C. (2018). "A Theory of Learning with Corrupted Labels". Journal of Machine Learning Research. pp. 1–50.
- ^ Hüllermeier, Eyke (2014). "Learning from imprecise and fuzzy observations: Data disambiguation through generalized loss minimization". International Journal of Approximate Reasoning. 55 (7): 1519–1534. arXiv:1305.0698. doi:10.1016/j.ijar.2013.09.003.
- ^ Cabannes, Vivien; Rudi, Alessandro; Bach, Francis (21 November 2020). "Structured Prediction with Partial Labelling through the Infimum Loss". International Conference on Machine Learning. PMLR. pp. 1230–1239.
- ^ Mann, Gideon S.; McCallum, Andrew (2010). "Generalized Expectation Criteria for Semi-Supervised Learning with Weakly Labeled Data". Journal of Machine Learning Research. pp. 955–984.
- ^ Jin, Ming; Jia, Ruoxi; Kang, Zhaoyi; Konstantakopoulos, Ioannis; Spanos, Costas (2014). "PresenceSense: zero-training algorithm for individual presence detection based on power monitoring". Proceedings of the 1st ACM Conference on Embedded Systems for Energy-Efficient Buildings: 1–10. doi:10.1145/2674061.2674073. S2CID 46950525.
- ^ Jin, Ming; Jia, Ruoxi; Spanos, Costas (2017). "Virtual occupancy sensing: using smart meters to indicate your presence". IEEE Transactions on Mobile Computing. 16 (11): 3264–3277. arXiv:1407.4395. doi:10.1109/TMC.2017.2684806. S2CID 1997078.
- ^ "What does smart meter know about you?". IEEE Spectrum.
- ^ Paul, Sujoy; Roy, Sourya; Roy-Chowdhury, Amit K. (2018). "W-TALC: Weakly-supervised Temporal Activity Localization and Classification". European Conference on Computer Vision (ECCV). arXiv:1807.10418.
- ^ Mithun, Niluthpol Chowdhury; Paul, Sujoy; Roy-Chowdhury, Amit K. (2019). "Weakly Supervised Video Moment Retrieval From Text Queries". Computer Vision and Pattern Recognition (CVPR). arXiv:1904.03282.
- ^ Paul, Sujoy; Tsai, Yi-Hsuan; Schulter, Samuel; Roy-Chowdhury, Amit K.; Chandraker, Manmohan (2020). "Domain Adaptive Semantic Segmentation Using Weak Labels". European Conference on Computer Vision (ECCV). arXiv:2007.15176.
- ^ "Snorkel and The Dawn of Weakly Supervised Machine Learning · Stanford DAWN". dawn.cs.stanford.edu. Retrieved 2019-06-05.
- ^ "Snorkel by HazyResearch". hazyresearch.github.io. Retrieved 2019-06-05.
- ^ "Snorkel AI scores $35M Series B to automate data labeling in machine learning". TechCrunch. Retrieved 2021-10-08.
- ^ Malkin, Rob; Ré, Christopher; Kuchhal, Rahul; Alborzi, Houman; Hancock, Braden; Ratner, Alexander; Sen, Souvik; Xia, Cassandra; Shao, Haidong (2018-12-02). "Snorkel DryBell: A Case Study in Deploying Weak Supervision at Industrial Scale". Proceedings. Acm-Sigmod International Conference on Management of Data. 2019: 362–375. arXiv:1812.00417. Bibcode:2018arXiv181200417B. doi:10.1145/3299869.3314036. PMC 6879379. PMID 31777414.
- ^ "Announcing cleanlab: a Python Package for ML and Deep Learning on Datasets with Label Errors". l7.curtisnorthcutt.com. Retrieved 2020-02-04.
- ^ "An Introduction to Confident Learning: Finding and Learning with Label Errors in Datasets". l7.curtisnorthcutt.com. Retrieved 2020-02-04.
- ^ Northcutt, Curtis G.; Jiang, Lu; Chuang, Isaac L. (2019-10-31). "Confident Learning: Estimating Uncertainty in Dataset Labels". arXiv:1911.00068 [stat.ML].
- ^ Northcutt, Curtis. "CleanLab for Finding and Learning with Noisy Labels". GitHub. Retrieved 9 October 2019.
- ^ Druck, Gregory. "Active Learning by Labeling Features" (PDF). Retrieved 4 June 2019.
- ^ Zaidan, Omar. "Machine Learning with Annotator Rationales to Reduce Annotation Cost" (PDF). Retrieved 4 June 2019.
- ^ Nashaat, Mona; Ghosh, Aindrila; Miller, James; Quader, Shaikh; Marston, Chad; Puget, Jean-Francois (December 2018). "Hybridization of Active Learning and Data Programming for Labeling Large Industrial Datasets". 2018 IEEE International Conference on Big Data (Big Data). Seattle, WA, USA: IEEE: 46–55. doi:10.1109/BigData.2018.8622459. ISBN 9781538650356. S2CID 59233854.