누출(기계 학습)
Leakage (machine learning)| 다음에 대한 시리즈 일부 |
| 머신러닝 및 데이터 마이닝 |
|---|
통계와 머신러닝에서 누출(데이터 누출 또는 표적 누출이라고도 함)은 예측 시간에 이용할 수 없을 것으로 예상되는 모델 훈련 프로세스의 정보를 사용하는 것으로, 예측 점수(메트릭스)가 생산 환경에서 실행될 때 모델의 효용을 과대평가하게 한다.[1]
누출은 종종 미묘하고 간접적이어서 감지하고 제거하기 어렵다.누설은 통계학자나 모델러가 차선의 모델을 선택하게 할 수 있으며, 이는 누출 없는 모델에 의해 능가될 수 있다.[1]
누출 모드
기계 학습 과정에서 많은 단계에서 누출이 발생할 수 있다.누출 원인은 모델에서 가능한 두 가지 누출 원인, 즉 특징과 훈련 사례로 분류할 수 있다.[1]
기능누설
형상 또는 열-현상 누출은 중복 레이블, 레이블의 프록시 또는 레이블 자체 중 하나인 열을 포함함으로써 발생한다.시대착오적인 것으로 알려진 이러한 특징은 예측을 위해 모델을 사용할 때는 사용할 수 없으며, 모델을 훈련할 때 포함하면 누설이 발생한다.[2]
예를 들어, "YearlySalary"를 예측할 때 "MonthlySalary" 열을 포함하거나, "IsLate"를 예측할 때 "MinuteLate" 열을 포함하거나, "HaveGiveLoan"을 예측할 때 보다 미묘하게 "NumOfLatePayments" 열을 포함하십시오.
교육예시누설
행-현상 유출은 데이터 행 간의 부적절한 정보 공유로 발생한다.행-와이즈 누출의 유형은 다음과 같다.
- 조기 기능, CV/Train/Test split 전 조기 기능 누수(열차 분할에만 MinMax/ngr그램/etc를 장착하고 테스트 세트를 변환해야 함)
- 열차/검증/테스트 사이의 중복 행(예: 분할하기 전에 데이터 집합을 오버샘플링하여 크기를 패딩함, 예: 단일 이미지의 서로 다른 회전/증강, 분할 전 부트스트랩 샘플링, 또는 소수점 이하 샘플에 행을 복제함)
- 비i.i.d. 데이터
시간 의존적인 데이터 집합의 경우, 연구되고 있는 시스템의 구조는 시간이 지남에 따라 진화한다(즉, "비정전적"이다).이것은 훈련과 검증 세트 사이에 체계적인 차이를 도입할 수 있다.예를 들어, 주가 예측 모델을 특정 5년 동안 데이터에 대해 교육한다면, 후속 5년 기간을 동일한 모집단의 추첨으로 취급하는 것은 비현실적이다.또 다른 예로, 특정 질병으로 진단될 수 있는 개인의 위험을 예측하기 위한 모델이 향후 1년 내에 개발되었다고 가정해 보자.
탐지
참고 항목
참조
- ^ a b c Shachar Kaufman; Saharon Rosset; Claudia Perlich (January 2011). "Leakage in Data Mining: Formulation, Detection, and Avoidance". Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 6: 556–563. doi:10.1145/2020408.2020496. Retrieved 13 January 2020.
- ^ Soumen Chakrabarti (2008). "9". Data Mining: Know it All. Morgan Kaufmann Publishers. p. 383. ISBN 978-0-12-374629-0.
Anachronistic variables are a pernicious mining problem. However, they aren't any problem at all at deployment time—unless someone expects the model to work! Anachronistic variables are out of place in time. Specifically, at data modeling time, they carry information back from the future to the past.
- ^ Guts, Yuriy (30 October 2018). Yuriy Guts. TARGET LEAKAGE IN MACHINE LEARNING (Talk). AI Ukraine Conference. Ukraine – via YouTube.
- Yuriy Guts. "Target Leakage in ML" (PDF). AI Ukraine Online Conference.
- ^ Nick, Roberts (16 November 2017). "Replying to @AndrewYNg @pranavrajpurkar and 2 others". Brooklyn, NY, USA: Twitter. Archived from the original on 10 June 2018. Retrieved 13 January 2020.
Replying to @AndrewYNg @pranavrajpurkar and 2 others ... Were you concerned that the network could memorize patient anatomy since patients cross train and validation? "ChestX-ray14 dataset contains 112,120 frontal-view X-ray images of 30,805 unique patients. We randomly split the entire dataset into 80% training, and 20% validation."