포장되지 않은 오류
Out-of-bag error다음에 대한 시리즈 일부 |
머신러닝 및 데이터 마이닝 |
---|
OOB(Out-of-Bag Out) 에러(Orror, Out-of-Baging) 에러(OOB)는 무작위 숲의 예측 에러, 부스팅된 의사결정 나무, 부트스트랩 집적(baging)을 활용한 기타 머신러닝 모델 등을 측정하는 방법이다.바깅은 모델이 배울 수 있는 교육 샘플을 만들기 위해 교체품과 함께 서브샘플링을 사용한다.OOB 오류는 부트스트랩 샘플에 x가i 없는 트리만 사용하여 각 교육 샘플 x의i 평균 예측 오류입니다.[1]
부트스트랩 집계는 차세대 기본 학습자 구성에서 사용되지 않았던 관측치에 대한 예측을 평가하여 예측 성능 향상에 대한 예측을 정의할 수 있다.
기본 제공 데이터 세트
부트스트랩 집계를 수행하면 두 개의 독립된 세트가 생성된다.한 세트인 부트스트랩 샘플은 대체 샘플로 샘플링하여 "가방 안"으로 선택한 데이터다.품절 세트는 샘플링 프로세스에서 선택하지 않은 모든 데이터다.
랜덤 포리스트를 구축할 때와 같이 이 과정이 반복되면 많은 부트스트랩 샘플과 OOB 세트가 생성된다.OOB 세트는 하나의 데이터 집합으로 통합할 수 있지만, 각 샘플은 부트스트랩 샘플에 포함하지 않는 트리에 대해서만 품절된 것으로 간주된다.아래 그림은 샘플링된 각 가방에 대해 데이터가 두 그룹으로 분리되어 있음을 보여준다.
이 사례는 백깅이 질병 진단이라는 맥락에서 어떻게 사용될 수 있는지를 보여준다.환자 세트는 원래 데이터 집합이지만, 각 모델은 가방 안에 있는 환자들에 의해서만 훈련을 받는다.각 가방 밖의 세트에 있는 환자들은 각각의 모델을 테스트하는 데 사용될 수 있다.이 테스트는 모델이 환자의 질병 여부를 정확하게 판단할 수 있는지 여부를 고려할 것이다.
품절 오류 계산 중
각 아웃오브백 세트는 모델 트레이닝에 사용되지 않기 때문에 모델 성능을 위한 좋은 테스트다.OOB 오류의 구체적인 계산은 모델 구현에 따라 다르지만 일반적인 계산은 다음과 같다.
- OOB 인스턴스에 의해 훈련되지 않은 모든 모델(또는 무작위 포리스트의 경우 나무)을 찾으십시오.
- OOB 인스턴스의 실제 가치와 비교하여 OOB 인스턴스에 대한 이러한 모델 결과의 과반수를 확보하십시오.
- OOB 데이터 집합의 모든 인스턴스에 대한 OOB 오류를 컴파일하십시오.
바깅 프로세스는 모델의 요구에 맞게 맞춤화할 수 있다.정확한 모델을 보장하기 위해 부트스트랩 훈련 샘플 크기는 원래 세트와 비슷해야 한다.[2]또한 모델(포리스트)의 반복 횟수(트리)를 고려하여 진정한 OOB 오류를 찾아야 한다.OOB 오류는 많은 반복에 걸쳐 안정화될 것이므로 높은 반복 횟수로 시작하는 것이 좋다.[3]
오른쪽 예에 나타난 OOB 오류는 포리스트가 설정되면 위의 방법을 사용하여 찾을 수 있다.
교차 검증과 비교
Out-of-barget error와 교차 검증(CV)은 기계 학습 모델의 오차 추정치를 측정하는 다른 방법이다.여러 번 반복할 경우 두 방법은 매우 유사한 오차 추정치를 산출해야 한다.즉, OOB 오류가 안정화되면 교차 검증(특히 1-아웃 교차 검증) 오류로 수렴한다.[3]OOB 방식의 장점은 연산이 덜 필요하며 훈련 중인 모델을 테스트할 수 있다는 점이다.
정확성과 일관성
Out-of-bag error는 랜덤 포리스트 내에서 오류 추정에 자주 사용되지만 Silke Janitza와 Roman Hornung의 연구의 결론에 따라 Out-of-bag error는 모든 반응 등급(균형 표본), 작은 표본 크기, 많은 수의 예측 변수 v를 포함하는 설정에서 과대평가되는 것으로 나타났다.아리블, 예측 변수 간의 작은 상관 관계 및 약한 효과.[4]
참고 항목
참조
- ^ James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2013). An Introduction to Statistical Learning. Springer. pp. 316–321.
- ^ Ong, Desmond (2014). A primer to bootstrapping; and an overview of doBootstrap (PDF). pp. 2–4.
- ^ a b Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2008). The Elements of Statistical Learning (PDF). Springer. pp. 592–593.
- ^ Janitza, Silke; Hornung, Roman (2018-08-06). "On the overestimation of random forest's out-of-bag error". PLOS ONE. 13 (8): e0201904. doi:10.1371/journal.pone.0201904. ISSN 1932-6203. PMC 6078316. PMID 30080866.