포장되지 않은 오류

Out-of-bag error

OOB(Out-of-Bag Out) 에러(Orror, Out-of-Baging) 에러(OOB)는 무작위 숲의 예측 에러, 부스팅된 의사결정 나무, 부트스트랩 집적(baging)을 활용한 기타 머신러닝 모델 등을 측정하는 방법이다.바깅은 모델이 배울 수 있는 교육 샘플을 만들기 위해 교체품과 함께 서브샘플링을 사용한다.OOB 오류는 부트스트랩 샘플에 xi 없는 트리만 사용하여 각 교육 샘플 xi 평균 예측 오류입니다.[1]

부트스트랩 집계는 차세대 기본 학습자 구성에서 사용되지 않았던 관측치에 대한 예측을 평가하여 예측 성능 향상에 대한 예측을 정의할 수 있다.

기본 제공 데이터 세트

부트스트랩 집계를 수행하면 두 개의 독립된 세트가 생성된다.한 세트인 부트스트랩 샘플은 대체 샘플로 샘플링하여 "가방 안"으로 선택한 데이터다.품절 세트는 샘플링 프로세스에서 선택하지 않은 모든 데이터다.

랜덤 포리스트를 구축할 때와 같이 이 과정이 반복되면 많은 부트스트랩 샘플과 OOB 세트가 생성된다.OOB 세트는 하나의 데이터 집합으로 통합할 수 있지만, 각 샘플은 부트스트랩 샘플에 포함하지 않는 트리에 대해서만 품절된 것으로 간주된다.아래 그림은 샘플링된 각 가방에 대해 데이터가 두 그룹으로 분리되어 있음을 보여준다.

백깅 프로세스를 시각화하는 중.원래 세트에서 4명의 환자를 교체와 함께 샘플링하고 가방 밖으로 나온 세트를 보여준다.부트스트랩 샘플에 있는 환자만 해당 가방의 모델을 교육하는 데 사용될 수 있다.

이 사례는 백깅이 질병 진단이라는 맥락에서 어떻게 사용될 수 있는지를 보여준다.환자 세트는 원래 데이터 집합이지만, 각 모델은 가방 안에 있는 환자들에 의해서만 훈련을 받는다.각 가방 밖의 세트에 있는 환자들은 각각의 모델을 테스트하는 데 사용될 수 있다.이 테스트는 모델이 환자의 질병 여부를 정확하게 판단할 수 있는지 여부를 고려할 것이다.

품절 오류 계산 중

각 아웃오브백 세트는 모델 트레이닝에 사용되지 않기 때문에 모델 성능을 위한 좋은 테스트다.OOB 오류의 구체적인 계산은 모델 구현에 따라 다르지만 일반적인 계산은 다음과 같다.

  1. OOB 인스턴스에 의해 훈련되지 않은 모든 모델(또는 무작위 포리스트의 경우 나무)을 찾으십시오.
  2. OOB 인스턴스의 실제 가치와 비교하여 OOB 인스턴스에 대한 이러한 모델 결과의 과반수를 확보하십시오.
  3. OOB 데이터 집합의 모든 인스턴스에 대한 OOB 오류를 컴파일하십시오.
OOB 오류의 예

바깅 프로세스는 모델의 요구에 맞게 맞춤화할 수 있다.정확한 모델을 보장하기 위해 부트스트랩 훈련 샘플 크기는 원래 세트와 비슷해야 한다.[2]또한 모델(포리스트)의 반복 횟수(트리)를 고려하여 진정한 OOB 오류를 찾아야 한다.OOB 오류는 많은 반복에 걸쳐 안정화될 것이므로 높은 반복 횟수로 시작하는 것이 좋다.[3]

오른쪽 예에 나타난 OOB 오류는 포리스트가 설정되면 위의 방법을 사용하여 찾을 수 있다.

교차 검증과 비교

Out-of-barget error와 교차 검증(CV)은 기계 학습 모델의 오차 추정치를 측정하는 다른 방법이다.여러 번 반복할 경우 두 방법은 매우 유사한 오차 추정치를 산출해야 한다.즉, OOB 오류가 안정화되면 교차 검증(특히 1-아웃 교차 검증) 오류로 수렴한다.[3]OOB 방식의 장점은 연산이 덜 필요하며 훈련 중인 모델을 테스트할 수 있다는 점이다.

정확성과 일관성

Out-of-bag error는 랜덤 포리스트 내에서 오류 추정에 자주 사용되지만 Silke Janitza와 Roman Hornung의 연구의 결론에 따라 Out-of-bag error는 모든 반응 등급(균형 표본), 작은 표본 크기, 많은 수의 예측 변수 v를 포함하는 설정에서 과대평가되는 것으로 나타났다.아리블, 예측 변수 간의 작은 상관 관계 및 약한 효과.[4]

참고 항목

참조

  1. ^ James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2013). An Introduction to Statistical Learning. Springer. pp. 316–321.
  2. ^ Ong, Desmond (2014). A primer to bootstrapping; and an overview of doBootstrap (PDF). pp. 2–4.
  3. ^ a b Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2008). The Elements of Statistical Learning (PDF). Springer. pp. 592–593.
  4. ^ Janitza, Silke; Hornung, Roman (2018-08-06). "On the overestimation of random forest's out-of-bag error". PLOS ONE. 13 (8): e0201904. doi:10.1371/journal.pone.0201904. ISSN 1932-6203. PMC 6078316. PMID 30080866.