교육, 검증 및 테스트 데이터 세트

Training, validation, and test data sets

기계학습에서 공통적인 작업은 [1]데이터를 학습하고 예측할 수 있는 알고리즘의 연구와 구축이다.이러한 알고리즘은 입력 데이터에서 수학적 모델을 구축하여 데이터 중심의 예측 또는 [2]결정을 함으로써 기능합니다.모형을 만드는 데 사용되는 이러한 입력 데이터는 일반적으로 여러 데이터 집합으로 나뉩니다.특히 모델 작성의 다른 단계인 훈련, 검증 및 테스트 세트에 세 가지 데이터 세트가 일반적으로 사용됩니다.

모델은 처음에 모델의 [4]매개 변수(예: 인공 신경망의 뉴런 간 연결 무게)를 맞추는 데 사용되는 예제의 집합인 훈련 데이터 [3]세트에 적합하다.모델(예: 순진한 베이즈 분류기)은 예를 들어 경사 강하 또는 확률적 경사 강하와 같은 최적화 방법을 사용하여 지도 학습 방법을 사용하여 훈련 데이터 세트에 대해 훈련된다.실제로 훈련 데이터 세트는 종종 입력 벡터(또는 스칼라)와 대응하는 출력 벡터(또는 스칼라)의 쌍으로 구성되며, 여기서 응답 키는 일반적으로 타겟(또는 라벨)으로 표시됩니다.현재 모델은 교육 데이터 세트와 함께 실행되며, 교육 데이터 세트의 각 입력 벡터에 대해 대상과 비교되는 결과를 생성합니다.비교 결과와 이용되고 있는 특정 학습 알고리즘에 근거해 모델의 파라미터를 조정한다.모형 적합에는 변수 선택과 모수 추정이 모두 포함될 수 있습니다.

이어서 적합 모형은 검증 데이터 [3]집합이라는 두 번째 데이터 집합에서 관측치에 대한 반응을 예측하는 데 사용됩니다.검증 데이터 세트는 모델의 하이퍼 파라미터[5](예: 뉴럴[4] 네트워크에서 숨겨진 단위(레이어 및 레이어 폭)의 수)를 조정하는 동안 교육 데이터 세트에 맞는 모델에 대한 편견 없는 평가를 제공합니다.검증 데이터셋은 조기 중지(교육 데이터셋에 [6]대한 과적합 징후이므로 검증 데이터셋의 오류가 증가하면 교육을 중단함)하여 정규화에 사용할 수 있습니다.이 간단한 절차는 교육 중에 검증 데이터 세트의 오류가 변동하여 여러 로컬 최소값이 생성될 수 있기 때문에 실제로는 복잡합니다.이러한 복잡성으로 인해 과체중이 실제로 언제 [6]시작되었는지를 결정하기 위한 많은 임시 규칙이 생겨났다.

마지막으로 테스트 데이터 세트는 트레이닝 데이터 [5]세트에 적합한 최종 모델에 대한 편견 없는 평가를 제공하기 위해 사용되는 데이터 세트입니다.테스트 데이터 세트의 데이터가 훈련(예: 교차 검증)에서 사용된 적이 없는 경우 테스트 데이터 세트를 홀드아웃 데이터 세트라고도 합니다.일부 문헌에서는 "검증 세트" 대신 "검증 세트"라는 용어를 사용하는 경우가 있다(예: 원래 데이터 세트가 두 개의 하위 세트로만 분할된 경우, 테스트 세트를 유효성 검사 [5]세트라고 할 수 있다).

훈련, 테스트 및 검증 세트의 데이터 세트 분할 규모와 전략을 결정하는 것은 문제와 이용 가능한 데이터에 크게 [7]의존합니다.

트레이닝 데이터 세트

트레이닝 데이터 세트는, 학습 프로세스중에 사용되는 예시의 데이터 세트이며, 예를 들면 [8][9]분류기의 파라메타(예를 들면 중량)를 맞추기 위해서 사용됩니다.

분류 작업의 경우, 감독된 학습 알고리즘은 훈련 데이터 세트를 살펴보고 좋은 예측 [10]모델을 생성하는 최적의 변수 조합을 결정하거나 학습합니다.목표는 알려지지 않은 새로운 [11]데이터에 대해 잘 일반화하는 훈련된(적합된) 모형을 생성하는 것입니다.적합 모형은 보류된 데이터 집합(검증 및 검정 데이터 집합)의 "새" 예를 사용하여 평가되어 새 [5]데이터 분류에 대한 모형의 정확도를 추정합니다.과적합과 같은 문제의 위험을 줄이기 위해 검증 및 테스트 데이터 세트의 예를 사용하여 [5]모델을 교육해서는 안 된다.

경험적 관계를 위해 훈련 데이터를 검색하는 대부분의 접근 방식은 데이터를 과도하게 적합시키는 경향이 있으며, 이는 일반적으로 유지되지 않는 훈련 데이터에서 명백한 관계를 식별하고 활용할 수 있음을 의미합니다.

검증 데이터 세트

검증 데이터 세트는 분류기의 하이퍼 파라미터(아키텍처)를 조정하기 위해 사용되는 예시의 데이터 세트이다.개발 세트 또는 "개발 세트"[12]라고도 합니다.인공신경망을 위한 하이퍼 파라미터의 예는 각 레이어 [8][9]내의 숨겨진 유닛의 수를 포함한다.테스트 세트(아래 설명)와 마찬가지로 훈련 데이터 세트와 동일한 확률 분포를 따라야 합니다.

과적합을 방지하기 위해 분류 매개변수를 조정해야 할 경우 교육 및 테스트 데이터 세트 외에 검증 데이터 세트가 필요합니다.예를 들어 문제에 가장 적합한 분류자를 찾는 경우, 훈련 데이터 세트를 사용하여 다른 후보 분류자를 훈련시키고, 검증 데이터 세트를 사용하여 성능을 비교하고, 어느 것을 취할지를 결정하고, 마지막으로 테스트 데이터 세트를 사용하여 정확도, 감도 등의 성능 특성을 얻는다.y, 특이성, F-measure 등입니다.검증 데이터 세트는 하이브리드로서 기능합니다.테스트에 사용되는 트레이닝 데이터는 저레벨 트레이닝의 일부로서도 최종 테스트의 일부로서도 아닙니다.

모델 선택에 검증 데이터 세트를 사용하는 기본 프로세스는 다음과 같습니다([9][13]교육 데이터 세트, 검증 데이터 세트 및 테스트 데이터 세트의 일부).

새로운 데이터에 대해 최고의 성능을 발휘하는 네트워크를 찾는 것이 목표이므로, 서로 다른 네트워크를 비교하는 가장 간단한 방법은 훈련에 사용되는 데이터와 독립적인 데이터를 사용하여 오류 함수를 평가하는 것입니다.트레이닝 데이터 세트에 대해 정의된 적절한 에러 함수를 최소화함으로써 다양한 네트워크를 트레이닝한다.다음으로 독립된 검증 세트를 사용하여 오류 함수를 평가함으로써 네트워크의 성능을 비교하고 검증 세트에 관해 오류가 가장 작은 네트워크를 선택한다.이 방법을 홀드아웃 방식이라고 합니다.이 절차 자체가 검증 세트에 대한 과적합으로 이어질 수 있으므로 선택한 네트워크의 퍼포먼스는 테스트세트라고 불리는 세 번째 독립된 데이터 세트에서 측정하여 확인해야 합니다.

이 프로세스의 어플리케이션은 조기정지 시에 후보 모델이 같은 네트워크의 연속적인 반복이며 검증 세트의 에러가 커지면 트레이닝이 정지되어 이전 모델(오차가 최소인 모델)을 선택합니다.

테스트 데이터 세트

검정 데이터 세트는 교육 데이터 세트와는 독립적이지만 교육 데이터 세트와 동일한 확률 분포를 따르는 데이터 세트입니다.교육 데이터 세트에 적합된 모형이 검정 데이터 세트에도 적합하면 최소 과적합이 발생한 것입니다(아래 그림 참조).검정 데이터 집합이 아니라 교육 데이터 집합이 더 잘 적합될 경우 일반적으로 과적합이 발생합니다.

따라서 테스트 세트는 완전히 지정된 [8][9]분류기의 성능(즉, 일반화)을 평가하는 데만 사용되는 일련의 예시이다.이를 위해 최종 모형을 사용하여 테스트 세트의 예제 분류를 예측합니다.이러한 예측은 모델의 [10]정확성을 평가하기 위해 사례의 실제 분류와 비교됩니다.

검증 및 테스트 데이터 세트를 모두 사용하는 시나리오에서는 일반적으로 테스트 데이터 세트를 사용하여 검증 프로세스 중에 선택된 최종 모델을 평가합니다.원래 데이터 세트가 두 개의 하위 세트(훈련 및 테스트 데이터 세트)로 분할된 경우, 테스트 데이터 세트는 모델을 한 번만 평가할 수 있습니다(예: 보류 방법).[14]일부 출처는 이러한 [11]방법을 사용하지 말 것을 권장합니다.그러나 교차 검증과 같은 방법을 사용할 경우, 두 개의 파티션이 충분하고 효과적일 수 있습니다. 이는 모델 훈련과 테스트를 반복한 후 결과가 평균화되어 편향과 [5][11]변동성을 줄이는 데 도움이 되기 때문입니다.


동일한 통계 모집단의 교육 세트(왼쪽)와 테스트 세트(오른쪽)가 파란색 점으로 표시됩니다.교육 데이터에 두 가지 예측 모형이 적합됩니다.두 적합 모형 모두 교육 및 검정 집합과 함께 표시됩니다.교육 세트에서 주황색으로 표시된 적합치의 MSE는 4인 반면 녹색으로 표시된 적합치의 MSE는 9입니다.테스트 세트에서 주황색으로 표시된 적합성의 MSE는 15이고 녹색으로 표시된 적합성의 MSE는 13입니다.검정 세트를 교육 세트와 비교할 때 MSE가 거의 4배 증가하므로 주황색 곡선은 교육 데이터에 매우 적합합니다.MSE가 2배 미만으로 증가하므로 녹색 곡선은 교육 데이터에 훨씬 더 적합합니다.

용어 혼선

테스트는 그것에 대해 알아내기 위한 무엇인가를 시도하는 것이고('Collaborative International Dictionary of English Dictionary'에 따르면 '실험을 통해 진실, 진실 또는 품질을 증명하는 것'), '검증하는 것'은 'Collaborative International Dictionary of English'이다.이러한 관점에서 테스트 세트와 검증 세트라는 용어의 가장 일반적인 용도는 여기에 설명되어 있는 것입니다.그러나 산업계와 학계에서는 내부 프로세스가 개선해야 할 여러 모델을 테스트하고 있으며(개발 세트로 테스트 세트), 최종 모델은 보이지 않는 데이터(검증 세트)로 실제 사용하기 전에 검증해야 하는 모델임을 고려하여 상호 교환하여 사용하는 경우가 있습니다."기계 학습에 관한 문헌은 종종 '검증'과 '테스트' 세트의 의미를 뒤집습니다.이는 인공지능 [15]연구에 만연해 있는 용어 혼동을 가장 노골적으로 보여주는 사례다.그럼에도 불구하고, 유지해야 하는 중요한 개념은 테스트 또는 검증이라고 불리는 최종 세트를 최종 실험에서만 사용해야 한다는 것이다.

교차 검증

보다 안정적인 결과를 얻고 모든 중요한 데이터를 교육에 사용하기 위해 데이터 세트를 여러 교육 및 검증 데이터 세트로 반복적으로 분할할 수 있습니다.이를 교차 검증이라고 합니다.모델 성능을 검증하기 위해 일반적으로 교차 검증을 거치지 않은 추가 검정 데이터 세트가 사용됩니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Ron Kohavi; Foster Provost (1998). "Glossary of terms". Machine Learning. 30: 271–274. doi:10.1023/A:1007411609915.
  2. ^ Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. New York: Springer. p. vii. ISBN 0-387-31073-8. Pattern recognition has its origins in engineering, whereas machine learning grew out of computer science. However, these activities can be viewed as two facets of the same field, and together they have undergone substantial development over the past ten years.
  3. ^ a b James, Gareth (2013). An Introduction to Statistical Learning: with Applications in R. Springer. p. 176. ISBN 978-1461471370.
  4. ^ a b Ripley, Brian (1996). Pattern Recognition and Neural Networks. Cambridge University Press. p. 354. ISBN 978-0521717700.
  5. ^ a b c d e f Brownlee, Jason (2017-07-13). "What is the Difference Between Test and Validation Datasets?". Retrieved 2017-10-12.
  6. ^ a b Prechelt, Lutz; Geneviève B. Orr (2012-01-01). "Early Stopping — But When?". In Grégoire Montavon; Klaus-Robert Müller (eds.). Neural Networks: Tricks of the Trade. Lecture Notes in Computer Science. Springer Berlin Heidelberg. pp. 53–67. doi:10.1007/978-3-642-35289-8_5. ISBN 978-3-642-35289-8.
  7. ^ "Machine learning - Is there a rule-of-thumb for how to divide a dataset into training and validation sets?". Stack Overflow. Retrieved 2021-08-12.{{cite web}}: CS1 maint :url-status (링크)
  8. ^ a b c Ripley, B.D.(1996) 패턴 인식뉴럴 네트워크, 캠브리지:케임브리지 대학 출판부, 354쪽
  9. ^ a b c d "제목: 모집단, 샘플, 트레이닝 세트, 설계 세트, 검증 세트, 테스트 세트란 무엇입니까?", 뉴럴 네트워크 FAQ, 파트 1/7: 소개(txt), comp.ai.sarle-nets, W.S., ed. (1997, 최종 수정 2002-05-17)
  10. ^ a b Larose, D. T.; Larose, C. D. (2014). Discovering knowledge in data : an introduction to data mining. Hoboken: Wiley. doi:10.1002/9781118874059. ISBN 978-0-470-90874-7. OCLC 869460667.
  11. ^ a b c Xu, Yun; Goodacre, Royston (2018). "On Splitting Training and Validation Set: A Comparative Study of Cross-Validation, Bootstrap and Systematic Sampling for Estimating the Generalization Performance of Supervised Learning". Journal of Analysis and Testing. Springer Science and Business Media LLC. 2 (3): 249–262. doi:10.1007/s41664-018-0068-2. ISSN 2096-241X. PMC 6373628. PMID 30842888.
  12. ^ "Deep Learning". Coursera. Retrieved 2021-05-18.
  13. ^ Bishop, C.M.(1995), Neural Networks for Pattern Recognition, Oxford:옥스퍼드 대학 출판부, 372쪽
  14. ^ Kohavi, Ron (2001-03-03). "A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection". 14. {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  15. ^ Ripley, Brian D. (2009). Pattern recognition and neural networks. Cambridge Univ. Press. pp. Glossary. ISBN 9780521717700. OCLC 601063414.