지도 학습

Supervised learning

SL(Supervised Learning)은 입력과 출력의 [1]쌍 예를 기반으로 입력을 출력에 매핑하는 함수를 학습하는 기계 학습 태스크입니다.일련의 교육 [2]예시로 구성된 레이블이 지정된 교육 데이터에서 함수를 추론합니다.지도 학습에서는 각 예가 입력 객체(일반적으로 벡터)와 원하는 출력 값(감독 신호라고도 함)으로 구성된 입니다.지도 학습 알고리즘은, 트레이닝 데이터를 해석해, 새로운 예시의 매핑에 사용할 수 있는 유추 함수를 생성한다.최적의 시나리오에서는 알고리즘이 보이지 않는 인스턴스의 클래스 라벨을 올바르게 결정할 수 있습니다.이를 위해서는 교육 데이터에서 보이지 않는 상황까지 "합리적인" 방식으로 일반화하는 학습 알고리즘이 필요합니다(귀납적 편향 참조).알고리즘의 이 통계적 품질은 이른바 일반화 오류를 통해 측정됩니다.

인간과 동물 심리학에서 병행되는 작업은 종종 개념 학습이라고 불립니다.

따라야 할 단계

주어진 지도 학습 문제를 해결하려면 다음 단계를 수행해야 합니다.

  1. 트레이닝의 예를 특정합니다.다른 작업을 수행하기 전에 사용자는 훈련 세트로 사용할 데이터의 종류를 결정해야 합니다.를 들어, 필적 분석의 경우, 이것은 하나의 손으로 쓴 문자, 전체 손으로 쓴 단어, 전체 손으로 쓴 문장 또는 전체 손으로 쓴 단락일 수 있습니다.
  2. 트레이닝 세트를 수집합니다.훈련 세트는 기능의 실제 사용을 대표해야 합니다.따라서 입력 객체 세트가 수집되고 해당 출력도 인간 전문가 또는 측정에서 수집됩니다.
  3. 학습된 함수의 입력 피쳐 표현을 결정합니다.학습된 함수의 정확도는 입력 객체가 어떻게 표현되는지에 따라 크게 달라집니다.일반적으로 입력 객체는 객체를 설명하는 다수의 피쳐를 포함하는 피쳐 벡터로 변환됩니다.치수성의 단점이 있기 때문에 피쳐의 수는 너무 커서는 안 되지만 출력을 정확하게 예측하기에 충분한 정보를 포함해야 합니다.
  4. 학습된 기능과 대응하는 학습 알고리즘의 구조를 결정합니다.예를 들어, 엔지니어는 서포트 벡터 머신 또는 의사결정 트리를 사용할 수 있습니다.
  5. 설계를 완료합니다.수집된 교육 세트에서 학습 알고리즘을 실행합니다.일부 지도 학습 알고리즘에서는 사용자가 특정 제어 매개 변수를 결정해야 합니다.이러한 매개변수는 교육 세트의 하위 집합(검증 세트라고 함)에 대한 성능을 최적화하거나 교차 검증을 통해 조정할 수 있습니다.
  6. 학습된 기능의 정확성을 평가합니다.매개변수 조정 및 학습 후, 결과 기능의 성능은 교육 세트와는 별도의 테스트 세트에서 측정해야 합니다.

알고리즘 선택

다양한 지도 학습 알고리즘을 사용할 수 있으며, 각각 장단점이 있습니다.모든 지도 학습 문제에 가장 적합한 단일 학습 알고리즘은 없습니다(무상급식 정리 참조).

지도형 학습에서 고려해야 할 4가지 주요 문제가 있습니다.

바이어스-분산 트레이드오프

첫 번째 이슈는 편견[3]분산 사이의 균형이다.이용 가능한 트레이닝 데이터 세트가 여러 개 있습니다만, 마찬가지로 우수합니다.학습 알고리즘은 각 데이터 세트에 대해 훈련되었을 때 출력을 예측할 때 체계적으로 올바르지 않은 경우 특정 xx 대해 편향됩니다. 학습 알고리즘은 다른 출력 v를 예측할 경우 특정 x(\ x 대해 높은 편차를 보입니다.다른 트레이닝 세트에 대해 훈련을 받으면 변화합니다.학습된 분류기의 예측 오류는 학습 [4]알고리즘의 편향과 분산의 합과 관련이 있습니다.일반적으로 편견과 분산 사이에는 트레이드오프가 있다.편향성이 낮은 학습 알고리즘은 데이터에 잘 적합하도록 "유연성"이어야 합니다.그러나 학습 알고리즘이 너무 유연하면 각 교육 데이터 세트에 서로 다르게 적합하기 때문에 편차가 커집니다.많은 지도 학습 방법의 핵심 측면은 편향과 분산 사이의 이 트레이드오프를 조정할 수 있다는 것이다(자동적으로 또는 사용자가 조정할 수 있는 편향/분산 매개변수를 제공함으로써).

기능의 복잡성과 트레이닝 데이터의 양

두 번째 문제는 "참" 함수(분류기 또는 회귀 함수)의 복잡성과 관련하여 사용 가능한 훈련 데이터의 양이다.진정한 함수가 단순하다면, 높은 편중과 낮은 분산을 가진 "유연하지 않은" 학습 알고리즘은 적은 양의 데이터로부터 그것을 학습할 수 있을 것이다.그러나 진정한 함수가 매우 복잡한 경우(예를 들어, 많은 다른 입력 기능 간의 복잡한 상호작용을 포함하고 입력 공간의 다른 부분에서 다르게 동작하기 때문에), 함수는 매우 많은 양의 훈련 데이터로부터만 학습할 수 있으며 낮은 편향과 높은 가변성을 가진 "유연한" 학습 알고리즘을 사용할 수 있습니다.ce. 입력과 원하는 출력 사이에는 명확한 구분이 있습니다.

입력 공간의 치수

세 번째 문제는 입력 공간의 치수입니다.입력 특징 벡터가 매우 고차원일 경우, 진정한 함수가 그러한 특징의 소수에만 의존하더라도 학습 문제는 어려울 수 있습니다.이는 많은 "추가" 차원이 학습 알고리즘을 혼란스럽게 하고 높은 편차를 일으킬 수 있기 때문입니다.따라서 높은 입력 치수는 일반적으로 낮은 분산과 높은 바이어스를 가지도록 분류기를 조정해야 합니다.실제로 엔지니어가 입력 데이터에서 관련 없는 기능을 수동으로 제거할 수 있다면 학습된 기능의 정확도가 향상될 가능성이 높습니다., 관련하는 기능을 특정해, 관련하지 않는 기능을 폐기하려고 하는 기능 선택 알고리즘도 많이 있습니다.이것은 지도 학습 알고리즘을 실행하기 전에 입력 데이터를 저차원 공간에 매핑하려는 차원 축소 전략의 한 예입니다.

출력값 노이즈

네 번째 문제는 원하는 출력값(슈퍼바이저 타깃 변수)의 노이즈 정도입니다.(인간의 오류 또는 센서 오류로 인해) 원하는 출력 값이 자주 올바르지 않은 경우 학습 알고리즘은 훈련 예시와 정확히 일치하는 함수를 찾으려고 시도하지 마십시오.데이터를 너무 조심스럽게 적합하려고 하면 과적합이 발생합니다.학습하려는 함수가 학습 모형에 비해 너무 복잡하면 측정 오류(스태스틱 노이즈)가 없는 경우에도 과적합할 수 있습니다.이러한 상황에서 목표 함수의 모형화할 수 없는 부분이 교육 데이터를 "손상"시킵니다. 이 현상을 결정론적 노이즈라고 합니다.어느 한 유형의 잡음이 존재하는 경우에는 치우침이 높고 분산이 낮은 추정기를 사용하는 것이 좋습니다.

실제로 과적합을 방지하기 위한 조기 정지 및 감독 학습 알고리즘을 훈련하기 전에 소음 훈련 예제를 감지하고 제거하는 과 같은 출력 값의 노이즈를 완화하기 위한 몇 가지 접근방식이 있다.노이즈가 많은 트레이닝의 예를 특정하는 알고리즘이 몇 가지 있습니다.트레이닝 전에 노이즈가 있는 것으로 의심되는 트레이닝의 예를 삭제하면 통계적으로 [5][6]유의한 일반화의 오류가 감소합니다.

기타 고려해야 할 요소

학습 알고리즘을 선택 및 적용할 때 고려해야 할 기타 요소는 다음과 같습니다.

  • 데이터의 이질성입니다.특징 벡터에 다양한 종류의 특징(이산, 이산 순서, 카운트, 연속값)이 포함되어 있는 경우 일부 알고리즘은 다른 알고리즘보다 적용하기가 쉽습니다.지원-벡터 기계, 선형 회귀, 로지스틱 회귀, 신경망가장 가까운 인접 방법을 포함한 많은 알고리즘은 입력 피쳐를 수치화하고 유사한 범위(예: [-1,1] 간격)로 스케일링해야 한다.가장 가까운 네이버 방식이나 가우스 커널을 사용하는 서포트 벡터 머신 등 거리 함수를 사용하는 방식에서는 특히 이에 민감합니다.Decision Tree의 장점은 이기종 데이터를 쉽게 처리할 수 있다는 것입니다.
  • 데이터의 용장성.입력 피쳐에 중복 정보(예: 상관성이 높은 피쳐)가 포함되어 있는 경우, 일부 학습 알고리즘(예: 선형 회귀, 로지스틱 회귀거리 기반 방법)은 수치 불안정성으로 인해 성능이 저하될 것이다.이러한 문제들은 종종 어떤 형태의 정규화를 부과함으로써 해결될 수 있다.
  • 상호작용과 비선형성의 존재.각 피쳐가 출력에 독립적으로 기여하는 경우 선형 함수(예: 선형 회귀, 로지스틱 회귀, 서포트 벡터 머신, 네이비 베이) 및 거리 함수(예: 가장 가까운 인접 방법, 가우스 커널을 사용하는 서포트 벡터 머신)에 기반한 알고리즘이 일반적으로 잘 수행된다.단, 기능 간에 복잡한 상호작용이 있는 경우 의사결정 트리 및 신경망같은 알고리즘은 이러한 상호작용을 발견하도록 특별히 설계되었기 때문에 더 잘 작동합니다.선형 방법을 적용할 수도 있지만, 엔지니어는 선형 방법을 사용할 때 교호작용을 수동으로 지정해야 합니다.

새로운 애플리케이션을 검토할 때 엔지니어는 여러 학습 알고리즘을 비교하고 당면한 문제에 가장 적합한 알고리즘을 실험적으로 결정할 수 있습니다(교차 검증 참조).학습 알고리즘의 퍼포먼스를 조정하는 것은 매우 시간이 걸릴 수 있습니다.고정된 리소스가 있는 경우 학습 알고리즘을 조정하는 것보다 추가 훈련 데이터와 유용한 기능을 수집하는 데 더 많은 시간을 할애하는 것이 더 나을 수 있습니다.

알고리즘

가장 널리 사용되는 학습 알고리즘은 다음과 같습니다.

지도 학습 알고리즘의 구조

{ ( , y1),. ,( x , ) { \ { ( _ { , y { } } }, ... ( x _ { N , \ ; y _ { N} ) x _ N ; y _{ } ) 는 해당 라벨(즉 클래스)입니다.학습 알고리즘은 g Y(\ g Y를 찾습니다.X(\ X 입력 이고Y(\ Y 출력 공간입니다.g {\g}는가능한 함수 G {\ G의 일부 공간의 요소이며, 일반적으로 가설 공간이라고 합니다.g{\y(가) 가장 높은 를 주는 y 를 반환하도록 되도록 함수f × {\ Y{R 사용하여 g g 하는 것이 편리한 경우가 있습니다. g \ F F는 스코어링 함수의 공간을 .

G G F 임의의 함수 공간이 될 수 , 많은 학습 알고리즘은 g x = x 또는(\ f 결합하는 형식 모델입니다.t 확률 f ( , ) ( ,) { f)= 예를 들어, naig Bayes와 선형 판별 분석은 공동 확률 모델이고, 로지스틱 회귀 분석은 조건부 확률 모델입니다.

f{\ 또는 g {\ g 에는 경험적 위험 최소화구조적 위험 [7]최소화라는 두 가지 기본 접근법이 있습니다.경험적 위험 최소화는 교육 데이터에 가장 적합한 기능을 추구합니다.구조적 위험 최소화는 편향/분산 트레이드오프를 제어하는 패널티 함수를 포함한다.

두 경우 모두, 훈련 세트가 독립적이고 동일하게 분포된 쌍의 표본i, )으로 ({iy_ 어떤 함수가 훈련 데이터에 얼마나 잘 부합하는지 측정하기 위해 손실 L : × 0 { L: Y \ 0(가) 정의됩니다. xi , i) { ( x { , \ ; y {} ) {\ { } {\ 、 ( , y) \ L ( y _ , { i , { \ { } } )

R { R g { g 손실로 정의됩니다.이것은 트레이닝 데이터로부터 추정할 수 있습니다.

e ( ) i ( , ( )= R_} ( g ) ( _ { , { } )

경험적 리스크 최소화

경험적 위험 최소화에서 감독학습 알고리즘은 R() { R ( )} 를 최소화하는 g { g} 를 구하므로 최적화 알고리즘을 적용하여g { g 를 구하면 감독학습 알고리즘을 구성할 수 있다.

g{ g 조건부 확률 P이고 손실 함수가 음의 로그 우도인 : ( ,y ) - log ( ) \ L ( y , { \ {y } = - P ( y x ) \ displaysty) - p minim minim minim minim minim minim minim minim minim minim minim minim minim minim minim minim minim minim minim minim minim minim minim = - log yyhathat minim minim minim minim minim minim minim minim minim minim minim minim minim minim minim minim minim minimn.

G{\ G 후보 기능이 다수 포함되어 있거나 트레이닝 세트가 충분히 크지 경우 경험적 리스크 최소화는 높은 분산과 잘못된 일반화를 초래합니다.학습 알고리즘은 잘 일반화하지 않고 훈련 예를 외울 수 있습니다.이것은 과피팅이라고 불립니다.

구조적 리스크 최소화

구조적 위험 최소화는 정규화 패널티를 최적화에 포함시킴으로써 과적합을 방지하고자 합니다.정규화 패널티는 복잡한 기능보다 단순한 기능을 선호하는 Occam의 면도기 형태를 구현하는 것으로 볼 수 있습니다.

복잡성에 대한 다양한 정의에 대응하는 다양한 벌칙이 적용되어 왔다.예를 들어 gg가 형식의 선형 함수라고 가정합니다.

( ) d j x j { g (x )=\_ {}^{d _ {

일반적인 정규화 패널티는 2(\_{ _이며, 는 L 노름으로도 알려져 있는 가중치의 제곱 유클리드 노름이다.기타 에는 표준, j \_{ \ _ 표준 및 L(\ "norm"이 있습니다.이것은 이 아닌 j \_{ 수입니다.패널티는 C( C됩니다.

지도 학습 최적화 문제는 다음을 최소화하는 gg를 찾는 것입니다.

바이어스-분산 트레이드오프를 제어합니다. { \ =}이면 낮은 편중과 높은 편차로 경험적 위험을 최소화합니다. 클 경우 학습 알고리즘의 바이어스는 높고 분산은 낮습니다. \ \ 값은 검증을 통해 경험적으로 선택할 수 있습니다.

복잡도 패널티에서는 베이지안어로 g,- ( ) \ P (g ) 경우 J (g) \ J )는g \ g의 확률입니다.

생성 훈련

위에서 설명한 훈련방법은 서로 다른 출력값을 잘 하는 함수 gg를 찾으려 하기 때문에 차별적 훈련방법이다(차별적 모델 참조).( , ) ( ,) { f ( , y ) ( , ) 공동 확률 분포이고 손실 함수는 음의 로그우도입니다 - ( ,) ,\ - \ i } \ P ( , y ) , { } , { i } , { i ff는 데이터 생성 방법을 설명하는 생성 모델로 간주할 수 있습니다.생성 훈련 알고리즘은 종종 차별적 훈련 알고리즘보다 더 간단하고 계산적으로 효율적이다.경우에 따라, 해답은 순진한 베이즈 및 선형 판별 분석에서와 같이 닫힌 형태로 계산될 수 있다.

일반화

표준 지도 학습 문제를 일반화할 수 있는 몇 가지 방법이 있습니다.

  • 준지도 학습:이 설정에서는 교육 데이터의 하위 집합에 대해서만 원하는 출력 값이 제공됩니다.나머지 데이터는 레이블이 없습니다.
  • 감시가 약하다:이 설정에서는 노이즈, 제한 또는 부정확한 소스가 교육 데이터에 대한 라벨링에 대한 감독 신호를 제공하기 위해 사용됩니다.
  • 액티브 러닝:액티브 러닝 알고리즘은, 모든 트레이닝의 예를 처음에 제시한다고 가정하는 대신에, 통상은 인간 유저에게 쿼리를 실시하는 것으로, 대화적으로 새로운 예를 수집한다.종종 쿼리는 레이블이 지정되지 않은 데이터를 기반으로 하며, 이는 반지도 학습과 능동 학습을 결합한 시나리오이다.
  • 구조화된 예측:원하는 출력 값이 구문 분석 트리나 레이블이 지정된 그래프와 같은 복잡한 개체인 경우 표준 메서드를 확장해야 합니다.
  • 순위 매기기 학습:입력이 오브젝트 세트이고 원하는 출력이 오브젝트 순위일 경우 표준 메서드를 확장해야 합니다.

접근법 및 알고리즘

적용들

일반적인 문제

「 」를 참조해 주세요.

레퍼런스

  1. ^ Stuart J. Russell, Peter Norvig (2010)인공지능: 모던 어프로치, 제3판, 프렌티스 ISBN9780136042594.
  2. ^ Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar (2012) 기계학습 재단, MIT 9780262018258 프레스.
  3. ^ S. Geman, E. Bienenstock 및 R.두르사트(1992)신경 네트워크와 편견/변형 딜레마.Neural Computation 4, 1~58.
  4. ^ G. James (2003) 일반 손실 함수에 대한 분산 및 바이어스, 머신 러닝 51, 115-135. (http://www-bcf.usc.edu/~gareth/bv.pdf)
  5. ^ C.E. Brodely와 M.A. Friedl(1999).잘못된 라벨이 부착된 교육 사례 식별 및 제거, Journal of AI Research 11, 131-1989. (http://jair.org/media/606/live-606-1803-jair.pdf)
  6. ^ M.R. Smith and T. Martinez (2011). "Improving Classification Accuracy by Identifying and Removing Instances that Should Be Misclassified". Proceedings of International Joint Conference on Neural Networks (IJCNN 2011). pp. 2690–2697. CiteSeerX 10.1.1.221.1371. doi:10.1109/IJCNN.2011.6033571.
  7. ^ Vapnik, V. N.Statistical Learning Theory(통계학습이론의 본질), Springer Verlag, 2000.
  8. ^ A. Maity (2016). "Supervised Classification of RADARSAT-2 Polarimetric Data for Different Land Features". arXiv:1608.00501 [cs.CV].
  9. ^ "Key Technologies for Agile Procurement SIPMM Publications". publication.sipmm.edu.sg. 2020-10-09. Retrieved 2022-06-16.

외부 링크