안정성(학습 이론)

Stability (learning theory)

알고리즘 안정이라고도 알려진 안정성기계 학습 알고리즘이 입력에 대한 작은 변화로 인해 어떻게 변하는지 계산 학습 이론의 개념이다.안정적인 학습 알고리즘은 훈련 데이터를 약간 수정해도 예측이 크게 변하지 않는 알고리즘이다.예를 들어, 1000개의 손편지와 라벨("A"에서 "Z"까지)을 교육 세트로 사용하여 알파벳의 손편지를 인식하도록 훈련되고 있는 기계 학습 알고리즘을 생각해 보십시오.이 교육 세트를 수정하는 한 가지 방법은 예를 생략하는 것이며, 손으로 쓴 편지와 라벨의 999개 예만 사용할 수 있도록 하는 것이다.안정적인 학습 알고리즘은 1000초 및 999초 훈련 세트와 유사한 분류기를 생성할 수 있다.

안정성은 학습되는 정보의 유형보다는 학습 과정의 속성이기 때문에 언어 학습에서 물리 및 공학에서의 역문제로 이어지는 여러 유형의 학습 문제에 대해 연구할 수 있다.안정성 연구는 2000년대 일반화와 연관성[citation needed] 있는 으로 나타났을 때 연산학습 이론에서 중요해졌다.대규모 학습 알고리즘, 특히 경험적 위험 최소화 알고리즘의 경우 특정 유형의 안정성이 우수한 일반화를 보장하는 것으로 나타났다.

역사

머신러닝 시스템 설계의 중심 목표는 학습 알고리즘이 한정된 숫자에 대해 훈련을 받은 후 새로운 예에 대해 일반화하거나 정확하게 수행하도록 보장하는 것이다.1990년대에, 감독된 학습 알고리즘에 대한 일반화 한계를 얻는 데 있어 이정표가 달성되었다.역사적으로 일반화를 증명하기 위해 사용된 기술은 경험적 양의 균일한 수렴 특성을 그들의 수단에 사용하면서 알고리즘이 일관성이 있다는 것을 보여주는 것이었다.이 기법은 많은 종류의 경험적 위험 최소화(ERM) 알고리즘에 대한 일반화 한계를 얻기 위해 사용되었다.ERM 알고리즘은 훈련 세트 에 대한 경험적 오류를 최소화하기 위해 가설 H 에서 솔루션을 선택하는 알고리즘이다

블라디미르 Vapnik가 ERM 이항 분류 알고리즘에 대해 입증한 일반적인 결과는 모든 대상 함수 및 입력 분포 d {\ d} 및 n {\displaystyle 훈련 예제를 가진 가설 H}에 대해 알고리즘이 일관성이 있으며 훈련 어를 생성한다는 것이다.실제 오류로부터 최대 ) 및 로그 요인).그 결과는 후에 고유한 미니마이저가 없는 기능 클래스를 가진 거의 ERM 알고리즘으로 확장되었다.

VC 이론으로 알려지게 된 것을 사용한 Vapnik의 연구는 학습 알고리즘의 일반화와 학습 중인 함수의 가설 공간 의 특성 사이에 관계를 설정했다.그러나 이러한 결과는 무한 VC차원 가설공간을 가진 알고리즘에는 적용할 수 없었다.달리 말하면, 학습되는 정보의 복잡성이 너무 커서 측정할 수 없는 경우에는 이러한 결과를 적용할 수 없다.예를 들어 회귀와 같은 가장 간단한 기계 학습 알고리즘에는 제한되지 않은 VC-차원 가설 공간이 있다.또 다른 예는 임의 길이의 문장을 만들 수 있는 언어 학습 알고리즘이다.

안정성 분석은 2000년대에 컴퓨터 학습 이론을 위해 개발되었으며 일반화 한계를 얻기 위한 대안 방법이다.알고리즘의 안정성은 H 의 직접적 속성이 아니라 학습과정의 속성이며, 가장 가까운 이웃과 같이 무한하거나 정의되지 않은 VC-dimension을 가진 가설공간을 가진 알고리즘에서 평가할 수 있다.안정적 학습 알고리즘은 예를 들어 예를 들어, 훈련 세트를 약간 수정했을 때 학습된 기능이 크게 변하지 않는 알고리즘이다.손실 함수에 대한 학습 알고리즘의 안정성을 평가하기 위해 크로스 유효성 검사 원아웃(CVLoo) 알고리즘에 Leave One Out 오류가 사용된다.이와 같이 안정성 분석은 기계학습에 민감도 분석을 적용하는 것이다.

클래식 결과 요약

  • 1900년대 초반 - 학습 이론의 안정성은 안드레이 니콜라예비치 티호노프(Andrey Nicolayevich Tikhonov[citation needed])의 추적으로 학습 지도 의 연속성 측면에서 가장 일찍 설명되었다
  • 1979 - Devroye와 Wagner는 알고리즘의 이탈-원아웃 동작이 표본의 작은 변화에 대한 민감도와 관련이 있다고 보았다.[1]
  • 1999 - Kearns와 Ron은 유한 VC-차원성과 안정성 사이의 연관성을 발견했다.[2]
  • 2002 - 한 랜드마크 논문에서 부스케와 엘리스제프는 학습 알고리즘의 균일한 가설 안정성 개념을 제안했고, 낮은 일반화 오류를 내포하고 있음을 보여주었다.그러나 균일한 가설 안정성은 두 함수의 가설공간에 불과한 ERM 알고리즘을 포함하여 알고리즘의 대분류에는 적용되지 않는 강한 조건이다.[3]
  • 2002 - Kutin과 Niyogi는 Bousquet과 Elisseff의 결과를 거의 모든 곳에서 안정이라고 부르는 몇 가지 약한 형태의 안정성에 대한 일반화 한계를 제공함으로써 확장시켰다.또한, 그들은 ERM 알고리즘의 안정성과 일관성 사이의 관계를 설정하기 위해 PAC(Presidently Correct) 설정에서 초기 단계를 밟았다.[4]
  • 2004 - Poggio 외 연구진은 안정성과 ERM 일관성 사이의 일반적인 관계를 입증했다.그들은 CVEELoo 안정성이라고 하는 1회성 안정성의 통계적 형태를 제안하였고, 이것이 a) 경계 손실 등급의 일반화를 위해 충분하고, b) 사각 손실, 절대값, 절대값과 같은 특정 손실 기능에 대한 ERM 알고리즘의 일관성(따라서 일반화)에 필요하고 충분하다는 것을 보여주었다.이항분류손실[5]
  • 2010 - 셰일브 슈워츠 외 연구진은 가설 공간과 손실 등급 간의 복잡한 관계로 인해 Vapnik의 원래 결과에 문제가 있음을 알아차렸다.그들은 서로 다른 손실 수업과 다른 유형의 학습, 감독 및 감독되지 않은 학습을 포착하는 안정성 개념에 대해 논의한다.[6]
  • 2016 - Moritz Hardt 외.는 모델을 업데이트하기 위해 각 인스턴스를 사용하는 횟수와 가설에 대한 특정 가정을 고려할 때 구배 강하의 안정성을 입증했다.[7]

예비 정의

우리는 학습 알고리즘 훈련 세트와 관련된 몇 가지 용어를 정의하여 안정성을 다방면으로 정의하고 현장에서의 정리를 제시할 수 있다.

학습 맵 이라고도 하는 시스템 학습 알고리즘이 교육 데이터 세트를 매핑하는데 이 세트는 레이블이 붙은 예, y) y에 X X에서 까지 입니다.은(는) 훈련 예시와 같은 공간에 있다.함수 은(는) 라는 함수의 가설 공간에서 선택된다

알고리즘이 학습하는 교육 세트는 다음과 같이 정의된다.

크기 = Y

미확인 분포 D에서 I.I.D.

Thus, the learning map is defined as a mapping from into , mapping a training set onto a function from to . Here, we consider only deter 이(가) 에 대해 대칭인 미니스틱 알고리즘. 즉, 훈련 세트의 요소 순서에 따라 달라지지 않는다.더욱이, 우리는 모든 기능이 측정 가능하고 모든 세트가 셀 수 있다고 가정한다.

예제 = (x, y )에 대한 f V V ,z)= (로 정의된다

의 경험적 오류는 [ = V i) {1이다

의 실제 오류는 [ = E V , z) 이다.

m 크기의 훈련 세트 S가 주어지면, 우리는 모든 i = 1....,m에 대해 다음과 같이 수정된 훈련 세트를 만들 것이다.

  • i번째 요소를 제거하여

  • i-th 요소를 교체하여

안정성 정의

가설 안정성

알고리즘 에는 다음과 같은 경우 손실 함수 V에 대한 가설 안정성 β가 있다.

점-와이 가설 안정성

알고리즘 은 다음과 같은 경우 손실 함수 V에 대한 점-와이 가설 안정성 β를 가진다.

오류 안정성

알고리즘 은 다음과 같은 경우 손실 함수 V에 대한 오류 안정성 β를 가진다.

균일 안정성

알고리즘 은 다음과 같은 경우 손실 함수 V에 대해 동일한 안정성 β를 가진다.

균일한 안정성 β의 확률론적 버전은 다음과 같다.

알고리즘은 {\ \이 O ) {\O({\1}{m로 감소할안정적이라고 한다

1-아웃 교차 검증(CVLoo) 안정성

알고리즘 에는 다음과 같은 경우 손실 함수 V에 대한 CVloo 안정성 β가 있다.

(CVLoo) 안정성의 정의는 앞에서 살펴본 포인트-가설적 안정성과 동일하다.

예상-유휴-원아웃 오류( e 안정성

알고리즘 은(는) n에 대해 안정성이 있으며 err:

, with E m에 대해 0으로 설정 m

고전적 정리

From Bousquet and Elisseff (02):

경계 손실이 있는 대칭 학습 알고리즘의 경우 알고리즘이 위의 확률론적 정의와 함께 균일 안정성이 있는 경우 알고리즘이 일반화된다.

균일 안정성은 모든 알고리즘에 의해 충족되는 것은 아니지만 놀랍게도 정규화 알고리즘의 크고 중요한 클래스에 의해 충족되는 강한 조건이다.일반화의 속박은 기사에 나와 있다.

출처: 무케르지 (06):

  • 경계 손실이 있는 대칭 학습 알고리즘의 경우 알고리즘에 위에 정의된 바와 같이 Leave-one-out CVloo(CVDoo) 안정성과 기대-leave-one-out 오류( e 안정성이 모두 있으면 알고리즘이 일반화된다.
  • 두 조건만으로는 일반화를 위한 충분치 않다.그러나 두 가지 모두 일반화를 보장한다(반대가 사실이 아님).
  • 특히 ERM 알고리즘의 경우(사각형 손실에 대해 설명), Leave-one-out cross-validation(CVLoo) 안정성은 일관성과 일반화를 위해 필요하며 충분하다.

이것은 학습 이론의 기초에 있어서 중요한 결과로서, 이전에 관계가 없었던 알고리즘의 두 가지 속성인 안정성과 일관성이 ERM(및 특정 손실 기능)과 동등하다는 것을 보여주기 때문이다.일반화의 속박은 기사에 나와 있다.

안정적인 알고리즘

안정성이 입증된 알고리즘 목록과 관련 일반화 한계를 제공하는 글이다.

  • 선형 회귀 분석[8]
  • {0-1} 손실 함수가 있는 k-NN 분류기.[1]
  • Replicating Kernel Hilbert Space에서 경계 커널 및 정규화기가 표준인 SVM(Vector Machine) 분류 지원.큰 정규화 상수 가 좋은 안정성으로 이어진다.[3]
  • 소프트 마진 SVM 분류.[3]
  • 정규화된 최소 제곱 회귀 분석.[3]
  • 분류를 위한 최소 상대 엔트로피 알고리즘.[3]
  • 과(와) 함께 증가하는 regressor의 k {\과(와) 함께 백깅 정규화기 버전[9]
  • 다중 클래스 SVM 분류.[9]
  • Tikhonov 정규화가 적용된 모든 학습 알고리즘은 균일한 안정성 기준을 만족하므로 일반화할 수 있다.[10]

참조

  1. ^ a b L. Devroye 및 Wagner, 잠재적 기능 규칙에 대한 배포가 필요 없는 성능 범위, IEEE Trans.Inf. 이론 25(5) (1979년) 601–604.
  2. ^ M. Kearns와 D. Ron, 알고리즘 안정성과 건전성 점검 한계 - leave-one-out 교차 검증, Neural Compute. 11(6) (1999) 1427–1453.
  3. ^ a b c d e O. 부스케와 A.엘리제프.안정성과 일반화.J. 마하.2002년 2시 499–526분.
  4. ^ S. 쿠틴과 P.Niyogi, 거의 모든 알고리즘의 안정성과 일반화 오류, Technical Report TR-2002-03, University of Chicago (2002)
  5. ^ S. 무커지, P.니요기, T. 포기오, R. M. 리프킨.학습 이론: 안정성은 일반화에 충분하며, 경험적 위험 최소화의 일관성에 필요하며 충분하다.조언. 계산.수학, 25(1-3):161–193, 2006.
  6. ^ 셰일프 슈워츠, S, 샤미르, O, 스레브로, N, 스리다란, K, 학습성, 안정성과 균일한 융합, 기계학습연구 저널, 11(10월):2635-2670, 2010.
  7. ^ 모리츠 하르트, 벤자민 레흐트, 요람 싱어, 더 빨리 훈련, 더 일반화:확률적 경사 강하 안정성, ICML 2016.
  8. ^ Elisseff, A. 알고리즘의 안정성과 일반화 성과와의 관계에 관한 연구기술 보고서.(2000)
  9. ^ a b 리프킨, R. Everything Old is New Again: 머신러닝에서 역사적인 접근법을 새롭게 살펴본다.2002년 MIT 박사 논문
  10. ^ 로사스코, L., 포조, T. 안정성의 티호노프 정규화, 2009.

추가 읽기

  • S.쿠틴과 P.Niyogi.Almost-Altimate 알고리즘 안정성과 일반화 오류.2002년 UAI 18의 Proc.
  • S. 라클린, S. 무커지, T.포조오.안정은 학습 이론으로 귀결된다.분석 및 적용, 3(4):397–419, 2005
  • V.N. Vapnik.통계 학습 이론의 특성.스프링거, 1995
  • V. V. 통계학 학습 이론.1998년 뉴욕 윌리
  • Poggio, T, 리프킨, R, Mukherjee, S., Niyogi, P, "학습 이론: 예측성의 일반 조건", Nature, Vol. 428, 419-422, 2004.
  • 안드레 엘리스제프, 테오도로스 에브게니우, 마시밀리아노 폰틸, 무작위화된 학습 알고리즘의 안정성, 기계 학습 연구 저널 6, 55–79, 2010
  • Elisseeff, A. Pontil, M, 응용 프로그램을 통한 학습 알고리즘의 일회성 오류 및 안정성, NATO SCIENCY SUB Series III 컴퓨터 및 시스템 과학, 2003, VOL 190, 페이지 111-130
  • 셰일프 슈워츠, S, 샤미르, O, 스레브로, N, 스리다란, K, 학습성, 안정성과 균일한 융합, 기계학습연구 저널, 11(10월):2635-2670, 2010.