VC이론은 통계학습 이론의 주요 지국이다.통계 학습 이론의 주요 적용 분야 중 하나는 학습 알고리즘에 대한 일반화 조건을 제공하는 것이다.이러한 관점에서 VC 이론은 일반화의 특성화를 위한 대안적 접근방식인 안정성과 관련이 있다.
또한 VC계급이 지수화한 프로세스의 경우 VC이론과 VC차원이 실증 프로세스 이론에서 중요한 역할을 한다.거의 틀림없이 이것들은 VC 이론의 가장 중요한 응용 프로그램이며, 일반화를 입증하는 데 사용된다.경험적 과정과 VC 이론에서 널리 사용되는 몇 가지 기법이 도입될 것이다.이 논의는 주로 '약체적 융합과 경험적 과정'이라는 책에 바탕을 두고 있다. 통계에 응용 프로그램 포함.[2]
경험적 프로세스에서의 VC 이론 개요
경험적 과정의 배경
Let be independent, identically distributed random elements of a measurable space. For any measure on , and any 측정 가능한 f: → 정의
여기서 측정 가능성 문제는 무시되며, 자세한 은 F 을(를) 측정 가능한 함수의 : → R f을(를) 참조하고 다음을 정의하십시오.
경험적 측정 정의
여기서 Δ는 Dirac 측정값을 나타낸다.경험적 조치는 다음과 으로 지도→ R {\mathbf {에 되도록 유도한다
이제 P가 알 수 없는 데이터의 진정한 분포의 기초라고 가정합시다.경험적 프로세스 이론은 다음과 같은 문장이 유지되는 클래스 을(를) 식별하는 것을 목표로 한다.
이 전자의 경우 F{\displaystyle{{F\mathcal}에서}}, 그리고 후자의 경우(가설 ∀\, 저녁밥을 먹다 f∈ Ff())− Pf<>∞{\displaystyle\forall x,\sup \nolimits_{{{\mathcalf\in F}}}\vert f())-Pf\vert<>\infty})클래스 F{\displaystyle{{F\mathcal}}}Glivenko-Cantelli라고 불리는 수업이다. ca은Led Donsker 또는 P-Donsker.돈스커 클래스는 슬루츠키의 정리를 응용하여 확률로 글리벤코 칸텔리다.
이러한 진술은 LLN에 의한 단일 f 에 대해 참이며, 규칙성 조건에서의 CLT 논거에 대해서는 모든 F 에 대해 공동 진술이 이루어지고 있기 때문에 경험적 프로세스의 난이도가 발생한다 그러면 으로 F {\{\은(는) 너무 클 수 없으며, 의 기하학이 매우 중요한 역할을 한다는 것이 밝혀졌기 때문이다.
함수 집합 의 크기를 측정하는 한 가지 방법은 소위 커버링 번호를 사용하는 것이다.커버 번호
세트 {F를) 커버하는 데 필요한 최소 공 수g\이다(여기서 F 에 기본 규범이 있다고 가정함).엔트로피는 커버 번호의 로그다.
아래에는 두 가지 충분한 조건이 제공되어 있으며, 이 조건 하에서 된 F {\이(가) Glivenko-Cantelli 또는 Donsker임을 증명할 수 있다.
이(가) F< P과(와) 같은 봉투 F로 P를 측정할 수 있으면 P-글리벤코-칸텔리(P-Glivenvenko-Cantelli)이다.
은는) P measure F2 < don {\}}와 같은 모든 확률 측정 P에 대해 P-Donsker이다 마지막 적분에서 표기법이란 뜻이다
, 2= ( f Q) 1 \f}{2
대칭화
경험적 과정을 어떻게 결합할 것인가에 대한 대부분의 주장은 대칭, 최대 및 집중 불평등과 체인에 의존한다.대칭성은 보통 증명의 첫 번째 단계로, 경계 경험적 손실 기능에 대한 많은 기계 학습 증빙(다음 섹션에서 논의되는 VC 불평등의 증빙 포함)에 사용되기 때문에 여기에 제시한다.
보조정리(Symmetrization).모든 비감소, 볼록 φ:R→ R 및 측정 가능한 함수의 클래스
Symmetrization 보조정리(Symmetrization)의 증빙은 X i 의 독립복사를 도입하고, 이러한 복사본으로 LHS의 내부 기대치를 대체하는 것에 의존한다.젠센의 불평등을 적용한 후, 기대치를 바꾸지 않고 서로 다른 부호를 도입할 수 있었다(이름을 대칭으로 함).그 증거는 교훈적인 성질 때문에 아래에서 찾을 수 있다.
증명
Introduce the "ghost sample" to be independent copies of . For fixed values of one has:
Note that adding a minus sign in front of a term doesn't change the RHS, because it's a symmetric function of and . Therefore, the RHS remains the same under "sign perturbation":
임의의( 1, 2,…,)에 대해{- , n \{ 따라서
마지막으로 첫 번째 삼각형 불평등을 사용한 후 의 볼록도를 사용하면 다음과 같은 결과를 얻을 수 있다.
RHS에 대한 마지막 두 표현이 동일한 경우, 이것이 증거를 마무리한다.
경험적 CLT를 입증하는 일반적인 방법으로는 먼저 대칭화를 사용하여 경험적 프로세스를 에 전달한 다음 Rademacher 프로세스가 좋은 특성을 가진 단순한 프로세스라는 사실을 이용하여 데이터에 대해 조건부로 논쟁한다.
VC 연결
세트 의 특정 조합 속성과 엔트로피 숫자 사이에는 매혹적인 연관성이 있는 것으로 나타났다.균일한 커버 번호는 Vapnik-Chervonenkis 클래스 세트 또는 짧은 VC 세트의 개념에 의해 제어될 수 있다.
Consider a collection of subsets of the sample space . is said to pick out a certain subset of the finite set if for some . is said to shatterS if it picks out each of its 2n subsets.VC-지수(적절한 선택 분류자 집합에 대해 VC 치수 + 1과 유사) V는 크기 n 집합이 {에 의해 산산조각 나지 않는 가장 작은 n이다
그런 다음 Sauer의 보조정리자는 VC 클래스 (,,…, x mathcal {을 만족한다고 명시한다
즉, 다항식 번호 O( V ()- 1) 가 아니라 부분 집합의 다항식 번호 O V {C}-1})이다.직관적으로 이것은 유한 VC-지수가 이(가) 명백한 단순 구조를 가지고 있음을 암시한다는 것을 의미한다.
소위 VC 하위그래프 클래스에 대해 유사한 바운드를 표시할 수 있다(다른 상수, 동일한 속도).f:X는 기능은 6.2.1→ R{\displaystyle f:{{\mathcal X}}X×R{\displaystyle{{X\mathcal}의}은 부분 그래프. 하위 집합}}가:{(x, t):밀폐된<>이름())}{\displaystyle\와 같이{(x,t):t<, f())\}}\mathbf{R}\times.}}가 VCs라고 불린다\mathbf{R}F{\displaystyle{{F\mathcal}의 컬렉션 \toubgraph class 모든 서브그래프가 VC 클래스를 형성하는 경우.
함수 ={ : 이산 경험적 유형의 측정 Q( 모든 확률 측정 Q에 대해 동등하게)에 대한 (Q) 의 r 1{\1에 대해 다음과 같이 상당히 주목할 수 있다.
Further consider the symmetric convex hull of a set : being the collection of functions of the form with 1 그렇다면
은 F 의 볼록 선체에 유효하다
이 사실의 중요한 결과는 다음과 같다.
엔트로피 적분이 수렴할 정도로 충분하므로 클래스 F 은(는) P-Donsker가 될 것이다.
마지막으로 VC-하위그래프 클래스의 예를 고려한다.Any finite-dimensional vector space of measurable functions is VC-subgraph of index smaller than or equal to .
증명: take = )+ 2 포인트,),, , ,( ,) 벡터:
R의nn- 1차원 아공간 안에 있다.이 아공간과 직교하는 벡터인 ≠ 0을 취한다.따라서 다음과 같다.
;0\}}. 이후 약간 f{\displaystyle f}가 S){(x, 나는 하루에 500파운드):f()나는)>는 과목은 나는}{\displaystyle S=\{(x_{나는},t_{나는}):f(x_{나는})>, t_{나는}\}}는기 위해서는 함축한 내용은 이 세트를 선택할 수 없는 집합 S){(x, 나는 하루에 500파운드):나는입니다.;0}{\displaystyle S=\{(x_{나는},t_{나는}):a_{나는}>을 고려해 보세요그 루프 취급 계통 hat엄격히 긍정적이지만 RHS는 부정적이다.
VC 하위그래프 클래스라는 개념의 일반화가 있다. 예를 들어 의사차원 개념도 있다.관심 있는 독자는 조사할[4] 수 있다.
VC 부등식
기계학습에 더 흔한 비슷한 설정이 고려된다.Let 은(는) 형상공간이고 Y={ } 1f : → {\을 분류기라고 한다.을(를) 분류자 집합으로 한다.이전 절과 마찬가지로 분쇄 계수(성장 함수라고도 함)를 정의하십시오.
서 F 의 각 기능과 함수가 1인 집합 사이에 1:1이 있다는 점을 유의하십시오.따라서 는 C {\을(를) 모든 F{\f\{\에 대해 위의 매핑을 통해 얻은 하위 집합의 집합으로 정의할 수 있다 따라서 이전 섹션의 관점에서 분쇄 계수는 정밀하다.
, n( 1,… ,x )
등가성은 S(F, 가 집합 C 이(가) 유한한 VC-지수를 갖는다면 충분히 큰 n에 대해 n의 다항식이 될 것임을 암시한다.
D ={( ,),…,( n, m) 은(는) 관찰된 데이터 집합이다.데이터가 알 수 없는 확률 분포 P 에 생성된다고 가정하고된 0/1 손실이 되도록 R( )= P(( X) Y) Y를 정의한다. P X 입니다.은(는) 일반적으로 알려져 있지 않으며, 에 접근할 수 없다 그러나 경험적 위험은 다음과 같이 주어진다.
확실히 평가할 수 있다.그러면 하나는 다음과 같은 정리를 가지고 있다.
정리(VC 불평등)
이항 분류 및 0/1 손실 함수의 경우 다음과 같은 일반화 한계가 있다.
즉, VC 불평등은 샘플이 증가함에 따라 이(가) 유한한 VC 차원을 갖는다면 경험적 0/1 위험은 예상된 0/1 위험의 좋은 대용물이 된다고 말하고 있다., ) 이(가) n에서 다항식으로 증가한다면 두 불평등의 RHS는 모두 0으로 수렴된다는 점에 유의하십시오.
이 프레임워크와 경험적 프로세스 프레임워크 사이의 연관성은 명백하다.여기서 하나는 수정된 경험적 과정을 다루고 있다.
하지만 놀랄 것도 없이 아이디어는 똑같다.VC 불평등의 (첫 번째 부분)의 증거는 대칭성에 의존한 다음, 집중 불평등(특히 회핑의 불평등)을 이용한 데이터에 조건부로 논증한다.관심 있는 독자는 '정리 12.4와 12.5'라는 책을 확인할 수 있다.
^ Pollard, David (1990). Empirical Processes: Theory and Applications. NSF-CBMS Regional Conference Series in Probability and Statistics Volume 2. ISBN978-0-940600-16-4.
Bousquet, O.; Boucheron, S.; Lugosi, G. (2004). "Introduction to Statistical Learning Theory". In O. Bousquet; U. von Luxburg; G. Ratsch (eds.). Advanced Lectures on Machine Learning. Lecture Notes in Artificial Intelligence. Vol. 3176. Springer. pp. 169–207.
Vapnik, V.; Chervonenkis, A. (2004). "On the Uniform Convergence of Relative Frequencies of Events to Their Probabilities". Theory Probab. Appl. 16 (2): 264–280. doi:10.1137/1116025.