지원 벡터 기계의 정규화 관점

수학적 분석에서 지원 벡터 기계에 대한 정규화 관점은 다른 기계 학습 알고리즘의 맥락에서 SVM(지원 벡터 기계)을 해석하는 방법을 제공한다.SVM 알고리즘은 다차원 데이터를 분류하는데, 이는 교육 세트 데이터를 잘 적합시키는 동시에 과도한 피팅을 방지하여 솔루션이 새로운 데이터 포인트로 일반화되도록 하기 위함이다.정규화 알고리즘은 또한 훈련 세트 데이터를 적합시키고 과도한 피팅을 방지하는 것을 목표로 한다.훈련 세트의 오차가 적지만, 일부 기능 공간에서 복잡한 기능이 높은 규범과 함께 기능인 피팅 기능을 선택해 이를 수행한다.구체적으로 티코노프 정규화 알고리즘은 훈련 집합 오류의 합계에 함수의 규범을 더한 함수를 선택한다.훈련 세트 오류는 다른 손실 기능으로 계산할 수 있다.예를 들어, 정규화된 최소 제곱은 손실 함수로 제곱 오류 손실을 사용하는 티호노프 정규화의 특별한 경우다.^[1]

서포트 벡터 기계의 정규화 관점에서는 SVM을 티호노프 정규화, 특히 손실 기능을 위한 힌지 손실을 가지는 티호노프 정규화의 특수한 사례로 해석한다.이것은 SVM 알고리즘을 분석하여 같은 목표를 가진 다른 알고리즘과 비교하는 이론적 프레임워크를 제공한다: 오버핏 없이 일반화하는 것이다.SVM은 1995년 코린나 코르테스와 블라디미르 증기니크에 의해 처음 제안되었으며, 다차원 데이터를 두 범주로 분리할 수 있는 하이퍼플레인을 찾는 방법으로 기하학적으로 프레임을 설정했다.^[2]SVM의 이러한 전통적인 기하학적 해석은 SVM이 어떻게 작동하는지에 대한 유용한 직관력을 제공하지만, 정규화, 조기 정지, 첨사성, 베이지안 추론과 같은 과도한 피팅을 피하기 위한 다른 기계 학습 기법과는 관련되기 어렵다.그러나 SVM이 Tikhonov 정규화의 특별한 경우라는 것이 밝혀지자, SVM에 대한 정규화 관점은 더 넓은 종류의 알고리즘 내에서 SVM을 맞추는 데 필요한 이론을 제공했다.^[1]^[3]^[4]이를 통해 SVM과 다른 형태의 Tikhonov 정규화 간의 상세한 비교와 SVM의 손실 함수인 힌지 손실을 사용하는 것이 유익한 이유에 대한 이론적 토대가 가능해졌다.^[5]

이론적 배경

In the statistical learning theory framework, an algorithm is a strategy for choosing a function $f\colon \mathbf {X} \to \mathbf {Y}$ given a training set $S=\{(x_{1},y_{1}),\ldots ,(x_{n},y_{n})\}$ of inputs ${\display$ $스타일 x_{i}}$ 및 레이블 $x_{i}$ $y_{i}$ {\ $displaystyle y_{i}}($ 레이블은 $y_{i}$ 대개 ± ${\displaystyle \pm 1}).$ 정규화 전략은 데이터에 맞지만 너무 복잡하지는 않은 함수를 선택하여 오버피팅을 피한다.구체적으로:

f={\underset {f\in {\mathcal {H}}}{\operatorname {argmin} }}\left\{{\frac {1}{n}}\sum _{i=1}^{n}V(y_{i},f(x_{i}))+\lambda \ f\ _{\mathcal {H}}^{2}\right\},

기능의 V어디에 H{\displaystyle{{H\mathcal}}}은 가설 space[6],:Y×Y→ R{\displaystyle V\colon \mathbf{Y}\times \mathbf{Y}\to \mathbb{R}}은 손실 함수,‖ ⋅ ‖ H{\displaystyle\와 같이 \cdot\_{{\mathcal H}}}은 규범에 그 가설 공간의 기능 및 λ∈ R{\displa.yst $yle \lambda \in \mathb {R}은($ 는)^[7] 정규화 매개 변수다 $\lambda \in \mathbb {R}$ .

When ${\mathcal {H}}$ is a reproducing kernel Hilbert space, there exists a kernel function $K\colon \mathbf {X} \times \mathbf {X} \to \mathbb {R}$ that can be written as an $n\times n$ symmetric positive-definite matrix ${\displaystyle \mat$ $hbf {K}$ ^[8] $}$ . 대표자 정리로는

f(x_{i})=\sum _{j=1}^{n}c_{j}\mathbf {K} _{ij},{\text{ and }}\ f\ _{\mathcal {H}}^{2}=\langle f,f\rangle _{\mathcal {H}}=\sum _{i=1}^{n}\sum _{j=1}^{n}c_{i}c_{j}K(x_{i},x_{j})=c^{T}\mathbf {K} c.

힌지 손실의 특수 특성

The simplest and most intuitive loss function for categorization is the misclassification loss, or 0–1 loss, which is 0 if $f(x_{i})=y_{i}$ and 1 if $f(x_{i})\neq y_{i}$ , i.e. the Heaviside step function on $-y_{i$ $f(x_{i$ 그러나 이 손실 함수는 볼록하지 않기 때문에 정규화 문제를 연산적으로 최소화하기 매우 어렵다.따라서 우리는 0 대 1의 패배를 대신할 볼록한 대체물을 찾는다.The hinge loss, $V{\big (}y_{i},f(x_{i}){\big )}={\big (}1-yf(x){\big )}_{+}$ , where $(s)_{+}=\max(s,0)$ , provides such a convex relaxation.실제로 힌지 손실은 0–1 오분류 손실 함수에 대한 가장 엄격한 볼록 상단으로,^[4] 무한 데이터를 사용하면 Bayes-최적 솔루션을 반환할 수 있다.^[5]^[9]

f_{b}(x)={\displaysty{case}1,&p(1\mid x)]p(-1\mid x),\\\-1,&p(1\mid x)<pmd1\mid x)).\end{case}}

파생

티코노프 정규화 문제는 힌지 손실 측면에서 표현함으로써 SVM의 전통적인 제형과 동등한 것으로 보일 수 있다.^[10]힌지 손실 시

V{\big (}y_{i},f(x_{i}){\big )}={\big (}1-yf(x){\big )}_{+}}

여기서 $(s)_{+}=\max(s,0)$ ( $(s)_{+}=\max(s,0)$ ) $(s)_{+}=\max(s,0)$ + $(s)_{+}=\max(s,0)$ = $(s)_{+}=\max(s,0)$ ( $(s)_{+}=\max(s,0)$ , 0 $(s)_{+}=\max(s,0)$ ) ${\displaystyle (s)_{+}=\max(s,0$ 정규화 문제는

f={\underset {f\in {\mathcal {H}}}{\operatorname {argmin} }}\left\{{\frac {1}{n}}\sum _{i=1}^{n}{\big (}1-yf(x){\big )}_{+}+\lambda \ f\ _{\mathcal {H}}^{2}\right\}.

$1/(2\lambda )$ / $1/(2\lambda )$ ( $1/(2\lambda )$ $1/(2\lambda )$ )에 곱하기 ${\displaystyle$ 1 $/(2\lambda )}$ 산출량 $1/(2\lambda )$

f={\underset {f\in {\mathcal {H}}}{\operatorname {argmin} }}\left\{C\sum _{i=1}^{n}{\big (}1-yf(x){\big )}_{+}+{\frac {1}{2}}\ f\ _{\mathcal {H}}^{2}\right\}

$C=1/(2\lambda n)$ SVM 최소화 문제와 $C=1/(2\lambda n)$ 한 C $C=1/(2\lambda n)$ = 1 $C=1/(2\lambda n)$ / $C=1/(2\lambda n)$ 2 $C=1/(2\lambda n)$ ) ${\displaystyle C=1/(2\lambda$ n $)}$ 을 $C=1/(2\lambda n)$ 를) 사용하는 경우.

참고 및 참조

^ ^a ^b Rosasco, Lorenzo. "Regularized Least-Squares and Support Vector Machines" (PDF).
^ Cortes, Corinna; Vladimir Vapnik (1995). "Support-Vector Networks". Machine Learning. 20 (3): 273–297. doi:10.1007/BF00994018.
^ Rifkin, Ryan (2002). Everything Old is New Again: A Fresh Look at Historical Approaches in Machine Learning (PDF). MIT (PhD thesis).
^ ^a ^b Lee, Yoonkyung; Wahba, Grace (2012). "Multicategory Support Vector Machines". Journal of the American Statistical Association. 99 (465): 67–81. doi:10.1198/016214504000000098.
^ ^a ^b Rosasco L., De Vito E., Caponnetto A., Piana M., Verri A. (May 2004). "Are Loss Functions All the Same". Neural Computation. 5. 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786. doi:10.1162/089976604773135104. PMID 15070510.{{cite journal}}: CS1 maint: 작성자 매개변수 사용(링크)
^ 가설 공간은 기계 학습 문제에서 데이터를 모형화하는 데 사용되는 함수의 집합이다.각 함수는 데이터의 구조에 대한 가설에 해당한다.전형적으로 가설 공간의 함수는 손실함수로부터 형성된 규범과 함수의 힐버트 공간을 형성한다.
^ 매개변수 선택에 대한 자세한 내용은 예를 참조하십시오.
^ 참조
^ Lin, Yi (July 2002). "Support Vector Machines and the Bayes Rule in Classification" (PDF). Data Mining and Knowledge Discovery. 6 (3): 259–275. doi:10.1023/A:1015469627679.
^ 자세한 파생 정보는 을 참조하십시오.

Evgeniou, Theodoros; Massimiliano Pontil; Tomaso Poggio (2000). "Regularization Networks and Support Vector Machines" (PDF). Advances in Computational Mathematics. 13 (1): 1–50. doi:10.1023/A:1018946025316.
Joachims, Thorsten. "SVMlight". Archived from the original on 2015-04-19. Retrieved 2012-05-18.
Vapnik, Vladimir (1999). The Nature of Statistical Learning Theory. New York: Springer-Verlag. ISBN 978-0-387-98780-4.

[rosasco1-1] Rosasco, Lorenzo. "Regularized Least-Squares and Support Vector Machines" (PDF).

[2] Cortes, Corinna; Vladimir Vapnik (1995). "Support-Vector Networks". Machine Learning. 20 (3): 273–297. doi:10.1007/BF00994018.

[3] Rifkin, Ryan (2002). Everything Old is New Again: A Fresh Look at Historical Approaches in Machine Learning (PDF). MIT (PhD thesis).

[Lee_2012_67–81-4] Lee, Yoonkyung; Wahba, Grace (2012). "Multicategory Support Vector Machines". Journal of the American Statistical Association. 99 (465): 67–81. doi:10.1198/016214504000000098.

[Rosasco_2004_1063–1076-5] Rosasco L., De Vito E., Caponnetto A., Piana M., Verri A. (May 2004). "Are Loss Functions All the Same". Neural Computation. 5. 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786. doi:10.1162/089976604773135104. PMID 15070510.{{cite journal}}: CS1 maint: 작성자 매개변수 사용(링크)

[6] 가설 공간은 기계 학습 문제에서 데이터를 모형화하는 데 사용되는 함수의 집합이다.각 함수는 데이터의 구조에 대한 가설에 해당한다.전형적으로 가설 공간의 함수는 손실함수로부터 형성된 규범과 함수의 힐버트 공간을 형성한다.

[7] 매개변수 선택에 대한 자세한 내용은 예를 참조하십시오.

[8] 참조

[9] Lin, Yi (July 2002). "Support Vector Machines and the Bayes Rule in Classification" (PDF). Data Mining and Knowledge Discovery. 6 (3): 259–275. doi:10.1023/A:1015469627679.

[10] 자세한 파생 정보는 을 참조하십시오.

[1]

[2]

[3]

[4]

[5]

[7]

[8]

[9]

[10]

Search

지원 벡터 기계의 정규화 관점

네임스페이스

더

목차

이론적 배경

힌지 손실의 특수 특성

파생

참고 및 참조