최소 제곱 지지 벡터 기계

Least-squares support-vector machine

통계통계 모델링용 최소 제곱 지원 벡터 머신(LS-SVM)은 데이터를 분석하고 패턴을 인식하며 분류회귀 분석에 사용되는 관련 감독 학습 방법 집합인 Support-Vector 머신(SVM)의 최소 제곱 버전입니다.이 버전에서는 기존의 SVM에 대한 볼록한 2차 프로그래밍(QP) 문제 대신 일련의 선형 방정식을 풀어서 해결책을 찾습니다. 최소 제곱 SVM 분류기는 Johan Sukens와 Joos Vandewalle에 [1]의해 제안되었습니다.LS-SVM은 커널 기반 학습 방식의 클래스입니다.

서포트 벡터 머신에서 최소 제곱 서포트 벡터 머신으로

Vapnik의 기원에 따라 훈련 세트{x, y 나는}을 감안할 때 나는 입력 데이터로 나는 ∈ Rn{\displaystyle x_{나는}\in \mathbb{R}^{n}}x과 이에 이진 클래스 라벨 나는}{− 1,+1}{\displaystyle y_{나는}\in \{-1,+1\}∈ y 1N{\displaystyle\와 같이{x_{나는},y_{나는}\}_{i=1}^{N}}원, SVM[2]선형 분급기,.알다음 조건을 만족하는 제제:

Spiral 데이터: 데이터 의 경우 1 {}=1 데이터 포인트의 경우 i - {}=-

와 동등하다.

여기서 (displaystyle 원래 공간에서 고차원 또는 무한 차원 공간으로의 비선형 지도입니다.

분리할 수 없는 데이터

이러한 분리형 하이퍼플레인이 존재하지 않는 경우, 우리는 다음과 같이 slack 변수 i _ 도입한다.

구조적 위험 최소화 원칙에 따라 위험 경계가 다음과 같은 최소화 문제에 의해 최소화된다.

SVM 분류자의 결과

이 문제를 해결하기 위해 Lagrangian 함수를 구성할 수 있습니다.

i , i0 ( , ,N) { _ 0라그랑지안 승수이다.최적의 지점은 라그랑지안 함수의 안장점에 있을 것이다. 그리고 우리는 다음을 얻는다.

ww를 적절한 목적과 제약조건에서 형성된 Lagrangian 표현으로 하면 다음과 같은 2차 프로그래밍 문제가 발생합니다.

여기서 K( i , ) ( ) 、 j { K ( _ { ) = \ \ ( x _ { } ) 、 \ ( x _ {) \ right \} 。(8)의 제약을 받는 이 QP 문제를 해결하면 고차원 공간에서 하이퍼플레인, 즉 원래 공간에서 분류자를 얻을 수 있다.

최소 제곱 SVM 공식

SVM 분류기의 최소 제곱 버전은 최소화 문제를 다음과 같이 재구성하여 얻을 수 있습니다.

평등 제약을 받다

위의 최소 지연 SVM() 분류기 공식은 이진 ± 해석에 암묵적으로 대응합니다

2 {}=1을 사용하면 과 같이 됩니다.

i - ( ( ) +). { _ { i } =_ { i } - ( } 이 오차는 최소 제곱 데이터 적합에도 적용되므로 회귀 분석 사례에서도 동일한 최종 결과가 유지됩니다

따라서 LS-SVM 분류기 공식은 다음과 같습니다.

W \ E_ 2 i 2 i ( -( ( ( i) + .\ E { D } =} {2} \\ { 1 }^{

LS-SVM 분류자의 결과

μ \zeta 모두 하이퍼 파라미터로 간주하여 정규화의 양과 합계 오차를 조정합니다.이 솔루션은 / / μ \ \ =\ 에만 의존하므로 원래 제제에서는 튜닝 파라미터로 \ \ script 만을 사용합니다.LS-SVM에 베이지안 해석을 제공하기 위해 파라미터로서μ\ 를 사용합니다

LS-SVM 회귀기의 솔루션은 Lagrangian 함수를 구성한 후에 얻을 수 있습니다.

iR {\ \{R Lagrange 승수입니다.최적화를 위한 조건은 다음과 같습니다.

ww 및 e를 하면 2차 프로그래밍 문제가 아닌 선형 시스템이 생성됩니다.

[ 1, , ]T Y = [ _ {1 , \, y { N} ^ [ }=[ α [1, N] {\= [\ _ _{ ({N})은× N({N\N}) ID 이며, RN ×({\Omega \ N 된 커널 매트릭스입니다

커널 함수 K

커널 함수 K(•, •)에는 일반적으로 다음과 같은 선택지가 있습니다.

  • 커널 :K ( , i ) x ,{ K ( , _ { } )
  • 다항식 ( , ) ( + x / ) ,\ K ( , x { )
  • 반지름 기본 함수 : ( x , i ) ( - -x i 2/ 2 ), { display ( x , x _ { i } = \ \\ { _ {} \ ^ { }
  • MLP 커널 : ( , i ) T + { K ( , x { } )

d\ d ckk k\ 상수입니다.Mercer 조건은 다항식 케이스와 RBF 케이스의 c R + \ c, \{R}^{+} dN {\ d N 값에 대해 유지되지만 MLP의kk} 및 \tyle\tyle \}의 한 모든 값에는 적용되지 않습니다.스케일 c {\c},§ \sigma k {\ k 다항식, RBF 및 MLP 커널 함수의 입력 스케일링을 결정합니다.이 스케일링은 통계에서 커널의 대역폭과 관련되어 있으며, 여기서 대역폭은 커널 메서드의 일반화 동작에 중요한 파라미터임을 알 수 있습니다.

LS-SVM의 베이지안 해석

SVM의 베이지안 해석은 Smola 등에 의해 제안되었다.그들은 다른 눈 SVM에 사용하는 기능적인 공간에 다른 사전 확률 분포를 정의하는 것으로, P으로 간주될 수 있∝ 지수 함수 ⁡(− β ‖ P^ f‖ 2){\displaystyle P[f]\propto \exp \left({-\beta \left\{{\hat{P}}f}\right\^{2}}\right)}[f]. 여기β>0{\displaystyle \beta>0}을 보여 주었다. 는 및 P(는) 선택한 커널에 대응하는 정규화 연산자입니다.

일반적인 베이지안 증거 프레임워크는 MacKay에 [3][4][5]의해 개발되었으며, MacKay는 이를 회귀, 순방향 신경망 및 분류 네트워크의 문제에 사용했다. D{\ D 파라미터 벡터 w {\displaystyle w 하이퍼 파라미터 또는 정규화 파라미터 {\를 가진 M {\ 경우 베이지안 추론은 3가지 수준의 추론을 통해 구성됩니다.

  • 수준 1에서, 주어진 {\ {\에 대해, 첫 번째 추론 수준은 베이지안 규칙에 의한w {\ w 후방 분포를 추론한다.
  • 두 번째 수준의 추론은 을 최대화하여 의 값을 결정합니다.
  • 근거 프레임워크의 세 번째 수준의 추론은 사후 확률을 조사하여 다른 모델의 순위를 매긴다.

우리는 베이지안 증거 프레임워크가 모델과 모델 선택을 학습하기 위한 통일된 이론임을 알 수 있다.Kwok은 베이지안 증거 프레임워크를 사용하여 SVM의 공식화와 모델 선택을 해석했다.그리고 그는 벡터 회귀를 지원하기 위해 베이지안 증거 프레임워크를 적용했습니다.

데이터 포인트{ \{ M 하이퍼 \mu} { 따라 가 표시됩니다.p ( , , , , M){ ( w , , \ \ mu , \ \ zeta , \{ } }) 。Bayes 규칙을 적용하면 얻을 수 있습니다.

서 p log p 가능한 ww 적분이 정규화 상수입니다w bb는 하이퍼파라미터{\\와는 무관하며 조건부 독립적이라고 합니다.

b display { \ _ { } \ 일 때 b의 는 거의 균일한 분포에 가깝습니다.또한 ww와 b가 가우스 분포라고 하므로 ww와 priori 분포는 _ 됩니다.

서 n {\ w{\ w의 치수와 같은 피쳐 공간의 치수입니다.

p 、 log ⁡ p ( D w , , \ log \ , \ \ , \ { )의 w , , ,{\ m m m \ , b , b , \ mathbbbb { 에만 한다고 가정합니다.

최소 제곱 비용 함수를 얻기 위해 데이터 점의 확률은 다음에 비례한다고 가정합니다.

가우스 분포는 i - ( ( xi) + b) { displaystyle } =}-(w^{)에 대해 취해진다.

bb는 각각 class m - {\{_m + _{+})가 목표물 -1과 +1에 매핑되도록 결정된다고 가정합니다. () + \ w클래스 요소(의 T 1 / 1을 갖는 다변량 가우스 분포를 따릅니다.

앞의 표현들을 조합하고, 모든 상수를 무시함으로써, 베이즈의 규칙은

최대 후방 밀도 w Pb_{ (26)의 음대수를 최소화하여 구하므로 (10)에 도달한다.

레퍼런스

  1. ^ Suykens, J. A. K.; Vandewalle, J. (1999) "최소 제곱 벡터 기계 분류기 지원", 신경 처리 문자, 9(3), 293–300.
  2. ^ Vapnik, V.통계학 학습 이론의 성질.스프링거-벨락, 뉴욕, 1995년
  3. ^ 맥케이, D. J. C.베이지안 보간.Neural Computation, 4(3): 415–447, 1992년 5월.
  4. ^ MacKay, D. J. C. 역전파 네트워크를 위한 실용적인 베이지안 프레임워크.Neural Computation, 4(3): 448~472, 1992년 5월.
  5. ^ 맥케이, D. J. C.분류 네트워크에 적용되는 근거 프레임워크.Neural Computation, 4(5): 720-736, 1992년 9월.

참고 문헌

  • J. A. K.Suykens, T. Van Gestel, J. De Brabanter, B.드무어, J. Vandewalle, 최소 제곱 서포트 벡터 머신, 월드 사이언티픽 퍼브.2002년 싱가포르 주식회사 ISBN981-238-151-1
  • Suykens J. A. K., Vandewalle J., 최소 제곱은 벡터 기계 분류기, 신경 처리 문자, 제9권, 제3호, 1999년 6월, 페이지 293–300을 지원한다.
  • 블라디미르 바프니크통계학습이론의 본질.Springer-Verlag, 1995년ISBN 0-387-98780-0
  • MacKay, D. J. C., 개연성 있는 네트워크와 그럴듯한 예측—감독된 신경 네트워크에 대한 실용적인 베이지안 방법의 검토.네트워크: 신경계 계산, vol. 6, 1995, 페이지 469–505.

외부 링크

  • www.esat.kuleuven.be/sista/lssvmlab/ "Least square support vector machine Lab (LS-SVMlab) 툴박스에는 다수의 LS-SVM 알고리즘에 대한 Matlab/C 구현이 포함되어 있습니다."
  • www.kernel-machines.org "벡터 머신 및 커널 기반 메서드 지원(Smola & Schölkopf)"
  • www.gaussianprocess.org "가우스 프로세스:회귀 및 분류 함수보다 가우스 프로세스를 사용한 데이터 모델링(MacKay, Williams).
  • www.support-vector.net "Vector Machine 및 커널 기반 메서드(Cristianini)"를 지원합니다.
  • dlib: 대규모 데이터 세트를 위한 최소 제곱 SVM 구현이 포함되어 있습니다.