통계 및 통계 모델링용 최소 제곱 지원 벡터 머신(LS-SVM)은 데이터를 분석하고 패턴을 인식하며 분류 및 회귀 분석에 사용되는 관련 감독 학습 방법 집합인 Support-Vector 머신(SVM)의 최소 제곱 버전입니다.이 버전에서는 기존의 SVM에 대한 볼록한 2차 프로그래밍(QP) 문제 대신 일련의 선형 방정식을 풀어서 해결책을 찾습니다. 최소 제곱 SVM 분류기는 Johan Sukens와 Joos Vandewalle에 [1]의해 제안되었습니다.LS-SVM은 커널 기반 학습 방식의 클래스입니다.
Vapnik의 기원에 따라 훈련 세트{x, y 나는}을 감안할 때 나는 입력 데이터로 나는 ∈ Rn{\displaystyle x_{나는}\in \mathbb{R}^{n}}x과 이에 이진 클래스 라벨 나는}{− 1,+1}{\displaystyle y_{나는}\in \{-1,+1\}∈ y 1N{\displaystyle\와 같이{x_{나는},y_{나는}\}_{i=1}^{N}}원, SVM[2]선형 분급기,.알다음 조건을 만족하는 제제:
Spiral 데이터: 데이터 의 경우 1 {}=1 데이터 포인트의 경우 i - {}=-
와 동등하다.
여기서 (displaystyle 는 원래 공간에서 고차원 또는 무한 차원 공간으로의 비선형 지도입니다.
분리할 수 없는 데이터
이러한 분리형 하이퍼플레인이 존재하지 않는 경우, 우리는 다음과 같이 slack 변수 i _를 도입한다.
서 i , i0 ( , ,N) { _ 0 은 라그랑지안 승수이다.최적의 지점은 라그랑지안 함수의 안장점에 있을 것이다. 그리고 우리는 다음을 얻는다.
ww를 적절한 목적과 제약조건에서 형성된 Lagrangian 표현으로 하면 다음과 같은 2차 프로그래밍 문제가 발생합니다.
여기서 K( i , ) ( ) 、 j) { K ( _ { ) = \ \ ( x _ { } ) 、 \ ( x _ {) \ right \} 。(8)의 제약을 받는 이 QP 문제를 해결하면 고차원 공간에서 하이퍼플레인, 즉 원래 공간에서 분류자를 얻을 수 있다.
최소 제곱 SVM 공식
SVM 분류기의 최소 제곱 버전은 최소화 문제를 다음과 같이 재구성하여 얻을 수 있습니다.
평등 제약을 받다
위의 최소 지연 SVM() 분류기 공식은 이진 이 ± 해석에 암묵적으로 대응합니다
2 {}=1을 사용하면 과 같이 됩니다.
i - ( ( ) +). { _ { i } =_ { i } - ( } 이 오차는 최소 제곱 데이터 적합에도 적용되므로 회귀 분석 사례에서도 동일한 최종 결과가 유지됩니다
따라서 LS-SVM 분류기 공식은 다음과 같습니다.
W \ E_ 및 2 i 2 i ( -( ( ( i) +.\ E { D } =} {2} \\ { 1 }^{
LS-SVM 분류자의 결과
μ와 \zeta는 모두 하이퍼 파라미터로 간주하여 정규화의 양과 합계 오차를 조정합니다.이 솔루션은 / / μ \ \ =\에만 의존하므로 원래 제제에서는 튜닝 파라미터로 \ \ script 만을 사용합니다.LS-SVM에 베이지안 해석을 제공하기 위해 파라미터로서μ\ 와 를 사용합니다
[ 1, , ]T Y = [ _ {1 , \, y { N} ^ [}=[ α [1, N] {\= [\ _ _{ 단({N})은× N({N\N}) ID이며, RN ×({\Omega \ N은 로 된 커널 매트릭스입니다
커널 함수 K
커널 함수 K(•, •)에는 일반적으로 다음과 같은 선택지가 있습니다.
커널 :K ( , i ) x ,{ K ( , _ { } )
다항식 ( , ) ( + x / ) ,\ K ( , x { )
반지름 기본 함수: ( x , i ) ( - -x i 2/ 2 ), { display ( x , x _ { i } = \ \\ { _ {} \ ^ { }、
MLP 커널 : ( , i ) T + { K ( , x { } )
서d\ dckkk\는 상수입니다.Mercer 조건은 다항식 케이스와 RBF 케이스의 cR + \ c, \{R}^{+} dN {\ d N 값에 대해 유지되지만 MLP의kk} 및 \tyle\tyle \}의 한 모든 값에는 적용되지 않습니다.스케일 c {\c},§ \sigma k {\ k는 다항식, RBF 및 MLP 커널 함수의 입력 스케일링을 결정합니다.이 스케일링은 통계에서 커널의 대역폭과 관련되어 있으며, 여기서 대역폭은 커널 메서드의 일반화 동작에 중요한 파라미터임을 알 수 있습니다.
LS-SVM의 베이지안 해석
SVM의 베이지안 해석은 Smola 등에 의해 제안되었다.그들은 다른 눈 SVM에 사용하는 기능적인 공간에 다른 사전 확률 분포를 정의하는 것으로, P으로 간주될 수 있∝ 지수 함수 (− β ‖ P^ f‖ 2){\displaystyle P[f]\propto \exp \left({-\beta \left\{{\hat{P}}f}\right\^{2}}\right)}[f]. 여기β>0{\displaystyle \beta>0}을 보여 주었다. 는 및 P은(는) 선택한 커널에 대응하는 정규화 연산자입니다.
일반적인 베이지안 증거 프레임워크는 MacKay에 [3][4][5]의해 개발되었으며, MacKay는 이를 회귀, 순방향 신경망 및 분류 네트워크의 문제에 사용했다.D{\ D 파라미터 벡터 w {\displaystyle w 및 하이퍼 파라미터 또는 정규화 파라미터 {\를 가진 M {\의 경우 베이지안 추론은 3가지 수준의 추론을 통해 구성됩니다.
수준 1에서, 주어진 {\ {\에 대해, 첫 번째 추론 수준은 베이지안 규칙에 의한w {\ w의 후방 분포를 추론한다.
두 번째 수준의 추론은 을 최대화하여 의 값을 결정합니다.
근거 프레임워크의 세 번째 수준의 추론은 사후 확률을 조사하여 다른 모델의 순위를 매긴다.
우리는 베이지안 증거 프레임워크가 모델과 모델 선택을 학습하기 위한 통일된 이론임을 알 수 있다.Kwok은 베이지안 증거 프레임워크를 사용하여 SVM의 공식화와 모델 선택을 해석했다.그리고 그는 벡터 회귀를 지원하기 위해 베이지안 증거 프레임워크를 적용했습니다.
데이터 포인트{\{ 및M의 하이퍼 \mu} {에 따라가 표시됩니다.p ( , , , , M){ ( w , , \ \ mu , \ \ zeta , \{ } }) 。Bayes 규칙을 적용하면 얻을 수 있습니다.
서 p log、 p는 가능한 ww의 적분이 정규화 상수입니다w와 bb는 하이퍼파라미터{\\와는 무관하며 조건부 독립적이라고 합니다.
b display { \ _ { } \ 일 때 b의 는 거의 균일한 분포에 가깝습니다.또한 ww와b가 가우스 분포라고 하므로 ww와의 priori 분포는 _가 됩니다.
서 n {\는 w{\ w의 치수와 같은 피쳐 공간의 치수입니다.
p 、 log 、 p ( D w , , \ log \ , \ \ , \ { )의은w , , ,{\ m m m \ , b , b , \ mathbbbb { 에만한다고 가정합니다.
최소 제곱 비용 함수를 얻기 위해 데이터 점의 확률은 다음에 비례한다고 가정합니다.
가우스 분포는 i - ( ( xi) + b) { displaystyle } =}-(w^{)에 대해 취해진다.
와 bb는 각각 class m - {\{_m + _{+})가 목표물 -1과 +1에 매핑되도록 결정된다고 가정합니다. () + \ w클래스 요소(의 T는1 / 1을 갖는 다변량 가우스 분포를 따릅니다.
앞의 표현들을 조합하고, 모든 상수를 무시함으로써, 베이즈의 규칙은
최대 후방 밀도 w 및 Pb_{은 (26)의 음대수를 최소화하여 구하므로 (10)에 도달한다.
레퍼런스
^Suykens, J. A. K.; Vandewalle, J. (1999) "최소 제곱 벡터 기계 분류기 지원", 신경 처리 문자, 9(3), 293–300.