정규화 최소 제곱

정규화된 최소 제곱(RLS)은 정규화를 사용하여 결과 솔루션을 더욱 구속하면서 최소 제곱 문제를 해결하는 방법의 집합이다.

RLS는 크게 두 가지 이유로 사용된다. 첫 번째는 선형 시스템의 변수 수가 관측치 수를 초과할 때 나타난다. 그러한 설정에서, 일반적인 최소 제곱 문제는 잘못 발생하며, 따라서 관련 최적화 문제는 무한히 많은 해결책을 가지고 있기 때문에 적합이 불가능하다. RLS는 솔루션을 고유하게 결정하는 추가 제약조건의 도입을 허용한다.

RLS가 사용되는 두 번째 이유는 변수 개수가 관측치 개수를 초과하지 않을 때 발생하지만 학습된 모형은 일반화가 잘 되지 않아 어려움을 겪는다. RLS는 이러한 경우에 훈련 시간에 모델을 구속함으로써 모델의 일반성을 향상시키는 데 사용될 수 있다. 이 제약조건은 어떤 식으로든 솔루션을 "분산"하도록 강요하거나 특징 간 상관관계에 대한 정보와 같은 문제에 대한 다른 사전 지식을 반영할 수 있다. 이것에 대한 베이시안적인 이해는 RLS 방법이 종종 최소 제곱 문제에 대한 해결책에 대한 이전 방법과 동일하다는 것을 보여줌으로써 얻을 수 있다.

일반 제형

Consider a learning setting given by a probabilistic space $(X\times Y,\rho (X,Y))$ , $Y\in R$ . Let $S=\{x_{i},y_{i}\}_{i=1}^{n}$ denote a training set of $n$ pairs i.i.d. with respect to $\rho$ $\rho$ ${\displaystyle \rho$ $\rho$ $V:Y\times R\rightarrow [0;\infty )$ V $V:Y\times R\rightarrow [0;\infty )$ : $V:Y\times R\rightarrow [0;\infty )$ $V:Y\times R\rightarrow [0;\infty )$ $V:Y\times R\rightarrow [0;\infty )$ → $V:Y\times R\rightarrow [0;\infty )$ [ $V:Y\times R\rightarrow [0;\infty )$ ; $V:Y\times R\rightarrow [0;\infty )$ ) ${\displaystyle V:$ $Y\time R\rightarrow [0;\fty )}$ 은 $V:Y\times R\rightarrow [0;\infty )$ (는) 손실 함수다. $F$ $F$ 을(를) 예상되는 $F$ 위험과 같은 기능의 공간으로 정의하십시오.

\displaystyle \varepsilon (f)=\int V(y,f(x)\,d\rho(x,y)}

잘 규정되어 있다. 주요 목표는 예상되는 위험을 최소화하는 것이다.

\inf _{f\in F}\varepsilon (f)

문제를 정확히 해결할 수 없기 때문에, 해결책의 품질을 측정하는 방법을 명시할 필요가 있다. 좋은 학습 알고리즘은 추정자에게 작은 위험을 제공해야 한다.

공동 분포 distribution ${\displaystyle \rho$ }은 $($ 는) 일반적으로 알려져 있지 $\rho$ 않기 때문에 경험적 위험을 감수한다. 정규화된 최소 제곱의 경우 제곱 손실 함수가 도입된다.

\varepsilon (f)={\frac {1}{n}\sum _{i=1}^{nV(y_{i},f(x_{i}))={\frac {1}{n1}\sum _{i=1}^{n}(y_{i}-f(x_{i})^{2}

그러나 기능이 $X$ $X$ 의 사각 통합 기능 집합과 같이 상대적으로 제약이 없는 공간에서 가져온 경우 $X$ 이 접근방식은 훈련 데이터를 과도하게 적합시킬 수 있으며, 낮은 일반화로 이어질 수 있다. 따라서, $기능$ f{\ $displaystyle f$ }의 복잡성을 어떻게든 구속하거나 불이익을 주어야 한다 $f$ RLS에서, 이는 재생산 커널 힐버트 ${\mathcal {H}}$ (RKHS) H ${\$ 에서 ${\mathcal {H}}$ 함수를 선택하고 functio의 표준에 비례하여 객관적 함수에 정규화 용어를 추가함으로써 달성된다. ${\mathcal {H}}$ in H ${\$

\inf _{f\in F}\varepsilon (f)+\lambda R(f),\lambda >0

커널 제형

RKHS 정의

RKHS는 다음과 같은 재현 속성을 가진 $K(x,z)$ 대칭 양립자 커널 함수 $K(x,z)$ , $K(x,z)$ ) $K(x,z)$ 로 정의할 수 있다.

\langle K_{x}f\angle _{\mathcal{H}=f(x),

where $K_{x}(z)=K(x,z)$ . The RKHS for a kernel $K$ consists of the completion of the space of functions spanned by $\left\{K_{x}\mid x\in X\right\}$ : ${\displ$ $aystyle f(x)=\sum _{i=1}^{n}\alpha _{i}}{i_{i}},\,f\in {\mathcal {H},$ 여기서 $f(x)=\sum _{i=1}^{n}\alpha _{i}K_{x_{i}}(x),\,f\in {\mathcal {H}}$ $\alpha _{i}$ $\alpha _{i}$ ${\$ 는 $\alpha _{i}$ 모두 실제 숫자다. 일반적으로 사용되는 일부 커널은 선형 커널을 포함하며, 선형 함수의 공간을 유도한다.

K(x,z)=x^{T}z,

$순서$ d {\ $displaystyle$ d $}$ 의 다항식 $함수$ 의 공간을 유도하는 다항식 커널 $d$

K(x,z)=(x^{T}z+1)^{d}}

가우스 커널:

K(x,z)=e^{-{-{\frac {\x-z\ ^{2}}:{\sigma ^{2}}.

임의 손실 함수 $V$ ${\displaystyle V$ 의 경우 이 접근방식은 Tikhonov 정규화라는 이름의 일반적인 알고리즘 클래스를 정의한다는 점에 유의하십시오. 예를 들어 힌지 손실을 사용하면 서포트 벡터 머신 알고리즘으로 연결되고, 엡실론 감도 손실률을 사용하면 서포트 벡터 회귀로 연결된다.

임의 커널

대표자 정리는 해법이 다음과 같이 쓰여질 수 있음을 보장한다.

f(x)=\sum _{i=1}^{n}c_{i}K(x_{i},x)

(

f(x)=\sum _{i=1}^{n}c_{i}K(x_{i},x)

)

f(x)=\sum _{i=1}^{n}c_{i}K(x_{i},x)

=

f(x)=\sum _{i=1}^{n}c_{i}K(x_{i},x)

i

f(x)=\sum _{i=1}^{n}c_{i}K(x_{i},x)

=

f(x)=\sum _{i=1}^{n}c_{i}K(x_{i},x)

c

f(x)=\sum _{i=1}^{n}c_{i}K(x_{i},x)

f(x)=\sum _{i=1}^{n}c_{i}K(x_{i},x)

(

f(x)=\sum _{i=1}^{n}c_{i}K(x_{i},x)

f(x)=\sum _{i=1}^{n}c_{i}K(x_{i},x)

f(x)=\sum _{i=1}^{n}c_{i}K(x_{i},x)

x

f(x)=\sum _{i=1}^{n}c_{i}K(x_{i},x)

)

{\displaystyle f(x)=\sum _{i=1}^{n}c_{i

}K(

x_{i}}x)}

일부

f(x)=\sum _{i=1}^{n}c_{i}K(x_{i},x)

c\in \mathbb {R} ^{n}

c\in \mathbb {R} ^{n}

c\in \mathbb {R} ^{n}

c\in \mathbb {R} ^{n}

{\

c

\in \mathb

{R

} ^{n

최소화 문제는 다음과 같이 표현될 수 있다.

\min_{c\in \mathb {R}^{n}}{n}\{n}\Y-Kc\_{\mathb {R}^{n}^{n}}}^{n}}+\lambda \f\{H}^{2}}}}}}}}}}}

여기서, $약간$ 의 표기법 남용과 함께, 커널 $매트릭스$ K의i, j {\ $displaystyle$ $i$ $,j$ $}$ 항목 $i,j$ ( $K$ 커널 $K(\cdot ,\cdot )$ K $K(\cdot ,\cdot )$ ) $K(\cdot ,\cdot )$ ${\$ $displaystyle$ $K$ $(\cdot$ ,\ $cdot$ $K(\cdot ,\cdot )$ 과는 반대로 $( x$ $K(x_{i},x_{j})$ , x $j$ )가 된다 $K(x_{i},x_{j})$

그런 기능을 위해서,

{\begin{aligned}&\ f\ _{H}^{2}=\langle f,f\rangle _{H}=\left\langle \sum _{i=1}^{n}c_{i}K(x_{i},\cdot ),\sum _{j=1}^{n}c_{j}K(x_{j},\cdot )\right\rangle _{H}\\={}&\sum _{i=1}^{n}\sum _{j=1}^{n}c_{i}c_{j}\langle K(x_{i},\cdot ),K(x_{j},\cdot )\rangle _{H}=\sum _{i=1}^{n}\sum _{j=1}^{n}c_{i}c_{j}K(x_{i},x_{j})=c^{T}Kc,\end{aigned}

다음과 같은 최소화 문제를 얻을 수 있다.

\min _{c\in \mathbb {R} ^{n}}{\frac {1}{n}}\ Y-Kc\ _{\mathbb {R} ^{n}}^{2}+\lambda c^{T}Kc

.

볼록함수의 합이 볼록하므로 용액은 고유하며 그라데이션 w.r.t $c$ $c$ 을(를) $0$ {\ $displaystyle 0}$ 으로 $c$ 설정하면 최소값을 찾을 수 있다 $0$

-{\frac {1}{n1}Kc(Y-Kc)+\lambda Kc=0\Rightarrow K(K+\lambda nI)c=KY\Rightarrow c=(K+\lambda nI)^{-1Y,},

여기서 $c\in \mathbb {R} ^{n}.$ $c\in \mathbb {R} ^{n}.$ $c\in \mathbb {R} ^{n}.$ $c\in \mathbb {R} ^{n}.$ . ${\displaystyle c\in \mathb {R} ^{n}.$ $}$

복잡성

훈련의 복잡성은 기본적으로 커널 매트릭스를 계산하는 비용과 선형 시스템을 푸는 데 드는 비용을 합한 것으로 대략 $O(n^{3})$ ( $O(n^{3})$ $){\displaystyle O(n^{3})$ 이다 $O(n^{3})$ 선형 또는 가우스 커널에 대한 커널 행렬의 계산은 O $O(n^{2}D)$ ( $O(n^{2}D)$ $O(n^{2}D)$ $O(n^{2}D)$ ) $O(n^{2}D)$ 입니다 $O(n^{2}D)$ 시험의 복잡성은 $O(n)$ ( $){\displaystyle O(n)}$ 입니다 $O(n)$

예측

새로운 시험점 $∗{\$ 의 예측은 다음과 $x_{*}$ 같다.

f(x_{*}}}=\sum _{i}^{n}c_{i}K(x_{i}},x_{*})=K(X,X_{*}}}^{}}}{i}}}}^{i}T}c

선형 커널

편의를 위해 벡터 표기법이 도입된다. $X$ $X$ 을(를) 입력 벡터인 $n\times d$ $n\times d$ $n\times d$ ${\displaystyle$ $n$ $\times$ $d$ $}$ 행렬로 $n\times d$ 하고 $X$ $,$ $n\times 1$ 이 해당 출력인 $Y$ { $n\times 1$ $n\times 1$ ${\displaystyle n\times$ 1 $}$ 벡터로 $n\times 1$ 한다. 벡터의 경우 $\operatorname {K} =\operatorname {X} \operatorname {X} ^{T}$ 매트릭스는 K $\operatorname {K} =\operatorname {X} \operatorname {X} ^{T}$ = X $\operatorname {K} =\operatorname {X} \operatorname {X} ^{T}$ $\operatorname {K} =\operatorname {X} \operatorname {X} ^{T}$ T ${\$ 로 작성할 수 있으며 $\operatorname {K} =\operatorname {X} \operatorname {X} ^{T}$ 학습 함수는 다음과 같이 작성할 수 있다.

f(x_{*}}=\operatorname {K} _{x_{*c=x_{*}^{T}\operatorname {X}^{T}c=x_{*}^{T}w

여기서 $w=X^{T}c,w\in R^{d}$ = $w=X^{T}c,w\in R^{d}$ $w=X^{T}c,w\in R^{d}$ $w=X^{T}c,w\in R^{d}$ , $w=X^{T}c,w\in R^{d}$ $w=X^{T}c,w\in R^{d}$ $w=X^{T}c,w\in R^{d}$ d ${\$ $T}c,w\in$ R $^{d$ 목적 함수는 다음과 같이 다시 쓸 수 있다.

{\begin{aigned}&{\frac {1}{n}\ Y-\operatorname {K} c\ _{\mathb {R}^{n}^{2}+\lambda c^{{n}}}T}\operatorname {K} c\\[4pt]={}&#{\frac {1}{n}\y-\operatorname {X} \operatorname {X}^{T}c\ _{\mathb {R}^{n}^{n}}^{2}+\lambda c^{{{}}}}T}\operatorname {X} \operatorname {X} ^{T}c={\frac {1}{n}\y-\operatorname {X}w\{\\\\\\mathb {R}^{n}^{2}+\lambda \w\{d^{R}}}}}}}}}

첫 번째 항은 잔차 제곱합에 해당하는 일반 최소 제곱(OLS) 회귀 분석의 객관적 함수다. 두 번째 용어는 정규화 용어로서, OLS에는 존재하지 않으며, $큰$ w $w$ 값을 $w$ 벌한다. 부드러운 유한 치수 문제가 고려되고 표준 미적분 도구를 적용할 수 있다. 목표 함수를 최소화하기 위해 $w$ $w$ 에 대해 그라데이션 값을 계산하여 $w$ 0으로 설정하십시오.

\operatorname {X} ^{T}\operatorname {X} w-\\operatorname {X} ^{T}y+\lambda nw=0

w=(\operatorname {X}^{T}\operatorname {X} +\lambda n\operatorname {I})^{-1}\operatorname {X}^{T}y

This solution closely resembles that of standard linear regression, with an extra term $\lambda \operatorname {I}$ . If the assumptions of OLS regression hold, the solution $w=(\operatorname {X} ^{T}\operatorname {X} )^{-1}\operatorname {X} ^{T}y$ , with $\lambda =0$ $\lambda =0$ $[\displaystyle \lambda =0}$ 은 $\lambda =0$ 는) 편향되지 않은 추정기로, 가우스-마코프 정리에 따르면 최소분산 선형 불편 추정기다. 따라서 $\lambda n\operatorname {I}$ $\lambda n\operatorname {I}$ $\lambda n\operatorname {I}$ $\lambda n\operatorname {I$ 이라는 용어는 편향된 해결책으로 이어지지만, 분산도 감소시키는 경향이 있다. This is easy to see, as the covariance matrix of the $w$ -values is proportional to $(\operatorname {X} ^{T}\operatorname {X} +\lambda n\operatorname {I} )^{-1}$ , and therefore large values of $\lambda$ will lead to lower variance. 따라서 $\lambda$ $\lambda$ 을(를) 조작하는 것은 트레이드-오프 편견과 분산에 해당한다 $\lambda$ . $n$ $n$ 이(가) 상대적으로 작거나 $n$ 상관 관계가 있는 regressor와 같은 고분산 w ${\displaystyle$ w $}$ 추정치의 $w$ $w$ 에 대해서는 0이 아닌 $\lambda$ {\ $displaystyle \lambda }$ 을 $\lambda$ 를) 사용하여 최적의 예측 정확도를 얻을 수 있으며, 따라서 분산을 줄이기 위해 일부 편향을 도입할 수 있다. 게다가, 기계의 n<>사례가 있을 것 배우 d{\displaystyle n<, d}, 어떤 경우에 XTX{\displaystyle X^{T}X}rank-deficient 있다고 지적하고 0이 아닌 λ{\lambda\displaystyle}(XT⁡ X+λ와 나는)− 1{\displaystyle(\operatorname{X}^{T}\operatorname를 계산하기 위해 필요하다 드문 일이 아니다. {X}+ $\lambda$ n $\operatorname {I}^{-1$

복잡성

The parameter $\lambda$ controls the invertibility of the matrix $X^{T}X+\lambda nI$ . Several methods can be used to solve the above linear system, Cholesky decomposition being probably the method of choice, since the matrix $X^{T}X+\lambda nI$ 대칭적이고 긍정적이다. 이 방법의 복잡성은 훈련의 경우 $O(nD^{2})$ $O(nD^{2})$ ( n $O(nD^{2})$ $O(nD^{2})$ ) ${\displaystyle O(nD^{2})$ 이고 시험의 $O(D)$ 경우 $O(D)$ $O(D)$ $O(D)$ $O(D)$ 이다. 비용 $O(nD^{2})$ ( $O(nD^{2})$ D $O(nD^{2})$ ) ${\displaystyle O(nD^{2})$ 는 $X^{T}X$ 으로 X $X^{T}X$ X $X^{T}X$ {\ $displaystyle$ X $^{T}X$ 계산의 비용인 $O(nD^{2})$ 반면, 역 연산( $O(D^{3})$ 선형 시스템의 솔루션)은 대략 $O(D^{3})$ (D $O(D^{3})$ ) ${\displaysty$ O $(D^{3}})$ 이다 $O(D^{3})$

피쳐 맵과 머서의 정리

이 절에서는 RLS를 어떤 종류의 재생 커널 K로 확장하는 방법을 보여 준다. 형상공간이라 불리는 일부 Hilbert $공간$ F {\ $displaystyle$ F $}$ 에 $\Phi :X\rightarrow F$ 대해 선형 커널 대신 형상지도를 $\Phi :X\rightarrow F$ : $\Phi :X\rightarrow F$ → $\Phi :X\rightarrow F$ $\Phi :X\rightarrow F$ 로 간주한다 $F$ 이 경우 커널은 다음과 같이 정의된다. The matrix $X$ is now replaced by the new data matrix $\Phi$ , where $\Phi _{ij}=\varphi _{j}(x_{i})$ , or the $j$ -th component of the $\varphi (x_{i})$ .

K(x,x')=\langle \Phi(x),\Phi(x')\angle _{F}.

주어진 훈련 $K=\Phi \Phi ^{T}$ K $K=\Phi \Phi ^{T}$ = $K=\Phi \Phi ^{T}$ $K=\Phi \Phi ^{T}$ T ${\$ 에 대해 객관적인 기능을 다음과 같이 쓸 수 있다는 뜻이다 $K=\Phi \Phi ^{T}$

\min \mathb {R}^{n}\Y-\Phi \Phi \Phi \Phi \Phi ^{T}\{T}\\\\\\mathbbb{R}^{2}+{Lambda c^{T}\Phi ^{{T}c.

이 접근법은 커널 트릭으로 알려져 있다. 이 기법은 계산 연산을 상당히 단순화할 수 있다. $F$ $F$ 이 $F$ (가) 고차원이면 φ $\varphi (x_{i})$ i $\varphi (x_{i})$ ) ${\displaystyle \varphi(x_{i}})$ 계산이 다소 집약적일 수 있다 $\varphi (x_{i})$ . 만약 커널 함수의 명시적 형태가 알려져 있다면, $n\times n$ 는 n $n\times n$ $n\times n$ ${\displaystyle n\times$ n $}$ 커널 $n\times n$ 매트릭스 $\operatorname {K}$ $\operatorname {K}$ 을(를) 계산하고 저장하기만 하면 된다 $\operatorname {K}$

사실 힐버트 공간 $F$ $F$ 은(는) $\mathbb {R} ^{m}$ m ${\$ 에 대해 이형적일 필요가 없으며 무한 $F$ 치수일 수 있다. 이는 연속적이고 대칭적이며 양의 확정적 커널 함수를 다음과 같이 표현할 수 있다고 기술한 머서의 정리에서 따온 것이다.

K(x,z)=\sum _{i=1}^{\infit }\sigma _{i}e_{i}e_{i}(z)

where $e_{i}(x)$ form an orthonormal basis for $\ell ^{2}(X)$ , and $\sigma _{i}\in \mathbb {R}$ . If feature maps is defined $\varphi (x)$ with components ${\displa$ $ystyle \varphi _{i}(x)={\sqrt {\sigma _{i}}}e_{i}(x)}$ , it follows that $K(x,z)=\langle \varphi (x),\varphi (z)\rangle$ . This demonstrates that any kernel can be associated with a feature map, and that RLS generally consists of linear RLS performed in some possibly higher-dimensional featu공간을 넓히다 머서의 정리는 커널과 어떻게 연관될 수 있는 하나의 피쳐 맵을 보여주지만, 사실 복수의 피쳐 맵은 주어진 재생산 커널과 연관될 수 있다. 예를 들어 지도 $K(x,z)=\langle \varphi (x),\varphi (z)\rangle$ $\varphi (x)=K_{x}$ ) $\varphi (x)=K_{x}$ = K $\varphi (x)=K_{x}$ ${\$ = $K(x,z)=\langle \varphi (x),\varphi (z)\rangle$ ) , $K(x,z)=\langle \varphi (x),\varphi (z)\rangle$ ( z $K(x,z)=\langle \varphi (x),\varphi (z)\rangle$ ) $K(x,z)=\langle \varphi (x),\varphi (z)\rangle$ $K(x,z)=\langle \varphi (z)\rangele$ 을 $\varphi (x)=K_{x}$ 임의의 커널에 만족한다 $K(x,z)=\langle \varphi (x),\varphi (z)\rangle$ .

베이지안 해석

최소 제곱은 정규 분포를 따르는 잔차를 가정할 때 우도 최대화로 볼 수 있다. 이는 가우스 분포의 지수가 데이터에서 2차적이고 최소 제곱 객관적 함수도 같기 때문이다. 이 프레임워크에서 RLS의 정규화 조건은 $w$ ${\displaystyle$ w $}$ 에서 prior를 인코딩하는 것으로 이해할 수 있다 $w$ 예를 들어, 티코노프 정규화는 0에 중심을 둔 $w$ $w$ {\ $displaystyle w}$ 에서 정규화 이전 분포에 해당한다. 이를 확인하기 위해 먼저 OLS 목표는 $y^{i}$ 된 y $y^{i}$ i {\ $displaystyle$ y^{ $i}$ 이(가 $y^{i}$ ) 일반적으로 W $w^{T}\cdot x^{i}$ x $w^{T}\cdot x^{i}$ ${\$ 주위에 분포되어 있을 때 로그 우도 함수에 비례한다는 점에 유의하십시오. $T}\cdot$ x $^{i$ 그런 다음 0을 중심으로 $w$ 한 $w$ $w$ 의 정상 이전 버전이 양식의 로그 확률을 갖는다는 것을 관찰하십시오.

\log P(w)=q-\알파 \sum _{j=1}^{j=1}^{d_{j}^{2}

여기서 $q$ $q$ 과 $q$ $\alpha$ $\alpha$ 은 이전의 분산에 따라 달라지는 $\alpha$ $w$ 로서w {\ $displaystyle w}$ 과(와 $w$ 독립적이다. 따라서 이전 시간의 로그 최소화는 OLS 손실 함수와 능선 회귀 정규화 항의 합계를 최소화하는 것과 같다.

이는 티호노프 정규화가 최소 제곱 문제에 대한 고유한 해결책으로 이어지는 이유에 대해 보다 직관적인 해석을 제공한다. 데이터로부터 얻은 제약 조건을 만족하는 $w$ 벡터는 무한히 $많지만$ , w $w$ 이(가) 일반적으로 분배된다는 $w$ 선입견을 가지고 문제에 도달했기 때문이다.기원을 중심으로 해서, 우리는 결국 이 제약조건을 염두에 두고 해결책을 선택할 것이다.

다른 정규화 방법은 서로 다른 사전과 일치한다. 자세한 내용은 아래 목록을 참조하십시오.

구체적인 예

능선 회귀 분석(또는 Tikhonov 정규화)

벌칙 함수 R $R$ 에 대해 특히 일반적으로 선택하는 한 가지 방법은 제곱 $R$ $\ell _{2}$ 2 $\ell _{2}$ {\ $displaystyle \ell$ _ ${2$ }} 표준 $\ell _{2}$ , 즉,

R(w)=\sum _{j=1}^{d}w_{j}^{2}

{\frac {1}{n1}\Y-\operatorname {X}w\{2}^{2}^+\lambda \sum _{j=1}^{d} _{j}^{2}\오른쪽 화살표 \min _{w\in \mathb {R}^{d}}}}}}}}}}}}

이것의 가장 흔한 이름은 티호노프 정규화와 능선 회귀라고 불린다. 다음과 같은 $w$ $w$ 에 대해 폐쇄형 솔루션을 허용한다 $w$

w=(X^{T}X+\알파 I)^{-1}X^{T}Y

이름 $\alpha I$ 회귀 $분석$ 은 α I {\displaystyle $\alpha I}$ $X^{T}X$ $X^{T}X$ 공분산 $행렬$ X T X {\ $displaystyle$ X^{T}X}의 대각선 "리지"를 따라 양의 입력을 추가한다는 사실을 암시한다 $X^{T}X$

$\alpha =0$ = $\alpha =0$ ${\displaystyle \alpha =0$ 즉 일반 최소 제곱의 경우 $d>n$ > n $d>n$ 이(가) 샘플 공분산 행렬 X $X^{T}X$ $X^{T}X$ ${\displaystyle$ X $^{T}X}$ 을 $X^{T}X$ (를) 완전 순위로 만들지 $d>n$ 못하므로 고유한 솔루션을 산출하도록 반전할 수 없다. 보통 최저까지 해결책의 문제가 맞아떨어지는군 왜 있을 수 있는 무궁할 때 d>n{\displaystyle d>, n}그러나 리지 회귀 사용할 경우 α>0{\displaystyle \alpha>0}, 즉,, α의 샘플 공분산 매트릭스에 나는{\displaystyle \alpha 나는}을 추가 수행하면 모든의 eigenva 거야..잠복 동안 열리e 0보다 완전히 크다. 즉, 그것은 되돌릴 수 없게 되고, 해결책은 독특해진다.

일반적인 최소 제곱과 비교했을 때, 능선 회귀는 편향되지 않는다. 분산과 평균 제곱 오차를 줄이기 위해 거의 치우치지 않고 예측 정확도를 향상시키는 데 도움이 된다. 따라서, 능선 추정기는 계수를 축소하여 보다 안정적인 해결책을 제시하지만 데이터에 대한 민감도가 부족하여 어려움을 겪는다.

라소 회귀 분석

최소 절대 선택 및 축소(LASSO) 방식도 인기 있는 선택이다. 라소 회귀 분석에서 라소 페널티 함수 $R$ ${\$ $displaystyle$ R $}$ 은 $R$ r 1 {\ $displaystyle \ell _{1$ } 표준이다 $\ell _{1}$ .

R(w)=\sum _{j=1}^{d}\왼쪽 w_{j}\오른쪽

{\frac {1}{n1}\Y-\operatorname {X}w\{2}^{2}^+\lambda \sum _{j=1}^{d} \rightarrow \min _{w\in \mathb {R}^{d}}}}

라소 페널티 기능은 볼록하지만 엄격히 볼록하지는 않다는 점에 유의하십시오. 티코노프 정규화와 달리, 이 체계는 편리한 폐쇄형 솔루션을 가지고 있지 않다. 대신, 솔루션은 일반적으로 최소각 회귀 알고리즘과 같은 특정 알고리즘뿐만 아니라 2차 프로그래밍 또는 보다 일반적인 볼록 최적화 방법을 사용하여 발견된다.

lasso 회귀 분석과 Tikhonov 정규화의 중요한 차이점은 lasso 회귀 $분석$ 으로 인해 w {\displaystyle $w}$ 이(가 $)$ 다른 것보다 더 많은 항목이 실제로 0이 되도록 $w$ 강요한다는 것이다. 이와는 대조적으로 티호노프 정규화는 $w$ $w$ 의 입력을 작게 강제하지만 $w$ , 그렇지 않을 경우보다 더 많은 항목이 0이 되도록 강제하지는 않는다. 따라서 $w$ $w$ 의 non-zero 항목 수가 적을 것으로 $w$ 예상하는 경우 Tikhonov 정규화보다 LASSO 정규화가 더 적절하며, $w$ $w$ 의 항목이 일반적으로 $w$ 작지만 반드시 0은 아닐 것으로 예상할 때 Tikhonov 정규화가 더 적절하다. 이들 제도 중 어느 것이 더 관련성이 높은지는 당면한 특정 데이터 세트에 달려 있다.

위에서 설명한 피쳐 선택 외에도, LASSO에는 몇 가지 한계가 있다. 리지 회귀 분석은 높은 상관 관계가 있는 변수에 대해 $n>d$ 사례 $n>d$ > $n>d$ $n>d$ 에서 더 나은 정확도를 제공한다.^[1] $n<d$ 다른 경우 n $n<d$ < $n<d$ ${\displaystyle n<d$ LASSO는 최대 $n$ $n$ 개의 $n$ 변수를 선택한다. 더욱이 LASSO는 상관성이 높은 표본의 그룹에서 일부 임의 변수를 선택하는 경향이 있으므로 그룹화 효과는 없다.

ℓ₀ 벌칙

{\frac {1}{n1}\Y-\operatorname {X}w\{2}^+\lambda \w_{j}\ _{0}\오른쪽 화살표 \min _{w\in \mathb {R}^{d}}}}}}}}}}

sparsity를 강제하는 가장 극단적인 방법은 $w$ $w$ 의 계수의 실제 크기는 중요하지 $w$ 않다고 말하는 것이다. $오히려$ w{\ $displaystyle w$ }의 복잡성을 결정하는 유일한 것은 $w$ 0이 아닌 항목 수입니다. 이는 $R(w)$ ( $R(w)$ ) $R(w)$ 을 $w$ ${\$ $displaystyle \ell _{0}$ 의 $\ell _{0}$ 0 ${\$ $displaystyle w}$ 의 $\ell _{0}$ 표준으로 설정하는 $R(w)$ 것과 일치한다 $w$ 이 정규화 함수는 보장되는 첨사성에 매력적이지만, 약하게 볼록하지도 않은 함수의 최적화가 필요하기 때문에 해결하기가 매우 어렵다. 라소 회귀는 $\ell _{0}$ 0 {\ $displaystyle \ell _{0}$ 벌칙을 $\ell _{0}$ 최소로 완화하는 것으로, 약하게 볼록한 최적화 문제를 산출한다.

탄성망

음이 아닌 $\lambda _{1}$ $\lambda _{1}$ ${\$ 및 $\lambda _{2}$ $\lambda _{2}$ ${\$ 목표는 $\lambda _{2}$ 다음과 같은 형식을 갖는다.

{\frac {1}{n}}\ Y-\operatorname {X} w\ _{2}^{2}+\lambda _{1}\sum _{j=1}^{d} w_{j} +\lambda _{2}\sum _{j=1}^{d} w_{j} ^{2}\rightarrow \min _{w\in \mathbb {R} ^{d}}

$\alpha ={\frac {\lambda _{1}}{\lambda _{1}+\lambda _{2}}}$ = $\alpha ={\frac {\lambda _{1}}{\lambda _{1}+\lambda _{2}}}$ $\alpha ={\frac {\lambda _{1}}{\lambda _{1}+\lambda _{2}}}$ $\alpha ={\frac {\lambda _{1}}{\lambda _{1}+\lambda _{2}}}$ $\alpha ={\frac {\lambda _{1}}{\lambda _{1}+\lambda _{2}}}$ + $\alpha ={\frac {\lambda _{1}}{\lambda _{1}+\lambda _{2}}}$ 2 ${\$ }{1 $}{\lambda _{1}+\lambda _{2$ 그러면 최소화 문제의 해결책은 다음과 같이 설명된다.

{\frac {1}{n}}\ Y-\operatorname {X} w\ _{2}^{2}\rightarrow \min _{w\in \mathbb {R} ^{d}}{\text{ s.t. }}(1-\alpha )\ w\ _{1}+\alpha \ w\ _{2}\leq t

for some

t

.

( $(1-\alpha )\|w\|_{1}+\alpha \|w\|_{2}\leq t$ - $α$ ) $(1-\alpha )\|w\|_{1}+\alpha \|w\|_{2}\leq t$ $(1-\alpha )\|w\|_{1}+\alpha \|w\|_{2}\leq t$ $(1-\alpha )\|w\|_{1}+\alpha \|w\|_{2}\leq t$ w ‖ $(1-\alpha )\|w\|_{1}+\alpha \|w\|_{2}\leq t$ + $(1-\alpha )\|w\|_{1}+\alpha \|w\|_{2}\leq t$ $(1-\alpha )\|w\|_{1}+\alpha \|w\|_{2}\leq t$ $(1-\alpha )\|w\|_{1}+\alpha \|w\|_{2}\leq t$ $(1-\alpha )\|w\|_{1}+\alpha \|w\|_{2}\leq t$ $(1-\alpha )\|w\|_{1}+\alpha \|w\|_{2}\leq t$ $(1-\alpha )\|w\|_{1}+\alpha \|w\|_{2}\leq t$ $(1-\alpha )\|w\|_{1}+\alpha \|w\|_{2}\leq t$ ${\displaystyle (1-\alpha )\ w\{1}+\alpha$ \ $w\ \{2}\leq t}$ 를 Elastic Net 벌칙 함수로 $(1-\alpha )\|w\|_{1}+\alpha \|w\|_{2}\leq t$ 간주한다.

$\alpha =1$ = $\alpha =1$ $\alpha =1$ 일 $\alpha =1$ 때 탄성 그물은 능선회귀가 되고, $\alpha =0$ = $\alpha =0$ $\alpha =0$ 은 $\alpha =0$ (는) 라소가 된다. $\forall \alpha \in (0,1]$ α $\forall \alpha \in (0,1]$ ( $\forall \alpha \in (0,1]$ , $\forall \alpha \in (0,1]$ $\forall \alpha \in (0,1]$ $\forall \alpha \in (0,1]$ 탄력적 $\forall \alpha \in (0,1]$ 순 벌칙 함수는 0에서 첫 번째 파생상품이 없으며, 래소 회귀와 능선 회귀 분석을 $\forall \alpha >0$ 모두 취하면서 엄격하게 볼록 $\forall \alpha >0$ > $\forall \alpha >0$ 0 {\ $displaystyle \alpha >0}$ 이다.

Elastic Net의 주요 특성 중 하나는 상관된 변수 그룹을 선택할 수 있다는 것이다. 샘플 $x_{j}$ $x_{i}$ $x_{i}$ ${\$ 와 $x_{i}$ $x_{j}$ $x_{j}$ ${\$ 의 중량 벡터 차이는 다음과 같다.

w_{i}^{*}(\lambda _{1},\lambda _{2})-w_{j}^{*}(\lambda _{1},\lambda _{2}) \leq {\frac {\sum _{i=1}^{n} y_{i} }{\lambda _{2}}}{\sqrt {2(1-\rho _{ij})}}

, where

\rho _{ij}=x_{i}^{T}x_{j}

{\

T}x_{j}}}

^[2].

$x_{i}$ $x_{i}$ ${\$ 와 $x_{i}$ $x_{j}$ $x_{j}$ ${\$ 이( $\rho _{ij}\rightarrow 1$ ) 높은 상관관계를 갖는 경우 $x_{j}$ ( weight $\rho _{ij}\rightarrow 1$ j $\rho _{ij}\rightarrow 1$ → $\rho _{ij}\rightarrow 1$ ${\displaystyle \rho _{ij}\오른쪽 화살표$ 1 $})$ 중량 벡터는 매우 근접하다. 음의 상관관계가 있는 시료( $\rho _{ij}\rightarrow -1$ $\rho _{ij}\rightarrow -1$ j $\rho _{ij}\rightarrow -1$ → $\rho _{ij}\rightarrow -1$ - $\rho _{ij}\rightarrow -1$ ${\displaystyle \rho _{ij}\오른쪽$ 화살표 $-1$ 의 경우 $-x_{j}$ - $-x_{j}$ j $-x_{j}$ {\ $displaystyle -x_{j}$ 를 채취할 수 있다 $-x_{j}$ . 요약하자면, 상관 관계가 높은 변수의 경우 가중치 벡터는 음의 상관 변수의 경우 부호까지 동일한 경향이 있다.

RLS 방법의 부분 목록

다음은 정규화 함수 $R(\cdot )$ ( $R(\cdot )$ ) ${\displaystyle$ R $(\cdot$ $R(\cdot )$ 의 가능한 선택 목록과 각 함수의 이름, 단순한 것이 있는 경우 그에 상응하는 이전 및 결과 최적화 문제에 대한 솔루션을 계산하는 방법들이다.

이름	정규화 함수	해당이전	해결 방법
티호노프 정규화	$\ w\ _{2}^{2}$	정상	폐쇄형
라소 회귀 분석	${\displaystyle \ w\ _{1}.$	라플라스	근위부 그라데이션 강하, 최소 각도 회귀 분석
$\ell _{0}$ 0 ${\$ 벌칙 $\ell _{0}$	$\ w\ _{0}$	–	전진 선택, 후진 제거, 스파이크 및 슬래브와 같은 이전 버전 사용
탄성 그물	${\displaystyle \\ w\ _{1}+(1-\properties )\ w\ _{2}^{2}}:$	노멀과 라플라스 혼합물	근위부 그라데이션 강하
총변동 정규화	$\sum _{j=1}^{d-1} w_{j+1}-w_{j}$	–	스플릿-브레그만 방법, 그 중에서도

참고 항목

참조

^ Tibshirani Robert (1996). "Regression shrinkage and selection via the lasso" (PDF). Journal of the Royal Statistical Society, Series B. 58: pp. 266–288.
^ Hui, Zou; Hastie, Trevor (2003). "Regularization and Variable Selection via the Elastic Net" (PDF). Journal of the Royal Statistical Society, Series B. 67 (2): pp. 301–320.

외부 링크

http://www.stanford.edu/~hastie/TAKs/enet_talk.pdf 탄력넷을 통한 정규화 및 가변선택(variable selection)
정규화된 최소 제곱 및 지원 벡터 머신(표시)
정규화된 최소 제곱(표시)

[1] Tibshirani Robert (1996). "Regression shrinkage and selection via the lasso" (PDF). Journal of the Royal Statistical Society, Series B. 58: pp. 266–288.

[2] Hui, Zou; Hastie, Trevor (2003). "Regularization and Variable Selection via the Elastic Net" (PDF). Journal of the Royal Statistical Society, Series B. 67 (2): pp. 301–320.

[1]

[2]

Search

정규화 최소 제곱

네임스페이스

더

목차

일반 제형

커널 제형

RKHS 정의

임의 커널

복잡성

예측

선형 커널

복잡성

피쳐 맵과 머서의 정리

베이지안 해석

구체적인 예

능선 회귀 분석(또는 Tikhonov 정규화)

라소 회귀 분석

ℓ₀ 벌칙

탄성망

RLS 방법의 부분 목록

참고 항목

참조

외부 링크

Search

정규화 최소 제곱

일반 제형

커널 제형

RKHS 정의

임의 커널

복잡성

예측

선형 커널

복잡성

피쳐 맵과 머서의 정리

베이지안 해석

구체적인 예

능선 회귀 분석(또는 Tikhonov 정규화)

라소 회귀 분석

ℓ0 벌칙

탄성망

RLS 방법의 부분 목록

참고 항목

참조

외부 링크

ℓ₀ 벌칙