멀티태스킹 학습

MTL(Multi-Task Learning)은 여러 학습 작업을 동시에 해결하면서 여러 작업의 공통점과 차이를 활용하는 기계 학습의 하위 분야입니다.따라서 모델을 ^[1]^[2]^[3]별도로 교육하는 것에 비해 작업별 모델에 대한 학습 효율성과 예측 정확도가 향상될 수 있습니다.MTL의 초기 버전은 "힌트"^[4]^[5]라고 불렸다.

Rich Caruana는 널리 인용된 1997년 논문에서 다음과 같은 특징을 제시했습니다.

멀티태스킹 러닝은 관련 작업의 교육 신호에 포함된 도메인 정보를 귀납적 편견으로 사용하여 일반화를 개선하는 귀납적 전달 접근법입니다.이는 공유 표현을 사용하여 태스크를 병렬로 학습함으로써 이루어집니다. 각 태스크에 대해 학습된 내용은 다른 태스크를 더 ^[3]잘 학습하는 데 도움이 됩니다.

분류 맥락에서 MTL은 여러 분류 작업을 공동으로 학습하여 성능을 향상시키는 것을 목표로 한다.예를 들어 스팸 필터가 있습니다.스팸 필터는 서로 다른 사용자 간에 구별되지만 관련된 분류 태스크로 취급할 수 있습니다.보다 구체적으로 말하면, 스팸 메일을 정규 메일과 구별하는 기능의 배포가 다른 것을 생각해 봅시다.예를 들어 영어 사용자는 러시아어로 된 모든 이메일이 스팸일 뿐 러시아어로 된 이메일은 스팸일 수 있습니다.그러나 이 분류 작업에는 사용자 간에 명확한 공통성이 있습니다. 예를 들어, 한 가지 공통적인 특징은 송금과 관련된 텍스트일 수 있습니다.각 사용자의 스팸 분류 문제를 MTL을 통해 공동으로 해결함으로써 솔루션이 서로 정보를 전달하고 ^[6]성능을 향상시킬 수 있습니다.MTL 설정의 또 다른 예로는 멀티클래스 분류 및 멀티라벨 ^[7]분류가 있습니다.

멀티태스킹 학습은 관련 작업을 잘 수행하기 위해 알고리즘을 요구함으로써 유도되는 정규화가 모든 복잡성에 균등하게 불이익을 줌으로써 과적합을 방지하는 정규화보다 우수할 수 있기 때문에 효과가 있다.MTL이 특히 도움이 될 수 있는 상황 중 하나는 태스크가 상당한 공통점을 공유하고 있으며 일반적으로 표본이 ^[8]^[6]약간 부족한 경우입니다.다만, 이하에 설명하듯이, MTL은 관련 없는 ^[8]^[9]작업을 학습하는 데에도 도움이 되는 것으로 나타났습니다.

방법들

작업 그룹화 및 중복

MTL 패러다임에서는 일부 또는 모든 태스크에서 정보를 공유할 수 있습니다.태스크 관련 구조에 따라 태스크 간에 선택적으로 정보를 공유할 수 있습니다.예를 들어 태스크는 그룹화되거나 계층에 존재하거나 일부 일반 메트릭에 따라 관련될 수 있습니다.아래에서 좀 더 공식적으로 개발된 바와 같이, 각 과제를 모델링하는 매개 변수 벡터가 기초적인 기초의 선형 조합이라고 가정해 보자.이 기준의 유사성은 태스크의 관련성을 나타낼 수 있습니다.예를 들어, 희소성의 경우 작업 간에 0이 아닌 계수가 겹치면 공통성을 나타냅니다.태스크 그룹화는 베이스 요소의 일부 서브셋에 의해 생성된 서브스페이스에 있는 태스크에 대응하며,^[10] 여기서 다른 그룹의 태스크는 베이스의 관점에서 분리되거나 임의로 중복될 수 있다.작업 관련성은 우선순위로 부과되거나 ^[7]^[11]데이터에서 학습될 수 있다.계층적 업무 관련성은 선험적 지식이나 학습 관계를 명시적으로 ^[8]^[12]가정하지 않고 암묵적으로 이용될 수도 있다.예를 들어, 여러 ^[8]영역에 걸친 공동 학습의 효과를 보장하기 위해 과제 간 표본 관련성에 대한 명시적 학습을 수행할 수 있다.

지식의 이전

멀티태스킹 학습과 관련된 것은 지식 전달의 개념이다.전통적인 다중 작업 학습은 여러 과제에서 동시에 공유 표현이 개발된다는 것을 의미하지만, 지식의 이전은 순차적으로 공유된 표현을 의미한다.이미지 기반 객체 분류기인 심층 컨볼루션 뉴럴 네트워크인 GoogleLeNet과 ^[13]같은 대규모 기계 학습 프로젝트는 관련 작업을 학습하는 추가적인 알고리즘에 유용할 수 있는 강력한 표현을 개발할 수 있다.예를 들어, 사전 트레이닝된 모델은 다른 학습 알고리즘의 전처리를 수행하기 위한 특징 추출기로 사용할 수 있습니다.또는 사전 교육을 받은 모델을 사용하여 유사한 아키텍처의 모델을 초기화하고, 그 후 다른 분류 ^[14]작업을 학습하도록 미세 조정할 수 있습니다.

그룹 온라인 적응 학습

전통적으로 멀티태스킹 학습과 지식 전달은 고정 학습 환경에 적용됩니다.비정상 환경으로의 확장을 그룹 온라인 적응 학습(GOAL)^[15]이라고 합니다.학습자는 새로운 환경에 빠르게 적응할 수 있는 다른 학습자의 이전 경험을 활용할 수 있기 때문에 학습자가 지속적으로 변화하는 환경에서 작업할 경우 정보 공유가 특히 유용할 수 있습니다.이러한 그룹 적응 학습은 재무 시계열 예측에서 콘텐츠 추천 시스템을 통해 적응형 자율 에이전트에 대한 시각적 이해에 이르기까지 수많은 응용 프로그램을 가지고 있다.

수학

벡터값함수의 힐베르트 공간 재현(RKHSv)

MTL 문제는 RKHSv(재생 커널을 갖춘 벡터 값 함수의 완전한 내부 곱 공간)의 컨텍스트 내에서 주조할 수 있습니다.특히 최근에는 아래에 설명된 분리 가능한 커널을 통해 태스크 구조를 식별할 수 있는 경우에 초점을 맞추고 있습니다.여기서의 프레젠테이션은 Ciliberto 등,^[7] 2015에서 유래한다.

RKHSv 개념

트레이닝 데이터 세트가 ${\mathcal {S}}_{t}=\{(x_{i}^{t},y_{i}^{t})\}_{i=1}^{n_{t}}$ t ${\mathcal {S}}_{t}=\{(x_{i}^{t},y_{i}^{t})\}_{i=1}^{n_{t}}$ { ( ${\mathcal {S}}_{t}=\{(x_{i}^{t},y_{i}^{t})\}_{i=1}^{n_{t}}$ ${\mathcal {S}}_{t}=\{(x_{i}^{t},y_{i}^{t})\}_{i=1}^{n_{t}}$ t , ${\mathcal {S}}_{t}=\{(x_{i}^{t},y_{i}^{t})\}_{i=1}^{n_{t}}$ ${\mathcal {S}}_{t}=\{(x_{i}^{t},y_{i}^{t})\}_{i=1}^{n_{t}}$ t ) ${\mathcal {S}}_{t}=\{(x_{i}^{t},y_{i}^{t})\}_{i=1}^{n_{t}}$ ${\mathcal {S}}_{t}=\{(x_{i}^{t},y_{i}^{t})\}_{i=1}^{n_{t}}$ $=$ ${\mathcal {S}}_{t}=\{(x_{i}^{t},y_{i}^{t})\}_{i=1}^{n_{t}}$ ${\mathcal {S}}_{t}=\{(x_{i}^{t},y_{i}^{t})\}_{i=1}^{n_{t}}$ t { $displaystyle$ { $s } _$ { ( x $_$ { $i$ }^{ $t$ , y _ { $i$ }^{ $t$ } \ } $x_{i}^{t}\in {\mathcal {X}}$ ${\mathcal {S}}_{t}=\{(x_{i}^{t},y_{i}^{t})\}_{i=1}^{n_{t}}$ { i ${\mathcal {S}}_{t}=\{(x_{i}^{t},y_{i}^{t})\}_{i=1}^{n_{t}}$ = $1$ }^{ $n$ _ { t } x $x_{i}^{t}\in {\mathcal {X}}$ $}x$ tylex $x_{i}^{t}\in {\mathcal {X}}$ { ty }^{ $tyle }$ 이라고 가정합니다. $t\in 1,...,T$ 및 $t\in 1,...,T$ $t\in 1,...,T$ , $t\in 1,...,T$ . . $t\in 1,...,T$ , $t\in 1,...,T$ T { $displaystyle$ t $\in$ 1, . . $T$ } . $n=\sum _{t=1}^{T}n_{t}$ $n=\sum _{t=1}^{T}n_{t}$ $n=\sum _{t=1}^{T}n_{t}$ $n=\sum _{t=1}^{T}n_{t}$ $n=\sum _{t=1}^{T}n_{t}$ t $n=\sum _{t=1}^{T}n_{t}$ \ $sum$ _ { t = 1 ^{ $displaystyle$ n = \ $sum$ _ { t = $1$ } $T}n_{t$ 이 설정에는 각 태스크에 대해 일관된 입력 및 출력 공간과 동일한 손실 ${\mathcal {L}}:\mathbb {R} \times \mathbb {R} \rightarrow \mathbb {R} _{+}$ L ${\mathcal {L}}:\mathbb {R} \times \mathbb {R} \rightarrow \mathbb {R} _{+}$ ${\mathcal {L}}:\mathbb {R} \times \mathbb {R} \rightarrow \mathbb {R} _{+}$ ${\mathcal {L}}:\mathbb {R} \times \mathbb {R} \rightarrow \mathbb {R} _{+}$ ${\mathcal {L}}:\mathbb {R} \times \mathbb {R} \rightarrow \mathbb {R} _{+}$ + {\ $displaystyle$ {\ $mathbb {R}$ \ $times \mathbb {R}$ \ $rightarrow \mathbb {R} _{$ R} _{+}}가 ${\mathcal {L}}:\mathbb {R} \times \mathbb {R} \rightarrow \mathbb {R} _{+}$ 있습니다.이로 인해 기계학습이 정규화됩니다.

\displaystyle \min _{f\in\mathcal {H}}\sum _{t=1}^{T}{\frac {1}{n_{t}}\sum _{i=1}^{n_{t}}{\mathcal {L}}(y_{i}^{t},f_{t}(x_{i}^{t})+\lambda f _{\mathcal {H}}^{2}}

(1)

${\mathcal {H}}$ 서 H $(\$ 는 ${\mathcal {H}}$ $f:{\mathcal {X}}\rightarrow {\mathcal {Y}}^{T}$ f: $f:{\mathcal {X}}\rightarrow {\mathcal {Y}}^{T}$ $f:{\mathcal {X}}\rightarrow {\mathcal {Y}}^{T}$ $f:{\mathcal {X}}\rightarrow {\mathcal {Y}}^{T}$ $(\$ f $:{\mathcal {X}})\rightarrow(\mathcal$ {Y $})^{$ 을(를) 재생하는 벡터 값 커널 Hilbert 공간입니다. $f_{t}:{\mathcal {X}}\rightarrow {\mathcal {Y}}$ $}:$ 성분 $f:{\mathcal {X}}\rightarrow {\mathcal {Y}}^{T}$ $f_{t}:{\mathcal {X}}\rightarrow {\mathcal {Y}}$ t $f_{t}:{\mathcal {X}}\rightarrow {\mathcal {Y}}$ : $f_{t}:{\mathcal {X}}\rightarrow {\mathcal {Y}}$ $f_{t}:{\mathcal {X}}\rightarrow {\mathcal {Y}}$ {\ $displaystyle f_{t}:\mathcal {X}\rightarrow$ {\ $mathcal {Y$

$f:{\mathcal {X}}\rightarrow \mathbb {R} ^{T}$ f : $f:{\mathcal {X}}\rightarrow \mathbb {R} ^{T}$ $f:{\mathcal {X}}\rightarrow \mathbb {R} ^{T}$ $f:{\mathcal {X}}\rightarrow \mathbb {R} ^{T}$ T $f:{\mathcal {X}}\rightarrow \mathbb {R} ^{T}$ {\ $displaystyle$ f $:{\mathcal {X}}\rightarrow \mathbb {R}$ ^{ $T$ 의 공간 ${\mathcal {H}}$ H { $displaystyle\mathcal {H}}}$ 의 ${\mathcal {H}}$ 재생 커널은 대칭 매트릭스 값 함수 $\Gamma :{\mathcal {X}}\times {\mathcal {X}}\rightarrow \mathbb {R} ^{T\times T}$ X × $\Gamma :{\mathcal {X}}\times {\mathcal {X}}\rightarrow \mathbb {R} ^{T\times T}$ X $\Gamma :{\mathcal {X}}\times {\mathcal {X}}\rightarrow \mathbb {R} ^{T\times T}$ $\Gamma :{\mathcal {X}}\times {\mathcal {X}}\rightarrow \mathbb {R} ^{T\times T}$ × $\Gamma :{\mathcal {X}}\times {\mathcal {X}}\rightarrow \mathbb {R} ^{T\times T}$ × $\Gamma :{\mathcal {X}}\times {\mathcal {X}}\rightarrow \mathbb {R} ^{T\times T}$ × T \ $mathcal$ \ $display$ \mathcal {X}이다 $.$ $T\times$ T}}: $\Gamma :{\mathcal {X}}\times {\mathcal {X}}\rightarrow \mathbb {R} ^{T\times T}$ $\Gamma (\cdot ,x)c\in {\mathcal {H}}$ ( " $\Gamma (\cdot ,x)c\in {\mathcal {H}}$ , $\Gamma (\cdot ,x)c\in {\mathcal {H}}$ ) $\Gamma (\cdot ,x)c\in {\mathcal {H}}$ H ( \ $displaystyle$ \ $Gamma$ ( \ $cdot , x$ ) $c$ \ $in$ \ $mathcal$ { $H$ } 및 다음 $\Gamma (\cdot ,x)c\in {\mathcal {H}}$ 재생 속성이 유지되도록 합니다.

\displaystyle \mathbb {R} ^{T}}=\langle f,\Gamma(x,\cdot)c\rangle _{\mathcal {H}}}

(2)

재현 커널은 방정식 1에 대한 해법이 다음과 같은 형태를 갖는다는 것을 보여주는 대표자 정리를 만들어 낸다.

f(x)=\sum _{t=1}^{T}\sum _{i=1}^{n_{t}\Gamma(x,x_{i}^{t})c_{i}^{t

(3)

분리 가능한 커널

커널 $δ$ 의 형식은 피쳐 공간의 표현을 유도하고 여러 태스크에서 출력을 구조화합니다.자연스럽게 간단하게는 분리 가능한 커널을 선택하는 것입니다.이 커널은 입력공간 X와 $\{1,...,T\}$ {1 $\{1,...,T\}$ . $\{1,...,T\}$ . , $\{1,...,T\}$ T $}(\displaystyle \{$ , ...)에서 개별 커널로 인수됩니다. $,T$ 이 경우 스칼라 $f_{t}$ $\$ $f_{t$ ${\textstyle \gamma ((x_{i},t),(x_{j},s))=k(x_{i},x_{j})k_{T}(s,t)=k(x_{i},x_{j})A_{s,t}}$ 및 ${\textstyle \gamma ((x_{i},t),(x_{j},s))=k(x_{i},x_{j})k_{T}(s,t)=k(x_{i},x_{j})A_{s,t}}$ $\$ ${\textstyle \gamma ((x_{i},t),(x_{j},s))=k(x_{i},x_{j})k_{T}(s,t)=k(x_{i},x_{j})A_{s,t}}$ 에 $f_{s}$ 관련된 커널은 ${\textstyle \gamma ((x_{i},t),(x_{j},s))=k(x_{i},x_{j})k_{T}(s,t)=k(x_{i},x_{j})A_{s,t}}$ ( ${\textstyle \gamma ((x_{i},t),(x_{j},s))=k(x_{i},x_{j})k_{T}(s,t)=k(x_{i},x_{j})A_{s,t}}$ i , ${\textstyle \gamma ((x_{i},t),(x_{j},s))=k(x_{i},x_{j})k_{T}(s,t)=k(x_{i},x_{j})A_{s,t}}$ ) ${\textstyle \gamma ((x_{i},t),(x_{j},s))=k(x_{i},x_{j})k_{T}(s,t)=k(x_{i},x_{j})A_{s,t}}$ ( ${\textstyle \gamma ((x_{i},t),(x_{j},s))=k(x_{i},x_{j})k_{T}(s,t)=k(x_{i},x_{j})A_{s,t}}$ i , ${\textstyle \gamma ((x_{i},t),(x_{j},s))=k(x_{i},x_{j})k_{T}(s,t)=k(x_{i},x_{j})A_{s,t}}$ ) ${\textstyle \gamma ((x_{i},t),(x_{j},s))=k(x_{i},x_{j})k_{T}(s,t)=k(x_{i},x_{j})A_{s,t}}$ ( ${\textstyle \gamma ((x_{i},t),(x_{j},s))=k(x_{i},x_{j})k_{T}(s,t)=k(x_{i},x_{j})A_{s,t}}$ i , x , ${\textstyle \gamma ((x_{i},t),(x_{j},s))=k(x_{i},x_{j})k_{T}(s,t)=k(x_{i},x_{j})A_{s,t}}$ ) ${\textstyle \gamma ((x_{i},t),(x_{j},s))=k(x_{i},x_{j})k_{T}(s,t)=k(x_{i},x_{j})A_{s,t}}$ tx ) $A$ ${\textstyle \gamma ((x_{i},t),(x_{j},s))=k(x_{i},x_{j})k_{T}(s,t)=k(x_{i},x_{j})A_{s,t}}$ text ( x $)$ 로 표시됩니다 $.$ ${i},x_{j}$ $A_{s,t$ 벡터값 함수 f $f\in {\mathcal {H}}$ H({ $displaystyle$ f $\in {mathcal$ { $H$ $}})$ 에 $f\in {\mathcal {H}}$ 대해서는 $\Gamma (x_{i},x_{j})=k(x_{i},x_{j})A$ ( $\Gamma (x_{i},x_{j})=k(x_{i},x_{j})A$ , $\Gamma (x_{i},x_{j})=k(x_{i},x_{j})A$ ) $\Gamma (x_{i},x_{j})=k(x_{i},x_{j})A$ k ( $\Gamma (x_{i},x_{j})=k(x_{i},x_{j})A$ , x $\Gamma (x_{i},x_{j})=k(x_{i},x_{j})A$ j ) $\Gamma (x_{i},x_{j})=k(x_{i},x_{j})A$ ( \ $displaystyle$ \ $Gamma$ ( $\Gamma (x_{i},x_{j})=k(x_{i},x_{j})A$ x $_$ { i , $x$ $_ x$ _ { i , x _ { x $_$ j } ) ） $= k$ ( x _ { j $}$ } ） })})})})}) 。 $A$ ( $여기$ 서 k는 스칼라 재생 커널, A는 대칭 양의 $T\times T$ 의 $T\times T$ T × T {\ $displaystyle$ T $\times$ T $}$ 행렬 $T\times T$ ) $S_{+}^{T}=\{{\text{PSD matrices}}\}\subset \mathbb {R} ^{T\times T}$ 는 $S_{+}^{T}=\{{\text{PSD matrices}}\}\subset \mathbb {R} ^{T\times T}$ S + $S_{+}^{T}=\{{\text{PSD matrices}}\}\subset \mathbb {R} ^{T\times T}$ { $S_{+}^{T}=\{{\text{PSD matrices}}\}\subset \mathbb {R} ^{T\times T}$ R $S_{+}^{T}=\{{\text{PSD matrices}}\}\subset \mathbb {R} ^{T\times T}$ × $S_{+}^{T}=\{{\text{PSD matrices}}\}\subset \mathbb {R} ^{T\times T}$ { $display style$ S_ ${$ + }^{ $T}=\{\text{\text{$ $PSD$ 매트릭스 $}\}\subset \mathbb {R}^{T\times$ T}. $S_{+}^{T}=\{{\text{PSD matrices}}\}\subset \mathbb {R} ^{T\times T}$

이 인수분해 속성인 분리성은 입력 피쳐 공간 표현이 태스크에 따라 달라지지 않음을 의미합니다.즉, 입력 커널과 태스크 커널 사이에는 상호 작용이 없습니다.태스크의 구조는 $A로만$ 나타납니다.비분리성 커널에 대한 방법은 $현재$ 연구 분야이다.

분리 가능한 경우, 표현 정리는 f ${\textstyle f(x)=\sum _{i=1}^{N}k(x,x_{i})Ac_{i}}$ ( ${\textstyle f(x)=\sum _{i=1}^{N}k(x,x_{i})Ac_{i}}$ ) ${\textstyle f(x)=\sum _{i=1}^{N}k(x,x_{i})Ac_{i}}$ ${\textstyle f(x)=\sum _{i=1}^{N}k(x,x_{i})Ac_{i}}$ i ${\textstyle f(x)=\sum _{i=1}^{N}k(x,x_{i})Ac_{i}}$ ${\textstyle f(x)=\sum _{i=1}^{N}k(x,x_{i})Ac_{i}}$ ${\textstyle f(x)=\sum _{i=1}^{N}k(x,x_{i})Ac_{i}}$ ( ${\textstyle f(x)=\sum _{i=1}^{N}k(x,x_{i})Ac_{i}}$ , ${\textstyle f(x)=\sum _{i=1}^{N}k(x,x_{i})Ac_{i}}$ i ) ${\textstyle f(x)=\sum _{i=1}^{N}k(x,x_{i})Ac_{i}}$ ${\textstyle f(x)=\sum _{i=1}^{N}k(x,x_{i})Ac_{i}}$ i ${\textstyle f(x)=\sum _{i=1}^{N}k(x,x_{i})Ac_{i}}$ { { $textstyle$ f (x ) = \ $sum$ _ {i $=1}^{N}k (x,x_{$ })로 감소한다. $Ac_{i$ 트레이닝 데이터의 모델 출력은 $KCA$ 입니다. $여기$ 서 K는 ${\textstyle K_{i,j}=k(x_{i},x_{j})}$ ${\textstyle K_{i,j}=k(x_{i},x_{j})}$ $=$ ( ${\textstyle K_{i,j}=k(x_{i},x_{j})}$ , ${\textstyle K_{i,j}=k(x_{i},x_{j})}$ j $){textstyle$ K_ ${i$ , x_ ${j}$ = $k$ ( $x_{i$ , $x_$ {j}}} )의 $n\times T$ $n\times T$ × $n\times T$ n \ $c_{i}$ n $\$ $times$ $times$ 행렬입니다 $.$

분리 가능한 커널을 사용하면 방정식 1을 다음과 같이 다시 쓸 수 있습니다.

\displaystyle \min _{C\in \mathbb {R}^{n\times T}}V(Y,KCA)+\lambda tr(KCAC^{\top})}}

(P)

$여기$ 서 V는 Y 및 $KCA$ 에 $엔트리$ 단위로 적용된 L의 (가중치) 평균입니다( $Y_{i}^{t}$ i $Y_{i}^{t}$ { $display style$ Y_ ${i}^{t}}$ 가 $Y_{i}^{t}$ 누락된 관측치인 $Y_{i}^{t}$ 가중치는 0입니다).

P의 두 번째 항은 다음과 같이 도출할 수 있습니다.

{\mathcal {H}}^2}&=\left\langle \sum _{i=1}^{n}k(\cdot,x_{i})Ac_{i},\sum _{j=1}^{n}k(\cdot,x_{j})Ac_{j}\right\rangle _{\mathcal {H}}\&=\sum _{i,j=1}^{n}\sumle k(\cdot,x_{i})Ac_{i},k(\cdot,x_{j})Ac_{j}\rangle _{\mathcal {H}}&{\text{(이진수)}}}\\&=\sum _{i,j=1}^{n}\suble k(x_{i},x_{j})Ac_{i},c_{j}\rangle_{\mathbb {R}^{T}}&{\text{(재생 속성)}}}\&=\sum _{i,j=1}^{n}k(x_{i},x_{j})c_{i}^{\top}Ac_{j}=tr(KCAC^{\top}})\end{aligned}}

알려진 태스크 구조

태스크 구조 표현

작업 구조를 나타내는 방법에는 정규화, 출력 메트릭 및 출력 매핑의 세 가지가 있습니다.

레귤러라이저 — 분리 가능한 커널에서는 f ${\textstyle ||f||_{\mathcal {H}}^{2}=\sum _{s,t=1}^{T}A_{t,s}^{\dagger }\langle f_{s},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ $=$ , ${\textstyle ||f||_{\mathcal {H}}^{2}=\sum _{s,t=1}^{T}A_{t,s}^{\dagger }\langle f_{s},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ ${\textstyle ||f||_{\mathcal {H}}^{2}=\sum _{s,t=1}^{T}A_{t,s}^{\dagger }\langle f_{s},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ 1 ${\textstyle ||f||_{\mathcal {H}}^{2}=\sum _{s,t=1}^{T}A_{t,s}^{\dagger }\langle f_{s},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ ${\textstyle ||f||_{\mathcal {H}}^{2}=\sum _{s,t=1}^{T}A_{t,s}^{\dagger }\langle f_{s},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ s ${\textstyle ||f||_{\mathcal {H}}^{2}=\sum _{s,t=1}^{T}A_{t,s}^{\dagger }\langle f_{s},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ ${\textstyle ||f||_{\mathcal {H}}^{2}=\sum _{s,t=1}^{T}A_{t,s}^{\dagger }\langle f_{s},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ ${\textstyle ||f||_{\mathcal {H}}^{2}=\sum _{s,t=1}^{T}A_{t,s}^{\dagger }\langle f_{s},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ ${\textstyle ||f||_{\mathcal {H}}^{2}=\sum _{s,t=1}^{T}A_{t,s}^{\dagger }\langle f_{s},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ t ${\textstyle ||f||_{\mathcal {H}}^{2}=\sum _{s,t=1}^{T}A_{t,s}^{\dagger }\langle f_{s},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ ${\textstyle ||f||_{\mathcal {H}}^{2}=\sum _{s,t=1}^{T}A_{t,s}^{\dagger }\langle f_{s},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ k ${\$ f _ ${\mathcal {H$ }^{2 $}=\sum$ _{s, $t=1}^{T}A_{dagger}^{{s}}}$ 라고 표시할 수 있습니다. $A_{t,s}^{\dagger$ $A$ 는 $A_{t,s}^{\dagger }$ $A의$ 역의 t $,$ $s,$ s $,$ s $t,s$ $요소$ 이며, ${\mathcal {H}}_{k}$ k(\ $displaystyle$ {H $}}_$ 는 스칼라 $커널$ k(\ $displaystyle$ ${\mathcal {H}}_{k}$ k ${\textstyle f_{t}(x)=\sum _{i=1}^{n}k(x,x_{i})A_{t}^{\top }c_{i}}$ ${\textstyle f_{t}(x)=\sum _{i=1}^{n}k(x,x_{i})A_{t}^{\top }c_{i}}$ ${\textstyle f_{t}(x)=\sum _{i=1}^{n}k(x,x_{i})A_{t}^{\top }c_{i}}$ 에 ${\textstyle f_{t}(x)=\sum _{i=1}^{n}k(x,x_{i})A_{t}^{\top }c_{i}}$ 한 RKHS입니다. $x)=\sum _{i=1}^{n}k(x,x_{i})$ $A_{t}^{\top}c_{i$ 이 공식은 ${\textstyle \langle f_{s},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ $A_{t,s}^{\dagger }$ $A_{t,s}^{\dagger }$ $"{$ }}" $A_{t,s}^{\dagger }$ 가 f $A_{t,s}^{\dagger }$ ${\textstyle \langle f_{s},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ ${\textstyle \langle f_{s},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ , ${\textstyle \langle f_{s},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ ${\textstyle \langle f_{s},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ H ${\textstyle \langle f_{s},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ { $textstyle \langle f_{s},$ ${\textstyle \langle f_{s},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ ${t}\rangle$ _ {\ $mathcal$ ${\textstyle \langle f_{s},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ ${H}_k$ 에 관련된 패널티의 가중치를 $A_{t,s}^{\dagger }$ 을 ${\textstyle \langle f_{s},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ cal ${H}}_{k}}$ 은 ${\textstyle \langle f_{s},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ (는) f t h $=$ ${\textstyle ||f_{t}||_{{\mathcal {H}}_{k}}=\langle f_{t},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ t, ${\textstyle ||f_{t}||_{{\mathcal {H}}_{k}}=\langle f_{t},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ f t ${\textstyle ||f_{t}||_{{\mathcal {H}}_{k}}=\langle f_{t},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ ${\textstyle ||f_{t}||_{{\mathcal {H}}_{k}}=\langle f_{t},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ k {\ $textstyle f_{t}_{\$ mathcal {H}}_{ $k}}=\langle f_{$ t}\ $rangle _{\mathcal$ { $H}}}$ 에서 ${\textstyle ||f_{t}||_{{\mathcal {H}}_{k}}=\langle f_{t},f_{t}\rangle _{{\mathcal {H}}_{k}}}$ 합니다 $.)$

증명

${\displaystyle {displaystyle {h}\f\{\mathcal {H}^{2}&=왼쪽\langle \sum _{i=1}^{n}\cdot (x_i},\cdot)c_{i}^{i},\sum _j=1}^{n}\displaystyle (x_{j})\\&=\sum _{i,j=1}^{n}\sum _{s,t=1}^{T}c_{i}^{t}c_{j}^{s}k(x_{i},x_{j})A_{s,t}\&=\sum _{i,j=1}^{n}k(x_{i},x_{j})\samle c_{i},Ac_{j}\rangle _{\mathbb {R}^{T}\&={i,j=1}^{n}{n}(x_j})\sum_n},{n},{i},{n},{n},{n},{n},{j},{j},{i},{i},{j},\sumAA^{\dagger}Ac_{j}\rangle _{\mathbb {R}^{T}}\&=\sum _{i,j=1}^{n}k(x_{i},x_{j})\sumle Ac_{i}A^{\dagger}Ac_{j}\rangle _{T}}\&=\sum _{i,j=1}^{n}\sum _{s,t=1}^{T}(Ac_{j})^{t}(Ac_{j})^{sk(x_i},{j})A_{s,t}^{\dagger }\\&=\sum _{s,t=1}^{\dagger }\sum _{s,t}^{\dagger }\sum _{i=1}^{n}k(x_i},\cdot)(Ac_{i})^{t},\sum _{j}^{n}k(x_{j},\cdot)(Ac_{j}^{s}^{s}_{k}\&=sum _{s,t=1}^{T}A_{s,t}^{dagger }\rangle_{f}{f},$

출력 메트릭: ${\mathcal {Y}}^{T}$ T의 ${\mathcal {Y}}^{T}$ 출력 메트릭(\ $displaystyle\mathcal {Y})^{$ $T}}$ 은 ${\mathcal {Y}}^{T}$ (는) 내부 생성물 $\langle y_{1},y_{2}\rangle _{\Theta }=\langle y_{1},\Theta y_{2}\rangle _{\mathbb {R} ^{T}}$ $\langle y_{1},y_{2}\rangle _{\Theta }=\langle y_{1},\Theta y_{2}\rangle _{\mathbb {R} ^{T}}$ 1, $\langle y_{1},y_{2}\rangle _{\Theta }=\langle y_{1},\Theta y_{2}\rangle _{\mathbb {R} ^{T}}$ $\langle y_{1},y_{2}\rangle _{\Theta }=\langle y_{1},\Theta y_{2}\rangle _{\mathbb {R} ^{T}}$ ⟩ = $\langle y_{1},y_{2}\rangle _{\Theta }=\langle y_{1},\Theta y_{2}\rangle _{\mathbb {R} ^{T}}$ $\langle y_{1},y_{2}\rangle _{\Theta }=\langle y_{1},\Theta y_{2}\rangle _{\mathbb {R} ^{T}}$ $\langle y_{1},y_{2}\rangle _{\Theta }=\langle y_{1},\Theta y_{2}\rangle _{\mathbb {R} ^{T}}$ 1, $\langle y_{1},y_{2}\rangle _{\Theta }=\langle y_{1},\Theta y_{2}\rangle _{\mathbb {R} ^{T}}$ y $\langle y_{1},y_{2}\rangle _{\Theta }=\langle y_{1},\Theta y_{2}\rangle _{\mathbb {R} ^{T}}$ ${\$ $\langle y_{1},y_{2}\rangle _{\Theta }=\langle y_{1},\Theta y_{2}\rangle _{\mathbb {R} ^{T}}$ T { \ display \ display \ $displle$ y _ ${ 1$ , y $_$ { 2 } \ $rangle$ _ { \ \ \ \ \ \ $display$ \ display \ disple y _ { \ rangle y _ { \ \ \ \ \ \ \ \ \ \ rangle _ { 1 } \ \ \ \ \ \ \ $Theta$ } = \ $timele y_{1},\Theta y_{2}\rangle$ _ ${\mathbb {R}$ ^{ $T$ 제곱 손실과 함께 분리 가능한 $k(\cdot ,\cdot )I_{T}$ k(θ $k(\cdot ,\cdot )I_{T}$ ) $k(\cdot ,\cdot )I_{T}$ T $k(\cdot ,\cdot )I_{T}$ { $displaystyle$ k $(\cdot,\cdot)I_{}$ $대체$ 메트릭의 T $}$ 및 $k(\cdot ,\cdot )I_{T}$ $k(\cdot ,\cdot )\Theta$ " $k(\cdot ,\cdot )\Theta$ , " $k(\cdot ,\cdot )\Theta$ ) $k(\cdot ,\cdot )\Theta$ \ $displaystyle$ k ( \ $cdot$ , \ $cdot$ ) \ $표준$ 메트릭 아래의 Theta $k(\cdot ,\cdot )\Theta$

출력 매핑 - 출력을 L $L:{\mathcal {Y}}^{T}\rightarrow {\mathcal {\tilde {Y}}}$ : $L:{\mathcal {Y}}^{T}\rightarrow {\mathcal {\tilde {Y}}}$ T $L:{\mathcal {Y}}^{T}\rightarrow {\mathcal {\tilde {Y}}}$ ~ ${\$ L $:{\mathcal {Y}}^{$ 로 매핑할 수 있습니다. $나무$ , $그래프, 문자열$ 과 같은 복잡한 구조를 부호화하기 위해 더 높은 차원의 공간으로 $이동합니다.$ 선형 $지도$ L의 경우, 분리 가능한 커널을 적절히 선택하면 A $A=L^{\top }L$ $A=L^{\top }L$ L {\ $displaystyle$ A $=L^{\top }L$ 임을 알 수 있다.

태스크 구조 예시

레귤러라이저 제형을 통해 다양한 태스크 구조를 쉽게 나타낼 수 있습니다.

${\textstyle A^{\dagger }=\gamma I_{T}+(\gamma -\lambda ){\frac {1}{T}}\mathbf {1} \mathbf {1} ^{\top }}$ ${\textstyle A^{\dagger }=\gamma I_{T}+(\gamma -\lambda ){\frac {1}{T}}\mathbf {1} \mathbf {1} ^{\top }}$ ${\textstyle A^{\dagger }=\gamma I_{T}+(\gamma -\lambda ){\frac {1}{T}}\mathbf {1} \mathbf {1} ^{\top }}$ + ( ${\textstyle A^{\dagger }=\gamma I_{T}+(\gamma -\lambda ){\frac {1}{T}}\mathbf {1} \mathbf {1} ^{\top }}$ - ${\textstyle A^{\dagger }=\gamma I_{T}+(\gamma -\lambda ){\frac {1}{T}}\mathbf {1} \mathbf {1} ^{\top }}$ ) ${\textstyle A^{\dagger }=\gamma I_{T}+(\gamma -\lambda ){\frac {1}{T}}\mathbf {1} \mathbf {1} ^{\top }}$ ${\textstyle A^{\dagger }=\gamma I_{T}+(\gamma -\lambda ){\frac {1}{T}}\mathbf {1} \mathbf {1} ^{\top }}$ 1 $⊤$ \ $textstyle$ A^ { \ $dagger$ } = \ $textstyle I_{ T}$ + ( \ $gamma$ - \ $diggerda$ ) { \ $frac$ { 1 $}$ { $T}}\mathbf {1} \mathbf {$ 1 $}$ ^{\ $top}}$ ( $I_{T}$ 서 I ${\$ 는 $I_{T}$ TxT ID 매트릭스, ${\textstyle \mathbf {1} \mathbf {1} ^{\top }}$ 1 $†(\$ 는 ${\textstyle \mathbf {1} \mathbf {1} ^{\top }}$ $분산$ 제어에 상당합니다 ${\textstyle \sum _{t}||f_{t}-{\bar {f}}||_{{\mathcal {H}}_{k}}}$ ${$ ${\textstyle {\frac {1}{T}}\sum _{t}f_{t}}$ $}-{\bar {f}}_{\mathcal {H}}_{k}}$ 태스크의 ${\textstyle \sum _{t}||f_{t}-{\bar {f}}||_{{\mathcal {H}}_{k}}}$ 평균 1 T ${\textstyle {\frac {1}{T}}\sum _{t}f_{t}}$ ${\textstyle {\frac {1}{T}}\sum _{t}f_{t}}$ {\ $textstyle {$ 1} ${\$ {1} {} $T}}\sum$ _ ${t}f_{t$ 예를 들어, 일부 바이오마커의 혈중 농도는 하루 $n_{t}$ n ${$ t $n_{t}$ } $n_{t}$ 의 T환자에 $대해$ 측정될 수 있으며, 환자 간 예측의 차이를 정규화하는 데 관심이 있을 수 있다.
$A^{\dagger }=\alpha I_{T}+(\alpha -\lambda )M$ $A^{\dagger }=\alpha I_{T}+(\alpha -\lambda )M$ $A^{\dagger }=\alpha I_{T}+(\alpha -\lambda )M$ I $A^{\dagger }=\alpha I_{T}+(\alpha -\lambda )M$ + ( $A^{\dagger }=\alpha I_{T}+(\alpha -\lambda )M$ - $A^{\dagger }=\alpha I_{T}+(\alpha -\lambda )M$ - $display$ ) $A^{\dagger }=\alpha I_{T}+(\alpha -\lambda )M$ {\ $displaystyle A$ ^{\dagger } = \ $alpha$ I_ ${T$ } + $(\$ alpha - $\daggerda ) M$ $A^{\dagger }=\alpha I_{T}+(\alpha -\lambda )M$ } ( $M_{t,s}={\frac {1}{|G_{r}|}}\mathbb {I} (t,s\in G_{r})$ 서 $M_{t,s}={\frac {1}{|G_{r}|}}\mathbb {I} (t,s\in G_{r})$ M $M_{t,s}={\frac {1}{|G_{r}|}}\mathbb {I} (t,s\in G_{r})$ , $=$ 1 $M_{t,s}={\frac {1}{|G_{r}|}}\mathbb {I} (t,s\in G_{r})$ r $M_{t,s}={\frac {1}{|G_{r}|}}\mathbb {I} (t,s\in G_{r})$ ( $M_{t,s}={\frac {1}{|G_{r}|}}\mathbb {I} (t,s\in G_{r})$ , s $M_{t,s}={\frac {1}{|G_{r}|}}\mathbb {I} (t,s\in G_{r})$ Gr $)$ { $t,$ s}) { $cr$ {cr} {cr} {cr} ) {cr} { $cr$ } {cr} ) } {cr} {cr} } {cr} } {c} } } } 그룹 평균에 관하여: $\sum _{r}\sum _{t\in G_{r}}||f_{t}-{\frac {1}{|G_{r}|}}\sum _{s\in G_{r})}f_{s}||$ r $\sum _{r}\sum _{t\in G_{r}}||f_{t}-{\frac {1}{|G_{r}|}}\sum _{s\in G_{r})}f_{s}||$ t $\sum _{r}\sum _{t\in G_{r}}||f_{t}-{\frac {1}{|G_{r}|}}\sum _{s\in G_{r})}f_{s}||$ $\sum _{r}\sum _{t\in G_{r}}||f_{t}-{\frac {1}{|G_{r}|}}\sum _{s\in G_{r})}f_{s}||$ $\sum _{r}\sum _{t\in G_{r}}||f_{t}-{\frac {1}{|G_{r}|}}\sum _{s\in G_{r})}f_{s}||$ $\sum _{r}\sum _{t\in G_{r}}||f_{t}-{\frac {1}{|G_{r}|}}\sum _{s\in G_{r})}f_{s}||$ - $\sum _{r}\sum _{t\in G_{r}}||f_{t}-{\frac {1}{|G_{r}|}}\sum _{s\in G_{r})}f_{s}||$ G $\sum _{r}\sum _{t\in G_{r}}||f_{t}-{\frac {1}{|G_{r}|}}\sum _{s\in G_{r})}f_{s}||$ s $\sum _{r}\sum _{t\in G_{r}}||f_{t}-{\frac {1}{|G_{r}|}}\sum _{s\in G_{r})}f_{s}||$ G $\sum _{r}\sum _{t\in G_{r}}||f_{t}-{\frac {1}{|G_{r}|}}\sum _{s\in G_{r})}f_{s}||$ r ) $\sum _{r}\sum _{t\in G_{r}}||f_{t}-{\frac {1}{|G_{r}|}}\sum _{s\in G_{r})}f_{s}||$ s $\sum _{r}\sum _{t\in G_{r}}||f_{t}-{\frac {1}{|G_{r}|}}\sum _{s\in G_{r})}f_{s}||$ { $displaystyle \sum$ _ { $r}\sum _$ { $t}$ - {\ $frac {$ 1 $}$ ${G_{r}$ } } \ $sum$ _ { $sum G_{f}$ $e \mathbb {I}}$ 은 $\mathbb {I}$ (는) 표시기 함수입니다).예를 들어, 정치인의 호감도를 예측하기 위해 서로 다른 정당(그룹)의 사람들이 함께 정규화될 수 있다.모든 작업이 같은 그룹에 속해 있는 경우 이 패널티는 첫 번째 패널티로 감소합니다.
$A^{\dagger }=\delta I_{T}+(\delta -\lambda )L$ $L=D-M$ = = $A^{\dagger }=\delta I_{T}+(\delta -\lambda )L$ T $A^{\dagger }=\delta I_{T}+(\delta -\lambda )L$ + ( $A^{\dagger }=\delta I_{T}+(\delta -\lambda )L$ - $A^{\dagger }=\delta I_{T}+(\delta -\lambda )L$ ) $A^{\dagger }=\delta I_{T}+(\delta -\lambda )L$ L { { $displaystyle$ A^ { \ $dagger$ } = \ $display$ I_{ $T$ } + ( $delta$ - \ $sigpda$ ) $L$ } $A^{\dagger }=\delta I_{T}+(\delta -\lambda )L$ （ $L=D-M$ ）。 $L=D-M$ 서 $=$ D - M { $displaystyle$ L $L=D-M$ = D - M }는 $L=D-M$ 인접 관계를 나타내는 라플라시안 쌍입니다.이는 ( $M_{t,s}$ $M_{t,s}$ t $M_{t,s}$ $M_{t,s}$ { $displaystyle M_{t,s}}$ 에 따라) 보다 유사한 거리 분리 태스크 t와 s $(\$ displaystyle $M_$ {t,s})에 더 큰 패널티를 주는 것과 같습니다.즉 $,$ "\ $displaystyle$ \delta $"$ 는 $\delta$ $\sum _{t,s}||f_{t}-f_{s}||_{{\mathcal {H}}_{k}}^{2}M_{t,s}$ " $",$ " $",$ " $sisplaystyle \s"$ 를 정규화합니다. $_{t}-f_{s}_{\mathcal {H}}_{k}}^{$ 2} $M_{t,s$
A의 위의 모든 선택은 f의 복잡성에 보다 광범위하게 불이익을 주는 추가적인 정규화 항 δ ${\textstyle \lambda \sum _{t}||f||_{{\mathcal {H}}_{k}}^{2}}$ ${\textstyle \lambda \sum _{t}||f||_{{\mathcal {H}}_{k}}^{2}}$ ${\textstyle \lambda \sum _{t}||f||_{{\mathcal {H}}_{k}}^{2}}$ H ${\textstyle \lambda \sum _{t}||f||_{{\mathcal {H}}_{k}}^{2}}$ ${\textstyle$ \ $lambda$ \ $sum _{t} f _{\mathcal {H}}_{k}}^2$ }를 ${\textstyle \lambda \sum _{t}||f||_{{\mathcal {H}}_{k}}^{2}}$ 유도한다.

학습 태스크와 그 구조

학습문제 P는 다음과 같이 일반화되어 학습 태스크 매트릭스 A를 인정할 수 있다.

\displaystyle \min \mathbb {R}^{n\times T},A\in S_{+}^{T}V(Y,KCA)+\lambda tr(KCAC^{\top})+F(A)}

(Q)

$F:S_{+}^{T}\rightarrow \mathbb {R} _{+}$ $F:S_{+}^{T}\rightarrow \mathbb {R} _{+}$ + $F:S_{+}^{T}\rightarrow \mathbb {R} _{+}$ $F:S_{+}^{T}\rightarrow \mathbb {R} _{+}$ + \ $displaystyle$ F : $S_{+}^{T}\rightarrow \mathbb {R} _{+}}$ 는 $F:S_{+}^{T}\rightarrow \mathbb {R} _{+}$ 지정된 유형의 행렬 A를 학습하도록 설계되어야 합니다.아래의 "특수 사례"를 참조하십시오.

Q의 최적화

볼록손실 및 강압적 처벌의 경우로 제한한다.Q는 C와 A에서 공동으로 볼록하지 않지만, 관련된 문제는 공동으로 볼록하다는 것을 보여주었다.

구체적으로는 볼록 ${\mathcal {C}}=\{(C,A)\in \mathbb {R} ^{n\times T}\times S_{+}^{T}|Range(C^{\top }KC)\subseteq Range(A)\}$ C ${\mathcal {C}}=\{(C,A)\in \mathbb {R} ^{n\times T}\times S_{+}^{T}|Range(C^{\top }KC)\subseteq Range(A)\}$ { ( ${\mathcal {C}}=\{(C,A)\in \mathbb {R} ^{n\times T}\times S_{+}^{T}|Range(C^{\top }KC)\subseteq Range(A)\}$ C , ${\mathcal {C}}=\{(C,A)\in \mathbb {R} ^{n\times T}\times S_{+}^{T}|Range(C^{\top }KC)\subseteq Range(A)\}$ ) ${\mathcal {C}}=\{(C,A)\in \mathbb {R} ^{n\times T}\times S_{+}^{T}|Range(C^{\top }KC)\subseteq Range(A)\}$ R n × ${\mathcal {C}}=\{(C,A)\in \mathbb {R} ^{n\times T}\times S_{+}^{T}|Range(C^{\top }KC)\subseteq Range(A)\}$ × ${\mathcal {C}}=\{(C,A)\in \mathbb {R} ^{n\times T}\times S_{+}^{T}|Range(C^{\top }KC)\subseteq Range(A)\}$ S + ${\mathcal {C}}=\{(C,A)\in \mathbb {R} ^{n\times T}\times S_{+}^{T}|Range(C^{\top }KC)\subseteq Range(A)\}$ ${\mathcal {C}}=\{(C,A)\in \mathbb {R} ^{n\times T}\times S_{+}^{T}|Range(C^{\top }KC)\subseteq Range(A)\}$ ${\mathcal {C}}=\{(C,A)\in \mathbb {R} ^{n\times T}\times S_{+}^{T}|Range(C^{\top }KC)\subseteq Range(A)\}$ ${\mathcal {C}}=\{(C,A)\in \mathbb {R} ^{n\times T}\times S_{+}^{T}|Range(C^{\top }KC)\subseteq Range(A)\}$ ${\mathcal {C}}=\{(C,A)\in \mathbb {R} ^{n\times T}\times S_{+}^{T}|Range(C^{\top }KC)\subseteq Range(A)\}$ e ( ${\mathcal {C}}=\{(C,A)\in \mathbb {R} ^{n\times T}\times S_{+}^{T}|Range(C^{\top }KC)\subseteq Range(A)\}$ K ${\mathcal {C}}=\{(C,A)\in \mathbb {R} ^{n\times T}\times S_{+}^{T}|Range(C^{\top }KC)\subseteq Range(A)\}$ C ) ${\mathcal {C}}=\{(C,A)\in \mathbb {R} ^{n\times T}\times S_{+}^{T}|Range(C^{\top }KC)\subseteq Range(A)\}$ R ${\mathcal {C}}=\{(C,A)\in \mathbb {R} ^{n\times T}\times S_{+}^{T}|Range(C^{\top }KC)\subseteq Range(A)\}$ g ${\mathcal {C}}=\{(C,A)\in \mathbb {R} ^{n\times T}\times S_{+}^{T}|Range(C^{\top }KC)\subseteq Range(A)\}$ ( ${\mathcal {C}}=\{(C,A)\in \mathbb {R} ^{n\times T}\times S_{+}^{T}|Range(C^{\top }KC)\subseteq Range(A)\}$ A ) ${\mathcal {C}}=\{(C,A)\in \mathbb {R} ^{n\times T}\times S_{+}^{T}|Range(C^{\top }KC)\subseteq Range(A)\}$ \ $display$ style \ $mathcal {$ C} = \ { ( $C$ , $A$ ) \ $mathbb$ R $^$ { $times$ }

{\displaystyle\min_{C,A\in {Mathcal {C}V(Y,KC)+\lambda tr(A^{\dagger}C^{\top}KC)+F(A)}

(R)

같은 최소값으로 볼록합니다.그리고 ( $(C_{R},A_{R})$ $(C_{R},A_{R})$ R $)$ { $displaystyle (C_{R, A_{R})}$ 이 $(C_{R},A_{R})$ R의 미니마이저라면 $(C_{R}A_{R}^{\dagger },A_{R})$ $(C_{R},A_{R})$ $(C_{R}A_{R}^{\dagger },A_{R})$ A $(C_{R}A_{R}^{\dagger },A_{R})$ $(C_{R}A_{R}^{\dagger },A_{R})$ R $)$ { $displaystyle (C_{R}A_{R}^{R$ }^{\dagger $},$ A_ $(C_{R}A_{R}^{\dagger },A_{R})$ { $R})$ 는 미니마이저이다.

R은 다음과 같은 섭동을 도입함으로써 닫힌 집합의 장벽 방법으로 해결할 수 있다.

\displaystyle \min _{C\in \mathbb {R}^{n\times T},A\in S_{+}^{T}V(Y,KC)+\lambda tr(A^{\dagger}(C^{\top }KC+\delta ^2}I_{F})

(S)

장벽 $\delta ^{2}tr(A^{\dagger })$ $\delta ^{2}tr(A^{\dagger })$ $\delta ^{2}tr(A^{\dagger })$ r ( $\delta ^{2}tr(A^{\dagger })$ $\delta ^{2}tr(A^{\dagger })$ ) ( { $displaystyle \delta ^{2}tr(A^{\dagger$ })}을 $\delta ^{2}tr(A^{\dagger })$ 통한 섭동은 R $R^{n\times T}\times S_{+}^{T}$ × $R^{n\times T}\times S_{+}^{T}$ × $R^{n\times T}\times S_{+}^{T}$ + $R^{n\times T}\times S_{+}^{T}$ \ \ \ $displaystyle R^{$ n \ $times } T_T$ 의 $R^{n\times T}\times S_{+}^{T}$ 에서 목적 함수가 + ${\$ (\ $infty$ 와 $+\infty$ 동일하도록 강제한다.

S는 C와 A를 번갈아 가면서 블록 좌표 강하법으로 풀 수 있다.그 결과, S의 $(C_{m},A_{m})$ , $(C_{m},A_{m})$ m $(C_{m},A_{m})$ )(\ $displaystyle (C_{m, A_{m$ $\delta _{m}\rightarrow 0$ 의 $(C_{m},A_{m})$ 시퀀스가 생성되어 R의 솔루션에 $\delta _{m}\rightarrow 0$ 하여 0 $(\displaystyle \displaystyle$ _ ${m}\rightarrow$ 0 $\delta _{m}\rightarrow 0$ 이 되며, 이에 따라 솔루션은 Q에 할당됩니다.

특수한 경우

스펙트럼 처벌-Dinnuzo(al[16]은 프로베니우스 norm F을 설정하지 r({\displaystyle{\sqrt{tr(A^{\top}A)}}}. 그들은 Q직접 어려움을 Rn×T×S의 경계에서 고려하지 않+블록 좌표 하강 T{\displaystyle \mathbb{R}^{Tn\times}\times S_{+}^{T.를 사용하여 최적화될 것을 제안했다}} .

군집화 작업 학습 - Jacob 등은^[17] T 작업이 R개의 분리된 군집으로 구성된 환경에서 A를 학습할 것을 제안했다. $E\in \{0,1\}^{T\times R}$ 경우 E $E_{t,r}=\mathbb {I} ({\text{task }}t\in {\text{group }}r)$ $E\in \{0,1\}^{T\times R}$ { $E\in \{0,1\}^{T\times R}$ , $E\in \{0,1\}^{T\times R}$ $E\in \{0,1\}^{T\times R}$ × $E\in \{0,1\}^{T\times R}$ { \ $displaystyle$ $E\in \{0,1\}^{T\times R}$ E \ $in$ \ { $0$ , 1 \ }^{ $T$ \ $times$ R $E\in \{0,1\}^{T\times R}$ } $E_{t,r}=\mathbb {I} ({\text{task }}t\in {\text{group }}r)$ $E_{t,r}=\mathbb {I} ({\text{task }}t\in {\text{group }}r)$ r = I ( $E_{t,r}=\mathbb {I} ({\text{task }}t\in {\text{group }}r)$ ${\$ $group$ $E_{t,r}=\mathbb {I} ({\text{task }}t\in {\text{group }}r)$ ) $=$ \ $mathbb$ { $I$ } { I $E_{t,r}=\mathbb {I} ({\text{task }}t\in {\text{group }}r)$ （ \ $text$ { $task }$ } { text $}$ } } } { $E_{t,r}=\mathbb {I} ({\text{task }}t\in {\text{group }}r)$ e $E_{t,r}=\mathbb {I} ({\text{task }}t\in {\text{group }}r)$ $E_{t,r}=\mathbb {I} ({\text{task }}t\in {\text{group }}r)$ }} }} }} }} 。 $T$ 및 $U={\frac {1}{T}}\mathbf {11} ^{\top }$ $U={\frac {1}{T}}\mathbf {11} ^{\top }$ $U={\frac {1}{T}}\mathbf {11} ^{\top }$ $U={\frac {1}{T}}\mathbf {11} ^{\top }$ 11 $U={\frac {1}{T}}\mathbf {11} ^{\top }$ ({ $displaystyle$ U $=black {1}){$ $T}}\mathbf {11}$ ^{\top $U={\frac {1}{T}}\mathbf {11} ^{\top }$ $A^{\dagger }$ 매트릭스 A $†$ {\ $displaystyle$ $A^{\dagger }$ A^{\ $dagger$ $}$ : A $A^{\dagger }(M)=\epsilon _{M}U+\epsilon _{B}(M-U)+\epsilon (I-M)$ ( M ) $A^{\dagger }(M)=\epsilon _{M}U+\epsilon _{B}(M-U)+\epsilon (I-M)$ $A^{\dagger }(M)=\epsilon _{M}U+\epsilon _{B}(M-U)+\epsilon (I-M)$ $A^{\dagger }(M)=\epsilon _{M}U+\epsilon _{B}(M-U)+\epsilon (I-M)$ + $A^{\dagger }(M)=\epsilon _{M}U+\epsilon _{B}(M-U)+\epsilon (I-M)$ ( M $A^{\dagger }(M)=\epsilon _{M}U+\epsilon _{B}(M-U)+\epsilon (I-M)$ - U $A^{\dagger }(M)=\epsilon _{M}U+\epsilon _{B}(M-U)+\epsilon (I-M)$ ) + $A^{\dagger }(M)=\epsilon _{M}U+\epsilon _{B}(M-U)+\epsilon (I-M)$ ( $A^{\dagger }(M)=\epsilon _{M}U+\epsilon _{B}(M-U)+\epsilon (I-M)$ - $A^{\dagger }(M)=\epsilon _{M}U+\epsilon _{B}(M-U)+\epsilon (I-M)$ ) $style A$ 의 함수로 파라미터화할 수 있습니다.군집 분산과 군집 내 분산이 각각 작업 예측에 따라 달라집니다.M은 볼록하지 않지만 볼록 ${\mathcal {S}}_{c}=\{M\in S_{+}^{T}:I-M\in S_{+}^{T}\land tr(M)=r\}$ ${\mathcal {S}}_{c}=\{M\in S_{+}^{T}:I-M\in S_{+}^{T}\land tr(M)=r\}$ c ${\mathcal {S}}_{c}=\{M\in S_{+}^{T}:I-M\in S_{+}^{T}\land tr(M)=r\}$ { ${\mathcal {S}}_{c}=\{M\in S_{+}^{T}:I-M\in S_{+}^{T}\land tr(M)=r\}$ S + ${\mathcal {S}}_{c}=\{M\in S_{+}^{T}:I-M\in S_{+}^{T}\land tr(M)=r\}$ : ${\mathcal {S}}_{c}=\{M\in S_{+}^{T}:I-M\in S_{+}^{T}\land tr(M)=r\}$ I - M ${\mathcal {S}}_{c}=\{M\in S_{+}^{T}:I-M\in S_{+}^{T}\land tr(M)=r\}$ S + ${\mathcal {S}}_{c}=\{M\in S_{+}^{T}:I-M\in S_{+}^{T}\land tr(M)=r\}$ ${\mathcal {S}}_{c}=\{M\in S_{+}^{T}:I-M\in S_{+}^{T}\land tr(M)=r\}$ r ( ${\mathcal {S}}_{c}=\{M\in S_{+}^{T}:I-M\in S_{+}^{T}\land tr(M)=r\}$ ) ${\mathcal {S}}_{c}=\{M\in S_{+}^{T}:I-M\in S_{+}^{T}\land tr(M)=r\}$ ${\mathcal {S}}_{c}=\{M\in S_{+}^{T}:I-M\in S_{+}^{T}\land tr(M)=r\}$ $}$ { $displaystyle$ \ $mathcal { S$ } $_$ { c } = \ { $M$ \ $in$ S _ { + + }^{ ${\mathcal {S}}_{c}=\{M\in S_{+}^{T}:I-M\in S_{+}^{T}\land tr(M)=r\}$ : $I-M\in$ S_ ${+}^{T}\land$ tr $(M)=$ $F(A)=\mathbb {I} (A(M)\in \{A:M\in {\mathcal {S}}_{C}\})$ ${\mathcal {S}}_{c}=\{M\in S_{+}^{T}:I-M\in S_{+}^{T}\land tr(M)=r\}$ 이 식에서 F $F(A)=\mathbb {I} (A(M)\in \{A:M\in {\mathcal {S}}_{C}\})$ $F(A)=\mathbb {I} (A(M)\in \{A:M\in {\mathcal {S}}_{C}\})$ $F(A)=\mathbb {I} (A(M)\in \{A:M\in {\mathcal {S}}_{C}\})$ $F(A)=\mathbb {I} (A(M)\in \{A:M\in {\mathcal {S}}_{C}\})$ { $F(A)=\mathbb {I} (A(M)\in \{A:M\in {\mathcal {S}}_{C}\})$ : $F(A)=\mathbb {I} (A(M)\in \{A:M\in {\mathcal {S}}_{C}\})$ $F(A)=\mathbb {I} (A(M)\in \{A:M\in {\mathcal {S}}_{C}\})$ C $F(A)=\mathbb {I} (A(M)\in \{A:M\in {\mathcal {S}}_{C}\})$ { $displaystyle$ F $(A$ ) = \ $mathbb {I}(M\$ $M\in$ ({ $mathcal {S}}_{C$

일반화

비볼록 패널티 - A가 그래프 라플라시안 또는 A가 낮은 순위 인수분해되도록 패널티를 구성할 수 있습니다.그러나 이러한 벌칙은 볼록하지 않으며, Ciliberto 등이 제안한 장벽 방법의 분석은 이러한 경우에 수행되지 않는다.

분리할 수 없는 커널 - 분리 가능한 커널은 제한적이며, 특히 입력 도메인과 출력 도메인 간의 상호 작용 공간의 구조를 함께 고려하지 않습니다.이러한 커널의 모델을 개발하기 위해서는 향후 작업이 필요합니다.

적용들

스팸 필터링

MTL의 원리를 사용하여 개인화를 용이하게 하는 협업 스팸 필터링 기술을 제안했습니다.대규모 오픈멤버십 전자 메일시스템에서는 대부분의 사용자가 개별 로컬 분류자를 유효하게 하기 위한 충분한 메시지에 라벨을 붙이지 않지만 데이터는 노이즈가 너무 많아 모든 사용자에 대한 글로벌필터에 사용할 수 없습니다.하이브리드 글로벌/개별 분류기는 일반 대중으로부터 이메일에 매우 열심히 레이블을 지정하는 사용자의 영향을 흡수하는 데 효과적일 수 있습니다.이는 라벨이 붙은 ^[18]인스턴스가 거의 없는 사용자에게 충분한 품질을 제공하면서도 달성할 수 있습니다.

웹 검색

확장 의사결정 트리를 사용하면 암묵적인 데이터 공유 및 정규화를 활성화할 수 있습니다.이 학습 방법은 웹 검색 순위 데이터 세트에 사용할 수 있습니다.한 가지 예는 여러 국가의 순위 데이터 세트를 사용하는 것이다.여기서 멀티태스킹 학습은 편집 판단 비용 때문에 여러 나라의 데이터 세트가 크게 다르기 때문에 특히 도움이 된다.다양한 작업을 공동으로 학습하면 놀라운 ^[19]신뢰성과 함께 상당한 성능 향상으로 이어질 수 있음이 입증되었습니다.

소프트웨어 패키지

StructurAl Regularization(MALSAR) Matlab^[20] 패키지는 다음 멀티태스킹 학습 알고리즘을 구현합니다.

평균 정규화된 멀티태스킹^[21]^[22] 학습
공동 기능^[23] 선택을 통한 멀티태스킹 학습
견고한 멀티태스킹 기능^[24] 학습
트레이스 노멀 정규화 멀티태스킹러닝^[25]
교대 구조 최적화^[26]^[27]
일관성이 없는 하위 및 희박한^[28] 학습
견고한 하위 멀티태스킹 학습
클러스터화된 멀티태스킹^[29]^[30] 학습
그래프 구조를 사용한 멀티태스킹 학습

「」를 참조해 주세요.

레퍼런스

^ Baxter, J. (2000)유도편향학습모델'인공지능연구저널12:149~198 온라인 논문
^ Thrun, S. (1996년)n번째 것을 배우는 것이 첫 번째 것을 배우는 것보다 더 쉽나요?신경 정보 처리 시스템의 발전 8, 페이지 640-646. MIT 프레스.Citeser 종이
^ ^a ^b Caruana, R. (1997). "Multi-task learning" (PDF). Machine Learning. 28: 41–75. doi:10.1023/A:1007379606734.
^ Suddarth, S., Kergosien, Y.(1990).네트워크 퍼포먼스와 학습 시간을 향상시키기 위한 수단으로서의 규칙 주입 힌트.EURASIP 워크숍뉴럴 네트워크 페이지 120-129.컴퓨터 공학 강의 노트스프링거.
^ Abu-Mostafa, Y. S. (1990). "Learning from hints in neural networks". Journal of Complexity. 6 (2): 192–198. doi:10.1016/0885-064x(90)90006-y.
^ ^a ^b Weinberger, Kilian. "Multi-task Learning".
^ ^a ^b ^c Ciliberto, C. (2015). "Convex Learning of Multiple Tasks and their Structure". arXiv:1504.03101 [cs.LG].
^ ^a ^b ^c ^d 하지라메자날리, E. & Dadaneh, S. Z. & Karbalayghareh, A. & Zow, Z.& Qian, X. 차세대 시퀀싱 카운트 데이터에서 암 서브타입 발견을 위한 베이지안 다중 도메인 학습. 캐나다 몬트렐, NIPS 2018(Neural Information Processing Systems)에 관한 제32회 컨퍼런스.arXiv: 1810.09433
^ ^a ^b Romera-Paredes, B., Argyriou, A., Biancchi-Berthouze, N. 및 Pontil, M., (2012)멀티태스킹학습관련없는작업활용http://jmlr.csail.mit.edu/proceedings/papers/v22/romera12/romera12.pdf
^ Kumar, A. 및 Daume III, H. (2012) 학습 태스크 그룹화 및 다중 태스크 학습 중복http://icml.cc/2012/papers/690.pdf
^ Jawanpuria, P. 및 Saketha Nath, J., (2012) 잠재 태스크 구조 발견을 위한 볼록한 특징 학습 공식.http://icml.cc/2012/papers/90.pdf
^ Zweig, A. & Weinshall, D.공동 학습을 위한 계층적 정규화 캐스케이드진행: 2013년 6월 애틀랜타 GA, 제30회 기계학습 국제회의(ICML) 개최.http://www.cs.huji.ac.il/~daphna/paper/Zweig_ICML2013.pdf
^ Szegedy, Christian; Wei Liu, Youssef; Yangqing Jia, Tomaso; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2015). "Going deeper with convolutions". 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 1–9. arXiv:1409.4842. doi:10.1109/CVPR.2015.7298594. ISBN 978-1-4673-6964-0. S2CID 206592484.
^ Roig, Gemma. "Deep Learning Overview" (PDF).
^ Zweig, A. & Chechik, G. Group 온라인 적응 학습머신러닝, DOI 10.1007/s10994-017-5661-5, 2017년 8월http://rdcu.be/uFSv
^ Dinuzzo, Francesco (2011). "Learning output kernels with block coordinate descent" (PDF). Proceedings of the 28th International Conference on Machine Learning (ICML-11). Archived from the original (PDF) on 2017-08-08.
^ Jacob, Laurent (2009). "Clustered multi-task learning: A convex formulation". Advances in Neural Information Processing Systems. arXiv:0809.2085. Bibcode:2008arXiv0809.2085J.
^ Attenberg, J., Weinberger, K. 및 Dasgupta, A. Hashing-Trick을 사용한 협업 이메일 및 스팸 필터링.http://www.cse.wustl.edu/~killian/ceas2009-paper-11.pdf
^ Chappelle, O., Shivaswamy, P. 및 Vadrevu, S. 웹 검색 랭킹을 통한 애플리케이션 향상을 위한 멀티태스킹 학습http://www.cse.wustl.edu/~killian/multivoost2010.pdf
^ Zhou, J., Chen, J. 및 Ye, J. MALSAR: StructurAl 정규화를 통한 멀티태스킹 학습애리조나 주립 대학교, 2012년http://www.public.asu.edu/~jye02/소프트웨어/MALSAR.온라인 매뉴얼
^ Evgeniou, T., & Pontil, M. (2004)정기적인 멀티태스킹 학습지식 발견 및 데이터 마이닝에 관한 제10회 ACM SIGKDD 국제회의의 진행(109~117페이지).
^ Evgeniou, T.; Micchelli, C.; Pontil, M. (2005). "Learning multiple tasks with kernel methods" (PDF). Journal of Machine Learning Research. 6: 615.
^ Argyriou, A.; Evgeniou, T.; Pontil, M. (2008a). "Convex multi-task feature learning". Machine Learning. 73 (3): 243–272. doi:10.1007/s10994-007-5040-8.
^ Chen, J., Zhou, J., & Ye, J. (2011).견고한 멀티태스킹^{[dead link]} 학습을 위해 낮은 등급의 구조와 그룹 스퍼스 구조를 통합합니다.지식 발견 및 데이터 마이닝에 관한 제10회 ACM SIGKDD 국제회의의 진행.
^ Ji, S. & Ye, J. (2009년).트레이스 노름 최소화를 위한 가속 구배법.제26회 기계학습 국제회의 진행 (457–464페이지)
^ Ando, R.; Zhang, T. (2005). "A framework for learning predictive structures from multiple tasks and unlabeled data" (PDF). The Journal of Machine Learning Research. 6: 1817–1853.
^ Chen, J., Tang, L., Liu, J. 및 Ye, J. (2009).여러 작업에서 공유 구조를 학습하기 위한 볼록한 공식입니다.제26회 기계 학습 국제 연차 회의의 진행 상황 (p. 137–144).
^ Chen, J., Liu, J., & Ye, J. (2010).여러 태스크에서 일관성이 없는 스파스 및 낮은 순위 패턴을 학습합니다.지식 발견 및 데이터 마이닝에 관한 제16회 ACM SIGKDD 국제회의의 진행(1179–1188)
^ Jacob, L., Bach, F. 및 Vert, J. (2008).클러스터화된 멀티태스킹 학습: 볼록한 공식.신경정보처리시스템의 발전 © 2008
^ Zhou, J., Chen, J., & Ye, J. (2011년)교대 구조 최적화를 통한 클러스터화된 멀티태스킹 학습신경 정보 처리 시스템의 발전.

외부 링크

소프트웨어

구조 정규화 패키지를 통한 멀티태스킹 학습
Online Multi-Task Learning Toolkit(OMT) 조건부 랜덤 필드 모델과 확률적 경사 강하 훈련(C #, .NET)을 기반으로 하는 범용 온라인 멀티태스킹 학습 툴킷

[1] Baxter, J. (2000)유도편향학습모델'인공지능연구저널12:149~198 온라인 논문

[2] Thrun, S. (1996년)n번째 것을 배우는 것이 첫 번째 것을 배우는 것보다 더 쉽나요?신경 정보 처리 시스템의 발전 8, 페이지 640-646. MIT 프레스.Citeser 종이

[:2-3] Caruana, R. (1997). "Multi-task learning" (PDF). Machine Learning. 28: 41–75. doi:10.1023/A:1007379606734.

[4] Suddarth, S., Kergosien, Y.(1990).네트워크 퍼포먼스와 학습 시간을 향상시키기 위한 수단으로서의 규칙 주입 힌트.EURASIP 워크숍뉴럴 네트워크 페이지 120-129.컴퓨터 공학 강의 노트스프링거.

[5] Abu-Mostafa, Y. S. (1990). "Learning from hints in neural networks". Journal of Complexity. 6 (2): 192–198. doi:10.1016/0885-064x(90)90006-y.

[:0-6] Weinberger, Kilian. "Multi-task Learning".

[:1-7] Ciliberto, C. (2015). "Convex Learning of Multiple Tasks and their Structure". arXiv:1504.03101 [cs.LG].

[:bmdl-8] 하지라메자날리, E. & Dadaneh, S. Z. & Karbalayghareh, A. & Zow, Z.& Qian, X. 차세대 시퀀싱 카운트 데이터에서 암 서브타입 발견을 위한 베이지안 다중 도메인 학습. 캐나다 몬트렐, NIPS 2018(Neural Information Processing Systems)에 관한 제32회 컨퍼런스.arXiv: 1810.09433

[:3-9] Romera-Paredes, B., Argyriou, A., Biancchi-Berthouze, N. 및 Pontil, M., (2012)멀티태스킹학습관련없는작업활용http://jmlr.csail.mit.edu/proceedings/papers/v22/romera12/romera12.pdf

[10] Kumar, A. 및 Daume III, H. (2012) 학습 태스크 그룹화 및 다중 태스크 학습 중복http://icml.cc/2012/papers/690.pdf

[11] Jawanpuria, P. 및 Saketha Nath, J., (2012) 잠재 태스크 구조 발견을 위한 볼록한 특징 학습 공식.http://icml.cc/2012/papers/90.pdf

[12] Zweig, A. & Weinshall, D.공동 학습을 위한 계층적 정규화 캐스케이드진행: 2013년 6월 애틀랜타 GA, 제30회 기계학습 국제회의(ICML) 개최.http://www.cs.huji.ac.il/~daphna/paper/Zweig_ICML2013.pdf

[13] Szegedy, Christian; Wei Liu, Youssef; Yangqing Jia, Tomaso; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2015). "Going deeper with convolutions". 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 1–9. arXiv:1409.4842. doi:10.1109/CVPR.2015.7298594. ISBN 978-1-4673-6964-0. S2CID 206592484.

[14] Roig, Gemma. "Deep Learning Overview" (PDF).

[15] Zweig, A. & Chechik, G. Group 온라인 적응 학습머신러닝, DOI 10.1007/s10994-017-5661-5, 2017년 8월http://rdcu.be/uFSv

[16] Dinuzzo, Francesco (2011). "Learning output kernels with block coordinate descent" (PDF). Proceedings of the 28th International Conference on Machine Learning (ICML-11). Archived from the original (PDF) on 2017-08-08.

[17] Jacob, Laurent (2009). "Clustered multi-task learning: A convex formulation". Advances in Neural Information Processing Systems. arXiv:0809.2085. Bibcode:2008arXiv0809.2085J.

[18] Attenberg, J., Weinberger, K. 및 Dasgupta, A. Hashing-Trick을 사용한 협업 이메일 및 스팸 필터링.http://www.cse.wustl.edu/~killian/ceas2009-paper-11.pdf

[19] Chappelle, O., Shivaswamy, P. 및 Vadrevu, S. 웹 검색 랭킹을 통한 애플리케이션 향상을 위한 멀티태스킹 학습http://www.cse.wustl.edu/~killian/multivoost2010.pdf

[20] Zhou, J., Chen, J. 및 Ye, J. MALSAR: StructurAl 정규화를 통한 멀티태스킹 학습애리조나 주립 대학교, 2012년http://www.public.asu.edu/~jye02/소프트웨어/MALSAR.온라인 매뉴얼

[21] Evgeniou, T., & Pontil, M. (2004)정기적인 멀티태스킹 학습지식 발견 및 데이터 마이닝에 관한 제10회 ACM SIGKDD 국제회의의 진행(109~117페이지).

[22] Evgeniou, T.; Micchelli, C.; Pontil, M. (2005). "Learning multiple tasks with kernel methods" (PDF). Journal of Machine Learning Research. 6: 615.

[23] Argyriou, A.; Evgeniou, T.; Pontil, M. (2008a). "Convex multi-task feature learning". Machine Learning. 73 (3): 243–272. doi:10.1007/s10994-007-5040-8.

[24] Chen, J., Zhou, J., & Ye, J. (2011).견고한 멀티태스킹^{[dead link]} 학습을 위해 낮은 등급의 구조와 그룹 스퍼스 구조를 통합합니다.지식 발견 및 데이터 마이닝에 관한 제10회 ACM SIGKDD 국제회의의 진행.

[25] Ji, S. & Ye, J. (2009년).트레이스 노름 최소화를 위한 가속 구배법.제26회 기계학습 국제회의 진행 (457–464페이지)

[26] Ando, R.; Zhang, T. (2005). "A framework for learning predictive structures from multiple tasks and unlabeled data" (PDF). The Journal of Machine Learning Research. 6: 1817–1853.

[27] Chen, J., Tang, L., Liu, J. 및 Ye, J. (2009).여러 작업에서 공유 구조를 학습하기 위한 볼록한 공식입니다.제26회 기계 학습 국제 연차 회의의 진행 상황 (p. 137–144).

[28] Chen, J., Liu, J., & Ye, J. (2010).여러 태스크에서 일관성이 없는 스파스 및 낮은 순위 패턴을 학습합니다.지식 발견 및 데이터 마이닝에 관한 제16회 ACM SIGKDD 국제회의의 진행(1179–1188)

[29] Jacob, L., Bach, F. 및 Vert, J. (2008).클러스터화된 멀티태스킹 학습: 볼록한 공식.신경정보처리시스템의 발전 © 2008

[30] Zhou, J., Chen, J., & Ye, J. (2011년)교대 구조 최적화를 통한 클러스터화된 멀티태스킹 학습신경 정보 처리 시스템의 발전.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

Search

멀티태스킹 학습

네임스페이스

더

목차

방법들

작업 그룹화 및 중복

관련 없는 작업 악용

지식의 이전

그룹 온라인 적응 학습

수학

벡터값함수의 힐베르트 공간 재현(RKHSv)

RKHSv 개념

분리 가능한 커널

알려진 태스크 구조

태스크 구조 표현

태스크 구조 예시

학습 태스크와 그 구조

Q의 최적화

특수한 경우

일반화

적용들

스팸 필터링

웹 검색

소프트웨어 패키지

「」를 참조해 주세요.

레퍼런스

외부 링크

소프트웨어

Search

멀티태스킹 학습

방법들

작업 그룹화 및 중복

관련 없는 작업 악용

지식의 이전

그룹 온라인 적응 학습

수학

벡터값함수의 힐베르트 공간 재현(RKHSv)

RKHSv 개념

분리 가능한 커널

알려진 태스크 구조

태스크 구조 표현

태스크 구조 예시

학습 태스크와 그 구조

Q의 최적화

특수한 경우

일반화

적용들

스팸 필터링

웹 검색

소프트웨어 패키지

「 」를 참조해 주세요.

레퍼런스

외부 링크

소프트웨어

「」를 참조해 주세요.