멀티태스킹 학습

Multi-task learning

MTL(Multi-Task Learning)은 여러 학습 작업을 동시에 해결하면서 여러 작업의 공통점과 차이를 활용하는 기계 학습의 하위 분야입니다.따라서 모델을 [1][2][3]별도로 교육하는 것에 비해 작업별 모델에 대한 학습 효율성과 예측 정확도가 향상될 수 있습니다.MTL의 초기 버전은 "힌트"[4][5]라고 불렸다.

Rich Caruana는 널리 인용된 1997년 논문에서 다음과 같은 특징을 제시했습니다.

멀티태스킹 러닝은 관련 작업의 교육 신호에 포함된 도메인 정보를 귀납적 편견으로 사용하여 일반화를 개선하는 귀납적 전달 접근법입니다.이는 공유 표현을 사용하여 태스크를 병렬로 학습함으로써 이루어집니다. 각 태스크에 대해 학습된 내용은 다른 태스크를 더 [3]잘 학습하는 데 도움이 됩니다.

분류 맥락에서 MTL은 여러 분류 작업을 공동으로 학습하여 성능을 향상시키는 것을 목표로 한다.예를 들어 스팸 필터가 있습니다.스팸 필터는 서로 다른 사용자 간에 구별되지만 관련된 분류 태스크로 취급할 수 있습니다.보다 구체적으로 말하면, 스팸 메일을 정규 메일과 구별하는 기능의 배포가 다른 것을 생각해 봅시다.예를 들어 영어 사용자는 러시아어로 된 모든 이메일이 스팸일 뿐 러시아어로 된 이메일은 스팸일 수 있습니다.그러나 이 분류 작업에는 사용자 간에 명확한 공통성이 있습니다. 예를 들어, 한 가지 공통적인 특징은 송금과 관련된 텍스트일 수 있습니다.각 사용자의 스팸 분류 문제를 MTL을 통해 공동으로 해결함으로써 솔루션이 서로 정보를 전달하고 [6]성능을 향상시킬 수 있습니다.MTL 설정의 또 다른 예로는 멀티클래스 분류 및 멀티라벨 [7]분류가 있습니다.

멀티태스킹 학습은 관련 작업을 잘 수행하기 위해 알고리즘을 요구함으로써 유도되는 정규화가 모든 복잡성에 균등하게 불이익을 줌으로써 과적합을 방지하는 정규화보다 우수할 수 있기 때문에 효과가 있다.MTL이 특히 도움이 될 수 있는 상황 중 하나는 태스크가 상당한 공통점을 공유하고 있으며 일반적으로 표본이 [8][6]약간 부족한 경우입니다.다만, 이하에 설명하듯이, MTL은 관련 없는 [8][9]작업을 학습하는 데에도 도움이 되는 것으로 나타났습니다.

방법들

작업 그룹화 및 중복

MTL 패러다임에서는 일부 또는 모든 태스크에서 정보를 공유할 수 있습니다.태스크 관련 구조에 따라 태스크 간에 선택적으로 정보를 공유할 수 있습니다.예를 들어 태스크는 그룹화되거나 계층에 존재하거나 일부 일반 메트릭에 따라 관련될 수 있습니다.아래에서 좀 더 공식적으로 개발된 바와 같이, 각 과제를 모델링하는 매개 변수 벡터가 기초적인 기초의 선형 조합이라고 가정해 보자.이 기준의 유사성은 태스크의 관련성을 나타낼 수 있습니다.예를 들어, 희소성의 경우 작업 간에 0이 아닌 계수가 겹치면 공통성을 나타냅니다.태스크 그룹화는 베이스 요소의 일부 서브셋에 의해 생성된 서브스페이스에 있는 태스크에 대응하며,[10] 여기서 다른 그룹의 태스크는 베이스의 관점에서 분리되거나 임의로 중복될 수 있다.작업 관련성은 우선순위로 부과되거나 [7][11]데이터에서 학습될 수 있다.계층적 업무 관련성은 선험적 지식이나 학습 관계를 명시적으로 [8][12]가정하지 않고 암묵적으로 이용될 수도 있다.예를 들어, 여러 [8]영역에 걸친 공동 학습의 효과를 보장하기 위해 과제 간 표본 관련성에 대한 명시적 학습을 수행할 수 있다.

관련 없는 작업 악용

주 업무와 무관한 보조 업무의 그룹을 사용하여 주 업무의 그룹을 학습할 수 있다.많은 응용 프로그램에서 동일한 입력 데이터를 사용하는 관련 없는 작업의 공동 학습이 유익할 수 있습니다.그 이유는 과제 관련성에 대한 사전 지식이 기본적으로 데이터 분포의 특이성을 걸러냄으로써 각 과제 그룹에 대한 보다 희박하고 유익한 표현을 이끌어 낼 수 있기 때문이다.각 과제 그룹 내에서 공유된 저차원 표현을 선호함으로써 이전의 멀티태스킹 방법론을 기반으로 하는 새로운 방법이 제안되었다.프로그래머는 서로 다른 그룹의 태스크에 패널티를 부과할 수 있으며, 이는 두 표현이 직교하도록 장려합니다.합성 데이터와 실제 데이터에 대한 실험은 관련 없는 작업을 통합하는 것이 표준 다중 작업 학습 [9]방법보다 크게 개선될 수 있다는 것을 보여주었다.

지식의 이전

멀티태스킹 학습과 관련된 것은 지식 전달의 개념이다.전통적인 다중 작업 학습은 여러 과제에서 동시에 공유 표현이 개발된다는 것을 의미하지만, 지식의 이전은 순차적으로 공유된 표현을 의미한다.이미지 기반 객체 분류기인 심층 컨볼루션 뉴럴 네트워크인 GoogleLeNet과 [13]같은 대규모 기계 학습 프로젝트는 관련 작업을 학습하는 추가적인 알고리즘에 유용할 수 있는 강력한 표현을 개발할 수 있다.예를 들어, 사전 트레이닝된 모델은 다른 학습 알고리즘의 전처리를 수행하기 위한 특징 추출기로 사용할 수 있습니다.또는 사전 교육을 받은 모델을 사용하여 유사한 아키텍처의 모델을 초기화하고, 그 후 다른 분류 [14]작업을 학습하도록 미세 조정할 수 있습니다.

그룹 온라인 적응 학습

전통적으로 멀티태스킹 학습과 지식 전달은 고정 학습 환경에 적용됩니다.비정상 환경으로의 확장을 그룹 온라인 적응 학습(GOAL)[15]이라고 합니다.학습자는 새로운 환경에 빠르게 적응할 수 있는 다른 학습자의 이전 경험을 활용할 수 있기 때문에 학습자가 지속적으로 변화하는 환경에서 작업할 경우 정보 공유가 특히 유용할 수 있습니다.이러한 그룹 적응 학습은 재무 시계열 예측에서 콘텐츠 추천 시스템을 통해 적응형 자율 에이전트에 대한 시각적 이해에 이르기까지 수많은 응용 프로그램을 가지고 있다.

수학

벡터값함수의 힐베르트 공간 재현(RKHSv)

MTL 문제는 RKHSv(재생 커널을 갖춘 벡터함수완전내부공간)의 컨텍스트 내에서 주조할 수 있습니다.특히 최근에는 아래에 설명된 분리 가능한 커널을 통해 태스크 구조를 식별할 수 있는 경우에 초점을 맞추고 있습니다.여기서의 프레젠테이션은 Ciliberto 등,[7] 2015에서 유래한다.

RKHSv 개념

트레이닝 데이터 세트가 t { ( t , t ) t { { { ( x { }^{ , y _ { }^{ } \ } { i=}^{ _ { t } x tylex { ty }^{ 이라고 가정합니다. ,. .,T { t 1, . . } . t \ _ { t = 1 ^{ n = \ _ { t =} 이 설정에는 각 태스크에 대해 일관된 입력 및 출력 공간과 동일한 손실 L + {\{\ \ \R} _{+}}가 있습니다.이로 인해 기계학습이 정규화됩니다.

(1)

서 H f: f {Y을(를) 재생하는 벡터 값 커널 Hilbert 공간입니다. 성분 t: {\{\

f : T{\ f^{의 공간H { 재생 커널은 대칭 매트릭스 값 함수 X ×X × × × T \ \ \mathcal {X}이다T}}: ( ", ) H ( \ \ ( \ ) \ \{ } 및 다음 재생 속성이 유지되도록 합니다.

(2)

재현 커널은 방정식 1에 대한 해법이 다음과 같은 형태를 갖는다는 것을 보여주는 대표자 정리를 만들어 낸다.

(3)

분리 가능한 커널

커널 δ의 형식은 피쳐 공간의 표현을 유도하고 여러 태스크에서 출력을 구조화합니다.자연스럽게 간단하게는 분리 가능한 커널을 선택하는 것입니다.이 커널은 입력공간 X와{1.. ,T, ...)에서 개별 커널로 인수됩니다. 이 경우 스칼라 관련된 커널은( i , )( i ,) ( i , x , ) tx ) text ( x 로 표시됩니다 벡터값 함수 fH({ f{ 대해서는 ( , ) k ( , xj ) ( \ \(x{ i , _ { i , x _ { x j } ) ) ( x _ { j } ) })})})})}) 。 (여기서 k는 스칼라 재생 커널, A는 대칭 양의T × T {\T T 행렬)S + { R × { S_ + }^{ 매트릭스T}.

이 인수분해 속성인 분리성은 입력 피쳐 공간 표현이 태스크에 따라 달라지지 않음을 의미합니다.즉, 입력 커널과 태스크 커널 사이에는 상호 작용이 없습니다.태스크의 구조는 A로만 나타납니다.비분리성 커널에 대한 방법은 현재 연구 분야이다.

분리 가능한 경우, 표현 정리는 f() i ( , i ) i{ { f (x ) = \_ {i})로 감소한다.트레이닝 데이터의 모델 출력은 KCA입니다.여기서 K는 ( , j K_ , x_= ( , {j}}} )의 ×n \ n 행렬입니다

분리 가능한 커널을 사용하면 방정식 1을 다음과 같이 다시 쓸 수 있습니다.

(P)

여기서 V는 Y 및 KCA엔트리 단위로 적용된 L의 (가중치) 평균입니다( i { Y_ 누락된 관측치인 가중치는 0입니다).

P의 두 번째 항은 다음과 같이 도출할 수 있습니다.

알려진 태스크 구조

태스크 구조 표현

작업 구조를 나타내는 방법에는 정규화, 출력 메트릭 및 출력 매핑의 세 가지가 있습니다.

레귤러라이저 — 분리 가능한 커널에서는 f , 1 s t k f _}^{2_{s, 라고 표시할 수 있습니다. 역의 t s s 이며, k(\ {H는 스칼라 k(\k 한 RKHS입니다.이 공식은 }}"가 f, H { _ {\ 에 관련된 패널티의 가중치를 cal (는) f t h t,f t k {\mathcal {H}}_{t}\ {에서 합니다

증명

출력 메트릭: T의 출력 메트릭(\(는) 내부 생성물 1, ⟩ = 1, y T { \ display \ display \ y _ , y { 2 } \ _ { \ \ \ \ \ \ \ display \ disple y _ { \ rangle y _ { \ \ \ \ \ \ \ \ \ \ rangle _ { 1 } \ \ \ \ \ \ \ } = \ _^{ 제곱 손실과 함께 분리 가능한 k(θ) T{ k 메트릭의 T ", ") \ k ( \ , \ ) \ 메트릭 아래의 Theta

출력 매핑 - 출력을 L: T ~ L로 매핑할 수 있습니다., 과 같은 복잡한 구조를 부호화하기 위해 더 높은 차원의 공간으로 선형 지도 L의 경우, 분리 가능한 커널을 적절히 선택하면 A L {\ A임을 알 수 있다.

태스크 구조 예시

레귤러라이저 제형을 통해 다양한 태스크 구조를 쉽게 나타낼 수 있습니다.

  • + ( - ) 1 \ A^ { \ } = \ + ( \ - \ ) { \ { 1 {1 ^{\ (서 I TxT ID 매트릭스, 1 분산 제어에 상당합니다 태스크의 평균 1 T {\1} {1} {} _ 예를 들어, 일부 바이오마커의 혈중 농도는 하루 nt}의 T환자에 대해 측정될 수 있으며, 환자 간 예측의 차이를 정규화하는 데 관심이 있을 수 있다.
  • I+ (- - ) {\^{\dagger } = \ I_} + alpha - } (M , 1 r(, s Gr {s}) { {cr} {cr} {cr} ) {cr} {} {cr} ) } {cr} {cr} } {cr} } {c} } } } 그룹 평균에 관하여: r t - G s Gr ) s{ _ { { - {\1 } } \ _ {(는) 표시기 함수입니다).예를 들어, 정치인의 호감도를 예측하기 위해 서로 다른 정당(그룹)의 사람들이 함께 정규화될 수 있다.모든 작업이 같은 그룹에 속해 있는 경우 이 패널티는 첫 번째 패널티로 감소합니다.
  • = = T+ ( - )L { { A^ { \ } = \ I_{} + ( - \ )} ) 。D - M { L= D - M }는 인접 관계를 나타내는 라플라시안 쌍입니다.이는 ( t {에 따라) 보다 유사한 거리 분리 태스크 t와 sdisplaystyle {t,s})에 더 큰 패널티를 주는 것과 같습니다.즉 "\\delta" " "를 정규화합니다.2}
  • A의 위의 모든 선택은 f의 복잡성에 보다 광범위하게 불이익을 주는 추가적인 정규화 항 δ H \ \}를 유도한다.

학습 태스크와 그 구조

학습문제 P는 다음과 같이 일반화되어 학습 태스크 매트릭스 A를 인정할 수 있다.

(Q)

+ + \ F : 지정된 유형의 행렬 A를 학습하도록 설계되어야 합니다.아래의 "특수 사례"를 참조하십시오.

Q의 최적화

볼록손실 및 강압적 처벌의 경우로 제한한다.Q는 C와 A에서 공동으로 볼록하지 않지만, 관련된 문제는 공동으로 볼록하다는 것을 보여주었다.

구체적으로는 볼록 C { (C , )R n × ×S + e ( KC ) R g (A ) \ style \ C} = \ { ( , ) \ R {}

(R)

같은 최소값으로 볼록합니다.그리고 ( R { R의 미니마이저라면 A R {}^{\dagger A_{는 미니마이저이다.

R은 다음과 같은 섭동을 도입함으로써 닫힌 집합의 장벽 방법으로 해결할 수 있다.

(S)

장벽 r ( ) ( { })}을 통한 섭동은 R × × + \ \ \ n \ 에서 목적 함수가 + (\ 동일하도록 강제한다.

S는 C와 A를 번갈아 가면서 블록 좌표 강하법으로 풀 수 있다.그 결과, S, m)(\ 시퀀스가 생성되어 R의 솔루션하여 0 _ 0이 되며, 이에 따라 솔루션은 Q에 할당됩니다.

특수한 경우

스펙트럼 처벌-Dinnuzo(al[16]은 프로베니우스 norm F을 설정하지 r({\displaystyle{\sqrt{tr(A^{\top}A)}}}. 그들은 Q직접 어려움을 Rn×T×S의 경계에서 고려하지 않+블록 좌표 하강 T{\displaystyle \mathbb{R}^{Tn\times}\times S_{+}^{T.를 사용하여 최적화될 것을 제안했다}} .

군집화 작업 학습 - Jacob 등[17] T 작업이 R개의 분리된 군집으로 구성환경에서 A를 학습할 것을 제안했다. 경우 E { , × { \ E \ \ { , 1 \ }^{ \ R} r = I ( ) \ {} { I( \ { } { text } } } {e }} }} }} }} 。 11 ({ U^{\top 매트릭스 A {\A^{\: A( M ) + ( M- U) + ( - ) 의 함수로 파라미터화할 수 있습니다.군집 분산과 군집 내 분산이 각각 작업 예측에 따라 달라집니다.M은 볼록하지 않지만 볼록 c { S + :I - MS + r ( ) { \} { c } = \ { \ S _ { + + }^{ : S_ tr 이 식에서 F { : C { F) = \({

일반화

비볼록 패널티 - A가 그래프 라플라시안 또는 A가 낮은 순위 인수분해되도록 패널티를 구성할 수 있습니다.그러나 이러한 벌칙은 볼록하지 않으며, Ciliberto 등이 제안한 장벽 방법의 분석은 이러한 경우에 수행되지 않는다.

분리할 수 없는 커널 - 분리 가능한 커널은 제한적이며, 특히 입력 도메인과 출력 도메인 간의 상호 작용 공간의 구조를 함께 고려하지 않습니다.이러한 커널의 모델을 개발하기 위해서는 향후 작업이 필요합니다.

적용들

스팸 필터링

MTL의 원리를 사용하여 개인화를 용이하게 하는 협업 스팸 필터링 기술을 제안했습니다.대규모 오픈멤버십 전자 메일시스템에서는 대부분의 사용자가 개별 로컬 분류자를 유효하게 하기 위한 충분한 메시지에 라벨을 붙이지 않지만 데이터는 노이즈가 너무 많아 모든 사용자에 대한 글로벌필터에 사용할 수 없습니다.하이브리드 글로벌/개별 분류기는 일반 대중으로부터 이메일에 매우 열심히 레이블을 지정하는 사용자의 영향을 흡수하는 데 효과적일 수 있습니다.이는 라벨이 붙은 [18]인스턴스가 거의 없는 사용자에게 충분한 품질을 제공하면서도 달성할 수 있습니다.

웹 검색

확장 의사결정 트리를 사용하면 암묵적인 데이터 공유 및 정규화를 활성화할 수 있습니다.이 학습 방법은 웹 검색 순위 데이터 세트에 사용할 수 있습니다.한 가지 예는 여러 국가의 순위 데이터 세트를 사용하는 것이다.여기서 멀티태스킹 학습은 편집 판단 비용 때문에 여러 나라의 데이터 세트가 크게 다르기 때문에 특히 도움이 된다.다양한 작업을 공동으로 학습하면 놀라운 [19]신뢰성과 함께 상당한 성능 향상으로 이어질 수 있음이 입증되었습니다.

소프트웨어 패키지

StructurAl Regularization(MALSAR) Matlab[20] 패키지는 다음 멀티태스킹 학습 알고리즘을 구현합니다.

  • 평균 정규화된 멀티태스킹[21][22] 학습
  • 공동 기능[23] 선택을 통한 멀티태스킹 학습
  • 견고한 멀티태스킹 기능[24] 학습
  • 트레이스 노멀 정규화 멀티태스킹러닝[25]
  • 교대 구조 최적화[26][27]
  • 일관성이 없는 하위 및 희박한[28] 학습
  • 견고한 하위 멀티태스킹 학습
  • 클러스터화된 멀티태스킹[29][30] 학습
  • 그래프 구조를 사용한 멀티태스킹 학습

「 」를 참조해 주세요.

레퍼런스

  1. ^ Baxter, J. (2000)유도편향학습모델'인공지능연구저널12:149~198 온라인 논문
  2. ^ Thrun, S. (1996년)n번째 것을 배우는 것이 첫 번째 것을 배우는 것보다 더 쉽나요?신경 정보 처리 시스템의 발전 8, 페이지 640-646. MIT 프레스.Citeser 종이
  3. ^ a b Caruana, R. (1997). "Multi-task learning" (PDF). Machine Learning. 28: 41–75. doi:10.1023/A:1007379606734.
  4. ^ Suddarth, S., Kergosien, Y.(1990).네트워크 퍼포먼스와 학습 시간을 향상시키기 위한 수단으로서의 규칙 주입 힌트.EURASIP 워크숍뉴럴 네트워크 페이지 120-129.컴퓨터 공학 강의 노트스프링거.
  5. ^ Abu-Mostafa, Y. S. (1990). "Learning from hints in neural networks". Journal of Complexity. 6 (2): 192–198. doi:10.1016/0885-064x(90)90006-y.
  6. ^ a b Weinberger, Kilian. "Multi-task Learning".
  7. ^ a b c Ciliberto, C. (2015). "Convex Learning of Multiple Tasks and their Structure". arXiv:1504.03101 [cs.LG].
  8. ^ a b c d 하지라메자날리, E. & Dadaneh, S. Z. & Karbalayghareh, A. & Zow, Z.& Qian, X. 차세대 시퀀싱 카운트 데이터에서 암 서브타입 발견을 위한 베이지안 다중 도메인 학습. 캐나다 몬트렐, NIPS 2018(Neural Information Processing Systems)에 관한 제32회 컨퍼런스.arXiv: 1810.09433
  9. ^ a b Romera-Paredes, B., Argyriou, A., Biancchi-Berthouze, N. 및 Pontil, M., (2012)멀티태스킹학습관련없는작업활용http://jmlr.csail.mit.edu/proceedings/papers/v22/romera12/romera12.pdf
  10. ^ Kumar, A. 및 Daume III, H. (2012) 학습 태스크 그룹화 및 다중 태스크 학습 중복http://icml.cc/2012/papers/690.pdf
  11. ^ Jawanpuria, P. 및 Saketha Nath, J., (2012) 잠재 태스크 구조 발견을 위한 볼록한 특징 학습 공식.http://icml.cc/2012/papers/90.pdf
  12. ^ Zweig, A. & Weinshall, D.공동 학습을 위한 계층적 정규화 캐스케이드진행: 2013년 6월 애틀랜타 GA, 제30회 기계학습 국제회의(ICML) 개최.http://www.cs.huji.ac.il/~daphna/paper/Zweig_ICML2013.pdf
  13. ^ Szegedy, Christian; Wei Liu, Youssef; Yangqing Jia, Tomaso; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2015). "Going deeper with convolutions". 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 1–9. arXiv:1409.4842. doi:10.1109/CVPR.2015.7298594. ISBN 978-1-4673-6964-0. S2CID 206592484.
  14. ^ Roig, Gemma. "Deep Learning Overview" (PDF).
  15. ^ Zweig, A. & Chechik, G. Group 온라인 적응 학습머신러닝, DOI 10.1007/s10994-017-5661-5, 2017년 8월http://rdcu.be/uFSv
  16. ^ Dinuzzo, Francesco (2011). "Learning output kernels with block coordinate descent" (PDF). Proceedings of the 28th International Conference on Machine Learning (ICML-11). Archived from the original (PDF) on 2017-08-08.
  17. ^ Jacob, Laurent (2009). "Clustered multi-task learning: A convex formulation". Advances in Neural Information Processing Systems. arXiv:0809.2085. Bibcode:2008arXiv0809.2085J.
  18. ^ Attenberg, J., Weinberger, K. 및 Dasgupta, A. Hashing-Trick을 사용한 협업 이메일 및 스팸 필터링.http://www.cse.wustl.edu/~killian/ceas2009-paper-11.pdf
  19. ^ Chappelle, O., Shivaswamy, P. 및 Vadrevu, S. 웹 검색 랭킹을 통한 애플리케이션 향상을 위한 멀티태스킹 학습http://www.cse.wustl.edu/~killian/multivoost2010.pdf
  20. ^ Zhou, J., Chen, J. 및 Ye, J. MALSAR: StructurAl 정규화를 통한 멀티태스킹 학습애리조나 주립 대학교, 2012년http://www.public.asu.edu/~jye02/소프트웨어/MALSAR.온라인 매뉴얼
  21. ^ Evgeniou, T., & Pontil, M. (2004)정기적인 멀티태스킹 학습지식 발견 및 데이터 마이닝에 관한 제10회 ACM SIGKDD 국제회의의 진행(109~117페이지).
  22. ^ Evgeniou, T.; Micchelli, C.; Pontil, M. (2005). "Learning multiple tasks with kernel methods" (PDF). Journal of Machine Learning Research. 6: 615.
  23. ^ Argyriou, A.; Evgeniou, T.; Pontil, M. (2008a). "Convex multi-task feature learning". Machine Learning. 73 (3): 243–272. doi:10.1007/s10994-007-5040-8.
  24. ^ Chen, J., Zhou, J., & Ye, J. (2011).견고한 멀티태스킹[dead link] 학습을 위해 낮은 등급의 구조와 그룹 스퍼스 구조를 통합합니다.지식 발견 및 데이터 마이닝에 관한 제10회 ACM SIGKDD 국제회의의 진행.
  25. ^ Ji, S. & Ye, J. (2009년).트레이스 노름 최소화를 위한 가속 구배법.제26회 기계학습 국제회의 진행 (457–464페이지)
  26. ^ Ando, R.; Zhang, T. (2005). "A framework for learning predictive structures from multiple tasks and unlabeled data" (PDF). The Journal of Machine Learning Research. 6: 1817–1853.
  27. ^ Chen, J., Tang, L., Liu, J. 및 Ye, J. (2009).여러 작업에서 공유 구조를 학습하기 위한 볼록한 공식입니다.제26회 기계 학습 국제 연차 회의의 진행 상황 (p. 137–144).
  28. ^ Chen, J., Liu, J., & Ye, J. (2010).여러 태스크에서 일관성이 없는 스파스 및 낮은 순위 패턴을 학습합니다.지식 발견 및 데이터 마이닝에 관한 제16회 ACM SIGKDD 국제회의의 진행(1179–1188)
  29. ^ Jacob, L., Bach, F. 및 Vert, J. (2008).클러스터화된 멀티태스킹 학습: 볼록한 공식.신경정보처리시스템의 발전 © 2008
  30. ^ Zhou, J., Chen, J., & Ye, J. (2011년)교대 구조 최적화를 통한 클러스터화된 멀티태스킹 학습신경 정보 처리 시스템의 발전.

외부 링크

소프트웨어