차별적 모델

조건부 모델이라고도 하는 차별적 모델은 분류나 회귀에 사용되는 물류 모델의 한 종류다.합격/불합격, 승/낙하, 생/사망 또는 건강/염병과 같은 관찰된 데이터를 통해 의사결정 경계를 구분한다.

대표적인 차별적 모델로는 로지스틱 회귀 분석(LR), 조건부 무작위 필드(CRF), 의사결정 트리 등이 있다.일반적인 생성 모델 접근법에는 순진한 베이즈 분류자, 가우스 혼합물 모델, 변동 자동 조정기, 생성 대립 네트워크 등이 포함된다.

정의

공동 확률 $P(x,y)$ , y $P(x,y)$ ) $P(x,y)$ 에서 연구되는 생성 모델링과는 달리 $P(x,y)$ 차별적 $P(y|x)$ 은 P $P(y|x)$ x $P(y|x)$ ) $P(y|x)$ {\ $displaystyle$ P $(y$ x $)}$ 을 연구하거나 $P(y|x)$ 주어진 비 관측 변수(대상) x ${\displaysty x}$ 을 관측 변수에 따라 $y$ 클래스 레이블 $y$ ${\\displaysty y}$ 에 $x$ 매핑한다.(교육용 샘플).예를 들어 개체 인식에서 x $x$ 은(는) 원시 픽셀(또는 이미지의 원시 픽셀에서 추출한 기능)의 벡터일 가능성이 $x$ 높다.확률론적 프레임워크 내에서 $y$ 은 조건부 확률 $P(y|x)$ P $P(y|x)$ ( y $P(y|x)$ ) ${\displaystyle$ P $(y x)}$ 을(를) 모형화함으로써 이루어진다 $P(y|x)$ 이 분포는 $x$ $x$ 에서 $y$ y ${\\displaystyle y}$ 을(를) 예측하는 데 사용할 수 있다 $x$ 더 많기는 하지만 조건부 모델과 차별적 모델 사이에는 여전히 차이가 있다.종종 그것들은 단순히 차별적인 모델로 분류된다.

순수 차별적 모델 대 조건부 모델

조건부 모델은 조건부 확률 분포를 모델링하는 반면, 전통적인 차별 모델은 가장 유사한 훈련된 표본에 대한 입력 매핑을 최적화하는 것을 목표로 한다.^[1]

일반적인 차별적 모델링 접근^[2] 방식

The following approach is based on the assumption that it is given the training data-set $D=\{(x_{i};y_{i}) i\leq N\in \mathbb {Z} \}$ , where $y_{i}$ is the corresponding output for the input $x_{i}$ .

선형분류기

$f(x)$ 는 f $f(x)$ ( $){\displaystyle f(x)}$ 함수를 사용하여 $f(x)$ 선형 분류기 방법에 의한 훈련 데이터 집합에서 관찰한 것의 동작을 시뮬레이션할 생각이다.조인트 피쳐 벡터 $\phi (x,y)$ , $\phi (x,y)$ y $\phi (x,y)$ ) ${\displaystyle \phi(x$ ,y $)}$ 을 $\phi (x,y)$ 를) 사용하여 의사결정 함수는 다음과 같이 정의된다.

f(x,w)=\arg \max _{y}w^{T}\phi(x,y)

Memisevic의 해석에 따르면 ^[2] $w^{T}\phi (x,y)$ $w^{T}\phi (x,y)$ $w^{T}\phi (x,y)$ ( $w^{T}\phi (x,y)$ , y $w^{T}\phi (x,y)$ ) ${\displaystyle w^{$ 또한 $c(x,y;w)$ ( $c(x,y;w)$ , $c(x,y;w)$ ; $c(x,y;w)$ ){\ $displaystyle c(x,y;w)}$ 인 $T}\\phi (x,y$ ;w $c(x,y;w)$ 는 잠재적 $출력$ y $y$ 와 $x$ 함께 입력 $x$ ${\displaystyle$ x $}$ 의 계산 가능성을 측정하는 점수를 계산한다 $y$ 그런 다음 $\arg \max$ g $\arg \max$ $\arg \max$ 이(가) 가장 높은 점수를 가진 클래스를 $\arg \max$ 결정한다.

로지스틱 회귀 분석(LR)

0-1 손실 함수는 의사결정 이론에서 일반적으로 사용되는 것이므로 $w$ $w$ 이 $w$ $($ 가 $P(y|x;w)$ 훈련 데이터 최적화를 위한 매개변수 벡터인 $P(y|x;w)$ 조건부 확률 분포 $y x;w)$ 를 물류 회귀 모델에 대해 다음과 같이 재고할 수 있다.

{\displaystyle P(y x;w)={\frac {1}{Z(x;w)}}\exp(w^{{

T}\phi(x,y)}

,

Z(x;w)=\textstyle \sum _{y}\displaystyle \exp(w^{T}\phi(x,y)

위의 방정식은 로지스틱 회귀 분석을 나타낸다.모델 간의 주요 구별은 후확률을 도입하는 방법이라는 점에 유의하십시오.후방 확률은 파라메트릭 모델에서 유추된다.그러면 다음과 같은 방정식을 통해 파라미터를 최대화할 수 있다.

L(w)=\textstyle \sum _{i}\displaystyle \log p(y^{i} x^{i};w)

또한 다음과 같은 로그 손실 방정식으로 대체될 수 있다.

{\displaystyle l^{i}}(x^{i},y^{i};w)=-\log p(y^{i} x^{i};w)=\log Z(x^{i};w)-w^{{w)-w^{}T}\phi(x^{i},y^{i}}})

로그 손실은 서로 다를 수 있기 때문에 구배 기반 방법을 사용하여 모델을 최적화할 수 있다.객관적 기능이 볼록하기 때문에 글로벌 최적화가 보장된다.로그 우도의 기울기는 다음과 같이 표현된다.

{\frac {\partial L(w)}{\partial w}=\textstyle \sum_{i}\displaysty \pi(x^{i},y^{i})-E_{p(y x^{i};w)\pi(x^{i},y)}}}})

여기서 $E_{p(y|x^{i};w)}$ $E_{p(y|x^{i};w)}$ ( $E_{p(y|x^{i};w)}$ $E_{p(y|x^{i};w)}$ $E_{p(y|x^{i};w)}$ w $E_{p(y|x^{i};w)}$ ) ${\$ 은(는) $p(y|x^{i};w)$ ( y $p(y|x^{i};w)$ $p(y|x^{i};w)$ $){\displaystyle p(y x^{i};w)}$ 의 기대치 입니다 $E_{p(y|x^{i};w)}$ $p(y|x^{i};w)$

위의 방법은 상대적으로 적은 수의 분류에 대해 효율적인 계산을 제공할 것이다.

생성 모델과 대비

접근 방식 대비

Let's say we are given the $m$ class labels (classification) and $n$ feature variables, $Y:\{y_{1},y_{2},\ldots ,y_{m}\},X:\{x_{1},x_{2},\ldots ,x_{n}\}$ , as the training samples.

생성 모델은 접합 확률 $P(x,y)$ , $P(x,y)$ ) $P(x,y)$ 을 취하며 $P(x,y)$ $x$ 서 x $x$ 은 $x$ $y$ 이고 y ${\widetilde {y}}\in Y$ $displaystyle y}$ 은 $y$ 레이블이며 ${\widetilde {y}}\in Y$ 알 수 없는 ${\widetilde {x}}$ x ~ ${\widetilde {x}}$ ${\$ $displaystyle$ ${y}\in Y}$ 에 대해 가장 잘 알려진 ${\widetilde {y}}\in Y$ ${\widetilde {y}}\in Y$ 을 예측한다 $.$ 베이지스의 정리를 이용한 ${\widetilde {x}}$ $일데{x}}.$ ^[3]

생식 모델과 달리 차별적 모델은 관찰된 변수와 목표 변수의 공동 분포로부터 표본을 생성하는 것을 허용하지 않는다.그러나 공동분포를 요구하지 않는 분류와 회귀와 같은 작업의 경우, 차별적 모형은 우수한 성능을 산출할 수 있다(부분적으로는 계산할 변수가 적기 때문이다).^[4]^[5]^[3]한편, 생성 모델은 복잡한 학습 과제에서 의존성을 표현하는 데 있어서 전형적으로 차별적 모델보다 더 유연하다.또한 대부분의 차별적 모델은 본질적으로 감독을 받으며 감독되지 않은 학습을 쉽게 지원할 수 없다.응용 프로그램별 세부사항은 궁극적으로 차별적 대 생성적 모델 선택의 적합성을 결정한다.

차별적 모델과 생성적 모델도 후방 가능성을 도입하는 데 차이가 있다.^[6]최소 예상 손실을 유지하기 위해서는 결과의 오분류를 최소화해야 한다.차별 모델에서, 후 확률 P $P(y|x)$ ( $P(y|x)$ $P(y|x)$ ) $P(y x)$ 은 $P(y|x)$ 파라메트릭 모델에서 유추되며, 여기서 파라미터는 훈련 데이터에서 나온다.모수에 대한 추정 지점은 모수에 대한 우도의 최대화 또는 분포 계산에서 얻는다.한편, 생성모델이 관절확률에 초점을 맞춘다는 점을 고려했을 때, Bayes의 정리에서는 클래스 후위 가능성 $P(k)$ ( $P(k)$ $){\displaystyle P(k)}$ 가 고려되고 $P(k)$ 있는데, 이는 다음과 같다.

P(y x)={\frac {p(x y)p(y)}{\textstyle \sum _{i}p(x i)p(i)\displaystyle }}={\frac {p(x y)p(y)}{p(x)}}

.^[6]

적용의 장단점

반복되는 실험에서, 로지스틱 회귀와 순진한 베이지스는 이항 분류 과제에 대해 다양한 모델에 적용되며, 차별적 학습은 낮은 점증 오차를 야기하는 반면, 생성적인 학습은 높은 점증 오차를 더 빨리 발생시킨다.^[3]그러나 Ulusoy와 Bishop의 공동 연구인 개체 감지 및 분류를 위한 생성 및 차별 기법의 비교에서는 모델이 데이터에 적합한 모델일 때만(즉, 데이터 분포가 생성 모델에 의해 올바르게 모델링됨) 위의 문장이 참이라고 기술하고 있다.

이점

차별적 모델링을 사용할 경우의 주요 이점은 다음과 같다.

정확도가 높으면 대부분 더 나은 학습 결과를 얻는다.
입력의 단순화를 허용하고 $P(y|x)$ $P(y|x)$ ) ${\displaystyle P(y$ x $)}$ 에 직접 접근 제공
계산 리소스 저장
낮은 점근 오류 생성

생성 모델링 사용의 장점과 비교:

모든 데이터를 고려하므로 처리 속도가 느려질 수 있음
필요한 교육 샘플 수 감소
응용프로그램의 다른 요구에 쉽게 협력할 수 있는 유연한 프레임워크

단점들

교육 방법에는 일반적으로 여러 가지 수치 최적화 기법이^[1] 필요하다.
마찬가지로 정의에 따라, 차별적 모델은 복잡한 실제 문제를^[2] 해결하기 위해 여러 하위 작업의 조합을 필요로 할 것이다.

애플리케이션 최적화

두 가지 모델링 방법에는 장점과 단점이 모두 존재하므로, 두 접근법을 결합하는 것이 실무에서 좋은 모델링이 될 것이다.예를 들어, Marras의 기사 A 기형 모델 구축 및 분류를 위한 공동 차별 생성 모델에서 그와 그의 공동 저자는 모델의 얼굴 분류에 두 모델의 조합을 적용하고, 전통적인 접근법보다 높은 정확도를 받는다.^[7]

마찬가지로 켈름 교수는 자신의^[8] 글에서 픽셀 분류를 위한 두 가지 모델링을 복합 조건 학습과 픽셀 분류를 위한 생성 및 차별적 방법의 결합을 제안하기도 했다.

클러스터링에 앞서 차별적 특징을 추출하는 과정 동안, 주성분 분석(PCA)은 일반적으로 사용되지만 반드시 차별적 접근방식은 아니다.반면에,^[9] LDA는 차별적인 것이다.선형 판별 분석(LDA)은 위에 열거한 단점을 제거하는 효율적인 방법을 제공한다.우리가 알고 있는 바와 같이, 차별적 모델은 분류 전에 복수의 하위 작업 조합이 필요하며, LDA는 차원을 줄임으로써 이 문제에 대한 적절한 해결책을 제공한다.

베이얼린의 논문인 차별적 모델 조합에서 차별적 모델 조합은 자동 음성 인식에 새로운 접근방식을 제공한다.^[10]그것은 다양한 종류의 모델을 하나의 로그-선형 후방 확률 분포로 통합하는 것을 최적화하는 데 도움이 될 뿐만 아니라,이 조합은 또한 훈련 표본의 경험적 단어 오류율을 최소화하는 것을 목적으로 한다.

기사에서,^[11] Guo와 그의 파트너들은 선형 분류기를 사용한 질의 교정에 통일된 차별 모델을 사용하며, 훨씬 높은 정확도를 성공적으로 얻었다.이들이 설계한 실험에서는 생성 모델을 통일 모델과 비교하는 것으로도 간주한다.실제 적용에서 예상한 대로, 생성 모델은 개선되지 않은 모델을 포함하여 다른 모델에 비해 가장 낮은 성능을 발휘한다.

종류들

차별적 모델의 예는 다음과 같다.

로지스틱 회귀 분석, 이항 또는 범주형 출력을 예측하는 데 사용되는 일반화된 선형 회귀 분석의 유형(최대 엔트로피 분류자라고도 함)
부스팅(메타알고리즘)
조건부 랜덤 필드
선형 회귀 분석
랜덤 포리스트

참고 항목

생성 모델

참조

^ ^a ^b Ballesteros, Miguel. "Discriminative Models" (PDF). Retrieved October 28, 2018.^{[영구적 데드링크]}
^ ^a ^b ^c Memisevic, Roland (December 21, 2006). "An introduction to structured discriminative learning". Retrieved October 29, 2018.
^ ^a ^b ^c Ng, Andrew Y.; Jordan, Michael I. (2001). On Discriminative vs. Generative classifiers: A comparison of logistic regression and naive Bayes.
^ Singla, Parag; Domingos, Pedro (2005). "Discriminative Training of Markov Logic Networks". Proceedings of the 20th National Conference on Artificial Intelligence - Volume 2. AAAI'05. Pittsburgh, Pennsylvania: AAAI Press: 868–873. ISBN 978-1577352365.
^ J. 라퍼티, A. 맥컬럼, F.페레이라조건부 랜덤 필드: 세그먼트화 및 레이블링 시퀀스 데이터에 대한 확률론적 모형.2001년 ICML에서.
^ ^a ^b Ulusoy, Ilkay (May 2016). "Comparison of Generative and Discriminative Techniques for Object Detection and Classification" (PDF). Microsoft. Retrieved October 30, 2018.
^ Marras, Ioannis (2017). "A Joint Discriminative Generative Model for Deformable Model Construction and Classification" (PDF). Retrieved 5 November 2018.
^ Kelm, B. Michael. "Combining Generative and Discriminative Methods for Pixel Classification with Multi-Conditional Learning" (PDF). Retrieved 5 November 2018.
^ Wang, Zhangyang (2015). "A Joint Optimization Framework of Sparse Coding and Discriminative Clustering" (PDF). Retrieved 5 November 2018.
^ Beyerlein, Peter (1998). "DISCRIMINATIVE MODEL COMBINATION": 481–484. CiteSeerX 10.1.1.454.9567. {{cite journal}}:Cite 저널은 필요로 한다. journal=(도움말)
^ Guo, Jiafeng. "A Unified and Discriminative Model for Query Refinement". {{cite journal}}:Cite 저널은 필요로 한다. journal=(도움말)

[:0-1] Ballesteros, Miguel. "Discriminative Models" (PDF). Retrieved October 28, 2018.^{[영구적 데드링크]}

[:1-2] Memisevic, Roland (December 21, 2006). "An introduction to structured discriminative learning". Retrieved October 29, 2018.

[:2-3] Ng, Andrew Y.; Jordan, Michael I. (2001). On Discriminative vs. Generative classifiers: A comparison of logistic regression and naive Bayes.

[4] Singla, Parag; Domingos, Pedro (2005). "Discriminative Training of Markov Logic Networks". Proceedings of the 20th National Conference on Artificial Intelligence - Volume 2. AAAI'05. Pittsburgh, Pennsylvania: AAAI Press: 868–873. ISBN 978-1577352365.

[5] J. 라퍼티, A. 맥컬럼, F.페레이라조건부 랜덤 필드: 세그먼트화 및 레이블링 시퀀스 데이터에 대한 확률론적 모형.2001년 ICML에서.

[:3-6] Ulusoy, Ilkay (May 2016). "Comparison of Generative and Discriminative Techniques for Object Detection and Classification" (PDF). Microsoft. Retrieved October 30, 2018.

[7] Marras, Ioannis (2017). "A Joint Discriminative Generative Model for Deformable Model Construction and Classification" (PDF). Retrieved 5 November 2018.

[8] Kelm, B. Michael. "Combining Generative and Discriminative Methods for Pixel Classification with Multi-Conditional Learning" (PDF). Retrieved 5 November 2018.

[9] Wang, Zhangyang (2015). "A Joint Optimization Framework of Sparse Coding and Discriminative Clustering" (PDF). Retrieved 5 November 2018.

[10] Beyerlein, Peter (1998). "DISCRIMINATIVE MODEL COMBINATION": 481–484. CiteSeerX 10.1.1.454.9567. {{cite journal}}:Cite 저널은 필요로 한다. journal=(도움말)

[11] Guo, Jiafeng. "A Unified and Discriminative Model for Query Refinement". {{cite journal}}:Cite 저널은 필요로 한다. journal=(도움말)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

Search

차별적 모델

네임스페이스

더

목차

정의

순수 차별적 모델 대 조건부 모델

일반적인 차별적 모델링 접근^[2] 방식

선형분류기

로지스틱 회귀 분석(LR)

생성 모델과 대비

접근 방식 대비

적용의 장단점

이점

단점들

애플리케이션 최적화

종류들

참고 항목

참조

Search

차별적 모델

정의

순수 차별적 모델 대 조건부 모델

일반적인 차별적 모델링 접근[2] 방식

선형분류기

로지스틱 회귀 분석(LR)

생성 모델과 대비

접근 방식 대비

적용의 장단점

이점

단점들

애플리케이션 최적화

종류들

참고 항목

참조

일반적인 차별적 모델링 접근^[2] 방식