생성 모델
Generative model통계 분류에서, 두 가지 주요 접근방식을 생성 접근법과 차별 접근법이라고 한다.이들은 통계 모델링의 정도에 따라 다른 접근법에 의해 분류자를 계산한다.용어는 일관성이 없지만 [a]Jebara(2004)에 이어 세 가지 주요 유형을 구분할 수 있습니다.
- 생성 모형은 주어진 관측 변수 X와 목표 변수 [1]Y에 대한 공동 분포P의 통계 모형이다.
- 차별적 모델은 관측치 x가 주어졌을 때 대상 Y의 확률Px x )(\ P)}의 모델이다.
- 확률 모델을 사용하지 않고 계산된 분류기는 "차별적"이라고도 합니다.
지난 두 수업 시간 사이의 구별은 지속적으로;[2]Jebara(2004년)생성 학습, 조건부 교육, 차별적인 학습,지만 응 씨 및 이 세개의 수업을 포함하거나 요르단만, 그들 생성 classifiers이고 차별적인 classifiers(조건(결합 분포)전화 두 클래스를 구별하(2002년)하지 않다.알 dist리브레이션 또는 비분포), 후자의 [3]두 클래스를 구분하지 않습니다.마찬가지로, 생성 모델에 근거한 분류자는 생성 분류자이며, 차별 모델에 근거한 분류자는 차별 분류자이지만, 이 용어는 모델에 근거하지 않는 분류자를 가리키기도 한다.
다음은 모두 선형 분류자이며, 각 분류자의 표준 예입니다.
분류에 적용할 때는 관측치 x에서 레이블 y(또는 레이블의 확률 분포)로 이동하려고 합니다.확률분포(분포 없는 분류기)를 사용하지 않고 직접 계산할 수 있으며, P X 표시형 P X )}(비교적 모델)와 그에 따른 기저분포 Y 를 추정할 수 있다. P생성 모델)에서 조건부 P X )(\ P X를 계산한 다음 이를 기준으로 분류한다.이것들은 점점 간접적이지만 점점 더 확률적이기 때문에 더 많은 영역 지식과 확률론을 적용할 수 있다.실제로는 특정 문제에 따라 다른 접근방식이 사용되며 하이브리드는 여러 접근방식의 장점을 결합할 수 있습니다.
정의.
대체 부문은 대칭적으로 다음과 같이 정의한다.
- 생성 모형은 대상 (y y {\ P Y가 주어졌을 때 관측 가능한 X의 조건부 확률 모형이다.
- 차별적 모델은 관측치 xx x) { X가 주어졌을 때 대상 Y의 조건부 확률 모델이다.
때문에 생식 모델(결과)무작위 인스턴스"를"는 데 사용할 수 있든 간에 정확한 정의의 용어는, 모드도 관찰 및 표적(), y){\displaystyle(x, y)}, 또는 관찰 xy,[4]대상 값을 제공의는 차별적인 모델이나 차별적인 선형 분급기(없이 헌법이다.l=관측치 [5]x가 주어진 경우 목표 변수 Y의 값을 "구별"하는 데 사용할 수 있습니다.「차별」(구분)과 「분류」의 차이는 미묘하고, 일관되게 구별되지 않는다(「차별」이 「분류」에 상당하는 경우에는 「차별적 분류」가 다항식이 된다).
"생성 모델"이라는 용어는 입력 변수의 잠재적 표본에 대한 확률 분포와 명확한 관계가 없는 방식으로 출력 변수의 인스턴스를 생성하는 모델을 설명하는 데에도 사용됩니다.생성적 적대 네트워크는 이러한 종류의 생성 모델의 예이며, 주로 잠재적 입력에 대한 특정 산출물의 유사성에 의해 판단된다.이러한 모델은 분류자가 아닙니다.
모델 간의 관계
분류에 적용할 때, 관측 가능한 X는 연속형 변수이고, 대상 Y는 일반적으로 유한한 라벨 세트로 구성된 이산형 변수이며, 조건부 P는 () 목표 F : 로 해석할 수 있다.를 입력,를 출력으로 간주하여 X\Y
유한한 레이블 집합이 주어지면, "생성 모델"의 두 정의는 밀접하게 관련되어 있습니다.조건부 P Y 의 모형은 각 라벨의 분포 모형이며, 공동 분포의 모형은 라벨 값 의 분포 모형과 동일한 값 P의 분포 모형과 동일한 값이다.) { P Y} ; 으로 P, (Y . {) Y)) } ability }} } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } }인정합니다.
접합 분포의 P( X,Y ) { ( ,Y ) ( , y) { P ( X ) = \ _ y }Y ( X , Y ) = { P ( X , ) = } Y ( Y ) } Y } Y } Y } Y Y } Y } } } } } the the the the the the the the the the the the the the the 링 X는 연속형이며, 따라서 그 위에 통합되며, Y는 이산형이며, 두 조건 분포는 조건부 확률의 정의에서 할 수 있습니다. P( ) ( , ) ( Y ) \ P ( \ Y ) = P ( ) = P ( X / Y )=X
하나의 조건부 확률의 모형과 변수 X와 Y의 추정 확률 분포P ( {P( P ( { P가 주어진다면, Bayes 규칙을 사용하여 반대 조건부 확률을 추정할 수 있다.
를 들어 P( XY) { P Y의 생성 모델을 지정하면 다음과 같이 추정할 수 있습니다.
P( ) { P X의 차별적 모델을 지정하면 다음과 같이 추정할 수 있습니다.
Bayes의 규칙(다른 한 조건 확률 계산)과 조건부 확률(공동 분포의 조건 확률 계산)의 정의도 자주 통합된다.
차별적 분류자와의 대조
생성 알고리즘은 신호를 분류하기 위해 데이터가 어떻게 생성되었는지 모델링합니다.이 질문에는 다음과 같은 질문이 있습니다.내 세대의 가정에 따르면 이 신호가 가장 많이 발생하는 카테고리는 무엇입니까?차별 알고리즘은 데이터가 생성된 방식에 관계없이 주어진 신호를 분류할 뿐입니다.따라서 식별 알고리즘은 데이터에서 직접 px p x)\displaystyle p(y x를 한 후 데이터를 분류하려고 합니다.한편, 생성 알고리즘에서는 p { p)}를 학습하려고 합니다.이 p x { px)}로 변환하여 데이터를 분류할 수 있습니다.생성 알고리즘의 장점 중 하나는 p,) { p를 하여 기존 데이터와 유사한 새 데이터를 생성할 수 있다는 것입니다.한편, 분류 [6]작업에서 일부 차별 알고리즘이 일부 생성 알고리즘보다 더 나은 성능을 제공한다는 것이 입증되었다.
차별적 모형은 관측 변수의 분포를 모형화할 필요가 없음에도 불구하고 일반적으로 관측 변수와 목표 변수 간의 복잡한 관계를 표현할 수 없습니다.그러나 일반적으로 분류 및 회귀 작업에서 생성 모델보다 성능이 더 뛰어나다고는 할 수 없습니다.두 클래스는 동일한 [7]절차의 보완적 또는 다른 관점으로 간주됩니다.
심층 생성 모델
딥러닝의 발흥과 함께, DGM(Deep Generative Models)[8][9]이라고 불리는 새로운 방법군이 생성 모델과 심층 신경망의 조합을 통해 형성되었다.뉴럴 네트워크의 규모 증가는 일반적으로 훈련 데이터의 규모 증가를 동반하며, 이 두 가지 모두 좋은 [10]성과를 위해 필요하다.
일반적인 DGM에는 Variational Auto Encoder(VAE; 바리에이션오토 인코더), Generative Adversarial Network(GAN; 생성적 적대 네트워크) 및 Auto-Regressive 모델이 있습니다.최근에는 매우 큰 딥 제너레이션 [8]모델을 구축하는 경향이 있습니다.예를 들어 GPT-3 및 그 전구체 GPT-2는 [11]수십억 개의 파라미터를 포함하는 자동 퇴행 신경 언어 모델이며[12], BigGAN과 VQ-VAE는[13] 수억 개의 파라미터를 가질 수 있는 이미지 생성에 사용되며, Jukebox는 수십억 [14]개의 파라미터를 포함하는 음악 오디오의 매우 큰 생성 모델입니다.
종류들
생성 모델
생성 모델의 유형은 다음과 같습니다.
- 가우스 혼합물 모형(및 기타 혼합물 모형 유형)
- 숨은 마르코프 모형
- 확률론적 문맥 자유 문법
- 베이지안 네트워크(예: Naigive Bayes, 자기 회귀 모델)
- 평균 1의존성 추정치
- 잠재 디리클레 할당
- Boltzmann 기계(예: 제한된 Boltzmann 기계, Deep Belief Network)
- 가변 자동 인코더
- 생성적 적대 네트워크
- 흐름 기반 생성 모델
- 에너지 기반 모델
- 확산 모델
관측된 데이터가 생성 모형에서 실제로 추출된 경우 생성 모형의 모수를 적합시켜 데이터 우도를 최대화하는 것이 일반적인 방법입니다.그러나, 대부분의 통계 모델은 실제 분포에 대한 근사치일 뿐이므로, 모형의 적용이 다른 사람의 알려진 값에 따라 조건부로 변수의 하위 집합을 추론하는 것이라면, 근사치는 당면한 문제를 해결하는 데 필요한 것보다 더 많은 가정을 만든다고 주장할 수 있다.이러한 경우, 애플리케이션 고유의 세부 사항이 궁극적으로 어떤 특정한 경우에 가장 적합한 접근방식을 결정하지만, 조건부 밀도 함수를 직접 모델링하는 것이 더 정확할 수 있습니다(아래 참조).
차별적 모델
예
간단한 예
입력 데이터가 {, { { x \ \ { 1, 2\、x {\ x of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of 、 0 , 。( , \ y \ \ 1 , 1 ) 0 , 1 ) 。
위의 데이터의 경우 경험적 측정에서 결합 확률 p ( ,) { p)}를 추정하면 다음과 같습니다.
x ){ p x는 다음과 같습니다.
텍스트 생성
Shannon(1948)은 영어 단어 쌍의 빈도 표를 사용하여 "representing and speedly is good"로 시작하는 문장을 생성하는 예를 들어 적절한 영어는 아니지만 표가 단어 쌍에서 단어 세 개 등으로 이동함에 따라 점점 더 근사하게 될 것이다.
「 」를 참조해 주세요.
메모들
레퍼런스
- ^ Ng & Jordan (2002) :"생성 분류기는 입력 x와 라벨 y의 결합 확률 p (,y ){ p ( , displaystyle p ( x , y )}를 학습하고 Bayes 규칙을 사용하여 ( y x){ p \ x 를 하여 가장 가능성이 높은 라벨 y를 선택합니다.
- ^ Jebara 2004, 2.4 Differential Learning: "조건부 학습과 차별적 학습의 이러한 구분은 현재 해당 분야에서 잘 확립된 관습이 아닙니다."
- ^ Ng & Jordan 2002: "차별 분류기는 직접 p를 모델링하거나 입력 x에서 클래스 라벨까지의 직접 지도를 학습합니다."
- ^ a b Mitchell 2015: "우리는 다음과 같이 학습 알고리즘(함수 근사치)을 설계하기 위한 기초로서 Bayes 규칙을 사용할 수 있다 {\ X \Y 또는 이에 상당하는 P )}의 데이터를 학습하기 위해 우리는 다음과 같이 할 수 있다. P Y P P 새로운 X 예는 추정 확률 분포와 베이즈 규칙을 사용하여 분류할 수 있습니다.이러한 유형의 분류자는 생성 분류자라고 불립니다.이것은 타겟아트리뷰트 Y에 따라 조정된 랜덤인스턴스 X를 생성하는 방법을 나타내는 P( )(\ Y를 표시할 수 있기 때문입니다.
- ^ a b Mitchell 2015: "로지스틱 회귀는 훈련 데이터를 사용하여 Naigive Bayes와 대조적으로P (X )(\ YX를 직접 하는 함수 근사 알고리즘입니다.이러한 의미에서 로지스틱 회귀는 종종 차별적 분류기( PX)\ P X를 임의의 인스턴스 X에 대한 목표값 Y의 값을 직접 구별하는 것으로 볼 수 있기 때문에 차별적 분류기(distributional classifier)라고 불립니다.
- ^ Ng & Jordan 2002
- ^ Bishop, C. M.; Lasserre, J. (24 September 2007), "Generative or Discriminative? getting the best of both worlds", in Bernardo, J. M. (ed.), Bayesian statistics 8: proceedings of the eighth Valencia International Meeting, June 2-6, 2006, Oxford University Press, pp. 3–23, ISBN 978-0-19-921465-5
- ^ a b "Scaling up—researchers advance large-scale deep generative models". April 9, 2020.
- ^ "Generative Models". OpenAI. June 16, 2016.
- ^ Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Brown, Tom B.; Chess, Benjamin; Child, Rewon; Gray, Scott; Radford, Alec; Wu, Jeffrey; Amodei, Dario (2020). "Scaling Laws for Neural Language Models". arXiv:2001.08361 [stat.ML].
- ^ "Better Language Models and Their Implications". OpenAI. February 14, 2019.
- ^ Brock, Andrew; Donahue, Jeff; Simonyan, Karen (2018). "Large Scale GAN Training for High Fidelity Natural Image Synthesis". arXiv:1809.11096 [cs.LG].
- ^ Razavi, Ali; van den Oord, Aaron; Vinyals, Oriol (2019). "Generating Diverse High-Fidelity Images with VQ-VAE-2". arXiv:1906.00446 [cs.LG].
- ^ "Jukebox". OpenAI. April 30, 2020.
외부 링크
- Shannon, C. E. (1948). "A Mathematical Theory of Communication" (PDF). Bell System Technical Journal. 27 (July, October): 379–423, 623–656. doi:10.1002/j.1538-7305.1948.tb01338.x. hdl:10338.dmlcz/101429.
- Mitchell, Tom M. (2015). "3. Generative and Discriminative Classifiers: Naive Bayes and Logistic Regression" (PDF). Machine Learning.
- Ng, Andrew Y.; Jordan, Michael I. (2002). "On discriminative vs. generative classifiers: A comparison of logistic regression and naive bayes" (PDF). Advances in Neural Information Processing Systems.
- Jebara, Tony (2004). Machine Learning: Discriminative and Generative. The Springer International Series in Engineering and Computer Science. Kluwer Academic (Springer). ISBN 978-1-4020-7647-3.
- Jebara, Tony (2002). Discriminative, generative, and imitative learning (PhD). Massachusetts Institute of Technology. hdl:1721.1/8323., (거울, 거울), 책으로 출판(위)