교차 엔트로피

Cross entropy

정보 이론에서, 집합에 사용되는 부호화 방식이 추정된 확률 분포에 최적화되어 있는 경우, 동일한 기본 이벤트 세트에 대한 두 확률 p pq\q 사이의 교차 엔트로피는 집합에서 도출된 이벤트를 식별하기 위해 필요한 평균 비트 수를 측정한다. p가 아닌 nq

정의.

특정 세트의 분포대한 q\displaystyle q\displaystylep의 교차 엔트로피는 다음과 같이 정의됩니다.

( ,q ) - p [ H ( , q )= - \{ } { } [ \ q]

서 Ep []는 분포 p에 대한 기대치 연산자입니다.

정의는 Kullback-Leibler L p {KLqp p q\}에서로의 display p\ stylel stylel q} 상대 엔트로피로 표현됩니다.

서 H { H p{ p의 엔트로피입니다.

확률 p 및 q\displaystyleq의 X\displaystyle\ 다음을 의미합니다.

(제1호)

연속 분포의 상황은 유사합니다.p p q\q는 일부 참조 r r rr은 보렐 θ-대수르베게 측도)에 대해 절대적으로 연속적이라고 가정해야 합니다. P 및 Q(\Q)를 r r에 대한 p p qq)의 확률 밀도 함수라고 .

그렇기 때문에

(제2호)

NB: H( , H ( , ){ p}q{ q 엔트로피에도 사용됩니다.

동기

정보이론에서크래프트-맥밀란 정리는 코드화하기 위한 직접디코딩 암묵적 으로 을 확립한다q ( i ) ( ) ii q ( x { ) }frac }}\right}{ x1,…, n { \ldotsn \ displaystyle {}는 비트의 길이입니다.따라서 데이터가 실제로 p\ p pdisplaystyle p\displaystyle p\ 아닌 확률 분포 p\ pdisplaystyle p에 대한 기대를 갖는 것은 데이터당 메시지 길이message-length로 해석할 수 있다.q 실제로 실제 분포 p에서 예상되는 메시지 길이는

견적

교차 엔트로피를 측정해야 하는 상황은 많지만 알 수 없습니다를 들어 언어 모델링은 교육 T T를 기반으로 모델을 만든 다음 테스트 세트에서 교차 엔트로피를 측정하여 모델이 테스트 데이터를 얼마나 정확하게 예측하는지 평가합니다.이 예에서 p는 말뭉치 내의 단어들의 진정한 이고q\q는 모델에 의해 예측된 단어들의 분포입니다.실제 분포를 알 수 없기 때문에 교차 엔트로피를 직접 계산할 수 없습니다.이러한 경우 교차 엔트로피의 추정치는 다음 공식을 사용하여 계산됩니다.

N(\ N 테스트 세트의 이고q( {q( 교육 세트로부터 된 이벤트x(\ x의 확률입니다.즉,q ( i) { q ( _ { } )는 텍스트의 i번째 단어가 x 확률 추정치입니다.합계는 테스트의N개 단어(\ N 걸쳐 평균됩니다.이것은 진정한 교차 엔트로피의 몬테 카를로 추정치이며, 여기서 테스트 세트는 p() { p[citation needed]의 샘플로 취급됩니다.

최대우도와의 관계

분류 문제에서 우리는 다른 결과의 확률을 추정하려고 한다.i의 추정 확률( )({}(X= i 매개변수(\})로 하고 교육 집합에서 i의 빈도(\i를 p로 합니다교육 세트에 N개의 조건부 독립 샘플이 있을 경우, 교육 세트에 ( X )의 ( \ \( X )의 가능성은 다음과 같습니다.

따라서 로그 우도를 N N으로 나눈 값은

파라미터 대한 우도를 최대화하는 것은 교차 루트를 최소화하는 것과 같습니다.

교차 엔트로피 최소화

교차 엔트로피 최소화는 최적화 및 희귀 사건 확률 추정에 자주 사용됩니다. 기준 pp\displaystyle pdisplaystyle p교차값과 KL 발산값은 가산 상수와 동일합니다(p p 되어 발산인 e0}, 교차 [citation needed]엔트로피인 경우H () \공학 문헌에서는 KL 발산을 최소화하는 원리(컬백의 "최소 식별 정보의 원리")를 종종 최소 교차 엔트로피(MCE) 또는 최소 엔트로피(Minxent)라고 부릅니다.

단, Kullback-Leibler divergence 기사에서 설명한 바와 같이 q(\가 고정 사전 참조 분포인 경우가 분포(\ p 가능한 한q(\q)에 가깝게 최적화되어 있습니다.이 경우 두 최소화는 동일하지 않다.이로 인해 일부 저자는 크로스 엔트로피를 H,)가 아닌 Lq)(\{KLq로 재정의함으로써 모순을 해결하려고 시도하고 있습니다.

교차 엔트로피 손실 함수 및 로지스틱 회귀 분석

교차 엔트로피는 기계 학습최적화에서 손실 함수를 정의하는 데 사용할 수 있습니다.실제 })가 실제 라벨이고 지정된 현재 모델의 예측값입니다.는 로그 손실(또는[1] 로그 손실 또는 로지스틱 손실)[2]이라고도 하며, "로그 손실"과 "교차 엔트로피 손실"이라는 용어가 서로 [3]호환되게 사용됩니다.

보다 구체적으로 관측치를 두 가지 가능한 클래스(종종 01)로 분류하는 데 사용할 수 있는 이진 회귀 모델을 고려합니다.입력 x {\x의 벡터가 주어진 특정 관측치에 대한 모델의 출력은 관측치를 분류하기 위한 기초가 되는 확률로 해석될 수 있습니다.로지스틱 회귀 분석에서 확률은 로지스틱 g ( ) / ( + -) { g) =/ ( 1 + 사용하여 모델링됩니다. z {z}는 일반적으로 선형 인 입력 x {\x의 일부 함수입니다. y y 확률은 다음과 같습니다.

여기서 무게 w 경사 강하와 같은 적절한 알고리즘을 통해 최적화된다.마찬가지로 출력 y 찾을 수 있는 보완 확률은 다음과 같습니다.

p { , - { p \ { y , -y\ { \ \ { \ { y} , 1 - { \ { } q q q,,, ,,,,,,,ropyropyropy, ,,,,,,,,,,,ropyropystylestylestylestylestyle

로지스틱 회귀 분석은 일반적으로 학습된 모든 관측치에 대해 로그 손실을 최적화하며, 이는 표본의 평균 교차 엔트로피를 최적화하는 것과 같습니다.예를 들어, 각 샘플이 n , {\ n으로 색인화된의 { N 이 있다고 가정합니다. 손실 함수의 평균은 다음과 같습니다.

서 y^ ( w ) / ( + - )\ g ( \ \ \{ { n } / ( + { - \ { ) _\{ } ) 、

로지스틱 손실은 교차 엔트로피 손실이라고도 합니다.로그 손실이라고도 합니다(이 경우 이진 레이블은 종종 {-1,+1}[4]로 표시됩니다).

비고: 로지스틱 회귀 분석의 교차 엔트로피 손실의 기울기는 선형 회귀 분석의 오차 손실 제곱의 기울기와 동일합니다.즉, 다음과 같이 정의합니다.

그럼 결과가 나왔군

그 증거는 다음과 같습니다.표시 i에 대해

비슷한 방법으로 우리는 결국 원하는 결과를 얻을 수 있다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ 정보 부호화, 추출분배의 수학, 조지 시벤코, Dianne P.O'Leary, Jorma Rissanen, 1999, 페이지 82
  2. ^ 기계 학습 확률: 불확실성을 활용하는 방법 알아보기 Python, Jason Brownlee, 2019, 페이지 220: "로지스틱 손실은 로지스틱 회귀 모델을 최적화하는 데 일반적으로 사용되는 손실 함수를 말합니다.로그 손실(혼란) 또는 단순 로그 손실이라고도 합니다."
  3. ^ sklearn.disc.log_loss
  4. ^ Murphy, Kevin (2012). Machine Learning: A Probabilistic Perspective. MIT. ISBN 978-0262018029.

외부 링크