정보 이론에서, 집합에 사용되는 부호화 방식이 추정된 확률 분포에 최적화되어 있는 경우, 동일한 기본 이벤트 세트에 대한 두 확률 p p와
q\q 사이의
교차 엔트로피는 집합에서 도출된 이벤트를 식별하기 위해 필요한 평균 비트 수를 측정한다. p가 아닌 nq![q](https://wikimedia.org/api/rest_v1/media/math/render/svg/06809d64fa7c817ffc7e323f85997f783dbdf71d)
![p](https://wikimedia.org/api/rest_v1/media/math/render/svg/81eac1e205430d1f40810df36a0edffdc367af36)
정의.
특정 세트의 분포에대한 q\displaystyle
q\displaystyle
p의 교차 엔트로피는 다음과 같이 정의됩니다.
- ( ,q ) - p [ H ( , q )= - \{ } { } [ \ q]
、
서 Ep []는 분포
p
에 대한 기대치 연산자입니다.
이 정의는 Kullback-Leibler L p {KLq
p p의
q\}
에서로의 display p\ stylel stylel q}
의
상대 엔트로피로 표현됩니다.
![{\displaystyle H(p,q)=H(p)+D_{\mathrm {KL} }(p\parallel q),}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a65abe2412b6d51037923018665417e34b5dfbe0)
서 H { H는
p{ p
의 엔트로피입니다.
확률 p
\displaystyle 및 q\displaystyle
q의 X\displaystyle\는
다음을 의미합니다.
![{\displaystyle H(p,q)=-\sum _{x\in {\mathcal {X}}}p(x)\,\log q(x)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c6b895514e10a3ce88773852cba1cb1e248ed763) | | (제1호) |
연속 분포의 상황은 유사합니다.p p
q\q는
일부 참조 r r
rr은
보렐 θ-대수의 르베게 측도)에 대해 절대적으로 연속적이라고 가정해야 합니다. P
및 Q(\Q)를 r
r
에 대한 p p
qq)의
확률 밀도 함수라고 .
![{\displaystyle -\int _{\mathcal {X}}P(x)\,\log Q(x)\,dr(x)=\operatorname {E} _{p}[-\log Q]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/5f76631e4d31793fd2d2b3bb42796166b04fa4b2)
그렇기 때문에
![{\displaystyle H(p,q)=-\int _{\mathcal {X}}P(x)\,\log Q(x)\,dr(x)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c96018b6306901426015782f04705e4549590c55) | | (제2호) |
NB: H( , H ( , ){ p}
q{ q
의
엔트로피에도 사용됩니다.
동기
정보이론에서크래프트-맥밀란 정리는 를
코드화하기 위한 직접디코딩 한 암묵적
을 으로 수 을 확립한다q ( i ) ( ) ii q ( x { ) }frac }}\right
}{ x1,…, n { \ldotsn
。서 \ displaystyle {![\ell_i](https://wikimedia.org/api/rest_v1/media/math/render/svg/bc03cf8f5f3927c6693a9ac9677685b08b29c106)
}는 비트의 길이입니다.따라서 데이터가 실제로 p\ p p
displaystyle p\displaystyle p\가
아닌 확률
분포 p\ pdisplaystyle p에 대한 기대를 갖는 것은 데이터당 메시지 길이message-length로 해석할 수 있다.q
실제로 실제 분포 p에서
예상되는 메시지 길이는
![{\displaystyle \operatorname {E} _{p}[\ell ]=-\operatorname {E} _{p}\left[{\frac {\ln {q(x)}}{\ln(2)}}\right]=-\operatorname {E} _{p}\left[\log _{2}{q(x)}\right]=-\sum _{x_{i}}p(x_{i})\,\log _{2}q(x_{i})=-\sum _{x}p(x)\,\log _{2}q(x)=H(p,q).}](https://wikimedia.org/api/rest_v1/media/math/render/svg/3f5427081785e1c503a5e3c49969c38d8d90c21a)
견적
교차 엔트로피를 측정해야 하는 상황은 많지만의 는
알 수 없습니다예를 들어 언어 모델링은 교육 T T
를 기반으로 모델을 만든 다음 테스트 세트에서 교차 엔트로피를 측정하여 모델이 테스트 데이터를 얼마나 정확하게 예측하는지 평가합니다.이 예에서 p는
말뭉치 내의 단어들의 진정한 이고q\q는 모델에
의해 예측된 단어들의 분포입니다.실제 분포를 알 수 없기 때문에 교차 엔트로피를 직접 계산할 수 없습니다.이러한 경우 교차 엔트로피의 추정치는 다음 공식을 사용하여 계산됩니다.
![H(T,q)=-\sum _{{i=1}}^{N}{\frac {1}{N}}\log _{2}q(x_{i})](https://wikimedia.org/api/rest_v1/media/math/render/svg/bb11eae1b2b1120c2bcccf741a51c2511c0cbffe)
서N(\ N은
테스트 세트의 이고q( {q(는
교육 세트로부터 된 이벤트x(\ x
의 확률입니다.즉,q ( i) { q ( _ {
} )는
텍스트의 i번째 단어가 x 확률 추정치입니다.합계는 테스트의N개 단어(\ N에
걸쳐 평균됩니다.이것은 진정한 교차 엔트로피의 몬테 카를로 추정치이며, 여기서 테스트 세트는 p() { p
[citation needed]의 샘플로 취급됩니다.
최대우도와의 관계
분류 문제에서 우리는 다른 결과의 확률을 추정하려고 한다.i의
추정 확률( )({}(X= i을
매개변수(\})로
하고 교육 집합에서 i의
빈도(\i를 p로 합니다교육 세트에 N개의 조건부 독립 샘플이 있을 경우, 교육 세트에 ( X )의 ( \ \( X )의![\theta](https://wikimedia.org/api/rest_v1/media/math/render/svg/6e5ab2664b422d53eb0c7df3b87e1360d75ad9af)
가능성은 다음과 같습니다.
![{\displaystyle {\mathcal {L}}(\theta )=\prod _{i\in X}({\mbox{est. probability of }}i)^{{\mbox{number of occurrences of }}i}=\prod _{i}q_{\theta }(X=i)^{Np(X=i)}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d452937ed5a5bdfdac361ad273d0c55868f0cdd3)
따라서 로그 우도를 N N으로
나눈 값은
![{\displaystyle {\frac {1}{N}}\log({\mathcal {L}}(\theta ))={\frac {1}{N}}\log \prod _{i}q_{\theta }(X=i)^{Np(X=i)}=\sum _{i}p(X=i)\log q_{\theta }(X=i)=-H(p,q)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/9601b9fef9a3e4c9bb43553b1b3a1d523c0f3dfa)
파라미터 에
대한 우도를 최대화하는 것은 교차 루트를 최소화하는 것과 같습니다.
교차 엔트로피 최소화
교차 엔트로피 최소화는 최적화 및 희귀 사건 확률 추정에 자주 사용됩니다.와 기준
pp\displaystyle p
displaystyle p때 교차값과 KL 발산값은 가산 상수와 동일합니다(p p
는
되어 발산인 e0
}, 교차 [citation needed]엔트로피인 경우H () \
공학 문헌에서는 KL 발산을 최소화하는 원리(컬백의 "최소 식별 정보의 원리")를 종종 최소 교차 엔트로피(MCE) 또는 최소 엔트로피(Minxent)라고 부릅니다.
단, Kullback-Leibler divergence 기사에서 설명한 바와 같이 q(\
가 고정 사전 참조 분포인 경우가 분포(\ p는
가능한 한q(\q)에
가깝게 최적화되어 있습니다.이 경우 두 최소화는 동일하지 않다.이로 인해 일부 저자는 크로스 엔트로피를 H,)가 아닌 Lq)(\{KL
q
로 재정의함으로써 모순을 해결하려고 시도하고 있습니다.
교차 엔트로피 손실 함수 및 로지스틱 회귀 분석
교차 엔트로피는 기계 학습 및 최적화에서 손실 함수를 정의하는 데 사용할 수 있습니다.실제 })가
실제 라벨이고 지정된 가
현재 모델의 예측값입니다.이는 로그 손실(또는[1] 로그 손실 또는 로지스틱 손실)[2]이라고도 하며, "로그 손실"과 "교차 엔트로피 손실"이라는 용어가 서로 [3]호환되게 사용됩니다.
보다 구체적으로 관측치를 두 가지 가능한 클래스(종종 0![1](https://wikimedia.org/api/rest_v1/media/math/render/svg/92d98b82a3778f043108d4e20960a9193df57cbf)
1)로 분류하는 데 사용할 수 있는 이진 회귀 모델을 고려합니다.입력 x {\x
의 벡터가 주어진 특정 관측치에 대한 모델의 출력은 관측치를 분류하기 위한 기초가 되는 확률로 해석될 수 있습니다.로지스틱 회귀 분석에서 확률은 로지스틱 g ( ) / ( + -) { g) =/ ( 1 + 을
사용하여 모델링됩니다. 서z {z}는
일반적으로 선형 인 입력 x {\x
의 일부 함수입니다. y y의
확률은 다음과 같습니다.
![{\displaystyle q_{y=1}={\hat {y}}\equiv g(\mathbf {w} \cdot \mathbf {x} )={\frac {1}{1+e^{-\mathbf {w} \cdot \mathbf {x} }}},}](https://wikimedia.org/api/rest_v1/media/math/render/svg/3d8f848dfb1d02497994d04b429b1f91330744b9)
여기서 무게 w는
경사 강하와 같은 적절한 알고리즘을 통해 최적화된다.마찬가지로 출력 y을
찾을 수 있는 보완 확률은 다음과 같습니다.
![{\displaystyle q_{y=0}=1-{\hat {y}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/ee6e9334a2dc1ab9ab3339399272e55713a4e9c0)
p { , - { p \ { y , -y\
{ \ \ { \ { y} , 1 - { \ { }
q q q,,, ,,,,,,,ropyropyropy, ,,,,,,,,,,,ropyropystylestylestylestylestyle![p](https://wikimedia.org/api/rest_v1/media/math/render/svg/81eac1e205430d1f40810df36a0edffdc367af36)
![{\displaystyle H(p,q)\ =\ -\sum _{i}p_{i}\log q_{i}\ =\ -y\log {\hat {y}}-(1-y)\log(1-{\hat {y}})}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1f3f3acfb5549feb520216532a40082193c05ccc)
로지스틱 회귀 분석은 일반적으로 학습된 모든 관측치에 대해 로그 손실을 최적화하며, 이는 표본의 평균 교차 엔트로피를 최적화하는 것과 같습니다.예를 들어, 각 샘플이 n , {\ n
으로 색인화된의 { N개
이 있다고 가정합니다. 손실 함수의 평균은 다음과 같습니다.
![{\displaystyle {\begin{aligned}J(\mathbf {w} )\ &=\ {\frac {1}{N}}\sum _{n=1}^{N}H(p_{n},q_{n})\ =\ -{\frac {1}{N}}\sum _{n=1}^{N}\ {\bigg [}y_{n}\log {\hat {y}}_{n}+(1-y_{n})\log(1-{\hat {y}}_{n}){\bigg ]}\,,\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/80f87a71d3a616a0939f5360cec24d702d2593a2)
서 y^ ( w ) / ( + - )\ g ( \ \ \{ { n } / ( + { - \ { ) _\{
} ) 、
로지스틱 손실은 교차 엔트로피 손실이라고도 합니다.로그 손실이라고도 합니다(이 경우 이진 레이블은 종종 {-1,+1}[4]로 표시됩니다).
비고: 로지스틱 회귀 분석의 교차 엔트로피 손실의 기울기는 선형 회귀 분석의 오차 손실 제곱의 기울기와 동일합니다.즉, 다음과 같이 정의합니다.
![{\displaystyle X^{T}={\begin{pmatrix}1&x_{11}&\dots &x_{1p}\\1&x_{21}&\cdots &x_{2p}\\\vdots &\vdots &&\vdots \\1&x_{n1}&\cdots &x_{np}\\\end{pmatrix}}\in \mathbb {R} ^{n\times (p+1)}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/61c77c082b6f7b1ec835bde8679ef2b9032c6f2f)
![{\displaystyle {\hat {y_{i}}}={\hat {f}}(x_{i1},\dots ,x_{ip})={\frac {1}{1+\exp(-\beta _{0}-\beta _{1}x_{i1}-\dots -\beta _{p}x_{ip})}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b01e073319478690c12f7cb9b2578aa7f5bee571)
![{\displaystyle L({\overrightarrow {\beta }})=-\sum _{i=1}^{N}[y^{i}\log {\hat {y}}^{i}+(1-y^{i})\log(1-{\hat {y}}^{i})]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/596a23552927b2ee6c05bfdd176e474834b0c1b1)
그럼 결과가 나왔군
![{\displaystyle {\frac {\partial }{\partial {\overrightarrow {\beta }}}}L({\overrightarrow {\beta }})=X^{T}({\hat {Y}}-Y)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/93f9238495a91585ffa646e32c2b80a8a1a815ff)
그 증거는 다음과 같습니다.표시 i
에 대해
![{\displaystyle {\frac {\partial }{\partial \beta _{0}}}\ln {\frac {1}{1+e^{-\beta _{0}+k_{0}}}}={\frac {e^{-\beta _{0}+k_{0}}}{1+e^{-\beta _{0}+k_{0}}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d97553e3d273415fcd9629e2057f3f2030b2d301)
![{\displaystyle {\frac {\partial }{\partial \beta _{0}}}\ln \left(1-{\frac {1}{1+e^{-\beta _{0}+k_{0}}}}\right)={\frac {-1}{1+e^{-\beta _{0}+k_{0}}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/caa173d300d2f202b787c964ec7ef9ff149bcf90)
![{\displaystyle {\begin{aligned}{\frac {\partial }{\partial \beta _{0}}}L({\overrightarrow {\beta }})&=-\sum _{i=1}^{N}\left[{\frac {y^{i}\cdot e^{-\beta _{0}+k_{0}}}{1+e^{-\beta _{0}+k_{0}}}}-(1-y^{i}){\frac {1}{1+e^{-\beta _{0}+k_{0}}}}\right]\\&=-\sum _{i=1}^{N}[y^{i}-{\hat {y}}^{i}]=\sum _{i=1}^{N}({\hat {y}}^{i}-y^{i})\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1c02e7f3551dd635964e2089931a939e1b1ba2a5)
![{\displaystyle {\frac {\partial }{\partial \beta _{1}}}\ln {\frac {1}{1+e^{-\beta _{1}x_{i1}+k_{1}}}}={\frac {x_{i1}e^{k_{1}}}{e^{\beta _{1}x_{i1}}+e^{k_{1}}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/3704a36e32d60f7236d7947f18e2ef635b9f9481)
![{\displaystyle {\frac {\partial }{\partial \beta _{1}}}\ln \left[1-{\frac {1}{1+e^{-\beta _{1}x_{i1}+k_{1}}}}\right]={\frac {-x_{i1}e^{\beta _{1}x_{i1}}}{e^{\beta _{1}x_{i1}}+e^{k_{1}}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0b33c567b55bc690ac5dd5b5c2e2d8b9d870c05c)
![{\displaystyle {\frac {\partial }{\partial \beta _{1}}}L({\overrightarrow {\beta }})=-\sum _{i=1}^{N}x_{i1}(y^{i}-{\hat {y}}^{i})=\sum _{i=1}^{N}x_{i1}({\hat {y}}^{i}-y^{i})}](https://wikimedia.org/api/rest_v1/media/math/render/svg/5bd40cc4d7176b2b421f2257d3d02e03fff6f952)
비슷한 방법으로 우리는 결국 원하는 결과를 얻을 수 있다.
「 」를 참조해 주세요.
레퍼런스
- ^ 정보 부호화, 추출 및 분배의 수학, 조지 시벤코, Dianne P.O'Leary, Jorma Rissanen, 1999, 페이지 82
- ^ 기계 학습 확률: 불확실성을 활용하는 방법 알아보기 Python, Jason Brownlee, 2019, 페이지 220: "로지스틱 손실은 로지스틱 회귀 모델을 최적화하는 데 일반적으로 사용되는 손실 함수를 말합니다.로그 손실(혼란) 또는 단순 로그 손실이라고도 합니다."
- ^ sklearn.disc.log_loss
- ^ Murphy, Kevin (2012). Machine Learning: A Probabilistic Perspective. MIT. ISBN 978-0262018029.
외부 링크