엔트로피(정보 이론)

Entropy (information theory)

정보 이론에서, 랜덤 변수의 엔트로피는 변수의 가능한 결과에 내재된 "정보", "깜짝" 또는 "불확실성"의 평균 수준입니다.이산 랜덤 X(\{를 지정하면 알파벳(\{X})의 값을 사용하여 p [ p에 따라 분포됩니다.

여기서(\ \Sigma 변수의 가능한 값에 대한 합계를 나타냅니다.log \로그의 기본 선택은 응용 프로그램에 따라 다릅니다.Base 2는 비트(또는 "셰논") 단위를 나타내며, Base e는 "자연 단위" nat을 나타내며, Base 10은 "dits", "bans" 또는 "hartley" 단위를 나타냅니다.엔트로피의 등가 정의는 [1]변수의 자기 정보기대치입니다.

2비트 엔트로피:2개의 페어코인 토스의 경우, 비트 단위의 정보 엔트로피는 가능한 결과 수의 베이스 2 로그입니다. 2개의 코인으로 4개의 가능한 결과와 2비트의 엔트로피가 있습니다.일반적으로 정보 엔트로피는 가능한 모든 결과를 고려할 때 사건에 의해 전달되는 정보의 평균 양이다.

정보 엔트로피의 개념은 클로드 섀넌이 1948년 발표한 논문 "소통의 수학적 이론"[2][3]에서 소개되었으며, 섀넌 엔트로피라고도 한다.섀넌의 이론은 데이터 소스, 통신 채널, 수신기의 세 가지 요소로 구성된 데이터 통신 시스템을 정의한다.Shannon에 의해 표현된 "통신의 근본적인 문제"[2][3]는 수신자가 채널을 통해 수신한 신호에 기초하여 소스에 의해 생성된 데이터를 식별할 수 있도록 하는 것입니다.섀넌은 데이터 소스의 메시지를 부호화, 압축, 전송하는 다양한 방법을 고려했고, 그의 유명한 소스 코딩 정리에서 엔트로피가 소스의 데이터가 완전히 노이즈가 없는 채널로 얼마나 잘 압축될 수 있는지에 대한 절대적인 수학적 한계를 나타낸다는 것을 증명했다.섀넌은 노이즈 채널 코딩 정리를 통해 노이즈가 많은 채널에 대해 이 결과를 상당히 강화했습니다.

정보 이론의 엔트로피는 통계 열역학에서의 엔트로피와 직접적으로 유사하다.랜덤 변수의 값이 미소 상태의 에너지를 나타낼 때 유추 결과가 나오므로 엔트로피의 깁스 공식은 섀넌 공식과 형식적으로 동일하다.엔트로피는 조합론과 기계학습과 같은 수학의 다른 영역과 관련이 있다.이 정의는 엔트로피가 변수의 평균 결과가 얼마나 "놀라움"을 나타내는 척도가 되어야 한다는 일련의 공리에서 도출될 수 있습니다.연속 랜덤 변수의 경우 미분 엔트로피는 엔트로피와 유사합니다.

서론

정보 이론의 핵심 개념은 통신된 메시지의 "정보적 가치"가 메시지의 내용이 놀라운 정도에 따라 달라진다는 것입니다.가능성이 높은 이벤트가 발생했을 경우 메시지에는 정보가 거의 전달되지 않습니다.한편, 가능성이 매우 낮은 이벤트가 발생했을 경우는, 메세지가 훨씬 더 유익합니다.예를 들어, 어떤 특정한 숫자가 복권의 당첨번호가 되지 않을 것이라는 지식은 거의 확실히 당첨되지 않을 것이기 때문에 매우 적은 정보를 제공한다.그러나, 특정 숫자가 복권에 당첨될 것이라는 지식은 매우 낮은 확률의 사건의 결과를 전달하기 때문에 높은 정보 가치를 가지고 있다.

E E 정보 내용이벤트 Edisplaystyle e의 확률 p 감소함에 따라 증가하는 함수입니다.p { p 1에 가까우면 이벤트의 서프라이즈 평가는 낮지만 p { p 0에 가까우면 의 서프라이즈 평가는 높아집니다.이 관계는 함수에 의해 설명됩니다.

log {\ 로그로,[4] 이벤트의 확률이 1일 때 0이 됩니다.실제로 로그 이 특정 특성 집합을 충족하는 유일한 기능입니다.

따라서 이벤트 E 정보 또는 놀라움을 다음과 같이 정의할 수 있습니다.

또는 동등하게

엔트로피는 무작위 [5]: 67 시행의 결과를 식별하여 전달되는 예상(즉, 평균) 정보의 양을 측정합니다.즉, 다이토스의 각 결과는 동전 던지기의 보다 때문에(약 p = 1/6(\displaystyle p 다이 캐스팅의 엔트로피가 더 높습니다(p 1/2(\display p = 1/(\ p

머리에 착지할 확률 p와 꼬리에 착지할 확률 1 - p를 가진 편향된 코인을 고려해보자.최대 놀라움은 p = 1/2일 이며, 이 경우 한 결과가 다른 결과보다 기대되지 않습니다.이 경우 코인 플립의 엔트로피는 1비트이다(마찬가지로 적합값을 갖는 1트리트의 값 중 하나를 가질 수 있기 때문에 로그 23 \ _ (약 1.58496) 비트의 정보를 한다).최소 놀라움은 이벤트 결과가 미리 알려져 있고 엔트로피가 0비트일 때 p = 0 또는 p = 1일 입니다.엔트로피가 0비트일 때, 이것은 때때로 단일성이라고 불리며, 여기서 불확실성이 전혀 없고 선택의 자유가 없으며 정보가 없습니다.p의 다른 값은 0 ~1비트 사이의 엔트로피를 제공합니다.

정보 이론은 데이터 압축과 같이 메시지를 전달하는 데 필요한 최소한의 정보를 계산하는 데 유용합니다.예를 들어, 이진 채널을 통해 4개의 문자 'A', 'B', 'C' 및 'D'로 구성된 시퀀스를 전송한다고 가정합니다.4개의 문자가 모두 같을 경우(25%) 2비트를 사용하여 각 문자를 인코딩하는 것이 가장 좋습니다.'A'는 '00', 'B'는 '01', 'C'는 '10', 'D'는 '11'로 코드화할 수 있습니다.그러나 'A'가 70% 확률로, 'B'가 26% 확률로, 'C'와 'D'가 각각 2% 확률로 발생하는 경우 가변 길이 코드를 할당할 수 있습니다.이 경우 'A'는 '0', 'B'는 '10', 'C'는 '110', D는 '111'로 코딩됩니다.이 표현에서는 1비트만 전송하면 되는 시간의 70%, 2비트의 26%, 3비트의 4%만 전송하면 됩니다.평균적으로 엔트로피가 낮기 때문에 필요한 비트는 2비트 미만입니다('A'에 이어 'B'가 96%로 증가).확률 가중 로그 확률의 합계 계산은 이 효과를 측정하고 캡처합니다.영문 텍스트는 문자열로 취급되며 엔트로피가 상당히 낮습니다. 즉, 예측이 가능합니다.예를 들어, 'e'가 'z'보다 훨씬 일반적이며, 'q'가 포함된 다른 어떤 조합보다 'qu'가 훨씬 일반적이며, 'th'가 'z', 'q' 또는 'qu'보다 더 일반적일 것이라고 확신할 수 있습니다.처음 몇 글자 뒤에는 종종 단어의 나머지 부분을 추측할 수 있다.영문 텍스트는 메시지의 [6]: 234 문자당 0.6비트에서 1.3비트의 엔트로피를 가집니다.

정의.

볼츠만의 δ 이론에서 따온 샤논은 이산 랜덤 Xtextstyle X)의 엔트로피 δ( 대문자 에타)를 정의했으며, 이는 알파벳 값을 취하며 p [ p:to{X 분포됩니다. { [x

서 E 기대치 연산자이고, I는 [7]: 11 [8]: 19–20 X의 정보 내용입니다.( ) { { I( X는 그 자체가 랜덤 변수입니다.

엔트로피는 명시적으로 다음과 같이 쓸 수 있습니다.

여기서 b는 사용되는 로그밑수입니다.b의 공통값은 2, 오일러의 숫자 e 및 10이며, 해당 엔트로피의 단위는 b = 2, b = e비트, b = 10[9]nats입니다.

p (x) (\ p) 0 ( x X \ displaystyle x \ \ { )의 경우, 대응하는 sumandb 0 log (0)의 값은 0으로 간주되며,[10]: 13 이는 제한과 일치합니다.

(표시 스타일와 Y 스타일)에서 각각 X스타일 Y(스타일의 값을 취하여 X 스타일 Y표시 스타일)의 조건부 엔트로피를 다음과 [10]: 16 같이 정의할 수도 있습니다.

서 p X, (x ,) : [ , { style { [y]} y = [Y ]{ { [y이 수량은 변수Y(\ Y에서 랜덤 X(\ X 나머지 랜덤성으로 이해해야 합니다.

측정 이론

엔트로피는 다음과 [11]같이 측정 이론 언어로 공식적으로 정의할 수 있습니다.( , ,μ ){ ( , \ , \ }을 확률공간으로 합니다합니다 점은

A 예상된 놀라움은

μ - 거의 파티션은 패밀리 P ( X)({ P {입니다.μ (p P ) 1 ( \\ ( \ cupP ) ) ( A \ displaystyle B) ) ( \ mu ) ) 。파티션의 통상적인 조건). P 엔트로피는

M XX의 시그마 대수. M 엔트로피는

마지막으로 확률공간의 엔트로피는 X의 가능한 모든 부분 집합의 시그마 대수의μ({ 스타일 대한 이다.

비트 단위로 측정된 동전 플립의 엔트로피 δ(X)(예상 조사)와 동전 Pr(X = 1)의 바이어스 대비 그래프화되며, 여기서 X = 1은 [10]: 14–15 헤드의 결과를 나타낸다.

여기서 엔트로피는 최대 1비트이며, 동전 플립의 결과(2개의 가능한 값)를 전달하려면 평균 1비트(페어 코인의 경우 정확히 1비트)가 필요합니다.페어 다이(6개의 가능한 값)의 결과는 엔트로피 log6비트를2 가집니다.

동전의 앞면 또는 뒷면이 나올 확률이 반드시 공평하지는 않지만 알려진 동전 던지기를 고려해 보십시오. 이는 베르누이 공정으로 모델링할 수 있습니다.

동전이 공정할 경우(즉, 앞면과 뒷면이 모두 1/2 확률로 동일할 경우) 동전의 다음 던질 때 알 수 없는 결과의 엔트로피가 최대화된다.이것은 다음 토스의 결과를 예측하는 것이 가장 어렵기 때문에 가장 불확실한 상황입니다. 동전 던질 때마다 1비트의 정보가 전달됩니다.그 이유는

그러나 동전이 공정하지 않다는 것을 알고 있지만 pq의 확률로 앞면 또는 뒷면이 나온다면, 여기서 p q는 불확실성이 줄어듭니다.던질 때마다 한쪽이 다른 쪽보다 위로 올라올 가능성이 높아집니다.감소된 불확실성은 낮은 엔트로피로 계량됩니다. 즉, 동전을 던질 때마다 평균적으로 1비트 미만의 정보가 전달됩니다.예를 들어 p = 0.7이면

균일한 확률은 최대 불확실성을 산출하고 따라서 최대 엔트로피를 산출합니다.따라서 엔트로피는 균일한 확률과 관련된 값에서만 감소합니다.극단적인 경우는 뒷면이 나오지 않는 양면 동전이나 앞면이 나오지 않는 양면 동전이다.그렇다면 불확실성은 없다.엔트로피는 제로입니다.코인 던질 때마다 새로운 정보가 전달되지 않습니다.코인 던질 때마다 결과가 항상 [10]: 14–15 확실하기 때문입니다.

엔트로피는 정보 길이로 나누어 정규화할 수 있습니다.이 비율을 메트릭 엔트로피라고 하며 정보의 무작위성을 측정합니다.

특성화

i p log(pi)의 의미를 이해하기 위해서는 먼저 확률i p를 갖는 사건 i의 관점에서 정보 함수 I를 정의한다.이벤트 i의 관측으로 획득된 정보의 양은 정보의 [12]기본 특성에 대한 Shannon의 솔루션에서 비롯된다.

  1. I(p)p에서 단조롭게 감소한다: 사건의 확률이 증가하면 관측된 사건의 정보가 감소하며, 그 반대도 마찬가지이다.
  2. I(1) = 0: 항상 발생하는 이벤트는 정보를 전달하지 않습니다.
  3. I(p1·p2) = I(p1) + I(p2): 독립적 사건에서 학습한 정보는 각 사건에서 학습한 정보의 합계이다.

두 개의 독립적인 사건이 주어졌을 때, 첫 번째 사건이 n개의 적합 가능한 결과 중 하나를 산출할 수 있고 다른 사건이 m개의 적합 가능한 결과 중 하나를 가질 수 있는 경우, 공동 사건의 적합 가능한 결과가 있다.2, 첫 번째 값을 인코딩하는 데 log(n) 비트가 필요하고2 두 번째 값을 인코딩하는 데 log(m) = log2(m) + log2(n)2 둘 다 인코딩하는 데 필요합니다.

Shannon은 I[13] 적절한 선택이 다음과 같이 제공된다는 것을 발견했습니다.

사실, 나는 유일한 가능한 값){년}나는 ⁡ 있(u)=k로그 ⁡ 너{\displaystyle \operatorname{나는}(u)=k\log 너}k<0{\displaystyle k<0}다. 게다가, k값을 값을)을 선택할 당량을 고르는 것이다;1{\displaystyle x> 1}에 k=− 1/로그 ⁡{\displaystyle \operatorname{나는}.displaystylex x가 로그의 밑변에 해당하도록 합니다.따라서, 엔트로피는 위의 네 가지 성질에 의해 특징지어진다.

서로 다른 정보 단위(이진 로그2 로그 로그의 비트, 자연 로그 ln의 nats, 십진 로그10 로그의 금지 등)는 서로 상수 배수입니다.예를 들어 공정한 동전 던지기의 경우, 헤드는 log(2) = 1비트의 정보를 제공하며2, 이는 약 0.693nats 또는 0.16진수입니다.가감도를 위해 n개의 토스는 0.693n nats 또는 0.301n 소수인n 비트의 정보를 제공합니다.

관찰된 이벤트의 의미(메시지 의미)는 엔트로피의 정의에서 중요하지 않습니다.엔트로피는 특정 사건을 관찰할 확률만 고려하므로 엔트로피가 캡슐화하는 정보는 사건 자체의 의미가 아니라 기본 확률 분포에 대한 정보입니다.

대체 특성 평가

엔트로피의 또 다른 특성은 다음과 같습니다.p = Pr(X = xi) δn(p1, ..., pn) = δ(X)나타냅니다i.

  1. 연속성:H는 연속적이어야 하며, 따라서 확률의 값을 아주 작은 양만큼만 변경해도 엔트로피가 작은 양만큼만 변경되어야 합니다.
  2. 대칭성: 결과i x가 정렬된 경우 H는 변경되지 않아야 합니다., Hn ( 1, p, …n ) ( 1, 2,… , \{ { } \ left ( p { n} , { 2 } , \ \ { _ { ... , { { 1, . \} }
  3. 최대: 결과가 동일한 경우 Hn \ _(는) 최대가 되어야 합니다.n ( 1, , ) )n ( n , , \{ } ( _ { } \, p { } \( { \ { , \ ldots , { n } ) {
  4. 결과 수 증가: 적합 사건의 경우 결과 수와 함께 엔트로피가 증가해야 합니다.Hn(1,…, 1n⏟ n)<>Hn+1(1n+1,…, 1n+1⏟ n+1).{\displaystyle \mathrm{H}_{n}{\bigg(}\underbrace{{\frac{1}{n}},\ldots,{\frac{1}{n}}}_{n}{\bigg)}<.}},{\frac{1}{n+1},\ldots}_{n+1}{\b{H}_{n+1}{\bigg(}\underbrace{{\frac{1}{n+1}\mathrm.무시하다.)
  5. Additivity:b1,..., bk 요소 각, 모든 앙상블의 엔트로피 상자 그 시스템의 엔트로피와 박스, 각 그 특정한 상자 안에 있는 것의 확률과 가중의 개별적인 entropies의 합과 같어야 한다(서브 시스템)는가 박스로 나뉘어 져 있n균일하게 분배된 요소의 앙상블을 주어집니다..

가감도의 법칙에는 다음과 같은 결과가 있습니다. 정수i b에 대해1 b + ... + bk = n,

k = n, b1 = ...를 선택합니다. = bn = 1 이것은 특정 결과의 엔트로피가 0임을 암시한다: δ1(1) = 0. 이것은 n개의 기호를 가진 소스 알파벳의 효율성이 단순히 n개의 엔트로피와 같다고 정의할 수 있음을 암시한다.용장성(정보 이론)도 참조해 주세요.

기타 속성

섀넌 엔트로피는 다음 특성을 충족하며, 그 중 일부는 랜덤 변수 X의 값을 공개함으로써 엔트로피를 학습(또는 제거된 불확실성)된 정보의 예상 양으로 해석하는 것이 유용합니다.

  • 확률이 0인 이벤트를 추가하거나 제거해도 엔트로피는 발생하지 않습니다.
n+ ( , , , ) ( 1, ...,p ){ { H { + ( p { , \ )= \ { { { } ( p { n )
(X ) [ - b () - - b ( [ ( ) )= b n\ \{} ( X ) \ } [ - \ { ( ]\ b ( left
로그(n)의b 최대 엔트로피는 균일한 확률 분포를 가진 소스 알파벳에 의해 효과적으로 달성된다. 모든 가능한 이벤트가 적합할 때 불확실성이 극대화된다.
  • (X,Y)(즉, X와 Y를 동시에 평가함)를 평가함으로써 밝혀진 엔트로피 또는 정보의 양은 두 가지 연속 실험을 통해 밝혀진 정보와 동일합니다. 먼저 Y의 을 평가한 다음 Y의 을 알고 있는 경우 X의 을 표시합니다.이것은 다음과 같이 [10]: 16 쓸 수 있다.
  • ( ) { Y ( )} ( ) 0( f ( x ) = 0 . { } (( ) = . 앞의 공식을 () \ mathrm { X
H( ()H ( { ( ( X{ ( )변수가 함수를 통과할 때만 변수의 엔트로피가 감소합니다.
  • X와 Y가 두 개의 독립적인 랜덤 변수인 경우, Y의 을 알아도 X의 값에 대한 우리의 지식에 영향을 미치지 않습니다(두 변수가 서로 독립적으로 영향을 미치지 않기 때문입니다).
  • 보다 일반적으로, 임의의 변수 X와 Y에 대해,
( Y )H ( \ {} ( X)\\ {} ( )[10]: 29 }
  • 2개의 동시 이벤트의 엔트로피는 각 개별 이벤트의 엔트로피의 합계 이하입니다. H ( , () + ( )\ \{ H} ( , ) \ \ X ) + \ { H } ( X )
  • H 확률 질량 p p오목합니다.[10]: 30
모든 확률 질량 1, ({}, 0 01[10]: 32 의 경우.
  • 따라서 의 엔트로피(네트로피) 함수는 볼록하고 그 볼록한 공역체는 LogSumExp이다.

양상

열역학적 엔트로피와의 관계

정보 이론에서 엔트로피라는 단어를 채택하게 된 계기는 섀넌의 공식과 통계 역학에서 나온 매우 유사한 공식 사이의 매우 유사함에서 비롯되었다.

통계 열역학에서 열역학계열역학 엔트로피 S에 대한 가장 일반적인 공식은 깁스 엔트로피이다.

여기B k는 볼츠만 상수, pi 미소 상태의 확률입니다.깁스 엔트로피는 볼츠만(1872)[14]의 초기 연구 후에 1878년 J. 윌러드 깁스에 의해 정의되었다.

기브스 엔트로피는 1927년 존 폰 노이만이 도입한 폰 노이만의 엔트로피를 주기 위해 거의 변하지 않은 양자 물리학의 세계로 변환된다.

여기서 θ는 양자역학계의 밀도행렬이고 Tr은 [15]트레이스이다.

일상적으로 실용적인 수준에서 정보 엔트로피와 열역학 엔트로피 사이의 연결고리는 명확하지 않다.물리학자 및 화학자는 시스템이 변하지 않는 확률 분포보다는 열역학 제2법칙에 따라 초기 조건에서 자발적으로 벗어나 진화함에 따라 엔트로피의 변화에 더 관심을 갖는 경향이 있습니다.볼츠만 상수B k의 세밀도가 나타내듯이, 화학 및 물리 공정의 극소량의 물질에 대한 S/kB 변화는 데이터 압축이나 신호 처리의 어떤 것에 비해 매우 큰 엔트로피의 양을 나타낸다.고전 열역학에서 엔트로피는 거시적 측정의 관점에서 정의되며 정보 엔트로피의 정의의 중심인 확률 분포를 참조하지 않습니다.

열역학과 현재 정보 이론으로 알려진 것의 연관성은 루드비히 볼츠만에 의해 처음 만들어졌고 그의 유명한 방정식으로 표현되었다.

서 S S 특정 매크로 상태의 열역학적 엔트로피(온도, 부피, 에너지 등 열역학 파라미터에 의해 정의됨), W는 특정 매크로 상태를 생성할 수 있는 마이크로 상태(다양한 에너지 상태의 입자 조합)의 수, kB 볼츠만 [16]상수입니다.각 미세 상태는 동일한 가능성이 있다고 가정하여 주어진 미세 상태의 확률은 pi = 1/W이다.이러한 확률을 깁스 엔트로피(또는B 섀넌 엔트로피의 k배)에 대한 위의 식에 대입하면 볼츠만의 방정식이 성립한다.정보 이론적인 용어로, 시스템의 정보 엔트로피는 매크로 상태가 주어진 상태에서 미시 상태를 결정하는 데 필요한 "누락된" 정보의 양입니다.

Jaynes의 관점에서는, 통계 역학에 의해 설명한 섀넌의 정보 이론의 응용 프로그램은 열역학적 엔트로피 추가 섀넌는 많은 양의 정보를 시스템의unco이 상세한 미세한 상태, 정의하는 데 필요한 비례하는 것으로 풀이된다 인식해야 합니다. 열역학적 엔트로피(1957년)[17].mmun단지 볼츠만 상수인 비례성의 상수와 함께 고전 열역학의 거시적 변수의 관점에서만 설명되었다.시스템에 열을 추가하면 시스템의 가능한 미시적 상태의 수가 증가하여 거시적 변수의 측정 가능한 값과 일치하기 때문에 열역학적 엔트로피가 증가하여 완전한 상태 설명이 길어집니다.(기사: 최대 엔트로피 열역학 참조).로 적용한다는(1961년부터)과 co-workers[18]자신이 과정에서 섀넌의 정보를 그는 사실을 알 것을 제안하 적어도 그 양을 통해 열역학적 엔트로피 증가해야 하는 귀신은 기능을 하기 위해 보여 주었습니다 맥스웰의 도깨비 개별적인 분자들의 상태에 관한 정보를 이용함으로써 시스템의 열역학적 엔트로피를 줄이지만,,(가설적으로) 수 있다.rst따라서 총 열역학적 엔트로피가 감소하지 않습니다(이것이 역설을 해결합니다).Landauer의 원칙은 컴퓨터가 주어진 양의 정보를 처리하기 위해 발생해야 하는 열의 양에 하한을 부과하지만, 현대 컴퓨터는 훨씬 덜 효율적입니다.

data 압축

섀넌의 엔트로피 정의는 정보 소스에 적용될 때 소스를 인코딩된 이진수로 확실하게 전송하기 위해 필요한 최소 채널 용량을 결정할 수 있습니다.Shannon의 엔트로피는 결정된(또는 예측 가능한) 메시지 부분이 아닌 메시지에 포함된 정보를 측정합니다.후자의 예로는 문자 또는 단어 쌍, 삼중항 등의 발생 빈도와 관련된 언어 구조 또는 통계 속성의 중복성을 들 수 있다.최소 채널 용량은 이론상으로는 Huffman, Lempel-Ziv 또는 산술 부호화를 사용하여 실현할 수 있습니다(콜모고로프 복잡도 참조).실제로 압축 알고리즘은 오류로부터 보호하기 위해 체크섬 형태로 몇 가지 적절한 용장성을 의도적으로 포함합니다.데이터 원본의 엔트로피 속도는 데이터 원본 인코딩에 필요한 기호당 평균 비트 수입니다.섀넌의 인간 예측 변수 실험은 영어로 [19]문자당 0.6-1.3비트 사이의 정보 속도를 보여준다. PPM 압축 알고리즘은 영어 텍스트에서 문자당 1.5비트의 압축률을 달성할 수 있다.

압축 스킴이 무손실인 경우(언제나 압축 해제에 의해 원래 메시지 전체를 복구할 수 있음), 압축된 메시지는 원본과 동일한 양의 정보를 가지지만 더 적은 문자로 통신합니다.문자당 더 많은 정보(엔트로피 높음)가 있습니다.압축된 메시지는 용장성이 떨어집니다.Shannon의 소스 코딩 정리에 따르면 무손실 압축 방식은 평균적으로 메시지의 비트당 1비트 이상의 정보를 가지도록 메시지를 압축할 수 없지만, 적절한 코딩 방식을 사용함으로써 메시지의 비트당 1비트 미만의 모든 값을 얻을 수 있다.비트당 메시지의 엔트로피에 해당 메시지의 길이를 곱한 값은 메시지에 포함된 총 정보의 양을 나타냅니다.Shannon의 정리는 또한 어떤 무손실 압축 방식도 모든 메시지를 줄일 수 없다는 것을 암시한다.일부 메시지가 짧게 나오는 경우 비둘기 구멍의 원리로 인해 적어도1개는 길게 나와야 합니다.실용적으로 이것은 일반적으로 문제가 되지 않습니다.이는 보통 영어로 된 문서와 같은 특정 유형의 메시지 압축에만 관심이 있기 때문입니다.이는 잡음이 아닌 디지털 사진이나 잡음이 아닌 특정 유형의 메시지 압축에 관심이 있기 때문입니다.또한 압축 알고리즘에 의해 가능성이 낮거나 흥미롭지 않은 시퀀스가 커지는 경우에는 중요하지 않습니다.

사이언스의 2011년 연구는 2007년에 이용 가능한 가장 효과적인 압축 알고리즘에 따라 최적으로 압축된 정보를 저장하고 전달하는 세계의 기술적 능력을 추정하며, 따라서 기술적으로 [20]: 60–65 이용 가능한 소스의 엔트로피를 추정한다.

모든 수치는 엔트로피컬하게 압축된 엑사바이트 단위
정보의 종류 1986 2007
보관소 2.6 295
브로드캐스트 432 1900
전기 통신 0.281 65

저자는 1986년과 2007년에 정보를 저장할 수 있는 인류의 기술적 능력을 추정한다.미디어상의 정보 저장, 단방향 브로드캐스트네트워크를 통한 정보 수신, 쌍방향 [20]통신네트워크를 통한 정보 교환 등 3가지 카테고리로 분류됩니다.

다양성의 척도로서의 엔트로피

엔트로피는 생물다양성을 측정하는 여러 방법 중 하나로 섀넌 지수 [21]형태로 적용된다.다양성 지수는 생태학적 풍부성, 균등성 및 우위성을 설명하는 등 데이터 세트에 얼마나 많은 다른 유형이 존재하는지에 대한 정량적 통계 척도이다.구체적으로, 섀넌 엔트로피는 D의 로그로 매개변수가 1인 진정한 다양성 지수이다.섀넌 지수는 유형의 비례적 풍부성과 관련이 있다.

엔트로피의 한계

어떤 방식으로든 정보 내용을 수학적으로 정량화하는 엔트로피 관련 개념이 많이 있습니다.

  • 주어진 확률 분포에서 얻은 개별 메시지 또는 기호의 자기 인식,
  • 메시지 또는 심볼의 특정 확률 분포의 엔트로피
  • 확률적 과정의 엔트로피 속도

('자기정보의 속도'는 또한 주어진 확률적 과정에 의해 생성된 메시지 또는 심볼의 특정 시퀀스에 대해 정의될 수 있다: 이것은 항상 정지된 과정의 엔트로피 속도와 동일할 것이다.)다른 양의 정보도 서로 다른 정보 소스를 비교하거나 관련짓는 데 사용된다.

위의 개념을 혼동하지 않는 것이 중요합니다.종종 어떤 것이 의도된 것인지 문맥에서만 명확해진다.예를 들어 영어의 엔트로피가 글자당 1비트 정도라고 하면 확률적 과정으로 영어를 모델화해 엔트로피율을 이야기하는 것이다.섀넌 자신도 이런 식으로 그 용어를 사용했다.

매우 큰 블록을 사용하면 시퀀스의 확률 분포를 정확히 알 수 없기 때문에 문자당 엔트로피 속도의 추정치가 인위적으로 낮아질 수 있습니다.그것은 추정치일 뿐입니다.지금까지 출판된 모든 책의 텍스트를 하나의 책으로 보고, 각 기호가 완결된 책의 텍스트이고, N개의 출판된 책이 있고, 각 책이 한 권만 출판된다면, 각 책의 확률은 1/N이고, 엔트로피(비트 단위)는 -log2(1/N)=log2(N)이다.실용적인 코드로서 각 책에 고유 식별자를 할당하고 책을 참조하고 싶을 때마다 책의 본문 대신 사용하는 것에 해당한다.이것은 책에 대해 말할 때 매우 유용하지만, 개별 책이나 일반적인 언어의 정보 내용을 특징짓는 데는 그다지 유용하지 않다: 모든 책의 확률 분포, 즉 완전한 텍스트에 대한 확률 분포 없이 책을 식별자에서 재구성하는 것은 불가능하다.핵심 아이디어는 확률론적 모델의 복잡성을 고려해야 한다는 것이다.콜모고로프 복잡도는 특정 확률 모델로부터 독립적인 시퀀스의 정보 내용을 고려할 수 있는 이 아이디어의 이론적인 일반화이다; 그것은 시퀀스를 출력하는 범용 컴퓨터를 위한 최단 프로그램을 고려한다.주어진 모델에 대한 시퀀스의 엔트로피 속도를 달성하는 코드와 코드북(즉 확률론적 모델)이 그러한 프로그램 중 하나이지만 최단 시간은 아닐 수 있다.

피보나치 시퀀스는 1, 1, 2, 3, 5, 8, 13, ...... 시퀀스를 메시지로 취급하고 각 숫자를 기호로 취급합니다. 메시지 내의 문자 수만큼 기호가 존재하며 엔트로피는 약 log2(n)입니다.피보나치 수열의 처음 128개 기호는 약 7비트/120의 엔트로피를 가지지만, 수열은 n = 3, 4, 5, ..., F(1) =1, F(2) = 1대해 [F(n) = F(n-1) + F(n-2)] 공식을 사용하여 표현될 수 있으며 이 공식은 훨씬 더 낮은 길이의 엔트로피를 가진다.

암호학에서 엔트로피의 한계

암호 분석에서 엔트로피는 암호 키의 실제 불확실성은 측정할 수 없지만, 암호 키의 예측 불가능성의 척도로 사용되는 경우가 많습니다.예를 들어 균일하게 랜덤하게 생성되는 128비트 키는 128비트의 엔트로피를 가집니다. 무차별적인 으로 파괴하려면 평균 추측이 필요합니다가능한 키가 [22][23]균일하게 선택되지 않으면 엔트로피가 필요한 추측 수를 캡처하지 못합니다.대신 추측이라는 척도를 사용하여 무차별 공격 [24]시 필요한 노력을 측정할 수 있습니다.

암호화에 사용되는 불균일한 분포로 인해 다른 문제가 발생할 수 있습니다.예를 들어 exclusive 또는 를 사용하는 1,000,000자리 바이너리 원타임패드가 있습니다.패드가 100만 비트의 엔트로피를 가지고 있다면 완벽합니다.패드가 999,999비트의 엔트로피를 가지며 균등하게 분포되어 있는 경우(패드의 각 개별 비트에는 0.99999비트의 엔트로피가 있음) 뛰어난 보안을 제공할 수 있습니다.그러나 패드가 999,999비트의 엔트로피를 가지고 있는 경우, 첫 번째 비트는 고정되고 나머지 999,999비트는 완전히 랜덤입니다.암호문의 첫 번째 비트는 전혀 암호화되지 않습니다.

마르코프 프로세스로서의 데이터

텍스트의 엔트로피를 정의하는 일반적인 방법은 텍스트의 마르코프 모델에 기초한다.order-0 소스(각 문자는 마지막 문자와 독립적으로 선택됨)의 경우 이진 엔트로피는 다음과 같습니다.

여기i p는 i의 확률입니다.1차 마르코프 소스(문자의 선택 확률은 직전의 문자에 의해서만 좌우되는 소스)의 경우, 엔트로피 속도는 다음과 같습니다.

[필요한 건]

여기서 i는 상태(앞글자 포함), i { i가 이전 문자로 지정확률입니다.

2차 마르코프 소스의 경우, 엔트로피 속도는 다음과 같습니다.

효율성(정규화된 엔트로피)

분포가 균일하지 않은 소스 알파벳은 해당 기호가 균일한 분포(즉, "최적화된 알파벳")를 가진 경우보다 엔트로피가 더 작습니다.엔트로피의 이러한 결핍은 효율성이라는[quote citation needed] 비율로 표현될 수 있습니다.

로그의 기본 특성을 적용하여 이 양은 다음과 같이 나타낼 수도 있습니다.

효율은 통신 채널의 효과적인 사용을 수량화하는 데 효용성이 있다. 공식은 엔트로피를 최대 bθ ( ){ } 로 나누기 때문에 정규화된 엔트로피라고도 불리며, 또한 위의 최종 로그 내의 불감도에서 알 수 있듯이 효율은 (+) b의 선택과는 무관하다.

연속형 랜덤 변수에 대한 엔트로피

미분 엔트로피

섀넌 엔트로피는 이산 값을 취하는 랜덤 변수로 제한됩니다.실선상에서 유한 또는 무한 X 갖는 확률밀도함수 f(x)를 갖는 연속 랜덤 변수에 대한 대응식은 위의 엔트로피를 기대로 [10]: 224 하여 유추에 의해 정의된다.

이것은 미분 엔트로피(또는 연속 엔트로피)입니다.연속 엔트로피 h[f]의 전구체는 볼츠만의 H 이론에서의 기능 δ의 발현이다.

두 함수 사이의 유추는 시사적이지만, 다음 질문을 설정해야 합니다: 미분 엔트로피가 섀넌 이산 엔트로피의 유효한 확장인가?미분 엔트로피는 섀넌 이산 엔트로피가 갖는 많은 특성이 결여되어 있으며, 특히 이산 점의 밀도를 제한하는 수정이 제안되었습니다.

이 질문에 답하려면 다음 두 기능 간에 연결이 확립되어야 합니다.

크기가 0이 될 때 일반적으로 유한한 측도를 얻기 위해.이산적인 경우 빈 크기는 확률이 p로 표시되는n n개의 (유한 또는 무한) 빈의 (암묵적인) 폭입니다.연속 도메인이 일반화됨에 따라 너비를 명시해야 합니다.

이를 위해 크기(\의 빈으로 이산된 연속 함수 f에서 시작합니다. 평균값 정리에 따라 각 빈에 다음i 같은 값 x가 존재합니다.

함수 f의 적분은 (리만적 의미로) 근사될 수 있다
여기서 이 제한과 "bin size to 0"은 동일합니다.

우리는 나타낼 것이다.

대수를 확장하면

δ → 0이므로,

참고: δ 0으로 log(δ) → -delays를 사용하려면 미분 또는 연속 엔트로피의 특별한 정의가 필요합니다.

이것은 앞에서 말한 것처럼 미분 엔트로피라고 불립니다.즉, 미분 엔트로피는 n θ에 대한 샤논 엔트로피의 한계가 아니며, 무한 오프셋으로 샤논 엔트로피의 한계와는 다르다(정보 차원에 대한 기사 참조).

이산점 밀도 제한

결과적으로 섀넌 엔트로피와는 달리 차분 엔트로피는 일반적으로 불확실성 또는 정보의 좋은 척도가 아니라는 것이 밝혀졌습니다.예를 들어, 미분 엔트로피는 음수일 수 있으며 연속 좌표 변환에서도 불변하지 않습니다.이 문제는 x가 차원 변수일 때 단위를 바꾸는 것으로 설명할 수 있습니다. 그러면 f(x)단위는 1/x가 됩니다.로그의 인수는 무차원이어야 하며, 그렇지 않으면 부적절하므로 위에서 설명한 미분 엔트로피가 부적절합니다.δx의 "표준" 값(즉, "빈 크기")이고 따라서 동일한 단위를 갖는 경우, 수정된 미분 엔트로피는 다음과 같이 적절한 형태로 기록될 수 있습니다.

x에 대한 모든 단위 선택에서 결과는 동일합니다. 실제로 N { N \ \ 이산 엔트로피의 한계에는 로그 (N) { style )의 항도 포함되며, 일반적으로 무한합니다.이는 예상된 현상입니다. 연속형 변수는 일반적으로 이산될 때 무한 엔트로피를 가집니다.이산 점의 한계 밀도는 양자화 체계에서 균일한 분포보다 분포를 설명하는 것이 얼마나 쉬운지를 나타내는 척도입니다.

상대 엔트로피

이산적인 경우와 연속적인 경우에 동일하게 잘 작동하는 엔트로피의 또 다른 유용한 척도는 분포의 상대적 엔트로피입니다.이는 다음과 같이 분포에서 기준 측정값 m으로의 Kullback-Leibler 발산이라고 정의됩니다.확률 분포 p가 측정값 m에 대해 절대적으로 연속적이라고 가정하자. 즉, m-제곱 1을 갖는 음이 아닌 m-적분함수 f에 대해 p(solid) = f(x)m(solid) 형식이다. 그러면 상대 엔트로피는 다음과 같이 정의될 수 있다.

이 형태에서 상대 엔트로피는 이산 엔트로피(부호의 변화까지)를 일반화한다.여기서 측정값 m은 카운트 측정값이다.차분 엔트로피는 측정값 m은 르베그 측정값이다.측정값 m 자체가 확률 분포이면 상대 엔트로피는 음이 아니고 p = m이면 0입니다.모든 측정 공간에 대해 정의되므로 측정 m의 변환을 적절히 고려할 경우 좌표 재매개변수에 따라 독립적이고 불변한 좌표 값을 구한다.상대 엔트로피, 그리고 (암시적으로) 엔트로피와 미분 엔트로피는 "기준" 측정값 m에 의존합니다.

조합에 사용

엔트로피는 조합학에서 유용한 양이 되었다.

루미스-화이트니 부등식

이것의 간단한 예는 Loomis의 대체 증거입니다.휘트니 부등식: 모든 부분집합 A z Zd 대해, 우리는

여기i P는 ih 좌표의 직교 투영입니다.

그 증명은 시어러 부등식의 단순한 결과로서 뒤따른다: 만약1 Xd, ..., X가 랜덤 변수이고1 Sn, ..., S가 {1, ..., d}의 부분 집합이며, 따라서 1과 d 사이의 모든 정수가 이들 부분 집합의 정확히 r에 있다.

여기서( j i(S_{ 인덱스 jSi 하는 랜덤 변수j X의 데카르트 곱입니다(따라서 이 벡터의 치수는 S의 크기i 동일합니다).

루미스가 어떻게...Whitney는 다음과 같이 말합니다.실제로 X가 A의 을 갖는 균일한 분포 랜덤 변수이며 A의 각 점이 동일한 확률로 발생하도록 합니다.그런 다음 (위에서 언급한 엔트로피의 추가 특성에 의해) δ(X) = 로그 A, 여기서 A는 A의 카디널리티를 나타낸다.Si = {1, 2, ..., i-1, i+1, ..., d}라고 하자. j ) j S ( X { ) _ { j \ S_ { i } }의 범위는 P(A)i 포함되어 있기 에 H[ ( ) j Si (A ) ( \ style \ { X _ { j })[ x _ S _ { } } { j } } { j } { j } } } the} the the the 。부등식의 현장측을 나타냅니다.

이항 계수에 대한 근사

정수 0 < k < n의 경우 q = k/n.그리고나서

어디에

[25]: 43

이에 대한 좋은 해석은 길이 n의 이진 문자열의 개수가 정확히 k 많은 문자열의 개수가 H / ){ (n[26]인 것입니다.

기계 학습에 사용

기계학습 기술은 주로 통계학 및 정보이론에서 발생한다.일반적으로 엔트로피는 불확실성의 척도이며 기계학습의 목적은 불확실성을 최소화하는 것이다.

의사결정 트리 학습 알고리즘은 상대 엔트로피를 사용하여 각 [27]노드의 데이터를 지배하는 의사결정 규칙을 결정합니다.Tree ( Y , X )( \ (, X )) 。이것 Y( \ Y 엔트로피와Y \ X 엔트로피의 차이와 같으며, 기대 정보 또는 k 로부터의 감소를 수치화한다. X X의 값을 표시합니다.정보 게인은 데이터 집합의 어떤 속성이 가장 많은 정보를 제공하는지 식별하는 데 사용되며 트리의 노드를 최적으로 분할하는 데 사용해야 합니다.

베이지안 추론 모델은 종종 사전 확률 분포를 얻기 [28]위해 최대 엔트로피의 원리를 적용한다.이 개념은 시스템의 현재 지식 상태를 가장 잘 나타내는 분포가 엔트로피가 가장 큰 분포이므로 이전 분포에 적합하다는 것입니다.

로지스틱 회귀 또는 인공 신경망의해 수행되는 기계 학습의 분류는 종종 지상 진실과 예측된 [29]분포 사이의 평균 교차 엔트로피를 최소화하는 교차 엔트로피 손실이라고 불리는 표준 손실 함수를 사용한다.일반적으로 교차 엔트로피는 KL 발산(상대 엔트로피)과 유사한 두 데이터 세트 간의 차이를 측정하는 것입니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Pathria, R. K.; Beale, Paul (2011). Statistical Mechanics (Third ed.). Academic Press. p. 51. ISBN 978-0123821881.
  2. ^ a b Shannon, Claude E. (July 1948). "A Mathematical Theory of Communication". Bell System Technical Journal. 27 (3): 379–423. doi:10.1002/j.1538-7305.1948.tb01338.x. hdl:10338.dmlcz/101429. (PDF, 여기서 아카이브)
  3. ^ a b Shannon, Claude E. (October 1948). "A Mathematical Theory of Communication". Bell System Technical Journal. 27 (4): 623–656. doi:10.1002/j.1538-7305.1948.tb00917.x. hdl:11858/00-001M-0000-002C-4317-B. (PDF, 여기서 아카이브)
  4. ^ "Entropy (for data science) Clearly Explained!!!". YouTube.
  5. ^ MacKay, David J.C. (2003). Information Theory, Inference, and Learning Algorithms. Cambridge University Press. ISBN 0-521-64298-1.
  6. ^ Schneier, B: Applied Cryptography, Second Edition, John Wiley and Sons.
  7. ^ Borda, Monica (2011). Fundamentals in Information Theory and Coding. Springer. ISBN 978-3-642-20346-6.
  8. ^ Han, Te Sun & Kobayashi, Kingo (2002). Mathematics of Information and Coding. American Mathematical Society. ISBN 978-0-8218-4256-0.{{cite book}}: CS1 maint: 작성자 파라미터 사용(링크)
  9. ^ Schneider, T.D, 대수에 관한 부록을 가진 정보 이론 입문자, 국립 암 연구소, 2007년 4월 14일.
  10. ^ a b c d e f g h i j k Thomas M. Cover; Joy A. Thomas (1991). Elements of Information Theory. Hoboken, New Jersey: Wiley. ISBN 978-0-471-24195-9.
  11. ^ nLab의 엔트로피
  12. ^ Carter, Tom (March 2014). An introduction to information theory and entropy (PDF). Santa Fe. Retrieved 4 August 2017.
  13. ^ 차크라바티, C. G., 인드라닐 차크라바티."Shannon entropy: 자명한 특성화 및 적용"국제수학 및 수리과학 저널 2005.17 (2005) : 2847-2854 url
  14. ^ 비교: 볼츠만, 루드비히(1896, 1898)Vorlesungen über Gastheory : 2권 - 라이프치히 1895/98 UB : O5262-6.영어 버전:가스이론 강의.Stephen G. Brush(1964) 버클리 옮김:캘리포니아 대학 출판부; (1995년) 뉴욕: 도버 ISBN 0-486-68455-5
  15. ^ Życzkowski, Karol (2006). Geometry of Quantum States: An Introduction to Quantum Entanglement. Cambridge University Press. p. 301.
  16. ^ Sharp, Kim; Matschinsky, Franz (2015). "Translation of Ludwig Boltzmann's Paper "On the Relationship between the Second Fundamental Theorem of the Mechanical Theory of Heat and Probability Calculations Regarding the Conditions for Thermal Equilibrium"". Entropy. 17: 1971–2009. doi:10.3390/e17041971.
  17. ^ Jaynes, E. T. (15 May 1957). "Information Theory and Statistical Mechanics". Physical Review. 106 (4): 620–630. Bibcode:1957PhRv..106..620J. doi:10.1103/PhysRev.106.620.
  18. ^ Landauer, R. (July 1961). "Irreversibility and Heat Generation in the Computing Process". IBM Journal of Research and Development. 5 (3): 183–191. doi:10.1147/rd.53.0183. ISSN 0018-8646.
  19. ^ Mark Nelson (24 August 2006). "The Hutter Prize". Retrieved 27 November 2008.
  20. ^ a b "정보의 저장, 통신 컴퓨팅을 위한 세계의 기술적 능력", Martin Hilbert와 Priscila Lopez(2011), Science, 332(6025); 여기에서 이 기사에 무료로 액세스 할 수 있습니다.martinhilbert.net/WorldInfoCapacity.html
  21. ^ Spellerberg, Ian F.; Fedor, Peter J. (2003). "A tribute to Claude Shannon (1916–2001) and a plea for more rigorous use of species richness, species diversity and the 'Shannon–Wiener' Index". Global Ecology and Biogeography. 12 (3): 177–179. doi:10.1046/j.1466-822X.2003.00015.x. ISSN 1466-8238.
  22. ^ Massey, James (1994). "Guessing and Entropy" (PDF). Proc. IEEE International Symposium on Information Theory. Retrieved 31 December 2013.
  23. ^ Malone, David; Sullivan, Wayne (2005). "Guesswork is not a Substitute for Entropy" (PDF). Proceedings of the Information Technology & Telecommunications Conference. Retrieved 31 December 2013.
  24. ^ Pliam, John (1999). "Selected Areas in Cryptography". International Workshop on Selected Areas in Cryptography. Lecture Notes in Computer Science. Vol. 1758. pp. 62–77. doi:10.1007/3-540-46513-8_5. ISBN 978-3-540-67185-5.
  25. ^ 아오키, 거시경제 모델링의 새로운 접근법
  26. ^ 확률과 컴퓨팅, M. Mitzenmacher와 E.케임브리지 대학 출판부
  27. ^ Batra, Mridula; Agrawal, Rashmi (2018). Panigrahi, Bijaya Ketan; Hoda, M. N.; Sharma, Vinod; Goel, Shivendra (eds.). "Comparative Analysis of Decision Tree Algorithms". Nature Inspired Computing. Advances in Intelligent Systems and Computing. Singapore: Springer. 652: 31–36. doi:10.1007/978-981-10-6747-1_4. ISBN 978-981-10-6747-1.
  28. ^ Jaynes, Edwin T. (September 1968). "Prior Probabilities". IEEE Transactions on Systems Science and Cybernetics. 4 (3): 227–241. doi:10.1109/TSSC.1968.300117. ISSN 2168-2887.
  29. ^ Rubinstein, Reuven Y.; Kroese, Dirk P. (9 March 2013). The Cross-Entropy Method: A Unified Approach to Combinatorial Optimization, Monte-Carlo Simulation and Machine Learning. Springer Science & Business Media. ISBN 978-1-4757-4321-0.

이 문서에는 Creative Commons Attribution/Share-Alike License에 따라 라이센스가 부여된 PlanetMath에 Shannon의 엔트로피 자료가 포함되어 있습니다.

추가 정보

정보 이론 교과서

외부 링크