최대 엔트로피의 원리

Principle of maximum entropy

최대 엔트로피의 원리는 시스템에 대한 지식의 현재 상태를 가장 잘 나타내는 확률 분포가 정확하게 명시된 이전 데이터(예: 테스트 가능한 정보를 표현하는 명제)의 맥락에서 가장 큰 엔트로피를 갖는 분포라고 말한다.

또 다른 표현은 다음과 같습니다.확률 분포 함수에 대해 정확하게 명시된 사전 데이터 또는 테스트 가능 정보를 취합니다.이전 데이터를 인코딩할 모든 시행 확률 분포 집합을 고려합니다.이 원리에 따르면 정보 엔트로피가 최대인 분포가 최선의 선택이다.

엔트로피가 최대인 분포는 데이터의 실제 분포에 대해 가장 적게 가정하는 분포이기 때문에, 최대 엔트로피의 원리는 Occam의 면도기의 적용으로 볼 수 있다.

역사

이 원리는 1957년 E[1][2]. T. Jaynes에 의해 통계 역학과 정보 이론 사이의 자연스러운 대응을 강조한 두 개의 논문에서 처음 설명되었습니다.특히, Jaynes는 통계 역학의 깁스 방법이 작동하는 새롭고 매우 일반적인 근거를 제시했다.그는 통계 역학의 엔트로피와 정보 이론의 정보 엔트로피는 기본적으로 같은 것이라고 주장했다.따라서 통계역학논리추론과 정보이론의 일반적인 도구의 특정 적용으로 간주되어야 한다.

개요

대부분의 실제적인 경우, 명시된 사전 데이터 또는 테스트 가능 정보는 문제의 확률 분포와 관련된 보존량 세트(일부 모멘트 함수의 평균값)에 의해 주어진다.이것이 통계 열역학에서 최대 엔트로피 원리가 가장 자주 사용되는 방법입니다.또 다른 가능성은 확률 분포의 대칭성을 규정하는 것입니다.보존된 양대응하는 대칭 그룹 간의 동등성은 최대 엔트로피 방법에서 테스트 가능 정보를 지정하는 이 두 가지 방법에 대해 유사한 동등성을 의미합니다.

최대 엔트로피 원리는 특히 다른 방법, 통계역학논리적 추론에 의해 얻어진 확률 할당의 고유성과 일관성을 보장하기 위해서도 필요하다.

최대 엔트로피 원리는 다른 형태의 이전 데이터를 사용할 수 있는 자유를 명시합니다.특별한 경우로서 균일한 사전 확률 밀도(레이플레이스의 무관심의 원리, 때로는 불충분한 이성의 원리라고 불린다)를 채택할 수 있다.따라서, 최대 엔트로피 원리는 고전 통계의 일반적인 추론 방법을 보는 대안적인 방법일 뿐만 아니라, 그러한 방법의 중요한 개념적 일반화를 나타낸다.

그러나 이러한 진술은 열역학적 시스템이 통계적 앙상블로서 취급을 정당화하기 위해 에르고딕한 것으로 보일 필요가 없다는 것을 의미하지는 않는다.

보통 언어에서, 최대 엔트로피의 원리는 인식론적 겸손 또는 최대 무지의 주장을 나타낸다고 할 수 있다.선택된 분포는 명시된 이전 데이터보다 더 적게 알려졌다고 주장하는 분포, 즉 명시된 이전 데이터보다 더 많은 무지를 인정하는 분포입니다.

테스트 가능 정보

최대 엔트로피의 원리는 테스트 가능한 정보에 적용될 때만 명시적으로 유용합니다.테스트 가능 정보는 진실 또는 거짓이 잘 정의된 확률 분포에 대한 진술입니다.예를 들어, 문장은

x x 기대값은 2.87입니다.

그리고.

(서 p2 이벤트의 확률)은 테스트 가능한 정보의 스테이트먼트입니다.

테스트 가능한 정보가 주어졌을 때, 최대 엔트로피 절차는 정보의 제약에 따라 정보 엔트로피를 최대화하는 확률 분포를 찾는 것으로 구성된다.이 제약된 최적화 문제는 일반적으로 라그랑주 승수의 방법을 사용하여 해결됩니다.

테스트 가능한 정보가 없는 엔트로피 최대화는 확률의 합이 1이라는 보편적인 "제약"을 존중한다.이 제약 조건 하에서 최대 엔트로피 이산 확률 분포는 균일한 분포이다.

적용들

최대 엔트로피의 원리는 일반적으로 추리적인 문제에 두 가지 방법으로 적용됩니다.

선행 확률

최대 엔트로피의 원리는 종종 베이지안 추론을 위한 사전 확률 분포를 얻기 위해 사용된다.Jaynes는 이 접근방식의 강력한 지지자였으며, 최대 엔트로피 분포가 최소한의 정보 [3]분포를 나타낸다고 주장했다.많은 양의 문헌이 현재 최대 엔트로피 우선 순위와 [4][5][6][7]채널 코딩과의 연결을 도출하는 데 전념하고 있다.

사후 확률

최대 엔트로피는 급진 확률론에 대한 충분한 업데이트 규칙이다.리처드 제프리의 확률 운동학은 최대 엔트로피 추론의 특별한 경우이다.그러나 최대 엔트로피가 그러한 모든 업데이트 규칙을 [8]일반화하지는 않는다.

최대 엔트로피 모델

또는 이 원칙은 모델 지정에 대해 종종 호출된다. 이 경우 관측된 데이터 자체가 테스트 가능한 정보로 간주된다.이러한 모델은 자연어 처리에 널리 사용되고 있습니다.이러한 모형의 예로는 독립 관측치의 최대 엔트로피 분류자에 해당하는 로지스틱 회귀 분석이 있습니다.

확률밀도 추정

최대 엔트로피 원리의 주요 용도 중 하나는 이산적이고 연속적인 밀도 [9][10]추정이다.벡터 기계 추정기를 지원하는 것과 유사하게, 최대 엔트로피 원리는 2차 프로그래밍 문제에 대한 해결책을 요구할 수 있으며, 따라서 최적 밀도 추정기로서 희박한 혼합 모델을 제공한다.이 방법의 한 가지 중요한 장점은 밀도 [11]추정에 사전 정보를 통합할 수 있다는 것이다.

선형 구속조건이 있는 최대 엔트로피 분포를 위한 일반 솔루션

개별 케이스

수량1 x2 {xn, x, ......, x}의 값을 취하는 것에 대한 테스트 가능한 정보가 있습니다.우리는 이 정보가 함수k f의 기대치에 대한 m 제약의 형태를 가지고 있다고 가정한다. 즉, 우리는 모멘트 부등식/등식 제약을 만족시키기 위해 확률 분포를 요구한다.

서 F k 관측 가능한 값입니다.우리는 또한 확률 밀도를 1로 합할 것을 요구하는데, 이것은 항등함수에 대한 원시적 제약조건으로 볼 수 있고 제약조건을 주는 1과 같은 관측가능성을 가질 수 있다.

이러한 불평등/균등 제약조건에 따른 최대 정보 엔트로피의 확률 분포는 다음과 [9]같다.

일부 m \ _ _ 깁스 분포라고도 합니다.정규화 상수는 다음과 같이 결정됩니다.

일반적으로 파티션 함수라고 불립니다.(피트만-쿱만 정리는 표본 분포가 유계 치수의 충분한 통계량을 받아들이기 위한 필요충분조건은 그것이 최대 엔트로피 분포의 일반적인 형태를 갖는다는 것이다.)

parametk 파라미터는 Lagrange 승수입니다.동일 구속조건의 경우, 그 값은 비선형 방정식의 해로부터 결정된다.

부등식 제약의 경우, 라그랑주 승수는 선형 [9]제약이 있는 볼록 최적화 프로그램의 해로부터 결정된다.두 경우 모두 닫힌 형태 해법은 없으며, 라그랑주 승수의 계산은 일반적으로 수치적 방법을 필요로 한다.

연속 케이스

연속 분포의 경우 섀넌 엔트로피는 이산 확률 공간에 대해서만 정의되므로 사용할 수 없습니다.대신 에드윈 제인스(1963년, 1968년, 2003년)는 상대적 엔트로피와 밀접한 관련이 있는 다음과 같은 공식을 제시했다.

여기서 Jaynes가 "불변 측도"라고 부른 q(x)는 이산 점의 한계 밀도에 비례한다.현시점에서는 q가 알려져 있다고 가정하고 솔루션 방정식이 주어진 후에 더 자세히 논의하겠습니다.

밀접하게 관련된 양인 상대적 엔트로피는 보통 p qKullback-Leibler 발산(때로는 이 양의 음수로 정의되기도 함)으로 정의된다.쿨백으로 인해 이를 최소화하는 추론 원리는 최소 식별 정보의 원리로 알려져 있다.

실수의 일정 간격 값을 취하는 수량 x에 대한 테스트 가능한 정보 I이 있습니다(아래의 모든 적분은 이 간격을 초과합니다).우리는 이 정보가 함수k f의 기대치에 대한 m 제약의 형태를 가지고 있다고 가정한다. 즉, 우리는 부등식(또는 순수하게 동등한) 모멘트 제약 조건을 만족시키기 위해 확률 밀도 함수를 요구한다.

서 F k 관측 가능한 값입니다.우리는 또한 하나로 통합될 확률 밀도를 필요로 하는데, 이것은 항등함수에 대한 원시적 제약으로 볼 수 있고, 제약 조건을 주는 1과 동일한 관측 가능

이러한 제약조건의 최대c H를 갖는 확률밀도함수는 다음과 같다.[10]

파티션 기능을 사용하여

이산적인 경우와 마찬가지로 모든 모멘트 구속조건이 동일한 경우 k \ _ 파라미터의 값은 비선형 방정식의 시스템에 의해 결정됩니다.

부등식 모멘트 제약이 있는 경우, 라그랑주 승수는 볼록 최적화 프로그램의 [10]해로부터 결정된다.

불변 측정 함수 q(x)는 x가 유계 구간(a, b)에서만 값을 취하는 것으로 알려져 있고 다른 정보가 제공되지 않는다고 가정함으로써 가장 잘 이해할 수 있다.그러면 최대 엔트로피 확률 밀도 함수는

여기서 A는 정규화 상수입니다.불변 측정 함수는 실제로 '관련 정보의 부족'을 인코딩하는 사전 밀도 함수입니다.그것은 최대 엔트로피의 원리에 의해 결정될 수 없으며, 변환 그룹이나 한계화 이론과 같은 다른 논리적 방법에 의해 결정되어야 한다.

최대 엔트로피 분포의 몇 가지 예는 최대 엔트로피 확률 분포에 대한 문서를 참조하십시오.

최대 엔트로피 원리에 대한 정당성

최대 엔트로피 원리의 지지자들은 다음과 같은 두 가지 원칙을 포함하여 여러 가지 방법으로 확률을 할당하는 데 사용하는 것을 정당화한다.이러한 주장은 주어진 대로 베이지안 확률을 사용하기 때문에 동일한 공식을 따릅니다.

'비형식성'의 척도로서의 정보 엔트로피

배타적명제 이산 확률 분포를 고려합니다가장 유익한 분포는 명제 중 하나가 참인 것으로 알려졌을 때 발생합니다.이 경우 정보의 엔트로피는 0이 됩니다.가장 유익한 분배는 어느 하나의 명제를 다른 명제보다 선호할 이유가 없을 때 발생합니다.이 경우 적절한 확률분포는 균일한 분포뿐입니다. 후 정보의 엔트로피는 가능한 최대값 log m\ \ m. 。따라서 정보 엔트로피는 0(완전 정보 제공)부터 로그µm( 정보 제공 까지 특정 확률 분포가 얼마나 비정보적인지를 설명하는 수치 측정으로 볼 수 있다.

우리의 정보에 의해 허용되는 최대 엔트로피로 분포를 선택함으로써 우리는 가능한 한 가장 유익한 분포를 선택하고 있습니다.엔트로피가 낮은 분포를 선택하는 것은 우리가 가지고 있지 않은 정보를 가정하는 것입니다.따라서 최대 엔트로피 분포가 유일하게 합리적인 분포입니다.그러나 m 표현되는 지배적 측정치에 대한 솔루션의 의존성은 사실상 [12]임의적이기 때문에 접근법에 대한 비판의 원인이 된다.

월리스 파생상품

다음 주장은 1962년 [13]그레이엄 월리스가 E. T. Jaynes에게 제안한 결과이다.이는 본질적으로 통계역학에서 Maxwell-Boltzmann 통계에 사용되는 수학적 주장과 동일하지만, 개념적 강조는 상당히 다르다.이는 본질적으로 엄격히 조합적이라는 장점이 있으며, '불확실성', '비형식성' 또는 부정확하게 정의된 다른 개념의 척도로서 정보 엔트로피를 참조하지 않는다.정보 엔트로피 함수는 선험적인 것으로 가정되지 않고 오히려 논쟁의 과정에서 발견됩니다.그리고 그 주장은 자연스럽게 정보 엔트로피를 다른 방식으로 취급하기 보다는 최대화하는 절차로 이어집니다.

상호 배타적인m개 명제 중에서 을 할당하고 싶다고 가정합니다그는 몇 가지 테스트 가능한 정보를 가지고 있지만, 이 정보를 자신의 확률 평가에 어떻게 포함시켜야 할지 잘 모르겠습니다.따라서 그는 다음과 같은 무작위 실험을 구상한다.그는 의 확률량각각의 값m개의 (m 중 무작위로 한다(눈을 가린 상태에서n개의 m개의 버킷(m 것으로 예상할 수 있다).가능한 한 공평하게 하기 위해서, 각 스로우(throw)는 서로 독립해, 모든 버킷의 사이즈는 같게 합니다).실험이 완료되면, 그는 이렇게 얻은 확률 할당이 자신의 정보와 일치하는지 확인합니다. (이 단계가 성공하기 위해서는 정보는 확률 측도의 공간에서 열린 집합에서 주어진 제약 조건이어야 합니다.)일관성이 없는 경우, 그는 그것을 거부하고 다시 시도할 것입니다.만약 그것이 일치한다면 그의 평가는

여기i pi})는 i) 프로포지션의th 확률입니다.은 i(\i) 프로포지션에th 할당된 퀀타 수(i(\i))입니다.

이제 확률 할당의 '세련성'을 줄이기 위해서는 꽤 많은 확률의 양을 사용해야 합니다.주인공은 실제로 다소 긴 무작위 실험을 반복하는 대신, 가장 가능성이 높은 결과를 단순히 계산하고 사용하기로 결심한다.특정 결과가 나올 확률은 다항 분포입니다.

어디에

결과의 다양성으로 알려져 있기도 합니다.

가장 가능성이 높은 결과는W의 극대화하는 것이다 를 직접 하는 것이 아니라 주인공은단조로운 증가 기능을 동등하게 극대화할 수 있다.

이 때, 표현을 단순화하기 위해 주인공은 N \ \ \ infty 로 한계를 잡는다. 즉, 확률 수준이 거친 이산 값에서 부드러운 연속 값으로 변화하기 때문이다.스털링의 근사치를 이용해 그는

주인공이 해야 할 일은 테스트 가능한 정보의 제약 속에서 엔트로피를 최대화하는 것뿐이다.그는 최대 엔트로피 분포가 모든 "공정한" 랜덤 분포 중 가장 가능성이 높은 것으로, 확률 수준이 이산형에서 연속형으로 변화함에 따라 한계에서 밝혀냈다.

베이즈 정리와의 호환성

Giffin과 Caticha(2007)는 Bayes의 정리와 최대 엔트로피의 원리는 완전히 양립하며 "최대 상대 엔트로피의 방법"의 특별한 경우라고 볼 수 있다.그들은 이 방법이 정통 베이지안 추론 방법의 모든 측면을 재현한다고 말한다.또한 이 새로운 방법은 최대 엔트로피 원리 또는 정통 베이지안 방법으로는 개별적으로 해결할 수 없는 문제를 해결할 수 있는 문을 연다.또한, 최근 기여(Lazar 2003, Schennach 2005)는 빈도주의 상대 엔트로피 기반 추론 접근법(예: 경험적 우도 및 지수적으로 기울어진 경험적 우도)을 보여준다.Owen 2001과 Kitamura 2006)을 사전 정보와 결합하여 베이지안 후방 분석을 수행할 수 있다.

Jaynes는 Bayes의 정리가 확률을 계산하는 방법인 반면, 최대 엔트로피는 이전의 확률 [14]분포를 할당하는 방법이라고 말했다.

그러나, 문제를 공식적으로 처리함으로써 베이지안 고려사항으로부터 독립적으로 최소 교차 엔트로피의 원리 (또는 최대 엔트로피의 원리는 주어진 이전과 같은 균일한 분포를 사용하는 특별한 경우)를 사용하여 명시된 사전 분포로부터 직접 후방 분포를 위해 해결하는 것은 개념적으로 가능합니다.제한적인 최적화 문제, 엔트로피 함수가 목적 함수이다.테스트 가능한 정보로서 주어진 평균값의 경우(요구된 확률 분포에 걸쳐 평균값), 요구되는 분포는 형식적으로 최소 교차 엔트로피를 달성하고 주어진 테스트 가능한 정보를 만족시키기 위해 매개변수를 해결해야 하는 깁스(또는 볼츠만) 분포이다.

물리와의 관련성

최대 엔트로피의 원리는 분자 카오스 또는 Stosszahlansatz알려진 가스의 운동 이론의 핵심 가정과 관련이 있습니다.이것은 충돌에 들어가는 입자를 특징짓는 분포 함수를 인수분해할 수 있다고 주장한다.이 진술은 엄밀하게는 물리적인 가설로 이해될 수 있지만,[15] 충돌하기 전 입자의 가장 가능성이 높은 구성에 관한 휴리스틱 가설로도 해석될 수 있다.

「 」를 참조해 주세요.

메모들

  1. ^ Jaynes, E. T. (1957). "Information Theory and Statistical Mechanics" (PDF). Physical Review. Series II. 106 (4): 620–630. Bibcode:1957PhRv..106..620J. doi:10.1103/PhysRev.106.620. MR 0087305.
  2. ^ Jaynes, E. T. (1957). "Information Theory and Statistical Mechanics II" (PDF). Physical Review. Series II. 108 (2): 171–190. Bibcode:1957PhRv..108..171J. doi:10.1103/PhysRev.108.171. MR 0096414.
  3. ^ Jaynes, E. T. (1968). "Prior Probabilities" (PDF or PostScript). IEEE Transactions on Systems Science and Cybernetics. 4 (3): 227–241. doi:10.1109/TSSC.1968.300117. {{cite journal}}:외부 링크 format=(도움말)
  4. ^ Clarke, B. (2006). "Information optimality and Bayesian modelling". Journal of Econometrics. 138 (2): 405–429. doi:10.1016/j.jeconom.2006.05.003.
  5. ^ Soofi, E.S. (2000). "Principal Information Theoretic Approaches". Journal of the American Statistical Association. 95 (452): 1349–1353. doi:10.2307/2669786. JSTOR 2669786. MR 1825292.
  6. ^ Bousquet, N. (2008). "Eliciting vague but proper maximal entropy priors in Bayesian experiments". Statistical Papers. 51 (3): 613–628. doi:10.1007/s00362-008-0149-9. S2CID 119657859.
  7. ^ Palmieri, Francesco A. N.; Ciuonzo, Domenico (2013-04-01). "Objective priors from maximum entropy in data classification". Information Fusion. 14 (2): 186–198. CiteSeerX 10.1.1.387.4515. doi:10.1016/j.inffus.2012.01.012.
  8. ^ Skyrms, B (1987). "Updating, supposing and MAXENT". Theory and Decision. 22 (3): 225–46. doi:10.1007/BF00134086. S2CID 121847242.
  9. ^ a b c Botev, Z. I.; Kroese, D. P. (2008). "Non-asymptotic Bandwidth Selection for Density Estimation of Discrete Data". Methodology and Computing in Applied Probability. 10 (3): 435. doi:10.1007/s11009-007-9057-z. S2CID 122047337.
  10. ^ a b c Botev, Z. I.; Kroese, D. P. (2011). "The Generalized Cross Entropy Method, with Applications to Probability Density Estimation" (PDF). Methodology and Computing in Applied Probability. 13 (1): 1–27. doi:10.1007/s11009-009-9133-7. S2CID 18155189.
  11. ^ Kesavan, H. K.; Kapur, J. N. (1990). "Maximum Entropy and Minimum Cross-Entropy Principles". In Fougère, P. F. (ed.). Maximum Entropy and Bayesian Methods. pp. 419–432. doi:10.1007/978-94-009-0683-9_29. ISBN 978-94-010-6792-8.
  12. ^ Druilhet, Pierre; Marin, Jean-Michel (2007). "Invariant {HPD} credible sets and {MAP} estimators". Bayesian Anal. 2: 681–691. doi:10.1214/07-BA227.
  13. ^ Jaynes, E. T. (2003) 확률론: 과학의 논리, 캠브리지 대학 출판부, 351-355페이지.ISBN 978-0521592710
  14. ^ Jaynes, E. T. (1988) "과학 엔지니어링의 최대 엔트로피 베이지안 방법론(Vol. 1)에 대한 베이지안과 최대 엔트로피 방법의 관계", Kluwer 학술 출판사, 페이지 25-29.
  15. ^ Chliamovitch, G.; Malaspinas, O.; Chopard, B. (2017). "Kinetic theory beyond the Stosszahlansatz". Entropy. 19 (8): 381. Bibcode:2017Entrp..19..381C. doi:10.3390/e19080381.

레퍼런스

추가 정보

  • Boyd, Stephen; Lieven Vandenberghe (2004). Convex Optimization (PDF). Cambridge University Press. p. 362. ISBN 0-521-83378-7. Retrieved 2008-08-24.
  • Ratnaparkhi A.(1997년) "자연어 처리를 위한 최대 엔트로피 모델의 간단한 소개" 기술 보고서 97-08, 펜실베니아 대학 인지과학 연구소.자연어 처리의 맥락에서 최대 엔트로피 방법을 읽기 쉽게 소개합니다.
  • TangA.;잭슨, D, 홉스, J.;Chen, W.;스미스, J.L.;파텔은 H.;프리에토 A;Petrusca, D;Grivich, M. 나, 셰어 A.;Hottowy, P.;Dabrowski, W.;Litke, A.M.;벡스, J.M.(2008년)."A최대 엔트로피 모델 응용 공간과 시간적 상관식에 Cortical 네트웍스에서 체외에".뇌 과학 학술지. 28(2):505–518. doi:10.1523/JNEUROSCI.3359-07.2008. 1.6670549.PMID 18184793.오픈 액세스 기사는 인터넷에서 다양한 서류 및 최대 엔트로피 모델의 소프트웨어 구현에 포인터를 포함하고 있다.