최소 메시지 길이

Minimum message length

최소 메시지 길이(MML)는 통계적 모델 비교 및 선택을 위한 베이지안 정보-이론적 방법이다.[1] 그것은 Ocam's Razor의 형식 정보 이론 재작성을 제공한다: 모델이 관측된 데이터에 대한 적합성 측도에서 동일할 때에도, 데이터에 대한 가장 간결한 설명을 생성하는 것은 정확할 가능성이 더 높다(해설이 모델의 문장으로 구성되고, 그 다음에 데이터 usi의 무손실 인코딩이 뒤따른다).명시된 모델 ng). MML은 크리스 월리스에 의해 발명되었는데, 최초로 세미날 논문 "분류를 위한 정보 측정"에 실렸다.[2] MML은 단순히 이론적 구성으로서가 아니라 실제로 배치될 수 있는 기법으로서 의도된 것이다.[3] 데이터를 모델링하기 위해 튜링 완성 언어를 사용할 필요가 없다는 점에서 Kolmogorov 복잡성의 관련 개념과 다르다.[4]

정의

Shannon's A Mathematical Theory of Communication (1948) states that in an optimal code, the message length (in binary) of an event , , where has probability , is given by (( ).

Bayes's theorem states that the probability of a (variable) hypothesis given fixed evidence is proportional to , which, by the definition of conditional probability, is equal to . We want the 그러한 가장 높은 후방 확률을 가진 모델(iii) 모델과 데이터 모두를 나타내는 메시지를 (설명) 인코딩한다고 가정합시다. ( )=- ( ( )) E 가장 가능성이 높은 모델이 그러한 메시지를 가장 짧은 것으로 예상된다. The message breaks into two parts: . The first part encodes the model itself. 두 번째 부분에는 모델에 의해 처리되었을 때 관측된 데이터를 출력하는 정보(예: 매개변수 값 또는 초기 조건 등)가 수록되어 있다.

MML은 모델 복잡성을 적합도와 자연스럽고 정밀하게 교환한다. 더 복잡한 모델은 진술하는 데 더 오래 걸리지만(첫 번째 부분은 더 길다) 아마도 데이터에 더 잘 맞을 것이다(두 번째 부분). 따라서 MML 메트릭스는 그 모델이 스스로 비용을 지불하지 않는 한 복잡한 모델을 선택하지 않을 것이다.

연속 값 매개변수

모델이 더 길어질 수 있는 한 가지 이유는 단순히 다양한 매개변수가 더 정밀하게 명시되어 있어서 더 많은 숫자의 전송이 필요하기 때문일 것이다. MML의 힘은 모델에서 매개변수를 얼마나 정확하게 기술할 것인가와 이를 실현하는 다양한 근사치를 취급하는 데서 기인한다. 이를 통해 많은 매개변수가 부정확하게 기술된 모델을 보다 정확하게 기술된 매개변수가 적은 모델과 유용하게 비교할 수 있다.

MML의 주요 특징

  • MML은 다른 구조의 모델을 비교하는 데 사용될 수 있다. 예를 들어, 그것의 초기 적용 분야는 최적의 클래스 수를 가진 혼합물 모델을 찾는 것이었다. 혼합물 모델에 추가 클래스를 추가하면 데이터가 항상 더 정확하게 적합될 수 있지만 MML에 따르면 이러한 클래스를 정의하는 파라미터를 인코딩하는 데 필요한 추가 비트에 대해 가중치를 적용해야 한다.
  • MML은 베이시안 모델 비교의 방법이다. 그것은 모든 모델에게 점수를 준다.
  • MML은 스케일 인바리어스, 통계적으로 불변한다. 많은 베이지안 선택 방법과 달리 MML은 측정 길이에서 부피로, 또는 데카르트 좌표에서 극좌표로 변경해도 상관하지 않는다.
  • MML은 통계적으로 일관성이 있다. Neyman-Scott(1948) 문제나 매개변수당 데이터 양이 위의 경계를 이루는 요인 분석과 같은 문제에 대해 MML은 통계적 일관성을 가진 모든 매개변수를 추정할 수 있다.
  • MML은 측정 정밀도를 설명한다. 연속 파라미터의 최적화를 위해 피셔 정보(Wallace-Freeman 1987 근사치 또는 기타 근사치의 하이퍼볼륨)를 사용한다. 따라서 후부는 확률밀도가 아니라 항상 확률이다.
  • MML은 1968년부터 사용되어 왔다. MML 코딩 체계는 여러 배포에 대해 개발되었으며, 감독되지 않은 분류, 의사결정 나무와 그래프, DNA 시퀀스, 베이시안 네트워크, 신경 네트워크(현재까지 1계층만), 이미지 압축, 이미지 및 기능 분할 등을 포함한 많은 종류의 기계 학습자가 개발되었다.

참고 항목

참조

  1. ^ Wallace, C. S. (Christopher S.), -2004. (2005). Statistical and inductive inference by minimum message length. New York: Springer. ISBN 9780387237954. OCLC 62889003.{{cite book}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  2. ^ Wallace, C. S.; Boulton, D. M. (1968-08-01). "An Information Measure for Classification". The Computer Journal. 11 (2): 185–194. doi:10.1093/comjnl/11.2.185. ISSN 0010-4620.
  3. ^ Allison, Lloyd. (2019). Coding Ockham's Razor. Springer. ISBN 978-3030094881. OCLC 1083131091.
  4. ^ Wallace, C. S.; Dowe, D. L. (1999-01-01). "Minimum Message Length and Kolmogorov Complexity". The Computer Journal. 42 (4): 270–283. doi:10.1093/comjnl/42.4.270. ISSN 0010-4620.
  5. ^ Wallace, C. S.; Dowe, D. L. (1999-01-01). "Minimum Message Length and Kolmogorov Complexity". The Computer Journal. 42 (4): 270–283. doi:10.1093/comjnl/42.4.270. ISSN 0010-4620.

외부 링크

원본 게시:

책:

관련 링크: