엔트로피 추정

Entropy estimation

독립적 성분 분석,[1] 이미지 분석,[2] 유전자 분석,[3] 음성 인식,[4] 다지관 [5]학습 및 시간 지연[6] 추정과 같은 다양한 과학/공학 애플리케이션에서 일부 관찰에 따라 시스템 또는 프로세스의 차등 엔트로피 추정하는 것이 유용하다.

가장 단순하고 일반적인 접근방식은 히스토그램 기반 추정을 사용하지만, 다른 접근방식은 각각 고유한 장점과 단점이 있는 다른 접근방식이 개발되고 사용되어 왔다.[7]방법을 선택하는 주요 요인은 종종 추정치의 편향과 분산 사이의 절충이다.[8] 단, 데이터의 (의견된) 분포의 특성도 요인이 될 수 있다.[7]

히스토그램 추정기

히스토그램 접근법은 연속 랜덤 변수 대한 확률 분포 ( x) 의 차등 엔트로피라는 개념을 사용한다

관측치의 히스토그램이 있는 첫 번째 f( ) 을(를) 다음 x {\의 정량화의 이산 엔트로피를 찾아 근사치를 구할 수 있다.

히스토그램에 의해 주어진 빈 확률로.히스토그램은 그 자체로 소멸된 주파수 분포의[citation needed] 최대 우도(ML) 추정치인데, 여기서 은 i th bin의 폭이다.히스토그램은 계산이 빠르고 간단할 수 있기 때문에 이 접근방식은 어느 정도 매력이 있다.그러나 산출된 추정치는 편향되어 있으며, 추정치에 수정을 가할 수 있지만 항상 만족스러운 것은 아닐 수 있다.[9]

다차원 확률밀도함수(pdf)에 더 적합한 방법은 우선 어떤 방법으로 pdf 추정치를 만든 다음 pdf 추정치에서 엔트로피를 계산하는 것이다.유용한 pdf 추정 방법은 예:가우스 혼합물 모델링(GMM), 여기서 기대 최대화(EM) 알고리즘을 사용하여 데이터 pdf에 근접한 가우스 pdf의 가중 합계의 ML 추정치를 찾는다.

표본 간격에 기초한 추정치

데이터가 1차원이라면 모든 관측치를 취해서 그 가치의 순서대로 놓는 것을 상상할 수 있다.한 값과 다음 값 사이의 간격은 (역수적으로) 해당 영역의 확률 밀도에 대한 대략적인 아이디어를 제공한다. 즉, 값이 서로 가까울수록, 확률 밀도가 더 높다.이것은 분산이 높은 매우 대략적인 추정치지만, 예를 들어 주어진 값과 그것으로부터 1m 떨어진 값 사이의 공간을 생각함으로써 개선할 수 있다. 여기서 m은 일정한 숫자다.[7]

그런 다음 이러한 방식으로 추정된 확률 밀도를 사용하여 히스토그램에 대해 위에 제시된 것과 유사한 방법으로 엔트로피 추정치를 계산할 수 있지만 약간의 수정은 있을 수 있다.

이 접근방식의 주요 단점 중 하나는 한 차원을 넘어서는 것이다: 데이터 포인트를 순서대로 정렬하는 아이디어는 둘 이상의 차원으로 분리된다.그러나 유사한 방법을 사용하여 일부 다차원 엔트로피 추정기가 개발되었다.[10][11]

가장 가까운 이웃에 기반한 추정치

데이터 집합의 각 지점에서 가장 가까운 이웃과의 거리를 찾을 수 있다.우리는 사실 우리의 기준점들의 가장 가까운 거리의 분포로부터 엔트로피를 추정할 수 있다.[7](균일 분포에서 이러한 거리는 모두 상당히 유사한 경향이 있는 반면, 강하게 균일하지 않은 분포에서는 훨씬 더 많이 달라질 수 있다.)

베이시안 추정기

표본이 부족한 정권에서, 분포에 대한 선례가 있으면 추정에 도움이 될 수 있다.그러한 베이지안 추정자 중 하나가 NSB(Nemenman-Shafee-Bialek) 추정자로 알려진 신경과학 맥락에서 제안되었다.[12][13]NSB 추정기는 엔트로피 위에 유도된 이전이 거의 균일하도록 선택한 이전 디리클레의 혼합물을 사용한다.

예상 엔트로피에 기반한 추정치

엔트로피 평가 문제에 대한 새로운 접근방식은 무작위 시퀀스 표본의 예상 엔트로피를 표본의 계산된 엔트로피와 비교하는 것이다.방법은 매우 정확한 결과를 주지만, 편향과 상관관계의 값이 작은 첫 번째 순서의 마르코프 체인으로 모형화된 무작위 시퀀스의 계산에 한정된다.이것은 시료 시퀀스의 크기와 엔트로피 계산의 정확도에 미치는 영향을 고려한 최초의 알려진 방법이다.[14][15]

참조

  1. ^ Dinh-Tuan Pham(2004) 상호 정보 기반의 독립적인 구성요소 분석을 위한 Fast 알고리즘.신호 처리 중.제52권, 제10호, 제2690호–2700호, doi:10.1109/TSP. 2004.834398
  2. ^ Chang, C.-I.; Du, Y.; Wang, J.; Guo, S.M.; Thouin, P.D. (2006) 엔트로피 및 상대 엔트로피 임계값 기법의 조사 및 비교 분석.비전, 이미지 신호 처리, 153권, 문제 6, 837–850, doi:10.1049/ip-vis:20050032
  3. ^ 마틴스, D. C. 외(2008) 본질적으로 다변량 예측 유전자.신호 처리의 선택한 항목에서.제2, 제3, 424–439호, doi:10.1109/JSTSP.2008.923841
  4. ^ Gue Jun Jung; Oh영환(2008) 정보 거리 기반 ASR 매개변수 정량화를 위한 하위 벡터 클러스터링.신호 처리 서신 제15권, 209–212에서 doi:10.1109/LSP.27.9132
  5. ^ 코스타, J.A.;히어로, A.O. (2004) 다지관 학습에서 치수 및 엔트로피 추정에 대한 지오데틱 엔트로피 그래프.신호 처리에서, 52권, 문제 8, 2210–2221, doi:10.1109/TSP. 2004.831130
  6. ^ Bensty, J.; Yiten Huang; Jingdong Chen(2007) 최소 엔트로피를 통한 시간 지연 추정.신호 처리 서신, 제14권, 제3호, 2007년 3월 157160 doi:10.1109/LSP.2006.884038
  7. ^ a b c d J. 비올란트, E. J. 듀윅즈, L. 교르피, E. C. 반 데르 므렌(1997) 비모수 엔트로피 추정: 개요.국제 수학통계 과학 저널 6페이지 17–39.
  8. ^ T. 슈르만, 엔트로피 추정의 바이어스 분석.J. Phys에서. A: 수학. Gen, 37 (2004), 페이지 L295–L301. doi:10.1088/0305-4470/37/27/L02
  9. ^ G. Miller(1955) 정보 추정치의 편향에 대한 참고.심리학에서의 정보이론: 문제와 방법, 페이지 95-100.
  10. ^ E. G. Learned-Miller(2003) 다차원 밀도에 대한 새로운 종류의 엔트로피 추정기, 국제 음향, 음성 및 신호 처리에 관한 국제 회의(ICASSP'03) 2003년 4월 3일자 페이지 297~300.
  11. ^ I. Lee(2010) sample-spacing based density and Entropy estimators for spheral invariant 다차원 데이터, in Neural Computing, vol. 22, 발행물 8, 2010년 4월, 페이지 2208–2227.
  12. ^ 일리야 네멘만, 패리엘 샤피, 윌리엄 비알렉(2003) 엔트로피와 추론, 재방문.신경정보처리의 발전
  13. ^ 일리야 네멘만, 윌리엄 비알렉, 드 로이터(2004) 엔트로피와 신경 스파이크 열차의 정보: 샘플링 문제 진행.물리적 검토 E
  14. ^ Marek Lesniewicz (2014) Przeglad Elektechniczny, volume 90, 2014년 1/4, 페이지 42–46에서 이항 시퀀스의 무작위성 측정 및 기준으로서 엔트로피 기대.
  15. ^ 마르코프 체인으로 모델링된 하드웨어 생성 무작위 이진 시퀀스의 분석 및 측정 [2] Przeglad Elektechniczny, Volume 92, 11/2016, 페이지 268-274.