근사 엔트로피

Approximate entropy

통계에서 근사 엔트로피(ApEntropy)는 시계열 데이터에 대한 정기성의 양과 변동의 예측 불가능성을 정량화하는 데 사용되는 기법이다.[1]

예를 들어 다음과 같은 두 가지 데이터 시리즈가 있다.

시리즈 1: (10,20,10,20,10,10,20,10,10,10,20,10,10,10,10,20...)은 10과 20을 번갈아 쓴다.
시리즈 2: (10,10,20,10,20,20,20,20,10,20,10,10,10,20,20,20...) 값은 각각 확률 1/2로 무작위로 선택된다.

평균분산과 같은 모멘트 통계량은 이 두 열을 구별하지 못할 것이다.순위 순서 통계량 또한 이러한 열을 구별하지 못할 것이다.그러나 시리즈 1은 "완벽하게 규칙적"이다. 한 용어의 값이 20이라는 것을 알면 다음 용어의 값이 10이라는 것을 확실히 예측할 수 있다.시리즈 2는 랜덤하게 평가된다. 한 항이 20이라는 값을 갖는다는 것은 다음 항이 어떤 가치를 가질 것인지에 대한 통찰력을 주지 못한다.

규칙성은 원래 정확한 규칙성 통계에 의해 측정되었는데, 이 통계는 주로 다양한 엔트로피 측정에 초점을 맞추고 있다.[1]그러나 정확한 엔트로피 계산에는 방대한 양의 데이터가 필요하며, 그 결과는 시스템 노이즈의 영향을 크게 받게 [2]되므로 이러한 방법을 실험 데이터에 적용하는 것은 실용적이지 않다.어펜은 스티브 M에 의해 개발되었다. 정확한 정규성 통계량인 Kolmogorov-Sinai 엔트로피를 수정하여 이러한 제한을 처리하는 핀쿠스.ApEn은 처음에 심장 박동수와 같은 의료 데이터를 분석하기 위해 개발되었고,[1] 후에 금융,[3] 생리학,[4] 인적 요인 공학,[5] 기후 과학 분야에서 응용 프로그램을 확산시켰다.[6]

알고리즘

근사 엔트로피의 이론적 기초에 대한 설명이 포함된 종합적인 단계별 자습서를 이용할 수 있다.[7]알고리즘은 다음과 같다.

1단계
데이터 ( ), ( ),… ,( N) \ \ \ 의 시계열을 형성하십시오이는 시간 간격과 동일한 측정값의 N 원시 데이터 값이다.
2단계
양의 정수m실수r을 수정한다.m 값은 비교한 각 데이터 실행(본질적으로 )의 길이를 나타내며, r은 필터링 수준을 지정한다.
3단계
Form a sequence of vectors ,, in , real -dimensional space defined by + - ),
4단계
Use the sequence , to construct, for each i,
서 d[ x, x^{*}}}은(는) 다음과 같이 정의된다.
() {\ {}의 m스칼라 성분으로, d는벡터x ( ) 사이의 거리를 나타낸다 이(가) 모든 값을 차지하므로 = 일 때 제공된 일치가 카운트된다(후속성은 자체와 일치함).
5단계
정의
,
6단계
대략적인 엔트로피 ) 를 다음과 같이 정의하십시오.
여기서 (는) 2단계에서와 같이 고정된 m r에 대한 자연 로그입니다.
파라미터 선택
일반적으로 = 또는 = 을 선택하고r은 애플리케이션에 크게 의존한다.

Pincus를 기반으로 하는 [8]에 대한 구현은 [ ( ), x (하는 반면, 원본 기사는 4단계에서 d[ ( ), ( ) , x ( ) x (j)\ 사용한다.인위적으로 구성된 예에 대한 우려는 있지만 실제로는 그렇지 않다.

해석

시계열의 반복적인 변동 패턴의 존재는 그러한 패턴이 없는 시계열보다 더 예측 가능하게 한다.ApEn은 유사한 관측치 패턴이 추가로 유사한 관측치를 따르지 않을 가능성을 반영한다.[9]많은 반복 패턴을 포함하는 시계열은 상대적으로 작은 ApEn을 가지고 있다; 덜 예측 가능한 과정은 더 높은 ApEn을 가지고 있다.

한 가지 예

심박수 시퀀스 그림

= \, 이 시퀀스가 시간 내에 동일한 간격으로 심장 박동수의 51개 샘플로 구성된다고 가정해 보십시오.

(즉, 시퀀스는 3의 기간으로 주기적이다.)= \ = 3 \을(를) 선택하십시오(m \ m} \ r의 값은 결과에 영향을 주지 않고 변경할 수 있음).

벡터 시퀀스 구성:

( 4)=[ ( 4) ( ) =[

거리는 다음과 같이 계산한다.

참고 ( ) -( )> ( ) -( ) \ \ \) > 그래서

마찬가지로

Therefore, such that include , and th총수는 17이다.

4단계의 ( i) {\ (i)}, - m + {\ N-m그래서 xs(j)((j){\text{s}}}가 d[x(3),)(j)]<>r{\displaystyle\와 같이 d[\mathbf{x}(3),\mathbf{x}(j)]<, r}을 포함한다)(3), 음(6), 음(9),…, x(48){\displaystyle \mathbf{)}(3),\mathbf{)}(6),\mathbf{)}(9),\ldots ,\mathbf{)}(48)}, 그리고 정확otal숫자는 16이다.

그런 다음 m=3에 대해 위의 단계를 반복한다.먼저 벡터 시퀀스를 형성하십시오.

( )=[ ) )=[

벡터 ( ), x (j), ( i 사이의 거리를 계산해 보면 필터링 수준을 만족하는 벡터는 다음과 같은 특성이 있음을 알 수 있다.

그러므로

마지막으로

그 값은 매우 작기 때문에 순서가 규칙적이고 예측가능하다는 것을 의미하며, 이는 관찰과 일치한다.

파이썬 구현

수입하다 불결한 로서 np  반항하다 아펜(U, m, r) -> 둥둥 뜨다:     """ 대략적인_엔트로피."""      반항하다 _maxdist(x_i, x_j):         돌아오다 맥스.([복근(ua - va) 을 위해 ua, va  지퍼를 채우다(x_i, x_j)])      반항하다 _피(m):         x = [[U[j] 을 위해 j  범위(i, i + m - 1 + 1)] 을 위해 i  범위(N - m + 1)]         C = [             ([1 을 위해 x_j  x 만일 _maxdist(x_i, x_j) <= r]) / (N - m + 1.0)             을 위해 x_i  x         ]         돌아오다 (N - m + 1.0) ** (-1) * 합계를 내다(np.통나무를 하다(C))      N = (U)      돌아오다 _피(m) - _피(m + 1) 

사용 예제:

>>>U = np.배열하다([85, 80, 89] * 17) >>>인쇄하다(아펜(U, 2, 3)) 1.0996541105257052e-05 >>>랜두 = np.무작위의.선택하다([85, 80, 89], 사이즈를 맞추다=17*3) >>>인쇄하다(아펜(랜두, 2, 3)) 0.8626664154888908 

이점

ApEn의 장점은 다음과 같다.[2]

  • 컴퓨팅 수요 감소.ApEn은 소형 데이터 샘플(n < 50 포인트)에 대해 작동하도록 설계할 수 있으며, 실시간으로 적용할 수 있다.
  • 소음으로 인한 영향 감소.데이터가 소음이 심한 경우, ApEn 측정치를 데이터의 소음 수준과 비교하여 데이터에 어떤 진정한 정보가 존재할 수 있는지 판단할 수 있다.

적용들

에이펜은 정신분열증,[10] 간질,[11] 중독과 같은 정신질환에서 EEG를 분류하는 데 적용되었다.[12]

제한 사항

ApEn 알고리즘은 계산에서 ln(0)이 발생하지 않도록 각 시퀀스를 자체 일치로 계산한다.이 단계는 ApEn의 편향을 유발할 수 있으며, 이러한 편향은 ApEn이 실제로 두 가지 나쁜 속성을 갖게 한다.[13]

  1. ApEn은 기록 길이에 크게 의존하고 있으며, 쇼트 레코드의 경우 예상보다 한결같이 낮다.
  2. 그것은 비교적 일관성이 없다.즉, 한 데이터 세트의 ApEn이 다른 데이터 세트의 ApEn보다 높으면 시험한 모든 조건에서 더 높은 상태를 유지해야 하지만 그렇지 않아야 한다.

참고 항목

참조

  1. ^ a b c Pincus, S. M.; Gladstone, I. M.; Ehrenkranz, R. A. (1991). "A regularity statistic for medical data analysis". Journal of Clinical Monitoring and Computing. 7 (4): 335–345. doi:10.1007/BF01619355. PMID 1744678. S2CID 23455856.
  2. ^ a b c Pincus, S. M. (1991). "Approximate entropy as a measure of system complexity". Proceedings of the National Academy of Sciences. 88 (6): 2297–2301. Bibcode:1991PNAS...88.2297P. doi:10.1073/pnas.88.6.2297. PMC 51218. PMID 11607165.
  3. ^ Pincus, S.M.; Kalman, E.K. (2004). "Irregularity, volatility, risk, and financial market time series". Proceedings of the National Academy of Sciences. 101 (38): 13709–13714. Bibcode:2004PNAS..10113709P. doi:10.1073/pnas.0405168101. PMC 518821. PMID 15358860.
  4. ^ Pincus, S.M.; Goldberger, A.L. (1994). "Physiological time-series analysis: what does regularity quantify?". The American Journal of Physiology. 266 (4): 1643–1656. doi:10.1152/ajpheart.1994.266.4.H1643. PMID 8184944. S2CID 362684.
  5. ^ McKinley, R.A.; McIntire, L.K.; Schmidt, R; Repperger, D.W.; Caldwell, J.A. (2011). "Evaluation of Eye Metrics as a Detector of Fatigue". Human Factors. 53 (4): 403–414. doi:10.1177/0018720811411297. PMID 21901937. S2CID 109251681.
  6. ^ Delgado-Bonal, Alfonso; Marshak, Alexander; Yang, Yuekui; Holdaway, Daniel (2020-01-22). "Analyzing changes in the complexity of climate in the last four decades using MERRA-2 radiation data". Scientific Reports. 10 (1): 922. Bibcode:2020NatSR..10..922D. doi:10.1038/s41598-020-57917-8. ISSN 2045-2322. PMC 6976651. PMID 31969616.
  7. ^ Delgado-Bonal, Alfonso; Marshak, Alexander (June 2019). "Approximate Entropy and Sample Entropy: A Comprehensive Tutorial". Entropy. 21 (6): 541. Bibcode:2019Entrp..21..541D. doi:10.3390/e21060541. PMC 7515030. PMID 33267255.
  8. ^ [1]
  9. ^ Ho, K. K.; Moody, G. B.; Peng, C.K.; Mietus, J. E.; Larson, M. G.; levy, D; Goldberger, A. L. (1997). "Predicting survival in heart failure case and control subjects by use of fully automated methods for deriving nonlinear and conventional indices of heart rate dynamics". Circulation. 96 (3): 842–848. doi:10.1161/01.cir.96.3.842. PMID 9264491.
  10. ^ Sabeti, Malihe (2009). "Entropy and complexity measures for EEG signal classification of schizophrenic and control participants". Artificial Intelligence in Medicine. 47 (3): 263–274. doi:10.1016/j.artmed.2009.03.003. PMID 19403281.
  11. ^ Yuan, Qi (2011). "Epileptic EEG classification based on extreme learning machine and nonlinear features". Epilepsy Research. 96 (1–2): 29–38. doi:10.1016/j.eplepsyres.2011.04.013. PMID 21616643. S2CID 41730913.
  12. ^ Yun, Kyongsik (2012). "Decreased cortical complexity in methamphetamine abusers". Psychiatry Research: Neuroimaging. 201 (3): 226–32. doi:10.1016/j.pscychresns.2011.07.009. PMID 22445216. S2CID 30670300.
  13. ^ Richman, J.S.; Moorman, J.R. (2000). "Physiological time-series analysis using approximate entropy and sample entropy". American Journal of Physiology. Heart and Circulatory Physiology. 278 (6): 2039–2049. doi:10.1152/ajpheart.2000.278.6.H2039. PMID 10843903.