에너지 거리
Energy distance에너지 거리는 확률 분포 사이의 통계적 거리다. X와 Y가 각각 누적분포함수(cdf) F와 G를 갖는 R의d 독립 랜덤 벡터인 경우 분포 F와 G 사이의 에너지 거리는 제곱근으로 정의된다.
여기서(X, X', Y, Y')는 독립적이며, X와 X'의 cdf는 F, 와 Y'의 cdf는 G, E 가) 기대값이며 , .는 벡터의 길이를 나타낸다. Energy distance satisfies all axioms of a metric thus energy distance characterizes the equality of distributions: D(F,G) = 0 if and only if F = G. Energy distance for statistical applications was introduced in 1985 by Gábor J. Székely, who proved that for real-valued random variables is exactl하랄드 크레이머의 거리 두 배:[1]
이러한 동등성에 대한 간단한 증거는 Székely(2002)를 참조한다.[2]
그러나 더 높은 차원에서는 에너지 거리가 회전 불변인 반면 Cramér의 거리는 그렇지 않기 때문에 두 거리가 다르다. (Cramér의 거리는 분배 없는 Cramér-von Mises 기준과 같지 않다는 주의)
메트릭 공간에 대한 일반화
메트릭스 공간의 확률 분포에 대한 에너지 거리 개념을 일반화할 수 있다. Let be a metric space with its Borel sigma algebra . Let denote the collection of all probability measures on the measurable space . If μ 및 ν은 ( ) 에 있는 확률 측정값으로,μ 및 and의 에너지 D 을(를) 제곱근으로 정의할 수 있다.
그러나 이것이 반드시 부정적이지 않은 것은 아니다. , ) 스타일이 (가) 강력한 음의 한정된 커널이라면 D D은(는) 메트릭이고 , 반대로(는) 메트릭이다.[3] 이 조건은(, d) 스타일 이(가) 음의 유형을 가지고 있다고 말해 표현된다. 음의 유형은 이(가) 메트릭이 되기에 충분하지 않으며, 후자의 조건은(, ) 이(가) 강한 음의 유형을 가지고 있다고 말해 표현된다. 이 상황에서 에너지 거리는 X와 Y가 동일하게 분포된 경우에만 0이다. 부정적인 유형이지만 강한 부정적인 유형은 아닌 메트릭의 예로는 택사브 메트릭이 있는 평면을 들 수 있다. 모든 유클리드 공간과 분리 가능한 힐버트 공간은 강한 음의 형태를 가지고 있다.[4]
기계 학습을 위한 커널 방법에 관한 문헌에서, 에너지 거리에 대한 이러한 일반화된 개념은 최대 평균 불일치라는 이름으로 연구된다. 가설 검사에 대한 거리 기반 방법과 커널 방법의 동등성은 여러 저자에 의해 다루어지고 있다.[5][6]
에너지 통계
관련된 통계 개념인 E-통계학적 또는 에너지 통계학적[7] 개념은 1980년대 헝가리 부다페스트와 MIT, 예일, 콜롬비아에서 콜로키움 강의를 할 때 Gabor J. Zékeley에 의해 도입되었다. 이 개념은 뉴턴의 잠재적 에너지 개념에 기초한다.[8] 그 아이디어는 통계적 귀무 가설이 참일 때만 0인 통계적 잠재적 에너지에 의해 지배되는 천체로서 통계적 관찰을 고려하는 것이다. 에너지 통계는 통계적 관측 사이의 거리의 함수다.
에너지 거리와 E-통계학적 거리는 Zinger A.A, Kakosynan A.V, Klebanov L.B에서 N-distance와 N-statistic으로 간주되었다. 확률적 모델의 안정성 문제인 일부 확률 지표와 관련된 일부 통계량의 평균 값에 의한 분포 특성. 모스크바, VNIISI, 1989,47-55. (러시아어), 영어 번역: 통계 평균 값과 특정 확률적 메트릭 A에 의한 분포 특성화. A. Zinger, A. V. Kakosyan, L. B. Klebanov in the Journal of 소비에트 수학(1992년) 동일한 논문에서 강력하고 부정적인 확정 커널에 대한 정의가 주어졌고 위에서 논의된 미터법 공간에 대한 일반화를 제공했다. 이 책은[3] 이러한 결과와 그 결과를 통계적 시험에 적용하기도 한다. 이 책에는 또한 이 조치를 잠재력에서 회복시키기 위한 몇 가지 응용 프로그램도 포함되어 있다.
등분포 검정
X와 Y라는 두 변수의 확률 분포가 같다는 귀무 가설을 생각해 보십시오. = μ = X와 Y의 통계 샘플의 경우:
- , x_ 1,
X 표본과 Y 표본 사이에서 다음과 같은 거리의 산술 평균을 계산한다.
- 2}}:}\}\_{j=1}}\{m}\{j
기초 귀무 가설의 E-통계학(E-statistic)은 다음과 같이 정의된다.
, (, Y) 0 0을 (를) 증명할[8][9] 수 있으며, X와 Y의 분포가 같은 경우에만 해당하는 모집단 값이 0임을 증명할 수 있다(μ = {\ 이 귀무 가설에서 검정 통계량은
독립 표준 정규 랜덤 변수의 이차적 형태로 분포의 수렴. 대립 가설에서 T는 무한을 추구하는 경향이 있다. 이를 통해 동일한 분포에 대한 에너지 시험인 일관된 통계 시험을 구성할 수 있다.[10]
이질성의 E-코효율도 도입할 수 있다. 이 값은 항상 0과 1 사이이며 다음과 같이 정의된다.
여기서 는) 예상 값을 나타낸다. H = 정확히 X와 Y의 분포가 같은 경우 0이다.
적합도
다변량 적합도 측정은 임의 치수(표본 크기에 의해 제한되지 않음)의 분포에 대해 정의된다. 에너지 적합도 통계량은
여기서 'X와 X'는 가설 분포에 따라 독립적이며 ∈( 0, ) 2 유일한 필수 조건은 X가 귀무 가설 하의 유한 α {\} 모멘트를 갖는다는 것이다. 귀무 가설 = - X α α \X'\에서 Q의 점근n 분포는 중심 가우스 랜덤 변수의 2차 형식이다. 대립 가설에서 Q는n 확률적으로 무한대 경향이 있으며, 따라서 통계적으로 일관적인 시험을 결정한다. 대부분의 적용에서 지수 1(유클리드 거리)을 적용할 수 있다. 다변량 정규성[9] 시험의 중요한 특별한 경우는 R 에너지 패키지에 구현된다. 파레토(전력법)와 같은 무거운 꼬리 분포나 (0,1)에서 지수를 적용하여 안정된 분포에 대해서도 시험이 개발된다.
적용들
응용 프로그램에는 다음이 포함된다.
- 계층적 군집화(Ward의 방법의 일반화)[11][12]
- 다변량 정규성[9] 검정
- 동일한 분포에 대한 다중 표본 가설 [13][14][15]검정
- 변경점 감지[16]
- 다변량 독립성:
- 점수 매기기 규칙:
- 그네팅과 래프터리는[19] 에너지 거리를 적용하여 확률적 예측을 위한 매우 일반적인 유형의 적절한 점수 규칙인 에너지 점수를 개발한다.
에너지 통계 적용은 R을 위한 오픈 소스 에너지 패키지에[26] 구현된다.
참조
- ^ Cramér, H. (1928) 기본 오류의 구성에 대해, Skandinavisk Aktuarietidskrift, 11, 141–180.
- ^ E-통계: 통계 샘플(2002) PDF의 에너지
- ^ a b 클레바노프, L. B. (2005) N-distance와 그 어플리케이션, 카롤리눔 프레스, 샤를르 대학 프라하.
- ^ Lyons, R. (2013). "Distance Covariance in Metric Spaces". The Annals of Probability. 41 (5): 3284–3305. arXiv:1106.5758. doi:10.1214/12-aop803. S2CID 73677891.
- ^ Sejdinovic, D.; Sriperumbudur, B.; Gretton, A. & Fukumizu, K. (2013). "Equivalence of distance-based and RKHS-based statistics in hypothesis testing". The Annals of Statistics. 41 (5): 2263–2291. arXiv:1207.6076. doi:10.1214/13-aos1140. S2CID 8308769.
- ^ Shen,Cencheng; Vogelstein,Joshua T. (2018). "The Exact Equivalence of Distance and Kernel Methods for Hypothesis Testing". arXiv:1806.05514. Cite 저널은 필요로 한다.
journal=
(도움말) - ^ G. J. Szekeley와 M. L. Rizzo(2013). 에너지 통계: 거리에 따른 통계. Journal of Statistical Planning and Inference Volume 143, 2013년 8월 8일, 페이지 1249-1272. [1]
- ^ a b Székeley, G.J.(2002) E-통계: 통계 샘플의 에너지, 기술 보고서 BGSU 번호 02-16.
- ^ a b c Székely, G. J.; Rizzo, M. L. (2005). "A new test for multivariate normality". Journal of Multivariate Analysis. 93 (1): 58–80. doi:10.1016/j.jmva.2003.12.002. 재인쇄
- ^ G. J. Szekeley와 M. L. Rizzo(2004). High Dimension, InterStat, 11월 (5)에서 등분포 검정. 재인쇄하다.
- ^ Székeley, G. J. 및 Rizzo, M. L.(2005) 거리 내 접합부를 통한 계층적 군집화: 병동의 최소 분산 방법 확장, 분류 저널, 22(2) 151–183
- ^ Varin, T., Bureau, R., Mueller, C. and Willett, P. (2009). "Clustering files of chemical structures using the Szekely-Rizzo generalization of Ward's method" (PDF). Journal of Molecular Graphics and Modelling. 28 (2): 187–195. doi:10.1016/j.jmgm.2009.06.006. PMID 19640752.CS1 maint: 복수 이름: 저자 목록(링크) "eprint".
- ^ M. L. Rizzo와 G. J. Székley(2010년). DISCO 분석: 비모수적 분산 분석 확장, 적용 통계 연보 4, 1034–1055. arXiv:1011.2288
- ^ Szekeley, G. J. 및 Rizzo, M. L.(2004) High Dimension, InterStat, 11월(5)에서 등분포 검정. 재인쇄하다.
- ^ Ledlie, 조나단과 Pietzuch, 피터와 셀처로, Margo는(2006년)."그리고 정확한 네트워크 Coordinates 안정적인".26일 IEEE국제 회의 분산 시스템에(ICDCS'06).Sovetskaia Meditsina.ICDCS 2006.워싱턴, DCUSA:IEEE컴퓨터 학회.를 대신하여 서명함. 74–83.CiteSeerX 10.1.1.68.4006. doi:10.1109/ICDCS.2006.79.아이 에스비엔 978-0-7695-2540-2.PMID 1154085.S2CID 6770731.CS1 maint:복수의 이름:작가들(링크)PDF는 승객을 머신에 2011-07-08 Archived을 열거한다.
- ^ Albert Y. Kim; Caren Marzban; Donald B. Percival; Werner Stuetzle (2009). "Using labeled data to evaluate change detectors in a multivariate streaming environment". Signal Processing. 89 (12): 2529–2536. CiteSeerX 10.1.1.143.6576. doi:10.1016/j.sigpro.2009.04.011. ISSN 0165-1684. [2] 사전 인쇄:TR534.
- ^ 세켈리, G. J., 리조 M. L., N. K. 바키로프(2007). "거리 상관에 의한 독립성 측정 및 시험", 통계연보, 35, 2769–2794. arXiv:0803.4101
- ^ 세켈리, G. J.와 리조, M. L. (2009) "브라운 거리 공분산", 적용 통계 연보, 3/4, 1233–1308. arXiv:1010.0297
- ^ T. Gneiting; A. E. Raftery (2007). "Strictly Proper Scoring Rules, Prediction, and Estimation". Journal of the American Statistical Association. 102 (477): 359–378. doi:10.1198/016214506000001437. S2CID 1878582. 재인쇄
- ^ 클레바노프 L.B. 확률 메트릭스 클래스와 통계 애플리케이션, 산업 및 기술 통계: Yadolah Dodge, Ed의 통계 데이터 분석. 비르카우저, 바젤, 보스턴, 베를린, 2002,241-252.
- ^ F. Ziel (2021). "The energy distance for ensemble and scenario reduction". Philosophical Transactions of the Royal Society A. 379 (2202): 20190431. arXiv:2005.14670. doi:10.1098/rsta.2019.0431. ISSN 1364-503X. PMID 34092100. S2CID 219124032.
- ^ 통계 및 데이터 분석, 2006, 50, 12, 3619-3628Rui Hu, Xing Qu, Galina Glazko, Lev Klebanov, Andrei Yakovlev 마이크로 배열 분석의 상호관계 변화 탐지: 유전자 선택에 대한 새로운 접근법, BMCBIio informatics, Vol.10, 20(2009), 1-15.
- ^ Yuanhui Xiao, Robert Frisina, Alexander Gordon, Lev Klebanov, Andrei Yakovlev Multivariate Search for Differentially Expressed Gene Combinations BMC Bioinformatics, 2004, 5:164; Antoni Almudevar, Lev Klebanov, Xing Qiu, Andrei Yakovlev Utility of correlation measures in analysis of gene expression, In: NeuroRX, 2006, 3, 3, 384-395; Klebanov Lev, GoRdon Alexander, Land Hartmut, Yakovlev Andrei A 순열 테스트(마이크로 어레이 데이터 분석)
- ^ Victor Benes, Radka Lechenerova, Lev Klebanov, Margarita Slamova, Peter Slama 통계적 2상 입자의 기하학적 비교, 물질 특성화 , Vol. 60 (2009년), 1076 - 1081.
- ^ E. Baiciukynas, A. 베리카스, A. 겔지니스, M. 바카우스키엔, 그리고 나. Olenina(2015) 형태측정학 및 화학측정학 데이터, 화학측정학 및 지능형 실험실 시스템, 146, 10-23에서 여러 그룹의 비교를 위한 통계 에너지 테스트 활용.
- ^ "energy: R package version 1.6.2". Retrieved 30 January 2015.