거리 상관 관계

Distance correlation

통계확률 이론에서 거리 상관 또는 거리 공분산은 반드시 동일하지는 않지만 임의의 임의의 두 의 랜덤 벡터 사이의 의존성 측도다. 모집단 거리 상관 계수는 랜덤 벡터가 독립적인 경우에만 0이다. 따라서 거리 상관관계는 두 랜덤 변수 또는 랜덤 벡터 사이의 선형 및 비선형 연관성을 모두 측정한다. 이는 두 랜덤 변수 사이의 선형 연관성만 검출할 수 있는 피어슨의 상관관계와는 대조적이다.

거리 상관관계는 순열시험으로 의존성의 통계적 시험을 수행하는 데 사용될 수 있다. 하나는 먼저 두 개의 랜덤 벡터 사이의 거리 상관 관계(유클리드 거리 행렬의 재중심화)를 계산한 다음 이 값을 데이터의 많은 슈플의 거리 상관과 비교한다.

각 세트에 대한 거리 상관 계수가 xy인 (x, y) 점의 여러 세트. 상관 관계에 대한 그래프와 비교

배경

전통적인 의존도 측정인 Pearson 상관 계수는 주로 두 변수 사이의 선형 관계에 민감하다.[1] 거리 상관관계는 2005년 피어슨의 상관관계의 이러한 결여, 즉 종속변수에 대해서는 쉽게 0이 될 수 있다는 것을 해결하기 위해 가보르 J. 세켈리에 의해 여러 강연에서 소개되었다. 상관 = 0(비상관성)은 독립성을 의미하지 않으며 거리 상관 = 0은 독립성을 의미한다. 거리 상관에 대한 첫 번째 결과는 2007년과 2009년에 발표되었다.[2][3] 거리 공분산이 브라운 공분산과 동일하다는 것이 증명되었다.[3] 이러한 척도는 에너지 거리의 예다.

거리 상관관계는 특히 거리 분산, 거리 표준 편차 및 거리 공분산 등 규격에 사용된 여러 다른 수량에서 도출된다. 이러한 수량은 Pearson 제품-순간 상관 계수의 사양에 해당하는 이름을 가진 일반적인 순간과 동일한 역할을 한다.

정의들

거리 공분산

먼저 샘플 거리 공분산의 정의부터 시작합시다. Let (Xk, Yk), k = 1, 2, ..., n은 실제 값 또는 벡터 값 랜덤 변수 쌍(X, Y)의 통계 표본이다. 첫째, 모든 쌍별 거리를 포함하는 n by n 거리 행렬(aj, k) 및 (bj, k)를 계산한다.

여기서 ⋅은 유클리드 규범을 나타낸다. 그런 다음 두 배로 중심화된 거리를 모두 취하십시오.

where is the j-th row mean, is the k-th column mean, and is the grand mean of the distance matrix of the X s충분하다. 표기법은 b 값과 비슷하다. (중심 거리 행렬(Aj, k) 및 (Bj,k)에서 모든 행과 모든 열의 합은 0이다.) 표본 거리 공분산 제곱(스칼라)은 단순히 AB 제품j, k j, k 산술 평균이다.

통계 Tn = n dCov2n(X, Y)는 임의 치수에서 랜덤 벡터의 독립성에 대한 일관된 다변량 검정을 결정한다. 구현의 경우 R 에너지 패키지의 dcov.test 기능을 참조하십시오.[4]

거리 공분산의 모집단 값은 동일한 선을 따라 정의할 수 있다. X는 확률분포 μ가 있는 p-차원 유클리드 공간에서 값을 취하고 Y는 확률분포 μ가 있는 q차원 유클리드 공간에서 값을 취하는 랜덤 변수가 되게 하며, X와 Y는 기대치가 유한하다고 가정한다. 쓰다

마지막으로 XY의 거리 공분산 제곱의 모집단 값을 다음과 같이 정의한다.

이것이 다음과 같은 정의와 동등하다는 것을 보여줄 수 있다.

여기서 E는 기대값을 나타내며 ( , Y), 독립적이며 동일하게 분포한다. The primed random variables and denote independent and identically distributed (iid) copies of the variables and and are similarly iid.[5] 거리 공분산은 다음과 같이 고전적인 피어슨의 공분산인 cov 단위로 표현할 수 있다.

이 정체성은 거리 공분산이 거리의 공분산인 cov(X - X' , Y - Y' )와 같지 않음을 보여준다. X와 Y가 독립적이지 않더라도 0일 수 있다.

또는 거리 공분산은 랜덤 변수의 결합 특성 함수와 한계 특성 함수의 산물 사이의 거리2 가중 L 규범으로 정의할 수 있다.[6]

where , , and are the characteristic functions of (X, Y), X, and Y, respectively, p, q denote the Euclidean dimension of X and Y, and thus of s and t, and cp, cq are constants. 체중 함수 s + 1 +)- t는 종속 변수에 대해 0으로 가지 않는 스케일 등가 및 회전 불변량 측정을 생성하기 위해 선택된다.[6][7] 그 특성 함수 정의의 어느 해석이 변수와 eitY 서로 다른 시기 s, 그리고 t에 의해 주어지고, 표현 ϕX eisX의 거리 공분산의 특성 함수 정의의 분자에 Y(s, t)− ϕX(s)ϕY(t)은 단순히 고전적인 공 분산 및 X, Y의 순환 표상 eisX 있다.eitY. 특성 함수 정의에 따르면 dCov2(X, Y) = XY가 독립적일 경우에만 0으로 나타난다.

거리 분산 및 거리 표준 편차

거리 분산은 두 변수가 동일한 경우 거리 공분산의 특별한 경우다. 거리 분산에 대한 모집단 값은 제곱근이다.

where , , and are independent and identically distributed random variables, denotes the expected value, and for function ( f 예: [ ]=( E [) ])=(\operatorname {E}[\

표본 거리 분산은 제곱근이다.

1912년에 도입된 코라도 지니평균 차이에 대한 친척이다(그러나 지니가 중심 거리로 작동하지 않았다).[8]

거리 표준 편차거리 분산의 제곱근이다.

거리 상관 관계

두 랜덤 변수의 거리 상관관계거리 공분산거리 표준 편차의 곱으로 나누어 얻는다. 거리 상관관계는

표본 거리 상관 관계는 위의 모집단 계수에 대해 표본 거리 공분산과 거리 분산을 대체하여 정의된다.

샘플 거리 상관 관계를 쉽게 계산하려면 R 에너지 패키지의 dcor 함수를 참조하십시오.[4]

특성.

거리 상관 관계

  1. and ; this is in contrast to Pearson's correlation, which can be negative.
  2. ( , Y)= X,Y)는 X와 Y가 독립된 경우에만 해당된다.
  3. implies that dimensions of the linear subspaces spanned by X and Y samples respectively are almost surely equal and if we assume that these subspaces are equal, then in this subspace for some vector A, scalar b, 그리고 정형외과적 C .

거리 공분산

  1. , Y) 0 (, ) dCov 0
  2. for all constant vectors 스칼라 b , 정형외과적 행렬 , 2
  3. 임의 벡터 , 1) ( ,Y ) 인 경우그러면 이(가) 독립적임
    Equality holds if and only if and are both constants, or and are both constants, or are mutually independent.
  4. ( , Y)= X,Y)는 X와 Y가 독립된 경우에만 해당된다.

이 마지막 성질은 중심 거리로 작업할 때 가장 중요한 효과다.

The statistic is a biased estimator of . Under independence of X and Y [9]

székeley와 Rizzo는 , Y) 불편 추정기를 제공한다.

거리 분산

  1. ( X)= {)는 X= [ X X인 경우에만 거의 확실하다.
  2. ( )= 의 모든 표본 관측치가 동일한 경우에만
  3. for all constant vectors A, scalars b, and orthonormal matrices .
  4. X가 독립적인 경우 (X+ ) ( )+ (Y )}+\dVar

랜덤 변수 X 또는 Y 중 하나가 상수인 경우에만 동등성이 (iv)를 유지한다.

일반화

거리 공분산은 유클리드 거리의 힘을 포함하도록 일반화할 수 있다. 정의

모든 0<>를;α<>만일dCov 2⁡(X, Y, α))0(^ᆮ(X,Y, \alpha)=0}2{\displaystyle 0<, \alpha<>2}, X{X\displaystyle}, Y{Y\displaystyle}독립적이다. 이 특성화 지수 α=2를 위하여 고수하지 않는 것 중요하다. {\displays 이 경우 bivarate(X, ) ,(, Y ;= 2) 2)은Pearson 상관관계의 결정론적 함수다.[2] 해당 거리의 모임이라면 k, ℓ{\displaystyle a_{k,\ell}}와 bk, ℓ{\displaystyle b_{k,\ell}}이α{\displaystyle \alpha}의 힘 0<>α ≤ 2{\displaystyle 0<, \alpha \leq 2}, 그때 α{\displaystyle \alpha}샘플 거리 공분산 w.의 비음의 개수로 정의될 수 있hich

One can extend to metric-space-valued random variables and : If has law in a metric space with metric , then define ) μ ( ) D, and (provided is finite, i.e., has finite first moment), . 다음 Y 에 법칙 finite 이(가) 있는 경우(제한된 첫 번째 순간을 가진 다른 메트릭 공간에서) 정의하십시오.

두 메트릭 공간이 모두 음의 유형인 경우 이는 모든 , X에 대해 음이 아니다.[11] 여기서 미터법 공간, ) 스타일 힐버트 공간의 하위 집합에 대한 등축 경우 음의 유형이 있다[12] 두 메트릭 공간 모두 음의 유형이 강한 경우 , Y)= 경우, (는) 독립적이다.[11]

거리 공분산의 대체 정의

The original distance covariance has been defined as the square root of , rather than the squared coefficient itself. has the property that it is the energy distance between the joint distribution of , 및 여백의 제품. 그러나 이 정의에 따르면 거리 표준 편차가 아닌 거리 분산은 거리와 동일한 단위로 측정된다.

Alternately, one could define distance covariance to be the square of the energy distance: In this case, the distance standard deviation of is measured in the same units as distance, and there exists an unbiased e모집단 거리 [10]공분산 자극기

이러한 대체 정의에서 거리 상관관계는 제곱근보다는 제곱2square ( , ) 로도 정의된다.

대체 공식: 브라운 공분산

브라운 공분산은 공분산 개념을 확률적 과정으로 일반화함으로써 동기부여가 된다. 랜덤 변수 X와 Y의 공분산 제곱은 다음과 같은 형식으로 작성할 수 있다.

여기서 E는 기대값을 나타내고 prime은 독립적이고 동일한 분산 복사본을 나타낸다. 우리는 이 공식의 다음과 같은 일반화가 필요하다. U(s), V(t)가 모든 실제 s에 대해 정의된 임의의 무작위 프로세스인 경우, 다음에 따라 U 중심 버전의 X를 정의하십시오.

감산된 조건부 기대값이 존재할 때마다V Y는 V 중심 버전의 Y를 나타낸다.[3][13][14] (X,Y)의 (U,V) 공분산은 제곱을 가진 음수가 아닌 숫자로 정의된다.

우측이 음성이 아니고 유한할 때마다 가장 중요한 예는 U와 V가 기대치가 0이고 공분산 s + t - s - t = 2 min( 음의 s, t에만 해당)인 양면 독립 브라운 운동/와이니어 과정일 때 입니다. (이것은 표준 Wiener 공정의 공분산의 두 배다. 여기서 인자 2는 계산을 단순화한다.) 이 경우 (U,V) 공분산을 브라운 공분산이라고 하며 다음과 같이 나타낸다.

놀라운 우연이 있다: 브라운 공분산은 거리 공분산과 동일하다.

따라서 브라운의 상관관계는 거리 상관관계와 동일하다.

반면에, 우리가 브라운 운동을 결정론적 정체성 함수 id로 대체한다면, Covid(X,Y)는 단순히 고전적인 Pearson 공분산의 절대값일 뿐이다.

관련 측정지표

커널 기반 상관 관계 메트릭(Hilbert-Schmidt 독립성 기준 또는 HSIC 등)을 포함한 다른 상관 관계 메트릭도 선형 및 비선형 상호작용을 탐지할 수 있다. 거리 상관 관계 분석과 커널 기반 메트릭스는 모두 표준 상관 분석과 독립적인 구성요소 분석과 같은 방법에 사용되어 더 강력한 통계적 힘을 산출할 수 있다.

참고 항목

메모들

참조

외부 링크