Kendall 순위 상관 계수

Kendall rank correlation coefficient

통계학에서 Kendall 순위 상관 계수는 일반적으로 Kendall의 θ 계수(그리스어 문자 θ, 타우 뒤에 있음)로 불리며, 측정된 두 수량 사이의 순서적 연관성을 측정하는 데 사용되는 통계량입니다.θ검정은 θ계수에 기초한 통계의존성에 대한 비모수 가설 검정이다.

수량에 따라 순위가 매겨질 때 데이터 순서의 유사성을 나타내는 순위 상관의 척도입니다.구스타프 페치너가 1897년 [2]시계열 맥락에서 비슷한 척도를 제안했음에도 불구하고 [1]1938년에 이것을 개발한 모리스 켄달의 이름을 따왔다.

직관적으로 두 변수 사이의 Kendall 상관 관계는 관측치가 두 변수 간에 유사하거나(또는 상관 관계가 1) 등급(즉, 변수 내 관측치의 상대적 위치 레이블: 1, 2, 3 등)을 가질 때 높고 관측치가 서로 다른(또는 상관 관계가 완전히 다른) 경우 낮습니다.f -1) 두 변수 사이의 순위.

Kendall의 Spearman의 모두 보다 일반적인 상관계수의 특수한 경우로 공식화할 수 있다.

정의.

회색 영역의 모든 점이 일치하고 흰색 영역의 모든 점이 포인트, Y와 관련하여 불일치합니다. {n == style 435 { 쌍이 가능합니다.이 예제에서는 일치 점 쌍 395개와 불일치 점 쌍 40개가 있으므로 Kendall 순위 상관 계수가 0.816입니다.

( ,1 ),., ( x , n ( ){ displaystyle ( x} , _ {1} , ... ( x _{ n , _ { } ( x i \ x {} i _ { }의 모든 값이 일치하도록 합니다.관찰의 모든;j{\displaystyle i<, j}, 만약(x,)j){\displaystyle(x_{나는},x_{j})},(y는 나는, yj)의 정렬 순서{\displaystyl 화합하는 사람들이라고 한다 제가 거기 <{\displaystyle(x_{나는},y_{나는})}과()j, yj){\displaystyle(x_{j},y_{j})},(x, y 나는).e(y_{나는},y_{j})}:만약 둘 다 나는입니다. x 즉^;x_{j}}과 y 나는입니다.; 베j{\displaystyle y_{나는}>, y_{j}}또는 둘 다 나는 < x을 보유하고 있다;)j{\displaystyle x_{나는}<, x_{j}}과 y 나는 <, 베j{\displaystyle y_{나는}<, y_{j}}, 그렇지 않으면 그들은 조화를 이루지 못하는 것으로 알려져 있j{\displaystyle x_{나는}&gt에 동의한다..

Kendall δ 계수는 다음과 같이 정의됩니다.

[3]

여기서( 2) (-1) ({ 2)={ \ 2 n개 항목에서 두 항목을 선택하는 방법의 이항 계수입니다.

특성.

분모는 쌍의 조합의 총수이므로 계수는 -1 ≤ 1 1 1 범위여야 합니다.

  • 두 순위 간의 합치가 완벽할 경우(즉, 두 순위가 동일할 경우) 계수의 값은 1이다.
  • 두 순위 간의 불일치가 완벽할 경우(즉, 한 순위가 다른 랭킹의 역) 계수는 -1 값을 갖는다.
  • X와 Y가 독립적이고 일정하지 않으면 계수의 기대치는 0입니다.
  • Kendall의 순위 계수에 대한 명시적 표현은 ( - 1)i < j ( - j ) - y =\displaystyle )}}} \ {s_gn이다.

가설 검정

Kendall 순위 계수는 두 변수가 통계적으로 종속적인 것으로 간주될 수 있는지 여부를 결정하기 위해 통계 가설 검정에서 검정 통계량으로 자주 사용됩니다.이 검정은 X 또는 Y의 분포 또는 (X, Y)의 분포에 대한 가정에 의존하지 않으므로 비모수 검정입니다.

XY의 독립성이라는 귀무 가설에서 θ표본 분포기대치가 0입니다.정확한 분포는 공통 분포로 특성화할 수 없지만 작은 표본에 대해서는 정확히 계산할 수 있습니다. 큰 표본의 경우 평균 0과 분산이 있는 정규 분포에 대한 근사치를 사용하는 것이 일반적입니다.

( + )n ( - ( 2 + 5 ) }{ 9 ( )[4]

동점자의 어카운팅

{ ( i , ), ( , ) { \ { ( i , x { } , ( _ { , _ { } ) i {\}= i {i}=j일 경우 동점이라고 하며, 동점 쌍은 일치하지도 불일치하지도 않습니다.데이터에서 동치 쌍이 발생하면 계수를 [-1, 1] 범위로 유지하기 위해 여러 가지 방법으로 수정할 수 있습니다.

타우아

Tau-a 통계량은 교차표연관성을 검정합니다.두 변수 모두 순서형이어야 합니다.타우는 넥타이에 대해 어떠한 조정도 하지 않을 것이다.다음과 같이 정의됩니다.

여기c n, nd 0 n은 다음 항과 같이 정의됩니다.

타우브

Tau-a와 달리 Tau-b 통계량은 [5]동점을 조정합니다.Tau-b 값의 범위는 -1(100% 음의 연관성 또는 완전 반전)에서 +1(100% 양의 연관성 또는 완전 일치)입니다.값 0은 연관성이 없음을 나타냅니다.

Kendall Tau-b 계수는 다음과 같이 정의됩니다.

어디에

BASIC에서 개발된 간단한 알고리즘은 대체 공식을 사용하여 Tau-b 계수를 계산합니다.[6]

SPSS와 같은 일부 통계 패키지는 '통상' 일치 쌍과 불일치 [7]쌍 수의 두 배로 계산 효율성을 위해 대체 공식을 사용한다.

타우시

Tau-c([8]Stuart-Kendall Tau-c라고도 함)는 비제곱([8][9]예: 직사각형) 분할표를 기반으로 한 데이터 분석에 Tau-b보다 적합합니다.따라서 두 변수의 기본 척도가 가능한 값 수가 같으면 Tau-b를 사용하고 순위가 매겨지기 전에 Tau-c를 사용합니다.예를 들어 한 변수는 5점 척도(매우 양호, 양호, 평균, 불량, 매우 불량)로 점수를 매기는 반면 다른 변수는 더 미세한 10점 척도로 점수를 매길 수 있습니다.

Kendall Tau-c 계수는 다음과 [9]같이 정의됩니다.

어디에

중요도 테스트

수량이 통계적으로 독립되어 있는 경우, { 분포는 알려진 분포로 쉽게 특성화할 수 없습니다., § A{\ _ 경우 z A{\ 은 변수가 통계적으로 독립되어 있는 경우 대략 표준 정규 분포를 따릅니다.

따라서 두 변수가 통계적으로 종속되는지 여부를 테스트하기 위해 A합니다.에서 표준 정규 분포의 누적 확률을 - A- )에서구합니다. 2-꼬리 검정의 경우 이 숫자에 2를 곱하면 p-값이 됩니다.p-값이 주어진 유의 수준보다 작으면 수량이 통계적으로 독립적이라는 귀무 가설을 기각합니다.

A에 많은 조정을 추가해야 합니다. 동점을 설명할 때. z B는 §(\ 분포와 동일한 분포를 가지며, 수량이 통계적으로 독립되어 있는 경우 다시 표준 정규 분포와 거의 동일합니다.

어디에

이것은 Mann-Kendall [10]테스트라고 불리기도 합니다.

알고리즘

c- d \ n { } - n { 의 직접 계산에는 다음 의사 코드로 특징지어지듯이2개의 중첩된 반복이 포함됩니다.

number := 0(i := 2의 경우)j : = 1..(i - 1)에 대한 N do는 : = number + sign(x[i] - x[j]) × sign(y[i] - y[j])를 반환합니다.

이 알고리즘은 구현이 빠르지만 복잡도가 O2 O이므로 큰 샘플에서는 매우 느립니다.Merge Sort 알고리즘을 기반으로 구축된 보다 정교한[11] 알고리즘을 사용하여 O logn {n 으로 분자를 계산할 수 있습니다.

첫 번째 데이터 포인트 정렬은 첫 번째 (\ x로, 두 번째\ x 두 번째인 y(\ y로 정렬됩니다.이 첫 번째 에서는y\y는 정렬되지 않으며 알고리즘의 핵심은 Bu의 스텝 수를 계산합니다.bble Sort는 이 yy_style 정렬에 필요합니다.확장 머지 정렬 알고리즘은 O logn { On)}의 복잡도를 하여 S){ S를 계산할 수 있습니다으로§의 분자(\ 다음과 같이 계산됩니다.

계산되지만 x xy({y의 조인트 타이에 대해서는 계산됩니다.

Merge Sort에서는 정렬할 데이터를 {\의 2개의 거의 동일한 절반으로 분할한 후 각 절반씩 재귀적으로 정렬한 후 완전히 정렬된 벡터로 병합합니다.버블 정렬 스왑의 는 다음과 같습니다.

서 Y {\Y_{\{left g {\ {\ {{rm {right 정렬된 버전입니다는 머지 조작에 대응하는 버블소트 스왑을 변환합니다.( "," ){( \ , \ ) } 은 다음 의사 코드에 나타나듯이 계산됩니다.

함수 M(L[1..n], R[1..m])은 i : = 1 j : = 1 nSwaps : = 0인 반면, i n n 및 j ≤ m은 R[j] < L[i]이면 nSwaps + i + 1 j : = i + 1 = i + 1이다.

위의 스텝의 단점은 x x정렬 버전과 y(\ y 버전 모두로 끝나는 것입니다.이것에 의해, BB})의 계산에 사용되는 는, a(\displaystyle \tau_})로 간단하게 구할 수 있습니다.단일 선형 시간이 정렬된 어레이를 통과합니다.

소프트웨어 구현

  • R 의 통계 베이스 패키지는, 그 「stats」패키지로 테스트를 실장합니다).cor(x, y, method = "kendall")는 동작합니다만, 나중에 p-value를 반환하지 않습니다).
  • Python의 경우 SciPy 라이브러리는 연산을 구현합니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Kendall, M. (1938). "A New Measure of Rank Correlation". Biometrika. 30 (1–2): 81–89. doi:10.1093/biomet/30.1-2.81. JSTOR 2332226.
  2. ^ Kruskal, W. H. (1958). "Ordinal Measures of Association". Journal of the American Statistical Association. 53 (284): 814–861. doi:10.2307/2281954. JSTOR 2281954. MR 0100941.
  3. ^ Nelsen, R.B. (2001) [1994], "Kendall tau metric", Encyclopedia of Mathematics, EMS Press
  4. ^ Prokhorov, A.V. (2001) [1994], "Kendall coefficient of rank correlation", Encyclopedia of Mathematics, EMS Press
  5. ^ Agresti, A. (2010). Analysis of Ordinal Categorical Data (Second ed.). New York: John Wiley & Sons. ISBN 978-0-470-08289-8.
  6. ^ Alfred Brophy. "An algorithm and program for calculation of Kendall's rank correlation coefficient" (PDF).
  7. ^ IBM (2016). IBM SPSS Statistics 24 Algorithms. IBM. p. 168. Retrieved 31 August 2017.
  8. ^ a b Berry, K. J.; Johnston, J. E.; Zahran, S.; Mielke, P. W. (2009). "Stuart's tau measure of effect size for ordinal variables: Some methodological considerations". Behavior Research Methods. 41 (4): 1144–1148. doi:10.3758/brm.41.4.1144. PMID 19897822.
  9. ^ a b Stuart, A. (1953). "The Estimation and Comparison of Strengths of Association in Contingency Tables". Biometrika. 40 (1–2): 105–110. doi:10.2307/2333101. JSTOR 2333101.
  10. ^ Glen_b. "Relationship between Mann-Kendall and Kendall Tau-b".
  11. ^ Knight, W. (1966). "A Computer Method for Calculating Kendall's Tau with Ungrouped Data". Journal of the American Statistical Association. 61 (314): 436–439. doi:10.2307/2282833. JSTOR 2282833.

추가 정보

외부 링크