Kendall 순위 상관 계수
Kendall rank correlation coefficient통계학에서 Kendall 순위 상관 계수는 일반적으로 Kendall의 θ 계수(그리스어 문자 θ, 타우 뒤에 있음)로 불리며, 측정된 두 수량 사이의 순서적 연관성을 측정하는 데 사용되는 통계량입니다.θ검정은 θ계수에 기초한 통계의존성에 대한 비모수 가설 검정이다.
각 수량에 따라 순위가 매겨질 때 데이터 순서의 유사성을 나타내는 순위 상관의 척도입니다.구스타프 페치너가 1897년 [2]시계열 맥락에서 비슷한 척도를 제안했음에도 불구하고 [1]1938년에 이것을 개발한 모리스 켄달의 이름을 따왔다.
직관적으로 두 변수 사이의 Kendall 상관 관계는 관측치가 두 변수 간에 유사하거나(또는 상관 관계가 1) 등급(즉, 변수 내 관측치의 상대적 위치 레이블: 1, 2, 3 등)을 가질 때 높고 관측치가 서로 다른(또는 상관 관계가 완전히 다른) 경우 낮습니다.f -1) 두 변수 사이의 순위.
Kendall의 과 Spearman의 는 모두 보다 일반적인 상관계수의 특수한 경우로 공식화할 수 있다.
정의.
( ,1 ),., ( x , n ( ){ displaystyle ( x} , _ {1} , ... ( x _{ n , _ { } ( x i \ x {} i _ { }의 모든 값이 일치하도록 합니다.관찰의 모든;j{\displaystyle i<, j}, 만약(x,)j){\displaystyle(x_{나는},x_{j})},(y는 나는, yj)의 정렬 순서{\displaystyl 화합하는 사람들이라고 한다 제가 거기 <{\displaystyle(x_{나는},y_{나는})}과()j, yj){\displaystyle(x_{j},y_{j})},(x, y 나는).e(y_{나는},y_{j})}:만약 둘 다 나는입니다. x 즉^;x_{j}}과 y 나는입니다.; 베j{\displaystyle y_{나는}>, y_{j}}또는 둘 다 나는 < x을 보유하고 있다;)j{\displaystyle x_{나는}<, x_{j}}과 y 나는 <, 베j{\displaystyle y_{나는}<, y_{j}}, 그렇지 않으면 그들은 조화를 이루지 못하는 것으로 알려져 있j{\displaystyle x_{나는}>에 동의한다..
Kendall δ 계수는 다음과 같이 정의됩니다.
여기서( 2) (-1) ({ 2)={ \ 2는 n개 항목에서 두 항목을 선택하는 방법의 이항 계수입니다.
특성.
분모는 쌍의 조합의 총수이므로 계수는 -1 ≤ 1 1 1 범위여야 합니다.
- 두 순위 간의 합치가 완벽할 경우(즉, 두 순위가 동일할 경우) 계수의 값은 1이다.
- 두 순위 간의 불일치가 완벽할 경우(즉, 한 순위가 다른 랭킹의 역) 계수는 -1 값을 갖는다.
- X와 Y가 독립적이고 일정하지 않으면 계수의 기대치는 0입니다.
- Kendall의 순위 계수에 대한 명시적 표현은 ( - 1)i < j ( - j ) - y =\displaystyle )}}} \ {s_gn이다.
가설 검정
Kendall 순위 계수는 두 변수가 통계적으로 종속적인 것으로 간주될 수 있는지 여부를 결정하기 위해 통계 가설 검정에서 검정 통계량으로 자주 사용됩니다.이 검정은 X 또는 Y의 분포 또는 (X, Y)의 분포에 대한 가정에 의존하지 않으므로 비모수 검정입니다.
X와 Y의 독립성이라는 귀무 가설에서 θ의 표본 분포는 기대치가 0입니다.정확한 분포는 공통 분포로 특성화할 수 없지만 작은 표본에 대해서는 정확히 계산할 수 있습니다. 큰 표본의 경우 평균 0과 분산이 있는 정규 분포에 대한 근사치를 사용하는 것이 일반적입니다.
- ( + )n ( - ( 2 + 5 ) }{ 9 ( )[4] 。
동점자의 어카운팅
쌍{ ( i , ), ( , ) { \ { ( i , x { } , ( _ { , _ { } ) i {\}= i {i}=j일 경우 동점이라고 하며, 동점 쌍은 일치하지도 불일치하지도 않습니다.데이터에서 동치 쌍이 발생하면 계수를 [-1, 1] 범위로 유지하기 위해 여러 가지 방법으로 수정할 수 있습니다.
타우아
Tau-a 통계량은 교차표의 연관성을 검정합니다.두 변수 모두 순서형이어야 합니다.타우는 넥타이에 대해 어떠한 조정도 하지 않을 것이다.다음과 같이 정의됩니다.
여기서c n, nd 및0 n은 다음 항과 같이 정의됩니다.
타우브
Tau-a와 달리 Tau-b 통계량은 [5]동점을 조정합니다.Tau-b 값의 범위는 -1(100% 음의 연관성 또는 완전 반전)에서 +1(100% 양의 연관성 또는 완전 일치)입니다.값 0은 연관성이 없음을 나타냅니다.
Kendall Tau-b 계수는 다음과 같이 정의됩니다.
어디에
BASIC에서 개발된 간단한 알고리즘은 대체 공식을 사용하여 Tau-b 계수를 계산합니다.[6]
SPSS와 같은 일부 통계 패키지는 '통상' 일치 쌍과 불일치 [7]쌍 수의 두 배로 계산 효율성을 위해 대체 공식을 사용한다.
타우시
Tau-c([8]Stuart-Kendall Tau-c라고도 함)는 비제곱([8][9]예: 직사각형) 분할표를 기반으로 한 데이터 분석에 Tau-b보다 적합합니다.따라서 두 변수의 기본 척도가 가능한 값 수가 같으면 Tau-b를 사용하고 순위가 매겨지기 전에 Tau-c를 사용합니다.예를 들어 한 변수는 5점 척도(매우 양호, 양호, 평균, 불량, 매우 불량)로 점수를 매기는 반면 다른 변수는 더 미세한 10점 척도로 점수를 매길 수 있습니다.
Kendall Tau-c 계수는 다음과 [9]같이 정의됩니다.
어디에
중요도 테스트
수량이 통계적으로 독립되어 있는 경우, { 분포는 알려진 분포로 쉽게 특성화할 수 없습니다., § A{\ _의 경우 z A{\ 은 변수가 통계적으로 독립되어 있는 경우 대략 표준 정규 분포를 따릅니다.
따라서 두 변수가 통계적으로 종속되는지 여부를 테스트하기 위해 A를 합니다.에서 표준 정규 분포의 누적 확률을 - A- )에서구합니다. 2-꼬리 검정의 경우 이 숫자에 2를 곱하면 p-값이 됩니다.p-값이 주어진 유의 수준보다 작으면 수량이 통계적으로 독립적이라는 귀무 가설을 기각합니다.
A에 많은 조정을 추가해야 합니다. 동점을 설명할 때. z B는 §(\ 분포와 동일한 분포를 가지며, 수량이 통계적으로 독립되어 있는 경우 다시 표준 정규 분포와 거의 동일합니다.
어디에
이것은 Mann-Kendall [10]테스트라고 불리기도 합니다.
알고리즘
c- d \ n { } - n { 의 직접 계산에는 다음 의사 코드로 특징지어지듯이2개의 중첩된 반복이 포함됩니다.
number := 0(i := 2의 경우)j : = 1..(i - 1)에 대한 N do는 : = number + sign(x[i] - x[j]) × sign(y[i] - y[j])를 반환합니다.
이 알고리즘은 구현이 빠르지만 복잡도가 O2 O이므로 큰 샘플에서는 매우 느립니다.Merge Sort 알고리즘을 기반으로 구축된 보다 정교한[11] 알고리즘을 사용하여 O logn {n 으로 분자를 계산할 수 있습니다.
첫 번째 데이터 포인트 정렬은 첫 번째 인(\ x로, 두 번째\ x는 두 번째인 y(\ y로 정렬됩니다.이 첫 번째 에서는y\y는 정렬되지 않으며 알고리즘의 핵심은 Bu의 스텝 수를 계산합니다.bble Sort는 이 yy_style 정렬에 필요합니다.확장 머지 정렬 알고리즘은 O logn { On)}의 복잡도를 하여 S){ S의 를 계산할 수 있습니다으로§의 분자(\는 다음과 같이 계산됩니다.
서 은 및 와 계산되지만 x x 및y({y의 조인트 타이에 대해서는 계산됩니다.
Merge Sort에서는 정렬할 데이터를 및 {\의 2개의 거의 동일한 절반으로 분할한 후 각 절반씩 재귀적으로 정렬한 후 완전히 정렬된 벡터로 병합합니다.버블 정렬 스왑의 수는 다음과 같습니다.
서 Y {\Y_{\{left 및 g {\ 는 {\ {{rm {right의 정렬된 버전입니다는 머지 조작에 대응하는 버블소트 스왑을 변환합니다.( "," ){( \ , \ ) } 은 다음 의사 코드에 나타나듯이 계산됩니다.
함수 M(L[1..n], R[1..m])은 i : = 1 j : = 1 nSwaps : = 0인 반면, i n n 및 j ≤ m은 R[j] < L[i]이면 nSwaps + i + 1 j : = i + 1 = i + 1이다.
위의 스텝의 단점은 x x의정렬 버전과 y(\ y의 버전 모두로 끝나는 것입니다.이것에 의해, BB})의 계산에 사용되는 와는, a(\displaystyle \tau_})로 간단하게 구할 수 있습니다.단일 선형 시간이 정렬된 어레이를 통과합니다.
소프트웨어 구현
- R 의 통계 베이스 패키지는, 그 「stats」패키지로 테스트를 실장합니다).
cor(x, y, method = "kendall")
는 동작합니다만, 나중에 p-value를 반환하지 않습니다). - Python의 경우 SciPy 라이브러리는 의 연산을 구현합니다.
「 」를 참조해 주세요.
- 상관 관계
- 켄달 타우 거리
- 켄달스 W
- 스피어맨 순위 상관 계수
- 굿맨과 크루스칼의 감마
- 테일-센 추정기
- Mann-Whitney U 검정 - 변수 중 하나가 이항 변수인 경우 Kendall의 타우 상관 계수와 동일합니다.
레퍼런스
- ^ Kendall, M. (1938). "A New Measure of Rank Correlation". Biometrika. 30 (1–2): 81–89. doi:10.1093/biomet/30.1-2.81. JSTOR 2332226.
- ^ Kruskal, W. H. (1958). "Ordinal Measures of Association". Journal of the American Statistical Association. 53 (284): 814–861. doi:10.2307/2281954. JSTOR 2281954. MR 0100941.
- ^ Nelsen, R.B. (2001) [1994], "Kendall tau metric", Encyclopedia of Mathematics, EMS Press
- ^ Prokhorov, A.V. (2001) [1994], "Kendall coefficient of rank correlation", Encyclopedia of Mathematics, EMS Press
- ^ Agresti, A. (2010). Analysis of Ordinal Categorical Data (Second ed.). New York: John Wiley & Sons. ISBN 978-0-470-08289-8.
- ^ Alfred Brophy. "An algorithm and program for calculation of Kendall's rank correlation coefficient" (PDF).
- ^ IBM (2016). IBM SPSS Statistics 24 Algorithms. IBM. p. 168. Retrieved 31 August 2017.
- ^ a b Berry, K. J.; Johnston, J. E.; Zahran, S.; Mielke, P. W. (2009). "Stuart's tau measure of effect size for ordinal variables: Some methodological considerations". Behavior Research Methods. 41 (4): 1144–1148. doi:10.3758/brm.41.4.1144. PMID 19897822.
- ^ a b Stuart, A. (1953). "The Estimation and Comparison of Strengths of Association in Contingency Tables". Biometrika. 40 (1–2): 105–110. doi:10.2307/2333101. JSTOR 2333101.
- ^ Glen_b. "Relationship between Mann-Kendall and Kendall Tau-b".
- ^ Knight, W. (1966). "A Computer Method for Calculating Kendall's Tau with Ungrouped Data". Journal of the American Statistical Association. 61 (314): 436–439. doi:10.2307/2282833. JSTOR 2282833.
추가 정보
- Abdi, H. (2007). "Kendall rank correlation" (PDF). In Salkind, N.J. (ed.). Encyclopedia of Measurement and Statistics. Thousand Oaks (CA): Sage.
- Daniel, Wayne W. (1990). "Kendall's tau". Applied Nonparametric Statistics (2nd ed.). Boston: PWS-Kent. pp. 365–377. ISBN 978-0-534-91976-4.
- Kendall, Maurice; Gibbons, Jean Dickinson (1990) [First published 1948]. Rank Correlation Methods. Charles Griffin Book Series (5th ed.). Oxford: Oxford University Press. ISBN 978-0195208375.
- Bonett, Douglas G.; Wright, Thomas A. (2000). "Sample size requirements for estimating Pearson, Kendall, and Spearman correlations". Psychometrika. 65 (1): 23–28. doi:10.1007/BF02294183.