Pearson 상관 계수

Pearson correlation coefficient

통계학에서 Pearson 상관 계수(PCC, /ɪpərs/n/로 발음)는 Pearson의 r, Pearson 제품-모멘트 상관 계수(PPMCC), 이변량 [1]상관 계수 또는 구어체적으로 단순히 상관[2] 계수(correlation concelation)라고도 합니다.이 값은 두 변수[3][circular reference] 공분산과 표준 편차의 곱 사이의 비율입니다. 따라서 결과가 항상 -1과 1 사이의 값을 가지도록 공분산을 정규화한 측정값입니다.공분산 자체와 마찬가지로 측정값도 변수의 선형 상관 관계만 반영할 수 있으며 다른 많은 유형의 관계나 상관 관계는 무시합니다.간단한 예로 고등학교 10대 표본의 나이와 키는 Pearson 상관 계수가 0보다 훨씬 크지만 1보다 작을 것으로 예상할 수 있습니다(1은 비현실적으로 완벽한 상관 관계를 나타냄).

상관계수 이 서로 다른 산란도의 예( of)
각 집합의 상관 계수가 xy인 여러 개의 (x, y) 점 집합입니다.상관 관계는 선형 관계의 강도와 방향(위쪽 행)을 반영하지만 해당 관계의 기울기(중간 행)나 비선형 관계의 많은 측면(아래쪽)은 반영하지 않습니다.N.B.: 중앙에 있는 그림의 기울기는 0이지만 이 경우 Y의 분산이 0이기 때문에 상관 계수가 정의되지 않습니다.

이름 및 이력

그것은 1880년대에 프란시스 갈튼에 의해 소개된 관련 아이디어로부터 피어슨에 의해 개발되었고,[a][7][8][9][10] 1844년에 오귀스트 브라바이에 의해 수학 공식이 도출되고 출판되었다.따라서 계수의 명칭은 스티글러의 법칙의 한 예이다.

정의.

Pearson의 상관 계수는 두 변수의 공분산을 표준 편차의 곱으로 나눈 값입니다.정의의 형식은 "제품 모멘트" 즉, 평균 조정 랜덤 변수 곱의 평균(원점에 대한 첫 번째 모멘트)을 포함한다. 따라서 이름에 수식어 곱 모멘트는 곱 모멘트를 포함한다.

모집단의 경우

Pearson의 상관 계수는 모집단에 적용될 때 일반적으로 그리스 문자 θ(rho)로 나타내며 모집단 상관 계수 또는 모집단 Pearson 상관 계수라고 할 수 있습니다.랜덤변수 쌍(, Y)\displaystyle(X,을 지정하면 is[11] 공식은 다음과 같습니다.[12]

여기서:

  • 공분산입니다.
  • X \{X는 X 스타일 X의 표준 편차입니다.
  • \{Y는 Y Y의 표준 편차입니다.

공식은 평균과 기대치로 표현할 수 있다.[11] 이후

공식은 다음과 같이 쓸 수도 있습니다.

여기서:

  • § _Y}) \{X는 위와 같이 됩니다.
  • X _ X X평균입니다.
  • Y _ Y Y입니다.
  • 기대됩니다.

공식은 중심적이지 않은 순간으로 표현될 수 있다.부터

공식은 다음과 같이 쓸 수도 있습니다.

Peason의 상관계수는 displaystyle _ 또는 Y(\displaystyle \ _ 0, 무한 또는 정의되지 않은 경우 존재하지 않습니다.

샘플의 경우

표본에 적용할 때 Pearson의 상관 계수는 으로 r y(\ 나타내며 표본 상관 계수 또는 표본 Pearson 상관 계수라고 할 수 있습니다.위의 에 시료에 기초한 공분산 및 분산 추정치를 대입하여 r y({ style 공식을 구할 수 있습니다.쌍으로구성된 {( 1, y1), ,( , y n ) { displaystyle \ \ { ( { , y _ { n} } , , ( x _ , y _ { n } ) \ right } \ { x } } as as as as as as as as as as as as as as as as as as as as

여기서:

  • n은 샘플 크기입니다.
  • i i}, i로 색인화된 개별 샘플 포인트입니다.
  • i = i ( \ { { x } { i=}^{ { i } ( 샘플 평균), y ¯ ¯ ¯ ¯ ¯ ¯ {\ {\ {\ {\ {\ ( \ style {

재배열에서는 r y(\ 다음과 같은 공식을 얻을 수 있습니다.

서 n n},})는 위와 같이 정의됩니다.

이 공식은 표본 상관 관계를 계산하기 위한 편리한 단일 통과 알고리즘을 제안하지만, 관련된 숫자에 따라서는 때때로 수치적으로 불안정할 수 있습니다.

다시[11] 정렬하면 r y(\ 공식이 나타납니다.

서 n i , ¯, y {\ { n 위와 같이 정의됩니다.

r y (\ 공식은 다음과 같습니다.

여기서:

  • i ,, display y n}, 위와 같이 정의되며, , y \},}}는 다음과 같이 정의됩니다.
  • - xx) { - { \ { { \ }는 표준 점수입니다(또한 점수에서도 마찬가지).

y(\ r_ 대체 공식도 사용할 수 있습니다.를 들어 r y에는 다음 식을 사용할 수 있습니다.

여기서:

  • i i, y ",y " " " { n , _ { , _ { i } , { \ { } , { \ { } } 에는 위와 같이 정의되어 있습니다.
  • x n - n ( i - ) 2\ _ { x } ={ \ { \ _ {i } )) deviation deviation deviation deviation deviation deviation deviation deviation deviation deviation deviation ) ) ( s s s s s s s s s s s s s s s

실용적인 문제

특히 Canical Correlation Analysis가 심한 소음 기여로 인해 저하된 상관 값을 보고하는 경우, 심한 소음 조건에서 두 세트의 확률 변수 사이의 상관 계수를 추출하는 것은 중요하지 않다.접근법의 일반화는 다른 [13]곳에 제시되어 있다.

결측 데이터의 경우 Garren은 최대우도 추정기를 [14]도출했습니다.

일부 분포(예: 정규 분포 이외의 안정적인 분포)에는 정의된 분산이 없습니다.

수학적 특성

표본 및 모집단 Pearson 상관 계수 값이 모두 -1과 1 사이입니다.+1 또는 -1과 같은 상관 관계는 정확히 선 위에 있는 데이터 점(표본 상관의 경우) 또는 선에서 완전히 지원되는 이변량 분포(모 상관의 경우)에 해당합니다.Pearson 상관 계수는 대칭입니다. corr(X,Y) = corr(Y,X)입니다.

Pearson 상관 계수의 핵심 수학적 특성은 두 변수의 위치와 척도가 별도로 변경되는 경우 변하지 않는다는 것입니다.즉, X를 a + bX변환하고 Y를 c + dY변환할 수 있습니다. 여기서 a, b, c d는 상관 계수를 변경하지 않고 b, d > 0인 상수입니다(이는 모집단과 표본 피어슨 상관 계수에 모두 적용됩니다).보다 일반적인 선형 변환은 상관관계를 변화시킵니다.이것의 적용에 대해서는, 「n개의 랜덤 변수의 장식」을 참조해 주세요.

해석

상관 계수의 범위는 -1 ~ 1입니다.절대값이 정확히 1이면 선형 방정식은 X와 Y의 관계를 완벽하게 나타내며, 모든 데이터 점이 선 위에 놓여 있습니다.상관 부호는 회귀 기울기에 의해 결정됩니다. +1 값은 모든 데이터 점이 X가 증가할수록 Y가 증가하는 선에 놓여 있음을 의미하며 -1의 [15]경우 그 반대입니다.값이 0이면 변수 [16]간에 선형 종속성이 없음을 의미합니다.

보다 일반적으로 (Xi - X)(Yi - Y)는 Xi Y가 각각 평균의 같은 쪽에 있는 경우에만i 양수라는 점에 유의하십시오.따라서 Xi Y가 동시에 각 평균보다 크거나 동시에 더 작은 경향이 있는 경우i 상관 계수는 양의 값입니다.Xi Y가 각각 평균의 반대편에 있는 경향이 있는 경우i 상관 계수는 음수(반상관)입니다.또한 어느 하나의 경향이 강할수록 상관 계수의 절대값이 커집니다.

Rodgers와 Nicewander는[17] 상관 관계 또는 단순 함수를 해석하는 13가지 방법을 목록화했다.

  • 원시 점수 및 평균의 기능
  • 표준화된 공분산
  • 회귀선의 표준화된 기울기
  • 두 회귀 기울기의 기하 평균
  • 두 분산 비율의 제곱근
  • 표준화된 변수의 평균 교차곱
  • 표준화된 두 회귀선 사이의 각도의 함수
  • 두 변수 벡터 사이의 각도의 함수
  • 표준화된 점수 간 차이의 조정된 분산
  • 풍선 규칙에서 추정됨
  • 등농도의 이변량 타원 관련
  • 설계된 실험의 검정 통계량 함수
  • 두 평균의 비율

기하학적 해석

y = gX(x) [빨간색] x = gY(y) [파란색]에 대한 회귀선

uncentered 데이터의 경우, 상관 계수 및 각도 φ 사이의 두 회귀 한줄씩 관계, y)gX())x)gY(y), x와 탭에서 y에 대해 각각 y는 퇴보한.(여기, φ 시계 반대 방향으로 제분 위수 만약 r입니다. 그 선의 교차로 지점 근처에서 형성된 안에;0,이나 시계 반대 방향으로 fr측정되고 있다.에 대한 월r < 0경우 4번째에서 2번째 사분면에 도달합니다.)표준[18] 편차가 같으면 r = sec - - tan φ이며, 여기서 sec와 tan은 삼각 함수이다.

중심 데이터(즉, 각 변수에 대해 평균 0을 가지도록 각 변수의 표본 수단으로 이동한 데이터)의 경우, 상관 계수는 N차원 공간에서 두 관측 벡터 사이의 각도 θ코사인(각 [19]변수의 N개 관측치의 경우)으로도 볼 수 있다.

데이터 세트에 대해 비중심(비 피어슨 준거) 및 중심 상관 계수를 모두 결정할 수 있습니다.예를 들어, 5개 국가가 각각 1, 2, 3, 50, 80억 달러의 국민 총생산을 가지고 있다고 가정합니다.이 5개국의 빈곤율은 11%, 12%, 13%, 15%, 18%라고 가정합니다.그런 다음 x와 y를 x = (1, 2, 3, 5, 8) y = (0.11, 0.12, 0.13, 0.15, 0.18)의 데이터를 포함하는 5진수 벡터로 정렬합니다.

두 벡터 사이의 각도 θ를 구하는 일반적인 절차에 의해(도트 곱 참조) 비중심 상관 계수는 다음과 같다.

이 비중심 상관 계수는 코사인 유사도와 동일합니다.위의 데이터는 y = 0.10 + 0.01 x와 완전히 상관되도록 의도적으로 선택되었습니다.따라서 Pearson 상관 계수는 정확히 1이어야 합니다.데이터 중심화(θ x x δ(x) = 3.8y x x δ(y) = 0.142)는 x = (-2.8, -1.8, -0.8, 1.2, 4.2)y = (-0.028, -0.018, -0.008, 0.012, 0.12)를 산출합니다.

역시나

상관 관계의 크기 해석

이 그림은 값 예측에 대한 Pearson 상관 관계의 유용성이 크기에 따라 어떻게 달라지는지를 보여 줍니다.X, Y가 상관 와 합동 정규 분포를 취할 경우 1 - - 2 { 여기서 θ의 함수로 표시됨)는 X에 대응하는 값이 주어졌을 때 Y에 대해 주어진 예측 간격을 줄일 수 있는 계수이다.예를 들어, θ = 0.5이면 YX의 95% 예측 구간은 Y의 95% 예측 구간보다 약 13% 작습니다.

몇몇 저자들은 상관 [20][21]계수의 해석에 대한 지침을 제공했다.그러나 그러한 모든 기준은 어떤 면에서는 [21]임의적이다.상관 계수의 해석은 상황 및 목적에 따라 달라집니다.고품질 도구를 사용하여 물리 법칙을 검증하는 경우 0.8의 상관 관계는 매우 낮을 수 있지만 복잡한 요인에서 더 큰 기여를 하는 사회 과학에서는 매우 높은 것으로 간주될 수 있다.

추론

Pearson의 상관 계수에 기초한 통계적 추론은 종종 다음 두 가지 목적 중 하나에 초점을 맞춥니다.

  • 한 가지 목적은 표본 상관 계수 r의 값을 바탕으로 참 상관 계수 θ가 0이라는 귀무 가설을 검정하는 것입니다.
  • 또 다른 목적은 반복 표본 추출 시 θ를 포함할 확률을 갖는 신뢰 구간을 도출하는 것이다.

이하에서는, 이러한 목적의 어느쪽인가 또는 양쪽 모두를 달성하는 방법에 대해 설명합니다.

치환 테스트 사용

치환 검정은 가설 검정을 수행하고 신뢰 구간을 구성하는 직접적인 방법을 제공합니다.Pearson의 상관 계수에 대한 순열 검정에는 다음 두 단계가 포함됩니다.

  1. 원래 쌍체 데이터(xi, yi)를 사용하여 쌍을 임의로 재정의하여 새 데이터 세트(xi, yi′)를 생성합니다. 여기서 i는 집합 {1,....,n}의 순열입니다.가능한 모든 n!의 순열에서 동일한 확률을 사용하여 i 순열을 랜덤으로 선택합니다.이것은 집합 {1, ..., n}에서 치환하지 않고 i'를 무작위로 그리는 것과 같습니다.부트스트래핑에서는 밀접하게 관련된 접근법인 i와 i'는 같으며 {1, ..., n}로부터의 치환으로 그려집니다.
  2. 랜덤화된 데이터로 상관 계수 r을 구성합니다.

치환 검정을 수행하려면 (1)단계와 (2)단계를 많이 반복합니다.치환 검정의 p-값은 원래 데이터에서 계산된 Pearson 상관 계수보다 큰 (2) 단계에서 생성된 r 의 비율입니다.여기서 "더 크다"는 값은 양면 또는 단면 테스트를 원하는지에 따라 크기가 크거나 서명 값이 더 크다는 것을 의미할 수 있다.

부트스트랩 사용

부트스트랩을 사용하여 Pearson의 상관 계수에 대한 신뢰 구간을 구성할 수 있습니다.「비파라메트릭」부트스트랩에서는, 관측n쌍으로부터 n쌍(xi, yi)을 「치환에 의해서」 재샘플링 해, 재샘플링 된 데이터에 근거해 상관 계수 r를 산출한다.이 과정은 여러 번 반복되며, 재샘플링된 r 값의 경험적 분포를 사용하여 통계량의 표본 분포를 근사합니다.95% 신뢰 구간은 재샘플링된r 값의 2.5~97.5백분위수에 걸친 구간으로 정의할 수 있습니다.

표준오차

x x y y 랜덤 변수인 , null의 경우 상관관계에 표준 오류가 관련지어집니다.

서 rr은 correlation r00), nn은 샘플 [22][23]크기입니다.

학생의 t-분포를 사용한 테스트

0.05 수준에서 유의하게 0이 아닌 것으로 간주하려면 초과해야 하는 Pearson 상관 계수의 임계값입니다.

상관 관계가 없는 이변량 정규 분포의 경우 학생화된 Pearson 상관 계수의 표본 분포자유도가 n - 2인 학생 t-분포를 따릅니다. 특히, 기본 변수에 이변량 정규 분포가 있는 경우 변수는

에는 null 케이스([24]상관 없음)의 학생의 t-분포가 있습니다.표본 크기가 충분히 [25]큰 경우 비정상 관측치의 경우 이 값은 대략적으로 유지됩니다.r에 대한 임계값을 결정하려면 역함수가 필요하다.

또는 큰 표본의 점근적 접근법을 사용할 수 있다.

또 다른 초기[26] 논문은 작은 표본 크기에 대한 values의 일반 값에 대한 그래프와 표를 제공하고 계산 접근법에 대해 논의한다.

기본 변수가 정규 분포를 따르지 않는 경우 Pearson 상관 계수의 표본 분포는 학생의 t-분포를 따르지만 자유도는 [27]감소합니다.

정확한 분포 사용

이변량 정규 분포를 따르는 데이터의 경우 정규 이변량의[28][29][30] 표본 상관 계수 r에 대한 정확한 밀도 함수 f(r)는 다음과 같습니다.

여기서 { 감마 이고 F {{{} 가우스 하이퍼기하 함수입니다.

\ =( 0 )인 특별한 경우 정확한 밀도 함수 f(r)는 다음과 같이 쓸 수 있다.

서 B 베타 함수이며, 이는 위와 같이 학생의 t-분포 밀도를 쓰는 한 가지 방법입니다.

정확한 신뢰 분포 사용

신뢰 구간 및 검정은 신뢰 분포에서 계산할 수 있습니다.θ[31] 대한 정확한 신뢰 밀도는 다음과 같습니다.

여기서F {\ F 가우스 하이퍼기하 함수이고 -> {=> 입니다.

Fisher 변환 사용

실제로 γ와 관련된 신뢰 구간가설 테스트는 일반적으로 Fisher 변환 {\ F사용하여 수행됩니다.

F(r)는 대략 다음과 같은 정규 분포를 따릅니다.

( = ) ) {\ {\ {\ ) ( \} ( \) 및 표준 오류 -3,{ =}

여기서 n은 샘플사이즈입니다근사 오차는 큰 표본 n n 작은 r(\ r _ 대해 가장 낮으며 그렇지 않으면 증가합니다.

근사치를 사용하여 z 점수는 다음과 같습니다.

표본 쌍이 독립적이고 균등하게 분포하며 이변량 정규 분포를 따른다는 가정 하에 0 =\ _이라는 귀무 가설 하에서.따라서 정규 확률 표에서 대략적인 p-값을 얻을 수 있습니다.예를 들어 z 2.2가 관측되고 = 이라는 귀무 가설을 검정하기 위해 양측 p-값이 필요한 경우, p-값은 2 Ω(-2.2) = 0.028입니다. 여기서 Ω은 표준 정규 누적 분포 함수입니다.

,에 대한 신뢰구간을 구하려면 먼저 F( \ \ 에 대한 신뢰구간을 계산합니다.

역 피셔 변환은 간격을 상관 척도로 되돌립니다.

예를 들어, 표본 크기가 n=50인 r = 0.3을 관측하고 θ에 대한 95% 신뢰 구간을 얻으려고 합니다.변환된 값은 arctanh(r) = 0.30952이므로 변환된 척도의 신뢰 구간은 0.30952 ± 1.96/14047 또는 (0.023624, 0.595415)입니다.상관 척도 수율(0.024, 0.534)로 다시 변환합니다.

최소 제곱법 회귀 분석

표본 상관 계수의 제곱은 일반적으로 r로 표시되며2 결정 계수의 특수한 경우입니다.이 경우 단순 선형 회귀 분석에서 X가 설명하는 Y의 분산 비율을 추정합니다.따라서 관찰된 데이터 Y, { 적합한 데이터 Y ^, ^ { {\ 시작점에서 Y 값의 총 변동i 분해할 수 있습니다.

여기서 Y^ {\ 회귀 분석의 적합치입니다.이것은 재배치할 수 있습니다.

위의 2개의 가산점은 X(오른쪽)에 의해 설명되고 X(왼쪽)에 의해 설명되는 Y의 분산 비율입니다.

다음으로 Y^ \ { } ^ \ _ { } - { \ { } { } i i ance ance ance ance ance ance ance ance ance ance ance ance ance ance ance ance ance ance ance ance ance ance ance ance ance ance ance ance ance ance ance ance anceance ance따라서 회귀 분석에서 관측된 반응 값과 적합 반응 값 사이의 표본 상관 계수를 기록할 수 있습니다(계산은 기대 이하이며 가우스 통계를 가정함).

따라서

r ( Y, ) { r ( , { \ { Y } )^{ X의 선형함수에 의해 설명되는 Y의 분산 비율입니다.

상기의 파생에서,

β 1 β 0 잔차 제곱합(RSS)의 부분 도함수가 최소 제곱 모델에서 0과 같다는 것을 알아냄으로써 입증될 수 있다.

_2

마지막으로 방정식은 다음과 같이 쓸 수 있습니다.

어디에

regreg}}는 회귀 제곱합이라고도 하며, 설명 제곱합이라고도 합니다. tot tot {\{\tot}}은(데이터의 분산에 비례하는) 총 제곱합입니다.

데이터 분포에 대한 민감도

존재.

모집단 Pearson 상관 계수는 모멘트로 정의되므로 모집단 공분산한계 모집단 분산이 정의되고 0이 아닌 이변량 확률 분포에 대해 존재합니다.코시 분포와 같은 일부 확률 분포는 분산을 정의하지 않으므로 X 또는 Y가 이러한 분포를 따르는 경우 θ가 정의되지 않습니다.두꺼운 분포를 따르는 것으로 의심되는 데이터와 같은 일부 실제 적용에서는 이것이 중요한 고려 사항입니다.단, 상관계수의 존재는 일반적으로 문제가 되지 않습니다.예를 들어 분포의 범위가 한정되어 있는 경우에는 항상 θ가 정의됩니다.

샘플 사이즈

  • 표본 크기가 중간이거나 크고 모집단이 정규 분포인 경우, 이변량 정규 분포의 경우 표본 상관 계수는 모집단 상관 계수의 최대우도 추정치이며 점근적으로 치우침없고 효율적이므로 대략적으로 더 많은 액시던트를 구성하는 것이 불가능하다는 것을 의미합니다.요산염 추정치가 표본 상관 계수보다 높습니다.
  • 표본 크기가 크고 모집단이 정규 분포를 따르지 않으면 표본 상관 계수가 거의 치우치지 않은 상태로 유지되지만 효율적이지 않을 수 있습니다.
  • 표본 크기가 크면 표본 평균, 분산 및 공분산(큰 숫자의 법칙을 적용할 수 있을 때 보장됨)이 일치하면 표본 상관 계수는 모집단 상관 계수의 일관된 추정기가 됩니다.
  • 표본 크기가 작을 경우 표본 상관 계수 r은 [11]θ의 치우침이 없는 추정치가 아닙니다.대신 조정된 상관 계수를 사용해야 합니다. 정의는 이 문서의 다른 부분을 참조하십시오.
  • 표본에 [32]분산 오류가 있는 경우 불균형 이분법 데이터에 대해 상관 관계가 다를 수 있습니다.

견고성

일반적으로 사용되는 많은 통계량처럼 표본 통계량 r은 [33]견고하지 않으므로 특이치가 있으면 [34][35]값이 잘못 표시될 수 있습니다.특히 PMCC는 분포적으로 [citation needed]견고하지도 않고 특이치[33] 저항적이지도 않습니다(강력 통계량 defin 정의 참조).X와 Y 사이산점도를 검사하면 일반적으로 건전성 결여가 문제가 될 수 있는 상황을 알 수 있으며, 이러한 경우에는 견고한 연관성 측도를 사용하는 것이 좋습니다.그러나 대부분의 강력한 연관 추정치는 통계적 의존성을 측정하지만 일반적으로 Pearson 상관 계수와 동일한 척도로 해석할 수 없습니다.

Pearson의 상관 계수에 대한 통계적 추론은 데이터 분포에 민감합니다.데이터가 거의 정규 분포를 따르는 경우 정확한 검정 및 Fisher 변환을 기반으로 한 점근 검정을 적용할 수 있지만 그렇지 않으면 오해의 소지가 있습니다.상황에 따라서는 부트스트랩을 사용하여 신뢰 구간을 구성하고 치환 테스트를 적용하여 가설 테스트를 수행할 수 있습니다.이러한 비모수적 접근법은 이변량 정규성이 유지되지 않는 일부 상황에서 더 의미 있는 결과를 제공할 수 있습니다.그러나 이러한 접근법의 표준 버전은 데이터의 교환 가능성에 의존하며, 이는 상관 추정치의 동작에 영향을 미칠 수 있는 분석 대상 데이터 쌍의 순서나 그룹이 없음을 의미한다.

계층 분석은 이변량 정규성의 결여를 수용하거나 한 요인에서 발생하는 상관 관계를 격리하는 한 가지 방법입니다.W가 클러스터 멤버쉽 또는 제어해야 할 다른 요인을 나타내는 경우 W의 을 기반으로 데이터를 계층화한 다음 각 계층 내의 상관 계수를 계산할 수 있습니다.그런 다음 계층 수준 추정치를 결합하여 [36]W를 제어하면서 전체 상관 관계를 추정할 수 있습니다.

변종

상관 계수의 변동은 다양한 용도로 계산할 수 있습니다.여기 몇 가지 예가 있어요.

조정 상관 계수

표본 상관 계수 r은 θ의 치우침이 없는 추정치가 아닙니다.이변량 정규 분포를 따르는 데이터의 경우 정규 이변량의[37] 표본 상관 계수 r에 대한 기대 E[r]는 다음과 같습니다.

E [ r] - ( - +、 { \\{ \ [ \ - { \ \( 1 - \ rho ^ { + } 、 right 。따라서 는 바이어스입니다.

고유한 최소 분산 편향되지 않은 추정기adj r은 다음과 같이 제공됩니다[38].

(1)

여기서:

  • , \ r 위와 같이 정의됩니다.
  • F1 ( , ; ; 가우스 초기하 함수입니다.

E[r]를 잘라서 이 잘린 방정식을 풀면 대략적으로 치우치지 않은 추정치adj r을 얻을[citation needed] 수 있다.

(2)

방정식 (2)의 대략적인[citation needed] 해법은 다음과 같다.

(3)

(3)의 경우:

  • , \ r 위와 같이 정의됩니다.
  • radj 차선의 [citation needed][clarification needed]추정치입니다.
  • radj log(f(r))를 최대화하여 얻을 수도 있습니다.
  • radj n의 큰 값에 대한 최소 분산을 가집니다.
  • Radj .mw-parser-output .frac{white-space:nowrap}.mw-parser-output.frac.num,.mw-parser-output.frac .den{:80%;line-height:0;vertical-align:슈퍼 font-size}.mw-parser-output.frac .den{vertical-align:서브}.mw-parser-output .sr-only{주문에 대한 편견이 있다.국경:0;클립:rect(0,0,0,0), 높이:1px, 마진:-1px, 오버 플로: 숨어 있었다. 패딩:0;위치:절대, 너비:1px}1⁄(n− 1).

제안된[11] 다른 조정 상관 계수는 다음과 같습니다.[citation needed]

n의 큰 값의 경우 r rradj 주의해 주세요.

가중 상관 계수

상관할 관측치의 중요도가 가중 벡터 w로 표현될 수 있다고 가정합니다.무게 벡터 w(전체 길이 n)[39][40]를 사용하여 벡터 x와 y 사이의 상관 관계를 계산하려면

  • 가중 평균:
  • 가중 공분산
  • 가중 상관

반사상관계수

반사 상관 계수는 데이터가 평균 [citation needed]값을 중심으로 하지 않는 Pearson 상관 계수의 변형입니다.모집단 반사 상관관계는

반사적 상관관계는 대칭이지만 변환 시 불변하는 것은 아닙니다.

샘플 반사 상관관계는 코사인 유사도와 동일합니다.

샘플 반사 상관의 가중 버전은 다음과 같습니다.

척도 상관 계수

척도 상관 계수는 [41]시계열에서 빠른 성분 간의 상관 관계를 나타내기 위해 데이터의 범위가 의도적으로 제어되는 Pearson 상관 계수의 변형입니다.스케일 상관관계는 짧은 데이터 세그먼트에 걸친 평균 상관관계로 정의됩니다.

K 특정 s(\ s에 대해 신호T(\ T 총 길이에 들어갈 수 있는 세그먼트 수라고 합니다.

과 같이 계산됩니다

r {\ k {\ k에 대한 Pearson의 상관계수입니다.

s {\s}를 선택하면 값의 범위가 줄어들고 긴 시간 척도의 상관관계가 필터링되어 짧은 시간 척도의 상관관계만 표시됩니다.따라서 느린 구성요소의 기여는 제거되고 빠른 구성요소의 기여는 유지됩니다.

피어슨 거리

Pearson의 거리로 알려진변수 X와 Y에 대한 거리 메트릭은 상관 계수에서[42] 다음과 같이 정의할 수 있습니다.

Pearson 상관 계수가 [-1, +1] 사이에 있다고 가정하면 Pearson 거리는 [0, 2]에 있습니다.Pearson 거리는 알 수 없는 게인 및 [43]오프셋이 있는 통신 및 저장을 위한 군집 분석 및 데이터 탐지에 사용되었습니다.

이렇게 정의된 Pearson "거리"는 1보다 큰 거리를 음의 상관 관계에 할당합니다.실제로는 강한 양의 상관 관계와 음의 상관 관계가 모두 의미가 있으므로 Pearson "거리"가 가장 가까운 인접 알고리즘에 사용되는 경우 이러한 알고리즘에는 양의 상관 관계가 있는 인접 알고리즘만 포함되고 음의 상관 관계가 있는 인접 알고리즘은 제외되므로 주의해야 합니다.또는 절대값 거리 - X }= _ 적용할 수 있으며, 이는 양의 상관과 음의 상관 관계를 모두 고려합니다.긍정적 연관성과 부정적 연관성에 대한 정보는 나중에 따로 추출할 수 있습니다.

원형 상관 계수

단위 원[0, 2µ]에 정의된 변수 X = {x1,...xn} 및 Y = {y1,...yn}의 경우 Pearson [44]계수의 원형 유사체를 정의할 수 있습니다.이는 X와 Y의 데이터 포인트를 사인 함수로 변환하여 상관 계수가 다음과 같이 지정되도록 합니다.

서 x y X와 Y의 원형 수단입니다.이 측정은 데이터의 각도 방향이 중요한 기상학과 같은 분야에서 유용할 수 있습니다.

편상관

모집단 또는 데이터 집합이 세 개 이상의 변수로 특징지어지면 편상관 계수는 다른 변수의 선택된 부분 집합의 변동에 따라 변수 쌍이 변화하는 방식으로 설명되지 않는 변수 쌍 간의 의존성 강도를 측정합니다.

n개의 랜덤 변수의 상관 관계

변수 간의 관계가 비선형인 경우에도 데이터 변환을 사용하여 임의 개수의 랜덤 변수 쌍 간의 상관 관계를 제거할 수 있습니다.인구 분포에 대한 이 결과의 발표는 Cox & Hinkley가 [45]한다.

표본 상관을 0으로 줄이는 데 대응하는 결과가 존재합니다.n개의 랜덤 변수의 벡터가 m회 관측된다고 가정합니다.X를 행렬로 합니다. 서 X (\ 관측 i의 j번째 변수입니다. m {\Z_ 각 요소 1의 m x m 정사각형 행렬.그런 다음 D는 모든 랜덤 변수의 평균이 0이 되도록 변환된 데이터이고 T는 모든 변수가 평균이 0이고 다른 모든 변수와의 상관 관계가 0이 되도록 변환된 데이터입니다. 즉, T의 표본 상관 행렬이 항등 행렬이 됩니다.단위 분산을 얻으려면 이 값을 표준 편차로 더 나누어야 합니다.변환된 변수는 독립적이지 않더라도 상관 관계가 없습니다.

여기서 -+1µ2 지수는 행렬 역행렬행렬 제곱근을 나타냅니다.T의 상관 행렬은 항등 행렬이 될 것이다.새 데이터 관측치 x가 n개 요소의 행 벡터일 경우 동일한 변환을 x에 적용하여 변환된 벡터 d 및 t를 얻을 수 있습니다.

이 장식 관계는 다변량 데이터에 대한 주성분 분석과 관련이 있습니다.

소프트웨어 구현

  • R의 통계 베이스 패키지는 다음과 같은 상관 계수를 구현합니다.cor(x, y)또는 (P 값도 포함)를 사용합니다.
  • SciPy Py Python 라이브러리(를 참조).
  • Panders Python 라이브러리는 방법의 기본 옵션으로 Pearson 상관 계수 계산을 구현합니다.
  • 함수를 통한 울프람 매스매티카 또는 (P 값이 있는 경우)를 사용합니다.
  • 함수를 통한 Boost C++ 라이브러리.

「 」를 참조해 주세요.

각주

  1. ^ 1877년 초, 갈튼은 "역전"이라는 용어와 "퇴보"[4][5][6]가 될 것을 나타내는 기호 "r"를 사용했다.

레퍼런스

  1. ^ "SPSS Tutorials: Pearson Correlation".
  2. ^ "Correlation Coefficient: Simple Definition, Formula, Easy Steps". Statistics How To.
  3. ^ "Covariance". Wikipedia. Retrieved 26 April 2022.
  4. ^ Galton, F. (5–19 April 1877). "Typical laws of heredity". Nature. 15 (388, 389, 390): 492–495, 512–514, 532–533. Bibcode:1877Natur..15..492.. doi:10.1038/015492a0. S2CID 4136393. 532페이지의 "부록"에서 Galton은 "역전"이라는 용어와 r 기호를 사용합니다.
  5. ^ Galton, F. (24 September 1885). "The British Association: Section II, Anthropology: Opening address by Francis Galton, F.R.S., etc., President of the Anthropological Institute, President of the Section". Nature. 32 (830): 507–510.
  6. ^ Galton, F. (1886). "Regression towards mediocrity in hereditary stature". Journal of the Anthropological Institute of Great Britain and Ireland. 15: 246–263. doi:10.2307/2841583. JSTOR 2841583.
  7. ^ Pearson, Karl (20 June 1895). "Notes on regression and inheritance in the case of two parents". Proceedings of the Royal Society of London. 58: 240–242. Bibcode:1895RSPS...58..240P.
  8. ^ Stigler, Stephen M. (1989). "Francis Galton's account of the invention of correlation". Statistical Science. 4 (2): 73–79. doi:10.1214/ss/1177012580. JSTOR 2245329.
  9. ^ "Analyse mathematique sur les probabilités des erreurs de situation d'un point". Mem. Acad. Roy. Sci. Inst. France. Sci. Math, et Phys. (in French). 9: 255–332. 1844 – via Google Books.
  10. ^ Wright, S. (1921). "Correlation and causation". Journal of Agricultural Research. 20 (7): 557–585.
  11. ^ a b c d e Excel을 사용한 실제 통계: 상관 관계: 기본 개념, 2015년 2월 22일 취득
  12. ^ Weisstein, Eric W. "Statistical Correlation". mathworld.wolfram.com. Retrieved 22 August 2020.
  13. ^ Moriya, N. (2008). "Noise-related multivariate optimal joint-analysis in longitudinal stochastic processes". In Yang, Fengshan (ed.). Progress in Applied Mathematical Modeling. Nova Science Publishers, Inc. pp. 223–260. ISBN 978-1-60021-976-4.
  14. ^ Garren, Steven T. (15 June 1998). "Maximum likelihood estimation of the correlation coefficient in a bivariate normal model, with missing data". Statistics & Probability Letters. 38 (3): 281–288. doi:10.1016/S0167-7152(98)00035-2.
  15. ^ "2.6 - (Pearson) Correlation Coefficient r". STAT 462. Retrieved 10 July 2021.
  16. ^ "Introductory Business Statistics: The Correlation Coefficient r". opentextbc.ca. Retrieved 21 August 2020.
  17. ^ Rodgers; Nicewander (1988). "Thirteen ways to look at the correlation coefficient" (PDF). The American Statistician. 42 (1): 59–66. doi:10.2307/2685263. JSTOR 2685263.
  18. ^ Schmid, John Jr. (December 1947). "The relationship between the coefficient of correlation and the angle included between regression lines". The Journal of Educational Research. 41 (4): 311–313. doi:10.1080/00220671.1947.10881608. JSTOR 27528906.
  19. ^ Rummel, R.J. (1976). "Understanding Correlation". ch. 5 (as illustrated for a special case in the next paragraph).
  20. ^ Buda, Andrzej; Jarynowski, Andrzej (December 2010). Life Time of Correlations and its Applications. Wydawnictwo Niezależne. pp. 5–21. ISBN 9788391527290.
  21. ^ a b Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.).
  22. ^ Bowley, A. L. (1928). "The Standard Deviation of the Correlation Coefficient". Journal of the American Statistical Association. 23 (161): 31–34. doi:10.2307/2277400. ISSN 0162-1459. JSTOR 2277400.
  23. ^ "Derivation of the standard error for Pearson's correlation coefficient". Cross Validated. Retrieved 30 July 2021.
  24. ^ Rahman, N. A.(1968) 이론통계학 강좌, 찰스 그리핀 앤 컴퍼니, 1968
  25. ^ Kendall, M. G., Stuart, A. (1973) The Advanced Theory of Statistics, Volume 2: Inference and Relationshriffin.ISBN 0-85264-215-6 (섹션 31.19)
  26. ^ Soper, H.E.; Young, A.W.; Cave, B.M.; Lee, A.; Pearson, K. (1917). "On the distribution of the correlation coefficient in small samples. Appendix II to the papers of "Student" and R.A. Fisher. A co-operative study". Biometrika. 11 (4): 328–413. doi:10.1093/biomet/11.4.328.
  27. ^ Davey, Catherine E.; Grayden, David B.; Egan, Gary F.; Johnston, Leigh A. (January 2013). "Filtering induces correlation in fMRI resting state data". NeuroImage. 64: 728–740. doi:10.1016/j.neuroimage.2012.08.022. hdl:11343/44035. PMID 22939874. S2CID 207184701.
  28. ^ Hotelling, Harold (1953). "New Light on the Correlation Coefficient and its Transforms". Journal of the Royal Statistical Society. Series B (Methodological). 15 (2): 193–232. doi:10.1111/j.2517-6161.1953.tb00135.x. JSTOR 2983768.
  29. ^ Kenney, J.F.; Keeping, E.S. (1951). Mathematics of Statistics. Vol. Part 2 (2nd ed.). Princeton, NJ: Van Nostrand.
  30. ^ Weisstein, Eric W. "Correlation Coefficient—Bivariate Normal Distribution". mathworld.wolfram.com.
  31. ^ Taraldsen, Gunnar (2020). "Confidence in Correlation". doi:10.13140/RG.2.2.23673.49769. {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  32. ^ Lai, Chun Sing; Tao, Yingshan; Xu, Fangyuan; Ng, Wing W.Y.; Jia, Youwei; Yuan, Haoliang; Huang, Chao; Lai, Loi Lei; Xu, Zhao; Locatelli, Giorgio (January 2019). "A robust correlation analysis framework for imbalanced and dichotomous data with uncertainty" (PDF). Information Sciences. 470: 58–77. doi:10.1016/j.ins.2018.08.017. S2CID 52878443.
  33. ^ a b Wilcox, Rand R. (2005). Introduction to robust estimation and hypothesis testing. Academic Press.
  34. ^ Devlin, Susan J.; Gnanadesikan, R.; Kettenring J.R. (1975). "Robust estimation and outlier detection with correlation coefficients". Biometrika. 62 (3): 531–545. doi:10.1093/biomet/62.3.531. JSTOR 2335508.
  35. ^ Huber, Peter. J. (2004). Robust Statistics. Wiley.[페이지 필요]
  36. ^ Katz., Mitchell H. (2006) 다변수 분석 임상의를 위한 실무 지침.제2판케임브리지 대학 출판부ISBN 978-0-521-54985-1.ISBN 0-521-54985-X
  37. ^ Hotelling, H. (1953). "New Light on the Correlation Coefficient and its Transforms". Journal of the Royal Statistical Society. Series B (Methodological). 15 (2): 193–232. doi:10.1111/j.2517-6161.1953.tb00135.x. JSTOR 2983768.
  38. ^ 를 클릭합니다Olkin, Ingram; Pratt,John W. (March 1958). "Unbiased Estimation of Certain Correlation Coefficients". The Annals of Mathematical Statistics. 29 (1): 201–211. doi:10.1214/aoms/1177706717. JSTOR 2237306..
  39. ^ "Re: Compute a weighted correlation". sci.tech-archive.net.
  40. ^ "Weighted Correlation Matrix – File Exchange – MATLAB Central".
  41. ^ Nikolić, D; Muresan, RC; Feng, W; Singer, W (2012). "Scaled correlation analysis: a better way to compute a cross-correlogram" (PDF). European Journal of Neuroscience. 35 (5): 1–21. doi:10.1111/j.1460-9568.2011.07987.x. PMID 22324876. S2CID 4694570.
  42. ^ Fullkar (Ed.) , M.H. (2009) 생물정보학: 생명 환경과학 분야 응용 프로그램, 스프링어 (110페이지) ISBN 1-4020-8879-5
  43. ^ Immink, K. Schouhamer; Weber, J. (October 2010). "Minimum Pearson distance detection for multilevel channels with gain and / or offset mismatch". IEEE Transactions on Information Theory. 60 (10): 5966–5974. CiteSeerX 10.1.1.642.9971. doi:10.1109/tit.2014.2342744. S2CID 1027502. Retrieved 11 February 2018.
  44. ^ Jammalamadaka, S. Rao; SenGupta, A. (2001). Topics in circular statistics. New Jersey: World Scientific. p. 176. ISBN 978-981-02-3778-3. Retrieved 21 September 2016.
  45. ^ Cox, D.R.; Hinkley, D.V. (1974). Theoretical Statistics. Chapman & Hall. Appendix 3. ISBN 0-412-12420-3.

외부 링크

  • "cocor". comparingcorrelations.org. – 중복 또는 중복되지 않는 변수와 종속 또는 독립적인 상관관계를 통계적으로 비교하기 위한 무료 웹 인터페이스 및 R 패키지입니다.
  • "Correlation". nagysandor.eu. – 두 정규 분포 변수의 상관관계에 대한 대화형 플래시 시뮬레이션입니다.
  • "Correlation coefficient calculator". hackmath.net. Linear regression.
  • "Critical values for Pearson's correlation coefficient" (PDF). frank.mtsu.edu/~dkfuller. – 큰 테이블.
  • "Guess the Correlation". – 플레이어가 상관성의 개념을 더 잘 이해하기 위해 산점도의 두 변수가 얼마나 상관관계가 있는지 추측하는 게임입니다.