점-이변 상관 계수
Point-biserial correlation coefficient점 이항상관 계수(rpb)는 한 변수(예: Y)가 이분법적일 때 사용되는 상관 계수로서, Y는 동전이 머리나 꼬리를 착륙시키는지와 같이 "자연적으로" 이분법적이거나 인위적으로 이분화된 변수일 수 있다.대부분의 상황에서 변수를 인위적으로 이분화하는 것은 바람직하지 않다.[citation needed]새로운 변수가 인위적으로 이분화된 경우, 새로운 이분법적 변수는 기본 연속성을 갖는 것으로 개념화될 수 있다.이 경우 이분법적 상관관계가 더 적절한 계산이 될 것이다.
점-이변 상관관계는 수학적으로 Pearson(제품 모멘트) 상관관계와 동등하다. 즉, 연속적으로 측정된 변수 X와 이분법 변수 Y, rXY = r이pb 있다.이것은 이분법 변수에 두 개의 뚜렷한 숫자 값을 할당함으로써 보여질 수 있다.
계산
r을pb 계산하려면 이분법 변수 Y에 0과 1의 두 값이 있다고 가정한다.데이터 세트를 Y에서 "1" 값을 받은 그룹 1과 Y에서 "0" 값을 받은 그룹 2의 두 그룹으로 나누면 점-이중 상관 계수가 다음과 같이 계산된다.
여기서 s는n 모집단의 모든 구성원에 대해 데이터를 사용할 수 있을 때 사용되는 표준 편차:
M은1 그룹 1의 모든 데이터 포인트에 대한 연속 변수 X의 평균값이고, M은0 그룹 2의 모든 데이터 포인트에 대한 연속 변수 X의 평균값이다.또한 n은1 그룹 1의 데이터 포인트 수, n은0 그룹 2의 데이터 포인트 수, n은 총 샘플 크기.이 공식은 계산 단계를 줄이기 위해 r의XY 공식에서 파생된 계산식이다. r보다XY 계산이 쉽다.
s를n−1 사용하는 등가 공식이 있다.
여기서 s는n−1 모집단의 표본에만 데이터를 사용할 수 있을 때 사용되는 표준 편차:
s를n−1 사용한 공식의 버전은 s를n−1 계산하는데 사용할 수 있는 함수가 없지만 s를n 계산하는데 사용할 수 있는 함수가 없는 프로그래밍 언어 또는 기타 개발 환경에서 점-이중 상관 계수를 계산할 때 유용하다.
Glass and Hopkins의 저서 "교육과 심리학의 통계적 방법" (3판)[1]에는 정확한 버전의 점 이항식이 수록되어 있다.
또한 점 이항 상관 계수의 제곱을 다음과 같이 작성할 수 있다.
우리는 모집단에서 상관관계가 0이라는 귀무 가설을 검정할 수 있다.약간의 대수학에서는 상관 계수의 유의성을 평가하기 위한 통상적인 공식은 r에pb 적용했을 때, 비장애 t-검정의 공식과 동일하다는 것을 보여준다.
귀무 가설이 참일 때 (n1+n0 - 2) 자유도를 갖는 학생의 t-분포를 따른다.
점 이항계수의 한 가지 단점은 Y의 분포를 50/50에서 더 많이 할수록 계수가 취할 수 있는 값의 범위가 더 제한된다는 것이다.X가 정규 분포를 따른다고 가정할 수 있는 경우, 이항 계수에 의해 더 나은 서술 지수가 제시된다.
여기서 u는 분포를 비율 n0/n과 n1/n으로 나누는 점에서 평균과 단위 분산이 0인 정규 분포의 세로좌표다.이것은 계산하기 쉽지 않고, 이항계수는 실제로 널리 사용되지 않는다.
이분법적 상관관계의 특정한 경우는 X가 Y가 하나인 이분법적 변수의 숫자의 합인 경우에 발생한다.그 예로는 이분법적으로 점수가 매겨진 n개의 항목으로 구성된 시험에서 X가 한 사람의 총점수인 경우를 들 수 있다.관심 통계량(차별 지수)은 주어진 항목에 대한 반응과 해당 총 시험 점수 사이의 상관관계다.세가지 계산이 넓은에 있use,[2]모든 전화를 걸point-biserial 상관 관계:(나는)은 Pearson상관 사이에 항목 점수와 전체 시험 성적이 포함되는 항목을 점수(ii)은 Pearson상관 사이에 항목 점수와 총 시험 점수를 제외하고 항목 점수,(iii) 상관 조정에 대한 편견에 의해 그 inclusi.o항목 점수의 n개.상관관계(iii)는
점 이항계수의 약간 다른 버전은 변수 X가 순위로 구성되는 반면 Y는 이분법적으로 나타나는 순위 이항계수다.X가 연속적인 위치와 동일한 방법으로 계수를 계산할 수 있지만 Y의 분포가 더 불평등해질수록 계수가 취할 수 있는 값의 범위가 더 제한되는 것과 동일한 단점이 있을 것이다.이를 극복하기 위해, 우리는 계수가 가장 작은 순위는 모두 0과 반대이고 가장 큰 순위는 1과 반대인 가장 큰 값을 가질 것이라는 점에 주목한다.그것의 가장 작은 가치는 그 반대의 경우에서 발생한다.이 값은 각각 플러스 마이너스 값(n10 + n)/2이다.따라서 이 값의 역수를 사용하여 관측된 평균 순위 간의 차이를 더하기 1에서 빼기 1까지의 간격으로 재조정할 수 있다.결과는
여기서 M과1 M은0 각각 이분법 변수의 1과 0 점수에 해당하는 등급의 평균이다.합의와 반전의 계산에서 계산을 단순화하는 이 공식은 진V유리(1966년) 때문이다.
이를 통해 표본을 추출한 모집단의 상관 관계가 0이라는 귀무 가설을 검정할 수 있다.r을rb 위와 같이 계산하면 다음 중 작은 값
그리고
귀무 가설이 참일 때 표본 크기 n과1 n을0 갖는 Mann-Whitney U로 분포한다.
메모들
- ^ Gene V. Glass and Kenneth D. Hopkins (1995). Statistical Methods in Education and Psychology (3rd ed.). Allyn & Bacon. ISBN 0-205-14212-5.
- ^ Linacre, John (2008). "The Expected Value of a Point-Biserial (or Similar) Correlation". Rasch Measurement Transactions. 22 (1): 1154.
외부 링크
- 점 이항 계수(Keith Calkins, 2005)