분할표

Contingency table

통계학에서 분할표(교차표 또는 교차표라고도 함)는 변수의 (다변수) 빈도 분포를 표시하는 행렬 형식의 표 유형입니다.조사, 비즈니스 인텔리전스, 엔지니어링 및 과학 연구에 많이 사용됩니다.두 변수 간의 상호 관계에 대한 기본 그림을 제공하고 두 변수 간의 교호작용을 찾는 데 도움이 됩니다.분할표라는 용어는 1904년 출판된 드레이퍼즈 컴퍼니 연구 회고록 바이오메트릭 시리즈의 일부인 "우발성과 연관성과 정상 상관관계에 대하여"[1]에서 칼 피어슨에 의해 처음 사용되었습니다.

다변량 통계의 중요한 문제는 고차원 분할표에 포함된 변수의 기초가 되는 (직접) 의존 구조를 찾는 것이다.조건부 독립성의 일부가 밝혀지면, 데이터의 저장도 보다 스마트한 방법으로 실시할 수 있다(Lauritzen(2002년 참조).이를 위해 정보 이론 개념을 사용할 수 있는데, 정보 이론 개념은 확률 분포에서만 정보를 얻을 수 있으며, 이는 상대 빈도로 분할표에서 쉽게 표현될 수 있다.

피벗 테이블은 스프레드시트 소프트웨어를 사용하여 분할표를 작성하는 방법입니다.

성별(남성 또는 여성)과 손잡이(오른쪽 또는 왼손잡이)의 두 가지 변수가 있다고 가정합니다.또한 핸드니스 성별 차이에 대한 연구의 일부로 100명의 개인이 매우 큰 모집단에서 무작위로 표본 추출되었다고 가정합니다.분할표를 작성하여 남성의 오른손잡이와 왼손잡이, 여성의 오른손잡이와 왼손잡이의 개체 수를 표시할 수 있다.이러한 분할표는 다음과 같다.

핸드-
네스
섹스.
오른손잡이 왼손잡이
남자 43 9 52
여자 44 4 48
87 13 100

남성, 여성, 오른손잡이와 왼손잡이의 수를 한계합계라고 합니다.총합(분할표에 표시된 개인의 총수)은 오른쪽 아래 구석에 있는 숫자입니다.

이 표를 보면 오른손잡이의 비율은 동일하지 않지만 오른손잡이의 비율은 여성의 비율과 거의 같다는 것을 한눈에 알 수 있다.연관성의 강도는 승산비표본 승산비로 추정된 모집단 승산비로 측정할 수 있습니다.두 비율 사이의 차이의 유의성 피어슨의 카이 제곱 검정, G 검정, 피셔의 정확한 검정, Boschloo의 검정 Barnard의 검정을 포함한 다양한 통계 검정으로 평가할 수 있습니다. 단, 표의 항목은 결론을 내릴 모집단에서 무작위로 추출된 개인을 나타냅니다.다른 열에 있는 개인의 비율이 행 간에 유의하게 다르거나 그 반대일 경우 두 변수 사이에 우발성이 있다고 합니다.즉, 두 변수가 독립적이지 않습니다.만약 우발적인 일이 없다면, 두 변수는 독립적이라고 한다.

위의 예는 가장 간단한 종류의 분할표이며, 각 변수는 2개의 수준만을 가지고 있습니다. 이를 2 × 2 분할표라고 합니다.원칙적으로 행과 열은 몇 개라도 사용할 수 있습니다.변수가 세 개 이상일 수도 있지만 고차 분할표는 시각적으로 표현하기 어렵습니다.순서형 변수 간 또는 순서형 변수와 범주형 변수 간 관계는 분할표에도 표시될 수 있지만, 그러한 관행은 드물다.두 순서형 변수 간의 관계에 대한 분할표 사용에 대한 자세한 내용은 Goodman과 Kruskal의 감마선을 참조하십시오.

분할표의 표준 내용

  • 여러 개의 열(이전에는 인쇄된 페이지의 공백을 모두 사용하도록 설계되어 있습니다.각 행이 모집단의 특정 서브그룹(이 경우 남성 또는 여성)을 참조하는 경우, 열은 배너 포인트 또는 컷(행은 스터브라고도 함)으로 참조됩니다.
  • 유의성 테스트일반적으로 열 간의 차이를 테스트하고 문자를 사용하여 결과를 표시하는 열 비교 또는 색상 또는 화살표를 사용하여 표에서 눈에 띄는 셀을 식별하는 셀 비교가 있습니다.
  • 서브토탈인 그물 또는 네트.
  • 백분율, 행 백분율, 열 백분율, 인덱스 또는 평균 중 하나 이상입니다.
  • 가중되지 않은 표본 크기(카운트)입니다.

연관성 측정

두 변수 간의 연관성은 여러 계수로 평가할 수 있습니다.다음 서브섹션에서는 이들 중 몇 가지에 대해 설명합니다.사용법에 대한 자세한 내용은 각 서브섹션 제목 아래에 링크된 주요 문서를 참조하십시오.

승산비

2 × 2 분할표에 대한 연관성의 가장 간단한 척도는 승산비이다.두 사건, A와 B가 있을 때, 승산비는 B가 없을 때 A의 승산과 B가 없을 때 A의 승산의 비율 또는 동등하게(대칭성으로 인해), A가 없을 때 B의 승산의 비율로 정의된다.두 사건은 승산비가 1인 경우에만 독립적입니다. 승산비가 1보다 크면 사건이 양으로 연관되어 있고, 승산비가 1보다 작으면 사건이 음으로 연관되어 있습니다.

승산비는 확률과 관련하여 간단한 식을 가지고 있습니다. 결합 확률 분포가 주어지면 다음과 같습니다.

승산비는 다음과 같습니다.

파이 계수

2 × 2 분할표의 경우에만 적용되는 간단한 척도는 다음과 같이 정의된 phi 계수(θ)이다.

여기서 θ2 Pearson의 카이 제곱 검정에서와 같이 계산되고 N은 관측치의 총합입니다.θ는 2 × 2 표에서 나타내는 주파수 데이터를 기반으로 하는 경우 0(변수 간의 연관성이 없는 것에 해당)에서 1 또는 -1(완전 연관성 또는 완전 역 연관성)까지 변화한다.그 부호는 표의 주요 대각선 요소의 곱에서 오프 대각선 요소의 곱을 뺀 부호와 같다.θ는 각 주변 비율이 0.5(및 2개의 대각선 셀이 비어 있음)[2] 경우에만 최소값 -1.0 또는 최대값 +1.0을 취합니다.

크라메르의 V와 보정 계수 C

두 가지 대안은 우발 계수 C와 크라메르의 V이다.

C V 계수의 공식은 다음과 같습니다.

N + 2 { C ={^ { chi {2} } { N+ \ ^ {2} 、

k는 행의 수 또는 열의 수 중 작은 쪽입니다.

C는 최대 1.0에 도달하지 못한다는 단점, 특히 2 × 2 표에서 도달할 수 있는 최대값은 0.707이다. 더 많은 범주가 있는 분할표에서 1.0에 가까운 값에 도달할 수 있다. 예를 들어, 4 × 4 표에서 최대 0.870에 도달할 수 있다.따라서 [3]범주의 수가 다른 경우 서로 다른 표의 연관성을 비교하는 데 사용하지 마십시오.

C이 있을 때 완전한 협회 행과 열의 표에서 k에 의해 − C으로 구분하고 것 1.0의 최대에 도달하면 조정할 수 있는 1k{\displaystyle{\sqrt{\frac{k-1}{k}}}}이, k는 숫자의 행이나 열이 테이블이 있square[표창 필요한]하거나 r− 1r×c− 1c4. {\displaystyle{) 4 r c 여기 r은 행 수, c[4]열 수.

사연상관계수

다른 선택은 4상관계수이지만 2 × 2 테이블에만 적용할 수 있다.다발성 상관 관계는 4상관 관계를 세 수준 이상의 변수를 포함하는 표로 확장한 것입니다.

사행 상관관계는 각 이분법 측정의 기초가 되는 변수가 정규 [5]분포를 따른다고 가정합니다.계수는 "눈금 측정값이 두 [6]범주로 감소했을 때 [Pearson 곱-순간] 상관 관계의 편리한 측정값"을 제공합니다.

사행 상관 계수는 각 변수의 두 수준(수학적으로 δ 계수와 동일)을 나타내기 위해 0.0과 1.0을 할당하여 계산한 Pearson 상관 계수와 혼동해서는 안 됩니다.

람다 계수

람다 계수는 변수가 명목 수준에서 측정될 때 교차표의 연관성을 나타내는 측도입니다.값의 범위는 0.0(어소시에이션 없음) ~ 1.0(가능한 최대 어소시에이션)입니다.

비대칭 람다는 종속 변수를 예측할 때 향상된 백분율을 측정합니다.대칭 람다는 양방향으로 예측이 수행될 때 개선 백분율을 측정합니다.

불확도 계수

불확실성 계수, 즉 테일 U는 명목 수준의 변수에 대한 또 다른 척도입니다.값의 범위는 -1.0(100% 음의 연관성 또는 완전 반전) ~ +1.0(100% 양의 연관성 또는 완전 일치)입니다.값 0.0은 연관성이 없음을 나타냅니다.

또한 불확실성 계수는 조건부이며 다음과 같이 표현될 수 있는 연관성의 비대칭 척도이다.

( Y )U ( U ( X Y )\U ( )}

이러한 비대칭 특성은 대칭적인 [7]연관성 측정에서 명확하지 않은 통찰력을 초래할 수 있다.

다른이들

  • 감마 검정:테이블 사이즈나 넥타이는 조정되지 않습니다.

「 」를 참조해 주세요.

  • 혼란 행렬
  • 스프레드시트 소프트웨어의 피벗 테이블은 샘플링 데이터와 카운트(컨퍼런스 테이블) 및/또는 합계를 교차 집계합니다.
  • TPL 테이블은 크로스탭을 생성하고 인쇄하기 위한 도구입니다.
  • 반복 비례 적합 절차는 기본적으로 변경된 관절 분포 또는 한계 합계와 일치하도록 분할표를 조작한다.
  • 특수 다변량 이산 확률 분포의 다변량 통계량입니다.이 맥락에서 사용되는 일부 절차는 분할표를 다룰 때 사용할 수 있다.
  • OLAP 큐브, 현대의 다차원 컴퓨팅 형태 분할표
  • 패널 데이터, 시간 경과에 따른 다차원 데이터

레퍼런스

  1. ^ Karl Pearson, F.R.S. (1904). Mathematical contributions to the theory of evolution. Dulau and Co.
  2. ^ 퍼거슨, G.A.(1966)심리학과 교육에 대한 통계 분석.뉴욕: 맥그로-힐.
  3. ^ Smith, S. C., & Albaum, G. S. (2004) 마케팅 조사의 기초.세이지: 사우전드 오크스, 캘리포니아 페이지 631
  4. ^ Blaikie, N. (2003) 정량 데이터 분석.세이지: 사우전드 오크스, 캘리포니아 페이지 100
  5. ^ 퍼거슨.[full citation needed]
  6. ^ 퍼거슨, 1966, 페이지 244
  7. ^ "The Search for Categorical Correlation". 26 December 2019.

추가 정보

외부 링크