로그선형해석

Log-linear analysis

로그-선형 분석은 세 개 이상의 범주형 변수 사이의 관계를 조사하기 위해 통계에 사용되는 기법이다.이 기법은 가설 검정과 모형 구축에 모두 사용된다.이러한 두 가지 용도 모두에서 모형은 관측 빈도의 분산을 가장 잘 설명하는 가장 가차적인(즉, 가장 덜 복잡한) 모형을 찾기 위해 시험된다.(로그-선형 분석 대신 Pearson의 카이-제곱 검정을 사용할 수 있지만, 이 기법은 한 번에 두 변수만 비교할 수 있다.)[1]

피팅 기준

로그 선형 분석에서는 표본 크기가 클 때 대략적인 카이-제곱 분포를 갖는 우도비 통계량 2 [2]

어디에

= 자연 로그;
= 셀에서ij 관찰된 주파수(i = 행 및 j = );
= 셀에서ij 예상되는 주파수.
= [3]모형의 이탈도

가정

로그 선형 분석에는 다음과 같은 세 가지 가정이 있다.[2]

1. 관측치는 독립적이고 랜덤하다.

2. 관측된 주파수는 일반적으로 반복된 표본에 걸쳐 예상되는 주파수에 대해 분포한다.이는 (a) 80% 이상의 범주에 대해 기대 빈도가 5보다 크거나 같으며 (b) 모든 예상 빈도가 1보다 크면 좋은 근사치다.이 가정에 대한 위반은 큰 힘의 감소를 초래한다.이 위반에 대한 제안 해결책은 변수를 삭제하거나 한 변수의 수준을 결합하거나(예: 수컷과 암컷을 함께 포함), 더 많은 데이터를 수집하는 것이다.

3. 반응 변수의 기대값 로그는 설명 변수의 선형 결합이다.이러한 가정은 매우 근본적이어서 거의 언급되지 않지만, 대부분의 선형성 가정과 마찬가지로 정확하지 않고 종종 추적 가능한 모델을 얻기 위해 간단히 만들어진다.

또한 데이터는 항상 범주형이어야 한다.연속형 데이터는 먼저 범주형 데이터로 변환할 수 있으며, 일부 정보는 손실될 수 있다.연속형 데이터와 범주형 데이터 모두 로지스틱 회귀 분석을 사용하는 것이 가장 좋다.(로그-선형 분석을 통해 분석되는 모든 데이터는 로지스틱 회귀 분석을 통해 분석할 수 있다.선택한 기술은 연구 질문에 따라 달라진다.)

변수

로그-선형 분석에서 독립 변수 또는 종속 변수 간에 명확한 구분이 없다.그 변수들은 똑같이 취급된다.그러나 종종 변수의 이론적 배경은 변수를 독립 변수 또는 종속 변수로 해석하게 한다.[1]

모델

로그-선형 분석의 목적은 데이터를 가장 잘 설명하기 위해 어떤 모델 구성요소가 유지되어야 하는지를 결정하는 것이다.모형 성분은 모형에 있는 주효과교호작용의 수입니다.예를 들어, 변수 A, 변수 B, 변수 C의 세 변수 사이의 관계를 조사하면 포화 모형에는 7개의 모형 성분이 있다.세 가지 주효과(A, B, C), 세 가지 이원 교호작용(AB, AC, BC), 하나의 3원 교호작용(ABC)은 일곱 가지 모형 구성요소를 제공한다.

로그-선형 모델은 연속체에 있다고 생각할 수 있으며, 두 극단은 가장 단순한 모델과 포화 모델이다.가장 단순한 모델은 모든 예상 주파수가 동일한 모델이다.변수가 관련이 없을 때는 그렇다.포화 모델은 모든 모델 성분을 포함하는 모델이다.이 모델은 항상 데이터를 가장 잘 설명하겠지만, 모든 것이 포함되어 있는 만큼 가장 가소로운 것이다.이 모형에서 관측된 주파수는 기대 빈도와 같으므로 우도비 카이-제곱 통계량에서는 = 1 ij}}}{{{ij}}}}}}}{ ) = 0 (1 이로 인해 우도비 카이-제곱 통계량이 0과 같아져 최적의 모형 적합성이 된다.[2]다른 가능한 모델은 조건부 장비 모델과 상호 의존 모델이다.[1]

각 로그-선형 모델은 로그-선형 방정식으로 나타낼 수 있다.예를 들어, 세 변수(A, B, C)를 사용할 경우 포화 모형은 다음과 같은 로그-선형 방정식을 갖는다.[1]

어디에

k= 셀에서ijk 예상되는 주파수;
= 각 변수의 상대 가중치.

계층적 모형

로그-선형 분석 모델은 계층적이거나 비계층적일 수 있다.계층적 모델이 가장 일반적이다.이러한 모형에는 검사할 교호작용의 모든 하위 순서 교호작용과 주효과가 포함되어 있다.[1]

그래픽 모델

고차 교호작용에 의해 생성된 모든 2-요인 항을 모형에 포함할 때마다 모형에 고차 교호작용도 포함된 경우 로그 선형 모형이 그래픽으로 표시된다.[4]직접적인 대응으로서 그래픽 모델은 계층적이다.또한, 2-요인 항에 의해 완전히 결정되는 그래픽 모델은 비방향 그래프로 나타낼 수 있으며, 여기서 정점들은 변수를 나타내고 가장자리는 모형에 포함된 2-요인 항을 나타낸다.

분해 가능한 모델

로그-선형 모델은 그래픽 모델과 해당 그래프가 화음인 경우 분해할 수 있다.

모델핏

잔차(예: 관측치-예상치)가 0에 가까울 때, 즉 관측 빈도가 기대 빈도에 가까울수록 모형이 잘 적합된다는 것이다.우도비 카이-제곱 통계량이 유의하지 않으면 모형이 잘 적합된다(즉, 계산된 기대 빈도가 관측 빈도에 가깝다).우도비 카이-제곱 통계량이 유의하면 모형이 잘 맞지 않는다(즉, 계산된 기대 빈도가 관측 빈도에 근접하지 않음).

후방 제거는 데이터를 가장 잘 설명하기 위해 어떤 모델 구성 요소가 유지되어야 하는지를 결정하는 데 사용된다.로그 선형 분석은 포화 모형에서 시작하여 모형이 더 이상 데이터에 정확하게 적합되지 않을 때까지 최고 순서 교호작용을 제거한다.특히 각 단계에서 가장 높은 순서의 교호작용을 제거한 후 우도비 카이-제곱 통계량을 계산하여 모형이 데이터를 얼마나 잘 적합시키고 있는지를 측정한다.우도비 카이-제곱 통계량이 유의해지면 가장 높은 순서의 교호작용은 더 이상 제거되지 않는다.[2]

모형 비교

두 모형이 내포된 경우 카이-제곱 차이 검정을 사용하여 모형을 비교할 수도 있다.카이-제곱 차이 검정은 비교 중인 두 모형에 대한 우도비 카이-제곱 통계량을 빼서 계산한다.이 값은 자유도 차이에서 카이-제곱 임계값과 비교된다.카이-제곱 차이가 카이-제곱 임계값보다 작으면 새 모형이 데이터를 훨씬 더 잘 적합시키며 선호되는 모형이다.그렇지 않으면 카이-제곱 차이가 임계 값보다 크면 모수성이 낮은 모형을 선호한다.[1]

후속 테스트

최적 적합 모형이 결정되면 변수 중 하나의 다른 수준에서 카이-제곱 분석을 수행하여 최고차 교호작용을 검사한다.카이-제곱 분석을 수행하려면 모형을 2 × 2 또는 2 × 1 분할표로 세분화할 필요가 있다.[2]

예를 들어, 한 변수가 네 변수 사이의 관계를 검사하고 있고 가장 적합한 모형이 삼원 교호작용 중 하나를 포함하는 경우, 세 번째 변수의 서로 다른 수준에서 단순한 이원 교호작용을 검사할 것이다.

효과 크기

변수 간 교호작용의 효과 크기를 비교하기 위해 승산비를 사용한다.승산비는 다음과 같은 두 가지 주요 이유로 카이-제곱 통계량보다 선호된다.[1]

1. 오즈비는 표본 크기와 무관하다.

2. 승산비는 불평등한 주변 분포의 영향을 받지 않는다.

소프트웨어

몇 개의 변수가 있는 데이터셋의 경우 – 일반 로그 선형 모델

수백 개의 변수가 있는 데이터셋 - 분해 가능한 모델

참고 항목

참조

  1. ^ a b c d e f g Howell, D. C. (2009). Statistical methods for psychology (7th ed.). Belmot, CA: Cengage Learning. pp. 630–655.
  2. ^ a b c d e Field, A. (2005). Discovering statistics using SPSS (2nd ed.). Thousand Oaks, CA: Sage Publications. pp. 695–718.
  3. ^ Agresti, Alan (2007). An Introduction to Categorical Data Analysis (2nd ed.). Hoboken, NJ: Wiley Inter-Science. p. 212. doi:10.1002/0470114754. ISBN 978-0-471-22618-5.
  4. ^ Christensen, R. (1997). Log-Linear Models and Logistic Regression (2nd ed.). Springer.
  5. ^ Petitjean, F.; Webb, G.I.; Nicholson, A.E. (2013). Scaling log-linear analysis to high-dimensional data (PDF). International Conference on Data Mining. Dallas, TX, USA: IEEE. pp. 597–606.

추가 읽기

  • 로그-선형 모델
  • Simkiss, D.; Ebrahim, G. J. Waterston, A. J. R. (Eds.) "14장: 범주형 데이터 분석: 로그-선형 분석"열대성 소아과 저널, 온라인 전용 영역, "연구 방법 II: 다변량 분석" (pp. 144–153)http://www.oxfordjournals.org/tropej/online/ma_chap14.pdf에서 2012년 5월 검색
  • 푸흐, M. D. (1983)"공헌적 과실 및 강간 유죄판결: 피해자를 비난하는 로그-선형 모델"사회심리학 분기별, 46, 233–242. JSTOR 3033794
  • 타바치닉, B. G. & Fidell, L. S. (2007)다변량 통계량 사용(5차 개정)뉴욕, 뉴욕: 앨린과 베이컨.[page needed]