쌍체 차이 검정

통계에서 쌍체 차이 검정은 두 측정값 집합을 비교할 때 모평균이 서로 다른지 여부를 평가할 때 사용되는 위치 검정의 한 유형이다. 쌍체 차이 검정은 일반적인 손상되지 않은 시험 상황에서 존재하지 않는 표본에 대한 추가 정보를 사용하여 통계적 힘을 증가시키거나 교란 물질의 영향을 감소시킨다.

쌍체 차이 테스트를 수행하는 구체적인 방법은 정규 분포 차이 t-검정(차이의 모집단 표준 편차를 알 수 없는 경우)과 쌍체 Z-검정(차이의 모집단 표준 편차를 알 수 없는 경우) 및 정규 분포되지 않을 수 있는 차이에 대한 Wilcoxon 서명-순위 t-검정이다.에스트^[1]

쌍체 차이 검사의 가장 친숙한 예는 대상자를 치료 전후에 측정할 때 발생한다. 이러한 "반복된 측정" 시험은 피험자 간 측정보다는 피험자 내에서 이러한 측정치를 비교하며 일반적으로 손상되지 않은 시험보다 더 큰 검정력을 갖는다. 또 다른 예는 유사한 통제를 가진 질병의 사례에서 나온다.

분산 감소에 사용

분산 축소를 위한 쌍체 차이 검정은 특정 유형의 블럭이다. 그 생각을 설명하기 위해, 우리가 높은 콜레스테롤을 치료하는 약의 성능을 평가하고 있다고 가정합시다. 우리 연구의 설계 하에, 우리는 100과목을 등록하고, 각 과목의 콜레스테롤 수치를 측정한다. 그리고 나서 모든 피험자들은 6개월 동안 그 약으로 치료를 받고 그 후에 콜레스테롤 수치를 다시 측정한다. 우리의 관심사는 그 약이 평균 콜레스테롤 수준에 어떤 영향을 미치는지 여부인데, 이것은 치료 후 측정값과 전처리 측정값을 비교하여 유추할 수 있다.

쌍체 차이 검사에 동기를 부여하는 핵심 쟁점은 연구가 매우 엄격한 진입 기준을 가지고 있지 않는 한, 치료를 시작하기 전에 피험자가 서로 실질적으로 다를 가능성이 높다는 것이다. 대상자 간의 중요한 기준 차이는 성별, 나이, 흡연 여부, 활동 수준 및 식이요법 때문일 수 있다.

이러한 데이터를 분석하기 위한 두 가지 자연스러운 접근법이 있다.

"비장애 분석"에서 데이터는 실제로 200과목을 등록한 것처럼 처리되고, 그 다음 각 치료 및 통제 그룹에 100과목을 무작위로 할당한다. 손상되지 않은 설계의 처리 그룹은 쌍체 설계의 처리 후 측정과 유사한 것으로 간주되고 제어 그룹은 처리 전 측정과 유사한 것으로 간주된다. 그런 다음 처리된 대상 그룹과 처리되지 않은 대상 그룹 내에서 표본 평균을 계산하고 이러한 평균을 서로 비교할 수 있다.
"쌍체 차이 분석"에서는 우선 각 과목의 시술 후 값에서 전처리 값을 뺀 후 이러한 차이를 0과 비교한다.

우리가 수단만 고려한다면, 쌍체 접근방식과 비쌍체 접근방식은 동일한 결과를 제공한다. 이를 보려면 $Y i 1 th$ $,$ $Y$ 를_i2 i 쌍에 대한 관측 데이터로 하고 $D i$ = Y - $Y$ 로_i2_i1 한다. 또한 $D,$ $Y 1 i 1$ , $Y$ 의₂_i2 표본 평균을 각각 $i$ 나타냄. 용어를 재배열하면 알 수 있다.

{\bar{D}={\frac {1}{n}}\sum _{i}(Y_{i2}-Y_{i1})={\frac {1}{n}\sum _{i}Y_{i2}-{\frac {1}{n}}\sum _{i}Y_{i1}={\bar {Y}_{2}-{\bar {Y}_{1},

여기서 n은 쌍의 수입니다. 따라서 그룹 간의 평균 차이는 데이터를 쌍으로 구성하느냐에 따라 달라지지 않는다.

쌍체 통계량과 비쌍체 통계량의 평균 차이는 동일하지만, 이들의 통계적 유의성 수준은 매우 다를 수 있는데, 이는 비쌍체 통계량의 분산을 과대 기술하기 쉽기 때문이다. $D$ 의 분산은

{\begin{array}{ccl}{\rm {var}}({\bar {D}})&=&{\rm {var}}({\bar {Y}}_{2}-{\bar {Y}}_{1})\\&=&{\rm {var}}({\bar {Y}}_{2})+{\rm {var}}({\bar {Y}}_{1})-2{\rm {cov}}({\bar {Y}}_{1},{\bar {Y}}_{2})\\&=&\sigma _{1}^{2}/n+\sigma _{2}^{2}/n-2\sigma _{1}\sigma _{2}{\rm {corr}}(Y_{i1},Y_{i2})/n,\end{array}}

여기서 $σ$ 과₁ $σ$ 은₂ 각각 $Y$ 와_i1 $Y i 2$ 데이터의 모집단 표준 편차다. 따라서 각 쌍에 양의 상관관계가 있을 $경우$ D의 분산이 더 낮다. 그러한 상관관계는 비교되는 가치에 영향을 미치는 많은 요인들이 치료의 영향을 받지 않기 때문에 반복적인 측정 설정에서 매우 흔하다. 예를 들어, 콜레스테롤 수준이 나이와 연관되어 있다면, 연령의 효과는 연구 기간이 표본의 연령 변화에 비해 작다면 피험자 내에서 측정된 콜레스테롤 수준 사이의 긍정적인 상관관계를 유도할 것이다.

쌍체 Z 검정의 검정력

전처리 및 후처리 데이터 $σ$ 과₁² $σ$ 의₂² 분산이 알려진 경우(t-검정을 사용한 상황은 유사함) 데이터를 분석하기 위해 Z-검정을 사용한다고 가정합시다. 손상되지 않은 Z 검정 통계량은

{\frac {{\bar {Y}_{2}-{\bar {Y}_{1}{\sqrt {\sigma _{1}^{2}/n+\sigma _{2}^{2}^{2}/n}}}}},

레벨 $α = 0.05$ 에서 수행되는 비장애인 단측 시험의 검정력은 다음과 같이 계산할 수 있다.

{\display{array}{lcl}P\left({\frac {{\bar {Y}}_{2}-{\bar {Y}}_{1}}{\sqrt {\sigma _{1}^{2}/n+\sigma _{2}^{2}/n}}}>1.64\right)&=&P\left({\frac {{\bar {Y}}_{2}-{\bar {Y}}_{1}}{S}}>1.64{\sqrt {\sigma _{1}^{2}/n+\sigma _{2}^{2}/n}}/S\right)\\&=&P\왼쪽({\frac {{\bar {{Y}_{2}-{\bar{1}-\1}-\delta +\delta }}{S}}})1.64{\sqrt{1}{1}{1}^{1}/n+\sigma _{2}^{2}/n/S\오른쪽)\\\&=&P\왼쪽({\frac {{\bar {{Y}_{2}-{\bar {Y}_{1}-\delta }}{S}})1.64{\sqrt {\sigma _{1}^{1}^{2}/n+\s-delta /Sriga\rigma.\\&=&1-\Phi(1.64{\sqrt {\sigma _{1}^{2}/n+\sigma _{2}^{2}/n}/S-\delta /S),\end{array}}}}}

여기서 S는 D의 표준 편차, φ은 표준 정규 누적분포함수, Δ = EY₂ - EY는₁ 치료의 진정한 효과다. 상수 1.64는 표준 정규 분포의 95번째 백분위수로, 시험의 거부 영역을 정의한다.

유사한 계산에 의해 쌍체 Z 검정의 검정력은 다음과 같다.

1-\Phi(1.64-\delta /S).}

쌍체 검정과 비쌍체 검정의 검정력에 대한 식을 비교함으로써 쌍체 검정력이 그만큼 더 크다는 것을 알 수 있다.

{\sqrt {\sigma _{1}^{2}/n+\sigma _{2}^{2}/n}}/S={\sqrt {\frac {\sigma _{1}^{2}+\sigma _{2}^{2}}{\sigma _{1}^{2}+\sigma _{2}^{2}-2\sigma _{1}\sigma _{2}\rho }}}>1~~{\text{where}}~~\rho :={\rm {corr}}(Y_{i1},Y_{i2}).

이 조건은 페어 내 상관관계인 $\rho$ $\rho$ 이(가) 양수일 때마다 충족된다.

쌍체 검정을 위한 랜덤 효과 모형

다음 통계 모형은 쌍체 차이 검정을 이해하는 데 유용하다.

Y_{ij}=\mu _{j}+\알파 _{i}+\엡실론 _{ij}}

여기서 α는 $i$ 쌍의 두 값 사이에 공유되는 임의의 효과로, $α$ 는_ij 모든 데이터 포인트에 걸쳐 독립적인 임의의 소음 용어다. 상수값 $μ 1,$ $μ$ 는₂ 비교 중인 두 측정값의 기대값이며, 우리의 관심사는 $Δ$ = $μ 2$ - $μ$ 이다₁.

이 모델에서 $α$ 는_i 전처리 및 후처리 측정에 동일한 영향을 미치는 "안정성 교란제"를 포획한다. $D i$ 형성을 위해 뺄 때 $α$ 는_i 취소되므로 분산에 기여하지 마십시오 $.$ 공정 내 공분산은

{\rm {cov}(Y_{i1},Y_{i2})={\rm {var}(\alpha _{i}).

이는 음성이 아니므로 $α$ 가_i $i$ 보다 일정하지 않은 한, 즉 쌍체 및 비쌍체 시험이 동등한 경우를 제외하고, 쌍체 차이 시험에 비해 쌍체 차이 시험에 대한 더 나은 성능으로 이어진다.

덜 수학적인 용어로, 비수리적 시험은 비교되는 두 그룹의 데이터가 독립적이라고 가정한다. 이 가정은 $D$ 의 분산을 위한 형태를 결정한다. 그러나 각 과목에 대해 두 가지 측정을 할 경우 두 측정치가 독립적일 가능성은 낮다. 대상체 내의 두 측정치가 양의 상관관계를 갖는 경우, 비절제 $검정$ 은 D의 분산을 과대평가하여 실제 유형 I 오류 확률이 공칭 수준보다 낮다는 점에서 보수적인 검정이 되며 이에 상응하는 통계적 검정력이 상실된다. 드물게 피험자 내에서 데이터가 부정적으로 상관될 수 있으며, 이 경우 비장애인 시험은 반보수가 된다. 쌍체 테스트는 쌍 내 측정값의 상관관계에 관계없이 정확한 수준을 가지기 때문에 일반적으로 동일한 피험자에 대해 반복적인 측정을 할 때 사용된다.

교란 요인을 줄이는 데 사용

한 가지 관심 요인의 효과를 역할을 할 수 있는 다른 요인의 영향으로부터 분리하는 것을 목표로 하여 일련의 관측 데이터에서 두 그룹을 비교할 때 쌍체 차이 검사의 또 다른 적용이 발생한다. 예를 들어, 교사들이 특정 수학 주제를 가르치기 위해 "A"와 "B"로 표시된 두 가지 접근 방식 중 하나를 채택한다고 가정합시다. 우리는 표준화된 수학 시험에서 학생들의 성적이 교수 접근법에 따라 다른지 여부에 관심이 있을 수 있다. 교사들이 접근법 A나 접근법 B를 자유롭게 채택할 수 있다면, 이미 학생들이 수학에서 좋은 성적을 내고 있는 교사들이 방법 A를 우선적으로 선택할 수 있다(또는 그 반대). 이런 상황에서 접근 A와 접근 B로 학습한 학생들의 평균 성적을 단순 비교해도 차이가 있을 것 같지만, 이러한 차이는 두 그룹의 학생 사이에 존재하는 차이 때문에 부분적으로 또는 전체적으로 나타난다. 이러한 상황에서 학생의 기준 능력은 결과(표준화된 시험의 수행)와 A에 접근하거나 B에 접근하는 치료 과제 모두에 연관되어 있다는 점에서 교란 변수로 작용한다.

"인공 쌍"을 형성하고 쌍방향 차이 테스트를 수행함으로써 교란 변수의 영향을 줄일 수 있지만 반드시 제거할 수는 없다. 이러한 인공 쌍들은 교란 요인으로 작용한다고 생각되는 추가 변수를 기반으로 구성된다. 교란 변수에 대한 값이 유사한 학생을 짝짓기함으로써, 관심 가치의 차이 중 더 큰 부분(예: 위에서 설명한 예에서 표준화된 시험 점수)은 관심 요인에 기인하고, 작은 부분은 교란자에 기인한다. 쌍체 차이 시험을 위한 인공 쌍을 형성하는 것은 일치라고 불리는 관측 데이터를 사용하여 비교할 때 교란 요인의 영향을 줄이기 위한 일반적인 접근법의 한 예다.^[2]^[3]^[4]

구체적인 예로서, $우리$ 가 $A$ 와 B 교수 전략에 따라 학생 시험 점수 X를 관찰한다고 가정해 보자. 그리고 각 학생은 두 교수 전략이 실행되기 전에 "높음" 또는 "낮음" 수준의 수학 지식을 가지고 있다. 그러나 우리는 어떤 학생이 "높은" 범주에 속하는지, 어떤 학생이 "낮은" 범주에 속하는지 모른다. 가능한 4개 그룹의 모집단 평균 시험 점수는 ${\begin{array}{l|ll}&A&B\\\hline {\text{High}}&\mu _{HA}&\mu _{HB}\\{\text{Low}}&\mu _{LA}&\mu _{LB}\end{array}}$ B ${\begin{array}{l|ll}&A&B\\\hline {\text{High}}&\mu _{HA}&\mu _{HB}\\{\text{Low}}&\mu _{LA}&\mu _{LB}\end{array}}$ ${\begin{array}{l|ll}&A&B\\\hline {\text{High}}&\mu _{HA}&\mu _{HB}\\{\text{Low}}&\mu _{LA}&\mu _{LB}\end{array}}$ H ${\begin{array}{l|ll}&A&B\\\hline {\text{High}}&\mu _{HA}&\mu _{HB}\\{\text{Low}}&\mu _{LA}&\mu _{LB}\end{array}}$ ${\begin{array}{l|ll}&A&B\\\hline {\text{High}}&\mu _{HA}&\mu _{HB}\\{\text{Low}}&\mu _{LA}&\mu _{LB}\end{array}}$ L 낮음 ${\begin{array}{l|ll}&A&B\\\hline {\text{High}}&\mu _{HA}&\mu _{HB}\\{\text{Low}}&\mu _{LA}&\mu _{LB}\end{array}}$ L ${\$ 이다. $하이}}&\mu _{$ $HA}&\mu _{$ $HB}\\{\text{$ $Low}&#mu _{$ LA}&\ $mu$ _{ $LB}\end$ {array $}}$ 그룹의 ${\begin{array}{l|ll}&A&B\\\hline {\text{High}}&\mu _{HA}&\mu _{HB}\\{\text{Low}}&\mu _{LA}&\mu _{LB}\end{array}}$ 학생 비율은 ${\begin{array}{l|ll}&A&B\\\hline {\text{High}}&p_{HA}&p_{HB}\\{\text{Low}}&p_{LA}&p_{LB}\end{array}}$ ${\begin{array}{l|ll}&A&B\\\hline {\text{High}}&p_{HA}&p_{HB}\\{\text{Low}}&p_{LA}&p_{LB}\end{array}}$ ${\begin{array}{l|ll}&A&B\\\hline {\text{High}}&p_{HA}&p_{HB}\\{\text{Low}}&p_{LA}&p_{LB}\end{array}}$ ${\begin{array}{l|ll}&A&B\\\hline {\text{High}}&p_{HA}&p_{HB}\\{\text{Low}}&p_{LA}&p_{LB}\end{array}}$ H ${\begin{array}{l|ll}&A&B\\\hline {\text{High}}&p_{HA}&p_{HB}\\{\text{Low}}&p_{LA}&p_{LB}\end{array}}$ ${\begin{array}{l|ll}&A&B\\\hline {\text{High}}&p_{HA}&p_{HB}\\{\text{Low}}&p_{LA}&p_{LB}\end{array}}$ ${\begin{array}{l|ll}&A&B\\\hline {\text{High}}&p_{HA}&p_{HB}\\{\text{Low}}&p_{LA}&p_{LB}\end{array}}$ ${\begin{array}{l|ll}&A&B\\\hline {\text{High}}&p_{HA}&p_{HB}\\{\text{Low}}&p_{LA}&p_{LB}\end{array}}$ ${\begin{array}{l|ll}&A&B\\\hline {\text{High}}&p_{HA}&p_{HB}\\{\text{Low}}&p_{LA}&p_{LB}\end{array}}$ L A ${\begin{array}{l|ll}&A&B\\\hline {\text{High}}&p_{HA}&p_{HB}\\{\text{Low}}&p_{LA}&p_{LB}\end{array}}$ ${\begin{array}{l|ll}&A&B\\\hline {\text{High}}&p_{HA}&p_{HB}\\{\text{Low}}&p_{LA}&p_{LB}\end{array}}$ L B ${\$ text}이다. $하이}}&p_{$ $HA}&p_{HB}\\{\text{$ $로우}&p_{$ $LA}&p_{$ LB $}\end{array}}}$ 여기서 ${\begin{array}{l|ll}&A&B\\\hline {\text{High}}&p_{HA}&p_{HB}\\{\text{Low}}&p_{LA}&p_{LB}\end{array}}$ $p HA$ + $p HB$ + $p LB$ + $p LA$ = $1.$

'높은' 그룹에 속하는 학생들의 '치료 차이'는 $μ HA$ - $μ$ 이고_HB, '낮은' 그룹에 속하는 학생들의 치료 차이는 $μ LA$ - $μ$ 이다_LB. 일반적으로 두 가지 교육전략이 어느 방향에서나 다르고, 또는 전혀 차이가 없을 수 있으며, 그 효과는 '높음'과 '낮음' 그룹 사이에서도 규모나 신호에 따라 다를 수 있다. 예를 들어, 잘 준비된 학생의 경우 전략 B가 전략 A보다 우수하지만, 준비가 덜 된 학생의 경우 전략 A가 전략 B보다 우월하다면, 두 가지 치료 차이에는 정반대의 징후가 있을 것이다.

우리는 학생들의 기준 수준을 모르기 때문에, A 그룹에 속한 학생들의 평균 시험 점수 $X$ 의_A 기대값은 두 가지 기준 수준 학생들의 평균값이다.

E{\bar{X}_{A}=\mu _{{{}}}HA}{\frac {p_{HA}{p_{{HA}+p_{LA}}+\mu _{LA}{\frac {p_{{}}LA}}{p_{{{HA}+p_{LA}},

그리고 이와 비슷하게 B그룹 학생들의 평균 시험점수 $X는 B$

E{\bar{X}_{B}=\mu _{{}}}HB}{\frac {p_{HB}{p_{{HB}+p_{LB}}+\mu _{LB}{\frac {p_}{{LB}{\frac {p_{{LB}}LB}}{p_{{HB}+p_{LB}}.

따라서 관측된 처리 차이 $D$ = $X A$ - $X$ 의_B 기대값은 다음과 같다.

\displaystyle \mu _{{HA}{\frac {p_{HA}{p_{{HA}+p_{LA}}-\mu _{{}HB}{\frac {p_{HB}{p_{{HB}+p_{LB}}+\mu _{LA}{\frac {p_{{{LB}}}LA}}{p_{{{HA}+p_{LA}}-\mu _{LB}{\frac {p_{{}LB}}{p_{{HB}+p_{LB}}.}

합리적인 귀무 가설은 "높음" 또는 "낮음" 학생 집단 내에서 치료 효과가 없으므로 $μ HA$ = $μ HB$ , $μ LA$ = μ = $μ LB$ . 이 귀무 가설에서 $D$ 의 기대값은 0이 된다.

p_{\displaystyle p_{HA}=(p_{HA}+p_{LA}(p_{LA})HA}+p_{HB}}}

그리고

p_{\displaystyle p_{HB}=(p_{)HB}+p_{LB})(p_{{LB})HA}+p_{HB}).}

이 조건은 $A$ 와 $B$ 교수 전략 그룹에 대한 학생들의 배정은 교수 전략이 실행되기 전에 그들의 수학적 지식과 무관하다고 주장한다. 이것이 유지된다면, 기초 수학 지식은 교란자가 아니며, 반대로 기초 수학 지식이 교란자인 경우, $D$ 의 기대값은 일반적으로 0과 다를 것이다. 귀무 가설에서 $D$ 의 기대값이 0이 아닐 경우, 귀무 가설을 기각하는 상황은 $A$ 와 $B$ 의 교수 전략 간의 실제 차이 효과에 기인하거나, $A$ 와 B $그룹$ 에 학생을 배정할 때 독립적이지 않기 때문일 수 있다(전혀 효율이 없는 경우에도).교육 전략 때문에).

이 예는 교란 요인이 있을 때 두 집단을 직접 비교하는 경우 관찰되는 어떤 차이가 그룹화 자체 때문인지, 아니면 다른 요인 때문인지 알 수 없다는 것을 보여준다. 만약 우리가 학생들을 그들의 기초 수학 능력에 대한 정확하거나 추정된 측도로 짝을 지을 수 있다면, 우리는 위에 주어진 평균 표의 "열 내" 학생들을 비교하는 것이다. 따라서 귀무 가설이 유지된다면 $D$ 의 기대값은 0이며, 통계적 유의성 수준에는 의도된 해석이 있다.

참고 항목

참조

^ Derrick, B; Broad, A; Toher, D; White, P (2017). "The impact of an extreme observation in a paired samples design". Metodološki Zvezki - Advances in Methodology and Statistics. 14 (2): 1–17.
^ Rubin, Donald B. (1973). "Matching to Remove Bias in Observational Studies". Biometrics. 29 (1): 159–183. doi:10.2307/2529684. JSTOR 2529684.
^ Anderson, Dallas W.; Kish, Leslie; Cornell, Richard G. (1980). "On Stratification, Grouping and Matching". Scandinavian Journal of Statistics. Blackwell Publishing. 7 (2): 61–66. JSTOR 4615774.
^ Kupper, Lawrence L.; Karon, John M.; Kleinbaum, David G.; Morgenstern, Hal; Lewis, Donald K. (1981). "Matching in Epidemiologic Studies: Validity and Efficiency Considerations". Biometrics. 37 (2): 271–291. CiteSeerX 10.1.1.154.1197. doi:10.2307/2530417. JSTOR 2530417. PMID 7272415.

외부 링크

의사결정에서 상대적 측정과 그 일반화: 무형의 요인 측정을 위한 수학에서 쌍 비교가 중심인 이유 – 계층/네트워크 분석 프로세스(Thomas L. Saaty)
쌍별 시퀀스 비교 평가
쌍 비교(필리포 A). 살루스트리)

[outie-1] Derrick, B; Broad, A; Toher, D; White, P (2017). "The impact of an extreme observation in a paired samples design". Metodološki Zvezki - Advances in Methodology and Statistics. 14 (2): 1–17.

[2] Rubin, Donald B. (1973). "Matching to Remove Bias in Observational Studies". Biometrics. 29 (1): 159–183. doi:10.2307/2529684. JSTOR 2529684.

[3] Anderson, Dallas W.; Kish, Leslie; Cornell, Richard G. (1980). "On Stratification, Grouping and Matching". Scandinavian Journal of Statistics. Blackwell Publishing. 7 (2): 61–66. JSTOR 4615774.

[4] Kupper, Lawrence L.; Karon, John M.; Kleinbaum, David G.; Morgenstern, Hal; Lewis, Donald K. (1981). "Matching in Epidemiologic Studies: Validity and Efficiency Considerations". Biometrics. 37 (2): 271–291. CiteSeerX 10.1.1.154.1197. doi:10.2307/2530417. JSTOR 2530417. PMID 7272415.

[1]

[2]

[3]

[4]

Search