유효시료크기

통계에서 유효 표본 크기는 표본의 관측치가 상관되거나 가중될 때 분포에서 추출한 표본에 대해 정의된 개념이다.1965년 레슬리 키쉬는 샘플이 단순한 랜덤^[1]^[2]^{: 162, 259} 표본일 때와 비교하여 현재의 샘플링 설계로부터의 분산을 반영하기 위해 원래 샘플 크기를 설계 효과로 나눈 것으로 정의했다.

상관 관측치

동일한 분포의 여러 독립적 $Y_{1},\dots ,Y_{n}$ Y $Y_{1},\dots ,Y_{n}$ , $Y_{1},\dots ,Y_{n}$ $Y_{1},\dots ,Y_{n}$ n ${\$ 의 $\mu$ 표본이 평균 $Y_{1},\dots ,Y_{n}$ $\mu$ {\ $displaystyle \mu }$ 및 표준 $\sigma$ $\$ {\ $displaystyle \sigma }$ 의 분포에서 추출되었다고 가정해 보자 $\sigma$ 이 분포의 평균은 다음과 같다.

{\hat{\mu }}={\frac {1}{n}\sum _{i=1}^{n}Y_{i}

이 경우 ${\hat {\mu }}$ ${\$ 의 분산은 다음과 같이 주어진다 ${\hat {\mu }}$ .

\operatorname {Var}({\hat {\mu }}})={\frac {\sigma ^{2}}{n}}}}

단, 표본의 관측치가 상관관계가 있는 경우(클라스 내 상관관계 의미) $\operatorname {Var} ({\hat {\mu }})$ ⁡ $\operatorname {Var} ({\hat {\mu }})$ ) $\operatorname {Var} ({\hat {\mu }})$ {\ $displaystyle \operatorname {Var}({\hat$ {\ $mu }}})$ 는 다소 $\operatorname {Var} ({\hat {\mu }})$ 높다.예를 들어 샘플의 모든 관측치가 $n$ 상관관계가 있는 경우 $({\displaystyle$ $\rho_{(i,j)}=1}),$ $\operatorname {Var} ({\hat {\mu }})=\sigma ^{2}$ ) $\operatorname {Var} ({\hat {\mu }})=\sigma ^{2}$ = = $\operatorname {Var} ({\hat {\mu }})=\sigma ^{2}$ ${\$ $}}})=\sigma$ $\operatorname {Var} ({\hat {\mu }})=\sigma ^{2}$ ^{ $2$ $n$

유효 샘플 크기 $n_{\text{eff}}$ ${\$ 은(는) 다음과 같은 고유한 값(정수는 아님)이다 $n_{\text{eff}}$ .

\operatorname {Var}({\hat {\mu }})={\frac {\sigma ^{2}}:{n_{\text{eff}}}}}}.

$n_{\text{eff}}$ ${\$ 은(는) 표본 내 관측치 간의 상관 관계에 대한 함수다 $n_{\text{eff}}$ .

Suppose that all the (non-trivial) correlations are the same and greater than $-1/(n-1)$ , i.e. if $i\neq j$ , then $\rho _{(i,j)}=\rho >-1/(n-1)$ .그러면

{\begin{aigned}\operatorname {Var}({\hat {\mu }})&=\operatorname {Var} \left({\frac {1}{n})}Y_{1}+{\frac {1}{n}}}Y_{2}+\cdots +{\frac {1}{n}}}Y_{n}\오른쪽)\\[5pt]&=\sum _{i=1}^{n}{\frac {1}{n^{2}}}\operatorname {Var} (Y_{i})+\sum _{i=1}^{n}\sum _{j=1,j\neq i}^{n}{\frac {1}{n^{2}}}\operatorname {Cov} (Y_{i},Y_{j})\\[5pt]&=n{\frac {\sigma ^{2}}{n^{2}}}+n(n-1){\frac {\sigma ^{2}\rho }{n^{2}}}\\[5pt]&=\sigma ^{2}{\frac {1+(n-1)\rho }{n}}.\end{정렬}}

그러므로

n_{\text{n1}={\frac {n}{1+(n-1)\rho }}.

던 ρ)0{\displaystyle\rho =0}에서, n성교하다)n{\displaystyle n_{\text{성교하다}}=n}. 마찬가지로, 만약ρ=1{\displaystyle \rho =1} 다음 n성교하다=1{\displaystyle n_{\text{성교하다}}=1}. 그리고 만약− 1/(n− 1)<>ρ<0{\displaystyle -1(n-1)<, \rho<0} 다음 n성교하다>n{\dis.playstyle n_{\t $ext{{11}}>n}$ .

상관관계가 균일하지 않은 경우는 다소 복잡하다.상관 관계가 음수인 경우 유효 표본 크기가 실제 표본 크기보다 클 수 있다는 점에 유의하십시오.만약 우리가 허락한다면 그 더 일반적인 형태 μ ^)나는 1법에 나는 y 나는{\displaystyle{\hat{\mu}}=\sum _{i=1}^{n}a_{나는}y_{나는}}(어디 ∑ 나는 1법에 i=1{\displaystyle \sum원 즉{i=1}^{n}a_{나는}=1}) 다음 사태가 계속되고 있는 n성교하다 을이 상관 관계 매트릭스를 건설하는 것이 가능하다;n{\displaystyle n_{\text{성교하다}}>n}원 ∑.ev모든 상관관계가 긍정적일 때.직관적으로 ${\$ 계수의 모든 선택 항목에 대해 $n_{\text{eff}}$ $n_{\text{eff}}$ ${\$ 의 최대값을 관측된 데이터의 정보 내용으로 생각할 수 있다 $a_{i}$ .

가중표본

데이터에 가중치가 부여된 경우(예: 가중치를 정규화할 필요가 없음, 즉 가중치의 합이 1 또는 n 또는 일부 다른 상수) 표본과 실질적으로 100% 상관 관계를 갖는 여러 관측치를 분포에서 추출한 것이다.이 경우 효과는 Kish의 유효 시료^[3]^[2]^{: 162, 259} 크기로 알려져 있다.

{\displaystyle n_{\text{eff}}={\frac {n}{D_{\text{eff}}}}={\frac {n}{\frac {\overline {w^{2}}}{{\overline {w}}^{2}}}}={\frac {n}{\frac {{\frac {1}{n}}\sum _{i=1}^{n}w_{i}^{2}}{\left({\frac {1}{n}}\sum _{i=1}^{n}w_{i}\right)^{2}}}}={\frac {n}{\frac {n\sum _{i=1}^{n}w_{i}^{2}}{(\sum _{i=1}^{n}w_{i})^{2}}}}={\frac {(\sum _{i=1}^{n}w_{i})^{2}}{\sum _{i=1}^{n}w_{i}^{2}}:

참조

^ Tom Leinster (December 18, 2014). "Effective Sample Size".
^ ^a ^b Kish, Leslie (1965). "Survey Sampling". New York: John Wiley & Sons, Inc. ISBN 0-471-10949-5. {{cite journal}}:Cite 저널은 필요로 한다. journal=(도움말)
^ "Design Effects and Effective Sample Size".

추가 읽기

M. B., Priestley (1981), Spectral Analysis and Time Series 1, Academic Press, §5.3.

참고 항목

디자인 효과

[EffSize-1] Tom Leinster (December 18, 2014). "Effective Sample Size".

[Kish1965-2] Kish, Leslie (1965). "Survey Sampling". New York: John Wiley & Sons, Inc. ISBN 0-471-10949-5. {{cite journal}}:Cite 저널은 필요로 한다. journal=(도움말)

[SurveySize-3] "Design Effects and Effective Sample Size".

[1]

[2]

[3]

Search

유효시료크기

네임스페이스

더

목차

상관 관측치

가중표본

참조

추가 읽기

참고 항목