설계 효과
Design effect조사 방법론에서 설계 효과(일반적으로 D t (D e f t 2(2는 관심 매개변수에 대한 두 추정치의 분산 사이의 비율이다.특히, 동일한 수의 [1]: 258 원소의 단순 랜덤 표본(SRS)에서 얻은 표본을 사용하여 계산(가설적으로)되는 대체 추정기의 분산에 대한 일부 표본 설계의 표본을 기반으로 하는 추정기의 실제 분산의 비율입니다.일부 관심 추정기의 분산에 대한 설계 구조의 기대 효과(예: 관측치 군집 간의 상관 관계, 표본 추출의 불균등한 확률 등)를 측정합니다.는 평가자의 변화에 일부 매개 변수에, 이 연구 Deff(=1{\displaystyle D_{eff}=1}과 SRS를 사용하지 않기 때문이다 인플레이션(Deff1{\displaystyle D_{성교하다}>1}), 또는 디플레이션(Deff<1{\displaystyle D_{성교하다}<1})을 나타낼 수 있는 디자인 효과는 긍정적인 실수. ,분산은 동일합니다).[2]: 53, 54
Deff는 연구에 클러스터 샘플링, 계층화 샘플링, 클러스터 랜덤화 대조 시험, 불균형 표본, 비적용 범위, 무응답, 데이터의 통계 조정 등과 같은 복잡한 표본 추출이 수반될 때 유용할 수 있다.표본 크기 계산에 사용할 수 있으며, 표본의 대표성을 (목표 모집단에 대한) 수량화하고 일부 추정기의 분산을 조정(종종 부풀리기)할 수 있다(SRS를 [3]가정하여 추정기의 분산을 계산할 수 있는 경우).
"[1]: 88, 258 디자인 효과"라는 용어는 1965년 레슬리 키시에 의해 처음 도입되었습니다.그 이후로 문헌에서 관심 추정기 분산의 증가/감소에 대한 알려진 표본 설계의 영향을 설명하기 위한 많은 계산(및 추정기)이 제안되었다.일반적으로 설계 효과는 총 또는 비율 평균과 같은 관심 통계 간에 다르다. 또한 설계(예: 선택 확률)가 관심 결과와 상관관계가 있는 경우에도 중요하다.그리고 마지막으로 결과 자체의 분포에 영향을 받습니다.실제로 [4]: 13 설계 효과를 추정 및 사용할 때 이 모든 사항을 고려해야 한다.
정의들
데프
설계효과(Deff, {eff는 일부 (「\[1][5]의 추정치에 대한2개의 이론적인 분산의 비율입니다.
- 분자는 특정 샘플링 p p\displaystyle(\displaystyle의 일부 파라미터 ^\displaystyle p
- 분모에는 같은 샘플 크기를 가정한 분산이 포함되어 있지만, 샘플이 추정기를 사용하여 얻어진 경우 하지 않고 단순 랜덤 샘플링( ^ r r \ style \ hat \ }{ )에 사용합니다.
그 때문에, 다음과 같이 됩니다.
달리 말하면, f {eff}}는 샘플이 추출되어 특정 샘플링 설계(예를 들어 가중치 또는 기타 측정치를 사용)에 따라 조정되었기 때문에 분산이 얼마나 더 증가(또는 일부 경우 감소)했는지를 나타냅니다. 이는 샘플이 단순한 무작위 샘플링(대체되지 않음)에서 추출된 것일 수 있습니다.There are many ways of calculation , depending on the parameter of interest (E.g.: population total, population mean, quantiles, ratio of quantities etc.), the estimator used, and the sampling design (e.g.: clustered sampling, stratified sampling, post-stratification, multi-stage sampling, etc.).
모집단 평균을 추정하기 위해 Deff(일부 표본 추출 설계 p의 경우)는 다음과 같습니다.[4]: 4 [2]: 54
여기서 n은 표본 크기, f는 모집단(n/N), (1-f)는 (표준) 유한 모집단 보정(FPC), 2 {\}=}은 분산되지 않은 표본 분산이다.
단위 [1]: 259 분산(또는 요소 분산)의 추정치는 표본 설계의 모든 복잡성을 통합하기 위해 Deff에 원소의 분산을 곱하는 것입니다.
Deff의 정의는 우리가 종종 모르는 모집단의 모수(즉, 두 개의 서로 다른 표본 추출 설계에서 추정기의 분산)에 기초한다.특정 설계에 대한 Deff 추정 프로세스는 다음 [6]: 98 섹션에서 설명합니다.
Cochran [2]: 54 1977에는 일부 설계에 대해 총(평균이 아닌) 추정의 (이론적인) 설계 효과에 대한 일반 공식이 제시되어 있습니다.
디프트
1995년 키시가 제안한 데프와 관련된 수량은 데프트([7]: 56 [4]Deft)라고 불린다.분산 비율의 제곱근에 정의되며, 분모는 치환(srswr)이 없는 대신 치환(srswr)이 있는 단순 랜덤 표본을 사용합니다.
이후 정의(1995년 대 1965년에 제안)에서는 표본 설계의 일부이므로 설계 효과의 정의에 srs "대체 없이" (분산에 대한 긍정적 효과와 함께)를 포착해야 한다는 주장이 제기되었다.또한 추론에서의 사용과 더 직접적으로 관련이 있다(자주 +Z* 사용).DE*SE, +Z* 아님DE*VAR(신뢰구간 작성 시).또한 유한 모집단 보정(FPC)도 일부 상황에서 계산하기가 더 어렵기 때문입니다.그러나 인구가 매우 많은 경우 Deft는 (거의) Deff의 제곱근( e f {입니다.
Deft의 원래 의도는 " m (\\ displaystyle \ {}^{2 {을 초과하는 샘플 설계의 효과를 표현하고 측정 단위와 샘플 크기를 불필요한 파라미터로 제거하는 것"이었다. 이는 설계를 일반화할 수 있도록 하기 위한 것이다.동일한 조사(조사 [7]: 55 간에도 해당) 내에서 스틱과 변수를 사용할 수 있습니다.그러나 후속 작업에서는 모집단 총계 또는 평균과 같은 매개변수에 대한 설계 효과의 계산은 결과 측정치의 변동성에 의존하며, 이 측정치에 대한 Kish의 원래 소망을 제한한다.그러나 이 문장은 (일부 조건에서는) 가중 [4]: 5 평균에 대해 대략적으로 참일 수 있다.
유효 표본 크기
1965년 Kish가 정의한 유효 표본 크기는 원래 표본 크기를 설계 [1]: 162, 259 [8]: 190, 192 효과로 나눈 값이다.이 수량은 표본 설계(및 관련 모수 추정기)가 단순 랜덤 [9]표본을 기반으로 하는 경우 기존 설계에서 추정기(일부 모수의 경우)의 현재 분산을 달성하는 데 필요한 표본 크기를 나타냅니다.
즉,
바꿔 말하면 표본 추출 설계의 설계 효과를 올바르게 조정하는 추정기를 사용할 때 남아 있는 반응의 수를 나타냅니다.예를 들어, 단순 평균 대신 역확률 가중치와 함께 가중 평균을 사용합니다.
또한 Deff의 역수(예: n D f f { { _ { n _ { n _ { n _ { n } = frac D { } ) )를 취함으로써 효과적인 샘플 크기 비율을 얻을 수 있습니다.
Kish의 설계 효과를 동일하지 않은 무게에 사용할 경우, 다음과 같이 "Kish의 유효 표본 크기"[10][1]: 162, 259 에 대한 간단한 공식을 사용할 수 있습니다.
잘 알려진 표본 추출 설계에 대한 설계 효과
표본 설계는 설계 효과를 계산하는 방법을 지시합니다.
표본 설계에 따라 치우침과 분산 측면에서 추정치(평균 등)에 미치는 영향이 크게 다릅니다.
예를 들어, 군집 표본 추출의 경우 단위들의 클래스 내 상관 관계(및 추정치의 분산을 증가시키는 부정적인 효과)에 관계없이 선택 확률이 같거나 같을 수 있습니다.계층화 표본 추출의 경우 확률은 같거나(EPSEM) 동일하지 않을 수 있습니다.그러나 그럼에도 불구하고 표본 추출 단계에서 모집단의 지층 크기에 대한 이전 정보를 사용하면 추정치의 통계적 효율성을 얻을 수 있다.예를 들어, 성별이 관심의 결과와 관련이 있다는 것을 알고 있고, 일부 모집단의 남녀 비율이 50%-50%라는 것도 알고 있는 경우.그런 다음 각 성별의 정확히 절반을 표본으로 추출하면 표본에서 남성-여성 비율이 일정하지 않아 발생하는 변동성을 제거했기 때문에 추정치의 분산을 줄일 수 있습니다.마지막으로, 모집단의 비적용, 무응답 또는 일부 계층 분할에 적응하는 경우(표본 추출 단계에서 이용 불가), 통계 절차(예: 사후 계층화 및 기타)를 사용할 수 있다.이러한 절차의 결과는 실제 단위 표본 추출 확률과 비슷하거나 매우 다른 표본 추출 확률을 추정할 수 있다.이러한 추정치의 품질은 보조 정보의 품질과 이러한 정보를 생성하는 데 사용된 임의의 가정에서의 누락에 따라 달라집니다.이러한 표본 추출 확률 추정기(성향 점수)가 그러한 현상을 발생시킨 대부분의 현상을 포착하는 데 성공하더라도, 추정기에 대한 변수 선택 확률의 영향은 데이터에 따라 작거나 클 수 있다(다음 섹션의 세부 사항).
표본 설계의 다양성이 크기 때문에(불균등 선택 확률에 대한 영향 유무에 관계없이) 잠재적 설계 효과를 포착하고 추정기의 정확한 분산을 추정하기 위해 다양한 공식이 개발되었다.경우에 따라서는, 이러한 다른 설계 효과를 복합시킬 수 있습니다(선택 확률과 클러스터 샘플링의 경우, 다음 섹션에서 자세히 설명합니다).이러한 공식을 사용할지 아니면 단순히 SRS를 가정할지는 추정기 분산의 증가(및 방법론 및 기술적 [1]: 426 복잡성의 오버헤드)와 비교하여 예상되는 편향의 양에 좌우된다.
선택 확률이 동일하지 않음
동일하지 않은 선택 확률의 출처
각 단위가 정확히 동일한 선택 확률을 가질 수 있도록 단위를 표본 추출하는 방법은 다양합니다.이러한 방법을 EPSEM(Equal Probability Sampling) 방식이라고 합니다.보다 기본적인 방법으로는 단순 랜덤 표본(SRS, 교체 여부와 관계없이)과 고정된 표본 크기를 얻기 위한 체계적인 표본 추출이 있습니다.랜덤 샘플 크기의 베르누이 샘플도 있습니다.계층화 샘플링 및 클러스터 샘플링과 같은 고급 기술도 EPSEM으로 설계할 수 있습니다.예를 들어, 군집 표본 추출에서는 각 군집을 크기에 비례하는 확률로 표본 추출한 다음 군집 내의 모든 단위를 측정할 수 있습니다.보다 복잡한 클러스터 샘플링 방법은 1단계(예: 클러스터 크기에 비례함)에서 클러스터를 샘플링하고 2단계에서 고정 비율의 SRS를 사용하여 각 클러스터에서 표본을 추출하는 2단계 샘플링을 사용하는 것이다(예: 클러스터의 [11]: 3–8 절반).
Kish와 다른 사람들은 그들의 연구에서 불평등한 선택 확률을 [1]: 425 [8]: 185 [7]: 69 [12]: 50, 395 [13]: 306 초래하는 몇 가지 알려진 이유를 강조한다.
- 선택 프레임 또는 절차로 인한 불균형 샘플링.이는 연구자가 특정 하위 모집단 또는 군집을 초과/적게 표본 추출하도록 표본을 의도적으로 설계할 때 발생합니다.이런 일이 일어날 수 있는 경우가 많습니다.예를 들어 다음과 같습니다.
- 계층화 표본 추출에서 일부 계층의 단위가 다른 계층보다 큰 편차를 갖는 것으로 알려진 경우.이러한 경우, 연구자의 의도는 일부 모집단 수준 모수(예: 평균)의 추정기의 전체 분산을 줄이기 위해 지층 간 분산에 대한 이러한 사전 지식을 사용하는 것일 수 있다.이것은 최적 할당으로 알려진 전략에 의해 달성될 수 있다. 즉, 계층표준편차가 크고 샘플링 비용이 낮아지는(, S h h h \ h}\ { {\ e h C 의 표준 편차는 h h에서 의 요소를 모집하는 비용과 관련이 있습니다.최적의 할당의 예는 Neyman의 최적 할당이다. 각 스트레이텀을 모집하는 비용이 고정될 때 샘플 크기는 h S S h h W H h \ n_{h frac }\{이다 .h { n _ { } 、 h N { _ { h } = frac { _ { _ { h } 전체 모집단 N에 대한 상대적인 크기이며, {}}}} of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of 최적 설계와 관련된 개념은 최적 실험 설계입니다.
- 두 계층(예: 두 개의 특정 사회-인구학적 그룹 또는 두 개의 지역 등)을 비교하는 데 관심이 있는 경우, 이 경우 더 작은 그룹이 과잉 표본 추출될 수 있다.이렇게 하면 두 그룹을 비교하는 추정기의 분산이 줄어듭니다.
- 군집 표본 추출에는 크기가 서로 다른 군집이 있을 수 있지만 SRS를 사용하는 모든 군집으로부터 절차 표본이 추출되고 군집 내의 모든 요소가 측정됩니다(예: 군집 크기가 표본 추출 단계에서 사전에 알려지지 않은 경우).
- 2단계 표본을 사용하여 첫 번째 단계에서는 클러스터가 크기에 비례하여 표본 추출되지만(예: 크기에 비례하는 PPS 확률), 두 번째 단계에서는 각 클러스터에서 특정 고정 단위 수(예: 1개 또는 2개)만 선택됩니다. 이는 편의성/예산 고려 사항으로 인해 발생할 수 있습니다.첫 번째 단계에서 PPS를 사용하여 표본을 추출하려고 하지만 각 단위의 요소 수가 정확하지 않은 경우도 마찬가지입니다(따라서 일부 소규모 클러스터가 선택될 확률이 예상보다 높을 수 있습니다).또한 샘플링할 가능성이 너무 적은 대규모 클러스터에는 visa를 사용합니다).이러한 경우, 첫 번째 단계에서 표본 추출 프레임의 오차가 클수록, 필요한 불평등한 선택 [6]: 109 확률이 커집니다.
- 표본 추출에 사용된 프레임에 일부 항목의 중복이 포함되어 있는 경우, 일부 항목은 표본 추출될 다른 항목보다 더 큰 확률로 이어진다(예: 표본 추출 프레임이 여러 목록을 병합하여 생성된 경우).또는 여러 광고 채널에서 사용자를 모집하는 경우 - 일부 사용자는 여러 채널에서 모집할 수 있고 다른 사용자는 한 채널에서만 모집할 수 있습니다.)이러한 경우 각각 - 단위마다 표본 추출 확률이 다르므로 이 표본 추출 절차는 [11]: 3–8 [8]: 186 EPSEM이 아닙니다.
- 여러 개의 서로 다른 샘플/프레임이 결합되었을 때.예를 들어, 응답자를 모집하기 위해 다른 광고 캠페인을 실행하는 경우.또는 서로 다른 연구자 또는 서로 다른 시기에 수행된 여러 연구 결과를 결합하는 경우(예:메타 분석).[8]: 188
- 표본 추출 설계 결정으로 인해 불균형 표본 추출이 발생할 경우, 연구자는 결정을 추적하여 정확한 포함 확률을 정확하게 계산할 수 있다.이러한 선택 확률이 추적하기 어려운 경우, 보조 변수(예: 나이, 성별 등)의 정보와 결합된 일부 성향 점수 모델을 사용하여 추정할 수 있다.
- 비커버리지[1]: 527, 528 예를 들어, 모집단의 모든 사람을 포함하지 않는 사전 정의된 리스트에 근거해 사람들을 표본 추출한 경우(전화 번호부 또는 설문조사에 사람을 모집하기 위한 광고 사용 등) 이러한 현상이 발생합니다.일부 사람(예: 미성년자, 투표할 수 없는 사람 등)을 의도적으로 배제하는 것과 반대로, 이러한 누락된 단위는 샘플링 프레임을 만드는 데 실패하여 누락된다.표본 추출 확률에 대한 비적용범위의 영향은 강력한 가정을 하지 않는 한 다양한 조사 상황에서 측정(및 조정)하기 어려운 것으로 간주된다.
- 무응답.이는 측정하려는 표본 추출 장치에 대한 측정 결과를 얻지 못하는 것을 의미합니다.응답하지 않는 이유는 상황에 따라 다릅니다.예를 들어 설문조사가 수행되었을 때 전화를 받을 수 없는 경우 등 일시적으로 통화할 수 없는 경우가 있습니다.또한 다양한 이유로 인해 설문조사를 거부할 수 있다. 예를 들어, 다양한 인종/인구/사회-경제 그룹의 사람들이 일반적으로 응답하는 경향, 시간을 소비하거나 데이터를 공유할 인센티브 부족, 설문조사를 수행하는 기관의 정체성, 질병으로 인해 응답할 수 없음(예: 질병으로 인해 응답할 수 없음)., 문맹 또는 언어 장벽), 응답자를 찾을 수 없습니다(예: 응답자가 아파트를 이동했습니다). 부호화 또는 전송 중에 응답이 손실/파괴되었습니다(예: 측정 오류).설문조사의 맥락에서 이러한 이유는 전체 설문조사에 대한 답변 [1]: 532 [8]: 186 또는 특정 질문에 대한 답변과 관련이 있을 수 있습니다.
- 통계적 조정여기에는 일부 알려진(또는 추정된) 지층 크기에 대한 표본의 임시 조정을 수행하는 데 사용되는 계층화 후, 긁힘 또는 성향 점수(추정) 모델과 같은 방법이 포함될 수 있다.이러한 절차는 샘플링 오류, 샘플링 프레임의 적용 범위 부족에서 [14]: 45 [15]무응답에 이르는 샘플링 문제를 완화하기 위해 사용됩니다.예를 들어, 단순 랜덤 표본을 사용하는 경우 (일부 보조 정보를 사용하여) 사후 계층화는 가중되지 않은 추정치보다 균일하게 더 나은 추정치를 제공하지 않습니다.그러나 이는 보다 "강력한"[16] 추정치로 볼 수 있다.또는 이러한 방법을 사용하여 샘플이 "표준화"[8]: 187 라고도 알려진 프로세스인 일부 목표 "대조군"(즉, 관심 집단)과 더 유사하도록 만들 수 있습니다.이러한 경우, 이러한 조정은 편향되지 않은 추정치를 제공하는 데 도움이 된다(종종 다음 절에서 볼 수 있듯이 분산이 증가하는 비용과 함께).원래 샘플이 비확률 샘플링일 경우 계층화 후 조정은 임시 쿼터 [8]: 188, 189 샘플링과 유사합니다.
표본 설계가 완전히 알려진 경우(계층 h의 일부 에 대해 p {\개의 확률 확률로 이어짐), 무응답이 측정 가능한 경우(즉, r {개의 관측치만 h로 응답한 것으로 알고 있음), 정확히 알려진 역확률 가중치를 계산할 수 있다.계층 h의 각 요소 i에 대해 을 사용하여 ted: i h h {\{i}= [8]: 186 때로는 선택 확률을 추정하기 위해 사후 확인 또는 긁힘과 같은 통계 조정이 사용된다.예: 우리가 가지고 있는 샘플을 동일한 목표 모집단과 비교할 때, 대조군에 매칭이라고도 한다.추정 과정은 기존 모집단을 대체 모집단으로 조정하는 데에만 초점을 맞출 수 있다(예를 들어, 여러 지역에서 전체 국가로 구성된 패널에서 추정하려고 하는 경우).이러한 경우, adjust 나는{\displaystyle c_{나는}일부 교정 계수 c에}과 역기를 w로 c나는 p hrh{\displaystyle w_{나는}={\frac{c_{나는}}{p_{h}r_{h}}원}계산할}.[8]:187 하지만, 다른 사례에서는, under-coverage과 무응답에 모델로 한 것입니다. 일부로 집중할 수 있다. 그 용의tatistic 조정으로 전체 샘플링 확률 추정(예: \ 경우, 가중치는 w \ {i} =} 입니다. 조정을 사용할 때 w 는 일부 모델에 기초하여 추정됩니다.다음 섹션의 공식에서는 알고 있다고 가정합니다.이것은 통계 조정에서는 해당되지 않습니다( i style {{ i } 。 w의 가 매우 작다고 가정할 경우 다음 섹션을 알려진 것처럼 사용할 수 있습니다.이 가정이 참이라는 것은 모형화에 사용되는 표본의 크기에 따라 다르므로 분석 중에 유의할 필요가 있습니다.
선택 확률이 다르고 표본 크기가 랜덤하며 쌍별 선택 확률이 독립적일 경우 이를 포아송 [17]표본 추출이라고 합니다.
추정치의 속성을 설명하기 위한 "설계 기반" 대 "모델 기반"
"개별 사례 가중치"(예: 역확률 가중치)를 통해 불평등한 확률 선택을 조정할 때, 우리는 관심 수량에 대한 다양한 유형의 추정기를 얻는다.Horvitz와 같은 추정자-Thompson 추정기는 모집단의 전체 및 평균에 대해 편향되지 않은 추정기(선택 확률이 실제로 알려진 경우 또는 대략 알려진 경우)를 산출합니다.Deville과 Sérndal(1992)은 가중치 합계가 모집단 크기와 동일한 것과 같은 일부 조건을 만족하도록 가중치를 사용하는 추정치에 대해 "교정 추정기"라는 용어를 만들었다.그리고 보다 일반적으로 가중치 합계가 보조 변수인θ x { }=예: 응답자의 가중치 합계가 각 연령 [18][15]: 132 [19]: 1 버킷의 모집단 크기와 동일함)와 동일하다.
교정 추정기의 속성에 대해 논하는 두 가지 주요 방법은 다음과 같습니다.[15]: 133–134 [20]
- 랜덤화 기반(또는 샘플링 설계 기반) - 이 경우 표본에서 측정된 관심 의 ( 및 값 y})는 모두 알려진 것으로 취급됩니다.이 프레임워크에서는 결과(Y)의 (알려진) 값에는 가변성이 있다.다만, 모집단의 요소 중 어느 것이 샘플로 선택되었는가(흔히 로 되며, i i가 샘플에 있으면 1이 되고 그렇지 않으면 0이 됩니다).단순 랜덤 샘플의 경우 일부 p p의 i.i.d 베르누이 분포가 됩니다.일반 EPSEM(등확률샘플링)의 경우는 일부 p{displaystyle p의 베르누이 분포가 됩니다.미완성 랜덤 변수.포스트 성층화와 같은 경우에는 각 층의 요소 수를 일부 층에 각 요소에 대해 p {\ 포함 확률이 다른 다항 분포로 모델링할 수 있다. 이 경우 표본 크기 자체는 랜덤 변수가 될 수 있다.
- 모형 기반 - 이 경우 표본은 고정되고 가중치는 고정되지만 관심 결과는 랜덤 변수로 처리됩니다.예를 들어, 사후 계층화의 경우, 결과는 독립 변수가 각 관측치를 관련 계층에 매핑하는 지시 변수인 일부 선형 회귀 함수로 모델링될 수 있으며, 변동성은 오차 항과 함께 온다.
나중에 알게 되겠지만, 문헌의 일부 증거는 랜덤화 기반 프레임워크에 의존하는 반면, 다른 증거는 모델 기반 관점에 초점을 맞춘다.평균에서 가중 평균으로 이동하면 복잡성이 증가합니다.예를 들어, 조사 방법론의 맥락에서 모집단 크기 자체는 종종 추정된 미지의 수량으로 간주된다.따라서 가중평균의 계산은 실제로 비율 추정기를 기반으로 하며, 분자의 총계 추정기와 분모의 모집단 크기 추정기를 사용한다(분산 계산을 더 [21]복잡하게 만든다).
일반적인 중량 유형
가중치에는 여러 가지 유형(및 하위 유형)이 있으며 이를 사용하고 해석하는 다양한 방법이 있습니다.일부 체중의 경우 절대값이 중요한 의미를 갖는 반면, 다른 체중의 경우 중요한 부분은 서로 체중의 상대적 값이다.이 절에서는 후속 절에서 참조할 수 있도록 보다 일반적인 몇 가지 유형의 체중을 제시한다.
- 빈도 가중치는 기본 가중치 유형으로, 통계 과정 소개에서 제시된다.이 경우 각 가중치는 표본 내 항목의 절대 빈도를 나타내는 정수입니다.이러한 가중치를 반복(또는 발생) 가중치라고도 합니다.특정 값은 가중치가 변환되면 손실되는 절대적 의미를 가집니다(예: 스케일링).예를 들어 주파수 가중치 값이 2와 3인 숫자 10과 20이 있는 경우 데이터를 "확산"하면 10, 10, 20, 20(각 항목에 가중치 1 포함)이 됩니다.주파수 가중치에는 데이터 세트에 포함된 정보의 양이 포함되므로 Bessel의 보정을 사용하여 편향되지 않은 가중 분산 추정을 생성할 수 있습니다.데이터 집합의 각 값에서 볼 수 있는 특정 항목 수는 랜덤이기 때문에 이러한 가중치는 종종 랜덤 변수입니다.
- 역추적 가중치는 각 요소에 해당(알려진)[22][8]: 187 분산의 역추적 가중치가 할당되는 경우입니다.모든 요소의 기대치가 동일한 경우 가중 평균을 계산하기 위해 이러한 가중치를 사용하는 것은 모든 가중 평균 중에서 편차가 가장 작습니다.일반적인 공식에서 이러한 가중치는 랜덤이 아니라 알려져 있다(이는 신뢰성[definition needed] 가중치와 관련이 있는 것으로 보인다).
- 정규화된(볼록한) 가중치는 볼록한 조합을 형성하는 가중치 집합입니다.즉, 각 가중치는 0과 1 사이의 수치이며, 모든 가중치의 합은 1과 같다.모든 (음수가 아닌) 가중치 세트는 각 가중치를 모든 가중치의 합으로 나누어 정규화된 가중치로 변환할 수 있으며, 이러한 가중치는 합계가 1이 되도록 정규화될 수 있다.
- 관련 형태는 표본 크기 n에 합하도록 정규화된 가중치이다.이러한 (음수가 아닌) 가중치는 표본 크기(n)와 합하고 평균은 1입니다.모든 가중치 세트는 각 가중치를 모든 가중치의 평균으로 나누어 표본 크기로 정규화할 수 있습니다.이러한 가중치는 가중치가 1보다 큰 원소가 평균 관측치보다 "중요"한 반면 1보다 작은 가중치는 평균 관측치보다 "중요"한 것으로 해석할 수 있습니다.
- 역확률 가중치는 각 원소에 해당 원소를 선택할 역확률에 비례하는 가중치가 주어지는 것입니다.예: w {\{i}=i[8]: 185 을 사용하여 역확률 가중치를 사용하여 각 요소가 대상 모집단에서 "표현"하는 항목의 수를 학습한다.따라서 그러한 가중치의 합계는 관심 대상 모집단의 크기를 반환합니다.역확률 가중치는 합계를 1로 정규화하거나 표본 크기(n)로 정규화할 수 있으며, 다음 섹션의 많은 계산에서 동일한 결과를 얻을 수 있습니다.
- 샘플이 EPSEM일 경우 모든 확률이 동일하고 선택 확률의 역수가 서로 동일하다( N fn}} =displaystyle {1} 。 여기서 n은 샘플 이고 Nn}은 포퓰러이다).n 사이즈).이러한 표본을 자가 가중치 [8]: 193 표본이라고 합니다.
가중치 조정을 적용하는 간접적인 방법도 있다.예를 들어, 기존 사례를 복제하여 누락된 관측치를 귀속시킬 수 있으며(예: 무응답에서), 다중 귀속과 같은 방법을 사용하여 분산을 추정할 수 있습니다.데이터의 보완적 취급은 경우에 따라서는 (가중치 0을 부여) 제거하는 것입니다.예를 들어, 일부 분석에 덜 필수적인 과잉 표본 추출 그룹의 영향을 줄이려는 경우입니다.두 경우 모두 본질적으로 역확률 가중치와 유사하지만, 실제 애플리케이션은 가중치 열을 추가로 적용하는 대신 더 많은/더 적은 데이터 행(일부 소프트웨어 구현에서 잠재적으로 더 쉽게 입력)을 제공한다.그럼에도 불구하고, 그러한 구현의 결과는 가중치를 사용하는 것과 유사하다.따라서 관측치를 제거하는 경우 일반적인 소프트웨어 구현으로 데이터를 쉽게 처리할 수 있지만 행을 추가하는 경우 불확실성 추정을 위해 특별한 조정이 필요하다.그렇게 하지 않으면 잘못된 결론으로 이어질 수 있다(즉, 근본적인 문제를 [8]: 189, 190 대체적으로 나타낼 때 무료 점심은 없다).
Kish가 만든 "무작위 가중치"라는 용어는 불평등한 선택 확률에 해당하는 가중치를 가리키지만 선택된 [8]: 190, 191 요소의 기대치 또는 분산과는 관련이 없는 가중치를 가리킨다.
추정 비율 평균의 무작위 중량( { { { } }) - Kish의 디자인 효과
공식
제한되지 않은 표본을 추출할 때, 이러한 요소들을(\H) 분리 으로 무작위로 분할할 수 있다. 각 요소에는 특정 크기의 요소(\})가 포함되어 있으므로 h n 1}^{h}^{{displaystyle})가 된다. 각의 모든 요소에는 음이 아닌 무게가 할당됩니다(}). h 는 각 의 요소에 대한 일부 불균등한 선택 확률의 역수(즉, 사후 계층화 등에 따른 역확률 가중치)로 산출할 수 있다.이 설정에서 (가중치에 반영됨) 이 설계로 인한 표본 가중 평균의 분산 증가에 대한 키시의 설계 효과는 일부 결과 변수 y의 SRS(가중치와 결과 사이에 상관관계가 없는 경우, 즉 임의 가중치)에 대해 다음과 같다.[1]: 427 [8]: 191(4.2)
Kish(1992년)는 각 항목을 자체 계층 h: { h}=에서 가져온 것으로 처리함으로써 위의 공식을 (잘 알려진)[8]: 191(4.3) [23]: 318 [4]: 8 다음 버전으로 단순화했다.
공식의 이 버전은 한 지층이 여러 관측치를 취했을 때(즉, 각 지층이 동일한 무게를 갖는 경우) 또는 단지 많은 지층이 각각 하나의 관측치를 취했을 때 유효하지만, 그 중 몇 지층이 동일한 선택 확률을 가졌다.해석은 약간 다르지만 두 시나리오의 계산은 같다.
설계 효과에 대한 Kish의 정의는 가중치의 변동 계수(상대적 분산, 재분산 또는 줄여서 relvar라고도 함)와 밀접하게 관련되어 있습니다(추정을 위해 보정되지 않은(모집단 수준) 표본 표준 편차를 사용하는 경우).이것은 [8]: 191 [12]: 396 문헌에 몇 가지 표기되어 있습니다.
- {{)=
서V ( ) ( - ( w_ { } - { \ { } ) _ { i } - { \ bar { w } )^2 { 은 w{ 의 분산입니다가중치를 표본 크기로 정규화하면(합계가 n이고 평균이 1이 ), 2( w ){ } ( ) the the 、 D +()。(단순 선형 회귀에서 x와 y의 상관관계에 대해 생각하는 방법과 유사) 가중치 집합에서 하나의 가중치를 샘플링하여(같은 확률로) 정의된 경험적 분포의 분산으로 아리안스.
전제 조건과 증명
위의 공식,[8], 190,191와 y'관찰 결과는 우리가 가중 평균의 변화"무계획"가중치에 기초하여 언제 어두워져서 있관찰( 없within-cluster 상호 연계 및 결과 측정의 기대나 분산이 없는 관계를)불평등한 선택 확률을 사용하여 선택했던을 보여 주는 인상을 줍니다.ha을 것이다d 단순 랜덤 샘플에서 얻은 경우:
r(y는 나는, yj)마다 같은 분산(σ 2{\displaystyl으로(y1,..., y와{\displaystyle y_{1},...,y_{n}}) 있(적어도 시점이 약)uncorrelated(∀(나는 ≠ j)모든 n관찰:c)0{\displaystyle \forall(ji\neq):cor(y_{나는},y_{j})=0})모델 이 공식 perspective,[24]바탕으로부터 보유하고 있다.e\s 응답 변수(yigma ^{2또한 가중치 자체는 랜덤 변수가 아니라 일부 알려진 상수라고 가정한다(예: 사전 결정되고 알려진 표본 추출 설계의 경우 선택 확률의 역).
y 관측치가 i.i.d이고 기대치와 분산이 동일한 경우 y에 대한 조건은 3차적으로 고정됩니다.이 경우 y \ y =。 a ( yw) ( yw w ) D {style { line를 사용하여 v r( 할 수 있습니다.{right}}}}}\times[8][25] 가 모두 같은 기대치가 아닐 경우 추정된 분산을 계산에 사용할 수 없습니다.이 추정치는 모든가 한 으로 가정하기 때문입니다.특히, 가중치와 결과 변수 y 사이에 상관 관계가 있으면 모든 관측치에 대해 y의 기대치가 동일하지는 않지만 각 관측치에 대한 특정 가중치 값에 따라 달라짐을 의미합니다.이러한 경우 설계 효과 공식은 여전히 정확할 수 있지만(다른 조건이 충족되는 경우), 가중 평균의 분산에 대해 다른 추정기가 필요합니다.예를 들어, 가중 분산 추정기를 사용하는 것이 더 나을 수 있습니다.
의 분산이 다른 경우 가중 분산이 정확한 모집단 수준의 변동을 포착할 수 있지만 설계 효과에 대한 Kish의 공식은 더 이상 사실이 아닐 수 있다.
샘플에 상관 구조가 있는 경우(클러스터 샘플링을 사용하는 경우 등)에도 유사한 문제가 발생합니다.
문헌의 대체 정의
그것은 문학에서 몇개의 출처 기스의 디자인 효과 있기:"불균형 계층화는 가변성에 비례하여 성층 표본 추출에 따라 시료 채취에 따른 가중한 설문의 표준 편차의 비율을 의미합니까 모든 계층 단위 변동이 평등하다"을 다음과 같은 대체 정의를 내리다 주목할 만하다.[23]:318[12]:396년
이 정의는 "비례 계층화 표본 추출"이 각 계층에서 사전 결정된 단위 수를 선택하는 계층화 표본을 통해 달성되었음을 의미하는 것으로 해석될 수 있기 때문에 약간 오해의 소지가 있다.이러한 선택은 층당 특정 요소 수의 불확실성을 제거하기 때문에 (단순 무작위 표본에 비해) 분산을 감소시킨다.이는 설계의 분산을 단순 랜덤 표본과 비교한 Kish의 원래 정의와는 다릅니다(각 층의 표본 크기 차이로 인해 표본에 비례하지만 정확하지는 않음).Park와 Lee(2006)는 "이러한 도출의 근거는 무작위로 불균등한 가중치에 의한 [가중평균]의 정밀도 손실은 비례적 계층화 표본의 분산과 비례적 계층화 [4]: 8 표본의 분산의 비율로 근사할 수 있기 때문"이라고 언급함으로써 이를 반성한다.이 두 정의가 서로 얼마나 다른지는 [citation needed]문헌에 언급되어 있지 않다.코크란은 1977년 저서에서 최적 할당으로부터의 이탈로 인한 비례적인 분산 증가의 공식을 제공한다(키시의 공식은 [2]: 116 L이라고 불릴 수 있다).그러나 이 공식과 Kish의 L과의 연관성은 명확하지 [citation needed]않다.
대체 명명 규칙
으로서 디자인 효과의 더 많은 정의 등장 이전의 서류 Deff{Deff\displaystyle}.[8]:192는 용어를 사용할 것, 부당한 선택 확률에 기스의 디자인 효과 표시된 Deffk나는 열심인 h{\displaystyle Deff_{광재}}(또는 Def지문 k나는 열심인 h2{\displaystyle Deft_{kish}^{2}})또는 단순히 삭제 effK {\displ의 [4]: 8 [12]: 396 [23]: 318 줄임말입니다.Kish의 설계 효과는 2002년 [26]: 2124 Liu 등에 의해 명명된 "불균등 가중치 효과"(또는 단지 UWE)로도 알려져 있다.
결과가 선택 확률과 상관되는 경우
스펜서 데프 추정 합계 ( {
총 추정치는 "p-expanded with replacement" 추정치(예: pwr-expanded or Hurwitz)이다.이 값은 크기가 M인 모집단에서 m개 (k\k의 단순 랜덤 샘플(대체로 SIR로 표기)을 기반으로 합니다.각 항목은 1회 추첨으로 가 확률이 있습니다( each \ _}= 즉 다항 분포).샘플에 })가 표시될 확률은 k입니다."p-internal with replacement" 값은 i k \ \ Z { } { y { k } { _ { k} [ y ] p frac }}=k}}. 따라서 m { }={1}\ {m}^{ p_wr
2000년에 브루스 D.Spencer는 요소의 선택 확률과 [27]관심 결과 변수 사이에 상관관계가 있을 때, (평균이 아닌) 일부 수량(의 총 추정의 분산에 대한 설계 효과를 추정하기 위한 공식을 제안했다.
이 설정에서는 크기 N의 모집단에서 크기 n의 샘플이 추출됩니다. 각 항목은 P({})(서i N 1 \ }= i: 다항 분포)로 그려집니다.선택 확률은 정규화된 (표준) 가중치를 하는 데 사용됩니다. i {\} =1} 일부 n개 항목의 랜덤 집합에서 가중치의 합계는 기대치( ] 1 { {i})에 의해서만 1이 됩니다.반올림(즉, 포아송 이항 분포에서 얻은 원소의 합).i})와 })의 관계는 다음과 같은 단순한 선형 회귀에 의해 정의됩니다.
서 y})는 절편α(\및 (\\displaystyle \language를 갖는 i의 결과입니다. 적합선의 잔차는 i -( 입니다. 결과와 잔차의 모집단 분산을 2\ _} 및 2 \ _로 정의할 수도 있습니다.})와 })의 상관관계는 _입니다.
y의 합계를 추정하기 위한 스펜서의 (대략적인) 설계 효과는 다음과 같습니다.[27]: 138 [28]: 4 [12]: 401
장소:
- ,P (\ y , 2} ) , 2 \ ,}^2}。
- α { \ estimates {\ the {\ {\ {\ {\ {\ {\ the the the the
- y \\ \ _ { y } the the the the \ \ { y}
- L은 Kish의 공식에서 정의된 가중치의 상대적 입니다. : v a ( w ) V( ) 2 ( \ L ={ V ( w )( w ) { v ( w ) } { { ( } } }} } } 。
이 경우 회귀 모형이 적합하기 때문에 잔차와 잔차가 가중치와 상관되지 않으므로 선택 확률과 잔차가 독립적이라고 가정합니다.즉, 、 { _ { \ ,W } = also 、 2、 ( \ \ { \ silon ^ {} ) 。[27]: 138 입니다.
모집단 크기(N)가 매우 큰 경우 공식은 다음과 같이 [23]: 319 쓸 수 있습니다.
( - × - × \ = {Y = times {\ { = 이므로, 서 C는 다음과 같습니다. frac
이 근사치는 P와 Y 사이의 선형 관계가 유지된다고 가정합니다.또한 가중치와 오차 및 오차 제곱의 상관관계는 모두 0입니다.예: w , { _ { , e } = w ,w , 2 { \ \{ w , {2} 0 [28]: 4 。
0 { , } \ 이면α ^ y \ { \ ( y) 。이 경우 공식은 다음과 같이 감소합니다.
는 스펜서의 디자인 효과(그 estimatoed 전체를)기스의 디자인 효과(그 비율을 가리킨다에) 와 동일하다 감소한 경우면 y의 변화는 그 평균보다 그 오른쪽 용어 가까이 0(즉:rel'v'는 r(y)는 것이다) 크다 σ yY¯ ≈ 0{\displaystyle relvar(y)={\frac{\sigma_{y}}{\bar{Y}}}\approx 0}),:.[28]:5 e e ( + ) f h ( \ _ { } \ ( + L ) =_ { 。그렇지 않으면 두 공식은 서로 다른 결과를 나타내며, 이는 vs.
박씨와 이씨의 평균 비율 추정치 ( { { \{ } })
2001년에 박과 리는 비율 평균의 경우(즉, 총수의 추정치를 모집단 크기의 추정치로 나누어 평균을 추정함)로 스펜서의 공식을 확장했다.그 이유는 다음과 같습니다.[28]: 4
장소:
- v 는 선택 확률의 (추정)
교수와 이 교수의 공식은 , {}=일 때 키시 교수의 공식과 정확히 일치한다.
으로 합계( \ \ {Y )의 Deff( Y ^\ \ hat { }} 、 P\ _ { , P} } {\ {\ {\ {\ {\ {\ {\ (( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( (또한 일반적으로 y , \ \ P는 두 설계 [4]: 8 효과의 효율성에 영향을 미칩니다.
클러스터 샘플링
클러스터 샘플링을 사용하여 수집된 데이터의 경우 다음과 같은 구조를 가정합니다.
- k각 클러스터 및 K 클러스터에서의 n\}) 관측치 및 총 n n=\n_k}) .
- 관측치에는 블록 상관 행렬이 있습니다. 이 행렬에서는 동일한 클러스터의 모든 관측치 쌍이 내 상관 관계{\ {\과(와) 상관 관계가 있지만 차이 클러스터의 모든 [29]쌍은 상관 관계가 없습니다.즉, 모든 관측치 쌍( i 및 j에 대해 동일한 k(\ k에 속하는 경우 v i j 2 { },{j}) \{ 관련 항목이 다르지 않습니다.i , j ) { ( _ { , _ { j } =} 。
- 클러스터의 요소는 v ( ) h ( \ var ( _ { i } =\ _ { }^{2} =\ display2} =\ display ^{ i})로 간주됩니다.
클러스터가 모두 같은 인경우(\ n 1965년 Kish가 제안한 설계 효과eff D는 다음과 같습니다.[1]: 162 [12]: 399 [4]: 9 [30][31][13]: 241
[26]: 2124 라고도 합니다.
다양한 문서에서는 클러스터 크기가 동일하지 않은 경우 위의 공식은 평균 클러스터 크기로서 n {\ n로도 됩니다(b {\} [32][24]: 105 。이 경우 Kish의 공식(평균 군집 가중치 사용)은 정확한 설계 [24]: 106 효과의 보수적인(상한) 역할을 합니다.
클러스터 크기가 [1]: 193 동일하지 않은 경우 대체 공식이 있습니다.후속 작업에서는 다양한 가정 하에 평균 클러스터 크기를 사용하는 것의 [33]민감도에 대해 논의했습니다.
불균등한 선택 확률 {\ 클러스터 샘플링
Kish는 1987년 논문에서 군집 [32][24]: 105 [34]: 4 [28]: 2 표본 추출뿐만 아니라 불균등한 선택 확률을 설명하는 가중치로 인한 효과를 모두 포함하는 복합 설계 효과를 제안했다.
위와 유사한 표기가 있습니다.
이 공식은 1999년 가블러 [24]등에 의해 제안된 모델 기반 정당화를 받았다.
계층화 샘플링×{\ 불균등한 선택 확률 {\ 클러스터 샘플링
2000년에 Liu와 Aragon은 계층화 [35]표본 추출에서 서로 다른 계층에 대한 불평등한 선택 확률 설계 효과의 분해를 제안했다.2002년, Liu et al.계층화된 표본을 설명하기 위한 작업이 각 계층 내에 있었다는 것을 확장한 것은 불균등한 선택 확률 가중치이다.클러스터 샘플링은 글로벌 또는 [26]계층별로 이루어집니다.비슷한 [36]작업은 2003년에 Park 등에 의해서도 수행되었다.
사용하다
Deff는 주로 다음과 같은 [13]: 85 목적으로 사용됩니다.
- 설계를 개발할 때 - 효율성을 평가합니다.예: 어떤 결정으로 인해 분산이 "너무" 증가하거나 새로운 설계가 더 효율적인 경우(예: 계층화 표본 추출).
- 샘플 사이즈(전체, 스트레이텀 단위, 클러스터 단위 등)를 안내하기 위한 방법으로서
- 사후 가중치 분석의 잠재적 문제를 평가할 때([6]예: 무응답 조정에서).디자인 효과 값이 "너무 높다"는 보편적 법칙은 없지만, 문헌에 > 1.1는 정도 주의를 [12]: 396 끌 가능성이 있습니다.
Kish는 1995년 논문에서 Deff가 [7]: 57–62 유용한 경우와 그렇지 않은 경우를 다음과 같이 분류할 것을 제안했습니다.
- 설계 효과는 소스 모집단이 i.i.d.에 가깝거나 데이터의 표본 설계가 단순 랜덤 표본으로 그려진 경우 필요하지 않습니다.또한 표본 크기가 상대적으로 작을 때(적어도 부분적으로는 실질적인 이유로) 유용성이 떨어집니다.또한 기술 통계량만 관심 있는 경우(즉, 점 추정).또한 소수의 통계에만 표준 오류가 필요한 경우 Deff를 무시하는 것이 좋습니다.
- 설계 효과는 동일한 조사에서 측정된 여러 변수에 대한 표본 추출 오차의 평균을 구하는 경우에 필요합니다.또는 일정 기간 동안 여러 조사에서 동일한 측정 수량을 평균화하는 경우.또는 단순 통계량(예: 평균)의 오차에서 더 복잡한 통계량(예: 회귀 계수)으로 추정할 때 사용합니다.향후 설문조사를 설계할 때(단, 적절한 주의를 기울이십시오.데이터 또는 데이터 분석과 관련된 명백한 문제를 식별하기 위한 보조 통계량(예: 실수에서 [8]: 191 이상치 존재까지).
표본 크기를 계획할 때 면접관 효과(측정 오차)를 표본 [37]분산에 대한 표본 설계의 효과로부터 분리하도록 설계 효과를 수정하는 작업이 수행되었습니다.
Kish는 원래 설계 효과가 데이터의 기본 분포에 대해 가능한 한 독립적일 수 있기를 원했지만, 표본 추출 확률, 이들의 상관 관계 및 관심 통계는 설계 효과에 영향을 미치는 것으로 나타났다.따라서 사용할 Deff 계산과 [4]: 13 [28]: 6 사용 방법을 결정할 때 이러한 특성에 대해 세심한 주의를 기울여야 합니다.
역사
"디자인 효과"라는 용어는 1965년 레슬리 키시에 의해 그의 저서 "서베이 샘플링"[1]: 88, 258 에서 소개되었습니다.Kish는 [7]: 73 1995년 논문에서 "렉시스 비율"이라고 불리는 유사한 개념이 19세기 말에 기술되었다고 언급했습니다.밀접하게 관련된 클래스 내 상관관계는 1950년에 Fisher에 의해 설명되었고, 분산 비율 계산은 Kish와 다른 사람들에 의해 40년대 후반부터 50년대에 걸쳐 이미 발표되었다.키시의 정의의 전조 중 하나는 1951년 [38][4]콘필드에 의해 수행된 작업이었다.
1965년의 그의 원본 책에서, 키시는 설계 효과에 대한 일반적인 정의를 제안했다(두 추정치의 분산 비율, 하나는 설계가 있는 표본에서, 다른 하나는 단순한 무작위 표본에서).그의 책에서 Kish는 클러스터 샘플링의 설계 효과에 대한 공식(클래스 [1]: 162 내 상관 관계 포함)과 불평등한 확률 [1]: 427 샘플링을 위한 유명한 설계 효과 공식을 제안했다.이들은 종종 "키쉬의 디자인 효과"로 알려져 있으며, 나중에 하나의 공식으로 통합되었습니다.
「 」를 참조해 주세요.
레퍼런스
- ^ a b c d e f g h i j k l m n o p Kish, Leslie (1965). Survey Sampling. New York: John Wiley & Sons, Inc. ISBN 0-471-10949-5.
- ^ a b c d e Carl-Erik Sarndal, Bengt Swensson, Jan Wretman (1992). Model Assisted Survey Sampling. ISBN 9780387975283.
{{cite book}}
: CS1 maint: 작성자 파라미터 사용(링크) - ^ Heo, Moonseong; Kim, Yongman; Xue, Xiaonan; Kim, Mimi Y. (2010). "Sample size requirement to detect an intervention effect at the end of follow-up in a longitudinal cluster randomized trial". Statistics in Medicine. 29 (3): 382–390. doi:10.1002/sim.3806. PMID 20014353. S2CID 30001378. Archived from the original on 5 January 2013.
- ^ a b c d e f g h i j k 박, 인호, 이현식."복잡한 조사 표본 추출 하에서의 가중 평균 및 총 추정치에 대한 설계 효과"품질관리 및 응용통계 51.4(2006) : 381–384(구글학자 기준).제30권, 제2권, 183-193페이지캐나다 통계청, 카탈로그 번호 12-001.2004년 12월 조사방법 (PDF 기반) (pdf)
- ^ Everitt, B.S. (2002) 케임브리지 통계 사전 제2판.컵. ISBN 0-521-81099-X
- ^ a b c Kalton, G., J. M. Brick 및 T. Le. "표본 설계에 사용할 설계 효과 성분 추정개발도상국 및 전환국 가구 표본조사에서 (판매번호 E. 05. 17II. 6).경제사회학과"라고 말했다.뉴욕 유엔 통계과(2005년).(pdf)
- ^ a b c d e 키시, 레슬리"설계 효과를 위한 방법"공식 통계 저널 11.1 (1995) : 55 (pdf)
- ^ a b c d e f g h i j k l m n o p q r s t u Kish, Leslie, J. Official Stat입니다."부등 Pi 가중치 부여"(1992) : 183 ~200 (pdf 링크)
- ^ Tom Leinster (18 December 2014). "Effective Sample Size".
- ^ "Design Effects and Effective Sample Size".
- ^ a b 출처: Frerichs, R.R. Rapid Surveys(미공개), © 2004.N, 4장 - 균등 확률 선택(pdf)
- ^ a b c d e f g 발리안트, 리처드, 질 에이데버, 그리고 크로이터 부인.조사 샘플을 설계하고 가중치를 부여하기 위한 실용적인 도구.뉴욕: Springer, 2013.
- ^ a b c 코크란, W. G. (1977년)샘플링 기법(3차호).내쉬빌, TN: John Wiley & Sons.ISBN 978-0-471-16240-7
- ^ 디버, 질 A, 리처드 발리안트."추정된 대조군 합계에 대한 사후 계층화용 분산 추정기 비교"조사방법 36.1 (2010) : 45 ~56 . (pdf )
- ^ a b c Kott, Phillip S. "무응답 및 커버리지 오류에 대한 조정에 교정 가중치를 사용합니다."조사방법 32.2 (2006) : 133. (pdf)
- ^ Holt, David 및 Fred Smith TM. "포스트 계층화" 왕립통계학회지, 시리즈 A(1979) 142.1(1979) : 33-46 (pdf)
- ^ 고쉬, 디렌, 앤드류 보그트."베르누이와 포아송 샘플링에 관련된 샘플링 방법"합동통계회의의 절차.미국통계협회 알렉산드리아, 버지니아, 2002. (pdf)
- ^ 데빌, 장 클로드, 칼 에릭 새른달."측량 표본 추출 시 교정 추정기"미국통계학회지 87.418(1992) : 376-382.
- ^ Brick, J. Michael, Jill Montaquila, Shelley Roth."추정기의 문제 식별." 미국 통계 협회, 샌프란시스코, 2003년 연례 회의(pdf).
- ^ 키딩, 닐스, 데이비드 클레이튼입니다"관측 연구의 교란 요인을 위한 표준화 및 제어: 역사적 관점"통계과학(2014): 529-558. (pdf)
- ^ Thomas Lumley(https://stats.stackexchange.com/users/249135/thomas-lumley), 가중 평균의 (대략) 분산을 추정하는 방법, URL(버전: 2021-05-25): 링크
- ^ 칼튼, 그레이엄「표준화:외부 변수를 제어하는 기술." 왕립통계학회지 시리즈 C(응용통계학) 17.2(1968): 118-136.
- ^ a b c d 헨리, 킴벌리 A, 리처드 발리안트입니다"단기 샘플의 교정 가중치에 대한 설계 효과 측정"조사방법 41.2 (2015) : 315-331 (pdf)
- ^ a b c d e f 가블러, 지그프리드, 사빈 해더, 파르타 라히리."가중치 및 클러스터링에 대한 설계 효과의 Kish 공식에 대한 모델 기반 정당화"조사방법 25(1999년): 105~106. (pdf)
- ^ 리틀, 로데릭 J, 소냐 바르티바리안"무응답에 대한 가중치가 조사 수단의 차이를 증가시키나요?조사방법 31.2 (2005) : 161.pdf 링크
- ^ a b c 류, 준, 빈스 이안나치온, 마지 바이런."계층화 표본 추출을 위한 설계 효과 분해"조사 연구 방법 섹션의 진행, 미국 통계 협회.2002년 (pdf)
- ^ a b c 스펜서, 브루스 D."측정값이 선택 확률과 상관관계가 있을 때 가중치가 동일하지 않은 경우의 대략적인 설계 효과입니다.조사방법 26(2000): 137-138. (pdf)
- ^ a b c d e f 박, 인호, 이현식."디자인 효과: 우리는 그것에 대해 모든 것을 알고 있는가?" 미국 통계 협회 연차 회의의 진행.2001년 (pdf)
- ^ Alexander K. Rowe; Marcel Lama; Faustin Onikpo; Michael S. Deming (2002). "Design effects and intraclass correlation coefficients from a health facility cluster survey in Benin". International Journal for Quality in Health Care. 14 (6): 521–523. doi:10.1093/intqhc/14.6.521. PMID 12515339.
- ^ Bland, M(2005), "의학 문헌의 클러스터 랜덤화 시험", 대화를 위한 노트, York University
- ^ 표본조사의 방법 (5~6페이지)
- ^ a b Kish, L.(1987년)가중치(: 2{ {2} )。The Survey Statistician, 1987년 6월.(이 문서는 온라인에서는 입수할 수 없는 것 같습니다만, 이 수식의 원본으로서 여러 장소에서 참조되고 있습니다.)
- ^ 린, 피터, 지그프리드 가블러.군집화로 인한 설계 효과 예측에서 b*에 대한 근사치입니다.제2004-07호ISER 워킹 페이퍼 시리즈, 2004. (pdf)
- ^ 가블러, 지그프리드, 사빈 하더, 피터 린.다중 설계 표본에 대한 설계 효과.2005-12호ISER 워킹 페이퍼 시리즈, 2005. (pdf)
- ^ Liu, J., E.아라곤."종적 조사의 서브샘플링 전략"미국 통계 협회 조사 연구 방법 섹션의 진행.2000. (pdf)
- ^ Park, Inho (2003). "Design effects and survey planning" (PDF).
- ^ 진스, 스테판, 그리고 얀 파블로 버가드요"샘플 사이즈를 계획할 때 인터뷰 진행자와 설계 효과를 고려합니다." 조사 방법 46.1 (2020) : 93 ~119. (페이퍼 - html)
- ^ 코크란, 윌리엄 G. "인류 표본 추출의 현대적 방법"미국의 공중위생 및 국가 보건 저널 41.6(1951년): 647~668.