샘플 크기 결정

Sample size determination

표본 크기 결정통계 표본에 포함할 관측치 또는 반복실험의 수를 선택하는 작업입니다.표본 크기는 표본에서 모집단에 대해 추론하는 것이 목표인 경험적 연구의 중요한 기능입니다.실제로 연구에 사용된 표본 크기는 일반적으로 데이터 수집의 비용, 시간 또는 편리성과 충분한 통계적 힘을 제공할 필요성에 기초하여 결정된다.복잡한 연구에서는 여러 가지 표본 크기가 있을 수 있다. 예를 들어 계층화된 조사에서는 각 계층에 대한 크기가 다를 수 있다.인구조사에서는 전체 모집단에 대한 데이터가 검색되므로 의도된 표본 크기는 모집단과 같다.연구를 다른 처리 그룹으로 나눌 수 있는 실험 설계에서는 각 그룹에 대해 서로 다른 표본 크기가 있을 수 있습니다.

표본 크기는 여러 가지 방법으로 선택할 수 있습니다.

  • 경험 사용 – 작은 표본은 때로는 피할 수 없지만, 광범위한 신뢰 구간과 통계 가설 테스트 오류 위험을 초래할 수 있다.
  • 최종적으로 얻어진 표본에서 도출되는 추정치에 대한 목표 분산을 사용한다. 즉, 높은 정밀도가 요구되는 경우(기준 신뢰 구간) 이는 추정기의 낮은 목표 분산을 의미한다.
  • 표본이 수집된 후 적용할 통계 검정의 검정력에 대한 표적을 사용한다.
  • 즉, 필요한 신뢰 수준이 클수록 표본 크기가 커진다(일정한 정밀도 요건이 주어짐).

서론

일반적으로 표본 크기가 클수록 알 수 없는 모수를 추정할 때 정밀도가 높아집니다.예를 들어, 병원체에 감염된 특정 어종의 비율을 알고 싶다면, 100마리가 아닌 200마리를 표본으로 추출하고 검사하면 일반적으로 이 비율에 대한 더 정확한 추정치를 얻을 수 있을 것이다. 수의 법칙중심 한계 정리를 포함한 수학 통계학의 몇 가지 기본적인 사실들이 이 현상을 설명한다.

경우에 따라서는 큰 표본 크기에 대한 정밀도 증가가 미미하거나 아예 존재하지 않을 수 있습니다.는 체계적인 오류 또는 데이터에 대한 의존도가 높거나 데이터가 두꺼운 분포를 따르는 경우에 발생할 수 있습니다.

표본 크기는 결과 추정치의 품질로 평가할 수 있습니다.예를 들어, 비율을 추정하는 경우 95% 신뢰 구간을 0.06 단위보다 작게 설정할 수 있습니다.또는 가설 검정의 검정력을 바탕으로 표본 크기를 평가할 수 있습니다.예를 들면, 여성의 특정 정치 후보에 대한 지지도와 남성의 그 지지도를 비교하면, 0.04 단위의 지지율의 차이를 검출할 수 있는 80%의 힘을 가질 수 있을 것이다.

견적

비율 추정

비교적 간단한 상황은 비율 추정입니다.예를 들어 65세 이상의 거주자의 비율을 추정할 수 있습니다.

비율추정치^ /(\n)이며, 여기서 X는 '양성' 관측치의 수(예: 표본 추출된 65세 이상의 인구 수)이다.관측치가 독립적이면 이 추정치는 (스케일링된) 이항 분포를 가지며 Bernouli 분포의 데이터 표본 평균이기도 합니다. 분포의 최대 분산은 0.25이며, 이는 참 모수가 p = 0.5일 발생합니다.실제로는 p를 알 수 없기 때문에 표본 크기 평가에 최대 분산을 사용하는 경우가 많습니다.p에 대한 합리적인 추정치를 알고 있는 경우, 0.25 p( -p {p( 사용할 수 있습니다.

n이 충분히 클 경우 p 정규 [1]분포에 근접합니다.이항 분포에 대한 Wald 방법을 사용하면 형식의 신뢰 구간을 생성합니다.

- 0. + 0.){ ( { \ { } } - { \ { \ { 0.} { } , \ \ { p + Z { \ ) ,
여기서 Z는 원하는 신뢰 수준에 대한 표준 Z 점수(95% 신뢰 구간의 경우 1.96)입니다.

총 너비 W 단위(표본 평균의 양쪽에 있는 W/2 단위)의 신뢰 구간을 가지려면

n의 경우 표본 크기를 산출합니다.

서로 다른 신뢰 수준과 오차 한계가 주어진 이항 비율의 표본 크기

.5를 비율의 가장 보수적인 추정치로 사용하는 경우.(참고: W/2 = 오차범위).

아래 그림에서는 신뢰 수준과 오차 한계가 다르면 이항 비율의 표본 크기가 어떻게 변화하는지 관찰할 수 있습니다.


그렇지 않은 경우 Z (- ) / 2 ( \ { \ { \ { p (- p ) =W /2 ( - ) / ( \ n = 4 Z ^ 4 ^} ( 1 - ) { p } { p } { p } { p { p } { p } { p } { p } { p } { p } { p } { p} { p } { p } {

예를 들어 특정 대통령 후보를 지지하는 미국 인구의 비율을 추정하는 데 관심이 있고 95% 신뢰 구간의 폭을 최대 2% 포인트(0.02)로 하려면 (1.962)/(0.022) = 9604의 표본 크기가 필요합니다.대선 경선이 50대 50에 가까운 경우가 많기 때문에 이 경우 p의 0.5 추정치를 사용하는 것이 타당하고 보수적인 추정치를 사용하는 것도 신중하다. 경우 오차 한계는 1% 포인트(0.02의 절반)입니다.

상기의 내용은 일반적으로 간략화되어 있다.

실제 비율에 대한 95% 신뢰 구간을 구성합니다.이 간격의 폭이 W 단위 이하일 필요가 있는 경우, 방정식은

n에 대해 해결할 수 있으며[2][3], 여기서 n = 4/W2 = 1/B2 산출한다. 여기서 B는 추정치의 오차 한계이다. 즉, 추정치는 보통 ± B 이내로 주어진다.B = 10%의 경우 n = 100, B = 5%의 경우 n = 400, B = 3%의 경우 요건은 n = 1000에 가깝고, B = 1%의 경우 n = 10000의 표본 크기가 필요합니다. 수치는 여론조사와 다른 표본조사뉴스 보도에서 자주 인용된다.단, 보고되는 결과는 반올림되는 것이 바람직하기 때문에 정확한 값이 아닐 수 있습니다.n의 값이 원하는 결과를 얻기 위해 필요한 최소 샘플 포인트 수라는 것을 알고, 응답자 수는 최소값 이상이어야 한다.

평균 추정

비율은 평균의 특수한 경우입니다.크기 n의 독립적이고 균등하게 분포된(iid) 표본을 사용하여 모집단 평균을 추정할 때, 각 데이터 의 분산 θ2 다음과 같습니다.

이 식은 표본 크기가 커질수록 추정치가 더 정확해지는 방법을 정량적으로 설명합니다.중심 한계 정리를 사용하여 표본 평균을 정규 분포로 근사하는 것을 정당화하면 형식의 신뢰 구간이 생성됩니다.

- Z ,x + Z { ( { \ {} - { \ { Z \ sigma } ) { \ sqrt { } , \ { x + { \ \ } } { \ { } } } } }}
여기서 Z는 원하는 신뢰 수준에 대한 표준 Z 점수(95% 신뢰 구간의 경우 1.96)입니다.

총 너비 W 단위(표본 평균의 양쪽에 있는 W/2 단위)의 신뢰 구간을 가지려면

n의 경우 표본 크기를 산출합니다.

. (주: W/2 = 오차범위).

예를 들어, 약물이 6단위 폭의 95% 신뢰 구간으로 피험자의 혈압을 낮추는 양을 추정하는데 관심이 있고 모집단의 혈압 표준 편차가 15인 것을 알고 있다면, 필요한 표본 는 4×.2 × 이다.1. 15 얻어진 값은 최소 표본 크기이며 표본 크기는 정수여야 하며 계산된 최소값 이상이어야 합니다.

가설 검정에 필요한 표본 크기

통계학자들이 직면하는 일반적인 문제는 사전에 결정된 타입 I 오류율α가 주어졌을 때 테스트에 필요한 특정 동력을 산출하는 데 필요한 표본 크기를 계산하는 것이다.다음과 같이, 이것은 특정 값에 대해 미리 결정된 표, Mead의 자원 방정식 또는 더 일반적으로 누적 분포 함수를 통해 추정할 수 있다.

테이블

[4]

코헨의 d
0.2 0.5 0.8
0.25 84 14 6
0.50 193 32 13
0.60 246 40 16
0.70 310 50 20
0.80 393 64 26
0.90 526 85 34
0.95 651 105 42
0.99 920 148 58

오른쪽에 표시된 표는 2-표본 t-검정에서 동일한 크기의 실험 그룹관리 그룹의 표본 크기를 추정하는 데 사용할 수 있습니다. 즉, 시행에 참여한 전체 개체 수는 주어진 수의 두 배이고 원하는 유의 수준은 0.05입니다.[4]사용되는 파라미터는 다음과 같습니다.

  • 평가판의 원하는 통계 검정력(왼쪽 열에 표시).
  • Cohen의 d(= 효과 크기), 이것은 실험 그룹과 관리 그룹 사이의 목표값 평균 의 기대 차이를 기대 표준 편차로 나눈 입니다.

미드 자원 방정식

미드 자원 방정식은 많은 다른 실험실 실험뿐만 아니라 실험실 동물의 표본 크기를 추정하는 데 종종 사용된다.표본 크기를 추정할 때 다른 방법을 사용하는 것만큼 정확하지는 않을 수 있지만, 예상되는 표준 편차 또는 그룹 간 값의 예상 차이와 같은 모수가 알려지지 않거나 [5]추정하기 매우 어려운 경우 적절한 표본 크기가 무엇인지에 대한 힌트를 제공합니다.

방정식의 모든 매개변수는 사실 개념의 수의 자유도이기 때문에 방정식에 삽입하기 전에 그 수를 1로 뺍니다.

계산식은 다음과 같습니다.[5]

여기서:

  • N은 연구의 총 개체 수 또는 단위 수(-1 제외)입니다.
  • B차단 성분으로 설계에서 허용되는 환경 영향을 나타낸다(-1 제외).
  • T는 사용 중인 치료 그룹 수(대조군 포함) 또는 질문 수(마이너스 1)에 해당하는 치료 성분이다.
  • E에러 컴포넌트의 자유도이며, 10에서 20 사이여야 합니다.

예를 들어, 실험 동물을 사용하는 연구가 4개의 치료 그룹(T=3)으로 계획되고, 그룹당 8개의 동물이 추가 계층화(B=0) 없이 32개의 동물을 총(N=31)으로 만든다면, E는 28이 될 것이며, 이는 표본 크기가 20의 컷오프보다 약간 클 수 있으며, 그룹당 6개의 동물이 더 많을 수 있음을 나타낸다.로프리의[6]

누적분포함수

X, i = 1, 2, ..., n을 알 수 없는 평균 μ 및 알려진 분산 θ를2 갖는 정규 분포에서 얻은 독립적인 관측치라고 가정합니다i.귀무 가설이라는 두 가지 가설을 고려합니다.

그리고 대안 가설:

μ > 0에 대한 입니다*.이 값은 차이를 관찰하는 데 관심을 기울이는 최소값입니다.(1) H가 참일 때 적어도a 1 - β의 확률로 H를 제거하고0 (2) H가 참일 0 확률α로 H를 거부하려면0 다음이 필요하다.

z가 표준 정규 분포의 상위 α 백분율 지점일 경우α,

그래서

'샘플 평균( { {})이 α /n { \ z { \ alpha } \ / { \ { n}' ' ' our our our our our our our our0 our our our our our our our z our z z z z z z z z z z z z z z z z z z z z z

는 (2)를 만족시키는 결정 규칙입니다.(이것은 단꼬리 테스트입니다.)

이제 우리는 H가 참일 때 적어도a 1 - β의 확률로 이것이 일어나기를 바란다.이 경우 표본 평균은 평균* μ인 정규 분포에서 나옵니다.따라서 우리는

주의 깊게 조작하면, 다음의 경우에 발생하는 것을 알 수 있습니다( 「통계 파워 #예」를 참조).

여기서 { 정규 누적 분포 함수입니다.

계층화된 샘플 크기

계층화 샘플링과 같이 더 복잡한 샘플링 기법을 사용하면 샘플을 종종 하위 샘플로 분할할 수 있습니다.일반적으로 (H개의 서로 다른 지층에서) 그러한 하위항목이 H개 존재하는 경우, 각각 표본 크기h n, h = 1, 2, ..., H를 갖는다. 이러한 nh n + n + ...의2 규칙1 준수해야 한다.+ nH = n(즉, 총 표본 크기는 하위 표본 크기의 합으로 제공됨)입니다.이러한h n을 최적으로 선택하는 것은 Neyman의 최적 할당을 사용하여 다양한 방법으로 수행될 수 있습니다.

계층화 [7]표본 추출을 사용하는 이유는 여러 가지가 있다. 표본 추정치의 분산을 줄이기 위해서, 부분적으로 무작위적이지 않은 방법을 사용하기 위해서, 또는 지층을 개별적으로 연구하기 위해서이다.유용하고 부분적으로 랜덤하지 않은 방법은 쉽게 접근할 수 있는 경우에는 개인을 표본으로 추출하는 것이지만, 그렇지 않은 경우에는 표본 군집을 추출하여 [8]여행 비용을 절감하는 것입니다.

일반적으로 H 지층의 경우 가중 표본 평균은 다음과 같다.

와 함께

[9]

h(\는 지층에 있는 모집단 요소의 비율을 나타내며, h/(\} =h}/ 고정된 샘플 크기의 경우 n W_{ / n)이다.

[10]

각 층 내의 샘플링 속도가 각 층 내의 표준 편차에 비례하는 경우 최소화할 수 있습니다. h / { { _ { } / _ { h } =_ {} ( Var Var ( ) \ S _ { } { h { displaystyle S_{ h} ) { rt } { run { rt } { r} { r} { rt operr} ) k" h" }}=이 되는 상수입니다.

"최적 할당"은 지층 내 샘플링 속도가 지층 내 표준 편차에 정비례하고 지층 내 요소당 샘플링 비용의 제곱근에 반비례할 때 도달한다. \ :

[11]

서 K K (\}}= 또는 보다 일반적으로 다음과 같은 상수입니다.

[12]

질적 조사

정성적 연구에서 표본 크기 결정은 다른 접근법을 취한다.그것은 [13]연구가 진행됨에 따라 일반적으로 주관적인 판단이다.한 가지 접근방식은 포화 [14]상태에 도달할 때까지 추가 참가자 또는 자료를 계속 포함하는 것이다.포화 상태에 도달하기 위해 필요한 숫자는 경험적으로 [15][16][17][18]조사되었다.

연구를 시작하기 전에 다양한 제안과 함께 표본 크기 추정에 대한 [16][19][20][21]신뢰할 수 있는 지침이 부족하다.음의 이항 분포에 기초한 정량적 검정력 계산과 유사한 도구가 주제 [22][21]분석에 제안되었습니다.

「 」를 참조해 주세요.

메모들

  1. ^ NIST/SEMATECH, "7.2.4.2. 필요한 표본 크기", 전자 통계 방법 핸드북.
  2. ^ "Inference for Regression". utdallas.edu.
  3. ^ '비례에 대한 신뢰 구간' 2011-08-23 웨이백 머신에 아카이브된
  4. ^ a b 13장 (215페이지)의 내용:
  5. ^ a b Kirkwood, James; Robert Hubrecht (2010). The UFAW Handbook on the Care and Management of Laboratory and Other Research Animals. Wiley-Blackwell. p. 29. ISBN 978-1-4051-7523-4. 온라인 페이지 29
  6. ^ Isogenic.info > Michael FW Festing의 자원 방정식.2006년 9월 갱신
  7. ^ Kish(1965년, 섹션 3.1)
  8. ^ Kish(1965), 페이지 148.
  9. ^ Kish(1965), 페이지 78.
  10. ^ Kish(1965), 페이지 81.
  11. ^ 키시(1965년), 93쪽
  12. ^ Kish(1965), 94쪽.
  13. ^ 샌델로프스키, M. (1995년)정성적 연구의 표본 크기.간호보건연구, 18, 179~183
  14. ^ 글레이저, B. (1965년)질적 분석의 지속적인 비교 방법.사회문제, 12, 436~445
  15. ^ Francis, Jill J.; Johnston, Marie; Robertson, Clare; Glidewell, Liz; Entwistle, Vikki; Eccles, Martin P.; Grimshaw, Jeremy M. (2010). "What is an adequate sample size? Operationalising data saturation for theory-based interview studies" (PDF). Psychology & Health. 25 (10): 1229–1245. doi:10.1080/08870440903194015. PMID 20204937. S2CID 28152749.
  16. ^ a b Guest, Greg; Bunce, Arwen; Johnson, Laura (2006). "How Many Interviews Are Enough?". Field Methods. 18: 59–82. doi:10.1177/1525822X05279903. S2CID 62237589.
  17. ^ Wright, Adam; Maloney, Francine L.; Feblowitz, Joshua C. (2011). "Clinician attitudes toward and use of electronic problem lists: A thematic analysis". BMC Medical Informatics and Decision Making. 11: 36. doi:10.1186/1472-6947-11-36. PMC 3120635. PMID 21612639.
  18. ^ Mason, Mark (2010). "Sample Size and Saturation in PhD Studies Using Qualitative Interviews". Forum Qualitative Sozialforschung. 11 (3): 8.
  19. ^ 노스캐롤라이나주 에멜(2013년)질적 연구의 표본 추출 및 사례 선택: 현실주의적 접근법.런던: 세이지.
  20. ^ Onwuegbuzie, Anthony J.; Leech, Nancy L. (2007). "A Call for Qualitative Power Analyses". Quality & Quantity. 41: 105–121. doi:10.1007/s11135-005-1098-1. S2CID 62179911.
  21. ^ a b Fugard AJB; Potts HWW (10 February 2015). "Supporting thinking on sample sizes for thematic analyses: A quantitative tool" (PDF). International Journal of Social Research Methodology. 18 (6): 669–684. doi:10.1080/13645579.2015.1005453. S2CID 59047474.
  22. ^ Galvin R (2015년)면접은 몇 번이면 충분합니까?에너지 소비 연구를 구축하기 위한 질적 인터뷰는 신뢰할 수 있는 지식을 창출하는가?건축공학 저널, 1:2~12.

레퍼런스

추가 정보

  • NIST: 샘플 크기 선택
  • ASTM E122-07: 로트 또는 공정 특성에 대한 평균, 특정 정밀도로 추정할 표본 크기를 계산하는 표준 관행

외부 링크