계층화 샘플링

Stratified sampling
계층화 랜덤 샘플링

통계학에서 계층화 표본 추출은 하위 모집단으로 분할할 수 있는 모집단에서 표본을 추출하는 방법입니다.

계층화 표본 추출 예제

통계 조사에서 전체 모집단 내의 하위 모집단이 다를 경우, 각 하위 모집단(계층)을 독립적으로 표본 추출하는 것이 유리할 수 있다.성층화는 표본 추출 전에 모집단의 구성원을 균일한 부분군으로 나누는 과정입니다.계층은 모집단의 파티션을 정의해야 한다.즉, 집단적으로 포괄적이고 상호 배타적이어야 합니다. 모집단의 모든 요소는 한 계층에만 할당되어야 합니다.그런 다음 각 층 내에 간단한 무작위 표본 추출이 적용됩니다.목적은 표본 오차를 줄임으로써 표본의 정밀도를 향상시키는 것이다.모집단의 단순 랜덤 표본의 산술 평균보다 변동성이 적은 가중 평균을 생성할 수 있습니다.

계산 통계학에서, 성층 표본 추출은 몬테 카를로 방법을 사용하여 알려진 [1]모집단의 모집단 통계를 추정할 때 분산 감소 방법이다.

선거에서 각 후보의 평균 득표수를 추정해야 한다고 가정해 봅시다.한 국가에 3개의 마을이 있다고 가정합니다.A타운에는 100만 명의 공장 근로자가 있고 B타운에는 200만 명의 사무직 근로자가 있으며 C타운에는 300만 명의 퇴직자가 있다.전체 인구에 걸쳐 60사이즈의 랜덤 표본을 얻을 수 있지만, 결과 랜덤 표본이 이 도시들 사이에서 균형이 잘 맞지 않아 편중되어 추정에서 상당한 오류를 일으킬 가능성이 있다(관심 결과가 도시 간에 관심 모수의 관점에서 다른 분포를 가질 때).s) 대신 A, B, C 타운에서 각각 10, 20, 30의 랜덤 표본을 추출하는 대신 동일한 총 표본 크기에 대한 추정 오차를 줄일 수 있습니다.이 방법은 모집단이 균질 그룹이 아닐 때 일반적으로 사용됩니다.

계층화 샘플링 전략

  1. 비례 할당은 각 계층에서 총 모집단의 비율에 비례하는 표본 분율을 사용합니다.예를 들어 모집단이 총 n명의 개인으로 구성되고, 그 중 m은 남성과 f 여성( m + f = n), 두 표본의 상대적 크기(x1 = m/n 남성, x2 = f/n 여성)는 이 비율을 반영해야 한다.
  2. 최적 할당(또는 불균형 할당) - 각 지층의 표본 분율은 변수 분포의 비율(위)과 표준 편차에 모두 비례합니다.가능한 최소 전체 표본 분산을 생성하기 위해 변동성이 가장 큰 지층에서 더 큰 표본을 추출합니다.

계층화 표본 추출을 사용하는 실제 예는 정치 조사를 위한 것이다.만약 응답자들이 인구의 다양성을 반영할 필요가 있다면, 연구원은 위에서 언급한 총 인구에 대한 그들의 비율에 근거하여 인종이나 종교와 같은 다양한 소수 집단의 참여자들을 포함시키는 것을 구체적으로 추구할 것이다.따라서 계층화된 조사는 단순 무작위 표본 추출 또는 체계적인 표본 추출 조사보다 모집단을 더 대표한다고 주장할 수 있다.

이점

단순 무작위 표본[2] 추출이 아닌 계층화된 표본 추출을 사용하는 이유는 다음과 같습니다.

  1. 계층 내 측정값이 모집단의 전체 표준 편차와 비교하여 표준 편차가 낮은 경우 계층화는 추정에서 더 작은 오차를 제공합니다.
  2. 많은 애플리케이션의 경우, 집단을 계층으로 그룹화하면 측정의 관리 용이성 및/또는 비용이 절감됩니다.
  3. 모집단 내 그룹에 대한 모집단 모수의 추정치를 갖는 것이 바람직한 경우 - 계층 표본 추출은 관심 지층에서 충분한 표본을 보유하고 있는지 검증한다.

한 지역 내에서 인구밀도가 크게 변동하는 경우, 계층화 표본 추출을 통해 지역의 다른 부분에서 동일한 정확도로 추정할 수 있고, 동일한 통계적 힘으로 하위 지역의 비교를 할 수 있다.예를 들어, 온타리오주에서 실시된 조사는 북쪽과 남쪽 사이의 인구 차이가 너무 커서 전체적으로 지방 표본에 기초한 표본 추출 분율이 북쪽에서 소수의 데이터만 수집될 수 있기 때문에 인구가 적은 북쪽에서 더 큰 표본 추출 분율을 사용할 수 있다.

단점들

층화 표본 추출은 모집단을 완전히 분리된 부분군으로 분할할 수 없는 경우에는 유용하지 않습니다.표본 크기를 부분군 크기(또는 F 검정을 통해 크게 변화하는 것으로 알려진 경우 분산)로 스케일링하는 것이 아니라 부분군의 표본 크기를 부분군에서 사용할 수 있는 데이터의 양에 비례하도록 만드는 것은 기법을 잘못 적용하는 것이다.각 서브그룹을 나타내는 데이터는 각 서브그룹 간의 의심스러운 변동이 계층화된 표본 추출을 보증하는 경우 동일한 중요도로 간주됩니다.부분군 분산이 유의하게 달라 데이터를 분산별로 계층화해야 하는 경우 각 부분군 표본 크기를 총 모집단 내에서 부분군 크기에 비례하도록 동시에 설정할 수 없습니다.표본 자원을 평균, 분산 및 비용이 다른 그룹 간에 효율적으로 분할하는 방법은 "최적 할당"을 참조하십시오.미지의 등급 우선 순위(전체 모집단의 하위 모집단 비율)의 경우 계층화 표본 추출 문제는 데이터 집합에 대한 분석의 성능(예:[3] 분류)에 해로운 영향을 미칠 수 있다.이 점에서 미니맥스 샘플링 비율은 기초 데이터 생성 [3]프로세스의 불확실성에 관해 데이터 세트를 견고하게 하기 위해 사용할 수 있다.

적절한 수를 확보하기 위해 하위 계층을 결합하면 심슨의 역설로 이어질 수 있습니다. 이 역설에서는 여러 데이터 그룹에 실제로 존재하는 추세가 사라지거나 그룹이 결합되면 역행할 수도 있습니다.

평균 및 표준 오차

계층화된 무작위 표본 추출의 평균과 분산은 다음과 같습니다.[2]

어디에,

{\ L=}개의 층수
{\ N=} 모든 층 크기의 합계
h ({N_{
h { 표본 평균({ h
h { }=}개의 관측치 수h { h
h { }=} 지층의 표본 표준 편차 { h

용어( h { style _ { } - { _ {} ) / ( h { N _ { } )는 유한 모집단 보정이며, { }})는 "샘플로 표현해야 합니다.앞에서 설명한 유한 모집단 보정은 다음을 제공한다.

서 w h}) = h(\ / N 의 인구

샘플 크기 할당

비례 할당 전략의 경우 각 지층의 표본 크기는 지층의 크기에 비례하여 취합니다.회사에 다음과 같은 [4]직원이 있다고 가정합니다.

  • 남성, 풀타임: 90
  • 남성, 파트타임: 18
  • 여성, 정규직: 9
  • 여성, 파트타임: 63
  • 합계: 180

그리고 우리는 위의 카테고리에 따라 계층화된 40명의 스탭의 샘플을 채취해야 합니다.

첫 번째 단계는 전체 그룹 중 각 그룹의 비율을 계산하는 것입니다.

  • 남성, 정규직 = 90 ÷ 180 = 50%
  • 남성, 파트타임 비율 = 18 ÷ 180 = 10%
  • 여성, 정규직 = 9 180 180 = 5%
  • 여성, 파트타임 = 63 ÷180 = 35 %

이것은 우리의 샘플 40을 말해줍니다.

  • 50%(20명)가 정규직 남성이어야 합니다.
  • 10%(4명)가 파트타임 남성이어야 한다.
  • 5%(2명)가 정규직 여성이어야 한다.
  • 35%(14명)가 파트타임 여성이어야 한다.

비율을 계산할 필요가 없는 또 다른 쉬운 방법은 각 그룹 크기에 표본 크기를 곱하고 총 모집단 크기(전체 직원 크기)로 나누는 것입니다.

  • 남성, 정규직 = 90 × (40 × 180) = 20
  • 남성, 파트타임 = 18 × (40 × 180) = 4
  • 여성, 정규직 = 9 × (40 × 180) = 2
  • 여성, 파트타임 = 63 × (40 × 180) = 14

「 」를 참조해 주세요.

레퍼런스

  1. ^ Botev, Z.; Ridder, A. (2017). "Variance Reduction". Wiley StatsRef: Statistics Reference Online: 1–6. doi:10.1002/9781118445112.stat07975. ISBN 9781118445112.
  2. ^ a b "6.1 How to Use Stratified Sampling STAT 506". onlinecourses.science.psu.edu. Retrieved 2015-07-23.
  3. ^ a b Shahrokh Esfahani, Mohammad; Dougherty, Edward R. (2014). "Effect of separate sampling on classification accuracy". Bioinformatics. 30 (2): 242–250. doi:10.1093/bioinformatics/btt662. PMID 24257187.
  4. ^ Hunt, Neville; Tyrrell, Sidney (2001). "Stratified Sampling". Webpage at Coventry University. Archived from the original on 13 October 2013. Retrieved 12 July 2012.

추가 정보

  • Särndal, Carl-Erik; et al. (2003). "Stratified Sampling". Model Assisted Survey Sampling. New York: Springer. pp. 100–109. ISBN 0-387-40620-4.