체계적인 샘플링
Systematic sampling조사방법론에서 체계적인 샘플링은 순서가 매겨진 샘플링 프레임에서 요소를 선택하는 통계적 방법이다.체계적인 표본 추출의 가장 일반적인 형태는 등가성 방법이다.이 접근법에서는 목록 내의 진행은 순환적으로 처리되며 목록의 끝이 통과되면 맨 위로 돌아갑니다.샘플링은 리스트에서 임의의 요소를 선택하는 것으로 시작하여 프레임 내의 모든th k개의 요소가 선택됩니다.여기서 k는 샘플링 간격(스킵이라고도 함)입니다.이것은 다음과 [1]같이 계산됩니다.
여기서 n은 표본 크기이고 N은 모집단 크기입니다.
이 절차를 사용하여 모집단의 각 요소는 알려진 동등한 선택 확률(epsem이라고도 함)을 가집니다.따라서 체계적인 샘플링은 기능적으로 단순 랜덤 샘플링(SRS)과 유사합니다.그러나 특정 크기의 가능한 모든 샘플이 선택될 확률이 동일하지는 않기 때문에 SRS와 동일하지 않다(예: 서로 인접한 최소 두 개의 요소가 있는 샘플은 체계적인 샘플링을 통해 선택되지 않는다).그러나 훨씬 더 효율적입니다(시스템 표본 내의 분산이 [citation needed]모집단의 분산보다 큰 경우).
체계적인 표본 단위가 모집단에 균일하게 분포되어 있기 때문에 체계적인 표본 추출은 주어진 모집단이 논리적으로 균일한 경우에만 적용됩니다.연구자는 선택한 표본 추출 구간이 패턴을 숨기지 않는지 확인해야 합니다.어떤 패턴이든 무작위성을 위협할 수 있습니다.
예:한 슈퍼마켓에서 고객의 구매 습관을 연구하려고 하며 체계적인 표본을 사용하여 슈퍼마켓에 들어오는 10번째 또는 15번째 고객을 모두 선택하고 이 표본에 대한 연구를 수행할 수 있습니다.
이것은 시스템을 사용한 랜덤 샘플링입니다.샘플링 프레임에서 시작점을 랜덤으로 선택하고 그 이후의 선택은 일정한 간격으로 한다.예를 들어, 120채의 거리에서 8채의 집을 표본으로 추출하려고 합니다.120/8=15이므로 15번째 집은 1에서 15 사이의 랜덤 시작점 이후에 선택됩니다.랜덤 시작점이 11인 경우 선택된 주택은 11, 26, 41, 56, 71, 86, 101, 116입니다.한편, 모든 15번째 집이 "코너 하우스"라면, 이 모서리 패턴은 표본의 무작위성을 파괴할 수 있습니다.
더 자주 그렇듯이 모집단이 균등하게 나누어져 있지 않은 경우(125개 중 8개 주택을 표본으로 추출하고 싶은 경우, 125/8=15.625), 15번째 주택마다 또는 16번째 주택마다 추출해야 합니까?16번째 집마다 8*16=128을 가져가면 마지막에 선택한 집이 존재하지 않을 위험이 있습니다.한편, 15번째 집마다 8*15=120이므로, 마지막 5개의 집은 선택되지 않습니다.대신 랜덤 시작점을 0에서 15.625 사이의 비정수로 선택하여 모든 주택이 선택될 확률을 같게 해야 합니다.간격은 비정수(15.625)가 되어야 합니다.선택한 각 비정수는 다음 정수로 반올림해야 합니다.랜덤 시작점이 3.6이면 4, 20, 35, 50, 66, 82, 98 및 113이 선택되고, 여기서 15의 3개의 주기 구간과 16의 4개의 구간이 있습니다.
패턴을 숨기는 체계적인 건너뛰기의 위험을 설명하기 위해 각 블록에 10개의 집이 있는 계획된 이웃을 표본으로 추출했다고 가정합니다.이곳은 1, 10, 11, 20, 21, 30호 집입니다.블록 코너의 경우, 코너 블록의 더 많은 부분이 건물 용도로 사용할 수 없는 도로 전면 등에 의해 점유되기 때문에 가치가 떨어질 수 있습니다.10번째 가구마다 표본을 추출하는 경우 표본은 코너 하우스(1 또는 10에서 시작하는 경우)로만 구성되거나 코너 하우스(1 또는 10에서 시작하는 경우)가 없습니다. 어느 쪽이든 대표적이지 않습니다.
체계적인 표본 추출은 선택 확률이 동일하지 않은 경우에도 사용될 수 있다.이 경우 모집단의 요소를 단순히 세어 k개 단위로th 선택하는 것이 아니라 각 요소를 선택 확률에 따라 숫자 라인을 따라 공간을 할당합니다.그런 다음 0과 1 사이의 균일한 분포에서 랜덤 시작을 생성하고 1단계에서 숫자 선을 따라 이동합니다.
예:인구는 5명(A~E)입니다.유닛 A에 선택확률 20%, 유닛 B에 40%의 확률로 유닛 E(100%)까지 부여하고 싶습니다.알파벳 순서를 유지한다고 가정하면 각 유닛은 다음 간격에 할당됩니다.
A: 0 ~ 0.2 B: 0.2 ~ 0.6 (= 0.2 + 0.4) C: 0.6 ~ 1.2 (= 0.6 + 0.6) D: 1.2 ~ 2.0 (= 1.2 + 0.8) E: 2.0 ~ 3.0 (= 2.0 + 1.0)
랜덤 스타트치가 0.156인 경우, 우선 간격에 이 숫자가 포함된 단위(즉, A)를 선택합니다.다음으로 1.156(요소 C)을 포함하는 간격을 선택한 후 2.156(요소 E)을 포함하는 간격을 선택합니다.랜덤 스타트 값이 0.350인 경우 0.350(B), 1.350(D) 및 2.350(E) 중에서 선택합니다.
「 」를 참조해 주세요.
레퍼런스
- ^ Ken Black (2004). Business Statistics for Contemporary Decision Making (Fourth (Wiley Student Edition for India) ed.). Wiley-India. ISBN 978-81-265-0809-9.
외부 링크
- TRSL – Template Range Sampling Library는 프리소프트웨어 및 오픈소스 C++ 라이브러리로 (STL과 같은) 반복기 인터페이스의 배후에 체계적인 샘플링을 구현합니다.