단순 랜덤 표본

Simple random sample

통계학에서 단순 랜덤 표본(또는 SRS)은 개인(표본)의 부분 집합으로, 개인의 부분 집합이 모두 같은 확률로 랜덤하게 선택되는 더 큰 집합(모집단)에서 선택됩니다.무작위로 표본을 선택하는 과정입니다.SRS에서 k개인의 각 부분 집합은 [1]k개인의 다른 부분 집합과 동일하게 표본에 대해 선택될 확률을 가진다.단순 랜덤 샘플은 편향되지 않은 샘플링 기법입니다.단순 랜덤 표본 추출은 기본 표본 추출 유형이며 다른 보다 복잡한 표본 추출 방법의 구성요소가 될 수 있습니다.

서론

단순 랜덤 표본 추출의 원리는 모든 항목 집합이 선택될 확률이 같다는 것입니다.예를 들어, N대학생이 농구 경기 티켓을 구하려고 하는데, X<N 티켓밖에 없다고 가정하면, 그들은 누가 갈지 공평하게 결정할 수 있습니다.그런 다음 모든 사람에게 0 ~ N-1 범위의 번호가 부여되고 전자적으로 또는 난수 테이블에서 난수가 생성됩니다.0 ~ N-1 의 범위를 넘는 번호는, 이전에 선택한 숫자와 같이 무시됩니다.번째 X 번호는 행운의 티켓 당첨자를 식별할 수 있습니다.

소규모 모집단과 종종 대규모 모집단에서 이러한 표본 추출은 일반적으로 "대체 없이" 수행된다. 즉, 모집단의 구성원을 두 번 이상 선택하는 것을 의도적으로 피한다.대신 간단한 랜덤 샘플링을 치환과 함께 수행할 수 있지만, 이는 일반적이지 않으며 일반적으로 치환을 사용한 단순한 랜덤 샘플링으로 더 자세히 설명됩니다.교체 없이 수행된 샘플링은 더 이상 독립적이지 않지만 여전히 교환 가능성을 충족하므로 많은 결과가 여전히 유지됩니다.또, 모집단이 적은 샘플에 대해서는, 같은 개체를 2회 선택할 확률이 낮기 때문에, 치환하지 않는 샘플링은 치환 샘플링과 거의 같다.

많은 표본을 추출한 경우 평균 표본이 모집단을 정확하게 나타내기 위해서는 개인의 편견이 없는 랜덤 선택이 중요합니다.그러나 이것이 특정 표본이 모집단을 완벽하게 나타낸다는 보장은 없다.단순 랜덤 표본 추출을 사용하면 표본을 기반으로 전체 모집단에 대해 외부에서 유효한 결론을 도출할 수 있습니다.

개념적으로 단순한 랜덤 샘플링은 확률 샘플링 기법 중 가장 단순한 것입니다.여기에는 완전한 샘플링 프레임이 필요하며, 이는 대규모 모집단에 대해 사용할 수 없거나 구축이 가능하지 않을 수 있습니다.전체 프레임을 이용할 수 있더라도 모집단의 단위에 대한 다른 유용한 정보를 이용할 수 있다면 보다 효율적인 접근이 가능할 수 있다.

장점은 분류 오류가 없고 프레임 이외의 모집단에 대한 최소한의 사전 지식이 필요하다는 것입니다.또한 이러한 방식으로 수집된 데이터를 비교적 쉽게 해석할 수 있습니다.이러한 이유로 모집단에 대한 많은 정보를 이용할 수 없고 랜덤하게 분포된 항목에 대해 데이터 수집을 효율적으로 수행할 수 없거나 표본 추출 비용이 단순성보다 덜 중요할 정도로 적은 상황에 가장 적합합니다.이러한 조건이 유지되지 않는 경우 계층화 샘플링 또는 클러스터 샘플링이 더 나은 선택일 수 있습니다.


단순 랜덤 표본과 다른 방법의 관계

등확률 표본 추출(epsem)

각 단위가 선택될 확률이 동일한 표본 추출 방법을 등확률 표본 추출이라고 합니다.

단순 무작위 샘플을 사용하면 항상 epsem이 발생하지만 모든 epsem 샘플이 SRS인 것은 아니다.예를 들어, 교사가 수업을 6열 5행으로 배열하고 학생 5명의 랜덤 표본을 추출하려는 경우 6열 중 하나를 랜덤으로 선택할 수 있습니다.이것은 epsem 샘플이지만 단일 열로 배열된 하위 집합만 선택 대상이 되기 때문에 5명의 학생으로 구성된 하위 집합이 모두 여기에서 동등하지는 않다.srs가 아닌 [2]다단계 샘플링을 구성하는 방법도 있지만 최종 샘플은 epsem이 됩니다.를 들어, 체계적 랜덤 표본 추출은 각 개별 단위가 포함될 확률은 같지만 다른 단위 집합이 선택될 확률은 서로 다른 표본을 생성합니다.

epsem인 표본은 자가 가중치이며, 이는 각 표본에 대한 선택 확률의 역수가 동일함을 의미합니다.

체계적 랜덤 표본과 단순 랜덤 표본의 구별

1000명의 학생이 있는 학교를 가정하고, 한 연구자가 추가 연구를 위해 100명을 선택하려고 한다고 가정합니다.그들의 모든 이름을 양동이에 넣고 100개의 이름을 뽑을 수 있다.각 개인이 선택될 확률이 같을 뿐만 아니라 표본 크기(n)와 모집단(N)을 알고 있기 때문에 특정인이 선택될 확률(P)도 쉽게 계산할 수 있습니다.

(1) 특정인을 1회만 선택할 수 있는 경우(선택 후 선택 풀에서 제외됨)

2. 선택된 사람이 선택 풀에 복귀한 경우(즉, 여러 번 선택 가능)

이는 학교의 모든 학생이 이 방법을 사용하여 선발될 확률이 10분의 1이라는 것을 의미합니다.또한 100명의 학생이 조합되어도 선발 확률은 동일합니다.

랜덤 샘플링에 체계적인 패턴이 도입되면 "시스템적 (랜덤) 샘플링"이라고 합니다.예를 들어, 학교의 학생들이 0001에서 1000까지의 범위에 있는 숫자에 첨부되어 있고, 우리는 임의의 시작점(예: 0533)을 선택한 후 10번째 이름마다 100의 표본을 추출한다(0993에 도달한 후 0003으로 다시 시작).그런 의미에서 이 기술은 클러스터 샘플링과 유사합니다.첫 번째 유닛의 선택에 따라 나머지가 결정되기 때문입니다.예를 들어 {3, 13, 23, ..., 993}은 선택 확률이 1/10인 반면 {1, 2, 3, ..., 100}은 이 방법으로는 선택할 수 없기 때문에 이것은 더 이상 단순한 무작위 표본 추출이 아닙니다.

이분법 모집단 표본 추출

모집단의 구성원이 "파란색" "빨간색"과 "검은색"의 세 가지 종류로 되어 있는 경우, 주어진 크기의 표본에서 빨간색 원소의 수는 표본에 따라 다르므로 분포를 연구할 수 있는 랜덤 변수이다.이 분포는 전체 모집단의 빨간색과 검은색 요소의 수에 따라 달라집니다.치환된 단순 랜덤 표본의 경우 분포는 이항 분포입니다.치환되지 않은 단순 랜덤 표본의 경우 초기하 분포를 얻을 수 있습니다.


알고리즘

단순 랜덤 샘플링을 위한 몇 가지 효율적인 알고리즘이 [3][4]개발되었습니다.순진한 알고리즘은 드로 바이 드로 알고리즘으로, 각 단계에서 동일한 확률로 해당 단계의 항목을 세트에서 제거하고 해당 항목을 샘플에 넣습니다.원하는 k k의 샘플이 나올 때까지 계속합니다.이 방법의 단점은 세트 내에서 랜덤접속이 필요하다는 것입니다.

1962년[5] Fan 등에 의해 개발된 선택 거부 알고리즘은 단일 패스오버 데이터를 필요로 하지만 순차 알고리즘으로 스트리밍 시나리오에서는 사용할 수 없는 nn의 합계 카운트에 대한 지식이 필요합니다.

매우 [6]간단한 랜덤 정렬 알고리즘은 1977년에 Sunter에 의해 증명되었다.알고리즘은 균일한 분포)에서 추출한 난수(0 각 항목에 키로 할당하고 키를 사용하여 모든 항목을 정렬하여 가장 k개(\ k 항목을 선택합니다.

J. Vitter는 1985년에 널리[7] 사용되는 저장소 샘플링 알고리즘을 제안했다. 알고리즘은 크기를 미리알 필요가 없으며 일정한 공간을 사용합니다.

랜덤 표본 추출은 표본 간의[8] 간격 분포에서 표본을 추출하고 간격을 건너뛰는 방법으로도 가속화할 수 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Yates, Daniel S.; David S. Moore; Daren S. Starnes (2008). The Practice of Statistics, 3rd Ed. Freeman. ISBN 978-0-7167-7309-2.
  2. ^ 피터스, 팀 J, 제니 I.각류."다양한 랜덤 샘플링 전략에서 동일한 확률로 선택 가능"소아 및 신생아 역학 9.2(1995): 219-224.
  3. ^ Tille, Yves; Tillé, Yves (2006-01-01). Sampling Algorithms - Springer. Springer Series in Statistics. doi:10.1007/0-387-34240-0. ISBN 978-0-387-30814-2.
  4. ^ Meng, Xiangrui (2013). "Scalable Simple Random Sampling and Stratified Sampling" (PDF). Proceedings of the 30th International Conference on Machine Learning (ICML-13): 531–539.
  5. ^ Fan, C. T.; Muller, Mervin E.; Rezucha, Ivan (1962-06-01). "Development of Sampling Plans by Using Sequential (Item by Item) Selection Techniques and Digital Computers". Journal of the American Statistical Association. 57 (298): 387–402. doi:10.1080/01621459.1962.10480667. ISSN 0162-1459.
  6. ^ Sunter, A. B. (1977-01-01). "List Sequential Sampling with Equal or Unequal Probabilities without Replacement". Applied Statistics. 26 (3): 261–268. doi:10.2307/2346966. JSTOR 2346966.
  7. ^ Vitter, Jeffrey S. (1985-03-01). "Random Sampling with a Reservoir". ACM Trans. Math. Softw. 11 (1): 37–57. CiteSeerX 10.1.1.138.784. doi:10.1145/3147.3165. ISSN 0098-3500.
  8. ^ Vitter, Jeffrey S. (1984-07-01). "Faster methods for random sampling". Communications of the ACM. 27 (7): 703–718. CiteSeerX 10.1.1.329.6400. doi:10.1145/358105.893. ISSN 0001-0782.

외부 링크