확률 이론과 통계에서 초기하 분포는 가 인 유한 모집단에서 n d 표시 의 성공 확률(사물이 특정 형상을 갖는 무작위 추첨)을 대체하지 않고 n 유형 n에서 설명하는 이산 확률 분포다.해당 기능이 있는 객체를 정확히 포함하는 여기서 각 추첨은 성공 또는 실패 중 하나이다.대조적으로 이항 분포는 교체 시 n 추첨에서 k k 확률을 설명한다.null
이러한 정체성은 이항계수를 요인적 관점에서 표현하고 후자의 재배열로 나타낼 수 있지만 문제의 대칭성에서도 나타난다.실제로, 교체 없이 두 번의 도면을 고려하십시오.1라운드에서 의 중성 구슬 중 {\이(가) 교체되지 않은 항아리에서 그려지며 녹색으로 채색된다.그리고 나서 색깔이 있는 구슬들은 다시 놓인다.2라운드에서는 없이 n 마블을 그리고 빨간색으로 채색한다.그러면 두 가지 색이 모두 그려진 대리석 수(즉, 두 번 그린 대리석 수)가 초기하 분포를 갖게 된다.과의 대칭은 두 라운드가 독립적이라는 사실에서 비롯되며, 라운드는n {\ n개의 볼을 그리고 먼저 빨간색으로 색칠하는 것으로 시작할 수 있었다.null
특성.
작업 예제
초기하 분포의 고전적 적용은 대체 없이 샘플링을 하는 것이다.빨간색과 녹색의 두 가지 색깔의 구슬이 있는 항아리를 생각해 보라.녹색 대리석을 그리는 것은 성공이라고 정의하고 빨간 대리석을 그리는 것은 실패라고 정의한다(이항 분포와 유사).변수 N이 항아리에 있는 모든 구슬의 수를 설명하고(아래 분할표 참조) K가 녹색 구슬의 수를 기술하는 경우, N - K는 빨간색 구슬의 수에 해당한다.이 예제에서 X는 실험에서 실제로 그린 녹색 구슬의 수인 k인 랜덤 변수다.이 상황은 다음과 같은 분할표에 의해 설명된다.
그렸다
뽑히지 않은
총계
녹색 구슬
k
K − k
K
붉은 구슬
n − k
N + k − n − K
N − K
총계
n
N − n
N
자, 항아리에 녹색 구슬이 5개, 붉은 구슬이 45개 있다고 가정해 보자.항아리 옆에 서 있는 당신은 눈을 감고 교체 없이 10개의 구슬을 그린다.10개 중 정확히 4개가 녹색일 확률은 얼마인가?우리가 비록 성공/실패에 대해 알아보고 있지만, 데이터는 이항 분포에 의해 정확하게 모형화되지 않는다는 점에 유의하십시오. 각 시험의 성공 확률은 같지 않기 때문이며, 각 대리석을 제거함에 따라 나머지 모집단의 크기가 변하기 때문이다.null
이 문제는 다음과 같은 분할표에 의해 요약된다.
그렸다
뽑히지 않은
총계
녹색 구슬
k = 4
K − k = 1
K = 5
붉은 구슬
n − k = 6
N + k − n − K = 39
N − K = 45
총계
n = 10
N − n = 40
N = 50
녹색 구슬을 정확하게 그릴 확률은 공식으로 계산할 수 있다.
따라서 이 예에서는 계산한다.
직관적으로 우리는 5개의 녹색 구슬이 모두 10개의 그린 구슬 중 하나가 될 가능성이 더 낮을 것이라고 예상할 수 있다.null
초기하학적 테스트는 분포를 하여 K {\displaystyle 성공을 포함하는 크기의 모집단에서 특정 k k} 성공( 총 추첨 중)으로 구성된 표본을 추출한 통계적 유의성을 측정한다.표본의 성공에 대한 과대표시를 위한 테스트에서 초기하중 p-값은 으로부터 로 k 또는 그 이상의 성공을 n 의 총 추첨으로 추출할 확률로 계산된다.저표시에 대한 검정에서 p-값은 이하를 랜덤하게 그릴 확률이다.null
초기하 분포(초기하 분포)에 기초한 시험은 피셔의 정확한 검정의 해당 한꼬리 버전과 동일하다.[6]역으로, 양면 피셔의 정확한 시험의 p-값은 두 개의 적절한 초기하계 시험의 합으로 계산할 수 있다(자세한 내용은 참조[7]).null
이 테스트는 어떤 하위 집단이 표본에서 과대 또는 과소표현되는지를 식별하는 데 종종 사용된다.이 시험은 응용 범위가 넓다예를 들어, 마케팅 그룹은 다양한 인구통계학적 하위그룹(예: 여성, 30세 미만 인구)의 과대 표현에 대해 알려진 고객 집합을 테스트하여 고객 기반을 이해하는 데 이 테스트를 사용할 수 있다.null
이() 매개변수 n {\}및 p {\과(와) 함께 이항 분포를 갖도록 하십시오 이 모형은 교체 시 아날로그 샘플링 문제의 성공 횟수를 모델링함.If and are large compared to , and is not close to 0 or 1, then and have similar distributions, i.e., .
녹색과 붉은색 구슬이 있는 항아리의 모델은 두 가지 이상의 색깔의 구슬이 있는 경우로 확장될 수 있다.항아리에 color i의 Ki marbles가 있고 교체 없이 무작위로 n marbles를 취한다면, 표본의 각 색상의 marbles12 수(kc, k, k, ..., k)는 다변량 초기하 분포를 가진다.이는 초기하 분포와 이항 분포의 관계가 같다. 다항 분포는 "교체" 분포이고 다변량 초기하 분포는 "교체되지 않은" 분포이다.null
이 분포의 속성은 인접한 표에 제시되어 있는데,[8]서 c는 다른 색상의 수이고 N= = 1 는 총 대리석 수입니다.null
예
항아리에 5개의 검은색, 10개의 흰색, 15개의 빨간 구슬이 있다고 가정해보자.교체 없이 6개의 구슬을 선택한다면, 각 색깔의 정확히 2개가 선택될 확률은 다음과 같다.
발생 및 적용
감사 선택 적용
선거 감사에 사용된 샘플과 그로 인한 문제 누락 가능성
선거 감사는 일반적으로 기계 카운트 관할 구역의 표본을 테스트하여 수작업 또는 기계에 의한 재검표가 원래 카운트와 일치하는지 여부를 확인한다.불일치는 보고서 또는 더 큰 재검표를 초래한다.샘플링 속도는 보통 통계 설계가 아닌 법률에 의해 정의되므로 법적으로 정의된 샘플 크기 n의 경우 해킹이나 버그와 같은 K 관할구역에 존재하는 문제를 누락할 확률은 얼마인가?이는 k = 0일 확률이다. 버그는 종종 불명확하고, 해커는 소수의 선거구에만 영향을 주어 탐지를 최소화할 수 있기 때문에, 여전히 근접한 선거에 영향을 미칠 것이므로, 그럴듯한 시나리오는 K가 N의 5%의 순서에 있는 것이다.감사는 일반적으로 선거구(종종 3%)[9][10][11]의 1%에서 10%를 차지하기 때문에 문제를 놓칠 가능성이 높다.예를 들어, 100개 구역 중 5개 구역에 문제가 있는 경우 3% 표본은 k = 0의 확률이 86%이므로 문제를 눈치채지 못할 것이며 표본에 문제가 나타날 확률은 14%(양수 k):
표본에 k = 0의 확률 5% 이하를 가지기 위해 표본에는 45개의 구역이 필요하며, 따라서 95% 이상의 확률로 문제를 발견할 수 있다.
텍사스 홀덤 포커에 적용
포커 플레이어는 손에 들고 있는 두 카드를 5장의 카드(커뮤니티 카드)와 결합할 수 있는 최고의 손을 만든다.갑판에는 52개가 달려 있고 양복 한 벌에 13벌씩 있다.이 예에서는 플레이어가 손에 2개의 클럽을 가지고 있고 테이블 위에 3개의 카드가 있고, 그 중 2개는 클럽이라고 가정한다.플레이어는 다음 2개의 카드 중 하나가 플러시를 완료하기 위한 클럽임을 보여줄 확률을 알고 싶어한다. (이 예에서 계산된 확률은 다른 플레이어의 손에 있는 카드에 대해 알려진 정보가 없다고 가정하지만, 경험이 풍부한 포커 플레이어는 각 시나리오의 확률을 고려하여 다른 플레이어가 내기를 하는 방법(체크, 호출, 상승 또는 접기)을 고려할 수 있다.엄밀히 말하면, 여기에 설명된 성공 확률을 계산하는 접근방식은 테이블에 한 명의 선수만 있는 시나리오에서 정확하다. 멀티플레이어 게임에서는 이 확률을 상대의 베팅 플레이에 기초하여 어느 정도 조정할 수 있다.null
4개의 클럽이 있어서 아직 보이지 않는 9개의 클럽이 있다.(손에 2장, 탁자 위에 3장)을 보여주는 5장의 카드가 있기 에 52- = 여전히 보이지 않는다.null
다음 두 카드 중 하나가 클럽일 확률은 = 1,= ,= 및 = . (약 31.64%)를 사용하여 계산할 수 있다.
다음 두 카드가 모두 클럽일 확률은 k =, =, K= 및= . (약 3.33%)를 사용하여 계산할 수 있다.
다음 두 카드 중 어느 카드도 클럽이 아닐 확률은 = = 2 = k=,K = {\=47을(약 65.03%) 사용하여 계산할 수 있다.
^Duan, X. G. "설계 기반 측량 샘플링에 함축적인 의미를 갖는 다변량 초기하 분포의 더 나은 이해." arXiv 사전 인쇄 arXiv:2111.00548(2021년)(pdf)
^Amanda Glazer and Jacob Spertus (2020-02-10). "Start Spreading the News: New York's Post-Election Audit has Major Flaws". SSRN3536011. {{cite journal}}:Cite 저널은 필요로 한다. journal=(도움말)
^National Conference of State Legislatures. "Post-Election Audits". www.ncsl.org. Retrieved 2018-04-02.
이 글은 일반적인 참고문헌 목록을 포함하고 있지만, 그에 상응하는 인라인 인용구가 충분하지 않기 때문에 대체로 검증되지 않은 상태로 남아 있다.보다 정확한 인용구를 도입하여 이 기사를 개선할 수 있도록 도와주십시오. (2011년 8월) (이 템플릿 메시지를 제거하는 방법과 시기 알아보기)