확률 이론에서 다항 분포는 이항 분포의 일반화입니다. 예를 들어, k면 주사위의 각 변에 대한 계수 확률을 n번 모형화합니다. 주어진 고정된 성공 확률을 갖는 k개의 범주 중 정확히 하나에 대한 성공으로 이어지는 n개의 독립적인 시행의 경우, 다항식 분포는 다양한 범주에 대한 성공 횟수의 특정 조합 확률을 제공합니다.
k가 2이고 n이 1일 때 다항 분포는 베르누이 분포입니다. k가 2이고 n이 1보다 크면 이항 분포입니다. k가 2보다 크고 n이 1일 때 범주형 분포입니다. 범주형 분포에 "multinoulli"라는 용어를 사용하여 이러한 4방향 관계를 강조하기도 합니다(따라서 접미사를 결정하고 접미사 k를 결정합니다).
베르누이 분포는 단일 베르누이 시행의 결과를 모델링합니다. 즉, 한 번 동전을 뒤집으면 성공(두 번째 동전 획득) 또는 실패(꼬리 획득)가 발생하는지 여부를 모델링합니다. 이항 분포는 이를 동일한 코인에 대해 독립적인 플립(Bernouli 시행)을 수행한 헤드의 수로 일반화합니다. 다항 분포는 n개의 실험 결과를 모형화하는데, 여기서 각 시행의 결과는 k면 다이닝 횟수를 굴리는 것과 같은 범주형 분포를 갖습니다.
고정된 유한한 수라 하자. 수학적으로, 우리는 상응하는 확률 p1, ..., pk 및 n개의 독립적인 시행으로 상호 배타적인 결과를 가능하게 했습니다. k 결과는 상호 배타적이고 반드시 발생해야 하기 때문에 i = 1 ..., ∑ = k = 1 \=1}^{p_i}=1}에 대한p ≥ 0이 있습니다. 그런 다음 확률 변수 X가 n번의 시행 동안 관찰된 결과 수 i를 나타내는 경우 벡터 X = (X, ..., X)는 모수 n과 p를 갖는 다항 분포를 따르며, 여기서 p = (p, ..., p)입니다. 시행은 독립적이지만 결과 X는i n을 합산해야 하기 때문에 종속적입니다.
각 추첨 후에 추출된 공을 교체하여 가방에서 k개의 다른 색깔을 가진 n개의 공을 추출하는 실험을 한다고 가정해 보겠습니다. 같은 색의 공은 동등합니다. 색 i(i = 1, ..., k)의 추출된 공의 개수인 변수를 X로 표시하고, 주어진 추출이 색 i에 있을 확률을 p로 표시합니다. 이 다항 분포의 확률 질량 함수는 다음과 같습니다.
대국 3자 선거에서 A 후보가 20%, B 후보가 30%, C 후보가 50%의 득표율을 기록했다고 가정해 보겠습니다. 무작위로 6명의 유권자를 선택한다면 표본에서 정확히 A 후보 지지자가 1명, B 후보 지지자가 2명, C 후보 지지자가 3명일 확률은 얼마입니까?
참고: 우리는 투표 인구가 많다고 가정하고 있기 때문에, 일단 투표자가 표본으로 선택되면 확률은 변하지 않는다고 생각하는 것이 합리적이고 허용됩니다. 엄밀히 말하면 이것은 대체 없이 표본을 추출하는 것이므로 정확한 분포는 다변량 초기하학적 분포이지만 고정 표본 크기에 비해 모집단이 커짐에 따라 분포가 수렴합니다.[1].
특성.
정규화
다항 분포는 다음에 따라 정규화됩니다.
여기서 합은 의 모든 순열에서 ∑ = 1k x = n _{=}^{k}{j}=n}이(가) 됩니다.
이항 분포를 파스칼 삼각형의 (정규화된) 1차원 (1D) 조각으로 해석할 수 있듯이, 다항 분포도 파스칼 삼각형의 2D (삼각형) 조각 또는 파스칼 삼각형의 고차원 유사체의 3D/4D/+ (피라미드 모양) 조각으로 해석할 수 있습니다. 이것은 분포의 범위에 대한 해석을 보여줍니다: 임의의 차원에서 이산화된 등변 "피라미드", 즉 격자가 있는 단순.[citation needed]
다항식 계수로
마찬가지로, 확장할 때(+ n + 의 다항식 계수로 이항 분포를 해석할 수 있는 것처럼, 다항 분포는( 1+ 2+ + ⋯ + k) n} +{2} + p_{3+ k})^{n}의 계수로 해석할 수 있으며, 계수만 합하면 최대 1이 됩니다.
다항식 분포 를 0로표본을 추출하고 2차원 심플렉스(여기서는 검은 삼각형으로 표시됨) 내에 표본의 히트맵을 표시하면 →∞ {\ N\infty}로 표시됩니다. 분포는 점 0 0을 중심으로 가우시안으로 수렴하고 윤곽선은 타원으로 수렴하며, 반지름은 / N 으로 수렴합니다 한편, 점 사이의 간격은 / N 1으로 수렴합니다 그래서 이산 다항 분포는 연속 가우스 분포로 수렴합니다.
[증명]
The space of all distributions over categories is a simplex: , N개의 실험 후 가능한 모든 경험적 분포 집합은 심플렉스의 부분 집합입니다:δ n, N ={ (1/ ,…,n / ):x ,…,n ∈ N, ∑ ix=N \N} =1}/{nx_{x_{n}\in \mathbb {N} _ 즉, n _{n}와 ( / Nn}/N} 사이의 교차점입니다.
N이 증가함에 따라 확률 질량의 대부분은 pp}근처의δ n, N_{n,N}의 부분 집합에 집중되며, p p}근처의 확률 는 다음과 같이 잘 근사화됩니다.
이를 통해 질량이 집중되는 부분 집합은 / N 정도의 반지름을갖지만 부분 집합의 점들은 / N 1 정도의 거리로 분리되므로 N 에서는점들이 연속체로 병합됩니다. 이를 이산 확률 분포에서 연속 확률 밀도로 변환하려면δ n N{n,의 각 점이 차지하는 볼륨을 δn \Delta _{n,N}에 곱해야 합니다. 그러나 대칭에 의해, 모든 점은 정확히 동일한 부피를 차지하므로(경계에서 무시할 수 있는 집합을 제외하고) 확률 밀도ρ (p^) = -N ∑i (^i - ) 2 pirho(\hat {p}) { _{ {p서 C C는 상수입니다.
마지막으로, 심플렉스δ n _{n}는 Rn}}의가 아니라 n 1) n-1)} 평면에서만 원하는 결과를 얻을 수 있습니다.
큰 N에서의 조건부 농도
위의 집중 현상은 선형 제약 조건에 따라 조건을 지정하는 경우로 쉽게 일반화할 수 있습니다. 이것이 피어슨의 카이제곱 검정에 대한 이론적 정당성입니다.
정리. N}개의 점이있는 세트에서 관측된 주파수 ∈ N {\}\in {N}이(가) 주어지면 k + k+1}개의 독립 선형 제약 조건을합니다.
p = i / {\{\{i} = N}이(가) 모든 제약 조건을 동시에 만족하도록 첫 번째 제약 조건이 단순히 경험적 분포가 하나로 합되어야 한다는 것을 notice합니다. q}을를) 선형 제약 조건에 의해 허용되는 심플렉스의 하위 영역에 I}- 이전 분포 p p의 투영이라고 표시합니다. →∞ {\N\\infty} 한계에서, sampled counts from the multinomial distribution conditional on the linear constraints are governed by 는 2-1 - k) 2n-1 - k)}로 분포가 수렴됩니다.
[증명]
카운트 변수 p에서 결합된 선형 방정식의 디오판토스 문제에서도 유사한 증명이 적용되지만 이번에는δ n, N{n,은(/ N 과 n _{ 및 k k} 하이퍼플레인의 교차점이며, 모두 선형 독립적입니다. 따라서 확률 밀도ρ^) hat {p}})}은는) (- k- 1) n-k-1)}차원 으로제한됩니다. In particular, expanding the KL divergence around its minimum (the -projection of on 제한된 문제에서 는 에 대한 피타고라스 정리에 의해 카운트의 상수 및 선형 항이 조건부 확률에서 사라지고 해당 카운트를 다중으로 샘플링합니다.
Notice that by definition, every one of must be a rational number, whereas may be chosen from any real number in 이며 디오판토스 방정식 체계를 만족할 필요는 없습니다. 점근적으로 →∞ {\ N\\infty으)인 p {\{p{i}}s(으)는 0] 0,1으)보다 높은확률로 간주할 수 있습니다.
경험적으로 관찰된 b b 순간 또는 유병률 등)에서 벗어나 정리를 일반화할 수 있습니다.
정리.
}, 가 주어지면 p 의 이웃에서 연속적으로 미분 가능하도록 벡터 1 ∇(∇ f k (p (1, 1, ..., 1),\n은(는) 선형 독립적입니다.
given sequences , such that asymptotically for each ;
then for the multinomial distribution conditional on constraints , we have the quantity converging in distribution to {\ N\\infty} 한계에서 으)입니다.
자연어 처리와 같은 일부 분야에서 범주 분포와 다항 분포는 동의어이며 범주 분포가 실제로 의미하는 경우 다항 분포를 말하는 것이 일반적입니다. 이것은 범주 분포의 결과를 범위 의 정수가 아닌 "1-of-K" 벡터(하나의 원소가 1을 포함하고 다른 모든 원소가 0을 포함하는 벡터)로 표현하는 것이 때때로 편리하다는 사실에서 비롯됩니다… 이 형태에서는, 범주형 분포는 단일 시행에 대한 다항식 분포와 동일합니다.
이 섹션은 다음과 같이 확장되어야 합니다. 동시 신뢰 구간에 대한 새로운 하위 섹션(예: 적절한 인용문 포함: [1]).추가하여 도움을 드릴 수 있습니다. (2024년 3월)
다항 분포에 대한 동등성 검정
동등성 검정의 목표는 이론적 다항 분포와 관측된 계수 빈도 사이의 일치를 설정하는 것입니다. 이론적 분포는 완전히 지정된 다항 분포 또는 다항 분포의 모수 계열일 수 있습니다.
를 이론적 다항 분포라고 하고 p p를 한 기본 분포라고 합니다. The distributions and are considered equivalent if for a distance and a tolerance parameter . 동등성 테스트 문제는 ={ d(≥ ε } {\{0} =, q \varepsilon\} 대 1 = {d (p, q) < ε } {\displaystyle H_{1} =\{d (p, q) <\varepsilon \}입니다. 실제 기본 p p을(를) 알 수 없습니다. 대신 계산 빈도 이(가) 관찰되며, 여기서 은 샘플 크기입니다. An equivalence test uses to reject . If can be rejected then the equivalence between and is shown at a given significance level. 유클리드 거리에 대한 동등성 테스트는 Wellek(2010)의 교과서에서 찾을 수 있습니다.[5] 총 변동 거리에 대한 동등성 테스트는 Ostrovski(2017)에서 개발되었습니다.[6] 특정 누적 거리에 대한 정확한 동등성 테스트는 Frey(2009)에서 제안됩니다.[7]
실제 기본 분포 p 와 분포 M 계열 사이의 거리는 = ∈p h) d(p, {M=_{h\dp,h)}로 정의됩니다. 그런 다음 동등성 테스트 문제는 ={ (≥ ε } {\{0} =d(p, \varepsilon\} 및 1 = {d (p, M) < ε } {\displaystyle H_{1} =\{d(p, {\mathcal {M})}<\varepsilon \}에 의해 주어집니다. d는 일반적으로 수치 최적화를 사용하여 계산됩니다. 이 사례에 대한 테스트는 최근 Ostrovski(2018)에서 개발되었습니다.[8]
두 비율의 차이에 대한 신뢰 구간
다항 분포에서 발생하는 두 사건 중에서
다항 분포의 설정에서, - 두 사건의 관측치 비율 차이에 대한 신뢰 구간을 구성합니다={\에서 샘플 p = X 의 음의 공분산을 통합해야 하며, j = }={\
이 주제에 대한 일부 문헌은 일치 쌍 이진 데이터의 사용 사례에 초점을 맞추었는데, 공식을 모든 다항 분포에 대한의 일반적인 경우로 변환할 때 세심한 주의가 필요합니다. 현재 섹션의 공식은 일반화되고 다음 섹션의 공식은 일치 쌍 이진 데이터 사용 사례에 초점을 맞춥니다.
비율 차이에 대한 Wald의 표준 오차(SE)는 다음을 사용하여 추정할 수 있습니다.[9]: 378 [10]
연속성 수정을 포함한 수정은 다음과 같이 오류 한계에을(를) 추가합니다.[11]: 102–3
일치 쌍 이진 데이터의 경우
이 섹션은 다양한 대체 신뢰 구간(및 적절한 인용)에 대한 세부 정보를 포함하여 확장해야 합니다. 또한 다항 분포의 두 사건 사이의 연관성과 일치 쌍 관측치의 분할표에서 한계 비율과 동일한 CI를 제공하는 이유를 명확히 하는 데 도움이 될 것입니다. 추가하여 도움을 드릴 수 있습니다. (2024년 3월)
일치 쌍 이진 데이터의 경우, 일반적인 작업은 일치하는 이벤트의 비율 차이의 신뢰 구간을 구축하는 것입니다. 예를 들어, 어떤 질병에 대한 검사를 받을 수도 있고, 두 시점(1, 2)에서 일부 모집단에 대한 검사 결과를 확인하여 해당 기간 동안 질병에 대한 양성 비율에 변화가 있었는지 확인할 수도 있습니다.
이러한 시나리오는 각 이벤트 조합이 포함된 요소의 수와 함께 2x2 분할표를 사용하여 나타낼 수 있습니다. 샘플링 주파수에는 f f f f 모집단 주파수에는 대문자 F: F F 이 네 가지 조합은 다항 분포(4가지 잠재적 결과가 있음)에서 오는 것으로 모델링할 수 있습니다. 표본과 모집단의 크기는 각각 대문자 n과 N이 될 수 있습니다. 그리고 그러한 경우, 다음 (표본화된) 분할표의 한계로부터 비율의 차이에 대한 신뢰 구간을 구축하는 데 관심이 있습니다.
테스트 2 양성
테스트 2 음성
행합계
테스트 1 양성
테스트 1 음성
열합계
이 경우 한계 비율의 차이를 확인하는 것은 정의를 사용하는 데 관심이 있음을 의미합니다. p ∗ = ∗ =F 11 + F N p_{1*} = {\ {F_{1*}} {N} = {F_{11} + F_{10}} { 1 F 11 + F N{*1} {\frac {F_{*1}} {N} {F_{11} + F_{01}} { 신뢰 구간을 구축하려는 차이점은 다음과 같습니다.
따라서 한계 양의 비율에 대한 신뢰 구간( ∗1 -p 1 ∗ {*1}-p_{1*}})은 2×2의 2차 대각선에서 비율의 차이에 대한 신뢰 구간을 구축하는 것과 동일합니다 01 - p 10 {01}-p_{10}}).
이전 섹션의 Te Wald 신뢰 구간을 이 설정에 적용할 수 있으며 대체 표기법을 사용하여 문헌에 표시됩니다. 특히, SE는 표본 비율 대신 분할표 빈도를 기반으로 하는 경우가 많습니다. 예를 들어, 위에 제공된 Wald 신뢰 구간은 다음과 같이 작성할 수 있습니다.[11]: 102–3
문헌에 대한 추가 연구를 통해 연속성 보정 방법으로 Wald와 Wald 모두에서 몇 가지 단점이 확인되었으며, 실제 적용을 위한 다른 방법이 제안되었습니다.[11]
이러한 수정 중 하나는 아그레스티와 민스 발드+2(다른 작품과[12] 유사)를 포함하는데, 여기에는 각 셀 주파수에 된의 가 있습니다.[13] 따라서 Wald+2 신뢰 구간이 발생합니다. 베이지안 해석에서 이는 모든 모수가 0.5(사실상 Jeffreys 이전)인 디리클렛 분포를 사전으로 취하는 추정치를 구축하는 것과 같습니다. wald+2라는 이름의 +2는 4개의 가능한 사건이 있는 다항식 분포인 2x2 분할표의 맥락에서 각 분포에 1/2개의 관측치를 추가하기 때문에 전체적으로 2개의 관측치를 추가하는 것으로 해석할 수 있습니다.
따라서 일치하는 쌍 데이터의 경우 다음과 같이 수정된 SE가 발생합니다.
다음과 같이 원래 Wald 공식에 연결할 수 있습니다.
다른 수정 사항으로는 Bonett and Price's Adjusted Wald, Newcome's Score 등이 있습니다.
^Fleiss, Joseph L.; Levin, Bruce; Paik, Myunghee Cho (2003). Statistical Methods for Rates and Proportions (3rd ed.). Hoboken, N.J: J. Wiley. p. 760. ISBN9780471526292.
^Agresti, A.; Caffo, B. (2000). "Simple and effective confidence intervals for proportions and difference of proportions result from adding two successes and two failures". The American Statistician. 54 (4): 280–288.