음이항 분포
Negative binomial distribution다른 텍스트(그리고 이 문서의 다른 부분)는 음의 이항 분포에 대해 약간 다른 정의를 채택한다.이러한 매개변수는 지원이 k = 0에서 시작되는지 k = r에서 시작되는지 여부, p가 성공 또는 실패 확률을 나타내는지 여부, [1]r이 성공 또는 실패를 나타내는지 여부에 따라 구별할 수 있으며, 따라서 사용된 특정 매개변수를 식별하는 것이 주어진 텍스트에서 중요하다. | |||
확률질량함수 ![]() 주황색 선은 각 그림에서 10과 같은 평균을 나타내고 녹색 선은 표준 편차를 나타냅니다. | |||
표기법 | |||
---|---|---|---|
파라미터 | r > 0 :실험이 정지될 때까지의 실패 횟수(실제로도 정의가 확장 가능) p ≤ [0,1] - 각 실험의 성공 확률(실제) | ||
지지하다 | k ∈ { 0 、 1, 2, 3, ...} : 성공 횟수 | ||
PMF | k ( k+ - k ) ( - ) k, \ k \ + r - \ k } \ ( 1 - )^{^{ } | ||
CDF | 1 - p ( + ,), \ k1, 정규화된 함수 불완전 베타 | ||
의미하다 | |||
모드 | |||
분산 | |||
왜도 | |||
예: 첨도 | |||
MGF | |||
CF | |||
PGF | |||
피셔 정보 | |||
모멘트의 방법 | |
확률론과 통계학에서 음이항 분포는 특정한 (랜덤하지 않은) 실패 횟수([2]r)가 발생하기 전에 일련의 독립적이고 동일한 분포의 베르누이 시행에서 성공 횟수를 모형화하는 이산 확률 분포입니다.예를 들어, 다이에 6을 굴리는 것을 성공으로 정의하고 다른 숫자를 굴리는 것을 실패로 정의할 수 있으며, 세 번째 실패(r = 3)가 확인되기 전에 얼마나 많은 성공적인 롤이 발생하는지 물어볼 수 있습니다.이 경우 나타나는 고장 횟수의 확률 분포는 음의 이항 분포가 됩니다.마찬가지로 음의 이항 분포를 사용하여 특정 기계가 고장 나기 전의 작업 일수를 모형화할 수 있습니다(r = 1).이것은 일종의 이항 분포입니다.
파스칼 분포(블레이즈 파스칼 이후)와 폴리아 분포(조지 폴랴의 경우)는 음이항 분포의 특수한 경우입니다.엔지니어, 기후학자 등에서는 정수값 정지시간 파라미터 r의 경우 "음수 이항" 또는 "Pascal"을 사용하고 실수값의 경우 "Polya"를 사용하는 것이 관례이다.
토네이도 발생과 같은 관련 이산 사건 발생의 경우, 폴리아 분포를 사용하여 포아송과 달리 평균과 분산을 다르게 함으로써 포아송 분포보다 더 정확한 모델을 제공할 수 있다.음의 이항 분포는 μ/ (1 - \/ ( - p이며, 분포는 p (\ 0의 에서 포아송과 동일합니다. 이 분포는 포아송 분포의 대안으로 유용하게 사용될 수 있습니다.예를 들어, 포아송 회귀 분석을 강력하게 수정하는 데 사용됩니다.역학에서는 감염 가능성이 개인에 따라 그리고 [3]환경에 따라 상당히 다를 수 있는 감염성 질환의 질병 전염 모델화에 사용되어 왔다.일반적으로 사건이 양의 공분산 항으로 인해 발생이 독립적이었던 경우보다 양의 상관 관계가 있는 발생이 더 큰 분산을 일으키는 경우에 적절할 수 있습니다.
"음수 이항"이라는 용어는 분포의 확률 질량 함수에 대한 공식에 나타나는 특정 이항 계수가 음수로 [4]더 간단하게 기록될 수 있기 때문에 발생할 수 있습니다.
정의들
독립적인 베르누이 시행의 시퀀스가 있다고 가정합니다.각 시행에는 "성공"과 "실패"라는 두 가지 잠재적 결과가 있습니다.각 시행에서 성공 확률은 p이고 실패 확률은 (1 - p)입니다.이 시퀀스는 사전 정의된 횟수 r의 성공이 발생할 때까지 관찰됩니다.여기서 본 랜덤 고장 수 X는 음의 이항(또는 Pascal) 분포를 가집니다.
확률질량함수
음이항 분포의 확률 질량 함수는 다음과 같습니다.
여기서 r은 성공 횟수, k는 실패 횟수, p는 성공 확률입니다.이 공식은 사이드바의 대체 공식입니다.이 공식에서 평균은( ) / { / {이고 분산은( ) / 2 { style { ( r} / {p 입니다.
여기서 괄호 안의 수량은 이항 계수이며 다음과 같습니다.
k+r 표본의 마지막이 정의상 성공이기 때문에 k+r-1 표본에서 k개의 고장이 선택됩니다.
이 수량은 "음수 이항"이라는 이름을 설명하는 대신 다음과 같은 방법으로 쓸 수 있다.
마지막 식과 이항식을 사용하여 0 µp < 1 1- \ q= 1 -p0 0 、
따라서 확률 질량 함수의 조건은 실제로 아래와 같이 1이 된다.
확률 질량 함수에 대한 위의 정의를 이해하기 위해, k + r 시행의 결과는 독립적으로 발생해야 하므로 r 성공과 k 실패의 모든 특정 시퀀스에 대한 확률은 p(1 - kp)라는 점에 유의하십시오r.r번째 성공은 항상 마지막에 오므로 나머지 k + r - 1 시행 중에서 실패가 있는 k 시행을 선택하는 것이 좋습니다.조합적 해석으로 인해 위의 이항 계수는 k + r - 1 길이의 이 모든 시퀀스의 수를 정확하게 제공합니다.
누적분포함수
누적 분포 함수는 정규화된 불완전 베타 함수로 표시할 수 있습니다.
이항 [5]분포의 누적 분포 함수로도 표시할 수 있습니다.
대체 제제
일부 출처는 여기서의 1차 분포와 약간 다르게 음의 이항 분포를 정의할 수 있습니다.가장 일반적인 변화는 랜덤 변수 X가 서로 다른 것들을 세는 것입니다.다음 표에서 이러한 변화를 확인할 수 있습니다.
X가 세고 있다... | 확률질량함수 | 공식 | 대체식 (등가 이항 사용) | 대체식 ( + { n =+ r 을 사용하여 인증됨) | 지지하다 | |
---|---|---|---|---|---|---|
1 | k개의 실패, r개의 성공 | [6][7][8] | [9][10][11][12] | |||
2 | n개의 시행, r개의 성공이 주어진 경우 | [7][12][13][14][15] | ||||
3 | 시행 n회, 고장 r회 | |||||
4 | n개의 시행이 주어진 경우 r 성공 | 이항 분포는 다음과 같습니다. ( ) (1 -p )- r { \ { \ {} { } { } ( 1 - )^{ n -r } |
음의 이항 분포에 대한 이러한 정의는 약간 다르지만 동등한 방법으로 표현될 수 있습니다.첫 번째 대체 공식은 단순히 이항 계수의 등가 형식이다 즉, ( ) a{ {( -b ) {\ a { textstyle { a } { a - b } = { a } { a - b} \ a두 번째 대체 공식은 총 시행 횟수가 단순히 성공과 실패 횟수, 즉 + \ n =r +라는 것을 인식함으로써 식을 다소 단순화한다.이러한 두 번째 공식은 이해하기 더 직관적일 수 있지만, 용어가 많을수록 실용적이지 않을 수 있습니다.
- 여기서 X는 주어진 r번의 성공에서 발생한k번의 실패 횟수입니다.이 정의는 이 문서에서 사용되는 주요 정의와 매우 유사하지만, k개의 성공과 r개의 실패는 카운트 대상과 주어진 것을 고려할 때 전환됩니다.그러나 p는 여전히 "성공" 확률을 나타냅니다.
- 여기서 X는 지정된 r번의 성공 횟수에 대해 발생한 n번의 시행 횟수입니다.이 정의는 정의 #2와 매우 유사하지만 k개의 실패 대신 r개의 성공이 주어집니다.그러나 p는 여전히 "성공" 확률을 나타냅니다.
- 음의 이항 분포의 정의는 모수 r이 양의 실수 값을 취할 수 있는 경우로 확장될 수 있습니다.정수 이외의 수의 "실패"를 시각화하는 것은 불가능하지만, 확률 질량 함수를 통해 분포를 공식적으로 정의할 수 있습니다.정의를 실제 값(양) r로 확장하는 문제는 감마 함수를 기반으로 이항 계수를 실제 값으로 확장하는 것으로 요약된다.
- 원래 정의에 이 식을 대입한 후, X에 확률 질량 함수가 있는 경우 음의 이항(또는 폴랴) 분포를 갖는다고 합니다.
- 여기서 r은 실수의 양수입니다.
음이항 [16]회귀 분석에서 분포는 평균 1 - {\ m{pr}{로 지정되며, 선형 회귀 분석 또는 기타 일반화 선형 모형에서와 같이 설명 변수와 관련된다.평균 m에 대한 식에서 m + {\ p = { 및 + {\을 할 수 있으며, 이러한 식을 r-값의 확률 질량 함수에 대입하면 이 산출된다.m의 조건:
그 후 분산은 + r {\ mr로 표기할 수 있습니다.일부 저자는 1 {\ \alpha =로 하고 이 컨텍스트에서 m+ {\ m m{\alpha}로 표현하기를 선호합니다.는 "분산 파라미터", "형상 파라미터" 또는 "반복계수"[17] 또는 "불균일성"[11] 또는 "반복성"[16] 파라미터로 불립니다."집약"이라는 용어는 개별 유기체의 수를 설명할 때 생태학에서 특히 사용된다.0을 향한 집적 파라미터 r의 감소는 유기체의 집적 증가에 대응하며, 무한대를 향한 r의 증가는 포아송 회귀에서 설명할 수 있듯이 집적 부재를 나타낸다.
대체 파라미터화
분포는 평균 μ 및 분산 θ의2 관점에서 모수화되기도 합니다.
예
사탕을 팔다
팻 콜리스는 초등학교 6학년 수학여행 자금을 마련하기 위해 캔디바를 팔아야 한다.팻은 캔디바 다섯 개가 팔릴 때까지 집에 돌아오지 않기로 되어 있다.그래서 아이는 집집마다 돌아다니며 캔디바를 판다.집집마다 사탕 한 개가 팔릴 확률은 0.6이고 아무것도 팔리지 않을 확률은 0.4입니다.
마지막 캔디바를 n번째 집에서 팔 확률이 얼마나 되나요?
캔디 판매에 충분한 횟수의 성공이 정지 기준을 정의합니다(판매에 실패하는 것이 아니라).이 경우 k는 실패 횟수를 나타내고 r은 성공 횟수를 나타냅니다.NegBin(r, p) 분포는 k + r Bernouli(p) 시행에서 k개의 실패 및 r 성공 확률을 마지막 시행에서 성공으로 나타낸다는 점을 기억하십시오.캔디바 다섯 개를 판다는 것은 다섯 개의 성공을 의미한다.따라서 시행 횟수(즉, 주택)는 k + 5 = n입니다.관심이 있는 랜덤 변수는 주택의 수이므로 k = n - 5를 NegBin(5, 0.4) 질량 함수로 대체하고 주택 분포의 다음과 같은 질량 함수를 구한다(n ≤ 5).
팻이 10번째 집에서 끝날 확률은 얼마나 되나요?
팻이 여덟 번째 집에 도착하기 전에 끝낼 확률은 얼마나 되나요?
8번째 하우스나 그 전에 끝내려면 팻은 5번째, 6번째, 7번째 또는 8번째 하우스에서 끝내야 합니다.이러한 가능성을 종합합니다.
팻이 이웃에 서 있는 30채의 집을 다 쓸 확률은 얼마나 되나요?
이는 Pat이 30번째 하우스까지 5번째 하우스에서 끝나지 않을 확률로 표현될 수 있습니다.
팻이 각 집에 팔릴 확률이 높기 때문에(60%), 그녀가 자신의 목표를 달성하지 못할 가능성은 매우 희박합니다.
입원 기간
병원 입원 기간은 음의 이항 [18]분포를 사용하여 잘 모델링할 수 있는 실제 데이터의 한 예입니다.
특성.
기대.
모수(r, p)가 있는 음의 이항 분포에서 예상되는 총 성공 횟수는 rp/(1 - p)입니다.이를 확인하기 위해 음의 이항식을 시뮬레이션하는 실험이 여러 번 수행된다고 가정합니다.즉, r개의 고장이 얻어질 때까지 일련의 시행이 수행된 다음 다른 시행 집합, 그리고 다른 시행 집합 등이 수행됩니다.각 실험에서 수행된 시행 횟수를 a, b, c, ...로 기록하고 a + b + c + ...을 설정합니다. = N. 이제 총 Np 성공이 예상됩니다.실험이 n번 수행되었다고 가정합니다.합계 nr개의 장애가 발생합니다.따라서 nr = N(1 - p)이 될 것으로 예상되므로 N/n = r/(1 - p)가 됩니다.N/n은 실험당 평균 시행 횟수입니다.그것이 우리가 말하는 "기대"의 의미이다.실험당 평균 성공 횟수는 N/n - r = r/(1 - p) - r = rp/(1 - p)입니다.이 값은 이 페이지 오른쪽에 있는 상자에 표시된 평균과 일치합니다.
분산
주어진 실패 횟수 r에 대한 성공 횟수를 셀 때 분산은 rp/(1 - p)2입니다.r번째 성공 이전의 실패 횟수를 셀 때 분산은 r(1 - p)/p입니다2.
이항 정리와의 관계
Y가 모수가 n과 p인 이항 분포를 갖는 변량 변수라고 가정합니다.p + q = 1로 가정하고 p, q ≤ 0으로 가정합니다.
뉴턴의 이항 정리를 사용하면, 이것은 동일하게 다음과 같이 쓸 수 있다.
합계의 상한이 무한대인 경우.이 경우 이항 계수는
n이 정수일 뿐 아니라 실수일 때 정의됩니다.그러나 이항 분포의 경우 k > n이면 0이 됩니다. 예를 들어 다음과 같습니다.
이제 r > 0을 사용하여 음의 지수를 사용한다고 가정합니다.
그러면 모든 항이 양수이고 항은
r이 정수일 경우 r번째 성공까지의 실패 횟수가 k와 같을 확률입니다(r이 음의 정수이고, 따라서 지수가 양의 정수일 경우, 위의 합계의 일부 항은 음이 아니므로 모든 음이 아닌 정수 집합에는 확률 분포가 없습니다).
여기서 r의 정수 이외의 값도 사용할 수 있습니다.그러면 적절한 음의 이항 분포가 있습니다.이것은 파스칼 분포의 일반화입니다.이것은 r이 양의 정수일 때 파스칼 분포와 일치합니다.
상부에서 을 상기하다
- 변수 p의 값이 동일한 독립 음수-이원 분포 랜덤 변수1 r과2 r의 합은 p는 같지만 r-값1 r + r을2 갖는 음수-이원 분포입니다.
이 속성은 정의가 일반화될 때 지속되며 음이항 분포가 무한히 분할된다는 것을 확인할 수 있는 빠른 방법을 제공합니다.
반복관계
다음과 같은 반복 관계가 유지됩니다.
관련 분포
- 기하 분포({ 0, 1, 2, 3, ...)})는 음의 이항 분포의 특수한 경우입니다.
포아송 분포
정지 모수 r이 무한대로 가는 반면, 각 시행에서 성공할 확률은 분포의 평균을 일정하게 유지하는 방식으로 0이 되는 음의 이항 랜덤 변수 시퀀스를 고려합니다.이 평균을 θ로 나타내면 파라미터 p는 p = θ/(r + θ)가 됩니다.
이 매개 변수화 하에서 확률 질량 함수는 다음과 같습니다.
이제 한계를 r → δ로 간주하면 두 번째 인자는 1로 수렴되고 세 번째 인자는 지수 함수로 수렴됩니다.
기대값이 θ인 포아송 분포 랜덤 변수의 질량 함수입니다.
즉, 대체 모수화된 음이항 분포가 포아송 분포로 수렴되고 r은 포아송으로부터의 편차를 제어합니다.따라서 음의 이항 분포는 큰 r의 경우 포아송에 가깝지만 작은 r의 경우 포아송보다 분산이 큰 포아송에 대한 강력한 대안으로 적합합니다.
감마-포아송 혼합물
또한 음의 이항 분포는 포아송 비율의 혼합 분포가 감마 분포인 포아송 분포(복리 확률 분포)의 연속적 혼합으로 발생합니다.즉, 음이항 분포는 포아송(poisson) 분포로 볼 수 있다. 여기서 θ는 그 자체가 랜덤 변수이며, 형상 = r 및 척도 θ = p/(1 - p) 또는 그에 상응하는 비율 β = (1 - p)/p를 갖는 감마 분포로 분포된다.
이 진술에 대한 직관을 표시하려면 강도 p와 1 - p를 갖는 두 개의 독립적인 포아송 공정인 "성공"과 "실패"를 고려하십시오.성공 공정과 실패 공정이 모두 강도 1의 단일 포아송 공정과 같으며, 여기서 해당하는 독립 동전 던지기가 확률 p를 앞지르면 공정이 성공한 것이고, 그렇지 않으면 실패한 것입니다.r이 카운트 숫자이면 동전 던지기는 r번째 실패 이전의 성공 카운트가 모수 r과 p를 갖는 음의 이항 분포를 따른다는 것을 나타냅니다.그러나 카운트는 실패 포아송 공정에서 r번째 발생의 랜덤 시간 T에 대한 성공 포아송 공정의 카운트이기도 합니다.성공 카운트는 평균 pT가 있는 포아송 분포를 따릅니다. 여기서 T는 강도 1 - p의 포아송 공정에서 r 발생에 대한 대기 시간입니다. 즉, T는 형상 모수 r 및 강도 1 - p를 사용하여 감마 분포됩니다.따라서 음의 이항 분포는 평균 pT를 갖는 포아송 분포와 같으며, 여기서 랜덤 변수 T는 형상 모수 r 및 강도(1 - p)를 사용하여 감마 분포됩니다.θ = pT는 형상 모수 r과 강도(1 - p)/p로 감마 분포되기 때문에 전 항은 다음과 같다.
다음의 형식적 도출(r이 계수 번호인 것에 의존하지 않음)은 직관을 확인시켜 준다.
따라서 음의 이항 분포를 감마-포아송(혼합물) 분포라고도 합니다.음의 이항 분포는 원래 감마-포아송 [19]분포의 제한 사례로 도출되었다.
기하학적으로 분포된 랜덤 변수의 합계 분포
Y가 모수가 r 및 p인 음의 이항 분포를 따르는 랜덤 변수이고 {0, 1, 2, ...}을(를) 지원하는 경우r Y는 기하r 분포({0, 1, 2, ...)를 따르는 r 독립 변수의 합입니다.( ), 파라미터 p.따라서 중심 한계 정리의 결과로 Y(적절하게 스케일링 및 시프트됨)는r 충분히 큰 r에 대해 거의 정규 분포를 따릅니다.
또한, B가 모수 s + r 및 p를 갖는 이항 분포에 이은 랜덤 변수인 경우s+r,
이런 의미에서 음의 이항 분포는 이항 분포의 "역"입니다.
변수 p의 값이 동일한 독립 음수-이원 분포 랜덤 변수1 r과2 r의 합은 p는 같지만 r-값1 r + r을2 갖는 음수-이원 분포입니다.
음의 이항 분포는 무한히 나눌 수 있습니다. 즉, Y가 음의 이항 분포를 갖는 경우, 임의의 양의 정수 n에 대해 Y와 동일한 분포를 갖는 독립적인 동일한 분포 랜덤 변수1 Y, ..., Y가n 존재합니다.
복합 포아송 분포로 표현
음의 이항 분포 NB(r,p)는 복합 포아송 분포로 나타낼 수 있습니다.{Yn, n † {\은 0 각각 로그 분포 Log(p)를 가지며 확률 질량 함수를 갖는 독립적이고 균등하게 분포된 랜덤 변수의 시퀀스를 나타낸다.
N을 시퀀스와 무관한 랜덤 변수라고 가정하고 N의 평균 θ = -r ln(1 - p)인 포아송 분포를 갖는다고 가정합니다.그럼 난수합은
는 NB(r,p)에 의해 분산됩니다.이를 증명하기 위해 확률 생성 함수N G와Y1 G의 구성인 X의 확률 생성 함수X G를 계산한다.사용.
그리고.
입수하다
NB(r,p) 분포의 확률 생성 함수입니다.
다음 표에서는 일련의 추첨에서 성공 횟수와 관련된 네 가지 분포를 설명합니다.
교환품 포함 | 교환 없음 | |
---|---|---|
지정된 추첨 횟수 | 이항 분포 | 초기하 분포 |
지정된 실패 횟수 | 음이항 분포 | 부초기하 분포 |
(a, b, 0) 등급의 분포
음의 이항 분포는 포아송 및 이항 분포와 함께 (a,b,0) 클래스의 분포에 속합니다.이 세 가지 분포는 모두 Panjer 분포의 특수한 경우입니다.이들은 또한 자연 지수 계열의 구성원입니다.
통계적 추론
모수 추정
p의 MVUE
p를 알 수 없고 r개의 성공이 발견될 때까지 표본 추출이 계속된다고 미리 결정된 실험이 수행된다고 가정합니다.실험에 충분한 통계량은 고장 횟수인 k입니다.
p를 추정할 때 최소 분산 불편 추정기는 다음과 같습니다.
최대우도 추정
r이 알려진 경우 p의 최대우도 추정치는 다음과 같습니다.
하지만 이것은 편향된 추정치입니다.그러나 [20]역(r + k)/r은 1/p의 치우침이 없는 추정치입니다.
r을 알 수 없는 경우 p와 r에 대한 최대우도 추정기는 표본 분산이 표본 [21]평균보다 큰 표본에 대해서만 존재합니다.N iid 관측치(k1, ..., kN)에 대한 우도 함수는 다음과 같습니다.
여기서 로그우도 함수를 계산합니다.
최대값을 구하려면 r과 p에 대한 부분 도함수를 취하여 0으로 설정합니다.
- ( ,p )∂ - [ i= k - ] + p \ { \( r , p ) { \ =}^{ _ { + \ [ \ _ i ]
어디에
- ( k )= k )(k ) ( k ) \ \( k ) = ' ( k ) } { \ Gamma ( k ) }} \ !}는 디감마 함수입니다.
p에 대한 첫 번째 방정식을 풀면 다음과 같은 결과가 나옵니다.
두 번째 방정식에서 이를 대입하면 다음과 같은 결과를 얻을 수 있다.
이 방정식은 닫힌 형식의 r에 대해 풀 수 없습니다.수치 해법을 원할 경우 뉴턴의 방법 등 반복 기법을 사용할 수 있다.또는 기대 최대화 알고리즘을 [21]사용할 수 있습니다.
발생 및 응용 프로그램
베르누이 프로세스의 대기 시간
r이 정수인 특수한 경우 음의 이항 분포를 파스칼 분포라고 합니다.이것은 일련의 독립적이고 동일한 분포의 베르누이 시행에서 특정 횟수의 실패와 성공 확률 분포입니다.성공 확률이 p인 k + r Bernouli 시행의 경우 음의 이항은 k개의 성공 및 r개의 실패 확률을 제공하며 마지막 시행에서 실패가 발생합니다.즉, 음의 이항 분포는 베르누이 공정에서 r번째 실패 이전의 성공 횟수에 대한 확률 분포이며, 각 시행에서 성공할 확률은 p입니다.베르누이 공정은 이산 시간 과정이므로 시행, 실패 및 성공 횟수는 정수입니다.
다음 예를 생각해 보겠습니다.주사위를 반복적으로 던지고 1을 실패로 간주한다고 가정합니다.각 시도에서 성공할 확률은 5/6입니다.세 번째 실패 이전의 성공 횟수는 무한 집합 {0, 1, 2, 3, ...}에 속합니다. 이 성공 횟수는 음수 이원 분포 랜덤 변수입니다.
r = 1일 때 첫 번째 실패 전 성공 횟수의 확률 분포(즉, (k + 1)번째 시행에서 첫 번째 실패가 발생할 확률)를 구합니다. 이는 기하 분포입니다.
과잉 분산 포아송
음의 이항 분포, 특히 위에서 설명한 대체 모수화에서 포아송 분포의 대안으로 사용할 수 있습니다.표본 분산이 표본 평균을 초과하는 무한 양의 범위에 걸친 이산 데이터에 특히 유용합니다.이러한 경우 평균이 분산과 동일한 포아송 분포에 대해 관측치가 과대산포됩니다.따라서 포아송 분포는 적절한 모형이 아닙니다.음의 이항 분포에는 포아송보다 모수가 하나 더 있으므로 두 번째 모수를 사용하여 평균과 독립적으로 분산을 조정할 수 있습니다.일부 이산 확률 분포의 누적량을 참조하십시오.
이는 북대서양의 열대성 사이클론 연간 수 또는 평균보다 [22][23][24]편차가 큰 유럽의 월~6개월 겨울철 온대성 사이클론 연간 수에도 적용된다.중간 정도의 과대 산포의 경우 과대 산포 포아송 [25][26]분포와 실질적으로 유사한 결과가 나올 수 있습니다.
음의 이항 분포는 또한 높은 처리량 RNA 및 DNA 염기서열 분석 [27][28][29]실험에서 이산 염기서열 판독 카운트의 형태로 데이터를 모델링하는 데 일반적으로 사용됩니다.
역사
이 분포는 1713년 Montmort에 의해 주어진 수의 [30]성공을 얻기 위해 실험에 필요한 시험 횟수의 분포로 처음 연구되었다.그것은 이전에 [31]파스칼에 의해 언급되었다.
「 」를 참조해 주세요.
레퍼런스
- ^ DeGroot, Morris H. (1986). Probability and Statistics (Second ed.). Addison-Wesley. pp. 258–259. ISBN 0-201-11366-X. LCCN 84006269. OCLC 10605205.
- ^ Weisstein, Eric. "Negative Binomial Distribution". Wolfram MathWorld. Wolfram Research. Retrieved 11 October 2020.
- ^ 예: J.O. Lloyd-Smith, S.J. Schreiber, P.E. Kopp 및 W.M. Getz(2005), 질병 발생에 대한 개인 변이의 영향, 자연, 438, 355–359 doi:10.10/04153.
overdispersion 파라미터는 일반적으로 역학에서 rr이 k로 표시됩니다. - ^ Casella, George; Berger, Roger L. (2002). Statistical inference (2nd ed.). Thomson Learning. p. 95. ISBN 0-534-24312-6.
- ^ Morris K W(1963), 직접 및 역표본에 대한 메모, 바이오메트리카, 50, 544-545.
- ^ "Mathworks: Negative Binomial Distribution".
- ^ a b Cook, John D. "Notes on the Negative Binomial Distribution" (PDF).
- ^ Saha, Abhishek. "Introduction to Probability / Fundamentals of Probability: Lecture 14" (PDF).
- ^ W., Weisstein, Eric. "Negative Binomial Distribution". mathworld.wolfram.com.
- ^ SAS Institute, "음수 이항 분포", SAS(R) 9.4 함수 및 호출 루틴: 참조, 제4판, SAS Institute, Cary, NC, 2016.
- ^ a b Crawley, Michael J. (2012). The R Book. Wiley. ISBN 978-1-118-44896-0.
- ^ a b "Set theory: Section 3.2.5 – Negative Binomial Distribution" (PDF).
- ^ "Randomservices.org, Chapter 10: Bernoulli Trials, Section 4: The Negative Binomial Distribution".
- ^ "Stat Trek: Negative Binomial Distribution".
- ^ Wroughton, Jacqueline. "Distinguishing Between Binomial, Hypergeometric and Negative Binomial Distributions" (PDF).
- ^ a b Hilbe, Joseph M. (2011). Negative Binomial Regression (Second ed.). Cambridge, UK: Cambridge University Press. ISBN 978-0-521-19815-8.
- ^ Lloyd-Smith, J. O. (2007). "Maximum Likelihood Estimation of the Negative Binomial Dispersion Parameter for Highly Overdispersed Data, with Applications to Infectious Diseases". PLoS ONE. 2 (2): e180. Bibcode:2007PLoSO...2..180L. doi:10.1371/journal.pone.0000180. PMC 1791715. PMID 17299582.
- ^ Carter, E.M., Potts, H.W.W. (4 April 2014). "Predicting length of stay from an electronic patient record system: a primary total knee replacement example". BMC Medical Informatics and Decision Making. 14: 26. doi:10.1186/1472-6947-14-26. PMC 3992140. PMID 24708853.
{{cite journal}}
: CS1 maint: 여러 이름: 작성자 목록(링크) - ^ Greenwood, M.; Yule, G. U. (1920). "An inquiry into the nature of frequency distributions representative of multiple happenings with particular reference of multiple attacks of disease or of repeated accidents". J R Stat Soc. 83 (2): 255–279. doi:10.2307/2341080. JSTOR 2341080.
- ^ Haldane, J. B. S. (1945). "On a Method of Estimating Frequencies". Biometrika. 33 (3): 222–225. doi:10.1093/biomet/33.3.222. hdl:10338.dmlcz/102575. JSTOR 2332299. PMID 21006837.
- ^ a b Aramidis, K. (1999). "An EM algorithm for estimating negative binomial parameters". Australian & New Zealand Journal of Statistics. 41 (2): 213–221. doi:10.1111/1467-842X.00075.
- ^ Villarini, G.; Vecchi, G.A.; Smith, J.A. (2010). "Modeling of the dependence of tropical storm counts in the North Atlantic Basin on climate indices". Monthly Weather Review. 138 (7): 2681–2705. Bibcode:2010MWRv..138.2681V. doi:10.1175/2010MWR3315.1.
- ^ Mailier, P.J.; Stephenson, D.B.; Ferro, C.A.T.; Hodges, K.I. (2006). "Serial Clustering of Extratropical Cyclones". Monthly Weather Review. 134 (8): 2224–2240. Bibcode:2006MWRv..134.2224M. doi:10.1175/MWR3160.1.
- ^ Vitolo, R.; Stephenson, D.B.; Cook, Ian M.; Mitchell-Wallace, K. (2009). "Serial clustering of intense European storms". Meteorologische Zeitschrift. 18 (4): 411–424. Bibcode:2009MetZe..18..411V. doi:10.1127/0941-2948/2009/0393. S2CID 67845213.
- ^ McCullagh, Peter; Nelder, John (1989). Generalized Linear Models (Second ed.). Boca Raton: Chapman and Hall/CRC. ISBN 978-0-412-31760-6.
- ^ Cameron, Adrian C.; Trivedi, Pravin K. (1998). Regression analysis of count data. Cambridge University Press. ISBN 978-0-521-63567-7.
- ^ Robinson, M.D.; Smyth, G.K. (2007). "Moderated statistical tests for assessing differences in tag abundance". Bioinformatics. 23 (21): 2881–2887. doi:10.1093/bioinformatics/btm453. PMID 17881408.
- ^ Love, Michael; Anders, Simon (October 14, 2014). "Differential analysis of count data – the DESeq2 package" (PDF). Retrieved October 14, 2014.
- ^ Chen, Yunshun; Davis, McCarthy (September 25, 2014). "edgeR: differential expression analysis of digital gene expression data" (PDF). Retrieved October 14, 2014.
- ^ Montmort PR de (1713) Essai d'analyse sur les jeux de hassard.제2판퀼로, 파리
- ^ 파스칼 B (1679) 바리아 오페라 매스매티카.페트리 드 페르마톨로새과