기하 분포

Geometric distribution
기하학
확률질량함수
Geometric pmf.svg
누적분포함수
Geometric cdf.svg
파라미터< 1 { 0 < \ 1}의 성공 확률(실제)< 1 { 0 < \ 1}의 성공 확률(실제)
지지하다 시행: k {,, 3 { k \ \ {, 3 \ style \} 장애: k { ,, , 3 , { k \ \ { , , , \ style }
PMF
CDF - ( - ) {\ ( { ( 1 - p x\}} (0 { x 0 ) 、
의 경우 0
- ( -p ) + ( x - - ) ( -1 ( \ ( 1 - p x } )
<의 경우0 { 0 (0 의 )
의미하다
중앙값


(-/ 2 ( -) { - 1 / \_ {2} ( -p )가 정수인 경우고유하지 않습니다.)


(-/ 2 ( -) { - 1 / \_ {2} ( -p )가 정수인 경우고유하지 않습니다.)
모드
분산
왜도
예: 첨도
엔트로피
MGF
< - ( -) { t < - \ ( 1 - p) }의 경우

< - ( -) { t < - \ ( 1 - p) }의 경우
CF

확률론통계학에서 기하 분포는 두 개의 이산 확률 분포 중 하나입니다.

  • {1,,, 13 에서 지원되는 베르누이 트라이얼 X의 확률 분포.
  • {0 1, 2, …}({displaystyle에서 지원되는 첫 번째 성공까지의 실패 횟수 Y = X - 1의 확률 분포.

이 중 기하학적 분포라고 불리는 것은 관습과 편리성의 문제이다.

이 두 가지 다른 기하학적 분포는 서로 혼동해서는 안 됩니다.종종 이전 분포(숫자 X의 분포)에 대해 시프트 기하 분포라는 이름이 채택되지만, 모호성을 피하기 위해 지지를 명시적으로 언급함으로써 의도하는 바를 표시하는 것이 현명하다고 여겨진다.

기하 분포는 첫 번째 성공 발생 시 각각 성공 확률이 p인 k개의 독립적 시행이 필요할 확률을 제공합니다.각 시행에서 성공할 확률이 p이면 k번째 시행(k번의 시행 중)이 첫 번째 성공할 확률은 다음과 같습니다.

k = 1, 2, 3, 4, ....

위의 기하 분포 형식은 첫 번째 성공까지의 시행 횟수를 모형화하는 데 사용됩니다.반면, 첫 번째 성공까지의 실패 횟수를 모형화하기 위해 다음과 같은 형태의 기하 분포가 사용됩니다.

k = 0, 1, 2, 3, ....

어느 경우든 확률의 수열은 기하학적 수열이다.

예를 들어, "1"이 처음 나타날 때까지 일반 주사위가 반복적으로 던져진다고 가정합니다.던져지는 횟수의 확률 분포는 무한 집합 {1, 2, 3, ...}에서 지원되며 p = 1/6인 기하 분포입니다.

기하 분포는 Geo(p)로 나타내며, 여기서 0 < p 1 1이다.

정의들

각 시행에는 두 가지 결과(지정된 실패와 성공)만 있는 일련의 시행을 고려해 보십시오.성공 확률은 각 시행마다 동일하다고 가정합니다.이러한 일련의 시행에서 기하 분포는 시행 횟수가 설정된 이항 분포와 달리 실험이 성공할 때까지 시행 횟수가 제한될 수 있기 때문에 첫 번째 성공 전에 실패 횟수를 모형화하는 데 유용합니다.이 분포는 첫 번째 성공 전에 실패가 0개, 첫 번째 성공 전에 실패가 1개, 첫 번째 성공 전에 실패가 2개 있을 확률을 제공합니다.

전제 조건:기하학적 분포가 적절한 모델은 언제입니까?

기하 분포는 다음 가정이 참인 경우 적절한 모형입니다.

  • 모델링되는 현상은 일련의 독립적인 시도입니다.
  • 각 시행에 대해 가능한 결과는 두 가지뿐이며, 종종 지정된 성공 또는 실패가 있습니다.
  • 성공 확률 p는 모든 시행에서 동일합니다.

이러한 조건이 참이면 기하학적 랜덤 변수 Y는 첫 번째 성공 전 실패 횟수의 카운트입니다.첫 번째 성공까지 가능한 실패 횟수는 0, 1, 2, 3 등입니다.위의 그래프에서 이 공식은 오른쪽에 나와 있습니다.

또 다른 공식은 기하학적 랜덤 변수 X가 첫 번째 성공까지의 총 시행 횟수이고 실패 횟수는 X - 1이라는 것입니다.위의 그래프에서 이 공식은 왼쪽에 나와 있습니다.

확률 결과 예제

첫 번째 성공 전 k개의 실패 확률을 계산하는 일반적인 공식은 다음과 같습니다. 여기서 성공 확률은 p이고 실패 확률은 q = 1 - p입니다.

k = 0, 1, 2, 3, ....

E1) 의사가 새로 진단받은 환자의 항우울제를 찾고 있습니다.사용 가능한 항우울제 중 특정 약물이 특정 환자에게 효과적일 확률은 p = 0.6이라고 가정한다.이 환자에게 효과가 있는 것으로 판명된 첫 번째 약물이 첫 번째 약물이고 두 번째 약물이 두 번째 약물일 확률은 얼마나 됩니까?효과적인 약 하나를 찾기 위해 시도할 것으로 예상되는 약의 수는 얼마나 됩니까?

첫 번째 약이 효과가 있을 확률입니다.첫 번째 성공까지는 실패가 없다.Y = 0 고장입니다.확률 Pr(첫 번째 성공 전에 실패가 0)은 첫 번째 약물이 효과가 있을 확률입니다.

첫 번째 약은 실패하지만 두 번째 약은 효과가 있을 확률입니다.첫 번째 성공까지는 실패가 하나 있다.Y = 1 고장입니다.이 일련의 사건의 확률은 Pr(첫 번째 약물 실패)× {\ p(두 번째 약물 성공)이며, 이는 다음과 같이 주어진다.

첫 번째 약이 실패하고 두 번째 약이 실패하지만 세 번째 약이 효과가 있을 확률입니다.첫 번째 성공까지는 두 가지 실패가 있다.Y = 2 고장입니다.이 일련의 사건의 확률은 Pr(첫 번째 약물 실패)× {\ p(두 번째 약물 실패)× {\ Pr(세 번째 약물 성공)이다.

E2) 신혼부부가 아이를 가질 계획이며 첫 번째 여자아이까지 계속된다.첫 번째 여자아이 전에 남자아이가 0명, 첫 번째 여자아이 전에 남자아이가 1명, 첫 번째 여자아이 전에 남자아이가 2명일 확률이 얼마나 됩니까?

여자(성공)를 가질 확률은 p = 0.5이고 남자(실패)를 가질 확률은 q = 1 - p = 0.5입니다.

첫 번째 여자아이 이전에는 남자아이가 없을 확률이

첫 번째 여자아이보다 남자아이 하나가 먼저일 확률은

첫 번째 여자아이 전에 두 아들이 있을 확률은

기타 등등.

특성.

순간과 누적

첫 번째 성공을 위한 독립 시행 횟수와 기하 분포 랜덤 변수 X의 분산에 대한 기대값은 다음과 같습니다.

마찬가지로 기하학적 분포 랜덤 변수 Y = X - 1의 기대치와 분산은 다음과 같다( Pr( Y ) {의 정의 참조).

증명

예상값이 (1 - p)/p인 것은 다음과 같이 나타낼 수 있습니다.Y를 위와 같이 두자.그리고나서

합계와 미분의 교환은 수렴력 급수가 수렴하는 점 집합의 콤팩트 부분 집합에서 균일하게 수렴한다는 사실로 정당화된다.

μ = (1 - p)/pY의 기대치로 한다.그러면 Y 확률 분포의 누적량 n \ _ 재귀 조건을 만족합니다.

기대치의 예

E3) 환자가 이식을 위해 적합한 신장 기증자를 기다리고 있다.무작위로 선택된 기증자가 적합할 확률이 p = 0.1인 경우, 일치하는 기증자를 찾기 전에 검사해야 할 예상 기증자 수는 얼마입니까?

p = 0.1일 첫 번째 성공 이전의 평균 실패 횟수는 E(Y) = (1 - p)/p = (1 - 0.1)/0.1 = 9입니다.

X는 첫 번째 성공까지의 시행 횟수이며, 여기서 X는 첫 번째 성공까지의 시행 횟수이며, 기대값은 E(X) = 1/p = 1/0.1 = 10이다.

예를 들어 위의 1에서 p = 0.6일 때 첫 번째 성공 이전의 평균 실패 횟수는 E(Y) = (1 - p)/p = (1 - 0.6)/0.6 = 0.67입니다.

고차 모멘트

첫 번째 성공까지의 실패 횟수에 대한 모멘트는 다음과 같습니다.

Li - - 폴리로그 함수입니다.

일반 속성

  • X와 Y의 확률 생성 함수는 각각 다음과 같다.
  • 연속 아날로그(지수 분포)와 마찬가지로 기하 분포는 메모리가 없습니다.즉, 첫 번째 성공까지 실험을 반복하려는 경우 첫 번째 성공이 아직 발생하지 않았으므로 추가 시행 횟수의 조건부 확률 분포는 관찰된 실패 횟수에 따라 달라지지 않습니다.주사위 던지기나 동전 던지기에는 이러한 실패에 대한 "기억"이 없습니다.기하 분포는 메모리가 없는 유일한 이산 분포입니다.
[2]
  • {1, 2, 3, ...에서 지원되는 모든 이산 확률 분포 중} 주어진 기대치 μ에서 파라미터 p = 1/μ기하분포 X가 엔트로피가 가장 [3]크다.
  • 첫 번째 성공 전 실패 횟수 Y의 기하학적 분포는 무한히 나눌 수 있다. 즉, 임의의 양의 정수 n에 대해 Y와 동일한 분포를 갖는 독립적인 동일한 분포 랜덤 변수1 Y, ..., Yn 존재한다.이 값은 n = 1이 아니면 기하학적으로 분포되지 않으며 의 이항 분포를 따릅니다.
  • 기하학적으로 분포된 랜덤 변수 Y의 소수 자릿수는 독립적이고 동일한 분포가 아닌 일련의 랜덤 [citation needed]변수입니다.예를 들어, 수백 자리 D의 확률 분포는 다음과 같습니다.
여기서 q = 1 - p 및 기타 숫자에 대해서도 유사하며, 보다 일반적으로는 10보다 작은 숫자에 대해서도 유사하다.기준값이 2이면 기하학적으로 분포된 랜덤 변수를 확률 분포를 분해할 수 없는 독립 랜덤 변수의 합으로 작성할 수 있음을 나타냅니다.

관련 분포

  • 기하 분포 Y는 r = 1인 음의 이항 분포의 특수한 경우입니다. 보다 일반적으로 Y, ..., Yr 모수 p를 갖는 독립적인 기하 분포 변수인 경우1, 합계는
모수가 r 및 [5]p인 음의 이항 분포를 따릅니다.
  • 기하 분포는 이산 화합물 포아송 분포의 특수한 경우입니다.
  • Y, ..., Yr 독립적인 기하 분포 변수(성공 모수m p가 다를 수 있음)인 경우1 최소값
또한 1 -(1 - ).{{ -1 - 을 사용하여 기하학적으로 분포되어 있습니다. [6]
  • 0 < r < 1이고 k = 1, 2, 3, ...의 경우 랜덤 변수k X의 포아송 분포기대값 k r/k라고 가정합니다.그리고나서
에는 기대값이 r/(1 - r)[citation needed]인 집합 {0, 1, 2, ...}의 값을 취하는 기하 분포가 있습니다.
  • 지수 분포는 기하 분포의 연속 유사체입니다.X가 지수 분포 랜덤 변수인 경우
여기δ{ \ \ 또는 최대 정수 함수이며 파라미터 p = 1 - eλ(θ = -ln(1 - p))[7]를 갖는 기하학적으로 분포된 랜덤 변수이며 집합 {0, 1, 2, ...}의 값을 취합니다.이를 사용하여 균일한 의사난수 생성기에서 지수적으로 분산된 의사난수 값을 먼저 생성하여 기하학적으로 분산된 의사난수 값을 생성할 수 있습니다.그 후 ln / - \ (1-p)\기하학적 를 사용하여 분산됩니다.0,1]에서 U {\U}가 균일하게 되어 있는 le p
  • p = 1/nX모수 p와 함께 기하학적으로 분포되어 있는 경우 X/n의 분포는 기대값 1이 n → µ인 지수 분포에 근접합니다.

보다 일반적으로 p = //n(여기서 is가 모수)인 경우, nthe로 X/n의 분포속도 :로 지수 분포에 근접합니다.

따라서 X/n 분포 함수는 지수 랜덤 변수의 분포 함수인 xx된다.

통계적 추론

모수 추정

두 가지 기하 분포 변형에 대해 기대치와 표본 평균을 동일하게 함으로써 모수 p를 추정할 수 있다. 방법은 모멘트의 방법이며, 이 경우 [8][9]p최대우도 추정치를 산출합니다.

구체적으로, 첫 번째 변종의 경우, k1 = k, ..., kn 표본으로 한다. 여기i i = 1, ..., n대한 k 1 1이다. 그러면 p는 다음과 같이 추정할 수 있다.

베이지안 추론에서, 베타 분포모수 p에 대한 공역 사전 분포이다.이 모수가 베타(α, β)보다 먼저 주어지면 후방 분포는 다음과 같습니다.

후방 평균 E[p]는 α와 β가 0에 가까워짐에 따라 최대우도 p 접근한다.

또는 i = 1, ..., n대해 k, ..., kn 표본으로 합니다1. 그러면i p는 다음과 같이 추정할 수 있습니다.

사전[10][11] 베타(α, β)가 주어진 p의 후방 분포는 다음과 같다.

후방 평균 E[p]는 α와 β가 0에 가까워짐에 따라 최대우도 p 접근한다.

Maximum Life를 사용한 p 추정치에 대해 편향은 다음과 같습니다.

이것은 편중-편향 최대우도 추정기를 산출한다.

계산 방법

R을 사용한 기하 분포

R 함수dgeom(k, prob)첫 번째 성공 전에 k개의 실패가 있을 확률을 계산합니다. 여기서 인수 "prob"는 각 시행에서 성공할 확률입니다.

예를들면,

dgeom(0,0.6) = 0.6

dgeom(1,0.6) = 0.24

R은 k가 실패 횟수라는 관례를 사용하기 때문에 첫 번째 성공까지의 시행 횟수는 k + 1입니다.

다음 R 코드는 Y = 0 ~ 10(p = 0.6)의 기하 분포 그래프를 생성합니다.

Y=0:10  줄거리.(Y, geom(Y,0.6), 유형="h", =c(0,1), 주된="p=0에 대한 기하 분포입니다.6", ="Pr(Y=Y)", xlab="Y=첫 번째 성공 전 실패 횟수") 

Excel을 사용한 기하 분포

첫 번째 성공 이전의 실패 횟수에 대한 기하 분포는 성공 이전의 실패 횟수에 대한 음이항 분포의 특수한 경우입니다.

Excel 함수NEGBINOMDIST(number_f, number_s, probability_s)s = number_s 성공 전 k = number_f 실패 확률을 계산합니다. 여기서 p = 확률_s는 각 시행의 성공 확률입니다.기하 분포의 경우 number_s = 1이 성공했다고 가정합니다.

예를들면,

=NEGBINOMDIST(0, 1, 0.6)= 0.6
=NEGBINOMDIST(1, 1, 0.6)= 0.24

Excel은 R과 마찬가지로 k가 실패 횟수라는 관례를 사용하기 때문에 첫 번째 성공까지의 시행 횟수는 k + 1입니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b A modern introduction to probability and statistics : understanding why and how. Dekking, Michel, 1946-. London: Springer. 2005. pp. 48–50, 61–62, 152. ISBN 9781852338961. OCLC 262680588.{{cite book}}: CS1 유지보수: 기타 (링크)
  2. ^ Guntuboyina, Aditya. "Fall 2018 Statistics 201A (Introduction to Probability at an advanced level) - All Lecture Notes" (PDF).
  3. ^ Park, Sung Y.; Bera, Anil K. (June 2009). "Maximum entropy autoregressive conditional heteroskedasticity model". Journal of Econometrics. 150 (2): 219–230. doi:10.1016/j.jeconom.2008.12.014.
  4. ^ Gallager, R.; van Voorhis, D. (March 1975). "Optimal source codes for geometrically distributed integer alphabets (Corresp.)". IEEE Transactions on Information Theory. 21 (2): 228–230. doi:10.1109/TIT.1975.1055357. ISSN 0018-9448.
  5. ^ 피트먼, 짐확률(1993년판).스프링거 출판사 372쪽
  6. ^ Ciardo, Gianfranco; Leemis, Lawrence M.; Nicol, David (1 June 1995). "On the minimum of independent geometrically distributed random variables". Statistics & Probability Letters. pp. 313–326. doi:10.1016/0167-7152(94)00130-Z.
  7. ^ "Wolfram-Alpha: Computational Knowledge Engine". www.wolframalpha.com.
  8. ^ casella, george; berger, roger l (2002). statistical inference (2nd ed.). pp. 312–315. ISBN 0-534-24312-6.
  9. ^ "MLE Examples: Exponential and Geometric Distributions Old Kiwi - Rhea". www.projectrhea.org. Retrieved 2019-11-17.
  10. ^ "3. Conjugate families of distributions" (PDF).
  11. ^ "Conjugate prior", Wikipedia, 2019-10-03, retrieved 2019-11-17

외부 링크