콘웨이-맥스웰-포아송 분포

Conway–Maxwell–Poisson distribution
콘웨이-맥스웰-포아송
확률 질량 함수
CMP PMF
누적분포함수
CMP CDF
매개변수
지원
PMF
CDF
평균
중앙값닫힌 양식 없음
모드텍스트 보기
분산
왜도나열되지 않음
엑스트라 쿠르토시스나열되지 않음
엔트로피나열되지 않음
MGF
CF

확률 이론통계에서 콘웨이-맥스웰-포아송(CMP 또는 COM-Poisson) 분포는 리처드 W. 콘웨이, 윌리엄 L. 맥스웰, 시몬 데니스 포아송 분포의 이름을 딴 이산 확률 분포로, 과도한 분산과소산포를 모형화하여 포아송 분포를 일반화하는 것이다.지수 계열의 일원으로,[1] 포아송 분포와 기하 분포가 특수 케이스로, 베르누이 분포가 제한 케이스로 되어 있다.[2]null

배경

CMP 배포는 원래 콘웨이와 맥스웰이 1962년[3] 국가 의존 서비스 요율을 가진 대기열 시스템을 처리하기 위한 솔루션으로 제안하였다.CMP 분포는 Boatwright et al. 2003과 Shmueli et al.에 의해 통계 문헌에 소개되었다.(2005).[2]분포의 확률적 및 통계적 특성에 대한 첫 번째 상세 조사는 슈무엘리 외 연구진이 발표했다.(2005).[2]COM-Poisson 분포의 일부 이론적 확률 결과는 Li et al. (2019)[5]에 의해 연구되고 검토되며, 특히 COM-Poisson 분포의 특성화를 검토한다.null

확률 질량 함수 및 기본 특성

CMP 분포는 확률 질량 함수를 갖는 분포로 정의된다.

여기서:

Z ,) Z확률 질량 함수가 1에 합치도록 정규화 상수 역할을 한다. ,) 에는 닫힌 형식이 없다는 점에 유의하십시오.null

허용 매개변수의 영역은 > < >< = 입니다.

포아송 분포에 나타나지 않는 추가 매개 변수 을(를) 사용하면 붕괴 속도를 조정할 수 있다.이 붕괴율은 연속 확률의 비율의 비선형적인 감소,

When , the CMP distribution becomes the standard Poisson distribution and as , the distribution approaches a Bernoulli distribution with parameter . When the CMP distribut이온은 - 성공 확률과 함께 기하 분포로 감소한다 단, < [2]

CMP 분포의 경우, 모멘트는 반복 공식을 통해 찾을 수 있다.

누적분포함수

For general , there does not exist a closed form formula for the cumulative distribution function of . If is an integer, we can, however, obtain the following formula in terms of the generalized hy위계함수:[6]

정규화 상수

는 CMP분포의 순간들과 cumulants, 같은 많은 중요한 요약 통계, 정상화 일정 Z(λ, ν){Z(\lambda ,\nu)\displaystyle}.[2][7]사실, 그 확률 발전 기능은 E(sX)Z(sλ, ν)/Z{\displaystyle \operatorname{E}s^{X}=Z(λ, ν)(s\lambd의 조건으로 표현될 수 있다.한 ,\nu, 그리고 평균과 분산은 다음에 의해 주어진다.

누적 생성 함수는

그리고 누룩은 에 의해 주어진다.

정규화 상수 , )= i= ) frac!은(는) 일반적으로 닫힌 형태가 아니며, 다음과 같은 주목할 만한 특별한 경우가 있다.

  • 서 I ) = ) = 0k 2 }{1는 제1종류의 변형된 베셀 함수.[7]
  • For integer , the normalizing constant can expressed [6] as a generalized hypergeometric function: .

정상화 상수는 일반적으로 닫힌 형태를 가지지 않기 때문에 다음과 같은 점증적 팽창이 관심의 대상이다.> 수정그리고 나서, [8]

서 c 은(는) 확장에 의해 고유하게 결정된다.

In particular, , , . Further coefficients are given in.[8]null

순간, 누적 및 관련 결과

의 일반 값의 경우 CMP 분포의 평균, 분산 및 모멘트에 대한 닫힌 폼 공식은 존재하지 않는다그러나 우리는 다음과 같은 깔끔한 공식을 가지고 있다.[7]Let( ) = j( - 1) (- r+ 1)⋯ (j - + ) 은 하강 요인(down factor)을 나타낸다.~ ( ,) X} lambda ,\> 그러면

의 경우

일반적으로 폐쇄형 공식은 CMP 분포의 순간과 적분에는 사용할 수 없으므로, 다음과 같은 점증적 공식들이 관심의 대상이다.X번 국도 CMP(λ, ν){\displaystyle X\sim \mathrm{CMP}(\lambda ,\nu)},ν>0{\displaystyle \nu>0}. Denote은 비대칭도 γ 1)κ 3σ 3{\displaystyle \gamma_{1}={\frac{\kappa_{3}}{\sigma ^{3}}}}과 과도한 첨 γ 2)κ 4σ 4{\displaystyle \gamma_{2}={\frac{자.\kap여기서 2= V (){\2}=\ {X 그러면 \rigraw \rightarrow \[8]

어디에

의 점증상 시리즈는 모든 n 2} 1 =E X {E에 대해 유지된다

정수 }의 경우 모멘트

(가) 순간의 명시적 정수 공식인 경우 얻을 수 있다.사례 = 1}은(는 포아송 분포에 해당한다.= =2}이라고 가정합시다. m [7]

모멘트 및 요인 모멘트에 대한 연결 공식을 사용하면

특히 의 평균은 다음과 같다.

또한 = 을(를) 사용하기 때문에 다음과 같이 분산이 주어진다

이제 1{\(가) 정수라고 가정합시다.그러면

특히.

그리고

중위수, 모드 및 평균 편차

~ ( ,) X을(를) 놓으십시오 X X모드integer / ⌋ ⌋ ^ ^ { \/\ 만약 1 / < < < < < < < < < < { { { { { { { { { { { { { { { \ \ \ \ \ \ \ \ \ \ \ \ 그렇지 않으면 모드는 1/ /- 이다[7]

에 대한 X 의 평균 편차는 다음과 같다.

중위수에 대해 알려진 명시적 공식은 없지만 다음과 같은 점증적 결과를 사용할 수 있다[7] 을(를) ~ ( ,)의 가 되게 한다그러면

as as→ as asan an us.

스타인 특성화

X}CMP(λ, ν){\displaystyle X\sim{\mbox{CMP}}(\lambda ,\nu)∼고, f:Z+↦ R{\displaystyle f:\mathbb{Z}^{+}\mapsto({R}}가 f(X+1)<>⁡ 그런 것을 의미한다고 가정해 보자;∞{\displaystyle \operatorname{E}f(X+1)<>\infty}와 E⁡ Xν f(X)<>∞{\displaystyle자.\operato 그러면

Conversely, suppose now that is a real-valued random variable supported on such that for all bounded \mapsto { 그런 다음 ~ ,) [7]

제한적 분포로 사용

Let have the Conway–Maxwell–binomial distribution with parameters , and . Fix and .그런 다음, n 분포에서 P (, ){\,\ 분포로 수렴하여 n{\ 이러한 결과는 이항 분포의 고전적인 Poisson 근사치를 일반화한다[7]보다 일반적으로 CMP 분포는 Conway-Maxwell-Poisson 이항 분포의 제한적 분포로 발생한다.[7]COM-이항 분포가 COM-Poisson에 근사하다는 사실과는 별도로, Zhang et al. (2018)[9]확률 질량 함수를 갖는 COM-음 이항 분포가 있음을 보여준다.

→ + {\으로 COM-Poisson인 제한 분포로 수렴한다.

관련 분포

  • ~ (, 1) X 그런 다음 X이(가) 매개 변수 }과 함께 포아송 분포를 따른다
  • Suppose λ<1{\displaystyle \lambda<1}.만약 X번 국도 CMP(λ, 0){\displaystyle X\sim \mathrm{CMP}(\lambda ,0)}그리고 나서, 우리는 이러한 X형태{X\displaystyle}확률 질량 함수 P(X)km그리고 4.9초 만)= λ k({\displaystyle P(X=k)=\lambda ^{km그리고 4.9초 만}(1-\lambda)}, k ≥ 0{\d을 기하 분포를 따르고 있다. 0
  • The sequence of random variable converges in distribution as to the Bernoulli distribution with mean .

모수 추정

데이터로부터 CMP 분포의 모수를 추정하는 몇 가지 방법이 있다.가중 최소 제곱법과 최대우도 등 두 가지 방법이 논의될 것이다.가중 최소 제곱 접근법은 단순하고 효율적이지만 정밀도가 부족하다.반면에, 최대 가능성은 정확하지만, 더 복잡하고 계산적으로 집약적이다.null

가중 최소 제곱

가중 최소 제곱은 CMP 분포의 모수에 대한 대략적인 추정치를 도출하고 분포가 적절한 모형인지 여부를 결정하는 단순하고 효율적인 방법을 제공한다.이 방법을 사용한 후 모형이 적절하다고 판단될 경우 모수의 더 정확한 추정치를 계산하기 위해 대체 방법을 사용해야 한다.null

이 방법은 위에서 논의한 바와 같이 연속 확률의 관계를 이용한다.이 방정식의 양쪽의 로그를 취함으로써 다음과 같은 선형 관계가 발생한다.

여기서 = ) 을(를) 의미한다모수를 추정할 때 을 x x- 상대적 주파수로 대체할 수 있다 CMP 분포가 적절한 모델인지 확인하려면 0 카운트가 없는 모든 비율에 대해 x에 대해 값을 플로팅해야 한다.데이터가 선형인 것으로 보이면 모형이 적합할 가능성이 높다.null

모델의 적합성이 결정되면 로그 - 1/ 회귀 분석({\hat{p}/{을 적합하게 하여 파라미터를 추정할 수 있지만, 따라서 가중치가 최소된다.정사각형 회귀 분석을 사용해야 한다.역가중 행렬은 대각선 상에 각 비율의 분산을 가지며, 첫 번째 비대각선상에 1단계 공분산(두 가지 모두 아래에 제시됨)을 갖는다.null

최대우도

CMP 우도 함수는

= i= }x_S= i = xi! {\S_{i=1}^{ x_ 다음 두 방정식을 최대화할 수 있다.

분석 솔루션이 없는 경우.null

대신에, 최대우추정치는 뉴턴-래프슨 방법에 의해 숫자로 근사치된다.각 반복에서 X의 기대치, 분산 및 공분산은 이전 반복에서 {{\} {\ }에 대한 추정치를 사용하여 근사치를 계산한다.

{\{\{\}}과( {\ {\{\이(가) 융합될 때까지 계속된다

일반화 선형 모형

위에서 논의한 기본 CMP 분포는 베이시안 제형을 이용한 일반화된 선형 모형(GLM)의 기초로도 사용되었다.CMP 배포에 기반한 듀얼 링크 GLM이 개발되었으며,[10] 이 모델은 교통사고 데이터 평가에 이용되었다.[11][12]기케마와 코펠트(2008)가 개발한 CMP GLM은 위의 CMP 분포의 개편에 기초하여 = / 대체하였다 의 적분 부분은 그 다음 분포의 모드가 된다.전체 베이시안 추정 접근방식은 회귀 모수에 대한 비정보적 이전이 있는 WinBugs에서 구현된 MCMC 샘플링과 함께 사용되어 왔다.[10][11]이 접근방식은 계산상 비용이 많이 들지만 회귀 모수에 대한 전체 후방 분포를 산출하며, 전문 지식이 유용한 이전 자료를 사용하여 통합될 수 있다.null

포아송 회귀 분석과 로지스틱 회귀 분석을 일반화하는 CMP 회귀 분석을 위한 전통적인 GLM 공식은 개발되었다.[13]이는 CMP 분포의 지수적 패밀리 특성을 활용하여 우아한 모델 추정(최대우도), 추론, 진단 및 해석을 얻는다.이 접근방식은 전문적인 지식이 모델에 통합되는 것을 허용하지 않는 비용으로 베이시안 접근방식보다 계산 시간이 훨씬 적게 필요하다.[13]또한 베이지안 공식에서 얻을 수 있는 전체 후방 분포와 비교하여 회귀 모수(Fisher Information Matrix를 통해)에 대한 표준 오차를 산출한다.또한 포아송 모형과 비교한 분산 수준에 대한 통계적 시험을 제공한다.CMP 회귀 분석 적합성, 분산 테스트 및 적합성 평가를 위한 코드를 사용할 수 있다.[14]null

CMP 분포를 위해 개발된 두 개의 GLM 프레임워크는 데이터 분석 문제에 대한 이 분포의 유용성을 상당히 확장한다.null

참조

  1. ^ "Conway–Maxwell–Poisson Regression". SAS Support. SAS Institute, Inc. Retrieved 2 March 2015.
  2. ^ a b c d e f Shmueli G, Minka T, Kadane J.B, Borle S, Boatwright, P.B. "불연속 데이터 적합을 위한 유용한 분포: Conway-Maxwell-Poisson 분포의 부활." 왕립통계학회 저널:시리즈 C (적용된 통계) 54.1 (2005): 127–142.[1]
  3. ^ Conway, R. W.; Maxwell, W. L. (1962), "A queuing model with state dependent service rates", Journal of Industrial Engineering, 12: 132–136
  4. ^ 보트라이트, P, 볼레, S, 카다네 J.B. "구매 수량과 타이밍의 공동 분배 모델"미국통계협회 98호(2003년) : 564–572.
  5. ^ Li B, Zhang H, Jiao H. "COM-Poisson 랜덤 변수의 특성 및 특성"통계에서의 통신 - 이론과 방법, (2019).[2]
  6. ^ a b c 나다라자, S. "COM-Poisson 분포를 위한 유용한 순간과 CDF 공식화."Statistical Papers 50 (2009): 617–622.
  7. ^ a b c d e f g h i j Daly, F., Gaunt, R.E. "Conway-Maxwell-Poisson 분포: 분포 이론과 근사치." ALEA 라틴아메리카 Journal of Probabability and Matheical Statistics 13(2016): 635–658.
  8. ^ a b c Gaunt, R.E., Iyengar, S., Olde Daalhuis, A.B., 심섹 "Conway-Maxwell-Poisson 분포의 정상화 상수를 위한 점증적 팽창"통계수학연구소실록(2017+) DOI 10.1007/s10463-017-0629-6에 나타나기
  9. ^ 장 H, 탄 K, 리 B. "COM 음의 이항 분포: 과대산포와 초고도 제로 인플레이션 카운트 데이터 모델링"중국 수학의 프런티어, 2018, 13(4): 967–998.[3]
  10. ^ a b Guikema, S.D. 및 J.P. Coffelt(2008) "위험 분석을 위한 유연한 카운트 데이터 회귀 모델", 위험 분석, 28(1), 213–223. doi:10.111/j.1539-6924-2008.01014.x
  11. ^ a b Lord, D., S.D. Guikema, and S.R. Geedipally (2008) "Application of the Conway–Maxwell–Poisson Generalized Linear Model for Analyzing Motor Vehicle Crashes," Accident Analysis & Prevention, 40 (3), 1123–1134. doi:10.1016/j.aap.2007.12.003
  12. ^ 주, D, S.R. Geedipally, S.D.기케마(2010) "콘웨이-맥스웰-포아송 모델의 적용 확대: 분산 미만을 나타내는 교통충돌 데이터 분석" 위험 분석, 30 (8), 1268–1276. 도이:10.11/j.1539-2010.01417.x
  13. ^ a b 판매자, K. S. 및 Shmueli, G.(2010), "카운트 데이터에 대한 유연한 회귀 모델", 적용 통계 연보, 4(2), 943–961
  14. ^ COM_Poisson 모델링 코드, 조지타운 유니브.

외부 링크