Fisher의 비중앙 초기하 분포

Fisher's noncentral hypergeometric distribution
서로 다른 승산비 Ω 값에 대한 Fisher의 중심 초기하 분포에 대한 확률 질량 함수.
m1 = 80, m2 = 60, n = 100, Ω = 0.01, ..., 1000
생물학자 겸 통계학자 로널드 피셔

확률 이론통계에서 피셔의 비중심 초기하 분포는 체중 인자에 의해 표본 추출 확률을 수정하는 초기하 분포의 일반화다.또한 고정 총량에 따라 둘 이상의 이항 분포 변수의 조건부 분포로 정의할 수 있다.

분포는 다음의 urn 모델로 설명할 수 있다.예를 들어, 항아리에 m1 빨간색 공과 m2 흰색 공( N = m1 + m2 공)이 포함되어 있다고 가정하자.각각의 붉은 공은 무게 Ω을1 가지고 있고 각각의 하얀 공은 무게 Ω을2 가지고 있다.우리는 승산비가 Ω = Ω1 / Ω이라고2 말할 것이다. 지금 우리는 특정 공을 가져갈 확률은 무게에 비례하지만 다른 공에 일어나는 것과 무관하게 무작위로 공을 가져가고 있다.특정 색상의 볼을 가져간 횟수는 이항 분포를 따른다.채취한 총 공의 수 n이 알려진 경우, 주어진 n에 대해 채취한 적공 수의 조건부 분포는 피셔의 비중앙초기하 분포다.이 분포를 실험적으로 생성하기 위해서는 우연히 n개의 공을 줄 때까지 실험을 반복해야 한다.

실험 전에 n의 값을 고정하려면 n개의 공이 나올 때까지 하나씩 가져가야 한다.그러므로 공은 더 이상 독립적이지 않다.이것은 왈레니우스의 비중앙초기하 분포로 알려진 약간 다른 분포를 제공한다.이 두 분포가 왜 다른지는 분명치 않다.이 두 분포 간의 차이와 다양한 상황에서 사용할 분포에 대한 설명은 비중앙 초기하 분포 항목을 참조하십시오.

두 분포는 모두 승산비가 1일 때 (중앙)초기하 분포와 동일하다.

불행히도, 두 분포는 문헌에서 "비중앙 초기하 분포"로 알려져 있다.이 이름을 사용할 때 어떤 분포를 의미하는지 구체적으로 밝히는 것이 중요하다.

피셔의 비중앙초기하 분포는 처음에는 확장초기하 분포라는 이름이 붙었고(Harkness, 1965) 오늘날에도 일부 저자들이 이 이름을 사용하고 있다.

일변량 분포

일변량 피셔의 비중앙초기하 분포
매개변수


지원

PMF
= y= x ( - ) y }:{n-
평균, where
모드서 A= - 1 A = m - N- 1+ n+ ) }++n2) C=( + )(+ 1)
분산 -( 1 0) 2 }}}{ 여기서 Pk 위에 주어진다

확률 함수, 평균 및 분산이 인접한 표에 제시되어 있다.

분포의 대체 표현식은 각 색상의 공의 수와 랜덤 변수로 간주되지 않는 공의 수를 모두 가지며, 확률에 대한 표현은 대칭이 된다.

확률함수의 계산 시간은 P0 합계에 항이 많을 때 높을 수 있다.계산 시간은 y = x에 대한 항에 대해 반복적으로 합계의 항을 계산하고 꼬리의 무시할 수 있는 항을 무시하면 줄일 수 있다(Liao와 Rosen, 2001).

평균은 다음과 같이 추정할 수 있다.

- b- - 4 }약 2}-

여기서 = - a = + - - (+ n ) {\}-1}+ = m {\\n\

분산은 다음과 같이 근사하게 추정할 수 있다.

.

평균과 분산에 대한 더 나은 근사치는 르빈(1984, 1990), 맥컬라그와 넬더(1989), 리아오(1992), 아이징가와 펠저(2011)가 제시한다.평균과 평균의 근사치를 위한 안장점 방법 및 제안된 분산은 Eisinga와 Pelzer(2011년)가 매우 정확한 결과를 제공한다.

특성.

다음과 같은 대칭 관계가 적용된다.

반복 관계:

위의 약칭에 근거하여, 그 배포를 애칭하여 「핀치피그」라고 부른다.

파생

일변량 비중심초기하 분포는 예를 들어 임상 시험에 참여하는 두 다른 환자 그룹에서 특정 치료에 대한 반응을 고려할 때 이항 분포 랜덤 변수의 맥락에서 조건부 분포로 대안으로 파생될 수 있다.이 맥락에서 비중심 초기하 분포의 중요한 적용은 두 그룹 간의 처리 반응을 비교하는 승산비에 대한 정확한 신뢰 구간의 계산이다.

XY가 각각 크기가 mXY m인 두 개의 해당 그룹의 응답자 수를 계산하는 이항 분포 랜덤 변수라고 가정하자.

~ X, ), ~ ( , Y) X Y}), .},{Y }, }, }).

그들의 승산비는 다음과 같이 주어진다.

.

응답자 유병률 i i}}은(는) i { , 위의 항아리 구조에서 샘플링 편향에 해당한다.

= i + i

재판은 다음과 같은 우발성 표의 관점에서 요약하고 분석할 수 있다.

치료
그룹
응답자 무응답의 합계
X x . mX
Y y . mY
합계 n . N

표에서 = + y 은(는) 그룹 전체의 총 응답자 수에 해당하며, N은 재판에 모집된 총 환자 수에 해당한다.점들은 더 이상 관련이 없는 해당 주파수 카운트를 나타낸다.

The sampling distribution of responders in group X conditional upon the trial outcome and prevalences, , is noncentral hypergeometric:

분모는 기본적으로 단지 분자일 뿐이며 + = 보유하는 공동 샘플 공간의 모든 사건에 대해 합한 것이다 X와 무관한 용어는 합계에서 인수하여 분자로 취소할 수 있다.

다변량 분포

다변량 피셔의 비중앙초기하 분포
매개변수



지원
PMF
where
평균xi 평균 μ는i 다음과 같이 근사할 수 있다.
where r is the unique positive solution to .

그 분포는 항아리에 있는 어떤 색깔의 c로든 확장될 수 있다.다변량 분포는 세 가지 이상의 색이 있을 때 사용된다.

확률함수와 평균에 대한 간단한 근사치가 오른쪽에 주어진다.평균과 분산에 대한 더 나은 근사치는 McCullah와 Nelder(1989)에 의해 제시된다.

특성.

어떤 색도 바꿀 수 있도록 색의 순서가 임의로 정해져 있다.

가중치는 임의로 조정할 수 있다.

for all

숫자 0(mi = 0) 또는 무게 0(Ωi = 0)의 색상은 방정식에서 생략할 수 있다.

동일한 중량의 색상은 다음과 같이 결합할 수 있다.

여기서 ; n, , N) 은 (일변량, 중심) 초기하 분포 확률이다.

적용들

피셔의 비중심 초기하 분포 편향된 표본 또는 편향된 선택의 개별 항목 독립적으로 서로의 경쟁에 샘플링된 모델들에게 유용한 것이다.그 편견이 있거나 일어날 확률이 평균의 실험 값에서 추정할 수 있다.사용 Wallenius의 비중심 초기하 분포 대신 만약 항목 한 경쟁에 한 샘플링된다.

피셔의 비중심 초기하 분포는 대부분이 고정한 마진에 대한 조건부 분배를 원한다면 보정 표에 시험을 위해 사용된다.예를 들어, 이는 시험이나 약의 효과 측정에 유용할 수 있다.참고 McCullagh과 Nelder(1989년).

사용 가능한 소프트웨어

  • FisherHypergeometricDistribution 원리에.
  • R프로그래밍 언어를 위한 실행은 패키지 BiasedUrn의 이름을 이용할 수 있다그리고 다변량 일도량의 확률 질량 함수, 유통 기능, 분위수, 확률 변수를 생성하는 기능, 제 말은..분산이 포함되어 있습니다.
  • 그 R패키지 MCMCpack은 일도량의 확률 질량 함수와 확률 변수 발생 함수를 포함한다.
  • SAS시스템 일도량의 확률 질량 함수 및 유통 기능을 포함하다.
  • C++의 구현www.agner.org.에서 이용 가능하다
  • 계산 법 요, 로젠(2001년)과 안개(2008년)에 의해 기술됩니다.

참고 항목

참조

브레 솔 로우, N.E.;날, N.E.(1980년), 통계 콘텐츠 암 연구에서, 올림피크 리옹:.국제 암연 구기구.

Eisinga, R.;Pelzer, B(2011년),"그 확장된 초 기하 분포의 평균과 변수를Saddlepoint 근사치"(PDF), Statistica Neerlandica, 65,1,를 대신하여 서명함 vol.. 22–31, doi:10.1111/j.1467-9574.2010.00468.x.

안개, a.(2007년), 임의의 정수론.

안개, a.(2008년),"표본 관리 콘텐츠 Wallenius을 위한, 피셔의 Noncentral Hypergeometric 분포", Statictics, 시뮬레이션과 계산,에 통신, 2,를 대신하여 서명함. 241–257, doi:10.1080/03610910701790236, S2CID 14904723 37vol..

Johnson, N. L.; Kemp, A. W.; Kotz, S. (2005), Univariate Discrete Distributions, Hoboken, New Jersey: Wiley and Sons.

Levin, B. (1984), "Simple Improvements on Cornfield's approximation to the mean of a noncentral Hypergeometric random variable", Biometrika, vol. 71, no. 3, pp. 630–632, doi:10.1093/biomet/71.3.630.

Levin, B. (1990), "The saddlepoint correction in conditional logistic likelihood analysis", Biometrika, [Oxford University Press, Biometrika Trust], vol. 77, no. 2, pp. 275–285, doi:10.1093/biomet/77.2.275, JSTOR 2336805.

Liao, J. (1992), "An Algorithm for the Mean and Variance of the Noncentral Hypergeometric Distribution", Biometrics, [Wiley, International Biometric Society], vol. 48, no. 3, pp. 889–892, doi:10.2307/2532354, JSTOR 2532354.

Liao, J. G.; Rosen, O. (2001), "Fast and Stable Algorithms for Computing and Sampling from the Noncentral Hypergeometric Distribution", The American Statistician, vol. 55, no. 4, pp. 366–369, doi:10.1198/000313001753272547, S2CID 121279235.

McCullagh, P.; Nelder, J. A. (1989), Generalized Linear Models, 2. ed., London: Chapman and Hall.