통계학에서 이항 비율 신뢰 구간은 일련의 성공-실패 실험(Bernouli 시행)의 결과로부터 계산된 성공 확률에 대한 신뢰 구간입니다. 즉, 이항 비율 신뢰 구간은 실험 횟수 과 n \n\ }만 알고 있을 때 성공 p \의 구간 추정치입니다.
이항 신뢰 구간에는 여러 공식이 있지만 모두 이항 분포의 가정에 의존합니다. 일반적으로 이항 분포는 실험이 고정된 횟수로 반복되고 실험의 각 시행에 두 가지 가능한 결과(성공과 실패)가 있으며 각 시행에 대해 성공 확률이 동일하고 시행이 통계적으로 독립적인 경우에 적용됩니다. 이항 분포는 이산 확률 분포(즉, 연속적이지 않음)이고 많은 시행 횟수에 대해 계산하기 어렵기 때문에 이 신뢰 구간을 계산하기 위해 다양한 근사치가 사용되며, 모두 정확도와 계산 강도에서 자체적으로 균형을 이룹니다.
이항 분포의 간단한 예는 동전을 10번 뒤집었을 때 관찰되는 앞면의 수에 대한 다양한 가능한 결과와 그 확률의 집합입니다. 관찰된 이항 비율은 머리로 밝혀진 플립의 비율입니다. 이 관측된 비율을 고려할 때, 동전이 머리에 착지할 확률에 대한 신뢰 구간은 가능한 비율의 범위이며, 이 비율은 실제 비율을 포함할 수도 있고 포함하지 않을 수도 있습니다. 예를 들어, 신뢰 구간을 구성하는 절차가 사용되는 95%의 실제 비율은 비율에 대한 95% 신뢰 구간에 포함됩니다.[1]
임의의 로지스틱 곡선에 정규 근사 구간을 표시하면 오버슈트 및 영폭 구간의 문제가 나타납니다.[2]
이항 신뢰 구간에 일반적으로 사용되는 공식은 정규 분포를사용하여 이항 분포 관측치 에 대한 오차 분포를 근사화하는 데 의존합니다.[3] 정규 근사치는 드 모이브르-라플라스 정리(중앙 극한 정리의 원래 이항만 해당하는 버전)에 따라 달라지며, 표본 크기가 작아지거나 성공 확률이 0 또는1에 가까워지기 때문에 정리의 전제를 위반할 때 신뢰할 수 없게 됩니다.[4]
정규 근사치를 사용하여 성공 확률 \ p\를 다음과 같이 추정합니다.
서 ≡ n {{\!\n}}\ }는 베르누이 시행 과정에서의 성공 비율이며, 기본 베르누이 분포에서 pp\ }에대한 추정기입니다. 관측치 수에 대한 등가 공식은 다음과 같습니다.
여기서 데이터는 의 시행에서 n개의 성공 및 의 f = - f}= 실패를 얻은 경우입니다. 분포 함수 인수 \ 는 목표 오류율 에 해당하는 표준 정규 분포(즉, 프로빗)의\ } {분위수입니다 ~ For a 95% confidence level, the error so and
Wald 공식을 사용하여 p \ p\를 추정하거나이 계산의 가능한 결과를 고려하면 두 가지 문제가 즉시 나타납니다.
, p< + / 확률이 너무 낮거나 0에 가깝거나)의 경우 간격 경계가 1오버슛)을 초과합니다.
( 1- \ 이(가) 동일한 상한 아래로 떨어질 때 두 번째 버전인 오버슈트 문제가 발생합니다. 확률이 너무 높거나 1에 너무 가깝습니다.)
이 신뢰 구간의 중요한 이론적 도출에는 가설 검정의 반전이 포함됩니다. 이 공식에서 신뢰 구간은 모집단 비율로 검정된 경우 큰 \ 값을 갖는 모집단 모수의 값을 나타냅니다.[clarification needed] 정규 근사치가 유효한 값 집합인θ, \theta \,}은(는) 다음과 같이 표현할 수 있습니다.
여기서 / \ 은(는) 표준 정규 분포의 하위 2분위수이며, 상위 분위수인\ 분위수입니다.
부등식 중간에 있는 검정은 Wald 검정이므로 정규 근사 구간은 아브라함 Wald의 이름을 따서 Wald interval 또는 Wald method로 불리기도 하지만, Laplace(1812)에 의해 처음 기술되었습니다.[5]
신뢰 구간 괄호 치기
정규 근사치와 Wald-Laplace 구간 개념을 확장하면서 마이클 쇼트는 이항 분포와 정규 분포 사이의 근사 오차에 대한 부등식을 사용하여 구간의 추정치를 p\ 부근에서 정확하게 브라켓화할 수 있음을 보여주었습니다.
와 함께
서 p \ p\는 다시 ( ≡ n {{\{\n}}}{n}}\ }}{n}}}\ }}을를) n \}번의 시행으로 한 결과 k가 됩니다. successes, is the quantile of a standard normal distribution (i.e., the probit) corresponding to the target error rate and the constants and are simple algebraic functions of \ 고정 따라서 α \ 의[6] 경우, 위 부등식은 쉽게 계산된 단방향 또는 양면 간격을 제공하여 오류율 에 해당하는 정확한 이항 상한 및 하한 신뢰 한계를 괄호로 묶습니다
가중 데이터를 사용하는 경우 비율 추정의 표준 오차
단순임의표본 X \ 이(가) 있다고 하자. 여기서 각 \ 는베르누이(p) 분포에서 i.i.d이고 무게 는 각 관측치의 무게입니다. with the(positive) weights normalized so they sum to 1 . The weighted sample proportion is: Since each of the is independent from all the others, 에는 분산 {Xi} = p( p) displaystyle X_{i}\ \}\ =\ p (1-p) ~~} = n, ~~i\ =\ 1,\\,n\,} 따라서 비율의 표본 분산은 다음과 같습니다.
\ 의 표준 오차는 이 수량의 제곱근입니다. - 를 모르기 때문에\ p\ - p를 추정해야 합니다. 많은 가능한 추정기가 있지만, 기존의 추정기는 표본 평균을 사용하고 이를 공식에 연결하는 것입니다. 다음을 제공합니다.
가중치가 적용되지 않은 데이터의 경우 유효 가중치는 = \ } = {\ 1에서 ∑ = 2 =을 제공합니다. _{=n}{i}^{= 1n}}{n}}~} S {\displaystyle SE} \ }는1- p가되고, 1hat hat {p이(가) 익숙한 공식으로 이어져 가중치 데이터에 대한 계산이 공식을 직접 일반화하는 것임을 보여줍니다.
윌슨 점수 구간
윌슨 점수 구간은 로지스틱 곡선에 표시되어 작은 n에 대한 비대칭과 우수한 성능을 나타내며 p가 0 또는 1 근처에 있습니다.
윌슨 점수 구간은 E.B에 의해 개발되었습니다. 윌슨 (1927).[8] 이는 다음과 같은 여러 측면에서 정규 근사 간격보다 개선된 것입니다. 윌슨 점수 간격은 대칭 정규 근사 간격(위)과 달리 비대칭이며, 정규 간격을 괴롭히는 오버슈트 및 제로 폭 간격의 문제를 겪지 않습니다. 작은 표본과 왜곡된 관측치에 안전하게 사용할 수 있습니다.[3] 관측된 커버리지 확률은 1- 에 일관되게 더 가깝습니다\
정규 구간과 마찬가지로 공식에서 구간을 직접 계산할 수 있습니다.
윌슨은 이항에 대한 정규 근사치로 시작했습니다.
서 α \ 는 원하는 신뢰도 - 에 해당하는 표준 정규 구간 반치폭입니다\ 이항 표본 표준 편차에 대한 분석 공식은
두 개를 결합하고 라디칼을 제곱하면 \ p\에서 2차 방정식이 나옵니다.
or
에 대한 표준 형식 방정식으로 관계를 변환하고\ p 및 \{{을(를 샘플의 알려진 값으로 취급합니다(이전 섹션 참조). \의 추정치에 대해 1- α \ \ 에 해당하는 값 \ 1-\alpha \ 을(를) 사용하면 다음과 같은 결과를 얻을 수 있습니다.
여기서 괄호로 묶은 모든 값은 알려진 양입니다. \ 에 대한 솔루션은 에 대한 신뢰 구간의 상한과 하한을 추정합니다\ p p \ p\ 성공 확률은 \ 및에\ \ 신뢰도 브라켓으로 추정됩니다.
서∈ ≈ α {\displaystyle \ {\approx }}_alpha}는 다음의 약어입니다.
관측치 수 및 를 사용하는 동등한 식은
위와 같은 카운트로 ≡ {\ {equiv} 관측된 "successes"의 카운트 nf ≡ {\mathsf {f}\equiv} 관측된 "failures"의 카운트, 그리고 그것들의 합은 총 수 = n s + n f입니다.
공식 결과에 대한 실제 테스트에서 사용자는 이 구간이 소수의 시행 횟수 및/또는 확률 추정치의 극단인 ≡n 에 대해서도 좋은 속성을 갖는다는 것을 발견합니다. {{\!\ }{n}}~}
직관적으로 이 구간의 중심 값은 \ \ 1의 가중 평균이며, 은 표본 크기가 커질수록 더 큰 가중치를 받습니다. 형식적으로 중심 값은 2\ 신뢰 구간의 표준 편차 수: 성공 횟수와 실패 횟수 모두에 이 숫자를 더하면 비율을 추정할 수 있습니다. 각 방향 간격에서 일반적인 두 표준 편차(약 95% 적용 범위, 자체적으로 약 1.96 표준 편차)에 대해, 이는 "플러스 포 규칙"으로 알려진+ 2 + 4\ 을(를) 산출합니다.
이차방정식은 명시적으로 풀 수 있지만, 대부분의 경우 윌슨 방정식은 고정점 반복법을 사용하여 수치적으로도 풀 수 있습니다.
\에서는 α \ 분위수를 해결하여 점수 구간을 생성할 수 있습니다. 불평등의 중간에 있는 시험은 점수 시험입니다.
구간균등원리
윌슨 점수 구간에 대한 확률 밀도 함수(PDF)와 구간 경계의 PDF를 더한 값입니다. 꼬리 면적은 같습니다.
구간은 정규 근사치에서 이항으로 풀어서 유도되므로 윌슨 점수 구간 - w+) w은 동등한 z-검정 또는 카이-제곱 검정과 동일한 결과를 얻을 수 있는 것이 보장되는 특성을 갖습니다.
이 속성은 윌슨 점수 구간에 대한 확률 밀도 함수를 표시하여 시각화할 수 있습니다(월리스 참조).[9](pp 297-313) 그런 다음 각 경계에 걸쳐 일반 PDF도 표시합니다. 결과 윌슨의 꼬리 면적과 정규 분포는 유의한 결과가 나올 가능성을 나타냅니다. 이 방향에서 유의한 결과가 나올 가능성은 동일해야 합니다.
연속성 보정 윌슨 점수 구간과 클로퍼-피어슨 구간도 이 속성을 준수합니다. 실질적인 중요성은 이 구간들이 소스 테스트와 동일한 결과를 갖는 유의성 테스트로 사용될 수 있으며, 지오메트리에 의해 새로운 테스트가 도출될 수 있다는 것입니다.[9]
연속성 보정이 있는 윌슨 점수 구간
윌슨 간격은 평균 커버리지 확률이 아닌 최소 커버리지 확률을 공칭 인 1- 에 맞추기 위해 연속성 보정을 사용하여 수정할 수 있습니다\
연속성 보정을 사용한 윌슨 점수 간격의 하한 및 상한에 대한 다음 공식 c- c은 뉴컴에서 파생된 것입니다.[2]
≠ 0의 경우 {p}}\n 0\ 및 1. {p}}\n
If then must instead be set to if w + \ 를 대신 로 설정해야 합니다\ 1
Wallis(2021)[9]는 윌슨의 하한 공식을 기반으로 특수 함수를 사용하는 연속성 보정 윌슨 간격을 계산하는 더 간단한 방법을 확인합니다. 왈리스의 표기법에서, 하한에 대하여, 다음과 같이,
서 α \ \ 는 z 에 대해 선택된 허용 오류 수준입니다\ 그러면
이 방법은 추가 분해가 가능하다는 장점이 있습니다.
제프리스 간격
Jeffreys 간격은 베이지안 유도를 갖지만 빈도주의적 속성이 좋습니다(가장 빈도주의적인 구성보다 성능이 뛰어납니다). 특히 Wilson 구간과 유사한 커버리지 특성을 갖지만 동일한 꼬리를 갖는 장점이 있는 몇 안 되는 구간 중 하나입니다(예: 95% 신뢰 구간의 경우, 구간이 참값 위 또는 아래에 놓일 확률은 모두 2.5%에 가깝습니다). 이와 대조적으로 윌슨 간격은 = 0에 너무 가깝게 중심에 놓이게 하는 체계적인 편향을 가지고 있습니다\ p=
베타 분포는 F-분포와 관련이 있으므로 F 분위수를 사용하여 클로퍼-피어슨 구간의 세 번째 공식을 작성할 수 있습니다.
서 x \ 는 성공 횟수, \ n\은 시행 횟수, F( d d \ F은(는) 1 \ 및 d \ 자유도가 있는 F-분포의 c \ 분위입니다.[13]
Clopper-Pearson 구간은 이항 분포에 대한 근사치가 아니라 이항 분포를 직접 기반으로 하기 때문에 '정확한' 구간입니다. 이 구간은 모집단 비율의 공칭 적용 범위보다 작지 않지만 일반적으로 보수적임을 의미합니다. 예를 들어, 95% Copper-Pearson 간격의 실제 적용률은 p에[4] 따라 95% 신뢰도를 달성하기 위해 필요한 것보다 간격이 더 넓을 수 있으며, 다른 간격보다 더 넓을 수 있습니다. 이와 대조적으로, 다른 신뢰 구간은 공칭 \ 즉, 95%의 공칭 커버리지를 갖는 정규 근사(또는 "표준") 구간, 윌슨 구간,[8] 아그레스티-쿨 구간 [13]등보다 낮은 커버리지 레벨을 가질 수 있으며, 실제로는 95%[4] 미만을 커버할 수 있습니다. 샘플 크기가 큰 경우에도 가능합니다.[12]
Clopper-Pearson 구간의 정의를 수정하여 다양한 분포에 대한 정확한 신뢰 구간을 얻을 수도 있습니다. 예를 들어, 이항 분포를 반복적으로 그리는 대신 알려진 크기의 모집단을 대체하지 않고 표본을 추출하는 경우에도 적용할 수 있습니다. 이 경우 기본 분포는 초기하학적 분포가 될 것입니다.
간격 경계는 수치 함수로 계산할 수 있습니다. qbeta[14] in R and scipy.stats.beta.ppf[15] in Python.
서 z =φ- 1 (-α 2) \{\alpha} =operator 1} \!은(예를 들어, % 신뢰 구간에는 α 이 필요하므로 \ } 이(가) 생성됩니다. Brown, Cai, & DasGupta(2001)에 따르면, 1.96 대신 = \ z=을(를) 취하면 이전에 Agresti & Coul에서 설명한 "성공 2개 및 실패 2개 추가" 구간이 생성됩니다.
이 구간은 윌슨 점수 구간의 중심점 조정 \ 을 사용한 다음 이 지점에 정규 근사치를 적용하는 것으로 요약할 수 있습니다.[3][4]
이 계열은 로짓 변환을 일반화한 것으로, = 1인 특수한 경우이며 비례 데이터 분포를 거의 정규 분포로 변환하는 데 사용할 수 있습니다. 모수 a는 데이터 집합에 대해 추정되어야 합니다.
3의 규칙 - 성공이 관찰되지 않는 경우
성공( = 0 \ p} = 0이 관찰되지 않은 특수한 경우 \ p에 대한 약 95% 신뢰 구간을 나타내는 간단한 방법을 제공하는 데 3의 규칙이 사용됩니다. 간격은 입니다 3
대칭에 의해, ( = 1 \ p} = 1의 경우, 간격은(- )입니다 3
비교 및 토론
이항 비율에 대해 이들과 다른 신뢰 구간을 비교하는 연구 논문이 여러 편 있습니다.[3][2][20][21]
Ross(2003)[22]와 Agresti & Coul(1998)[13]은 모두 Clopper-Pearson 간격과 같은 정확한 방법이 일부 근사치만큼 작동하지 않을 수 있다고 지적합니다. 교과서의 정규 근사 간격과 그 제시는 많은 통계학자들이 사용하지 말아야 한다고 주장하는 등 많은 비판을 받고 있습니다.[4] 주요 문제는 오버슈트bounds이 [을^ =0 {\}}\ =0\또는 1(확실성을 암시하는 falsely)에서 발생하는 전체적인 불일치입니다.
위에 나열된 근사치 중 윌슨 점수 간격 방법(연속성 보정 유무에 관계없이)이 가장 정확하고 강력한 것으로 나타났지만,[3][4][2] 일부는 더 큰 표본 크기에 대해 아그레스티 & 쿨스의 접근 방식을 선호합니다.[4] Wilson and Clopper-Pearson 방법은 소스 유의성 검정에서 일관된 결과를 얻으며,[9] 이 속성은 많은 연구자에게 결정적입니다.
이러한 구간의 대부분은 binom과 같은 패키지를 사용하여 R로 계산할 수 있습니다.[23]