CDF 기반 비모수 신뢰 구간

CDF-based nonparametric confidence interval

통계에서 누적분포함수(CDF) 기반 비모수 신뢰 구간은 분포의 통계 함수 주위에 있는 신뢰 구간의 일반적인 등급이다. 이러한 신뢰 구간을 계산하려면 분포로부터 독립적이고 동일한 분포(iid) 표본과 분포 지지에 대해 알려진 한계만 있으면 된다. 후자의 요건은 단순히 분포의 모든 0이 아닌 확률 질량이 어떤 알려진 간격[ , 에 포함되어야 함을 의미한다

직감

CDF 기반 접근방식의 이면에 있는 직관은 분포의 CDF에 대한 한계는 해당 분포의 통계적 함수에 대한 한도로 변환될 수 있다는 것이다. CDF의 상한과 하한을 고려할 때, 접근방식은 관심의 통계적 기능을 최대화하고 최소화하는 범위 내에서 CDF를 찾는 것을 포함한다.

경계 특성

부트스트랩 접근법중심 한계 정리에 의존하는 접근법을 포함하여 점증적이지 않은 가정을 하는 접근법과 달리 CDF 기반 경계는 유한 표본 크기에 유효하다. 그리고 호프딩맥디아미드의 불평등과 같은 불평등에 근거한 한계와는 달리, CDF에 기반한 경계는 전체 표본의 특성을 사용하므로 종종 현저하게 엄격한 한계를 만들어 낸다.

CDF 한계

CDF에 대한 경계를 생성할 때, 우리는 포인트와 동시 밴드를 구분해야 한다.

서로 다른 CDF 한계 그림. 이것은 30개의 점의 랜덤 표본에서 생성된 CDF 한계를 보여준다. 보라색 선은 95% 신뢰 수준에서 전체 CDF를 포함하는 동시 DKW 경계다. 주황색 선은 포인트와 같은 Clopper-Pearson 경계를 보여주며, 95% 신뢰 수준에서 개별 포인트만 보장하므로 더욱 엄격한 경계선을 제공한다.

포인트와이즈 밴드

포인트와이즈 CDF 바운드는 경험적 누적분포함수 중 개별 포인트에서 - 커버리지 확률만을 보장하는 바운드다. 보장이 완화되었기 때문에 이러한 간격은 훨씬 더 작을 수 있다.

그것들을 생성하는 한 가지 방법은 이항 분포에 기초한다. ) 의 CDF의 단일 점을 고려할 때, 이 지점의 경험적 분포는 = F ) 경험적 분포에 비례하여 분포한다.부티온. 따라서 이항 비율 신뢰 구간 생성에 사용할 수 있는 모든 방법을 CDF 바인딩 생성에도 사용할 수 있다.

동시 밴드

CDF 기반 신뢰 구간에는 표본이 생성된 분포의 CDF에 확률적 바인딩이 필요하다. 분포에서 추출한 i.i.d 샘플이 주어진 분포의 CDF에 대한 신뢰 구간 을(를 생성하기 위한 다양한 방법이 존재한다. 이 방법들은 모두 경험적 분포함수(유해적 CDF)에 근거한다. 크기 n, n~ 의 i.i.d 샘플이 주어지면 경험적 CDF는 다음과 같이 정의된다

여기서 { (는) 이벤트 A의 지표다. 마사트가 엄격한 상수를 결정한 [1]드보레츠키-키퍼-울포위츠 불평등은 CDF와 경험적 CDF 사이에 콜모고로프-스미르노프 통계량을 중심으로 신뢰 구간을 둔다.[2] 에서 n 크기의 I.i.d 샘플이 주어지면 경계 상태

이것은 경험적 누적분포함수와 평행하고, 동등하게 그 위아래에 있는 신뢰도 엔벨롭으로 볼 수 있다.

드보레츠키-키퍼-울포위츠 불평등을 사용하여 얻은 경험적 CDF의 경계를 예시한다. ) 표기법은 j 순서 통계를 나타낸다.

경험적 누적분포함수 주위에 동일한 간격의 신뢰 구간은 분포 지원 전체에 걸쳐 다른 위반 비율을 허용한다. 특히 CDF가 분포의 끝점 근처보다 분포의 중위수 근처에 있는 드보레츠키-키퍼-울포위츠 불평등을 사용하여 추정된 CDF 바인딩 바깥에 있는 것이 더 일반적이다. 이와는 대조적으로, 러닝드밀러와 드스테파노가[3] 도입한 순서 통계 기반 바운드는 모든 주문 통계에서 동일한 위반 비율을 허용한다. 이렇게 하면 분포 지지대 끝과 지지대 중간에서 루저가 거의 더 촘촘한 바운드가 발생한다. 다른 유형의 경계는 주문 통계에 대한 위반 비율을 변경하여 생성할 수 있다. 예를 들어, 지원의 상위 부분에 더 엄격한 배분이 필요한 경우, 지원의 상위 부분에 더 낮은 위반 비율을 적용하여 더 낮은 비율의 루프 바인딩을 허용한다.

평균에 대한 비모수 경계

분포의 지지대가[ , . 에 포함되어 있다고 일반성을 잃지 않고 가정한다.}. CDF F의{F\displaystyle}이 F{F\displaystyle}의 평균을 위한 대응 신뢰 구간이 파생되기 쉬운 자신감 봉투를 감안할 때 그것은 낮은 자신감 봉투, L()){L())\displaystyle}을 따라 운영하는 CDF는 의미를 극대화가 그 CDF은 mishown[4] 수 있다.후무리다ies 평균은 위쪽 봉투를 따라 흐르는 ( ) ID를 사용하여

평균에 대한 신뢰 구간은 다음과 같이 계산할 수 있다.

분산에 대한 비모수 경계

일반성의 손실 없이 이자, F{F\displaystyle}의 분포의 지원[0,1]{\displaystyle[0,1]}에 포함되어 있다., shown[5] 수 있F{F\displaystyle}에 대한 자신감 봉투를 감안할 때는 CDF 봉투를 이내에서 차액이 낮은 봉투에서 시작을 최소화한 j. 있다고 가정하자ump 위쪽 봉투에 불연속한 다음 위쪽 봉투를 따라 계속하십시오. 또한 이러한 분산 최소화 CDF, F'는 E[ 에서 점프 불연속성이 발생하는 제약을 충족해야 한다는 것을 알 수 있다 CDF를 최대화하는 분산은 위쪽 봉투에서 시작하여 아래쪽 봉투로 수평으로 전환한 후 아래쪽 봉투를 따라 계속된다. 이러한 분산을 최대화하고 CDF를 최소화하기 위한 명시적 알고리즘은 로마노와 울프가 제공한다.[5]

기타 통계적 함수의 한계

신뢰 구간 생성을 위한 CDF 기반 프레임워크는 매우 일반적이며 다음을 포함한 다양한 다른 통계 기능에 적용할 수 있다.

참고 항목

참조

  1. ^ A., Dvoretzky; Kiefer, J.; Wolfowitz, J. (1956). "Asymptotic minimax character of the sample distribution function and of the classical multinomial estimator". The Annals of Mathematical Statistics. 27 (3): 642–669. doi:10.1214/aoms/1177728174.
  2. ^ Massart, P. (1990). "The tight constant in the Dvoretzky–Kiefer–Wolfowitz inequality". The Annals of Probability. 18 (3): 1269–1283. doi:10.1214/aop/1176990746.
  3. ^ a b Learned-Miller, E.; DeStefano, J. (2008). "A probabilistic upper bound on differential entropy". IEEE Transactions on Information Theory. 54 (11): 5223–5230. arXiv:cs/0504091. doi:10.1109/tit.2008.929937.
  4. ^ Anderson, T.W. (1969). "Confidence limits for the value of an arbitrary bounded random variable with a continuous distribution function". Bulletin of the International and Statistical Institute. 43: 249–251.
  5. ^ a b Romano, J.P.; M., Wolf (2002). "Explicit nonparametric confidence intervals for the variance with guaranteed coverage". Communications in Statistics - Theory and Methods. 31 (8): 1231–1250. CiteSeerX 10.1.1.202.3170. doi:10.1081/sta-120006065.
  6. ^ VanderKraats, N.D.; Banerjee, A. (2011). "A finite-sample, distribution-free, probabilistic lower bound on mutual information". Neural Computation. 23 (7): 1862–1898. doi:10.1162/neco_a_00144. PMID 21492010.