예측 구간

Prediction interval

통계적 추론, 특히 예측 추론에서, 예측 간격은 이미 관측된 것을 주어진 미래 관측치가 특정 확률로 떨어질 구간의 추정치이다.예측 구간은 회귀 분석에서 자주 사용됩니다.

예측 구간은 빈도주의 통계와 베이지안 통계 모두에 사용된다. 예측 구간은 관측 불가능한 모집단 매개변수에 대해 빈도주의 신뢰 구간 또는 베이지안 신뢰 구간이 갖는 미래 관측과 동일한 관계를 갖는다. 예측 구간은 개별 미래 지점의 분포를 예측한다.반면 모수의 신뢰 구간과 신뢰 구간은 관측할 수 없는 실제 모집단 평균 또는 기타 관심 수량의 추정치 분포를 예측합니다.

서론

예를 들어, 한, 갈등과 신뢰도 간격과 신뢰할 수 있는 간격 동안 예측 간격에 사용할 수 있는 인구는 근본적인 인구의 인구μ 표준 편차 σ 말을 추정할 수 있을 수도 있는 샘플 세트{X1,..., Xn}이 있는 파라메트릭 가정의 잠재된 분배는 정상 분포한다. 에스다음 샘플 변수 Xn+1 값을 타이머로 설정합니다.

또는 예측 간격은 베이지안 용어에서 변수 분포의 모수가 아니라 변수 자체에 대한 신뢰할 수 있는 구간으로 기술될 수 있다.

예측 간격의 개념은 단일 미래 표본 값에 대한 추론에 국한될 필요는 없지만 더 복잡한 사례로 확장될 수 있다.예를 들어, 분석이 종종 연간 최대 흐름의 연간 값을 기반으로 하는 하천 범람의 경우, 향후 50년 이내에 발생할 가능성이 가장 큰 홍수에 대한 추론이 제기될 수 있다.

예측 구간은 관측 불가능한 모집단 매개변수가 아닌 과거와 미래의 관측에만 관련이 있기 때문에, 브루노 드 [citation needed]피네티의 관측 가능에 초점을 맞춘 시모어 가이저와 [citation needed]같은 일부 통계학자에 의해 신뢰 구간보다 더 나은 방법으로 옹호된다.

정규 분포

는 매개 변수를 알 수 없는 것은 정상적인 분포의 표본이frequentist 의미에서 예측 간격을 주는 것, 즉 가능하다, 간격[a, b]표본의 통계에 따른 반복 실험에 대한, Xn+1 그 사이에;시간 원하는 비율 폭포 이런 예측 신뢰도 간격을 부를 수 있도록.s".[1]

frequentist 예측 간격에 대한 일반적인 기술과 계산, 실제로 X1의 중추적인 수량을 찾겠다는, Xn, Xn+1 – 실제로 관찰 및 매개 변수의 함수 뜻의 확률 분포는 미래의 관측 Xn+1 가능성이 일부 interva에 빠지는 주는 거꾸로 되달 수 있는 매개 변수를 –에 따라 달라지지 않다.나는 comput지금까지 관찰된 값으로는 1, n {.} 이러한 중추량은 관측가능성에만 의존하며 [2]보조통계량이라고 한다중심량을 구성하는 일반적인 방법은 위치에 따라 달라지는 두 변수의 차이를 구해서 그 위치가 상쇄되도록 한 다음 규모에 따라 달라지는 두 변수의 비율을 구해서 척도를 없애는 것입니다.가장 친숙한 중심량은 학생의 t-statistic으로, 이 방법으로 도출할 수 있으며 후속편에 사용됩니다.

알려진 평균, 알려진 분산

평균과 분산을 알고 있는 정규 분포 N(σ2,))에서의 미래 관측치 X에 대한 예측 구간 [u,u]은 다음과 같이 계산할 수 있다.

여기서 X의 인 Z X - μ {\ { Z { 는 표준 정규 분포로 분포됩니다.

이런 이유로

또는

다음과 같은 표준 정규 분포에 z 분위수있는 경우:

또는 동등하게

예측
간격
z
75% 1.15[3]
90% 1.64[3]
95% 1.96[3]
99% 2.58[3]
z(x축표준 점수의 분위수)에서 주어진 예측 구간(Y축의 경우)입니다.Y축은 로그로 압축되지만 값은 수정되지 않습니다.

예측 간격은 일반적으로 다음과 같이 작성됩니다.

예를 들어, 평균(θ)이 5이고 표준 편차(θ)가 1인 정규 분포에 대한 95% 예측 구간을 계산하려면 z는 약 2입니다.따라서 예측구간 하한이 약 5µ(2·1) = 3이고, 상한이 약 5 + (2·1) = 7이므로 예측구간은 약 3 ~ 7이다.

평균(θ) 0 및 분산(θ2) 1을 사용하여 정규 분포에 대한 누적 분포 함수를 보여 주는 다이어그램입니다.표준점수에 대한 예측간격은 분위수 함수 외에 (1 - (1 - φµ,σ2 (표준점수)·2)·2)로 계산할 수 있다.예를 들어, 표준 점수 x = 1.96은 예측 구간 (1 - (1 - 0.9750)·2) = 0.9500 = 95%에 해당하는 δµ,σ2(1.96) = 0.9750을 나타냅니다.

파라미터의 추정

모수를 알 수 없는 분포의 경우, 예측에 대한 직접적인 접근법은 모수를 추정하여 관련 분위수 함수를 사용하는 것이다. 예를 들어 표본 X {\ μ의 추정치로 사용하고 표본 분산2 s를 σ2 추정치로 사용할 수 있다.여기2 s에는 (n-)로나누면 편견이 없는 추정치가 나오는 반면 n으로 나누면 최대우도 추정치가 나오므로 둘 중 하나를 사용할 수 있습니다.그런 다음 예측된 Xδ , 2- { _X}}, 2}}^{- 사용하여 예측 간격을 구한다.

이 접근방식은 사용할 수 있지만 결과 구간은 반복 샘플링 해석을[4] 하지 않으며 예측 신뢰 구간이 아닙니다.

속편의 경우 표본 평균을 사용합니다.

및 (편향되지 않은) 표본 분산:

알 수 없는 평균, 알려진 분산

알려지지 않은 평균 μ 알기만 분산 1을 가진 일반적인 분포 Given[5]샘플은 평균 X({\displaystyle{\overline{X}}}의 관측 결과의 X1,…, Xn{\displaystyle X_{1},\dots ,X_{n}}이 분포 N(μ, 1/n),{\displaystyle N(\mu ,1/n),}는 동안 n 미래의 관측 X+1{\displ.ays에는 N)이 있습니다 N)} 이들 차이를 구하면 취소되고 분산1 + (1/), {\ style + ( 1 / n ), {\display 1 + ( 1 /n )}의 분포를 얻을 수 있습니다

n + X_ N +(/n {\ NX}}, )})을 얻을 수 있어 기존과 같이 간격을 계산할 수 있다.이는 100%의 백분위수 범위를 사용하는 경우 이 계산을 반복 적용하면 미래 +({ 예측 간격 100%에 해당한다는 점에서 예측 신뢰 구간입니다.

예측 분포는 +(1/ 1+( / n )\ display 1 + ( 1 / n )\ display 1 + ( 1 / n )\ display 1 + ( 1 / n )\ display 1 + ( 1 / n)\ display 1 + ( 1 / n )\ display 1 + ( 1 / n )\ dispariagn disparrivalance 1 을 사용하기 때문에 추정 평균보다 더 넓은 간격이 됩니다.이것은 원하는 신뢰 구간 속성을 유지하기 위해 필요합니다.

알려진 평균, 알 수 없는 분산

반대로, 알려진 평균이 0이지만 알 수 없는 2인 분포가 주어진 경우 X1 },\dots s2 2 최대 a, - style{1})를 가집니다2}} 분포, 보다 정확하게는:

한편, 미래의 Xn +({1})에는 분포N0, 2)이 있습니다 N(^{} 미래 관측치와 표본[clarification needed] 표준 편차의 비율을 구하면 θ가 소거되어 n – 1 자유도학생 t 분포가 된다

n + X_ 해법은 기존과 같이 을 계산할 수 있는 예측 T - sT 구한다.

이 예측분포는 추정 s\ sdisplaystyle s\로 정규분포를 사용하는 것보다 보수적입니다.이는 정규분포 대신 t분포를 사용하기 때문에 간격이 넓기 때문입니다.이것은 원하는 신뢰 구간 속성을 유지하기 위해 필요합니다.

알 수 없는 평균, 알 수 없는 분산

위의 N, 2){ N^{ 대해 μ 및 μ를 모두2 알 수 없는 값을 조합하면 다음과 같은 보조 [6]통계량이 생성됩니다.

이 간단한 조합은 정규 분포의 표본 평균과 표본 분산이 독립적인 통계량이기 때문에 가능합니다. 이는 정규 분포에 대해서만 해당되며 실제로 정규 분포를 나타내는 것입니다.

n + X_ 해결하면 예측 분포가 생성됩니다.

n + X_ 소정의 간격으로 떨어질 확률은 다음과 같습니다.

여기a T는 자유도가 n - 1인 학생 t-분포의 100(1 - p/th2) 백분위수입니다.따라서 숫자는

는 X + 100(1 - p)% 예측 간격의 엔드포인트입니다.

비모수적 방법

모집단에 대한 가정 없이 예측 구간을 계산할 수 있습니다. 공식적으로 이것은 비모수적 방법입니다.[7]동일한 랜덤 변수 {X1, ..., Xn}의 표본이 있으면 모든 관측치가 최대일 확률이 같으므로 다음 관측치n+1 X가 가장 클 확률은 1/(n + 1)입니다.마찬가지로 X가 가장 작을 확률n+1 1/(n + 1)입니다.나머지 (n - 1)/(n + 1)은 Xn+1 샘플 {X1, ..., Xn}의 샘플 최대값과 샘플 최소값 사이에 있습니다.따라서 표본의 최대값과 최소값을 M과 m으로 나타내면 (n - 1)/(n + 1) 예측 구간은 [m, M]이 됩니다.

이것은 미래 관측치가 범위에 포함될 확률을 제공하지만 세그먼트에서 어디에 속할지에 대한 추정치는 제공하지 않는다는 점에 유의하십시오. 특히, 관측치의 범위를 벗어나면 범위를 훨씬 벗어날 수 있습니다.자세한 내용은 극단적 가치 이론을 참조하십시오.공식적으로, 이것은 모집단에서 표본 추출에만 적용되는 것이 아니라, 반드시 독립적이거나 동등하게 분포된 임의의 랜덤 변수의 교환 가능한 시퀀스에 적용된다.

다른 간격과의 대비

신뢰 구간과의 대비

예측 신뢰구간 공식에서는 모집단 평균과 표준 편차의 관측 불가능한 매개변수 μ와 μ에 대한 언급은 없다. 즉, 관측된 표본 Xn(\ 평균과 표준 편차의 S n 사용된다.모자는 미래 샘플의 결과물로 추정됩니다.

표본 통계를 모집단 모수의 추정치로 사용하고 이러한 추정치에 신뢰 구간을 적용하는 대신, "다음 표본" n +({ 통계량으로 간주하여 표본 분포를 계산한다.

모수 신뢰 구간에서는 모집단 모수를 추정합니다. 이를 다음 표본에 대한 예측으로 해석하려면 (추정된) 모집단 분포를 사용하여 "다음 표본"을 이 추정 모집단의 추첨으로 모형화합니다.반면, 예측 신뢰 구간에서는 그러한 모집단에서 n개 또는 n+1 관측치의 표본(통계량)의 표본 분포를 사용하며, 모집단 분포는 표본 분포의 형태에 대한 가정(모수 값은 아님)이 표본 분포를 계산하는 데 사용되기는 하지만 직접적으로 사용되지 않는다.

공차 구간과의 대비

적용들

예측 간격은 혈액검사기준 범위와 같이 혈액검사가 정상인지 아닌지에 대한 개념을 제공하는 기준 범위의 정의로 일반적으로 사용됩니다.이를 위해 가장 일반적으로 사용되는 예측 구간은 95% 예측 구간이며 이를 기반으로 하는 기준 범위를 표준 기준 범위라고 할 수 있습니다.

회귀 분석

예측 구간은 회귀 분석에 일반적으로 적용됩니다.

데이터가 직선 회귀 분석을 통해 모형화되고 있다고 가정합니다.

서 y})는 응답 변수, 설명 변수, θi 랜덤 오류 ,α \ β(\ 파라미터입니다.

단순 선형 회귀 분석과 같은 모수에 대한 {\ {\hat} β {\{\ {}}을(를) 고려할 때, 주어진d 설명 값 x에 대한 예측 반응 d y는 다음과 같다.

(회귀선의 점), 실제 반응은 다음과 같습니다.

포인트 y {\d}}는 평균 응답이라고 불리며, y xd E x_d 예상값입니다.

한 예측 구간 대신해 주시면, 실제 매개 변수 α과 β(함께 오류를 용어와 εi)으로 알려져 있지만, 누군가가 샘플에서 견적을 내고 있고, 다음 중 하나를, 경사(α ^{\displaystyle{\hat{\alpha}}요격에 대한 추정치의 표준 오차를 사용해도 좋다 필요하지 않다 1개의 yd 떨어질 것으로 예상한 간격을 준다.} 간격을 하기 위해β\hat\hat\hat과 상관관계를 나타냅니다.

회귀 분석에서, Farway(2002, 페이지 39)는 평균 반응 예측에 대한 구간과 관측 반응 예측에 대한 구간을 구분한다. 이는 기본적으로 위의 확장 인자에 제곱근 내에 통일 항이 포함되는지 여부에 영향을 미친다. 자세한 내용은 Farway(2002)를 참조한다.

베이지안 통계

예측 추론의 지지자인 시모어 가이서는 베이지안 [8]통계의 예측적 응용을 제공한다.

베이지안 통계에서는 랜덤 변수의 사후 확률로부터 (베이지안) 예측 구간을 신뢰할 수 있는 구간으로 계산할 수 있다.이론 작업에서 신뢰할 수 있는 구간은 종종 미래 사건의 예측을 위해 계산되는 것이 아니라 매개변수의 추론을 위해 계산된다. 즉, 변수 자체의 결과가 아닌 매개변수의 신뢰할 수 있는 구간이다.그러나, 특히 애플리케이션이 아직 관찰되지 않은 사례의 가능한 극단값과 관련된 경우에는 그러한 값에 대한 신뢰할 수 있는 간격이 실질적으로 중요할 수 있다.

「 」를 참조해 주세요.

메모들

  1. ^ 가이서(1993년, 페이지 6): 제2장: 비베이지안 예측 접근법
  2. ^ 가이서(1993년, 페이지 7)
  3. ^ a b c d Sterne & Kirkwood 표 A2 (2003, 페이지 472)
  4. ^ 가이저 (1993년, 페이지 8~9)
  5. ^ 가이저 (1993년, 페이지 7-)
  6. ^ 가이서(1993년, 예 2.2, 페이지 9-10)
  7. ^ "예측 간격", 통계 @ SUNY Oswego
  8. ^ 가이서 (1993)

레퍼런스

  • Faraway, Julian J. (2002), Practical Regression and Anova using R (PDF)
  • Geisser, Seymour (1993), Predictive Inference, CRC Press
  • Sterne, Jonathan; Kirkwood, Betty R. (2003), Essential Medical Statistics, Blackwell Science, ISBN 0-86542-871-9

추가 정보