68–95–99.7 rule

68–95–99.7 rule
대략 정규 데이터 집합의 경우, 평균의 한 표준 편차 내의 값은 집합의 약 68%를 차지하고, 두 표준 편차 내의 값은 약 95%를 차지하며, 세 표준 편차 내의 값은 약 99.7%를 차지합니다. 표시된 백분율은 정규 모집단에서 도출된 경험적 데이터의 근사치만을 위한 반올림된 이론적 확률입니다.
표준 점수(x축)에서 주어진 예측 간격(y축)입니다. y 축은 대수적으로 축척되지만 값은 수정되지 않습니다.

통계학에서 6895–99.7 규칙은 정규 분포에서 구간 추정치 내에 있는 값의 비율(각각 68%, 95% 및 99.7%)을 기억하는 데 사용되는 약어입니다.

수학적 표기법에서 이러한 사실들은 다음과 같이 표현될 수 있는데, 여기서 Pr()은 확률 함수, χ σ은 정규분포 확률변수로부터의 관측치, μ(mu)는 분포의 평균, σ(시그마)는 표준편차입니다.

이 휴리스틱의 유용성은 특히 고려 중인 질문에 달려 있습니다.

경험적 과학에서 소위 3-시그마 경험 법칙(또는 3 σ 규칙)은 거의 모든 값이 평균의 3개 표준 편차 내에 있다고 간주되는 전통적인 휴리스틱을 표현하므로 99.7% 확률을 거의 확실성으로 취급하는 것이 경험적으로 유용합니다.

사회 과학에서는 신뢰 수준이 2-시그마 효과(95%) 정도인 경우 결과가 "중대한" 것으로 간주될 수 있는 반면, 입자 물리학에서는 발견의 자격을 갖추기 위해 5-시그마 효과(99.9994% 신뢰)가 필요하다는 관례가 있습니다.

Chebyshev의 부등식에서 더 약한 3-시그마 규칙이 도출될 수 있으며, 비정규 분포 변수의 경우에도 사례의 88.8% 이상이 적절하게 계산된 3-시그마 간격에 속해야 한다고 명시합니다. 단봉 분포의 경우, 구간 내에 있을 확률은 Vysochanskij-Petunin 부등식에 의해 95% 이상입니다. 이 확률이 98%[3] 이상이 되도록 하는 분포에 대한 특정 가정이 있을 수 있습니다.

증명

우리는 그것을 가지고 있습니다.

변수 u = - μ σ {\displaystyle u = {\frac {x-\mu } {\sigma }}을(를) 변경합니다.

그리고 이 적분은 σ \sigma }와 무관합니다. =,, 3 {\displaystyle n = 1, 2, 3} 에 대한 각 적분만 계산하면 됩니다.

누적분포함수

평균(μ) 0 및 분산()σ2 1을 갖는 정규 분포에 대한 누적 분포 함수를 나타내는 다이어그램

이러한 수치 "68%, 95%, 99.7%"는 정규 분포의 누적 분포 함수에서 나옵니다.

표준 점수 z에 대한 예측 간격은 수치적으로 (1 - (1 - (z)) · 2)에 해당합니다.

예를 들어, (2) 예측 구간 (1 - (1 - 0.97725)·2) = 0.9545 = 95.45%에 해당하는 ≈ 0.9772 또는 Pr(≤ + 2) ≈ 0.9772입니다. 이 구간은 대칭 구간이 아닙니다. 이 구간은 관측치가 +2보다σ 작을 확률에 불과합니다. 관측치가 평균의 두 표준 편차(반올림으로 인한 작은 차이) 내에 있을 확률을 계산하는 방법은 다음과 같습니다.

는 통계에 사용되는 신뢰 구간과 관련이 있습니다. X ¯± 2 σ n {\displaystyle {\bar {X}}\pm 2{\frac {\sigma}{\sqrt {n}}}는 X ¯ {\displaystyle {\bar {X}}가 크기 n {\displaystyle n} 샘플의 평균일 때 약 95% 신뢰 구간입니다.

정규성 검정

"68–95–99.7 규칙"은 모집단이 정상이라고 가정할 경우 표준 편차를 고려하여 어떤 것의 대략적인 확률 추정치를 빠르게 구하는 데 자주 사용됩니다. 모집단이 정상이라고 가정하면 이상치에 대한 단순 검정으로도 사용되고 모집단이 잠재적으로 정상이 아닐 경우 정규성 검정으로도 사용됩니다.

표본에서 여러 표준 편차로 전달하려면 먼저 모집단 평균을 알고 있는지 또는 추정하는지 여부에 따라 오차 또는 잔차 중 하나를 계산합니다. 다음 단계는 모집단 모수가 알려진 경우 표준화(모집단 표준 편차로 나누기), 모수가 알려지지 않고 추정된 경우에만 학생화(표준 편차의 추정치로 나누기)입니다.

이상치에 대한 검정 또는 정규성 검정으로 사용하기 위해 표준 편차의 관점에서 편차의 크기를 계산하고 이를 예상 빈도와 비교합니다. 표본 집합이 주어지면 학생화 잔차를 계산하고 이를 예상 빈도와 비교할 수 있습니다. 정규 분포에서 3개 이상의 표준 편차가 떨어지는 점은 이상점일 가능성이 높습니다(표본 크기가 상당히 크거나 이 극단적인 표본을 예상하는 점이 아니라면). 정규 분포에서 3개 이상의 표준 편차가 있는 점이 많다면, 분포의 가정된 정규성에 의문을 제기할 수 있습니다. 이는 4개 이상의 표준 편차의 움직임에 대해 더욱 강력하게 유지됩니다.

포아송 분포에 의해 주어진 크기 이상의 극단적인 움직임의 수에 근접하여 더 정확하게 계산할 수 있지만, 간단히 말해서 크기가 1,000인 표본에서 4개의 표준 편차가 여러 개 이동하는 경우 이러한 이상치를 고려하거나 분포의 가정된 정규성에 의문을 제기할 수 있는 강력한 이유가 있습니다.

예를 들어, 6 σ 사건은 10억 의 2 정도의 확률에 해당합니다. 예를 들어, 사건이 매일 발생하는 경우 이는 140만 년마다 예상되는 사건에 해당합니다. 이것은 단순한 정규성 검정을 제공합니다. 일일 데이터에서 6개의 σ가 있고 100만 년 미만의 시간이 경과한 경우 정규 분포가 이러한 측면에서 큰 편차의 크기나 빈도에 대한 좋은 모형을 제공하지 못할 가능성이 높습니다.

블랙 스완에서 Nassim Nicholas Taleb블랙 먼데이 충돌이 36개의 σ 사건에 해당하는 위험 모델의 예를 제시합니다. 그러한 사건의 발생은 모델에 결함이 있음을 즉시 시사해야 합니다. 즉, 고려 중인 프로세스가 정규 분포에 의해 만족스럽게 모델링되지 않는다는 것입니다. 그런 다음 확률적 변동성의 도입 등을 통해 정제된 모델을 고려해야 합니다. 이러한 논의에서 도박자의 오류 문제를 인식하는 것이 중요한데, 이는 희귀한 사건을 한 번만 관찰해도 해당 사건이 실제로 드물다는 것과 모순되지 않는다는 것입니다. 희귀한 것으로 알려진 여러 사건의 관찰은 희귀하다는 가설, 즉 가정된 모델의 유효성을 점점 더 약화시킵니다. 가설에 대한 점진적인 신뢰 상실의 이 과정을 적절하게 모델링하려면 가설 자체뿐만 아니라 가능한 모든 대안 가설에 대한 사전 확률 지정이 포함됩니다. 이러한 이유로, 통계적 가설 검정은 가능성이 있는 것으로 간주되는 가설을 확인하는 것이 아니라 가능성이 없는 것으로 간주되는 가설을 반박하는 것으로 훨씬 효과적입니다.

수치표

정규 분포의 꼬리가 기하급수적으로 감소하기 때문에 더 높은 편차의 확률이 매우 빠르게 감소합니다. 일별 이벤트에 대한 정규 분포 데이터에 대한 규칙에서 다음을 수행합니다.

범위 의 예상 분율

범위내의 인구

의 예상 분율

범위 밖의 인구

대략적인 예상
주파수 범위 밖의 주파수
일별사건의대략빈도
μ ± 0.5 0.382924922548026 6.171E-01 = 61.71 % 3 인 5 일주일에 4~5번
μ ± 0.682689492137086[4] 3.173E-01 = 31.73 % 1 인 3 일주일에 2~3번
μ ± 1.5 0.866385597462284 1.336E-01 = 13.36 % 2인치 15 주간
μ ± 2 0.954499736103642[5] 4.550E-02 = 4.550 % 1 인 22 3주에 한번씩
μ ± 2.5 0.987580669348448 1.242E-02 = 1.242 % 1 인 81 분기별의
μ ± 3 0.997300203936740[6] 2.700E-03 = 0.270 % = 2.700 ‰ 1 인 370 연간
μ ± 3.5 0.999534741841929 4.653E-04 = 0.04653 % = 465.3 ppm 1 인 2149 6년마다
μ ± 4 0.999936657516334 6.334E-05 = 63.34 ppm 1 인 15787 43년마다(평생 두 번)
μ ± 4.5 0.999993204653751 6.795E-06 = 6.795 ppm 1 인 147160 403년마다 (현대에 한 번씩)
μ ± 5 0.999999426696856 5.733E-07 = 0.5733 ppm = 573.3 ppb 1 인 1744278 4776년마다 (기록된 역사에 한 번)
μ ± 5.5 0.999999962020875 3.798E-08 = 37.98 ppb 1 인 26330254 72090년마다 (현대 인류 역사상 세 번)
μ ± 6 0.999999998026825 1.973E-09 = 1.973 ppb 1 인 506797346 138만년마다 (인류 역사상 두 번)
μ ± 6.5 0.999999999919680 8.032E-11 = 0.08032 ppb = 80.32 ppt 1 인 12450197393 3,400만년마다 (공룡이 멸종한 이후 두번씩)
μ ± 7 0.999999999997440 2.560E-12 = 2.560 ppt 1 인 390682215445 10억 7천만 년마다 (지구 역사상 4번 발생)
μ ± 7.5 0.999999999999936 6.382E-14 = 63.82 ppq 1 인 15669601204101 430억 년에 한 번(우주 역사상 한 번도, 합병 전 로컬 그룹의 미래에 두 번)
μ ± 8 0.999999999999999 1.244E-15 = 1.244 ppq 1 인 803734397655348 2조 2천억 년에 한 번 (우주 역사상 한 번도 적색왜성의 일생 동안)
μ ± x 1 인 -⁡(x ) }{1- \ {sqrt {right)}}일마다

참고 항목

참고문헌

  1. ^ Huber, Franz (2018). A Logical Introduction to Probability and Induction. New York: Oxford University Press. p. 80. ISBN 9780190845414.
  2. ^ 이러한 "3-시그마 규칙"의 사용은 2000년대에 일반적인 사용법으로 시작되었습니다. 예를 들어,
  3. ^ 참조:
  4. ^ Sloane, N. J. A. (ed.). "Sequence A178647". The On-Line Encyclopedia of Integer Sequences. OEIS Foundation.
  5. ^ Sloane, N. J. A. (ed.). "Sequence A110894". The On-Line Encyclopedia of Integer Sequences. OEIS Foundation.
  6. ^ Sloane, N. J. A. (ed.). "Sequence A270712". The On-Line Encyclopedia of Integer Sequences. OEIS Foundation.

외부 링크