표준 편차의 불편 추정

Unbiased estimation of standard deviation

통계와 특히 통계 이론에서 표준 편차의 불편 추정은 계산기대값이 참값과 같은 방식으로 값 모집단표준 편차 추정치(통계 산포의 척도)의 통계 표본에서 계산하는 것이다. 나중에 요약된 일부 중요한 상황을 제외하고, 업무는 유의성 검정과 신뢰구간의 사용과 같은 표준 절차나 베이지안 분석을 사용하여 필요성을 회피하기 때문에 통계 적용과 거의 관련성이 없다.

그러나, 통계 이론의 경우, 그것은 진술하기 간단하고 폐쇄적인 형태로 결과를 얻을 수 없는 추정 이론의 맥락에서 예시적인 문제를 제공한다. 그것은 또한 편향되지 않은 추정의 요건을 부과하는 것이 실제 이득이 없는 불편함을 가중시키는 것으로 보일 수 있는 예를 제공한다.

배경

통계에서, 숫자 모집단의 표준 편차는 모집단에서 추출한 랜덤 표본에서 추정되는 경우가 많다. 이 값은 표본 표준 편차로서, 다음과 같이 정의된다.

여기서{ ,x x_은(는) 샘플이고, 샘플 평균이다.

이것이 모집단의 표준 편차에 대한 편향된 추정자임을 확인하는 한 가지 방법은 s2 기초 모집단의 분산2 σ에 대한 편향되지 않은 추정자라는 결과에서 시작하는 것이다. 제곱근은 비선형 함수로서, 선형 함수만이 기대를 가지고 통근한다. 제곱근은 엄격히 오목함수이므로 표본분산의 제곱근은 과소평가라는 젠센의 불평등에서 따르게 된다.

표본 분산에 대한 공식에서 n 대신 n - 1을 사용하는 것을 베셀의 수정이라고 하며, 이 수정은 모집단 분산 추정의 치우침과 모집단 표준 편차 추정의 치우침 중 일부(전부는 아님)를 수정한다.

치우침은 특정 분포에 따라 다르기 때문에 모든 모집단 분포에 대해 치우치지 않은 표준 편차의 추정치를 찾을 수 없다. 다음 중 상당수는 정규 분포를 가정하는 추정과 관련이 있다.

바이어스 보정

정규 분포에 대한 결과

보정 계수 대 표본 크기 n.

랜덤 변수가 정규 분포를 따르는 경우 치우침을 제거하기 위한 사소한 보정이 존재한다. To derive the correction, note that for normally distributed X, Cochran's theorem implies that has a chi square distribution with degrees of freedom and thus its square root, 자유도 - {\인 기 분포를 가진다. 결과적으로, 이 마지막 표현식의 기대치를 계산하고 상수를 재배열하면,

여기서 보정 계수 () 은 자유도 - 1 , 1 / n- 를 가진 카이 분포의 척도 평균이다 이는 표본 크기 n에 따라 달라지며, 다음과 같이 주어진다.[1]

여기서 γ(·)는 감마함수다. σ의 편향되지 않은 추정기는 (를) ()로 나누어 얻을 수 있다 n 이 커짐에 따라 1에 근접하며, 작은 값이라도 보정이 경미하다. 그림은 c ( n) 대 표본 크기의 그림을 보여준다. 아래 표는 (의 숫자 값과 의 일부 값에 대한 대수 식을 제공하며 보다 완전한 표는 통계 품질 관리에 관한 대부분의 교과서에서[citation needed] 찾을 수 있다.

표본크기 4 의 식 수치
2 0.7978845608
3 0.8862269255
4 0.9213177319
5 0.9399856030
6 0.9515328619
7 0.9593687891
8 0.9650304561
9 0.9693106998
10 0.9726592741
100 0.9974779761
1000 0.9997497811
10000 0.9999749978
2k
2k+1

이 보정은 정규 분포 및 독립 분포 X에 대한 편향되지 않은 추정기만 산출한다는 점을 명심해야 한다. 이 조건이 충족되면 득이 되는 것을 다른 결과}c4(n){\displaystyle c_{4}(n)던 s의 표준 오차 is[2][3]은 σ 1− c4명은 2{\displaystyle \sigma{\sqrt{1-c_{4}^{2}}}}, 반면 표준 오차의 불편 추정량. 있σ c4− 2− 1.{\displaystyle \sigma{\sqrt{c_{.4}^{-

정규 분포에 대한 경험치 규칙

함수 c4(n)의 계산이 너무 어려워 보이면 추정기를 가져가는 간단한 경험[4] 규칙이 있다.

이 공식은 분모에 n - 1 대신 n - 1.5를 갖는 것으로만 s2 대한 익숙한 표현과 다르다. 이 표현은 단지 대략적인 것일 뿐이다. 사실,

편향은 상대적으로 작다. 예를 들어, = 3 경우 1.3%와 같고, = 9 의 편향은 이미 0.1%이다.

기타분포

통계적으로 독립적인 데이터가 정규 분포를 제외한 모수 분포 계열에 의해 모델링되는 경우, 모집단 표준 편차는 모형의 모수에 대한 함수가 된다. 추정에 대한 하나의 일반적인 접근방식은 최대우도일 것이다. 또는 표준 편차에 대한 좋은 추정치를 찾는 경로로 Rao-Blackwell 정리를 사용할 수 있다. 어느 경우에도, 획득한 추정치는 일반적으로 편향되지 않았다. 개념적으로 이론적 조정은 편향되지 않은 추정으로 이어질 수 있지만, 정규 분포와 달리 일반적으로 추정된 모수에 따라 달라진다.

이 요구사항이 추정 표준 편차를 완전히 제거하기보다는 단순히 추정 표준 편차의 편향을 줄이는 것이라면, 두 가지 실무적 접근법을 모두 재샘플링의 맥락 안에서 이용할 수 있다. 이것들은 잭나이핑부트스트래핑이다. 둘 다 모수적으로 표준 편차의 추정치 또는 표본 표준 편차에 적용할 수 있다.

비정규 분포의 경우 표준 편차의 불편 추정기에 대한 근사(O(n−1)항까지) 공식은 다음과 같다.

여기서 γ2 인구과잉 첨도를 나타낸다. 초과 첨도는 특정 분포에 대해 미리 알 수 있거나 데이터에서 추정할 수 있다.

자기 상관 효과(직렬 상관)

위의 자료는, 다시 강조하기 위해, 독립된 데이터에만 적용된다. 그러나 실제 데이터는 종종 이 요건을 충족하지 못한다. 즉, 자동 상관 관계(일련 상관 관계라고도 함)이다. 한 예로, 특정 값이 이전 판독치와 이후 판독치의 어떤 조합에서 계산되기 때문에 어떤 형태의 "스무팅"(더 정확하게, 저역 통과 필터링) 프로세스를 통합한 측정 계측기의 연속 판독치는 자동 상관 관계가 있다.

자동 상관 데이터의 분산 추정치와 표준 편차는 편향될 것이다. 표본[5] 분산의 기대값은

여기서 n은 표본 크기(측정 횟수)이고 k 는 데이터의 자기 상관 함수(ACF)이다. (대괄호 안의 식은 단순히 1에서 판독치에 대한 평균 기대 자기 상관을 뺀다는 점에 유의). ACF가 양의 값으로 구성되면 분산 추정치(및 해당 제곱근, 표준 편차)가 낮은 편향으로 된다. 즉, 데이터의 실제 변동성은 수정되지 않은 분산 또는 표준 편차 계산에 의해 표시된 것보다 클 것이다. 이 식을 사용하여 치우침을 교정하려면 위의 괄호 안의 수량으로 2 s를 나누어 ACF를 데이터로부터 추정하는 것이 아니라 분석적으로 알아야 한다는 것을 인식하는 것이 필수적이다. 추정 ACF 자체가 편향될 것이기 때문이다.[6]

표준 편차의 치우침 예제

표준 편차에서 치우침의 크기를 설명하려면 ACF가 제공된 것으로 알려진 특정 디지털 필터를 사용하는 계측기의 순차적 판독치로 구성된 데이터 집합을 고려하십시오.

여기서 α는 필터의 매개변수로, 0부터 단결까지 값을 취한다. 따라서 ACF는 양적이고 기하학적으로 감소한다.

자동 상관 데이터에 대한 표준 편차의 치우침.

그림에는 (이 디지털 필터에 대해 분석적으로 계산할 수 있는) 알려진 값에 대한 추정된 표준 편차의 비율이 샘플 크기 n의 함수로서 α의 여러 설정에 대해 표시된다. α를 변경하면 필터의 분산 감소 비율이 변경되는데, 이 비율은 다음과 같이 알려져 있다.

따라서 α 값이 작을수록 분산 감소, 즉 "분산 감소"가 커진다. 편향은 수직축의 값으로 나타내며, 즉 편향이 없다면 추정된 표준 편차에 대한 비율이 통일일 것이다. 분명히, 적당한 표본 크기의 경우 상당한 치우침이 있을 수 있다(2인 이상 요인).

평균의 분산

모집단의 분산보다는 추정 평균의 분산 또는 표준 편차를 추정하는 것이 종종 관심사다. 데이터가 자기 상관인 경우 이는 표본 평균의 이론적 분산에 직접적인 영향을 미치며, 이는 다음과[7] 같다.

표본 평균의 분산은 variance2 추정치를 대체하여 추정할 수 있다. 위의 E[s2]에 대한 방정식에서 그러한 추정치를 구할 수 있다. 먼저 알려진 ACF를 가정하고 다음 상수를 정의하십시오.

하도록

관측된 표본 분산을 보정계수 1로 나누어 얻은 수량의 기대값은 분산에 대한 편향되지 않은 추정치를 제공한다는 것이다. 마찬가지로 평균의 분산을 위해 위의 식을 다시 쓴다.

[8] \ \

관측된 표본 분산 및 알려진 수량에 대한 평균 분산의 편향되지 않은 추정치다. 자기 상관 이 동일한 0이면 이 식은 독립 데이터에 대한 평균의 분산에 대해 잘 알려진 결과로 감소한다. 이러한 표현에서 기대 연산자의 효과는 동일성이 평균을 유지한다는 것이다(즉, 평균).

모집단의 표준 편차 추정

모집단의 분산과 해당 모집단의 평균 추정을 포함하는 위의 식을 갖는다면, 각 표준 편차의 편향되지 않은 추정치를 얻기 위해 이러한 식들의 제곱근을 단순히 취하는 것이 논리적으로 보일 것이다. 하지만, 기대는 통합이기 때문에, 이 경우는,

대신, 표준 편차의 불편 추정기를 작성할 수 있는 함수 θ이 존재한다고 가정한다.

θ은 표본 크기 n과 ACF에 따라 달라진다. NID(일반적으로 그리고 독립적으로 분산된) 데이터의 경우, 레이더는 단결이고 θ은 위의 첫 번째 절에서 주어진4 c 함수에 불과하다. c4 마찬가지로 θ은 표본 크기가 증가함에 따라 (γ1 같이) 통일성에 접근한다.

시뮬레이션 모델링을 통해 unity을 무시(즉, be을 통일로 간주)하고 using을 사용하는 것을 증명할 수 있다.

자기 상관에 의해 야기되는 편향의 몇 퍼센트를 제외한 모든 부분을 제거하여, 이것은 편향되지 않은 추정기가 아니라 축소된 추정기가 된다. 실제적인 측정 상황에서 편향의 감소는 일부 비교적 작은 편향이 남아 있더라도 유의적이고 유용할 수 있다. 위의 그림은 표준편차 대 표본크기의 치우침의 예를 보여주는 것으로, 이 근사치에 기초한다. 변환편향 θ은 여기에 포함되지 않기 때문에 실제 치우침은 그래프에 나타난 것보다 다소 클 것이다.

표본 평균의 표준 편차 추정

모집단 분산 및 ACF 측면에서 평균의 편중되지 않은 분산은 다음과 같다.

그리고 여기에는 기대치가 없기 때문에 이 경우 제곱근을 취할 수 있으므로

bi에 대해 위의 편향되지 않은 추정 식을 사용하면 평균의 표준 편차의 추정치는 다음과 같다.

데이터가 NID여서 ACF가 사라지면 다음과 같이 감소한다.

0이 아닌 ACF가 있는 경우 전과 같이 θ 함수를 무시하면 감량-바이어스 추정기로 이어진다.

편향의 유용한 대부분을 제거하기 위해 다시 증명할 수 있다.

참고 항목

참조

  1. ^ Ben W. Bolch, "표준 편차의 편견 없는 추정에 관한 더 많은 것", The American Statistics, 22(3), 페이지 27 (1968)
  2. ^ Duncan, A. J. 품질관리 및 산업통계 제4차 ED, 어윈 (1974년) ISBN0-256-01558-9, 페이지 139
  3. ^ * N.L. Johnson, S. Kotz, N. Balakrishnan, Continuous Univariate Distributions, 1권, 2판, Wiley and sons, 1994. ISBN 0-471-58495-9 13장 8.2절
  4. ^ 리처드 M. 브루거 "표준편차에 대한 편견 없는 추정에 관한 노트" 미국 통계학자 (23) 4 페이지 32 (1969년)
  5. ^ 법률과 켈튼, 시뮬레이션 모델링 분석, 2차 개정판 맥그로힐(1991), p.284, ISBN 0-07-036698-5. 이 표현은 앤더슨, 타임 시리즈의 통계적 분석, 와일리(1971) ISBN 0-471-04745-7, 페이지 448, 방정식 51의 원본에서 파생될 수 있다.
  6. ^ 법과 켈튼, 페이지 286. 이 편향은 Anderson, 페이지 448, 방정식 52-54에서 정량화된다.
  7. ^ 법과 켈튼, 285페이지 이 방정식은 앤더슨의 정리 8.2.3에서 도출할 수 있다. 또한 Box, Jenkins, Rinel, Time Series Analysis: 예측과 통제, 4차 개정. 와일리(2008) ISBN 978-0-470-27284-8, 페이지 31.
  8. ^ 법과 켈튼, 페이지 285
  • 더글러스 C. 몽고메리와 조지 C. Runger, Applied Statistics and Probability for Engineers, 제3판, Wiley and sons, 2003. (섹션 7–2.2 및 16–5 참조)

외부 링크

Public Domain 글은 국립표준기술원 웹사이트 https://www.nist.gov공공 도메인 자료를 통합한 것이다.