견고한 신뢰 구간

Robust confidence intervals

통계에서 강력한 신뢰 구간신뢰 구간강력하게 수정하는 것으로, 이는 신뢰 구간이 데이터 집합의 외부 또는 일탈 관측치에 의해 크게 영향을 받지 않도록 신뢰 구간의 비역량 계산을 수정한다는 것을 의미한다.

1000개의 물체를 무게를 재는 과정에서, 실제적인 조건 하에서, 운영자가 절차상 실수를 해서 잘못된 질량을 보고할 수 있다고 생각하기 쉽다(그러므로 한 가지 유형의 체계적 오류를 범함). 100개의 물체가 있고 조작자가 한 번에 하나씩 모두 무게를 재서 전체 과정을 10번 반복했다고 가정해보자. 그런 다음 운영자는 각 물체에 대한 표본 표준 편차를 계산하고 특이치를 찾을 수 있다. 표준 편차가 비정상적으로 큰 물체는 데이터에 특이치가 있을 수 있다. 이것들은 다양한 비모수 기법에 의해 제거될 수 있다. 조작자가 공정을 3회만 반복했을 경우 3회 측정값의 중간값만 취하고 σ을 사용하면 신뢰 구간이 주어진다. 200개의 추가 중량은 측정 시스템 오류를 감지하고 수정하는 데만 사용되었고 신뢰 구간을 개선하는 데는 아무런 도움이 되지 않았다. 반복이 많으면 잘린 평균을 사용하여 가장 크고 작은 값을 버리고 나머지를 평균화할 수 있다. 부트스트랩 계산을 사용하여 σ에서 계산한 신뢰 구간보다 좁은 신뢰 구간을 결정할 수 있으므로, 대량의 추가 작업으로부터 어느 정도 이익을 얻을 수 있다.

이러한 절차는 균형에 고정된 알려진 표준 편차 σ이 있다는 가정으로 모델링되지 않은 절차적 오류에 대해 강력하다. 간혹 오차가 발생하거나 잔액이 오작동할 수 있는 실제 적용에서는 단순한 통계적 계산 뒤에 숨겨진 가정을 당연하게 여길 수 없다. σ에서 계산된 신뢰구간을 갖기 위해 각각 3회만 무게가 나가는 100개의 물체의 결과를 신뢰하기 전에, 적절한 수의 특이치를 시험하고 제거하는 것(작업자가 주의하고 완벽하지 않다는 가정을 시험하고, 자신이 완벽하지 않다는 사실을 정정하는 것)과 데이터가 실제로 ha라는 가정을 시험하는 것이 필요하다.표준 편차 σ의 정규 분포

컴퓨터 시뮬레이션

이러한 실험의 이론적 분석은 복잡하지만, 표준 편차 σ으로 정규 분포로부터 무작위 숫자를 끌어내는 스프레드시트를 설정해 상황을 시뮬레이션하는 것이 용이하다. 이는 마이크로소프트 엑셀에서 다음과 같이 할 수 있다. =NORMINV(RAND(),0,σ))에서 논의된 것과 동일한 기법을 OpenOffice.org Calcgnumeric과 같은 다른 스프레드시트 프로그램에서 사용할 수 있다.

분명한 특이치를 제거한 후 각 물체에 대한 다른 두 값에서 중위수를 뺀 다음 200개의 결과 숫자의 분포를 조사할 수 있다. 평균이 0에 가깝고 표준 편차가 σ보다 약간 큰 정상이어야 한다. 단순한 몬테카를로 스프레드시트 계산을 통해 표준 편차에 대한 일반적인 값(σ의 약 105~115%)을 확인할 수 있다. 또는 각 세 쌍둥이 평균을 값에서 뺄 수도 있고, 300개의 값의 분포를 조사할 수도 있다. 평균은 동일하게 0이지만 표준 편차는 다소 작아야 한다(약 75~85% of).

참고 항목

참조

  1. ^ J.W. W. Wittwer, "Monte Carlo Simulation in Excel: A Practical Guide", 2004년 6월 1일