샘플 최대값 및 최소값

Sample maximum and minimum
표본 최대값과 최소값을 보여주는 Michelson-Morley 실험상자 그림

통계에서 가장관측치와 가장 작은 관측치라고도 하는 표본 최대값표본 최소값은 표본의 최대 및 최소 원소의 값이다. 이 통계량은 기본 요약 통계량이며, 5자리 요약보울리의 7자리 요약 및 관련 상자 그림과 같은 기술 통계량에 사용된다.

최소값과 최대값은 첫 번째 및 마지막 순서 통계량(표본 크기가 n인 경우 각각 X(1) X(n) 표시됨)이다.

표본에 특이치가 있는 경우 표본 최대값 또는 표본 최소값 또는 표본이 극히 높거나 낮은지에 따라 둘 다 포함되어야 한다. 그러나 표본 최대값과 최소값이 다른 관측치와 비정상적으로 멀리 있지 않다면 특이치가 될 필요는 없다.

강건함

표본 최대값과 최소값은 가장 견실한 통계량이다. 표본은 특이치에 최대 민감하다.

이는 장점이나 단점이 될 수 있다: 극한값이 실제라면(측정 오류가 아님), 건물 둑이나 재무손실과 같은 극한값 이론의 적용에서와 같이 실제 결과에서는 특이치가 중요하다(표본 극단치에 반영됨). 반면에 특이치가 실제 결과에 거의 또는 전혀 영향을 미치지 않는 경우, 표본 극단과 같은 비-로봇 통계량을 사용하는 것은 단순히 통계를 흐리게 하며, 다른 분위수(예: 10번째 및 90번째 백분위수)와 같은 강력한 대안을 사용해야 한다.

파생통계

표본의 모든 요소를 사용하는 모든 통계량의 구성 요소일 뿐만 아니라 표본 극단도 범위의 중요한 부분, 분산 측정값, 위치 측정값인 중간값이다. 그들은 또한 최대 절대 편차를 깨닫는다: 그들 중 하나는 주어진 점에서 가장 점, 특히 중앙값이나 평균과 같은 중심 측정값이다.

적용들

평활 최대값

표본 집합의 경우 최대 함수는 부드럽지 않으므로 구별할 수 없다. 통계에서 발생하는 최적화 문제의 경우 집합의 최대치에 가까운 매끄러운 함수에 의해 근사치를 산출해야 하는 경우가 많다.

예를 들어, 부드러운 최대값,

g(x1, x2, …, xn) = log(exp)(x1) + exp(x2) + + exp(xn) )

표본 최대값의 좋은 근사치 입니다.

요약통계

표본 최대값과 최소값은 가장 극단적인 관측치를 보여주는 기본 요약 통계량이며, 5자리 요약7자리 요약 버전 및 관련 상자 그림에 사용된다.

예측 구간

표본 최대값과 최소값은 비모수 예측 구간을 제공한다. 모집단의 표본에서, 또는 더 일반적으로 랜덤 변수의 교환 가능한 시퀀스에서, 각 관측치는 최대값 또는 최소값일 가능성이 동등하다.

Thus if one has a sample and one picks another observation then this has probability of being the largest value seen so far, probability of being the smallest value seen so far, and thus the other of the time, falls between the sample maximum and sample minimum of 따라서 표본 최대값과 최소값을 M과 m로 나타내며, 이는 [m,M]의 1) /(+ ) 예측 구간을 산출한다.

예를 들어, n = 19인 경우 [M,M]은 18/20 = 90% 예측 구간 – 시간의 90%를 제공하는 경우, 20번째 관측치는 지금까지 본 관측치 중에서 가장 작은 관측치와 가장 큰 관측치 사이에 들어간다. 마찬가지로 n = 39는 95% 예측 구간을, n = 199은 99% 예측 구간을 제공한다.

추정

특이치에 대한 민감도 때문에 데이터가 깨끗하지 않으면 표본 극단점을 추정기로 신뢰성 있게 사용할 수 없다. 강력한 대안은 첫 번째와 마지막 십진법을 포함한다.

그러나 깨끗한 데이터나 이론적 설정에서 때때로 매우 우수한 추정기를 증명할 수 있으며, 특히 소량 데이터 세트의 경우 중간 범위가 가장 효율적인 추정기일 수 있다.

그러나 이들은 정규 분포와 렙토쿠르 분포와 같은 중간 분포에 대한 위치의 비효율적인 추정자다.

균등분포

For sampling without replacement from a uniform distribution with one or two unknown endpoints (so with N unknown, or with both M and N unknown), the sample maximum, or respectively the sample maximum and sample minimum, are sufficient and co알 수 없는 엔드포인트에 대한 완전 통계량. 따라서 이들로부터 파생된 편향되지 않은 추정기는 UMVU 추정기가 될 것이다.

상단 끝점만 알 수 없는 경우 표본 최대값은 모집단 에 대한 편향 추정기 k+ - 여기서 m은 표본 최대값이고 k는 표본 크기)가 UMVU 추정기입니다. 자세한 내용은 독일 탱크 문제를 참조하십시오.

두 엔드포인트를 모두 알 수 없는 경우, 표본 범위는 모집단 범위에 대해 편향된 추정기가 되지만 위의 최대값에 대해 수정하면 UMVU 추정기가 된다.

두 끝점을 모두 알 수 없는 경우 중간 범위는 구간의 중간점(여기서 동등하게 모집단 중위수, 평균 또는 중간 범위)에 대한 불편(따라서 UMVU) 추정기가 된다.

표본 극단값이 충분한 통계량은 비극단 표본의 조건부 분포가 표본 최대값과 최소값 사이의 균일한 간격에 대한 분포에 불과하기 때문이다. 엔드포인트가 고정되면 내부 지점의 값이 추가 정보를 추가하지 않는다.

정규성 검정

3˚ 범위를 초과하는 사건은 매우 드물기 때문에 검체 극단성을 정규성 시험에 사용할 수 있다.

검체 극단값은 단순 정규성 시험에 사용할 수 있으며, 특히 첨도에 대해서는 검체 최대값과 최소값의 t-통계학적 값(표본 평균을 추산하여 표본 표준 편차로 나눈 값)을 계산하고, 표본 크기가 비정상적으로 큰 경우(표본 3 시그마 규칙과 표 또는 더 정밀하게 학생 표준 편차)를 사용할 수 있다.-csv), 그 다음 표본 분포의 첨도가 정규 분포의 첨도와 현저하게 차이가 난다.

예를 들어 매일의 공정은 1년에 1회(일정일 1회, 영업일 1회 1회) 3 3 이벤트를 예상해야 하며, 평균 4σ 이벤트는 40년, 60년 영업일(평생 1회), 5천년에 5 recorded 이벤트(기록된 역사 1회), 1.5밀리마다 6σ 이벤트가 발생한다.몇 년에 걸쳐서 따라서 표본 극단값이 평균으로부터 6 시그마인 경우 정규성의 유의한 오류가 발생한다.

또한, 이 시험은 통계 없이 의사소통이 매우 쉽다.

예를 들어, 한 사람이 첨도 위험에 직면할 경우 이러한 정규성 시험을 적용할 수 있다.

극값 이론

사건은 1755년 리스본 대지진에서와 같이 이전에 관측된 그 어떤 극단적 사건보다 더 클 수 있다.

극단적 가치 이론에서 표본은 두 가지 주요 역할을 한다.

  • 첫째, 극한 사건에 대해 하한을 부여한다. 이 크기 표본의 경우 최소한 이 극단적일 수 있다.
  • 둘째로, 그것들은 때때로 더 극단적인 사건의 확률의 추정기에 사용될 수 있다.

단, 견본 극단값을 지침으로 사용할 때는 주의를 기울여야 한다: 꼬리가 무거운 분포에서 또는 역점적이지 않은 공정에서 극한 사건은 이전에 관찰된 어떤 사건보다 훨씬 더 극단적일 수 있다. 이것은 흑조 이론으로 상세히 설명되어 있다.

참고 항목