중앙값

Median
홀수 및 짝수 값의 데이터 집합에서 중위수 찾기

통계확률 이론에서 중위수데이터 표본, 모집단 또는 확률 분포의 하위 절반에서 상위 절반을 분리하는 값이다.데이터 집합의 경우, "중간" 값으로 생각할 수 있다.평균과 비교한 데이터를 기술할 때(흔히 "평균"으로 간단히 설명됨) 중위수의 기본적인 특징은 극히 크거나 작은 값의 작은 비율에 의해 왜곡되지 않기 때문에 "일반적인" 값을 더 잘 표현한다는 것이다.를 들어, 중위소득은 소득분배가 매우 치우칠 수 있기 때문에 "일반적인" 소득이 무엇인지 제안하는 더 좋은 방법이 될 수 있다.중위수는 가장 저항성이 높은 통계량이고 분해점이 50%이므로 견고한 통계량에서 중심적인 중요성을 갖는다. 데이터의 절반 이상이 오염되지 않는 한 중위수는 임의로 크거나 작은 결과가 아니다.

유한한 숫자의 데이터 집합

유한한 숫자 목록의 중위수는 "중간" 숫자인데, 이 숫자는 가장 작은 숫자에서 가장 큰 숫자 순서로 나열된다.

데이터 집합에 관측치 수가 홀수인 경우 중간 관측치가 선택된다.예를 들어, 다음 7개의 숫자 목록,

1, 3, 3, 6, 7, 8, 9

중위수가 6이고, 이는 네 번째 값이다.

데이터 집합에 짝수의 관측치가 있으면 뚜렷한 중간값이 없으며 중위수는 대개 두 중간값의 산술 평균으로 정의된다.[1][2]예를 들어, 이 데이터 집합은 8개의 숫자로 구성

1, 2, 3, 4, 5, 6, 8, 9

중위수 값이 4.5, 즉 + )/ 이다(더 기술적인 측면에서 중위수를 완전히 다듬은 중간 범위로 해석한다).

일반적으로 이 관례를 통해 중위수는 다음과 같이 정의할 수 있다. 요소의 데이터 세트 에 대해 가장 작은 항목에서 가장 큰 항목으로 정렬된 경우

(가) 홀수인 경우 m )= + )/ {
(가) 짝수인 경우 e ( )= (n/ )+ {rm/2}}:{{1}{{22}{2}}{}}{2}}}}}{2}}}}{2}}}}}}}}}}}}}{2}{2}}}}}}}}}}{2}
값의 공통 평균 비교 [ 1, 2, 2, 3, 4, 7, 9 ]
유형 설명 결과
산술평균 데이터 세트의 값의 합을 값 수로 나눈 값: = i= x (1 + 2 + 2 + 3 + 4 + 7 + 9) / 7 4
중앙값 데이터 세트의 큰 부분과 작은 부분을 구분하는 중간 값 1, 2, 2, 3, 4, 7, 9 3
모드 데이터 집합에서 가장 빈번한 값 1, 2, 2, 3, 4, 7, 9 2

형식 정의

공식적으로 모집단의 중위수는 모집단의 절반 이상이 제안된 중위수보다 작고 절반은 제안된 중위수보다 큰 값이다.위에서 보듯이 중위수가 유일하지 않을 수도 있다.각 집합이 모집단의 절반 미만을 포함하는 경우 모집단의 일부는 고유한 중위수와 정확히 동일하다.

중위수는 정렬된(1차원) 데이터에 대해 잘 정의되며, 거리 메트릭과 독립적이다.따라서 중위수는 순위가 매겨지지만 숫자가 매겨지지 않은 학급(예: A에서 F로 등급 매김 시 중위수 점수를 계산하는 경우)에 적용될 수 있지만, 짝수인 경우 그 결과는 반수 사이일 수 있다.

반면에 기하학적 중위수는 어떤 치수로도 정의된다.결과가 표본의 구성원과 일치하도록 강요되는 관련 개념은 중합체다.

중위수에 대해 널리 받아들여지는 표준 표기법은 없지만, 일부 저자는 변수 x의 중위수를 또는 μ1/2[1] 나타내기도 한다.[3][4]이러한 경우, 중앙값에 대한 이러한 기호 또는 기타 기호의 사용은 도입 시 명시적으로 정의될 필요가 있다.

중위수는 통계 분포와 관련된 일반적인 값을 요약하는 다른 방법의 특별한 경우로서, 2 사분위수, 5 사분위수50번째 백분위수다.

사용하다

일반적으로 분포가 치우쳐 있거나, 극단값을 알 수 없거나, 특이치가 신뢰할 수 없기 때문에, 즉 측정/변환 오류가 있을 수 있으므로, 극단값의 중요도가 감소할 때 중앙값을 위치 측정값으로 사용할 수 있다.

예를 들어, 다중 집합을 고려하십시오.

1, 2, 2, 2, 3, 14.

이 경우 중위수는 2이며(모드 그대로), 산술 평균인 4보다 중앙을 더 잘 나타내는 것으로 볼 수 있는데, 이는 값의 전부인 1보다 크다.그러나 평균이 중위수보다 분포의 "꼬리로 더 멀리" 이동된다는 널리 인용된 경험적 관계는 일반적으로 사실이 아니다.기껏해야 두 통계가 "너무 멀리" 떨어져 있을 수 없다고 말할 수 있다. 아래의 § 불평등 수단과 중위수가 관련된 것을 참조한다.[5]

중위수는 집합의 중간 데이터를 기반으로 하기 때문에, 이를 계산하기 위해 극단적 결과의 값을 알 필요는 없다.예를 들어 문제 해결에 필요한 시간을 조사하는 심리테스트에서 주어진 시간 내에 소수의 사람이 문제를 전혀 해결하지 못했다면 여전히 중위수를 계산할 수 있다.[6]

중위수는 이해하기 쉽고 계산하기도 쉬우면서도 평균에 대한 견실한 근사치가 있기 때문에 기술 통계량에서는 중위수가 인기 있는 요약통계량이다.이러한 맥락에서 변동성의 측정에 대한 몇 가지 선택사항이 있다: 범위, 사분위간 범위, 평균 절대 편차중위수 절대 편차.

실제적인 목적을 위해, 데이터 표본으로부터 해당 모집단 값을 얼마나 잘 추정할 수 있는지에 기초하여 위치 및 산포의 다른 측도를 비교하는 경우가 많다.표본 중위수를 사용하여 추정된 중위수는 이와 관련하여 좋은 특성을 가지고 있다.주어진 모집단 분포를 가정할 경우 일반적으로 최적이 아니지만, 그 속성은 항상 합리적으로 양호하다.예를 들어, 후보 추정기의 효율을 비교한 결과, 데이터가 굵은꼬리 분포의 데이터나 분포의 혼합물에 의해 오염되지 않은 경우에만 표본 평균이 통계적으로 더 효율적이라는 것을 알 수 있다.[citation needed]이때도 중위수는 최소-분산 평균(대형 정규 표본의 경우) 대비 64%의 효율을 가지는데, 이는 중위수의 분산이 평균의 분산보다 최대 50% 더 크다는 것을 의미한다.[7][8]

확률분포

임의 확률밀도함수의[9] 모드, 중위수 및 평균의 기하학적 시각화

누적분포함수 F를 갖는 모든 실제값 확률 분포의 경우 중위수는 불평등을 만족하는 모든 실제 숫자 m로 정의된다.

.

등가 표현은 F:에 따라 분포된 랜덤 변수 X를 사용한다.

이 정의는 X절대적으로 연속적인 분포(확률밀도함수 ƒ)를 갖도록 요구하지 않으며 이산적인 분포도 요구하지 않는다는 점에 유의한다.전자의 경우, 불평등은 평등하게 격상될 수 있다: 중위수가 만족한다.

.

R에 대한 확률 분포는 최소한 하나의 중위수를 가지지만 병리학적 경우에는 둘 이상의 중위수가 있을 수 있다: 만약 F가 간격의 1/2을 일정하게 유지한다면(그래서 there=0이 거기에 있음), 그 구간의 모든 값은 중위수가 된다.

특정 분포의 중위수

특정 분포 유형의 중위수는 모수를 통해 쉽게 계산할 수 있으며, 더 나아가 코치 분포와 같이 잘 정의된 평균이 결여된 일부 분포에도 존재한다.

  • 대칭 단항 분포의 중위수는 모드와 일치한다.
  • 평균 μ를 갖는 대칭 분포의 중위수도 μ 값을 취한다.
    • 평균 μ와 분산 μ2 갖는 정규 분포의 중위수는 μ이다.실제로 정규 분포의 경우 평균 = 중위수 = 모드.
    • 구간[a, b]의 균등 분포의 중위수는 (a + b) / 2이며, 이 또한 평균이다.
  • 위치 모수 x0 척도 모수 y를 갖는 Cauchy 분포의 중위수는 위치 모수인 x이다0.
  • 검정력 분포 xa 중위수는 지수 a > 1이 2x이고1/(a − 1)min 여기서 xmin 검정력 분포가 갖는[10] 최소값이다.
  • 비율 모수λ지수 분포의 중위수는 2의 자연 로그로 비율 모수를 λln−1 2로 나눈 값이다.
  • 형상 모수 k와 척도 모수 λ을 갖는 Weibull 분포의 중위수는 λ(ln 2)이다.1/k

인구

최적성 속성

랜덤 변수 X에 대한 실제 변수 c평균 절대 오차는 다음과 같다.

X의 확률 분포가 위의 예상과 같다면 mX에 대한 평균 절대 오차의 최소값인 경우에만 X의 중위수가 된다.[11]특히 m은 절대편차의 산술평균을 최소화하는 경우에만 표본 중위수가 된다.[12]

일반적으로 중위수는 최소값으로 정의된다.

다변량 중위수(대략, 공간 중위수)에 대한 아래 절에서 설명한 바와 같다.

중위수에 대한 이러한 최적화 기반 정의는 예를 들어 k-중간 군집화와 같은 통계 데이터 분석에 유용하다.

수단 및 중위수와 관련된 불평등

왜도가 다른 두 로그 정규 분포평균, 중위수 및 모드 비교

분포의 분산이 유한할 경우 X ~ 평균 between { 사이의 거리는 하나의 표준 편차로 제한된다.

이 경계는 1979년 북과 셰어에 의해 분리된 표본에 대해 증명되었고,[13] 더 일반적으로 1982년 페이지와 머티에 의해 증명되었다.[14]1991년 [15]맬로스는 오씨니데의 후속 증거에 대한 논평에서 다음과 같이 젠센의 불평등을 두 번 사용하는 압축적인 증거를 제시했다.[16]·를 절대값으로 사용하며,

제1차, 제3차 불평등은 각각 볼록한 절대값함수와 사각함수에 적용되는 젠센의 불평등에서 비롯된다.두 번째 불평등은 중위수가 절대 편차 ( X- ( 을(를) 최소화하는 데서 비롯된다

말로우의 증거는 일반화 되어 단지 절대값을 표준으로 대체함으로써 불평등의 다변량 버전을[17] 얻을 수 있다.

는 data-set의 치수는 기능의 여기에서 m은 공간에의, 그것은, minimizer↦ E⁡(‖ X는 ‖ −).{\displaystylea\mapsto \operatorname{E}()X-a\).\,}공간에의 중선, 독특한 두개 이상.[18][19]

다른 대안적 증거;그것은 불평등에서 위치와 규모 변수에 표시된 일방적인 체비쇼프 부등식을 사용한다.이 공식도 직접적으로 칸 텔리 부등식의 의미를 따른다.[20]

단일 분포

단봉 분포의 경우 한 선명한 중앙 분리대 및 평균 사이의 거리에게 덤벼들다: 이룰 수 있습니다.

X~− X}\right\leq \left({\frac{3}{5}}\right)^{\frac{1}{2}}\sigma(0.7746\sigma}.[21]≤(35)12σ ≈ 0.7746 σ{\displaystyle \left{\tilde{X}}-{\bar{X}¯.

비슷한 관계는 중선과 모드 사이에 보유하고 있다.

젠센의 중위수 불평등

옌센 부등식 주 어떤 확률 변수 X는 유한 기대 E[X]과 어떠한 볼록 함수는 f.

이 불평등은 중선에 generalizes.우리는 f:ℝ→ℝ 함수는 C기능에게나 t, 말한다.

닫힌 간격(단일 점 또는 빈 집합의 퇴보된 사례 포함)모든 볼록함수는 C함수지만, 역기능은 유지되지 않는다.만약 f가 C 함수라면,

만약 중위수가 유일하지 않다면, 그 진술은 해당 우월성을 옹호한다.[22]

표본 중위수

표본 중위수

표본 중위수의 효율적인 계산

비교 정렬 n개 항목에는 Ω(n log n) 연산이 필요하지만 선택 알고리즘은 ((n) 연산만으로 가장 작은 항목k번째를 계산할 수 있다.이는 그.mw-parser-output .sfrac{white-space:nowrap}.mw-parser-output.sfrac.tion,.mw-parser-output.sfrac .tion{디스플레이:inline-block, vertical-align:-0.5em, font-size:85%;text-align:센터}.mw-parser-output.sfrac.num,.mw-parser-output.sfrac .den{디스플레이:블록, line-height:1em, 마진:00.1em}.mw-parser-output .sfrac은 중선이 포함된다.Den{border-top:1px 고체}.mw-parser-output .sr-only{국경:0;클립:rect(0,0,0,0), 높이:1px, 마진:-1px, 오버 플로: 숨어 있었다. 패딩:0;위치:절대, 너비:1px}n/2th 순서 통계량.(샘플의 짝수를 위해 이 두 중간 순서통 계량의. 아니면 산술 평균.).[23]

선택 알고리즘은 여전히 Ω(n) 메모리를 요구한다는 단점을 가지고 있다. 즉, 전체 샘플(또는 그것의 선형 크기 부분)을 메모리에 저장해야 한다.이는 선형 시간 요건뿐만 아니라 금지할 수 있기 때문에 중위수에 대한 여러 추정 절차가 개발되었다.단순한 1은 3개의 규칙의 중위수로, 3개의 원소 서브샘플의 중위수를 추정하는 3개의 규칙의 중앙값이다. 이것은 일반적으로 입력의 중위수를 추정하는 퀵소트 정렬 알고리즘에서 서브루틴으로 사용된다.강력한 추정기Tukey9번째 것으로, 제한적인 재귀로 적용되는 세 가지 규칙의 중위수인 [24]A배열로 배열된 표본인 경우 및

med3(A) = 중위수(A[1], A[n/2], A[n],

그때

9번째(A) = med3(A[1 … 1/3n]), med3(A[1/3n2/3n]), med3(A[2/3nn]))

교정자는 표본 위로 단일 통과로 작동하면서 선형 시간이 필요하지만 하위 선형 메모리가 필요한 중위수에 대한 추정기이다.[25]

시료채취분포

표본 평균과 표본 중위수의 분포는 모두 Laplace에 의해 결정되었다.[26] 함수 () 을(를) 가진 모집단에서 표본 중위수의 분포는 평균 m 및 분산을 사용하여 점증적으로[27] 정규 분포임

여기서 (는) ( x) 의 중위수이고 표본 크기입니다.현대적인 증거는 아래와 같다.라플레이스의 결과는 이제 임의의 계량형 분포를 나타내는 특별한 사례로 이해된다.

For normal samples, the density is , thus for large samples the variance of the median equals [7]아래 섹션 #효율성 참조)

점근 분포의 유도

표본 크기를 홀수 = + 로 하고 변수 연속성을 가정한다. 이산형 변수의 경우 공식은 § 경험적 국부 밀도에 아래에 제시되어 있다.The sample can be summarized as "below median", "at median", and "above median", which corresponds to a trinomial distribution with probabilities , and . For a continuous variable, the probability of multiple sample values b중위수와 정확히 동일한 eing은 0이므로 3원 분포에서 직접 지점의 밀도를 계산할 수 있다.

.

이제 베타 기능을 소개한다.For integer arguments and , this can be expressed as 또한 ) d = 을(를) 기억하십시오 이러한 관계를 사용하여 }과(으)로 설정하면 마지막 식을 모두 기록할 수 있다.

따라서 중위수의 밀도 함수는 이(가) 추진하는 대칭 베타 분포다.그 평균은 우리가 예상한 대로 0.5이고 분산은 1/( (N+ )1 4이다 체인 규칙에 따르면 표본 중위수의 해당 분산은 다음과 같다.

( N+ ) ( ) {1

추가 2는 한도에서 무시할 수 있다.

경험적 국부밀도

실제로 F 함수는 알려지지 않거나 가정되지 않는 경우가 많다.단, 관측된 주파수 분포에서 추정할 수 있다.이 섹션에서는 예를 들어보자.3,800개의 관측치(구체 값)의 표본을 나타내는 다음 표를 고려하십시오.

v 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
f(v) 0.000 0.008 0.010 0.013 0.083 0.108 0.328 0.220 0.202 0.023 0.005
F(v) 0.000 0.008 0.018 0.031 0.114 0.222 0.550 0.770 0.972 0.995 1.000

관측치가 이산형 값이므로 중위수의 정확한 분포를 구성하는 것은 = ) 에 대한 위의 식을 즉시 변환하는 것이 아니며, 표본에 중위수의 여러 인스턴스(일반적으로)가 있을 수 있다.그래서 우리는 이 모든 가능성을 요약해야 한다.

여기서 는 중위수보다 절대적으로 작은 점의 수이고 k는 그 수가 절대적으로 더 크다.

이러한 예단을 이용하여 표본 크기가 평균과 중위수의 표준 오차에 미치는 영향을 조사할 수 있다.관측된 평균은 3.16이고 관측된 원시 중위수는 3이며 관측된 보간 중위수는 3.174이다.다음 표는 몇 가지 비교 통계를 제공한다.

표본크기
통계
3 9 15 21
중위수 기대값 3.198 3.191 3.174 3.161
중위수의 표준 오차(공식 위) 0.482 0.305 0.257 0.239
중위수의 표준 오차(방사선 근사치) 0.879 0.508 0.393 0.332
평균의 표준 오차 0.421 0.243 0.188 0.159

표본 크기가 증가할수록 중위수의 기대값은 약간 떨어지는 반면 중위수와 평균의 표준 오차는 표본 크기의 역제곱근에 비례한다.점근법 근사치는 표준 오차를 과대평가하여 주의의 측면에서 희미해진다.

표본 데이터로부터의 분산 추정

( )- )^{-2- ( - 1}{1}2의 값 —median{\ \nu 은 여러 저자에 의해 연구되었다.표준 "하나의 삭제" 잭나이프 방법은 일관되지 않은 결과를 낳는다.[28] 이(가) 샘플 크기에 따라 증가하는 대안인 "delete k" 방법은 증상 없이 일관성이 있는 것으로 나타났다.[29]이 방법은 큰 데이터 집합의 경우 계산상 비용이 많이 들 수 있다.부트스트랩 추정치는 일관성이 있다고 알려져 [30]있지만 매우 천천히 수렴된다(- 1 [31]다른 방법들이 제안되었지만 그들의 행동은 큰 표본과 작은 표본 사이에 다를 수 있다.[32]

효율성

표본 중위수의 효율성은 표본 크기와 기초 모집단 분포에 따라 달라진다.정규 분포에서 = + 1 크기의 표본에 대해 큰 N의 효율은

이(가) 무한대 경향이 있기 때문에 효율은 에 달한다.

In other words, the relative variance of the median will be , or 57% greater than the variance of the mean – the relative standard error of the median will be , or 25% greater than the standard error of the 평균, / 위의 섹션 #샘플링 분포 참조).[33]

기타 추정기

한 중위수에 대해 대칭인 일변량 분포의 경우, Hodges-레만 추정기는 모집단 중위수의 강력하고 효율성높은 추정치다.[34]

데이터가 특정 확률 분포의 패밀리를 지정하는 통계적 모델로 표현되는 경우, 데이터에 확률 분포 패밀리를 적합시키고 적합된 분포의 이론적 중위수를 계산하여 중위수의 추정치를 얻을 수 있다.[citation needed]파레토 보간술은 인구가 파레토 분포를 가지고 있다고 가정했을 때 이를 적용한 것이다.

다변량 중위수

앞서 이 글에서는 표본이나 모집단이 1차원일 때 일변량 중위수를 논했다.치수가 2 이상일 때, 일변량 중위수의 정의를 확장하는 여러 개념들이 있다. 그러한 다변량 중위수는 치수가 정확히 1일 때 일변량 중위수와 일치한다.[34][35][36][37]

주변 중위수

주변 중위수는 고정 좌표 집합에 대해 정의된 벡터에 대해 정의된다.주변 중위수는 성분이 일변량 중위수인 벡터로 정의된다.한계 중위수는 계산하기 쉽고, 그 속성은 Puri와 Sen에 의해 연구되었다.[34][38]

기하 중위수

유클리드 공간에서 x , N 의 이산형 집합의 기하학적 중위수는 표본점에 대한 거리의 합계를 최소화하는 지점이다[a].

주변 중위수와 대조적으로 기하학적 중위수는 번역회전과 같은 유클리드 유사성 변환에 대해 등가선이다.

모든 방향의 중위수

모든 좌표계에 대한 한계 중위수가 일치하는 경우 이들의 공통 위치는 "모든 방향의 중위수"[40]라고 불릴 수 있다.이 개념은 중간 투표자 정리에 따른 투표 이론과 관련이 있다.그것이 존재하는 경우, 모든 방향의 중위수는 기하학적 중위수와 일치한다(적어도 이산형 분포의 경우).

중심점

중앙분리대를 더 높은 차원으로 일반화하는 것이 중심점이다.

기타 중위수 관련 개념

보간 중위수

이산형 변수를 다룰 때 관측된 값을 기저 연속 구간의 중간점으로 간주하는 것이 유용할 때도 있다.그 예로는 리커트 척도를 들 수 있는데, 리커트 척도에서는 의견이나 선호도를 정해진 수의 응답과 함께 척도로 표현한다.척도가 양의 정수로 구성된 경우, 관측치 3은 2.50 ~ 3.50 사이의 간격을 나타내는 것으로 간주할 수 있다.기초 변수의 중위수를 추정할 수 있다.예를 들어, 관측치의 22%가 값 2 이하이고 55.0%가 값 3 이하인 경우(따라서 33%가 값 3) 중위수가 F( {\ x}의 가장 작은 이기 때문에 m m 3이며, 이 값은 (x 가 절반보다 크다.그러나 보간된 중앙분리대는 2.50에서 3.50 사이에 있다.먼저 중위수 구간의 상한을 구하려면 중위수에 폭 w 의 절반을 추가한다.그런 다음 50% 마크 위에 있는 33%의 비율과 동일한 구간 폭의 비율을 뺀다.즉, 구간 폭을 관측치 수로 나눈 값이다.이 경우 33%는 중위수 아래 28%, 그 위 5%로 분할되므로 3.50 상한에서 구간 폭의 5/33을 빼서 3.35의 보간 중위수를 부여한다.보다 공식적으로 ( ) 값을 알고 있으면 보간된 중위수는 다음에서 계산할 수 있다.

또는 관측된 표본에서 범주 위에 k 점수가 있고, 점수가 있고, 그 아래에 점수가 있는 경우 보간된 중위수는 다음과 같다.

의사 매개체

한 중위수에 대해 대칭인 일변량 분포의 경우, Hodges-Lehmann 추정기는 모집단 중위수의 강력하고 효율성이 높은 추정치로, 비대칭 분포의 경우 Hodges–레만 추정기는 대칭 분포의 중위수로서 모집단 중위수에 가까운 모집단 의사 중위수의 강력하고 효율성이 높은 추정자다.[41]호지스-레만 추정기는 다변량 분포로 일반화되었다.[42]

회귀 분석의 변형

테일-센 추정기경사 중위수 찾기에 기초한 견고선형 회귀 분석을 위한 방법이다.[43]

중위수 필터

중앙분리대 필터그레이스케일 이미지에서 소금과 후추 소음을 효과적으로 제거할 수 있는 이미지 처리의 중요한 도구다.

군집 분석

군집 분석에서 k-medians 군집화 알고리즘은 군집을 정의하는 방법을 제공하며, k-평균 군집화에 사용되는 군집 간 거리를 최대화하는 기준이 군집화 군집화 군집화 군집화 군집화 군집화 군집화 군집화 군집화 사이의 거리를 최대화하는 것으로 대체된다.

중위-중간선

이것은 강력한 퇴행의 방법이다.이 아이디어는 1940년 Wald로 거슬러 올라간다. Wald는 독립 x 의 값에 따라 두 개의 반으로 나누자고 제안했다 왼쪽 절반은 중위수보다 작은 값이고 오른쪽 절반은 중위수보다 큰 값이다.[44]그는 좌우 절반의 y x{\x} 변수의 수단을 취하여 이 두 점에 연결되는 선의 기울기를 추정할 것을 제안했다.그런 다음 선은 데이터 집합의 대부분의 점에 맞도록 조정될 수 있다.

1942년 네어르와 슈리바스타바는 비슷한 생각을 제안했지만, 대신 하위샘플의 수단을 계산하기 전에 샘플을 세 개의 동등한 부분으로 나누자고 주장했다.[45]1951년 브라운과 무드는 두 개의 하위표본의 중간표본을 수단보다는 사용하는 아이디어를 제안했다.[46]Tukey는 이러한 아이디어를 결합하여 표본을 3개의 동일한 크기의 하위표본으로 나누고 하위표본의 중위수를 바탕으로 선을 추정할 것을 권고했다.[47]

중위수 불편 추정기

평균 편향 추정기Gauss가 관측한 바와 같이 오차 제곱 함수대한 위험(예상 손실)을 최소화한다.중위수 편향 추정기는 라플레이스가 관측한 절대 편향 손실 함수에 대한 위험을 최소화한다.다른 손실 함수통계 이론, 특히 강력한 통계에 사용된다.

중앙분리대 추정기 이론은 1947년 조지 W. 브라운에 의해 부활되었다.[48]

1차원 모수 θ의 추정치는 고정 fixed의 경우 추정치 분포의 중위수가 θ 값인 경우 즉, 추정치가 과대평가되는 횟수만큼 과소평가되는 경우 중위수-편향되었다고 한다.이 요구사항은 대부분의 목적을 위해 평균 편중 요구사항만큼 달성하는 것으로 보이며 일대일 변환 시 불변성이라는 추가 특성을 가지고 있다.

page 584

중앙분리대 추정기의 추가 특성이 보고되었다.[49][50][51][52]중위수 불편 추정기는 일대일 변환에서 불변한다.

최적인 중위수 불편 추정기를 구성하는 방법들이 있다(평균 불편 추정기의 최소 분산 속성과 유사하다는 의미에서).그러한 구조는 단일 우도-기능을 갖는 확률 분포에 존재한다.[53][54]그러한 절차 중 하나는 평균 편중 추정기에 대한 Rao-Blackwell 절차의 아날로그다.이 절차는 Rao—Blackwell 절차보다 더 작은 종류의 확률 분포를 유지하지만 더 큰 종류의 손실 함수를 유지한다.[55]

역사

고대 근동의 과학 연구자들은 요약 통계를 완전히 사용하지 않고, 대신에 다양한 현상을 통합한 더 넓은 이론으로 최대의 일관성을 제공하는 값을 선택한 것으로 보인다.[56]지중해(그리고 후에 유럽) 학계에서는 평균과 같은 통계는 근본적으로 중세적이고 초기 근대적 발전이다.(유럽 밖의 중앙분리대와 그 전임자들의 역사는 비교적 미개한 상태로 남아 있다.)

중앙분리대의 사상은 13세기에 탈무드에 나타나, 상이한 평가를 공정하게 분석하기 위해서였다.[57][58]그러나 이 개념은 더 넓은 과학계에도 확산되지 않았다.

대신 현대 중앙분리대의 가장 가까운 조상은 알비루니가 발명한 중거리다.[59]: 31 [60]알비루니의 작품이 후기 학자들에게 전해지는 것은 불분명하다.알-비루니는 금속을 분석하는 데 그의 기술을 적용했지만, 그가 그의 작품을 발표한 후 대부분의 분석가들은 여전히 그들이 부정행위를 하는 것처럼 보이지 않도록 그들의 결과로부터 가장 불리한 가치를 채택했다.[59]: 35–8 그러나, 발견의 시대 동안 바다에서 항행의 증가는 배의 항해자들이 점점 더 적대적인 해안에 대항하는 불리한 날씨에서 위도를 측정하려고 시도해야 한다는 것을 의미했고, 요약 통계에 대한 새로운 관심으로 이어졌다.재발견된 것인지, 독자적으로 발명된 것인지, 그 중간 범위는 해리엇의 "Raleigh's Boyage to Guiana, 1595"[59]: 45–8 에서 항해자들에게 항해할 것을 권고한다.

중앙분리대의 아이디어는 나침반 항법에 관한 섹션의 에드워드 라이트의 1599년 책 '항행에서 확실한 오류'에 처음 등장했을지도 모른다.Wright는 측정된 값들을 버리기를 꺼렸고, 중간 범위보다 데이터 집합의 더 큰 비율을 포함하는 중위수가 더 정확하다고 느꼈을 수도 있다.그러나 라이트는 자신의 테크닉의 사용 사례를 제시하지 않아 중앙분리대의 현대적 개념을 기술했는지 검증하기 어려웠다.[56][60][b](확률의 맥락에서) 중위수는 크리스티아안 후이겐스의 대응에서 분명히 나타났지만, 보험수리적 관행에 부적합한 통계의 예로서 나타났다.[56]

중위수의 초기 권고는 로저 조셉 보스코비치L1 규범에 기초한 회귀법을 개발하여 중위수에 암묵적인 방법을 개발한 1757년으로 거슬러 올라간다.[56][61]1774년 라플레이스는 이러한 욕구를 분명히 했다: 그는 중앙분리대를 후방 PDF 값의 표준 추정기로 사용할 것을 제안했다.구체적인 기준은 오차의 예상 크기를 최소화하는 것이었다. - α α α αα α α α α α - 여기서 ααα - \display 는 추정치, \alpha 참 값이다.이를 위해 라플레이스는 1800년대 초 표본 평균과 표본 중위수의 분포를 모두 결정했다.[26][62] 10년 후 가우스레전드레(- ) 2 {\ 최소 제곱법을 개발하여 평균을 구했다.회귀의 맥락 안에서 가우스와 레전드레의 혁신은 훨씬 더 쉬운 계산을 제공한다.결과적으로, 라플레이스의 제안은 일반적으로 150년 후 컴퓨팅 장치가 부상할 때까지 거부되었다(그리고 여전히 비교적 흔하지 않은 알고리즘이다).[63]

1843년 Antoine Augustin Cournot은 확률 분포를 두 등분할하는 값에 중위수(valur médiane)라는 용어를 처음[64] 사용했다.구스타프 테오도르 페슈너는 사회학적, 심리학적 현상에 중앙값(Centralwerth)을 사용했다.[65]그것은 일찍이 천문학이나 관련 분야에서만 사용되었다.구스타프 페치너는 이전에 라플레이스가 사용했음에도 불구하고 중앙분리대를 공식적인 데이터 분석으로 대중화시켰고,[65] 중앙분리대는 F. Y. 엣지워스의 교과서에 나타났다.[66]프란시스 갈튼은 1881년에 영어의 중위수라는 용어를 사용했고,[67][68] 일찍이 1869년에는 중간값이라는 용어를, 1880년에는 중간값이라는 용어를 사용했다.[69][70]

통계학자들은 직관적인 명확성과 수작업 계산의 용이성을 위해 19세기 전반에 걸쳐 중용을 강하게 권장했다.그러나 중위수의 개념은 산술 평균처럼 높은 모멘트 이론에 도움이 되지 않으며 컴퓨터로 계산하기가 훨씬 어렵다.그 결과, 중위수는 20세기 동안 산술 평균에 의한 일반 평균의 개념으로 꾸준히 대체되었다.[56][60]

참고 항목

메모들

  1. ^ 기하학적 중위수는 표본이 시준되지 않는 한 고유하다.[39]
  2. ^ 이후의 학자들은 Boroughs의 1580 수치는 중앙값을 연상시키지만 사실 산술적 평균을 묘사한다는 아이젠하트에 동의하는 것으로 보인다.[59]: 62–3 자치구는 다른 어떤 일에서도 언급되지 않는다.

참조

  1. ^ a b Weisstein, Eric W. "Statistical Median". MathWorld.
  2. ^ Simon, Laura J.; "설명 통계" 2010-07-30년 펜실베이니아 주 통계부 웨이백 머신보관
  3. ^ David J. Sheskin (27 August 2003). Handbook of Parametric and Nonparametric Statistical Procedures: Third Edition. CRC Press. pp. 7–. ISBN 978-1-4200-3626-8. Retrieved 25 February 2013.
  4. ^ Derek Bissell (1994). Statistical Methods for Spc and Tqm. CRC Press. pp. 26–. ISBN 978-0-412-39440-9. Retrieved 25 February 2013.
  5. ^ {{nm 웹ur=http://www.amstat.org/publications/jse/v13n2/vonhippel.html%7Ctitle=Mean, Medium, Skew: 교과서 규칙 저널 수정=통계 교육 저널, v13n2 작성자=Paul T. von Hipel 해=2005}
  6. ^ Robson, Colin (1994). Experiment, Design and Statistics in Psychology. Penguin. pp. 42–45. ISBN 0-14-017648-9.
  7. ^ a b Williams, D. (2001). Weighing the Odds. Cambridge University Press. p. 165. ISBN 052100618X.
  8. ^ Maindonald, John; Braun, W. John (2010-05-06). Data Analysis and Graphics Using R: An Example-Based Approach. Cambridge University Press. p. 104. ISBN 978-1-139-48667-5.
  9. ^ "AP Statistics Review - Density Curves and the Normal Distributions". Archived from the original on 8 April 2015. Retrieved 16 March 2015.
  10. ^ 뉴먼, 마크 EJ. "전력법, 파레토 분포, 자이프의 법칙"현대 물리학 46.5 (2005): 323–351.
  11. ^ Stroock, Daniel (2011). Probability Theory. Cambridge University Press. pp. 43. ISBN 978-0-521-13250-3.
  12. ^ 안드레 니콜라스(https://math.stackexchange.com/users/6312/andr%c3%a9-nicolas),중위수: 절대 편차의 합계 최소화($ {L}_{1}$ Norm), URL(버전: 2012-02-25): https://math.stackexchange.com/q/113336
  13. ^ Stephen A. Book; Lawrence Sher (1979). "How close are the mean and the median?". he Two-Year College Mathematics Journal. 10 (3): 202–204. Retrieved 12 March 2022.
  14. ^ Warren Page; Vedula N. Murty (1982). "Nearness Relations Among Measures of Central Tendency and Dispersion: Part 1". The Two-Year College Mathematics Journal. 13 (5): 315–327. Retrieved 12 March 2022.
  15. ^ O'Cinneide, Colm Art (1990). "The mean is within one standard deviation of any median". The American Statistician. 44 (4): 292–293. Retrieved 12 March 2022.
  16. ^ Mallows, Colin (August 1991). "Another comment on O'Cinneide". The American Statistician. 45 (3): 257. doi:10.1080/00031305.1991.10475815.
  17. ^ Piché, Robert (2012). Random Vectors and Random Sequences. Lambert Academic Publishing. ISBN 978-3659211966.
  18. ^ Kemperman, Johannes H. B. (1987). Dodge, Yadolah (ed.). "The median of a finite measure on a Banach space: Statistical data analysis based on the L1-norm and related methods". Papers from the First International Conference Held at Neuchâtel, August 31–September 4, 1987. Amsterdam: North-Holland Publishing Co.: 217–230. MR 0949228.
  19. ^ Milasevic, Philip; Ducharme, Gilles R. (1987). "Uniqueness of the spatial median". Annals of Statistics. 15 (3): 1332–1333. doi:10.1214/aos/1176350511. MR 0902264.
  20. ^ K.Van Steen Notes 확률 및 통계
  21. ^ Basu, S.; Dasgupta, A. (1997). "The Mean, Median, and Mode of Unimodal Distributions:A Characterization". Theory of Probability and Its Applications. 41 (2): 210–223. doi:10.1137/S0040585X97975447. S2CID 54593178.
  22. ^ Merkle, M. (2005). "Jensen's inequality for medians". Statistics & Probability Letters. 71 (3): 277–281. doi:10.1016/j.spl.2004.11.010.
  23. ^ Alfred V. Aho and John E. Hopcroft and Jeffrey D. Ullman (1974). The Design and Analysis of Computer Algorithms. Reading/MA: Addison-Wesley. ISBN 0-201-00029-6. 여기서: 섹션 3.6 "주문 통계", 페이지 97-99, 특히 알고리즘 3.6 및 정리 3.9.
  24. ^ Bentley, Jon L.; McIlroy, M. Douglas (1993). "Engineering a sort function". Software: Practice and Experience. 23 (11): 1249–1265. doi:10.1002/spe.4380231105. S2CID 8822797.
  25. ^ Rousseeuw, Peter J.; Bassett, Gilbert W. Jr. (1990). "The remedian: a robust averaging method for large data sets" (PDF). J. Amer. Statist. Assoc. 85 (409): 97–104. doi:10.1080/01621459.1990.10475311.
  26. ^ a b Stigler, Stephen (December 1973). "Studies in the History of Probability and Statistics. XXXII: Laplace, Fisher and the Discovery of the Concept of Sufficiency". Biometrika. 60 (3): 439–445. doi:10.1093/biomet/60.3.439. JSTOR 2334992. MR 0326872.
  27. ^ Rider, Paul R. (1960). "Variance of the median of small samples from several special populations". J. Amer. Statist. Assoc. 55 (289): 148–150. doi:10.1080/01621459.1960.10482056.
  28. ^ Efron, B. (1982). The Jackknife, the Bootstrap and other Resampling Plans. Philadelphia: SIAM. ISBN 0898711797.
  29. ^ Shao, J.; Wu, C. F. (1989). "A General Theory for Jackknife Variance Estimation". Ann. Stat. 17 (3): 1176–1197. doi:10.1214/aos/1176347263. JSTOR 2241717.
  30. ^ Efron, B. (1979). "Bootstrap Methods: Another Look at the Jackknife". Ann. Stat. 7 (1): 1–26. doi:10.1214/aos/1176344552. JSTOR 2958830.
  31. ^ Hall, P.; Martin, M. A. (1988). "Exact Convergence Rate of Bootstrap Quantile Variance Estimator". Probab Theory Related Fields. 80 (2): 261–268. doi:10.1007/BF00356105. S2CID 119701556.
  32. ^ Jiménez-Gamero, M. D.; Munoz-García, J.; Pino-Mejías, R. (2004). "Reduced bootstrap for the median". Statistica Sinica. 14 (4): 1179–1198.
  33. ^ Maindonald, John; John Braun, W. (2010-05-06). Data Analysis and Graphics Using R: An Example-Based Approach. ISBN 9781139486675.
  34. ^ a b c Hettmansperger, Thomas P.; McKean, Joseph W. (1998). Robust nonparametric statistical methods. Kendall's Library of Statistics. Vol. 5. London: Edward Arnold. ISBN 0-340-54937-8. MR 1604954.
  35. ^ 작음, 크리스토퍼 G. "다차원적 중환자 조사"국제통계검토/Revue Internationale de Statistic(1990): 263–277. doi:10.2307/1403809 JSTOR 1403809
  36. ^ 니이니마아, A, H. 오자. "다변량 중위수."통계과학 백과사전(1999년).
  37. ^ 모슬러, 칼다변량 분산, 중앙 영역 및 깊이:리프트 조노이드 접근법.제165권. 스프링거 사이언스 & 비즈니스 미디어, 2012.
  38. ^ 푸리, 마단 L.; 센, 프라납 K.;다변량 분석의 비모수적 방법, 뉴욕, 뉴욕, 1971. (Krieger 출판사 리퍼레이트)
  39. ^ Vardi, Yehuda; Zhang, Cun-Hui (2000). "The multivariate L1-median and associated data depth". Proceedings of the National Academy of Sciences of the United States of America. 97 (4): 1423–1426 (electronic). Bibcode:2000PNAS...97.1423V. doi:10.1073/pnas.97.4.1423. MR 1740461. PMC 26449. PMID 10677477.
  40. ^ Davis, Otto A.; DeGroot, Morris H.; Hinich, Melvin J. (January 1972). "Social Preference Orderings and Majority Rule" (PDF). Econometrica. 40 (1): 147–157. doi:10.2307/1909727. JSTOR 1909727. 고유성이 가정된 주제에 대해 작업하는 저자들은 실제로 "모든 방향에서 고유한 중위수"라는 표현을 사용한다.
  41. ^ Pratt, William K.; Cooper, Ted J.; Kabir, Ihtisham (1985-07-11). Corbett, Francis J (ed.). "Pseudomedian Filter". Architectures and Algorithms for Digital Image Processing II. 0534: 34. Bibcode:1985SPIE..534...34P. doi:10.1117/12.946562. S2CID 173183609.
  42. ^ Oja, Hannu (2010). Multivariate nonparametric methods with R: An approach based on spatial signs and ranks. Lecture Notes in Statistics. Vol. 199. New York, NY: Springer. pp. xiv+232. doi:10.1007/978-1-4419-0468-3. ISBN 978-1-4419-0467-6. MR 2598854.
  43. ^ Wilcox, Rand R. (2001), "Theil–Sen estimator", Fundamentals of Modern Statistical Methods: Substantially Improving Power and Accuracy, Springer-Verlag, pp. 207–210, ISBN 978-0-387-95157-7.
  44. ^ Wald, A. (1940). "The Fitting of Straight Lines if Both Variables are Subject to Error" (PDF). Annals of Mathematical Statistics. 11 (3): 282–300. doi:10.1214/aoms/1177731868. JSTOR 2235677.
  45. ^ Nair, K. R.; Shrivastava, M. P. (1942). "On a Simple Method of Curve Fitting". Sankhyā: The Indian Journal of Statistics. 6 (2): 121–132. JSTOR 25047749.
  46. ^ Brown, G. W.; Mood, A. M. (1951). "On Median Tests for Linear Hypotheses". Proc Second Berkeley Symposium on Mathematical Statistics and Probability. Berkeley, CA: University of California Press. pp. 159–166. Zbl 0045.08606.
  47. ^ Tukey, J. W. (1977). Exploratory Data Analysis. Reading, MA: Addison-Wesley. ISBN 0201076160.
  48. ^ Brown, George W. (1947). "On Small-Sample Estimation". Annals of Mathematical Statistics. 18 (4): 582–585. doi:10.1214/aoms/1177730349. JSTOR 2236236.
  49. ^ Lehmann, Erich L. (1951). "A General Concept of Unbiasedness". Annals of Mathematical Statistics. 22 (4): 587–592. doi:10.1214/aoms/1177729549. JSTOR 2236928.
  50. ^ Birnbaum, Allan (1961). "A Unified Theory of Estimation, I". Annals of Mathematical Statistics. 32 (1): 112–135. doi:10.1214/aoms/1177705145. JSTOR 2237612.
  51. ^ van der Vaart, H. Robert (1961). "Some Extensions of the Idea of Bias". Annals of Mathematical Statistics. 32 (2): 436–447. doi:10.1214/aoms/1177705051. JSTOR 2237754. MR 0125674.
  52. ^ Pfanzagl, Johann; with the assistance of R. Hamböker (1994). Parametric Statistical Theory. Walter de Gruyter. ISBN 3-11-013863-8. MR 1291393.
  53. ^ 판자글, 요한"불편한 매개변수가 있는 최적의 중위수 불편 추정기"통계 연보(1979년): 187–193.
  54. ^ Brown, L. D.; Cohen, Arthur; Strawderman, W. E. (1976). "A Complete Class Theorem for Strict Monotone Likelihood Ratio With Applications". Ann. Statist. 4 (4): 712–722. doi:10.1214/aos/1176343543.
  55. ^ Page; Brown, L. D.; Cohen, Arthur; Strawderman, W. E. (1976). "A Complete Class Theorem for Strict Monotone Likelihood Ratio With Applications". Ann. Statist. 4 (4): 712–722. doi:10.1214/aos/1176343543.
  56. ^ a b c d e Bakker, Arthur; Gravemeijer, Koeno P. E. (2006-06-01). "An Historical Phenomenology of Mean and Median". Educational Studies in Mathematics. 62 (2): 149–168. doi:10.1007/s10649-006-7099-8. ISSN 1573-0816. S2CID 143708116.
  57. ^ Adler, Dan (31 December 2014). "Talmud and Modern Economics". Jewish American and Israeli Issues. Archived from the original on 6 December 2015. Retrieved 22 February 2020.
  58. ^ 이이스라엘 아우만탈무드 현대경제론
  59. ^ a b c d Eisenhart, Churchill (24 August 1971). The Development of the Concept of the Best Mean of a Set of Measurements from Antiquity to the Present Day (PDF) (Speech). 131st Annual Meeting of the American Statistical Association. Colorado State University.
  60. ^ a b c "How the Average Triumphed Over the Median". Priceonomics. Retrieved 2020-02-23.
  61. ^ Stigler, S. M. (1986). The History of Statistics: The Measurement of Uncertainty Before 1900. Harvard University Press. ISBN 0674403401.
  62. ^ 라플라스 PS de (1818) Deuxieme supplément á la Théory 분석 des Provabilités, 파리, 쿠르시어
  63. ^ Jaynes, E.T. (2007). Probability theory : the logic of science (5. print. ed.). Cambridge [u.a.]: Cambridge Univ. Press. p. 172. ISBN 978-0-521-59271-0.
  64. ^ Howarth, Richard (2017). Dictionary of Mathematical Geosciences: With Historical Notes. Springer. p. 374.
  65. ^ a b 케인즈, J.M. (1921) 확률론.Pt II Ch XVII §5 (p 201) (2006 재인쇄, Cosimo Classic, ISBN 9781596055308 : 여러 개의 기타 재인쇄)
  66. ^ Stigler, Stephen M. (2002). Statistics on the Table: The History of Statistical Concepts and Methods. Harvard University Press. pp. 105–7. ISBN 978-0-674-00979-0.
  67. ^ Galton F (1881) "인체측정학 위원회 보고서" 페이지 245–260.제51차 영국 과학진흥협회 회의 보고
  68. ^ David, H. A. (1995). "First (?) Occurrence of Common Terms in Mathematical Statistics". The American Statistician. 49 (2): 121–133. doi:10.2307/2684625. ISSN 0003-1305. JSTOR 2684625.
  69. ^ encyclopediaofmath.org
  70. ^ personal.psu.edu

외부 링크

이 글에는 크리에이티브 커먼즈 귀속/공유-알리케 라이센스에 따라 라이센스가 부여된 PlanetMath 분포의 중위수 자료가 통합되어 있다.