퀀틸레

Quantile
사분위수가 표시된 정규 분포의 확률 밀도. 적색 곡선 아래의 영역은 간격(-35,Q1), (Q1,Q23), (Q23,+∞)이 같다.

통계량확률에서, 분량확률 분포범위를 동일한 확률로 연속적인 구간으로 나누거나 표본관측치를 같은 방식으로 나누는 절단점이다. 생성된 그룹 수보다 1분위수가 적다. 공통분위는 사분위수(4개 그룹), 십분위수(10개 그룹), 백분위수(100개 그룹)와 같은 특수한 이름을 가지고 있다. 생성된 그룹은 절반, 3분의 1, 4분의 1 등으로 불리지만, 때로는 절토점이 아닌 생성된 그룹에 대한 용어가 사용된다.

q-분할유한한 값의 집합을 (일반적으로) 동일한 크기의 q 하위 집합으로 분할하는 값이다. q-Quantiles에는 q - 1있으며, 0 < k < q를 만족하는 정수 k마다 1개씩 있다. 어떤 경우에는 짝수 크기 집합의 균일한 확률 분포의 중위수(2-Quantile)에 대한 경우와 같이 q-Quantile의 값이 고유하게 결정되지 않을 수 있다. 계량형 분포는 연속형 분포에도 적용할 수 있으며, 연속형 변수에 대한 순위 통계량을 일반화하는 방법을 제공한다(백분위수 순위 참조). 랜덤 변수누적 분포 함수가 알려진 경우, q-Q는 값 {1/q, 2/q, … (q - 1)/q}에 수량 함수(누적 분포 함수의 역 함수)를 적용하는 것이다.

전문 수량

일부 q-Quantiles에는 다음과 같은 특수 이름이 있다.[citation needed]

  • 유일한 2분위는 중위수라고 불린다.
  • 3분위수를 tertiles 또는 tercilles → T
  • 4분위는 사분위수 → Q라고 하는데, 상분위와 하분위수 사이의 차이를 사분위수 범위, 중간스프레드 또는 중간 50 → IQR = Q - Q라고도31 한다.
  • 5분위수를 5분위수 → QU라고 한다.
  • 6분위수를 6분위수 → S라고 한다.
  • 7분위수를 분쇄기라 한다.
  • 8분위수를 8분위수라고 한다.
  • 10분위수를 십분위수 → D라고 한다.
  • 12분위는 듀오 데실트 또는 도데실트라고 불린다.
  • 16분위는 육각형 → H라고 한다.
  • 20분위는 환풍기, Vigintile, demi-deciles → V
  • 100분위수를 백분위수 → P라고 한다.
  • 1000 Qantiles는 permille 또는 mililes라고 불렸지만 이것들은 드물고 대부분 구식이다[1].

모집단의 수량

예를 들어, 표준 편차의 계산에서와 같이, 퀀텀의 추정은 통계 모집단으로 작동하는지 또는 통계 모집단에서 추출한 표본으로 작동하는지 여부에 따라 달라진다. 모집단의 경우, 이산형 값 또는 연속적인 모집단 밀도의 경우 k번째 q-Qantile은 누적 분포 함수가 k/q를 교차하는 데이터 값이다. 즉, x는 변수 X의 k번째 q-quantile이다.

Pr[X < x] k/q 또는 동등하게 Pr[Xx] ≥ 1 - k/q

그리고

Pr[Xx] ≥ k/q.

그것x가 Pr[X ] x] / k/q와 같은 가장 작은 값이라고 말하는 것과 같다. 지수화된 1, …, 가장 낮은 값부터 가장 높은 값까지 N의 유한 모집단의 경우, 이 모집단의 k번째 q-Q-Q는 Ip = N k/q 값을 통해 동등하게 계산할 수 있다. p 정수가 아닌 경우 다음 정수로 반올림하여 적절한 인덱스를 얻으십시오. 해당 데이터 값은 k-th q-quantile이다. 반면에, p 정수일 경우, 그 지수에서 데이터 값에서 다음 지수까지의 어떤 숫자도 퀀텀으로 취할 수 있으며, 그 두 값의 평균을 취하는 것은 (임의적이기는 하지만) 관습적이다(표본에서 퀀텀 마일 추정 참조).

정수 kq를 사용하는 대신 "p-quantile"이 0 < p < 1로 실제 숫자 p에 기초한다면, 위의 공식에서 pk/q를 대체한다.광범위한 용어는 연속 확률 분포를 모수화하기 위해 정량형을 사용할 때 사용된다. 더욱이 일부 소프트웨어 프로그램(마이크로소프트 엑셀 포함)은 최소와 최대를 각각 0번째와 100번째 백분위수로 간주한다. 그러나, 이 더 넓은 용어는 전통적인 통계 정의를 넘어선 확장이다.

다음 두 가지 예는 반올림과 함께 퀀텀의 가장 가까운 순위 정의를 사용한다. 이 정의에 대한 설명은 백분위수를 참조하십시오.

짝수 인구

데이터 값 {3, 6, 7, 8, 8, 10, 13, 15, 16, 20}의 순서 모집단을 고려하십시오. 이 데이터 집합의 4분위수("사분위수")는 무엇인가?

사분위수 계산 결과
제롯 사분위수 보편적으로 받아들여지지는 않지만, 제롯 사분위수를 말할 수도 있다. 이것은 세트의 최소값이기 때문에 이 예에서 제롯 사분위수는 3이 될 것이다. 3
제1 사분위수 제1 사분위의 순위는 10×(1/4) = 2.5로, 3까지 반올림하는데, 이는 3이 (최소값부터 최대값까지) 모집단의 순위라는 뜻으로, 값의 약 1/4이 제1 사분위의 값보다 작다. 인구의 세 번째 값은 7이다. 7
제2 사분위수 제2 사분위수(중앙값과 동일)의 순위는 10×(2/4) = 5인 정수인 반면, 값의 수(10)는 짝수이므로 (8+10)/2 = 9인 다섯 번째와 여섯 번째 값의 평균은 모두 취하되, (8+10)/2 = 9까지는 중위값으로 취할 수 있다. 9
제3 사분위수 3 사분위의 등급은 10×(3/4) = 7.5로, 8까지 반올림한다. 인구의 8번째 값은 15이다. 15
사분위수 보편적으로 받아들여지지는 않았지만 4분위기를 말할 수도 있다. 이것은 집합의 최대값이기 때문에 이 예에서 4분위는 20일 것이다. 퀀텀의 가장 가까운 순위 정의에 따르면 4분위수는 가장 큰 숫자의 순위가므로 4분위수는 10이 된다. 20

따라서 데이터 집합 {3, 6, 7, 8, 8, 10, 13, 15, 16, 20}의 첫 번째, 두 번째 및 세 번째 4분위수("사분위수")는 {7, 9, 15, 15, 20}이다. 또한 필요한 경우 제롯 사분위는 3이고 제4 사분위는 20이다.

홀수규모인구

11개의 데이터 값 {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20의 순서 모집단을 고려하십시오. 이 데이터 집합의 4분위수("사분위수")는 무엇인가?

사분위수 계산 결과
제롯 사분위수 보편적으로 받아들여지지는 않지만, 제롯 사분위수를 말할 수도 있다. 이것은 세트의 최소값이기 때문에 이 예에서 제롯 사분위수는 3이 될 것이다. 3
제1 사분위수 제1 사분위수는 11×(1/4) = 2.75로 결정되며, 3은 (최소값부터 최대값까지) 모집단의 순위로서, 값의 약 1/4이 제1 사분위수 값보다 작다. 인구의 세 번째 값은 7이다. 7
제2 사분위수 두 번째 사분위수 값(중앙값과 동일)은 최대 6까지 반올림하는 11×(2/4) = 5.5로 결정된다. 따라서 6은 모집단의 순위(최소값부터 최대값까지)로, 값의 약 2/4가 제2 사분위수(또는 중위수) 값보다 작다. 인구의 6번째 값은 9이다. 9
제3 사분위수 위의 원래 예에 대한 제3 사분위수 값은 11×(3/4) = 8.25로 결정되며, 이 값은 9까지 반올림된다. 인구의 9번째 값은 15이다. 15
사분위수 보편적으로 받아들여지지는 않았지만 4분위기를 말할 수도 있다. 이것은 집합의 최대값이기 때문에 이 예에서 4분위는 20일 것이다. 퀀텀의 가장 가까운 순위 정의에 따르면 4분위수는 가장 큰 숫자의 순위가므로 4분위수는 11이 된다. 20

따라서 데이터 집합 {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20}의 첫 번째, 두 번째 및 세 번째 4분위수("사분위수")는 {7, 9, 15, 15, 20}이다. 또한 필요한 경우 제롯 사분위는 3이고 제4 사분위는 20이다.

평균과의 관계

정밀하게 많은 값에 대한 모집단 확률 분포와 일반적으로 평균과 분산이 있는 확률 분포에 대해 다음과 같은 경우가 있다.

여기서 Qp 0 < p < 1에 대한 p-Q (또는 동등하게 p = k/q에 대한 k-th q-q q q-q의 경우 k-th q q-q)이며, 여기서 μ는 분포의 산술 평균이고, 여기서 σ은 분포의 표준 편차다.[2] 특히 중위수(p = k/q = 1/2)는 결코 평균에서 표준 편차를 두 개 이상 초과하지 않는다.

표본에서 분량 추정

자주 발생하는 한 가지 문제는 크기 N의 유한한 표본을 바탕으로 (매우 크거나 무한한) 모집단의 퀀텀을 추정하는 것이다.

p-th 표본 quantile의 점증적 는 잘 알려져 있다:p {\ p -th 모집단 quantile 주위에 점증적으로 정규적이며 분산이 다음과 같다.

여기서 f(xp)는 p-th 모집단의 분포 밀도 값이다.[3] 그러나, 이 분포는 인구 분포에 대한 지식에 의존한다; 이것은 우리가 추정하려고 하는 인구 분량에 대한 지식에 해당한다! 따라서 현대의 통계 패키지는 다른 기술(또는 기법의 선택)에 의존하여 정량을 추정한다.

힌드만과 팬은 다양한 소프트웨어 패키지가 사용하는 9개의[4] 알고리즘을 분류법으로 정리했다. 모든 방법은 실제 가치 지수 h를 계산하여 크기 N의 표본으로부터 p-Q(k-th q-quantile, 여기서 p = k/q)에 대한 추정치인 Qp 계산한다. h가 정수일 때 N 중 h-th번째로 작은 값인 xh 정량 추정치다. 그렇지 않으면 반올림 또는 보간 방식을 사용하여 h, xhxh 정량 추정치를 계산한다(표기법은 바닥천장 함수 참조).

처음 3개는 조각상수로 각 데이터 지점에서 갑자기 변경되는 반면 마지막 5개는 데이터 지점 간 선형 보간법을 사용하며, 조각상 선형 보간 곡선을 따라 점을 선택하는 데 사용된 지수 h의 방법만 다르다.

매스매티카,[6] 매트랩,[5] R, GNU[7] 옥타브[8] 프로그래밍 언어는 9가지 샘플 퀀텀마일 방법을 모두 지원한다. SAS는 5가지 샘플 퀀텀밀 방법을 포함하며, SciPy[9] Maple[10] 모두 8개, EViews[11] 6개 조각의 선형 함수를 포함하며, Stata[12] 2개, Python[13] 2개, Microsoft Excel은 2개를 포함한다. Mathematica와 SciPy는 다른 비표준적인 방법을 허용하는 방법에 대해 임의의 매개변수를 지원한다.

사용된 추정 유형 및 보간 방법에는 다음이 포함된다.

유형 h Qp 메모들
R-1, SAS-3, 메이플-1 Np + 1/2 xh – 1/2⌉ 경험적 분포 함수의 역.
R-2, SAS-5, Maple-2, Stata Np + 1/2 (xh – 1/2⌉ + xh + 1/2⌋) / 2 R-1과 동일하지만 평균은 불연속이다.
R-3, SAS-2 Np x⌊⌉ 관측치는 Np에 가장 가까운 숫자로 표시되었다. 여기서 h은 가장 가까운 정수로 반올림을 나타내며, 동점일 경우 짝수 정수를 선택한다.
R-4, SAS‑1, SciPy‑(0,1)), Maple‑3 Np xh + (h - ⌊h) (xh - xh) 경험적 분포 함수의 선형 보간.
R-5, SciPy‑(1/2,1/2), Maple‑4 Np + 1/2 경험적 분포 함수의 단계를 통해 노트가 값의 중간인 부분적 선형 함수.
R‑6, Excel, Python, SAS‑4, SciPy‑(0,0), Maple‑5, Stata-altdef (N + 1)p [0,1]의 균등 분포에 대한 주문 통계량에 대한 기대치의 선형 보간. 즉, 점 사이h 선형 보간(ph, x)이며, 여기h p = h/(N+1)는 임의로 그려진 마지막 값(N+1)이 임의로 그려진 첫 번째 N 값 중 h번째 최소값을 초과하지 않을 확률이다.
R-7, Excel, Python, SciPy‑(1,1), Maple‑6, NumPy, Julia (N − 1)p + 1 [0,1]의 균등 분포에 대한 주문 통계 모드의 선형 보간
R-8, SciPy-(1/3,1/3), Maple-7 (N + 1/3)p + 1/3 주문 통계량에 대한 대략적인 중위수의 선형 보간.
R-9, SciPy-(3/8, 3/8) Maple-8 (N + 1/4)p + 3/8 x가 정규 분포를 따르는 경우 결과로 도출된 정량적 추정치는 예상 주문 통계량에 대해 대략적으로 편중되지 않는다.

주의:

  • R-1 ~ R-3은 불연속성을 가진 조각상수다.
  • R-4와 다음은 불연속성이 없는 조각상 선형이지만 h를 계산하는 방법은 다르다.
  • R-3와 R-4p = 1/2일h = (N + 1) / 2를 주지 않는다는 점에서 대칭적이지 않다.
  • 엑셀의 백분위수.EXC와 Python의 기본 "독점" 방법은 R‑6과 동일하다.
  • Excel의 백분위수 및 백분위수.INC와 Python의 선택적 "포함" 방법은 R-7과 같다. 이것은 R의 기본 방법이다.
  • 패키지는 샘플에서 가장 낮은 값과 가장 높은 값, 즉 p < 1/Np > (N - 1)/N을 초과하는 수량 추정 방법에 차이가 있다. 선택 사항으로는 오류 값 반환, 선형 외삽 계산 또는 상수 값 가정 등이 있다.

기법 중 Hyndman과 Fan은 R-8을 추천하지만 대부분의 통계 소프트웨어 패키지는 R-6이나 R-7을 기본값으로 선택했다.[14]

일반적으로 분기 추정치의 표준 오차부트스트랩을 통해 추정할 수 있다. Maritz-Jarrett 방식도 사용할 수 있다.[15]

스트림의 대략적인 수량

스트림에서 도착하는 데이터로부터 대략적인 수량 계산은 압축된 데이터 구조를 사용하여 효율적으로 수행될 수 있다. 가장 인기 있는 방법은 t-digest와[16] KLL이다.[17] 이러한 방법들은 연속적인 방식으로 가치의 흐름을 읽으며, 언제든지 지정된 분량량의 대략적인 값에 대해 쿼리할 수 있다.

두 알고리즘 모두 동일한 값 또는 유사한 값을 가중치로 요약하여 값의 흐름을 압축하는 유사한 아이디어에 기초한다. 하천이 100배 v1과 100배 v2의 반복으로 이루어져 200개 원소의 정렬된 목록을 유지할 이유가 없다면, 2개의 원소와 2개의 계수를 유지하면 정량체를 회복할 수 있다. 값이 더 많으면, 이러한 알고리즘은 저장된 고유값의 수와 결과 정량화의 정밀도 사이의 절충을 유지한다. 일부 값은 스트림에서 폐기될 수 있으며, 수량 결과를 너무 많이 변경하지 않고 인근 값의 가중치에 기여할 수 있다. t-digest는 k-평균 군집화에 기초한 접근방식을 사용하여 유사한 값을 그룹화하는 반면, KLL은 오류 한계를 더 잘 제어하도록 하는 보다 정교한 "컴팩터" 방법을 사용한다.

두 방법 모두 유용한 속성이 있는 스트리밍 알고리즘의 하위 집합인 데이터 스케치 패밀리에 속하며, t-디지스트 또는 KLL 스케치를 조합할 수 있다. 값의 매우 큰 벡터에 대한 스케치를 계산하는 것은 벡터 분할을 병렬로 계산하고 나중에 병합하는 사소한 병렬 프로세스로 나눌 수 있다.

토론

예를 들어 표준화된 시험 결과는 일반적으로 "80번째 백분위수" 점수를 매기는 학생으로 보고된다. 이것은 (이 경우) 80번째 스칼라 백분위수와 81번째 스칼라 백분위수 사이의 간격으로서 백분위수라는 단어의 대체 의미를 사용한다.[18] 이와 같이 백분위수의 별도 의미는 동료가 검토한 과학 연구 논문에도 사용된다.[19] 사용된 의미는 그 맥락에서 파생될 수 있다.

분포가 대칭이면 중위수는 평균(후자가 존재하는 한)이다. 그러나 일반적으로 중위수와 평균은 다를 수 있다. 예를 들어, 지수 분포를 갖는 랜덤 변수의 경우, 이 랜덤 변수의 특정 표본은 평균보다 작을 확률이 약 63%가 될 것이다. 지수 분포는 양의 값에 대해서는 긴 꼬리를 가지지만 음수의 경우에는 0이기 때문이다.

계량형은 긴꼬리 분포와 특이치에 대한 평균보다 덜 취약하기 때문에 유용한 척도다. 경험적으로 분석 중인 데이터가 가정된 분포에 따라 실제로 분포되지 않거나 평균과 멀리 떨어져 있는 특이치에 대한 다른 잠재적 출처가 있는 경우, 분량은 평균 및 기타 모멘트 관련 통계량보다 더 유용한 기술 통계량이 될 수 있다.

밀접하게 관련된 것은 최소 절대 편차의 주제로서, 최소 제곱보다 특이치에 더 강한 회귀 방법으로서 관측된 오차의 절대값 합계가 오차 제곱 대신 사용된다. 연결은 평균이 기대 제곱 오차를 최소화하는 반면 중위수는 기대 절대 오차를 최소화하는 분포의 단일 추정치라는 것이다. 최소 절대 편차는 관측치를 벗어나는 큰 편차에 상대적으로 무감각할 수 있는 능력을 공유한다. 단, 강력한 회귀 분석의 더 나은 방법을 사용할 수 있다.

예를 들어, m변광성 X의 중위수인 경우, 특정 변동을 지정하기 위해 값의 범위에서 임의의 선택을 하지 않는 한, 2mX 2의 중위수라는 점에서, 변광성 변수의 분량은 증가하는 변환 하에서 보존된다. (그런 보간 예는 위 퀀텀 마일 추정 참조) 또한 순서형 데이터만 사용할 수 있는 경우에도 계량형 데이터를 사용할 수 있다.

참고 항목

참조

  1. ^ Helen Mary Walker, Joseph Lev, 기초 통계 방법, 1969년, [p. 60 https://books.google.com/books?id=ogYnAQAAIAAJ&dq=permille]
  2. ^ Bagui, S.; Bhaumik, D. (2004). "Glimpses of inequalities in probability and statistics" (PDF). International Journal of Statistical Sciences. 3: 9–15. ISSN 1683-5603.
  3. ^ Stuart, Alan; Ord, Keith (1994). Kendall's Advanced Theory of Statistics. London: Arnold. ISBN 0340614307.
  4. ^ Hyndman, Rob J.; Fan, Yanan (November 1996). "Sample Quantiles in Statistical Packages". American Statistician. American Statistical Association. 50 (4): 361–365. doi:10.2307/2684934. JSTOR 2684934.
  5. ^ Mathematica 설명서 '상세' 섹션 참조
  6. ^ "Quantile calculation". uk.mathworks.com.
  7. ^ Frohne, Ivan; Hyndman, Rob J. (2009). Sample Quantiles. R Project. ISBN 978-3-900051-07-5.
  8. ^ "Function Reference: quantile - Octave-Forge - SourceForge". Retrieved 6 September 2013.
  9. ^ "scipy.stats.mstats.mquantiles — SciPy v1.4.1 Reference Guide". docs.scipy.org.
  10. ^ "Statistics - Maple Programming Help". www.maplesoft.com.
  11. ^ "Archived copy". Archived from the original on April 16, 2016. Retrieved April 4, 2016.CS1 maint: 제목으로 보관된 복사본(링크)
  12. ^ pctile xtile 명령에 대한 Stata 문서 '방법 및 공식' 섹션을 참조하십시오.
  13. ^ "statistics — Mathematical statistics functions — Python 3.8.3rc1 documentation". docs.python.org.
  14. ^ Hyndman, Rob J. (28 March 2016). "Sample quantiles 20 years later". Hyndsignt blog. Retrieved 2020-11-30.
  15. ^ Wilcox, Rand R. (2010). Introduction to Robust Estimation and Hypothesis Testing. ISBN 978-0-12-751542-7.
  16. ^ Dunning, Ted; Ertl, Otmar (February 2019). "Computing Extremely Accurate Quantiles Using t-Digests". arXiv:1902.04023 [stat.CO].
  17. ^ Zohar Karnin, Kevin Lang, Edo Liberty (2016). "Optimal Quantile Approximation in Streams". arXiv:1603.05346 [cs.DS].CS1 maint: 작성자 매개변수 사용(링크)
  18. ^ "percentile". Oxford Reference. Retrieved 2020-08-17.
  19. ^ Kruger, J.; Dunning, D. (December 1999). "Unskilled and unaware of it: how difficulties in recognizing one's own incompetence lead to inflated self-assessments". Journal of Personality and Social Psychology. 77 (6): 1121–1134. doi:10.1037//0022-3514.77.6.1121. ISSN 0022-3514. PMID 10626367.
  20. ^ Stephen B. Vardeman (1992). "What about the Other Intervals?". The American Statistician. 46 (3): 193–197. doi:10.2307/2685212. JSTOR 2685212.

추가 읽기

외부 링크

  • Wikimedia Commons의 Quantiles 관련 미디어