사분위수

Quartile

통계에서 사분위수는 데이터 점의 수를 4개 부분 또는 4분의 1로 나눈 분량형이다. 사분위수를 계산하려면 데이터가 가장 작은 것부터 가장 큰 것까지 정렬되어야 한다. 따라서 사분위수는 순서 통계량의 한 형태다. 3개의 주요 사분위수는 다음과 같다.

  • 첫 번째 사분위수(Q1)는 가장 작은 수(최소 수)와 데이터 집합의 중위수 사이의 중간 수로 정의된다. 데이터의 25%가 이 지점 아래에 있기 때문에 하위 또는 25번째 경험적 사분위수라고도 한다.
  • 제2 사분위수(Q2)는 데이터 집합의 중위수로서 데이터의 50%가 이 지점 아래에 있다.
  • 제3 사분위수(Q3)는 데이터 집합의 중위수와 최고값(최대값) 사이의 중간값이다. 데이터의 75%가 이 지점 아래에 있기 때문에 상위 또는 75번째 경험 사분위수로 알려져 있다.[1]

데이터의 최소값과 최대값(사분위수라고도 함)과 함께 위에서 설명한 3분위수는 데이터에 대한 5자리 숫자의 요약을 제공한다. 이 요약은 데이터의 중심확산에 대한 정보를 제공하기 때문에 통계에서 중요하다. 하위 사분위수와 상위 사분위수를 알면 스프레드가 얼마나 큰지, 데이터 세트가 한쪽으로 치우쳐 있는지 알 수 있다. 사분위수는 데이터 포인트 수를 균등하게 나누기 때문에 사분위수 간(Q-Q32Q-Q21)의 범위가 같지 않고 대신 사분위간 범위(IQR)로 알려져 있다. 최대값과 최소값도 데이터의 산포를 나타내지만, 상·하분위는 특정 데이터 포인트의 위치, 데이터의 특이치의 존재, 데이터의 중간 50%와 외부 데이터 포인트 간의 산포 차이에 대해 보다 상세한 정보를 제공할 수 있다.[2]

정의들

상자 그림(사분위수 및 사분위간 범위 포함) 및 정규 N(0,1³2) 모집단의 확률 밀도 함수(pdf)
기호 이름 정의
Q1
  • 사분위수
  • 사분위수를 낮추다
  • 25번째 백분위수
가장 높은 75%에서 가장 낮은 25%의 데이터를 분리
Q2
데이터 세트를 반으로 줄이다
Q3
  • 사분위수
  • 사분위수 위
  • 75번째 백분위수
데이터의 상위 25%를 하위 75%에서 분리

컴퓨팅 방법

이산분포

이산형 분포의 경우 사분위수 값 선택에 대한 보편적 합의가 없다.[3]

방법 1

  1. 중위수를 사용하여 순서 데이터 집합을 2할로 분할하십시오.
    • 원래 순서 데이터 집합에 홀수 데이터 점이 있는 경우 중위수(순서된 리스트의 중심 값)를 두 개 모두 포함하지 마십시오.
    • 원래 정렬된 데이터 세트에 짝수 데이터 점이 있는 경우 이 데이터 세트를 정확히 절반으로 분할하십시오.
  2. 하위 사분위수 값은 데이터 하단의 중위수다. 사분위수 상한 값은 데이터의 상위 절반의 중위수다.

이 규칙은 TI-83 계산기 상자 그림 및 "1-Var 통계량" 함수에 의해 사용된다.

방법 2

  1. 중위수를 사용하여 순서 데이터 집합을 2할로 분할하십시오.
    • 원래 순서 데이터 집합에 홀수 데이터 점이 있는 경우 중위수(순서된 리스트의 중심 값)를 양쪽 절반으로 포함하십시오.
    • 원래 정렬된 데이터 세트에 짝수 데이터 점이 있는 경우 이 데이터 세트를 정확히 절반으로 분할하십시오.
  2. 하위 사분위수 값은 데이터 하단의 중위수다. 사분위수 상한 값은 데이터의 상위 절반의 중위수다.

이 방법에 의해 발견된 값을 "Tukey's hinge"라고도 한다.[4] midinge를 참조하십시오.

방법 3

  1. 데이터 점의 수가 짝수인 경우 방법 3은 위의 방법 중 하나와 동일하다.
  2. (4n+1) 데이터 점이 있는 경우, 하위 사분위수는 n번째 데이터 값의 75% + (n+1)번째 데이터 값의 25%이며, 상위 사분위수는 (3n+1)번째 데이터 포인트의 75% + (3n+2)번째 데이터 포인트의 25%이다.
  3. (4n+3) 데이터 점이 있는 경우, 하위 사분위수는 (n+1)번째 데이터 값에 (n+2)번째 데이터 값을 더한 값의 75%이고, 상위 사분위수는 (3n+2)번째 데이터 포인트의 25% + (3n+3)번째 데이터 포인트의 75%이다.

방법 4

데이터 집합 , . . . . . . n{n1}, ,를) 주문했다면 포인트 간에 보간하여 x / ( 1) )에 있는 경우 p 경험적 정량분석을 찾을 수 있다. 의 정수 부분을 [ 표시하면 경험적 계량함수는 다음과 같이 지정된다.

( p)= ( k)+ ( ( + )- ),

여기서 =[ ( + 1 ) k= (+ )-[(+ ) =[1]

데이터 집합의 첫 번째 사분위수, 두 번째 사분위수, 세 번째 사분위수를 찾기 위해 () (0.25.5 (75) 75을 각각 평가한다.

예 1

주문된 데이터 세트: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49

방법 1 방법 2 방법 3 방법 4
Q1 15 25.5 20.25 15
Q2 40 40 40 40
Q3 43 42.5 42.75 43

예 2

주문된 데이터 세트: 7, 15, 36, 39, 40, 41

데이터 포인트가 짝수인 만큼 처음 세 가지 방법은 모두 같은 결과를 준다.

방법 1 방법 2 방법 3 방법 4
Q1 15 15 15 13
Q2 37.5 37.5 37.5 37.5
Q3 40 40 40 40.25

연속 확률 분포

정규 분포의 누적 분포 함수에 대한 사분위수

연속 확률 분포() {\ 정의하면, X {\ X은(는) 실제 가치 랜덤 변수로서 누적 분포 함수(CDF)는 다음과 같이 주어진다.

( )= ( x) x[1].

CDF는 랜덤 X (가) x x보다 작을 확률을 제공한다 Therefore, the first quartile is the value of when , the second quartile is when , and the third quartile is when .[5] The values of can be found with the quantile function where for the first quartile, for the second quartile, and for the third quartile. 계량함수는 누적분포함수가 단조롭게 증가하는 경우 누적분포함수의 역함수다.

특이치

통계학 및 통계분석 분야의 특이치를 확인하는 방법이 있다. 특이치는 위치의 변화(평균) 또는 관심 과정의 척도(변수성)에서 기인할 수 있다.[6] 특이치는 비정규 분포를 갖는 표본 모집단 또는 오염된 모집단 데이터 집합의 증거가 될 수도 있다. 따라서 기술 통계량의 기본 개념처럼 특이치를 접했을 때 특이치의 원인과 원인에 대한 추가 분석을 통해 이 값을 설명해야 한다. 간헐적인 발생이 아닌 극단적 관측의 경우 대표적인 값을 분석해야 한다. 사분위의 경우 데이터를 왜곡하는 극단값이 있을 경우 사분위간 범위(IQR)를 사용하여 데이터를 특성화할 수 있다. 사분위간 범위범위표준 편차에 비해 상대적으로 강력한 통계량("저항"이라고도 함)이다. 특이치를 확인하고 특이치를 확인할 수 있는 상한과 하한을 결정하는 수학적 방법도 있다.

위에서 설명한 대로 제1 사분위수 및 제3 사분위수 범위와 사분위수간 범위를 결정한 후 다음 공식을 사용하여 펜스를 계산한다.

특이치가 있는 상자 그림 다이어그램

여기서 Q1 Q3 각각 제1 사분위수와 제3 사분위수다. 낮은 담장은 "하한"이고, 높은 담장은 데이터의 "상한"이며, 이러한 정의된 경계 밖에 놓여 있는 모든 데이터는 특이치라고 볼 수 있다. 하부 울타리 아래나 상부 울타리 위는 그러한 경우로 간주할 수 있다. 울타리는 특이치를 정의하기 위한 지침을 제공하며, 다른 방법으로 정의될 수 있다. 울타리는 특이치가 존재하는 바깥의 "범위"를 정의한다. 이를 그림으로 그릴 수 있는 방법은 울타리의 경계인데, 바깥은 특이치가 아닌 "외부"이다. 특이치와 함께 하단 담장과 상단 담장이 상자 그림으로 표현되는 것이 일반적이다. 상자 그림의 경우, 상자의 수평 폭은 관련이 없는 반면, 수직 높이만 시각화된 데이터 세트에 해당한다. 상자 그림의 울타리 외부에 위치한 특이치는 "x" 또는 "o"와 같은 기호를 선택하는 것으로 표시할 수 있다. 울타리를 "수염"이라고도 부르기도 하고, 전체 플롯 비주얼을 "수염" 플롯이라고 부르기도 한다.

사분위간 범위와 상자 그림 형상을 계산하여 데이터 집합에서 특이치를 발견할 경우 모집단이 비정규적이거나 표본이 오염되었다는 증거로 잘못 보는 것이 간단할 수 있다. 그러나 이 방법은 모집단의 정규성을 결정하기 위한 가설 검정을 수행해서는 안 된다. 특이치의 유의성은 표본 크기에 따라 다르다. 표본이 작으면 사분위간 범위가 비현상적으로 작아져 담장이 좁아질 가능성이 높다. 따라서 특이치로 표시된 데이터를 찾을 가능성이 더 높을 것이다.[7]

사분위수용 컴퓨터 소프트웨어

Excel:

Excel 함수는 주어진 데이터 배열에서 원하는 사분위수 값을 제공한다. 사분위수 함수에서 배열은 분석 중인 숫자의 데이터 집합이며, 계산되는 사분위수에 따라 사분위는 다음 5개 값 중 하나이다. [8]

쿼트 출력 사분위수 값
0 최소값
1 하위 사분위수(25번째 백분위수)
2 중앙값
3 상위 사분위수(75번째 백분위수)
4 최대값

매트랩:

Matlab에서 사분위수를 계산하기 위해서는 퀀텀일(A,p) 함수를 사용할 수 있다. 여기서 A는 분석 중인 데이터의 벡터, p는 아래에 명시된 사분위수와 관련된 백분율이다. [9]

p 출력 사분위수 값
0 최소값
0.25 하위 사분위수(25번째 백분위수)
0.5 중앙값
0.75 상위 사분위수(75번째 백분위수)
1 최대값

참고 항목

참조

  1. ^ Jump up to: a b c A modern introduction to probability and statistics : understanding why and how. Dekking, Michel, 1946–. London: Springer. 2005. pp. 234–238. ISBN 978-1-85233-896-1. OCLC 262680588.CS1 maint: 기타(링크)
  2. ^ Knoch, Jessica (February 23, 2018). "How are Quartiles Used in Statistics?". Magoosh Statistics Blog. Retrieved December 11, 2019.
  3. ^ Hyndman, Rob J; Fan, Yanan (November 1996). "Sample quantiles in statistical packages". American Statistician. 50 (4): 361–365. doi:10.2307/2684934. JSTOR 2684934.
  4. ^ Tukey, John Wilder (1977). Exploratory Data Analysis. ISBN 978-0-201-07616-5.
  5. ^ "6. Distribution and Quantile Functions" (PDF). math.bme.hu.
  6. ^ Walfish, Steven (November 2006). "A Review of Statistical Outlier Method". Pharmaceutical Technology.
  7. ^ Dawson, Robert (July 1, 2011). "How Significant is a Boxplot Outlier?". Journal of Statistics Education. 19 (2): null. doi:10.1080/10691898.2011.11889610.
  8. ^ "How to use the Excel QUARTILE function Exceljet". exceljet.net. Retrieved December 11, 2019.
  9. ^ "Quantiles of a data set – MATLAB quantile". www.mathworks.com. Retrieved December 11, 2019.

외부 링크