모드(통계정보)

Mode (statistics)

모드는 데이터 [1]값 집합에 가장 자주 나타나는 값입니다.X가 이산 랜덤 변수인 경우 모드는 확률 질량 함수가 최대값을 취하는 값 x(, X = x)입니다.즉, 이 값이 샘플링될 가능성이 가장 높은 값입니다.

통계 평균 중위수와 마찬가지로 모드는 랜덤 변수 또는 모집단에 대한 중요한 정보를 (일반적으로) 단일 숫자로 표현하는 방법입니다.모드의 숫자 값은 정규 분포의 평균 및 중위수와 동일하며 치우침이 심한 분포에서는 매우 다를 수 있습니다.

확률 질량 함수는 여러 1 x, x2 등에서 동일한 최대값을 취할 수 있으므로 이 모드는 주어진 이산 분포에 대해 반드시 고유할 필요는 없습니다.가장 극단적인 경우는 모든 값이 동일한 빈도로 발생하는 균일한 분포에서 발생합니다.

연속 분포의 확률 밀도 함수에 여러 의 국소 최대값이 있는 경우, 모든 국소 최대값을 분포의 모드로 참조하는 것이 일반적입니다.이러한 연속 분포를 (단일 분포가 아닌) 멀티모달이라고 합니다.연속확률분포의 모드는 종종 확률밀도함수가 국소적으로 최대값을 갖는 임의의 값 x로 간주되며, 따라서 임의의 피크가 하나의 [2]모드이다.

정규 분포와 같은 대칭 단일 분포에서는 평균(정의된 경우), 중위수 및 모드가 모두 일치합니다.표본의 경우 대칭 단일 모형 분포에서 추출된 것으로 알려진 경우 표본 평균을 모집단 모드의 추정치로 사용할 수 있습니다.

샘플 모드

샘플 모드는 컬렉션에서 가장 자주 발생하는 요소입니다.예를 들어 [1, 3, 6, 6, 6, 6, 6, 6, 6, 6, 7, 12, 12, 12, 17]의 모드는 6입니다. 데이터 목록이 주어지면 해당 모드는 고유하지 않습니다.이러한 경우 데이터 세트는 바이모달이라고 하며, 세 개 이상의 모드를 가진 세트는 멀티모달이라고 할 수 있습니다.

[0.935..., 1.211..., 2.430..., 3.668..., 3.874...]와 같은 연속 분포의 표본의 경우 두 값이 완전히 동일하지 않으므로 원시 형식에서는 개념을 사용할 수 없습니다. 따라서 각 값이 정확하게 한 번 발생합니다.기본 분포의 모드를 추정하기 위해서는 히스토그램 작성과 같이 동일한 거리의 간격에 빈도 값을 할당하여 데이터를 분리하여 할당된 간격의 중간점으로 효과적으로 값을 대체하는 것이 일반적입니다.모드는 히스토그램이 피크에 도달하는 값입니다.소형 또는 중간 크기 표본의 경우, 이 절차의 결과는 너무 좁거나 너무 넓은 경우 간격 폭 선택에 민감하다. 일반적으로 데이터의 상당 부분이 비교적 적은 수의 간격(5 ~ 10)에 집중되어야 하며, 이러한 간격을 벗어나는 데이터의 비율도 상당하다.대체 접근법은 커널 밀도 추정으로, 기본적으로 모드의 추정치를 제공할 수 있는 확률 밀도 함수의 연속적인 추정치를 생성하기 위해 점 샘플을 블러링한다.

다음 MATLAB(또는 옥타브) 코드 예는 샘플의 모드를 계산합니다.

X = 종류(x);                               % x는 열 벡터 데이터 세트입니다. 인덱스   =  발견하다(다르다([X; 리얼맥스]) > 0); 반복된 값이 변경되는 % 지수 [모드 L,i] =  맥스. (다르다([0; 인덱스]));     반복된 값의 최장 지속 길이(%) 모드      =  X(인덱스(i)); 

알고리즘에서는 첫 번째 단계로 샘플을 오름차순으로 정렬해야 합니다.그런 다음 정렬된 목록의 이산 도함수를 계산하고 이 도함수가 양수인 지수를 찾습니다.다음으로 이 지수 집합의 이산 도함수를 계산하여 이 지수 도함수의 최대값을 찾아내고, 최종적으로 최대값이 발생하는 지점에서 정렬된 표본을 평가하며, 이는 반복된 값의 마지막 구성원에 해당한다.

평균, 중위수 및 모드의 비교

임의 확률 밀도 [3]함수의 모드, 중위수 및 평균을 기하학적으로 시각화합니다.
{1, 2, 2, 3, 4, 7, 9} 값의 공통 평균 비교
유형 묘사 결과
산술 평균 데이터 집합의 값 합계를 값 수로 나눈 값 (1+2+2+3+4+7+9) / 7 4
중앙값 데이터 세트의 큰 반과 작은 반을 구분하는 중간 값 1, 2, 2, 3, 4, 7, 9 3
모드 데이터 집합에서 가장 빈번한 값 1, 2, 2, 3, 4, 7, 9 2

사용하다

평균 및 중위수와 달리 모드의 개념은 "공칭 데이터"에도 의미가 있습니다(즉, 평균의 경우 숫자 , 중위수의 경우 순서 값으로 구성되지 않음).예를 들어, 한국의 성을 예로 들어 보면, "김"이 다른 어떤 이름보다 더 자주 발생한다는 것을 알 수 있다.그러면 "김"이 샘플의 모드가 될 것입니다.다수결로 승리가 결정되는 모든 투표 시스템에서 단일 모달 값이 승자를 결정하는 반면, 멀티 모달 결과는 몇 가지 동점 절차를 거쳐야 한다.

중위수와 달리, 모드의 개념은 실수(1차원 벡터 공간)와 정수(실수에 포함된 것으로 간주될 수 있음)를 포함하여 벡터 공간의 값을 가정하는 임의의 변수에 의미가 있습니다.예를 들어, 평면의 점 분포에는 일반적으로 평균과 모드가 있지만 중위수 개념은 적용되지 않습니다.중위수는 가능한 값에 선형 순서가 있을 때 의미가 있습니다.중앙값 개념을 고차원 공간에 일반화하면 기하학적 중앙값과 중앙점이 됩니다.

고유성과 정의성

일부 확률 분포의 경우 기대값이 무한하거나 정의되지 않을 수 있지만 정의된 경우에는 고유합니다.(유한) 표본의 평균은 항상 정의됩니다.중위수는 이를 초과하지 않는 분수와 그 아래로 떨어지지 않는 분수가 각각 1/2 이상인 값이다.반드시 고유한 것은 아니지만 무한하거나 완전히 정의되지 않은 것은 아닙니다.데이터 샘플의 경우 값 목록이 값 증가 순서로 정렬될 때 "반쪽" 값이 됩니다. 일반적으로 짝수 길이의 목록의 경우 "반쪽"에 가장 가까운 두 값의 평균이 사용됩니다.마지막으로 앞에서 설명한 바와 같이 모드가 반드시 고유할 필요는 없습니다.특정 병리학적 분포(예: 칸토어 분포)에는 정의된 모드가 [citation needed]전혀 없습니다.유한 데이터 표본의 경우 모드는 표본에 있는 값 중 하나 이상입니다.

특성.

정의성과 단순성을 위해 가장 흥미로운 특성 중 몇 가지를 다음에 제시하겠습니다.

  • 세 가지 측정값 모두 다음과 같은 특성이 있습니다.랜덤 변수(또는 표본의 각 값)가 선형 또는 아핀 변환되어 X가 aX + b로 대체되는 경우 평균, 중위수 및 모드도 마찬가지입니다.
  • 극히 작은 샘플을 제외하고 모드는 "outliers"(가끔, 희귀, 잘못된 실험 판독치 등)에 민감하지 않습니다.중위수는 특이치가 있는 경우 매우 강력하지만 평균은 상당히 민감합니다.
  • 연속적인 단일 분포에서 중위수는 평균과 모드 사이에 있는 경우가 많으며, 평균에서 모드로 이동하는 방법의 약 1/3입니다.식에서 중위수 θ(2 × 평균 + 모드)/3.Karl Pearson 때문에 이 규칙은 정규 분포와 유사한 약간 비대칭 분포에 적용되는 경우가 많지만, 항상 참인 것은 아니며 일반적으로 세 가지 통계량이 임의의 순서로 [4][5]나타날 수 있습니다.
  • 단일 분포의 경우 모드의 표준 편차는 평균의 θ3 이내이고 모드의 루트 평균 제곱 편차는 표준 편차와 표준 [6]편차의 두 배 사이입니다.

치우친 분포 예제

왜곡된 분배의 예로는 개인의 부를 들 수 있습니다.매우 부유한 사람은 거의 없지만, 그중에는 매우 부유한 사람도 있다.하지만, 많은 사람들은 다소 가난하다.

왜도가 다른 두 로그 정규 분포의 평균, 중위수 및 모드의 비교입니다.

임의로 치우칠 수 있는 잘 알려진 분포 클래스는 로그 정규 분포를 통해 제공됩니다.정규 분포를 가진 랜덤 변수 X를 랜덤 변수 Y = eX 변환하여 구합니다.그런 다음 랜덤 변수 Y의 로그가 정규 분포를 따르므로 이름이 지정됩니다.

X의 평균 μ를 0으로 가정하면 Y의 중위수는 X의 표준 편차 θ와 독립하여 1이 됩니다.이는 X가 대칭 분포를 가지므로 X의 중위수도 0이기 때문입니다.X에서 Y로의 변환은 단조롭기 때문에 Y에 대한 중위수0 e = 1을 찾습니다.

X의 표준 편차 θ = 0.25이면 Y의 분포가 약하게 치우쳐 있습니다.로그 정규 분포의 공식은 다음과 같습니다.

실제로 중위수는 평균에서 모드로 이동하는 동안 약 1/3입니다.

X의 표준 편차가 θ = 1이면 Y의 분포가 강하게 치우쳐 있습니다.지금이다

여기서 피어슨의 경험칙은 실패한다.

Van Zwet 조건

Van Zwet은 이 불평등이 [7]유지하기에 충분한 조건을 제공하는 불평등을 도출했다.불평등

모드 median 중위수 mean 평균

만약의 경우

F(중간수 - x) + F(중간수 + x) 1 1

모든 x에 대해 F()는 분포의 누적 분포 함수입니다.

유니모달

X~ {\ X {([8]가) (3/1/25) 77 0.7746 표준 편차 내에 있음을 단수 분포로 나타낼 수 있습니다.기호에서는

여기서 절대값입니다.

중위수와 모드 간에도 유사한 관계가 있습니다. 즉, 중위수는 서로 3⁄1.732 표준 편차 내에 있습니다1/2.

역사

모드라는 용어는 1895년 [9]Karl Pearson에서 유래했습니다.

Pearson은 최대 좌표상호 교환할 수 있는 항 모드를 사용합니다.각주에서 그는 "최대 빈도의 좌표에 해당하는 가로좌표(abscissa)에 용어 모드를 사용하는 것이 편리하다는 것을 알았다"고 말한다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ 다모다르 N. 구자라티계량경제학의 필수 요소.맥그로-힐 어윈, 2006년 제3판: 페이지 110
  2. ^ Zhang, C; Mapes, BE; Soden, BJ (2003). "Bimodality in tropical water vapour". Q. J. R. Meteorol. Soc. 129 (594): 2847–2866. Bibcode:2003QJRMS.129.2847Z. doi:10.1256/qj.02.166. S2CID 17153773.
  3. ^ "AP Statistics Review - Density Curves and the Normal Distributions". Archived from the original on 2 April 2015. Retrieved 16 March 2015.
  4. ^ "Relationship between the mean, median, mode, and standard deviation in a unimodal distribution".
  5. ^ Hippel, Paul T. von (2005). "Mean, Median, and Skew: Correcting a Textbook Rule". Journal of Statistics Education. 13 (2). doi:10.1080/10691898.2005.11910556.
  6. ^ Bottomley, H. (2004). "Maximum distance between the mode and the mean of a unimodal distribution" (PDF). Unpublished Preprint.
  7. ^ van Zwet, WR (1979). "Mean, median, mode II". Statistica Neerlandica. 33 (1): 1–5. doi:10.1111/j.1467-9574.1979.tb00657.x.
  8. ^ Basu, Sanjib; Dasgupta, Anirban (1997). "The mean, median, and mode of unimodal distributions: a characterization". Theory of Probability & Its Applications. 41 (2): 210–223. doi:10.1137/S0040585X97975447.
  9. ^ Pearson, Karl (1895). "Contributions to the Mathematical Theory of Evolution. II. Skew Variation in Homogeneous Material". Philosophical Transactions of the Royal Society of London A. 186: 343–414. Bibcode:1895RSPTA.186..343P. doi:10.1098/rsta.1895.0010.

외부 링크