혼합물 분포

Mixture distribution

확률통계에서 혼합물 분포는 다른 랜덤 변수의 집합에서 파생되는 랜덤 변수확률 분포로, 첫째, 주어진 선택 확률에 따라 수집에서 우연히 랜덤 변수를 선택한 다음 선택한 랜덤 변수의 값이 rea이다.lized. 기본 랜덤 변수는 랜덤 실수일 수도 있고, 또는 랜덤 벡터(각각 동일한 차원을 갖는)일 수도 있으며, 이 경우 혼합물 분포는 다변량 분포일 수도 있다.

각각의 기초 랜덤 변수가 연속적인 경우, 결과 변수 또한 연속적이며 확률 밀도 함수혼합물 밀도라고 부르기도 한다. 누적분포함수(및 존재하는 경우 확률밀도함수)는 다른 분포함수와 밀도함수의 볼록 결합(즉, 가중 합계, 합계 1인 비 음의 가중치)으로 표현할 수 있다. 혼합물 분포를 형성하기 위해 결합된 개별 분포를 혼합물 성분이라고 하며, 각 성분과 관련된 확률(또는 가중치)을 혼합물 가중치라고 한다. 혼합물 분포의 성분 수는 종종 유한한 것으로 제한되지만, 경우에 따라서는 성분이 셀 수 없이 무한할 수 있다. 더 일반적인 사례(즉, 셀 수 없는 성분 분포 집합)와 카운트 가능한 사례는 복합 분포라는 제목으로 처리된다.

분포 함수 또는 밀도가 성분 집합의 합(즉, 혼합물 분포)인 랜덤 변수와 둘 이상의 기초 랜덤 변수의 값의 합이 되는 랜덤 변수 간에 구별할 필요가 있으며, 이 경우 분포는 콘볼루션 운영자에 의해 주어진다. 예를 들어, 각각 다른 평균을 갖는 두 개의 공동 정규 분포 랜덤 변수의 합은 여전히 정규 분포를 가질 것이다. 반면, 두 평균이 충분히 멀리 떨어져 있으면 다른 평균을 가진 두 정규 분포의 혼합물로 생성된 혼합물 밀도는 두 개의 피크를 가질 것이며, 이는 이 분포가 정규 분포와 근본적으로 다르다는 것을 보여준다.

혼합물 분포는 문헌의 많은 맥락에서 발생하며, 통계 모집단이 두 개 이상의 하위 집단을 포함하는 경우 자연적으로 발생한다. 그것들은 또한 때때로 비정규 분포를 나타내는 수단으로 사용된다. 혼합물 분포와 관련된 통계적 모델과 관련된 데이터 분석은 혼합물 모델의 제목에서 논의되는 반면, 본 논문은 혼합물 분포의 단순한 확률론적 및 통계적 특성 및 이러한 특성이 기본 분포의 속성과 어떻게 관련되는지에 초점을 맞추고 있다.

유한 및 계수 가능한 혼합물

가중치가 동일한 세 가지 정규 분포(μ = 5, 10, 15, σ = 2)의 혼합물 밀도. 각 구성 요소는 가중 밀도로 표시됨(각 구성 요소는 1/3로 통합됨)

확률 밀도 기능이 유한 집합,..., pn()), 또는 누적 분포 기능 P1())해당하는..., Pn())와 중량 w1,..., p1())을 감안할 때 wn가 wi≥ 0과Σwi=1, 그 혼합물 유통이 될 수 있는으로 쓰는 것은 밀도, f, 또는 그 분포 함수, F, 합(에서 두 사건 모두는 볼록. 복합 공업 지역 콤비나트이온:

이러한 유형의 혼합물은 유한한 합으로 유한한 혼합물이라고 하며, 적용에서 "혼합물 밀도"에 대한 부적격 참조는 보통 유한 혼합물을 의미한다. 요소 집합의 경우는 n=case 을(를) 허용함으로써 공식적으로 다루어진다.

장착할 수 없는 혼합물

성분 분포 집합을 계산할 수 없는 경우 결과를 복합 확률 분포라고 부르기도 한다. 그러한 분포의 구성은 유한 혼합물에 사용되는 유한 합산을 대체하는 무한 합 또는 적분 중 하나로 혼합물 분포와 형식적으로 유사하다.

a로 매개변수화된 변수 x에 대한 확률밀도함수 p(x;a)를 고려한다. 즉, 일부 집합 A에서 a의 각 값에 대해 p(x;a)는 x에 대한 확률밀도함수다. 확률밀도함수 w(w는 음이 아니고 1에 통합됨을 의미)를 주어 함수가 된다.

x에 대한 확률밀도함수. 누적분포함수에 대해 유사한 적분을 작성할 수 있다. 여기서 공식은 밀도 w이산형 분포의 누적 분포함수의 "파생성"을 나타내는 일반화 함수가 되도록 허용되면 유한 또는 무한 혼합물의 경우로 감소한다는 점에 유의한다.

파라메트릭 계열 내의 혼합물

혼합물 성분은 종종 임의 확률 분포가 아니라 모수 또는 모수에 대한 다른 값을 갖는 모수 계열(: 정규 분포)의 구성원이다. 이 경우, 그것이 존재한다고 가정하면, 그 밀도는 다음과 같이 합계의 형태로 작성할 수 있다.

하나의 매개 변수 또는

두 가지 변수 등

특성.

볼록도

확률밀도함수의 일반적인 선형 결합이 반드시 확률밀도인 것은 아니다. 왜냐하면 음수일 수도 있고 1이 아닌 다른 것에 통합될 수도 있기 때문이다. 그러나 확률밀도함수의 볼록 조합은 이러한 특성(비부정성과 1로의 통합)을 모두 보존하므로 혼합물 밀도 그 자체가 확률밀도함수다.

순간

X1, ..., Xn n 성분 분포에서 랜덤 변수를 나타내고 X는 혼합물 분포에서 랜덤 변수를 나타낸다. 그런 다음 [ ( i) (가) 있는 모든 함수 H(·)에 대해 구성 요소 밀도 pi(x)가 존재한다고 가정한다.

0에 대한 J번째 모멘트(, H(x) = xj 선택)는 단순히 구성 요소의 J번째 모멘트에 대한 가중 평균이다. 평균 H(x) = (x - μ)j에 대한 모멘트는 이항 확장과 관련된다.[1]

여기서 μi iH 성분의 평균을 나타낸다.

1차원 분포i 가중치 w, 평균 μi, 분산 σi2 혼합된 경우, 총 평균과 분산은 다음과 같다.

이러한 관계는 구성 요소 자체 내에 그러한 특징이 없는 경우에도 첨도(살찐 꼬리) 및 다형성과 같은 비종교적인 고차분포를 표시할 수 있는 혼합물 분포의 잠재력을 강조한다. 마론과 완드(1992)는 이 프레임워크의 유연성에 대한 설명을 제시한다.[2]

모드

다중성 문제는 지수 분포의 혼합물 같은 경우에 간단하다: 그러한 혼합물들은 모두 단일 혼합물이다.[3] 그러나 정규 분포의 혼합물의 경우 복합 분포다. 다변량 정규 혼합물의 모드 수에 대한 조건은 일변량[5][6] 분포와 다변량[7] 분포에 대한 이전 연구를 확장한 Ray & Lindsay에[4] 의해 탐구된다.

여기서 D 치수 공간의 n 성분 혼합물 모드의 평가 문제는 능선 표면이라고 하는 다지관의 임계점(국소 최소점, 최대점 및 안장점)을 식별하는 것으로 축소되며, 이는 능선 함수의 영상이다.

where belongs to the -dimensional standard simplex: and , D Ri}\in R ith 성분의 공분산 및 평균에 해당한다. 레이&Lindsay[4]에 n1<>−. D{\displaystyle n-1&lt을 고려해 보십시오.D}그 혼합물 양식의 1대 1의 일치란과 그 능선 고도 기능 h(α)= q()∗(α){\displaystyle h(\alpha)=q(x^{*}(\alpha)}게 돌아선 0dh(α)dα 해결함으로써 모드를 파악할 수 있{\displays에 보여 준다.)(\ \property \property \property 대해, 값 α( 를 결정

그래픽 도구를 사용하여 구성 요소 수 , n과(와) 혼합물의 잠재적 다중 형식을 시연한다. 특히 모드 수가 을(를) 초과할 수 있고 해당 모드는 구성 요소 평균과 일치하지 않을 수 있다. 두 구성 요소에 대해, 은 대신에 1 또한 = 1- }를 두 번째 혼합 중량을 결정함에 대해 앞에서 언급한 차등분해석을 위한 그래픽 도구를 개발하고 솔루션을 functio로 표현한다.n so that the number and location of modes for a given value of corresponds to the number of intersections of the graph on the line . This in turn can be related to the number of oscillations of the graph and therefore to solutions of leading to an explicit solution for the case of a two component mixture with (some에 의해 주어지는 동음이의 혼합물이라고 불리는 시간들

여기서 , , 1= ( 2 - 1) - 1 ( - 1) 1}{1}{{1}}}}}}}}}}}}}}}}}(는) (와) 2{\ 사이의 마할라노비스 거리이다

위와 같은 것은 이차적이기 때문에 이 경우 치수나 무게에 관계 없이 최대 두 개의 모드가 있다는 것을 따른다.

일반 > D> }이가) 있는 일반 혼합물의 경우 가능한 모드의 최대 개수에 대한 하한이며 – 최대 개수가 유한하다는 가정 하에 조건상 상한을 알 수 있다. 최대 숫자가 알려진 (와 {\의 조합에 대해서는 하한과 일치한다.[8]

두 정규 분포

간단한 예는 두 정규 분포를 혼합하여 제시할 수 있다. (자세한 내용은 다중 분포#두 정규 분포의 혼합물을 참조하십시오.)

동일한 표준 편차와 다른 평균(동수체)을 가진 두 정규 분포의 균등하게(50/50) 혼합된 경우, 전체 분포는 단일 정규 분포에 비해 낮은 첨도를 보일 것이다. 즉 하위 모집단의 평균은 전체 분포의 어깨에 떨어진다. 만일 충분히 분리되었다면, 즉 (공통) 표준 편차의 두 배, 즉 1 - 2> , >2 두 가지 분포를 형성하고, 그렇지 않으면 단순히 피크가 넓다.[9] 전체 모집단의 변동도 두 하위 모집단의 변동보다 클 것이며, 따라서 변동을 고정하는 에 상대적인 과대산포를 나타내지만 변이를 가지는 정규 분포에 상대적인 를 나타낸다전체 모집단의 변동과 같은 차이

또는 같은 평균과 다른 표준 편차를 가진 두 하위 모집단을 고려할 때 전체 모집단은 단일 분포보다 더 날카로운 봉우리 및 무거운 꼬리(그리고 그에 상응하여 얕은 어깨)를 가진 높은 첨도를 보일 것이다.

정규 분포 및 Cauchy 분포

다음은 존 터키를 학점으로 하는 [10]햄펠로부터 각색된 예다.

다음과 같이 정의된 혼합물 분포 고려

F(x) = (1 - 10−10) (표준 정상) + 10−10 (표준 Cauchy)

F(x) 평균은 존재하지 않지만 F(x)의 평균은 엄청나게 큰 표본을 제외하고 "보통"으로 작용한다.

적용들

혼합물 밀도는 더 단순한 밀도(혼합물 성분)의 관점에서 표현 가능한 복잡한 밀도로, 특정 데이터 집합에 대해 좋은 모델을 제공하기 때문에(데이터의 다른 하위 집합이 서로 다른 특성을 보이고 개별적으로 가장 잘 모델링될 수 있음)와 수학적으로 더 추적할 수 있기 때문에 둘 다 사용된다.왜냐하면 개별 혼합물 성분은 전체 혼합물 밀도보다 더 쉽게 연구될 수 있기 때문이다.

혼합물 밀도는 하위 집단을 가진 통계 집단을 모형화하는 데 사용될 수 있다. 여기서 혼합물 구성 요소는 하위 집단의 밀도이고 가중치는 전체 모집단에서 각 하위 집단의 비율이다.

혼합물 밀도는 또한 실험 오차 또는 오염을 모형화하는 데 사용될 수 있다 – 대부분의 표본이 다른 잘못된 분포의 표본과 함께 원하는 현상을 측정한다고 가정한다.

그러한 혼합물 밀도에서 오류가 없다고 가정하는 파라메트릭 통계량(예를 들어, 정규성을 가정하는 통계량)은 종종 몇 의 특이치가 있는 경우에도 치명적으로 실패하며, 그 대신 강력한 통계량을 사용한다.

개별 연구의 메타 분석에서 연구 이질성은 결과의 분포를 혼합물 분포로 만들고 예측오차에 상대적인 결과의 과대산포를 초래한다. 예를 들어, 통계조사에서 오차범위(표본크기로 결정됨)는 표본오차를 예측하고, 따라서 반복조사에서 결과분산을 예측한다. 연구 이질성의 존재(연구의 표본편향은 서로 다름)는 오차범위에 대한 산포를 증가시킨다.

참고 항목

혼합물

계층적 모형

메모들

  1. ^ Fruhirth-Schnatter(2006, 1.2.4장)
  2. ^ Marron, J. S.; Wand, M. P. (1992). "Exact Mean Integrated Squared Error". The Annals of Statistics. 20 (2): 712–736. doi:10.1214/aos/1176348653., http://projecteuclid.org/euclid.aos/1176348653
  3. ^ 프뤼위르트-슈나테르(2006, 1장)
  4. ^ a b Ray, R.; Lindsay, B. (2005), "The topography of multivariate normal mixtures", The Annals of Statistics, 33 (5): 2042–2065, arXiv:math/0602238, doi:10.1214/009053605000000417
  5. ^ Robertson CA, Fryer JG (1969) 일반 혼합물의 일부 기술 특성. Skand Aktuarietidskr 137–146
  6. ^ Behboodian, J (1970). "On the modes of a mixture of two normal distributions". Technometrics. 12: 131–139. doi:10.2307/1267357. JSTOR 1267357.
  7. ^ Carreira-Perpiñán, M Á; Williams, C (2003). On the modes of a Gaussian mixture (PDF). Published as: Lecture Notes in Computer Science 2695. Springer-Verlag. pp. 625–640. doi:10.1007/3-540-44935-3_44. ISSN 0302-9743.
  8. ^ Améndola, C.; Engström, A.; Haase, C. (2020), "Maximum number of modes of Gaussian mixtures", Information and Inference: A Journal of the IMA, 9 (3): 587–600, arXiv:1702.05066, doi:10.1093/imaiai/iaz013
  9. ^ Schilling, Mark F.; Watkins, Ann E.; Watkins, William (2002). "Is human height bimodal?". The American Statistician. 56 (3): 223–229. doi:10.1198/00031300265.
  10. ^ Hampel, Frank (1998), "Is statistics too difficult?", Canadian Journal of Statistics, 26: 497–513, doi:10.2307/3315772, hdl:20.500.11850/145503

참조

  • Frühwirth-Schnatter, Sylvia (2006), Finite Mixture and Markov Switching Models, Springer, ISBN 978-1-4419-2194-9
  • Lindsay, Bruce G. (1995), Mixture models: theory, geometry and applications, NSF-CBMS Regional Conference Series in Probability and Statistics, vol. 5, Hayward, CA, USA: Institute of Mathematical Statistics, ISBN 0-940600-32-3, JSTOR 4153184
  • Seidel, Wilfried (2010), "Mixture models", in Lovric, M. (ed.), International Encyclopedia of Statistical Science, Heidelberg: Springer, pp. 827–829, arXiv:0909.0389, doi:10.1007/978-3-642-04898-2, ISBN 978-3-642-04898-2