한계분포

Marginal distribution

확률 이론통계에서 랜덤 변수 집합부분 집합의 한계 분포는 부분 집합에 포함된 변수의 확률 분포다. 다른 변수의 값을 참조하지 않고 부분 집합에 있는 변수의 다양한 값의 확률을 제공한다. 이것은 다른 변수의 값에 따른 확률을 제공하는 조건부 분포와 대조된다.

주변 변수는 유지되는 변수의 하위 집합에 있는 변수들이다. 이러한 개념은 행이나 열을 따라 표에 값을 합산하고 표의 여백에 합을 적음으로써 찾을 수 있기 때문에 "수법"이다.[1] 한계변수(소외분포)의 분포는 폐기되는 변수의 분포에 대해 한계변수(즉, 여백의 합계에 초점을 맞추어)를 한계화하여 얻으며, 폐기된 변수의 분포가 한계화되었다고 한다.

여기서의 맥락은 수행되고 있는 이론적 연구나 데이터 분석은 광범위한 무작위 변수를 포함하지만, 그러한 변수의 수가 감소하는 것에만 관심이 제한되고 있다는 것이다. 많은 애플리케이션에서 분석은 주어진 랜덤 변수의 집합에서 시작한 다음, 먼저 새로운 변수(예: 원래 랜덤 변수의 합)를 정의하여 집합을 확장하고, 부분 집합의 한계 분포(예: 합)에 관심을 두어 최종적으로 숫자를 줄일 수 있다. 여러 가지 다른 분석을 수행할 수 있으며, 각 분석은 변수의 다른 부분 집합을 한계 변수로 취급한다.

정의

한계 확률 질량 함수

예를 들어 X와 Y와 같은 두 이산형 랜덤 변수의 알려진 공동 분포를 고려할 때, 두 변수 중 한 변수(: X)의 한계 분포는 Y 값을 고려하지 않을 X의 확률 분포다. 이는 Y의 모든 값에 대한 공동 확률 분포를 합산하여 계산할 수 있다. 자연스레 그 반대도 사실이다. X의 별도 값에 대한 합계를 통해 Y에 대한 한계 분포를 얻을 수 있다.

, and

X
Y
x1 x2 x3 x4 pY(y) ↓
y1 4/32 2/32 1/32 1/32 8/32
y2 3/32 6/32 3/32 3/32 15/32
y3 9/32 0 0 0 9/32
pX(x) → 16/32 8/32 4/32 4/32 32/32
표. 1 이산형 변수의 쌍인 X와 Y의 공동 및 한계 분포, 따라서 서로 0이 아닌 상호 정보 I(X; Y)를 갖는다. 공동 분포의 값은 3×4 직사각형에 있으며, 주변 분포의 값은 오른쪽과 아래쪽 여백을 따라 있다.

한계 확률은 항상 기대값으로 기록할 수 있다.

직관적으로 X의 한계 확률은 Y의 특정 값이 주어진 X의 조건부 확률을 조사한 다음 Y의 모든 값의 분포에 대해 이 조건부 확률을 평균하여 계산한다.

는 (무의식 통계학자의 법칙을 적용한 후) 기대값의 정의에 따른 것이다.

따라서 한계화는 랜덤 변수 Y와 다른 랜덤 변수 X = g(Y)의 확률 분포 변환에 대한 규칙을 제공한다.

한계 확률밀도함수

공동분포를 알고 있는 두 개의 연속 랜덤 변수 X와 Y를 고려할 때, 한계 확률밀도함수Y에 대한 결합 확률 인 f 를 통합하여 얻을 수 있으며, 그 반대의 경우도 마찬가지다. 그것은

and

여기서 [], [\

한계누적분배함수

공동 누적분포함수에서 한계 누적분포함수를 찾는 것은 쉽다. 상기 사항:

  • 이산형 랜덤 변수의 경우,
  • 연속 랜덤 변수의 경우,

XY가 [a, b] × [c, d]에 대한 값을 공동으로 취한다면

( x)= F( , ) ( )= (, y)

d가 ∞이라면, 은 한계 F ( x) = F ( ,) 로 F ( ) })(

한계 분포 대 조건부 분포

정의

한계 확률은 다른 사건과 독립적으로 단일 사건이 발생할 확률이다. 반면에 조건부 확률은 다른 특정 사건이 이미 발생했다는 점을 감안하여 사건이 발생할 확률이다. 이것은 한 변수에 대한 계산이 다른 변수에 종속된다는 것을 의미한다.[2]

다른 변수가 주어진 조건부 분포는 두 변수의 공동 분포를 다른 변수의 한계 분포로 나눈 값이다.[3] 그것은

  • 이산형 랜덤 변수의 경우,
  • 연속 랜덤 변수의 경우,

200명의 학생이 강의실에서 공부한 시간(X)과 정답률(Y)에 대한 데이터가 있다고 가정합시다.[4] XY가 이산 랜덤 변수라고 가정하면 표.3과 같이 가능p(x,y)의 모든 값을 나열하여 Xi Yj 공동 분포를 설명할 수 있다.

X
Y
학습된 시간(분)
% 정답 x1 (0-20) x2(21-40) x3 (41-60) x4(>>60) pY(y) ↓
y1(0-20) 2/200 0 0 8/200 10/200
y2(21-40) 10/200 2/200 8/200 0 20/200
y3(41-59) 2/200 4/200 32/200 32/200 70/200
y4(60-79년) 0 20/200 30/200 10/200 60/200
y5(80-100) 0 4/200 16/200 20/200 40/200
pX(x) → 14/200 30/200 86/200 70/200 1
표.3 학습 시간과 올바른 백분율 사이의 200명의 학생이 있는 교실의 관계에 대한 이원 데이터 집합

한계 분포는 20점 이하의 학생 수를 결정하는 데 사용될 수 있다: Y( )= Y( = )= = 1 P( , y )= 2 + 8 = {10 이는 10명 또는 5%의 학생을 의미한다.

조건부 분포는 60분 이상을 공부한 학생이 이하의 점수를 얻을 확률을 결정하는 데 사용될 수 있다: ( )= P( = = x = )= ( X= 4, = ) = ( = x = )= / / = 8 = = 4 = 4 {.는) 적어도 60분 동안 공부한 후 20점을 받을 확률이 약 11%라는 뜻이다.

실제 사례

보행자가 신호등에 주의를 기울이지 않고 횡단보도에서 길을 건너다가 차에 치일 확률을 계산한다고 가정해 보자. H를 히트 아닌 히트(Hit)에서 하나의 값을 얻는 이산형 랜덤 변수로 설정하십시오. L(교통 신호등의 경우)을 {빨간색, 노란색, 녹색}에서 하나의 값을 갖는 이산형 랜덤 변수로 두십시오.

현실적으로 H는 L에 의존하게 될 것이다. 즉, P(H = Hit)는 L이 적색인지 황색인지 녹색인지(P(H = 적중되지 않음)에 따라 다른 값을 취하게 된다. 예를 들어, 사람은 수직 방향 교통을 위한 조명이 빨간색인 경우보다 녹색인 동안 건너려고 할 때 차에 치일 가능성이 훨씬 더 높다. 즉, H와 L에 대해 가능한 어떤 한 쌍의 값의 경우, 보행자가 빛의 상태를 무시할 경우 함께 발생하는 사건 쌍의 확률을 찾기 위해 H와 L의 공동 확률 분포를 고려해야 한다.

그러나 한계 확률 P(H = 적중)를 계산하려고 할 때, 찾고 있는 것은 L의 특정 값을 알 수 없고 보행자가 빛의 상태를 무시하는 상황에서 H = 적중 확률이다. 일반적으로 보행자는 빨간불이 OR이면 부딪힐 수 있고, 노란불이 OR이면 녹색일 경우 부딪힐 수 있다. 따라서 한계 확률에 대한 해답은 L의 모든 가능한 값에 대한 P(H L)를 합하여 찾을 수 있으며, L의 각 값은 발생 확률에 의해 가중된다.

다음은 조명의 상태에 따라 타격의 조건부 확률을 보여 주는 표다.(이 표의 열은 조명의 상태에 관계없이 타격 확률은 1이므로 1까지 추가해야 한다는 점에 유의하십시오.)

조건부 분포: ) 스타일 L
L
H
빨간색 노란색 녹색
Not Hit 0.99 0.9 0.2
때리다 0.01 0.1 0.8

공동 확률 분포를 찾으려면 더 많은 데이터가 필요하다. 예를 들어 P(L = 빨간색) = 0.2, P(L = 노란색) = 0.1, P(L = 녹색) = 0.7을 가정해 보자. 조건부 분포의 각 열에 해당 열의 발생 확률을 곱하면 H와 L의 합동 확률 분포가 나타나며, 이는 항목의 중심 2×3 블록에 주어진다. (이 2×3 블록의 셀은 최대 1까지 추가된다는 점에 유의하십시오.)

공동 분포: P( ) 스타일
L
H
빨간색 노란색 녹색 한계 확률 P(H)
Not Hit 0.198 0.09 0.14 0.428
때리다 0.002 0.01 0.56 0.572
합계 0.2 0.1 0.7 1

한계 확률 P(H = 적중)는 이 공동 분포 표의 H = 적중 행을 따라 0.572를 합한 것이며, 이는 조명이 적색 OR 또는 황색 OR 녹색일 때 적중될 확률이다. 마찬가지로 P(H = 적중되지 않음)가 H = 적중되지 않음 행의 합입니다.

다변량 분포

이바리산 정규 분포의 많은 표본. 한계 분포는 빨간색과 파란색으로 표시된다. X의 한계 분포도 Y 좌표를 고려하지 않고 X 좌표의 히스토그램을 만들어 근사치를 구한다.

다변량 분포의 경우 X /또는 Y 기호가 벡터로 해석될 때 위와 유사한 공식을 적용한다. 특히 X에 포함된 변수를 제외한 모든 변수에 대해 각 합계 또는 통합이 이루어질 것이다.[5]

즉, X1, X2, …,Xn 이산 랜덤 변수라면 한계 확률 질량 함수는 다음과 같아야 한다.

X1, X2, …, Xn 연속 랜덤 변수라면 한계 확률 밀도 함수는 다음과 같아야 한다.

참고 항목

참조

  1. ^ Trumpler, Robert J. & Harold F. Weaver (1962). Statistical Astronomy. Dover Publications. pp. 32–33.
  2. ^ "Marginal & Conditional Probability Distributions: Definition & Examples". Study.com. Retrieved 2019-11-16.
  3. ^ "Exam P [FSU Math]". www.math.fsu.edu. Retrieved 2019-11-16.
  4. ^ Marginal and conditional distributions, retrieved 2019-11-16
  5. ^ A modern introduction to probability and statistics : understanding why and how. Dekking, Michel, 1946-. London: Springer. 2005. ISBN 9781852338961. OCLC 262680588.CS1 maint: 기타(링크)

참고 문헌 목록

  • Everitt, B. S.; Skrondal, A. (2010). Cambridge Dictionary of Statistics. Cambridge University Press.
  • Dekking, F. M.; Kraaikamp, C.; Lopuhaä, H. P.; Meester, L. E. (2005). A modern introduction to probability and statistics. London : Springer. ISBN 9781852338961.