독립적이고 동일한 분포의 랜덤 변수
Independent and identically distributed random variables확률 이론과 통계에서 각 랜덤 변수가 다른 변수와 동일한 확률 분포를 가지고 있고 모두 상호 독립적일 경우 랜덤 변수의 집합은 독립적이며 동일한 분포가 된다.[1] 이 속성은 보통 i.i.d., iid 또는 IID로 약칭된다. IID는 통계에 처음 사용되었다. 과학의 발달로 IID는 데이터 마이닝, 신호 처리 등 분야별로 적용됐다.
소개
통계에서 우리는 보통 랜덤 표본을 다룬다. 랜덤 표본은 랜덤하게 선택된 객체 집합으로 생각할 수 있다. 또는 보다 공식적으로, "독립적이고, 동일하게 분포된 (IID) 무작위 변수의 연속"이다.
즉, 랜덤 표본과 IID라는 용어는 기본적으로 하나이고 동일하다. 통계학에서는 보통 "랜덤 샘플"이라고 말하지만, 확률적으로 "IID"라고 말하는 것이 더 일반적이다.
- 동일한 분포는 전체적인 추세가 없다는 것을 의미한다. 분포가 변동하지 않고 표본의 모든 항목이 동일한 확률 분포에서 추출된다.
- 독립성은 표본 항목이 모두 독립된 사건임을 의미한다. 다시 말해, 그들은 어떤 식으로든 서로 연결되어 있지 않다.[2]
적용
독립적이고 동일한 분포의 랜덤 변수는 종종 가정으로 사용되는데, 이것은 기초적인 수학을 단순화하는 경향이 있다. 그러나 통계적 모델링의 실무적 적용에서 가정은 현실적일 수도 있고 그렇지 않을 수도 있다.[3]
i.i.d 가정은 또한 분산이 유한한 i.i.d 변수의 합(또는 평균) 확률 분포가 정규 분포에 근접한다는 것을 기술하는 중앙 한계 정리에도 사용된다.[4]
흔히 I.i.d 가정은 랜덤 변수의 시퀀스 맥락에서 발생한다. 그렇다면 "독립적이고 동일한 분포"는 시퀀스 내의 원소가 그 이전에 왔던 임의 변수와 독립적이라는 것을 의미한다. 이런 식으로 i.i.d. 시퀀스는 마르코프 시퀀스와 다른데, 여기서 n번째 랜덤 변수에 대한 확률 분포는 (첫 번째 순서 마르코프 시퀀스에 대해) 시퀀스에서 이전 랜덤 변수의 함수다. i.i.d 순서는 표본 공간 또는 사건 공간의 모든 요소에 대한 확률을 의미하지 않는다.[5] 예를 들어, 로드된 주사위를 반복적으로 던지면 결과가 편향됨에도 불구하고 i.d라는 시퀀스가 생성될 것이다.
정의
두 랜덤 변수에 대한 정의
Suppose that the random variables and are defined to assume values in . Let and be the cumulative distribution functions of and , respectively, and denote their joint cumulative distribution function by .
두 의 랜덤 변수{\ X Y 이() F X x) = Y ) {\인[6] 경우에만 동일하게 분포한다 ..
의랜덤 X 및 Y {\은는 X , Y ( x ) = F X ( x) () x , {\인 경우에만 독립적이다 .. (추가 독립성(확률 이론) § 2개의 랜덤 변수 참조)
두 개의 랜덤 변수 및 이(가) 독립적이고 동일한 분포인 경우(가) i.i.d이다 .
| (Eq.1) |
세 개 이상의 랜덤 변수에 대한 정의
그 정의는 자연스럽게 세 개 이상의 랜덤 변수에까지 확장된다. 랜덤 변수 1, 이 독립된 경우 i.i.d라고 한다(추가 독립성(확률성 이론) 참조).#2개 이상의 임의변수) 및 동일한 분포, 즉 if와 if와 only
| (Eq.2) |
where denotes the joint cumulative distribution function of
독립성 정의
확률론에서 독립성은 A,B가 두 사건임을 의미하는데, 방정식 P(A ∩ B) = P(AB) = P(A)P(B)가 만족하면 사건 A와 B가 독립적이다.
실험 A, B의 두 사건이 P(A) > 0일 경우 P(B A) 가능성이 있다고 가정해 보자. 일반적으로 A의 발생은 B의 확률에 영향을 미치는데, 이를 조건부 확률이라고 하며, A의 발생이 B의 발생에 영향을 미치지 않는 경우에만 P(B A) = P(B)가 있다.
참고: P(A) > 0, P(B) > 0, 그 다음에 A, B가 상호 독립적이며 동시에 상호 양립할 수 없는 경우, 즉, 독립성은 양립가능해야 하며 상호 배제가 관련되어야 한다.
A, B, C가 세 가지 사건이라고 가정하자. If P(AB) = P(A)P(B), P(BC) = P(B)P(C), P(AC) = P(A)P(C), P(ABC) = P(A)P(B)P(C) are satisfied, then the events A, B, C are independent of each other.
보다 일반적인 정의는 n개의 사건이12 있다는 것이다. 2n, 3, ...에 대한 제품 사건의 확률이 각 사건의 확률의 산물과 같다면, 사건1 A, A는2n 서로 독립적이다.
예
예 1
공정하지 않거나 불공정한 룰렛 휠의 스핀 결과의 순서는 i.i.d이다. 이것의 한 가지 함축은 룰렛 공이 예를 들어 20회 연속으로 "빨간색"에 착지할 경우, 다음 스핀은 다른 스핀에 비해 "검은색"일 가능성이 크거나 적다는 것이다(감블러의 오류 참조).
페어 또는 로드된 주사위 굴림의 순서는 I.I.d이다.
공정하거나 불공정한 일련의 동전 유출은 I.I.D이다.
신호 처리 및 이미지 처리에서 i.i.d.로의 변환 개념은 "i.d." 부분과 "i." 부분의 두 가지 사양을 내포한다.
(i.d.) 신호 수준은 시간 축에서 균형을 이루어야 한다.
(i). 신호 스펙트럼은 필터링(디콘볼루션 등)에 의해 백색 노이즈 신호(즉, 모든 주파수가 동일한 신호)로 변환되어야 한다.
예 2
동전을 10번 던져서 동전이 몇 번 머리 위에 착륙하는지 기록한다.
- 독립 - 착륙의 각 결과는 다른 결과에 영향을 미치지 않으며, 이는 10개의 결과가 서로 독립적이라는 것을 의미한다.
- 동일한 분포 – 동전이 동일한 물질인 경우, 각 헤드의 확률은 0.5이며, 이는 각 시간에 대한 확률은 동일하다는 것을 의미한다.
예 3
주사위를 10번 굴려 1번 얼마나 많은 결과가 나오는지 기록한다.
- 독립 - 주사위의 각 결과는 다음 결과에는 영향을 미치지 않으며, 이는 10개의 결과가 서로 독립적이라는 것을 의미한다.
- 동일한 분포 – 주사위가 동질 재료인 경우, 숫자 1의 확률은 매번 1/6이며, 이는 각 시간에 대한 확률은 동일하다는 것을 의미한다.
예 4
54개의 카드가 들어 있는 표준 카드 덱에서 카드를 선택한 다음 카드를 다시 덱에 넣으십시오. 54회 반복한다. 킹 등장 횟수 기록
- 독립 - 카드의 각 결과는 다음 결과에 영향을 미치지 않으며, 이는 54개의 결과가 서로 독립적이라는 것을 의미한다.
- 동일한 분포 – 카드를 하나 뽑은 후 매번 킹 확률은 4/54이며, 이는 각 시간에 대한 확률은 동일하다는 것을 의미한다.
일반화
무작위 변수가 I.i.d라는 가정 하에 처음 입증된 많은 결과는 더 약한 분포 가정에서도 사실인 것으로 나타났다.
교환 가능한 랜덤 변수
I.i.d 변수의 주요 특성을 공유하는 가장 일반적인 개념은 Bruno de Finetti에 의해 도입된 교환 가능한 무작위 변수들이다.[citation needed] 교환성은 변수가 독립적이지 않을 수 있지만 미래의 변수는 과거의 변수처럼 동작한다는 것을 의미한다 - 공식적으로, 유한한 수열의 모든 값은 그러한 값의 순열과 마찬가지로 - 공동 확률 분포는 대칭군에서 불변한다.
이것은 유용한 일반화를 제공한다. 예를 들어, 교체 없이 샘플링하는 것은 독립적이지 않지만 교환이 가능하다.
레비 공정
확률론적 미적분학에서 I.i.d. 변수는 이산 시간 레비 과정으로 생각되는데, 각 변수는 한 번에서 다른 것으로 얼마나 변화하는지 알려준다. 예를 들어 베르누이 재판의 연속은 베르누이 과정으로 해석된다. 이를 일반화하여 지속적인 시간 레비 프로세스를 포함시킬 수 있으며, 많은 레비 프로세스는 I.I.d 변수의 한계로 볼 수 있다. 예를 들어, 비엔어 프로세스는 베르누이 공정의 한계다.
기계학습에서
머신러닝(machine learning)의 데이터가 독립적이고 동일한 분포라고 가정하는 이유는?
머신러닝(machine learning)은 현재 획득한 대량의 데이터를 사용하여 보다 빠르고 정확한 결과를 제공한다.[7] 그러므로 우리는 전체적인 대표성을 가진 과거 데이터를 사용할 필요가 있다. 얻은 데이터가 전체 상황을 대표하지 못하면 규칙이 잘못 또는 잘못 요약된다.
I.I.d 가설을 통해 훈련 표본의 개별 사례 수를 크게 줄일 수 있다.
이러한 가정은 최대화를 수학적으로 계산하기 매우 쉽게 만든다. 수학에서 독립적이고 동일한 분포의 가정을 관찰하면 최적화 문제에서 우도함수의 계산이 간단해진다. 독립성을 가정하기 때문에 우도함수는 이렇게 쓸 수 있다.
l(iii)=P(x1,x2,x3,....x(n) =)=P(x1 *)*P(x2 *)*...*P(xn θ)
관측된 사건의 확률을 최대화하기 위해 로그 함수를 취하여 파라미터 θ을 최대화한다.
argmax log(l(θ)=log(P(x1 θ)) + log(P(x2 θ) + ... + log(P(xn θ))
컴퓨터는 복수의 덧셈을 계산하는 데는 매우 효율적이지만 곱셈을 계산하는 것은 효율적이지 않다. 이러한 단순화가 계산 효율성의 증가를 초래하는 핵심 원인이다. 그리고 이 로그 변환도 많은 지수함수를 선형함수로 바꾸는 최대화 과정에 있다.
두 가지 이유로, 이 가설은 실제 적용에서 중심 한계 정리를 사용하기 쉽다.
- 표본이 더 복잡한 가우스 분포에서 나온다고 해도, 그것은 또한 근사치를 잘 나타낼 수 있다. 중앙 한계 정리에서 가우스 분포로 단순화할 수 있기 때문이다. 많은 수의 관측 가능한 표본에 대해 "많은 랜덤 변수의 합은 근사적으로 정규 분포를 가질 것"이다.
- 두 번째 이유는 모델의 정확도가 모델 단위의 단순성과 대표력, 그리고 데이터 품질에 달려 있기 때문이다. 왜냐하면 단위의 단순성으로 해석과 스케일링이 용이하고, 단위의 대표적인 파워+스케일 아웃이 모델 정확도를 향상시키기 때문이다. 깊은 신경망에서와 마찬가지로 각 뉴런은 매우 단순하지만 강력한 대표력을 가지고 있으며, 한 층 한 층씩 더 복잡한 특징을 나타내 모델 정확도를 향상시킨다.[8]
참고 항목
참조
- ^ Clauset, Aaron (2011). "A brief primer on probability distributions" (PDF). Santa Fe Institute.
- ^ Stephanie (2016-05-11). "IID Statistics: Independent and Identically Distributed Definition and Examples". Statistics How To. Retrieved 2021-12-09.
- ^ Hampel, Frank (1998), "Is statistics too difficult?", Canadian Journal of Statistics, 26 (3): 497–513, doi:10.2307/3315772, hdl:20.500.11850/145503, JSTOR 3315772, S2CID 53117661 (§8).
- ^ Blum, J. R.; Chernoff, H.; Rosenblatt, M.; Teicher, H. (1958). "Central Limit Theorems for Interchangeable Processes". Canadian Journal of Mathematics. 10: 222–229. doi:10.4153/CJM-1958-026-0.
- ^ Cover, T. M.; Thomas, J. A. (2006). Elements Of Information Theory. Wiley-Interscience. pp. 57–58. ISBN 978-0-471-24195-9.
- ^ 카셀라 & 버거 2002, 정리 1.5.10
- ^ "What is Machine Learning? A Definition". Expert.ai. 2020-05-05. Retrieved 2021-12-16.
- ^ "为什么机器学习中, 要假设我们的数据是独立同分布的? - 知乎". www.zhihu.com. Retrieved 2021-12-16.
추가 읽기
- Casella, George; Berger, Roger L. (2002), Statistical Inference, Duxbury Advanced Series