누적분포함수

Cumulative distribution function
지수 분포의 누적 분포 함수
정규 분포의 누적 분포 함수

확률 이론통계에서 에서 평가된랜덤 X 또는 X {\displaystyle 의 누적 분포 함수(CDF)는 표시 스타일 X이(가) x 보다 작거나 같은 값을 가질 확률이다[1].

− ∞ F())0{\displaystyle \lim 초기 조향 순간 모든 확률 분포는 진짜 숫자에, 이산이나" 섞"뿐만 아니라 지속적이고 독특하게 한 이상에 의해 continuous[2])lim을 만족하는 단조 증가하고 누적 분포 함수 F:R→[0,1]{\displaystyle F:\mathbb{R}\rightarrow[0,1]}이 확인된 → 지원을 받고 있다._{ - x)=

스칼라 연속 분포의 경우, 마이너스 무한도부터 x x까지의 확률밀도함수 아래 영역을 부여하며 누적분포함수는 다변량 랜덤 변수의 분포를 지정하는 데도 사용된다.

정의

실제 값 랜덤 변수 {\의 누적 분포 함수는[3]: p. 77

(Eq.1)

여기서 오른쪽은 랜덤 X 이(가) 보다 작거나 같은 값을 가질 확률을 나타낸다 [3]: p. 84 X X이( 반닫힘 간격 에 있을 확률 여기서< 다음과 같다.

(Eq.2)

위의 정의에서 "보다 작거나 같은" 부호 ","는 관습이지 보편적으로 사용되는 것이 아니다(예: 헝가리 문학은 "<>를 사용하지만 구분은 이산적인 분포에 중요하다. 이항 분포와 포아송 분포의 표의 적절한 사용은 이 관습에 따라 달라진다. 더욱이 특성 함수에 대한 폴 레비의 반전 공식과 같은 중요한 공식도 "보다 작거나 같은" 공식에 의존한다.

여러 랜덤 변수 ,,…을 처리하는 경우, X, 등. 해당 글자는 첨자로 사용하는 반면, 하나만 취급할 경우 첨자는 일반적으로 생략된다. 확률밀도함수확률질량함수에 사용되는 소문자 f는 대조적으로 누적분포함수에 F 를 사용하는 것이 일반적이다. 이는 일반 분포를 논할 때 적용된다. 예를 들어, 일부 특정 분포는 고유한 관습 표기법을 가지고 있다. 예를 들어 정규 분포는 각각 F 대신 }을 사용한다

연속 랜덤 변수의 확률밀도함수는 미적분학의 기본 정리를 사용하여 분화함으로써[4] 누적분포함수로부터 결정할 수 있다. 즉 F ( F.

파생상품이 존재하는 한

연속 랜덤 변수 의 CDF는 다음과 같이 확률밀도함수 의 적분으로 표현할 수 있다.[3]: p. 86

b {\b}에 구성요소를 갖는 변수 X {\ X}의 경우

에서 연속적인 경우 이는 0이며 에 이산형 구성요소가 없다

특성.

위에서 아래로, 이산 확률 분포의 누적 분포 함수, 연속 확률 분포 및 연속적인 부분과 이산형 부분을 모두 갖는 분포.

모든 누적분포함수 은(는) 감소하지[3]: p. 78 않고 우측 연속성이므로 [3]: p. 79 cadlag 함수가 된다. 더 나아가

이 네 가지 속성을 가진 모든 함수는 CDF이다. 즉, 그러한 모든 함수에 대해 함수가 해당 랜덤 변수의 누적 분포 함수가 되도록 랜덤 변수를 정의할 수 있다.

If is a purely discrete random variable, then it attains values with probability , and the CDF of will be discontinuous at the points :

실제 가치 랜덤 변수 CDF 연속적 경우, {\X}이(가) 연속적인 랜덤 변수인 경우, {\절대적으로 연속적인 경우 Lebegue 통합 가능한 F가 존재한다.

모든 실제 숫자에 a 함수는 F X 의 거의 모든 곳에서 파생된 것과 같으며, X 분포의 확률밀도함수라고 불린다

예를 들어 이(가) 단위 간격 [0 균일하게 분포되어 있다고 가정해 보십시오

다음 X 의 CDF는

X 이(가) 동일한 확률로 이산형 값 0과 1만 사용한다고 가정합시다.

다음 X 의 CDF는

(가) 지수 분포라고 가정하십시오. 다음 X 의 CDF는

여기서 λ > 0은 분포의 모수로, 흔히 속도 모수라고 한다.

(가) 정규 분포라고 가정하십시오. 다음 X 의 CDF는

여기서 매개 변수 이(가) 분포의 평균 또는 기대값이고, (가) 표준 편차입니다.

(가) 이항 분포라고 가정하십시오. 다음 X 의 CDF는

여기서 성공 확률이며 함수는 n 일련의 실험에서 성공 횟수에 대한 이산 확률 분포를 나타내며 k{{\\,}은 k{\ k가장정수 아래의 "바닥"이다.가 k 보다 작거나 같음

파생 함수

보완적 누적분포함수(꼬리분포)

때로는 반대되는 질문을 연구하여 무작위 변수가 특정 수준보다 얼마나 자주 높은지를 물어보는 것이 유용하다. 이를 보완적 누적분포함수(cdf) 또는 단순히 꼬리분포초과도라고 하며, 다음과 같이 정의된다.

이는 예를 들어, 단측 p-값적어도 관측된 통계량만큼 극단적으로 시험 통계를 관측할 확률이기 때문에 통계적 가설 검정에서 적용이 가능하다. 따라서 검정 통계량 T가 연속적인 분포를 갖는 경우, 단측 p-값은 ccdf: 검정 통계량의 관측값 에 대해 간단히 제공된다.

분석에서 F ( ) 을(를) 생존함수라고 하며 ( ) 로 표기하고 공학에서는 신뢰함수라는 용어가 일반적이다.

Z-테이블:

누적분포함수의 대표적인 적용대상은 단위 정규표 또는 Z표라고도 하는 표준 정규표로서 정규분포의 누적분포함수의 값이다.[5] Z-표(Z-table)는 누적분포함수의 원래 적용값인 값 이하의 확률뿐만 아니라 표준 정규분포의 값 이상 및/또는 사이의 확률에 매우 유용하며, 더 나아가 어떤 정규분포까지 확장되었다.

특성.
  • 기대치를 갖는 비 음의 연속 랜덤 변수에 대해 마르코프의 불평등은 다음과[6] 같이 말한다.
  • As , and in fact provided that is finite.
증명:[citation needed] c> 0 에 대해 의 밀도 함수가 displaystyle f_{X}인 경우
다음, F () = ( ) c}^{\
주장대로

접힌 누적분포

기대값이 0이고 표준 편차가 1인 정규 분포 함수에 대해 접힌 누적 분포의 예

누적 분포의 플롯이 S와 같은 형태를 갖는 경우가 많지만, 다른 그림은 접힌 누적 분포 또는 산 그림으로, 그래프의 위쪽 절반을 접어서,[7][8] 한 척도는 상향으로, 다른 척도는 하향으로 사용한다. 이 형식의 그림은 중위수, 산포(특히[9], 중위수로부터의 평균 절대 편차) 및 분포 또는 경험적 결과의 왜도를 강조한다.

역분포함수(수분함수)

If the CDF F is strictly increasing and continuous then is the unique real number such that . In such a case, this defines the inverse distribution function or quantile function.

일부 분포는 고유한 역수를 가지지 않는다(를 들어, x>= 이(가) 모든 < < b 에 대해 F 가 일정하게 되는 경우). 이 문제는 [ 0 에 대해 일반화된 역분포함수를 정의하여 해결할 수 있다.

  • 예 1: 는 F- ( .5) ( 입니다
  • 예 2: = F- ( 0) )를 넣으십시오 그리고 나서 우리는을 95번째 라고 부른다

역 cdf(일반화된 역분포함수의 정의에도 보존되어 있음)의 일부 유용한 특성은 다음과 같다.

  1. - F(가) 감소하지 않음
  2. - (p) x 인 경우만 해당
  3. [ 0, 분포가 있는 경우 - 1(Y ){\F^{-가 F {\로 분포한다 이는 역변환 샘플방식 방법을 사용하여 랜덤 번호 생성에 사용된다.
  4. If is a collection of independent -distributed random variables defined on the same sample space, then there exist random variables such that is distributed as 및 F- )= X 에 대한 확률 1이 있는 [citation needed]

cdf의 역은 균일한 분포에 대해 얻은 결과를 다른 분포로 변환하는 데 사용할 수 있다.

경험적 분포함수

경험적 분포 함수는 표본에서 점을 생성했던 누적 분포 함수의 추정치다. 그것은 그 기초적인 분포에 대한 확률 1과 수렴된다. 기초 누적분포함수에 대한 경험적 분포함수의[citation needed] 수렴 속도를 정량화하기 위한 다수의 결과가 존재한다.

다변량 케이스

두 랜덤 변수에 대한 정의

둘 이상의 랜덤 변수를 동시에 처리할 때 공동 누적 분포 함수도 정의할 수 있다. 예를 들어, 변수 X, X의 경우 공동 CDF (가) 주어진다[3]: p. 89 .

(Eq.3)

여기서 오른쪽은 X 보다 작거나 같은 값을 확률을 나타낸다

합동 누적 분포 함수의 예:

For two continuous variables X and Y: ;

두 개의 이산형 랜덤 변수의 경우 확률표를 생성하여 X와 Y의 각 잠재적 범위에 대한 누적 확률을 다루는 것이 이로운데, 다음은 다음과 같은 예다.[10]

표 형식의 접합 확률 질량 함수를 주어진 경우, 접합 누적 분포 함수를 결정한다.

Y = 2 Y = 4 Y = 6 Y = 8
X = 1 0 0.1 0 0.1
X = 3 0 0 0.2 0
X = 5 0.3 0 0 0.15
X = 7 0 0 0.15 0

해법: XY의 각 전위 범위에 대해 주어진 확률 표를 사용하여 합동 누적 분포 함수를 표 형식으로 구성할 수 있다.

Y < 2 2 ≤ Y < 4 4 ≤ Y < 6 6≤ Y < 8 Y ≤ 8
X < 1 0 0 0 0 0
1 ≤ X < 3 0 0 0.1 0.1 0.2
3 X < 5 0 0 0.1 0.3 0.4
5 X < 7 0 0.3 0.4 0.6 0.85
X ≤ 7 0 0.3 0.4 0.75 1

세 개 이상의 랜덤 변수에 대한 정의

랜덤 변수 ,, X 의 경우 F , {1N}}}}}이 제공된다.

(Eq.4)

랜덤 변수를 변량 X= ( , … , )T {\{X} =({N})^{{{{N은(는) 더 짧은 표기법을 제시한다.

특성.

모든 다변량 CDF은:

  1. Monotonically 각 variables,의non-decreasing.
  2. 각각의 variables,의Right-continuous.

그 확률은 장점은 hyperrectangle에 속하는1-dimensional 사건:[11]과 유사하다.

콤플렉스 케이스

복합 랜덤 변수

누적 분포 함수의 그 총괄론은 현실입니다 complex 확률 변수는 명확하지 않기 때문에 표현의 형태 P(Z나는 1+2≤){P(Z\leq 1+2i)\displaystyle}을 만드는 것도 없어요 형태 하지만 표현 P(ℜ(Z)≤ 1,ℑ(Z)≤ 3){P(\Re{(Z)\displaystyle}\leq 1,\Im{(Z)}\leq 3)}일리가 있습니다. 따라서, 우리는 그들의 현실과 상상의 부분의 결합 분포를 통해: 복잡한 확률 변수의 누적 분포를 정의합니다.

FZ(z))Fℜ(Z),ℑ(Z)(ℜ(z),ℑ(z)))P(ℜ(Z), ℑ(Z)≤ ℑ(z)){\displaystyle F_{Z}(z)=ℜ(z)≤.F_{\Re{(Z)},\Im{(Z)}}(\Re{(z)},\Im{(z)})=P(\Re{(Z)}\leq \Re{(z)},\Im{(Z)}\leq \Im{(z)})}.

복합 랜덤 벡터

Eq.4 수율 일반화

복합 랜덤 Z= ,… , ) 의 정의로서

통계분석에서 사용

누적분포함수의 개념은 통계분석에서 두 가지(비슷한) 방법으로 명시적으로 나타난다. 누적 빈도 분석은 기준 값보다 작은 현상의 발생 빈도를 분석하는 것이다. 경험적 분포 함수는 단순한 통계적 특성을 도출할 수 있고 다양한 통계적 가설 검정의 기초를 형성할 수 있는 누적 분포 함수의 공식적인 직접 추정치다. 이러한 검정은 주어진 분포에서 발생한 데이터 표본에 대한 증거가 있는지 또는 동일한(알 수 없는) 모집단 분포에서 발생한 데이터 표본 2개에 대한 증거가 있는지 평가할 수 있다.

콜모고로프-스미르노프와 쿠이퍼의 시험

Kolmogorov-Smirnov 검정은 누적 분포 함수에 기초하며 두 경험적 분포가 다른지 또는 경험적 분포가 이상적인 분포와 다른지 여부를 검정하는 데 사용할 수 있다. 밀접하게 연관된 Kuiper의 검정은 분포의 영역이 요일처럼 주기적인 경우 유용하다. 예를 들어, 카이퍼의 테스트는 한 해 동안 토네이도의 수가 달라지는지 또는 제품의 판매가 요일 또는 요일에 따라 달라지는지 여부를 확인하기 위해 사용될 수 있다.

참고 항목

참조

  1. ^ Deisenroth, Marc Peter; Faisal, A. Aldo; Ong, Cheng Soon (2020). Mathematics for Machine Learning. Cambridge University Press. p. 181. ISBN 9781108455145.
  2. ^ Hüseyin Çakallı (2015). "Upward and Downward Statistical Continuities". Filomat. 29 (10): 2265–2273. doi:10.2298/FIL1510265C. JSTOR 24898386. S2CID 58907979.
  3. ^ Jump up to: a b c d e f Park, Kun Il (2018). Fundamentals of Probability and Stochastic Processes with Applications to Communications. Springer. ISBN 978-3-319-68074-3.
  4. ^ Montgomery, Douglas C.; Runger, George C. (2003). Applied Statistics and Probability for Engineers (PDF). John Wiley & Sons, Inc. p. 104. ISBN 0-471-20454-4.
  5. ^ "Z Table". Z Table. Retrieved 2019-12-11.
  6. ^ Zwillinger, Daniel; Kokoska, Stephen (2010). CRC Standard Probability and Statistics Tables and Formulae. CRC Press. p. 49. ISBN 978-1-58488-059-2.
  7. ^ Gentle, J.E. (2009). Computational Statistics. Springer. ISBN 978-0-387-98145-1. Retrieved 2010-08-06.[페이지 필요]
  8. ^ Monti, K. L. (1995). "Folded Empirical Distribution Function Curves (Mountain Plots)". The American Statistician. 49 (4): 342–345. doi:10.2307/2684570. JSTOR 2684570.
  9. ^ Xue, J. H.; Titterington, D. M. (2011). "The p-folded cumulative distribution function and the mean absolute deviation from the p-quantile" (PDF). Statistics & Probability Letters. 81 (8): 1179–1182. doi:10.1016/j.spl.2011.03.014.
  10. ^ "Joint Cumulative Distribution Function (CDF)". math.info. Retrieved 2019-12-11.
  11. ^ [1]

외부 링크