지수 분포

Exponential distribution
지수적
확률밀도함수
plot of the probability density function of the exponential distribution
누적분포함수
Cumulative distribution function
매개변수 > 비율 또는 역 척도
지원
PDF
CDF
퀀틸레
평균
중앙값
모드
분산
왜도
엑스트라 쿠르토시스
엔트로피
MGF
CF
피셔 정보
컬백-라이블러 발산

확률 이론통계에서 지수 분포포아송공정에서 사건 사이의 시간의 확률 분포, 즉 사건이 일정한 평균 속도로 연속적이고 독립적으로 발생하는 과정이다. 그것은 감마 분포의 특별한 경우다. 기하 분포의 연속적인 아날로그로, 기억력이 없다는 핵심 특성을 가지고 있다. 포아송 점 공정의 분석에 사용되는 것 외에도 다양한 다른 맥락에서 찾아볼 수 있다.

지수 분포는 지수 분포의 등급과 같지 않은데, 지수 분포는 그 구성원의 하나로 지수 분포를 포함하지만 정규 분포, 이항 분포, 감마 분포, 포아송 분포 등을 포함하는 확률 분포의 큰 등급이다.

정의들

확률밀도함수

지수 분포의 확률밀도함수(pdf)는

여기서 λ > 0은 분포의 모수로, 흔히 속도 모수라고 한다. 분포는 [0, ∞] 간격에서 지원한다. 랜덤 변수 X에 이 분포가 있으면 X~Exp(λ)라고 쓴다.

지수 분포는 무한의 차이를 보인다.

누적분포함수

누적 분포 함수는 다음과 같이 지정된다.

대체 파라메트리징

지수 분포는 때때로 척도 모수 β = 1/3로 파라메트리되기도 하는데, 이 또한 평균이다.

특성.

평균, 분산, 모멘트 및 중위수

평균은 확률 질량 중심, 그것이 첫 번째 순간이다.
중위수는 preimageF−1(1/2)이다.

지수 분포 랜덤 변수 X의 평균 또는 기대 값은 다음과 같다. 비율 매개변수 λ

아래에 제시된 예에 비추어 볼 때, 이것은 일리가 있다: 만약 당신이 시간당 평균 2의 비율로 전화를 받는다면, 당신은 매 통화마다 30분을 기다릴 것을 기대할 수 있다.

X분산은 다음과 같다.

따라서 표준 편차는 평균과 동일하다.

에 대한 X의 순간은 다음과 같다.

N 에 대한 X의 중심 모멘트는 다음과 같다.

여기서 !nn하위 요인이다.

X중위수는 다음과 같다.

여기서 ln자연 로그(naturalgative logarithm. 따라서 평균과 중위수의 절대 차이는

중앙값과 중앙값의 불평등에 따라

무메모리

기하급수적으로 분포된 랜덤 변수 T는 관계를 준수한다.

이는 보완적 누적분포함수를 고려함으로써 알 수 있다.

T가 어떤 초기 시간에 상대적인 사건이 발생하기 위한 대기 시간으로 해석되는 경우, 이 관계는 T가 어떤 초기 시간 s에 걸쳐 사건을 관찰하지 못하여 조건화된다면, 나머지 대기 시간의 분포는 원래의 무조건적인 분포와 동일하다는 것을 의미한다. 예를 들어 사건이 30초 후에도 발생하지 않은 경우, 발생이 최소 10초 이상 더 걸릴 조건부 확률은 최초 시간 이후 10초 이상 사건을 관측할 수 있는 무조건적인 확률과 동일하다.

지수 분포와 기하 분포기억력이 없는 유일한 확률 분포다.

지수 분포는 필연적으로 일정한 고장률을 갖는 유일한 연속 확률 분포이기도 하다.

퀀텀스

Tukey anomaly criteria for exponential probability distribution function.
이상 징후를 나타내는 Tukey 기준.[citation needed]

Exp(수치)에 대한 퀀텀 함수(누적 분포 함수 역)는 다음과 같다.

따라서 사분위수는 다음과 같다.

  • 제1 사분위수: ln(4/3)/mits
  • 중위수: ln(2)/medium
  • 제3 사분위수: ln(4)/mits

그리고 결과적으로 사분위간 범위는 ln(3)/mit이다.

쿨백-라이블러 발산

{\}("대략적인") 분포의 nats에서의 지시된 Kullback-Leibler 차이("참" 분포)는 과 같다. 0e^{\_{에 의해 주어진다.

최대 엔트로피 분포

지지[0, μ]와 평균 μ를 갖는 모든 연속 확률 분포 중에서 μ = 1/μ를 갖는 지수 분포는 미분 엔트로피가 가장 크다. 즉, 0보다 크거나 같은 랜덤 변수 X에 대한 최대 엔트로피 확률 분포로서 E[X]가 고정되어 있다.[1]

지수 랜덤 변수의 최소 분포

X1, …, Xn 속도 매개변수 λ1, …, λn 함께 기하급수적으로 분포된 랜덤 변수를 갖도록 한다. 그러면

또한 매개변수와 함께 기하급수적으로 분포한다.

이는 보완적 누적분포함수를 고려함으로써 알 수 있다.

최소값을 달성하는 변수의 지수는 범주형 분포에 따라 분포한다.

= i 1,, { 1 , n} I\{ 그러면.

참고:

기하급수적으로 분포되지 않는다.[2]

i.i.d. 지수순 통계량의 합동 모멘트

,, 을(를) 매개 변수 exponential으로 n 독립적이고 동일하게 분포된 지수 랜덤 변수가 되도록 한다. ( ),, ( n) 은(는) 해당 주문 통계를 나타내도록 한다. For , the joint moment of the order statistics and is given by

이는 총체적 기대와 무기억 재산의 법칙을 발동함으로써 알 수 있다.

첫 번째 방정식은 전체 기대의 법칙에서 따온 것이다. 두 번째 방정식은 일단 () = x{\에 조건이 붙으면X( j) ≥ x x를 따라야 한다는 사실을 이용한다 The third equation relies on the memoryless property to replace with .

두 개의 독립 지수 랜덤 변수의 합

두 개의 독립 랜덤 변수 합계의 확률 분포 함수(PDF)는 개별 PDF의 콘볼루션이다. If and are independent exponential random variables with respective rate parameters and then the probability density of 에 의해 주어지다

이 분포의 엔트로피는 닫힌 형태로 이용할 수 있다: 1> 2 일반성의 손실 없이)라고 가정하고, 그 다음
여기서 (는) 오일러-마스케로니 상수, and 디감마 함수다.[3]

동일한 비율 모수의 경우, 결과는 형상 2와 파라미터 ,을(를) 갖는 Erlang 분포로, 감마 분포의 특수한 경우다.

관련 분포

  • ~ ( ,- 1 ) X일 경우 X - μ ~ Exp(β)
  • X ~ Pareto(1, λ)인 경우 로그(X) ~ Exp(λ)를 기록한다.
  • X ~ SkewLogistic(skewLogistic)인 경우+ - X)~ ()
  • Xi~U(0, 1)인 경우
  • 지수 분포는 척도 베타 분포의 한계:
  • 지수 분포는 타입 3 Pearson 분포의 특별한 경우다.
  • X~Ex(Exp) 및 Xi~Exp(Expi)인 경우:
    • ( ) 포지티브 계수에 의한 스케일링으로 마감.
    • 1 + X ~ BenktanderWeibull(λ, 1)은 지수 분포가 잘리는 것으로 감소한다.
    • X ~파레토(k, λ)
    • e−X ~ 베타(λ, 1)
    • 1/keX ~ PowerLaw(k, λ)
    • ~ ( ) Rayleigh 분포
    • ~ ( , ) {1 Weibull 분포
    • μ - β 로그(λX) ~ 쿰벨(μ, β).
    • ~ 분포( -- ) X)}, 01,2,3에 기하학적 분포,...
    • ~ 기하학 (- -) X\ 1,2,3,4, ...
    • Y ~ Erlang(n, λ) 또는 Y~ ( ) Y Y+ ~ (,n)
    • 또한 λ ~ 감마(k, θ) (모양, 척도 모수))인 경우 X의 한계 분포는 감마 혼합물로맥스(k, 1/43)이다.
    • λX11 - λY22 ~ 라플라스(0, 1)
    • minn{X1, ..., X} ~ Exp(exp1 + ... + λn)
    • 또한 λi = λ인 경우:
      • Erlang(k, λ) = Gamma(k, λ−1) = Gamma(k, λ) (in (k, θ) and (α, β) parametrization, respectively) with an integer shape parameter k.
      • Xij - X ~ 라플라스(0, λ−1).
    • Xi 독립적일 경우:
      • + U(0, 1)
      • has probability density function _에 대한 신뢰구간을 구하는 데 사용할 수 있다.
    • 또한 λ = 1인 경우:
      • - log - - -)~ 분포 , ) 분포
      • μ - σ 로그(X) ~ GEV(μ, σ, 0).
      • Further if then (K-distribution)
    • 또한 λ = 1/2이면 X ~ χ2
      2
      ; 즉 X자유도가 2인 카이 제곱 분포를 가진다.
      따라서 다음과 같다.
  • If and ~ Poisson(X) then (geometric distribution)
  • Hoyt 분포는 지수 분포와 아크사인 분포로부터 얻을 수 있다.

기타 관련 분포:

통계적 추론

아래에서 랜덤 변수 X가 비율 매개 변수 λ과 함께 기하급수적으로 분포한다고 가정하고, , 은(는) X에서 추출한 n개의 독립 표본이며, 표본 평균 이다

모수 추정

λ에 대한 최대우도 추정기는 다음과 같이 구성된다.

변수에서 추출한 독립적이고 동일한 분포의 표본 x = (x1, …, xn)에 대한 λ의 우도 함수는 다음과 같다.

여기서:

표본 평균이다.

우도함수의 로그의 파생상품은 다음과 같다.

따라서 속도 모수에 대한 최대우도 추정치는 다음과 같다.

(가) / {\ 1/\ 편향되지[4] 않은 MLE[5] 추정기이고 분포 평균이기는 하지만 ator , \편향 추정기가 아니다.

의 치우침은 다음과 같다.

편향-편향 최대우도 추정기를 산출한다.

예상 오차 제곱의 대략적인 최소값

표본이 세 개 이상 있다고 가정해 보십시오. 기대 평균 제곱 오차 최소화를 추구하는 경우(참조: 최대우도 추정치(즉, 우도 추정치에 대한 승수 보정)와 유사한 치우침-분산 절충:

이는 역감마 분포의 평균과 분산에서 도출된다. ( ,) [6]

피셔 정보

속도 매개 변수 {I}(\displaystyle의 추정기에 대해 ( { )로 표시된 Fisher 정보는 다음과 같이 제공된다.

배포 및 해결을 위한 연결:

이것은 지수 분포의 각 독립 표본이 알 수 없는 비율 매개변수 에 대해 전달하는 정보의 양을 결정한다

신뢰구간

지수 분포의 속도 모수에 대한 100(1 - α)% 신뢰 구간은 다음을 통해 주어진다.[7]

또한 다음과 같다.
여기서 χ2
p,v 자유도가 vdegree인 키 제곱 분포의 100(p)³이고, n은 표본 내 간격 시간의 관측치 수이며, x-bar는 표본 평균이다.
정확한 간격 끝점에 대한 간단한 근사치는 χ2
p,v
분포에 대한 정규 근사치를 사용하여 도출할 수 있다.
이 근사치는 95% 신뢰 구간에 대해 다음과 같은 값을 제공한다.

이 근사치는 최소한 15~20개의 원소를 포함하는 표본에 대해 허용될 수 있다.[8]

베이시안 추론

지수 분포의 이전의 결합감마 분포(이 중 지수 분포는 특수한 경우)이다. 감마 확률 밀도 함수의 다음과 같은 매개변수가 유용하다.

그런 다음 후방 분포 p는 위에서 정의한 우도 함수와 감마 선행으로 표현할 수 있다.

이제 후방 밀도 p는 누락된 정규화 상수까지 지정되었다. 감마 pdf의 형태를 가지고 있기 때문에 쉽게 채울 수 있으며, 다음과 같은 것을 얻을 수 있다.

여기서 하이퍼 파라미터 α는 이전 관측치의 수로 해석할 수 있고, β는 이전 관측치의 합으로 해석할 수 있다. 여기서의 후방 평균은 다음과 같다.

발생 및 적용

사건발생

지수 분포는 동종 포아송 공정에서 도착 간 시간의 길이를 설명할 때 자연적으로 발생한다.

지수 분포는 기하 분포의 연속적인 상대적 분포로 볼 수 있으며, 이는 이산 공정이 상태를 변화시키는 데 필요한 베르누이 시행 횟수를 설명한다. 이와는 대조적으로 지수 분포는 연속적인 공정이 상태를 변경하기 위한 시간을 설명한다.

실제 상황에서는 일정 비율(또는 단위 시간당 확률)의 가정이 거의 충족되지 않는다. 예를 들어, 수신 전화의 비율은 하루의 시간에 따라 다르다. 그러나 근무일 중 오후 2시부터 4시까지와 같이 비율이 대략 일정한 시간 간격에 초점을 맞추면 지수 분포를 다음 전화가 도착할 때까지의 좋은 대략적인 모델로 사용할 수 있다. 유사한 주의사항이 대략적으로 기하급수적으로 분포된 변수를 산출하는 다음 예에 적용된다.

  • 방사성 입자가 소멸될 때까지의 시간 또는 가이거 카운터의 클릭 사이의 시간
  • 다음 전화 통화 전까지 걸리는 시간
  • 감소된 형태의 신용위험 모델링에서 채무불이행(회사채무 보유자에 대한 지급시)까지 소요 시간

지수 변수를 사용하여 특정 사건이 단위 길이당 일정한 확률로 발생하는 상황(: DNA Strand의 돌연변이 간 거리 또는 특정 도로의 노면차단 간 거리)을 모델링할 수도 있다.

대기열 이론에서, 시스템 내 에이전트의 서비스 시간(예: 은행 출납원이 고객에게 서비스를 제공하는 데 걸리는 시간 등)은 기하급수적으로 분산된 변수로 모델링되는 경우가 많다. (예를 들어, 도착이 독립적이고 동일하게 분포되어 있는 경우 고객의 도착도 포아송 분포에 의해 모델링됨) 여러 독립적인 업무의 연속이라고 생각할 수 있는 프로세스의 길이는 에를랑 분포(여러 독립적인 지수 분포 변수의 합계의 분포)를 따른다. 신뢰성 이론신뢰성 공학도 지수 분포를 광범위하게 이용한다. 이 분포의 기억력이 없는 특성 때문에 신뢰도 이론에 사용되는 욕조 곡선의 일정한 위험률 부분을 모델링하기에 적합하다. 또한 신뢰성 모델에서 고장률을 추가하는 것이 매우 쉽기 때문에 매우 편리하다. 그러나 지수 분포는 유기체 또는 기술 장치의 전체 수명을 모형화하는 데 적합하지 않다. 여기서 "고장률"은 일정하지 않기 때문이다. 즉, 매우 젊은 시스템 및 매우 오래된 시스템에서 더 많은 고장이 발생한다.

CumFreq[9] 사용하여 연간 최대 1일 강우량에 누적 지수 분포 적합

물리학에서 일정한 온도에서 기체를 관찰하고 균일한 중력장에서 압력을 관찰하면, 다양한 분자의 높이도 기압 공식으로 알려진 대략적인 지수 분포를 따른다. 이것은 아래에 언급된 엔트로피 속성의 결과물이다.

수문학에서 지수 분포는 일일 강우량 및 하천 유량 월별 및 연간 최대값과 같은 변수의 극단값을 분석하는 데 사용된다.[10]

파란색 그림은 지수 분포를 연간 최대 일일 강수량의 순위에 맞추는 예를 보여 주며, 이항 분포를 바탕으로 한 90% 신뢰 벨트도 보여준다. 강우 데이터는 누적 빈도 분석의 일부로 위치를 표시하여 나타낸다.

수술실 관리에서, 일반적인 업무 콘텐트가 없는 수술 범주의 수술 기간 분포(응급실, 모든 종류의 수술 포함)

예측

알 수 없는 지수 분포에서 데이터 의 표본을 관측한 공통 작업은 이러한 표본을 사용하여 동일한 출처의 미래 데이터에 대한 예측을 하는 것이다. 미래 표본에 대한 일반적인 예측 분포는 속도 매개변수 rate에 대한 적절한 추정치를 지수밀도 함수에 연결함으로써 형성된 소위 플러그인 분포다. 추정의 일반적인 선택은 최대우도 원리에 의해 제공되는 것이며, 이를 사용하면 관측된 표본n+1 x = (x1, ..., xn)에 대한 예측 밀도가 다음과 같이 산출된다.

베이지안 접근방식은 추정된 모수의 불확실성을 고려한 예측 분포를 제공하지만, 이는 이전 모수의 선택에 결정적으로 좌우될 수 있다.

주관적인 베이지안식 접근법에 따라 발생하는 사전 선택 문제에서 자유로운 예측 분포는 다음과 같다.

라고 볼 수 있는

  1. 구심점 n + / 의 분포를 통해 얻은 빈번한 신뢰 분포[11]
  2. profile possibility, parameter likelihood을 xn+1 λ의 공동우도로부터 최대로 제거하여 얻은 profile possibility;[12]
  3. 비정보적 Jeffreys 이전 1/2을 사용하여 얻은 베이지안 예측 후방 분포
  4. 정보 이론적 고려사항에서 조건부 정규화 최대우도([13]CNML) 예측 분포

예측 분포의 정확도는 비율 모수를 가진 실제 지수0 분포와 표본 x에 기초한 예측 분포 사이의 거리 또는 차이를 사용하여 측정할 수 있다. Kullback-Leibler 차이점은 두 분포 간의 차이에 대한 매개변수화 자유 측정값이다. Δ(Δ0 p)가 속도 매개변수 λ0 가진 지수 p와 예측 분포 p 사이의 Kullback-Leibler 차이를 나타내도록 하는 것은 다음과 같은 것을 보여줄 수 있다.

여기서, 속도 매개변수 λ0 (0, ∞), ψ ( · )를 갖는 지수 분포에 대해 기대치를 취하며, digamma 함수가 된다. CNML 예측 분포가 모든 표본 크기 n > 0에 대한 평균 Kullback-Leibler 분산 측면에서 최대우도 플러그인 분포보다 엄격히 우수하다는 것은 분명하다.

계산 방법

지수 변수 생성

지수변수를 생성하는 개념적으로 매우 간단한 방법은 역변환 표본 추출에 기초한다: 단위 간격(0, 1)의 균일한 분포에서 추출한 랜덤변수 U를 고려할 때 변수는 다음과 같다.

지수 분포를 가지고 있다. 여기서 F−1 계량 함수로서 정의된다.

또한 U가 (0, 1)일 경우 1 - U가 균일하다. 이는 다음과 같이 지수 변동을 발생시킬 수 있다는 것을 의미한다.

지수 변동을 생성하는 다른 방법은 Knuth와[14] Devroye에 의해 논의된다.[15]

정렬 루틴을 사용하지 않고 미리 정렬된 지수 변수의 집합을 생성하는 빠른 방법도 사용할 수 있다.[15]

참고 항목

참조

  1. ^ Park, Sung Y.; Bera, Anil K. (2009). "Maximum entropy autoregressive conditional heteroskedasticity model" (PDF). Journal of Econometrics. Elsevier: 219–230. Archived from the original (PDF) on 2016-03-07. Retrieved 2011-06-02.
  2. ^ Michael, Lugo. "The expectation of the maximum of exponentials" (PDF). Archived from the original (PDF) on 20 December 2016. Retrieved 13 December 2016.
  3. ^ Eckford, Andrew W.; Thomas, Peter J. (2016). "Entropy of the sum of two independent, non-identically-distributed exponential random variables". arXiv:1609.02911.
  4. ^ Richard Arnold Johnson; Dean W. Wichern (2007). Applied Multivariate Statistical Analysis. Pearson Prentice Hall. ISBN 978-0-13-187715-3. Retrieved 10 August 2012.
  5. ^ NIST/SEMATECH 전자통계편람
  6. ^ Elfessi, Abdulaziz; Reineke, David M. (2001). "A Bayesian Look at Classical Estimation: The Exponential Distribution". Journal of Statistics Education. 9 (1). doi:10.1080/10691898.2001.11910648.
  7. ^ Ross, Sheldon M. (2009). Introduction to probability and statistics for engineers and scientists (4th ed.). Associated Press. p. 267. ISBN 978-0-12-370483-2.
  8. ^ Guerriero, V. (2012). "Power Law Distribution: Method of Multi-scale Inferential Statistics". Journal of Modern Mathematics Frontier. 1: 21–28.
  9. ^ "Cumfreq, a free computer program for cumulative frequency analysis".
  10. ^ Ritzema (ed.), H.P. (1994). Frequency and Regression Analysis. Chapter 6 in: Drainage Principles and Applications, Publication 16, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. pp. 175–224. ISBN 90-70754-33-9.CS1 maint: 추가 텍스트: 작성자 목록(링크)
  11. ^ Lawless, J. F.; Fredette, M. (2005). "Frequentist predictions intervals and predictive distributions". Biometrika. 92 (3): 529–542. doi:10.1093/biomet/92.3.529.
  12. ^ Bjornstad, J.F. (1990). "Predictive Likelihood: A Review". Statist. Sci. 5 (2): 242–254. doi:10.1214/ss/1177012175.
  13. ^ D. F. 슈미트와 E. Makalic, "지수분포를 위한 범용 모델", 정보이론에 관한 IEEE 거래, 제55권, No. 7, 3087–3090, 2009 도이:10.1109/TIT.2018331
  14. ^ 도널드 크누스(1998년). 컴퓨터 프로그래밍기술, 제2권: 세미머셜 알고리즘, 제3권 보스턴: 애디슨-웨슬리 ISBN 0-201-89684-2. 섹션 3.4.1, 페이지 133을 참조한다.
  15. ^ Jump up to: a b 뤽 데브로예(1986년). 불균일 랜덤 변동 생성. 뉴욕: 스프링거-베를라크. ISBN 0-387-96305-7 IX장, 섹션 2, 페이지 392–401을 참조한다.

외부 링크