확률 분포 적합

Probability distribution fitting

확률 분포 적합 또는 단순 분포 적합은 가변 현상의 반복 측정에 관한 일련의 데이터에 확률 분포를 적합시키는 것입니다.

분포 적합의 목적은 특정 구간에서 현상의 크기의 발생 빈도를 예측하거나 확률을 예측하는 것입니다.

현상의 특성과 분포의 특성에 따라 일부 분포는 다른 분포보다 관측된 데이터의 빈도에 더 가깝게 적합될 수 있는 많은 확률 분포(확률 분포 목록 참조)가 있습니다.밀착형 분포는 좋은 예측으로 이어지게 되어 있습니다.

따라서 분포 적합에서는 데이터에 적합한 분포를 선택해야 합니다.

배포의 선택

평균 μ 및 분산 2 따라 대칭 정규 분포의 다른 모양 †

적절한 분포의 선택은 중심 경향에 대한 데이터 집합의 대칭 유무에 따라 달라집니다.

대칭 분포

데이터가 평균을 중심으로 대칭적으로 분포되어 있고 평균에서 멀리 떨어진 데이터의 발생 빈도가 감소하는 경우 정규 분포, 로지스틱 분포 또는 학생의 t-분포를 선택할 수 있습니다.처음 두 가지는 매우 유사하지만, 자유도가 1개인 마지막 두 가지는 평균으로부터 더 멀리 있는 값이 상대적으로 더 자주 발생한다는 것을 의미하는 "더 무거운 꼬리"를 가지고 있다(, 첨도가 더 높다).코시 분포도 대칭입니다.

분포를 오른쪽으로 기울입니다.

좌우로 치우침

큰 값이 작은 값보다 평균에서 멀리 떨어져 있는 경향이 있는 경우, 오른쪽으로 치우친 분포(: 양의 치우침)가 있습니다. 예를 들어 로그 정규 분포(예: 데이터의 로그 값이 정규 분포), 로그 로지스틱 분포(예: 데이터의 로그 값)를 선택할 수 있습니다.오가스틱 분포), 검벨 분포, 지수 분포, 파레토 분포, 와이불 분포, 버 분포 또는 프레셰 분포.마지막 4개의 분포는 왼쪽으로 경계화되어 있습니다.

왼쪽으로 분포 기울기

언제가 더 적은 값 더 멀리 떨어진 평균이 큰 값보다 있습니다, 하나,(포지티브 정상적인 분포는 데이터 값의 제곱에 지원했다.)[1]역(반영)감벨은 대그. distribution,[1]한 예를 들어square-normal 유통을 선택할 수 있는 왼쪽(포지티브가 부적 편포는)에 비대칭 분포.)dis트리뷰션(미러 버 분포) 또는 왼쪽으로 경계가 지정된 곰퍼츠 분포.

피팅 테크닉

배전 피팅에는 다음과 같은 기술이 있습니다.[2]

예를 들어 μ\ 기대치)는 데이터의 평균으로 추정할 수 있으며 매개변수 2는 데이터의 표준 편차로부터 추정할 수 있다.평균은 m X / {\ m=\. 여기서X {\ X는 데이터 값이고 n n 데이터 수이며, 표준 편차는 - 1( - )2 {{ s = rt } {} {{1-frt}로 계산됩니다.정규 분포와 같은 많은 분포가 완전히 정의됩니다.
cumfreq를 사용하여 신뢰 밴드를 추가한 회귀법에 의해 수리남의 10월 1일 최대 강우량에 적합한 누적 검벨 분포
  • 누적 확률과 데이터의 값 사이에 선형 관계를 찾을 수 있도록 누적 분포 함수의 변환을 사용하는 회귀 방법. 선택한 확률 분포에 따라 변환해야 할 수도 있습니다.이 방법에서는 누적 확률을 플롯[6] 위치로 추정해야 합니다.
예를 들어 누적 Gumbel 분포는 Y X + (\style Y=할 수 있습니다. 여기서 X X 데이터 이고 Y - ( - lnP)(\ Y=\PP 누적입니다.X X보다 s(\displaystyle X). 따라서 P P플롯 위치를 사용하여 X X에서Y(\ Y 선형 회귀에서 a a) 구하면 Gumbel 분포가 완전히 정의됩니다.

분포의 일반화

대칭 분포(정규 분포 및 로지스틱 분포와 같이)를 양의 방향으로 치우친 분포(즉, 평균 > 모드와 왼쪽 꼬리보다 긴 오른쪽 꼬리)에 따르도록 데이터를 로그로 변환하는 것이 일반적입니다. 로그 정규 분포와 로그 로지스틱 분포참조하십시오.데이터의 제곱근을 구하면 유사한 효과를 얻을 수 있습니다.

음의 치우침 분포를 따르는 데이터에 대칭 분포를 적합시키기 위해(즉, 평균 < 모드사용하여 왼쪽으로 치우치고 오른쪽 꼬리를 사용하면 왼쪽 꼬리보다 짧음) 데이터의 제곱 값을 사용하여 적합을 적합을 달성할 수 있다.

보다 일반적으로 왜도 분포를 따르는 데이터에 대칭 분포를 맞추기 위해 데이터를 p승으로 올릴 수 있습니다. , 왜도가 양의 경우 p < 1, 왜도가 음의 경우 p > 1입니다.p의 최적값은 수치법으로 구한다.수치 방법은 p 값의 범위를 가정한 다음 가정한 모든 p 값에 대해 분포 적합 절차를 반복적으로 적용하고 마지막으로 CumFreq에서처럼 측정된 주파수(chi 제곱)에서 계산된 확률의 제곱합이 최소인 p 을 선택하는 것으로 구성될 수 있다.

일반화는 확률 분포의 유연성을 향상시키고 분포 [6]적합에서 확률 분포의 적용 가능성을 높입니다.

예를 들어, 일반화의 다양성으로 인해 대략적으로 정규 분포된 데이터 세트를 다수의 다른 확률 [7]분포에 적합시킬 수 있으며 음수 치우침 분포는 정사각형 정규 분포 및 대칭된 Gumbel [8]분포에 적합할 수 있습니다.

왜도의 반전

(A)검벨 확률 분포 스큐를 오른쪽으로, (B)검벨 미러 스큐를 왼쪽으로

왜곡분포는 누적분포함수(F)의 수학식을 F'=1-F로 대체하여 반전(또는 대칭)할 수 있으며, 거울상을 주는 상보분포함수(생존함수라고도 함)를 얻을 수 있다.이와 같이 오른쪽으로 치우친 분포는 왼쪽으로 치우친 분포로 변환되고 반대로도 마찬가지입니다.

.양의 방향으로 치우친 Gumbel 분포의 F-식은 F=exp[-exp{-(X-u)/0.78s}입니다. 여기서 u는 모드(즉, 가장 자주 발생하는 값)이고 s는 표준 편차입니다.Gumbel 분포는 F'=1-exp[-exp{-(x-u)/0.78s}]를 사용하여 변환할 수 있습니다.이 변환은 음의 치우침 분포를 따르는 데이터 열을 적합시킬 수 있는 역, 대칭 또는 보완 Gumbel 분포를 생성합니다.

왜도 반전 기술은 분포 적합에 사용할 수 있는 확률 분포의 수를 증가시키고 분포 적합 기회를 확대합니다.

유통의 이동

지수 분포와 같은 일부 확률 분포는 0 이하의 데이터 값(X)을 지원하지 않습니다.그러나 음수 데이터가 존재하는 경우에도 X를 Y=X-Xm으로 대체할 수 있습니다. 여기서 Xm은 X의 최소값입니다. 치환은 Xm이 음수이기 때문에 확률 분포가 양수 방향(오른쪽)으로 이동하는 것을 나타냅니다.Y의 분포 적합을 완료한 후 X=Y+Xm에서 대응하는 X값을 구합니다. X=Y+Xm은 음의 방향, 즉 왼쪽으로 분포의 역시프트를 나타냅니다.
분포 이동 기술은 적절한 확률 분포를 찾을 수 있는 기회를 증가시킵니다.

복합 분포

신뢰[9] 벨트가 있는 복합(연속) 분포

이 옵션은 낮은 데이터 범위에 대한 분포와 높은 데이터 범위에 대한 분포, 예를 들어 Laplace 분포와 같은 두 가지 다른 확률 분포를 사용하는 데 사용됩니다.범위는 중단점으로 구분됩니다.그러한 복합(연속) 확률 분포의 사용은 연구된 현상의 데이터가 두 가지 다른 조건에서 [6]얻어진 경우에 적절할 수 있다.

예측의 불확실성

이항 분포를 사용한 신뢰 벨트를 사용한 불확실성 분석[10]

적합 확률 분포에 기초한 발생 예측은 다음과 같은 조건에서 발생하는 불확실성에 노출된다.

  • 관측된 데이터 계열이 랜덤 오류로 인한 현상의 실제 발생 확률을 완전히 나타내지 못할 수 있으므로 사건의 실제 확률 분포는 적합 분포와 다를 수 있습니다.
  • 다른 상황이나 미래의 사건 발생은 랜덤 오차가 발생할 수 있으므로 적합 분포에서 벗어날 수 있습니다.
  • 환경 조건의 변화는 현상의 발생 확률의 변화를 야기할 수 있다.
이론적인 1000년 기록(기준선)에서 50년 표본의 9회 복귀 기간 곡선의 변화, 벤슨의 데이터[11]

제1 및 제2의 경우 불확실성의 추정치는 예를 들어 초과 Pe의 확률(사상 X가 기준값 Xr보다 클 가능성) 및 비과외 Pn의 확률(사상 X가 작거나 같을 가능성)을 이용하여 이항 확률 분포로 구할 수 있다.기준 값 Xr, 이것은 누적 확률이라고도 합니다).이 경우 초과가 있는지 또는 초과가 없는지 두 가지 가능성만 있습니다.이 이중성은 이항 분포를 적용할 수 있는 이유입니다.

이항 분포를 사용하면 예측 구간을 얻을 수 있습니다.이러한 구간은 고장 위험, 즉 예측 사건이 여전히 신뢰 구간을 벗어날 가능성을 추정하기도 합니다.신뢰도 또는 위험 분석에는 수문학에서와 같이 복귀 기간 T=1/Pe가 포함될 수 있다.

적합도별로 순위가 매겨진 [12]확률 분포 목록입니다.
GEV 분포를 적합시키는 데이터 세트의 히스토그램 및 확률 밀도

적합도

다양한 분포의 적합도를 순위를 매김으로써 어떤 분포가 허용 가능한지 또는 그렇지 않은지에 대한 인상을 얻을 수 있습니다.

히스토그램 및 밀도 함수

누적분포함수(CDF)에서 히스토그램확률밀도함수(PDF)를 도출할 수 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b 왼쪽(음) 치우친 주파수 히스토그램은 정사각형 일반 또는 미러링된 검벨 확률 함수에 적합할 수 있습니다.온라인: [1]
  2. ^ 빈도회귀 분석.6장 in: H.P. 리제마(ed., 1994), 배수 원리응용, Publ. 16, 페이지 175–224, 네덜란드, 바게닝겐, ILRI(International Institute for Land Replacement and Envelopment) ISBN9070754339.nr. 12 아래의 웹페이지 [2]에서 무료로 다운로드하거나 PDF : [3]로 직접 다운로드 할 수 있습니다.
  3. ^ H. Cramér, "통계학의 수학적 방법", 프린스턴 대학교.누르다(1946)
  4. ^ Hosking, J.R.M. (1990). "L-moments: analysis and estimation of distributions using linear combinations of order statistics". Journal of the Royal Statistical Society, Series B. 52: 105–124. JSTOR 2345653.
  5. ^ Aldrich, John (1997). "R. A. Fisher and the making of maximum likelihood 1912–1922". Statistical Science. 12 (3): 162–176. doi:10.1214/ss/1030037906. MR 1617519.
  6. ^ a b c 일반화 및 복합 확률 분포용 소프트웨어.국제 수학 및 계산 방법 저널, 4, 1-9 [4] 또는 [5]
  7. ^ 많은 수의 다른 확률 분포를 적합시킬 수 있는 근사 정규 분포 데이터 집합 예제 [6]
  8. ^ 왼쪽(음) 치우친 주파수 히스토그램은 정사각형 정상 또는 대칭 Gumbel 확률 함수에 적합할 수 있습니다.[7]
  9. ^ 복합 확률 분포 소개
  10. ^ 빈도 예측 및 이항 신뢰 한계.in: 국제 관개 및 배수 위원회, 특별 기술 세션: 홍수 제어 및 비구조적 조치의 경제적 측면, 유고슬라비아, 두브로브니크, 1988.온라인
  11. ^ 벤슨, M.A. 1960년이론적인 1000년 기록에 근거한 주파수 곡선의 특성.입력: T. Dalrymple(Ed.), 홍수 주파수 분석.미국 지질 조사 급수 문서, 1543-A, 페이지 51-71.
  12. ^ 확률 분포 적합 소프트웨어