최대 간격 추정
Maximum spacing estimation
통계에서 최대 간격 추정(MSE 또는 MSP) 또는 간격 추정(MSP)의 최대 산출물은 일변량 통계 모형의 모수를 추정하는 방법이다.[1]이 방법은 데이터 내 스페이스의 기하학적 평균을 최대화해야 하는데, 이는 인접 데이터 지점의 누적 분포 함수의 값 사이의 차이인 것이다.
이 방법의 기본 개념은 확률 적분 변환에 기초한다. 즉, 임의 변수에서 파생된 일련의 독립 랜덤 표본은 평균적으로 랜덤 변수의 누적 분포 함수에 대해 균일하게 분포되어야 한다.MPS 방법은 관측된 데이터를 균일성의 특정 정량적 측정에 따라 가능한 균일하게 만드는 매개변수 값을 선택한다.
데이터에서 분포의 모수를 추정하는 가장 일반적인 방법 중 하나인 최대우도법(MLE)은 연속 분포의 특정 혼합물을 포함하는 것과 같은 다양한 경우에 분해될 수 있다.[2]이 경우 최대 간격 추정 방법이 성공할 수 있다.
순수수학이나 통계학에서 사용하는 것 외에도 수문학,[3] 계량학,[4] 자기공명영상 [5]등의 분야의 데이터를 이용해 이 수법의 시험적용 여부를 보고하고 있다.[6]
이력 및 사용법
MSE 방법은 웨일스 과학 기술 대학의 러셀 쳉과 닉 아민이 독자적으로, 스웨덴 농업 과학 대학의 보 란네비가 독자적으로 도출했다.[2]저자들은 참 매개변수에서의 확률 적분 변환 때문에 각 관측치 사이의 "공간"이 균일하게 분포되어야 한다고 설명했다.이는 연속 관측치에서의 누적 분포 함수의 값 간 차이가 같아야 함을 의미한다.이러한 스페이싱의 기하학적 평균을 최대화하는 경우가 이에 해당하므로 기하학적 평균을 최대화하는 파라미터를 풀면 이렇게 정의한 "최상의" 적합을 달성할 수 있을 것이다.Ranneby(1984)는 최대우도 추정과 유사하지만 일부 문제 종류에 대해서는 더 강력한 특성을 가진 Kullback-Leibler 분산의 추정자임을 입증함으로써 이 방법을 정당화했다.
모수 공간의 특정 경로를 따라 가능성이 무한해질 수 있는 특정 분포, 특히 모수가 3개 이상인 분포가 있다.이러한 모수를 추정하기 위해 최대우도를 사용하면 한 모수가 무한 확률을 유발하는 특정 값으로 조정되어 다른 모수가 일관되지 않게 되는 경우가 많다.그러나 최대 간격은 개별 우도점이 아닌 누적 분포 함수의 점 간 차이에 따라 달라지므로 이 문제는 발생하지 않으며 훨씬 더 광범위한 분포에 걸쳐 유효한 결과를 반환할 것이다.[1]
가능성 문제가 있는 분포는 종종 물리적 현상을 모형화하는 데 사용된다.Hall & al. (2004)는 하천 홍수 효과의 정확한 모델이 필요한 홍수 완화 방법의 분석을 모색한다.이러한 효과를 더 잘 모형화하는 분포는 모두 3-모수 모델이며, 위에서 설명한 무한우도 문제로 인해 홀이 최대 간격 절차를 조사하게 된다.Wong & Li(2006)는 방법을 최대 우도와 비교할 때 1905년부터 1958년 사이에 스웨덴에서 사망했을 때 가장 오래된 연령에 대한 세트부터 연간 최대 풍속이 포함된 세트까지 다양한 데이터 세트를 사용한다.
정의
연속 누적분포함수 F(x;caluation0)가 있는 일변량 분포에서 n 크기의 iid 무작위 표본 {x1, ..., xn}이(가) 주어진 경우, 여기서 θ0 ∈ ∈ ∈은 추정할 수 없는 모수이며, {x(1), ..., x(n)}은 모든 관측치를 가장 작은 것에서 가장 큰 순서로 정렬하여 얻은 결과라고 한다.편의를 위해 x(0) = -csv 및 x(n+1) = +csv를 나타내기도 한다.
스페이싱을 인접한 순서의 점에서 분포 함수의 값 사이의 "갑"으로 정의하십시오.[7]
다음으로 θ의0 최대 간격 추정기는 표본 스페이스의 기하 평균 로그 값을 최대화하는 값으로 정의된다.
산술적, 기하학적 수단의 불평등에 의해 함수n S(θ)는 위로부터 -ln(n+1)으로 경계되므로, 적어도 우월적 의미에서는 최대치가 존재해야 한다.
일부 저자는 함수 Sn(θ)를 다소 다르게 정의한다는 점에 유의한다.특히 란네비(1984)는 각 D를i (n+1) 인수로 곱한 반면, 청앤스테판(1989)은 D를 생략한다.합 앞에 1⁄n+1 인자를 넣고 "-" 기호를 추가하여 최대화를 최소화한다.이것들은 θ에 관한 상수들이기 때문에, 수정은 함수 S의n 최대 위치를 변경하지 않는다.
예
이 절에서는 최대 간격 추정기 계산의 두 가지 예를 제시한다.
예 1.

두 값(1) x = 2(2), x = 4를 지수 분포 F(x;calues) = 1−xλ - e, x unknown 0에서 모수(알 수 없는 모수 λ > 0)로 추출했다고 가정하자.MSE를 구축하려면 먼저 스페이스를 찾아야 한다.
i | F(x(i)) | F(x(i−1)) | Di = F(x(i)) − F(x(i−1)) |
---|---|---|---|
1 | 1 − e−2λ | 0 | 1 − e−2λ |
2 | 1 − e−4λ | 1 − e−2λ | e−2λ − e−4λ |
3 | 1 | 1 − e−4λ | e−4λ |
'차이' 열의 기하학적 평균을 최대화하는 λ을 찾아 그 과정을 계속한다.(n+1)st 루트 취급을 무시하는 관례를 사용하여, 이는 (1−2λ - e) · (e−2λ−4λ - e) · (e) · (e−4λ)의 제품 극대화로 변한다.μ = e를−2λ 놓아두면 문제는 최대 μ-2μ54+μ를3 찾게 된다.분화하면 μ는 5 μ-843 μ+3 μ2 = 0을 만족시켜야 한다.이 방정식은 뿌리가 0, 0.6, 1이다.μ는 실제로 e이므로−2λ 0보다 크지만 1보다 작아야 한다.그러므로 유일하게 받아들일 수 있는 해결책은
이는 평균이 ½ ≈ 3.915인 지수 분포에 해당한다.비교를 위해 λ의 최대우도 추정치는 표본 평균의 역행인 3이므로 λMLE = ⅓ 0.333이다.
예 2
{x(1), ..., x(n)}이(가) 끝점 a와 b를 알 수 없는 균일한 분포 U(a,b)에서 순서가 지정된 샘플이라고 가정합시다.x distribution[a,b]일 때 누적분포함수는 F(x;a,b) = (x-a)/(b-a)이다.따라서 개별 스페이싱은 다음에 의해 주어진다.
기하 평균을 계산한 다음 로그 값을 구하면 통계량 S는n
여기서는 파라미터 a와 b에 따라 3개 용어만 달라진다.이러한 매개변수에 대해 구별하고 그에 따른 선형 시스템을 해결하면 최대 간격 추정치는
이들은 연속적인 균일 분포에 대한 균일 최소 분산 불편(UMVU) 추정기로 알려져 있다.[1]이에 비해 이 문제의 최대우도 ^=x ( )a1)}b^ x ( 은 편향되며 평균 제곱 오차가 더 높다.
특성.
일관성 및 효율성
최대 간격 추정기는 표본 크기가 무한대로 증가함에 따라 매개변수 θ의0 참값으로 확률로 수렴된다는 점에서 일관된 추정기다.[2]최대 간격 추정기의 일관성은 최대우도 추정기의 경우보다 훨씬 더 일반적인 조건에서 유지된다.특히 기본 분포가 J자형인 경우 MSE가 성공하는 경우 최대 가능성은 실패한다.[1]J자형 밀도의 예로는 형상 모수가 1 미만인 Weibull 분포, 특히 이동된 Weibull 분포가 있다.밀도는 x가 다른 매개변수의 위치 매개변수 렌더링 추정치에 접근함에 따라 무한대가 되는 경향이 있다.
최대 간격 추정기는 또한 최소한 최대우도 추정기만큼 점증적으로 효율적이다. 여기서 최대우도 추정기가 존재한다.그러나 MSE는 MLE가 존재하지 않는 경우에 존재할 수 있다.[1]
민감도
최대 간격 추정기는 밀접하게 간격을 두고 관찰되는 관측치, 특히 연관성에 민감하다.[8]주어진
우리는 얻는다.
동점이 다중 관측치로 인한 경우 반복된 스페이싱(그렇지 않으면 0이 되는 스페이싱)은 해당 우도로 대체해야 한다.[1]즉, 다음과 같이 F () 을(를) ( 로 대체해야 한다
= - 1
라운딩 오류로 인해 동점일 경우 청앤스텝슨(1989)은 효과를 제거할 수 있는 다른 방법을 제안한다.[note 1]x에서i x까지의i+r−1 r 동점 관측치가 주어진 경우 Δ가 반올림 오차를 나타내도록 한다.All of the true values should then fall in the range . The corresponding points on the distribution should now fall between and 청과 스티븐스는 반올림된 값이 이 간격에서 균일하게 간격을 두고 있다고 가정할 것을 제안한다.
MSE 방법은 2차 클러스터링에도 민감하다.[8]이러한 현상의 한 예는 일련의 관측치가 단일 정규 분포에서 나온다고 생각될 때지만, 사실 다른 평균을 가진 혼합물 정규에서 나온다는 것이다.두 번째 예는 데이터가 지수 분포에서 나온다고 생각되지만 실제로 감마 분포에서 나온 경우입니다.후자의 경우 아랫꼬리에서 더 작은 스페이싱이 발생할 수 있다.M(M)의 높은 값은 이러한 이차 군집화 효과를 나타내며, 데이터를 보다 면밀하게 검토해야 함을 시사한다.[8]
모란시험
통계 Sn(θ)는 모란 또는 모란-달링 통계량 M(θ)의 한 형태로서 적합도를 검정하는 데 사용할 수 있다.[note 2]통계는 다음과 같이 정의되어 있는 것으로 나타났다.
점근법적으로 정상이며, 작은 표본에 대해 카이-제곱 근사치가 존재한다는 것을 의미한다.[8]True 매개 변수 0을(를) 알고 있는 경우, 청앤스텝(1989)은 통계 ( 이(가)와 함께 정규 분포를 가지고 있음을 보여준다.
여기서 γ은 오일러-마스케로니 상수로 약 0.57722이다.[note 3]
분포는 A 의 분포로 근사할 수 있다
어떤 점에서
여기서 은 자유도가 인 카이 제곱 분포를 따른다.Therefore, to test the hypothesis that a random sample of values comes from the distribution , the statistic can be calculated 다음 값이 적절한 카이 제곱 분포의 임계 값보다 클 경우 H } 유의성 \ 과(와) 함께 기각되어야 한다.[8]
에 의해 θ이0 추정되고 있는 경우 청앤스텝스(1989)는 ( )= ( ^^ ){\인 것으로 나타났다.은 알려진 경우와 동일한 점근 평균과 분산을 가지고 있다.그러나 사용할 검정 통계량은 치우침 보정 항을 추가해야 하며 다음과 같다.
여기서 은 (는) 추정치의 모수 수입니다.
일반화 최대 간격
대체 측정 및 스페이스
Ranneby & Ekström(1997)은 MSE 방법을 Kullback-Leibler 조치 외에 다른 조치와 근사하게 일반화했다.Ekström(1997)은 m-오더 을 + m)- j ) 로 정의되는 고차 스페이싱을 사용하여 추정기의 속성을 조사하는 방법을 더욱 확장했다
다변량 분포
Ranneby & al. (2005)는 다변량 사례로 확장된 최대 간격 방법에 대해 논의한다. ( > ) 에 대한 자연적인 순서가 없기 때문에, 그들은 두 가지 대안적 접근법, 즉 디리클레트 셀에 기초한 기하학적 접근법과 "가장 가까운 이웃 공" 메트릭에 기초한 확률론적 접근법을 논한다
참고 항목
메모들
- ^ 신문에 약간의 사소한 인쇄상의 오류가 있는 것 같다.예를 들어 섹션 4.2, 방정식(4.1)에서 j 의 반올림 교체에는 로그 항이 없어야 한다.In section 1, equation (1.2), is defined to be the spacing itself, and is the negative sum of the logs of . If is logged at this step, the result is always ≤ 0, as the difference between two ad누적 분포의 인접 포인트는 항상 1 1이며, 장부에 단 두 포인트만 없는 한 엄격히 < 1이다.또한 섹션 4.3의 392페이지에서 계산하면 MPS 추정치가 6.87인 분산 2~ 표준 편차 ~ - 편집기
- ^ 문헌은 관련 통계를 모란 또는 모란달링 통계라고 한다.For example, Cheng & Stephens (1989) analyze the form where is defined as above.Wong & Li(2006)도 같은 형태를 사용한다.However, Beirlant & al. (2001) uses the form , with the additional factor of inside the logged summation.추가 요인은 기대 평균과 통계량의 분산 측면에서 차이를 만들 것이다.일관성을 위해 이 기사는 청앤아민/원앤리 양식을 계속 사용할 것이다. -- 편집자
- ^ Wong & Li(2006)는 그들의 설명에서 오일러-마스케로니 상수를 제외한다. - 편집자
참조
인용구
- ^ a b c d e f 청앤아민(1983년)
- ^ a b c 란네비 (1984)
- ^ 홀 & 앨. (2004)
- ^ 아나톨리예프&코세노크(2004)
- ^ 피에키아크(2014년)
- ^ 웡&리(2006)
- ^ 파이크 (1965)
- ^ a b c d e 청앤스테판스 (1989)
인용된 작품
- Anatolyev, Stanislav; Kosenok, Grigory (2005). "An alternative to maximum likelihood based on spacings" (PDF). Econometric Theory. 21 (2): 472–476. CiteSeerX 10.1.1.494.7340. doi:10.1017/S0266466605050255. S2CID 123004317. Retrieved 2009-01-21.
- Beirlant, J.; Dudewicz, E.J.; Györfi, L.; van der Meulen, E.C. (1997). "Nonparametric entropy estimation: an overview" (PDF). International Journal of Mathematical and Statistical Sciences. 6 (1): 17–40. ISSN 1055-7490. Archived from the original (PDF) on May 5, 2005. Retrieved 2008-12-31. 참고: 링크드 페이퍼는 2001년 개정판이다.
- Cheng, R.C.H.; Amin, N.A.K. (1983). "Estimating parameters in continuous univariate distributions with a shifted origin". Journal of the Royal Statistical Society, Series B. 45 (3): 394–403. doi:10.1111/j.2517-6161.1983.tb01268.x. ISSN 0035-9246. JSTOR 2345411.
- Cheng, R.C.H; Stephens, M. A. (1989). "A goodness-of-fit test using Moran's statistic with estimated parameters". Biometrika. 76 (2): 386–392. doi:10.1093/biomet/76.2.385.
- Ekström, Magnus (1997). "Generalized maximum spacing estimates". University of Umeå, Department of Mathematics. 6. ISSN 0345-3928. Archived from the original on February 14, 2007. Retrieved 2008-12-30.
- Hall, M.J.; van den Boogaard, H.F.P.; Fernando, R.C.; Mynett, A.E. (2004). "The construction of confidence intervals for frequency analysis using resampling techniques". Hydrology and Earth System Sciences. 8 (2): 235–246. doi:10.5194/hess-8-235-2004. ISSN 1027-5606.
- Pieciak, Tomasz (2014). The maximum spacing noise estimation in single-coil background MRI data (PDF). IEEE International Conference on Image Processing. Paris. pp. 1743–1747. Retrieved 2015-07-07.
- Pyke, Ronald (1965). "Spacings". Journal of the Royal Statistical Society, Series B. 27 (3): 395–449. doi:10.1111/j.2517-6161.1965.tb00602.x. ISSN 0035-9246. JSTOR 2345793.
- Ranneby, Bo (1984). "The maximum spacing method. An estimation method related to the maximum likelihood method". Scandinavian Journal of Statistics. 11 (2): 93–112. ISSN 0303-6898. JSTOR 4615946.
- Ranneby, Bo; Ekström, Magnus (1997). "Maximum spacing estimates based on different metrics". University of Umeå, Department of Mathematics. 5. ISSN 0345-3928. Archived from the original on February 14, 2007. Retrieved 2008-12-30.
- Ranneby, Bo; Jammalamadakab, S. Rao; Teterukovskiy, Alex (2005). "The maximum spacing estimation for multivariate observations" (PDF). Journal of Statistical Planning and Inference. 129 (1–2): 427–446. doi:10.1016/j.jspi.2004.06.059. Retrieved 2008-12-31.
- Wong, T.S.T; Li, W.K. (2006). "A note on the estimation of extreme value distributions using maximum product of spacings". Time series and related topics: in memory of Ching-Zong Wei. Institute of Mathematical Statistics Lecture Notes - Monograph Series. Beachwood, Ohio: Institute of Mathematical Statistic. pp. 272–283. arXiv:math/0702830v1. doi:10.1214/074921706000001102. ISBN 978-0-940600-68-3. S2CID 88516426.