극단적 가치 이론
Extreme value theory극단값 이론 또는 극단값 분석(EVA)은 확률 분포의 중위수에서 극단적으로 벗어난 것을 다루는 통계량의 한 분야입니다.주어진 랜덤 변수의 주어진 순서 표본에서 이전에 관측된 사건보다 극단적인 사건의 확률을 평가하려고 합니다.극단적 가치 분석은 구조 공학, 금융, 지구 과학, 교통 예측 및 지질 공학 등 많은 분야에서 널리 사용됩니다.예를 들어 EVA는 수문학 분야에서 100년 홍수와 같은 비정상적으로 큰 홍수 사건의 확률을 추정하기 위해 사용될 수 있다.마찬가지로, 방파제 설계의 경우 해안 엔지니어는 50년 파동을 추정하고 그에 따라 구조물을 설계하려고 한다.
데이터 분석
실제 극단값 분석을 위한 두 가지 주요 접근법이 있습니다.
첫 번째 방법은 예비 단계로 블록 최대(minima) 시리즈를 도출하는 데 의존합니다.많은 상황에서 연간 최대값(minima)을 추출하여 "연간 최대값 시리즈"(AMS)를 생성하는 것이 관례적이고 편리합니다.
두 번째 방법은 값이 특정 임계값(특정 임계값 미만)을 초과하는 기간에 도달한 피크 값을 연속 레코드에서 추출하는 것입니다.이 방법은 일반적으로 "Peak Over Threshold"[1] 방식(POT)이라고 합니다.
AMS 데이터의 경우, 분석은 부분적으로 피셔-티펫-네덴코 정리의 결과에 의존할 수 있으며,[2][3] 따라서 일반화된 극단값 분포가 적합을 위해 선택된다.그러나 실제로는 다양한 절차가 적용되어 광범위한 분포 중에서 선택할 수 있습니다.여기서의 정리는 동일한 분포에서 나온 매우 큰 독립 랜덤 변수 집합의 최소 또는 최대에 대한 제한 분포와 관련이 있다.1년 내 관련 무작위 사건 수가 다소 제한적일 수 있다는 점을 고려할 때, 관측된 AMS 데이터의 분석이 일반 극단값 분포(GEVD)를 [4]제외한 분포로 이어지는 것은 놀랄 일이 아니다.
POT 데이터의 경우 분석에는 고려된 기간의 사건 발생 횟수에 대한 분포와 초과 크기에 대한 분포의 두 가지 분포 적합이 포함될 수 있습니다.
첫 번째에 대한 일반적인 가정은 포아송 분포이며, 초과에 일반화된 파레토 분포가 사용됩니다.꼬리 맞춤은 피칸드-발케마-데 하안 [5][6]정리에 기초할 수 있다.
Novak은[7] "POT 방법"이라는 용어를 임계값이 랜덤이 아닌 경우에 한정하여 랜덤 임계값의 초과를 다루는 경우와 구분한다.
적용들
극단값 이론의 적용에는 다음과 같은 확률 분포 예측이 포함됩니다.
- 극심한 홍수이상한 파도의 크기
- 토네이도[8] 발생
- 최대 생태 집단[9] 크기
- 약물의 부작용(예: 시멜라가트란)
- 거액의 보험 손실액
- 주식 리스크, 일상적인 시장 리스크
- 진화 중 돌연변이 이벤트
- 대형[10] 산불
- 구조물에[11] 대한 환경
- 인간이 100m[12] 스프린트를 달릴 수 있는 가장 빠른 시간과 다른 운동[13][14] 종목의 성과를 추정한다.
- 피팅 부식으로 인한 파이프라인 고장
- 비정상적인 IT 네트워크 트래픽으로 공격자가 중요한 데이터에 접근할 수 없음
- 도로 안전[15][16] 분석
- 무선 통신[17]
- 전염병[18]
- 신경생물학[19]
역사
극단적 가치 이론의 분야는 레오나드 티펫(1902–1985)에 의해 개척되었다.Tippett은 영국 면화 산업 연구 협회에 고용되어 면사를 더 튼튼하게 만들기 위해 일했다.그의 연구에서, 그는 실의 강도가 가장 약한 섬유의 강도에 의해 조절된다는 것을 깨달았다.R.A.의 도움으로. Fisher, Tippet은 독립 변수를 가정하는 극단값의 분포를 설명하는 세 가지 점근 한계를 얻었습니다.에밀 줄리어스 검벨은 1958년 그의 책인 Statistics of Extremes에서 그의 이름을 딴 검벨 분포를 포함하여 이 이론을 성문화했다.이러한 결과는 변수 간에 약간의 상관 관계를 허용하도록 확장할 수 있지만, 고전 이론은 분산 차수의 강한 상관 관계까지 확장되지 않습니다.특히 관심 있는 보편성 클래스는 로그 상관 필드의 클래스이며, 여기서 상관관계는 거리에 따라 대수적으로 감소한다.
일변량 이론
1, {\을 누적분포함수가 F인 독립적이고 동일한 분포의 랜덤 변수 시퀀스라고 하고 M max ( , ,n ) \ } = \ ( _ { 1 \ ) , { { n , { X } , .
이론적으로 최대값의 정확한 분포를 도출할 수 있습니다.
관련 지시계 ( > }=는 ( 1- ( n {{pz) 1 - z)} displaystyle p(z)^{n})} n{n}}}} n 표시방식에 따라 가 달라지는 베르누이 프로세스입니다.따라서 n{n 시행 의 극한 이벤트 수는 이항 분포를 따르며 이벤트가 발생할 때까지 시행 횟수는 동일한 순서(1/의 와 표준 편차를 갖는 기하 분포를 따릅니다
실제로는 분포 F(\ F가 없을 수 있지만, 피셔-티펫-제네덴코 정리가 점근적 결과를 제공한다.\에a > {\ >} 및 nR {\의 시퀀스가 존재하는 경우 다음과 같습니다
n n로 됩니다.
서 는 분포의 꼬리 모양에 따라 달라집니다.정규화된 경우 G는 다음 비퇴화 분포 패밀리 중 하나에 속합니다.
때 M의 유통 n. 와이블 법:G(z)){exp {−(−(z− b는))α}z<>bz1z≥ b∈ R(\left\{-\left(-\left({\frac{z-b}{}}\right)\right)^{\alpha}\right\}&z<, b\\1&, z\geq b\end{경우}}{\text{에}}}\mathbb{R}z\in{\display M_에는 유한한 상한을 가진 가벼운 꼬리가 있습니다.타입 3이라고도 합니다.
의 법칙: (z ) { - exp (-( -b a ) } { { G ( - b ) = \ \ left \ \ left \ {z - b } { z - \ right} } } g g g g 。 { g g g 。타입 1이라고도 합니다.
프레셰 법:G(z)){0z≤ bexp {−(z− b는)− α}z>b{\displaystyle G(z)={\begin{경우}0&, z\leq b\\\exp \left\{-\left({\frac{z-b}{}}\right)^{-\alpha}\right\}&z>, b\end{경우}}} 때 Mn{\displaystyle M_{n}의 분포}다항식을 포함한 무거운 꼬리를(다. 붕괴).타입 2라고도 합니다.
Weibull 및 Fréchet 법률의 α> (\> 0 )。
다변량 이론
둘 이상의 변수에서 극단적 가치 이론은 해결해야 할 추가적인 문제를 야기합니다.발생하는 한 가지 문제는 무엇이 극단적인 [20]사건을 구성하는지 명시해야 한다는 것이다.일변량의 경우 이는 간단하지만 다변량의 경우 이를 수행하는 명확한 방법은 없습니다.근본적인 문제는 실수 집합의 순서를 매길 수 있지만 벡터 집합의 순서를 매길 수 있는 자연스러운 방법이 없다는 것입니다.
예를 들어, 일변량의 경우, 일련의 i{\가 주어지면 단순히 관측치의 최대(또는 최소)를 취함으로써 가장 극단적인 사건을 찾는 것이 간단하다.그러나 이변량의 경우 일련의( {을(를) 고려할 때 가장 극단적인 사건을 찾는 방법은 명확하지 않습니다.특정 시각에값( (5 2 2)을 측정했다고 가정합니다.다음 중 어떤 사건이 더 극단적인 것으로 간주됩니까?이 질문에 대한 보편적인 답은 없다.
다변량 사례의 또 다른 문제는 한계 모형이 일변량 사례만큼 완전히 규정되지 않았다는 것입니다.일변량의 경우 모형(GEV 분포)에는 이론에 의해 예측되지 않는 값이 세 개의 모수가 포함되어 있으므로 분포를 데이터에 적합시켜 얻어야 합니다.다변량의 경우 모형에는 알려지지 않은 매개변수뿐만 아니라 정확한 형태가 이론에 의해 규정되지 않은 함수도 포함됩니다.단, 이 함수는 특정 [21][22]제약조건을 준수해야 합니다.
응용의 예로서, 이변량 극치가론이 해양 [20][23]연구에 적용되었다.
「 」를 참조해 주세요.
메모들
- ^ Leadbetter, M. R. (1991). "On a basis for 'Peaks over Threshold' modeling". Statistics and Probability Letters. 12 (4): 357–362. doi:10.1016/0167-7152(91)90107-3.
- ^ 피셔와 티펫 (1928)
- ^ 그네덴코(1943년)
- ^ 엠브레흐츠, 클뤼펠베르크 및 미코슈(1997년)
- ^ 피칸드(1975년)
- ^ 발케마와 드 한(1974년)
- ^ Novak (2011년)
- ^ Tippett, Michael K.; Lepore, Chiara; Cohen, Joel E. (16 December 2016). "More tornadoes in the most extreme U.S. tornado outbreaks". Science. 354 (6318): 1419–1423. doi:10.1126/science.aah7393. PMID 27934705.
- ^ Batt, Ryan D.; Carpenter, Stephen R.; Ives, Anthony R. (March 2017). "Extreme events in lake ecosystem time series". Limnology and Oceanography Letters. 2 (3): 63. doi:10.1002/lol2.10037.
- ^ 알바르도(1998, 페이지 68)
- ^ 마코넨 (2008)
- ^ J.H.J. Einmahl & S.G.W.R. Smeets (2009), "Ultimate 100m World Records Through Extreme-Value Theory" (PDF), CentER Discussion Paper, Tilburg University, 57, archived from the original (PDF) on 2016-03-12, retrieved 2009-08-12
{{citation}}: CS1 maint: 작성자 파라미터 사용(링크) - ^ D. Gembris, J.Taylor & D. Suter (2002), "Trends and random fluctuations in athletics", Nature, 417 (6888): 506, Bibcode:2002Natur.417..506G, doi:10.1038/417506a, hdl:2003/25362, PMID 12037557, S2CID 13469470
{{citation}}: CS1 maint: 작성자 파라미터 사용(링크) - ^ D. Gembris, J.Taylor & D. Suter (2007), "Evolution of athletic records : Statistical effects versus real improvements", Journal of Applied Statistics, 34 (5): 529–545, doi:10.1080/02664760701234850, hdl:2003/25404, S2CID 55378036
{{citation}}: CS1 maint: 작성자 파라미터 사용(링크) - ^ Songchitruksa, P.; Tarko, A. P. (2006). "The extreme value theory approach to safety estimation". Accident Analysis and Prevention. 38 (4): 811–822. doi:10.1016/j.aap.2006.02.003. PMID 16546103.
- ^ Orsini, F.; Gecchele, G.; Gastaldi, M.; Rossi, R. (2019). "Collision prediction in roundabouts: a comparative study of extreme value theory approaches". Transportmetrica A: Transport Science. 15 (2): 556–572. doi:10.1080/23249935.2018.1515271. S2CID 158343873.
- ^ C. G. 치노스, F.Foukalas, T. Khattab 및 L. Lai, "통신사업자 집적 시스템을 위한 채널 선택. IEEE Transactions on Communications, vol. 66, no. 2, 2018.) 808-818.
- ^ Wong, Felix; Collins, James J. (2020-11-02). "Evidence that coronavirus superspreading is fat-tailed". Proceedings of the National Academy of Sciences. 117 (47): 29416–29418. Bibcode:2020PNAS..11729416W. doi:10.1073/pnas.2018490117. ISSN 0027-8424. PMC 7703634. PMID 33139561.
- ^ Basnayake, Kanishka; Mazaud, David; Bemelmans, Alexis; Rouach, Nathalie; Korkotian, Eduard; Holcman, David (2019-06-04). "Fast calcium transients in dendritic spines driven by extreme statistics". PLOS Biology. 17 (6): e2006202. doi:10.1371/journal.pbio.2006202. ISSN 1545-7885. PMC 6548358. PMID 31163024.
- ^ a b Morton, I.D.; Bowers, J. (December 1996). "Extreme value analysis in a multivariate offshore environment". Applied Ocean Research. 18 (6): 303–317. doi:10.1016/s0141-1187(97)00007-2. ISSN 0141-1187.
- ^ Beirlant, Jan; Goegebeur, Yuri; Teugels, Jozef; Segers, Johan (2004-08-27). Statistics of Extremes: Theory and Applications. Wiley Series in Probability and Statistics. Chichester, UK: John Wiley & Sons, Ltd. doi:10.1002/0470012382. ISBN 9780470012383.
- ^ Coles, Stuart (2001). An Introduction to Statistical Modeling of Extreme Values. Springer Series in Statistics. doi:10.1007/978-1-4471-3675-0. ISBN 978-1-84996-874-4. ISSN 0172-7397.
- ^ Zachary, S.; Feld, G.; Ward, G.; Wolfram, J. (October 1998). "Multivariate extrapolation in the offshore environment". Applied Ocean Research. 20 (5): 273–295. doi:10.1016/s0141-1187(98)00027-3. ISSN 0141-1187.
레퍼런스
- Abarbanel, H.; Koonin, S.; Levine, H.; MacDonald, G.; Rothaus, O. (January 1992), "Statistics of Extreme Events with Application to Climate" (PDF), JASON, JSR-90-30S, retrieved 2015-03-03
- Alvarado, Ernesto; Sandberg, David V.; Pickford, Stewart G. (1998), "Modeling Large Forest Fires as Extreme Events" (PDF), Northwest Science, 72: 66–75, archived from the original (PDF) on 2009-02-26, retrieved 2009-02-06
- Balkema, A.; Laurens (1974), "Residual life time at great age", Annals of Probability, 2 (5): 792–804, doi:10.1214/aop/1176996548, JSTOR 2959306
- 베리 K.V.(1975년)응용과학의 통계적 방법.John Wiley & Sons.
- Castillo E. (1988) 공학에서의 극단적 가치 이론.학술 출판사뉴욕.ISBN 0-12-163475-2.
- Castillo, E., Hadi, A.S., Balakrishnan, N. 및 Sarabia, J. M.(2005) 엔지니어링 및 과학 분야 응용 프로그램, 확률 및 통계 Wile, Hoboken, New Jersey.ISBN 0-471-67172-X.
- Coles S. (2001) 극한값의 통계 모델링 입문.스프링거, 런던
- Embrechts P., Klüppelberg C. 및 Mikosch T.(1997년) 보험 및 금융을 위한 극한 사건을 모델링한다.베를린: 봄의 발락
- Fisher, R.A.; Tippett, L.H.C. (1928), "Limiting forms of the frequency distribution of the largest and smallest member of a sample", Proc. Camb. Phil. Soc., 24 (2): 180–190, Bibcode:1928PCPS...24..180F, doi:10.1017/s0305004100015681
- Gnedenko, B.V. (1943), "Sur la distribution limite du terme maximum d'une serie aleatoire", Annals of Mathematics, 44 (3): 423–453, doi:10.2307/1968974, JSTOR 1968974
- Gumbel, E.J. (1935), "Les valeurs extrêmes des distributions statistiques" (PDF), Annales de l'Institut Henri Poincaré, 5 (2): 115–158, retrieved 2009-04-01
- Gumbel, E. J. (2004) [1958], Statistics of Extremes, Mineola, NY: Dover, ISBN 978-0-486-43604-3
- Makkonen, L. (2008), "Problems in the extreme value analysis", Structural Safety, 30 (5): 405–419, doi:10.1016/j.strusafe.2006.12.001
- Leadbetter, M. R. (1991), "On a basis for 'Peaks over Threshold' modeling", Statistics & Probability Letters, 12 (4): 357–362, doi:10.1016/0167-7152(91)90107-3
- Leadbetter M.R., Lindgren G. 및 Rootzen H.(1982) 무작위 시퀀스 및 프로세스의 극한 및 관련 특성.스프링거-벌러그, 뉴욕
- Lindgren, G.; Rootzen, H. (1987), "Extreme values: Theory and technical applications", Scandinavian Journal of Statistics, Theory and Applications, 14: 241–279
- Novak S.Y. (2011년) Applications to Finance를 통한 Extreme Value Methods.채프먼 & 홀 / CRC 프레스, 런던.ISBN 978-1-4398-3574-6
- Pickands, J (1975), "Statistical inference using extreme order statistics", Annals of Statistics, 3: 119–131, doi:10.1214/aos/1176343003
소프트웨어
- R의 극단값 통계량 - R의 극단값 통계량을 위한 패키지
- ExtremeStats.jl 및 Extreme.jl - Julia의 극단값 통계량