위치, 척도 및 쉐이프에 대한 일반화된 가법 모형

Generalized additive model for location, scale and shape

위치, 척도 형상에 대한 일반화 첨가 모델(GAMLSS)통계적 모델링 및 학습에 대한 접근법이다.GAMLSS는 (semparametric) 회귀 분석에 대한 현대적 분포 기반 접근법이다.모수 분포는 반응(대상) 변수에 대해 가정되지만 이 분포의 모수는 선형, 비선형 또는 평활 함수를 사용하는 설명 변수에 따라 달라질 수 있다.머신러닝(machine learning)이라는 용어로, GAMLSS는 감독하는 머신러닝의 한 형태다.

특히, GAMLSS 통계 프레임워크를 사용하면 데이터에 유연한 회귀 분석 및 평활 모델을 적용할 수 있다.GAMLSS 모델은 반응 변수가 무겁거나 꼬리가 가벼울 수 있고 양 또는 음으로 치우칠 수 있는 모수 분포를 갖는다고 가정한다.또한 분포의 모든 매개변수[위치(예: 평균), 척도(예: 분산) 및 형상(척도)]은 설명 변수의 선형, 비선형 또는 부드러운 함수로 모델링할 수 있다.

모델 개요

위치, 척도, 형상 등에 대한 일반화 적층모델(GAMLSS)은 일반적인 일반화 선형모델(GLMs) 및 일반화 적층모델(GAMS)과 관련된 일부 한계를 극복하기 위해 리그비와 스타시노풀로스(이후 확장)가 개발한 통계적 모델이다.이러한 제한에 대한 개요는 넬더와 웨더번(1972)[1]과 헤스티와 티비시라니의 책을 참조한다.[2]

GAMLSS에서는 반응 변수( (GLMGAM의 본질적)에 대한 지수 분포 가정이 완화되고 높은 기울기 및/또는 커토틱 연속이산 분포를 포함한 일반 분포 패밀리로 대체된다.

모델의 체계적 부분은 설명 변수 및/또는 랜덤 효과의 선형 및/또는 비선형, 모수 및/또는 가법 비모수 함수로 y 분포의 다른 모수를 모델링할 수 있도록 확장된다.

GAMLSS는 특히 렙토쿠르틱 또는 플라티쿠르틱 및/또는 양 또는 음으로 치우친 반응 변수를 모델링하는 데 적합하다.카운트 유형 반응 변수 데이터의 경우 적절한 과분산 이산형 분포를 사용하여 과분산을 처리한다.이질성은 또한 설명 변수를 사용하여 척도 또는 형상 모수를 모델링함으로써 처리된다.GAMLSS 모델과 관련하여 R로 작성된 패키지와 [3]GAMLSS 사용 및 해석을 위한 자습서가 있다.[4]

A GAMLSS model assumes independent observations for with probability (density) function conditional on , i) __{ 4개의 분포 파라미터의 벡터로서 각각 설명 변수의 함수가 될 수 있다.처음 두 모집단 분포 매개변수 i 는 일반적으로 위치 및 축척 매개변수로 특징지어지며, 모형이 적용될 수 있지만, 나머지 매개변수는 형상 매개변수(예: 도 및 도 매개변수)로 특징지어진다.일반적으로 최대 4개의 분포 모수를 가진 모집단 분포의 모수에 더 많이 적용되며, 4개 이상의 분포 모수로 일반화할 수 있다.

where μ, σ, ν, τ and are vectors of length , is a parameter vector of length , is a fixed known design matrix of order and is a smooth non-parametric function of explanatory variable , and ,,3, .

센타일 추정을 위해 WHO 다중엔트리 성장 기준 연구 그룹은 WHO 아동 성장 표준 구축을 위해 GAMLSS와 Box-Cox 전력 지수 분포(BCPE)를[5] 권고했다.[6][7]

사용할 수 있는 분포

반응 변수 y에 대해 가정된 분포의 형태는 매우 일반적이다.예를 들어, R에서[8] GAMLSS를 구현하면 약 100개의 다른 분포를 사용할 수 있다.또한 이러한 구현에서는 잘린 분포와 관측 중단(또는 구간) 반응 변수를 사용할 수 있다.[8]

참조

  1. ^ Nelder, J.A.; Wedderburn, R.W.M (1972). "Generalized linear models". J. R. Stat. Soc. A. 135 (3): 370–384. doi:10.2307/2344614. JSTOR 2344614.
  2. ^ Hastie, TJ; Tibshirani, RJ (1990). Generalized additive models. London: Chapman and Hall.
  3. ^ Stasinopoulos, D. Mikis; Rigby, Robert A (December 2007). "Generalized additive models for location scale and shape (GAMLSS) in R". Journal of Statistical Software. 23 (7). doi:10.18637/jss.v023.i07.
  4. ^ David, Bann; Liam, Wright; Tim J, Cole (2022). "Risk factors relate to the variability of health outcomes as well as the mean: A GAMLSS tutorial". eLife. 11 (11). doi:10.7554/eLife.72357. PMC 8791632. PMID 34985412.
  5. ^ Rigby, Robert; Stasinopoulos, D. Mikis (February 2004). "Smooth Centile Curves for Skew and Kurtotic data Modelled Using the Box-Cox Power Exponential Distribution". Statistics in Medicine. 23 (19): 3053–3076. doi:10.1002/sim.1861. PMID 15351960.
  6. ^ Borghi, E.; De Onis, M.; Garza, C.; Van Den Broeck, J.; Frongillo, E. A.; Grummer-Strawn, L.; Van Buuren, S.; Pan, H.; Molinari, L.; Martorell, R.; Onyango, A. W.; Martines, J. C.; WHO Multicentre Growth Reference Study Group (2006). "Construction of the World Health Organization child growth standards: Selection of methods for attained growth curves". Statistics in Medicine. 25 (2): 247–265. doi:10.1002/sim.2227. PMID 16143968.
  7. ^ WHO 다중접속 성장 기준 연구 그룹(2006) WHO 아동 성장 기준: 길이/높이, 몸무게-나이, 길이-높이-높이-체중 지수:방법과 개발.제네바: 세계보건기구.
  8. ^ a b "The R packages gamlss". The R packages gamlss. Retrieved 4 May 2020.

추가 읽기

  • Beyerlein, A.; Fahrmeir, L.; Mansmann, U.; Toschke, A. M. (2001). "Alternative regression models to assess increase in childhood BM". BMC Medical Research Methodology. 8: 59. doi:10.1186/1471-2288-8-59. PMC 2543035. PMID 18778466.
  • Cole, T. J, Stanojevic, S, Statojevic, S, Stocks, J, Coates, A. L, Hankinson, J. L, Wade, A. M.(2009) "연령 및 크기 관련 기준 범위:소아와 성인을 통한 척추측만증의 사례 연구" 의학의 통계, 28(5), 880–898.링크
  • Fenske, N, Fahrmeir, L, Rzehak, P, Hohle, M.(2008년 9월 25일), "종적 데이터에 대한 계량적 회귀법을 이용한 유아 비만 위험 인자 검출" 통계부: 기술 보고서 38번 링크
  • 허드슨, I. L., Kim, S. W., Keatley, M. R. (2010) "4 유칼립트의 꽃이 피는 페놀리에 대한 편협한 영향:GAMLSS 접근 페놀로지 연구".Penological Research에서 Irene L.허드슨과 마리 키틀리(eds), 스프링거 네덜란드 링크
  • 허드슨, I. L., Rea, A., Dalrymple, M. L., Eilers, P. H. C. (2008) "급성 영아 사망 증후군에 대한 기후 영향: GAMLSS 접근법", 제23회 통계 모델링 국제 워크숍 진행 페이지 277–280.링크
  • Nott, D (2006). "Semiparametric estimation of mean and variance functions for non-Gaussian data". Computational Statistics. 21 (3–4): 603–620. CiteSeerX 10.1.1.117.6518. doi:10.1007/s00180-006-0017-9. S2CID 16900583.
  • Serinaldi, F (2011). "Distributional modeling and short-term forecasting of electricity prices by Generalized Additive Models for Location, Scale and Shape". Energy Economics. 33 (6): 1216–1226. doi:10.1016/j.eneco.2011.05.001.
  • Serinaldi, F.; Cuomo, G. (2011). "Characterizing impulsive wave-in-deck loads on coastal bridges by probabilistic models of impact maxima and rise times". Coastal Engineering. 58 (9): 908–926. doi:10.1016/j.coastaleng.2011.05.010.
  • Serinaldi, F, Villarini, G, Smith, J. A, Krajewski, W. F. F. (2008) "미국 대륙의 연간 최대 방류에 대한 변화점과 동향 분석", 2008년 미국 지구물리학 연합 가을 회의, 추상 #H21A-0803*
  • van Ogtrop, F. F.; Vervoort, R. W.; Heller, G. Z.; Stasinopoulos, D. M.; Rigby, R. A. (2011). "Long-range forecasting of intermittent streamflow". Hydrology and Earth System Sciences Discussions. 8 (1): 681–713. doi:10.5194/hessd-8-681-2011.
  • Villarini, G.; Serinaldi, F. (2011). "Development of statistical models for at-site probabilistic seasonal rainfall forecast". International Journal of Climatology. 32 (14): 2197–2212. doi:10.1002/joc.3393.
  • Villarini, G.; Serinaldi, F.; Smith, J. A.; Krajewski, W. F. (2009). "On the stationarity of annual flood peaks in the continental United States during the 20th century". Water Resources Research. 45 (8). Bibcode:2009WRR....45.8417V. doi:10.1029/2008wr007645.
  • Villarini, G.; Smith, J. A.; Napolitano, F. (2010). "Nonstationary modeling of a long record of rainfall and temperature over Rome". Advances in Water Resources. 33 (10): 1256–1267. Bibcode:2010AdWR...33.1256V. doi:10.1016/j.advwatres.2010.03.013.

외부 링크