일반화 함수 선형 모델
Generalized functional linear modelGFLM(Generalized Functional Linear Model)은 Generalized Linear Model(GLM; 일반화 기능 선형 모델)의 확장으로, 기능 예측 변수에서 다양한 유형(연속 또는 이산)의 일변량 반응을 회귀시킬 수 있으며, 이는 대부분 정사각형 적분 가능한 확률적 프로세스에 의해 생성된 랜덤 궤적이다.GLM과 마찬가지로, 링크 함수는 반응 변수의 기대값을 선형 예측 변수에 관련짓는다. GFLM의 경우, 매개변수 함수β {\ \beta와 함께 랜덤 예측 의 스칼라 곱을 형성하여 구한다.기능 선형 회귀, 함수 포아송중요한 기능 로지스틱 회귀 분석이 포함된 회귀 분석과 기능 이항 회귀 분석은 GFLM의 특수한 경우입니다.GFLM의 적용에는 확률적 프로세스와 기능 [1]데이터의 분류 및 식별이 포함된다.
개요
GFLM의 주요 측면은 보통 무한 차원 함수 예측 변수의 치수 축소에 의해 얻어지는 매끄러운 파라미터 β(\에 대한 추정 및 추론이다.일반적인 방법은 예측 변수 함수 X를 L공간의2 직교 기준, 즉 파라미터 함수의 동시 확장과 함께 제곱 적분 가능 함수의 힐버트 공간으로 확장하는 것이다.그런 다음 이 표현을 잘라내기 단계와 결합하여 유한한 수의 회귀 계수에 대한 선형 예측 변수의 매개변수 β {\의 기여를 줄인다.Karhunen-Loéve 확장을 사용하는 기능적 주성분 분석(FPCA)은 이를 달성하기 위한 공통적이고 인색한 접근법이다.푸리에 확장 및 B-스플라인 확장과 같은 다른 직교 확장도 치수 감소 단계에 사용할 수 있습니다.AIC(Akaike Information Criteria)를 사용하여 포함된 구성 요소의 수를 선택할 수 있습니다.교차 검증 예측 오류의 최소화는 분류 애플리케이션에서 자주 사용되는 또 다른 기준이다.예측 프로세스의 치수가 감소하면 단순화된 선형 예측기를 사용하여 GLM 및 준우도 추정 기법을 사용하여 유한 차원 회귀 계수의 추정치를 얻을 수 있으며, 이는 GFLM에서 매개변수 β(\의 추정치를 제공한다.
모델 컴포넌트
선형 예측 변수
예측 변수 X X T는 일반적으로 실제 T T에서 정사각형 적분 가능한 확률 프로세스이며, 알 수 없는 평활 파라미터 β T \는 정사각형 적분 가능한 것으로 가정합니다. T{\ T의 {\ dw가 주어지면 선형 예측 변수는 α + X ( )β ( ) w () { d w ( t ) { \( ( t ) x ( ) ( t ) )로 주어진다.ered 프레딕터 및 α는 가로채기로 기능하는 스칼라입니다.
반응 변수 및 분산 함수
Y(\ Y는 일반적으로 연속형 또는 이산형인 실제 값 랜덤 변수입니다.예측 변수 프로세스가 주어진 Y Y의 분포는 지수 패밀리 내에서 지정되는 경우가 많습니다. 기능적 준우도 설정을 고려하는 것으로 충분합니다.서 응답의 분포 대신 함수를 지정하는 ar (2 X) \ style { { Var } ( Y \ X ) = \ 2( )。 X
링크 함수
링크 g(\ g는 반응 X ) {{ X)=\})의 조건부 평균을 선형 예측 변수 +x X( ) ( ) \alpha style d ( styledisplay style = t \ ) \ display ) \ 。관계는 ()) { ( \} 입니다.
공식화
필요한 치수 감소를 실시하기 위해 중심 예측 X () \ X 및 파라미터 β ( \ \를 다음과 같이 확장한다.
여기서 , , 2 { { } , 1, 2, \ldots} 는 함수 2(d ) , { } 의 직교 정규 기준이며, T ( ) ( t) { 않으면0 { 0을 클릭합니다
랜덤 변수 j \ \_ { j } c ( )j ( ) w( style \_ { j }= X _rho j}, jdisplay style { }}} j \ \ \ \ \ j j j \ j j j j j j j j j j j j _j , , { j , 2 。
E(ξ j)=1∞ β j2<∞{\displaystyle \sum_{j=1}^{\infty}\beta _{j}^{2}<, \infty}과σ j2을 나타내는 표시)바르(ξ j))E({\displaystyle \sigma_{j}^{2}={\text{바르}}(\xi_{j})={\text{E}}(\xi_{j}^{2})}, 그렇게∑ j=10{\displaystyle{\text{E}}(\xi_{j})=0}과∑ j 일고 있다. ∞ <\
기저함수 j {\ _에서 X ()d ( ) = β j j { X {j}가 된다.
그러면 핵심 단계는 + X ( )β ( ) w ( ) + j j { \+ \ X=\ _\fty }fty }에 가깝다. 절단 지점p에 대해 }을를) 선택합니다.
FPCA는 고유함수 기반이 다른 기저함수 세트보다 더 많은 변동을 설명하므로 주어진 수의 기저함수에 대한 선형 예측기의 가장 근소한 근사치를 제공한다.
유계 1차 도함수를 갖는 미분 링크 함수의 경우 {\ p -display 모델의 근사 오차, 즉 첫 p {\p} 성분의 합계로 잘린 선형 예측 변수는 Varθ + j j) θ + )의 상수 배수이다. _2}\ _{j}}.
잘라내기 전략의 경험적 동기는 E( ( + j j j )= p + j 2 j + 2 + 1 j 2 = p + j ({text에서 유래한다. _infty}\ _}^{\infty}^{\infty}\infty}^{{\infty}\inftyinft}\infty}_{{\{j}_{j}_{\infty}\infty}_{{\ = j 2 \_ 1}^{\ j= ∞ 2 { _ _ 1infty} } both both both { _ sum _ { = 1 }^{ j } } }^2^{{ displaysty } } } } } } } both
고유함수 기준의 특수한 경우 시퀀스 j, , 2{j는 공분산 G ( ), Tstyle, T tyle의 고유값 시퀀스에 해당합니다.
n{ .i.d 관측치가 있는 의 경우, j 1 { \_ {} i ∫ Xi ( ) ) ( ) _ xi = { }{ }로 설정합니다. i j = j , i,2, , { { \ _ {= \ _ { j} { \ { 、 1, 2 , n} 로 된다
견적
주요 목적은 파라미터 를 추정하는 것입니다.
{\ p가 고정되면 p{\ p -display 에 표준 GLM 및 준우도 방법을 사용하여 T ( 0 1, p){ =(\ \ {1}, {1}) 해결 할 수 있습니다점수 U {\U(\)=
벡터값 점수 함수는 U - ) δ ( ) i /i ( i )® { U ( \ ) = \ _ { _ g로 되었습니다 및 입니다.
GLM과 마찬가지로 U)=은 뉴턴-라프슨(NR) 또는 피셔 스코어링(FS) 또는 반복 재가중 최소제곱(IWLS)과 같은 반복 방법을 사용하여 β(\의 추정치를 구한다.파라미터 ^( t ) ^o + ^ t ={ \ _ { j=}{ }{ }{\ { } { { p } ( ){ p } } } } {\ rho { p } { p} } } } } } } {\ hat { p } } } } ( t } }
결과는 p { p로서 p \ p → {\ { p\infty } 의 문헌에서 구할 수 있으며, 실제 파라메트릭 함수에서 추정된 파라메트릭 함수의 편차에 대한 점근적 추론을 제공하고 회귀 효과와 점근적 신뢰 영역에 대한 점근적 테스트도 제공한다.
지수 패밀리 응답
( T) { X { \ L{ 2 T ) } x x parameter parameter parameter parameter parameter parameter parameter parameter parameter parameter parameter parameter parameter parameter parameter parameter parameter parameter parameter parameter parameter parameter parameter parameter parameter ( T ) parameter parameter parameter parameter y y parameter parameter parameter parameter parameter parameter parameter y parameter parameter parameter parameter parameter parameter parameter parameter parameter parameter parameter parameter
일부 b b 및(\})의 경우 i\theta_{i})는 표준 파라미터이고 {\displaystyle}는 일반적으로 양수로 간주되는 분산 파라미터입니다.
정규 설정에서 i + i ( ) ( ) w( ) i { _ {i} = \alpha + \ X _ { { ( \= \} {i} ential ential ential ential ential ential ential ential ential 、 ential ential ential ential ential ential ential ential ential ential ential ential ential ential ential ential 、 ential 、 、
b는링크 함수로서 기능하며 표준 링크 함수라고 불립니다
( ) b ( i ) b ( i ) g i ) g( - i) style }(}) = \ b" ("i") _ phiter.
특수한 경우
FLR(함수 선형 회귀)
함수 데이터 분석의 가장 유용한 도구 중 하나인 함수 선형 회귀 분석은 반응 변수가 연속형이고 정규 분포를 갖는 것으로 간주되는 GFLM의 한 예입니다.분산 함수는 상수 함수이고 링크 함수는 항등식입니다.이러한 전제하에서 GFLM은 FLR로 감소합니다.
정규성 가정이 없으면 상수 분산 함수는 준정규 기법의 사용 동기를 부여합니다.
함수 이항 회귀 분석
반응 변수가 0 또는 1과 같은 2진수 결과를 갖는 경우, 으로 분포는 Bernouli로 선택된 다음 i ( i † ) { _} = X_ 。일반 링크 함수는 로그의 역함수 expit입니다.함수(함수 프로빗 회귀)입니다.모든 누적 분포 함수 F는 이항 평균의 범위인 범위 [0,1]를 가지므로 연결 함수로 선택할 수 있습니다.이 컨텍스트의 다른 링크 함수는 상보적인 log-log 함수입니다.이것은 비대칭 링크입니다.이진 데이터의 분산 함수는 Var ( i ) i ( - i ) ( 1 - μ i ) _ (_{로 , 분산 파라미터 \style \ (1-\mu _{i})가 1 또는 준접근법으로 사용된다.
함수 포아송 회귀 분석
GFLM의 또 다른 특수한 경우는 결과가 카운트될 때 발생하므로 반응의 분포는 포아송으로 가정됩니다. \i})는 보통 로그 링크를 통해 선형 프레딕터 _})에 링크됩니다.이것은 표준 링크이기도 합니다.분산함수는 Var ( ) i \ } ( })=\ _입니다.분산 파라미터 \ 는 데이터가 오버오버될 수 있는 경우(준 Poisson 접근법 사용시)를 제외하고 1입니다.
내선번호
다중 예측 [2]함수가 있는 경우 GFLM의 확장이 제안되었다.또 다른 일반화는 SPQR([1]Semi Parametric Qui-우도 회귀 분석)이라고 불리며, 링크와 분산 함수를 알 수 없는 상황을 고려하고 데이터에서 비모수적으로 추정됩니다.이 상황은 SIR(Sliced Inverse Regression)과 같은 단일 또는 여러 인덱스 모델로 처리할 수도 있습니다.
이 영역의 또 다른 확장은 기능적 일반화 가법 모델(FGAM)[3]로, GAM(Generalized Additive Model)의 일반화이다.
여기서 j({ _는 랜덤 예측 XX})의 확장 계수이고, })는 추정해야 하는 알 수 없는 평활 함수이며, 서 E j 0 {
일반적으로 FGAM의 추정에서는 IWLS와 백피팅을 조합할 필요가 있습니다.그러나 팽창 계수가 기능적 주성분으로 얻어지는 경우(예: 가우스 예측기 X {\X})에는 이러한 계수는 독립적이며, 백핏이 필요하지 않으며, 알려지지 않은 매개변수 \를 추정하기 위해 널리 사용되는 스무딩 방법을 사용할 수 있다
어플
기능 데이터 분석 영역의 여러 분석에 사용된 인기 있는 데이터 세트는 지중해 초파리 1000마리(또는 줄여서 메드파리가 죽을 때까지 매일 낳는 달걀 수로 구성된다[1][2].이 플롯은 약 600마리의 암컷 약 25일 동안 알을 낳는 궤적을 보여준다.빨간색 곡선은 남은 알의 중앙 수보다 적게 낳는 파리에 속하고 파란색 곡선은 25세 이후 남은 알의 중앙 수보다 많이 낳는 파리에 속합니다.GFLM과[1] 함께 초기 산란 궤적을 예측 변수로, 이후 반응으로 파리의 수명을 기준으로 약파리를 장수 또는 단명으로 분류하는 관련 문제를 연구했다.
「 」를 참조해 주세요.
레퍼런스
- ^ a b c Muller and Stadtmuller (2005). "Generalized Functional Linear Models". The Annals of Statistics. 33 (2): 774–805. arXiv:math/0505638. doi:10.1214/009053604000001156.
- ^ James (2002). "Generalized linear models with functional predictors". Journal of the Royal Statistical Society, Series B. 64 (3): 411–432. CiteSeerX 10.1.1.165.1333. doi:10.1111/1467-9868.00342.
- ^ Muller and Yao (2008). "Functional Additive Models". Journal of the American Statistical Association. 103 (484): 1534–1544. doi:10.1198/016214508000000751.