부분 선형 모형

Partially linear model

부분 선형 모델은 모수 및 비모수 요소를 포함하므로 반파라메트릭 모델의 한 형태입니다.알려진 비모수 원소의 가설이 유효한 경우 부분 선형 모형에 최소 제곱 추정기를 적용할 수 있습니다.부분 선형 방정식은 Engle, Granger, Rice 및 Weiss(1986)에 의해 온도와 전기 사용 간의 관계를 분석하는 데 처음 사용되었다.1997년 기업의 생산 수익성의 경우, 미시경제학 분야에서의 부분 선형 모델의 전형적인 적용은 트리파티에 의해 제시되었다.또한 일부 다른 학문 분야에서도 부분 선형 모델이 성공적으로 적용되었습니다.1994년, Zeger와 Diggle은 생체 인식에 부분 선형 모델을 도입했습니다.환경과학에서는 Parda-Sanchez 외.2000년에 수집된 데이터를 분석하기 위해 부분 선형 모델을 사용했습니다.지금까지 부분 선형 모델은 다른 많은 통계 방법에서 최적화되었다.1988년 로빈슨은 최소 제곱 추정기를 만들기 위해 비모수 요소를 테스트하기 위해 Nadaraya-Washton 커널 추정기를 적용하였고, 그 후 1997년 Truong에 의해 국소 선형 방법이 발견되었다.

부분 선형 모형

Regression,2009-12-01.jpg

개요

대수 방정식

부분 선형 모델의 대수식은 다음과 같이 작성된다.

[1]

방정식 성분 개요

\i} \displaystylei : 변수의 벡터.독립적으로 랜덤 또는 고정 분포 변수.

{\ : 측정 파라미터.

i\ \ _ { i : 통계정보의 랜덤에러(0 평균).

( ) { f: 부분 선형 모델에서 부품을 측정합니다.

가정[1]

볼프강, 화량, 지티 가오는 고정 및 랜덤 설계 조건 하에서 부분 선형 모델의 가정과 발언을 고려한다.

무작위로 분포된 경우,

j ( ) ( i , ) { }) =(\_ {i,j} , - ( i, _ style \ {i} _ {

( ) ( \ ( \_ {^{3 T ) } t 값이 0 ~ 1일 때 양의 무한대보다 작으며, 1 - ( 1 ) { \ style _ 1 - ( \ } } T } { 1} { 1 } } } } ) e e e e e e e e when when when when when when when when when when when when when when when when when when when when when when when when when when when when랜덤 에러 「」는 ( 「 」 , _와는 무관합니다.

i \ style \ _ { } 0 ~1의 L _ { } , \ style _ { i} \ i j ( ) + i \ style \ _ { i ji})+\{ij 여기서 인자 i 값은 1 ~n, 인자j 값은 1 ~이며, 에러 n / n 1n to \{ 을 만족합니다

최소 제곱(LS) 추정치[1]

최소 제곱 추정기를 적용하는 전제 조건은 비모수 성분의 존재이며 랜덤 분포 및 고정 분포 사례에서 실행됩니다.

최소 제곱 추정기를 적용하기 전에 Engle, Granger, Rice 및 Weiss의 평활화 모델을 먼저 도입해야 합니다.모델의 대수 함수는 Y β ( ){ Y=\^{2)로 된다.

볼프강, 량, 가오(1983)는 쌍이1/ i E { - i β - ( 1 / E { - - - / 한다고 가정한다 _3).

즉, 1 ≤ i + 1 ( ) 2+ f ( Ti){ _ {_ {1}(}=\}^{f}} _beta } _bet2 .

, a d 2 ({f_{1}=2} _}=\{2 입니다.

무작위 분포 사례에서 볼프강, 화량 및 지티 가오는 모든 1µi ≤ n, [ ( i , ) 1 + 1 ( 2 + ( ) \ E [ \ { 라고 가정한다. _ 1})=\_{ _})}(4)

E{ - i 1- ( } { - T 2 - 2 ( ) + (- ) TE { ( i- E [ -]( I- ) ( I- ) }-\ 1 2(「 _}=\})E[ -) ) { E \ (1)에서 증명되었듯이 T 양수입니다.j ( ) [ - E[ i ( \ style _ { _ { ) ]=}]-E}^{Ti}}는 f 1= 1과 됩니다

고정 분포 케이스에서 스무딩 모델 (2)의 계수를 { 1) ,....,f ( ) d r Q (- x ) { style \ {( }^{ }로 파라미터화함}= Q ( ( ( T - T { Q = \ ( \ ^ { } \ ) ^-} \ 、 、 ^{ }) 。

(4)와 동일한 가정 (1)에 따라 2 ({ 1} = { 1 ({} = 2})를 1/ - 1 - 1 - r1)T ( -)로 가정한다.

계수 i \ \ _ { } 를 전제로 합니다.},여기서 i는 양의 정수)는 i i β + ( + i{ _ { i } \ _ { } \ ( _ { } + \ { i } )+ ( tsi )를 하고 양의 무게 함수 n ( \ 을 설정합니다 n ( ; ) i () ( i - ) = \ { i=}^{ \ _ { _ i } \ } _ { t } ) 。 f { f 비모수 추정치는 n ( ) n i ( ) ( - S) { ( t ) =1 { displaysty } 로 된다.ibitted, 분산 2 {\ \displaystyle}는 ^ 2= 1 / 1 n( ~ - iT ~ S) { { { 1/_i1} { n } { } { { _

부분 선형 모델의 역사와 응용

부분 선형 모델의 실제 적용은 1986년 [1]Engle, Granger, Rice 및 Weiss의 데이터 분석을 위해 처음 검토되었다.

그들의 관점에서, 평균 소득, 상품 가격, 소비자 구매 능력 및 기타 경제 활동과 같은 교란 요인이 막대하기 때문에 온도와 전기 소비 간의 관련성은 선형 모델로 표현할 수 없다.요인 중 일부는 서로 관련이 있으며 관측 결과에 영향을 미칠 수 있습니다.따라서 모수 인자와 비모수 인자를 모두 포함하는 부분 선형 모형을 도입했습니다.부분 선형 모델은 데이터의 선형 변환을 활성화하고 단순화합니다(Engle, Granger, Rice and Weiss, 1986).또한 연구에 스무딩 스플라인 기법을 적용했습니다.

1994년 Zeger와 Diggle이 생체측정학에서 부분 선형 모델을 적용한 사례가 있다.이 논문의 연구 목표는 HIV(Human Immunity-Deficiency Virus) 혈청변환기에서 CD4 세포량의 진화 주기이다(Zeger and Diggle, 1994).[2]CD4 세포는 인체 면역 기능에 중요한 역할을 한다.Zeger와 Diggle은 CD4 세포의 변화량을 측정함으로써 질병의 진행을 평가하는 것을 목표로 했다.CD4 세포의 수는 신체 나이와 흡연 행동 등과 관련이 있습니다.실험에서 관측 데이터 그룹을 지우기 위해 Zeger와 Diggle은 작업에 부분 선형 모형을 적용했습니다.부분 선형 모델은 CD4 셀의 평균 손실 시간 추정에 주로 기여하고 데이터 비교 과정을 단순화하기 위해 다른 공변량의 시간 의존성을 조정하며, 부분 선형 모델은 관측된 그룹이 진행 곡선을 추정하기 위한 전형적인 곡선의 편차를 특징짓는다.CD4 셀의 양이 변화하고 있습니다.부분 선형 모델에 의해 부여된 편차는 CD4 세포의 변화량이 느린 관찰 대상을 인식하는 데 잠재적으로 도움이 된다.

1999년 Schmalensee와 Stoker(1999)는 경제학 분야에서 부분 선형 모델을 사용했다.그들의 연구의 독립적인 변수는 미국의 휘발유 수요이다.논문의 주요 연구 대상은 미국의 휘발유 소비와 장기 소득 탄력성의 관계이다. 마찬가지로 교란 변수도 매우 많아 상호 영향을 미칠 수 있다.따라서 Schmalemsee와 Stoker는 부분 선형 [3]모델을 적용하여 모수와 비모수 사이의 데이터의 선형 변환 문제를 다루기로 결정했다.

환경과학 분야에서는 2000년(Prada-Sanchez, 2000년)[4]에는 부분 선형 모델을 사용해 이산화황 오염을 예측했고, 이듬해에는 린과 캐롤이 클러스터 데이터에 부분 선형 모델을 적용했다(Lin and Carroall, 2001년).[5]

부분 선형 모델 개발

2010년 Liang의 논문(Liang, 2010)에 따르면 스무딩 스플라인 기법은 1986년 Engle, Heckman 및 Rice에 의해 부분 선형 모델로 도입되었다.그 후 Robinson은 1988년 부분 선형 모형에서 비모수 요인에 대해 사용 가능한 LS 추정기를 발견했습니다.같은 해, Specman은 [6]프로파일 LS 방식을 추천했습니다.

부분 선형 모델의 기타 계량형 도구

커널 회귀도 부분 선형 모델에 도입되었습니다.Specman이 개발한 국소 상수법이나 1997년 Hamilton과 Truong에 의해 발견되고 1997년 Opsomer와 Ruppert에 의해 수정된 국소 선형 기법은 모두 커널 회귀에 포함된다.Green 등, Opsomer 및 Ruppert는 커널 기반 방법의 중요한 특징 중 하나는 beta의 root-n 추정자를 찾기 위해 언더스무팅이 이루어졌다는 것을 발견했다.그러나 1988년 Specman의 연구와 1994년 Severini와 Staniswalis의 연구는 이러한 제한이 취소될 수 있다는 것을 증명했다.

부분 선형[6] 모델에서의 대역폭 선택

부분 선형 모델에서의 대역폭 선택은 혼란스러운 문제입니다.Liang은 프로파일 커널 기반 방식과 백핏 방식을 적용하여 이 대역폭 선택에 대한 가능한 해결책을 그의 문헌에서 다루었습니다.또한 백핏 방식을 위한 언더무트의 필요성과 프로파일 커널 기반 방식이 최적의 대역폭 선택을 할 수 있는 이유는 Liang에 의해 정당화되었습니다.일반적인 계산 전략은 비모수 함수를 추정하기 위해 양의 문헌에 적용되었다.또한, 부분 선형 모델에 대한 불이익 스플라인 방법 및 강도 높은 시뮬레이션 실험을 도입하여 불이익 스플라인 방법, 프로파일 및 백핏 방법의 수치적 특징을 발견했다.

커널 기반 프로파일 및 백핏[6] 방법

( T ) ( T ) + () { E ( YT ) = {E(XT ) }^{ \ ( ) }

- ( T )( - ( ) + ( \ - E ( YT ) = X - E ( XT )^

직감적인 에스티뮬레이터는 E T d T ET) 및 Tstyle E(Y T)\를 적절히 하면 LS 에스티뮬레이터로 정의할 수 있습니다.

으로 모든 랜덤 벡터 변수{\({에 대해 ET ) T E( T의 커널 회귀 추정기라고 합니다. ~ C -E(T T _ T= T 예: ~ E ( ){ { , g, T는 비슷합니다.x ( ) ( X ) 、 ( ) ( X t )= E ( X ) , _ { } = ( Y =t ) E ( T = t )So

프로파일-커널 기반 p^(\ 다음과 같이 해결합니다.

서 m x , y { {\ mx 및 my의 커널 추정치입니다.

불이익 스플라인법[6]

벌칙 스플라인 방법은 1996년 에일러와 마르크스에 의해 개발되었다.2000년에는 Ruppert와 Carroll, 1999년에는 Brumback, Ruppert 및 Wand가 LME 프레임워크에서 이 방법을 사용했습니다.

g { g g ) 0+ 1+ . + p t + k k ( - k ) \ \ _ } + _ _ { 1} + t로 할 수 있다고 가정합니다.

서 p1 { p \ 1an1 < . . < \ \_ {1}<... _ 고정 매듭입니다 + x( ,). { a { + } max ( , ) { \ ( 0,. , \ 0 , \ ) }^{ } Y β + ( , ) + ( \ Y =X^ { T } \ ( , \ ) + \ 스플라인 ( pT , 、 、 、 、 ){(는) 다음과 같이 정의됩니다

α {\ 스무딩 파라미터입니다.

1999년 [7]Brumback 등이 언급한 바와 같이 추정기 p T^, s ^)({\T LME 모델에 근거한β(\ 추정치와 동일합니다.

여기서 ( ) 1 . . x &T_{n}^{p}\end{pmatrix}}}, Z)((T1− ξ 1)p...(티원 − ξ K)+p(T 2− ξ 1)p...(T 2− ξ K)+p...............(Tnξ 1−)p...(Tn− ξ K)+p){\displaystyle Z={\be.진{

서 b ( 1 ,. , ) ( , b) 、 ( 1,. , )T ~( , 2 ) { b = (_ { 1 , ... _ { } }^2_{\ 2/ 2 (\ =\_ {\}^{2 _매트릭스는 위 프레임워크에 대해 패널티 처리된 스플라인을 더 부드럽게 보여줍니다.

레퍼런스

  1. ^ a b c d Hardle, Liang, JiTi, WolfGang, Hua, Gao (2000). Partially linear model. PHYSICA-VERLAG.{{cite book}}: CS1 maint: 여러 이름: 작성자 목록(링크)
  2. ^ Zeger, Scott L.; Diggle, Peter J. (1994). "Semiparametric Models for Longitudinal Data with Application to CD4 Cell Numbers in HIV Seroconverters". Biometrics. 50 (3): 689–699. doi:10.2307/2532783. ISSN 0006-341X. JSTOR 2532783. PMID 7981395.
  3. ^ Schmalensee, Richard; Stoker, Thomas M. (1999). "Household Gasoline Demand in the United States" (PDF). Econometrica. 67 (3): 645–662. doi:10.1111/1468-0262.00041. hdl:1721.1/50215. ISSN 1468-0262.
  4. ^ Prada‐Sánchez, J. M.; Febrero‐Bande, M.; Cotos‐Yáñez, T.; González‐Manteiga, W.; Bermúdez‐Cela, J. L.; Lucas‐Domínguez, T. (2000). "Prediction of SO2 pollution incidents near a power station using partially linear models and an historical matrix of predictor-response vectors". Environmetrics. 11 (2): 209–225. doi:10.1002/(SICI)1099-095X(200003/04)11:2<209::AID-ENV403>3.0.CO;2-Z. ISSN 1099-095X.
  5. ^ Carroll, Raymond J.; Lin, Xihong (2001-12-01). "Semiparametric regression for clustered data". Biometrika. 88 (4): 1179–1185. doi:10.1093/biomet/88.4.1179. ISSN 0006-3444.
  6. ^ a b c d Liang, Hua (2006-02-10). "Estimation in Partially Linear Models and Numerical Comparisons". Computational Statistics & Data Analysis. 50 (3): 675–687. doi:10.1016/j.csda.2004.10.007. ISSN 0167-9473. PMC 2824448. PMID 20174596.
  7. ^ Brumback, Babette A.; Ruppert, David; Wand, M. P. (1999). "Variable Selection and Function Estimation in Additive Nonparametric Regression Using a Data-Based Prior: Comment". Journal of the American Statistical Association. 94 (447): 794–797. doi:10.2307/2669991. ISSN 0162-1459. JSTOR 2669991.