벡터 일반화 선형 모형
Vector generalized linear model이 기사는 대체로 또는 전적으로 단일 출처에 의존한다.– · · · · (2020년 6월) |
| 다음에 대한 시리즈 일부 |
| 회귀분석 |
|---|
| 모델 |
| 추정 |
| 배경 |
통계에서 벡터 일반화 선형 모형(VGLM)의 등급은 일반화 선형 모형(GLM)에 의해 맞춤화된 모델의 범위를 확대하기 위해 제안되었다.특히 VGLM은 고전적 지수 패밀리 외부와 둘 이상의 파라미터에 대한 반응 변수를 허용한다.각 매개변수(꼭 평균은 아님)는 연결 함수에 의해 변환될 수 있다.VGLM 프레임워크는 또한 다수의 반응을 자연스럽게 수용할 수 있을 만큼 충분히 크다; 이것들은 각각 다른 매개변수 값을 가진 특정한 통계적 분포로부터 오는 몇 개의 독립적인 반응이다.
벡터 일반화 선형 모델은 Yee(2015)에 자세히 설명되어 있다.[1]일반적으로 모든 모형 모수의 최대우도 추정을 위해 채택된 중심 알고리즘은 반복적으로 재가중 최소 제곱법이다.특히 피셔 스코어링은 대부분의 모델에 대해 로그 우도함수의 첫 번째 및 예상 두 번째 파생상품을 사용하는 방식으로 구현된다.
동기
GLM은 기본적으로 고전적 지수 계열의 1-모수 모델을 다루며, 가장 중요한 통계적 회귀 모델인 선형 모형, 카운트에 대한 포아송 회귀 분석 및 이항 반응에 대한 로지스틱 회귀 분석의 3가지를 포함한다.그러나 지수 계열은 정규 데이터 분석에는 너무 제한적이다.예를 들어 카운트의 경우 제로 인플레, 제로 런화 및 과대산포증이 정기적으로 발생하고, 준 이항 및 준 이항 포아송의 형태로 이항 및 포아송 모델에 대한 임시변통적응은 임시변통이며 불만족스럽다고 주장할 수 있다.그러나 VGLM 프레임워크는 제로-인플레이션 포아송 회귀 분석, 제로-인플레이션 포아송 회귀 분석, 양의-포아송 회귀 분석, 음의 이항 회귀 분석과 같은 모형을 쉽게 처리한다.또 다른 예로, 선형 모형의 경우, 정규 분포의 분산이 척도 모수로서 강등되고 종종 귀찮은 모수(전혀 모수로 간주되는 경우)로 취급된다.그러나 VGLM 프레임워크는 공변량을 사용하여 분산을 모델링할 수 있도록 한다.
전체적으로 VGLM은 고전적 지수 계열 외부에서 많은 모델을 취급하는 GLM으로 느슨하게 생각할 수 있으며 단일 평균 추정에 제한되지 않는다.추정 중에는 IRLS 동안 가중 최소 제곱을 사용하는 대신 일반화 최소 제곱을 사용하여 M 선형 예측 변수 간의 상관 관계를 처리한다.
데이터 및 표기법
반응이나 결과 또는 종속 변수(), y= 1,… , ) 은는) 특정 분포에서 생성되는 것으로 가정한다.대부분의 분포는 일변량 분포여서 = 1 = 2 의 예가 이변량 정규 분포다.
우리는i =,n , n ,에 (x , w , i) },{\을(으로 데이터를 쓰기도 한다 n개 관측치 각각 독립된 것으로 간주한다.그러면 =( , y ) w 는 양의 이전 가중치로 알려져 있으며, w = 인 경우가 많다
설명변수나 독립변수는 =( ,… , p ) p}}}}{{}}}}}}{}}}}}}}{{}}}}}}}}}}}} 또는 필요할 때 =( x 1,… , ) {\ 보통 가로채기가 있는데, 이 경우 = 또는 i = 1
Actually, the VGLM framework allows for S responses, each of dimension . In the above S = 1. Hence the dimension of is more generally . One handles S responses by code such asvglm(cbind(y1, y2, y3) ~ x2 + x3, ..., data = mydata)S = 3의 경우.단순화하기 위해 이 글의 대부분은 S = 1이다.
모델 구성 요소
VGLM은 일반적으로 다음 4가지 요소로 구성된다.
- 1. 로그 우도{\ 첫 번째 파생상품 / 및 계산할 수 있는 예상 정보 매트릭스를 갖는 일부 통계 분포의 확률밀도 함수 또는 확률 질량 함수.모델은 일반적인 MLE 규칙성 조건을 만족시키기 위해 필요하다.
- 2. 각 파라미터를 위해 아래에 설명된 선형 예측 변수 = , .
- 3. 함수 j= - 1 ( j ). _
- 4. Hkdisplaysymbol {\ k 1 , , 각각 완전한 열 순위 및 알려진 열.
선형 예측 변수
각 선형 예측 변수는 독립 변수에 대한 정보를 모형에 통합하는 수량이다.기호 j 그리스어 "eta")는 선형 예측 변수를 나타내며, j번째 예측 변수를 나타내기 위해 첨자 j를 사용한다.jth 매개 변수를 설명 변수와 연관시키고, j{\는 알 수 없는 매개 j {\{\ 즉 회귀 계수( 결합, "선형으로 표현한다
분포의 j번째 매개 변수인 은는) , 까지 독립 변수들에 따라 달라진다.
= ( 1,…, ) T {\}}=(\ ,\_{M})^{{{\\}}}{{\은 모든 선형 예측 변수의 벡터가 된다.(편의를 위해 항상 always은(는) 치수 M이 되도록 한다.)따라서 을(를) 구성하는 모든 공변량은 선형 예측 변수 j{\을(를) 통해 모든 파라미터에 잠재적으로 영향을 미칠 수 있으며 이후에는 선형 예측 변수를 각 k }의 부드러운 함수의 합계인 가법 예측 변수로 일반화할 수 있도록 하겠다.과(와) 각 함수는 데이터로부터 추정한다.
연결 함수
각 연결 함수는 선형 예측 변수와 분포 모수 사이의 관계를 제공한다.일반적으로 사용되는 링크 함수가 많으며, 이들의 선택은 다소 자의적일 수 있다.링크함수의 도메인을 분포의 매개변수 값의 범위에 맞추려고 하는 것이 타당하다.의 g 는 각 파라미터에 대해 서로 다른 연결 함수를 허용한다는 점에 유의하십시오.예를 들어 공통 링크 함수는 (, 1) (의 파라미터에 대한 로짓 링크와 양의 파라미터에 대한 로그 링크를 포함하는 일반화된 선형 모델과 유사한 속성을 가진다그VGAM패키지는 기능이 있다.identitylink()양수 값과 음수 값 모두를 가정할 수 있는 파라미터의 경우
제약 조건 행렬
보다 일반적으로 VGLM 프레임워크는 각 예측 변수의 회귀 계수 ) k 사이에 선형 제약이 있는 경우를 허용한다.예를 들어, 우리는 어떤 것을 0으로 설정하거나, 어떤 것은 0으로 제한하기를 원할 수 있다.우리는 가지고 있다.
서 H 은 제약 조건 행렬이다.각 제약 조건 행렬은 알려지고 미리 지정되며, M 행과 1열과 M 열 사이에 있다.제약 조건 행렬의 요소는 유한한 값으로, 종종 0이나 1에 불과하다.예를 들어, 값 0은 1이 해당 요소를 포함하는 동안 해당 요소를 효과적으로 생략한다.It is common for some models to have a parallelism assumption, which means that for , and for some models, for too. = , , 에 H k= 에 대해 특별한 경우는 사소한 제약조건으로 알려져 있으며, 모든 회귀계수는 추정되며 관련이 없다. ={\의 j번째 행이 이(가) 같으면 가로채기 전용 파라미터로 알려져 있다= ,… , p 즉 = ) \는 절편일 뿐이다.따라서 절편 전용 매개변수는 스칼라처럼 가능한 간단하게 모델링된다.
The unknown parameters, 는 일반적으로 최대우도 방법에 의해 추정된다.모든 회귀 계수는 다음과 같이 행렬에 넣을 수 있다.
시즈 시설
보다 일반적으로는 변수 의 값이 각 j 에 대해 서로 다른 값을 가질 수 있게 할 수 있다 예를 들어, 각 선형 예측 변수가 다른 시점에 있다면 시간 변동을 일으키는 공변량이 있을 수 있다.예를 들어 이산 선택 모델에서는 특정 변형을 구별하고 다항 로짓 모델을 전송 선택 등에 적합시키기 위해 조건부 로짓 모델, 내포 로짓 모델, 일반화 로짓 모델 등을 가지고 있다.비용 등 변수는 선택에 따라 달라지는데, 예를 들어 택시가 버스보다 비싸서 걷는 것보다 비싸다.그xij의 설비.VGAM ) 에서 ) 까지 일반화할 수 있도록 허용한다
가장 일반적인 공식은
여기서 은 오프셋이며, 실제로는 n nM} 번역된다.그VGAM소포에는 다음이 있다.xij대각 행렬의 연속적인 요소를 입력할 수 있는 인수
소프트웨어
Yee(2015)[1]는 VGAM이라는 이름의 R 패키지 구현에 대해 설명한다.[2]현재 이 소프트웨어는 약 150개의 모델/배포 기능에 적합하다.중앙 모델링 기능은vglm()그리고vgam(). Thefamily인수에 VGAM 패밀리 함수(예:family = negbinomial음이항 회귀 분석의 경우,family = poissonff포아송 회귀 분석의 경우,family = propodds순서형 범주형 회귀 분석의 비례 홀수 모형 또는 누적 로짓 모형의 경우.
피팅
최대우도
로그 우도를 최대화하고 있다.
서 w 는 양성이며 알려진 이전 가중치.최대우도 추정치는 Fisher의 채점 방법을 사용하여 반복적으로 가중치가 재조정된 최소 제곱 알고리즘을 사용하여 찾을 수 있으며, 양식은 다음과 같다.
여기서 ( (는 반복 a의 피셔 정보 매트릭스다.예상 정보 매트릭스, 즉 EIM이라고도 한다.
VLM
계산을 위해 (작은) 모형 행렬은 다음 공식의 RHS로 생성된다.vglm()그리고 제약 조건 행렬이 결합되어 큰 모델 행렬을 형성한다.IRLS는 이 큰 X에 적용된다.벡터 선형 모델이 해결되고 있는 기본적인 최소 제곱 문제이기 때문에 이 행렬은 VLM 행렬이라고 알려져 있다.VLM은 가중 다변량 회귀 분석으로, 반응 행렬의 각 행에 대한 분산-공분산 행렬이 반드시 같지 않고 알려져 있다.(기존 다변량 회귀 분석에서는 모든 오차가 동일한 분산-공분산 행렬을 가지며, 알 수 없음).특히 VLM은 가중 제곱합을 최소화한다.
이 양은 각 IRLS 반복에서 최소화된다.작업 반응(사이비 반응 및 조정된 종속 벡터라고도 함)은
서 W 는 작업 가중치 또는 작업 가중치 행렬로 알려져 있다.그들은 대칭적이고 긍정적이다.EIM을 사용하면 매개변수 공간의 대부분에 걸쳐 모두 양수(양수)가 확실하다는 것을 확인할 수 있다.대조적으로, 뉴턴-랩슨을 사용하면 관측된 정보 매트릭스가 사용된다는 것을 의미할 수 있으며, 매개변수 공간의 더 작은 부분집합에서 양성-확정성을 갖는 경향이 있다.
계산적으로, Cholesky 분해는 작업 중량 행렬을 반전시키고 전체 일반화된 최소 제곱 문제를 일반적인 최소 제곱 문제로 변환하는 데 사용된다.
예
일반화 선형 모형
물론 모든 일반화된 선형 모형은 VGLM의 특별한 경우지만, 우리는 종종 척도 모수에 모멘트 방법을 사용하기보다는 최대우도 추정에 의해 모든 모수를 추정한다.
순서 범주형 반응
반응 변수가 M + 1 수준의 순서형 측정인 경우 다음 형식의 모형 함수를 적합시킬 수 있다.
- ( )= g j
= ,…, . j= M 서로 다른 링크 g는 비례 오즈 모델 또는 순서의 프로빗 모델(예:VGAM가정의 기능.cumulative(link = probit)누적 확률에 프로빗 링크를 할당하므로 이 모델을 누적 프로빗 모델이라고도 한다.일반적으로 그것들은 누적 링크 모델이라고 불린다.
범주형 분포와 다항 분포의 경우 적합치는 확률의 (M + 1) 벡터로서, 모든 확률은 최대 1까지 합산되는 속성이 된다.각 확률은 M + 1 가능한 값 중 하나의 발생 가능성을 나타낸다.
순서 없는 범주형 응답
반응 변수가 공칭 측정값이거나 데이터가 순서가 지정된 모형의 가정을 충족하지 못하면 다음 형식의 모형을 적합시킬 수 있다.
= ,… ,. 위 링크를 멀티로깃 링크라고도 하며, 모델을 다항 로짓 모델이라고 한다.반응의 첫 번째 또는 마지막 수준을 기준 또는 기준선 그룹으로 선택하는 것이 일반적이다. 위의 수준은 마지막 수준을 사용한다.그VGAM가정의 기능.multinomial()위의 모델에 적합하며, 라는 인수가 있다.refLevel참조 그룹으로 사용되는 레벨을 할당할 수 있다.
데이터 개수
고전적인 GLM 이론은 카운트 데이터에 대해 포아송 회귀 분석을 수행한다.링크는 일반적으로 표준 링크로 알려진 로그다.분산 함수는 평균에 비례한다.
여기서 분산 매개 변수 은(는) 일반적으로 정확히 1로 고정된다.그렇지 않은 경우, 결과적인 준우도 모델은 과대산포를 가진 포아송(Poisson) 또는 준-Poisson(si-displaystyle 으로 설명되며, 일반적으로 에 대한 신뢰 구간을 얻기 어렵다.
이와는 대조적으로, VGLMs는 포아송과 관련하여 과대산포를 처리할 수 있는 훨씬 더 풍부한 모델 세트를 제공한다(예: 음의 이항 분포 및 이의 여러 변종).또 다른 계수 회귀 모형은 일반화된 포아송 분포다.다른 가능한 모델로는 제타 분포와 Zipf 분포가 있다.
확장
축소 순위 벡터 일반화 선형 모형
RR-VGLM은 B 행렬의 하위 집합이 하위 순위인 VGLM이다.일반성을 잃지 않고 = (x x ) T 라고 가정해 보자.은 공변량 벡터의 파티션이다.Then the part of the B matrix corresponding to is of the form where and are thin matrices (i.e., with R columns), e.g., vect또는 순위 R = 1. RR-VGLM이 특정 모델과 데이터 세트에 적용될 때 몇 가지 이점을 제공할 수 있는 경우첫째, M과 p가 크면 VGLM에 의해 추정된 회귀계수의 수가 크다( p 그러면 R = 1 또는 R = 2와 같이 R이 낮을 경우 RR-VGLM은 추정된 회귀 계수의 수를 엄청나게 줄일 수 있다. R = 1 또는 R = 2. 이것이 특히 유용한 모델의 예로는 고정관념 모델이라고도 하는 RR-다항 로짓 모델이 있다.둘째, = x = ( 1,… , ) 은 잠재 변수의 R-벡터로서, 종종 이러한 변수들을 유용하게 해석할 수 있다.R = 1이면 = 2 잠재 변수가 설명 변수에 대한 적재를 구성하도록 한다.RR-VGLM이 }}개의 최적의 선형 조합을 취한 후 설명 변수, 에 VGLM을 장착하는 것을 볼 수 있다.세 번째, R' = 2인 경우 바이플롯이 생성될 수 있으며, 이를 통해 모델을 시각화할 수 있다.
RR-VGLM은 VGLM이며, x }}개의 변수에 대한 제약 조건을 알 수 없으며 추정할 수 있음을 알 수 있다.그런 다음 변수에 H k= 을(를) 전송한다.RR-VGLMs can be estimated by an alternating algorithm which fixes and estimates and then fixes and estimates , etc.
실제로 및/또는 에 대해 몇 가지 고유성 제약이 필요하다VGAM그rrvglm()함수는 기본적으로 코너 구속조건을 사용하며, 는 A 의 상위 R 행이 R 로 설정됨을 의미한다RR-VGLMs는 2003년에 제안되었다.[3]
2 대 1
RR-VGLM의 특별한 경우는 R = 1 및 M = 2이다.이것은 2개의 파라미터에서 1개의 파라미터로 치수를 감소시키는 것이다.그렇다면 라는 것을 보여줄 수 있다.
여기서 원소 및 을 추정한다.동등하게,
이 공식은 }와 2{\}}의 결합을 제공한다 이 공식은 예를 들어 평균-분산 관계를 모델링하는 데 유용할 수 있는 모델의 두 매개변수 사이의 관계를 유도한다.링크 기능의 일부 선택이 있기 때문에 두 매개변수(예: 로짓, 프로빗, 카우치트 또는 나막신 로그 링크)를 단위 간격에서 결합할 때 약간의 유연성을 제공한다.위의 공식은 특히 음의 이항 분포에 유용하므로 RR-NB에 분산 함수가 있다.
이것은 일부 저자들에 의해 NB-P 변종이라고 불렸다. 및 }}개의 Δ가 추정되며, Δ1{\displaystyle delta _{2}}개의 신뢰 구간도 구할 수 있다.
우발적으로, 제약 조건 행렬의 올바른 조합을 선택하는 데 도움을 받아 몇 가지 다른 유용한 NB 변형도 장착할 수 있다.예를 들어, NB - 1, NB - 2 (negbinomial()기본값), NB - H; Yee(2014)[4] 및 Yee(2015)[1]의 표 11.3을 참조하십시오.
RCIMs
행-열 상호작용 모델(RCIM)의 하위 클래스도 제안되었다. 이는 RR-VGLM의 특수 유형이다. RCIM은 행렬 Y 응답에만 적용되며 명시적인 설명 변수 이(가) 없다 대신 각 행과 열의 지시 변수가 명시적으로 설정되고 주문-R 상호 작용한다.A 형식의 이온이 허용된다.이러한 유형의 모델의 특별한 사례로는 Goodman RC 연결 모델과 에서 구현한 준분산 방법론이 있다.qvcalcR 패키지.
RCIM은 다음과 같이 Y에 적용되는 RR-VGLM으로 정의할 수 있다.
Goodman RC 연결 모델의 경우 1 = 를 사용하므로, R = 0이면 행 효과와 열 효과가 있는 카운트 행렬에 적합한 포아송 회귀 분석이며, 이는 무중접 분산 분석 모델과 유사한 아이디어를 가지고 있다.
의 또 다른 예는 g 1}이ID 링크이고 매개변수가 중위수이고 모형이 비대칭 Laplace 분포에 해당하는 경우, 무상호작용 RCIM은 중위수 광택이라고 하는 기법과 유사하다.
인VGAM,rcim()그리고grc()함수는 위의 모델에 적합하다.또한 Yee와 Hadi(2014)[5]는 RCIM을 종 데이터에 구속되지 않은 2차 정렬 모델을 적합시키는 데 사용할 수 있다는 것을 보여준다. 이는 서열화에서 간접 구배 분석의 예(통계 생태계의 주제)이다.
벡터 일반화 가법 모형
벡터 일반화 첨가제 모델(VGAMs)은 VGLM에 대한 주요 확장자로, 선형 예측 변수 j 는 에 선형인 것으로 제한되지 않지만, 에 적용된 평활용 함수의 합이다
where These are Madditive predictors.매끄러운 각 함수 () k 는 데이터로부터 추정한다.따라서 VGLM은 모델 중심이고 VGAM은 데이터 중심이다.현재는 스무딩 스플라인만 시행하고 있다.VGAM꾸러미M > 1의 경우 그것들은 사실상 벡터 스플라인으로, 구성 요소 을 f( j) ( ) 의 동시에 추정한다.물론 VGLMs와 함께 회귀 스플라인도 사용할 수 있다.VGAMs 이면의 동기는 헤스티와 티비시라니(1990),[6] 우드(2017)와 비슷하다.[7]VGAMs는 1996년에 제안되었다.[8]
현재, 에일러와 마르크스의 P-스플라인(1996)을 이용하여 VGAM을 추정하는 작업이 진행되고 있다.[9]이를 통해 자동 평활 매개변수 선택을 더 쉽게 수행할 수 있는 기능과 같이 평활 스플라인 및 벡터 백피팅을 사용하는 것에 비해 몇 가지 이점을 얻을 수 있다.
2차 축소 순위 벡터 일반화 선형 모형
이는 잠재 변수의 2차 변수에 RR-VGLM 클래스에 추가된다.그 결과는 잠재 변수의 함수로써 각 반응에 종 모양의 곡선을 적합시킬 수 있다는 것이다.R = 2의 경우, 두 개의 잠재 변수의 함수로서 종 모양의 표면이 있는데, 이는 이변량 정규 분포와 비슷한 것이다.QRR-VGLM의 특정 용도는 서열화라고 하는 다변량 분석 분야에서 생태학에서 찾을 수 있다.
QRR-VGLM의 특정 순위 1 예로서 S종이 있는 포아송 데이터를 고려한다.종 s에 대한 모형은 포아송 회귀 분석이다.
= ,… , 기호 {\를 사용하는 가장 오른쪽 파라미터화는 종 다양성과 관련되기 때문에 특별한 생태적 의미가 있다.예를 들어, 허용오차는 틈새 폭의 척도로, 큰 가치는 종들이 광범위한 환경에서 살 수 있다는 것을 의미한다.위의 방정식에서 종 모양의 곡선을 얻기 위해서는 ) < 0 이(가) 필요할 것이다.
QRR-VGLMs는 최대우도 추정에 의해 가우스 서열화 모델을 적합시키며, 이는 직접 구배 분석의 예다.그cqo()의 기능을 하다.VGAM현재 통화 중인 패키지optim()최적의 C 을를) 검색하면, 사이트 점수를 계산하기 쉽고 그에 적합한 일반화된 선형 모형을 적합시킬 수 있다.함수는 제한된 2차 서열을 나타내는 약자 CQO의 이름을 따서 명명되며, 2차 서식은 잠재 변수 }에서 2차 서식을 위한 것이다.척도의 불행하게도 QRR-VGLM은 응답 변수와 설명 변수 모두에서 특이치에 민감할 뿐만 아니라 계산적으로 비용이 많이 들고, 글로벌 솔루션보다는 로컬 솔루션을 제공할 수 있다.QRR-VGLMs는 2004년에 제안되었다.[10]
참고 항목
참조
- ^ a b c Yee, T. W. (2015). Vector Generalized Linear and Additive Models: With an Implementation in R. New York, USA: Springer. ISBN 978-1-4939-2817-0.
- ^ "Vector Generalized Linear Models". 2016-01-18.
- ^ Yee, T. W.; Hastie, T. J. (2003). "Reduced-rank vector generalized linear models". Statistical Modelling. 3 (1): 15–41. CiteSeerX 10.1.1.36.3700. doi:10.1191/1471082x03st045oa.
- ^ Yee, T. W. (1996). "Reduced-rank vector generalized linear models with two linear predictors". Computational Statistics & Data Analysis. 71: 889–902. doi:10.1016/j.csda.2013.01.012.
- ^ Yee, T. W.; Hadi, A. F. (2014). "Row-column interaction models, with an R implementation". Computational Statistics. 29 (6): 1427–1445. doi:10.1007/s00180-014-0499-9.
- ^ Hastie, T. J.; Tibshirani, R. J. (1990). Generalized Additive Models. London:Chapman and Hall.
- ^ Wood, S. N. (2017). Generalized Additive Models: An Introduction with R (second ed.). London: Chapman and Hall. ISBN 9781498728331.
- ^ Yee, T. W.; Wild, C. J. (1996). "Vector generalized additive models". Journal of the Royal Statistical Society, Series B. 58 (3): 481–493.
- ^ Eilers, P. H. C.; Marx, B. D. (1996). "Flexible smoothing with B-splines and penalties". Statistical Science. 11 (2): 89–121. CiteSeerX 10.1.1.47.4521. doi:10.1214/ss/1038425655.
- ^ Yee, T. W. (2004). "A new technique for maximum-likelihood canonical Gaussian ordination". Ecological Monographs. 74 (4): 685–701. doi:10.1890/03-0078.
추가 읽기
- Hilbe, Joseph (2011). Negative Binomial Regression (2nd ed.). Cambridge: Cambridge University Press. ISBN 978-0-521-19815-8.