이항 회귀 분석
Binomial regression시리즈의 일부 |
회귀 분석 |
---|
모델 |
견적 |
배경 |
통계에서 응답(종종 Y로 언급했다)이항 분포, 이항 회귀은 회귀 분석 기술:성공의 각 실험 성공의 가능성이 n{n\displaystyle}독립적인 베르누이의 시행, p{p\displaystyle}이항 회귀,톤에서 .[1]의 일련의 문자는 숫자그성공 확률은 설명 변수와 관련이 있습니다. 일반 회귀 분석에서 해당 개념은 관찰되지 않은 반응의 평균 값을 설명 변수에 관련짓는 것입니다.
이항 회귀는 이항 회귀 분석과 밀접한 관련이 있습니다. 이항 회귀 은 n 회귀 분석 또는 그룹화되지 않은 이항 데이터의 회귀 분석으로 간주할 수 있으며, 이항 회귀는 그룹화된 이항 데이터에 대한 회귀 분석으로 간주할 수 있습니다(비교 [2]참조).이항 회귀 모델은 기본적으로 이산 선택 모델의 한 유형인 이항 선택 모델과 동일합니다. 주된 차이는 이론적 동기(비교 참조)에 있습니다.기계 학습에서 이항 회귀는 확률론적 분류의 특수한 경우로 간주되며, 따라서 이항 분류의 일반화로 간주된다.
적용 예
이항 [3]회귀 분석의 적용에 대한 발표된 한 예에서, 세부 사항은 다음과 같다.관측 결과 변수는 산업 공정에서 결함이 발생했는지 여부였다.두 가지 설명 변수가 있었습니다. 첫 번째 변수는 공정의 수정된 버전이 사용되었는지 여부를 나타내는 단순한 두 가지 경우 요소였고, 두 번째 변수는 공정에서 공급되는 재료의 순도를 측정하는 일반적인 정량 변수였습니다.
모델 사양
반응 변수 Y는 설명 변수 X에 따라 조건부로 분포된다고 가정합니다.시행 횟수 n을 알고 각 시행 p의 성공 확률을 함수 θ(X)로 지정한다.이는 관측된 성공 비율의 조건부 기대와 조건부 분산 Y/n이 다음과 같은 것을 의미합니다.
이항 회귀 분석의 목적은 함수 θ(X)를 추정하는 것입니다.일반적으로 통계학자는 알려진 함수 m에 대해 ( ( X) { X) =(\을 가정하고 β를 추정한다.m에 대한 일반적인 선택에는 로지스틱 [1]함수가 포함됩니다.
데이터는 예측값 μ가 개별 사건이 성공할 확률인 일반 선형 모형으로 적합되는 경우가 많습니다.예측 가능성은 다음과 같이 제시됩니다.
여기서A 1은 사건 A가 발생할 때 값 1을 취하고 그렇지 않으면 0을 취하는 지시 함수입니다. 이 공식에서는 주어진 관측치i y에 대해 y=0 또는 1에i 따라 제품 내부의 두 항 중 하나만 기여합니다.우도 함수는 형식 매개변수i μ를 설명 변수의 매개변수화된 함수로 정의함으로써 보다 완전하게 지정됩니다. 이는 훨씬 줄어든 매개변수 수의 관점에서 우도를 정의합니다.모델의 적합은 일반적으로 이러한 매개변수를 결정하기 위해 최대우도 방법을 사용하여 이루어집니다.실제로 일반화 선형 모형으로 공식을 사용하면 보다 일반적인 모델의 전체 클래스에 적용 가능하지만 모든 최대우도 문제에 적용되지 않는 특정 알고리즘 아이디어를 활용할 수 있다.
이항 회귀 분석에서 사용되는 모형은 종종 다항 데이터로 확장될 수 있습니다.
모델을 해석할 수 있는 체계적인 방법으로 μ 값을 생성하는 방법은 여러 가지가 있습니다. 이 방법들은 아래에서 설명합니다.
링크 함수
확률 μ를 설명 변수에 연결하는 모델링은 0에서 1 사이의 값만 생성하는 형태여야 한다는 요건이 있다.여러 모델을 폼에 장착할 수 있습니다.
여기에서 θ는 설명 변수의 회귀 파라미터를 포함하는 선형 조합을 나타내는 중간 변수이다.함수 g는 일부 확률 분포의 누적 분포 함수(cdf)입니다.보통 이 확률분포는 마이너스 무한대에서 플러스 무한대로 지원되므로 함수 g에 의해 임의의 유한값이 0 ~1의 범위 내의 값으로 변환됩니다.
로지스틱 회귀 분석의 경우 연결 함수는 승산비 또는 로지스틱 함수의 로그입니다.프로빗의 경우 링크는 정규 분포의 cdf입니다.선형 확률 모형은 예측이 0에서 1 사이의 범위에 있을 필요가 없기 때문에 적절한 이항 회귀 규격이 아닙니다. 확률 공간이 해석이 발생하는 위치이거나 분석가가 프로밥의 근사 선형화를 적합하거나 계산할 수 있을 만큼 정교하지 않은 경우 이러한 유형의 데이터에 사용됩니다.해석의 가능성.
이항 회귀 분석과의 비교
이항 회귀 분석은 이항 회귀 분석과 밀접하게 연관되어 있습니다.반응이 이항 변수(가능한 두 결과)인 경우, 이러한 대안은 한 결과를 "성공"으로 간주하고 다른 결과를 "실패"로 간주하여 카운트 데이터로 간주함으로써 0 또는 1로 코드화할 수 있습니다. "성공"은 한 번의 시도 중 하나의 성공인 반면 "실패"는 한 번의 시도 중 0번의 성공입니다.이제 이 값은 1 {\1} 을 통해 이항 분포로 간주할 수 있으므로 이항 회귀는 이항 회귀의 특수한 경우입니다.이러한 데이터를 (카운트를 추가하여) 그룹화하면 더 이상 이진 데이터가 아니라 각 그룹의 카운트 데이터이며 이항 회귀 분석을 통해 모델링할 수 있습니다. 그러면 개별 이진 결과를 "그룹화되지 않은 데이터"라고 합니다.그룹화된 데이터로 작업할 때의 이점은 [2]모형의 적합도를 검정할 수 있다는 것입니다.
이진 선택 모델과의 비교
이원선택모형은 개인 n이 조치를 취함으로써 얻는 효용(또는 순편익)인 잠재적 변수 U를 가정한다(조치를 가정한다n.조치를 취함으로써 개인이 얻는 효용은 개인의 특성에 따라 달라지며, 그 중 일부는 연구자에 의해 관찰되고 일부는 그렇지 않다.
서β(\symbol\{n는 회귀 계수 집합이고, 은 개인 n을 설명하는 독립 변수 집합(일명 "displaystyle\mbf {s_{n}})이며, 이산 변수 또는 정규 연속 변수일 수 있습니다. \ \ _ } 은 예측에서 "잡음" 또는 "오류"를 지정하는 랜덤 변수이며, 분포에 따라 분포되어 있다고 가정합니다.일반적으로 분포에 평균 또는 분산 모수가 있으면 이를 식별할 수 없으므로 모수는 편리한 값(일반적으로 평균 0, 분산 1)으로 설정됩니다.
사용자는 U > 0인n 경우 y = 1의 액션을 수행합니다n.관측되지 않은 항 ,은n 로지스틱 분포를 갖는 것으로 가정합니다.
사양은 다음과 같이 간결하게 기술되어 있습니다.
조금 다르게 쓰겠습니다.
여기에서는 e= -syslog로n 대체했습니다n.그러면 랜덤 변수가 부정 도메인에서 정의된 약간 다른 변수로 변경됩니다.실제로 우리가 일반적으로 고려하는 오차 분포(예: 로지스틱 분포, 표준 정규 분포, 표준 학생 t 분포 등)는 0에 대해 대칭이므로 e에n 대한 분포는 )에n 대한 분포와 동일합니다.
누적분포함수(CDF를 F로 의 누적분포함수({ 를 -로
주의:
은 Bernouli 평가판입니다.서E [= (Y 1)、 { \ { E } [ Y _ { n } \ ( _ { n } ) 。
또는 동등하게
이 값은 일반화 선형 모형의 형식론으로 표현되는 이항 회귀 모형과 정확히 동일합니다.
en ~ ( , ), { e { } \ { { } ( )이 표준 정규 분포로 분포되어 있는 ,
정확히 프로빗 모델이죠
n ~ 로지스틱 ( , {\ , 1 즉, 평균 0 및 척도 모수 1과 함께 표준 로지스틱 분포로 분포되어 있는 , 대응하는 분위수 함수는 로지트 함수입니다.
정확히 로짓 모델입니다.
GLM(Generalized Linear Model)과 이산 선택 모델이라는 두 가지 다른 형식(Generalized Linear Model)은 단순한 바이너리 선택 모델의 경우 동일하지만 다음과 같은 방법이 다를 경우 확장할 수 있습니다.
- GLM은 범주형 변수나 순서형 변수뿐만 아니라 임의로 분포된 반응 변수(의존 변수)를 쉽게 처리할 수 있으며, 이산 선택 모델은 그 특성에 따라 제한됩니다.GLM은 확률분포를 가져야 하는 오차변수의 사용과는 달리 일부 분포의 분위수 함수인 링크함수에도 제한되지 않습니다.
- 반면, 이산 선택 모델은 생성 모델의 유형으로 설명되기 때문에, 개념적으로 각 개인에 대한 여러 개의, 아마도 상관 관계가 있는 선택 또는 다른 변형이 있는 복잡한 상황으로 확장하는 것이 더 쉽다.
잠재적 변수 해석/유도
이항 관측 변수 Y를 포함하는 잠재 변수 모델은 Y가 다음과 같이 잠재 변수 Y*와 관련되도록 구성될 수 있습니다.
그런 다음 잠재 변수 Y*는 모형에 의해 회귀 변수 X 집합과 관련됩니다.
이 경우 이항 회귀 모형이 생성됩니다.
can의 분산을 식별할 수 없으며, 관심이 없을 때 흔히 1과 같다고 가정한다.is이 정규 분포를 따를 경우 프로빗이 적절한 모델이고 is가 log-Weibull 분포일 경우 로짓이 적절합니다.θ가 균일하게 분포되어 있으면 선형 확률 모형이 적합합니다.
「 」를 참조해 주세요.
메모들
- ^ a b Sanford Weisberg (2005). "Binomial Regression". Applied Linear Regression. Wiley-IEEE. pp. 253–254. ISBN 0-471-66379-4.
- ^ a b Rodriguez 2007, 3장, 5페이지
- ^ Cox & Snell(1981), 예 H, 페이지 91
레퍼런스
- Cox, D. R.; Snell, E. J. (1981). Applied Statistics: Principles and Examples. Chapman and Hall. ISBN 0-412-16570-8.
- Rodríguez, Germán (2007). "Lecture Notes on Generalized Linear Models".
추가 정보
- Dean, C. B. (1992). "Testing for Overdispersion in Poisson and Binomial Regression Models". Journal of the American Statistical Association. Informa UK Limited. 87 (418): 451–457. doi:10.1080/01621459.1992.10475225. ISSN 0162-1459. JSTOR 2290276.