다항 로지스틱 회귀 분석

Multinomial logistic regression

통계학에서 다항식 로지스틱 회귀는 로지스틱 회귀를 다중 클래스 문제(예: 세 개 이상의 이산적 결과)[1]일반화하는 분류 방법입니다.즉, 독립 변수 집합(실제 값, 이진 값, 범주 값 등)이 주어졌을 때 범주 분포 종속 변수의 다른 가능한 결과의 확률을 예측하는 데 사용되는 모델입니다.

다항 로지스틱 회귀는 폴리토머스 [2][3]LR, 멀티클래스 LR, 소프트맥스 회귀, 다항 로짓(mlogit), 최대 엔트로피(MaxEnt) 분류기 및 조건부 최대 엔트로피 [4]모델을 포함한 다양한 이름으로 알려져 있습니다.

배경

다항 로지스틱 회귀 분석은 해당 종속 변수명목형이고(따라서 범주형이며, 의미 있는 방식으로 정렬할 수 없는 범주 집합 중 하나에 속함을 의미함) 범주가 세 개 이상인 경우에 사용됩니다.예를 들어 다음과 같습니다.

  • 대학생은 성적, 호불호 등을 고려하여 어떤 전공을 선택할 것인가?
  • 여러 가지 진단 결과를 봤을 때 어떤 혈액형을 가지고 있습니까?
  • 핸즈프리 휴대전화 다이얼 어플리케이션에서 음성 신호의 다양한 특성을 고려할 때 어떤 사람의 이름이 사용되었는가?
  • 특정 인구통계학적 특성을 고려할 때 어떤 후보에게 투표할 것인가?
  • 기업 및 다양한 후보국의 특성을 고려할 때 사무소를 어느 나라에 둘 것인가?

이것들은 모두 통계 분류 문제입니다.이러한 변수에는 모두 유의하게 정렬할 수 없는 제한된 항목 집합 중 하나에서 예측되는 종속 변수와 종속 변수를 예측하는 데 사용되는 독립 변수 집합(기능, 설명자 등)이 있습니다.다항 로지스틱 회귀 분석은 관측된 특징과 일부 문제별 모수의 선형 조합을 사용하여 종속 변수의 각 특정 값의 확률을 추정하는 분류 문제에 대한 특정 솔루션입니다.특정 문제에 대한 매개 변수의 최선의 값은 대개 일부 훈련 데이터(예: 진단 테스트 결과와 혈액형을 모두 알고 있는 일부 사람 또는 알려진 단어가 사용되는 일부 예)에서 결정된다.

전제 조건

다항 로지스틱 모형에서는 데이터가 사례별로 다르다고 가정합니다. 즉, 각 독립 변수는 사례별로 단일 값을 가집니다.또한 다항 로지스틱 모형에서는 종속 변수를 독립 변수로부터 어떤 경우에도 완벽하게 예측할 수 없다고 가정합니다.다른 유형의 회귀 분석과 마찬가지로 독립 변수들이 서로 통계적으로 독립적일 필요는 없다(를 들어 순진한 베이즈 분류기와는 달리). 그러나 그렇지 [5]않을 경우 여러 변수의 영향을 구별하기가 어려워지기 때문에 공선성은 상대적으로 낮은 것으로 가정한다.

다항 로짓이 선택지를 모델링하는 데 사용되는 경우, 관련 없는 대안(IIA)의 독립성 가정에 의존하며, 이는 항상 바람직한 것은 아니다.이 가정은 한 클래스를 다른 클래스보다 선호할 확률은 다른 "관련되지 않은" 대안의 유무에 의존하지 않는다고 기술한다.예를 들어, 자전거가 추가될 경우 자동차나 버스를 타고 출근할 확률은 변하지 않습니다.이를 통해 K 대안의 선택을 K-1의 독립적인 이진법 선택 집합으로 모델링할 수 있습니다. 여기서 한 가지 대안은 "피봇"으로 선택되고 다른 한 가지 대안은 이에 대해 한 번에 하나씩 비교된다.IIA 가설은 합리적인 선택 이론의 핵심 가설이다; 그러나 심리학에서의 많은 연구들은 개인들이 선택을 할 때 종종 이 가정을 위반한다는 것을 보여준다.차량 및 파란색 버스를 선택할 경우 문제 사례의 예가 발생합니다.두 버스 사이의 승산비가 1:1이라고 가정합니다. 이제 빨간색 버스 옵션이 도입되면 사람은 빨간색과 파란색 버스 사이에 무관심해질 수 있습니다. 따라서 차량: 파란색 버스: 빨간색 버스 승산비가 1:0.5:0.5로 나타나며, 변경된 차량: 파란색 버스:0.5의 비율을 유지할 수 있습니다.사실 버스 선택권은 무관하지 않았다. 왜냐하면 빨간색 버스는 파란색 버스를 완벽하게 대체했기 때문이다.

다항 로짓이 선택지를 모델링하기 위해 사용되는 경우, 어떤 상황에서는 다른 대안들 사이의 상대적 선호도에 너무 많은 제약을 가할 수 있다.이 점은 분석이 하나의 대안이 사라지면 어떻게 선택이 바뀔지 예측하는 것을 목표로 한다면 특히 고려해야 할 점이다(예를 들어 한 명의 정치 후보가 세 명의 후보 경선에서 기권하는 경우).중첩된 로짓이나 다항 프로빗과 같은 다른 모델은 IIA [6]위반을 허용하는 경우에 사용될 수 있습니다.

모델

서론

다항 로지스틱 회귀 분석의 기초가 되는 수학적 모형을 설명하는 방법은 여러 가지가 있습니다.이것은 다른 텍스트에서 주제에 대한 다른 치료법을 비교하는 것을 어렵게 만들 수 있다.로지스틱 회귀에 대한 기사에서는 단순 로지스틱 회귀의 등가 공식을 다수 제시하고 있으며, 이들 중 다항 로지트 모형에는 유추된 것이 많다.

다른 많은 통계 분류 기법과 마찬가지로, 이 모든 것의 배후에 있는 아이디어는 도트 곱을 사용하여 주어진 관측치의 설명 변수(특징)와 선형적으로 결합된 가중치 집합에서 점수를 구성하는 선형 예측 함수를 구성하는 것이다.

여기i X는 관측치 i를 설명하는 설명 변수의 벡터이고k, β는 결과 k에 해당하는 가중치(또는 회귀 계수)의 벡터이며, 점수i(X, k)는 관측치 i를 범주 k에 할당하는 것과 관련된 점수이다.관측치가 사람을 나타내고 결과가 선택을 나타내는 이산 선택 이론에서 점수결과 k를 선택하는 개인 i와 관련된 효용으로 간주된다.예상 결과는 가장 높은 점수를 받은 결과입니다.

다항 로짓 모델과 동일한 기본 설정(퍼셉트론 알고리즘, 지원 벡터 기계, 선형 판별 분석 등)을 가진 다른 수많은 방법, 모델, 알고리즘 등의 차이는 최적의 가중치/계수를 결정(훈련)하는 절차이며 점수가 해석되는 방식이다.특히 다항 로짓 모델에서는 스코어를 확률값으로 직접 변환할 수 있어 관측치의 측정된 특성에 따라 관측치 i가 결과 k를 선택할 확률을 나타낸다.이것은 특정 다항 로짓 모델의 예측을 각각 오류 가능성이 있는 여러 개의 그러한 예측을 수반할 수 있는 더 큰 절차에 통합하는 원칙적인 방법을 제공한다.이러한 예측의 결합 수단이 없으면 오차가 증가하는 경향이 있습니다.예를 들어, 일련의 서브모델로 분할된 대형 예측 모델을 가정해 보겠습니다.여기서 특정 서브모델의 예측이 다른 서브모델의 입력으로 사용되고 그 예측이 제3 서브모델로의 입력으로 사용됩니다.각 하위 모형의 예측 정확도가 90%이고 직렬로 5개의 하위 모형이 있는 경우 전체 모형의 정확도는 0.95 = 59%에 불과합니다.각 하위 모형의 정확도가 80%이면 전체 정확도가 05.8 = 33% 정확도로 떨어집니다.이 문제는 오류 전파로 알려져 있으며, 실제 예측 모델에서 심각한 문제입니다. 예측 모델은 대개 여러 부분으로 구성됩니다.단순히 단일 최적 예측을 하는 것이 아니라 가능한 각 결과의 확률을 예측하는 것이 [citation needed]이 문제를 완화하는 한 가지 방법입니다.

세우다

기본 설정은 로지스틱 회귀 분석과 동일하며, 유일한 차이점은 종속 변수가 이항 변수아닌 범주형이라는 것입니다. 즉, 두 개 대신 K개의 가능한 결과가 있습니다.다음 설명은 다소 축약되어 있습니다. 자세한 내용은 로지스틱 회귀 문서를 참조하십시오.

데이터 포인트

특히 일련의 N개의 관측된 데이터 점이 있다고 가정합니다.각 데이터 i(1부터 N까지)는M,i M개의 설명 변수1,i x ... x(독립 변수, 예측 변수, 특징 등)와 K개의 가능한 값 중 하나를 취할 수 있는 관련 범주형 결과i Y(독립 변수, 반응 변수 등)로 구성됩니다.이러한 가능한 값은 논리적으로 분리된 범주(예: 서로 다른 정당, 혈액형 등)를 나타내며, 종종 각 범주마다 1부터 K까지의 숫자를 임의로 할당하여 수학적으로 기술된다.설명 변수와 결과는 데이터 포인트의 관측된 특성을 나타내며, 종종 N개의 "실험"의 관측에서 비롯되었다고 생각됩니다. 그러나 "실험"은 데이터를 수집하는 것만으로 구성될 수 있습니다.다항 로지스틱 회귀 분석의 목적은 설명 변수와 결과 사이의 관계를 설명하는 모형을 구성하여 결과가 아닌 설명 변수를 사용할 수 있는 새로운 데이터 점에 대해 새로운 "실험"의 결과를 정확하게 예측할 수 있도록 하는 것입니다.이 과정에서 모형은 결과에 대한 서로 다른 설명 변수의 상대적 영향을 설명하려고 합니다.

몇 가지 예:

  • 관찰된 결과는 일련의 환자에서 간염과 같은 질병의 다른 변종(아마도 "질병 없음" 및/또는 기타 관련 질병 포함)이며, 설명 변수는 관련이 있다고 생각되는 환자의 특성(성별, 인종, 나이, 혈압, 다양한 간 기능 테스트 결과 등)일 수 있다.그 다음 목표는 새로운 환자에게서 관찰된 간 관련 증상을 일으키는 질병을 예측하는 것이다.
  • 관찰된 결과는 선거에서 사람들이 선택한 정당이며, 설명 변수는 각 개인의 인구통계학적 특성(예: 성별, 인종, 나이, 소득 등)이다.그 다음 목표는 주어진 특성을 가진 새로운 유권자의 투표 가능성을 예측하는 것이다.

선형 예측 변수

다른 형태의 선형 회귀 분석과 마찬가지로 다항식 로지스틱 회귀 분석에서는 선형 예측 f (,i ) { f 사용하여 관측치 i가 다음과 같은 형식의 결과 k를 가질 확률을 예측합니다.

m , (\ _ m번째 설명 변수 및 k번째 결과와 관련된 회귀 계수입니다.로지스틱 회귀 분석 기사에 설명된 대로 회귀 계수와 설명 변수는 일반적으로 크기가 M+1인 벡터로 그룹화되어 예측 함수를 보다 간략하게 작성할 수 있습니다.

k{\{\{\ 결과 k와 된 회귀 계수 집합이고 x i {\displaystyle \ {} _i}(행 벡터)는 관측 i와 관련된 설명 변수 집합이다.

독립적인 이항 회귀 분석 집합으로서

다항 로짓 모델에 도달하기 위해서는 K개의 가능한 결과에 대해 하나의 결과를 "피봇"으로 선택한 다음 다른 K-1 결과를 피벗 결과에 대해 별도로 회귀시키는 K-1 독립 이항 로지스틱 회귀 모델을 실행하는 것을 상상할 수 있다.결과 K(마지막 결과)를 피벗으로 선택하면 다음과 같이 진행됩니다.

이 공식은 구성 데이터 분석에서 일반적으로 사용되는 alr 변환이라고도 합니다.각 가능한 결과에 대해 하나씩 별도의 회귀 계수 세트를 도입했습니다.

양변을 지수화하고 확률을 구하면 다음과 같은 결과를 얻을 수 있습니다.

모든 K의 확률이 1이 되어야 한다는 사실을 사용하여 다음과 같은 사실을 알 수 있습니다.

이를 통해 다른 가능성을 찾을 수 있습니다.

여기서 합계는 11)부터(\까지 또는 일반적으로 다음과 같습니다.

KK})는 0으로 정의됩니다.우리가 여러 개의 회귀를 실행한다는 사실은 왜 모델이 위에서 설명한 무관한 대안들의 독립성 가정에 의존하는지를 드러낸다.

계수 추정

각 벡터 βk의 미지의 변수들 일반적으로 공동으로 최대 최대 가능성의 연장이라는 병적 해결책을 막기 위해 무게의 조절은 지..지에 대한zero-mean 가우스 사전 분포를 배치하는 것 같다(보통 제곱 regularizing 기능 사용한 경험적(MagrebArabePresse마그레브 아랍 통신)평가, 추정된다e다른 배포도 가능합니다.)솔루션은 일반적으로 L-BFGS와 같은 경사 기반 최적화 알고리즘 또는 특수 좌표 강하 알고리즘에 의해 [9]일반화된 반복 [7]스케일링, 반복적 재가중 최소 제곱([8]IRLS)[4]같은 반복적 절차를 사용하여 찾을 수 있다.

로그 선형 모델로서

이항 로지스틱 회귀 분석을 로그-선형 모형으로 공식화하면 다원 회귀 분석으로 직접 확장할 수 있습니다.즉, 선형 예측 변수와 분할 함수의 로그인 추가 정규화 계수를 사용하여 주어진 출력을 볼 확률의 대수를 모델링한다.

바이너리 케이스와 마찬가지로 전체 확률 집합이 확률 분포를 형성하도록 하기 위해 추가 용어 in Z(\ Z 필요합니다. 즉, 모든 확률이 1이 되도록 합니다.

통상대로 곱하는 것이 아니라 정규화를 확실히 하기 위해 항을 추가해야 하는 이유는 확률의 대수를 취했기 때문입니다.양쪽을 지수화하면 가법 항이 곱셈 인수로 바뀌므로 확률은 Gibbs 측도에 불과합니다.

수량 Z를 분포에 대한 분할 함수라고 합니다.모든 확률을 1로 합해야 하는 위의 제약 조건을 적용하여 파티션 함수의 값을 계산할 수 있습니다.

그 때문에,

이 인자는 확률 분포를 정의하는 변수인 Yi 함수가 아니라는 점에서 "상수"입니다.그러나 설명 변수에 관해서는, 또는 미지의 회귀 계수k β에 관해서는, 확실히 일정하지 않으며, 이것은 우리가 일종의 최적화 절차를 통해 결정해야 한다.

확률에 대한 결과 방정식은 다음과 같습니다.

또는 일반적으로:

다음 기능:

는 softmax 함수라고 불립니다. 이유는 x1, n(\ 지수화하는 효과가 이들 값의 차이를 과장하기 때문입니다.그 결과 ( , , , n { ( , x1} , \, x _ { } )는 k { x { 가 모든 값의 최대값보다 훨씬 작을 마다 0에 가까운 값을 반환하고 최대값으로 적용하지 않는 한 1에 가까운 값을 반환합니다.두 번째로 큰 값에 근접했습니다.따라서 softmax 함수를 사용하여 평활함수(편리하게 미분할 수 있는 등)로 동작하고 지표함수에 근사한 가중평균을 구성할 수 있다.

따라서, 우리는 확률식을 다음과 같이 쓸 수 있다.

따라서 소프트맥스 함수는 이항 로지스틱 회귀 분석에서 로지스틱 함수와 동등한 역할을 합니다.

계수의 모든 k \ _ 고유하게 식별되는 것은 아닙니다.이는 모든 확률이 1이 되어야 하고, 나머지를 모두 알게 되면 그 중 하나가 완전히 결정된다는 사실에 기인한다. 결과 k- \ k -1 \ displaystyle k - 1 \ k -\ displaystyle k - 1 \ 계수의 벡터만 으로 식별할 수 있습니다.이를 확인할 수 있는 한 가지 방법은 모든 계수 벡터에 상수 벡터를 추가하면 방정식이 동일하다는 것입니다.

C - K (\ C=-{\{\displaystyleK} (또는 다른 계수 벡터 중 하나)로 하는 것이 일반적이다.기본적으로, 우리는 상수를 설정하여 벡터 중 하나가 0이 되도록 하고, 다른 모든 벡터는 벡터와 우리가 선택한 벡터 사이의 차이로 변환됩니다.이는 K 선택지 중 하나를 중심으로 "피팅"하고 다른 모든 K-1 선택지가 우리가 피벗하고 있는 선택지와 비교하여 얼마나 더 나은지 또는 나쁜지를 조사하는 것과 같습니다.수학적으로 계수를 다음과 같이 변환합니다.

그 결과 다음과 같은 방정식이 도출됩니다.

회귀 계수의 소수 기호를 제외하면 K-1 독립적 이원 회귀 분석 측면에서 위에서 설명한 모형의 형태와 정확히 동일합니다.

잠재 변수 모델로서

이항 로지스틱 회귀 분석에 대해 설명된 이원 잠복 변수 모형을 따라 다항 로지스틱 회귀 분석을 잠재 변수 모형으로 공식화할 수도 있습니다.이 공식은 이산 선택 모형 이론에서 흔히 볼 수 있으며, 다항 로지스틱 회귀를 더 복잡한 모형으로 확장할 뿐만 아니라 관련 다항 프로빗 모형과 더 쉽게 비교할 수 있습니다.

각 데이터 지점 i와 가능한 결과 k=1,2,....,K에 대해 다음과 같이 분포된 연속 잠복 변수i,k* Y(즉, 관측되지 않은 랜덤 변수)가 있다고 가정하자.

k ~ 1 ( , {\ _ 표준 유형 1 극단값 분포입니다.

이 잠재 변수는 데이터 포인트 i 선택 결과 k와 관련된 효용으로 생각할 수 있다. 여기서 실제로 얻은 효용 양에 무작위성이 있으며, 이는 선택에 들어가는 다른 비변조 요인을 설명한다.실제 값({})은 이러한 잠재 변수(즉, 무작위성이 관측 결과에서 잠재 변수로 이동됨)에서 랜덤하지 않은 방식으로 결정된다. 여기서 결과 k는 관련 효용( i 의 값)인 경우에만 선택된다.는 다른 모든 선택지의 효용보다 큽니다.즉, 결과 k와 관련된 효용이 모든 효용 중 최대값인 경우입니다.잠재 변수가 연속형이기 때문에 두 변수가 정확히 같은 값을 가질 확률은 0이므로 시나리오를 무시합니다.즉, 다음과 같습니다.

또는 동등하게:

첫 번째 방정식을 좀 더 자세히 살펴보겠습니다.첫 번째 방정식은 다음과 같이 쓸 수 있습니다.

여기서 몇 가지 깨달아야 할 것이 있습니다.

  1. 으로X ~ 1 ( ,) { X \ { ( , ) y ~ 1( , b) ( \sim \ } _ { _ { { {1} ( , ) ) 、 Rogistics } 즉, 동일한 분포의 극단값 분포 변수 두 개의 차이가 첫 번째 모수가 중요하지 않은 로지스틱 분포를 따릅니다이는 첫 번째 모수가 위치 모수이기 때문에 이해할 수 있습니다. 즉, 평균이 고정된 양만큼 이동하며 두 값이 모두 동일한 양만큼 이동하면 차이가 동일하게 유지됩니다.즉, 주어진 선택의 확률에 기초하는 모든 관계 문장이 로지스틱 분포를 포함하므로 다소 임의적으로 보였던 극단값 분포의 초기 선택이 다소 이해하기 쉬워집니다.
  2. 극단값 분포 또는 로지스틱 분포의 두 번째 모수는 척도 모수이며,X- ( ,) { }이면B -로지스틱 ( , ). { { } ( , 1.} 즉, 척도 1 대신에 임의의 척도 매개변수를 갖는 오차변수를 이용하여 모든 회귀 벡터에 동일한 척도를 곱하는 것만으로 그 효과를 보상할 수 있다이는 이전 점과 함께 오차 변수에 표준 극단값 분포(위치 0, 척도 1)를 사용해도 임의 극단값 분포를 사용할 때보다 일반성이 손실되지 않음을 나타냅니다.실제로 일반 분포를 사용할 경우 모형을 식별할 수 없습니다(최적 계수의 단일 집합은 없음).
  3. 회귀 계수의 벡터 차이만 사용되므로 모든 계수 벡터에 임의 상수를 더해도 모형에 영향을 미치지 않습니다.즉, 로그 선형 모델에서와 마찬가지로 계수 벡터 중 K-1만 식별할 수 있으며 마지막 벡터는 임의의 값(예: 0)으로 설정할 수 있습니다.

실제로 위의 확률의 값을 찾는 것은 다소 어려우며, 일련의 값에 대한 특정 순서 통계량(첫 번째, 즉 최대)을 계산하는 문제이다.그러나 결과 표현은 위의 공식과 동일하다는 것을 보여줄 수 있다. 즉, 두 표현은 동일하다.

절편 추정

다항 로지스틱 회귀 분석을 사용하는 경우 종속 변수의 범주 하나가 기준 범주로 선택됩니다.분석에서 제외되는 기준 범주를 제외하고 종속 변수의 각 범주에 대한 모든 독립 변수에 대해 별도의 승산비가 결정됩니다.지수 베타 계수는 특정 범주와 기준 범주의 종속 변수의 오즈의 변화를 나타내며, 해당 독립 변수의 한 단위 변화와 관련이 있습니다.

자연어 처리에서의 응용

자연어 처리에서 다항식 LR 분류자는 예측 변수 역할을 하는 랜덤 변수(일반적으로 특징이라고 알려진)의 통계적 독립성을 가정하지 않기 때문에 Naigive Bayes 분류자의 대안으로 일반적으로 사용됩니다.그러나 그러한 모델에서 학습하는 것은 순진한 베이즈 분류자보다 느리기 때문에 학습해야 할 클래스가 매우 많기 때문에 적절하지 않을 수 있다.특히, Naigve Bayes 분류기에서 학습하는 것은 특징과 클래스의 동시 발생 수를 세는 간단한 문제이지만, 최대 엔트로피 분류기에서 일반적으로 최대 사후(MAP) 추정을 사용하여 최대화된 가중치를 반복 절차를 사용하여 학습해야 한다. #계수 추정 참조.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Greene, William H. (2012). Econometric Analysis (Seventh ed.). Boston: Pearson Education. pp. 803–806. ISBN 978-0-273-75356-8.
  2. ^ Engel, J. (1988). "Polytomous logistic regression". Statistica Neerlandica. 42 (4): 233–252. doi:10.1111/j.1467-9574.1988.tb01238.x.
  3. ^ Menard, Scott (2002). Applied Logistic Regression Analysis. SAGE. p. 91.
  4. ^ a b Malouf, Robert (2002). A comparison of algorithms for maximum entropy parameter estimation (PDF). Sixth Conf. on Natural Language Learning (CoNLL). pp. 49–55.
  5. ^ Belsley, David (1991). Conditioning diagnostics : collinearity and weak data in regression. New York: Wiley. ISBN 9780471528890.
  6. ^ Baltas, G.; Doyle, P. (2001). "Random Utility Models in Marketing Research: A Survey". Journal of Business Research. 51 (2): 115–125. doi:10.1016/S0148-2963(99)00058-2.
  7. ^ Darroch, J.N. & Ratcliff, D. (1972). "Generalized iterative scaling for log-linear models". The Annals of Mathematical Statistics. 43 (5): 1470–1480. doi:10.1214/aoms/1177692379.
  8. ^ Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer. pp. 206–209.
  9. ^ Yu, Hsiang-Fu; Huang, Fang-Lan; Lin, Chih-Jen (2011). "Dual coordinate descent methods for logistic regression and maximum entropy models" (PDF). Machine Learning. 85 (1–2): 41–75. doi:10.1007/s10994-010-5221-8.