설명변동
Explained variation통계에서 설명된 변동은 주어진 데이터 집합의 변동(분산)을 수학 모형이 설명하는 비율을 측정한다. 종종 변동은 분산으로 수량화된다. 그런 다음 설명되는 보다 구체적인 용어를 사용할 수 있다.
전체 변동의 보완 부분을 설명되지 않거나 잔존 변이라고 한다.
정보 이득의 정의
더 나은 모델링에 의한 정보 이득
켄트(1983년)[1]에 이어 프레이저 정보를 사용한다([2]프레이저 1965)
where is the probability density of a random variable , and with () are two families of parametric models. 모델 패밀리 0이 간단하며, 매개변수 공간 ⊂
모수는 최대우도 추정에 의해 결정된다.
모델 1에서 모델 0에 대한 정보 이득은 다음과 같이 기록된다.
편의상 2인자가 포함된 경우. γ은 항상 음성이 아니며, g(r)를 설명할 때 가족 1의 가장 좋은 모델이 가족 0의 가장 좋은 모델보다 어느 정도 나은지를 측정한다.
조건부 모델에 의한 정보 이득
2차원 랜덤 변수 =( , ) 을 가정하고 여기서 X는 설명 변수로, Y는 종속 변수로 간주한다. 패밀리 1의 모델은 X의 관점에서 Y를 "설명"한다.
- ; ) x
반면에 가족 0에서는 X와 Y가 독립적이라고 가정한다. We define the randomness of Y by , and the randomness of Y, given X, by . 그러면
X에 의해 "설명된" 데이터 분산 비율로 해석될 수 있다.
특례 및 일반화 사용
선형 회귀 분석
설명할 수 없는 분산의 분율은 선형 회귀의 맥락에서 확립된 개념이다. 결정 계수의 일반적인 정의는 설명되는 분산에 대한 기본 개념에 기초한다.
설명된 분산 측도로서의 상관 계수
Let X be a random vector, and Y a random variable that is modeled by a normal distribution with centre . In this case, the above-derived proportion of explained variation equals the squared correlation coefficient R
강한 모형 가정에 유의하십시오. Y 분포의 중심은 X의 선형 함수여야 하며, 주어진 x의 경우 Y 분포는 정규 분포여야 한다. 다른 상황에서는 으로 R 을 설명된 분산 비율로 해석하는 것이 정당화되지 않는다.
주성분 분석에서
설명된 분산은 주성분 분석에서 일상적으로 사용된다. 프레이저-켄트 정보 이득과의 관계는 아직 명확히 밝혀지지 않았다.
비판
"설명된 분산"의 분율은 제곱 상관 계수 2 R과 같으므로 회귀 분석의 품질뿐만 아니라 독립적(조화) 변수의 분포를 반영하는 등 후자의 모든 단점을 공유한다.
한 비평가의 말에 의하면: "Thus R R는 회귀에 의해 '설명된 분산 백분율'을 부여하는데, 대부분의 사회과학자들에게는 미심쩍은 의미가 있지만 큰 수사학적 가치가 있다는 표현이다. 이 숫자가 크면 회귀 분석에서 적합치가 잘 나타나며, 추가 변수를 검색하는 데는 거의 의미가 없다. 다른 데이터 세트에 대한 다른 회귀 방정식은 2}}더 낮을 경우 만족도가 낮거나 힘이 덜 든다고 한다. 에 대한 어떤 것도 이러한 주장을 뒷받침하지 않는다."[3]: 58 그리고 R 가 서로 다른 두 모집단의 데이터를 공동으로 고려하는 것만으로 강화되는 예를 구성한 후, "설명된 분산"은 아무것도 설명하지 않는다.[3][page needed][4]: 183
참고 항목
참조
- ^ Kent, J. T. (1983). "Information gain and a general measure of correlation". Biometrika. 70 (1): 163–173. doi:10.1093/biomet/70.1.163. JSTOR 2335954.
- ^ Fraser, D. A. S. (1965). "On Information in Statistics". Ann. Math. Statist. 36 (3): 890–896. doi:10.1214/aoms/1177700061.
- ^ a b Achen, C. H. (1982). Interpreting and Using Regression. Beverly Hills: Sage. pp. 58–59. ISBN 0-8039-1915-8.
- ^ Achen, C. H. (1990). "'What Does "Explained Variance" Explain?: Reply". Political Analysis. 2 (1): 173–184. doi:10.1093/pan/2.1.173.