설명변동

Explained variation

통계에서 설명된 변동은 주어진 데이터 집합의 변동(분산)을 수학 모형이 설명하는 비율을 측정한다. 종종 변동은 분산으로 수량화된다. 그런 다음 설명되는 보다 구체적인 용어를 사용할 수 있다.

전체 변동의 보완 부분을 설명되지 않거나 잔존 변이라고 한다.

정보 이득의 정의

더 나은 모델링에 의한 정보 이득

켄트(1983년)[1]에 이어 프레이저 정보를 사용한다([2]프레이저 1965)

where is the probability density of a random variable , and with () are two families of parametric models. 모델 패밀리 0이 간단하며, 매개변수 공간

모수는 최대우도 추정에 의해 결정된다.

모델 1에서 모델 0에 대한 정보 이득은 다음과 같이 기록된다.

편의상 2인자가 포함된 경우. γ은 항상 음성이 아니며, g(r)를 설명할 때 가족 1의 가장 좋은 모델이 가족 0의 가장 좋은 모델보다 어느 정도 나은지를 측정한다.

조건부 모델에 의한 정보 이득

2차원 랜덤 변수 =( , ) 가정하고 여기서 X는 설명 변수로, Y는 종속 변수로 간주한다. 패밀리 1의 모델은 X의 관점에서 Y를 "설명"한다.

; ) x

반면에 가족 0에서는 XY가 독립적이라고 가정한다. We define the randomness of Y by , and the randomness of Y, given X, by . 그러면

X에 의해 "설명된" 데이터 분산 비율로 해석될 수 있다.

특례 및 일반화 사용

선형 회귀 분석

설명할 수 없는 분산의 분율은 선형 회귀의 맥락에서 확립된 개념이다. 결정 계수의 일반적인 정의는 설명되는 분산에 대한 기본 개념에 기초한다.

설명된 분산 측도로서의 상관 계수

Let X be a random vector, and Y a random variable that is modeled by a normal distribution with centre . In this case, the above-derived proportion of explained variation equals the squared correlation coefficient R

강한 모형 가정에 유의하십시오. Y 분포의 중심은 X의 선형 함수여야 하며, 주어진 x경우 Y 분포는 정규 분포여야 한다. 다른 상황에서는 으로 R 을 설명된 분산 비율로 해석하는 것이 정당화되지 않는다.

주성분 분석에서

설명된 분산은 주성분 분석에서 일상적으로 사용된다. 프레이저-켄트 정보 이득과의 관계는 아직 명확히 밝혀지지 않았다.

비판

"설명된 분산"의 분율은 제곱 상관 계수 2 R과 같으므로 회귀 분석의 품질뿐만 아니라 독립적(조화) 변수의 분포를 반영하는 등 후자의 모든 단점을 공유한다.

한 비평가의 말에 의하면: "Thus R R는 회귀에 의해 '설명된 분산 백분율'을 부여하는데, 대부분의 사회과학자들에게는 미심쩍은 의미가 있지만 큰 수사학적 가치가 있다는 표현이다. 이 숫자가 크면 회귀 분석에서 적합치가 잘 나타나며, 추가 변수를 검색하는 데는 거의 의미가 없다. 다른 데이터 세트에 대한 다른 회귀 방정식은 2}}더 낮을 경우 만족도가 낮거나 힘이 덜 든다고 한다. 에 대한 어떤 것도 이러한 주장을 뒷받침하지 않는다."[3]: 58 그리고 R 가 서로 다른 두 모집단의 데이터를 공동으로 고려하는 것만으로 강화되는 예를 구성한 후, "설명된 분산"은 아무것도 설명하지 않는다.[3][page needed][4]: 183

참고 항목

참조

  1. ^ Kent, J. T. (1983). "Information gain and a general measure of correlation". Biometrika. 70 (1): 163–173. doi:10.1093/biomet/70.1.163. JSTOR 2335954.
  2. ^ Fraser, D. A. S. (1965). "On Information in Statistics". Ann. Math. Statist. 36 (3): 890–896. doi:10.1214/aoms/1177700061.
  3. ^ a b Achen, C. H. (1982). Interpreting and Using Regression. Beverly Hills: Sage. pp. 58–59. ISBN 0-8039-1915-8.
  4. ^ Achen, C. H. (1990). "'What Does "Explained Variance" Explain?: Reply". Political Analysis. 2 (1): 173–184. doi:10.1093/pan/2.1.173.

외부 링크