다중공선성

Multicollinearity

통계학에서 다중 공선성 또는 공선성회귀 모형예측 변수가 선형 종속적인 상황입니다.

완전 다중 공선성은 예측 변수정확한 선형 관계를 갖는 상황을 말합니다. 완벽한 공선성이 있는 경우 설계 X{\ X은 전체 순위보다 작으므로 모멘트 행렬 X을(를) 반전시킬 수 없습니다. 이 경우 방정식 체계에 해가 무한히 많기 때문에 회귀 분석의 모수 추정치가 잘 정의되지 않습니다.

불완전 다중 공선성은 예측 변수거의 정확한 선형 관계를 갖는 상황을 말합니다.

일반적인 생각과는 달리, 가우스-마르코프 정리일반적인 최소 제곱에 대한 더 일반적인 최대 가능성 정당화는 종속 예측[1][2][3] 변수 간의 어떤 종류의 상관 구조에도 의존하지 않습니다(완벽한 공선성이 일부 소프트웨어에 문제를 일으킬 수 있음에도 불구하고).

회귀 분석의 일환으로 공선 변수를 제거하는 관행은 정당성이 없으며,[1][4][5][6][7] 그렇게 하는 것은 과학적 위법 행위에 해당할 수 있습니다. 계량경제학자들과 통계학자들은 불완전한 공선성을 "미시수성(micronumurity)"이라고 표면적으로 언급하면서, 표본 크기가 충분하지 않은 상태에서 작업할 때만 문제가 된다고 지적했습니다.[3][4] 공선 변수를 포함한다고 해서 모형 전체의 예측력이나 신뢰도가 감소하지 않으며,[6] 계수 추정치의 정확도가 감소하지 않습니다.[1]

공선성이 높다는 것은 모든 공선 변수를 포함하는 것이 예외적으로 중요하다는 것을 의미하며, 이를 제외하면 더 나쁜 계수 추정치, 강한 교락표준 오차의 아래쪽 편향 추정치가 발생하기 때문입니다.[2]

완벽한 다중공선성

다중 공선성의 묘사

완전 다중 공선성은 예측 변수가 선형 의존적인 상황(하나는 다른 예측 변수의 정확한 선형 함수로 나타낼 수 있음)을 나타냅니다. 일반적인 최소 제곱은 행렬 을(를) 반전시켜야 합니다 여기서

× + 1) N+ 1 행렬이며, 여기서 은 관측치 수, k는 설명 변수 수, ≥ k + 1 {\geq k + 1}입니다. 독립 변수 간에 정확한 선형 관계가 있으면, 열 중 적어도 하나는 다른 열들의 선형 조합이므로 {\X}(따라서 의 순위는 + 1 k보다 작습니다 그리고 행렬 되돌릴 수 없습니다.

결의안

완전 공선성은 일반적으로 회귀 분석에 중복 변수를 포함함으로써 발생합니다. 예를 들어, 데이터 세트에는 수입, 비용 및 저축에 대한 변수가 포함될 수 있습니다. 그러나 소득은 정의상 비용과 저축과 같으므로 세 변수를 모두 동시에 회귀 분석에 포함하는 것은 잘못된 것입니다. 마찬가지로 절편 항뿐만 아니라 모든 범주(예: 여름, 가을, 겨울 및 봄)에 대한 더미 변수를 포함하면 완벽한 공선성을 얻을 수 있습니다. 이를 더미 변수 트랩이라고 합니다.[8]

완전 공선성의 또 다른 일반적인 원인은 매우 넓은 데이터 세트( 관측치보다 변수가 더 많은 데이터 세트)를 사용할 때 일반 최소 제곱을 사용하려고 시도하는 것입니다. 의미 있는 결과를 도출하기 위해서는 베이지안 계층 모델링과 같은 보다 발전된 데이터 분석 기법이 필요합니다.

선형 회귀 분석에서 참 매개변수는 = 2a = 4 {\displaystyle a_{1}= 2 which are reliably estimated in the case of uncorrelated and (black case) but are unreliably estimated when and are correlated (red case).

수치문제

때로는 변수 가 거의 공선에 가깝습니다. 이 경우 행렬 역을 갖지만 조건이 맞지 않습니다. 컴퓨터 알고리즘은 대략적인 역수를 계산할 수도 있고, 계산할 수도 있지만, 결과적인 역수는 큰 반올림 오류를 가질 수도 있습니다.

행렬에서 상태 불량의 표준 측도는 상태 지수입니다. 이것은 행렬의 반전이 유한 정밀도 숫자로 불안정한지 여부를 결정하며, 원래 행렬의 작은 변화에 대한 계산된 반전의 잠재적 민감도를 나타냅니다. 조건 번호는 최대 특이값설계 행렬의 최소 특이값으로 나눈 값으로 계산됩니다.[9] 공선 변수의 경우 분산 팽창 계수는 특정 계수의 조건 번호입니다.

솔루션

추정 시 수치 문제는 방정식을 더 정확하게 추정하기 위해 선형 대수의 표준 기법을 적용하여 해결할 수 있습니다.

  1. 예측 변수를 표준화하는 중입니다. 상호 작용 항(즉, 1× 을 포함하는 다항식 항(: x 으로 작업하면 다중 공선성이 발생할 수 있습니다 특히 문제가 되는 변수의 범위가 제한적인 경우에는 더욱 그렇습니다. 예측 변수를 표준화하면 최대 3차 다항식에 대한 이러한 특수한 종류의 다중 공선성이 제거됩니다.[10]
  2. 데이터직교 표현사용합니다.[11] 제대로 작성되지 않은 통계 소프트웨어는 변수가 강하게 상관되어 있을 때 올바른 표현으로 수렴하지 못하는 경우가 있습니다. 그러나 기저 변경을 수행하여 상관이 없는 변수만 사용하도록 회귀 분석을 다시 작성할 수 있습니다.
    • 특히 다항식 항의 경우 직교 다항식을 사용하여 상관없는 변수의 함수로 회귀를 다시 쓸 수 있습니다.

계수 추정치에 대한 영향

불완전한 공선성은 수치적 문제를 야기할 뿐만 아니라 변수의 정확한 추정을 어렵게 만듭니다. 즉, 상관 관계가 높은 변수는 추정치가 좋지 않고 표준 오차가 크다는 것입니다.

예를 들어, 앨리스가 비가 올 때마다 부츠를 신는 것과 비가 올 때는 웅덩이만 있다는 것을 우리가 알아차렸다고 합시다. 그렇다면, 우리는 그녀가 비가 발에 착지하는 것을 막기 위해 부츠를 신는지, 아니면 그녀가 웅덩이에 발을 디딜 때 발을 건조하게 유지하기 위해 신는지 알 수 없습니다.

두 변수 각각이 얼마나 중요한지 식별하려고 하면 문제는 두 변수가 서로 교락되어 있다는 것입니다. 관측치는 두 변수 중 어느 변수에 의해 동일하게 잘 설명되므로 어떤 변수가 관측된 상관 관계를 유발하는지 알 수 없습니다.

이 정보를 검색하는 방법은 두 가지입니다.

  1. 사전 정보나 이론을 사용합니다. 예를 들어, 만약 우리가 앨리스가 절대로 웅덩이에 발을 들여놓지 않는다는 것을 알아차린다면, 우리는 그녀가 웅덩이를 피하기 위해 부츠가 필요하지 않기 때문에 웅덩이가 그녀가 부츠를 신는 이유가 아니라고 합리적으로 주장할 수 있습니다.
  2. 더 많은 데이터를 수집하고 있습니다. 만약 우리가 앨리스를 충분히 관찰한다면, 우리는 결국 물웅덩이가 있지만 비가 오지 않는 날(예를 들어, 비가 집을 떠나기 전에 멈추기 때문에)에 앨리스를 보게 될 것입니다.

이러한 교락은 연구자들이 회귀 분석에서 이러한 변수를 제외함으로써 이를 무시하거나 억제하려고 할 때 훨씬 더 심해집니다(#오용 참조). 회귀 분석에서 다중 공선 변수를 제외하면 인과적 추론이 무효화되고 중요한 교란 요인이 제거되어 더 나쁜 추정치가 생성됩니다.

치료법

사전에 계획을 세워 다중 공선성이 결과에 영향을 미치는 것을 방지하는 방법은 여러 가지가 있습니다. 그러나 이러한 방법은 데이터가 수집되기 에 연구자가 절차와 분석을 결정해야 합니다(사후 분석#오용 참조).

정규추정기

많은 회귀 분석 방법은 자연적으로 다중 공선성에 대해 "강건"하며 변수가 독립적인 경우에도 일반 최소 제곱 회귀 분석보다 더 잘 수행됩니다. 리지 회귀, LASSO, 탄성회귀 또는 스파이크 앤 슬랩 회귀와 같은 정규화된 회귀 기법은 공선성의 일반적인 원인인 "무익한" 예측 변수를 포함하는 데 덜 민감합니다. 이러한 기술은 문제를 방지하기 위해 이러한 예측 변수를 자동으로 감지하고 제거할 수 있습니다. 베이지안 계층 모델(BRMS와 같은 소프트웨어에서 제공)은 데이터에서 정보를 사전에 학습하여 이러한 정규화를 자동으로 수행할 수 있습니다.

빈도수 추정의 사용으로 인한 문제가 다중 공선성과 관련된 것으로 오해되거나 오진되는 경우가 많습니다.[3] 연구자들은 종종 다중 공선성 때문이 아니라 회귀 분석에서 관련 사전 정보를 통합할 수 없기 때문에 좌절합니다. 예를 들어 계수가 "잘못된 부호" 또는 "비현실적인 값을 포함"하는 신뢰 구간을 가지고 있다는 불만 사항은 모형에 포함되지 않는 중요한 사전 정보가 있음을 나타냅니다. 정보를 사용할 수 있는 경우 베이지안 회귀 기법을 사용하여 이전 정보에 통합해야 합니다.[3]

단계적 회귀("공선" 또는 "무의미한" 변수를 제외하는 절차)는 다중 공선성에 특히 취약하며, 이에 의해 완전히 무효화되는 몇 안 되는 절차 중 하나입니다(공선성으로 인해 심하게 편향된 추정치와 무효화된 p-값이 발생함).[2]

개선된 실험설계

연구자가 예측 변수를 통제하는 실험을 수행할 때 연구자는 통계학자와 상의하여 최적의 실험 설계를 선택함으로써 공선성을 피할 수 있는 경우가 많습니다.

수락

위의 전략은 일부 상황에서 효과가 있지만 일반적으로 실질적인 효과를 발휘하지는 못합니다. 더 발전된 기술은 여전히 큰 표준 오류를 초래할 수 있습니다. 따라서 다중 공선성에 대한 가장 일반적인 응답은 "아무것도 하지 않는" 것이어야 합니다.[1] 과학적 과정은 종종 귀무적이거나 결정적이지 않은 결과를 수반합니다. 모든 실험이 연구자의 원래 가설에 대한 결정적인 확인을 제공한다는 의미에서 "성공적인" 것은 아닙니다.

Edward Leamer(에드워드 리머)는 "약한 증거 문제에 대한 해결책은 점점 더 나은 데이터입니다. 주어진 데이터 집합 내에서는 약한 증거에 대해 할 수 있는 것이 없습니다."[3] 회귀 분석 결과에 문제가 있다고 믿는 연구자는 우도 함수가 아닌 사전 확률을 살펴보아야 합니다.

Damodar Gujarati는 "우리는 [우리의 데이터]를 올바르게 받아들여야만 합니다. 때때로 관심 있는 매개 변수에 대해 그다지 정보가 되지 않습니다."[1]라고 썼습니다. Olivier Blanchard는 "다공선성은 OLS의 문제가 아니라 하나님의 뜻"이라고 말합니다.[7] 즉, 관측 데이터를 사용할 때 연구자들은 다공선성을 "수정"할 수 없고 단지 받아들입니다.

오용

분산 인플레이션 요인은 종종 단계적 회귀 분석(예: 변수 포함/배제의 경우)의 기준으로 잘못 사용되며, 이는 "논리적인 근거가 부족하지만 근본적으로 주먹구구구식으로서 오해를 불러일으킨다"는 사용입니다.[2]

공선 변수를 제외하면 표준 오차에 대한 추정치가 인위적으로 작아지지만 회귀 계수에 대한 참(추정되지 않음) 표준 오차가 줄어들지는 않습니다.[1] 분산 팽창 계수가 높은 변수를 제외하면 회귀 분석의 결과를 사후 분석으로 변환하여 계산된 표준 오차와 p-값도 무효화됩니다.[13]

공선성은 큰 표준 오차와 p-값을 초래하여 기사 게재를 더 어렵게 만들 수 있기 때문에 일부 연구자들은 상관 관계가 강한 변수를 회귀 분석에서 제거하여 불편한 데이터를 억제하려고 할 것입니다. 이 절차는 p-해킹, 데이터 준설사후 분석의 광범위한 범주에 속합니다. (유용한) 공선 예측 변수를 떨어뜨리면 일반적으로 모형 및 계수 추정치의 정확도가 악화됩니다.

마찬가지로 공선성이 "처리"할 수 있는 모델을 찾을 때까지 다양한 모델이나 추정 절차(예: 일반 최소 제곱, 능선 회귀 등)를 시도하면 포킹 경로 문제가 발생합니다. 사후 분석에서 도출된 P-값 및 신뢰 구간은 모형 선택 절차의 불확실성을 무시함으로써 무효화됩니다.

중요하지 않은 예측 변수가 결과에 거의 또는 전혀 영향을 미치지 않는 것으로 미리 알려진 경우 제외하는 것이 합리적입니다. 예를 들어, 지역 치즈 생산량을 초고층 건물의 높이를 예측하는 데 사용해서는 안 됩니다. 그러나 이 작업은 데이터를 관찰하기 전에 먼저 모형을 지정할 때 수행해야 하며, 잠재적으로 정보를 제공하는 변수를 항상 포함해야 합니다.

참고 항목

참고문헌

  1. ^ a b c d e f Gujarati, Damodar (2009). "Multicollinearity: what happens if the regressors are correlated?". Basic Econometrics (4th ed.). McGraw−Hill. pp. 363. ISBN 9780073375779.
  2. ^ a b c d Kalnins, Arturs; Praitis Hill, Kendall (13 December 2023). "The VIF Score. What is it Good For? Absolutely Nothing". Organizational Research Methods. doi:10.1177/10944281231216381. ISSN 1094-4281.
  3. ^ a b c d e Leamer, Edward E. (1973). "Multicollinearity: A Bayesian Interpretation". The Review of Economics and Statistics. 55 (3): 371–380. doi:10.2307/1927962. ISSN 0034-6535.
  4. ^ a b Giles, Dave (15 September 2011). "Econometrics Beat: Dave Giles' Blog: Micronumerosity". Econometrics Beat. Retrieved 3 September 2023.
  5. ^ Goldberger,(1964), A.S. (1964). Econometric Theory. New York: Wiley.{{cite book}}: CS1 main: 숫자 이름: 저자 목록 (링크)
  6. ^ a b Goldberger, A.S. "Chapter 23.3". A Course in Econometrics. Cambridge MA: Harvard University Press.
  7. ^ a b Blanchard, Olivier Jean (October 1987). "Comment". Journal of Business & Economic Statistics. 5 (4): 449–451. doi:10.1080/07350015.1987.10509611. ISSN 0735-0015.
  8. ^ "Dummy Variable Trap – LearnDataSci". www.learndatasci.com. Retrieved 18 January 2024.
  9. ^ Belsley, David (1991). Conditioning Diagnostics: Collinearity and Weak Data in Regression. New York: Wiley. ISBN 978-0-471-52889-0.
  10. ^ "12.6 - Reducing Structural Multicollinearity STAT 501". newonlinecourses.science.psu.edu. Retrieved 16 March 2019.
  11. ^ a b "Computational Tricks with Turing (Non-Centered Parametrization and QR Decomposition)". storopoli.io. Retrieved 3 September 2023.
  12. ^ Gelman, Andrew; Imbens, Guido (3 July 2019). "Why High-Order Polynomials Should Not Be Used in Regression Discontinuity Designs". Journal of Business & Economic Statistics. 37 (3): 447–456. doi:10.1080/07350015.2017.1366909. ISSN 0735-0015.
  13. ^ Gelman, Andrew; Loken, Eric (14 November 2013). "The garden of forking paths" (PDF). Unpublished – via Columbia.


더보기

외부 링크