스플리어스

Spurious relationship
매개자는 인과 사슬의 인자 (1)인 반면, 교란 인자는 인과 관계를 잘못 암시하는 스플리어스 인자 (2)

통계학에서, 유사 관계 또는 유사 상관관계[1][2] 우연 또는 보이지 않는 특정 세 번째 요인("공통 반응 변수", "교란 요인" 또는 "유사 변수"라고 함)의 존재로 인해 둘 이상의 사건이나 변수가 연관되어 있지만 인과 관계가 없는 수학적 관계이다.

유사 관계의 예는 시계열 문헌에서 찾을 수 있으며, 여기서 유사 회귀는 독립 비정상 변수 간의 선형 관계에 대한 잘못된 통계 증거를 제공하는 회귀입니다.사실 비정상성은 두 [3][4]변수 모두에 단위 루트가 존재하기 때문일 수 있습니다.특히, 두 명목경제변수는 각각이 실제 변수에 물가수준을 곱한 것과 같으며, 두 데이터 계열에서 가격수준의 공통적인 존재는 상관관계를 부여하기 때문에 서로 인과관계가 없는 경우에도 서로 상관관계가 있을 가능성이 높다.(비율의 유사 상관 관계도 참조).

가짜 관계의 또 다른 예는 도시의 아이스크림 판매를 조사함으로써 볼 수 있다.시내 수영장에서 익사하는 비율이 가장 높을 때 매출이 가장 높을 수 있습니다.아이스크림 판매가 익사 또는 그 반대라고 주장하는 것은 둘 사이의 거짓된 관계를 암시하는 것이다.실제로는 폭염이 둘 다 원인일 수 있다.폭염은 숨겨진 변수 또는 보이지 않는 변수의 한 예입니다. 교란 변수라고도 합니다.

흔히 볼 수 있는 또 다른 예는 일련의 샘에 둥지를 틀고 있는 황새의 수와 그 당시에 태어난 인간의 아기 수 사이에 양의 상관관계를 보여주는 일련의 네덜란드 통계이다.물론 인과관계는 없었다; 그들은 [5]단지 관측 9개월 전의 날씨와 상관관계가 있었기 때문에 서로 상관관계가 있었다.

워싱턴 레드스킨스 프로축구팀대선 전 특정 경기에서의 성공과 현직 대통령의 정당의 선거에서의 성공 사이의 경우처럼 전혀 관련이 없는 두 변수 사이에 희한한 관계가 발생할 수 있다.1940년부터 2000년까지 16번 연속 선거에서 레드스킨스 규칙은 현직 대통령의 정당이 대통령직을 유지할 것인지 아니면 상실할 것인지를 정확하게 일치시켰다.이 규칙은 2000년 엘리아스 스포츠 사무국이 상관관계를 발견한 직후에 결국 실패했다; 2004년, 2012년, 2016년, 레드스킨스 경기와 선거 결과는 [6][7][8]일치하지 않았다.1970년대 National Football League와 관련된 유사한 가짜 관계에서 Leonard Koppett은 주식 시장의 방향과 그 해 슈퍼볼의 우승 회의 사이의 상관관계를 언급했다; 그 관계는 더 많은 무작위 행동으로 돌아가기 전에 20세기 동안 유지되었다.21일에도.[9]

가설 검정

종종 두 변수 사이에 상관 관계가 없다는 귀무 가설을 검정하고, 귀무 가설이 참인 경우 데이터 표본에서 계산된 상관 관계가 5% 미만의 데이터 표본에서 발생할 경우 가설을 기각하도록 미리 선택합니다.실제 귀무 가설은 95%의 시간 동안 받아들여지지만, 상관 관계가 0인 실제 귀무 가설이 있는 나머지 5%의 시간은 잘못 거부되어 가짜 상관 관계를 받아들이게 됩니다(타입 I 오류라고도 함).여기서 표본의 스플리어스 상관관계는 기초 모집단의 실제 특성을 반영하지 않는 표본의 무작위 선택에서 비롯되었다.

스플리어스 관계 검출

"이상한 관계"라는 용어는 통계학 및 특히 직접적인 인과 관계를 이해하고 예측하기 위해 시도되는 실험 연구 기법에 일반적으로 사용된다(X → Y).양쪽(W → X 및 W → Y)의 원인이 되는 선행물질에 의해 비결정적 상관관계가 충동적으로 생성될 수 있다.매개 변수(X → W → Y)는 검출되지 않을 경우 매개 변수 M에 대한 조정 없이 직접 효과보다는 총 효과를 추정한다.이 때문에 실험적으로 식별된 상관관계는 가짜 관계를 배제할 수 없는 한 인과관계를 나타내지 않는다.

실험

실험에서 스플리어스 관계는 이론적으로 가능한 교란 인자로 식별된 요인을 포함하여 다른 요인을 제어함으로써 종종 확인할 수 있다.예를 들어, 신약이 박테리아를 죽인지 여부를 확인하려는 연구자를 생각해 보십시오. 연구자가 박테리아 배양에 약을 적용하면 박테리아가 죽습니다.그러나 교란 변수의 존재를 배제하기 위해, 다른 배양물은 첫 번째 배양물과 가능한 한 동일한 조건에 노출되지만, 두 번째 배양물은 약물에 노출되지 않습니다.이러한 조건에 보이지 않는 교란 요인이 있는 경우, 이 대조군 배양도 함께 사망하기 때문에 첫 번째 배양 결과로부터 약물의 효능에 대한 결론을 도출할 수 없다.반면 통제배양이 죽지 않으면 약효가 있다는 가설을 거부할 수 없다.

비실험 통계 분석

경제학처럼 데이터가 대부분 실험적이지 않은 분야에서는 일반적으로 인과 관계를 설정하기 위해 관측 데이터를 사용합니다.경제학에서 사용되는 통계기법의 주체는 계량경제학이라고 불린다.계량경제학의 주요 통계 방법은 다변수 회귀 분석이다.일반적으로 다음과 같은 선형 관계

에서 j, 가정되나 y{이\displaystyle}은 종속 변수(그 인한 변수가 될 가설),)j{\displaystyle x_{j}})1,...,, k는jth 독립 변수(는 원인이 되는 변수 가설), 그리고 e{\displaystyle e}은 오류 기간( 다른 모든 c의 복합적인 결과가 들어 있는에 따라.포함된 독립 변수와 상관되지 않아야 합니다.) j) 중 y에 의한 이 없다고 생각되는 이유가 있는 경우 추정치를 얻을 수 있습니다. }=이라는 귀무 가설이 기각될 경우 j 0(\}\ 0j(\})가 y를 유발한다는 대체 가설은 기각될 수 없습니다.한편, }=이라는 귀무 가설을 기각할 수 없다면, 마찬가지로 y에 대한 xj(\j})의 인과관계가 없다는 가설을 기각할 수 없다.여기서 인과관계라는 개념은 기여원인 중 하나이다. j0({j}\인 경우 x 변경은 회귀에 포함되거나 오류항에 암묵적으로 포함된 다른 원인 변수가 영향을 완전히 상쇄하는 방식으로 변경되지 않는 한 y변경이 발생합니다. 따라서 j({})의 변경은 변화합니다. y를 변경하기에 충분하지 않습니다.마찬가지로 y를 변경하기 위해 변경이 필요하지 않습니다. y의 변화는 오차항(또는 모델에 포함된 다른 원인 설명 변수)에 의해 발생할 수 있기 때문입니다.

회귀 분석 - 다른 관련 변수를 회귀 분석 변수(설명 변수)로 포함시켜 제어합니다.이것은 잠재적인 원인 변수와 잠재적으로 발생한 변수 모두에 영향을 미치는 세 번째 기초 변수의 존재로 인한 인과 관계의 잘못된 추론을 피하는 데 도움이 된다. 잠재적 원인 변수에 대한 영향은 회귀에 직접 포함시킴으로써 포착되므로 효과가 스푸리우로 포착되지 않는다.s 관심의 잠재적 원인 변수의 영향.또한 다변량 회귀 분석을 사용하면 예를 들어1 x의 간접 효과(1: x2x → y)가 직접1 효과(x → y)라고 잘못 추론하는 것을 방지할 수 있습니다.

실험자가 모든 교란 요인을 제어하는 실험 설계를 사용하는 데 주의해야 하는 것처럼 다중 회귀 분석 사용자도 회귀 분석 요인 사이에 교란 요인을 포함하여 모든 교란 요인을 제어하도록 주의해야 합니다.회귀 분석에서 교란 요인이 생략되면 그 효과는 기본적으로 오차항에 포착되며, 결과 오차항이 포함된 회귀 분석기 중 하나 이상과 상관되어 있으면 추정된 회귀 분석 결과가 치우치거나 일관성이 없을 수 있습니다(누락된 변수 치우침 참조).

회귀 분석 외에도 데이터를 조사하여 그레인저 인과 관계가 존재하는지 여부를 확인할 수 있습니다.그레인저 인과관계가 있는 것은 x가 y보다 에 있고 x가 y에 대한 고유한 정보를 포함하고 있음을 나타냅니다.

기타 관계

통계분석에는 다음과 같이 정의된 몇 가지 다른 관계가 있다.

「 」를 참조해 주세요.

각주

  1. ^ 번즈, 윌리엄 C., "스플리어스 상관", 1997.
  2. ^ Pearl, Judea. "UCLA 81st Faculty Research Lecture Series". singapore.cs.ucla.edu. Retrieved 2019-11-10.
  3. ^ Yule, G. Udny (1926-01-01). "Why do we Sometimes get Nonsense-Correlations between Time-Series? A Study in Sampling and the Nature of Time-Series". Journal of the Royal Statistical Society. 89 (1): 1–63. doi:10.2307/2341482. JSTOR 2341482. S2CID 126346450.
  4. ^ Granger, Clive W. J.; Ghysels, Eric; Swanson, Norman R.; Watson, Mark W. (2001). Essays in Econometrics: Collected Papers of Clive W. J. Granger. Cambridge University Press. ISBN 978-0521796491.
  5. ^ Sapsford, Roger; Jupp, Victor, eds. (2006). Data Collection and Analysis. Sage. ISBN 0-7619-4362-5.
  6. ^ Hofheimer, Bill (October 30, 2012). "'Redskins Rule': MNF's Hirdt on intersection of football & politics". ESPN. Retrieved October 16, 2016.
  7. ^ Manker, Rob (November 7, 2012). "Redskins Rule: Barack Obama's victory over Mitt Romney tackles presidential predictor for its first loss". Chicago Tribune. Retrieved November 8, 2012.
  8. ^ Pohl, Robert S. (2013). Urban Legends & Historic Lore of Washington. The History Press. pp. 78–80. ISBN 978-1625846648.
  9. ^ Don Peppers. "Big Data. Super Bowl. Small Minds". Retrieved December 31, 2015.

레퍼런스

외부 링크