원인 그래프

Causal graph

통계, 계량학, 역학, 유전학 및 관련 분야, 원인 그래프(경로도, 원인 베이지안 네트워크 또는 DAG라고도 함)는 데이터 생성 프로세스에 대한 가정을 인코딩하는 데 사용되는 확률론적 그래픽 모델이다.

원인 그래프는 의사소통 및 추론에 사용될 수 있다.통신 장치로서, 그래프는 연구자들이 전달하고 방어하기를 바랄 수 있는 인과적 가정에 대한 형식적이고 투명한 표현을 제공한다.추론 도구로서, 이 그래프를 통해 연구자들은 비실험적 데이터로부터 효과 크기를 추정할 수 있고,[1][2][3][4][5] 인코딩된 가정들의 시험 가능한 함의를 도출할 수 있으며,[1][6][7][8] 외부 타당성을 시험할 수 있으며,[9] 누락된 데이터와[10] 선택 편향을 관리할 수 있다.[11]

원인 그래프는 유전학자 세월 라이트[12] 루브릭 "경로도"에 따라 처음 사용되었다.그들은 나중에 사회과학자들에[13][14][15][16][17][18] 의해 채택되었고, 덜한 정도는 경제학자들에 의해 채택되었다.[19]이 모델들은 처음에는 고정된 매개변수를 가진 선형 방정식으로 제한되었다.현대의 발전은 그래픽 모델을 비모수적 분석으로 확장시켰고, 따라서 컴퓨터 과학, 역학,[20] 사회 과학에서 인과 분석을 변화시키는 일반성과 유연성을 달성했다.[21]

시공 및 용어

인과 그래프는 다음과 같은 방법으로 그릴 수 있다.모형의 각 변수에 해당하는 정점이나 노드가 있으며 다른 모든 변수가 일정하게 유지될 때 YX의 변화에 반응한다고 판단될 때마다 변수 X에서 변수 Y로 화살표가 그려진다.직접 화살을 통해 Y에 연결된 변수를 Y의 부모, 즉 "Y의 직접적인 원인"이라고 하며 Pa(Y)가 나타낸다.

원인 모델에는 Pa(Y)가 일정하게 유지될 때 변수 Y에 영향을 미치는 측정되지 않은 모든 요인을 나타내는 "오류 항" 또는 "오류 요인"이 포함되는 경우가 많다.대부분의 경우 오차항은 그래프에서 제외된다.그러나 그래프 작성자가 두 변수의 오차항이 종속적이라고 의심하는 경우(예: 두 변수에는 관측되지 않거나 잠재된 공통 원인이 있음) 이들 사이에 양방향 호가 그려진다.따라서, 잠재 변수의 존재는 양방향 호로 표현되는 오류 용어 사이에 유도하는 상관관계를 통해 고려된다.

기본 공구

그래픽 분석의 기본 도구는 d-분리인데, 이를 통해 연구자들은 인과 구조가 세 번째 세트가 주어진 두 변수 세트가 독립적이라는 것을 의미하는지 여부를 검사하여 판단할 수 있다.상관된 오차항이 없는 반복 모델(Markovian이라고도 함)에서 이러한 조건부 독립성은 모형의 모든 시험 가능한 영향을 나타낸다.[22]

우리가 엘리트 대학에 다니는 것이 미래의 소득에 미치는 영향을 추정하려고 한다고 가정해보자.단순히 대학평가에 대한 소득을 후퇴시킨다고 해서 엘리트대학의 선택성이 높고, 재학 중인 학생들이 진학 전 고소득 직종에 대한 자격을 갖출 가능성이 높기 때문에 목표효과에 대한 편견 없는 추정치가 나오지는 않을 것이다.인과관계가 선형이라고 가정하면 이 배경지식은 다음의 구조방정식 모델(SEM) 명세서로 표현할 수 있다.

모델 1

여기서 }는 대학 이전의 개인의 자격을 나타내고, 2}}는 대학 이후의 자격을 나타내며, 는 대학 출석의 질을 나타내는 속성을 포함하고 ,S {\ 개인의 급여를 나타낸다.

그림 1: 잠재 변수를 가진 미확인 모델( 이 명시적으로 표시됨
그림 2: 잠재적 변수가 요약된 미확인 모델

그림 1은 이 모델 규격을 나타내는 원인 그래프다.모델의 각 변수는 그래프에 해당하는 노드 또는 꼭지점이 있다.또한 각 방정식에 대해 독립 변수에서 종속 변수까지 화살표가 그려진다.이 화살표는 인과관계의 방향을 반영한다.경우에 따라 그림 1과 같이 해당 구조 계수로 화살표에 라벨을 붙일 수 있다.

관측되지 않거나 잠재된 변수인 경우 에 대한 영향력은 오차항에 기인할 수 있다.이를 제거함으로써 다음과 같은 모델 사양을 얻는다.

모델 2

모델 1에서 지정한 배경 정보는 의 오차항이 C의 오차항인 와 상관관계가 있음을 암시한다 그 결과 그림 2와 같이 S와 C 사이에 우회 호를 추가한다.

그림 3: 잠재 변수를 포함한 (Q 1스타일{} 및Q 2 {\ 스타일 Q_ 명시적으로 표시됨
그림 4: 잠재 변수를 요약한 식별된 모델

C 상관되므로 C{\C 내생성이고 은 모델 2에서 식별되지 않는다.그러나 그림 3과 같이 개인의 대학 지원서인 의 강도를 포함하면 다음과 같은 모델을 얻게 된다.

모델 3

모델 명세서에서 잠재적 변수를 제거함으로써 우리는 다음을 얻는다.

모델 4

와 상관 관계가 있는 경우

이제,β{\beta\displaystyle}과 S{S\displaystyle}의 C{C\displaystyle}에 회귀이고 A{A\displaystyle}를 사용하여 평가할 수 있다. 이것은 구조적 coefficients,의 확인을 위한 필요하고 충분한 그래픽 상태는single-door criterion,[1][23]을 사용하여 확인될 수 있는 식별됩니다. 맘에 들다회귀 을 사용한 {\displaystyle

참조

  1. ^ a b c Pearl, Judea (2000). Causality. Cambridge, MA: MIT Press.
  2. ^ Tian, Jin; Pearl, Judea (2002). "A general identification condition for causal effects". Proceedings of the Eighteenth National Conference on Artificial Intelligence. ISBN 978-0-262-51129-2.
  3. ^ Shpitser, Ilya; Pearl, Judea (2008). "Complete Identification Methods for the Causal Hierarchy" (PDF). Journal of Machine Learning Research. 9: 1941–1979.
  4. ^ Huang, Y.; Valtorta, M. (2006). "Identifiability in causal bayesian networks: A sound and complete algorithm". Proceedings of AAAI.
  5. ^ Bareinboim, Elias; Pearl, Judea (2012). "Causal Inference by Surrogate Experiments: z-Identifiability". Proceedings of the Twenty-Eighth Conference on Uncertainty in Artificial Intelligence. arXiv:1210.4842. Bibcode:2012arXiv1210.4842B. ISBN 978-0-9749039-8-9.
  6. ^ Tian, Jin; Pearl, Judea (2002). "On the Testable Implications of Causal Models with Hidden Variables". Proceedings of the Eighteenth Conference on Uncertainty in Artificial Intelligence. pp. 519–27. arXiv:1301.0608. Bibcode:2013arXiv1301.0608T. ISBN 978-1-55860-897-9.
  7. ^ Shpitser, Ilya; Pearl, Judea (2008). "Dormant Independence". Proceedings of AAAI.
  8. ^ Chen, Bryant; Pearl, Judea (2014). "Testable Implications of Linear Structural Equation Models". Proceedings of AAAI.
  9. ^ Bareinmboim, Elias; Pearl, Judea (2014). "External Validity: From do-calculus to Transportability across Populations". Statistical Science. 29 (4): 579–595. arXiv:1503.01603. doi:10.1214/14-sts486.
  10. ^ Mohan, Karthika; Pearl, Judea; Tian, Jin (2013). "Graphical Models for Inference with Missing Data". Advances in Neural Information Processing Systems.
  11. ^ Bareinboim, Elias; Tian, Jin; Pearl, Judea (2014). "Recovering from Selection Bias in Causal and Statistical Inference". Proceedings of AAAI.
  12. ^ Wright, S. (1921). "Correlation and causation". Journal of Agricultural Research. 20: 557–585.
  13. ^ Blalock, H. M. (1960). "Correlational analysis and causal inferences". American Anthropologist. 62 (4): 624–631. doi:10.1525/aa.1960.62.4.02a00060.
  14. ^ Duncan, O. D. (1966). "Path analysis: Sociological examples". American Journal of Sociology. 72: 1–16. doi:10.1086/224256.
  15. ^ Duncan, O. D. (1976). "Introduction to structural equation models". American Journal of Sociology. 82 (3): 731–733. doi:10.1086/226377.
  16. ^ Jöreskog, K. G. (1969). "A general approach to confirmatory maximum likelihood factor analysis". Psychometrika. 34 (2): 183–202. doi:10.1007/bf02289343.
  17. ^ Goldberger, A. S.; Duncan, O. D. (1973). Structural equation models in the social sciences. New York: Seminar Press.
  18. ^ Goldberger, A. S. (1972). "Structural equation models in the social sciences". Econometrica. 40 (6): 979–1001. doi:10.2307/1913851. JSTOR 1913851.
  19. ^ White, Halbert; Chalak, Karim; Lu, Xun (2011). "Linking granger causality and the pearl causal model with settable systems". Causality in Time Series Challenges in Machine Learning. 5.
  20. ^ Rothman, Kenneth J.; Greenland, Sander; Lash, Timothy (2008). Modern epidemiology. Lippincott Williams & Wilkins.
  21. ^ Morgan, S. L.; Winship, C. (2007). Counterfactuals and causal inference: Methods and principles for social research. New York: Cambridge University Press.
  22. ^ Geiger, Dan; Pearl, Judea (1993). "Logical and Algorithmic Properties of Conditional Independence". Annals of Statistics. 21 (4): 2001–2021. CiteSeerX 10.1.1.295.2043. doi:10.1214/aos/1176349407.
  23. ^ Chen, B.; Pearl, J (2014). "Graphical Tools for Linear Structural Equation Modeling". Technical Report.