루빈 인과 모형

Rubin causal model

Neyman-Rubin 인과 모델이라고도 알려진 RCM잠재적 결과프레임워크를 기반으로 인과관계를 통계적으로 분석하는 접근법으로,[1] 도널드 루빈의 이름을 따서 명명되었다. "루빈 인과 모델"이라는 이름은 폴 W에 의해 처음 만들어졌다. 홀랜드.[2] 잠재적 결과 프레임워크는 완전히 무작위화된 실험의 맥락에서만 논의했지만 Jerzy Neyman이 1923년 석사 논문에서 처음 제안한 것이다.[3][4] 루빈은 그것을 관찰적 연구와 실험적 연구 모두에서 인과관계에 대해 생각하는 일반적인 틀로 확장시켰다.[1]

소개

루빈 인과 모델은 잠재적 결과의 아이디어에 기초한다. 예를 들어 대학에 다니면 40세에 특정 소득을 갖게 되는 반면, 대학에 다니지 않았다면 40세에 다른 소득을 갖게 되는 것이다. 이 사람에 대한 대학 진학의 인과관계를 측정하기 위해서는 두 가지 대안적 미래에서 같은 개인에 대한 결과를 비교할 필요가 있다. 두 가지 잠재적 결과를 한꺼번에 보는 것은 불가능하기 때문에, 잠재적 결과 중 하나는 항상 누락되어 있다. 이 딜레마는 "인과 추론의 근본적 문제"이다.

인과 추론의 근본적인 문제 때문에 단위 수준의 인과관계를 직접 관측할 수 없다. 그러나 무작위화된 실험은 모집단 수준의 인과관계를 추정할 수 있다.[5] 무작위화된 실험은 사람들을 무작위로 치료한다: 대학이든 대학이든 아니든. 이 무작위 과제 때문에 집단은 (평균적으로) 등가인데, 40세 때 소득의 차이는 집단의 유일한 차이였기 때문에 대학 과제 탓으로 돌릴 수 있다. 그런 다음 평균 인과 효과(평균 처리 효과라고도 함)의 추정치는 처리(대학 입회) 표본과 대조(대학 입회 금지) 표본 간의 평균 차이를 계산하여 얻을 수 있다.

그러나 많은 상황에서 윤리적 또는 실제적인 우려 때문에 무작위 실험이 가능하지 않다. 그러한 시나리오에는 무작위 할당 메커니즘이 있다. 이것은 대학 출석의 예로서, 무작위로 대학에 진학하도록 배정된 사람이 아니다. 오히려 사람들은 그들의 재정 상황, 부모들의 교육 등에 따라 대학에 진학하는 것을 선택할 수도 있다. 성향 점수 매칭과 같은 인과 추론을 위해 많은 통계적 방법이 개발되었다. 이러한 방법은 처리 장치와 유사한 제어 장치를 찾아 할당 메커니즘에 대한 수정을 시도한다.

확장 예제

루빈은 인과관계를 정의한다.

직관적으로 특정 단위에 대한 E, 다른 단위에 대한 C, 그리고 2}}: t 2 }까지의 시간 간격의 인과적 영향은 가 t }}: t에서 시작된 E에 노출되었을 때의 차이점이다.와 t {\에서 시작된 C에 유닛이 노출되었다면 22 '한 시간 전에 물 한 잔 대신 아스피린을 두 번 복용했다면 이제 두통이 사라졌을 텐데, 1시간 전에 j 대신 아스피린을 두 번 복용했기 때문이다.물 한 잔에, 내 두통은 이제 없어졌다.' E 대 C 치료의 인과적 효과에 대한 우리의 정의는 이러한 직관적 의미를 반영할 것이다."[5]

RCM에 따르면 1시간 전 아스피린을 복용했는지 안 먹었는지의 인과관계는 1번 케이스(아스피린을 복용하지 않음)와 2번 케이스(아스피린을 복용하지 않음)에서 머리가 어떤 느낌이었을까 하는 차이다. 아스피린 없이 두통이 남아 있다가 아스피린을 복용하면 사라진다면 아스피린을 복용하는 인과적 효과는 두통 완화다. 대부분의 경우, 우리는 일반적으로 "치료"와 "통제"라고 불리는 두 개의 미래를 비교하는 데 관심이 있다. 이 라벨들은 다소 임의적이다.

잠재적 결과

조가 고혈압 신약에 대한 FDA 검사에 참여하고 있다고 가정해보자. 만약 우리가 전지전능하다면, 우리는 조에 대한 치료(신약)와 통제(아무 치료도 하지 않거나 현재의 표준 치료법) 양쪽 모두에서 결과를 알 수 있을 것이다. 인과효과, 즉 치료 효과는 이 두 잠재적 결과 사이의 차이점이다.

주제
조. 130 135 −5

( ) 는 조가 새 약을 복용하면 혈압이다. 일반적으로, 이 표기법은 한 단위에서 t, u, u, u에서 발생하는 잠재적 결과를 나타낸다. 마찬가지로 Y c () {\ Y_{c는 단위 u, u에 대한 다른 처리, c 또는 제어의 영향이다. 경우 c ( 는 조가 약을 복용하지 않으면 조의 혈압이다. ( )- ( ) 신약 복용의 인과효과다.

이 표에서 우리는 조에 대한 인과관계를 알 뿐이다. 이 연구에 참여한 다른 모든 사람들은 이 약을 복용하면 혈압이 상승할 수 있다. 그러나 다른 피험자에 대한 인과관계가 어떻든 조의 인과 효과는 약물을 복용하지 않았더라면 혈압이 어땠을지에 비해 낮은 것이다.

더 큰 환자의 표본을 고려하십시오.

주제
조. 130 135 −5
메리 140 150 −10
샐리 135 125 10
135 150 −15

인과 효과는 과목마다 다르지만 인과 효과가 부정적이기 때문에 조, 메리, 밥에게는 약이 효과가 있다. 그들의 혈압은 각각 약을 복용하지 않았을 때보다 더 낮다. 반면에 샐리에게는 그 약이 혈압을 상승시킨다.

잠재적인 결과가 이치에 맞으려면 적어도 선행기술은 가능해야 한다. 예를 들어 어떤 상황에서도 조가 신약을 얻을 수 있는 방법이 없다면 ( ) 는 그에게 불가능하다. 결코 있을 수 없는 일이다. 그리고 ( ) 을(를) 결코 관찰할 수 없다면 조의 혈압에 대한 치료의 인과적 효과는 정의되지 않는다.

조작 없는 인과관계 없음

신약의 인과적 효과는 두 가지 잠재적 결과의 단순한 차이이기 때문에 잘 규정되어 있는데, 두 가지 모두 발생할 수 있다. 이 경우 우리(혹은 다른 것)는 적어도 개념적으로 세상을 조종할 수 있기 때문에 한 가지 일이나 다른 일이 일어날 수도 있다.

인과적 효과에 대한 이러한 정의는 잠재적 결과 중 하나가 영원히 일어날 수 있는 방법이 없다면 훨씬 더 문제가 된다. 예를 들어, 조의 키가 몸무게에 미치는 인과적 영향은 무엇인가? 순진하게도, 이것은 우리의 다른 예들과 비슷한 것 같다. 우리는 단지 두 가지 잠재적 결과를 비교하면 된다: 조의 몸무게가 치료 아래에 있을 것인가(치료의 경우 3인치 더 클 것으로 정의될 경우)와 조의 몸무게가 통제 아래에 있을 것인가(조정이 현재 키로 정의되는 경우)이다.

잠시 생각해 보면 문제가 부각된다. 우리는 조의 키를 늘릴 수 없다. 키가 더 커지게 할 방법이 없기 때문에 조의 몸무게가 더 커지면 어떤 것이 될지는 개념적으로 관찰할 방법이 없다. 우리는 조의 키를 조작할 수 없으니 키의 무게에 대한 인과관계를 조사하는 것은 말이 되지 않는다. 따라서 슬로건은 다음과 같다. 조작 없이 인과관계는 없다.

안정적인 단위 처리 값 가정(SUTVA)

우리는 "한 단위에 대한 [잠재적 결과] 관찰은 다른 단위에 대한 치료의 특정 할당에 영향을 받지 않아야 한다"(Cox 1958, §2.4)고 요구한다. 이를 안정적 단위 처리 가치 가정(SUTVA)이라고 하는데, 이는 독립성의 개념을 넘어선다.

우리 예시의 맥락에서 조의 혈압은 메리가 그 약을 받았는지에 따라 달라져서는 안 된다. 하지만 만약 그렇게 된다면? 조와 메리는 같은 집에 살고 메리는 항상 요리를 한다고 가정해 보자. 그 약은 메리가 짠 음식을 갈망하게 하기 때문에, 만약 그녀가 그 약을 복용한다면 그녀는 다른 약을 먹었을 때보다 더 많은 소금으로 요리를 할 것이다. 고염식을 하면 조의 혈압이 높아진다. 따라서 그의 결과는 그가 어떤 치료를 받았는지 그리고 메리가 어떤 치료를 받았는지에 달려 있을 것이다.

SUTVA 위반은 인과적 추론을 더욱 어렵게 만든다. 우리는 더 많은 치료를 고려함으로써 의존적인 관찰을 설명할 수 있다. 우리는 메리가 치료를 받는지 여부를 고려하여 4가지 치료법을 만든다.

주제 조 = c, 메리 = t 조 = t, 메리 = t 조 = c, 메리 = c Joe = t, Mary = c
조. 140 130 125 120

인과적 효과는 두 잠재적 결과 사이의 차이로 정의된다는 것을 상기하라. 이 경우 세 가지 이상의 잠재적 결과가 있기 때문에 여러 가지 인과관계가 있다. 하나는 메리가 치료를 받고 계산했을 때 조에 대한 약물의 인과효과로 또 하나는 메리가 치료를 받지 120- 로 계산되었을 때 조에 대한 인과효과다 세 번째는 조가 치료를 받지 않을 때 메리가 조에 대한 치료의 인과적 효과다. 이 값은 - 스타일 로 계산된다 메리가 받는 치료법은 조가 조에게 받은 치료법보다 조에게 더 큰 인과적 효과를 가지고 있으며, 그 반대 방향이다.

이러한 방식으로 더 많은 잠재적 결과를 고려함으로써 SUTVA가 유지되도록 할 수 있다. 그러나 조 이외의 다른 단위가 메리에게 의존하고 있다면, 우리는 추가적인 잠재적 결과를 고려해야 한다. 종속 단위의 수가 많을수록 우리가 고려해야 할 잠재적 결과 및 계산이 복잡해진다(각각 치료 상태가 다른 모든 사람의 결과에 영향을 미칠 수 있는 20명의 다른 사람과의 실험을 고려한다). 대조군과 관련된 단일 치료의 인과 효과를 쉽게 추정하기 위해서는 SUTVA가 유지되어야 한다.

평균인자효과

고려 사항:

주제
조. 130 135 −5
메리 130 145 −15
샐리 130 145 −15
140 150 −10
제임스 145 140 +5
평균 135 143 −8

모든 인과 효과의 평균을 취함으로써 평균 인과 효과를 계산할 수도 있다.

우리가 반응을 어떻게 측정하느냐는 우리가 어떤 추론을 도출하느냐에 영향을 미친다. 우리가 혈압의 변화를 절대값이 아닌 백분율 변화로 측정한다고 가정하자. 그렇다면 정확한 숫자에 따라 평균적인 인과 효과는 혈압 상승일 수 있다. 예를 들어, 조지의 혈압은 154세, 치료는 140세라고 가정해 보자. 인과적 효과의 절대적 크기는 -14이지만 백분율 차이(치료 수준 140)는 -10%이다. 사라의 혈압이 치료 중인 200명, 통제 중인 184명일 경우 절대적으로는 16명, 치료 가치로는 8%의 인과 효과가 나타난다. 혈압의 절대적 변화(-14 대 16)가 작을수록 조지의 백분율 변화(-10% 대 8%)가 커진다. 조지와 사라의 평균 인과 효과는 절대적으로 +1이지만 백분율 면에서는 -1이다.

인과 추론의 근본적인 문제

지금까지 우리가 본 결과는 결코 실제적으로 측정되지 않을 것이다. 정의상 특정 기간 동안 한 주제에 대한 둘 이상의 치료의 효과를 관찰하는 것은 불가능하다. 조는 약을 먹을 수도 없고 동시에 복용할 수도 없다. 따라서 데이터는 다음과 같이 보일 것이다.

주제
조. 130 ? ?

물음표는 관찰할 수 없는 반응이다. 인과 추론[2] 근본적인 문제는 인과관계를 직접 관찰하는 것이 불가능하다는 것이다. 그러나 이것이 인과적 추론을 불가능하게 만들지는 않는다. 어떤 기법과 가정은 근본적인 문제를 극복할 수 있게 해준다.

다음 데이터가 있다고 가정해 보십시오.

주제
조. 130 ? ?
메리 ? 125 ?
샐리 100 ? ?
? 130 ?
제임스 ? 120 ?
평균 115 125 −10

만약 우리가 일정한 효과를 가정한다면, 우리는 통제하에 있는 조의 잠재적인 결과가 어땠을지 유추할 수 있다.

, 그리고

만약 우리가 관찰되지 않은 값을 유추하고 싶다면, 우리는 일정한 효과를 가정할 수 있을 것이다. 다음 표는 일정한 효과의 가정과 일치하는 데이터를 보여준다.

주제
조. 130 140 −10
메리 115 125 −10
샐리 100 110 −10
120 130 −10
제임스 110 120 −10
평균 115 125 −10

시술 대상자는 모두 결과가 다르더라도 인과관계가 동일하다.

할당 메커니즘

단위에 처치를 할당하는 방법인 할당 메커니즘은 평균 인과 효과의 계산에 영향을 미친다. 그러한 할당 메커니즘 중 하나는 무작위화다. 각 과목에 대해 우리는 그녀가 치료를 받는지 여부를 결정하기 위해 동전을 던질 수 있다. 만약 우리가 다섯 과목의 치료를 받기를 원한다면, 우리는 모자에서 고르는 다섯 개의 이름들에 치료를 배정할 수 있을 것이다. 우리가 무작위로 치료를 배정할 때 우리는 다른 대답을 얻을 수 있다.

이 데이터가 사실이라고 가정하십시오.

주제
조. 130 115 15
메리 120 125 −5
샐리 100 125 −25
110 130 −20
제임스 115 120 −5
평균 115 123 −8

실제 평균 인과 효과는 -8이다. 그러나 이러한 개인에 대한 인과적 영향은 결코 이 평균과 같지 않다. 인과관계는 일반적으로 (항상?) 실제 생활에서 하듯이 다양하다. 무작위로 치료를 할당하고 나면 다음과 같이 인과관계를 추정할 수 있다.

주제
조. 130 ? ?
메리 120 ? ?
샐리 ? 125 ?
? 130 ?
제임스 115 ? ?
평균 121.66 127.5 −5.83

치료법을 무작위로 할당하면 평균 인과관계에 대한 다른 추정치가 나온다.

주제
조. 130 ? ?
메리 120 ? ?
샐리 100 ? ?
? 130 ?
제임스 ? 120 ?
평균 116.67 125 −8.33

평균 인과 효과는 우리의 표본이 작고 반응이 큰 분산을 가지기 때문에 다양하다. 표본이 크고 분산이 적다면, 평균 인과 효과는 치료에 무작위로 할당된 특정 단위와 무관하게 실제 평균 인과 효과에 더 가까울 것이다.

또는 메커니즘이 모든 남성에게만 치료를 할당한다고 가정해 보십시오.

주제
조. 130 ? ?
110 ? ?
제임스 105 ? ?
메리 ? 130 ?
샐리 ? 125 ?
수지 ? 135 ?
평균 115 130 −15

이 과제 메커니즘 하에서는 여성이 치료를 받는 것이 불가능하고 따라서 여성 피험자에 대한 평균 인과관계를 판단할 수 없다. 대상자에 대한 인과적 효과를 추론하기 위해서는 대상자가 치료를 받을 확률은 0보다 크고 1보다 작아야 한다.

완벽한 의사

완벽한 의사를 임무 수행 메커니즘으로 사용하는 것을 고려하라. 완벽한 의사는 각 피험자가 약물이나 통제에 어떻게 반응할 것인지 알고 각 피험자에게 그녀에게 가장 도움이 될 치료법을 배정한다. 완벽한 의사는 환자 샘플에 대한 이러한 정보를 알고 있다.

주제
조. 130 115 15
120 125 −5
제임스 100 150 −50
메리 115 125 −10
샐리 120 130 −10
수지 135 105 30
평균 120 125 −5

이러한 지식을 바탕으로 그녀는 다음과 같은 치료 과제를 내곤 했다.

주제
조. ? 115 ?
120 ? ?
제임스 100 ? ?
메리 115 ? ?
샐리 120 ? ?
수지 ? 105 ?
평균 113.75 110 3.75

완벽한 의사는 치료와 통제 둘 다에 대한 좋지 않은 반응을 걸러냄으로써 두 평균을 모두 왜곡한다. 평균적 인과효과라고 할 수 있는 평균값의 차이는 세부적인 내용에 따라 달라지는 방향으로 왜곡된다. 예를 들어 약을 복용하여 피해를 입는 수지 같은 주체는 완벽한 의사에게 통제그룹에 배정되어 약물의 부정적인 효과가 가려지게 된다.

결론

한 시점에 단일 단위에 대한 치료의 인과적 효과는 치료와 치료 없이 결과 변수 간의 차이다. 인과 추론의 근본적인 문제는 단일 단위에 대한 인과적 효과를 관찰하는 것이 불가능하다는 것이다. 지금 아스피린을 먹든지 안 먹든지 둘 중 하나야. 따라서 누락된 반사실들을 추정하기 위해 가정이 이루어져야 한다.

루빈 인과 모델은 또한 기악 변수(앵그리스터, 임벤스, 루빈, 1996년)[6]와 다른 인과 추론 기법에도 연결되었다. 루빈 인과 모델, 구조 방정식 모델링 및 기타 인과 추론을 위한 통계적 방법 사이의 연결에 대한 자세한 내용은 Morgan과 Winship(2007)을 참조하십시오.[7]

참고 항목

참조

  1. ^ a b Sekhon, Jasjeet (2007). "The Neyman–Rubin Model of Causal Inference and Estimation via Matching Methods" (PDF). The Oxford Handbook of Political Methodology.
  2. ^ a b Holland, Paul W. (1986). "Statistics and Causal Inference". J. Amer. Statist. Assoc. 81 (396): 945–960. doi:10.1080/01621459.1986.10478354. JSTOR 2289064.
  3. ^ 네이먼, 저지 Sur les application de la theory disabilities agricoles: Essai des principles. 석사 논문(1923). 영어, 통계과학, 제5권, 페이지 463–472로 재인쇄된 발췌문. (D. M. Dabrowska 및 T. P. Speed, 번역가)
  4. ^ Rubin, Donald (2005). "Causal Inference Using Potential Outcomes". J. Amer. Statist. Assoc. 100 (469): 322–331. doi:10.1198/016214504000001880. S2CID 842793.
  5. ^ a b Rubin, Donald (1974). "Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies". J. Educ. Psychol. 66 (5): 688–701 [p. 689]. doi:10.1037/h0037350.
  6. ^ Angrist, J.; Imbens, G.; Rubin, D. (1996). "Identification of Causal effects Using Instrumental Variables" (PDF). J. Amer. Statist. Assoc. 91 (434): 444–455. doi:10.1080/01621459.1996.10476902.
  7. ^ Morgan, S.; Winship, C. (2007). Counterfactuals and Causal Inference: Methods and Principles for Social Research. New York: Cambridge University Press. ISBN 978-0-521-67193-4.

추가 읽기

외부 링크