인과모형
Causal model이 기사는 위키피디아의 품질 기준을 준수하기 위해 다시 작성될 필요가 있을 수 있다. 에는 될 수 (2020년 3월) |

과학철학에서 인과모형(또는 구조적 인과모형)은 시스템의 인과 메커니즘을 기술하는 개념적 모델이다. 원인 모델은 어떤 독립 변수를 포함/제어해야 하는지를 결정하기 위한 명확한 규칙을 제공함으로써 연구 설계를 개선할 수 있다.
그들은 무작위 조정 시험과 같은 중재적 연구의 필요 없이 기존의 관측 데이터로부터 일부 질문에 대답할 수 있다. 일부 중재적 연구는 윤리적 또는 실제적 이유로 부적절하며, 이는 인과적 모델이 없으면 일부 가설은 시험할 수 없다는 것을 의미한다.
원인 모델은 외부 타당성(한 연구의 결과가 미확정 모집단에 적용되는지 여부)에 대한 질문에 도움이 될 수 있다. 인과 모델은 (특정 상황에서) 여러 연구의 데이터를 병합하여 어떤 개별 데이터 집합으로도 대답할 수 없는 질문에 대답할 수 있게 할 수 있다.
인과 모델은 데이터와 일치하지 않으면 무효로 기각되어야 한다는 점에서 위조할 수 있다. 또한 모델이 설명하고자 하는 현상에 가까운 사람들에게도 신뢰성이 있어야 한다.[2]
원인 모델은 신호 처리, 역학 및 기계 학습에서 응용 프로그램을 찾아냈다.[3]
정의
인과 모델은 개별 시스템 또는 모집단 내의 인과 관계를 나타내는 수학적 모델이다. 그들은 통계 자료로부터 인과 관계에 대한 추론을 용이하게 한다. 그들은 우리에게 인과관계의 인식론과 인과관계와 확률에 대해 많은 것을 가르쳐 줄 수 있다. 그들은 또한 반사실적 논리, 의사결정 이론, 실제 인과관계 분석과 같은 철학자들에게 관심 있는 주제에도 적용되었다.[4]
— Stanford Encyclopedia of Philosophy
유대 펄은 인과 모델을 순서형 3중 , V, 로 정의한다 여기서 U는 모델 외부의 인자에 의해 값이 결정되는 외생 변수 집합이고, V는 모델 내의 인자에 의해 값이 결정되는 내생 변수 집합이며, E는 구조 방정식의 집합이다. U와 V의 다른 변수 값의 함수로 각 내생 변수의 값을 표현한다.[3]
역사
아리스토텔레스는 물질적, 형식적, 효율적, 최종적 원인을 포함한 인과관계의 분류법을 정의했다. 흄은 아리스토텔레스의 분류법을 반사실적인 것에 호의적으로 거부했다. 어느 순간, 그는 사물이 하나의 원인을 만들고 또 다른 것을 영향을 주는 "힘"을 가지고 있다는 것을 부정했다.[5]: 264 후에 그는 "첫 번째 사물이 존재하지 않았다면, 두 번째 사물은 존재하지 않았을 것"이라고 채택했다.[5]: 265
19세기 후반부터 통계의 기강이 형성되기 시작했다. 갈튼은 생물학적 상속과 같은 영역에 대한 인과 규칙을 규명하기 위해 수년간 노력한 끝에 평균 회귀(스포츠의 2학년 침체로 인식됨) 개념을 도입했고, 이후 상관관계라는 비주의 개념으로 이어졌다.[5]
실증주의자로서 Pearson은 과학의 많은 부분에서 인과관계의 개념을 증명할 수 없는 특수한 연관성 사례로 생략하고 상관 계수를 연관성의 척도로 소개했다. 그는 "동작의 원인으로서의 힘은 나무신(木神)과 정확히 동일하다"고 썼고 인과관계는 "현대 과학의 불가해한 아르카나 가운데서는 페티쉬"에 불과했다. 피어슨은 런던대학에 바이오메트리카와 바이오메트릭스랩을 설립해 통계학 분야에서 세계 선두주자가 됐다.[5]
1908년 하디와 웨인버그는 멘델의 유산을 부활시킴으로써 갈튼이 인과관계를 포기하게 했던 특성 안정의 문제를 해결했다.[5]
1921년 라이트의 경로 분석은 인과적 모델링과 인과적 그래프의 이론적 조상이 되었다.[6] 그는 기니피그 코트 패턴에 대한 유전, 개발, 환경의 상대적 영향을 풀려고 시도하면서 이 접근법을 개발했다. 그는 이러한 분석이 어떻게 기니피그 출생 몸무게와 자궁 내 시간과 쓰레기 크기 사이의 관계를 설명할 수 있는지를 보여줌으로써 당시의 이단적인 주장을 뒷받침했다. 저명한 통계학자들의 이러한 생각에 대한 반대는 이후 40년 동안 그들을 무시하도록 이끌었다(동물 사육자들 사이에서는 제외). 대신에 과학자들은 부분적으로 라이트 비평가(그리고 선도적인 통계학자)의 지시에 따라 상관관계에 의존했다.[5] 1926년에 처음으로 경로도를 적용하여 중재적 영향력(중재자)을 나타내고 중재자를 계속 보유하는 것이 오류를 유발한다고 주장한 학생인 Burks는 예외였다. 그녀는 독자적으로 경로 다이어그램을 발명했을지도 모른다.[5]: 304
1923년 네이먼은 잠재적 결과라는 개념을 도입했지만 그의 논문은 1990년까지 폴란드어에서 영어로 번역되지 않았다.[5]: 271
1958년 Cox는 변수 Z에 대한 제어는 독립 변수의 영향을 받을 가능성이 매우 낮은 경우에만 유효하다고 경고했다.[5]: 154
1960년대에 던컨, 블락, 골드버거 등이 경로 분석을 재발견했다. 던컨은 블라록의 경로 도표를 읽으면서 20년 전 라이트 교수가 버크스를 차례로 언급한 논문을 언급한 오그번 강연을 기억했다.[5]: 308
사회학자들은 원래 인과관계 모델을 구조 방정식 모델링이라고 불렀지만, 일단 그것이 로테 방식이 되면 효용성을 상실해 일부 실무자들이 인과관계와 어떤 관계도 거부하게 된다. 경제학자들은 이것을 동시 방정식 모델링이라고 부르며 경로 분석의 대수학적 부분을 채택했다. 그러나 경제학자들은 여전히 인과적 의미를 방정식에 귀속시키는 것을 피했다.[5]
첫 논문 발표 후 60년이 지난 후, 라이트는 칼린 외 연구원의 비평에 따라 이를 재점검한 작품을 발표했는데, 이 비평은 선형 관계만을 다루었고, 견실하고 모델 없는 자료의 발표가 더 드러나고 있다고 반대했다.[5]
1973년에 루이스는 인과관계를 대신할 것을 주장했다. 그는 원인이 발생했거나 발생하지 않았고, 그 원인에 따라서만 효과가 나타나는 대체 세계를 상상하는 인간의 능력을 언급했다.[5]: 266 1974년 루빈은 인과적 질문을 위한 언어로 "잠재적 결과"라는 개념을 도입했다.[5]: 269
1983년에 Cartwright는 효과와 "주요적으로 관련이 있는" 요소를 조건화하여 단순한 가능성을 유일한 지침으로 삼을 것을 제안했다.[5]: 48
1986년 바론(Barron)과 케니(Kenny)는 선형 방정식 시스템에서 중재를 탐지하고 평가하는 원칙을 도입했다. 2014년 현재 그들의 논문은 역대 33번째로 가장 많은 관심을 받았다.[5]: 324 그 해 그린란드와 로빈스는 반사실적 고려를 통해 교란 요인을 다루는 "교환성" 접근법을 도입했다. 그들은 치료를 받지 않았다면 치료집단에 어떤 일이 일어났을 것인지를 평가하고 그 결과를 통제집단의 결과와 비교할 것을 제안하였다. 일치할 경우 교란 요인이 결석했다고 한다.[5]: 154
무역 쇼크 조건의 직접적인 영향, 경제 자유화에 따른 실질 소득의 악화 및 세계 시장의 가격에 대한 국내 가격의 이동으로 정의되는 b) 국제 경쟁에 대한 전통적인 수출 시장의 개방과 악화로 인한 수출 손실로 정의되는 외부 수요 쇼크(시장 손실)의 직접적인 영향이러한 전통시장의 전반적인 수요에 대하여, c) 전통적인 명시적 예산의 제거와 퀘이부드렛 외부이전으로 정의되는 재정충격의 직접적인 영향, d) 전체 내수의 약화로 인한 거시경제 총계의 추가적인 감소로 정의되는, 위의 모든 충격의 2차적 영향, 즉 외부 수요에 의해 촉발된 거시경제 총계의 추가적 감소로 정의된다.rnal 요인 a), b), c) 이러한 추정치는 아르메니아에 대한 상세한 입력 출력 모델에 기초하여 단일 프레임워크 내에서 얻는다. 모델은 가격, 수요(외부 및 국내), 재정 이전 등 모델의 주요 외부 매개변수를 변경하여 이러한 충격의 직간접적 영향을 추정할 수 있도록 한다. 우리는 또한 총 피할 수 없는 전환 비용에 대한 우리의 추정치와 19881994년 아르메니아의 실제 경제 위축을 비교한다. 그런 다음 우리는 이 비교를 전환 비용 - 90년대 초반의 "잘못된" 개혁 정책과 관련된 비용 -의 간접적인 척도로 사용한다.[7]
인과 사다리
펄의 인과 변형은 그가 인과 사다리라고 부르는 3단계의 추상화를 포함한다. 가장 낮은 수준인 연관성(보기/관심)은 상관관계로 표현되는 입력 데이터의 정규성 또는 패턴을 감지한다. 중간 단계인 개입(행동)은 인과관계로 표현되는 의도적인 행동의 영향을 예측한다. 가장 높은 수준인 반사실(Counterfactuals)은 왜 특정한 행동이 특정한 영향을 미치는지 그리고 그러한 행동이 없을 때 어떤 일이 일어나는지 설명하는 (세계의 일부) 이론을 구성하는 것을 포함한다.[5]
협회
관찰한 물체가 다른 물체를 관찰할 확률을 변화시킨다면 한 물체는 다른 물체와 연관된다. 예: 치약을 사는 쇼핑객들은 치실도 더 많이 살 것이다. 수학적으로:
치약 구입이 주어질 (치약 구입) 확률. 연관성은 또한 두 사건의 상관관계를 계산하여 측정할 수 있다. 연관성은 인과관계가 없다. 한 사건은 다른 한 사건을 일으킬 수도 있고, 그 반대는 사실일 수도 있고, 두 사건 모두 어떤 제3의 사건(불행한 히게니스트 쉐이크스 쇼핑객에게 그들의 입을 더 잘 대해주도록 하는 것)에 의해 야기될 수도 있다.[5]
개입
이 수준은 사건들 사이의 특정한 인과 관계를 주장한다. 인과관계는 사건들 중 하나에 영향을 미치는 몇몇 행동을 실험적으로 수행함으로써 평가된다. 예: 우리가 치약 가격을 두 배로 올리면, 새로운 구매 확률은 얼마나 될까? 가격 변동 자체가 두 번째 사건(두 상품의 가격을 올리는 관세)에 영향을 미칠 수 있는 다른 이유 때문일 수 있기 때문에 (가격 변동) 이력을 조사해서 인과관계를 성립할 수 없다. 수학적으로:
여기서 do는 실험 개입을 알리는 운영자(가격에 영향을 미침)이다.[5] 운영자는 가능한 한 현실로부터의 변화가 적은 "미니 수술"인 의도된 효과를 창출하는 데 필요한 최소한의 세계 변화를 수행한다고 표시한다.[8]
반사실
반사실적인 최고 수준에는 과거 사건의 대체 버전 또는 동일한 실험 단위에 대해 다른 상황에서 일어날 수 있는 일에 대한 고려가 포함된다. 예를 들어, 만약 가게가 치실 가격을 두 배로 올렸더라면, 치약을 사는 쇼핑객은 여전히 그것을 샀을 확률은 얼마인가?
반사실들은 인과 관계의 존재를 나타낼 수 있다. 반사실적 답변을 할 수 있는 모델은 결과를 예측할 수 있는 정밀한 개입을 허용한다. 극단적으로 그러한 모델은 물리적 법칙으로 받아들여진다(물리학 법칙에서처럼 고정된 물체에 힘을 가하지 않으면 움직이지 않는다는 관성).[5]
인과성
인과 대 상관 관계
통계는 다중 변수들 간의 관계 분석을 중심으로 한다. 전통적으로 이러한 관계는 어떠한 묵시적인 인과관계가 없는 상관관계, 연관관계로 설명된다. 인과관계 모델은 한 변수의 변화가 다른 변수의 변화를 유발하는 인과관계의 개념을 추가함으로써 이 프레임워크를 확장하려고 시도한다.[3]
20세기 인과관계의 정의는 순전히 확률/연관성에 의존했다. 한 사건( )은 다른 사건(Y 의 확률을 높이면 다른 사건이 발생한다고 한다. 수학적으로 이것은 다음과 같이 표현된다.
- ( )> ( ) X
이러한 정의는 다른 관계( X {\ }및 Y {\가 조건을 충족할 수 있기 때문에 불충분하다. 인과관계는 두 번째 사다리 스텝과 관련이 있다. 연관성은 첫 번째 단계에 있으며 후자에게만 증거를 제공한다.[5]
이후 정의는 배경 요인을 조건화하여 이러한 모호성을 해결하려고 시도하였다. 수학적으로:
- ( X, K= )> P( K= k) Y
여기서 은 (는) 배경 변수 집합이고 은(는) 특정 맥락에서 해당 변수의 값을 나타낸다. 그러나 확률을 유일한 기준으로[clarification needed] 삼는 한 필요한 배경 변수 집합은 불확실하다(복수 집합은 확률을 증가시킬 수 있다).[5]
인과관계를 정의하기 위한 다른 시도에는 인과관계(경제학)가 다른 시계열의 사전 값을 사용하여 한 시계열의 미래 값을 예측하는 능력을 측정함으로써 평가될 수 있다는 통계적 가설 검정인 그레인저 인과관계가 있다.[5]
종류들
명분은 필요하거나, 충분하거나, 기여하거나, 또는 어떤 조합이 될 수 있다.[9]
필요한
x가 y의 필요한 원인이 되려면 y의 존재는 x의 이전 발생을 의미해야 한다. 그러나 x의 존재는 y가 발생한다는 것을 의미하지는 않는다.[10] 필요한 원인은 "but-for" 원인이라고도 하는데, y는 발생하지 않았을 것이고 x는 발생했을 것이다.[5]: 261
충분한 원인
x가 y의 충분한 원인이 되려면 x의 존재는 y의 후속 발생을 의미해야 한다. 그러나 다른 원인 z는 독립적으로 y를 야기할 수 있다. 따라서 y의 존재는 x의 사전 발생을 요구하지 않는다.[10]
유력한 원인
x가 y의 원인이 되려면 x의 존재는 y의 가능성을 증가시켜야 한다. 확률이 100%이면 x는 대신 충분하다고 한다. 기여하는 원인도 필요할 수 있다.[11]
모델
원인도
인과도는 인과 모형에서 변수들 사이의 인과 관계를 표시하는 방향 그래프다. 원인 다이어그램에는 변수(또는 노드) 집합이 포함된다. 각 노드는 화살표로 인과적 영향을 미치는 하나 이상의 다른 노드에 연결된다. 화살촉은 인과관계 방향을 묘사한다. 예를 들어, 변수 B 을(를) 에서 화살촉과 연결하는 화살표는 의 변경으로 B B관련 확률)에 변화가 발생함을 나타낸다. 경로는 인과화살을 따라가는 두 노드 사이의 그래프를 가로지르는 것이다.[5]
원인도에는 원인 루프 다이어그램, 지시된 반복 그래프, 이시카와 다이어그램 등이 있다.[5]
인과도는 그들에게 알리는 정량적 확률과 무관하다. 그러한 확률의 변경(예: 기술적 개선으로 인한)은 모델에 대한 변경을 요구하지 않는다.[5]
모델 요소
원인 모델은 특정한 성질을 가진 요소들을 가진 형식 구조를 가지고 있다.[5]
접합 패턴
3개 노드의 세 가지 연결 유형은 선형 체인, 분기 포크와 병합 콜라이더다.[5]
체인
체인은 화살이 원인에서 효과로 향하는 직선 연결이다. 이 모델에서 은(는) A}이(가) C C[5]: 113 에 대해 가질 수 있는 변경을 중재한다는 점에서 중재자 역할을 한다.
포크
포크의 경우 하나의 원인이 여러 가지 효과를 가진다. 그 두 가지 효과는 공통적인 원인이 있다. ( 의 특정 값인 경우) {\displaystyle B}[5]: 114 에 대한 조절을 통해 제거할 수 있는 및 사이에 (비경고) 가상 상관 관계가 존재한다.
"Condition on B는 " 즉, B 를 의미한다.
포크의 정교함은 다음과 같은 혼돈이다.
모델에서 은 (는) 및 또한 을(를) 교란자로[clarification needed] 만드는 일반적인 이다.[5]: 114
충돌기
칼라이더에서는 여러 원인이 하나의 결과에 영향을 미친다. 의 특정 값에 대해에 대한 조절을 수행하면 A과( C {\ 사이의 비-경고 음의 상관 관계가 나타나는 경우가 많다 이 (가) 과 (와) 사이의 상관관계를 설명함에 따라 이러한 부정적인 상관관계를 충돌기 편향과 "폭발" 효과라고 부른다[5]: 115 에 영향을 미치기 위해 및 의 기여가 필요한 경우 상관관계는 양수일 수 있다[5]: 197
노드 유형
중재자
중재자 노드는 결과에 대한 다른 원인의 영향을 수정한다(단순히 결과에 영향을 미치는 것과는 대조적이다).[5]: 113 를 들어 위의 체인 예에서 은(는) C 결과)에대한 A {\ 의 간접 원인)의 영향을 수정하기 때문에 중재자 역할을 한다.
교란자
교란 노드는 여러 결과에 영향을 미치며, 그것들 사이에 긍정적인 상관관계를 형성한다.[5]: 114
기악 변수
기악 변수는 다음과 같은 변수 중 하나이다.[5]: 246
- 결과에 대한 경로가 있음.
- 인과 변수에 대한 다른 경로가 없음.
- 결과에 직접적인 영향을 미치지 않는다.
회귀 계수는 결과가 혼동되지 않는 한 결과에 대한 기악 변수의 인과 효과의 추정치로 작용할 수 있다. 이러한 방식으로, 기악 변수는 교란자에 대한 데이터 없이 인과 인자를 정량화할 수 있다.[5]: 249
예를 들어 모델 지정:
은(는) Y 에 대한 경로를 가지며 에 의해 근거가 없기 때문에 기악 변수다
의 예에서 과 X 이(가) 이항 값을 취하면 = X= Z가) 발생하지 않는다는 가정을 단항성이라고[clarification needed] 한다.[5]: 253
그 technique[해명 필요한]에 음질 다른 variable[해명 필요한]에 스틱과 confounder[해명 필요한]과 단일 악기 경우개를 형성하기 위해 여러개의 변수 조합 사이의 paths[해명 필요한]block[해명 필요한]조절에 의한 instrument[해명 필요한]을 설립하다.arification 해결이 필요했다.[5]:257
멘델의 무작위화
정의: 멘델리안 무작위화는 관찰 연구에서 질병에 대한 수정 가능한 노출의 인과적 영향을 조사하기 위해 알려진 기능의 유전자의 측정된 변이를 사용한다.[12][13]
유전자는 모집단에 따라 랜덤하게 다르기 때문에, 유전자의 존재는 일반적으로 기악 변수로 적합하며, 이는 많은 경우에 관찰 연구에 대한 회귀 분석을 사용하여 인과 관계를 계량화할 수 있음을 암시한다.[5]: 255
연관성
독립조건
독립조건은 두 변수가 서로 독립되어 있는지 여부를 결정하기 위한 규칙이다. 변수는 한 변수의 값이 다른 변수의 값에 직접 영향을 미치지 않는 경우 독립적이다. 다중 인과 모델은 독립성 조건을 공유할 수 있다. 예를 들어, 모델
그리고
에 대한 조절은 A 및 을 (를) 독립적으로 남기 때문에 동일한 독립 조건을 가진다. 그러나 두 모델은 같은 의미를 가지지 않으며 데이터를 기반으로 변조될 수 있다(즉, 관측 가 B 에 대한 조건화 후 과 C 사이의 연관성을 보여준다면 두 모델 모두 부정확하다). 반대로 데이터는 이 두 모델 중 어느 것이 올바른지 보여줄 수 없다. 왜냐하면 그들은 동일한 독립 조건을 가지고 있기 때문이다.
변수에 대한 조절은 가상의 실험을 수행하기 위한 메커니즘이다. 변수에 대한 조건화에는 주어진 조건화 변수의 값에 대한 다른 변수의 값을 분석하는 것이 포함된다. 번째 예에서 B 에 대한 조절은 의 주어진 값에 관측치가 A 과 C 사이에 의존성을 나타내지 않아야 함을 의미한다 만약 그러한 의존성이 존재한다면, 모델은 부정확하다. 비-주의 모델은 인과적 주장을 하지 않기 때문에 그러한 구분을 할 수 없다.[5]: 129–130
교란자/교란자
상관 연구 설계의 필수 요소는 인구통계학처럼 연구 중인 변수에 대한 잠재적 교란 영향을 식별하는 것이다. 이러한 변수는 그러한 영향을 제거하기 위해 제어된다. 그러나 교란 변수의 정확한 리스트는 선행 변수를 결정할 수 없다. 따라서 연구가 관련 없는 변수 또는 연구 중인 변수를 (간접적으로) 통제할 수 있다.[5]: 139
인과 모델은 적절한 교란 변수를 식별하기 위한 강력한 기술을 제공한다. 공식적으로, Z는 "Y가 X를 통과하지 않는 경로를 통해 Z와 연관된다"는 경우 교란 요인이다. 이것들은 종종 다른 연구를 위해 수집된 데이터를 사용하여 결정할 수 있다. 수학적으로, 만약
그런 다음 X와 Y는 (어떤 교란 변수 Z에 의해) 교란되었다고 말한다.[5]: 151
이전에 알려진 잘못된 교란기 정의에는 다음이 포함된다.[5]: 152
- "X와 Y 둘 다와 상관관계가 있는 변수"
- Y는 노출되지 않은 사람들 사이에서 Z와 연관되어 있다.
- 책임 없음: 잠재적 교란자에 대한 조정 후 발생하는 상대 위험과 균열 상대 위험 사이의 차이.
- 역학: 일반 모집단의 X와 연관되고 X에 노출되지 않은 사람들 사이의 Y와 연관된 변수.
후자는 모델에서 다음과 같은 점에서 결함이 있다.
Z는 정의와 일치하지만 교란자가 아닌 중재자로, 결과에 대한 통제의 예다.
모델에서
전통적으로 B는 X와 Y와 연관되어 있지만 인과 경로에 있지 않고 인과 경로에 있는 어떤 것의 자손도 아니기 때문에 교란자로 간주되었다. B를 통제하면 교란자가 된다. 이것은 M-bias라고 알려져 있다.[5]: 161
백도어 조정
인과적 모델에서 Y에 대한 X의 인과적 영향을 분석하기 위해 모든 교란 변수(충돌)에 대해 조정할 필요가 있다. 교란 요인 집합을 식별하기 위해서는 (1) 이 집합에 의해 X와 Y 사이의 모든 비-유해 경로를 방해하지 않고 (3) 가상 경로를 만들지 않고 차단해야 한다.[5]: 158
정의: 변수 X에서 Y까지의 백도어 경로는 X를 가리키는 화살표로 시작하는 X에서 Y까지의 모든 경로다.[5]: 158
정의: 모델에서 순서가 지정된 변수 쌍(X,Y)에 따라, (1) 교란 변수 Z가 X의 하위 변수이고 (2) 교란 변수 집합에 의해 X와 Y 사이의 모든 백도어 경로가 차단되는 경우, 일련의 교란 변수 Z는 백도어 기준을 만족한다.
백도어 기준이 (X,Y)에 대해 충족되면 X와 Y는 교란 변수 집합에 의해 교란된다. 교란 변수 이외의 변수를 제어할 필요는 없다.[5]: 158 백도어 기준은 X가 y에 미치는 인과효과 분석을 중단하기 위한 변수 Z의 집합을 찾기에 충분하지만 필요하지 않은 조건이다.
인과모형이 현실의 그럴듯한 표현이고 백도어 기준이 충족되면 부분 회귀 계수를 (선형 관계의 경우) 경로 계수로 사용할 수 있다.[5]: 223 [14]
프론트 도어 조정
차단 경로의 요소가 모두 관측할 수 없는 경우 백도어 경로를 계산할 수 없지만, → Y X Y에서 모든 전진 에 {\ 이 (가) 있는 경우 는 의 집합인 Z{\Z을 사용할 수 있다. 를 측정하기 위해 d ( )PY 사실상 이(가) 의 프록시 역할을 할 수 있는 조건이 있다
정의:에 데이터를 모든 z∈ Z{\displaystylez\in Z},[5]:226Z{Z\displaystyle}Y{Y\displaystyle}모든 지시했다 길 X{X\displaystyle}절편을 이용할 수 있는frontdoor 길은 직접적인 인과 경로, Z{Z\displaystyle}Y{Y\displaystyle}에 이르 풀리길은 있다.d모든 bac 에서 까지의 kdoor 경로는 에 의해 차단된다
다음은 앞문 경로를 따라 변수를 조건화하여 실행 식을 실행 없는 식으로 변환한다.[5]: 226
이러한 관측 가능한 확률에 대한 추정 데이터를 이용할 수 있으며, 궁극적인 확률은 다른 교란 경로의 존재와 무관하게 백도어 조정 없이 실험 없이 계산될 수 있다.[5]: 226
중재
쿼리
질의는 특정 모델에 기초하여 질문하는 질문이다. 그것들은 일반적으로 수행 실험(간섭)을 통해 대답된다. 개입은 모형에서 한 변수의 값을 고정시키고 그 결과를 관찰하는 형태를 취한다. 수학적으로 그러한 질의는 (예에서)[5]: 8 형식을 취한다).
여기서 do 연산자는 실험이 치약 가격을 명시적으로 수정했음을 나타낸다. 그래픽적으로, 이것은 그 변수에 영향을 미칠 모든 인과 요인을 차단한다. 다이어그램으로 실험 변수를 가리키는 모든 인과 화살을 지운다.[5]: 40
do 연산자를 여러 변수에 적용(값이 고정)하는 보다 복잡한 질의가 가능하다.
미적분학을 하다
do 미적분학은 do 연산자를 포함하는 표현을 그렇지 않은 표현으로 변환하는 일반적인 목표를 가지고 한 표현식을 다른 표현으로 변환하는 데 사용할 수 있는 조작의 집합이다. 도 운영자를 포함하지 않는 표현은 비용이 많이 들거나, 장황하거나 심지어 비윤리적일 수 있는 실험적인 개입 없이 관찰 데이터만으로 추정할 수 있다(예:[5]: 231 피실험자에게 흡연을 권유). 규칙 집합은 완전하다(이 시스템의 모든 참된 진술을 도출하는 데 사용될 수 있다).[5]: 237 알고리즘은 주어진 모델의 경우 다항식 시간에 솔루션을 계산할 수 있는지 여부를 결정할 수 있다.[5]: 238
규칙.
미적분학에는 do 연산자와 관련된 조건부 확률식 변환에 대한 세 가지 규칙이 포함되어 있다.
규칙1길
규칙 1은 관찰의 추가 또는 삭제를 허용한다.[5]: 235
변수 집합 Z가 W에서 Y까지의 모든 경로를 차단하고 X로 이어지는 모든 화살표를 삭제한 경우.[5]: 234
규칙2길
규칙 2는 간섭을 관찰로 대체하거나 그 반대의 경우를 허용한다.[5]: 235
규칙3길
규칙 3은 개입의 삭제 또는 추가를 허용한다.[5]
X와 Y를 연결하는 인과 경로가 없는 [5]: 234 경우
확장
이 규칙은 어떤 질의도 do 연산자를 제거할 수 있다는 것을 의미하지는 않는다. 그러한 경우, 조작의 대상이 되는 변수(예: 식이요법)를 그렇지 않은 변수(예: 혈중 콜레스테롤) 대신 대체할 수 있으며, 이는 그 후 도(do)를 제거하기 위해 변형될 수 있다. 예:
반사실
반사실론자들은 데이터에서 발견되지 않는 가능성, 예를 들어 비흡연자가 흡연자였더라면 암에 걸렸을지 여부를 고려한다. 그들은 펄의 인과 사다리 위에서 가장 높은 단계다.
잠재적 결과
정의: 변수 Y의 잠재적 결과는 "X가[clarification needed] x 값을 할당받았더라면 개별 u에 대해 Y가 취할 수 있었을 값"이다. 수학적으로:[5]: 270
- = ( ) 또는 Y (
잠재적 결과는 개별 u의 수준에서 정의된다.[5]: 270
잠재적 결과에 대한 전통적인 접근방식은 모델 중심적인 것이 아니라 데이터로서 인과관계를 푸는 능력을 제한한다. 인과질문을 자료 누락의 문제로 취급하고, 표준 시나리오에도 오답으로 답한다.[5]: 275
인과추론
인과모형의 맥락에서 잠재적 결과는 통계적으로 해석하기 보다는 인과적으로 해석된다.
인과 추론의 첫 번째 법칙은 잠재적 결과가
원인 모델 M을 수정하고(화살을 X로 삭제하여) 일부 x에 대한 결과를 계산하여 계산할 수 있다. 공식적으로:[5]: 280
반사실화 수행
인과적 모형을 사용하여 반사실적 검사를 하는 데는 세 가지 단계가 포함된다.[16] 이 접근방식은 모델 관계의 형태, 선형 또는 그 밖의 형태에 관계없이 유효하다. 모델 관계가 완전히 지정되면 점 값을 계산할 수 있다. 다른 경우(예: 확률만 사용할 수 있는 경우)에는 비흡연자 x와 같은 확률 간 진술이 암 발생 확률이 10-20%의 암 확률이 있다.[5]: 279
모델 지정:
회귀 분석 또는 다른 기법에서 도출된 A와 C의 값을 계산하는 방정식을 적용할 수 있으며, 관측치로부터 알려진 값을 대체하고 다른 변수의 값(반사실)을 고정할 수 있다.[5]: 278
납북
반사실관계를 지지하는 특정 관찰에 대해 관찰되지 않은 변수의 대용물인 u를 추정하기 위해 유괴적 추론(관측을 사용하여 가장 단순하고 가장 가능성이 높은 설명을 찾는 논리적 추론)을 적용한다.[5]: 278 명제적 증거를 제시한 u의 확률을 계산한다.
행동하다
특정 관측치의 경우 do 연산자를 사용하여 반사실적(예: m=0)을 설정하고 그에 따라 방정식을 수정하십시오.[5]: 278
예측하다
수정된 방정식을 사용하여 출력값(y)을 계산한다.[5]: 278
조정
직접적 및 간접적(중복적) 원인은 반사실화 수행을 통해서만 구별할 수 있다.[5]: 301 중재를 이해하려면 중재자를 일정하게 유지하면서 직접적 대의에 개입해야 한다. 모델에서
M은 Y에 대한 X의 영향력을 매개하고, X는 Y에도 즉시 영향을 미치지 않는다. 따라서 M은 일정하게 유지되는 반면 do(X)는 계산된다.
조정 오류는 대신 중재자와 결과가 혼동될 경우 중재자를 위 모델과 같이 조건화하는 것을 포함한다.
선형 모델의 경우, 조정 경로를 따라 모든 경로 계수의 곱을 취함으로써 간접 효과를 계산할 수 있다. 총 간접 효과는 개별 간접 효과의 합계로 계산한다. 선형 모델의 경우 중재자를 포함하지 않고 적합된 방정식의 계수가 이를 포함하는 방정식과 유의하게 다를 때 중재를 나타낸다.[5]: 324
직접효과
그러한 모델에 대한 실험에서 조정자 M의 값(do(M = 0))을 강제하고 X의 각 값(do(X=0, do(X=0), do(X=1)에 일부 대상을 무작위로 할당하고 Y의 결과 값을 관찰하여 제어된 직접 효과(CDE)를 계산한다.[5]: 317
중재자의 각 가치에는 상응하는 CDE가 있다.
그러나 더 좋은 실험은 자연적인 직접효과를 계산하는 것이다.(NDE) X와 Y의 관계에 개입하면서 X와 M의 관계를 그대로 방치함으로써 결정되는 효과다.[5]: 318
예를 들어 격년차에서 매년 치과용 자기유전자 방문(X)을 증가시켜 치실(M)을 부추기는 직접적인 효과를 고려한다. 잇몸(Y)은 자기유전자(직접)나 치실(중재자/간접) 때문에 건강해진다. 이 실험은 자기유전자의 방문을 건너뛰면서 치실을 계속하는 것이다.
간접효과
X가 Y에 미치는 간접적인 영향은 "X 상수를 유지하면서 Y에서 볼 수 있는 증가와 X의 단위 증가에 따라 M이 얻을 수 있는 값까지 증가"이다.[5]: 328
다른 변수 상수를 유지하여 직접 경로를 비활성화할 수 없으므로 간접 효과를 "제어"할 수 없다. 자연적 간접효과(NIE)는 치실(M)으로 인한 잇몸건강(Y)에 미치는 영향이다. NIE는 효소학자가 주어지는 치실 확률과 효소학자가 없는 경우의 차이에 대한 총합(플로스 및 무염화 사례)으로 계산된다.[5]: 321
위의 NDE 계산에는 반사실적 첨자가 포함된다(M = {\ 비선형 모형의 경우 겉으로 보기에 명백한 동등성[5]: 322
임계값 효과 및 이진수 값과 같은 이상 징후로 인해 적용되지 않는다. 하지만
모든 모델 관계(선형 및 비선형)에 적합 따라서 NDE는 반사실적 첨자의 개입이나 사용 없이 관측 데이터에서 직접 계산할 수 있다.[5]: 326
운송성
인과 모델은 인과 모델(및 관련 데이터)이 다르더라도 전송이라고 알려진 데이터셋 전체에 걸쳐 데이터를 통합할 수 있는 차량을 제공한다. 예를 들어, 조사 데이터는 무작위화되고 통제된 평가판 데이터와 병합될 수 있다.[5]: 352 운송은 연구가 다른 맥락에서 적용될 수 있는지에 대한 외부 타당성 문제에 대한 해결책을 제공한다.
두 모형이 모든 관련 변수에 대해 일치하고 한 모형의 데이터가 편향되지 않은 것으로 알려진 경우, 한 모집단의 데이터를 사용하여 다른 모형에 대한 결론을 도출할 수 있다. 다른 경우, 데이터가 편향된 것으로 알려진 경우, 재가중화를 통해 데이터 집합을 전송할 수 있다. 세 번째 경우에는 불완전한 데이터 집합에서 결론을 도출할 수 있다. 어떤 경우에는 여러 모집단의 연구에서 얻은 데이터를 (교통을 통해) 결합하여 측정되지 않은 모집단에 대한 결론을 내릴 수 있다. 복수 연구의 추정치(예: P(W X))를 결합하면 결론의 정밀도를 높일 수 있는 경우도 있다.[5]: 355
do-미적분은 수송에 대한 일반적인 기준을 제공한다: 목표 변수는 "차이 생성" 변수(두 모집단을 구분하는 변수)를 포함하지 않는 일련의 시행을 통해 다른 표현으로 변환될 수 있다.[5]: 355 유사한 규칙은 참여자가 상당히 다른 연구에 적용된다.[5]: 356
베이시안 네트워크
어떠한 인과적 모델도 베이시안 네트워크로서 구현될 수 있다. 베이지안 네트워크는 사건의 역확률을 제공하는 데 사용될 수 있다(결과에 따라, 특정 원인의 확률은 얼마인가). 이를 위해서는 가능한 모든 입력과 결과를 관련 확률로 보여주는 조건부 확률표를 작성해야 한다.[5]: 119
예를 들어 질병과 테스트(질병의 경우)의 두 가지 변수 모형이 주어진 조건부 확률표는 다음과 같은 형태를 취한다.[5]: 117
테스트 | ||
---|---|---|
병 | 긍정적인 | 네거티브 |
네거티브 | 12 | 88 |
긍정적인 | 73 | 27 |
이 표에 따르면, 환자가 그 병에 걸리지 않았을 때, 양성 테스트의 확률은 12%이다.
이는 작은 문제에 대해 추적 가능한 반면, 변수의 수와 관련 상태가 증가함에 따라 확률표(및 관련 계산 시간)는 기하급수적으로 증가한다.[5]: 121
베이지안 네트워크는 무선 데이터 오류 수정과 DNA 분석과 같은 애플리케이션에서 상업적으로 사용된다.[5]: 122
불변성/컨텍스트
인과관계의 다른 개념화는 불변관계의 개념을 포함한다. 손으로 쓴 숫자를 식별하는 경우 숫자 모양이 의미를 제어하므로 모양과 의미가 불변이다. 모양을 바꾸면 의미가 바뀐다. 다른 속성은 그렇지 않다(예: 색상). 이 비침습성은 서로 다른 컨텍스트에서 생성된 데이터셋을 가로질러 전달되어야 한다(비침습적 속성이 컨텍스트를 형성한다). 풀링된 데이터 세트를 사용하여 학습(인과성 평가)하는 것보다 한 데이터 세트에 대해 학습하고 다른 데이터 세트에 대해 테스트하는 것이 변종과 불변성 특성을 구별하는 데 도움이 될 수 있다.[17]
참고 항목
- 인과 네트워크 – 인과 관계가 인과 관계라는 명시적 요건이 있는 베이시안 네트워크
- 구조적 방정식 모델링 – 인과관계 테스트 및 추정을 위한 통계적 기법
- 경로분석(통계)
- 베이시안 네트워크
- 인과 지도
참조
- ^ Karl Friston (Feb 2009). "Causal Modelling and Brain Connectivity in Functional Magnetic Resonance Imaging". PLOS Biology. 7 (2): e1000033. doi:10.1371/journal.pbio.1000033. PMC 2642881. PMID 19226186.
- ^ Barlas, Yaman; Carpenter, Stanley (1990). "Philosophical roots of model validation: Two paradigms". System Dynamics Review. 6 (2): 148–166. doi:10.1002/sdr.4260060203.
- ^ a b c 2009년 진주
- ^ Hitchcock, Christopher (2018), "Causal Models", in Zalta, Edward N. (ed.), The Stanford Encyclopedia of Philosophy (Fall 2018 ed.), Metaphysics Research Lab, Stanford University, retrieved 2018-09-08
- ^ a b c d e f g h i j k l m n o p q r s t u v w x y z aa ab ac ad ae af ag ah ai aj ak al am an ao ap aq ar as at au av aw ax ay az ba bb bc bd be bf bg bh bi bj bk bl bm bn bo bp bq br bs bt bu bv bw bx by bz ca cb cc cd ce cf cg ch ci cj ck cl cm Pearl, Judea; Mackenzie, Dana (2018-05-15). The Book of Why: The New Science of Cause and Effect. Basic Books. ISBN 9780465097616.
- ^ Okasha, Samir (2012-01-12). "Causation in Biology". In Beebee, Helen; Hitchcock, Christopher; Menzies, Peter (eds.). The Oxford Handbook of Causation. 1. OUP Oxford. doi:10.1093/oxfordhb/9780199279739.001.0001. ISBN 9780191629464.
- ^ 아바네시안, 브이앤프링크만, L. (2002) 빅뱅의 비용 절감: 전환 초기 아르메니아 경제에 대한 외부 충격의 영향. SSRN 2401443에서 이용 가능
- ^ Pearl, Judea (29 Oct 2019). "Causal and Counterfactual Inference" (PDF). Retrieved 14 December 2020. Cite 저널은 필요로 한다.
journal=
(도움말) - ^ Epp, Susanna S. (2004). Discrete Mathematics with Applications. Thomson-Brooks/Cole. pp. 25–26. ISBN 9780534359454.
- ^ a b "Causal Reasoning". www.istarassessment.org. Retrieved 2 March 2016.
- ^ Riegelman, R. (1979). "Contributory cause: Unnecessary and insufficient". Postgraduate Medicine. 66 (2): 177–179. doi:10.1080/00325481.1979.11715231. PMID 450828.
- ^ Katan MB (March 1986). "Apolipoprotein E isoforms, serum cholesterol, and cancer". Lancet. 1 (8479): 507–8. doi:10.1016/s0140-6736(86)92972-7. PMID 2869248. S2CID 38327985.
- ^ Smith, George Davey; Ebrahim, Shah (2008). Mendelian Randomization: Genetic Variants as Instruments for Strengthening Causal Inference in Observational Studies. National Academies Press (US).
- ^ Pearl 2009, 3-3장 교란 편견 제어
- ^ Pearl, Judea; Glymour, Madelyn; Jewell, Nicholas P. Causal Inference in Statistics: A Primer. ISBN 978-1-119-18684-7.
- ^ 2009년, 페이지 207.
- ^ Hao, Karen (May 8, 2019). "Deep learning could reveal why the world works the way it does". MIT Technology Review. Retrieved February 10, 2020.
원천
- Pearl, Judea (2009-09-14). Causality. Cambridge University Press. ISBN 9781139643986.
외부 링크
- Pearl, Judea (2010-02-26). "An Introduction to Causal Inference". The International Journal of Biostatistics. 6 (2): Article 7. doi:10.2202/1557-4679.1203. ISSN 1557-4679. PMC 2836213. PMID 20305706.
- PhilPaper의 인과 모델링
- Falk, Dan (2019-03-17). "AI Algorithms Are Now Shockingly Good at Doing Science". Wired. ISSN 1059-1028. Retrieved 2019-03-20.
- Maudlin, Tim (2019-08-30). "The Why of the World". Boston Review. Retrieved 2019-09-09.
- Hartnett, Kevin. "To Build Truly Intelligent Machines, Teach Them Cause and Effect". Quanta Magazine. Retrieved 2019-09-19.
- [1]
- ^ Learning Representations using Causal Invariance, ICLR, February 2020, retrieved 2020-02-10