성향 점수 일치

Propensity score matching

관측 데이터통계적 분석에서 성향 점수 일치(PSM)는 치료 수령을 예측하는 공변량을 회계처리하여 치료, 정책 또는 기타 개입의 효과를 추정하려고 하는 통계적 일치 기법이다. PSM은 치료를 받은 단위와 받지 않은 단위 사이의 결과를 단순 비교함으로써 얻을 수 있는 치료 효과의 추정치에서 찾을 수 있는 교란 변수 때문에 편향을 줄이려고 한다. 폴 R. 로젠바움도널드 루빈은 1983년에 이 기술을 도입했다.[1]

치료 집단과 미치료 집단 간의 치료 결과의 차이(평균 치료 효과 등)가 치료 자체보다는 치료를 예측하는 요인에 의해 발생할 수 있기 때문에 편향의 가능성이 발생한다. 무작위화된 실험에서 랜덤화는 치료 효과의 편중되지 않은 추정을 가능하게 한다. 각 공변량에 대해 랜덤화는 대수의 법칙에 의해 평균적으로 치료 집단이 균형을 이룰 것임을 의미한다. 불행히도 관찰연구의 경우, 연구주체에 대한 치료의 배정은 일반적으로 무작위가 아니다. 매칭은 관찰된 모든 공변량에서 치료를 받지 않은 단위의 표본과 비교할 수 있는 치료를 받은 단위의 표본을 만들어 치료 할당 편향을 줄이고 무작위화를 모방한다.

예를 들어, 사람들은 흡연의 결과를 알고 싶어할 수도 있다. 사람들을 무작위로 '흡연' 치료에 배정하는 것은 비윤리적이기 때문에 관찰 연구가 필요하다. 단순히 흡연자와 담배를 피우지 않은 사람을 비교하여 추정하는 치료 효과는 흡연을 예측하는 어떤 요인(예: 성별과 나이)에 의해 편향될 수 있다. PSM은 관리 변수와 관련하여 치료 및 비치료 그룹을 비교 가능하게 함으로써 이러한 편견을 통제하려고 시도한다.

개요

PSM은 다음과 같은 비실험적 환경에서 인과적 추론과 단순한 선택 편향의 경우를 위한 것이다: (i) 비치료 비교 그룹에서 치료 단위와 비교되는 단위는 거의 없으며, (ii) 치료 단위와 유사한 비교 단위의 부분집합을 선택하는 것은 어렵다. 왜냐하면 단위는 고차원적인 pr 집합에서 비교되어야 하기 때문이다.전처리 특성

정상적인 매칭에서는 치료 그룹과 대조군을 구별하는 단일 특성이 일치하여 그룹을 더 비슷하게 만들려고 한다. 그러나 두 집단의 중첩이 상당하지 않을 경우 상당한 오류가 발생할 수 있다. 예를 들어, 처리되지 않은 "비교" 그룹의 최악의 사례만 치료 그룹의 최상의 사례와 비교한다면, 그 결과는 평균에 대한 회귀일 수 있으며, 이는 비교 그룹을 현실보다 더 좋게 보이거나 나쁘게 보이게 할 수 있다.

PSM은 관측된 예측 변수에 근거하여 그룹 구성원 자격(예: 치료 대 대조군 그룹)의 예측 확률을 적용하며, 통상적으로 역사실적 그룹을 만들기 위해 로지스틱 회귀 분석을 통해 얻는다. 성향 점수는 일치하거나 공변량으로 단독으로 또는 다른 일치하는 변수나 공변량과 함께 사용할 수 있다.

일반절차

1. 로지스틱 회귀 분석 실행:

  • 종속 변수: Z = 1, 단위가 참여한 경우(, 치료 그룹의 멤버), Z = 0, 단위가 참여하지 않은 경우(즉, 대조군의 멤버).
  • 적절한 교란 요인 선택(치료 및 결과 모두와 연관되도록 가정된 변수)
  • 성향 점수: 예측 확률(p) 또는 로그[p/(1 - p)]의 추정치를 구한다.

2. 공변량이 성향 점수 계층 내에서 치료 및 비교 그룹 간에 균형을 이루는지 확인한다.

  • 표준화된 차이 또는 그래프를 사용하여 분포 조사

3. 성향 점수에서 각 참가자를 1명 이상의 비참여자에게 다음 방법 중 하나를 사용하여 매칭한다.

  • 가장 가까운 이웃 일치
  • 캘리퍼 일치: 처리된 단위의 성향 점수에서 일정 폭 이내의 비교 단위가 일치하며, 여기서 폭은 일반적으로 성향 점수의 표준 편차의 일부분이다.
  • PSM과 함께 Mahalanobis 메트릭 매칭
  • 층화 매칭
  • 차이점 일치(커널 및 로컬 선형 가중치)
  • 정확한 일치

4. 공변량이 일치 또는 가중 표본의 처리 및 비교 그룹 간에 균형을 이루는지 확인

5. 새로운 표본을 이용한 다변량 분석

  • 각 참가자와 둘 이상의 비참여자가 일치하는 경우, 독립적인 일치 표본에 적합한 분석 사용

참고: 단일 처리된 관측치에 대해 일치하는 항목이 여러 개 있는 경우 일반 최소 제곱보다는 가중 최소 제곱을 사용하는 것이 필수적이다.

형식 정의

기본 설정

기본 사례는[1] 두 가지 처리(1번과 0번)이며, N [독립적이고 동일한 분포의 무작위 변수 i.i.d] 피험자가 있다. 피험자는 1}를 사용하여 치료에 반응하고, 0 {\을(를) 사용하여 컨트롤에 응답한다 추정할 수량은 평균 처리 효과: [ r - E[ 0 {\대상자가 치료(Z = 1)를 받았는지 또는 대조군(Z = 0)을 받았는지를 나타낸다. 를 ih 피험자에 대해 관찰된 전처리 측정(또는 공변량)의 벡터가 되도록 한다. 의 관찰은 치료 할당 전에 이루어지지만, 의 특징은 치료 할당을 결정하는 데 사용되는 모든(또는 모든) 기능을 포함하지 않을 수 있다. 단위 번호 매기기(예: i = 1, ..., i = N)는 i 에 포함된 것 이상의 정보를 포함하지 않는 것으로 가정한다 다음 절에서는 일부 과목의 확률적 행동에 대해 여전히 논의하면서 i 지수를 생략할 것이다.

매우 무시하기 어려운 치료 과제

어떤 대상에게 공변량 X의 벡터(즉, 조건부 미근거)를 갖게 하고, 어떤 잠재적 결과 r0 r1 각각 통제 및 치료하에 두도록 한다. 치료 배정은 잠재적 결과가 배경 변수 X를 조건으로 치료(Z)와 독립적일 경우 강력하게 무시될 수 있다고 한다. 이것은 다음과 같이 간결하게 쓰여질 수 있다.

여기서 은(는) 통계적 독립성을 의미한다.[1]

균형점수

균형점수 b(X)는 X 주어진 b(X)의 조건부 분포가 처리(Z = 1)와 대조군(Z = 0) 단위가 같도록 관측된 공변량 X의 함수다.

가장 사소한 (X )= 입니다

성향 점수

성향 점수는 단위(예: 사람, 교실, 학교)가 관찰된 공변량 집합에 주어진 특정 치료에 할당될 확률이다. 성향 점수는 이러한 공변량을 바탕으로 그룹을 동일시하여 선택 편향을 줄이는 데 사용된다.

이항 처리 지시자 Z, 반응 변수 r 및 배경 관찰 공변량 X가 있다고 가정합시다. 성향 점수는 주어진 배경 변수에 대한 치료의 조건부 확률로 정의된다.

인과 추론조사 방법론의 맥락에서 성향 점수는 (로지스틱 회귀 분석, 무작위 포리스트 의 방법을 통해) 공변량 집합을 사용하여 추정한다. 이러한 성향 점수는 역 확률 가중치 방법에 사용될 가중치에 대한 추정치로 사용된다.

주요 이론들

1983년 로젠바움(Rosenbaum)과 루빈(Rubin)에 의해 처음 제시되고 증명된 것은 다음과 같다.[1]

  • 성향 점수 ( x) 은(는) 균형 점수다.
  • 성향 점수보다 '마이너스'인 점수는 균형 점수(예: ( )= (( ) e이다. 성향 점수는 (아마도) 다차원 객체(Xi)를 가져다가 한 차원으로 변환하기 때문에 가장 강력한 밸런싱 점수 함수인 반면, ( )= X 우수한 것이다.
  • 치료 과제가 X에게 주어지는 것을 무시할 수 없는 경우:
  • 그것은 또한 어떤 밸런싱 기능도 고려할 때 매우 무시하기 어렵다. 특히 성향 점수를 고려할 때:
  • 균형점수의 모든 값에 대해, 균형점수의 값이 동일한 피험자를 기준으로 하여, 현재 시료에 대한 처리수단과 통제수단의 차이(: "1- }-{1평균 처리효과불편 추정치 역할을 할 수 있다.[ - [ .
  • 균형점수의 표본추정을 사용하면 X에 표본균형이 발생할 수 있다.

자급률에 대한 관계

만약 우리가 Z의 값을 X의 분포에 영향을 미치는 모집단의 모수로 생각한다면, 균형 점수는 Z에게 충분한 통계량 역할을 한다. 더욱이 위의 정리들은 ZX의 매개변수로 생각한다면 성향 점수는 최소의 충분한 통계량임을 나타낸다. 마지막으로, 치료 과제 Z가 X에 주어진 경우, 성향 점수는 ( ,r ){\의 공동 분포에 대한 최소의 충분한 통계량이다..

교락 변수의 존재를 감지하기 위한 그래픽 테스트

유대 펄은 교란 변수의 존재를 감지하는 백도어 기준이라고 불리는 간단한 그래픽 테스트가 존재한다는 것을 보여주었다. 치료 효과를 추정하려면 배경 변수 X가 그래프의 모든 백도어 경로를 차단해야 한다. 이 차단은 교락 변수를 회귀 분석의 컨트롤로 추가하거나 교락 변수에 일치시킴으로써 수행될 수 있다.[2]

단점들

PSM은 "불균형, 비효율성, 모델 의존성, 편향성"을 증가시키는 것으로 나타났는데, 이것은 대부분의 다른 매칭 방법에서는 그렇지 않다.[3] 매칭 사용에 대한 통찰력은 여전히 유효하지만 다른 매칭 방법과 함께 적용되어야 한다; 성향 점수는 가중치와 두 배로 견실한 추정에서 다른 생산적인 용도를 가지고 있다.

다른 일치 절차와 마찬가지로 PSM은 관측 데이터에서 평균 치료 효과를 추정한다. PSM의 주요 장점은 도입 당시 단일 점수에 공변량의 선형 조합을 사용함으로써 다수의 관측치를 손실하지 않고 다수의 공변량으로 처리 그룹과 대조군 그룹의 균형을 맞춘다는 점이다. 처리와 제어의 단위가 한 번에 한 개씩 많은 공변량으로 균형을 이룬다면, 새로운 균형 공변량의 도입으로 표본에 필요한 최소 수의 관측치를 기하학적으로 증가시키는 "차원성 문제"를 극복하기 위해 많은 관측치가 필요할 것이다.

PSM의 한 가지 단점은 관측된(그리고 관측 가능한) 공변량만 설명하며 잠재된 특성은 설명하지 않는다는 것이다. 치료와 결과에 대한 할당에 영향을 미치지만 관찰할 수 없는 요인은 일치 절차에서 설명할 수 없다.[4] 이 절차는 관측된 변수에 대해서만 제어하므로, 일치 후에도 잠재적 변수에 의한 숨겨진 치우침이 남아 있을 수 있다.[5] 또 다른 문제는 PSM이 큰 표본을 필요로 하며, 처리 그룹과 대조군이 상당히 중복된다는 점이다.

관찰된 변수의 일치로 인해 휴면 중인 방해물로 인해 편견이 발생할 수 있기 때문에 숨겨진 편견이 실제로 증가할 수 있다고 주장해 온 유대 도 매칭에 대한 일반적인 우려를 제기해 왔다. 마찬가지로, 펄은 치료, 결과, 관찰된 공변량 및 관찰되지 않은 공변량 사이의 질적 인과 관계를 모델링함으로써(비증상적으로) 바이어스 감소를 보장할 수 있다고 주장해 왔다.[6] 교란 요인은 실험자가 독립 변수와 종속 변수 사이의 관찰된 관계에 대한 대체적인 비주의 설명에 대해 통제할 수 없을 때 발생한다. 그러한 통제는 펄의 "백도어 기준"을 만족시켜야 한다.[2]

통계 패키지의 구현

  • R: 성향 점수 일치는 다음 중 하나로 제공됨 MatchIt 꾸러미[7][8] 수작업으로도 쉽게 구현할 수 있다.[9]
  • SAS: PSMatch 절차 및 매크로 OneToManyMTCH 성향 점수를 기준으로 관측치를 일치시킨다.[10]
  • Stata: 사용자가 작성한 것을 [11]포함하여 여러 명령이 성향 점수 일치를 구현한다. psmatch2.[12] Stata 버전 13 이상에서는 기본 제공 명령도 제공함 teffects psmatch.[13]
  • SPSS: IBM SPSS Statistics 메뉴(Data/Propensity Score Matching)에서 성향 점수 매칭을 위한 대화상자를 사용할 수 있으며, 사용자는 일치 허용오차를 설정하고, 샘플을 그릴 때 대/소문자 순서를 랜덤화하고, 정확한 일치의 우선순위를 지정하고, 교체 여부와 상관없이 샘플을 지정하고, 랜덤 시드를 설정하고, 프로세스를 증가시켜 성능을 극대화할 수 있다.g 속도 및 메모리 사용 최소화 FUZZ Python 절차는 Extensions(확장) 대화 상자를 통해 소프트웨어 확장으로 쉽게 추가할 수 있다. 이 절차는 지정된 주요 변수 집합에 기초하여 조정기의 무작위 추첨을 활용하여 사례와 조정기를 일치시킨다. FUZI 명령은 정확하고 퍼지 일치 항목을 지원한다.

참고 항목

참조

  1. ^ a b c d Rosenbaum, Paul R.; Rubin, Donald B. (1983). "The Central Role of the Propensity Score in Observational Studies for Causal Effects". Biometrika. 70 (1): 41–55. doi:10.1093/biomet/70.1.41.
  2. ^ a b Pearl, J. (2000). Causality: Models, Reasoning, and Inference. New York: Cambridge University Press. ISBN 978-0-521-77362-1.
  3. ^ King, Gary; Nielsen, Richard (2019-05-07). "Why Propensity Scores Should Not Be Used for Matching". Political Analysis. 27 (4): 435–454. doi:10.1017/pan.2019.11. ISSN 1047-1987. 전체 기사에 링크(저자 홈페이지에서)
  4. ^ Garrido MM, et al. (2014). "Methods for Constructing and Assessing Propensity Scores". Health Services Research. 49 (5): 1701–20. doi:10.1111/1475-6773.12182. PMC 4213057. PMID 24779867.
  5. ^ Shadish, W. R.; Cook, T. D.; Campbell, D. T. (2002). Experimental and Quasi-experimental Designs for Generalized Causal Inference. Boston: Houghton Mifflin. ISBN 978-0-395-61556-0.
  6. ^ Pearl, J. (2009). "Understanding propensity scores". Causality: Models, Reasoning, and Inference (Second ed.). New York: Cambridge University Press. ISBN 978-0-521-89560-6.
  7. ^ Ho, Daniel; Imai, Kosuke; King, Gary; Stuart, Elizabeth (2007). "Matching as Nonparametric Preprocessing for Reducing Model Dependence in Parametric Causal Inference". Political Analysis. 15 (3): 199–236. doi:10.1093/pan/mpl013.
  8. ^ "MatchIt: Nonparametric Preprocessing for Parametric Causal Inference". R Project.
  9. ^ Gelman, Andrew; Hill, Jennifer (2007). Data Analysis Using Regression and Multilevel/Hierarchical Models. New York: Cambridge University Press. pp. 206–212. ISBN 978-0-521-68689-1.
  10. ^ Parsons, Lori. "Performing a 1:N Case-Control Match on Propensity Score" (PDF). SUGI 29: SAS Institute. Retrieved June 10, 2016.{{cite web}}: CS1 maint : 위치(링크)
  11. ^ STATA와 함께 성향 점수 매칭 추정기 구현. 강의 노트 2001
  12. ^ Leuven, E.; Sianesi, B. (2003). "PSMATCH2: Stata module to perform full Mahalanobis and propensity score matching, common support graphing, and covariate imbalance testing".
  13. ^ "teffects psmatch — Propensity-score matching" (PDF). Stata Manual.

참고 문헌 목록