본문 바로가기

블로그/인과추론

[Observational Studies] Propensity Score Matching(PSM)과 Endogeneity의 관계

Experiment가 인과추론의 Gold Standard이지만, 실무에서는 관측데이터로부터 인과추론을 해야할 경우가 존재한다. 그 중에서 Matching 방식에 대한 생각을 정리해본다.

 

1. Propensity Score Matching(PSM)과 Endogeneity의 관계
2. Propensity Score Matching이 Endogeneity를 어떻게 낮출 수 있는가?

 

1. Propensity Score Matching(PSM)과 Endogeneity의 관계

PSM은 처치를 받을 확률, 즉 propensity score를 사전에 모델링한 후, 그 확률이 유사한 관측치들끼리 매칭하는 방법이다. 이렇게 하면 처치 집단과 통제 집단이 공변량 기준으로 유사해지기 때문에, 비교 가능한 구조를 만들 수 있다.

 

[중요] 관찰 데이터에서는 처치가 무작위로 할당되지 않기 때문에, 특정 특성을 가진 사람들이 처치를 더 많이 받을 수 있다. 이로 인해 Selection Bias가 발생하고, 이는 Endogeneity(내생성)의 주요 원인 중 하나가 된다.

즉, PSM을 활용하면 처치와 결과 사이에 존재하는 Selection Bias를 줄일 수 있고, 결과적으로 Endogeneity 문제를 어느 정도 완화할 수 있다. 


2. PSM이 Endogeneity를 어떻게 낮출 수 있는가?

2.1 매칭을 통한 비교 가능성 확보

PSM은 처치 확률이 유사한 단위들 간의 매칭을 통해, 공변량이 유사한 집단을 구성한다. 이로 인해 비무작위 처치에서 발생하는 Selection Bias를 줄일 수 있다. 이때, 매칭되지 않은 샘플은 분석에서 제외되므로, 비교 대상이 되는 집단 간의 공정성이 높아진다. 이는 무작위 실험에서의 랜덤 할당과 유사한 효과를 가진다.

2.2 보완적 매칭 방법 활용

PSM 외에도 다음과 같은 매칭 방법들을 활용할 수 있다.

  • CEM(Coarsened Exact Matching)은 변수들을 일정 수준으로 범주화한 후, 정확히 일치하는 값들끼리 매칭하는 방식이다. PSM 보다 더 정밀한 매칭이 가능하다.
  • Look-ahead Matching은 미래 정보를 고려하여 좀 더 안정적인 매칭을 수행하는 기법이다.

2.3 관측되지 않은 교란 변수(Unobserved Confounder)와 민감도 분석

PSM은 관측 가능한 변수들만을 활용하기 때문에, 관측되지 않은 교란 변수의 영향을 완전히 통제할 수는 없다. 이때는 민감도 분석을 통해 결과의 강건성을 점검할 수 있다 (Revision 시에 필요)

  • 그 중에서도 Rosenbaum Sensitivity Bounds는 관측되지 않은 교란 요인이 분석 결과에 얼마나 영향을 줄 수 있는지를 추정하는 방법이다.
  • 아래 그림에서, Rosenbaum sensitivity analysis 결과를 보면 Gamma=1.5까지도 유의성이 유지.
  • Gamma가 커질수록, 즉 "관측되지 않은 교란 변수가 실제로 있을 가능성"을 반영하면 결과의 신뢰도가 떨어지게 된다.
  • Total expenditure (sig +)는 gamma=1.0일 때 1.00인데, gamma=1.5일 때는 0.25, gamma=1.6에서는 0.03까지 떨어진다.
    교란 변수가 존재할 경우, 이 결과는 믿기 어려워질 수 있다는 뜻
  • Rosenbaum bounds sensitivity analysis for hidden bias.
    Martey, Edward. "Welfare effect of organic fertilizer use in Ghana." Heliyon 4.10 (2018).

2.4 변수 선택의 중요성

PSM은 처치 확률을 모델링하는 것이기 때문에, 어떤 변수들을 모델에 포함시킬지의 여부가 매우 중요하다. 처치 확률에 영향을 주는 변수들을 제대로 반영하지 않으면 오히려 내생성을 유발할 수 있다. 디펜스나 논문 심사에서는 변수 선택의 논리성과 타당성이 중요한 검토 대상이 된다.


요약

  • PSM은 관측 가능한 변수 기준으로 유사한 집단을 매칭함으로써 Selection Bias를 줄이고, 그 결과 Endogeneity 문제도 일정 부분 완화할 수 있다.
  • 그러나 Unobserved Confounder는 여전히 문제이기 때문에, 민감도 분석이 필요하다.
  • 매칭 품질, 변수 선택, 보완적 방법의 활용 등도 함께 고려되어야 한다.