因果效应估计方法

Causal Effect Estimation

这里系统的介绍下看到的关于因果估计的各种方法吧

实验与对照有时候会存在“选择偏差”，比如研究就业培训对未来收入的影响。参加就业培训的可能是失业、低收入者。所以我们关心的是，实验组的未来收入是否会比这些人如果未参加培训的未来收入高。(消除个体影响)

评估指标#

场景设置：实验组treatment和对照组control，结果是Y
几个基础概念与指标

ITE#

ITE 即 individual的treatment effect.
$<span class="arithmatex"><span class="MathJax_Preview">ITE_i =y_{1i}-y_{0i}</span><script type="math/tex">ITE_i =y_{1i}-y_{0i}$

ATE#

ATE 即平均处理效应(average treatment effect.)
$<span class="arithmatex"><span class="MathJax_Preview">ATE=E(y_{1i}-y_{0i})</span><script type="math/tex">ATE=E(y_{1i}-y_{0i})$

CATE#

加了限制的平均处理效应(conditional average treatment effect),一般是总体中的一个子集
$<span class="arithmatex"><span class="MathJax_Preview">CATE=E(y_{1i}-y_{0i}|i \in xx)</span><script type="math/tex">CATE=E(y_{1i}-y_{0i}|i \in xx)$

ATT#

参与者平均处理效应 average treatment effect on Treated
$<span class="arithmatex"><span class="MathJax_Preview">ATT=E(y_{1i}-y_{0i}|D_i = 1)</span><script type="math/tex">ATT=E(y_{1i}-y_{0i}|D_i = 1)$
然而实际数据中我们没办法同时观测到 $y_{0i}$ 与 $y_{1i}$ , 没办法直接通过项目参与者与未参与者的差值来比较(会带来选择偏差)

实际操作#

按照是否支持有unobserved confounder

要求无unobserved confounder

regression adjustment#

建立有监督模型 Y=f(X, treat)
从而可以计算出 $p(y_i|t=1, X_i) - p(y_i| t=0, X_i)$

这个方法非常简单，他在uplift模型（估计ITE）中也叫S-learner

PSM#

propensity score method，这类方法核心还是一种matching的逻辑，想想如果我们有做实验的条件，我们的做法是不是去做一个随机对照实验(RCT)，也就是基于样本的特征去给他们分组然后控制变量。这就是一种最朴素的matching的逻辑

不要求no unobserved confounder的方法

IV#

深度学习表征#

1. 随机分组#

此时有 ATE=ATT

2. 假设个体依据可测变量选择是否参加——匹配估计#

匹配估计的基本思路：
对处理组或者对照组中的每个个体，在可测变量x维度上，去另外一个组去找相似的个体。然后认为y_i-y_j是个人i的处理效应。最后将每个个体的处理效应进行平均，即可得到**匹配估计量**