跳转至

因果效应估计方法

Causal Effect Estimation

这里系统的介绍下看到的关于因果估计的各种方法吧

实验与对照有时候会存在“选择偏差”,比如研究就业培训对未来收入的影响。参加就业培训的可能是失业、低收入者。 所以我们关心的是,实验组的未来收入是否会比这些人如果未参加培训的未来收入高。(消除个体影响)

评估指标#

场景设置:实验组treatment和对照组control,结果是Y
几个基础概念与指标

ITE#

ITE 即 individual的treatment effect.
ITE_i =y_{1i}-y_{0i}

ATE#

ATE 即平均处理效应(average treatment effect.)
ATE=E(y_{1i}-y_{0i})

CATE#

加了限制的平均处理效应(conditional average treatment effect),一般是总体中的一个子集
CATE=E(y_{1i}-y_{0i}|i \in xx)

ATT#

参与者平均处理效应 average treatment effect on Treated
ATT=E(y_{1i}-y_{0i}|D_i = 1)
然而实际数据中我们没办法同时观测到y_{0i}y_{1i}, 没办法直接通过项目参与者与未参与者的差值来比较(会带来选择偏差)

实际操作#

按照是否支持有unobserved confounder

  1. 要求无unobserved confounder

regression adjustment#

建立有监督模型 Y=f(X, treat)
从而可以计算出p(y_i|t=1, X_i) - p(y_i| t=0, X_i)

这个方法非常简单,他在uplift模型(估计ITE)中也叫S-learner

PSM#

propensity score method,这类方法核心还是一种matching的逻辑,想想如果我们有做实验的条件,我们的做法是不是去做一个随机对照实验(RCT),也就是基于样本的特征去给他们分组然后控制变量。这就是一种最朴素的matching的逻辑

  1. 不要求no unobserved confounder的方法

IV#

深度学习表征#

1. 随机分组#

此时有 ATE=ATT

2. 假设个体依据可测变量选择是否参加——匹配估计#

匹配估计的基本思路:
对处理组或者对照组中的每个个体,在可测变量x维度上,去另外一个组去找相似的个体。 然后认为y_i-y_j是个人i的处理效应。最后将每个个体的处理效应进行平均,即可得到**匹配估计量**

3. 假设个体依据不可测变量选择是否参加#

参考资料#