因果效应估计方法
Causal Effect Estimation
这里系统的介绍下看到的关于因果估计的各种方法吧
实验与对照有时候会存在“选择偏差”,比如研究就业培训对未来收入的影响。参加就业培训的可能是失业、低收入者。 所以我们关心的是,实验组的未来收入是否会比这些人如果未参加培训的未来收入高。(消除个体影响)
评估指标#
场景设置:实验组treatment和对照组control,结果是Y
几个基础概念与指标
ITE#
ITE 即 individual的treatment effect.
ITE_i =y_{1i}-y_{0i}
ATE#
ATE 即平均处理效应(average treatment effect.)
ATE=E(y_{1i}-y_{0i})
CATE#
加了限制的平均处理效应(conditional average treatment effect),一般是总体中的一个子集
CATE=E(y_{1i}-y_{0i}|i \in xx)
ATT#
参与者平均处理效应 average treatment effect on Treated
ATT=E(y_{1i}-y_{0i}|D_i = 1)
然而实际数据中我们没办法同时观测到y_{0i}与y_{1i}, 没办法直接通过项目参与者与未参与者的差值来比较(会带来选择偏差)
实际操作#
按照是否支持有unobserved confounder
- 要求无unobserved confounder
regression adjustment#
建立有监督模型 Y=f(X, treat)
从而可以计算出p(y_i|t=1, X_i) - p(y_i| t=0, X_i)
这个方法非常简单,他在uplift模型(估计ITE)中也叫S-learner
PSM#
propensity score method,这类方法核心还是一种matching的逻辑,想想如果我们有做实验的条件,我们的做法是不是去做一个随机对照实验(RCT),也就是基于样本的特征去给他们分组然后控制变量。这就是一种最朴素的matching的逻辑
- 不要求no unobserved confounder的方法
IV#
深度学习表征#
1. 随机分组#
此时有 ATE=ATT
2. 假设个体依据可测变量选择是否参加——匹配估计#
匹配估计的基本思路:
对处理组或者对照组中的每个个体,在可测变量x维度上,去另外一个组去找相似的个体。 然后认为y_i-y_j是个人i的处理效应。最后将每个个体的处理效应进行平均,即可得到**匹配估计量**