因果分析#
首先关于因果分析,并没有一个明确的定义。哲学中对因果关系的讨论,将其划分成了如下两类
- Type causality: 关注某个原因会导致什么结果,比如吸烟是否会导致肺癌? 由因推果
- Actual causality: 关注某个结果发生的具体原因是什么。比如恐龙灭亡的原因是六千万年的小行星撞地球导致的吗?由果推因
1.统计领域的因果推断#
场景: 在现实世界中我们会有大量的数据,我们希望从若干变量的一堆数据中提取出他们之间的因果关系,这时候要做的事情就是因果推断.
Pearl在《为什么》中指出因果关系之梯。
1. 关联
2. 干预
3. 反事实
统计模型只有关联层的信息,所以只能回答相关性问题,而不能回答干预问题和反事实问题。基于图的因果贝叶斯网络只有干预层的信息,所以只能回答干预和关联层的问题,而不能回答反事实问题。最后基于结构的因果模型,它的能力最接近物理模型,用函数关系表示原因和结果之间的关系,三个层级的问题都能够回答。
当下的因果建模主要有两个框架
(1) Potential Outcome Framework ——实验主义因果
设想一种与观测数据相悖的情况,比如对比用药与不用药的结果,因此也被成为experimental causality。
经常会碰到的一个辛普森悖论的问题:比如如下这么个数据

比较两种疗法对于肾结石手术的效果,无论是对于小结石病例,还是对于大结石病例。都发现A比B好(纯治愈率上)。但是整体总计下来,A却比B的效果差。
最终发现是因为这两个组的实验病例选择有问题,都不具备代表性。因为医生认为病情重的适合A,病情轻的适合B。所以会看到A中大结石病例多,B中小结石病例多。即两组中样本并没有随机分配。
换句话说,这个背后的实际情况是:

所以严格意义上的实验,应该切断病情与疗法的选择。两边病情的分布是一致的
Pearl提出的Do-calculus方法计算x对Y的影响如下:

(2) Judea Pearl 的结构因果模型(SCM)
SCM包括三个部分: 图模型、结构方程、反事实和干预逻辑。
2.casual AI#
当前有很多最优秀的科学家在朝着这个方向努力,其中三个代表性研究工作者是:
- UCLA 教授 Judea Pearl
- 马普智能所所长 Bernhard Schölkopf,《CAUSALITY FOR MACHINE LEARNING》综述,2017
- Mila 所长 Yoshua Bengio。https://yoshuabengio.org/research/
简单来说 Judea Pearl 是 Causal AI 的奠基人,Bernhard Schölkopf 等人推进了 Causality for Machine Learning,Yoshua Bengio 最近提出了 System 2 deep learning 作为 Causal AI 的一个范式。
理论方法#
计量经济学-格兰杰因果检验
2012 年 Science 论文 收敛交叉映射算法
2. causal discovery#

案例1.快手-因果分析#
(1)计量经济方法
- 工具变量
y=X\beta +e 但是cov(Xe)≠0
Z -> x -> y
e-> x, e->y
因为现实中可能存在未知的因素e,其影响x,同时影响y,所以不一定是x=> y. 解决这种问题的办法就是寻找外生变量满足
cov(Z, X) 有相关性, cov(Z,e)
2SLS: 先用Z对X进行拟合,得到\hat X, 然后对Y使用\hat X进行回归
比如Z代表一个实验,与要研究的X香相关,
- 双重差分法
政策干预发生与否的虚拟变量 + 前后两个时间段的面板数据 + 不可观测的个体固定效应
- 匹配法
比如上限的某个功能渗透率较低,很可能对比实验和对照没有信号。而使用该功能的人其实可能会有一定的特性偏差,所以匹配法,就是用分类模型,预测实验和对照中的搞概率的人,然后选择这部分人进行比较
-合成控制法
比如针对地区做实验,实验组在A城市进行,对照组无法找一个和A完全一样的城市,就通过合成的方法,找其他几个城市,然后确定权重。
(2) AB test
(3) 机器学习的方法
矩阵补全法: app更新版本后,用户实际更新的时间是不同的。矩阵补全的方式是设法将数据进行拉齐吧
(4)复杂实验设计——双边网络实验
比如: 直播: 主播和观众,电商:卖家和买家
| 策略展现 | 策略不展现 | |
|---|---|---|
| 实验组 | Y | N2 |
| 对照组组 | N1 | N3 |
参考资料:
https://zhuanlan.zhihu.com/p/166234159
https://zhuanlan.zhihu.com/p/33860572
图领奖得住-铂尔《为什么》
https://zhuanlan.zhihu.com/p/96001507
因果分析的最新研究方向: https://zhuanlan.zhihu.com/p/119248355
《为什么》读书笔记 https://zhuanlan.zhihu.com/p/75141475
https://giters.com/causal-machine-learning/kdd2021-tutorial?amp=1