跳转至

因果分析#

首先关于因果分析,并没有一个明确的定义。哲学中对因果关系的讨论,将其划分成了如下两类
- Type causality: 关注某个原因会导致什么结果,比如吸烟是否会导致肺癌? 由因推果
- Actual causality: 关注某个结果发生的具体原因是什么。比如恐龙灭亡的原因是六千万年的小行星撞地球导致的吗?由果推因

1.统计领域的因果推断#

场景: 在现实世界中我们会有大量的数据,我们希望从若干变量的一堆数据中提取出他们之间的因果关系,这时候要做的事情就是因果推断.

Pearl在《为什么》中指出因果关系之梯。
1. 关联
2. 干预
3. 反事实

统计模型只有关联层的信息,所以只能回答相关性问题,而不能回答干预问题和反事实问题。基于图的因果贝叶斯网络只有干预层的信息,所以只能回答干预和关联层的问题,而不能回答反事实问题。最后基于结构的因果模型,它的能力最接近物理模型,用函数关系表示原因和结果之间的关系,三个层级的问题都能够回答。

当下的因果建模主要有两个框架
(1) Potential Outcome Framework ——实验主义因果

设想一种与观测数据相悖的情况,比如对比用药与不用药的结果,因此也被成为experimental causality。

经常会碰到的一个辛普森悖论的问题:比如如下这么个数据

比较两种疗法对于肾结石手术的效果,无论是对于小结石病例,还是对于大结石病例。都发现A比B好(纯治愈率上)。但是整体总计下来,A却比B的效果差。
最终发现是因为这两个组的实验病例选择有问题,都不具备代表性。因为医生认为病情重的适合A,病情轻的适合B。所以会看到A中大结石病例多,B中小结石病例多。即两组中样本并没有随机分配。
换句话说,这个背后的实际情况是:
-w249
所以严格意义上的实验,应该切断病情与疗法的选择。两边病情的分布是一致的

Pearl提出的Do-calculus方法计算x对Y的影响如下:

(2) Judea Pearl 的结构因果模型(SCM)

SCM包括三个部分: 图模型、结构方程、反事实和干预逻辑。

2.casual AI#

当前有很多最优秀的科学家在朝着这个方向努力,其中三个代表性研究工作者是:

  • UCLA 教授 Judea Pearl
  • 马普智能所所长 Bernhard Schölkopf,《CAUSALITY FOR MACHINE LEARNING》综述,2017
  • Mila 所长 Yoshua Bengio。https://yoshuabengio.org/research/

简单来说 Judea Pearl 是 Causal AI 的奠基人,Bernhard Schölkopf 等人推进了 Causality for Machine Learning,Yoshua Bengio 最近提出了 System 2 deep learning 作为 Causal AI 的一个范式。

理论方法#

计量经济学-格兰杰因果检验
2012 年 Science 论文 收敛交叉映射算法

2. causal discovery#

案例1.快手-因果分析#

(1)计量经济方法
- 工具变量

y=X\beta +e 但是cov(Xe)≠0
Z -> x -> y
e-> x, e->y

因为现实中可能存在未知的因素e,其影响x,同时影响y,所以不一定是x=> y. 解决这种问题的办法就是寻找外生变量满足
cov(Z, X) 有相关性, cov(Z,e)

2SLS: 先用Z对X进行拟合,得到\hat X, 然后对Y使用\hat X进行回归

比如Z代表一个实验,与要研究的X香相关,

  • 双重差分法

政策干预发生与否的虚拟变量 + 前后两个时间段的面板数据 + 不可观测的个体固定效应
- 匹配法
比如上限的某个功能渗透率较低,很可能对比实验和对照没有信号。而使用该功能的人其实可能会有一定的特性偏差,所以匹配法,就是用分类模型,预测实验和对照中的搞概率的人,然后选择这部分人进行比较

-合成控制法
比如针对地区做实验,实验组在A城市进行,对照组无法找一个和A完全一样的城市,就通过合成的方法,找其他几个城市,然后确定权重。

(2) AB test

(3) 机器学习的方法

矩阵补全法: app更新版本后,用户实际更新的时间是不同的。矩阵补全的方式是设法将数据进行拉齐吧

(4)复杂实验设计——双边网络实验

比如: 直播: 主播和观众,电商:卖家和买家

策略展现 策略不展现
实验组 Y N2
对照组组 N1 N3

参考资料:
https://zhuanlan.zhihu.com/p/166234159
https://zhuanlan.zhihu.com/p/33860572
图领奖得住-铂尔《为什么》
https://zhuanlan.zhihu.com/p/96001507

因果分析的最新研究方向: https://zhuanlan.zhihu.com/p/119248355

《为什么》读书笔记 https://zhuanlan.zhihu.com/p/75141475

https://giters.com/causal-machine-learning/kdd2021-tutorial?amp=1