【读书笔记】为什么：关于因果关系的新科学

作者简介：朱迪亚-珀尔

0. 导言-思维胜于数据#

因果关系演算/工具由两种语言组成：

因果图：用于表达我们已知的事物。除了因果图之外，也有别的方式，比如：
- 计量经济学家的数据方程
- 纯统计学家：一组假设
类似代数的符号语言：用于表达我们想知道的事物。

观察与干预#

例子: 假设我们想看药物D对病人生存期L的影响。

观察： P(L|D) 经典的条件概率

干预： P(L|do(D))

作者认为：

数据并非万能
经典统计学只关注总结数据；因果推断不仅揭示数据之间的关系，还提供了一种解决方法，反事实。

因果的优势：

回答基础的关联关系
因果解释、干预与反事实
适应性。
- 深度学习：将函数与数据拟合

蓝图、研究框架#

../../../Draft/media/Pasted image 20211222131302.png

【输入】

因果推断引擎是一种问题处理机器，可以接收中三不同的输入：假设、问题、数据

人：直觉；机器：推断流程

【数据】

在根据假确定了因果模型，提出问题、导出被估量后才用到数据。数据是用来估计验证
只依靠数据无法解释因果
因果关系之梯#

因果关系的三个层级#

../../../Draft/media/Pasted image 20211222131317.png

因果关系之梯 = > 业务落地方法论

发现关联关系，可能混杂，SOP指标体系，关联kpi指标(gmv,租金)
干预归因，找到factor，运营活动
反事实，预测Δ变动带来的增益

层级一：关联#

被动观察数据。

e.g：购买牙膏的用户同时购买牙线的可能性多大？ P(牙线|牙膏)

层级二：干预#

被动观察+主动改变

e.g: 如果我把牙膏的价格翻倍，牙线的销量额会怎么样？

实际收集到的数据无法回答这一问题。以往数据中涨价可能处于完全不同的原因，比如供不应求，行业竞争等未知因素。

P(牙线| do(牙膏))

层级三：反事实#

假设当时发生的事情与实际不同，结果会怎么样？

e.g. 假如我们把牙膏的价格提高一倍，则之前买了牙膏的顾客仍然选择购买的概率是多少？

吃药后感冒好了，那么感冒好是因为吃药导致的吗，即如果我当时没有吃药的话感冒会好吗？

例子：
../../../Draft/media/Pasted image 20211222131342.png

(1)关联问题：如果犯人死亡了，是否意味着法院下令处决犯人？

(2) 干预问题: 如果士兵A决定自己射击，而不是等待队长下令？(删除被指向箭头、干预A=true)

对比: 如果看到A射击了，则B也射击了；如果干预让A射击，则B是否射击不确定

(3) 反事实：假设A不射击，则犯人是否会死？

概率论与因果关系#

哲学家们使用概率提高来定义因果。 X 提高了Y的概率： P(Y|X) > P(Y)

问题：上述条件概率表示的是，如果我们观察到了X，那边Y的概率就提高了，但是这个提高完全可能是其他原因造成的，无法解决混杂。

背景因子修复 P(Y|X, K=k) > P(Y| K=k)
1983年，南希· 卡特赖特打破了这一僵局，她利用因果要素丰富了我们关于背景语境的描述。她提出，我们应该将所有与结果有“因果关联”的因子都视为条件纳入考虑
作者： do算子 P(Y|do(X)) > P(Y)
因果推断起源#

支线1

(1) 高尔顿板#

研究人的智力遗传，"因果"，身高遗传模型

Q: 他煞费苦心地编纂了605名英国“名门之秀”上溯4个世纪的家谱。但他发现，这些名门之秀的儿子和父亲并没有那么优秀，其祖父母和孙辈也并非都是卓越人才。

../../../Draft/media/Pasted image 20211222131356.png

额外发现：身高-均值回归。 => 相关

根据达尔文学说，变异是代代相传的，那么我们是如何保持总体的稳定性？

哈代-温伯格平衡

../../../Draft/media/Pasted image 20211222131403.png

(2) 皮尔逊#

皮尔逊观点：

因果关系被简化为相关关系的一种特例，r=-1或1
因果只是一种重复的、不可证的，相关关系是比因果更普遍的人类思维符号

支线2-休厄尔·赖特#

哈佛大学-遗传学-研究豚鼠的毛色

现象：发现豚鼠毛色和孟德尔遗传定律想矛盾，很难产生纯色的毛色。

../../../Draft/media/Pasted image 20211222131414.png

注：D: 发育因子， E：环境因子， H：遗传因子

路径分析

解决因果发现很困难
我们可以在探索模式下使用路径图，假设某些因果关系存在并据此计算出变量之间的相关强度估计值。如果这一估计值与实际数据相矛盾，那么我们就有证据说明我们假设的因果关系是

问题：

路径系数是线性的 => 非线性理论
要求研究者必须作出主观判断、绘制因果图，主观性。 => 贝叶斯连接

20世纪60年代：经济学和社会学中路径分析的思想开始应用

社会学： SEM
经济学：联立方程模型
混杂和去混杂#

什么是混杂？#

../../../Draft/media/Pasted image 20211222131424.png

处理方式： Z控制。控制哪些？

方式1： 随机对照实验

消除了混杂偏倚
能够量化不确定性
使用受限，社会科学中很难实现

从因果角度来看随机试验：

../../../Draft/media/Pasted image 20211222131438.png

随机化试验是模拟我们想知道的世界的一种方法

方式2：因果图方法：do算子、后门准则，前门准则。。。

混杂的新范式#

关于混杂的替代定义

声明性定义：混杂因子是与X和Y都相关的任何变量
过程性定义：根据统计检验来描述混杂因子的特征。

do算子和后门标准

作者认为：混杂是指任何使P(Y|do(X)) ≠ P(Y|X)的因素。观察的结果和干预的结果不一致

为了去除X和Y中的混杂，我们只需要阻断它们之间的每个非因果路径，而不去阻断或干扰所有的因果路径就可以了。更确切地说，我们将后门路径（back-door path）定义为:

所有X和Y之间以指向X的箭头为开始的路径；

如果我们阻断了所有的后门路径（因为这些路径允许X和Y之间的伪相关信息在管道中流通），则我们就完成了对X和Y的去混杂。

悖论#

蒙提-霍尔悖论#

对撞
../../../Draft/media/Pasted image 20211222131458.png

辛普森悖论#

作者：

辛普森逆转

单纯的数据总结是看不出因果关系的，必须得看数据背后的生成机制!

例子1：BBG? => BBB

../../../Draft/media/Pasted image 20211222131507.png

其实在进行总体的计算时候，聚合方式有问题，应该按照男女分层的真实比例来加权计算。这个案例中，对照组和实验组的男女比例很悬殊。

../../../Draft/media/Pasted image 20211222131514.png

例子2: 无需分层，汇总结果即可

../../../Draft/media/Pasted image 20211222131521.png

../../../Draft/media/Pasted image 20211222131528.png

例子3：
../../../Draft/media/Pasted image 20211222131537.png

解读：像往常一样，要决定运动是有益的还是有害的，我们需要考察数据背后的故事。数据显示，总体中年龄越大的人运动得越多。因为更可能发生的是年龄影响运动，而不是反过来。同时，年龄可能对胆固醇水平也有因果效应。因此我们得出结论，年龄可能是运动时间和胆固醇水平的混杂因子，我们应该对年龄进行变量控制。换言之，我们应该看的是按照年龄组别进行分层后的数据，并据其得出结论：无论年龄大小，运动都是有益的。

干预#

方法1：后门调整公式

先估计去混因子在每个数据分成中产生的效应，然后计算这些层的因果效应的加权平均值。

$P(Y|do(X))=\sum_Z P(Y|X, Z=z)P(Z=z)$

方法2：前门标准

适用情况：我们无法收集到混杂因子(吸烟基因)的数据，因为缺乏混杂因子的数据，所以无法适用后门准则的方法。可以收集到的数据是X->M->Y, 三者的数据都有

$P(Y|do(X))=\sum_Z P(Z=z, X)\sum_X P(Y|X=x, Z=z)P(X=x)$

前门调整和后门调整的最终目的都是根据P(Y|X,A,B....)这些不涉及do算子的数据来估计干预效果P(Y| do(X))

**方法3：**一般意义上do演算-一个“干预”量何时可以简化为一个“观察”量

基础规则：

规则1：如果观测到W与Y无关(可能是以其他变量Z为条件),那么有：

$P(Y|do(X), Z, W)=P(Y| do(X), Z)$

规则2：如果变量集Z阻断了从X到Y的所有后门路径，那么以Z为条件(对Z进行变量控制)，则do(X)等同于see(X).即如果Z满足后门标准，则有

$P(Y| do(X), Z)= p(Y|X,Z)$

规则3：如果不存在只包含前向箭头的从X到Y的路径，则

$P(Y|do(X)) = P(Y)$

后来有两个研究小组证明了：规则1-规则3足以让我们走出任何一个确有出口的do迷宫。完备性。

方法4： 工具变量

b=ab/a = r(ZY)/r(ZX)

工具变量满足以下条件：

与混杂变量无关
与目标变量Y不直接相关
和X之间强相关
反事实#

鲁宾 - 潜在结果

潜在结果或者反事实，是在个体层面而非总体层面上定义的

一个引入例子：#

想要研究在决定员工的工资殷祖中，更重要的是学历还是工作经验。EX表示工作经验，ED表示学历，S表示工资。假设学历水平只有0，1，2

方式一：线性回归。是靠数据驱动，而不是模型驱动。会有个问题，工作经验可能取决于学历，即回归会有多重共线性问题。

回归结果：

直接估计Ed=1时候 S=85000

方式2：因果

S=65000美元 + 2500美元X EX + 5000美元XED + Us
EX = 10-4ED + Uex

反事实：假设Ed从0变为1

因果推断第一定律：

结构方程模型

结构因果模型：可以非线性

充分因与必要因

中介变量#

直接效应与间接效应

一种简单的情况，处理X, 结果Y，中介物M

CDE (受控直接效应)

CDE(0) = P(Y=1| do(X=1), do(M=0)) - P(Y=1| do(X=0), do(m=0)) # 中介物取值为0情况

最后一章，作者讨论了下人工智能和大数据的问题，作者主张强人工智能，认为现在还只到达了因果关系的第一层级.

【完结】

其他：

一个案例 https://zhuanlan.zhihu.com/p/384908734

系列学习笔记： https://blog.csdn.net/sinat_26917383/category_11123072.html

《别拿相关当因果》

《社会科学因果推断的理论基础》