因果推断：the book of why

记录学习《因果之书》的笔记。

因果关系介绍

因果关系

因果关系的定义一直是个哲学问题，作为一个不可知论者，我一直觉得因果关系涉及最基本的哲学，是不可知的。下雨后草木生长，按照唯物主义观点，下雨是因，草木生长是果；但是如果上帝存在，上次可能是希望草木生长所以创造了雨，才会下雨，因果似乎颠倒了。

我们现实生活中常常也有此类的描述，我们要去吃饭是因为要填饱肚子，填饱肚子是我们要去吃饭的原因。这里的因果似乎也有点奇怪，当存在一个有意识，有目的，有预测能力的主体时，其可能会根据因果关系来决定行为，这种情况下“因果关系”（预测结果）是”因”发生的原因。

看一下哲学家给出过的定义

亚里士多德：“质料因”“形式因”“动力因”“目的因”
休谟：我们可以给一个因下定义说，它是先行于、接近于另一个对象的一个对象，而且在这里，凡与前一个对象类似的一切对象都和与后一个对象类似的那些对象处在类似的先行关系和接近关系中。或者，换言之，假如没有前一个对象，那么后一个对象就不可能存在。

时间先后的引入可以避免很多问题。很多地方也引入这个约束，比如在信号与系统里，对因果系统的定义是：”零状态响应不出现在激励之前的系统为因果系统”，简单说就是，输入引起的响应不出现在输入之前。因此当时间只能单向流动的规则被打破之后，因果关系开始模糊，变得难以理解。比如星际穿越中，未来的人类掌握了五维空间的黑洞，时间变成一个维度，可以在其中移动。未来的人类放了一个五维黑洞，所以现在的人类可以继续研究，生存下来才会有未来的人类。

不过本文不讨论因果发现问题，只讨论在给定因果关系的假设下，因果效应的量化问题和潜在结果的计算。

近年来，因果推断越来越火，相关方向的paper越来越多，业界也开始有越来越多相关的方向。

因果与相关

相关关系不能说明有因果关系，一个典型的案例是小孩的阅读能力和年龄有关，衣服的大小也有年龄有关，导致衣服大小也与阅读能力有相关性。但两者之间显然没有因果关系，给小孩穿更大的衣服不会提升其阅读能力。

那么如果给我们10000个小孩的年龄、衣服大小、阅读能力得分，10000行×3列的数据，我们如何只根据数据判断三者之间的因果关系呢？答案是不行，年龄和衣服大小之间的相关性没有方向，如果不结合日常生活的常识，我们无法只通过数据判断谁是因谁是果。

统计学本身无法告诉哪个是因，哪个是果

人类的理解世界是以因果关系为基础而非统计关系，这对应人类做决策判断至关重要。当我们想达到某个结果Y而做一件事X时，实际是因为我们相信做了X，会让Y发生的概率变大，而这正是因果关系而非相关关系。这还有一个可能的原因是因果关系比相关关系稳健，相关关系太受各种因素影响，不够稳定，比如观测的范围的偏差、X变量的分布；相对而言，因果关系更多的是直接由客观规律和事情发生的机制直接决定的，接近于逻辑与规律的概念，通用性更强。

人类为什么不一样，人类的直觉是以因果关系而统计关系为组织核心
深度学习只是让机器具备了高超的能力，而非智能，其致力于拟合出一个函数
相关性关系并不稳定，但因果关系却更为稳健

因果与贝叶斯

贝叶斯网络并未假设箭头有任何因果意义，只意味着前向概率

贝叶斯网络和因果图的区别：

贝叶斯网络并未假设箭头有任何因果意义（所以箭头的方向可以反过来？）
贝叶斯网络中箭头A->B，B的概率通过条件概率与A的值相关，且该相关关系是完备的（p144）
因果图中箭头A->B，在假设实验角度解释，表示如果我只调整A，就可以看到C的概率发生变化（p145）

因果关系的表示

三节点网络

三种基本的三节点网络

案例

链式：火灾 → 烟雾 → 警报

叉式：鞋子尺寸 ← 孩子的年龄 → 阅读能力

对撞：才华 → 名人 ← 美貌；名人才华与美貌负相关

独立性质

链式：A与C不独立；给定B后，A与C独立，其中B为中介物

叉式：A与C不独立；给定B后，A与C独立

对撞：A与C独立；给定B后，A与C不独立

注：

上述独立性，建立在三节点网络已经是完备因果图的基础上
各个节点都可能还有原因，但这个原因不影响其他变量即可不表示为节点
我们不能通过数据区分链式和叉式接合，因为他们具有相同的条件独立性

独立性质证明

背景知识

概率全展开公式

$p(x_1,…,x_K)=p(x_K│x_1,…,x_{K−1}),…,p(x_2|x_1)p(x_1)$

该公式对应全连接有向无环图，任意两个节点之间都有连接。

有向图中：变量（节点）的条件概率与其父节点相关联，且此相关关系是充分的（即其他祖先不会影响这一公式）

$p(\boldsymbol x)=\prod_{k=1}^K p(x_k|pa_k)$

其中，$p(x)$表示所有节点的联合分布，k表示第k个节点，$pa_k$表示第k个节点的所有父节点。（PRML，P382）

链式证明

后门路径

混杂定义

关于混杂的定义有很多，这里不再展开解释，给出一个本文的定义

混杂偏倚（confounding bias）：$p(y|x)≠p(y|do(x))$

比如给土壤质量差的土地施肥的情况下，肥料和产量之间存在混杂；由于随年龄的变化，人对运动的偏好有明显差异，此时运动和死亡率之间也存在混杂。

要消除这种混杂，可以做随机测试，抽签决定每块土地是否施肥，此时就可以消除这个场景中的混杂。

这里可以消除混杂是因为抽签和产量之间没有因果关系，在这个实验中应该是没问题的。但在一些医学问题中，由于安慰剂效应，抽签结果可能还是会影响病人康复情况，所以要进行双盲实验。

后门路径

书中对后门路径的定义是：X到Y之间所有的路径中，以指向X的箭头开始的路径。

按照这个定义，包含对撞的路径不算后门路径，这会导致我们需要单独判断对撞是否产生偏倚。个人认为可以将包含指向X方向的箭头的路径定义为后门路径，这样就包括了对撞路径，一起判断就可以。

阻断信息规则（只针对路径上的信息流动）

链式（A->B->C）、叉式（A<-B->C）：控制B可阻断A和C间信息流动
对撞（A->B<-C）：A和C本身就是阻断的（控制B将导致信息流通）
控制一个变量的后代节点，将“部分地”控制变量本身

去除混杂规则

阻断了所有的后门路径，则完成了X和Y的去混杂

去混因子：一个可以阻断干预与结果之间所有后门路径的变量集

如果将X和Y之间所有的路径分为三种，对应的去混杂的原则如下

因果路径：反映了X→Y的因果关系，不应该被阻断
后门路径：产生混杂，应该被阻断，阻断时不应该违反第一条
对撞路径：原本处于阻断状态，不应该再控制导致混杂，如果已经控制了，则需要再阻断该路径，阻断时不能违反前两条。

比如下图，第一个，不应该控制Z，第二个和第三个都是Z和M都不应该被控制。从这些案例我们知道，并不是控制变量越多越好，基于观察数据的分析，什么变量需要控制，什么变量不需要控制需要基于因果图来确定。

解释悖论

相亲对象

问题：你有没有发现，你的相亲对象要么笨，要么丑！

因果图：才华 → 和你约会 ← 颜值

解释：才华和颜值可能没什么相关性，但介绍给你相亲的人中，两者之间可能就有相关性。又笨又丑的多半也不会介绍给你，高富帅、白富美多半也不会。

邮件骗局

问题：如果你收到预测股市涨跌的邮件，连续10次都是准的，第11次预测结果要收费，要不要买呢？

因果图：预测 → 命中 ← 股市

解释：可能是每次给10万人发随机的预测结果，这样也会有大概千分之一的人都预测对，这部分人的第11次预测结果和股市涨跌之间并没有什么因果关系。

出生体重悖论

悖论：出生体重轻的婴儿中，母亲吸烟的，死亡率低

因果图：

解释：控制出生体重导致了偏倚，先天缺陷且母亲吸烟的，可能死亡的概率大很多。

辛普森悖论

悖论：辛普森医生发现一种新药，吃了的人比不吃的人发病率低（0.78 vs 0.83），但这种药似乎对男性和女性都有害，吃了的男性比不吃的男性发病率高（0.93 vs 0.87），吃了药的女性也比不吃药的女性发病率高（0.73 vs 0.69）。

因果图：

解释：男女患病风险不同，对服药的票号也不同。

扩展：辛普森悖论反映的是整体的统计结果和分层的统计结果可能相反。那么是整体统计结果正确还是分层结果正确呢？不同情况下不一样，需要根据具体研究的问题和因果图来判断。

伯克利大学招生悖论

悖论：1973年，有学者发现伯克利大学招生的时候男女录取比例不一样，男生录取率明显高于女生，男生44%，女生35%。当时公众很关注男女歧视问题，怎么办，伯克利大学的招生是各个系自己定的，所以挨个系查。但是查完就懵了，因为每个系的招生：都有利于女生，实际结果也都是女生录取比例比男生高。

因果图：

解释：也是一个辛普森悖论，女生喜欢申请难录取的院系，但此时院系不是混杂。

扩展：上图看起来似乎是学校不存在歧视，但实际上如果因果图没画全，院系不仅有性别歧视还有地域歧视。比如说自己的家乡只录取男生，其他地方只录取女生（觉得女生读书就是祸害），如下面的因果图，那也有可能得到完全一样的数据。所以说因果推断的问题不能只从数据中求解，相同的数据，不同的因果假设，得到的结论完全不同。

蒙提霍尔悖论

悖论：有三扇门，门后有车、山羊、山羊。你如果选中有车的门，车就归你。现在你选择了A门，主持人打开了另一扇后面有山羊的B门，问你是否要将你的选择换成C门。

因果图：

解释：答案是要换，不换1/3，换了2/3。直觉上理解车子在哪个门后面的概率似乎不会变，都一直是1/3，但实际上，得知主持人打开哪个门之后，你选的门和车子的位置之间是相关的。

因果效应量化

后门标准

使用条件：去混因子可观测

已掌握了变量的一个充分集（包含去混因子）的数据，可以用来阻断干预和结果之间的所有的后门路径。

后门调整公式

$P(Y|do(X))=∑_ZP(Z=z,X) P(Z=z)$

去混因子的各层中的因果效应的趋势是一致的（因为去混因子不影响因果效应，P235）

做法

估计去混因子每个水平（分层）上，干预的平均因果效应
计算各层因果效应的加权平均值，权重为每层在总体中的分布频率

线性近似将问题大大简化了，每个因果效应都可以用一个数字来表示（P236）
偏回归系数暗中执行了后门调整（P239）

前门标准

以吸烟为例，假设研究人员可以测量吸烟者肺部的焦油沉积量，且吸烟只通过焦油沉淀引发癌症

前门调整公式：

$P(Y│do(X))=∑_ZP(Z=z,X)∑_XP(Y│X=x,Z=z)P(X=x)$

在吸烟的案例中，X代表“吸烟”，Y代表“癌症”，Z代表“焦油沉积”，U（在此例中显然没有出现在公式中）代表不可观测的变量，即“吸烟基因”。

使用条件：

X对Y的因果效应被一组变量C混杂，又被另一组变量M介导，并且中介变量M不受C的影响。（此处笔者认为M也应该不能有其他混杂）

do运算

目标：消除do算子，只留下经典的概率表达式，如$P(Y|X)$

do运算3条法则

如果我们观察到W与Y无关（可在给定其他变量Z的条件下），那么Y的概率分布就不会随W而变
$P(Y|do(X),Z,W)=P(Y|do(X),Z)$
如，$P(警报|do(烟雾),火灾)=P(警报|do(烟雾))$

本法则允许增加或删除某个观察结果。
如果变量集Z阻断了从X到Y的所有后门路径，则以Z为条件时，$do(X)$等同于$see(X)$
$P(Y|do(X),Z)=P(Y|X,Z)$
本法则允许用观察替换干预，或反之。
若X到Y没有因果路径，则可将$do(X)$从$P(Y|do(X))$中移除
$P(Y|do(X),Z)=P(Y)$
本法则允许删除或添加干预。

案例：

$P(Y|do(X))=∑_ZP(Y|do(X),Z)P(Z=z|do(X)) =∑_ZP(Y|X,Z=z)P(Z=z)$

因果图下的新视角

本部分内容存在大量自己总结的内容，可能有误

工具变量法

内生变量：所有与扰动项相关的解释变量都称为“内生变量”。$^{[1]}$

内生变量导致的问题：OLS得到的估计量不一致。

工具变量法：

在线性假设下，$ab=r_{ZY},a=r_{ZX}$，因此，$b=r_{ZY}/r_{ZX}$。其中$r_{ZY}$ 表示Z在Y上回归线的斜率， $a$表示Z增加一个单位的干预将导致X增加 $a$个单位。

偏回归

FWL定理

主要思想：剔除一个变量（如，月收入）对另一个变量（如，额度）的影响，对参数（如，额度对逾期的影响）进行更为精准的估计

FWL定理：

对于多元线性回归模型: $y_i=a+b_1x_{1i}+b_2x_{2i}+b_3x_{3i}+\epsilon _i$
当$x_1 \leftrightarrow x_2$之间相互影响，会导致估计偏差，解决步骤如下：
1. x1对其他x回归得到误差v：
2. y对其他的x回归得到误差w：
3. w对v回归得到系数η：
$η$ 就是b1的无偏估计

可理解为，$η$ 表示的是“额度中与月收入无关的部分”对“逾期率中与月收入无关的部分”的解释力

与后门路径之间的关系

偏回归系数实际和控制其他变量之后，X对Y的影响；实际逻辑后门标准是一致的

减去均值会影响偏置，但不影响斜率
该计算方式下，计算得到的相关性系数和后门标准一致：$P(Y│do(X))=∑_ZP(Z=z,X) P(Z=z)$
如果Z是中介值，偏回归系数应该不对应自然因果效应，而对应直接因果效应。

反事实

本部分介绍如何计算出潜在结果

潜在结果

什么是潜在结果(potential outcomes)？定义一个Y的潜在结果，$Y_{X=x}(u)$：假如X的取值为x，那么Y在个体u上的取值（个体层面上的定义）。

如何推断潜在结果？

给个案例：如果工资（S）由学历（ED，0：高中，1：大学，2，硕士）和工作经验（EX，年数）决定。现在有以下数据，问题是如果爱丽丝上大学了，工资是多少？

常见错误做法

错误的做法是：将因果推断问题看作数据缺失问题，利用差值法填补空格，或者推断出缺失数据。

错误方法1：匹配法
- 做法：伯特、卡罗琳工作年限相同 → 伯特的$S_2=9700$，卡罗琳的$S_1=92500$。
- 存在问题：没有考虑学历和工作经验之间的影响
错误做法2：线性回归
- 做法：回归观测结果为：$S=65000+2500EX+5000ED$，因此爱丽丝有大学文凭时（EX=6，ED=1），S=85000
- 存在问题：没有考虑学历和工作经验之间的影响

奈曼-鲁宾因果模型

先来看下两位大佬的合影（左Pearl，右Robins），后面我也会再写一篇Robin的书的学习笔记，这里只简单介绍一下其三个假设。

2014年，唐纳德·鲁宾（右）与本书第一作者（资料来源：照片由格雷斯·铉·金提供）

稳定性

单位处理效应稳定：stable unittreatment value assumption，SUTVA

个体的处理效应稳定不变，和其他个体是否接受处理无关（大部分情况下是合理的）

一致性

无论是否主动接受到处理，其效应相同（无安慰剂效应）

可交换性

又称可忽略性，ignorability

给定某组去混因子Z的值，$Y_X$独立于实际接受的处理X

结构因果模型

在学历工资的案例中，如果我们使用结构因果模型，可以得到以下两个方程：

$S=65000+2500×EX+5000×ED+U_S \\ EX = 10-4×ED+U_{EX}$

第一个式子看起来和直接求S在ED、EX上的回归得到的结果完全一样，但解释的含义不同：一旦我们生命方程是“结构的”，则该方程就反映了我们所认定的因果假设，即EX和ED是S的原因，且不存在$ED=f(EX，S，U_{ED})$，也就是说我们认为ED对EX或S不敏感。

其中该方程中，$U_s$和$U_{EX}$为特质因子，每个人不同，无法观测，但可以根据已观测到的数据推测出来（外展）。

使用结构模型推导反事实步骤：

外展：利用关于爱丽丝和其他员工的数据来估计爱丽丝的特质因子（idiosyncratic factors）：$U_s(爱丽丝)$和$U_{EX}(爱丽丝)$。
干预：利用do算子改变模型，以反映我们提出的反事实假设，在这个案例中即，假如爱丽丝有大学学位：$ED(爱丽丝)=1$。
预测：利用修改后的模型及有关外生变量（exogenous variables）的更新信息$U_S(爱丽丝)$、$U_{EX}(爱丽丝)$和$ED(爱丽丝)$来估算爱丽丝的工资水平。新的工资水平就等于$S_{ED=1}(爱丽丝)$

因果关系细分

必要因；充分因；充要因

中介效应

中介分析为什么重要呢？因为其对我们弄清楚事情发生的真正机制至关重要。比如说人类对坏血病的认识，就是对其中介物的逐步认识。人们很早就知道柑橘类水果可以避免坏血病，但

直接、间接效应

给定：处理X、结果Y、中介物M，但扰动X而保持M恒定时，得到X对Y的直接效应。

保持X恒定，并将M增加到X增加1个单位的情况下M所能达到的量，则我们所看到的Y增量就是X对Y的间接效应。

受控直接效应

CDE（controlled direct effect）

$CDE(0)=P(Y=1|do(X=1),do(M=0))-P(Y=1|do(X=0),do(M=0))$

同理也有$CDE(1)$。但直接保持中介物恒定，有时是过度对照试验，比如为了判断各个院系是否有性别歧视时，让一个热爱计算机的人去申请考古专业。

自然直接效应

NDE（natural direct effect）：中介物按X=0的取值时，$do(X=1)$的因果效应

$NDE=P(Y_{M=M_0}=1|do(X=1))-P(Y_{M=M_0}=1|do(X=0))$

其中$M_0$表示：$do(X=0)$时，中介物M按其自然状态下的取值。

案例：伯克利大学招生中，如果一个女生将她的性别报告为“男性”，即$do(X=1)$，并让其申请自己想去的院系$M=M_0$的情况下录取概率相对于其将她的性别报告为“女性”的录取概率差。

自然间接效应

NIE（natural indirect effect）：让X=0、中介物按X=1后的取值时的因果效应。

$NIE=P(Y_{M=M_1}=1|do(X=0))-P(Y_{M=M_0}=1|do(X=0))$

其中$M_1$表示：$do(X=1)$后，中介物M按其自然状态下的取值。

案例：作者朋友收养了一只叫黛西的狗子，天天在家里搞破坏，但主人收养了另外三只小猫之后，黛西不再搞破坏了。在小猫被送回收容所的几天后，黛西故态萌发，又开始搞破坏。在小猫在的时候，黛西长时间地被人密切监视，小猫离开后，就不再密切监督它。那么黛西不搞破坏的原因究竟是什么呢？这个问题中，NIE指的是，第一个概率指不引入其他宠物($X=0$)，但将中介物设置为引入其他宠物时会有的值($M=M_1$)，此时黛西的行为有所改善($Y=1$)的概率，第二个概率指正常情况下不引入其他动物时，黛西不搞破坏的概率。

总效应

$总效应(X=0→X=1)=NDE(X=0→X=1)–NIE(X=1→X=0)$

我的问题

记录一下我在学习中想到的问题，以及我的一些想法。

随机测试可做因果发现吗

似乎是可以的，但只能发现处理变量和其他变量之间的因果关系。

无法干预时的因果效应

如果一个变量我们无法干预，还存在因果关系吗？这又如何理解？比如年龄→阅读能力，直接提高年龄会导致阅读能力的提升吗？

回答：

这种情况下干预似乎就直接控制了中介因子。但这个是语言的问题，如果大家把年龄看做了自己身份证上的属性，甚至可以直接修改，那就应该把“年龄”替换为“出生年数”，因果关系变成：年龄←出生年数→阅读能力。
如果真的是完全没有可能干预呢？在Robin的潜在因果模型中，不讨论无法干预的因果效应！

因果图似乎不完备

在处理交叉影响时，因果图似乎不完备（或有问题）。如，女生更偏好难录取的院系，院长根据居住州和性别共同决定录取结果，只要家乡的男生，其他地方的女生。此时居住州对性别和院系都没有因果关系，即改变居住州，不会影响学生申请的院系或性别。所以因果图应该如下：

graph LR
A[居住州] --> B((录取结果))
C(性别) --> B
C(性别) --> D{院系}
D{院系} --> B

或者，在土壤和肥料的案例虽然做了随机测试，土地和肥料对产量的影响之间有交叉的，

参考信息

[1] 《高级计量经济学及Stata应用》,（第二版），P136