Counterfactuals and Mediation

Lecture Notes on Causal Inference

Counterfactuals Basics

正如我们在之前提到的,因果推理中的根本问题,对于一个个体而言,我们只能观察到causal effect 中的一项,此时另外一项即称为 Counterfactuals 。其数学形式如下

\[P(Y(t)\vert T=t',Y=y')\]

可以看到,观察到的数据与假定的条件是不一致的。这与CATE不同,在CATE中,$E[Y (t) \vert X = x] = E[Y \vert do(t), X = x]$ ,这两者是一致的。由此也表明,我们无法用 do-notation 来表示 counterfactuals

那么,从个体的角度来看,应该如何计算 counterfactuals 呢?
在该问题下,我们已知的是观测数据 (T,Y),我们假设知道 Y 的正确的structural equation,此时我们需要计算出个体层次的 Y(t’),计算流程如下

  1. Abduction:我们首先利用观测数据来确定 Y 的结构方程中的隐藏变量 U 的值
  2. Action:我们修改 T 对应的结构方程,将其替换为不同的treatment,即 T:=t’。同时将 U 的值代入 Y 的结构方程,得到针对该个体的 SCM
  3. 我们结合步骤一和步骤二,计算出 T=t’ 下该个体对应的 Y 值,即为 counterfactuals 值

这时存在一个问题,即使我们有 Y 的结构方程,我们也不能百分百地确定counterfactuals的值。比如当我们无法计算U的值时(U和Y不是一一对应时),那么当我们观测到一个 Y 值时,我们无法确定具体哪个 U 值可以对应到 Y(有若干个不同的选项)。在这种情况下,我们需要结合 U 的个体分布先验概率,计算流程如下

  1. Abduction:我们首先利用观测数据 Z 来更新 U 的分布,$P(U\vert Z)$
  2. Action:我们修改 T 对应的结构方程,将其替换为不同的treatment,即 T:=t’
  3. 我们结合步骤一和步骤二,计算出 T=t’ 下该个体对应的 Y(t’) 分布,即为 counterfactuals 分布。(对于个体而言,此时我们只能得到一个分布,无法得到具体的counterfactuals值)

以上这些方法都是基于一个假设,我们知道 Y 的parametric model。但这个假设是很强的,如果没有这个假设,我们就无法计算个体层面的 counterfactuals。而如果我们想计算整个人群的 counterfactuals,那么我们就不需要知道 Parametric model

Population-level counterfactual:$E[Y(t)\vert T=t’]$ 。此时的计算方式就像我们之前的ATE一样,如果它们是 identifiable ,我们就可以完全按照 ATE 的处理方式来计算 Population-level counterfactual

Mediation

举个例子,如果我养了一只狗,那么我会很高兴。但应该如何衡量养狗对我心情的直接影响呢?可能养狗会让我交到更多的朋友,而交朋友对我的心情有重大影响。那么此时养狗对我心情的直接影响就没有那么大了,我应该考虑多交朋友而不是多养狗。由此,我们需要衡量 treatment 对结果的直接影响。

第一种衡量方式称为 Controlled Direct Effect (CDE),我们直接对中间原因干预,计算干预下的causal effect,即 $E[Y \vert do(T = 1, M = m)] - E[Y \vert do(T = 0, M = m)]$ 。注意,这里我们采用 do 而不是观测数据,这是因为观测数据可能会引入新的联系,对结果产生干扰

这种衡量方式存在两个问题

  1. CDE 很大程度上受中间变量的影响,当 M 的值不同时,对应的causal effect可能相差会很大
  2. 我们没办法计算 indirect effect,我们不能直接用总的causal effect减去CDE作为 indirect effect

第二种方式称为 Natural Direct and Indirect Effects (NDE,NIE),在介绍这种方式之前,首先引入一些记号

\[E[Y_{t,m}] \triangleq E[Y \vert do(T = t, M = m)] \quad E[M_t] \triangleq E[M\vert do(T=t)]\]

基于这些记号,我们可以定义衡量方式

\[CDE \triangleq E[Y_{1,m}-Y_{0,m}]\] \[NDE \triangleq E[Y_{1,M_0}-Y_{0,M_0}]\] \[NIE \triangleq E[Y_{0,M_1}-Y_{0,M_0}]\]

之所以称为 natural,是因为在计算 direct effect时,treatment 分别采取 0 和 1,而中间变量保持一致,保持为无treatment下的期望。同样,在计算 indirect effect时,treatment保持一致,保持为无treatment。此时的total effect也可以表示出来,即

\[TE = NDE-NIE_r\]

$NIE_r$ 表示将NIE表达式中所有的 0 和 1 对应替换

接下来的一个问题是,给出这样一种衡量方式后,我们在什么情况下可以用这种方式呢?这需要一些前提条件,假设 adjustment set 记为 W

  1. W中不包含 T 的子节点
  2. W blocks all backdoor paths from M to Y

在这两个条件下,我们已经可以通过实验(do operation)来计算 NDE 的值,计算式如下

\[NDE = \sum_m\sum_w(E[Y_{1,m}\vert W=w] - E[Y_{0,m}\vert W=w])\times P(M = m \vert do(T = 0), W = w)P(W = w)\]

如果我们想更进一步,利用观测数据而不是 do operation 来计算 NDE,则需要在上述两个假设的基础上,进一步进行假设

  1. $P(M=m\vert do(T=0),W=w)$ is identifiable,即从 T 到 M 没有不可阻断的 backdoor path
  2. $E[Y\vert do(T=t,M=m),W=w]$ is identifiable,即从 T 到 Y 没有不可阻断的 backdoor path

在补充的两个假设下,我们可以去掉上述 NDE 计算式中的 do-operation,并将其替换为观测结果

最后我们比较一下 controlled mediation 和 natural mediation