Instrumental Variables

Lecture Notes on Causal Inference

Motivation

在之前,我们研究了 no unobserved confounding 的情况。这种情况下,我们可以利用 backdoor adjustment 很容易地进行处理。而后来提出的 unconfounded children criterion 从更广泛的范围内处理无隐藏原因的情况。

在实际中,无法观察到的隐藏原因很常见,Instrumental Variables 针对的就是一种特殊的隐藏原因。instrumental variable 的目的是想找因果关系,减小 estimation error 产生的影响。对于系统来说,某原因 T 是可以观察到的,但是可能有偏差,因此要找一个只影响该原因 T 的变量来抵消相应的估计误差。这就是 instrumental variable

我们首先对 instrumental variable 做一些假设

为什么我们没有再之前的内容中提过 instrumental variable 呢?
这是因为之前的内容基本上都是 nonparametric identification,而在这里,nonparametric identification的必要条件 (如果已知identifiability,我们可以block每一条从 T 到其子节点之间(同时也是Y的祖先节点)的backdoor path) 被潜在原因打破了。

Linear Example

在这个例子中,我们引入一个线性假设,即 $Y:=\delta T +\alpha_u U$ 。根据之前的Exclusion Restriction假设,这里的 Y 中不包含 instrumental variable Z。我们首先考虑最基本的情况,即 Z 和 T 均为布尔值。

我们首先来计算一下 Y 与 Z 之间的 association difference,即 $E[Y \vert Z = 1] - E[Y \vert Z = 0]$ 。首先根据我们的线性假设,我们代入 Y 的线性表达式并展开合并,可以得到

\[AD = \delta (E[T \vert Z = 1] - E[T | Z = 0]) + \alpha_u (E[U \vert Z = 1] - E[U \vert Z = 0])\]

再根据 Unconfoundedness 假设,U 的取值与 Z 无关,因此上式的第二项为0,最后可得到

\[\delta = \frac{E[Y \vert Z = 1] - E[Y \vert Z = 0]}{E[T \vert Z = 1] - E[T | Z = 0]}\]

如果我们假设 Z 对 T 的线性影响系数为 $\alpha_z$ ,则上式可写为 $\delta = \delta \alpha_z/\alpha_z$
在现实中,我们显然无法直接去量化 Z 对 T 的影响,为此我们需要对 $\delta$ 进行估计。最直接的估计是 Wald estimator,利用统计的方式估计,此时估计值 $\hat{\delta}$ 的计算式为

\[\hat{\delta} = \frac{\frac{1}{n_1}\sum_{i:z_i=1}Y_i - \frac{1}{n_0}\sum_{i:z_i=0}Y_i}{\frac{1}{n_1}\sum_{i:z_i=1}T_i - \frac{1}{n_0}\sum_{i:z_i=0}T_i}\]

接下来我们考虑 T 和 Z 均为连续值的情况。此时我们计算的不是 $E[Y \vert Z = 1] - E[Y \vert Z = 0]$ 而是 Cov(Y,Z)。按和上面相同的过程,我们可以推出 $\delta = Cov(Y,Z)/Cov(T,Z)$ 。我们同样可以用 Wald estimator 去统计估计近似,这里提出一种新的近似方法,称为 Two-Stage Least Squares Estimator

  1. 利用 T 对 Z 的线性回归来估计 $E[T\vert Z]$,我们可以得到 T 投影到 Z 空间的方程 $\hat{T}$,这里的 $\hat{T}$ 是一个关于 Z 的函数,不包含其他隐藏原因 U
  2. 利用 Y 对 $\hat{T}$ 的线性回归来估计 $E[Y \vert \hat{T}]$ ,最后 $\hat{T}$ 的拟合系数就是我们对 $\delta$ 的估计

该方法可同样用于布尔 T Z 的情况

Nonparametric Identification of Local ATE

上一节中我们线性假设的约束还是太强了,它约束了所有个体的treatment effect均相同(Homogeneity)。如果没有这么强的约束,我们能否进行identification呢?

我们首先针对 instrument affects the treatment,将整体数据分为四组

在前两种情况中,Z 还有指向 T 的边;后两种情况中则没有,Z 作为孤立的点,没有连接任何其他节点。在我们只得知某一个条件(如T(Z=1)=1)时,我们无法确定该数据属于哪个组。

在推导Local ATE Identification之前,我们还需要引入一个假设,称为Monotonicity Assumption,$\forall i, T_i(Z=1)\ge T_i(Z=0)$ ,该假设完全消除了 Defiers 组

在该假设下,我们可以写出 local ATE $E[Y (Z = 1) - Y (Z = 0)]$ 的式子,即

\[E[Y (Z = 1) - Y (Z = 0)] = E[Y (Z = 1) - Y (Z = 0) \vert T(1) = 1, T(0) = 0] P(T(1) = 1, T(0) = 0)\]

由此我们可得到Local ATE (LATE) 也称为 Complier average causal effect (CACE):

\[E[Y (T = 1) - Y (T = 0) \vert T(1) = 1, T(0) = 0] =\frac{E[Y (Z = 1) - Y (Z = 0)]}{P(T(1) = 1, T(0) = 0)}\]

根据 Unconfoundedness 假设,Y 和 Z 之间不存在任何的confounder,因此我们可以将分子改写为 $E[Y\vert Z=1]-E[Y \vert Z=0]$
对于分母,我们可将其化简为 $E[T \vert Z = 1] - E[T \vert Z = 0]$ ,化简的思路是结合 Monotonicity Assumption 和 伯努利分布。
最后,我们重写化简之后的Local ATE 如下

\[E[Y (T = 1) - Y (T = 0) \vert T(1) = 1, T(0) = 0] =\frac{E[Y \vert Z = 1] - E[Y \vert Z = 0]}{E[T \vert Z = 1] - E[T | Z = 0]}\]

为了对比,我们写出 ATE 的形式

\[E[Y (T = 1) - Y (T = 0]\]

可以看到,在 Monotonicity Assumption 下,我们推导出的 local ATE 是只针对complier group的,并不是包含所有的数据。而 local ATE 正好和我们在线性假设下推导出的形式一致。

这里总结一下 local ATE 存在的问题