Difference-in-Differences

Lecture Notes on Causal Inference

Motivation

在之前,我们一直讨论的因果推理并没有包含时间这一维度。那么现在我们加入时间这一维度,针对treatment group,我们假设从时刻 t 开始,才对其开始施加treatment。对于control group,则始终不对其施加treatment

此外,我们还需要引入一个新的概念 Average Treatment Effect on the Treated (ATT)。相比与ATE,ATT对数据进行condition,表示condition之后的causal effect,具体表示如下

以上是没有包含时间的ATT,如果把时间考虑进来,此时假设 Y(0) 与 T 不再相互独立,我们用$E[Y_i\vert T=1]$表示时刻 i 对应的数值。时刻 i 下的ATT计算式变为 $E[Y_i (1) - Y_i (0)\vert T=1]$ 。对于计算式中的第一项 $E[Y_i(1)\vert T=1]$ ,我们可以直接从观测数据中获取。对于计算机中的第二项 $E[Y_i(0)\vert T=1]$ ,则需要通过本章节介绍的 dif-in-dif 方法求解

Dif-in-dif

从上节Motivation中可以看出,dif-in-dif方法用来求解包含时间的ATT中,无法通过观测而获得的 $E[Y_i(0)\vert T=1]$ 这一项。具体求解的方法是利用control group。

因为control group全程没有施加treatment,所以我们可以得到无treatment时,实验对象的变化情况,即 $E[Y_1 \vert T = 0] - E[Y_0 \vert T = 0]$ ,我们假设treatment group 在没有施加treatment时,同样按照该趋势变化,所以我们就可以得到 $E[Y_i(0)\vert T=1]$ ,即

\[E[Y_i(0)\vert T=1] = E[Y_0 \vert T = 1] - (E[Y_1 \vert T = 0] - E[Y_0 \vert T = 0])\]

上述式子第一项是初始时刻 treatment group 的观察数据,第二项是control group的变化情况。在得到该项之后,我们就可以很自然地求出时刻 t=1 下的ATT,即

\[ATT_i = (E[Y_1 \vert T = 1] - E[Y_0 \vert T = 1]) - (E[Y_1 \vert T = 0] - E[Y_0 \vert T = 0])\]

我们可以发现,此时的计算式为 treatment group 的时间差减去 control group的时间差。正因为此,该方法被称为difference-in-difference,意为两差相减。这种方法还可以去除常数级 confounder 对结果的影响

Assumption and proof

为了使用dif-in-dif方法,我们需要做一定的假设来进行条件约束

基于这些假设,我们来证明 dif-in-dif 可以用来求某时刻下的 ATT,即 $ATT_i = (E[Y_1 \vert T = 1] - E[Y_0 \vert T = 1]) - (E[Y_1 \vert T = 0] - E[Y_0 \vert T = 0])$

首先我们将某时刻下的ATT展开,可得到

\[ATT_i = E[Y_1(1) - Y_1(0) \vert T = 1] = E[Y_1 \vert T = 1] - E[Y_1(0) \vert T = 1]\]

利用Parallel Trends Assumption,我们替换掉上式中的 $E[Y_1(0) \vert T = 1]$ ,可得到

\[ATT_i = E[Y_1 \vert T = 1] -(E[Y_0(0) \vert T = 1] + E[Y_1 \vert T = 0] - E[Y_0 \vert T = 0])\]

利用No Pretreatment Effect Assumption,我们替换上式的 $E[Y_0(0) \vert T = 1]$ ,将其变为 $E[Y_0(1) \vert T = 1]$ 。最后利用consistency assumption 化简合并,即可得到 dif-in-dif 的数学表达式,完成证明。

Existing problems

  1. 我们对 Parallel Trend 的假设有可能被违反。比如当 treatment 和时间同时影响结果时,该假设就不再成立
  2. Parallel Trends 是针对特定尺度的。意思是说,如果我们对结果 Y 进行一系列变换(如 logY),那么此时 Parallel Trends 则不再成立。换句话说,parallel trends assumptions isn’t nonparametric