Causal Discovery from Observational Data

Lecture Notes on Causal Inference

Motivation

在之前的内容中,我们都是基于 causal graph 去进行化简分析。那么如果我们没有 causal graph,只有观测到的数据应该怎么办呢?那么这就要用到 causal discovery 方法,根据数据去建立 causal graph

causal discovery 大致可分为两类,independence-based 完全基于数据去建图; Semi-Parametric 针对 parametric form 作假设建模

Independence-Based Causal Discovery

首先我们需要作出一些假设

我们还需要引入马尔科夫等价类(Markov equivalence class)的概念。 马尔科夫等价意味着相同的条件独立分布,比如chain和fork类型属于同一种马尔科夫等价类,而immorality属于另一种马尔科夫等价类。

还有skeleton的概念,我们将因果图中的所有的有向边变为无向边,此时得到的图称为 skeleton

在介绍完假设及新概念后,我们在这里给出主要定理。两幅因果图是马尔科夫等价的 当且仅当 他们拥有相同的 skeleton 和 immoralities

进而由此我们得到 Essential graph(aka CPDAG completed partially) 的概念,Essential graph 是 skeleton 和 immorality 的组合,所有immorality子结构中的边是有向的,其余边仍为无向边。

现在来到了下一个问题,我们应该如何得到 Essential graph 呢?其中一种方法称为 PC Algorithm,该算法分为三步

  1. Identify the skeleton
    我们首先从无向完全图开始,对于边 X-Y,如果存在一个 Condition set Z 使得 $X \perp !!! \perp Y \vert Z$ ,那么我们删除连接 X 和 Y 的这条边。condition set 从空集开始,逐渐增加集合内元素的个数进行判断
  2. Identify immoralities
    经过第一步后,对图中所有的 X-Z-Y 路径进行判断,当同时满足以下两个条件时,我们可以判断 X-Z-Y 形成了immorality,并为其添加对应的方向
    • X 和 Y 之间没有边(在算法的第一步中被删去)
    • Z 不在使得 X 和 Y 条件独立的 condition set 中
  3. Orient qualifying edges that are incident on colliders
    经过第二步后,所有的immorality都别识别出并添加了边的方向。在现在的图中,针对所有 $X \rightarrow Z - Y$ 的路径,当 X 和 Y 之间没有边连接时,我们可以对 Z 和 Y 之间的边添加方向,即 $Z \rightarrow Y$

我们从 PC Algorithm 得到的因果图只是 Essential graph 中的一种形式,并不能保证得到和真实因果图一模一样的graph。

除了 PC Algorithm 外,还有一些算法针对更加广泛的情况(即移除部分假设)进行应用,这里列举一些

Independence-Based Causal Discovery 也存在一些局限性。

接下来一个很自然的疑问就是,我们可以做的更好吗?
在faithfulness的假设下,我们已经可以 identify the essential graph (Markov equivalence class)。现有研究表明,当数据是多正态分布,或者是线性高斯结构方程时,在最好的情况下我们也只能identify a essential graph (Markov equivalence class)

那如果是非高斯结构方程,或者是非线性结构方程呢?这就引出了第二类 causal discovery 的方法

Semi-Parametric Causal Discovery

首先考虑最简单的双变量情况,即 $X\rightarrow Y$ 和 $Y\rightarrow X$ 。如果从马尔科夫等价的角度来看,我们得到的essential graph是相同的,因此无法区分这两种情况。如果从结构方程的角度来看,前一种情况对应 $Y=f_Y(X,U_Y)$ ,X 与 $U_Y$ 相互独立。后一种情况对应 $X=f_X(Y,U_X)$ ,Y 与 $U_X$ 相互独立。此时同样无法进行区分

所以在这里我们需要对 parametric form 做一些假设。