En este post, quiero compartir con ustedes algunas ideas introductorias sobre cómo se utilizan los Gráficos Acíclicos Dirigidos (DAG) para la identificación causal. También estoy compartiendo algunas simulaciones numéricas (basadas en Stata) aquí, que pueden ser ilustrativas de su uso en un contexto de identificación causal usando regresión.
El enfoque de DAG se describe en gran medida en el excelente libro de "The book of Why" de Pearl y Mackenzie (2018). A mi entender el libro es tan rico en ideas que seguramente escriba más sobre el mismo en el futuro.
Para aquellos que no están familiarizados con el marco, los DAG se utilizan para representar suposiciones sobre la relación causal entre constructos teóricos (y sus variables), y luego, utilizando los gráficos resultantes, para identificar estrategias de identificación causal. En casos de trabajo con datos observacionales, donde estamos acostumbrados a pensar en posibles factores de confusión que introducen sesgos en los efectos de interés medidos, el enfoque de Pearl propone un método sobre cómo y cuándo se debe confundir.
Permítanme dar algunos ejemplos sobre cómo funcionan estos gráficos y qué muestran las simulaciones que adjunto.
Supongamos que estamos en un entorno de observación y nos interesa la identificación del efecto de la variable X en la variable Y. También supongamos que también hay una variable Z que tiene un efecto en X e Y. Esta es la historia básica de la conocida idea de sesgo de confusión, y se representa en el siguiente gráfico:
Para identificar el efecto de X en Y, debemos controlar Z. El control de Z, que consiste en examinar la relación entre X e Y, habiendo fijado el valor de Z, bloquea el efecto de confusión de Z. (1). La confusión se produce porque hay una ruta alternativa que conecta X e Y. Pearl utiliza la analogía de una tubería: la idea es que la incorporación de Z como control bloquee la tubería alternativa X <= Z => Y. Al referirse a este camino alternativo, también se refiere a él como un "camino de puerta trasera" (back-door path).
En un marco de regresión, agregar controles es equivalente a agregar la variable como un regresor explicativo. Para el siguiente escenario simulado, supongamos que no hay una relación causal entre X e Y, y que ambas variables están influenciadas (linealmente) por el confusor. Por ejemplo, supongamos que
Donde , and son ruido uniforme.
Ahora asuma que, en intentar identificar el efecto de X sobre Y se estima el modelo: donde omitimos Z. El resultado es:
El coeficiente para X sugiere que hay un efecto negativo. En realidad, esto no es sorprendente con nuestro modelo: si Z tiene un efecto negativo en X y un efecto positivo en Y, en ausencia de Z se observa una relación negativa entre X e Y.
Ahora añadimos Z, y estimamos:
Podemos ver que el efecto espurio desaparece: el coeficiente para X ahora está cerca de 0, y el coeficiente para X está cerca de 3.
Mal control: introduciendo un colisionador
Considere ahora el siguiente ejemplo, que es una versión ligeramente modificada de uno de los casos presentados en el libro.
En esta situación, un posible conducto conecta X e Y. Este es el conducto X => A <= Z => Y. Pero hay algo especial en esta tubería. Siempre que hay un nodo cuando dos conexiones causales chocan (como en: => A <=), no hay un posible flujo de información. Esto es lo que Pearl llama un colisionador. Entonces, si ese fuera el único tubo relevante en el flujo, no habría necesidad de agregar controles, porque el tubo ya está bloqueado.
El problema aparece si controlas por A. El efecto de controlar con un colisionador es el opuesto: el control de A abrirá la tubería y permitirá el flujo de información a través de la tubería de confusión.
Ahora vamos a implementar esta situación en una simulación simple. Asumamos
Donde y es ruido aleatorio.
Primero notemos que no necesitamos introducir controles al identificar el efecto de X en Y.
Ahora, si se agrega A como control, se abre el camino de la puerta trasera y surge un sesgo!
Podemos cerrar el camino de la puerta trasera nuevamente, controlando también por B.
En el repositorio de github encontrarás más ejemplos. Estaré agregando más ejemplos reales en el futuro, así como más comentarios en el libro, ¡así que estad atentos! Si estás interesado en estas metodologías no te quedes sin dejar tus comentarios.
- More precisely, the relationship between X and Y would be evaluated at each level of Z, and the an average weighting the relative importance of each value of Z would be performed