La escalera de la causalidad (por Francisco J. Abad)

Judea Pearl, filósofo, matemático y experto en computación de la Universidad de California, lleva décadas intentando formalizar matemáticamente el fenómeno de la causalidad en las ciencias empíricas. En El libro del porqué, Pearl –y su coautor, Dana Mackenzie—describen que, en nuestra capacidad de ver el mundo en términos de causas y efectos, se pueden diferenciar tres peldaños que implican distinta potencia predictiva.

En el primer nivel, el de la mera observación, tomamos nota de los hechos y establecemos asociaciones en nuestro entorno (p.ej., podemos observar que la ingesta de un cierto fármaco reduce la mortalidad de una enfermedad). Las técnicas estadísticas como la regresión múltiple, la regresión logística o las redes neuronales estarían en ese primer nivel. En el primer nivel, el de la correlación, podemos hacer predicciones, siempre que las condiciones en las que se obtuvo la asociación no se modifiquen (o, al menos, no en las características relevantes).

El segundo nivel implica la capacidad de intervenir; alcanzar ese nivel se vincula tradicionalmente al diseño experimental (p.ej., cuando se investiga la eficacia de un fármaco en un ensayo aleatorizado). En este contexto, se asigna a los participantes a los grupos de forma aleatoria y se comparan grupos que, de partida, son similares en distribución en todas las variables relevantes, salvo en la variable de la que se estudia el efecto causal (la intervención). En el segundo nivel, podemos intervenir sobre la realidad y saber que nuestra intervención tendrá un efecto.

El tercer nivel implica un conocimiento de las causas más profundo. Requiere un modelo teórico de la estructura causal que nos permita generalizar nuestras conclusiones a nuevas situaciones (p.ej., cuando se va depurando un fármaco de aquellos elementos que son prescindibles, dejando los componentes que son causa necesaria y suficiente para el efecto). En el tercer nivel podemos formular contrafácticos (p.ej., si el fármaco no hubiera tenido el elemento A, no hubiera tenido efecto).

De acuerdo con Pearl, los contrafácticos nos sitúan en lo más alto en la escalera de la causalidad (la mayor potencialidad para establecer relaciones casuales), y hoy por hoy, por delante de las maquinas. Y es que la capacidad de predecir en situaciones novedosas requiere el andamiaje de un modelo causal. Cualquier algoritmo de inteligencia artificial que se limite a extraer relaciones entre variables fracasará estrepitosamente cuando las condiciones cambien.

Si queremos maquinas realmente pensantes, tendremos que dotarlas de mecanismos que les permitan representar un modelo causal y razonar contrafacticamente.

El libro del porqué nos propone un aparataje formal para representar y extraer conclusiones causales con datos observacionales. En palabras de Pearl, “podemos predecir con éxito los efectos de una intervención sin necesidad de experimentar”.

REPRESENTACION DE UN MODELO CAUSAL

Sin entrar en consideraciones sesudas sobre lo que implica una relación causal, podemos decir que implica una relación entre dos variables X e Y, tal que el valor de Y depende de X (contrafácticamente: afirmamos que, bajo ciertos valores de X distintos al observado, manteniendo constante todo lo demás, el valor de Y sería distinto). Nótese que esta definición va más allá de observar una mera regularidad.

Como dice Pearl:

Mientras que las regularidades se pueden observar, los contrafactuales solo se pueden imaginar”.

La manera más fácil de representar de forma compacta una relación causal, es un diagrama causal (directed acyclic graph, o DAG). Por ejemplo, el DAG más sencillo es:

En el que la flecha unidireccional representa el efecto causal de una variable sobre otra. Esta flechita indica que, en nuestro modelo teórico, los niveles en una variable están asociados a los niveles en la otra variable. Para representar ese modelo causal, Pearl se inventa el operador “do”, de naturaleza contrafáctica:

P(Y|do(X))

Que indica la probabilidad de que ocurra Y, si “hago” X. Nótese que esta probabilidad puede ser distinta de la probabilidad condicionada tradicional, de que ocurra Y si observo X:

P(Y|X)

Esta última es la que, en la práctica, la que podemos observar.

Observamos P(Y|X), pero queremos inferir P(Y|do(X)).

Hay que dar el salto de la asociación a la causa

¿Cómo lo hacemos?

EL SALTO DE LA ASOCIACIÓN A LA CAUSA: DESCARTAR CAUSAS ALTERNATIVAS

Es bien conocido el adagio “Correlación no implica causación”. Lo que se quiere decir es que frecuentemente la asociación entre dos variables es espuria, ya sea porque es azarosa (p.ej., si estamos analizando un conjunto muy alto de correlaciones y/o si la asociación se ha observado en un conjunto pequeño de casos) o porque es explicada por terceras variables. El gráfico con la correlación entre el número de películas de Nicolas Cage y las muertes por ahogamiento en piscinas se ha convertido en referencia icónica a la hora de ilustrar que correlación no implica causación.

Centrándonos en el segundo factor, la posibilidad de una explicación alternativa, es claro que para concluir causalidad el primer paso es descartar el efecto de esas terceras variables.

Si observamos que la inteligencia a los 20 años correlaciona con el salario a los 30 años, tendremos que valorar qué parte del efecto se debe a una red más tupida de contactos, asociada a un mayor nivel socioeconómico familiar.

Si observamos una asociación positiva entre el tamaño de la biblioteca familiar y el gusto por la lectura de los vástagos, tendremos que plantearnos si no será que los padres a los que les gusta la lectura tienen hijos a los que les gusta la lectura. Puede que la correlación permita predecir la avidez lectora a partir del número de libros en casa (primer nivel de la escalera), pero si no hay una relación causal (tercer nivel de la escalera), incrementar el número de libros no incrementará el gusto por la lectura.

EL CONTROL DE TERCERAS VARIABLES O VARIABLES DE CONFUSIÓN

Julia Rohrer, en su artículo “Thinking Clearly About Correlations and Causation: Graphical Causal Models for Observational Data”, resumido en otro post de este blog, describe algunas de las maneras tradicionales de atajar el problema de las terceras variables o variables confusoras: (a) estratificando, (b) incluyéndolas como covariables, o (c) emparejando (matching). En cualquiera de los casos se trata de intentar estimar la relación entre X e Y, manteniendo constante Z.

Por ejemplo, si el número de contactos es una variable extraña para la asociación entre inteligencia y salario, puede analizarse la correlación entre inteligencia y salario por separado para los que tienen muchos y pocos contactos (estratificación), o puede calcularse la correlación parcial tomando como covariable el número de contactos.

Pero, más allá del cómo controlar, la pregunta más importante es:

¿Por qué variables debemos controlar?

A pesar de su simplicidad, los DAG facilitan responder a esta pregunta, algo no tan sencillo como parece a primera vista.

CONFUSIÓN, MEDIACIÓN Y COLISIÓN

Los DAG permiten representar tres tipos de confluencias de tres variables:

1.- Confluencia que implica una variable de confusión o causa común:

Se encuentran cuando una tercera variable (Z) explica parte de la relación entre otras dos variables (i.e., X e Y). Generalmente se debe controlar por ese tipo de terceras variables, para descontar efectos no causales. Si no se hace, se abre una “puerta trasera” en la relación entre X e Y.

2.- Confluencia que implica a un “colisionador” o efecto común:

Un colisionador (Z) es un efecto de otras dos variables (X e Y). Si se condiciona a un colisionador se genera una asociación artificial entre las dos variables. Por ejemplo, tener una personalidad atractiva y/o tener un físico atractivo puede determinar el éxito a la hora de ligar. Si estudiamos la asociación entre personalidad atractiva y físico atractivo en la población que liga encontraremos una correlación negativa artificial. Este tipo de variables, si se controlan, abren una “puerta trasera” en la relación entre X e Y. Por tanto, nunca hay que controlar por un “colisionador” o efecto común.

3.- Confluencia que implica a una variable de “mediación”:

Se encuentra cuando el efecto de la variable X sobre Y, está mediado, en parte, por Z. En este caso tampoco debe controlarse por Z porque la relación entre X e Y es legítimamente causal. De acuerdo con Pearl, no deberíamos controlar por Z, salvo que tengamos interés en descomponer los efectos directos e indirectos. Recordemos que nuestra incógnita inicial es sobre el efecto total, P(Y|do(X)): cuánto cambiaría Y, si pudiéramos hacer que X cambiara.

Por ejemplo, la inteligencia (X) podría afectar al tiempo dedicado a estudiar una materia complicada (Z; p.ej., por mayor refuerzo intrínseco al entender mejor los conceptos) y este, a su vez, podría afectar al rendimiento en la materia (Y).

DIAGRAMAS CAUSALES Y PARADOJAS ESTADÍSTICAS

Los DAG permiten tener un marco de referencia desde el que comprender por qué se producen algunas paradojas estadísticas. Pearl describe tres bien conocidas:

1.- La paradoja de Berkson.

Esta paradoja se refiere a la aparición de correlaciones espurias entre variables, cuando al trabajar con una muestra seleccionada, condicionamos, indirectamente, a una variable de colisión. Supongamos que el éxito como actor depende en parte del talento y del atractivo físico. En un DAG:

En el DAG se representa que no hay relación, en la población de actores, entre belleza y talento, pero que ambos atributos determinan su éxito. Ahora supongamos que estudiamos la relación entre talento y belleza en el grupo de actores famosos (los que han tenido éxito). Pues bien, aunque en la población total no haya relación entre la belleza y el talento, sí la habrá –negativa—en la submuestra de famosos.

Lo anterior podría darnos la sensación de que existe una correlación negativa en el mundo real. Ocurre simplemente que estamos condicionando a una variable de colisión: el éxito.

La paradoja de Berskson es frecuente en estudios observacionales hospitalarios. Por ejemplo, en los hospitales es posible encontrar, entre los pacientes, una correlación espuria entre dos enfermedades. Se trata del típico caso de condicionar por un colisionador. Gráficamente:

Al seleccionar una muestra hospitalaria, podemos encontrar que existe una asociación positiva si ninguna de las dos enfermedades es suficientemente grave de por sí para ingresar al hospital, pero la presencia simultanea de ambas complica el asunto. Esto se deberá a que en la muestra de hospitalizados habrá una sobrerrepresentación de las personas que tienen las dos enfermedades simultáneamente.

También, en ausencia de interacción, pueden generarse una correlación espuria negativa. Griffith y col. ejemplifican cómo, si nos restringimos a la población testada por PCR, podemos incurrir en un sesgo de selección que nos llevé a pensar, por ejemplo, que fumar es un factor protector de la enfermedad. Este tipo de asociaciones espurias pueden ocurrir si nos centramos en la población hospitalizada, en los voluntarios que se instalan una app en el móvil, etc.

Otro ejemplo sencillo. Supongamos que el sexo y el IQ tienen un efecto en el abandono escolar. Realizar análisis sobre la relación entre sexo e IQ, entre los que no han abandonado, puede dar lugar a asociaciones artificiales entre ambas.

2.- Paradoja de Simpson.

En esta paradoja, la dirección del efecto de una variable sobre otra puede invertirse, al estratificar por una tercera variable.

La ilustración típica es la paradoja de las admisiones de Berkeley. En 1973 se encontró una indeseada relación entre sexo y tasa de admisión al doctorado en la Universidad de Berkeley (la tasa de admisión era mayor en varones). ¿Un caso de discriminación? Pudiera ser, pero, paradójicamente, cuando se hacía el análisis separando por departamentos, la tasa de admisión de las mujeres era mayor en todos los departamentos. ¿Cómo podía ser que cada departamento discriminara a favor de las mujeres y que, globalmente, sumando todas las cifras, se discriminara a favor de los hombres? Bickel, el estadístico de turno, llegó a la conclusión de que no había discriminación. Un DAG puede ilustrar que es lo que ocurre en este caso:

Simplemente, las mujeres pedían admisión en departamentos muy solicitados y, por tanto, les resultaba más difícil entrar. En la cadena causal, el Departamento era una variable mediadora que invertía la relación de sexo con el resultado de la admisión. El efecto directo de sexo en la tasa de admisión era positivo (a favor de las mujeres), pero el efecto indirecto jugaba en su contra (porque elegían departamentos con tasas de admisión más bajas).

¿Es correcta la conclusión de que no hay discriminación? Sólo si el modelo causal es correcto, nos recuerda Pearl.

3.- Paradoja de Lord.

Pearl la describe como la prima hermana de la paradoja de Simpson. En este caso, la paradoja ocurre porque las conclusiones de dos estadísticos pueden ser contrarias, dependiendo de si se condiciona o no a una medida pretest. En la versión de Wainer, se requiere ver el efecto de un comedor (A ó B) en la Ganancia de peso. Los estudiantes eligen a qué comedor van. Tras observar los datos, el primer estadístico constata que no ha habido cambio en el peso medio de los que están en el comedor A. Tampoco de los que están en el comedor B. Concluye que no hay efecto. El segundo estadístico, controla por el peso inicial, y concluye que sí hay efecto (a igual peso inicial, en el comedor A se gana más peso).

¿Quién tiene razón? Analicemos el problema a la luz del DAG (los pesos +1 y -1 indican que Ganancia de Peso = Peso final – Peso inicial):

Vemos que la razón la tiene el segundo estadístico: el peso inicial es una variable de confusión (entre Dieta y Ganancia de peso) y, por tanto, debería controlarse.

Esto indica que cualquier problema se resolverá de forma distinta según cuál sea nuestra pregunta y el diagrama causal que elaboremos. De acuerdo con Pearl, tanto en la paradoja de Simpson como en la de Lord, la conclusión correcta sólo se desvela bajo el modelo causal adecuado.

A veces puede ser mejor controlar/estratificar, y a veces no.

¿POR QUÉ VARIABLES CONTROLAR? EL CRITERIO DE LA PUERTA TRASERA

¿Cómo detectar el mínimo número de variables de confusión por las que se debe controlar?

De acuerdo con Pearl, tenemos que construir un DAG que explicite nuestro modelo causal. A continuación, tenemos que bloquear los caminos de puerta trasera, es decir, determinar las variables que afectan a X y a Y, directa o indirectamente, abriendo una asociación entre esas variables. A la vez, debe cuidarse que las variables por las que se controla no sean un efecto de X (es decir, variables mediadoras), y que no sea un efecto común de X e Y, o de sus ancestros (es decir, variables de colisión). Todo ello puede resultar bastante complejo, pero, afortunadamente existen algoritmos para, dibujado el diagrama causal, detectar automáticamente qué variables deben controlarse (p.ej., http://www.dagitty.net/)

LET’S DO IT (DO-CALCULUS)

Una vez determinado el conjunto Z de variables a controlar, se puede llevar a cabo la estimación del efecto de X sobre Y (“efecto de una hipotética intervención”), a través de lo que se denomina do-calculus, se transforma la función que incluye el “do” en una función marginal, que sí podemos estimar:

P(y|do(x))=∑z P(y|x,z) P(z)

En su libro, Pearl describe un sinfín de DAG.

El criterio de la puerta trasera no siempre es aplicable, los DAG, pueden incluir variables confusoras no observadas, etc.

¿HAY ALGO NUEVO BAJO EL SOL DE ESTA NUEVA REVOLUCIÓN CAUSAL?

Los diagramas causales tienen su origen en el trabajo de Sewall Wright hace más de 90 años, y son el núcleo de los modelos de ecuaciones estructurales (SEM, por sus siglas inglesas), que son ampliamente conocidos y utilizados. En un SEM, el investigador explicita su modelo teórico dibujando la red de relaciones causales (lineales) entre un conjunto de variables, para luego contrastar si su modelo es compatible con los datos.

Los diagramas causales de Pearl son más potentes que los diagramas SEM, ya que sirven para representar todo tipo de relaciones causales (p.ej., lineales o no lineales, simples o complejas, para variables continuas o discretas, deterministas o probabilistas). Sin embargo, no parecen exentos de riesgos ya que se asume, al menos en los ejemplos del libro, que las variables están medidas con precisión. Ya Kahneman, en 1965, señalaba que si la variable por la que controlamos no es suficientemente fiable, la corrección no será suficiente (Westfall and Yarkoni han vuelto a mostrar este problema más recientemente). Por otro lado, Pearl no parece hacer mucho énfasis en la comprobación del ajuste a los datos, ni en el problema de los modelos equivalentes.

Al final del día, si las relaciones son lineales, los SEM permiten, aparentemente, una aproximación más directa y sencilla.

EL MIEDO A LA CAUSALIDAD

En todo caso, el trabajo de Pearl quizás haga que los investigadores sean más conscientes de que sí pueden concluirse efectos causales a partir de datos observacionales.

Como dice Julia Rohrer en otro reciente trabajo, debemos dejar atrás el tabú contra la inferencia causal con datos observacionales. Si los investigadores no se comprometen realmente con los modelos, estos se convierten en un cascarón vacío.

Obviamente no se trata de reducir nuestras cautelas con respecto a estos modelos, que son necesarias, pero sí tomárselos en serio:

1.- Explicitando nuestra pregunta causal.

2.- Siendo exhaustivo en la definición de las posibles variables extrañas, observables y no observables.

3.- Buscando la estrategia adecuada para identificar el efecto causal (p.ej., variables instrumentales, diseños de regresión por discontinuidad, selección de muestras particulares).

4.- Contrastar los supuestos y las explicaciones alternativas.

Podemos quedarnos con las conclusiones de Rohrer:

“Causal inference on the basis of observational data is very difficult. However, this is not a good reason to render explicit causal inference taboo. Similar to when sex or drugs are made taboo, making explicit causal inference taboo does not stop people from doing it; they just do it in a less transparent, regulated, sophisticated, and informed way. Thus, we think it is about time that psychologists begin to talk openly about causality in nonexperimental research.”

Hacen falta buenas teorías e imaginación.

3 respuestas a “La escalera de la causalidad (por Francisco J. Abad)

Add yours

  1. Felicidades Francisco, me ha gustado mucho el post. Yela, en un estudio importante de su época (creo que era en el de la inteligencia), decia que «la correlacion es un tema empírico y la causación, filosófico». Yo lo repetíen mi libro de Diferencial de 1997. Veo que las tesis de Pearl no van muy lejos de este planteamiento.

    Me gusta

Deja un comentario

Subir ↑