No es la metodología, es el investigador (por Francisco J. Abad)

Paco Abad

Una de las fortalezas del conocimiento científico es su potencial replicabilidad. Desde esta perspectiva, un informe científico debería ser como una receta. Si se mantienen tiempos, ingredientes y medidas, se llega al mismo pastel. Pues bien, la psicología –a la par que la medicina y otras disciplinas—se encuentra en plena crisis culinaria. Los resultados de demasiados estudios científicos resultan difíciles o imposibles de replicar. Ya en 2005, John Ioannidis sugería que la mayor parte de la investigación publicada es falsa.

La crisis de la replicabilidad está abriendo, lógicamente, una crisis de confianza pública en la ciencia. No se trata sólo de algunas manzanas podridas, como el psicólogo social Diederik Stapel, que directamente se inventaba los datos. Hubo un antes y un después, en 2011, cuando la prestigiosa ‘Journal of Personality and Social Psychology’ publicó “Feeling the future”, aportando evidencia con la metodología estándar, de la existencia de habilidades paranormales. En 2015, los resultados del “Reproducibility Project”, publicados en Science, echaban más leña al fuego, al no replicar muchos efectos aceptados en la psicología.

Imagen 1

Todo esto ha sembrado la duda sobre la competencia y la ética de los investigadores, en un mundo en el que la presión y la prisa por publicar es tan grande que algunos se ven tentados a cruzar la línea roja. También evidencia las limitaciones de los procesos de control de calidad, que se fundamentan en el endeble sistema de revisión por pares. Autores y revisores son, al final, seres humanos falibles (aunque los últimos no siempre se comporten como tales).

No obstante, son muchas las voces que, desde hace décadas, señalan que el problema está en el mismísimo núcleo de nuestra disciplina: el uso de los contrastes de significación como metodología. Ya lo decía Frank L. Schmidt en 1996: “we must abandon the statistical significance test”. Este mensaje renace una y otra vez, cada poco tiempo. En marzo de 2019, la revista de la Asociación Americana de Estadística publicaba un monográfico sobre el papel de la inferencia estadística en el siglo XXI, en el que varias de las contribuciones vuelven a abogar por el abandono del concepto de significación estadística.

EL PAPEL DE LA ESTADÍSTICA EN PSICOLOGÍA

Vayamos un paso atrás, para los legos. ¿Por qué los psicólogos necesitan de la estadística? La razón última es que los fenómenos que abordamos son complejos: hay muchas causas detrás de cada comportamiento o su resultado. Así, no existen tratamientos que curen al 100% a los pacientes, ni intervenciones educativas que tengan el mismo efecto en todos los estudiantes. En general, las personas no reaccionan exactamente de la misma manera casi nunca. Somos diferentes. Las situaciones tampoco son exactamente iguales.

Imagen 2

Suponga que un psicólogo quiere saber si un programa de entrenamiento cognitivo puede mejorar la capacidad de aprendizaje. Simplificando mucho, la estrategia más clásica es asignar al azar a las personas a las condiciones que representan la presencia/ausencia de la causa que se quiere estudiar (un grupo recibe el programa y el otro no), esperando que ambos grupos estén equilibrados en las características no manipuladas (p.ej., las diferencias individuales). Esto no implica que sean equivalentes en dichas características, como se afirma con frecuencia, pero sí que, si se repitiera el experimento muchas veces, la media de las diferencias en esas características sería cero. De esta manera, igualando en las otras causas, se intenta aislar la causa que se quiere estudiar.

Después del experimento, llega el contraste de hipótesis. La regla es muy sencilla. Se fija un tamaño mínimo en el estadístico –la diferencia de medias entre grupos—para asumir que hay un efecto no espurio. Ese punto de corte se elige según la distribución del estadístico en ausencia de un efecto real y pretende controlar nuestra tasa de falsos positivos, en el caso de que el efecto real no exista. El valor asumible para esta tasa es arbitrario, pero es habitual fijarlo a un valor pequeño, del 5%. Si la diferencia de medias es menor que el punto de corte, diremos que es significativa.

La lógica del contraste implica que, en ausencia de efectos, meteremos la pata (concluiremos que hay efecto) en el 5% de los casos. Parece maravilloso tener un control que ayuda a descartar que el efecto encontrado sea puro efecto del azar.

Parece sencillo ¿no?

En realidad, los contrastes no son nada intuitivos. Son trampas mortales.

Imagen 3

ERRORES DE INTERPRETACION CUANDO LA DIFERENCIA ES SIGNIFICATIVA

Los investigadores pueden cometer los siguientes errores de interpretación cuando la diferencia es significativa al 5%:

1.- Se interpreta que la probabilidad de que el efecto sea espurio es menor de 0.05.

¡Esto es incorrecto! En realidad, sabemos que el porcentaje de falsos positivos, entre los resultados significativos publicados, es mucho mayor del 5%.

2.- Se interpreta que nuestro efecto se replicará en el 95% de los siguientes estudios.

Nada más lejos de la realidad.

3.- Se interpreta que la diferencia es relevante.

No. El punto de corte para concluir significación depende del tamaño muestral, ya que si la muestra es muy grande una discrepancia pequeña puede ser indicador de que el efecto no es espurio. Si la diferencia es significativa, la evidencia es favorable a que el efecto sea distinto de cero. Nada más.

4.- Se ignora la incertidumbre en la estimación de la diferencia.

Esto es incorrecto porque siempre cometemos error muestral, que depende del tamaño de la muestra.

ERRORES DE INTERPRETACION CUANDO LA DIFERENCIA NO ES SIGNIFICATIVA

Si la diferencia no es significativa, sólo podemos concluir que no hay evidencia para descartar que el efecto sea espurio (es decir, que podría serlo o no). Lo anterior es ignorado cuando se traduce ausencia de efecto significativo como ausencia de efecto (“No sale nada”), lo que es un error porque la decisión del contraste depende de la potencia de este (la probabilidad de detectar un efecto cuando existe). Esta potencia depende del tamaño muestral y del tamaño del efecto. Por ejemplo, si la potencia para detectar un efecto es de 0.80, esto quiere decir que nos equivocaremos (mantendremos, incorrectamente, que el efecto es “espurio”) en un 20% de los casos.

POR QUÉ NO SE PUEDE UTILIZAR UN CONTRASTE AISLADAMENTE

El contraste de hipótesis utilizado aisladamente no es útil porque:

-. Cuando una diferencia no es significativa, no puede concluirse si el efecto es espurio o no.

-. Cuando una diferencia es significativa, puede concluirse que hay evidencia favorable a que el efecto no sea totalmente espurio, pero el contraste en sí no nos dice si el efecto es grande o pequeño.

Afortunadamente, nadie en su sano juicio utiliza un contraste aisladamente. Siempre se debe complementar con el intervalo de confianza que defina la incertidumbre sobre el tamaño del efecto y que permita descartar no sólo la ausencia de efecto, sino también de efectos pequeños. Además, para cada experimento particular el investigador puede calcular la probabilidad de equivocarse condicionado a que un efecto de un determinado tamaño exista (1-b) o no exista (a), lo que le da una idea de los riesgos de su decisión.

Por tanto, los contrastes son una herramienta metodológica más, que no se puede utilizar aisladamente, pero eso ya se sabe. ¿Por qué tanta inquina contra los contrastes?

¿POR QUÉ LAS MALAS INTERPRETACIONES DEL CONTRASTE DE HIPÓTESIS CONTRIBUYEN A LA CRISIS DE REPLICABILIDAD?

Lo correcto cuando se mantiene la hipótesis nula es callarse (no podemos concluir nada). De lo que no se puede hablar, hay que callar.

Sin embargo, la conclusión habitual del investigador es que no hay efecto. Y aquí vienen los problemas. Un efecto potencialmente espurio parece poco interesante en sí mismo, tanto para los investigadores como para los editores de las publicaciones científicas. A la larga, eso genera un sesgo de publicación que va en contra de que se publiquen resultados no significativos.

Repito. No creo que este sesgo se deba únicamente a que los editores quieran efectos significativos. En presencia de un efecto no significativo el estudio muere de irrelevancia, porque el resultado es compatible con el efecto espurio. No se puede concluir. Es bastante lógico que los investigadores metan estos estudios en un cajón.

El problema es que, al hacerlo, pueden estar descartando efectos reales y/o generando sesgo en la distribución del tamaño del efecto.

Imagen 4

Esto ocurrirá, sobre todo, por la baja potencia del contraste en cuando se utilizan muestras pequeñas (p.ej., en psicología experimental, en psicología social,…) o se trabaja con modelos demasiado complejos. Por ello, los resultados de estudios con muestras pequeñas o modelos complejos sólo son interpretables a base de agregación.

Dada la baja potencia, son esperables muchos falsos negativos, que no se publican.

Un segundo problema, que tampoco es culpa de los contrastes en sí, es que su distribución muestral sólo será la esperada si el investigador no hace cosas extrañas.

Las revistas no publican resultados no significativos, por lo que para superar este inconveniente, los investigadores suelen caer en prácticas, aparentemente inocentes, pero totalmente cuestionables. Por ejemplo, pueden quitar o añadir sujetos, condiciones y/o variables, la asignación puede no ser completamente aleatoria, pueden no hacer corrección por comparaciones múltiples, añadir covariables, probar distintas alternativas o análisis de datos, generar hipótesis a posteriori, etc.

En definitiva, seleccionan los resultados significativos y ocultan los no significativos debajo de la alfombra. Esto redunda en más sesgo de publicación y puede ser otra razón que explique la falta de replicabilidad. Esto puede ocurrir, por ejemplo, en neuro-imagen, cuando se realizan numerosos contrastes y no se establece ningún tipo de corrección por comparaciones múltiples. En Psicometría sabemos desde hace tiempo que las modificaciones “ad hoc” son especialmente peligrosas.

Lo anterior redundaría en muchos falsos positivos, que sí se publican.

¿POR QUÉ LA MAYORÍA DE LOS EFECTOS PUBLICADOS SON ESPURIOS?

Ya hemos dado dos razones, pero hay una más.

Muchos investigadores creen que si el resultado es significativo, la probabilidad de que el efecto sea espurio es pequeña. Este pensamiento es bastante razonable, pero completamente falso.

La probabilidad de que un efecto sea espurio, dado que un resultado es significativo, puede variar desde 0 hasta 1, dependiendo del contexto. El valor concreto depende de la potencia y de la proporción de efectos realmente significativos. Por ejemplo, si la potencia es 0,50 y la proporción de efectos reales es 0,10, el 47% de los efectos detectados serán espurios [.47 = (.90∙.05) / (.90∙.05+.10∙.50)], incluso sin añadir ningún sesgo de publicación o práctica cuestionable. Así, para empezar.

IMAGEN 5

En este sentido, el panorama no es muy alentador. Entre los artículos publicados, la tasa de falsos positivos y efectos sobrestimados será elevada, por el sesgo de publicación, por la baja potencia de los estudios y porque probablemente la tasa de estudios realmente significativos, a priori, es pequeña.

En todo caso, también deberíamos ser prudentes con la aparente falta de replicabilidad.

En ocasiones, los investigadores interpretan los contrastes de forma determinista, olvidándose de la incertidumbre que hay detrás de estos. Uno considera, lógicamente, que si ha fijado una tasa baja de falsos positivos (del 5%) y una tasa baja de falsos negativos (p.ej., potencia de 0,8), puede concluir sobre la presencia/ausencia de efecto con riesgo bajo de equivocarse. Esto es razonable.

El problema es que deberíamos tener expectativas correctas sobre cuál es la replicabilidad esperada en términos de contraste estadístico, y no sorprendernos tanto por la falta de congruencia. Por ejemplo, si la potencia de un estudio es 0,80, esto quiere decir que la tasa de falsos negativos será del 20%. Pero la probabilidad de que en dos estudios –con igual potencia—se replique la detección del efecto será de 0,64 y la probabilidad del que se replique en tres será de 0,512.

Por tanto, dicho sea de paso, como recordaba Juan Botella en este mismo blog, el estudio de la replicabilidad (compatibilidad) de los resultados de los estudios debiera hacerse de la manera correcta (Hedges, 2019), y no meramente comparando las conclusiones dicotomizadas basadas en la significación estadística.

¿SOLUCIONES?

Lo primero es reconocer que un estudio particular nunca es suficiente para concluir sobre la existencia de un fenómeno o la veracidad de una teoría. Sin llegar a lo paranormal, algunos fenómenos descritos en la literatura son demasiado bonitos, estrambóticos, políticamente correctos y/o increíbles para ser verdad. No deberíamos olvidar nunca, como antídoto, que afirmaciones extraordinarias requieren pruebas extraordinarias. Por las razones comentadas, la presencia de falsos positivos puede ser más la norma que la excepción.

Es importante quitarle peso a los contrastes y agregar los estudios en cada campo particular, resumiendo la evidencia cuantitativamente, detectando el sesgo de publicación con las técnicas ya disponibles. En todo caso, habrá que ser paciente, pues quizás estas técnicas no estén suficientemente desarrolladas todavía para abordar la heterogeneidad de las características de los estudios (en las muestras, en las medidas, en los análisis, etc.).

Por un lado, se basan en lo que ocurre en la distribución de las colas y, por otro, el número de casos puede ser pequeño. Seguramente, como siempre, es más fácil prevenir que enmendar. También habrá que ver si, al final, los meta-análisis no son sensibles a problemas parecidos, aunque en ese caso será un problema de reproducibilidad, más que de replicabilidad (distintos investigadores llevan a distintas conclusiones con los mismos datos).

Distintos autores del monográfico del ASA sugieren dejar de usar el punto de corte de 0,05, dejar de usar puntos de corte de cualquier tipo. Los puntos de corte impelen al investigador a torturar los datos. En todo caso, las alternativas del monográfico no están claras –o, peor aún, resultarán crípticas para los aplicados. Ni siquiera está claro que los nuevos procedimientos sean más robustos a las prácticas cuestionables, reduzcan los grados de libertad del investigador o generen menos sesgo de publicación. El mismo Ioannidis teme las consecuencias negativas de un abandono precipitado de los contrastes de hipótesis. ¿Barra libre para el discurso narrativo?

Otros señalan el Pre-registro y la ciencia abierta como posibles soluciones. En el pre-registro, el investigador envía un proyecto (hipótesis, diseño, plan de análisis de datos) a la revista, que se compromete, en caso de dar visto bueno al proyecto, a publicar los resultados sean estos significativos o no. Ya hay alguna señal de que los tamaños del efecto en este tipo de estudios se reducen, lo que sugiere que resultan eficaces en restringir los grados de libertad de los investigadores, pero uno se plantea:

A.- Si los que hacen pre-registro son una muestra representativa del total de investigadores (como para poder generalizar a futuro);

B.- Si la publicación de resultados negativos en los que la hipótesis nula sea cierta- de verdad- puede llevar a llenar de más basura nuestras hemerotecas (¡Cómo si no tuviéramos ya bastante!);

C.- Si, en el caso de las réplicas pre-registradas, los incentivos para el investigador no dejan de existir: se invierten ¿Acaso no es un refuerzo descubrir que el famoso efecto X del pope Y no se replica? (y en ausencia de prácticas cuestionables, es más fácil no conseguir un efecto que conseguirlo – por ejemplo, siendo un poco chapuzas).

D.- Si puede potenciar la mala práctica de buscar el camino fácil (explorar condiciones en las que se vaya a encontrar el resultado deseado). Por ejemplo, en el área de metodología es posible proponer un método nuevo sin compararlo con los ya existentes o no ser excesivamente exhaustivo en las condiciones de simulación que se presentan. O probar la estimación de un nuevo modelo en condiciones muy sencillas, a sabiendas de que otras condiciones dan lugar a problemas de estimación.

E.- Si no es una señal más de la burocracia que nos invade cada día (una nueva “barrera de revisores” que superar, antes de comunicar un descubrimiento).

F.- Si es realista en cuanto al proceso de creación científica, pues hacer ciencia es un proceso más caótico de lo que se pretende. Lo natural es que el científico genere muchas hipótesis y análisis durante el proceso de investigación, y los investigadores necesitan con frecuencia desviarse de su plan para adaptarse a las contingencias.

G.- Si no es desaconsejable partir de una filosofía de desconfianza hacia el científico, cuando, pensando mal, el pre-registro tampoco es inmune al fraude (p.ej., enviar el proyecto después de haber hecho los análisis).

H.- Si quizás bastaría que cada uno recogiera suficiente muestra para realizar un estudio piloto y otro de validación (o incluso varios, desde distintas maneras de operativizar los constructos).

¿Y SI EL PROBLEMA ESTÁ EN LA BASE?

Mi opinión es que hay tres problemas que se entremezclan.

El primero tiene que ver con el carácter probabilístico de nuestros fenómenos y, por tanto, de nuestras conclusiones.

El segundo con un mal uso de una metodología muy limitada y una interpretación deficiente de los resultados estadísticos.

Pero, el tercero, que está en la base, se refiere al competitivo contexto en el que nos movemos, que hace que los incentivos estén distorsionados.

La producción científica se ha mercantilizado, es un producto más y, en el intento de objetivar la calidad de la investigación, se han generado una serie de criterios fácilmente cuantificables y objetivables, pero probablemente poco válidos. Se valora la cantidad frente a la calidad. Los impactos, las h, los cuartiles, el número de autores, el orden de la autoría, etc. No es raro escuchar que los editores, a su pesar a veces, también tienen en cuenta estos criterios en la selección de los artículos que se publican: a) si, por la temática, el artículo es más o menos citable; b) si por su prestigio y h, el autor es más o menos susceptible de ser citado; c) si el autor está especializado en la temática, ya que de esa manera sus artículos seguirán siendo citados, al menos, por él mismo.

En este contexto, la presión por publicar pone la búsqueda de la verdad en un lugar secundario.

Y esto es lo más importante.

Nada se resuelve si el propio investigador está más interesado en la publicación que en la búsqueda de la verdad.

¿CÓMO PARAR LA MÁQUINA?

Es difícil, pero igual que la valoración de nuestra docencia debería descansar en lo que aprenden nuestros estudiantes, la valoración de los científicos debería hacerse en relación a la verdad y relevancia del conocimiento que generan. Todo lo demás es mera fanfarria.

Debe promoverse un clima más sano para el crecimiento científico y criterios alternativos para la valoración de los curriculum. Desgraciadamente, todo apunta en otra dirección.

Imagen 6

En una reciente nota (“Fast lane to slow science”), lo describía muy bien Uta Frith, que empieza identificándose con el Charlie Chaplin de tiempos modernos, forzado a trabajar como una maquina cada vez más y más rápido, hasta el absurdo. Ella sugiere, de forma provocativa, restringir la producción científica, incluso a un único artículo por año. Además, sugiere, un criterio de valoración a considerar debería ser la replicabilidad del propio trabajo.

En definitiva, el principal motivado por demostrar la replicabilidad de sus resultados y conclusiones debería ser…

…el propio investigador.

2 comentarios sobre “No es la metodología, es el investigador (por Francisco J. Abad)

Agrega el tuyo

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

Subir ↑

A %d blogueros les gusta esto: