La solidez de la investigación científica sobre la inteligencia de los humanos

El equipo que capitanea el holandés Jelte Wicherts publica un extenso meta-análisis sobre la robustez de la evidencia acumulada por la ciencia alrededor de la inteligencia de los humanos. Realmente es un ‘meta-estudio’ que considera 131 meta-análisis publicados entre 1984 y 2014 (los 2.442 estudios primarios considerados en esos meta-análisis se publicaron entre 1915 y 2013, y supuso considerar datos de más de 20 millones de individuos).

No se dejen asustar por las cifras porque veremos que aquí hay tomate.

Aunque comentaremos algunos detalles potencialmente interesantes en este post, la conclusión general que los autores destacan es:

“La investigación científica sobre la inteligencia de los humanos presenta signos tanto de un bajo poder estadístico como de sesgo de publicación, pero esos problemas parecen menos severos que en otras muchas disciplinas científicas.”

Señalan, al comienzo de su informe, que la inteligencia es un fenómeno perfecto para esa clase de análisis porque es uno de los más estudiados en psicología. Además, la evidencia apoya la conclusión de que las diferencias individuales de inteligencia predicen un elevado número de fenómenos de interés social. Finalmente, es una temática multidisciplinar con numerosas conexiones con la genética conductual, la educación, la economía, la psicología cognitiva, la neurociencia y la psicología del desarrollo, por nombrar algunas.

Precisamente por sus extensas ramificaciones, el probable impacto negativo de los sesgos que caracterizan a la investigación científica puede variar de modo revelador en el caso de la inteligencia de los humanos. Los estudios psicométricos, por ejemplo, pueden verse menos afectados que los que se orientan hacia la neurociencia.

El caso es que el tamaño del efecto promedio calculado en este meta-estudio fue de r = 0,25 y el tamaño muestral promedio más habitual fue de N = 60 (con un rango entre seis y más de un millón y medio de individuos). El panorama cambia algo al separar los resultados según los cinco tipos de estudios (correlacionales, poblacionales, experimentales, toxicológicos y genéticos), pero no demasiado: el tamaño muestral más habitual es mayor en genética (N = 169) que en los otros cuatro campos (N = 49-65).

En cuanto al poder estadístico para detectar efectos fiables, aunque sean pequeños o moderados, los estudios experimentales son los que peor parados salen, mientras que los estudios de la genética conductual son los ganadores. Solamente un tercio de los estudios primarios alcanzan el ansiado poder estadístico del 80%. Eso si, los autores reconocen que no hay que dejarse engañar por esos valores globales: la heterogeneidad es enorme. Y tienen razón. En cualquier caso, se concluye que

“El tamaño muestral suele ser menor del deseado para llegar al poder estadístico adecuado.”

La evidencia observada en este meta-estudio no es concluyente con respecto al hecho de que se brinde mayor protagonismo a los estudios a pequeña escala, algo que se observa regularmente en otras disciplinas.

Las conclusiones generales de esta investigación, cuando se comparan sus resultados con otras disciplinas, y que sustancian el diagnóstico con el que se abría este post, son:

1.- El poder estadístico característico en el estudio científico de la inteligencia (52%) es mayor que en neurociencia (8-31%), en psicología (12-44%), en la investigación con animales (13-16%), en economía (18%), y en la psicología social de la personalidad (50%).

2.- Las estimaciones del tamaño del efecto son robustas a través de las décadas.

3.- Finalmente, no se observa sesgo por citar los estudios en los que se informa de mayores tamaños del efecto.

En suma, el estudio científico de la inteligencia de los humanos no ha sido inmune a los problemas identificados en la investigación en general, aunque su impacto sea algo menos grave que en las demás disciplinas.

El modo de mejorar la situación supone, según los autores:

1.- Incrementar el poder estadístico aumentando los tamaños muestrales y cuidando la fiabilidad de las medidas.

2.- Tener presente que los efectos publicados pueden estar inflados.

3.- Pre-registrar la investigación que se llevará a cabo.

4.- Finalmente, mejorar la transparencia poniendo a disposición de la comunidad los datos directos.

Un detalle a comentar, que los autores reconocen, se refiere a las limitaciones de este meta-estudio y de los meta-análisis sobre los que se construye. Por ejemplo, la pregunta a responder en un estudio primario y en el meta-análisis en el se reseña, puede no coincidir. Asimismo, los valores globales que se obtienen en este meta-estudio dejan a un lado las peculiaridades de los meta-análisis dirigidos a diferentes áreas dentro de la misma disciplina:

“A la hora de interpretar nuestros resultados, es importante tener en cuenta que identifican patrones de potenciales sesgos agregados a través de los distintos meta-análisis. Aunque observamos una leve evidencia sobre un sesgo de estudios hechos a pequeña escala, eso no significa que todos los meta-análisis considerados se encuentren aquejados de ese sesgo.”

¿Cuál es mi valoración sobre la calidad y sobre las consecuencias que se pueden derivar de esta meta-estudio?

Mi valoración es de insustancial neutralidad. Es demasiado atrevido pretender generalizar los valores globales de los que se informa aquí. El tamaño del efecto de 0,25 presenta un rango de variación que oscila entre -1 y +1. ¿Qué diantre puede significar eso? Pienso que los autores son opacos y que se ocultan detrás de los números para evitar salir en la fotografía.

Y esa opacidad me lleva a concluir que las consecuencias de lo que aquí se informa, tanto para la investigación básica, como para el desarrollo de aplicaciones, será de escasa a nula. ¿Qué hacemos con esta información más allá de los malabarismos metodológicos a los que se nos invita?

Mejorar metodológicamente es, por supuesto, una meta a perseguir en general. Pero habría sido bastante más interesante, y práctico, identificar en qué áreas de la investigación científica de la inteligencia de los humanos se siguen mejor los criterios de excelencia y en cuáles no es ese el caso. Por ejemplo, identificando en qué áreas se concentran los estudios que alcanzan “el ansiado poder estadístico del 80%”

Ahí van un par de breves ejemplos de lo que pretendo decir para cerrar este post:

1.- En el meta-análisis de Roth et al. (2015) reseñado aquí, se recogen estudios primarios, publicados entre 1922 y 2014 en 30 países, sobre la validez de la inteligencia para predecir las calificaciones escolares. El tamaño del efecto (r) calculado fue de 0,60.

2.- En el meta-análisis de F. Schmidt (2016) reseñado aquí, se resume un siglo de investigación en psicología sobre la validez de los predictores del desempeño laboral. El tamaño del efecto (r) calculado para la variable inteligencia fue de 0,65.

Hay una reveladora distancia entre estos tamaños del efecto, observados en dos de los contextos prácticos más usuales en psicología, y el valor promedio del que se informa en el meta-estudio del grupo de Wicherts.

Imagino que suponen cuál es el valor que considero más confiable, desde una perspectiva básica, así como más útil para orientar las aplicaciones en el mundo real en el que vivimos los humanos, más alá de los márgenes nítidamente señalados por las entretenidas piruetas estadísticas.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

Subir ↑

A %d blogueros les gusta esto: