Phil Ackerman y David Hambrick, del Instituto Tecnológico de Georgia y de la Universidad de Michigan, prepararon un breve y clarificador artículo sobre los errores a evitar al evaluar la capacidad cognitiva en las investigaciones de laboratorio.
Consideraron las siguientes temáticas: (1) fiabilidad y validez, (2) validez, (3) la carga teórica de los datos, (4) test de inteligencia estandarizados, (5) regresión a la media, (6) restricción de rango, (7) diferencias entre valores de correlación, (8) correlaciones estadísticamente significativas versus relevantes, (9) factores de método, (10) el contenido como un factor de método, (11) velocidad versus nivel, (12) modos de evaluar las capacidades cognitivas, y (13) contraste entre una única medida y medidas múltiples de capacidad.
La premisa de la que se parte es que hay un desajuste entre el paradigma estándar en psicología experimental y el procedimiento óptimo para investigar las diferencias individuales de capacidad cognitiva. Por ese motivo, los autores ofrecen una guía para diseñar experimentos que vinculen la evaluación de funciones cognitivas básicas en el laboratorio con las diferencias individuales de capacidades mental. Resumen sus mensajes en la siguiente tabla dividiendo entre lo que NO se debe hacer y lo recomendable.

La fiabilidad de las tareas que se usan en el laboratorio no parece preocuparles a los experimentalistas. La cosa no va con ellos y les resulta indiferente que los valores sean subóptimos. Algunos ejemplos célebres de esas tareas son la tarea de flancos de Eriksen, el Stroop, Stop Signal, o las tareas de Michael Posner sobre atención. Ackerman y Hambrick envían un asertivo mensaje a esos experimentalistas: “el criterio de fiabilidad no es un contraste de la hipótesis nula de una correlación esperada de cero en un test administrado en dos ocasiones, sino una estimación de la consistencia en el ordenamiento de los individuos en un determinado periodo temporal. Y el estándar apropiado debería ser r = 1.0” El famoso alfa de Cronbach es inadecuado para valorar esa fiabilidad, resultando mucho más adecuado un test-retest. En un artículo publicado por nuestro equipo en 2010, por ejemplo, calculamos una fiabilidad test-retest en tareas experimentales de memoria a corto plazo, memoria operativa, atención y velocidad mental dentro de un rango que osciló entre 0.69 y 0.88.
Otra de las cuestiones criticadas es la de usar un solo test de inteligencia, como el test de Raven, para valorar el factor general (g). Es cómodo, pero subóptimo. Observar una correlación entre las tareas experimentales y un test como el Raven es insuficiente para averiguar si esas tareas son válidas. Llegar ahí exigiría disponer de alguna medida criterio que validase lo evaluado en el laboratorio. Un criterio externo como, por ejemplo, el desempeño educativo u ocupacional.
Es usual, también, comparar grupos extremos de personas elegidas a partir de algún criterio. Por ejemplo, individuos de alta y baja memoria operativa. El problema es que, puesto que es habitual considerar estudiantes universitarios, el grupo de baja memoria operativa difícilmente será representativo de lo que se encontraría de haber considerado a la población general. Aunque hay fórmulas para estimar qué podría suceder de haber evaluado a la población general, es una práctica infrecuente y a menudo se carece de la información necesaria para hacer los oportunos cálculos. El hecho es que generalmente es una mala estrategia comparar grupos extremos, a pesar de su popularidad entre los experimentalistas.
Capítulo aparte merece el uso de puntuaciones diferenciales. Un ejemplo habitual es la medida del control atencional en la tarea de flancos de Erisksen. La idea es calcular la diferencia entre el tiempo para decidir cuando hay conflicto atencional (incompatibilidad) y cuando no es ese el caso (compatibilidad). La diferencia incompatible – compatible se considera la variable dependiente de interés, pero el resultado de esa diferencia presenta una lamentable fiabilidad.
¿Cuándo debería concluirse que una correlación es sustancial, moderada o grande?
Ackerman y Hambrick hacen cálculos sobre un estudio publicado en 2008 en el que se administraron a 180 estudiantes universitarios 19 tareas que supuestamente valoraban seis funciones ejecutivas. El valor medio de correlación entre esas tareas fue de 0.11. Además, el 22% de las correlaciones fueron negativas. El 96% de la varianza presentó, por tanto, un carácter específico de las tareas administradas, y, en consecuencia, calcular un análisis de reducción de datos debería considerarse como una práctica imprudente.
El modo en el que se miden las variables que pretenden apresar o representar un determinado constructo psicológico es también relevante. A eso corresponden los denominados ‘factores de método’. El contenido de las tareas experimentales (palabras, números o figuras) también puede confundir la identificación de las verdaderas causas de sus relaciones.
Escriben nuestros autores: “uno de los desajustes entre cómo se aproximan los psicólogos experimentales a los constructos psicológicos y la aproximación diferencialista a la evaluación de las capacidades mentales reside en el fenómeno de interés.” Los modelos jerárquicos sobre la inteligencia asumen que cualquier test estandarizado valora un componente general pero también componentes más específicos. Y el mejor modo de capturar la varianza de interés, aquello que realmente se quiere evaluar, es que la evaluación incluya una heterogeneidad de test, de modo que se minimice el impacto de las peculiaridades de cada uno de esos test.
A los investigadores nos encanta el principio de la indiferencia del indicador que Charles Spearman formuló en la primera parte del siglo XX. Según ese principio, correcto, cualquier medida cognitiva valora la inteligencia general (g) en algún grado. Si identificamos una medida que presente altos valores en g (el test de Raven es un ejemplo paradigmático) podremos ahorrarnos la tediosa práctica de administrar una batería de test. Pero es una práctica arriesgada, al igual que lo es evaluar el componente cristalizado de la inteligencia administrando exclusivamente, por ejemplo, test verbales. La recomendación que se ofrece aquí es prácticamente idéntica a la que propusimos en 2009 y recordamos en un capítulo del The Cambridge Handbook of Intelligence and Cognitive Neuroscience (2021). Sabemos lo que debe hacerse, pero hay que aceptarlo y actuar en consecuencia.
Al comentar el problema de la velocidad versus el nivel al evaluar capacidades mentales, se recurre a uno de nuestros estudios. Con eso deberíamos darnos por contentos los Spaniard no vaya a ser que deba concluirse que hacemos las cosas razonablemente bien por estos lares. Ackerman y Hambrick podrían haber usado algunos de nuestros informes (p. e. A o B) sobre las relaciones de la inteligencia con las tareas experimentales en las que seguíamos fielmente bastantes de las recomendaciones que ellos sintetizan aquí, pero habría sido too much for the body concluir algo así como: “lean los informes de esos folks de Southern Europe para saber qué debe hacerse para aproximarse al ideal.”
Un mensaje interesante es que administrar una heterogénea batería de test cognitivos no tiene por qué exigir varias horas de evaluación. Un ejemplo de una batería de ese tipo se encuentra en Ackerman & Kanfer (1993), pero, claro, es un artículo demasiado antiguo para resultar lo bastante cool.
Nuestros autores concluyen su artículo con las siguientes palabras: “hay pocos estudios publicados, si es que hay alguno, que puedan considerarse ideales. Lo impiden las limitaciones de financiación, de tiempo, de esfuerzo, de disponibilidad de muestras adecuadas, etc.” Pero, aun así, seguir un buen número de las recomendaciones ofrecidas en su artículo es bastante factible. Hagamos caso y puede que nos vaya algo mejor.
Deja una respuesta