Correlación y varianza explicada

Los psicólogos y científicos sociales en general manifiestan una patente dificultad para saber qué hacer con el índice de correlación (r). En concreto, se preguntan obsesivamente si el valor de correlación debe elevarse al cuadrado y cuándo se debe o no se debe hacer.

En un excelente artículo editorial, Wendy Johnson intenta iluminarnos al respecto: “las cuestiones que considero no son nuevas, pero parece que deben recordarse periódicamente”.

Wendy Johnson

Recuperé ese artículo a raíz de un post publicado hace unas semanas sobre la validez predictiva de las distintas capacidades intelectuales en el contexto escolar. La conclusión era que el factor g arrasaba al pronosticar las diferencias de desempeño escolar, llevándose 2/3 del pastel. Ahí se llegaba a partir de un valor de correlación superior a 0,7.

Johnson señala que la correlación puede servir para alcanzar dos objetivos independientes:

1.- Servir de medida del tamaño del efecto.

2.- Si se considera como un coeficiente de regresión, se puede usar para estimar la proporción de varianza que una variable X explica de otra variable Y.

Expone una serie de ejemplos para responder a la pregunta de si la correlación se debe elevar al cuadrado o no para concluir que la respuesta es ‘depende’ (a) del objetivo y (b) del modelo teórico sobre la asociación causal entre las variables.

Comienza con el ejemplo, precisamente, de la correlación de las puntuaciones de CI con las calificaciones escolares. Si, por ejemplo, el valor de esa correlación es de 0,50, es frecuente que se concluya que el CI explica el 25% de la varianza en las calificaciones.

¿Es adecuada esa práctica semiautomática?

La correlación como medida de tamaño del efecto

El tamaño del efecto expresa la relevancia práctica de un determinado efecto, más allá de la significación estadística. Su interpretación no depende del paraguas de la regresión en la que se distingue variables predictoras (independientes) y criterio (dependientes). En este caso, es innecesario elevar al cuadrado el valor de correlación, aunque se puede hacer, siempre que quede claro de qué se está hablando y cuál es la escala adecuada de interpretación.

¿Elevar o no elevar al cuadrado?

No siempre es adecuado elevar al cuadrado para determinar la proporción.

Johnson usa modelos de ecuaciones estructurales para explicarse.

Estimar la proporción de varianza atribuible a una variable latente igualmente representada por dos variables observadas.

Dos ejemplos perfectos de esta situación son el cálculo de la fiabilidad de un test usando formas paralelas y la proporción de varianza de alguna medida atribuible a las influencias genéticas.

La correlación intra-clase entre las puntuaciones de gemelos idénticos criados por separado es una medida directa de la proporción de varianza del rasgo evaluado que se puede atribuir a las influencias de los genes. La correlación no se eleva al cuadrado porque no estimamos la varianza en las puntuaciones de los gemelos de cada par aleatoriamente etiquetado como 2 que se pueden atribuir a las puntuaciones de sus gemelos etiquetados como 1. Se mide la proporción de varianza de las puntuaciones de los gemelos que, en general, se puede atribuir a alguna medida latente inobservable (las influencias de los genomas que comparten los gemelos).

Figura A

La Figura A presenta la situación de los gemelos, pero se podría aplicar a cualquier situación en la que dos variables observables se consideran representaciones equivalentes de algún constructo latente (p. e. si las puntuaciones de CI y las calificaciones escolares expresan el mismo rasgo latente al mismo nivel).

Uso de la correlación para estimar la proporción de varianza en variables que no representan en igual medida un único constructo subyacente.

En la Figura B se asume que el constructo latente ‘inteligencia’ está representado tanto por las puntuaciones de CI como por las calificaciones escolares (en este caso, las primeras representan mejor el constructo que las segundas).

Si nos centramos en la ‘inteligencia’, entonces nos encontramos en la misma situación que en la Figura A, y, por tanto, la correlación no debe elevarse al cuadrado para estimar la proporción de varianza con la que cualquier variable observable queda explicada por la variable latente.

Figuras B-C

Uso de la correlación para estimar la proporción de varianza en constructos diferentes pero relacionados.

Una situación frecuente es la de dos variables que representan constructos diferentes pero relacionados. La Figura C muestra un ejemplo de esta situación: las puntuaciones de CI representan a la inteligencia latente, mientras que las calificaciones escolares representan una variable latente de logro simplemente relacionada con la inteligencia latente.

Aquí si se puede elevar al cuadrado la correlación para averiguar cuál es la proporción de varianza que una variable explica de la otra. Sin embargo, no se debe elevar al cuadrado la correlación si se desea cuantificar el valor predictivo de una variable sobre la otra.

Johnson explica algo aún más interesante. La medida de las variables es imperfecta, y, por tanto, esas variables no representan de modo ideal el constructo latente de interés. Si se corrigiese la correlación observada entre las variables según la fiabilidad de las medidas, entonces el valor correspondiente a la proporción de varianza que una variable explica de la otra sería similar al valor de correlación sin elevarlo al cuadrado.

La Figura D representa una situación más compleja en la que las variables observables se asocian a distintas variables latentes no relacionadas. Por ejemplo, las puntuaciones de CI y las calificaciones escolares pueden representar, con distinta intensidad, las variables latentes ‘inteligencia’ y ‘motivación’. También pueden contribuir otras variables como la ansiedad al completar los test de inteligencia o la disposición a seguir las reglas de clase. En este caso tampoco se debe elevar al cuadrado la correlación del CI con el desempeño escolar para estimar la proporción de varianza que las variables latentes explican de cada variable observable.

Figuras D-E

Es más realista, no obstante, asumir que las distintas variables latentes están relacionadas (Figura E). En este caso, las variables latentes están menos correlacionadas que las variables observables, de modo que la correlación al cuadrado es una aproximación razonable a su verdadera relación (a diferencia de lo comentado para el caso de la Figura C):

Si nuestro interés se centra en la correlación de las variables latentes, entonces es esencial entender el modelo subyacente a la asociación entre las variables y disponer de un modo de contrastar el nivel de precisión del modelo”.

Consideraciones sobre el desarrollo.

La Figura F representa dos modelos básicos en la investigación longitudinal en la que interesan los cambios en las variables, así como el ordenamiento de los individuos en esas variables a través del tiempo. Esos dos modelos son análogos a los representados en las Figuras A y C.

Figura F

En el primer caso no se debe elevar al cuadrado la correlación para obtener la proporción de varianza que explica el CI a los 10 años del CI a los 80 años de edad.

En el segundo caso sí elevamos la correlación al cuadrado.

Las consideraciones sobre el cambio en la variable latente de interés durante el ciclo vital, llevan a la conclusión de que el segundo caso es más adecuado que el primero. A los 20 o 30 años de edad, el rendimiento intelectual será mayor que a los 10 años de edad. Pero, además, a partir de los 50 o 60 años de edad, ese rendimiento comenzará a declinar. Con esos cambios, el primer caso es una representación improbable. No imposible, pero sí improbable.

En suma, Johnson propone que se use generalmente el valor de correlación, tal cual se obtuvo, como una medida del tamaño del efecto: “olvídese de darle vueltas a la proporción de varianza y limítese a informar del valor de correlación”.

Un comentario sobre “Correlación y varianza explicada

Agrega el tuyo

  1. Wow, this piece of writing is pleasant, my younger sister is analyzing
    such things, thus I am going to tell her. Woah!
    I’m really digging the template/theme of this site. It’s simple,
    yet effective. A lot of times it’s challenging to get that “perfect balance” between usability and visual appeal.
    I must say that you’ve done a superb job with
    this. In addition, the blog loads super quick for me
    on Internet explorer. Exceptional Blog!
    Greetings! Very useful advice within this post! It’s the little changes that will make the most significant changes.
    Thanks for sharing! http://foxnews.net/

    Me gusta

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s

Subir ↑

A %d blogueros les gusta esto: