Relaciones espurias y variables de confusión
¿Qué son las Correlaciones Parciales y cómo pueden ayudarnos?
Contenidos
- Qué es una variable de confusión
- Qué es la correlación parcial
- Cómo analizar la correlación parcial en R
Los humanos estamos biológicamente inclinados a reconocer patrones, incluso cuando estos son espurios.
Se trata de un problema muy importante en la era del Big Data, debido a que con suficientes datos, es posible encontrar cosas que se correlacionan incluso cuando no deberían.
La correlación, como concepto, significa estrictamente que dos cosas varían juntas.
Las correlaciones no siempre tienen sentido.
En el post anterior hemos hablado de ¿Por qué la correlación no implica causalidad?, y hemos visto algún ejemplo donde podemos encontrar correlaciones espurias debido a la existencia de una tercer variable medida o no medida que afecte los resultados de la correlación.
La correlación implica asociación, pero no causalidad.
A la inversa, la causalidad implica asociación, pero no correlación.
Esto se debe a que dos variables pueden estar relacionadas, pero una no causa a la otra.
Si quieres ver más ejemplos (cómicos) sobre correlaciones espurias, te recomiendo que visites la web de Tyler Vigen y su libro:
http://www.tylervigen.com/spurious-correlations.
Por ejemplo, ¿sabes de dónde viene la idea de que las cigüeñas traen los bebés?
A fines del siglo XIX, en Holanda, ocurrió un fenómeno curioso, la tasa de natalidad humana aumentó al mismo ritmo que la población local de cigüeñas blancas. Fue cuando los padres utilizaron esta relación espuria, para evitar conversaciones incómodas con sus hijos, cuando se creó en el folklore esta simpática asociación.
Y si no conoces este corto de Pixar, deberías verlo.
Pero entonces, ¿Qué podemos hacer para controlar o identificar las relaciones espurias y las variables de confusión en un análisis de correlación?
Comencemos por aclarar un par de definiciones mediante ejemplos.
Qué es una variable de confusión
En el post anterior les contaba el ejemplo de Hyndman & Athanasopoulos 2018, donde se identifica una relación entre el número mensual de ahogamientos en una playa con la cantidad de helados vendidos en el mismo período. Los helados no causan el ahogamiento, ni a la inversa, sino que las personas comen más helados en los días calurosos cuando también es más probable que vayan a nadar. Entonces, las dos variables (ventas de helados y ahogamientos) están correlacionadas, pero una no está causando la otra sino que ambas responden a una tercera variable, la temperatura.
a relación entre la venta de helados y el número de ahogamientos es espuria,
está confundida por el efecto de una tercera variable, la temperatura.
Qué es la correlación parcial
En el ejemplo anterior, el interés estará en evaluar la relación entre la venta de helados y el número de ahogamientos, controlando o manteniendo constante la influencia de la temperatura del día (usualmente llamada de variable de control o de confusión). Para ello utilizaremos el coeficiente de correlación parcial.
Definición: La correlación parcial entre X e Y teniendo en cuenta el potencial de confusión de Z es la correlación de X e Y después de que se haya corregido cualquier relación con Z.
Interpretación:
- Cuando obtenemos diferencias sustanciales entre la correlación clásica (de orden cero) y la correlación parcial, podemos sospechar de la existencia de una tercera variable.
- En otros casos, donde obtengamos valores similares al utilizar la correlación clásica (de orden cero) y la correlación parcial, podremos decir que la variable Z que hemos utilizado ha tenido muy poca o ninguna influencia en el control de la relación entre X e Y.
En el ejemplo anterior, podemos encontrar una correlación alta entre la venta de helados y el número de ahogamientos, pero la correlación parcial entre ellas al controlar por el efecto de la temperatura esperamos que sea mucho menor o insignificante.
No obstante, recuerda, son los experimentos controlados los que permiten determinar si existe evidencia de causalidad.
Ejemplo de aplicación:
Cómo analizar la correlación parcial en R
Veamos el ejemplo de los datos stackloss que viene instalado por defecto en la base de datos de R, y que corresponde a datos de una fábrica de oxidación de compuestos. Queremos analizar la relación entre a producción de la fábrica (el flujo del aire; Air Flow) y la concentración de ácido (Acid.Conc,).
Estos son los datos:
Recuerda del post anterior (Análisis de correlación: guía rápida en R) que para calcular una correlación (de orden cero) utilizamos la función cor.test() indicándole en x e y las variables a considerar. Así:
Vemos que la correlación es positiva, moderada y significativa (t(19)=2.5176, p=.021, r=.5).
> NOTA: Si quieres recordar cómo interpretar y comunicar los resultados de las pruebas de correlación, visita nuestro post:
Análisis de correlación: guía rápida en R
Pero imagina que ahora queremos evaluar si esta correlación es real o se confunde debido a la presencia de una tercera variable, por ejemplo por la temperatura del agua.
Para calcular la correlación parcial utilizamos la función pcor.test() indicando las variables x e y que queremos evaluar, y la tercer variable z que queremos controlar.
Obtenemos el valor de la correlación estimada (estimate), el p-valor de la prueba (p.value), el estadístico de la prueba (statistic), el número de datos (n), el número de terceras variables indicadas (gr) y el método de correlación utilizado (Method).
En este caso, cuando controlamos el efecto de la temperatura del agua, observamos que la correlación entre el flujo de aire y la concentración de ácido ya no es significativa (t(18)=1.53, p=.144, r=.339).
Ahora podemos decir que la correlación entre ellas estaba enmascarada por su relación con la temperatura del agua.
El estudio de las correlaciones parciales es muy importante, porque a menudo múltiples variables trabajan juntas para explicar los patrones de los datos.
¿Qué te ha parecido esta herramienta? Sencilla, ¿verdad?
Déjanos tu comentario y experiencia al final de este post.
¡Saludos!
4 comentarios
Interesante , esto también se utiliza en psicología para detectar una relación de engaño o con mentiras .
Gracias.
Patricia Mendoza 8 de diciembre de 2021, 13:56
¡Qué interesante aplicación Patricia! La verdad es que hay muchos psicólogos que están aportando gran valor al mundo de las Estadísticas. Daniel Lakens y Andy Field son dos de los que más sigo actualmente, por si no los conoces y quieres darle un vistazo. Gracias por tu comentario
Rosana Ferrero 17 de diciembre de 2021, 14:24
Hola,
Interesante Blog,
Por favor una consulta sobre la posible interpretación del resultado pcor.test().
¿Cómo se podría interpretar sí se diera el caso contrario, es decir, que cuando controlamos el efecto de la temperatura del agua, observamos que la correlación entre el flujo de aire y la concentración de ácido sigue siendo significativa, p < 0.05 144, r=.339?.
Gracias de antemano!!!
Jesus Valdes 12 de diciembre de 2022, 17:05
Hola Jesús,
si al controlar por una tercera variable vemos que el valor de la correlación (su magnitud y signo) y su significación (significativamente distinta de cero) no cambian, entonces podríamos decir que esa tercera variable no influye en la relación que estamos evaluando.
Saludos
Rosana Ferrero 13 de diciembre de 2022, 07:01