Rosana Ferrero
Data Scientist
Juan L. López
Data Scientist
Máster de Estadística Aplicada con R Software IX edición Octubre 2019
Los humanos estamos biológicamente inclinados a reconocer patrones, incluso cuando estos son espurios.
Se trata de un problema muy importante en la era del Big Data, debido a que con suficientes datos, es posible encontrar cosas que se correlacionan incluso cuando no deberían.
En el post anterior hemos hablado de ¿Por qué la correlación no implica causalidad?, y hemos visto algún ejemplo donde podemos encontrar correlaciones espurias debido a la existencia de una tercer variable medida o no medida que afecte los resultados de la correlación.
Esto se debe a que dos variables pueden estar relacionadas, pero una no causa a la otra.
Si quieres ver más ejemplos (cómicos) sobre correlaciones espurias, te recomiendo que visites la web de Tyler Vigen y su libro:
http://www.tylervigen.com/spurious-correlations.
Por ejemplo,
A fines del siglo XIX, en Holanda, ocurrió un fenómeno curioso, la tasa de natalidad humana aumentó al mismo ritmo que la población local de cigüeñas blancas. Fue cuando los padres utilizaron esta relación espuria, para evitar conversaciones incómodas con sus hijos, cuando se creó en el folklore esta simpática asociación.
Y si no conoces este corto de Pixar, deberías verlo.
Pero entonces,
Comencemos por aclarar un par de definiciones mediante ejemplos.
En el post anterior les contaba el ejemplo de Hyndman & Athanasopoulos 2018, donde se identifica una relación entre el número mensual de ahogamientos en una playa con la cantidad de helados vendidos en el mismo período. Los helados no causan el ahogamiento, ni a la inversa, sino que las personas comen más helados en los días calurosos cuando también es más probable que vayan a nadar. Entonces, las dos variables (ventas de helados y ahogamientos) están correlacionadas, pero una no está causando la otra sino que ambas responden a una tercera variable, la temperatura.
La relación entre la venta de helados y el número de ahogamientos es espuria,
está confundida por el efecto de una tercera variable, la temperatura.
En el ejemplo anterior, el interés estará en evaluar la relación entre la venta de helados y el número de ahogamientos, controlando o manteniendo constante la influencia de la temperatura del día (usualmente llamada de variable de control o de confusión). Para ello utilizaremos el coeficiente de correlación parcial.
Definición: La correlación parcial entre X e Y teniendo en cuenta el potencial de confusión de Z es la correlación de X e Y después de que se haya corregido cualquier relación con Z.
Interpretación:
En el ejemplo anterior, podemos encontrar una correlación alta entre la venta de helados y el número de ahogamientos, pero la correlación parcial entre ellas al controlar por el efecto de la temperatura esperamos que sea mucho menor o insignificante.
No obstante, recuerda, son los experimentos controlados los que permiten determinar si existe evidencia de causalidad.
Veamos el ejemplo de los datos stackloss que viene instalado por defecto en la base de datos de R, y que corresponde a datos de una fábrica de oxidación de compuestos. Queremos analizar la relación entre a producción de la fábrica (el flujo del aire; Air Flow) y la concentración de ácido (Acid.Conc,).
Estos son los datos:
Recuerda del post anterior (Análisis de correlación: guía rápida en R) que para calcular una correlación (de orden cero) utilizamos la función cor.test() indicándole en x e y las variables a considerar. Así:
Vemos que la correlación es positiva, moderada y significativa (t(19)=2.5176, p=.021, r=.5).
> NOTA: Si quieres recordar cómo interpretar y comunicar los resultados de las pruebas de correlación, visita nuestro post:
Análisis de correlación: guía rápida en R
Pero imagina que ahora queremos evaluar si esta correlación es real o se confunde debido a la presencia de una tercera variable, por ejemplo por la temperatura del agua.
Para calcular la correlación parcial utilizamos la función pcor.test() indicando las variables x e y que queremos evaluar, y la tercer variable z que queremos controlar.
Obtenemos el valor de la correlación estimada (estimate), el p-valor de la prueba (p.value), el estadístico de la prueba (statistic), el número de datos (n), el número de terceras variables indicadas (gr) y el método de correlación utilizado (Method).
En este caso, cuando controlamos el efecto de la temperatura del agua, observamos que la correlación entre el flujo de aire y la concentración de ácido ya no es significativa (t(18)=1.53, p=.144, r=.339).
Ahora podemos decir que la correlación entre ellas estaba enmascarada por su relación con la temperatura del agua.
¿Qué te ha parecido esta herramienta? Sencilla, ¿verdad?
Máster de Estadística Aplicada con R Software IX edición Octubre 2019
Déjanos tu comentario y experiencia al final de este post.
¡Saludos!