
Variables de confusión y correlaciones parciales: cómo evitar relaciones espurias

Los humanos estamos biológicamente inclinados a reconocer patrones, incluso cuando estos son espurios.
Se trata de un problema muy importante en la era del Big Data, debido a que con suficientes datos, es posible encontrar cosas que se correlacionan incluso cuando no deberían.
¿QUÉ ES LA CORRELACIÓN?
La correlación, como concepto, significa estrictamente que dos cosas varían juntas. Las correlaciones no siempre tienen sentido.
En el post anterior hemos hablado de ¿Por qué la correlación no implica causalidad?, y hemos visto algún ejemplo donde podemos encontrar correlaciones espurias debido a la existencia de una tercer variable medida o no medida que afecte los resultados de la correlación.
- La correlación implica asociación, pero no causalidad.
- La causalidad implica asociación, pero no correlación.
Esto se debe a que dos variables pueden estar relacionadas, pero una no causa a la otra.
Ejemplos de correlaciones espurias
Si quieres ver más ejemplos (cómicos) sobre correlaciones espurias, te recomiendo que visites la web de Tyler Vigen y su libro:
https://www.tylervigen.com/spurious-correlations.
Por ejemplo, ¿sabes de dónde viene la idea de que las cigüeñas traen los bebés?
A fines del siglo XIX, en Holanda, ocurrió un fenómeno curioso, la tasa de natalidad humana aumentó al mismo ritmo que la población local de cigüeñas blancas. Fue cuando los padres utilizaron esta relación espuria, para evitar conversaciones incómodas con sus hijos, cuando se creó en el folklore esta simpática asociación.

Y si no conoces este corto de Pixar, deberías verlo.
Pero entonces, ¿Qué podemos hacer para controlar o identificar las relaciones espurias y las variables de confusión en un análisis de correlación?
Comencemos por aclarar un par de definiciones mediante ejemplos.
QUÉ ES UNA VARIABLE DE CONFUSIÓN
En el post anterior les contaba el ejemplo de Hyndman & Athanasopoulos 2018, donde se identifica una relación entre el número mensual de ahogamientos en una playa con la cantidad de helados vendidos en el mismo período. Los helados no causan el ahogamiento, ni a la inversa, sino que las personas comen más helados en los días calurosos cuando también es más probable que vayan a nadar. Entonces, las dos variables (ventas de helados y ahogamientos) están correlacionadas, pero una no está causando la otra sino que ambas responden a una tercera variable, la temperatura.

La relación entre la venta de helados y el número de ahogamientos es espuria, está confundida por el efecto de una tercera variable, la temperatura.
QUÉ ES LA CORRELACIÓN PARCIAL
Volvamos al ejemplo anterior: se observa una aparente relación entre la venta de helados y el número de ahogamientos. Sin embargo, ambas variables están influenciadas por una tercera: la temperatura. En los días calurosos, la gente consume más helados y acude más a la playa, donde aumenta el riesgo de ahogamiento.
Entonces, ¿cómo podemos analizar la relación real entre las variables principales eliminando el efecto de esa tercera?
La correlación parcial es una medida que permite evaluar la relación entre dos variables (X e Y) controlando el efecto de una tercera (Z). Es decir, calcula cuánto se relacionan X e Y una vez que se ha eliminado estadísticamente cualquier influencia compartida con Z.
¿Cómo se interpreta?
- Si al calcular la correlación parcial observamos una diferencia sustancial respecto a la correlación clásica (de orden cero), esto sugiere que Z podría estar actuando como una variable de confusión.
- Por el contrario, si ambas correlaciones son similares, Z no parece tener un efecto relevante sobre la relación entre X e Y.
Volviendo al caso de los helados y los ahogamientos: si encontramos una correlación alta entre ambas, pero al controlar por la temperatura esta desaparece o se debilita considerablemente, podemos concluir que la temperatura es un factor clave que estaba distorsionando la relación.
En el ejemplo anterior, el interés estará en evaluar la relación entre la venta de helados y el número de ahogamientos, controlando o manteniendo constante la influencia de la temperatura del día (usualmente llamada de variable de control o de confusión). Para ello utilizaremos el coeficiente d
CÓMO ANALIZAR LA CORRELACIÓN PARCIAL EN R
Para ilustrar el análisis de correlación parcial, usaremos el conjunto de datos stackloss, que viene incluido por defecto en R. Estos datos corresponden a una fábrica de oxidación de compuestos. Nuestro objetivo será analizar la relación entre:
- Flujo de aire (Air Flow): la producción de la fábrica.
- Concentración de ácido (Acid.Conc).

Paso 1: Correlación simple (de orden cero)
Recuerda del post anterior (Análisis de correlación: guía rápida en R) que para calcular una correlación (de orden cero) utilizamos la función cor.test() indicándole en x e y las variables a considerar. Así:

Vemos que la correlación es positiva, moderada y significativa (t(19)=2.5176, p=.021, r=.5).
> NOTA: Si quieres recordar cómo interpretar y comunicar los resultados de las pruebas de correlación, visita nuestro post:
Análisis de correlación: guía rápida en R
Paso 2: Correlación parcial controlando una tercera variable
Pero imagina que ahora queremos evaluar si esta correlación es real o se confunde debido a la presencia de una tercera variable, por ejemplo por la temperatura del agua.
Para calcular la correlación parcial utilizamos la función pcor.test() indicando las variables x e y que queremos evaluar, y la tercer variable z que queremos controlar.

Obtenemos el valor de la correlación estimada (estimate), el p-valor de la prueba (p.value), el estadístico de la prueba (statistic), el número de datos (n), el número de terceras variables indicadas (gr) y el método de correlación utilizado (Method).
Interpretación
En este caso, cuando controlamos el efecto de la temperatura del agua, observamos que la correlación entre el flujo de aire y la concentración de ácido ya no es significativa (t(18)=1.53, p=.144, r=.339).
Ahora podemos decir que la correlación entre ellas estaba enmascarada por su relación con la temperatura del agua.
El estudio de las correlaciones parciales es muy importante, porque a menudo múltiples variables trabajan juntas para explicar los patrones de los datos.
¿Qué te ha parecido esta herramienta? Sencilla, ¿verdad?
Déjanos tu comentario y experiencia al final de este post.
¡Saludos!
4 comentarios
Interesante , esto también se utiliza en psicología para detectar una relación de engaño o con mentiras .
Gracias.
Patricia Mendoza 8 de diciembre de 2021, 13:56
¡Qué interesante aplicación Patricia! La verdad es que hay muchos psicólogos que están aportando gran valor al mundo de las Estadísticas. Daniel Lakens y Andy Field son dos de los que más sigo actualmente, por si no los conoces y quieres darle un vistazo. Gracias por tu comentario
Rosana Ferrero 17 de diciembre de 2021, 14:24
Hola,
Interesante Blog,
Por favor una consulta sobre la posible interpretación del resultado pcor.test().
¿Cómo se podría interpretar sí se diera el caso contrario, es decir, que cuando controlamos el efecto de la temperatura del agua, observamos que la correlación entre el flujo de aire y la concentración de ácido sigue siendo significativa, p < 0.05 144, r=.339?.
Gracias de antemano!!!
Jesus Valdes 12 de diciembre de 2022, 17:05
Hola Jesús,
si al controlar por una tercera variable vemos que el valor de la correlación (su magnitud y signo) y su significación (significativamente distinta de cero) no cambian, entonces podríamos decir que esa tercera variable no influye en la relación que estamos evaluando.
Saludos
Rosana Ferrero 13 de diciembre de 2022, 07:01