¿Qué es la multicolinealidad y por qué es un problema?
Deseamos interpretar los modelos para comprender sus predicciones, sin embargo, a veces no recordamos que esta interpretación puede verse afectada por al incumplir los supuestos del modelo. La multicolinealidad es uno de estos casos, y puede impedirnos determinar los efectos de las características individuales (predictores o variables independientes) sobre la respuesta (variable dependiente) del modelo.
En este artículo exploramos la multicolinealidad, qué es, cuáles son sus consecuencias, cómo detectarla y cómo solucionarla en modelos de regresión.
Contenidos
- ¿Qué es la multicolinealidad en pocas palabras?ç
- Ejemplos de problemas de multicolinealidad
- ¿Cuáles son las consecuencias de la multicolinealidad?
- ¿Cuándo es importante corregir la multicolinealidad?
- ¿Cómo detectamos la multicolinealidad?
- ¿Cómo corregimos la multicolinealidad?
Fuente de la imagen: https://medium.com/geekculture/what-the-heck-is-multicollinearity-c5582ddbb2f7
¿Qué es la multicolinealidad en pocas palabras?
La multicolinealidad ocurre cuando las variables independientes (predictores) en un modelo de regresión están correlacionadas.
Las variables independientes deberían ser eso, independientes. Y esto se debe a que si el grado de correlación entre las variables independientes es alto, no podremos aislar la relación entre cada variable independiente y la variable dependiente (respuesta).
¡Si no podremos aislar los efectos podríamos confundir sus efectos!
Es decir, cuando las variables independientes están muy correlacionadas los cambios en una variable están asociados con cambios en otra variable y, por tanto, los coeficientes de regresión del modelo ya no van a medir el efecto de una variable independiente sobre la respuesta manteniendo constante, o sin variar, el resto de predictores.
Ejemplos de problemas de multicolinealidad
Existen dos tipos de multicolinealidad y cada uno se intentará solucionar de manera distinta. Veamos un par de ejemplos.
¿Cuáles son las consecuencias de la multicolinealidad?
La multicolinealidad provoca 3 tipos de problemas:
- El valor de los coeficientes de regresión del modelo cambia si incluyes o no otras variables independientes, y por lo tanto dificulta la interpretación del modelo.
- Se reduce su precisión de nuestras estimaciones (aumenta el error estándar de los coeficientes de regresión).
- La significación estadística (p-valor) de los coeficientes de regresión del modelo se vuelve menos confiable, como consecuencia del ítem anterior, y por lo tanto es difícil identificar variables independientes a incluir en el modelo.
Recuerda que en el post “¿CÓMO SELECCIONAR LAS VARIABLES ADECUADAS PARA TU MODELO? Con R” llegábamos a la conclusión de que los coeficientes de regresión deben interpretarse en el contexto de las demás variables incluidas en el modelo.
¿Cuándo es importante corregir la multicolinealidad?
Depende de su gravedad y del objetivo que quieres alcanzar con tu modelo de regresión. El problema de multicolinealidad:
- aumenta con el grado de multicolinealidad. Si solo tienes una multicolinealidad moderada no necesitas resolverla.
- afecta solo a las variables independientes específicas que están correlacionadas. Si en tu modelo no incluyes las variables del conjunto de datos que están correlacionadas, no necesitas resolverla.
- solo afecta los coeficientes y los p-valores; no influye en las predicciones, ni en la precisión de las predicciones ni en las estadísticas de bondad de ajuste. Si tu objetivo principal es hacer predicciones y no necesita comprender el papel de cada variable independiente, no necesitas resolverla.
¿Cómo detectamos la multicolinealidad?
Primero necesitamos detectarla, identificar qué variables se ven afectadas por la multicolinealidad y la fuerza de la correlación.
La multicolinealidad, o correlaciones altas entre las variables independientes, puede detectarse a veces observando la matriz de correlación. Otras veces, la multicolinealidad es más sutil, siendo una combinación lineal no obvia de dos o más de las variables independientes. En este último vaso, podemos utilizar el factor de inflación de la varianza (VIF) para detectar la multicolinealidad. Los VIF comienzan en 1 y no tienen límite superior.
Hay diferentes puntos críticos que los estadísticos consideran para hablar de problemas de multicolinealidad (¿un VIF>5 o VIF>10? ¡ouch!). Pero la regla (tácita) más general es la siguiente:
- VIF=1 significa que no existe correlación entre esta variable independiente y cualquier otra.
- 1< VIF < 5 sugiere una correlación moderada pero no sería necesario resolverla.
- VIF > 5 son niveles críticos de multicolinealidad.
¿Cómo corregimos la multicolinealidad?
Para solucionar los problemas de multicolinealidad debemos fijarnos en qué tipo de multicolinealidad tenemos.
Si la multicolinealidad no es muy alta, o no afecta a las variables que más te interesan o si tu objetivo solo es realizar predicciones, no hay demasiados problemas y puedes seguir adelante con tu modelo.
1. Para corregir la multicolinealidad estructural
Si solo tienes multicolinealidad estructural puedes eliminarla centrando los predictores y volviendo a ajustar el modelo. Al centrar las variables independientes estamos estandarizando las variables restando la media.
¿Qué cambia cuando centramos los predictores?
- la interpretación de los coeficientes de regresión sigue siendo la misma. Los coeficientes continúan representando el cambio medio en la variable dependiente dado un cambio de 1 unidad en la variable independiente.
- Los VIF del modelo con predictores centrados no mostrarán problemas de multicolinealidad (<5).
- La precisión de las estimaciones aumenta (disminuyen los errores estándar de los coeficientes de regresión).
- Puede que varíen los signos de los coeficientes de regresión y la significación estadística (p-valor) cuando eliminamos el problema de multicolinealidad.
¿Qué NO cambia cuando centramos los predictores?
- la bondad de ajuste no cambia: el R-cuadrado (R-cuadrado ajustado y múltiple)
- las predicciones del modelo no se ven afectadas: el error RSE no cambia.
2. Para corregir la multicolinealidad de los datos
Si la multicolinealidad es de los datos y alta entonces tendrás que valorar cuál es la mejor opción para corregirla según tus objetivos y conocimiento previo del área de estudio. Algunas opciones son:
- Eliminar algunas de las variables independientes altamente correlacionadas.
- Combinar linealmente las variables independientes, e.g. realizar un PCA para crear nuevos predictores independientes y volver a ajustar el modelo de regresión con ellos.
- Realice un análisis diseñado para variables altamente correlacionadas, e.g. la regresión de mínimos cuadrados parciales.
- Realizar una regresión que pueda manejar la multicolinealidad, e.g. LASSO y la regresión de Ridge.
Y si quieres saber todo lo que tienes que tener en cuenta con los modelos de regresión (el caballo de batalla de la Ciencia de Datos), no te pierdas nuestro curso.
Curso de Análisis de correlación y regresión lineal con R
Adquiere competencias avanzadas en modelado de datos
Espero este resumen haya sido de ayuda o al menos de reflexión, ¡y que nos dejes tu comentario!
Saludos
0 comentarios
Nadie ha publicado ningún comentario aún. ¡Se tu la primera persona!