Rosana Ferrero
Data Scientist
Juan L. López
Data Scientist
¿Te has preguntado alguna vez si el modelo de regresión que has ajustado es apropiado para tus datos?
Hoy te traigo las principales claves para evaluar tu modelo de regresión, solo necesitarás definir los residuos del modelo y evaluar sus gráficos.
Los residuos (o errores) son la diferencia entre los valores observados y los valores que predice el modelo:
Residuos = Valores observados – Valores que predice el modelo
e = y – ŷ
Por ejemplo, para el modelo de regresión lineal simple (i.e. una variable explicativa o predictor, de la forma y(x)=ax+b) tenemos el siguiente gráfico:
En adelante seguiremos trabajando con el modelo de regresión lineal que si recuerdas asume tres cuestiones importantes: que la relación es de tipo lineal, que los residuos siguen una distribución normal y que la varianza de dichos residuos es constante.
Como mencioné en el post anterior (aquí) debes evaluar mediante gráficos los supuestos del modelo y si el ajuste es adecuado.
Cuando trabajas con un modelo de regresión lineal simple (i.e. una única variable explicativa) solo necesitas un gráfico de dispersión con las variables originales.
Sin embargo, cuando quieres ajustar un modelo de regresión múltiple (i.e. múltiples variables explicativas) es más sencillo que evalúes el ajuste del modelo mediante los gráficos de residuos.
Voy a referirme tan solo a los 2 gráficos diagnósticos principales que se suelen realizar con los residuos del modelo:
Este tipo de gráficos te permite evaluar 3 cuestiones principalmente:
¿Quieres conocer los patrones que puedes encontrar en este gráfico?
a continuación te resumo los principales patrones y su interpretación, luego te enseñaré cómo solucionar cada tipo de problema.
Tendencias. Cuando los residuos se separan del cero de manera sistemática (no aleatoria), tanto si aumentan como si disminuyen para valores de predicciones mayores, el patrón nos sugiere que la función de regresión no es lineal. A este patrón se le suele llamar tendencia, sesgo o «bias» en inglés.
Dispersión irregular. Si observas un patrón de dispersión no aleatorio de los residuos, la variabilidad de los residuos es mayor para ciertos valores predichos por el modelo, esto indica que no se cumple el supuesto de varianza constante en los errores del modelo. Puedes observar alguno de los siguientes casos:
Datos extremos (Outliers). Ocurre cuando uno o más residuos se apartan del patrón aleatorio del resto. Incluso, podemos observar que si eliminamos el/los outlier el patrón de los residuos cambia.
Ejemplos de patrones:
Entonces, ¿cómo puedes mejorar el modelo?
El modelo de regresión lineal también supone que los residuos siguen una distribución normal.
Recuerda que el gráfico cuantil-cuantil (Normal Q-Q) te permite comparar la distribución de los residuos con la distribución normal teórica.
Por lo tanto, si los residuos tienen una distribución normal deberías observar que siguen aproximadamente la línea recta diagonal en el gráfico Q-Q normal, en caso contrario los residuos se van a apartar de la diagonal.
Ejemplos de patrones:
Entonces, ¿cómo puedes mejorar el modelo?
Investiga con otros gráficos si la falta de normalidad se puede deber a algo más, realiza pruebas estadísticas de normalidad, realiza transformaciones de las variables involucradas, o utiliza modelos más complejos que consideren la falta de normalidad (GLM).
Y si aún tenemos algunos problemas con los residuos, ¿cómo seguir?
Tú decides. Si luego de seguir todas las recomendaciones que te he mencionado sigues detectando problemas (menores) en los patrones de los residuos, debes decidir qué tan preciso necesitas que sea tu modelo. Ya lo dijo G. Box, todos los modelos son erróneos, y yo te recuerdo que generalmente un modelo decente es mejor que ningún modelo.
«Essentially, all models are wrong, but some are useful»
por George Box
Espero que este post te haya dado una perspectiva diferente sobre cómo diagnosticar tu modelo.
Buenos días,
Para mis conocimientos que son básicos, cuando utilizas una regresión para buscar un modelo de predicción de una variable dependiente, cuantas más observaciones o datos tengas, mejor será el modelo. Ahora bien, ahora me están diciendo lo contrario y me sorprende. Mi pregunta es:
¿Existen modelos de regresión en los que no se utilizan todas las observaciones o datos disponibles, sino un subconjunto de las mismas? Se trataría utilizar el mismo número de observaciones para diferentes tramos de la gráfica y así obtener un modelo de predicción mejor. ¿Es esto cierto? Muchas gracias
Hola Arantxa,
creo que te refieres a la validación cruzada, puedes realizarla sobre cualquier modelo de regresión. En esta se dividen los datos en 2 subconjuntos, uno de entrenamiento y otro de prueba (aproximadamente 80% y 20% de los datos, respectivamente). Con el conjunto de entrenamiento ajustas el modelo y con el de prueba evalúas el desempeño del modelo. Existen tipos de validación cruzada más complejos, pero te menciono esta que es la más simple para que te hagas una idea.
Cuando tienes un gran número de observaciones (big data), es probable que cada coeficiente del modelo de regresión resulte estadísticamente significativo. Deberás evaluar qué predictores son realmente importantes, en contraste con los estadísticamente significativos, también con validación cruzada.
Saludos
Si al realizar el modelo de regresión, el valor de los resíduos es igual a la variable independiente X, se podría asumir que no hay correlación entre las variables?
Hola Sergio, creo que eso no podría ocurrir, me da la impresión de que algo estás haciendo mal. Te pongo un pequeño ejemplo:
> y<-1:10 > x<-rep(1,10) > resid(lm(y~x))
1 2 3 4 5 6 7 8 9 10
-4.5 -3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5 3.5 4.5
Aquí ves que los residuos no son como «x».
Revisa los pasos que has realizado, a menudo se nos escapa alguna errata.
Saludos
Interesante explicación y muy didáctica. Como recomendación se puede hablar un poco sobre las pruebas de hipótesis pertinentes a la regresión
Muchas gracias por tu comentario Rei,
sí, próximamente publicaré un post sobre pruebas de hipótesis en modelos de regresión ;).
Saludos