Blog de Estadística & R Software

Blog de Máxima Formación dedicado a Estadística aplicada con R Software

¿Cómo validar tu modelo de regresión?


¿Te has preguntado alguna vez si el modelo de regresión que has ajustado es apropiado para tus datos? 

Hoy te traigo las principales claves para evaluar tu modelo de regresión, solo necesitarás definir los residuos del modelo y evaluar sus gráficos.




¿Qué son los residuos?


Los residuos (o errores) son la diferencia entre los valores observados y los valores que predice el modelo:

Residuos = Valores observados – Valores que predice el modelo
e = y - ŷ

Por ejemplo, para el modelo de regresión lineal simple (i.e. una variable explicativa o predictor, de la forma y(x)=ax+b) tenemos el siguiente gráfico:



En adelante seguiremos trabajando con el modelo de regresión lineal que si recuerdas asume tres cuestiones importantes: que la relación es de tipo lineal, que los residuos siguen una distribución normal y que la varianza de dichos residuos es constante.



¿Qué son los gráficos de residuos?

Como mencioné en el post anterior (aquí) debes evaluar mediante gráficos los supuestos del modelo y si el ajuste es adecuado. 

Cuando trabajas con un modelo de regresión lineal simple (i.e. una única variable explicativa) solo necesitas un gráfico de dispersión con las variables originales. 

Sin embargo, cuando quieres ajustar un modelo de regresión múltiple (i.e. múltiples variables explicativas) es más sencillo que evalúes el ajuste del modelo mediante los gráficos de residuos.


Gráficos de residuos para entender y mejorar tu regresión

Voy a referirme tan solo a los 2 gráficos diagnósticos principales que se suelen realizar con los residuos del modelo:

  1. el gráfico de los residuales en función de los valores ajustados por el modelo (Residuals vs. Fitted) y
  2. el gráfico cuantil-cuantil (Normal Q-Q) permite comparar la distribución de los residuos con la distribución normal teórica.


​Todo lo que necesitas saber
sobre la interpretación de los residuos


  • Residuos vs. Valores predichos por el modelo

Este tipo de gráficos te permite evaluar 3 cuestiones principalmente:

  • Si has utilizado el tipo de relación adecuada (e.g. si el modelo debería ser no lineal en lugar de lineal). Si el tipo de modelo que utilizaste no es el adecuado encontrarás sesgos -bias- o tendencias en los residuos.
  • Si la varianza es constante o por el contrario tienes problemas de dispersión irregular. Uno de los supuestos del modelo de regresión lineal es que la varianza de los residuos es constante, es decir, que los residuos se distribuyen al azar alrededor del valor cero.
  • Si existen datos extremos (outliers) que puedan perturbar e invalidar tu modelo. Este tipo de datos se aparta del comportamiento del resto de residuos, tendrán un valor muy distinto al cero.


¿Quieres conocer los patrones que puedes encontrar en este gráfico? 

a continuación te resumo los principales patrones y su interpretación, luego te enseñaré cómo solucionar cada tipo de problema.




Tendencias. Cuando los residuos se separan del cero de manera sistemática (no aleatoria), tanto si aumentan como si disminuyen para valores de predicciones mayores, el patrón nos sugiere que la función de regresión no es lineal. A este patrón se le suele llamar tendencia, sesgo o "bias" en inglés.

Dispersión irregular. Si observas un patrón de dispersión no aleatorio de los residuos, la variabilidad de los residuos es mayor para ciertos valores predichos por el modelo, esto indica que no se cumple el supuesto de varianza constante en los errores del modelo. Puedes observar alguno de los siguientes casos:

  • un patrón de "abanico". Es decir, los residuos son cercanos a 0 para valores de x pequeños y están más extendidos para valores de x grandes.
  • un patrón de "canalización". Es decir, los residuos se separan para valores de x pequeños pero se cercan a 0 para valores de x grandes.
  • un patrón más complejo.

Datos extremos (Outliers). Ocurre cuando uno o más residuos se apartan del patrón aleatorio del resto. Incluso, podemos observar que si eliminamos el/los outlier el patrón de los residuos cambia.


Ejemplos de patrones:




  • Un modelo válido implica encontrar un patrón de residuos al azar, es decir, que no haya sesgos en los residuos (tendencias) ni una dispersión (varianza) no constante ni valores que desvíen el comportamiento observado (outliers); esto ocurre solamente en la figura "a".
  • Las figuras "b" y "c" tienen problemas de tendencia, lo cual podría indicar que la relación entre las variables estudiadas no es la indicada o que existe correlación en los residuales (e.g. si se trata de una serie temporal).
  • Las figuras "d", "e" y "f" tienen problemas de dispersión irregular. En todos los casos la varianza de los residuos aumenta con los valores ajustados, esto indica que la variabilidad de los errores aumenta al aumentar su media.


Entonces, ¿cómo puedes mejorar el modelo?

  • Si encuentras problemas de tendencia podrías necesitar términos de mayor orden (cuadrática o cúbica) o nuevas variables explicativas, o incluir términos de interacción entre las variables explicativas. Agrega los términos y reajusta el modelo.
  • Si encuentras problemas de dispersión irregular utiliza pruebas de igualdad de varianza (complementarias a los análisis gráficos), considera utilizar transformaciones de las variables o modelar la heterogeneidad encontrada con modelos generalizados (GLM) o modelos mixtos (MM).
  • Si encuentras posibles valores extremos (outliers) o puntos de influencia verifica que no sean errores de medición y considera realizar análisis robustos.



  • Gráfico Q-Q Normal

El modelo de regresión lineal también supone que los residuos siguen una distribución normal. 

Recuerda que el gráfico cuantil-cuantil (Normal Q-Q) te permite comparar la distribución de los residuos con la distribución normal teórica. 

Por lo tanto, si los residuos tienen una distribución normal deberías observar que siguen aproximadamente la línea recta diagonal en el gráfico Q-Q normal, en caso contrario los residuos se van a apartar de la diagonal.




Ejemplos de patrones:




  • Si los residuos presentan una distribución normal debes obtener un gráfico similar al "a".
  • Sin embargo, curvas de tipo "S" indican colas largas en la distribución de los residuales (como en el ejemplo "d"),
  • una forma de "S" invertida indica colas cortas (como en el caso "e"),
  • líneas hacia arriba o abajo indican asimetrías (mira los casos "b" o "c"), y
  • si tienes puntos que se apartan de la línea es un indicio de que tienes datos extremos (outliers).

Entonces, ¿cómo puedes mejorar el modelo?

Investiga con otros gráficos si la falta de normalidad se puede deber a algo más, realiza pruebas estadísticas de normalidad, realiza transformaciones de las variables involucradas, o utiliza modelos más complejos que consideren la falta de normalidad (GLM).


Y si aún tenemos algunos problemas con los residuos, ¿cómo seguir?

Tú decides. Si luego de seguir todas las recomendaciones que te he mencionado sigues detectando problemas (menores) en los patrones de los residuos, debes decidir qué tan preciso necesitas que sea tu modelo. Ya lo dijo G. Box, todos los modelos son erróneos, y yo te recuerdo que generalmente un modelo decente es mejor que ningún modelo.



"Essentially, all models are wrong, but some are useful" 

por George Box


Espero que este post te haya dado una perspectiva diferente sobre cómo diagnosticar tu modelo. 

Si es así, ¡déjame tu comentario!

Valora este artículo del blog:
Día Internacional de la Mujer en la Ciencia 11 d...
Errores comunes que puedes evitar con un simple gr...
 

Comentarios (0)

Rated 0 out of 5 based on 0 votes
There are no comments posted here yet

Deja tus comentarios

Posting comment as a guest.
Archivos adjuntos (0 / 3)
Share Your Location
Escribe el texto que se muestra en la siguiente imagen. ¿No lo ves claro?