¿Qué modelo de regresión debería elegir?

¿Qué modelo de regresión debería elegir?

sep´17 SEO Soporte 4 comentarios

La guía definitiva para elegir el modelo estadístico adecuado a cada situación

Hoy te enseñaré las principales diferencias que existen entre los distintos modelos estadísticos de regresión y cómo seleccionar la técnica adecuada para analizar tus datos.

Al final de la entrada veremos un esquema donde se resume todo lo que te he contado.

Tabla de contenidos

Comencemos por el principio

Para elegir el modelo de regresión que debes aplicar a tus datos debes primero tener en cuenta el modelo más sencillo, el modelo de regresión lineal (LM).

Modelo lineal, LM (Linear Models)

Es un modelo que relaciona de manera lineal (siguiendo una recta) una variable respuesta con una o más variables predictoras o explicativas. Requiere de que se cumplan una serie de supuestos sobre los datos que detallo a continuación.

Supuestos (limitaciones) del modelo lineal:

  • Normalidad. Los residuos (o errores=la diferencia entre las observaciones y las predicciones del modelo) del modelo siguen una distribución normal (forma de campana de Gauss). Generalmente si la respuesta no se distancia mucho de la normalidad no tendremos problemas. Para saber si la respuesta sigue o no una distribución normal primero debemos pensar en el tipo de variable respuesta que tenemos, lo más sencillo. Por ejemplo, si estamos ante una respuesta binaria los datos no serán normales ni existirá ninguna transformación útil para que lo sea. En el caso de que esto no sea tan obvio, se puede chequear realizando un histograma o gráfico QQ con los residuos del modelo. En el histograma deberíamos encontrar un patrón de campana y en el gráfico QQ unos puntos que se localizan sobre la diagonal.
  • Homogeneidad. Cuando la dispersión de los datos no es la misma para cada valor del predictor o variable explicativa. Si el incumplimiento no es demasiado serio no tendremos problema. La manera de chequearlo es traficar los residuos en función de los valores ajustados por el modelo. La dispersión debería ser la misma para todo el rango de valores ajustados.
  • Linealidad. La relación entre la respuesta y la variable predictora es de tipo lineal o monotónica.
  • Independencia. Si la respuesta para un determinado valor del predictor está influenciado por otro valor del predictor. Por ejemplo, piensen en el caso de datos temporales, si medimos la temperatura media del día es más probable que se parezca a la temperatura media del día anterior. Es el supuesto más delicado porque invalida las pruebas estadísticas F y t. Generalmente incumplimos este supuesto por la naturaleza de nuestros datos, datos temporales o espaciales (los sitios más cercanos serán más parecidos entre sí respecto al resto).

Muchos estudiantes discuten el uso de técnicas gráficas, en lugar de pruebas estadísticas, para evaluar los supuestos debido a que requiere cierto grado de subjetividad. El problema de utilizar pruebas estadísticas para ello es que la mayoría asumen normalidad y muchas veces no nos permiten detectar problemas de outliers o no-linealidad. Pueden ver el ejemplo Anscome sobre la importancia de los gráficos.

NOTA: Recuerden pensar si vuestro datos cumplen con los supuestos, dada su naturaleza (e.g. binaria), antes de ajustar el modelo y/o ayudarse de gráficos exploratorios para evaluarlos. Aún así, tendrán una segunda instancia de evaluación del modelo en la validación con los residuos.

Ahora veremos las extensiones del LM para casos donde no se cumple uno o más de estos supuestos.

ÚLTIMAS PLAZAS EN MASTERS

Máster Data Science

CONVOCATORIA ABIERTA I Logra la máxima precisión y rigor en tus proyectos de Ciencia de Datos.

Ver convocatorias 2022

MAster en MAchine learning

CONVOCATORIA ABIERTA | Automatiza procesos y crea tus propios algoritmos de Machine Learning.

Ver convocatorias 2022

NOTA: He señalado con un signo de menos («-«) aquella condición que no es limitante para el modelo en consideración, por ejemplo, «-Normalidad» significa que no asume la normalidad de los datos.

Modelos lineales generalizados: -Normalidad

Los GLM (Generalised Linear Models) nos sirven para datos que no cumplen con el supuesto de normalidad, permiten modelar datos de conteo, datos binarios, datos de proporciones y datos inflados por ceros.

Modelos de mínimos cuadrados generalizados: -Homogeneidad

Los GLS (Generalised Least Squares models) nos sirven para para datos que no cumplen con el supuesto de homogeneidad o varianza constante, porque permite modelar la heterogeneidad mediante covariables.

Modelos aditivos: -Linealidad

Los AM (Additive Models) nos sirven para datos que no cumplen con el supuesto de linealidad, permiten modelar la función no-lineal que relaciona las variables de estudio mediante funciones de suavizado.

Modelos mixtos: -Independencia

Los MM (Mixed Models) son útiles para datos donde no se cumple el supuesto de independencia de las observaciones, permite modelar datos anidados (o de panel o jerárquicos o multinivel), medidas repetidas y datos con correlación temporal o espacial.

Haciendo combinaciones

Modelos aditivos mixtos: -Normalidad -Linealidad

Los GAM (Generalised Additive Models) se utilizan cuando nuestros datos que no cumplen con el supuesto de normalidad ni el de linealidad.

Modelos lineales mixtos generalizados: -Normalidad -Independencia

Los GLMM (Generalised Linear Mixed Models) se utilizan para datos que no cumplen con el supuesto de normalidad ni el de independencia.
Por ejemplo, permiten modelar datos anidados o estructuras de correlación temporal o espacial, para datos de conteo o binomiales.
Son la combinación de GLM+MM

Modelos aditivos mixtos generalizados: -Normalidad -Linealidad -Independencia

Los GAMM (Generalised Additive Mixed Models) los utilizaremos cuando los datos no cumplen con el supuesto de normalidad, ni el de linealidad ni el de independencia. Por ejemplo para modelar datos anidados con comportamiento oscilatorio y una respuesta de conteo.
Son la combinación de GAM+MM

Esquema final

(*) Luego de una interesante discusión en Linkedin con Adrián Olszewski, sobre el supuesto de homogeneidad de varianza en modelos mixtos MM y modelos mixtos generalizados GLMM, he decidido agregar el siguiente comentario. Los modelos mixtos permiten modelar casos simples de heterocedasticidad; los componentes de efecto aleatorio de los modelos de efectos mixtos infieren la varianza asociada con la pertenencia al grupo (Gelman & Hill, 2006; Schielzeth & Nakagawa, 2013), pero asumen errores intragrupo homocedásticos. Por lo tanto, dependiendo de la formulación, los GLMM pueden tener en cuenta la heteroscedasticidad de los datos. No obstante, los escenarios más avanzados requieren un enfoque diferente, como la estimación GLS/GEE o, herramientas flexibles con una especificación cuidadosa de los componentes de covarianza. 

4 comentarios

¹ Todos los campos son obligatorios.
² Tu correo electrónico no será publicado.

  • Muy interesantes todos los temas qué tratan y la profundidad de los mismos. Seguiré leyendolos

    Responder

    Leonardo León Albornoz 10 de julio de 2022, 11:57

    • ¡Muchas gracias Leonardo!
      Si lo deseas también puedes suscribirte para recibir las noticias y últimos post.
      Saludos cordiales

      Responder

      Rosana Ferrero 11 de julio de 2022, 06:41

  • Excelente muy bien resumido.

    Responder

    Patricio 3 de abril de 2023, 01:38

    • ¡Gracias Patricio!
      Aquí nos tienes para lo que necesites, un saludo

      Responder

      Rosana Ferrero 3 de abril de 2023, 08:18

  • Hola, ofrecéis asesoramiento estadístico particular?

    Responder

    amaia 19 de mayo de 2023, 23:01

  • Un ejemplo me quedaría mas claro.

    Responder

    Angel Rivas 23 de febrero de 2024, 01:04

Te llamamos

Introduce los siguientes datos y nos pondremos en contacto contigo para atender tus dudas sin compromiso.

Te llamamos

Muchas gracias por solicitar información.
Te contactaremos lo antes posible.

Diseño web: Albin Soft.