Rosana Ferrero
Data Scientist
Juan L. López
Data Scientist
Hoy te enseñaré las principales diferencias que existen entre los distintos modelos estadísticos de regresión y cómo seleccionar la técnica adecuada para analizar tus datos.
Al final de la entrada veremos un esquema donde se resume todo lo que te he contado.
Máster de Estadística Aplicada con R Software 8ª edición 2019 (Reserva de plaza)
Para elegir el modelo de regresión que debes aplicar a tus datos debes primero tener en cuenta el modelo más sencillo, el modelo de regresión lineal (LM).
Es un modelo que relaciona de manera lineal (siguiendo una recta) una variable respuesta con una o más variables predictoras o explicativas. Requiere de que se cumplan una serie de supuestos sobre los datos que detallo a continuación.
Muchos estudiantes discuten el uso de técnicas gráficas, en lugar de pruebas estadísticas, para evaluar los supuestos debido a que requiere cierto grado de subjetividad. El problema de utilizar pruebas estadísticas para ello es que la mayoría asumen normalidad y muchas veces no nos permiten detectar problemas de outliers o no-linealidad. Pueden ver el ejemplo Anscome sobre la importancia de los gráficos.
NOTA: Recuerden pensar si vuestro datos cumplen con los supuestos, dada su naturaleza (e.g. binaria), antes de ajustar el modelo y/o ayudarse de gráficos exploratorios para evaluarlos. Aún así, tendrán una segunda instancia de evaluación del modelo en la validación con los residuos.
Ahora veremos las extensiones del LM para casos donde no se cumple uno o más de estos supuestos.
NOTA: He señalado con un signo de menos («-«) aquella condición que no es limitante para el modelo en consideración, por ejemplo, «-Normalidad» significa que no asume la normalidad de los datos.
Los GLM (Generalised Linear Models) nos sirven para datos que no cumplen con el supuesto de normalidad, permiten modelar datos de conteo, datos binarios, datos de proporciones y datos inflados por ceros.
Los GLS (Generalised Least Squares models) nos sirven para para datos que no cumplen con el supuesto de homogeneidad o varianza constante, porque permite modelar la heterogeneidad mediante covariables.
Los AM (Additive Models) nos sirven para datos que no cumplen con el supuesto de linealidad, permiten modelar la función no-lineal que relaciona las variables de estudio mediante funciones de suavizado.
Los MM (Mixed Models) son útiles para datos donde no se cumple el supuesto de independencia de las observaciones, permite modelar datos anidados (o de panel o jerárquicos o multinivel), medidas repetidas y datos con correlación temporal o espacial.
De la combinación de los modelos anteriores surgen:
Los GAM (Generalised Additive Models) se utilizan cuando nuestros datos que no cumplen con el supuesto de normalidad ni el de linealidad.
Los GLMM (Generalised Linear Mixed Models) se utilizan para datos que no cumplen con el supuesto de normalidad ni el de independencia.
Por ejemplo, permiten modelar datos anidados o estructuras de correlación temporal o espacial, para datos de conteo o binomiales.
Son la combinación de GLM+MM
Los GAMM (Generalised Additive Mixed Models) los utilizaremos cuando los datos no cumplen con el supuesto de normalidad, ni el de linealidad ni el de independencia.
Por ejemplo para modelar datos anidados con comportamiento oscilatorio y una respuesta de conteo.
Son la combinación de GAM+MM
Zuur et al. 2009 resume en el siguiente esquema los modelos y conceptos que hemos estado comentando.
Hola Rosana!
Creo que ya te había felicitado por el post anteriormente, pero reitero mi felicitación y agradecimiento es super util.
Me faltaría encajar en este cuadro los modelos GEE, en que caso se aplicarían. Y si fallan todos los supuestos, que recomendas? (que no sea tira los datos a la basura ja ja)
Mil gracias
Saludos
Hola Gisela, ¡Muchas gracias!
Sí, quedan algunos modelos por comentar. En el caso de las ecuaciones de estimación generalizadas (GEE) podrías utilizarlos cuando tienes un modelo lineal generalizado (es decir, un modelo sin efectos aleatorios y con respuesta no normal) donde los resultados estén correlacionados.
Acabo de encontrar esta página que habla sobre ello y parece interesante (aunque sea en SAS): http://support.sas.com/resources/papers/proceedings17/SAS0521-2017.pdf
¡Saludos!
Genia gracias
Buenos días, quisiera consultar una duda. Estoy realizando un estudio sobre una enfermedad X y quiero estudiar si una serie de variables (edad, sexo, obesidad, tabaquismo, etiología, aparición de complicaciones, etc) son factores de riesgo o protectores, en cuanto a la necesidad de empleo de antibiótico en el curso de la enfermedad.
Para ello he empleado regresión logísitca binaria (SPSS), pero no sé interpretar qué es factor de riesgo y qué factor protector. Además me salen muchos de los resultados sin significación estadística. Leí en alguna parte que cuando pasa eso, tienes que ir eliminando variables no significativas y recalculando hasta que todas las variables independientes alcancen la significación estadística. ¿Cómo puedo hacer eso? ¿Qué solución tiene?
Muchas gracias de antemano, un saludo.
Hola Paula,
Las medidas de riesgo relativo (RR) y Odds Ratio (OR) te permiten identificar entre un factor de riesgo o factor protector.
Si RR u OR > 1 indica que existe asociación positiva, es decir, que la presencia del factor de riesgo se asocia a una mayor frecuencia de suceder el evento. Mientras que el RR u OR < 1 indica que existe una asociación negativa, es decir, que no existe factor de riesgo, la presencia del factor se asocia a una menor presencia de suceder el evento, lo que existe es un factor protector. (explicación adaptada de Wikipedia). Puedes consultar más ejemplos en la web: http://networkianos.com/odd-ratio-que-es-como-se-interpreta/
Respecto a la significación. Sí, en modelos de regresión (cualquiera de ellos) una opción es ir eliminando variables según: 1) orden del término (eliminar primero interacciones no significativas respecto a los términos simples no significativos) y 2) eliminar por la variable menos significativa. Aunque existen muchos otros criterios, como comparar modelos según el AIC, la selección de subconjuntos de variables, o los métodos automáticos de selección de variables.
Saludos