¿Qué es la regresión local Loess o Lowess?

¿Qué es la regresión local Loess o Lowess?

sep´17 Rosana Ferrero 0 comentarios

La regresión local te puede ayudar a detectar la relación entre variables, encontrar tendencias y ciclos en tus datos.

Son especialmente útiles cuando:

  • cuando la regresión lineal clásica se vuelve difícil de modelar
  • cuando quieres realizar pocas suposiciones sobre la forma de la relación
  • cuando quieres modelar relaciones locales en lugar de globales
  • cuando tenemos datos ruidosos, datos escasos o interrelaciones débiles que interfieren con nuestra capacidad de ver la línea de mejor ajuste.

¿Qué es la regresión local LOESS o LOWESS? 

La regresión local es un tipo de ajuste de curvas a datos mediante suavizados en los que el ajuste en x se realiza utilizando únicamente observaciones en el entorno de x.

Entonces, se trata de ajustar una curva de suavizado que pase a través de los puntos mediante una técnica de regresión local ponderada.

  • Suaviza. Elimina el ruido para revelar características y componentes de las señales de gran importancia. Nos permite observar tendencias y ciclos en los datos que pueden ser difíciles de modelar mediante curvas paramétricas.
  • Local. Porque en el ajuste en un punto "x" utiliza únicamente observaciones en un entorno de "x" (ventana).
  • Ponderada. Es decir, da más peso o importancia a los valores de la ventana que se encuentran más cercanos al valor que queremos predecir. Asume que los valores cercanos serán más parecidos entre sí respecto al resto de valores.

NOTA: "Lowess" significa Locally wighted scatterplot smoothing

Procedimiento

Imagina que estamos ajustando el modelo loess en el punto "x0", los pasos a seguir son:

  1. elegir el tamaño de la ventana mediante el parámetro de suavizado (entre (0,1]) que representa la proporción de observaciones que se utilizarán en la regresión local. La selección del parámetro de suavizado puede ser automática. Según el tamaño de la ventana (width) tendremos mayor o menor suavizado en el ajuste, generalmente se calcula según el porcentaje de datos que cae dentro de la ventana (span=0.5 significa que la ventana se selecciona de tal manera de que el 50% de los datos caigan dentro de cada ventana, con el x0 como centro).
  2. asignar pesos a los vecinos más cercanos: da más peso a las observaciones cuyos valores X estén cercanos a x0, y menos peso a las observaciones que estén más lejanas. El uso de los pesos se basa en la idea de que los puntos cercanos entre sí en el espacio de la variable explicativa es más probable que se relacionan entre sí de una manera sencilla respecto a los puntos que están más lejos.
  3. realizar una regresión local ponderada, los puntos en el vecindario local de x0 se utilizan para ajustar y calcular el modelo de regresión local ponderada en x0.

Un ejemplo

Imagina que queremos predecir un valor de bioluminiscencia ("Sources") para un valor de profundidad oceánica ("Depth") de, por ejemplo, 1500m. La función de suavizado lo que hace es crear una ventana alrededor de este valor, por ejemplo, tomará los valores entre 1000 y 2000m y predice el valor deseado "Sources" en función de los datos "Depth" que se encuentren dentro de dicha ventana. Este procedimiento se repite para una secuencia de valores de "Depth" y se guardan los valores predichos "Sources", los cuales forman el suavizado.

Ventajas

  • Combina la simplicidad de la regresión lineal por mínimos cuadrados con la flexibilidad de la regresión no lineal.
  • No necesita que especifiquemos una función para ajustar el modelo.
  • Es muy flexible, lo que es ideal para el modelado de procesos complejos para los que no existen modelos teóricos.
  • Es sencilla.

Desventajas

  • Necesita una muestra numerosa para obtener buenos modelos.
  • No producen una función de regresión fácilmente representable por una fórmula matemática.
  • Es sensible a los efectos de valores atípicos en los datos (al igual que en otros métodos basados en distancias cuadráticas).

Aplicación práctica

Veamos dos tipos de suavizado distinto. Vamos a analizar los datos de bioluminiscencia de organismos pelágicos en un gradiente trazado en el noreste del Océano Atlántico. Queremos modelar la relación bioluminiscencia (Sources) con la profundidad (Depth).

Descargamos los datos "ISIT.txt" de la web:

ISIT = read.table("http://www.math.pku.edu.cn/teachers/xirb/Courses/biostatistics/Biostatistics2014/ISIT.txt",header=T)

Solo trabajaremos con la estación 16 así que seleccionamos los datos para esta estación:

Sources16<-ISIT$Sources[ISIT$Station==16]
Depth16<-ISIT$SampleDepth[ISIT$Station==16]
ISIT = ISIT[ISIT$Station==16,]

Vamos a graficar 2 funciones loess con distinto suavizado (ancho de ventana):

par(mfrow=c(2,1))

mloess = loess(Sources~SampleDepth,data=ISIT,degree=2,span=0.1)
 y.pred = predict(mloess)
 rk = order(ISIT$SampleDepth)
 plot(Depth16,Sources16,type="p",main="span=0.1")
 lines(ISIT$SampleDepth[rk],y.pred[rk],col="red",lwd=2)

mloess = loess(Sources~SampleDepth,data=ISIT,degree=2,span=0.75)
 y.pred = predict(mloess)
 rk = order(ISIT$SampleDepth)
 plot(Depth16,Sources16,type="p",main="span=0.75")
 lines(ISIT$SampleDepth[rk],y.pred[rk],col="red",lwd=2)

 

¿Qué observamos en los gráficos?

Los valores mayores de suavizado (h) producen las funciones más suaves que se mueven menos en respuesta a las fluctuaciones en los datos.

Cuanto menor sea h, más próximo será el ajuste de la función de regresión a los datos.

Usar un valor demasiado pequeño del parámetro de suavizado no es deseable porque la función de regresión comenzará a capturar el error aleatorio en los datos.

Los valores útiles del parámetro de suavizado se encuentran generalmente en el intervalo de 0,25 a 0,5 para la mayoría de las aplicaciones LOESS.

¿Te ha gustado esta nueva técnica? Si es así déjanos tu comentario.

Referencias

  • Cleveland W. S., E. Grosse and W. M. Shyu (1992) Local regression models. Chapter 8 of Statistical Models in S eds J.M. Chambers and T.J. Hastie, Wadsworth & Brooks/Cole.
  • Wood S.N. (2006) Generalized Additive Models: An Introduction with R. Chapman and Hall/CRC Press.

0 comentarios

¹ Todos los campos son obligatorios.
² Tu correo electrónico no será publicado.

Nadie ha publicado ningún comentario aún. ¡Se tu la primera persona!

Te llamamos

Introduce los siguientes datos y nos pondremos en contacto contigo para atender tus dudas sin compromiso.

Te llamamos

Muchas gracias por solicitar información.
Te contactaremos lo antes posible.

Diseño web: Albin Soft.