Blog de Estadística & R Software

Blog de Máxima Formación dedicado a Estadística aplicada con R Software
Tamaño de fuente: +

¿CÓMO LIDIAR CON LOS DATOS ATÍPICOS (OUTLIERS)?


UNA PREGUNTA CON TRAMPA

Si te pregunto qué medida describe mejor un conjunto de datos, ¿qué respondes?

La mayoría de las personas diría rápidamente… ¡la media!, pero veamos si es la respuesta correcta.


Supongamos que tenemos los siguientes datos:

10,10,11,12,12,13,14,15,15,15,16,18,19

Calculamos su media, que es 13.84615.

¿Pero qué pasa si cambiamos un dato? cambiemos el último número.

10,10,11,12,12,13,14,15,15,15,16,18,200

Volvemos a calcular la media, que ahora es 27.77, bastante superior a la anterior.

Con tan solo mover un valor lejos del resto, ¡la media lo seguirá!.


Este ejemplo indica que la robustez (¡vaya palabro!) del estimador es importante cuando tenemos datos atípicos (u outliers) y también cuando no queremos que un dato tenga más influencia que los demás en los cálculos.

Los datos atípicos "pesan más" que los datos cercanos a la media.

No considerar un dato extremo tiene mayores consecuencias en la estimación de la media que eliminar un datos de la región con mayor densidad.

¡Un solo valor es suficiente para influenciar enormemente la media del conjunto de datos!


¿CÓMO PODEMOS SOLUCIONAR EL
PROBLEMA DE LOS DATOS ATÍPICOS?

Si hemos corroborado que estos valores atípicos no se deben a un error a la hora de construir la base de datos o en la medición de la variable, eliminarlos no es la solución. Si no se debe a un error, eliminarlo o sustituirlo puede modificar las inferencias que se realicen a partir de esa información, debido a que introduce un sesgo, a que disminuye el tamaño muestral y a que puede afectar tanto a la distribución como a las varianzas. 

Además, ¡en la variabilidad de los datos reside el tesoro de nuestra investigación!

Es decir, la variabilidad (diferencias en el comportamiento de un fenómeno) debe explicarse no eliminarse. Y si aún no puedes explicarla al menos debes poder disminuir la influencia de estos valores atípicos en tus datos.

La mejor opción es quitarle peso a esas observaciones atípicas mediante técnicas robustas.

Los métodos estadísticos robustos son técnicas modernas que hacen frente a estos problemas. Son similares a los clásicos pero se ven menos afectados por la presencia de valores atípicos o variaciones pequeñas respecto a las hipótesis de los modelos. 

ALTERNATIVAS A LA MEDIA

Si calculamos la mediana (el valor central de una muestra ordenada) para el segundo conjuntos de datos tenemos un valor de 14 (el mismo que para el primer conjunto de datos). Vemos que este estadístico de centralidad no se ha visto perturbado por la presencia de un valor extremo, por lo tanto, es más robusto.

Veamos otras alternativas...

La media recortada (trimming) "desecha" los valores extremos. Es decir, elimina del análisis una fracción de los datos extremos (e.g. 20%) y calcula la media del nuevo conjunto de datos. La media recortada para nuestro caso valdría 13.67.

La media winsorizada progresivamente reemplaza un porcentaje de los valores extremos (e.g. 20%) por otros menos extremos. En nuestro caso, la media winsorizada de la segunda muestra sería la misma 13.62.

Vemos que todas estas estimaciones robustas representan mejor a la muestra y se ven menos afectadas por los datos extremos.

Tabla 1. Resultados de los estadísticos (o estimadores) que resumen el valor central para el conjunto de datos {10, 10, 11, 12, 12, 13, 14, 15, 15, 15, 16, 18, 200}. 


UN POCO MÁS ALLÁ… LA INFERENCIA

El problema de los datos extremos se extiende a cuando queremos hacer contrastes de hipótesis, correlaciones y regresiones.

Las pruebas de hipótesis son sensibles al incumplimiento de los supuestos de los modelos y a la presencia de outliers. Cuando los datos no cumplen con estos supuestos disminuye la capacidad de detectar efectos reales (afecta al p-valor, al tamaño del efecto y a los intervalo de confianza estimados).

¡Toda la interpretación de tus datos puede ser errónea!.


Razones para utilizar pruebas robustas

• Son estables respecto a pequeñas desviaciones del modelo paramétrico asumido (normalidad y homocedasticidad). A diferencia de los procedimientos no paramétricos, los procedimientos estadísticos robustos no tratan de comportarse necesariamente bien para una amplia clase de modelos, pero son de alguna manera óptimos en un entorno de cierta distribución de probabilidad, por ejemplo, normal.

• Solucionan los problemas de influencia de los outliers.

• Son más potentes que las pruebas paramétricas y no paramétricas cuando los datos no son normales y/o no son homocedásticos.


Métodos robustos para el contraste de hipótesis: comparación de medias

Imaginemos que queremos comparar dos medias. Disponemos de 32 tipos de automóviles (modelos de 1973-74) de USA (datos "mtcars" de R-software) y queremos comparar los caballos de fuerza entre los coches de transmisión automática y manual (Tabla 2). Para los coches con transmisión manual la variable caballos de fuerza no se distribuye según la normal (W = 0.76758, p-value = 0.00288) pero sí para los de transmisión automática (W = 0.95835, p-value = 0.5403), además sabemos que se trata de grupos homogéneos (F(1,30)=0.1842, p-value=0.6709).

Como la variable de estudio no se distribuye según la normal deberíamos recurrir a las pruebas no paramétricas (U de Mann-Whitney) en lugar de las paramétricas (t de Student). Sin embargo, en este caso concreto ninguna de estas dos opciones es la adecuada, debido a la presencia de datos atípicos u outliers (Figura 1).

La prueba robusta de Yuen, que utiliza las medias recortadas, es capaz de detectar diferencias significativas entre ambos grupos, ¡diferencias que las demás pruebas no fueron capaces de detectar! (Tabla 2).

Tabla 2. Contrastes de hipótesis con pruebas paramétricas, no paramétricas y robustas. Utilizamos el conjunto de datos "mtcars" de R-software donde comparamos los caballos de potencias entre coches con transmisión automática y manual. 


La prueba de Yuen es una alternativa a las pruebas t de Studen y U de Mann-Whitney para muestras de pequeño tamaño con distribuciones no normales y presencia de datos atípicos (outliers).

Figura 1. Diagrama de cajas para la variable caballos de fuerza de coches con transmisión automática (0) y manual (1). Se observa la presencia de valores atípicos u outliers para los coches con transmisión manual (los puntos).

Este tipo de ejemplos podría extenderse para el caso de comparaciones de más de dos medias, análisis de correlaciones, regresiones, etc..

Entonces, si los beneficios son tan importantes, ¿por qué se utilizan poco los métodos robustos?

La mayoría de los investigadores no son conscientes de las serias limitaciones de los métodos clásicos, no saben cómo comprobar sus supuestos y/o no están familiarizados con alternativas modernas como los métodos robustos. Además, la mayoría de los softwares estadísticos no permiten calcular estadísticos y pruebas robustas fácilmente (¡a excepción de R!).

Ahora sí, hay casos donde no es recomendable utilizar los estadísticos robustos.

Estos métodos suponen que la distribución subyacente es más o menos normal (unimodal y simétrica) pero perturbada por valores extremos. Por lo tanto, no son demasiado útiles si se aplican a datos que presentan una marcada distribución multimodal o sesgada. Que no es el caso de nuestro ejemplo.

En resumen, los métodos robustos pueden ser útiles tanto para la estadística descriptiva como para la estadística explicativa (inferencias) ya que, sin tener que "depurar" los datos extremos (outliers), están diseñados para reducir su posible influencia sobre los resultados.

Y tú, ¿conocías la estadística robusta?

Valora este artículo del blog:
Está claro, ¡tienes que aprender R ya!
LOS 7 PECADOS ESTADÍSTICOS
 

Comentarios (11)

Rated 0 out of 5 based on 0 votes
  1. Angeles

Muy buen blog,sigue publicando artículos nuevos ; )

  Archivos adjuntos
 
  1. Rosana Ferrero    Angeles

Muchas gracias, Ángeles! en eso estamos, saludos

  Archivos adjuntos
 
  1. Martin Guzman Ramirez

Exelente blog, quisiera recibir actualizaciones mas seguido

  Archivos adjuntos
 
  1. Rosana Ferrero    Martin Guzman Ramirez

Gracias por vuestros comentarios! estamos creando nuevos materiales que pronto publicaremos. Para recibir las actualizaciones solo tienen que suscribirte a nuestra comunidad. Saludos!

  Archivos adjuntos
 
  1. Miguel Padrón

Felicitaciones. Muy útil la información. Una pregunta: Que criterios podemos utilizar para identificar los valores atípicos cuando no es tan evidente su calificación.
Gracias de antemano

  Archivos adjuntos
 
  1. Rosana Ferrero    Miguel Padrón

Hola Miguel, nos alegramos de que la información te sea de utilidad. Para detectar los valores atípicos tienes varias herramientas complementarias. Por ejemplo, en R puedes utilizar los gráficos "boxplot" (con la función "boxplot.stats"), la...

Hola Miguel, nos alegramos de que la información te sea de utilidad. Para detectar los valores atípicos tienes varias herramientas complementarias. Por ejemplo, en R puedes utilizar los gráficos "boxplot" (con la función "boxplot.stats"), la función "rp.outlier" del paquete "rapportools" o la función "outlier" del paquete "outliers". Éstas herramientas utilizan algoritmos distintos para la detección de outliers.
Saludos

Leer más
  Archivos adjuntos
 
  1. Angeles

Muy buen blog,sigue publicando artículos nuevos ; )

  Archivos adjuntos
 
  1. Martin Guzman Ramirez

Exelente blog, quisiera recibir actualizaciones mas seguido

  Archivos adjuntos
 
  1. Rosana Ferrero    Martin Guzman Ramirez

Gracias por vuestros comentarios! estamos creando nuevos materiales que pronto publicaremos. Para recibir las actualizaciones solo tienen que suscribirte a nuestra comunidad. Saludos!

  Archivos adjuntos
 
  1. Miguel Padrón

Felicitaciones. Muy útil la información. Una pregunta: Que criterios podemos utilizar para identificar los valores atípicos cuando no es tan evidente su calificación.
Gracias de antemano

  Archivos adjuntos
 
  1. Rosana Ferrero    Miguel Padrón

Hola Miguel, nos alegramos de que la información te sea de utilidad. Para detectar los valores atípicos tienes varias herramientas complementarias. Por ejemplo, en R puedes utilizar los gráficos "boxplot" (con la función "boxplot.stats"), la...

Hola Miguel, nos alegramos de que la información te sea de utilidad. Para detectar los valores atípicos tienes varias herramientas complementarias. Por ejemplo, en R puedes utilizar los gráficos "boxplot" (con la función "boxplot.stats"), la función "rp.outlier" del paquete "rapportools" o la función "outlier" del paquete "outliers". Éstas herramientas utilizan algoritmos distintos para la detección de outliers.
Saludos

Leer más
  Archivos adjuntos
 
There are no comments posted here yet

Deja tus comentarios

Posting comment as a guest.
Archivos adjuntos (0 / 3)
Share Your Location
Escribe el texto que se muestra en la siguiente imagen. ¿No lo ves claro?

Únete a nuestra comunidad