¿Cómo Lidiar con Los datos atípicos (Outliers)?

ago´17 SEO Soporte 0 comentarios

UNA PREGUNTA CON TRAMPA...

Si te pregunto qué medida describe mejor un conjunto de datos, ¿qué respondes?

La mayoría de las personas diría rápidamente… ¡la media!, pero veamos si es la respuesta correcta. Supongamos que tenemos los siguientes datos:10,10,11,12,12,13,14,15,15,15,16,18,19

Calculamos su media, que es 13.84615.¿Pero qué pasa si cambiamos un dato? cambiemos el último número.

10,10,11,12,12,13,14,15,15,15,16,18,200

Volvemos a calcular la media, que ahora es 27.77, bastante superior a la anterior.

Con tan solo mover un valor lejos del resto, ¡la media lo seguirá!.

Este ejemplo indica que la robustez (¡vaya palabro!) del estimador es importante cuando tenemos datos atípicos (u outliers) y también cuando no queremos que un dato tenga más influencia que los demás en los cálculos.

Los datos atípicos "pesan más" que los datos cercanos a la media.

No considerar un dato extremo tiene mayores consecuencias en la estimación de la media que eliminar un datos de la región con mayor densidad.

¡Un solo valor es suficiente para influenciar enormemente la media del conjunto de datos!

ÚLTIMAS PLAZAS EN MASTERS

Máster Data Science

CONVOCATORIA ABIERTA I Logra la máxima precisión y rigor en tus proyectos de Ciencia de Datos.

Ver convocatorias 2022

MAster en MAchine learning

CONVOCATORIA ABIERTA | Automatiza procesos y crea tus propios algoritmos de Machine Learning.

Ver convocatorias 2022

¿CÓMO PODEMOS SOLUCIONAR EL PROBLEMA DE LOS DATOS ATÍPICOS?

Si hemos corroborado que estos valores atípicos no se deben a un error a la hora de construir la base de datos o en la medición de la variable, eliminarlos no es la solución. Si no se debe a un error, eliminarlo o sustituirlo puede modificar las inferencias que se realicen a partir de esa información, debido a que introduce un sesgo, a que disminuye el tamaño muestral y a que puede afectar tanto a la distribución como a las varianzas.

Además, ¡en la variabilidad de los datos reside el tesoro de nuestra investigación!

Es decir, la variabilidad (diferencias en el comportamiento de un fenómeno) debe explicarse no eliminarse. Y si aún no puedes explicarla al menos debes poder disminuir la influencia de estos valores atípicos en tus datos.

La mejor opción es quitarle peso a esas observaciones atípicas mediante técnicas robustas.

Los métodos estadísticos robustos son técnicas modernas que hacen frente a estos problemas. Son similares a los clásicos pero se ven menos afectados por la presencia de valores atípicos o variaciones pequeñas respecto a las hipótesis de los modelos.

ALTERNATIVAS A LA MEDIA

Si calculamos la mediana(el valor central de una muestra ordenada) para el segundo conjuntos de datos tenemos un valor de 14 (el mismo que para el primer conjunto de datos). Vemos que este estadístico de centralidad no se ha visto perturbado por la presencia de un valor extremo, por lo tanto, es más robusto.

Veamos otras alternativas...

La media recortada (trimming) "desecha" los valores extremos. Es decir, elimina del análisis una fracción de los datos extremos (e.g. 20%) y calcula la media del nuevo conjunto de datos. La media recortada para nuestro caso valdría 13.67.

La media winsorizada progresivamente reemplaza un porcentaje de los valores extremos (e.g. 20%) por otros menos extremos. En nuestro caso, la media winsorizada de la segunda muestra sería la misma 13.62.

Vemos que todas estas estimaciones robustas representan mejor a la muestra y se ven menos afectadas por los datos extremos.

Tabla 1. Resultados de los estadísticos (o estimadores) que resumen el valor central para el conjunto de datos {10, 10, 11, 12, 12, 13, 14, 15, 15, 15, 16, 18, 200}.

UN POCO MÁS ALLÁ… LA INFERENCIA

El problema de los datos extremos se extiende a cuando queremos hacer contrastes de hipótesis, correlaciones y regresiones.

Las pruebas de hipótesis son sensibles al incumplimiento de los supuestos de los modelos y a la presencia de outliers. Cuando los datos no cumplen con estos supuestos disminuye la capacidad de detectar efectos reales(afecta al p-valor, al tamaño del efecto y a los intervalo de confianza estimados).

¡Toda la interpretación de tus datos puede ser errónea!.

Razones para utilizar pruebas robustas

• Son estables respecto a pequeñas desviaciones del modelo paramétrico asumido (normalidad y homocedasticidad). A diferencia de los procedimientos no paramétricos, los procedimientos estadísticos robustos no tratan de comportarse necesariamente bien para una amplia clase de modelos, pero son de alguna manera óptimos en un entorno de cierta distribución de probabilidad, por ejemplo, normal.

• Solucionan los problemas de influencia de los outliers.

• Son más potentes que las pruebas paramétricas y no paramétricas cuando los datos no son normales y/o no son homocedásticos.

Métodos robustos para el contraste de hipótesis: comparación de medias

Imaginemos que queremos comparar dos medias. Disponemos de 32 tipos de automóviles (modelos de 1973-74) de USA (datos "mtcars" de R-software) y queremos comparar los caballos de fuerza entre los coches de transmisión automática y manual (Tabla 2). Para los coches con transmisión manual la variable caballos de fuerza no se distribuye según la normal (W = 0.76758, p-value = 0.00288) pero sí para los de transmisión automática (W = 0.95835, p-value = 0.5403), además sabemos que se trata de grupos homogéneos (F(1,30)=0.1842, p-value=0.6709).

Como la variable de estudio no se distribuye según la normal deberíamos recurrir a las pruebas no paramétricas (U de Mann-Whitney) en lugar de las paramétricas (t de Student). Sin embargo, en este caso concreto ninguna de estas dos opciones es la adecuada, debido a la presencia de datos atípicos u outliers (Figura 1).

La prueba robusta de Yuen, que utiliza las medias recortadas, es capaz de detectar diferencias significativas entre ambos grupos, ¡diferencias que las demás pruebas no fueron capaces de detectar! (Tabla 2).

Tabla 2. Contrastes de hipótesis con pruebas paramétricas, no paramétricas y robustas. Utilizamos el conjunto de datos "mtcars" de R-software donde comparamos los caballos de potencias entre coches con transmisión automática y manual.

La prueba de Yuen es una alternativa a las pruebas t de Studen y U de Mann-Whitney para muestras de pequeño tamaño con distribuciones no normales y presencia de datos atípicos (outliers).

Figura 1. Diagrama de cajas para la variable caballos de fuerza de coches con transmisión automática (0) y manual (1). Se observa la presencia de valores atípicos u outliers para los coches con transmisión manual (los puntos).

Este tipo de ejemplos podría extenderse para el caso de comparaciones de más de dos medias, análisis de correlaciones, regresiones, etc..

Entonces, si los beneficios son tan importantes, ¿por qué se utilizan poco los métodos robustos?

La mayoría de los investigadores no son conscientes de las serias limitaciones de los métodos clásicos, no saben cómo comprobar sus supuestos y/o no están familiarizados con alternativas modernas como los métodos robustos. Además, la mayoría de los softwares estadísticos no permiten calcular estadísticos y pruebas (¡a excepción de R!).

Ahora sí, hay casos donde no es recomendable utilizar los estadísticos robustos.

Estos métodos suponen que la distribución subyacente es más o menos normal (unimodal y simétrica) pero perturbada por valores extremos. Por lo tanto, no son demasiado útiles si se aplican a datos que presentan una marcada distribución multimodal o sesgada. Que no es el caso de nuestro ejemplo.

En resumen, los métodos robustos pueden ser útiles tanto para la estadística descriptiva como para la estadística explicativa (inferencias) ya que, sin tener que "depurar" los datos extremos (outliers), están diseñados para reducir su posible influencia.

Y tú, ¿conocías la estadística robusta?

0 comentarios

Me gustaría saber si además del software existe capacitación sobre su uso e interpretación estadística.

Saludos
Responder

Erick Lara 23 de julio de 2019, 16:32

Hola Erick,
en el Máster te enseñamos a resolver problemas estadísticos con datos reales mediante el software estadístico R. Aprenderás sobre manipulación de datos, la elección de la técnica estadística correcta, la interpretación de resultados y su comunicación, con técnicas avanzadas y actuales. Si deseas más información, ponte en contacto con nosotros y con gusto te atenderemos. Saludos
Responder

Rosana Ferrero 24 de julio de 2019, 13:27

hola, el curso es online?
Responder

azul 24 de octubre de 2019, 18:16

Hola Azul,
supongo que te refieres a nuestro Máster, ¿es así? En tal caso, sí, es 100% online, lo que nos permite una autorización individual y personalizada. Puedes ir a tu ritmo, no hay fechas obligatorias de entregas ni de clases, y estaremos acompañándote en todo el procedimiento para que le saques el jugo al contenido. Es también completamente práctico y desarrollado en R Project, y ya que escribes en este post supongo que te interesa saber que tratamos problemas de datos complejos, con presencia de datos perdidos y atípicos (outliers).
Si necesitas más información nos puedes escribir por la web https://www.maximaformacion.es o llamar a los siguientes teléfonos:
Máxima Formación
cursos@maximaformacion.es
☎ ESPAÑA (+34) 635 659 391
☎ LATINOAMÉRICA (+598) 94 707 187

¡Saludos!
Responder

Rosana Ferrero 25 de octubre de 2019, 09:07

Si datos de muestra menor de 25 son normales ordinales y atípicos tanto pearson y spearman arrojan no rechazar Ho. Entonces hay un mínimo de aceptación de Hi, que prueba tomar, teniendo en cuenta que no son probabilísticos.
Responder

Santiago 26 de noviembre de 2019, 00:52

Hola Santiago, Si son ordinales dependerá de qué valores tome la variable. Si por ejemplo puede tomar valores del 1 al 20 podrías utilizar una aproximación no paramétrica, en este caso la correlación de Spearman. Pero si tu variable toma valores del 1 al 3 (o 5) tal vez sería mejor utilizar como medida de asociación la V de Cramer.
Depende del caso y tus objetivos.
Saludos
Responder

Rosana Ferrero 26 de noviembre de 2019, 09:08

Es un placer para mi de este comentario a
De si datos de muestras menos de 25
Son normales ordinarias y optipicos tantos plarson y splaman arrojan no rechazar.entonces es la volores atípicos puendes ser la media de datos a un población de diferentes de reste de muestras.
Responder

Marcelin Jn Baptiste 4 de julio de 2020, 16:16

Hola Marcelin, no he entendido la pregunta, puedes formularla nuevamente de manera más sencilla y clara.
Saludos
Responder

Rosana Ferrero 20 de julio de 2020, 09:58