Rosana Ferrero
Data Scientist
Juan L. López
Data Scientist
Hace poco leí el artículo “Ten Simple Rules for Effective Statistical Practice” de Kass et al. publicado en 2016 por PLOS, donde comparten algunas ideas para mejorar la manera en la que analizamos los datos.
Y es que las afirmaciones basadas en un razonamiento estadístico bienintencionado pero defectuoso, son más peligrosas que el propio fraude.
Recordé aquella frase de:
“Nunca atribuyas a la malicia lo que se explica adecuadamente por la incompetencia”.
La falta de alfabetización estadística es preocupante. En este artículo Kass et al. discuten los orígenes de tales problemas y las distintas formas de evitar las trampas.
Resumo para ti sus 10 reglas y añado algunos comentarios personales que estoy segura que van a ayudarte.
Máster de Estadística Aplicada con R Software (Reserva de plaza)
Andrew Vickers, bioestadístico en el Memorial Sloan Kettering Cancer Center dice:
«Trate las estadísticas como una ciencia, no como una receta” (ver Baker 2016).
Muchos investigadores saltan directamente a una técnica basada en la estructura de datos en lugar de centrarse en un objetivo científico. Pero Kass et al. recomiendan invertir este enfoque y cambiar la forma en que uno aborda la recopilación y el análisis de datos.
Primero debes comprender la pregunta y luego considerar qué herramientas te permitirán encontrar la respuesta.
En este sentido, te van a resultar muy útiles las siguientes guías:
Guía definitiva para encontrar la prueba estadística que buscas
Y el Big Data conlleva que estos problemas sean más importantes, no menos, porque cuanto más grande sea el volumen de los datos más ruido traerán consigo.
Asegúrate de entender cómo se comporta ese ruido. El objetivo del análisis estadístico es ayudar a evaluar la incertidumbre y explicar la variabilidad.
Diseña tu investigación con cuidado, esto hará que el análisis posterior sea más simple y confiable. Recuerda la frase de Ronald Fisher (1938):
«Consultar al experto en estadística después de terminar un experimento suele ser simplemente pedirle que realice un examen post mortem. Quizás pueda decir de qué murió el experimento.»
La basura produce basura. Es muy recomendable abordar el pre-procesamiento, descripción y limpieza de datos con cuidado, ya que puede tener efectos profundos que pasan desapercibidos fácilmente. Datos faltantes, datos atípicos…
Además, como señala el científico informático y músico Jaron Lanier: «Hay una gran diferencia entre grandes datos científicos, como datos sobre la formación de galaxias, clima o brotes de gripe», que con un montón de trabajo arduo se puede obtener y extraer, y «grandes datos sobre personas», que son más variables y a menudo menos confiables.
Selecciona y describe la metodología que empleas de manera clara y específica. Piensa qué pruebas estadísticas vas a utilizar y por qué son apropiadas.
«La simplicidad es la máxima sofisticación”, dijo Leonardo da Vinci.
El principio de parsimonia puede ser una guía confiable: comienza con enfoques simples y solo agrega complejidad según sea necesaria (e.j. interacciones entre variables explicativas, mecanismos no lineales, datos faltantes, factores de confusión, sesgos de muestreo, etc.)
Además de indicar la estimación de la variable que estés analizando, recuerda evaluar la incertidumbre en forma de error estándar o intervalo de confianza. Esto es útil para entender la incertidumbre y para planificar la próxima investigación.
Todo modelo, al ser una simplificación de la realidad, implica supuestos.
Tanto los datos en sí como la naturaleza de las variables en cuestión se deben inspeccionar cuidadosamente para evaluar si cumplen o no con los supuestos del modelo que vas a utilizar. Por ejemplo, desviaciones relativamente pequeñas de la independencia de las observaciones pueden tener efectos drásticos, generando resultados inexactos o incluso engañosos.
Recientemente ha habido una gran cantidad de críticas sobre el uso de los p-valores en la ciencia, en gran parte relacionado con la percepción errónea de que los resultados no pueden ser dignos de publicación a menos que “p sea menor a 0.05”.
Evita el sesgo de publicar solo resultados significativos y evita la repesca de datos (rehacer los análisis de diferentes maneras para tratar de obtener los resultados que desea). Una posible solución es la replicación de los estudios o la permutación de datos. También ayuda calcular la potencia estadística y el tamaño del efecto.
Documenta bien tu trabajo para evitar errores (revisa el caso de Reinhart & Rogoff) y para facilitar su reproducción en el futuro (mira cómo hacerlo con Rmarkdown).
Y agregó: nada dura para siempre, así que después de obtener resultado intenta explicar para qué valores se aplica y para qué valores no, su significado práctico y real.
Crea tu propio código y publica tus resultados con RMarkdown en 3 simples pasos
Kass RE, Caffo BS, Davidian M, Meng X-L, Yu B, Reid N (2016) Ten Simple Rules for Effective Statistical Practice. PLoS Comput Biol 12(6): e1004961.
Baker M (2016) Statisticians issue warning over misuse of P values. Nature 531, (151)
Fisher RA (1938) Presidential address. Sankhyā 4: 14–17.