Rosana Ferrero
Data Scientist
Juan L. López
Data Scientist
Contenidos
En el interesante artículo “Ten Simple Rules for Effective Statistical Practice” de Kass et al. publicado por PLOS, se comparten algunas ideas para mejorar la manera en la que analizamos los datos.
Tras leerlo con detenimiento el primer razonamiento que me vino a la cabeza fue que las afirmaciones basadas en un razonamiento estadístico bien intencionado pero defectuoso son más peligrosas que el propio fraude y recordé esta frase:
“Nunca atribuyas a la malicia lo que se explica adecuadamente por la incompetencia”.
La falta de alfabetización estadística es preocupante, y en este artículo Kass et al. se discute sobre la causa de estas carencias y se exponen diversas formas de evitar errores.
Aquí resumimos estas 10 reglas fundamentales con algunos comentarios adicionales.
Andrew Vickers, bioestadístico en el Memorial Sloan Kettering Cancer Center afirma lo siguiente: «Trate las estadísticas como una ciencia, no como una receta” (ver Baker 2016).
Muchos investigadores aplican directamente una técnica basada en la estructura de datos en vez de plantearse con antelación un objetivo científico.
Se recomienda invertir este enfoque y cambiar la forma en que uno aborda la recopilación y el análisis de datos. Primero debes comprender la pregunta y luego considerar qué herramientas te permitirá encontrar la respuesta. Recuerda las guías que hemos publicado en nuestro blog para encontrar la prueba estadística o para elegir el modelo de regresión adecuado.
Y los grandes volúmenes de información que se procesan en el Big Data incrementa la problemática, porque cuanto más grande sea el volumen de los datos más ruido presentarán.
Asegúrate de entender cómo se comporta ese ruido. El objetivo del análisis estadístico es contribuir a evaluar la incertidumbre y a explicar la variabilidad.
Diseña tu investigación con cautela y rigor, esta forma de proceder te asegurará un análisis de datos más simple y confiable.
Recuerda la frase de Ronald Fisher (1938): «Consultar al experto en estadística después de terminar un experimento suele ser simplemente pedirle que realice un examen post mortem. Quizás pueda decir de qué murió el experimento“.
La basura produce basura. Es muy recomendable abordar el pre-procesamiento, la descripción y la limpieza de los datos con exactitud, ya que cualquier imprecisión puede generar efectos profundos en los resultados que a priori pueden pasar fácilmente desapercibidos. Datos faltantes, datos atípicos, etc.
Como señala el científico informático y músico, Jaron Lanier: «Hay una gran diferencia entre grandes datos científicos, como datos sobre la formación de galaxias, clima o brotes de gripe», que con un árduo trabajo se pueden obtener y extraer, con respecto a «grandes datos sobre personas», que son más variables y a menudo menos confiables.
Selecciona y describe la metodología que empleas de manera clara y específica. Piensa con antelación qué pruebas estadísticas vas a utilizar y por qué son apropiadas.
Dijo Leonardo Da Vinci que «La simplicidad es la máxima sofisticación”.
El principio de parsimonia puede ser una guía confiable: comienza con enfoques simples y solo agrega complejidad solo si es imprescindible, por ejemplo en el caso de:
Además de indicar la estimación de la variable que estés analizando, recuerda evaluar la incertidumbre en forma de error estándar o intervalo de confianza.
Tal informe será útil para comprender la incertidumbre y para planificar la próxima investigación.
Al ser una simplificación de la realidad, todo modelo implica supuestos.
Tanto los datos en sí como la naturaleza de las variables en cuestión se deben inspeccionar cuidadosamente para evaluar si cumplen o no con los supuestos del modelo que vas a utilizar.
Por ejemplo, desviaciones relativamente pequeñas de la independencia de las observaciones pueden tener efectos drásticos, generando resultados inexactos o incluso engañosos.
Recientemente ha habido una gran cantidad de críticas sobre el uso de los p-valores en la ciencia, en gran parte relacionado con la percepción errónea de que los resultados no pueden ser dignos de publicación a menos que “p sea menor a 0.05”.
Evita el sesgo de publicar solo resultados significativos y evita la re-pesca de datos (rehacer los análisis de diferentes maneras para tratar de obtener los resultados que desea).
Una posible solución es la replicación de los estudios o la permutación de datos. También ayuda calcular la potencia estadística y el tamaño del efecto.
Documenta bien tu trabajo para evitar errores (chequea el caso de Reinhart & Rogo) y facilita su reproducción en el futuro (decsubre cómo hacerlo con Rmarkdown).
Nada dura para siempre, así que después de obtener resultado intenta explicar para qué valores se aplica y para qué valores no, su significado práctico y real.
En resumen:
Con estas 10 reglas simples te asegurarás que el tiempo y dinero invertido en tu investigación no caerán en saco roto, serás más eficiente y riguroso.
¡Tenlas siempre a mano!
¿Este post te ha despertado la curiosidad de saber más?
Te recomendamos leer el artículo completo.