10 reglas simples para la práctica estadística efectiva

nov´20 Rosana Ferrero 0 comentarios

Sigue estos 10 consejos para ser riguroso con tus análisis de datos.

Más vale ser previsor/a: Las afirmaciones basadas en un razonamiento estadístico bien intencionado pero defectuoso son más peligrosas que el propio fraude.

Contenidos

De la técnica estadística a la pregunta científica
Las señales siempre vienen con ruido
Planea con anticipación
Preocúpate por la calidad de los datos
El análisis estadístico es más que un conjunto de cálculos
Menos es más
Da medidas de variabilidad
Revisa los supuestos
Replica cuando sea posible
Convierte tu análisis en reproducible

En el interesante artículo “Ten Simple Rules for Effective Statistical Practice” de Kass et al. publicado por PLOS, se comparten algunas ideas para mejorar la manera en la que analizamos los datos.

Tras leerlo con detenimiento el primer razonamiento que me vino a la cabeza fue que las afirmaciones basadas en un razonamiento estadístico bien intencionado pero defectuoso son más peligrosas que el propio fraude y recordé esta frase:

“Nunca atribuyas a la malicia lo que se explica adecuadamente por la incompetencia”.

La falta de alfabetización estadística es preocupante, y en este artículo Kass et al. se discute sobre la causa de estas carencias y se exponen diversas formas de evitar errores.

Aquí resumimos estas 10 reglas fundamentales con algunos comentarios adicionales.

1. De la técnica estadística a la pregunta científica

Andrew Vickers, bioestadístico en el Memorial Sloan Kettering Cancer Center afirma lo siguiente: «Trate las estadísticas como una ciencia, no como una receta” (ver Baker 2016).

Muchos investigadores aplican directamente una técnica basada en la estructura de datos en vez de plantearse con antelación un objetivo científico.

Se recomienda invertir este enfoque y cambiar la forma en que uno aborda la recopilación y el análisis de datos. Primero debes comprender la pregunta y luego considerar qué herramientas te permitirá encontrar la respuesta. Recuerda las guías que hemos publicado en nuestro blog para encontrar la prueba estadística o para elegir el modelo de regresión adecuado.

2. Las señales siempre vienen con ruido

Y los grandes volúmenes de información que se procesan en el Big Data incrementa la problemática, porque cuanto más grande sea el volumen de los datos más ruido presentarán.

Asegúrate de entender cómo se comporta ese ruido. El objetivo del análisis estadístico es contribuir a evaluar la incertidumbre y a explicar la variabilidad.

3. Planea con anticipación

Diseña tu investigación con cautela y rigor, esta forma de proceder te asegurará un análisis de datos más simple y confiable.

Recuerda la frase de Ronald Fisher (1938): «Consultar al experto en estadística después de terminar un experimento suele ser simplemente pedirle que realice un examen post mortem. Quizás pueda decir de qué murió el experimento“.

4. Preocúpate por la calidad de los datos

La basura produce basura. Es muy recomendable abordar el pre-procesamiento, la descripción y la limpieza de los datos con exactitud, ya que cualquier imprecisión puede generar efectos profundos en los resultados que a priori pueden pasar fácilmente desapercibidos. Datos faltantes, datos atípicos, etc.

Como señala el científico informático y músico, Jaron Lanier: «Hay una gran diferencia entre grandes datos científicos, como datos sobre la formación de galaxias, clima o brotes de gripe», que con un arduo trabajo se pueden obtener y extraer, con respecto a «grandes datos sobre personas», que son más variables y a menudo menos confiables.

5. El análisis estadístico es más que un conjunto de cálculos

Selecciona y describe la metodología que empleas de manera clara y específica. Piensa con antelación qué pruebas estadísticas vas a utilizar y por qué son apropiadas.

6. Menos es más

Dijo Leonardo Da Vinci que «La simplicidad es la máxima sofisticación”.

El principio de parsimonia puede ser una guía confiable: comienza con enfoques simples y solo agrega complejidad solo si es imprescindible, por ejemplo en el caso de:

Interacciones entre variables explicativas.
Mecanismos no lineales.
Datos faltantes.
Factores de confusión.
Sesgos de muestreo.

7. Da medidas de variabilidad

Además de indicar la estimación de la variable que estés analizando, recuerda evaluar la incertidumbre en forma de error estándar o intervalo de confianza.

Tal informe será útil para comprender la incertidumbre y para planificar la próxima investigación.

8. Revisa los supuestos

Al ser una simplificación de la realidad, todo modelo implica supuestos.

Tanto los datos en sí como la naturaleza de las variables en cuestión se deben inspeccionar cuidadosamente para evaluar si cumplen o no con los supuestos del modelo que vas a utilizar.

Por ejemplo, desviaciones relativamente pequeñas de la independencia de las observaciones pueden tener efectos drásticos, generando resultados inexactos o incluso engañosos.

9. Replica cuando sea posible

Recientemente ha habido una gran cantidad de críticas sobre el uso de los p-valores en la ciencia, en gran parte relacionado con la percepción errónea de que los resultados no pueden ser dignos de publicación a menos que “p sea menor a 0.05”.

Evita el sesgo de publicar solo resultados significativos y evita la re-pesca de datos (rehacer los análisis de diferentes maneras para tratar de obtener los resultados que desea).

Una posible solución es la replicación de los estudios o la permutación de datos. También ayuda calcular la potencia estadística y el tamaño del efecto.

10. Convierte tu análisis en reproductible

Documenta bien tu trabajo para evitar errores (chequea el caso de Reinhart & Rogo) y facilita su reproducción en el futuro (decsubre cómo hacerlo con Rmarkdown).

Nada dura para siempre, así que después de obtener resultado intenta explicar para qué valores se aplica y para qué valores no, su significado práctico y real.

En resumen:

Conoce bien la pregunta y el contexto de la investigación.
Conoce la calidad de los datos, comienza por análisis sencillos.
Ten en cuenta la incertidumbre, la variabilidad y los supuestos de las pruebas que utilizas.
Documenta tu trabajo para que sea reproducible.

Con estas 10 reglas simples te asegurarás que el tiempo y dinero invertido en tu investigación no caerán en saco roto, serás más eficiente y riguroso.

¡Tenlas siempre a mano!

¿Este post te ha despertado la curiosidad de saber más?

Te recomendamos leer el artículo completo.