La Estadística en la era del Big Data
La función disruptiva del Big Data ha transformado el papel de la Estadística en los últimos años.
¿Cómo deberíamos adaptar la investigación y la educación de competencias a estos nuevos cambios?
Hace algunos días me invitaron a dar una charla en las II Jornadas Nacionales de Estadística Como Herramienta Científica en la Universidad de Jaén. Después de valorar algunos temas pensé que sería interesante profundizar sobre cómo se ha transformado el papel de la Estadística en los últimos años y cómo deberíamos adaptar la investigación y educación a estos nuevos cambios.
Preparé una pequeña presentación con los puntos clave sobre la explosión del Big Data y las competencias estadísticas, y la verdad es que el tema tuvo muy buena acogida y repercusión. Tras la charla los asistentes y yo discutimos largo y tendido. Muchos de ellos eran investigadores que se habían enfrentado a estas oportunidades y desafíos, y cada uno aportó su experiencia personal ¡El debate fue muy enriquecedor!
Por eso comparto contigo este post, quiero que tu también participes de esta puesta en común.
? Déjame tu comentario o experiencia al final del post y… ¡continuamos el debate!
El Universo del Big Data en Expansión
Por ejemplo:
- El 90% de los datos en el mundo de hoy se han creado en los últimos 2años. La cantidad de datos recopilados desde los albores de la humanidad hasta 2003 era el equivalente al volumen que ahora producimos cada 2 días (director ejecutivo de Google, Eric Schmidt).
- El tsunami de información digital actual es equivalente a darle hoy a cada persona de la Tierra 320 veces la cantidad de información que, se estima, almacenaba la biblioteca de Alejandría.
- Si pusiéramos toda la información digital que tenemos hoy día en 5 pilas de CD, llegaríamos hasta la Luna.
- Pero además, la capacidad de cálculo aumenta en un 58% cada año.
Se ha producido un cambio repentino. Hemos pasado de un mundo en que lo difícil era obtener un volumen de datos suficiente y fiable, a un mundo donde estamos inundados de ellos y con una capacidad de procesamiento mayor que nunca.
Esta transición requerirá que sepamos cómo enfrentarnos a tal ingente volumen de datos para obtener información realmente relevante y que permita tomar decisiones.
Una revolución que transformará cómo vivimos, trabajamos y pensamos.
Un reto para los ciudadanos en general y en particular para los investigadores.
‘Somos nuestras herramientas’
Cada minuto de cada día se generan enormes cantidades de datos. Somos bombardeados con miles de impactos visuales, números y gráficos continuamente.
Hoy en día necesitamos más que nunca la alfabetización estadística, para entender el mundo que nos rodea y evitar la proliferación de afirmaciones engañosas o falsas (ya sea por políticos, publicistas, etc.).
La gran pregunta es: ¿Estamos preparados?
La característica más sobresaliente de la revolución de datos es el hecho de que podemos no estar preparados para enfrentarlo.
El reto del Big Data en la Estadística
oyd & Crawford (2012) en “Critical questions for big data” han discutido sobre algunos de los desafíos y oportunidades claves que genera la explosión del Big Data.
Aquí las he adaptado incluyendo algunos comentarios personales que han surgido de mi experiencia docente.
1. Existe un giro computacional en el pensamiento y la investigación. “Así como Ford cambió la forma en que fabricamos automóviles -y luego transformó el trabajo en sí mismo-, con el Big Data ha surgido un sistema de conocimiento que ya está cambiando, un giro computacional en el pensamiento y la investigación” indican Boyd & Crawford (2012).
Por ejemplo, hemos visto cómo el Big Data y el Machine Learning copan las portadas de las revistas más prestigiosas de Ciencia. Es momento para que la academia revise si está brindando la formación que el mundo demanda.
2.Aumenta el peligro de ver patrones donde ninguno realmente existe. Cuanta más información tenemos más probable es que encontremos relaciones entre variables, aunque no necesariamente estas serán reales. Discernir una relación causal de una correlación espuria es y será un punto clave. Es aquí donde la Estadística tiene mucho para ofrecernos, nos permitirá separar la paja del trigo.
3.Los datos más grandes no siempre son mejores datos. No existen técnicas estadísticas que puedan compensar la mala información, “si entra basura, sale basura” se dice. Esto nos indica que debemos comprender las propiedades y los límites de un conjunto de datos, independientemente de su tamaño. Comprender la muestra, por ejemplo, es más importante ahora que nunca.
Un conjunto de datos puede tener muchos millones de datos, pero esto no significa que sea aleatorio o representativo. Por otro lado, el tamaño de los datos debe ajustarse a la pregunta de investigación que se hace; en algunos casos, lo pequeño es lo mejor (small data). Las técnicas de limpieza, pre-procesado y manipulación de grandes cantidades de datos cobrarán cada día más relevancia.
4.Debemos conservar el contexto. Tomado fuera de contexto, el Big Data pierde su significado. El contexto es difícil de interpretar a escala, pero es crítico. Gestionar el contexto a la luz de Big Data será un desafío continuo.
El cuento indio sobre el elefante y los sabios es un buen ejemplo de este problema. La historia cuenta que se invitó a 5 ciegos a acercarse a un elefante de uno en uno para tocarlo por primera vez en sus vidas, y se les pidió que explicaran cómo era un elefante. Cada uno describió el elefante de una manera muy distinta. Todos los sabios tenían parte de razón, ya que todas las formas que habían experimentado eran ciertas, pero sin duda todos a su vez estaban equivocados respecto a la imagen real del elefante, porque les faltaba la noción de contexto, la totalidad del problema a resolver.
5.Solo porque sea accesible no lo hace ético. Para muestra un botón, el caso de Cambridge Analytica llegó a los titulares y planteó complejos problemas para los estudiosos: ¿Cuál es el estado de los llamados datos «públicos»? ¿Se pueden usar simplemente sin solicitar permiso?¿Se producen daños en el momento? ¿Y dentro de 20 años?. La ética de la recopilación y el análisis de datos en línea plantea serios problemas.
6.Se crean nuevas brechas digitales/sociales. El manejo del Big Data está restringido solo a aquellas personas con un fondo computacional. ¿Quién está aventajado y quién está en desventaja en dicho contexto?¿Qué tipo de habilidades de investigación se valorarán en el futuro y cómo se enseñan hoy esas habilidades? ¿Cómo se puede educar a los estudiantes para que se sientan igualmente cómodos con los algoritmos y el análisis de datos?
Pensando con datos
¿Por qué necesitamos mejorar nuestras competencias estadísticas?
En su artículo en Science, “The future lies in uncertainty”, Spiegelhalter (2014) indica que las estadísticas son cruciales para obtener conocimiento de conjuntos de datos cada vez más grandes.
Se requieren habilidades estadísticas serias para evitar errores como:
- Responder la pregunta incorrecta.
- Recolectar los datos incorrectos.
- Usar la técnica estadística incorrecta.
- Malinterpretar los resultados.
La aplicación cuidadosa de la ciencia Estadística es esencial, y los científicos de todo el mundo están hambrientos de formas más confiables de descubrir el conocimiento y deseosos de forjar nuevos tipos de colaboración para hacerlo.
Competencias estadísticas.
Como tutora del Máster en Estadística Aplicada de Máxima Formación, he visto varios desafíos y oportunidades en la capacitación de la próxima generación de científicos y técnicos.
¿Cómo podemos ofrecer más oportunidades para que los estudiantes (no solo aquellos que terminan especializándose en Estadística) puedan «pensar con datos”.
¿Qué competencias estadísticas deberíamos fomentar en la investigación y en la enseñanza?
1. Poder y limitación. Debemos educar en el poder y también en las limitaciones que presentan las herramientas estadísticas. Debes conocer qué preguntas te permite responder una técnica estadística (poder) y qué supuestos (responsabilidad) asume. Solo así lograrás obtener información valiosa a partir de tus datos.
2. Tomar el control de los datos. Debemos enseñar herramientas potentes (como R) que permitan tomar el control de los análisis de datos, acceder a las últimas técnicas estadísticas, ahorrar tiempo, producir gráficos efectivos, generar trabajos reproducibles, . Toma las riendas de tus análisis cuanto antes.
3. Potenciar las competencias transversales. Debemos incentivar la curiosidad, la creatividad y la investigación. Son las claves para el aprendizaje. En esta nueva era tendremos que abandonar nuestra zona de confort y actualizarnos constantemente. Esto lo podemos lograr a través del Learning by Doing, trabajando con datos reales y con preguntas de investigación.
4. Trabajo en equipo. Debemos terminar con la idea del unicornio, en la que el “Científico de Datos” tiene que poder con todo él solo (es algo frustrante y ya se está notando en los empleos). En su lugar es mejor fomentar el trabajo en equipo, permite discutir distintas aproximaciones a un mismo problema y mejorar la interpretación de los resultados.
No desperdiciemos información valiosa, años de trabajo e inversión. ¡Comencemos a mejorar nuestras competencias estadísticas hoy!
¿Te ha resultado interesante? ¿Y tú, qué opinas? Compártelo y déjanos tu comentario.
¡Gracias!
2 comentarios
Muy interesante el documento, gracias
Augusto F. Pèrezc C. 9 de mayo de 2024, 18:00
Interesante punto de vista de la Big Data.
David 22 de mayo de 2024, 21:07