Rosana Ferrero
Data Scientist
Juan L. López
Data Scientist
Hace algunos días me invitaron a dar una charla en las II Jornadas Nacionales de Estadística Como Herramienta Científica en la Universidad de Jaén. Después de valorar algunos temas pensé que sería interesante profundizar sobre cómo se ha transformado el papel de la Estadística en los últimos años y cómo deberíamos adaptar la investigación y educación a estos nuevos cambios.
Preparé una pequeña presentación con los puntos clave sobre la explosión del Big Data y las competencias estadísticas, y la verdad es que el tema tuvo muy buena acogida y repercusión. Tras la charla los asistentes y yo discutimos largo y tendido. Muchos de ellos eran investigadores que se habían enfrentado a estas oportunidades y desafíos, y cada uno aportó su experiencia personal ¡El debate fue muy enriquecedor!
Por eso comparto contigo este post, quiero que tu también participes de esta puesta en común.
💬 Déjame tu comentario o experiencia al final del post y… ¡continuamos el debate!
Máster de Estadística Aplicada con R Software IX edición Octubre 2019
La explosión del Big Data presenta nuevos retos: un mayor volumen, velocidad y variedad de datos, nunca vistos.
Por ejemplo:
Se ha producido un cambio repentino. Hemos pasado de un mundo en que lo difícil era obtener un volumen de datos suficiente y fiable, a un mundo donde estamos inundados de ellos y con una capacidad de procesamiento mayor que nunca.
Esta transición requerirá que sepamos cómo enfrentarnos a tal ingente volumen de datos para obtener información realmente relevante y que permita tomar decisiones.
Una revolución que transformará cómo vivimos, trabajamos y pensamos.
Un reto para los ciudadanos en general y en particular para los investigadores.
Cada minuto de cada día se generan enormes cantidades de datos. Somos bombardeados con miles de impactos visuales, números y gráficos continuamente.
Hoy en día necesitamos más que nunca la alfabetización estadística, para entender el mundo que nos rodea y evitar la proliferación de afirmaciones engañosas o falsas (ya sea por políticos, publicistas, etc.).
La gran pregunta es: ¿Estamos preparados?
La característica más sobresaliente de la revolución de datos es el hecho de que podemos no estar preparados para enfrentarlo.
Boyd & Crawford (2012) en “Critical questions for big data” han discutido sobre algunos de los desafíos y oportunidades claves que genera la explosión del Big Data.
Aquí las he adaptado incluyendo algunos comentarios personales que han surgido de mi experiencia docente.
1.Existe un giro computacional en el pensamiento y la investigación. “Así como Ford cambió la forma en que fabricamos automóviles -y luego transformó el trabajo en sí mismo-, con el Big Data ha surgido un sistema de conocimiento que ya está cambiando, un giro computacional en el pensamiento y la investigación” indican Boyd & Crawford (2012).
Por ejemplo, hemos visto cómo el Big Data y el Machine Learning copan las portadas de las revistas más prestigiosas de Ciencia. Es momento para que la academia revise si está brindando la formación que el mundo demanda.
2.Aumenta el peligro de ver patrones donde ninguno realmente existe. Cuanta más información tenemos más probable es que encontremos relaciones entre variables, aunque no necesariamente estas serán reales. Discernir una relación causal de una correlación espuria es y será un punto clave. Es aquí donde la Estadística tiene mucho para ofrecernos, nos permitirá separar la paja del trigo.
3.Los datos más grandes no siempre son mejores datos. No existen técnicas estadísticas que puedan compensar la mala información, “si entra basura, sale basura” se dice. Esto nos indica que debemos comprender las propiedades y los límites de un conjunto de datos, independientemente de su tamaño. Comprender la muestra, por ejemplo, es más importante ahora que nunca.
Un conjunto de datos puede tener muchos millones de datos, pero esto no significa que sea aleatorio o representativo. Por otro lado, el tamaño de los datos debe ajustarse a la pregunta de investigación que se hace; en algunos casos, lo pequeño es lo mejor (small data). Las técnicas de limpieza, pre-procesado y manipulación de grandes cantidades de datos cobrarán cada día más relevancia.
4.Debemos conservar el contexto. Tomado fuera de contexto, el Big Data pierde su significado. El contexto es difícil de interpretar a escala, pero es crítico. Gestionar el contexto a la luz de Big Data será un desafío continuo.
El cuento indio sobre el elefante y los sabios es un buen ejemplo de este problema. La historia cuenta que se invitó a 5 ciegos a acercarse a un elefante de uno en uno para tocarlo por primera vez en sus vidas, y se les pidió que explicaran cómo era un elefante. Cada uno describió el elefante de una manera muy distinta. Todos los sabios tenían parte de razón, ya que todas las formas que habían experimentado eran ciertas, pero sin duda todos a su vez estaban equivocados respecto a la imagen real del elefante, porque les faltaba la noción de contexto, la totalidad del problema a resolver.
5.Solo porque sea accesible no lo hace ético. Para muestra un botón, el caso de Cambridge Analytica llegó a los titulares y planteó complejos problemas para los estudiosos: ¿Cuál es el estado de los llamados datos «públicos»? ¿Se pueden usar simplemente sin solicitar permiso?¿Se producen daños en el momento? ¿Y dentro de 20 años?. La ética de la recopilación y el análisis de datos en línea plantea serios problemas.
6.Se crean nuevas brechas digitales/sociales. El manejo del Big Data está restringido solo a aquellas personas con un fondo computacional. ¿Quién está aventajado y quién está en desventaja en dicho contexto?¿Qué tipo de habilidades de investigación se valorarán en el futuro y cómo se enseñan hoy esas habilidades? ¿Cómo se puede educar a los estudiantes para que se sientan igualmente cómodos con los algoritmos y el análisis de datos?
En su artículo en Science, “The future lies in uncertainty”, Spiegelhalter (2014) indica que las estadísticas son cruciales para obtener conocimiento de conjuntos de datos cada vez más grandes.
Se requieren habilidades estadísticas serias para evitar errores como:
La aplicación cuidadosa de la ciencia Estadística es esencial, y los científicos de todo el mundo están hambrientos de formas más confiables de descubrir el conocimiento y deseosos de forjar nuevos tipos de colaboración para hacerlo.
Como tutora del Máster en Estadística Aplicada de Máxima Formación, he visto varios desafíos y oportunidades en la capacitación de la próxima generación de científicos y técnicos.
¿Cómo podemos ofrecer más oportunidades para que los estudiantes (no solo aquellos que terminan especializándose en Estadística) puedan «pensar con datos”.
¿Qué competencias estadísticas deberíamos fomentar en la investigación y en la enseñanza?
1. Poder y limitación. Debemos educar en el poder y también en las limitaciones que presentan las herramientas estadísticas. Debes conocer qué preguntas te permite responder una técnica estadística (poder) y qué supuestos (responsabilidad) asume. Solo así lograrás obtener información valiosa a partir de tus datos.
2. Tomar el control de los datos. Debemos enseñar herramientas potentes (como R) que permitan tomar el control de los análisis de datos, acceder a las últimas técnicas estadísticas, ahorrar tiempo, producir gráficos efectivos, generar trabajos reproducibles, . Toma las riendas de tus análisis cuanto antes.
3. Potenciar las competencias transversales. Debemos incentivar la curiosidad, la creatividad y la investigación. Son las claves para el aprendizaje. En esta nueva era tendremos que abandonar nuestra zona de confort y actualizarnos constantemente. Esto lo podemos lograr a través del Learning by Doing, trabajando con datos reales y con preguntas de investigación.
4. Trabajo en equipo. Debemos terminar con la idea del unicornio, en la que el “Científico de Datos” tiene que poder con todo él solo (es algo frustrante y ya se está notando en los empleos). En su lugar es mejor fomentar el trabajo en equipo, permite discutir distintas aproximaciones a un mismo problema y mejorar la interpretación de los resultados.
No desperdiciemos información valiosa, años de trabajo e inversión. ¡Comencemos a mejorar nuestras competencias estadísticas hoy!
¿Te ha resultado interesante? ¿Y tú, qué opinas? Compártelo y déjanos tu comentario.
¡Gracias!
Que técnica ?
que modelos ?
que algoritmos de estadística?
que formación en estadística ?
se requiere para el análisis de datos en big Data y data Science?
Hola William! debes elegir la herramienta según la pregunta que intentes abordar y el tipo de datos que tienes. ¿Sobre qué en particular te interesa saber?Saludos
Muchas garcias pro el artículo, muy nutritivo.
Que conocimientos consideras que hay que tener para estar alfabetizado estadísticamente?
A seguir…..gracias
Hola Alfredo, gracias por tu comentario.
La alfabetización estadística entiendo que incluye comprender al menos los conceptos básicos de la Estadística y su aplicación en el ámbito diario de la vida, con una actitud crítica hacia las afirmaciones que nos llegan sin fundamento estadístico. Luego, desde un punto de vista de las competencias que te pueden interesar desarrollar, incluiría la estadística aplicada, la computación (si es en un software libre que permite adaptarse a las nuevas herramientas, como R Software, mejor), la comunicación y la toma de decisiones (saber realizar las preguntas precisas e interpretar de manera adecuada los resultados de cara a la toma de decisiones). Al menos estos puntos son los que intentamos desarrollar en nuestro Máster, donde participan estudiantes de perfiles profesionales muy distintos y está muy enfocado a la práctica y aplicación de la estadística.
También te puede interesar leer este artículo que publiqué en la web de elearning actual: https://elearningactual.com/data-science-e-learning/
Saludos
Hola! Excelente artículo. Super actualizado. Me parece adecuada la relación que se plantea. Considero esencial la fundamentacion estadística detrás de este nuevo panorama que se extiende y está clara la necesidad de seguir aprendiendo para no quedar fuera de los grandes cambios que se van aconteciendo.
¡Muchas gracias por tu comentario Mari! En eso estamos, Saludos
¿Podrías publicar las fuentes del articulo? Sobretodo de la cantidad de datos que se recopilan hoy en día.
Hola Jesús,
las principales referencias a las que te refieres son:
* IBM Marketing Cloud (2017), “10 Key Marketing Trends For 2017”. http://comsense.consulting/wp-content/uploads/2017/03/10_Key_Marketing_Trends_for_2017_and_Ideas_for_Exceeding_Customer_Expectations.pdf
* Schmidt, E. (2012), «The Web Is Much Bigger (And Smaller) Than You Think», Forbes. https://www.forbes.com/sites/ciocentral/2012/04/24/the-web-is-much-bigger-and-smaller-than-you-think/#292105397619
* Szalay, A. & Gray, J. (2006). «Science in an exponential world» Nature. https://www.nature.com/articles/440413a
* Boyd, D. & Crawford, K. (2012). «Critical questions for big data: Provocations for a cultural, technological, and scholarly phenomenon». Information, communication & society, 15(5), 662-679. https://people.cs.kuleuven.be/~bettina.berendt/teaching/ViennaDH15/boyd_crawford_2012.pdf
Saludos
* Spiegelhalter, D.J. (2014). The future lies in uncertainty. Science, 345(6194), 264-265. https://www.stat.wisc.edu/~wahba/spiegelhalter.science2014.pdf
Saludos
Los científicos de datos tienen la misión de relacionarse con las demás áreas para poder establecer una disminución de tiempo en los procesos ETL, para que a su vez se puedan tomar mejores decisiones en corto tiempo, prácticamente la minería de datos es de gran ayuda que a su vez depende mucho de los datos estadísticos, para realizar cambios continuos en la toma de decisiones.
Saludos.
Así es Miguel, gracias por tus palabras y por seguirnos.
Manejar y entender la estadística es una necesidad del ejecutivo moderno, ya que puede combinar su entorno, su experiencia, su intuición y con un refuerzo de datos puede ayudarlo a tomar mejores decisiones, mas aun si cuentas con equipos multidisciplinarios, las discusiones serán enriquecedoras y te ayudaran a elegir la alternativa que mas e acerque a la solución de tu problema.
Hola Iván, gracias por tu comentario. Efectivamente, estoy de acuerdo contigo. El análisis riguroso de los datos disponibles en las organizaciones es fundamental para la toma de decisiones con el mínimo margen de error. Los datos son la materia prima, el reto está en convertirlos en conocimiento.