El papel de la Estadística en el Machine Learning

El papel de la Estadística en el Machine Learning

sep´20 Patricia Merayo 0 comentarios

La Estadística y el Machine Learning están muy presentes en nuestras vidas, pero ¿somos conscientes de ello?

Ambas disciplinas convergen al aplicar las mismas técnicas de análisis para dar respuesta a una misma cuestión:  ¿cómo aprendemos de los datos?

Contenidos

  1. Breve historia del Machine Learning
  2. Qué es el Machine Learning
  3. Estadística Aplicada y Machine Learning

Breve historia del Machine Learning

Todos los días tenemos contacto con el aprendizaje automático (Machine Learning o ML) sin apenas darnos cuenta cuando:

  • Realizamos una búsqueda en Google.
  • Facebook reconoce los rostros en nuestras fotos.
  • Nuestro proveedor de e-mail filtra correos sospechosos de SPAM.
  • Interactuamos con los asistentes virtuales como Siri o Alexa.
  • Los navegadores GPS predicen el estado del tráfico.
  • Youtube, Netflix o Pinterest nos recomiendan contenido afín a nuestros intereses.
  • Twitter o Instagram nos invitan a conectar con usuarios que podemos conocer.
  • Amazon nos muestra productos recomendados.
  • Paypal o las aseguradoras realizan análisis de detección de fraude.

… y un largo etcétera de situaciones cotidianas que son posibles gracias al aprendizaje automático.

El Machine Learning es parte del «secreto» del éxito de muchas de las compañías cuyo negocio está basado en software.

Según vaticinó la consultora internacional Gartneren el año 2020 más del 40% de las tareas de ciencia de datos estarían automatizadas. Esta predicción ya es una realidad.

El Machine Learning se basa en las estadísticas y el desarrollo de la informática de los últimos 70 años. Arthur Samuel , pionero estadounidense en el campo de la inteligencia artificial, acuñó el término «Aprendizaje automático» en 1959 durante su trayectoria en IBM.

Como campo de estudio, el Machine Learning comenzó a florecer en la década de 1990. Andrew Ng (profesor asociado del departamento de Ciencias de la Computación y del departamento de Ingeniería Electrónica de la Universidad de Stanford) resume el proceso de desarrollo del Machine Learning en la siguiente premisa:

“La escala (la disponibilidad de datos y la escala computacional) impulsa el progreso del aprendizaje automático”. Andrew Ng

A nivel visual el siguiente esquema ilustra a la perfección los hitos que derivaron en el Machine Learning que conocemos hoy en día: 

Si este punto te interesa especialmente puedes leer reseñas excelentes en:

También te recomendamos los siguientes post de nuestro blog:

Qué es el Machine Learning

Algoritmos que aprenden, predicen y se adaptan

Como coméntabamos antes, el Machine Learning existe en la intersección entre la ciencia computacional y las estadísticas. 

Los ordenadores aprenden a detectar patrones estudiando datos. Esto les permite clasificar grupos, predecir resultados e identificar comportamientos anómalos o inesperados.

A medida que se incorporan nuevos datos al “ordenador», el rendimiento del aprendizaje (del algoritmo) mejora. De este modo, se produce un aumento de la «inteligencia» y con el tiempo, el ordenador aprende por sí mismo. Los algoritmos de aprendizaje llamados redes neuronales, imitan a nuestro cerebro.

3 razones prácticas para dominar el Machine Learning

Peter Norvig (científico informático estadounidense y el director de investigación de Google Inc) afirma que dominando el Machine Learning aprenderás a hacer 3 cosas con mayor capacidad y eficiencia:

1. Tendrás una herramienta para reducir el tiempo de programación.

Imagina que quieres escribir un programa para corregir errores ortográficos. Podrías incluir muchos ejemplos y reglas generales, y tras semanas de arduo trabajo, lograr un programa razonable. Pero también podrías usar una herramienta de Machine Learning ya existente, introducirle algunos ejemplos y obtener un programa más confiable en una menor fracción de tiempo.

2. Permite personalizar productos para grupos específicos de usuarios.

Imagina que he creado el corrector ortográfico escribiendo el código a mano y que , debido a su éxito, quisiera tener versiones en los 100 idiomas más populares. Tendría que empezar desde cero para cada idioma, lo que conllevaría años de esfuerzo. Pero si lo creara con Machine Learning, recrearlo para otro idioma significaría recopilar datos en ese idioma y alimentar el mismo modelo de aprendizaje automático.

El Machine Learning te permite resolver problemas que no sabrías cómo solucionar «manualmente».

Las personas tenemos la capacidad de entender el habla pero lo hacemos de manera subconsciente. Si tuviéramos que escribir un programa para hacerlo sería una tarea desconcertante. Estas son funciones que los algoritmos de Machine Learning ejecutan muy bien. No es preciso decirle al algoritmo qué debe hacer, solo es necesario mostrarle muchos ejemplos y a partir de ellos la tarea se completa de forma automática.

Una tecnología transformadora

El Machine Learning es una tecnología transformadora que conducirá a los desarrolladores de software y a los empresarios a reconsiderar sus negocios desde los cimientos. Les llevará a «reconsiderarlo todo» (quieran o no).

El inversionista multimillonario Vinod Khosla (uno de los pesos pesados del mundo del capital de riesgo) dijo:

«Creo que el impacto del aprendizaje automático en la sociedad será mayor que el impacto del móvil … Casi en cualquier área que analice, el aprendizaje automático tendrá un gran impacto»Vinod Khosla

Estadística aplicada y Machine Learning  

Juntos pero no revueltos

Larry Wasserman es profesor del departamento de Estadística y del departamento de Aprendizaje Automático de Carnegie Mellon, una de las principales universidades de estadística y Machine Learning a nivel mundial. Cuando se le preguntó sobre las diferencias entre la Estadística y el Machine Learning, respondió:

“La respuesta corta es: ninguna. Están … preocupados por la misma pregunta: ¿cómo aprendemos de los datos? Wasserman.

Algunos como Robert Tibshirani (estadístico y experto en aprendizaje automático de Stanford) incluso llama al aprendizaje automático «estadísticas glorificadas“.

Ambos métodos se centran en extraer conocimiento o ideas de los datos, pero sus métodos se ven afectados por sus diferencias culturales inherentes.

La razón principal de que estos temas sean efectivamente los mismos es que cubren casi exactamente el mismo material y usan casi exactamente las mismas técnicas.

Aunque evolucionaron como culturas diferentes (y por lo que tienen diferentes historias, nomenclaturas, notación y perspectivas filosóficas), esas divergencias son, en palabras de David Smith de Revolution Analytics, más superficiales que sustantivas .

Diferente nomenclatura

El profesor Rob Tibshirani, uno de los autores del excelente libro Una introducción al aprendizaje estadístico, creó un glosario que compara varios términos importantes en aprendizaje automático versus estadísticas:

Aunque algunas de estas comparaciones son un poco irónicas, la lista es instructiva, los mismos conceptos tienen nombres diferentes en los dos campos.

Diferente énfasis

Wasserman mencionó diferentes énfasis, señalando que:

«Las estadísticas enfatizan la inferencia estadística formal (intervalos de confianza, pruebas de hipótesis, estimadores óptimos) en problemas de baja dimensión (conjuntos de datos más pequeños) y el aprendizaje automático se centra más en hacer predicciones precisas de alta dimensión (grandes conjuntos de datos).» Wasserman

En resumen, aunque el Machine Learning y la Estadística utilizan los mismos métodos, sus filosofías son diferentes sobre cómo, cuándo y por qué aplicar esos métodos.

Estadística y Machine Learning, cada vez más convergentes

La relación entre las estadísticas y el aprendizaje automático es mutuamente beneficiosa y está siendo rápidamente reconocida.

«La interfaz entre las estadísticas y el aprendizaje automático es un tema de investigación cada vez más popular, ya que los científicos y estadísticos descubren áreas útiles donde estas disciplinas se superponen.” Nakhaeizadeh & Taylor

Como señaló Wasserman en su artículo «Estadísticas vs aprendizaje automático», está claro que los miembros de estas comunidades están comenzando a comunicarse entre sí, y las líneas entre ambos campos se vuelven cada vez más borrosas. Incluso si podemos identificar algunas diferencias, éstas pueden volverse mucho menos pronunciadas con el tiempo.

Las estadísticas son invaluables en la investigación del aprendizaje automático y muchos estadísticos están a la vanguardia en ese trabajo.

El Machine Learning es una rama de las estadísticas, por ello aplicar ciegamente algoritmos a los datos puede ser desastroso. Aplicar el algoritmo incorrecto, no comprender los sesgos o limitaciones de un algoritmo y no interpretar correctamente la salida son enormes problemas en el campo del Machine Learning.

Cada paso en un proyecto de Machine Learning requiere el uso de un método estadístico. Tanto para comprender los datos utilizados en el entrenamiento de un modelo de aprendizaje automático como en la interpretación de los resultados obtenidos tras  probar diferentes modelos de aprendizaje automático, se requieren métodos estadísticos.

Si quieres profundizar en este punto te recomiendo consultar: «10 ejemplos de dónde se utilizan los métodos estadísticos en un proyecto de aprendizaje automático aplicado.»

Espero que hayas disfrutado de este post. ¿Te gustaría añadir algo?

Si es así, ¡déjanos tu comentario!

0 comentarios

Acepto la política de privacidad

¹ Todos los campos son obligatorios.
² Tu correo electrónico no será publicado.

Nadie ha publicado ningún comentario aún. ¡Se tu la primera persona!

En Máxima Formación utilizamos cookies propias y de terceros con finalidad analítica y publicitaria. En nuestra política de cookies te contamos cuáles usamos y cómo desactivarlas si quieres. Aceptar todas Configurar/Rechazar

Diseño web: Albin Soft.