EXPERIENCIAS REALES EN DATA SCIENCE: ¿Se pueden diferenciar los géneros musicales a través de variables físicas y Minería de Datos?
El Máster en Estadística y Ciencia de Datos con R ha sido una experiencia transformadora para muchos de nuestros ex-alumnos, permitiéndoles no solo desarrollar habilidades técnicas avanzadas, sino también aplicar esos conocimientos en áreas inesperadas y apasionantes. En esta sección, compartimos la historia de un Manuel López Prieto que llevó su amor por la música y su fascinación por la ciencia de datos a un nivel completamente nuevo con su Trabajo Final de Máster (TFM). A través de este proyecto, exploró si es posible diferenciar los géneros musicales utilizando técnicas estadísticas avanzadas, demostrando cómo la ciencia de datos puede arrojar luz sobre preguntas que van más allá de lo académico. Descubre cómo fue su proceso, los desafíos que enfrentó y las valiosas lecciones que aprendió en el camino.
Motivación Personal
La pasión por la música y la ciencia de datos llevó a nuestro ex-alumno a desarrollar un trabajo final que combinara ambos mundos. Desde siempre, ha creído que encasillar la música en géneros es una tarea limitada, por lo que vio en este proyecto una oportunidad para darle una justificación científica a su opinión.
Objetivos del Trabajo
El objetivo principal de este TFM fue evaluar si es posible categorizar la música en géneros, una tarea compleja dado que todos los géneros son mestizos por naturaleza, según el autor. A través de la ciencia de datos, buscaba encontrar evidencia que apoyara esta idea.
Metodología
Los datos de este estudio provienen del conjunto de datos GTZAN, que es el dataset público más utilizado para la evaluación en la investigación de reconocimiento de géneros musicales (Music Genre Recognition, MGR). Fue desarrollado por la International Society for Music Information Retrieval (ISMIR) y contiene 1000 pistas de audio de 30 segundos cada una, recopiladas entre 2000 y 2001 a partir de diversas fuentes como CD personales, radio y grabaciones de micrófono, con el objetivo de representar una variedad de condiciones de grabación. Las canciones están en formato .wav y, debido a derechos de autor, no se proporcionan los nombres ni los autores.
En el estudio se analizaron diversas variables físicas de las grabaciones musicales, como el tempo (ritmo o velocidad de la música), beats (unidad rítmica), chroma_stft (transformada de Fourier de tiempo corto para el análisis de contenido frecuencial), rmse (volumen o energía de la señal), spectral_centroid (brillo o timbre de la melodía), spectral_bandwidth (intervalo de longitudes de onda), rolloff (frecuencias atenuadas por filtros), zero_crossing_rate (frecuencia de cruce por cero de la señal), y mfccn (coeficientes basados en la percepción auditiva humana).
Se utilizó un enfoque basado en análisis de agrupación (clustering), aplicando técnicas como k-medias y PAM (Partitioning Around Medoids), y Análisis de Componentes Principales (PCA) para la reducción de dimensionalidad. Finalmente, se integraron mediante una técnica de Agrupación Jerárquica de Componentes Principales (HCPC) para obtener resultados robustos.
Figura 1. Contribución de cada variable física a las dimensiones del PCA. La línea discontinua roja del gráfico anterior indica la contribución media esperada. Si la contribución de las variables fuera uniforme, el valor esperado sería 1/longitud(variables). Para un componente determinado, una variable con una contribución mayor que este límite podría considerarse importante en su contribución al componente.
Figura 2. Análisis de componentes principales (PCA) seguido de agrupamiento jerárquico (HCPC) para las variables físicas de grabaciones musicales de 1000 pistas de audio de 30 segundos de duración cada una, recopiladas en 2000-2001 en la base de datos GTZAN. Se indican los nombres de las pistas que más contribuyen a los ejes.
Resultados y Hallazgos
Los resultados permitieron aislar géneros musicales más antiguos, como la música clásica, jazz y blues, de los géneros más modernos, como metal, disco, rock, pop y hip-hop. Curiosamente, géneros como el country y el reggae se ubicaron en un punto intermedio.
El análisis indica que el tempo y los beats contribuyen significativamente a la segunda dimensión y están muy correlacionados, dado que el tempo se puede medir en beats por segundo. Por otro lado, las variables rolloff, spectral_centroid, spectral_bandwidth, zero_crossing_rate, mfcc, y chroma_stft tienen una fuerte correlación y contribuyen positivamente a la primera dimensión (Figura 1).
Aquí está la identificación de cada clúster en relación con los géneros musicales analizados (Figura 2):
- Clúster 1: Este clúster presenta valores muy bajos/negativos en ambas dimensiones, sugiriendo géneros más "clásicos" y melódicos, que tienden a tener características acústicas más complejas y menos rítmicas. Incluye el 60% de las pistas de jazz, el 76% de las de clásica y el 33% de los blues.
- Clúster 2: Este grupo muestra valores bajos/negativos en la dimensión 1 y altos/positivos en la dimensión 2, indicando un ritmo menos prominente y más introspectivo dentro de los géneros del jazz (16%), clásica (21%) y blues (29%).
- Clúster 3. Presenta valores bajos/positivos en la dimensión 1 y bajos/negativos en la dimensión 2, sugiriendo géneros más enérgicos y rítmicos como el rock (60%), disco (56%), pop y hip-hop (55%), que presentan un carácter melódico y animado.
- Clúster 4: Presenta valores altos/positivos en ambas dimensiones, sugiriendo un carácter musical enérgico y dinámico; como el metal (49%), disco (40%), pop y hip-hop (35%) y el rock (13%).
Esta distribución revela cómo los géneros musicales se agrupan según sus características acústicas y rítmicas, ofreciendo una comprensión más profunda de la relación entre la música y sus clasificaciones.
Desafíos Encontrados
Uno de los principales desafíos fue la presencia de outliers en ciertos géneros. Sin embargo, el autor decidió mantenerlos, considerando que eliminar estas variaciones significaría perder la riqueza inherente a cada estilo musical.
Para quienes deseen realizar un TFM similar, Manuel les sugiere escuchar mucha música y buscar un buen conjunto de datos que ofrezca una segmentación más exhaustiva de los géneros.
Lecciones Aprendidas
Manuel menciona que aprender estadística no solo es crucial para el desarrollo profesional en ciencia de datos, sino también para la vida cotidiana. Desarrollar un pensamiento crítico y aprender a hacer las preguntas correctas es una de las lecciones más valiosas que aprendió del máster. A los futuros estudiantes les recomienda que disfruten del proceso, que aunque exigente, es muy entretenido.
Impacto del TFM en la Carrera Profesional
Este estudio no solo amplía el campo de análisis musical desde una perspectiva cuantitativa, sino que también abre nuevas posibilidades para la implementación de modelos estadísticos en la categorización musical automatizada, con aplicaciones tangibles tanto en la investigación académica como en la industria tecnológica y creativa.
A nivel personal, Manuel menciona que haber cursado el máster ha mejorado su valoración dentro de la empresa, haciéndolo candidato para liderar futuros proyectos de ciencia de datos.
Puedes leer el TFM completo en el archivo adjunto.
Contacto
Manuel López Prieto actualmente trabaja en Accenture, gestionando proyectos informáticos. Puedes conectarte con él en LinkedIn.
0 comentarios
Nadie ha publicado ningún comentario aún. ¡Se tu la primera persona!