Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
Programa de doctorat en Tecnologies de la Informació i les Comunicacions
In this thesis, we address the problems of classifying and recommending music present in large collections. We focus on the semantic enrichment of descriptions associated to musical items (e.g., artists biographies, album reviews, metadata), and the exploitation of multimodal data (e.g., text, audio, images). To this end, we first focus on the problem of linking music-related texts with online knowledge repositories and on the automated construction of music knowledge bases. Then, we show how modeling semantic information may impact musicological studies and helps to outperform purely text-based approaches in music similarity, classification, and recommendation. Next, we focus on learning new data representations from multimodal content using deep learning architectures, addressing the problems of cold-start music recommendation and multi-label music genre classification, combining audio, text, and images. We show how the semantic enrichment of texts and the combination of learned data representations improve the performance on both tasks.
En esta tesis, abordamos los problemas de clasificar y recomendar música en grandes colecciones, centrándonos en el enriquecimiento semántico de descripciones (biografías, reseñas, metadatos), y en el aprovechamiento de datos multimodales (textos, audios e imágenes). Primero nos centramos en enlazar textos con bases de conocimiento y en su construcción automatizada. Luego mostramos cómo el modelado de información semántica puede impactar en estudios musicológicos, y contribuye a superar a métodos basados en texto, tanto en similitud como en clasificación y recomendación de música. A continuación, investigamos el aprendizaje de nuevas representaciones de datos a partir de contenidos multimodales utilizando redes neuronales, y lo aplicamos a los problemas de recomendar música nueva y clasificar géneros musicales con múltiples etiquetas, mostrando que el enriquecimiento semántico y la combinación de representaciones aprendidas produce mejores resultados.
Music information retrieval; Recommender systems; Natural language processing; Deep learning; Musicology; Classification; Machine learning; Representation learning; Information extraction; Música; Sistemas de recomendación; Procesado del lenguaje natural; Aprendizaje profundo; Musicología; Clasificación; Aprendizaje automático; Extracción de información
62 - Engineering