Exploration of music collections with audio embeddings

Autor/a

Tovstogan, Philip

Director/a

Serra, Xavier

Bogdanov, Dmitry

Fecha de defensa

2022-07-12

Páginas

137 p.



Departamento/Instituto

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

Programa de doctorado

Programa de doctorat en Tecnologies de la Informació i les Comunicacions

Resumen

Music recommendation systems (RecSys) are integral to modern music streaming services. While there is much research on many aspects of RecSys, there is not enough research on exploration and discovery that contributes to long-term user retention. After conducting an anonymous survey, we identify that the exploration and rediscovery of the personal collections in particular needs improvement. To address this, we take advantage of music tags (genre, moods) and use deep auto-tagging systems to construct latent spaces. We investigate different architectures, datasets, layers, and projections and how they affect the perceived similarity of nearest neighbors. Finally, we present a novel web interface to visualize music collections using audio embeddings. We evaluate the proposed solution via semi-structured user interviews and conclude that it provides an excellent alternative to existing solutions. We believe that the contributions of this work enable more research and industry solutions for music exploration and discovery.


Els sistemes de recomanació de música (RecSys) son una part integral de les actuals plataformes de música en streaming. Tot i que s'ha fet investigació sobre molts aspectes relacionats amb RecSys, encara falta investigació sobre l’exploració i el descobriment de continguts que permeti fidelitzar usuaris a llarg plaç. Després de realitzar un estudi preliminar, hem vist que existeix una manca d’eines per al re-descobriment de les col·leccions de música personals. Per abordar aquest problema, en aquesta tesi ens focalitzem en l’us d’etiquetes musicals sobre estil i mood i treballem en espais latents de dades entrenant predictors automàtics d'etiquetes basats en models d'aprenentatge profund (deep auto-tagging systems). Analitzem i comparem diferents arquitectures de xarxes neuronals, bases de dades, i diferents tècniques de projecció de dades per entendre com aquestes afecten al concepte de similaritat percebuda entre peces musicals que han estat projectades en punts propers dels espais latents. Finalment, mostrem una interfície web que hem desenvolupat per visualitzar i navegar col·leccions de música utilitzant els espais latents. Hem avaluat aquesta interfície a partir d’entrevistes semi estructurades i hem conclòs que la interfície proporciona una alternativa excel·lent als sistemes tradicionals de navegació de col·leccions musicals. Creiem que les contribucions d'aquesta tesi permeten que es desenvolupi més recerca i es creïn més aplicacions industrials per abordar el problema de l’exploració i descobriment de música.

Palabras clave

Music information retrieval; Music exploration; Music discovery; Deep learning; Auto-tagging; Dataset; Recommendation systems; Visualization; Interface; User study; Music similarity; Personal music collections; Nearest neighbors; Latent spaces; Content-based similarity; Collaborative filtering; Recuperació d'informació musical; Exploració musical; Descobriment musical; Aprenentatge profund; Etiquetatge automàtic; Conjunt de dades; Sistemes de recomanació; Visualització; Interfície; Estudis amb usuaris; Similitud musical; Col·leccions de música personals; Veïns propers; Espais latents; Similitud basada en contingut; Filtratge col·laboratiu

Materias

62 - Ingeniería. Tecnología

Documentos

tpt.pdf

7.820Mb

 

Derechos

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/

Este ítem aparece en la(s) siguiente(s) colección(ones)