Exploration of music collections with audio embeddings

dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Tovstogan, Philip
dc.date.accessioned
2022-07-27T10:36:34Z
dc.date.available
2022-07-27T10:36:34Z
dc.date.issued
2022-07-12
dc.identifier.uri
http://hdl.handle.net/10803/675031
dc.description.abstract
Music recommendation systems (RecSys) are integral to modern music streaming services. While there is much research on many aspects of RecSys, there is not enough research on exploration and discovery that contributes to long-term user retention. After conducting an anonymous survey, we identify that the exploration and rediscovery of the personal collections in particular needs improvement. To address this, we take advantage of music tags (genre, moods) and use deep auto-tagging systems to construct latent spaces. We investigate different architectures, datasets, layers, and projections and how they affect the perceived similarity of nearest neighbors. Finally, we present a novel web interface to visualize music collections using audio embeddings. We evaluate the proposed solution via semi-structured user interviews and conclude that it provides an excellent alternative to existing solutions. We believe that the contributions of this work enable more research and industry solutions for music exploration and discovery.
en_US
dc.description.abstract
Els sistemes de recomanació de música (RecSys) son una part integral de les actuals plataformes de música en streaming. Tot i que s'ha fet investigació sobre molts aspectes relacionats amb RecSys, encara falta investigació sobre l’exploració i el descobriment de continguts que permeti fidelitzar usuaris a llarg plaç. Després de realitzar un estudi preliminar, hem vist que existeix una manca d’eines per al re-descobriment de les col·leccions de música personals. Per abordar aquest problema, en aquesta tesi ens focalitzem en l’us d’etiquetes musicals sobre estil i mood i treballem en espais latents de dades entrenant predictors automàtics d'etiquetes basats en models d'aprenentatge profund (deep auto-tagging systems). Analitzem i comparem diferents arquitectures de xarxes neuronals, bases de dades, i diferents tècniques de projecció de dades per entendre com aquestes afecten al concepte de similaritat percebuda entre peces musicals que han estat projectades en punts propers dels espais latents. Finalment, mostrem una interfície web que hem desenvolupat per visualitzar i navegar col·leccions de música utilitzant els espais latents. Hem avaluat aquesta interfície a partir d’entrevistes semi estructurades i hem conclòs que la interfície proporciona una alternativa excel·lent als sistemes tradicionals de navegació de col·leccions musicals. Creiem que les contribucions d'aquesta tesi permeten que es desenvolupi més recerca i es creïn més aplicacions industrials per abordar el problema de l’exploració i descobriment de música.
en_US
dc.format.extent
137 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
eng
en_US
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-sa/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Music information retrieval
en_US
dc.subject
Music exploration
en_US
dc.subject
Music discovery
en_US
dc.subject
Deep learning
en_US
dc.subject
Auto-tagging
en_US
dc.subject
Dataset
en_US
dc.subject
Recommendation systems
en_US
dc.subject
Visualization
en_US
dc.subject
Interface
en_US
dc.subject
User study
en_US
dc.subject
Music similarity
en_US
dc.subject
Personal music collections
en_US
dc.subject
Nearest neighbors
en_US
dc.subject
Latent spaces
en_US
dc.subject
Content-based similarity
en_US
dc.subject
Collaborative filtering
en_US
dc.subject
Recuperació d'informació musical
en_US
dc.subject
Exploració musical
en_US
dc.subject
Descobriment musical
en_US
dc.subject
Aprenentatge profund
en_US
dc.subject
Etiquetatge automàtic
en_US
dc.subject
Conjunt de dades
en_US
dc.subject
Sistemes de recomanació
en_US
dc.subject
Visualització
en_US
dc.subject
Interfície
en_US
dc.subject
Estudis amb usuaris
en_US
dc.subject
Similitud musical
en_US
dc.subject
Col·leccions de música personals
en_US
dc.subject
Veïns propers
en_US
dc.subject
Espais latents
en_US
dc.subject
Similitud basada en contingut
en_US
dc.subject
Filtratge col·laboratiu
en_US
dc.title
Exploration of music collections with audio embeddings
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
62
en_US
dc.contributor.authoremail
philip.tovstogan@upf.edu
en_US
dc.contributor.director
Serra, Xavier
dc.contributor.director
Bogdanov, Dmitry
dc.embargo.terms
cap
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de doctorat en Tecnologies de la Informació i les Comunicacions


Documents

tpt.pdf

7.820Mb PDF

This item appears in the following Collection(s)