Deep audio representation learning for music using weak supervision

dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Alonso Jiménez, Pablo
dc.date.accessioned
2024-10-24T10:46:14Z
dc.date.available
2024-10-24T10:46:14Z
dc.date.issued
2024-10-03
dc.identifier.uri
http://hdl.handle.net/10803/692389
dc.description.abstract
Music audio tagging is the Music Information Retrieval task of assigning one or multiple labels to an audio signal. Current state-of-the-art music taggers rely on deep learning approaches, which offer high performance but introduce challenges due to their large data requirements and tendency to overfit. In this thesis, we propose addressing music tagging from the perspective of representation learning, which consists of designing pre-training objectives that make the learned representations suitable for several downstream tasks. In our work we investigate using representations learned by competitive music and audio tagging systems, the effectiveness of training representation models on music metadata (such as artist names and playlists) as a source of supervision, the usage of the transformer architecture for representation learning, and the adaptation of audio interpretability strategies to operate with pre-trained representations. Most of the models developed in this thesis were incorporated into Essentia,1 an open-source sound and music analysis library.
ca
dc.description.abstract
L'etiquetatge d'àudio musical és una tasca de Recuperació d'Informació Musical que assigna etiquetes a un senyal d'àudio. Els etiquetadors musicals més avançats actualment es basen en l'aprenentatge profund, que ofereix un alt rendiment però també desafiaments per la gran quantitat de dades requerides i la tendència a sobreajustar-se. Aquesta tesi aborda l'etiquetatge musical des de l'aprenentatge de representacions, dissenyant objectius de preentrenament per fer les representacions apreses adequades per a diverses tasques posteriors. En el nostre treball, investigem l'ús de representacions apreses per sistemes competitius d'etiquetatge musical i d'àudio, l'eficàcia d'entrenar models de representació amb metadades musicals (com noms d'artistes i llistes de reproducció) com a font de supervisió, l'ús de l'arquitectura transformer per a l'aprenentatge de representacions, i l'adaptació d'estratègies d'interpretabilitat d'àudio amb representacions preentrenades. La majoria dels models desenvolupats es van incorporar a Essentia, una biblioteca de codi obert per a l'anàlisi de so i música.
ca
dc.format.extent
147 p.
ca
dc.language.iso
eng
ca
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
ca
dc.rights.uri
http://creativecommons.org/licenses/by-nc-sa/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Representation learning
ca
dc.subject
Music Information Retrieval
ca
dc.subject
Music tagging
ca
dc.subject
Music classification
ca
dc.subject
Deep learning
ca
dc.subject
Audio processing
ca
dc.subject
Aprenentatge de representacions
ca
dc.subject
Recuperació d'Informació Musical
ca
dc.subject
Etiquetatge d'àudio musical
ca
dc.subject
Classificació musical
ca
dc.subject
Aprenentatge profund
ca
dc.subject
Processament d'àudio
ca
dc.title
Deep audio representation learning for music using weak supervision
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
62
ca
dc.contributor.authoremail
pablo.alonso@upf.edu
ca
dc.contributor.director
Bogdanov, Dmitry
dc.contributor.director
Serra Casals, Xavier
dc.embargo.terms
cap
ca
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de Doctorat en Tecnologies de la Informació i les Comunicacions


Documents

tpaj.pdf

2.671Mb PDF

This item appears in the following Collection(s)