dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Alonso Jiménez, Pablo
dc.date.accessioned
2024-10-24T10:46:14Z
dc.date.available
2024-10-24T10:46:14Z
dc.date.issued
2024-10-03
dc.identifier.uri
http://hdl.handle.net/10803/692389
dc.description.abstract
Music audio tagging is the Music Information Retrieval task of assigning one or multiple labels to
an audio signal. Current state-of-the-art music taggers rely on deep learning approaches, which
offer high performance but introduce challenges due to their large data requirements and
tendency to overfit. In this thesis, we propose addressing music tagging from the perspective of
representation learning, which consists of designing pre-training objectives that make the
learned representations suitable for several downstream tasks.
In our work we investigate using representations learned by competitive music and audio
tagging systems, the effectiveness of training representation models on music metadata (such
as artist names and playlists) as a source of supervision, the usage of the transformer
architecture for representation learning, and the adaptation of audio interpretability strategies to
operate with pre-trained representations. Most of the models developed in this thesis were
incorporated into Essentia,1 an open-source sound and music analysis library.
ca
dc.description.abstract
L'etiquetatge d'àudio musical és una tasca de Recuperació d'Informació Musical que assigna
etiquetes a un senyal d'àudio. Els etiquetadors musicals més avançats actualment es basen en
l'aprenentatge profund, que ofereix un alt rendiment però també desafiaments per la gran
quantitat de dades requerides i la tendència a sobreajustar-se. Aquesta tesi aborda l'etiquetatge
musical des de l'aprenentatge de representacions, dissenyant objectius de preentrenament per
fer les representacions apreses adequades per a diverses tasques posteriors.
En el nostre treball, investigem l'ús de representacions apreses per sistemes competitius
d'etiquetatge musical i d'àudio, l'eficàcia d'entrenar models de representació amb metadades
musicals (com noms d'artistes i llistes de reproducció) com a font de supervisió, l'ús de
l'arquitectura transformer per a l'aprenentatge de representacions, i l'adaptació d'estratègies
d'interpretabilitat d'àudio amb representacions preentrenades. La majoria dels models
desenvolupats es van incorporar a Essentia, una biblioteca de codi obert per a l'anàlisi de so i
música.
ca
dc.format.extent
147 p.
ca
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
ca
dc.rights.uri
http://creativecommons.org/licenses/by-nc-sa/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Representation learning
ca
dc.subject
Music Information Retrieval
ca
dc.subject
Music tagging
ca
dc.subject
Music classification
ca
dc.subject
Deep learning
ca
dc.subject
Audio processing
ca
dc.subject
Aprenentatge de representacions
ca
dc.subject
Recuperació d'Informació Musical
ca
dc.subject
Etiquetatge d'àudio musical
ca
dc.subject
Classificació musical
ca
dc.subject
Aprenentatge profund
ca
dc.subject
Processament d'àudio
ca
dc.title
Deep audio representation learning for music using weak supervision
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.authoremail
pablo.alonso@upf.edu
ca
dc.contributor.director
Bogdanov, Dmitry
dc.contributor.director
Serra Casals, Xavier
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de Doctorat en Tecnologies de la Informació i les Comunicacions