Deep audio representation learning for music using weak supervision

Alonso Jiménez, Pablo

Deep audio representation learning for music using weak supervision

dc.contributor

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

dc.contributor.author

Alonso Jiménez, Pablo

dc.date.accessioned

2024-10-24T10:46:14Z

dc.date.available

2024-10-24T10:46:14Z

dc.date.issued

2024-10-03

dc.identifier.uri

http://hdl.handle.net/10803/692389

dc.description.abstract

Music audio tagging is the Music Information Retrieval task of assigning one or multiple labels to an audio signal. Current state-of-the-art music taggers rely on deep learning approaches, which offer high performance but introduce challenges due to their large data requirements and tendency to overfit. In this thesis, we propose addressing music tagging from the perspective of representation learning, which consists of designing pre-training objectives that make the learned representations suitable for several downstream tasks. In our work we investigate using representations learned by competitive music and audio tagging systems, the effectiveness of training representation models on music metadata (such as artist names and playlists) as a source of supervision, the usage of the transformer architecture for representation learning, and the adaptation of audio interpretability strategies to operate with pre-trained representations. Most of the models developed in this thesis were incorporated into Essentia,1 an open-source sound and music analysis library.

dc.description.abstract

L'etiquetatge d'àudio musical és una tasca de Recuperació d'Informació Musical que assigna etiquetes a un senyal d'àudio. Els etiquetadors musicals més avançats actualment es basen en l'aprenentatge profund, que ofereix un alt rendiment però també desafiaments per la gran quantitat de dades requerides i la tendència a sobreajustar-se. Aquesta tesi aborda l'etiquetatge musical des de l'aprenentatge de representacions, dissenyant objectius de preentrenament per fer les representacions apreses adequades per a diverses tasques posteriors. En el nostre treball, investigem l'ús de representacions apreses per sistemes competitius d'etiquetatge musical i d'àudio, l'eficàcia d'entrenar models de representació amb metadades musicals (com noms d'artistes i llistes de reproducció) com a font de supervisió, l'ús de l'arquitectura transformer per a l'aprenentatge de representacions, i l'adaptació d'estratègies d'interpretabilitat d'àudio amb representacions preentrenades. La majoria dels models desenvolupats es van incorporar a Essentia, una biblioteca de codi obert per a l'anàlisi de so i música.

dc.format.extent

147 p.

dc.language.iso

eng

dc.publisher

Universitat Pompeu Fabra

dc.rights.license

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/

dc.rights.uri

http://creativecommons.org/licenses/by-nc-sa/4.0/

dc.source

TDX (Tesis Doctorals en Xarxa)

dc.subject

Representation learning

dc.subject

Music Information Retrieval

dc.subject

Music tagging

dc.subject

Music classification

dc.subject

Deep learning

dc.subject

Audio processing

dc.subject

Aprenentatge de representacions

dc.subject

Recuperació d'Informació Musical

dc.subject

Etiquetatge d'àudio musical

dc.subject

Classificació musical

dc.subject

Aprenentatge profund

dc.subject

Processament d'àudio

dc.title

Deep audio representation learning for music using weak supervision

dc.type

info:eu-repo/semantics/doctoralThesis

dc.type

info:eu-repo/semantics/publishedVersion

dc.subject.udc

dc.contributor.authoremail

pablo.alonso@upf.edu

dc.contributor.director

Bogdanov, Dmitry

dc.contributor.director

Serra Casals, Xavier

dc.embargo.terms

cap

dc.rights.accessLevel

info:eu-repo/semantics/openAccess

dc.description.degree

Programa de Doctorat en Tecnologies de la Informació i les Comunicacions

Documents

tpaj.pdf

2.671Mb PDF

This item appears in the following Collection(s)

Programa de Doctorat en Tecnologies de la Informació i les Comunicacions [401]