Deep audio representation learning for music using weak supervision

Author

Alonso Jiménez, Pablo

Director

Bogdanov, Dmitry ORCID

Serra Casals, Xavier

Date of defense

2024-10-03

Pages

147 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

Doctorate programs

Programa de Doctorat en Tecnologies de la Informació i les Comunicacions

Abstract

Music audio tagging is the Music Information Retrieval task of assigning one or multiple labels to an audio signal. Current state-of-the-art music taggers rely on deep learning approaches, which offer high performance but introduce challenges due to their large data requirements and tendency to overfit. In this thesis, we propose addressing music tagging from the perspective of representation learning, which consists of designing pre-training objectives that make the learned representations suitable for several downstream tasks. In our work we investigate using representations learned by competitive music and audio tagging systems, the effectiveness of training representation models on music metadata (such as artist names and playlists) as a source of supervision, the usage of the transformer architecture for representation learning, and the adaptation of audio interpretability strategies to operate with pre-trained representations. Most of the models developed in this thesis were incorporated into Essentia,1 an open-source sound and music analysis library.


L'etiquetatge d'àudio musical és una tasca de Recuperació d'Informació Musical que assigna etiquetes a un senyal d'àudio. Els etiquetadors musicals més avançats actualment es basen en l'aprenentatge profund, que ofereix un alt rendiment però també desafiaments per la gran quantitat de dades requerides i la tendència a sobreajustar-se. Aquesta tesi aborda l'etiquetatge musical des de l'aprenentatge de representacions, dissenyant objectius de preentrenament per fer les representacions apreses adequades per a diverses tasques posteriors. En el nostre treball, investigem l'ús de representacions apreses per sistemes competitius d'etiquetatge musical i d'àudio, l'eficàcia d'entrenar models de representació amb metadades musicals (com noms d'artistes i llistes de reproducció) com a font de supervisió, l'ús de l'arquitectura transformer per a l'aprenentatge de representacions, i l'adaptació d'estratègies d'interpretabilitat d'àudio amb representacions preentrenades. La majoria dels models desenvolupats es van incorporar a Essentia, una biblioteca de codi obert per a l'anàlisi de so i música.

Keywords

Representation learning; Music Information Retrieval; Music tagging; Music classification; Deep learning; Audio processing; Aprenentatge de representacions; Recuperació d'Informació Musical; Etiquetatge d'àudio musical; Classificació musical; Aprenentatge profund; Processament d'àudio

Subjects

62 - Engineering

Documents

tpaj.pdf

2.671Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/

This item appears in the following Collection(s)