dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Cortès Sebastià, Guillem
dc.date.accessioned
2025-04-11T09:48:19Z
dc.date.issued
2025-02-18
dc.identifier.uri
http://hdl.handle.net/10803/694234
dc.description.abstract
Music identification is a mature and well-studied field in the Music Information
Retrieval community. In the music industry, it ensures fair distribution of royalties,
which are allocated based on usage, such as plays in live venues or airtime in
broadcasts. This thesis has been conducted as part of an industrial PhD at BMAT, a
company specializing in music monitoring and identification services. This thesis
explores advancements in Audio Fingerprinting (AFP), a core technology for music
identification that identifies audio by matching compact signatures extracted from
audio signals. From their early development in the 2000s, AFP systems have evolved to
address challenges such as robustness to time-frequency modifications, or noise and
speech overlays, for instance. However, scenarios like background music identification
or extreme time-frequency modifications remain challenging for these systems.
To address these gaps, this thesis first introduces a self-contained dataset specifically
designed for broadcast monitoring, featuring TV recordings with a high prevalence of
background music and reference tracks of production music. Alongside this dataset, it
proposes \emph{PeakFP}, a new baseline method tailored for background music
identification. To improve the AFP performance, this thesis explores a two-step
approach combining source separation algorithms with AFP systems. This approach
demonstrates substantial performance improvements in background music
identification, albeit at the cost of computational overhead.
Finally, this thesis presents PeakNetFP, the first hybrid AFP system that integrates the
simplicity and scalability of spectral peaks with the abstraction capabilities of neural
networks. PeakNetFP achieves comparable performance to state-of-the-art models
while being 100 times smaller, offering a scalable and efficient solution for AFP tasks,
including severe time-stretched audio.
Despite being conducted in an industrial setting, this work adheres to the principles of
open science, with all datasets, code, and evaluations made publicly available. This
thesis aims to foster further research in AFP, particularly in underexplored scenarios,
and to contribute to the development of more robust and versatile AFP systems.
ca
dc.description.abstract
La identificació musical és un àmbit madur i àmpliament estudiat dins la
comunitat de Recuperació d'Informació Musical (MIR) des de fa molts anys. En la
indústria musical, garanteix una distribució justa de les regalies, que es
reparteixen segons l'ús, com ara reproduccions en esdeveniments en directe o
temps d'emissió en retransmissions. Aquesta tesi s'ha dut a terme en el marc d'un
doctorat industrial a BMAT, una empresa especialitzada en serveis de monitoratge
i identificació musical, i explora els avenços en el camp de l'\emph{Audio
Fingerprinting (AFP)}, una tecnologia clau per a la identificació musical que
reconeix àudios mitjançant la comparació de signatures compactes extretes dels
senyals d'àudio. Des del seu desenvolupament inicial als anys 2000, els sistemes
AFP han evolucionat per afrontar reptes com la robustesa davant modificacions
tempo-freqüencials, soroll i superposicions de veu. No obstant això, escenaris com
la identificació de música de fons o els àudios amb estiraments temporals
extrems continuen sent un desafiament per a aquests sistemes.
Per abordar aquestes limitacions, aquesta tesi presenta primer un conjunt de
dades autocontingut dissenyat específicament per al monitoratge de
retransmissions, amb enregistraments de televisió amb alta prevalença de música
de fons i pistes de música de producció com a referència. Altrament, també
proposa un nou mètode base adaptat per a la identificació de música de fons que
serveix com a sistema de referència. Per millorar el rendiment dels sistemes AFP,
s'explora si les tecnologies existents poden ajudar. En aquest sentit, s'avalua un
enfocament en dues fases que combina algoritmes de separació de fonts amb
sistemes AFP. Aquest mètode mostra millores substancials en la identificació de
música de fons, tot i que en alguns casos implica un cost computacional
significatiu.
Finalment, aquesta tesi presenta PeakNetFP, el primer sistema AFP híbrid que
integra la simplicitat i escalabilitat dels pics espectrals amb les capacitats
d'abstracció de les xarxes neuronals. PeakNetFP aconsegueix un rendiment
comparable als models més avançats del moment, amb una mida 100 vegades
menor, oferint una solució escalable i eficient per a tasques AFP, incloent-hi
àudios amb distorsions temporals extremes.
Tot i que la tesi s'ha desenvolupat en un entorn industrial, segueix els principis de
la ciència oberta, amb tots els conjunts de dades, codi i avaluacions disponibles
públicament. Aquesta tesi té com a objectiu fomentar la investigació futura en
AFP, especialment en escenaris poc explorats, i contribuir al desenvolupament de
sistemes AFP més robusts i versàtils.
ca
dc.format.extent
165 p.
ca
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
ca
dc.rights.uri
http://creativecommons.org/licenses/by-nc-sa/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Audio fingerprinting
ca
dc.subject
Music identification
ca
dc.subject
Self-supervised learning
ca
dc.subject
Identificació de música
ca
dc.subject
Aprenentatge auto-supervisat
ca
dc.subject
Empremtes digitals d’àudio
ca
dc.title
Music identification with audio fingerprinting an industrial perspective
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.authoremail
cortes.sebastia@gmail.com
ca
dc.contributor.director
Molina Martínez, Emilio
dc.contributor.director
Serra Casals, Xavier
dc.embargo.terms
6 mesos
ca
dc.date.embargoEnd
2025-08-17T01:00:00Z
dc.rights.accessLevel
info:eu-repo/semantics/embargoedAccess
dc.description.degree
Programa de Doctorat en Tecnologies de la Informació i les Comunicacions
ca