dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Zinemanas Frieti, Pablo
dc.date.accessioned
2023-11-02T10:52:05Z
dc.date.available
2023-11-02T10:52:05Z
dc.date.issued
2023-10-20
dc.identifier.uri
http://hdl.handle.net/10803/689243
dc.description.abstract
Deep-learning models have revolutionized state-of-the-art technologies in many
research areas, but their black-box structure makes it difficult to understand
their inner workings and the rationale behind their predictions. This may
lead to unintended effects, such as being susceptible to adversarial attacks or
the reinforcement of biases. As a consequence, there has been an increasing
interest in developing deep-learning models that provide explanations of their
decisions, a field known as interpretable deep learning. On the other hand,
in the past few years, there has been a surge in developing technologies for
environmental sound recognition motivated by its applications in healthcare,
smart homes, or urban planning. However, most of the systems used for these
applications are deep-learning-based black boxes and, therefore, can not be
inspected, so the rationale behind their decisions is obscure. Despite recent
advances, there is still a lack of research in interpretable machine learning in
the audio domain. This thesis aims to reduce this gap by proposing several
interpretable deep-learning models for automatic sound classification and event
detection.
We start by describing an open-source software tool for reproducible research
in the sound recognition field, which was used to implement the models and
run experiments presented in this document. We then propose an interpretable
front-end based on domain knowledge to tailor the feature-extraction layers of
an end-to-end network for sound event detection. We then present a novel
interpretable deep-learning model for automatic sound classification, which
explains its predictions based on the similarity of the input to a set of learned
prototypes in a latent space. We leverage domain knowledge by designing a
frequency-dependent similarity measure. The proposed model achieves results
comparable to state-of-the-art methods. In addition, we present two automatic
methods to prune the proposed model that exploits its interpretability. This
model is accompanied by a web application for the manual editing of the
model, which allows for a human-in-the-loop debugging approach. Finally, we
propose an extension of this model that works for a polyphonic setting, such
as the sound event detection task. To provide interpretability, we leverage the
prototype network approach and attention mechanisms.
The tools for reproducible research and the interpretable deep-learning models,
such as those proposed in this thesis, can contribute to developing a more
responsible and trustworthy Artificial Intelligence in the audio domain.
ca
dc.description.abstract
Els models de deep learning han revolucionat les tecnologies d’última generació
en moltes àrees de recerca, però la seva estructura black-box fa difícil
entendre el seu funcionament intern i la lògica darrere de les seves prediccions.
Això pot conduir a efectes no desitjats, com ara ser susceptible a atacs
adversos o el reforç de biaixos. Com a conseqüència, hi ha hagut un interès
creixent en el desenvolupament de models de deep learning que proporcionen
explicacions de les seves decisions, un camp conegut com a deep learning interpretable.
D’altra banda, en els últims anys, s’ha produït un augment en
el desenvolupament de les tecnologies per al reconeixement de so ambiental
motivat per les seves aplicacions en l’assistència sanitària, les llars intel·ligents
o la planificació urbana. No obstant això, la majoria dels sistemes utilitzats
per a aquestes aplicacions són black-boxes basades en el deep learning i, per
tant, no poden ser inspeccionades, de manera que la raó de les seves decisions
és confusa. Malgrat els avenços recents, encara hi ha una manca d’investigació
en el deep learning interpretable en el domini d’àudio. Aquesta tesi té com a
objectiu reduir aquest buit proposant diversos models de deep learning per a
la classificació automàtica del so i la detecció d’esdeveniments.
Comencem descrivint una eina de programari de codi obert per a la investigació
reproduïble en el camp del reconeixement de so, que es va utilitzar per
implementar els models i executar experiments presentats en aquest document.
A continuació, proposem un front-end interpretable basat en el coneixement
del domini per adaptar les capes d’extracció de característiques d’una xarxa
d’extrem a extrem per a la detecció d’esdeveniments sonors. Llavors presentem
un nou model interpretable de deep learning per a la classificació automàtica
del so, que explica les seves prediccions basades en la similitud de l’entrada a
un conjunt de prototips apresos en un espai latent. Aprofitem el coneixement
del domini dissenyant una mesura de similitud dependent de la freqüència. El
model proposat aconsegueix resultats comparables als mètodes més moderns.
A més, presentem dos mètodes automàtics per a reduir el model proposat
que explota la seva interpretabilitat. Aquest model està acompanyat per una
aplicació web per a l’edició manual del model, que permet una formulació
de depuració human-in-the-loop. Finalment, proposem una extensió d’aquest
model que funcioni per a un entorn polifònic, com la tasca de detecció d’esdeveniments
sonors. Per proporcionar interpretabilitat, aprofitem l’formulació
de la xarxa prototip i els mecanismes d’atenció.
Les eines per a la investigació reproduïble i els models interpretables de deeplearning,
com els proposats en aquesta tesi, poden contribuir al desenvolupament d’una intel·ligència artificial més responsable i fiable en l’àmbit de l’àudio.
ca
dc.format.extent
140 p.
ca
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
ca
dc.rights.uri
http://creativecommons.org/licenses/by-nc-sa/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Deep learning models
ca
dc.subject
Models de deep learning
ca
dc.title
Interpretable deep-learning models for sound event detection and classification
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.authoremail
pablo.zinemanas@upf.edu
ca
dc.contributor.director
Serra, Xavier
dc.contributor.director
Font Corbera, Frederic
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de Doctorat en Tecnologies de la Informació i les Comunicacions