Interpretable deep-learning models for sound event detection and classification

dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Zinemanas Frieti, Pablo
dc.date.accessioned
2023-11-02T10:52:05Z
dc.date.available
2023-11-02T10:52:05Z
dc.date.issued
2023-10-20
dc.identifier.uri
http://hdl.handle.net/10803/689243
dc.description.abstract
Deep-learning models have revolutionized state-of-the-art technologies in many research areas, but their black-box structure makes it difficult to understand their inner workings and the rationale behind their predictions. This may lead to unintended effects, such as being susceptible to adversarial attacks or the reinforcement of biases. As a consequence, there has been an increasing interest in developing deep-learning models that provide explanations of their decisions, a field known as interpretable deep learning. On the other hand, in the past few years, there has been a surge in developing technologies for environmental sound recognition motivated by its applications in healthcare, smart homes, or urban planning. However, most of the systems used for these applications are deep-learning-based black boxes and, therefore, can not be inspected, so the rationale behind their decisions is obscure. Despite recent advances, there is still a lack of research in interpretable machine learning in the audio domain. This thesis aims to reduce this gap by proposing several interpretable deep-learning models for automatic sound classification and event detection. We start by describing an open-source software tool for reproducible research in the sound recognition field, which was used to implement the models and run experiments presented in this document. We then propose an interpretable front-end based on domain knowledge to tailor the feature-extraction layers of an end-to-end network for sound event detection. We then present a novel interpretable deep-learning model for automatic sound classification, which explains its predictions based on the similarity of the input to a set of learned prototypes in a latent space. We leverage domain knowledge by designing a frequency-dependent similarity measure. The proposed model achieves results comparable to state-of-the-art methods. In addition, we present two automatic methods to prune the proposed model that exploits its interpretability. This model is accompanied by a web application for the manual editing of the model, which allows for a human-in-the-loop debugging approach. Finally, we propose an extension of this model that works for a polyphonic setting, such as the sound event detection task. To provide interpretability, we leverage the prototype network approach and attention mechanisms. The tools for reproducible research and the interpretable deep-learning models, such as those proposed in this thesis, can contribute to developing a more responsible and trustworthy Artificial Intelligence in the audio domain.
ca
dc.description.abstract
Els models de deep learning han revolucionat les tecnologies d’última generació en moltes àrees de recerca, però la seva estructura black-box fa difícil entendre el seu funcionament intern i la lògica darrere de les seves prediccions. Això pot conduir a efectes no desitjats, com ara ser susceptible a atacs adversos o el reforç de biaixos. Com a conseqüència, hi ha hagut un interès creixent en el desenvolupament de models de deep learning que proporcionen explicacions de les seves decisions, un camp conegut com a deep learning interpretable. D’altra banda, en els últims anys, s’ha produït un augment en el desenvolupament de les tecnologies per al reconeixement de so ambiental motivat per les seves aplicacions en l’assistència sanitària, les llars intel·ligents o la planificació urbana. No obstant això, la majoria dels sistemes utilitzats per a aquestes aplicacions són black-boxes basades en el deep learning i, per tant, no poden ser inspeccionades, de manera que la raó de les seves decisions és confusa. Malgrat els avenços recents, encara hi ha una manca d’investigació en el deep learning interpretable en el domini d’àudio. Aquesta tesi té com a objectiu reduir aquest buit proposant diversos models de deep learning per a la classificació automàtica del so i la detecció d’esdeveniments. Comencem descrivint una eina de programari de codi obert per a la investigació reproduïble en el camp del reconeixement de so, que es va utilitzar per implementar els models i executar experiments presentats en aquest document. A continuació, proposem un front-end interpretable basat en el coneixement del domini per adaptar les capes d’extracció de característiques d’una xarxa d’extrem a extrem per a la detecció d’esdeveniments sonors. Llavors presentem un nou model interpretable de deep learning per a la classificació automàtica del so, que explica les seves prediccions basades en la similitud de l’entrada a un conjunt de prototips apresos en un espai latent. Aprofitem el coneixement del domini dissenyant una mesura de similitud dependent de la freqüència. El model proposat aconsegueix resultats comparables als mètodes més moderns. A més, presentem dos mètodes automàtics per a reduir el model proposat que explota la seva interpretabilitat. Aquest model està acompanyat per una aplicació web per a l’edició manual del model, que permet una formulació de depuració human-in-the-loop. Finalment, proposem una extensió d’aquest model que funcioni per a un entorn polifònic, com la tasca de detecció d’esdeveniments sonors. Per proporcionar interpretabilitat, aprofitem l’formulació de la xarxa prototip i els mecanismes d’atenció. Les eines per a la investigació reproduïble i els models interpretables de deeplearning, com els proposats en aquesta tesi, poden contribuir al desenvolupament d’una intel·ligència artificial més responsable i fiable en l’àmbit de l’àudio.
ca
dc.format.extent
140 p.
ca
dc.language.iso
eng
ca
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
ca
dc.rights.uri
http://creativecommons.org/licenses/by-nc-sa/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Deep learning models
ca
dc.subject
Models de deep learning
ca
dc.title
Interpretable deep-learning models for sound event detection and classification
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
62
ca
dc.contributor.authoremail
pablo.zinemanas@upf.edu
ca
dc.contributor.director
Serra, Xavier
dc.contributor.director
Font Corbera, Frederic
dc.embargo.terms
cap
ca
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de Doctorat en Tecnologies de la Informació i les Comunicacions


Documentos

tpzf.pdf

4.964Mb PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)