dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Fonseca, Eduardo
dc.date.accessioned
2022-01-11T12:52:33Z
dc.date.available
2022-01-11T12:52:33Z
dc.date.issued
2021-12-01
dc.identifier.uri
http://hdl.handle.net/10803/673067
dc.description.abstract
The automatic recognition of sound events has gained attention in the past few years,
motivated by emerging applications in fields such as healthcare, smart homes, or urban
planning. When the work for this thesis started, research on sound event classification was
mainly focused on supervised learning using small datasets, often carefully annotated with
vocabularies limited to specific domains (e.g., urban or domestic). However, such small
datasets do not support training classifiers able to recognize hundreds of sound events
occurring in our everyday environment, such as kettle whistles, bird tweets, cars passing by,
or different types of alarms. At the same time, large amounts of environmental sound data
are hosted in websites such as Freesound or YouTube, which can be convenient for training
large-vocabulary classifiers, particularly using data-hungry deep learning approaches.
To advance the state-of-the-art in sound event classification, this thesis investigates several
strands of dataset creation as well as supervised and unsupervised learning to train
large-vocabulary sound event classifiers, using different types of supervision in novel and
alternative ways. Specifically, we focus on supervised learning using clean and noisy labels,
as well as self-supervised representation learning from unlabeled data.
The first part of this thesis focuses on the creation of FSD50K, a large-vocabulary dataset
with over 100h of audio manually labeled using 200 classes of sound events. We provide a
detailed description of the creation process and a comprehensive characterization of the
dataset. In addition, we explore architectural modifications to increase shift invariance in
CNNs, improving robustness to time/frequency shifts in input spectrograms. In the second
part, we focus on training sound event classifiers using noisy labels. First, we propose a
dataset that supports the investigation of real label noise. Then, we explore network-agnostic
approaches to mitigate the effect of label noise during training, including regularization
techniques, noise-robust loss functions, and strategies to reject noisy labeled examples.
Further, we develop a teacher-student framework to address the problem of missing labels in
sound event datasets. In the third part, we propose algorithms to learn audio representations
from unlabeled data. In particular, we develop self-supervised contrastive learning
frameworks, where representations are learned by comparing pairs of examples computed
via data augmentation and automatic sound separation methods.
Finally, we report on the organization of two DCASE Challenge Tasks on automatic audio
tagging with noisy labels. By providing data resources as well as state-of-the-art approaches
and audio representations, this thesis contributes to the advancement of open sound event
research, and to the transition from traditional supervised learning using clean labels to other
learning strategies less dependent on costly annotation efforts.
dc.description.abstract
El interés en el reconocimiento automático de eventos sonoros se ha incrementado en los
últimos años, motivado por nuevas aplicaciones en campos como la asistencia médica,
smart homes, o urbanismo. Al comienzo de esta tesis, la investigación en clasificación de
eventos sonoros se centraba principalmente en aprendizaje supervisado usando datasets
pequeños, a menudo anotados cuidadosamente con vocabularios limitados a dominios
específicos (como el urbano o el doméstico). Sin embargo, tales datasets no permiten
entrenar clasificadores capaces de reconocer los cientos de eventos sonoros que ocurren
en nuestro entorno, como silbidos de kettle, sonidos de pájaros, coches pasando, o
diferentes alarmas. Al mismo tiempo, websites como Freesound o YouTube albergan
grandes cantidades de datos de sonido ambiental, que pueden ser útiles para entrenar
clasificadores con un vocabulario más extenso, particularmente utilizando métodos de deep
learning que requieren gran cantidad de datos. Para avanzar el estado del arte en la
clasificación de eventos sonoros, esta tesis investiga varios aspectos de la creación de
datasets, así como de aprendizaje supervisado y no supervisado para entrenar
clasificadores de eventos sonoros con un vocabulario extenso, utilizando diferentes tipos de
supervisión de manera novedosa y alternativa. En concreto, nos centramos en aprendizaje
supervisado usando etiquetas sin ruido y con ruido, así como en aprendizaje de
representaciones auto-supervisado a partir de datos no etiquetados.
La primera parte de esta tesis se centra en la creación de FSD50K, un dataset con más de
100h de audio etiquetado manualmente usando 200 clases de eventos sonoros.
Presentamos una descripción detallada del proceso de creación y una caracterización
exhaustiva del dataset. Además, exploramos modificaciones arquitectónicas para aumentar
la invariancia frente a desplazamientos en CNNs, mejorando la robustez frente a
desplazamientos de tiempo/frecuencia en los espectrogramas de entrada. En la segunda
parte, nos centramos en entrenar clasificadores de eventos sonoros usando etiquetas con
ruido. Primero, proponemos un dataset que permite la investigación del ruido de etiquetas
real. Después, exploramos métodos agnósticos a la arquitectura de red para mitigar el
efecto del ruido en las etiquetas durante el entrenamiento, incluyendo técnicas de
regularización, funciones de coste robustas al ruido, y estrategias para rechazar ejemplos
etiquetados con ruido. Además, desarrollamos un método teacher-student para abordar el
problema de las etiquetas ausentes en datasets de eventos sonoros. En la tercera parte,
proponemos algoritmos para aprender representaciones de audio a partir de datos sin
etiquetar. En particular, desarrollamos métodos de aprendizaje contrastivos
auto-supervisados, donde las representaciones se aprenden comparando pares de
ejemplos calculados a través de métodos de aumento de datos y separación automática de
sonido. Finalmente, reportamos sobre la organización de dos DCASE Challenge Tasks para
el tageado automático de audio a partir de etiquetas ruidosas. Mediante la propuesta de
datasets, así como de métodos de vanguardia y representaciones de audio, esta tesis
contribuye al avance de la investigación abierta sobre eventos sonoros y a la transición del
aprendizaje supervisado tradicional utilizando etiquetas sin ruido a otras estrategias de
aprendizaje menos dependientes de costosos esfuerzos de anotación.
dc.format.mimetype
application/pdf
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Environmental sound
dc.subject
Classification
dc.subject
Data collection
dc.subject
Convolutional neural networks
dc.subject
Shift invariance
dc.subject
Self-supervision
dc.subject
Contrastive learning
dc.subject
Audio representation learning
dc.subject
Sonido ambiental
dc.subject
Creación de datasets
dc.subject
Ruido de etiquetas
dc.subject
Auto-supervisión
dc.subject
Aprendizaje contrastivo
dc.subject
Aprendizaje de representaciones de audio
dc.title
Training sound event classifiers using different types of supervision
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.authoremail
eduardo.fonseca@upf.edu
dc.contributor.director
Serra, Xavier
dc.contributor.director
Font, Frederic
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de doctorat en Tecnologies de la Informació i les Comunicacions