Beyond the spectrum: prosodic, noise-enhanced and self-supervised features for speech recognition

dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Cámbara Ruiz, Guillermo
dc.date.accessioned
2024-07-19T10:37:46Z
dc.date.available
2024-07-19T10:37:46Z
dc.date.issued
2024-04-02
dc.identifier.uri
http://hdl.handle.net/10803/691832
dc.description.abstract
This dissertation investigates three methods for improving speech recognition in challenging conditions, focusing on feature enhancement and extending beyond spectral features. First, it demonstrates that incorporating prosody and voice quality into spectral feature-based models significantly reduces error rates in data-limited environments. Second, it proposes a joint training approach for speech enhancement and detection models in noisy environments, enhancing system robustness for noisy and clean speech. Lastly, it leverages phonetic information from models like wav2vec 2.0 to improve keyword classifiers on small-footprint devices without increasing latency. This method, further optimized by k-means clustering for weight compression, achieves faster inference with minimal accuracy loss. The outcome is a suite of techniques for speech feature enhancement, addressing key challenges in speech recognition. These include enhancing spectral models with additional features in data-limited settings, deploying joint training for noise resilience, and optimizing classifiers on resource-constrained devices, collectively providing adaptable solutions for AI voice assistants.
ca
dc.description.abstract
Aquesta dissertació examina tres estratègies innovadores per millorar el reconeixement de la parla en condicions adverses, centrant-se en l'enriquiment de les característiques de la parla més enllà dels mètodes espectrals convencionals. Primer, s'investiga com la incorporació de característiques prosòdiques i de qualitat de veu a models basats en característiques espectrals redueix significativament els errors en entorns amb dades limitades. Després, s'aborda el reconeixement en entorns sorollosos, proposant un mètode d'entrenament conjunt per models de neteja de soroll i detecció de paraules, millorant la robustesa del sistema. Finalment, per a dispositius de computació limitada, s'utilitza informació fonètica de models avançats com wav2vec2.0 per a millorar els classificadors de paraules clau sense augmentar la càrrega computacional, optimitzat mitjançant l'agrupament k-means per a compressió de pesos, garantint una inferència més ràpida amb mínima pèrdua de precisió. Aquesta recerca ofereix solucions robustes i adaptables per als reptes dels assistents de veu per IA.
ca
dc.format.extent
109 p.
ca
dc.language.iso
eng
ca
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/
ca
dc.rights.uri
http://creativecommons.org/licenses/by/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Speech recognition
ca
dc.subject
speech enhancement
ca
dc.subject
Self-supervised learning
ca
dc.subject
Prosody
ca
dc.subject
Voice quality features
ca
dc.subject
Reconeixement de la parla
ca
dc.subject
Millora de la parla
ca
dc.subject
Aprenentatge auto-supervisat
ca
dc.subject
Prosòdia
ca
dc.subject
Paràmetres de qualitat de veu
ca
dc.title
Beyond the spectrum: prosodic, noise-enhanced and self-supervised features for speech recognition
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
62
ca
dc.contributor.authoremail
guillermocambara@gmail.com
ca
dc.contributor.director
Farrús, Mireia
dc.contributor.director
Luque, Jordi
dc.embargo.terms
cap
ca
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de Doctorat en Tecnologies de la Informació i les Comunicacions


Documents

tgc.pdf

1.847Mb PDF

This item appears in the following Collection(s)