Beyond the spectrum: prosodic, noise-enhanced and self-supervised features for speech recognition

Author

Cámbara Ruiz, Guillermo

Director

Farrús, Mireia ORCID

Luque, Jordi

Date of defense

2024-04-02

Pages

109 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

Doctorate programs

Programa de Doctorat en Tecnologies de la Informació i les Comunicacions

Abstract

This dissertation investigates three methods for improving speech recognition in challenging conditions, focusing on feature enhancement and extending beyond spectral features. First, it demonstrates that incorporating prosody and voice quality into spectral feature-based models significantly reduces error rates in data-limited environments. Second, it proposes a joint training approach for speech enhancement and detection models in noisy environments, enhancing system robustness for noisy and clean speech. Lastly, it leverages phonetic information from models like wav2vec 2.0 to improve keyword classifiers on small-footprint devices without increasing latency. This method, further optimized by k-means clustering for weight compression, achieves faster inference with minimal accuracy loss. The outcome is a suite of techniques for speech feature enhancement, addressing key challenges in speech recognition. These include enhancing spectral models with additional features in data-limited settings, deploying joint training for noise resilience, and optimizing classifiers on resource-constrained devices, collectively providing adaptable solutions for AI voice assistants.


Aquesta dissertació examina tres estratègies innovadores per millorar el reconeixement de la parla en condicions adverses, centrant-se en l'enriquiment de les característiques de la parla més enllà dels mètodes espectrals convencionals. Primer, s'investiga com la incorporació de característiques prosòdiques i de qualitat de veu a models basats en característiques espectrals redueix significativament els errors en entorns amb dades limitades. Després, s'aborda el reconeixement en entorns sorollosos, proposant un mètode d'entrenament conjunt per models de neteja de soroll i detecció de paraules, millorant la robustesa del sistema. Finalment, per a dispositius de computació limitada, s'utilitza informació fonètica de models avançats com wav2vec2.0 per a millorar els classificadors de paraules clau sense augmentar la càrrega computacional, optimitzat mitjançant l'agrupament k-means per a compressió de pesos, garantint una inferència més ràpida amb mínima pèrdua de precisió. Aquesta recerca ofereix solucions robustes i adaptables per als reptes dels assistents de veu per IA.

Keywords

Speech recognition; speech enhancement; Self-supervised learning; Prosody; Voice quality features; Reconeixement de la parla; Millora de la parla; Aprenentatge auto-supervisat; Prosòdia; Paràmetres de qualitat de veu

Subjects

62 - Engineering. Technology in general

Documents

tgc.pdf

1.847Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/

This item appears in the following Collection(s)