Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
Programa de Doctorat en Tecnologies de la Informació i les Comunicacions
This dissertation investigates three methods for improving speech recognition in challenging conditions, focusing on feature enhancement and extending beyond spectral features. First, it demonstrates that incorporating prosody and voice quality into spectral feature-based models significantly reduces error rates in data-limited environments. Second, it proposes a joint training approach for speech enhancement and detection models in noisy environments, enhancing system robustness for noisy and clean speech. Lastly, it leverages phonetic information from models like wav2vec 2.0 to improve keyword classifiers on small-footprint devices without increasing latency. This method, further optimized by k-means clustering for weight compression, achieves faster inference with minimal accuracy loss. The outcome is a suite of techniques for speech feature enhancement, addressing key challenges in speech recognition. These include enhancing spectral models with additional features in data-limited settings, deploying joint training for noise resilience, and optimizing classifiers on resource-constrained devices, collectively providing adaptable solutions for AI voice assistants.
Aquesta dissertació examina tres estratègies innovadores per millorar el reconeixement de la parla en condicions adverses, centrant-se en l'enriquiment de les característiques de la parla més enllà dels mètodes espectrals convencionals. Primer, s'investiga com la incorporació de característiques prosòdiques i de qualitat de veu a models basats en característiques espectrals redueix significativament els errors en entorns amb dades limitades. Després, s'aborda el reconeixement en entorns sorollosos, proposant un mètode d'entrenament conjunt per models de neteja de soroll i detecció de paraules, millorant la robustesa del sistema. Finalment, per a dispositius de computació limitada, s'utilitza informació fonètica de models avançats com wav2vec2.0 per a millorar els classificadors de paraules clau sense augmentar la càrrega computacional, optimitzat mitjançant l'agrupament k-means per a compressió de pesos, garantint una inferència més ràpida amb mínima pèrdua de precisió. Aquesta recerca ofereix solucions robustes i adaptables per als reptes dels assistents de veu per IA.
Speech recognition; speech enhancement; Self-supervised learning; Prosody; Voice quality features; Reconeixement de la parla; Millora de la parla; Aprenentatge auto-supervisat; Prosòdia; Paràmetres de qualitat de veu
62 - Engineering