Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
El comportamiento de los sistemas actuales de reconocimiento del habla se degrada rápidamente en presencia de ruido de fondo cuando las etapas de entrenamiento y de test no pueden llevarse a cabo en las mismas condiciones ambientales. El propósito de esta tesis es el estudio y la aplicación al reconocimiento automático del habla en ambientes ruidosos de nuevas representaciones de la señal de voz que sean robustas por sí mismas al ruido y reflejen exactamente las diferencias fonéticas entre espectros de voz. De forma natural, la estrecha relación existente entre el tipo de representación de la señal y la medida de distancia idónea para confrontar los vectores de parámetros ha conducido también al estudio de distancias en esta tesis.<br/><br/>Para la evaluación de las técnicas propuestas se ha utilizado un sistema de reconocimiento de palabras aisladas mediante modelos ocultos de Markov. El hecho de que el sistema sea de palabras aisladas permite prescindir de las implicaciones de los niveles de conocimiento superiores al acústico: sintáctico, semántico, pragmático,... Por otro lado, los modelos ocultos de Markov son los que en estos momentos proporcionan unas mejores prestaciones en todos los sistemas en desarrollo.<br/><br/>La aportación fundamental de esta tesis es la introducción de la predicción lineal de la parte causal de la secuencia de autocorrelación de la señal de voz como una técnica de parametrización robusta del habla en presencia de ruido. Esta técnica está estrechamente relacionada con la representación SMC y con el uso de un sistema sobredeterminado de ecuaciones de Yule-Walker. Su uso en reconocimiento de habla ruidosa es muy interesante debido a su simplicidad, su eficiencia computacional y sus altas tasas de acierto, que superan ampliamente a las técnicas mencionadas y a la clásica predicción lineal sobre la señal en condiciones severas de ruido. <br/><br/>A partir de un estudio comparativo de distintas técnicas en el caso de ruido blanco y ruido real, se han extraído las siguientes conclusiones fundamentales: es preferible el uso de un orden de predicción relativamente alto y ventanas cepstrales crecientes para desenfatizar los coeficientes de orden inferior; las representaciones instantáneas de la señal son menos robustas que a las dinámicas, por lo cual resulta de gran utilidad el uso de parámetros regresivos; el etiquetado múltiple supera ampliamente en prestaciones a la cuantificación vectorial clásica; y, finalmente, la representación cepstral basada en la predicción lineal de la parte causal de la autocorrelación alcanza excelentes resultados en condiciones severas de ruido y es menos sensible a los factores anteriores que la predicción lineal clásica.
The performance of existing speech recognition systems degrades rapidly in the presence of background noise when training and testing cannot be done under the same ambient conditions, even in the case of isolated word recognition with small vocabularies.<br/><br/>In order to develop a speech recognizer that operates robustly and reliably in the presence of noise, a novel parameterization technique called OSALPC (One-Sided Autocorrelation Linear Predictive Coding) is proposed in this Ph.D. dissertation. This technique, closely related with the SMC (Short-Time Modified Coherence) representation and with the use of an overdetermined set of Yule-Walker equations proposed by Cadzow to seek rational models, is essentially an AR modeling of the causal part of the speech autocorrelation, that has the same poles than the speech signal itself. OSALPC performs better than standard LPC (Linear Predictive Coding) in terms of signal-to-noise ratio improvement due to the fact that the spectrum of the autocorrelation sequence, the square of the spectral envelope, strongly enhances the highest power frequency bands and attenuates the noise components lying outside those enhanced bands. Its use in noisy speech recognition is very interesting because of its simplicity, computational efficiency and high recognition accuracy. <br/><br/>The application of this technique to recognize isolated words in a multispeaker task is reported in this Ph.D. dissertation using a speech recognition system based on the HMM (Hidden Markov Models) and VQ (Vector Quantization) approaches in the presence of additive white noise and in real noisy car environment.<br/><br/>The combination of the OSALPC parameterization with several robust techniques is explored: 1) optimization of prediction order and cepstral liftering (particularly, a relatively high prediction order and a monotonically increasing lifter with the quefrency are preferable), 2) cepstral projection distance measure (only in the case of additive white noise), 3) use of energy and dynamic features and 4) independent multilabeling VQ of each feature. Regarding the latest case, a simple multilabeling method has been introduced as a deterministic version of the well known semicontinuous HMM approach using the fuzzy VQ rule, with degree of fuzziness equal to 2, to indicate the closeness of each codeword to the input vector of speech parameters.<br/><br/>Excellent results have been achieved in severe noisy conditions. Concretely, in the case of real noisy car enviroment, from a recognition accuracy of 58.2 % in the baseline recognizer, a recognition rate of 95 % has been reached by aplying those techniques.
reconocimento del habla en ambientes adversos; reconocimento del habla en presencia de ruido; parametrización de la señal de voz; analisis de la voz; reconocimento robusto del habla; reconocimento automático del habla; procesado del habla
621.3 Electrical engineering
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.