Síntesi basada en models ocults de Markov aplicada a l'espanyol i a l'anglès, les seves aplicacions i una proposta híbrida


Author

Gonzalvo Fructuoso, Javier

Director

Socoró Carrié, Joan Claudi

Codirector

Iriondo Sanz, Ignasi

Date of defense

2010-07-16

Legal Deposit

B.33716-2010



Department/Institute

Universitat Ramon Llull. La Salle

Abstract

Avui en dia, la Interacció Home Màquina (IHM) és una de les disciplines més estudiades amb l'objectiu de millorar les interaccions humanes amb sistemes reals actuals i futurs. Cada vegada més gent utilitza més dispositius electrònics a la vida quotidiana Aquesta incursió electrònica es deu principalment a dues raons. D'una banda, la facilitat d'accés a aquesta tecnologia però d'altra banda, unes interfícies més amigables que permeten un ús més fàcil i intuitiu. Simplement fa falta observar els ordinadors personals d'avui en dia, les computadores de butxaca i inclús els telèfons mòbils. Tots aquests nous dispositius permeten que usuaris poc experimentats puguin fer ús de les tecnologies més punteres. D'altra banda, la inclusió de les tecnologies de la parla estan arribant a ser més comunes gràcies a què els sistemes de reconeixement i de síntesi de veu han millorat considerablement el seu funcionament i fiabilitat.<br/><br/>L'objectiu final de les tecnologies de la parla és crear sistemes tan naturals com els éssers humans per tal de fer que el seu ús es pugui extendre a qualsevol racó de la vida quotidiana Els conversors de Text-a-Parla (o sintetitzadors) són un dels mòduls que més esforç investigador han rebut amb l'objectiu de millorar la seva naturalitat i expressivitat. L'ús de sintetitzadors s'ha ampliat durant els últims temps degut a l'alta qualitat aconseguida en aplicacions de domini restringit i el bon comportament en aplicacions de propòsit general. De totes formes, encara queda un llarg camí per recòrrer pel que respecta a la qualitat en aplicacions de domini obert. A més a més, algunes de les tendències dels sistemes sintetitzadors comporten reduir el tamany de les bases de dades, sistemes flexibles per adaptar locutors i estils de locució i sistemes entrenables.<br/><br/>Aquesta tesi doctoral presentarà un sintetizador de veu basat en l'entorn probabilístic dels Models Ocults de Makov (MOM) que tractarà amb els principals temes estudiats a l'actualitat, tal com l'adaptació de l'estil del locutor, sistemes conversors de veu entrenables i bases de dades de tamany reduit. Es descriurà el funcionament convencional dels algoritmes i es propondran millores en diferents àmbits com per exemple l'expressivitat. A la vegada, es presenta un sistema híbrid punter que combina models estadístics i de concatenació de veu. Els resultats obtinguts mostren com les propostes d'aquest treball donen un pas endavant en l'àmbit de la creació de veu sintètica utilitzant models estadístics.


Hoy en día, la Interacción Hombre-Máquina (IHM) es una de las disciplinas más estudiadas con el objetivo de mejorar las interacciones humanas con sistemas reales para el presente y para el futuro venidero. Más y más dispositivos electrónicos son usados por más gente en la vida diaria. Esta incursión electrónica se debe principalmente a dos razones. Por un lado, el indudable aumento en la accesibilidad económica a esta tecnología pero por otra parte, unos interfaces más amigables que permiten un uso más fácil e intuitivo. Simplemente hace falta observar hoy en día los ordenadores personales, las computadoras de bolsillo e incluso los teléfonos móviles. Todos estos nuevos dispositivos admiten que usuarios poco experimentados puedan hacer uso de las tecnologías más punteras. Por otra parte, la inclusión de las tecnologías del habla está llegando a ser más común gracias a que los sistemas de reconocimiento y de síntesis de voz han estado mejorando su funcionamiento y fiabilidad.<br/><br/>El objetivo final de las tecnologías del habla es crear sistemas tan naturales como los seres humanos para que su uso se pueda extender a cualquier rincón de la vida diaria. Los conversores de Texto-a-Voz (o sintetizadores) son de los módulos que más esfuerzo investigador han recibido con el objetivo de mejorar su naturalidad y la expresividad. El uso de los sintetizadores se ha ampliado durante los últimos tiempos debido a la alta calidad alcanzada en usos de dominio restringido y el buen comportamiento en aplicaciones de propósito general. De todas formas, todavía queda un largo camino por recorrer por lo que respecta a la calidad en aplicaciones de dominio abierto. Además, algunas de las tendencias de los sistemas sintetizadores conllevan reducir el tamaño de las bases de datos, sistemas flexibles para adaptar locutores y estilos de locución y sistemas entrenables.<br/><br/>Esta tesis doctoral presentará un sintetizador de voz basado en el entorno probabilístico de los Modelos Ocultos de Markov (MOM) que lidiará con los principales temas estudiados en la actualidad tales como adaptación del estilo de locutor, sistema conversores de voz entrenables y bases de datos de tamaño reducido. Se describirá el funcionamiento convencional de los algoritmos y se propondrán mejoras en varios ámbitos tales como la expresividad. A la vez se presenta un sistema híbrido puntero que combina modelos estadísticos y de concatenación de voz. Los resultados obtenidos muestran como las propuestas de este trabajo dan un paso adelante en el ámbito de la creación de voz sintética usando modelos estadísticos.


Nowadays, Human Computer Interaction (HCI) is one of the most studied disciplines in order to improve real human interactions with machines on the present time and for the incoming future. More and more electronic devices of the daily life are used by more people. This electronic incursion is mainly due to two reasons. On the one hand, the undoubted increasing of the economical accessibility to this technology but on the other hand, the more friendly interfaces allow an easier and more intuitive use. As a matter of fact, nowadays it is only necessary to observe the personal computer interfaces, pocket size computers and even mobile telephones. All these new interfaces let little experienced users make use of cutting edge technologies. Moreover, the inclusion of speech technologies in these systems is becoming more usual since speech recognition and synthesis systems have improved their performance and reliability.<br/><br/>The purpose of speech technology is to provide systems with a natural human interface so the use can be extended to daily life. Text-to-Speech (TTS) systems are one of the main modules under intense research activity in order to improve their naturalness and expressiveness. The use of synthesizers has been extended during the last times due to the high-quality reached in real limited domain applications and the good performance in generic purposes applications. However, there is still a long way to go with respect to quality and open domain systems.<br/><br/>This work will present a TTS system based on a statistical framework using Hidden Markov Models (HMMs) that will deal with the main topics under study in recent years such as voice style adaptation, trainable TTS systems and low print databases. Moreover, a cutting edge hybrid approach combining concatenative and statistical synthesis will also be presented. Ideas and results in this work show a step forward in the HMM-based TTS system field

Keywords

hybrid; Spanish and English HMM synthesis; speech synthesis; síntesis basada en Modelos Ocultos de Markov en Es; híbrido; síntesis de voz; síntesi en Espanyol i Anglés basada en Model Ocult; híbrid; síntesi de veu

Subjects

62 - Engineering; 621.3 Electrical engineering

Knowledge Area

Les TIC i la seva Gestió

Documents

Memoria_tesi_Xavi_Gonzalvo_(amb_hyperref).pdf

5.561Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)