Numerical production of vowels and diphthongs using finite element methods

Arnela Coll, Marc

Numerical production of vowels and diphthongs using finite element methods

Author

Arnela Coll, Marc

Director

Guasch Fortuny, Oriol

Date of defense

2015-02-20

Legal Deposit

B 7911-2015

Pages

222 p.

Department/Institute

Universitat Ramon Llull. La Salle

Abstract

Recentment, les simulacions tridimensionals per ordinador han esdevingut bastant populars per modelar l’acústica del tracte vocal. Aquestes són capaces de superar algunes de les limitacions clàssiques de les tècniques unidimensionals i permeten incloure tots els detalls de la geometria del tracte vocal, millorant d’aquesta manera la qualitat dels sons generats. El mètode dels elements finits (FEM) és probablement l’aproximació més indicada per resoldre les equacions subjacents de la veu. En la primera part de la tesi s’aborda el problema de generació de vocals. S’utilitza FEM per resoldre l’equació d’ones per a la pressió acústica, la qual es combina amb una capa perfectament adaptada (PML) per tal de considerar condicions de radiació en camp lliure. Això permet la simulació d’ones acústiques propagant-se a través del tracte vocal i emanant de l’obertura de la boca. L’aproximació FEM proposada es valida després mitjançant experiments realitzats en rèpliques simplificades del tracte vocal. A continuació s’adapta el mètode de la funció de transferència entre dos micròfons per tal de calcular impedàncies del tracte vocal. Aquest s’utilitza a posteriori per a analitzar els efectes de radiació en vocals que comporten simplificacions del cap humà. Finalment, es proposa realitzar simulacions en dues dimensions (2D) basades en un procés d’ajust que permet a tractes vocals 2D imitar en gran mesura l’acústica de tractes vocals 3D, aconseguint un molt bon balanç entre cost computacional i qualitat de la veu. En la segona part de la tesi es generen diftongs. Per a aquesta finalitat es desenvolupa un esquema estabilitzat d’elements finits que resol l’equació d’ones en forma mixta expressada en un marc Lagrangià-Eulerià Arbitrari (ALE). Es produeixen diftongs tant usant tractes vocals mòbils 3D com ara tractes vocals 2D. L’enfocament proposat per a vocals i diftongs permet no només visualitzar ones propagant-se a través del tracte vocal sinó també escoltar-ne els corresponents sons generats.

Recientemente, las simulaciones tridimensionales por ordenador han resultado bastante populares para modelar la acústica del tracto vocal. Éstas son capaces de superar algunas de las limitaciones clásicas de las técnicas unidimensionales y permiten incluir todos los detalles de la geometría del tracto vocal, mejorando de esta manera la calidad de los sonidos generados. El método de los elementos finitos (FEM) es probablemente la aproximación más indicada para resolver las ecuaciones subyacentes de la voz. En la primera parte de la tesis se aborda el problema de generación de vocales. Se utiliza FEM para resolver la ecuación de ondas para la presión acústica, la cual se combina con una capa perfectamente adaptada (PML) para considerar condiciones de radiación en campo libre. Esto permite la simulación de ondas acústicas propagándose a través del tracto vocal y emanando de la obertura de la boca. La aproximación FEM propuesta se valida después mediante experimentos realizados en réplicas simplificadas del tracto vocal. A continuación se adapta el método de la función de transferencia entre dos micrófonos para calcular impedancias del tracto vocal. Éste se utiliza a posteriori para analizar los efectos de radiación en vocales que conllevan simplificaciones de la cabeza humana. Finalmente, se propone realizar simulaciones en dos dimensiones (2D) basadas en un proceso de ajuste que permite a tractos vocales 2D imitar en gran medida la acústica de tractos vocales 3D, consiguiendo un muy buen balance entre coste computacional y calidad de la voz. En la segunda parte de la tesis se generan diptongos. Per a esta finalidad se desarrolla un esquema estabilizado de elementos finitos que resuelve la ecuación de ondas en forma mixta expresada en un marco Lagrangiano-Euleriano Arbitrario (ALE). Se produce diptongos tanto usando tractos vocales móviles 3D como tractos vocales 2D. El enfoque propuesto para vocales y diptongos permite no solo visualizar ondas propagándose a través del tracto vocal sino que también escuchar los correspondientes sonidos generados.

In recent times, three-dimensional computer simulations have become quite popular to model the acoustics of the vocal tract. They can overcome some of the classical limitations of one-dimensional techniques and include all intricate details of the vocal tract geometry, greatly improving the quality of the generated sounds. The finite element method (FEM) is probably the most appropriate approach for solving the underlying equations of voice. In the first part of this thesis the problem of vowel production is addressed. FEM is used to solve the wave equation for the acoustic pressure combined with a Perfectly Matched Layer (PML) to account for free-field radiation conditions. This allows the simulation of acoustic waves propagating through the vocal tract and emanating from the mouth aperture. The proposed FEM approach is then validated against experiments performed with simplified vocal tract replicas. Following is an adaptation of a two-microphone transfer function method to compute vocal tract impedances, which becomes later used to analyze the radiation effects of human head simplifications on vowels. Finally, it is proposed to perform two-dimensional (2D) simulations based on a tuning process that allows 2D vocal tracts to mimic the acoustics of 3D vocal tracts, to a large extent. This results in a very good balance between computational cost and voice quality. In the second part of the thesis diphthong sounds are generated. A stabilized finite element scheme for the mixed wave equation in an Arbitrary Lagrangian-Eulerian (ALE) framework is derived for that purpose. Diphthongs are produced using both, 3D moving vocal tracts as well as 2D tuned vocal tracts. The proposed approach for vowels and diphthongs allows not only to visualize waves propagating within the vocal tract but also to listen to the corresponding generated sounds.

Keywords

Voice production; Vocal tract acoustics; Acoustics; Finite element method; Vowels; Diphthongs

Subjects

62 - Engineering

Knowledge Area

Enginyeria i Arquitectura

Documents

Marc Arnela - PhD Thesis.pdf

10.30Mb

Export

DIDL MARC MARC_CCUC METS OAI_DC ORE QDC RDF

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)

Departament de Tecnologies Audiovisuals [4]

Àrea de contingut