Modeling timbre for neural singing synthesis: methods for data-efficient, reduced effort voice creation, and fast and stable inference

Author

Blaauw, Merlijn

Director

Gómez Gutiérrez, Emilia

Bonada, Jordi

Date of defense

2022-07-22

Pages

238 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

Doctorate programs

Programa de doctorat en Tecnologies de la Informació i les Comunicacions

Abstract

Singing synthesis has seen a notable surge in popularity in the last decade and a half. Music producers use this technology as an instrument, there is an audience for music with synthetic vocals, and an entire range of cultural phenomena surrounding singing synthesis has emerged. At the time of starting this work, the prevailing approaches for singing synthesis were concatenative synthesis on the one hand, and hidden Markov model synthesis on the other. Concatenative synthesis was state of the art in terms of quality, but lacked flexibility due to being based on signal processing, heuristics and carefully prepared data. By contrast, hidden Markov model synthesis is based on data-driven machine learning, which brings a certain degree of flexibility, but was never able to match the sound quality of concatenative synthesis. At the same time, the field of text-to-speech started to shift towards powerful new deep learning models that have shown to be able to combine high-quality results with a high degree of flexibility. In this dissertation, we try to answer whether similar models can also live up to this potential for singing synthesis. We also try to answer whether these approaches allow fast and stable synthesis, qualities important for many real-world applications. Finally, we try to answer whether the flexibility that the deep learning approaches offer allows creating new voices with smaller amounts of data, and less effort (time, expert knowledge), which is a notable bottleneck in older approaches. To this end, we propose a number of singing synthesis models, and evaluate them, principally through listening tests. The first part of this dissertation focuses on modeling timbre, via autoregressive and non-autoregressive models. The second part focuses on improving data efficiency through voice cloning, reducing the voice creation effort by using a sequence-to-sequence mechanism that requires fewer annotations, and a semi-supervised model which combines supervised pre-training with unsupervised training of a new target voice. Through our experiments, we show deep learning methods can not only outperform the previous state of the art, they can also allow for a significantly reduced voice creation effort. With our work on these elemental problems in singing synthesis, we hope that future research can advance the field further by focusing on topics such as expression, user control and non-modal voice qualities.


La síntesis de canto ha visto un aumento notable en popularidad en la última década y media. Los productores de música utilizan esta tecnología como instrumento, existe una audiencia para la música con voces sintéticas y ha surgido toda una gama de fenómenos culturales en torno a la síntesis del canto. Al momento de comenzar este trabajo, los enfoques principales para la síntesis de canto eran la síntesis concatenativa por un lado y la síntesis basada en modelos ocultos de Márkov por el otro. La síntesis concatenativa era estado del arte en términos de calidad, pero carecía de flexibilidad debido a estar basado en el procesamiento de señales, heurísticas y datos cuidadosamente preparados. Por el contrario, la síntesis basada en modelos ocultos de Márkov se basa en el aprendizaje automático usando datos, lo que brinda cierto grado de flexibilidad, pero nunca pudo igualar la calidad de sonido de la síntesis concatenativa. Al mismo tiempo, el campo de «text-to-speech» comenzó a cambiar hacia nuevos y poderosos modelos de «deep learning» que han demostrado ser capaces de combinar resultados de alta calidad con un alto grado de flexibilidad. En esta tesis, tratamos de responder si modelos similares también pueden estar a la altura de este potencial para la síntesis de canto. También tratamos de responder si estos enfoques permiten una síntesis rápida y estable, cualidades importantes para muchas aplicaciones del mundo real. Finalmente, tratamos de responder si la flexibilidad que ofrece el «deep learning» permite crear nuevas voces con cantidades más pequeñas de datos y menos esfuerzo (tiempo, conocimiento experto), lo cual es un cuello de botella importante enlos enfoques previos. Para ello, proponemos una serie de modelos de síntesis de canto y los evaluamos, principalmente a través de pruebas de escucha. La primera parte de esta tesis se centra en el modelado del timbre, a través de modelos autorregresivos y no autorregresivos. La segunda parte se centra en mejorar la eficiencia de los datos a través de la clonación de voz, reduciendo el esfuerzo de creación de voz mediante el uso de un mecanismo «sequence-to-sequence» que requiere menos anotaciones y un modelo semisupervisado que combina un entrenamiento previo supervisado con un entrenamiento no supervisado de la nueva voz deseada. A través de nuestros experimentos, mostramos que los métodos de «deep learning» no solo pueden superar el estado del arte anterior, sino que también pueden permitir un esfuerzo de creación de voz significativamente reducido. Con nuestro trabajo sobre estos problemas elementales en la síntesis del canto, esperamos que la investigación futura pueda avanzar más en el campo centrándose en temas como la expresión, el control del usuario y las cualidades de voz no modales.


La síntesi del cant ha experimentat un notable augment de popularitat en l’última dècada i mitja. Els productors musicals utilitzen aquesta tecnologia com a instrument, existeix un públic interessat en la música amb veus sintètiques i ha sorgit tota una sèrie de fenòmens culturals al voltant de la síntesi del cant. En el moment d’iniciar aquest treball, els enfocaments predominants per a la síntesi del cant eren la síntesi concatenativa d’una banda i la síntesi basada en els models ocults de Màrkov de l’altra. La síntesi concatenativa era l’estat de l’art en termes de qualitat, però mancada de flexibilitat perquè es basa en el processament del senyal, l’heurística i les dades curosament preparades. Per contra, la síntesi basada en models ocults de Màrkov es fonamenta en l’aprenentatge automàtic a partir de dades, que aporta un cert grau de flexibilitat, però que mai no ha igualat la qualitat de la síntesi concatenativa. Al mateix temps, el camp «text-to-speech» va començar a canviar cap a nous models potents de «deep learning» que han demostrat ser capaços de combinar resultats d’alta qualitat amb un alt grau de flexibilitat. En aquesta tesi, intentem respondre si models similars també poden estar a l’altura d’aquest potencial per a la síntesi del cant. També intentem respondre si aquests enfocaments permeten una síntesi ràpida i estable, qualitats importants per a moltes aplicacions del món real. Finalment, intentem respondre si la flexibilitat que ofereix el «deep learning» permet crear noves veus emprant menors quantitats de dades i menys esforç (temps, coneixement expert), que és un dels grans coll d’ampolla dels enfocaments anteriors. Per a això, proposem una sèrie de models de síntesi de cant, i els avaluem, principalment mitjançant proves auditives. La primera part d’aquesta tesi se centra en la modelització del timbre, mitjançant models autoregressius i no autoregressius. La segona part se centra a millorar l’eficiència de les dades mitjançant la clonació de veu, reduint l’esforç de creació de veu mitjançant l’ús d’un mecanisme «sequence-to-sequence» que requereix menys anotacions, i un model semisupervisat que combina un entrenament previ supervisat amb un entrenament no supervisat de la nova veu desitjada. A través dels nostres experiments, mostrem que els mètodes de «deep learning» no només poden superar l’estat de l’art anterior, sinó que alhora permeten un esforç de creació de veu significativament reduït. Amb el nostre treball sobre aquests problemes elementals en la síntesi del cant, esperem que properes investigacions puguin avançar encara més centrant-se en temes com l’expressió, el control d’usuari i les qualitats de veu no modals.

Keywords

Singing synthesis; Deep learning; Autoregressive modeling; Fast inference; Reduced effort voice creation; Síntesis de canto; Aprendizaje profundo; Modelado autorregresivo; Inferencia rápida; Creación de voces con esfuerzo reducido; Síntesi de cant; Aprenentatge profund; Modelat autorregressiu; Inferència ràpida; Creació de veus amb esforç reduït

Subjects

62 - Engineering. Technology in general

Documents

tmb.pdf

10.87Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)