Modeling timbre for neural singing synthesis: methods for data-efficient, reduced effort voice creation, and fast and stable inference

dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Blaauw, Merlijn
dc.date.accessioned
2022-08-03T09:42:53Z
dc.date.available
2022-08-03T09:42:53Z
dc.date.issued
2022-07-22
dc.identifier.uri
http://hdl.handle.net/10803/675120
dc.description.abstract
Singing synthesis has seen a notable surge in popularity in the last decade and a half. Music producers use this technology as an instrument, there is an audience for music with synthetic vocals, and an entire range of cultural phenomena surrounding singing synthesis has emerged. At the time of starting this work, the prevailing approaches for singing synthesis were concatenative synthesis on the one hand, and hidden Markov model synthesis on the other. Concatenative synthesis was state of the art in terms of quality, but lacked flexibility due to being based on signal processing, heuristics and carefully prepared data. By contrast, hidden Markov model synthesis is based on data-driven machine learning, which brings a certain degree of flexibility, but was never able to match the sound quality of concatenative synthesis. At the same time, the field of text-to-speech started to shift towards powerful new deep learning models that have shown to be able to combine high-quality results with a high degree of flexibility. In this dissertation, we try to answer whether similar models can also live up to this potential for singing synthesis. We also try to answer whether these approaches allow fast and stable synthesis, qualities important for many real-world applications. Finally, we try to answer whether the flexibility that the deep learning approaches offer allows creating new voices with smaller amounts of data, and less effort (time, expert knowledge), which is a notable bottleneck in older approaches. To this end, we propose a number of singing synthesis models, and evaluate them, principally through listening tests. The first part of this dissertation focuses on modeling timbre, via autoregressive and non-autoregressive models. The second part focuses on improving data efficiency through voice cloning, reducing the voice creation effort by using a sequence-to-sequence mechanism that requires fewer annotations, and a semi-supervised model which combines supervised pre-training with unsupervised training of a new target voice. Through our experiments, we show deep learning methods can not only outperform the previous state of the art, they can also allow for a significantly reduced voice creation effort. With our work on these elemental problems in singing synthesis, we hope that future research can advance the field further by focusing on topics such as expression, user control and non-modal voice qualities.
en_US
dc.description.abstract
La síntesis de canto ha visto un aumento notable en popularidad en la última década y media. Los productores de música utilizan esta tecnología como instrumento, existe una audiencia para la música con voces sintéticas y ha surgido toda una gama de fenómenos culturales en torno a la síntesis del canto. Al momento de comenzar este trabajo, los enfoques principales para la síntesis de canto eran la síntesis concatenativa por un lado y la síntesis basada en modelos ocultos de Márkov por el otro. La síntesis concatenativa era estado del arte en términos de calidad, pero carecía de flexibilidad debido a estar basado en el procesamiento de señales, heurísticas y datos cuidadosamente preparados. Por el contrario, la síntesis basada en modelos ocultos de Márkov se basa en el aprendizaje automático usando datos, lo que brinda cierto grado de flexibilidad, pero nunca pudo igualar la calidad de sonido de la síntesis concatenativa. Al mismo tiempo, el campo de «text-to-speech» comenzó a cambiar hacia nuevos y poderosos modelos de «deep learning» que han demostrado ser capaces de combinar resultados de alta calidad con un alto grado de flexibilidad. En esta tesis, tratamos de responder si modelos similares también pueden estar a la altura de este potencial para la síntesis de canto. También tratamos de responder si estos enfoques permiten una síntesis rápida y estable, cualidades importantes para muchas aplicaciones del mundo real. Finalmente, tratamos de responder si la flexibilidad que ofrece el «deep learning» permite crear nuevas voces con cantidades más pequeñas de datos y menos esfuerzo (tiempo, conocimiento experto), lo cual es un cuello de botella importante enlos enfoques previos. Para ello, proponemos una serie de modelos de síntesis de canto y los evaluamos, principalmente a través de pruebas de escucha. La primera parte de esta tesis se centra en el modelado del timbre, a través de modelos autorregresivos y no autorregresivos. La segunda parte se centra en mejorar la eficiencia de los datos a través de la clonación de voz, reduciendo el esfuerzo de creación de voz mediante el uso de un mecanismo «sequence-to-sequence» que requiere menos anotaciones y un modelo semisupervisado que combina un entrenamiento previo supervisado con un entrenamiento no supervisado de la nueva voz deseada. A través de nuestros experimentos, mostramos que los métodos de «deep learning» no solo pueden superar el estado del arte anterior, sino que también pueden permitir un esfuerzo de creación de voz significativamente reducido. Con nuestro trabajo sobre estos problemas elementales en la síntesis del canto, esperamos que la investigación futura pueda avanzar más en el campo centrándose en temas como la expresión, el control del usuario y las cualidades de voz no modales.
en_US
dc.description.abstract
La síntesi del cant ha experimentat un notable augment de popularitat en l’última dècada i mitja. Els productors musicals utilitzen aquesta tecnologia com a instrument, existeix un públic interessat en la música amb veus sintètiques i ha sorgit tota una sèrie de fenòmens culturals al voltant de la síntesi del cant. En el moment d’iniciar aquest treball, els enfocaments predominants per a la síntesi del cant eren la síntesi concatenativa d’una banda i la síntesi basada en els models ocults de Màrkov de l’altra. La síntesi concatenativa era l’estat de l’art en termes de qualitat, però mancada de flexibilitat perquè es basa en el processament del senyal, l’heurística i les dades curosament preparades. Per contra, la síntesi basada en models ocults de Màrkov es fonamenta en l’aprenentatge automàtic a partir de dades, que aporta un cert grau de flexibilitat, però que mai no ha igualat la qualitat de la síntesi concatenativa. Al mateix temps, el camp «text-to-speech» va començar a canviar cap a nous models potents de «deep learning» que han demostrat ser capaços de combinar resultats d’alta qualitat amb un alt grau de flexibilitat. En aquesta tesi, intentem respondre si models similars també poden estar a l’altura d’aquest potencial per a la síntesi del cant. També intentem respondre si aquests enfocaments permeten una síntesi ràpida i estable, qualitats importants per a moltes aplicacions del món real. Finalment, intentem respondre si la flexibilitat que ofereix el «deep learning» permet crear noves veus emprant menors quantitats de dades i menys esforç (temps, coneixement expert), que és un dels grans coll d’ampolla dels enfocaments anteriors. Per a això, proposem una sèrie de models de síntesi de cant, i els avaluem, principalment mitjançant proves auditives. La primera part d’aquesta tesi se centra en la modelització del timbre, mitjançant models autoregressius i no autoregressius. La segona part se centra a millorar l’eficiència de les dades mitjançant la clonació de veu, reduint l’esforç de creació de veu mitjançant l’ús d’un mecanisme «sequence-to-sequence» que requereix menys anotacions, i un model semisupervisat que combina un entrenament previ supervisat amb un entrenament no supervisat de la nova veu desitjada. A través dels nostres experiments, mostrem que els mètodes de «deep learning» no només poden superar l’estat de l’art anterior, sinó que alhora permeten un esforç de creació de veu significativament reduït. Amb el nostre treball sobre aquests problemes elementals en la síntesi del cant, esperem que properes investigacions puguin avançar encara més centrant-se en temes com l’expressió, el control d’usuari i les qualitats de veu no modals.
en_US
dc.format.extent
238 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
eng
en_US
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Singing synthesis
en_US
dc.subject
Deep learning
en_US
dc.subject
Autoregressive modeling
en_US
dc.subject
Fast inference
en_US
dc.subject
Reduced effort voice creation
en_US
dc.subject
Síntesis de canto
en_US
dc.subject
Aprendizaje profundo
en_US
dc.subject
Modelado autorregresivo
en_US
dc.subject
Inferencia rápida
en_US
dc.subject
Creación de voces con esfuerzo reducido
en_US
dc.subject
Síntesi de cant
en_US
dc.subject
Aprenentatge profund
en_US
dc.subject
Modelat autorregressiu
en_US
dc.subject
Inferència ràpida
en_US
dc.subject
Creació de veus amb esforç reduït
en_US
dc.title
Modeling timbre for neural singing synthesis: methods for data-efficient, reduced effort voice creation, and fast and stable inference
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
62
en_US
dc.contributor.authoremail
merlijn.blaauw@gmail.com
en_US
dc.contributor.director
Gómez Gutiérrez, Emilia
dc.contributor.director
Bonada, Jordi
dc.embargo.terms
cap
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de doctorat en Tecnologies de la Informació i les Comunicacions


Documents

tmb.pdf

10.87Mb PDF

This item appears in the following Collection(s)