Neural networks for singing voice extraction in monaural polyphonic music signals

Chandna, Pritish

Neural networks for singing voice extraction in monaural polyphonic music signals

dc.contributor

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

dc.contributor.author

Chandna, Pritish

dc.date.accessioned

2022-02-04T13:05:04Z

dc.date.available

2022-03-22T02:00:11Z

dc.date.issued

2021-09-23

dc.identifier.uri

http://hdl.handle.net/10803/673414

dc.description.abstract

This thesis dissertation focuses on singing voice extraction from polyphonic musical signals. In particular, we focus on two cases; contemporary popular music, which typically has a processed singing voice with instrumental accompaniment and ensemble choral singing, which involves multiple singers singing in harmony and unison. Over the last decade, several deep learning based models have been proposed to separate the singing voice from instrumental accompaniment in a musical mixture. Most of these models assume that the musical mixture is a linear sum of the individual sources and estimate time-frequency masks to filter out the sources from the input mixture. While this assumption doesn't always hold, deep learning based models have shown remarkable capacity to model the separate sources in a mixture. In this thesis, we propose an alternative method for singing voice extraction. This methodology assumes that the perceived linguistic and melodic content of a singing voice signal is retained even when it is put through a non-linear mixing process. To this end, we explore language independent representations of linguistic content in a voice signal as well as generative methodologies for voice synthesis. Using these, we propose the framework for a methodology to synthesize a clean singing voice signal from the underlying linguistic and melodic content of a processed voice signal in a musical mixture. In addition, we adapt and evaluate state-of-the-art source separation methodologies to separate the soprano, alto, tenor and bass parts of choral recordings. We also use the proposed methodology for extraction via synthesis along with other deep learning based models to analyze unison singing within choral recordings.

en_US

dc.description.abstract

Aquesta tesi se centra en l’extracció de veu cantada a partir de senyals musicals polifònics. En particular, ens centrem en dos casos; música popular contemporània, que normalment té una veu cantada processada amb acompanyament instrumental, i cant coral, que consisteix en diversos cantants cantant en harmonia i a l’uníson. Durant l’última dècada, s’han proposat diversos models basats en l’aprenentatge profund per separar la veu de l’acompanyament instrumental en una mescla musical. La majoria d’aquests models assumeixen que la mescla és una suma lineal de les fonts individuals i estimen les màscares temps-freqüència per filtrar les fonts de la mescla d’entrada. Tot i que aquesta assumpció no sempre es compleix, els models basats en l’aprenentatge profund han demostrat una capacitat notable per modelar les fonts en una mescla. En aquesta tesi, proposem un mètode alternatiu per l’extracció de la veu cantada. Aquesta metodologia assumeix que el contingut lingüístic i melòdic que percebem d’un senyal de veu cantada es manté fins i tot quan es tracta d’una mescla no lineal. Per a això, explorem representacions del contingut lingüístic independents de l’idioma en un senyal de veu, així com metodologies generatives per a la síntesi de veu. Utilitzant-les, proposem una metodologia per sintetitzar un senyal de veu cantada a partir del contingut lingüístic i melòdic subjacent d’un senyal de veu processat en una mescla musical. A més, adaptem i avaluem metodologies de separació de fonts d’última generació per separar les parts de soprano, contralt, tenor i baix dels enregistraments corals. També utilitzem la metodologia proposada per a l’extracció mitjançant síntesi juntament amb altres models basats en l’aprenentatge profund per analitzar el cant a l’uníson dins dels enregistraments corals.

en_US

dc.description.abstract

Esta disertación doctoral se centra en la extracción de voz cantada a partir de señales musicales polifónicas de audio. En particular, analizamos dos casos; música popular contemporánea, que normalmente contiene voz cantada procesada y acompañada de instrumentación, y canto coral, que involucra a varios coristas cantando en armonía y al unísono. Durante la última década, se han propuesto varios modelos basados en aprendizaje profundo para separar la voz cantada del acompañamiento instrumental en una mezcla musical. La mayoría de estos modelos asumen que la mezcla musical es una suma lineal de fuentes individuales y estiman máscaras de tiempo-frecuencia para extraerlas de la mezcla. Si bien esta suposición no siempre se cumple, los modelos basados en aprendizaje profundo han demostrado tener una gran capacidad para modelar las fuentes de la mezcla. En esta tesis proponemos un método alternativo para extraer voz cantada. Esta técnica asume que el contenido lingüístico y melódico que se percibe en la voz cantada se retiene incluso cuando la señal es sometida a un proceso de mezcla no lineal. Con este fin, exploramos representaciones del contenido lingüístico independientes del lenguaje en la señal de voz, así como metodos generativos para síntesis de voz. Utilizando estas técnicas, proponemos la base para una metodología de síntesis de voz cantada limpia a partir del contenido lingüístico y melódico subyacente de la señal de voz procesada en una mezcla musical. Además, adaptamos y evaluamos metodologías de separación de fuentes de última generación para separar las voces soprano, alto, tenor y bajo de grabaciones corales. También utilizamos la metodología propuesta para extracción mediante síntesis junto con otros modelos basados en aprendizaje profundo para analizar canto al unísono dentro de grabaciones corales.

en_US

dc.format.extent

248 p.

en_US

dc.format.mimetype

application/pdf

dc.language.iso

eng

en_US

dc.publisher

Universitat Pompeu Fabra

dc.rights.license

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

dc.rights.uri

http://creativecommons.org/licenses/by-nc-nd/4.0/

dc.source

TDX (Tesis Doctorals en Xarxa)

dc.subject

Singing voice synthesis

en_US

dc.subject

Source separation

en_US

dc.subject

Choir

en_US

dc.subject

SATB

en_US

dc.subject

Voice analysis

en_US

dc.subject

Síntesis de voz cantada

en_US

dc.subject

Separación de fuentes

en_US

dc.subject

Coro

en_US

dc.subject

Análisis de voz

en_US

dc.subject

Síntesi de veu cantant

en_US

dc.subject

Separació de fonts

en_US

dc.subject

Cor

en_US

dc.subject

Anàlisi de veu

en_US

dc.title

Neural networks for singing voice extraction in monaural polyphonic music signals

en_US

dc.type

info:eu-repo/semantics/doctoralThesis

dc.type

info:eu-repo/semantics/publishedVersion

dc.subject.udc

en_US

dc.contributor.authoremail

pritish.chandna@upf.edu

en_US

dc.contributor.director

Gómez Gutiérrez, Emilia

dc.embargo.terms

6 mesos

en_US

dc.rights.accessLevel

info:eu-repo/semantics/openAccess

dc.description.degree

Programa de doctorat en Tecnologies de la Informació i les Comunicacions

Documentos

tpc.pdf

7.763Mb PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)

Programa de Doctorat en Tecnologies de la Informació i les Comunicacions [394]