Data-driven pitch content description of choral singing recordings

Author

Cuesta, Helena

Director

Gómez Gutiérrez, Emilia

Date of defense

2022-03-21

Pages

275 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

Doctorate programs

Programa de doctorat en Tecnologies de la Informació i les Comunicacions

Abstract

Ensemble singing is a well-established practice across cultures, found in a great diversity of forms, languages, and levels. However, it has not been widely studied in the field of Music Information Retrieval (MIR), likely due to the lack of appropriate data. In this dissertation, we first address the data scarcity by building new open, multi-track datasets of ensemble singing. Then, we address three main research problems: multiple F0 estimation and streaming, voice assignment, and the characterization of vocal unisons, all in the context of four-part vocal ensembles. Hence, the first contribution of this thesis is the development and release of four multi-track datasets of vocal ensembles: Choral Singing Dataset, Dagstuhl ChoirSet, ESMUC Choir Dataset, and Cantoría Dataset, all of them with audio recordings and accompanying annotations. The second contribution is a set of deep learning models for multiple F0 estimation, streaming, and voice assignment of vocal quartets, mainly based on convolutional neural networks designed leveraging music domain knowledge. Finally, we propose two methods to characterize vocal unison performances in terms of pitch dispersion.


Cantar en un conjunt vocal és una activitat arrelada a moltes cultures i que es desenvolupa en diversos formats, idiomes i nivells. Tanmateix, la falta de les dades adequades ha fet que no s’hagi estudiat extensivament en el camp de la Recuperació de la Informació Musical (MIR). En aquesta tesi, primer abordem l’escassetat de dades creant noves bases de dades obertes amb gravacions multi-pista de conjunts vocals. Tot seguit, ens centrem principalment en tres tasques d'investigació: estimació i seguiment de múltiples valors de F0, assignació de veus i modelat d’unísons, totes en el context de grups vocals a quatre veus. Per tant, la primera aportació d’aquesta tesi és la publicació de quatre bases de dades amb enregistraments de conjunts vocals: Choral Singing Dataset, Dagstuhl ChoirSet, ESMUC Choir Dataset i Cantoría Dataset, totes amb enregistraments d’àudio multi-pista i anotacions. La segona aportació d’aquesta tesi és un conjunt de models d’aprenentatge profund per l’estimació i el seguiment de múltiples valors de F0 i per l’assignació de veus en quartets vocals, principalment basats en xarxes neuronals convolucionals dissenyades per incorporar coneixement musical. Finalment, proposem dos mètodes per modelar i caracteritzar unísons vocals en termes de dispersió d’altura tonal (pitch).

Keywords

Singing; Choral singing; Vocal music; Multi-pitch estimation; Voice assignment; Open data; Unison; MIR; Automatic music transcription; Cant; Cant coral; Música vocal; Estimació de múltiples freqüències; Assignació de veus; Dades obertes; Uníson; Transcripció automàtica de música

Subjects

62 - Engineering

Documents

thc.pdf

45.52Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/

This item appears in the following Collection(s)