Source separation methods for orchestral music: timbre-informed and score-informed strategies

Author

Miron, Marius

Director

Gómez Gutiérrez, Emilia

Date of defense

2018-02-08

Pages

265 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

Doctorate programs

Programa de doctorat en Tecnologies de la Informació i les Comunicacions

Abstract

Humans are able to distinguish between various sound sources in their environment and selectively attend to specific ones. However, it is a difficult task to teach a computer to automatically separate the acoustic scene into sources and solely focus on specific elements. This signal processing task is commonly known as audio source separation and involves recovering the sources which are mixed together in a combined signal. This thesis is concerned with source separation of Western classical music mixtures, namely orchestral music. Being able to separate the audio corresponding to the instruments allows for interesting applications such as focusing on a particular section in the orchestra or re-creating the experience of a concert in virtual reality. Additionally, the separated instrument tracks can be further analyzed by other music information research algorithms which perform better on these signals than on the audio signal of the mixture. Music source separation improves if we know which instruments are present in the piece, and if we have the score e.g. the notes played by each instrument. In fact, the more information we have about a music piece, the better the resulting separation. For orchestral music the instruments are known, and we train timbre models for each instrument, a case commonly known as timbre-informed source separation. In addition, since scores are commonly available for orchestral pieces, we leverage this information to further improve the separation. This scenario is known in literature as score-informed source separation. Towards an objective evaluation, in the second part of the thesis we propose an orchestral music dataset accompanied by score annotations and an evaluation methodology which assesses the influence of difference parts of the separation framework. In the third part of the thesis, our contributions are towards fixing context-specific problems encountered in score-informed source separation, like the errors in the alignment between a score and the associated renditions. Furthermore, while we work towards improve existing separation frameworks, in the fourth part of the thesis we propose a low latency framework relying on deep learning. With respect to that, we aim at overcoming data scarcity in the case of supervised source separation approaches by taking advantage of the traits of this music tradition to generate better data to train neural networks. In addition, in the fifth part, we introduce a cloud-based source separation software architecture and the associated applications. Most of this work follows the research reproducibility principles, inasmuch the datasets, code, software prototypes, published papers, and project reports are made available along with the necessary instructions.


Els humans tenen la capacitat de discernir diverses fonts sonores provinents de l’entorn i focalitzar la seva atenció a algunes d’elles de forma selectiva. Tot i això, ensenyar a un ordinador a separar automàticament una escena acústica en diverses fonts i focalitzarse en una sola d’elles és una tasca difícil. Aquesta tasca de processament de senyal es coneix habitualment com a separació de fonts sonores i implica recuperar separadament les diverses fonts originals d’una mescla sonora. Aquesta tesi se centra en la separació de fonts sonores de música clàssica occidental o música orquestral. La capacitat de separar l’àudio dels diferents instruments musicals permet aplicacions interessants com l’escolta d’una secció particular de la orquestra o la recreació d’un concert en un entorn de realitat virtual. A més, les diverses pistes d’instruments poden ser analitzades posteriorment per altres algoritmes d’extracció sonora que funcionen millor en aquest tipus de senyals comparat amb com funcionen en la senyal mesclada. La separació de fonts sonores musicals millora tant si tenim coneixement previ dels instruments presents en la peça musical com si disposem de la partitura. De fet, com més informació tinguem sobre la música, més podem restringir el nostre model i millor serà la separació resultant. En la música orquestral els instruments són coneguts d’entrada, de tal manera que podem entrenar models de timbre per a cada instrument. Aquesta tècnica es coneix com separació de fonts informada amb timbre. A més, aquest gènere musical acostuma a fer servir partitures, la informació de les quals es pot fer servir per millorar la separació. Aquest cas es coneix com a separació de fonts sonores informada amb partitura. De cara a una avaluació objectiva, en la segona part de la tesi proposem un conjunt de dades de música orquestral amb partitures i una metodologia d’avaluació per comprovar la influència de les diferents parts de la estructura de separació. En la tercera part de la tesi, les nostres contribucions se centren en arreglar diversos problemes específics del context com els errors en l’alineament entre la partitura i les diferents interpretacions d’aquesta. A més, alhora que treballem en millorar els models de separació existents, en el quart capítol proposem un model de baixa latència basat en aprenentatge profund. Respecte a aquest model, pretenem superar el problema de la falta de dades en els models de separació supervisada de fonts sonores aprofitant les característiques d’aquesta tradició musical per generar dades que pugin entrenar millor les xarxes neuronals. A més, en la cinquena part introduïm una arquitectura de separació de fonts sonores al núvol i les seves aplicacions associades. La major part de la recerca d’aquesta tesi segueix els principis de reproductibilitat ja que els conjunts de dades, el codi, els prototips de programari, les publicacions i els informes de projecte estan disponibles obertament, conjuntament amb les instruccions necessàries per fer-los servir.

Keywords

Source separation methods; Orquestral music

Subjects

62 - Engineering. Technology in general

Documents

tmm.pdf

8.360Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/

This item appears in the following Collection(s)