dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Miron, Marius
dc.date.accessioned
2018-03-16T11:23:22Z
dc.date.available
2018-03-16T11:23:22Z
dc.date.issued
2018-02-08
dc.identifier.uri
http://hdl.handle.net/10803/462859
dc.description.abstract
Humans are able to distinguish between various sound sources in their environment and
selectively attend to specific ones. However, it is a difficult task to teach a computer
to automatically separate the acoustic scene into sources and solely focus on specific
elements. This signal processing task is commonly known as audio source separation
and involves recovering the sources which are mixed together in a combined signal.
This thesis is concerned with source separation of Western classical music mixtures,
namely orchestral music. Being able to separate the audio corresponding to the instruments
allows for interesting applications such as focusing on a particular section in
the orchestra or re-creating the experience of a concert in virtual reality. Additionally,
the separated instrument tracks can be further analyzed by other music information research
algorithms which perform better on these signals than on the audio signal of the
mixture.
Music source separation improves if we know which instruments are present in the
piece, and if we have the score e.g. the notes played by each instrument. In fact,
the more information we have about a music piece, the better the resulting separation.
For orchestral music the instruments are known, and we train timbre models for
each instrument, a case commonly known as timbre-informed source separation. In
addition, since scores are commonly available for orchestral pieces, we leverage this
information to further improve the separation. This scenario is known in literature as
score-informed source separation.
Towards an objective evaluation, in the second part of the thesis we propose an orchestral
music dataset accompanied by score annotations and an evaluation methodology
which assesses the influence of difference parts of the separation framework. In the third part of the thesis, our contributions are towards fixing context-specific problems
encountered in score-informed source separation, like the errors in the alignment
between a score and the associated renditions. Furthermore, while we work towards
improve existing separation frameworks, in the fourth part of the thesis we propose a
low latency framework relying on deep learning. With respect to that, we aim at overcoming
data scarcity in the case of supervised source separation approaches by taking
advantage of the traits of this music tradition to generate better data to train neural
networks. In addition, in the fifth part, we introduce a cloud-based source separation
software architecture and the associated applications.
Most of this work follows the research reproducibility principles, inasmuch the datasets,
code, software prototypes, published papers, and project reports are made available
along with the necessary instructions.
en_US
dc.description.abstract
Els humans tenen la capacitat de discernir diverses fonts sonores provinents de l’entorn
i focalitzar la seva atenció a algunes d’elles de forma selectiva. Tot i això, ensenyar a un
ordinador a separar automàticament una escena acústica en diverses fonts i focalitzarse
en una sola d’elles és una tasca difícil. Aquesta tasca de processament de senyal es
coneix habitualment com a separació de fonts sonores i implica recuperar separadament
les diverses fonts originals d’una mescla sonora.
Aquesta tesi se centra en la separació de fonts sonores de música clàssica occidental o
música orquestral. La capacitat de separar l’àudio dels diferents instruments musicals
permet aplicacions interessants com l’escolta d’una secció particular de la orquestra o
la recreació d’un concert en un entorn de realitat virtual. A més, les diverses pistes
d’instruments poden ser analitzades posteriorment per altres algoritmes d’extracció sonora
que funcionen millor en aquest tipus de senyals comparat amb com funcionen en
la senyal mesclada.
La separació de fonts sonores musicals millora tant si tenim coneixement previ dels instruments
presents en la peça musical com si disposem de la partitura. De fet, com més
informació tinguem sobre la música, més podem restringir el nostre model i millor serà
la separació resultant. En la música orquestral els instruments són coneguts d’entrada,
de tal manera que podem entrenar models de timbre per a cada instrument. Aquesta
tècnica es coneix com separació de fonts informada amb timbre. A més, aquest gènere
musical acostuma a fer servir partitures, la informació de les quals es pot fer servir per
millorar la separació. Aquest cas es coneix com a separació de fonts sonores informada
amb partitura.
De cara a una avaluació objectiva, en la segona part de la tesi proposem un conjunt de dades de música orquestral amb partitures i una metodologia d’avaluació per comprovar
la influència de les diferents parts de la estructura de separació. En la tercera part de
la tesi, les nostres contribucions se centren en arreglar diversos problemes específics del
context com els errors en l’alineament entre la partitura i les diferents interpretacions
d’aquesta. A més, alhora que treballem en millorar els models de separació existents,
en el quart capítol proposem un model de baixa latència basat en aprenentatge profund.
Respecte a aquest model, pretenem superar el problema de la falta de dades en els models
de separació supervisada de fonts sonores aprofitant les característiques d’aquesta
tradició musical per generar dades que pugin entrenar millor les xarxes neuronals. A
més, en la cinquena part introduïm una arquitectura de separació de fonts sonores al
núvol i les seves aplicacions associades.
La major part de la recerca d’aquesta tesi segueix els principis de reproductibilitat ja
que els conjunts de dades, el codi, els prototips de programari, les publicacions i els
informes de projecte estan disponibles obertament, conjuntament amb les instruccions
necessàries per fer-los servir.
en_US
dc.format.extent
265 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
eng
en_US
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-nc/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Source separation methods
en_US
dc.subject
Orquestral music
en_US
dc.title
Source separation methods for orchestral music: timbre-informed and score-informed strategies
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.authoremail
marius.miron@upf.edu
en_US
dc.contributor.director
Gómez Gutiérrez, Emilia
dc.embargo.terms
cap
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de doctorat en Tecnologies de la Informació i les Comunicacions