dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Şentürk, Sertan
dc.date.accessioned
2017-04-05T10:50:01Z
dc.date.available
2017-04-05T10:50:01Z
dc.date.issued
2017-02-22
dc.identifier.uri
http://hdl.handle.net/10803/402102
dc.description.abstract
This thesis addresses several shortcomings on the current state of the
art methodologies in music information retrieval (MIR). In particular, it
proposes several computational approaches to automatically analyze and
describe music scores and audio recordings of Ottoman-Turkish makam
music (OTMM). The main contributions of the thesis are the music corpus
that has been created to carry out the research and the audio-score
alignment methodology developed for the analysis of the corpus. In addition,
several novel computational analysis methodologies are presented in
the context of common MIR tasks of relevance for OTMM. Some example
tasks are predominant melody extraction, tonic identification, tempo
estimation, makam recognition, tuning analysis, structural analysis and
melodic progression analysis. These methodologies become a part of a
complete system called Dunya-makam for the exploration of large corpora
of OTMM.
The thesis starts by presenting the created CompMusic Ottoman-
Turkish makam music corpus. The corpus includes 2200 music scores,
more than 6500 audio recordings, and accompanying metadata. The data
has been collected, annotated and curated with the help of music experts.
Using criteria such as completeness, coverage and quality, we validate the
corpus and show its research potential. In fact, our corpus is the largest
and most representative resource of OTMM that can be used for computational
research. Several test datasets have also been created from the
corpus to develop and evaluate the specific methodologies proposed for
different computational tasks addressed in the thesis.
The part focusing on the analysis of music scores is centered on phrase
and section level structural analysis. Phrase boundaries are automatically
identified using an existing state-of-the-art segmentation methodology.
Section boundaries are extracted using heuristics specific to the formatting
of the music scores. Subsequently, a novel method based on graph
analysis is used to establish similarities across these structural elements
in terms of melody and lyrics, and to label the relations semiotically.
The audio analysis section of the thesis reviews the state-of-the-art
for analysing the melodic aspects of performances of OTMM. It proposes
adaptations of existing predominant melody extraction methods tailored
to OTMM. It also presents improvements over pitch-distribution-based
tonic identification and makam recognition methodologies.
The audio-score alignment methodology is the core of the thesis. It
addresses the culture-specific challenges posed by the musical characteristics,
music theory related representations and oral praxis of OTMM.
Based on several techniques such as subsequence dynamic time warping,
Hough transform and variable-length Markov models, the audio-score
alignment methodology is designed to handle the structural differences
between music scores and audio recordings. The method is robust to the
presence of non-notated melodic expressions, tempo deviations within the
music performances, and differences in tonic and tuning. The methodology
utilizes the outputs of the score and audio analysis, and links the
audio and the symbolic data. In addition, the alignment methodology is
used to obtain score-informed description of audio recordings. The scoreinformed
audio analysis not only simplifies the audio feature extraction
steps that would require sophisticated audio processing approaches, but
also substantially improves the performance compared with results obtained
from the state-of-the-art methods solely relying on audio data.
The analysis methodologies presented in the thesis are applied to the
CompMusic Ottoman-Turkish makam music corpus and integrated into
a web application aimed at culture-aware music discovery. Some of
the methodologies have already been applied to other music traditions
such as Hindustani, Carnatic and Greek music. Following open research
best practices, all the created data, software tools and analysis results are
openly available. The methodologies, the tools and the corpus itself provide
vast opportunities for future research in many fields such as music
information retrieval, computational musicology and music education.
dc.description.abstract
Esta tesis aborda varias limitaciones de las metodologías más avanzadas
en el campo de recuperación de información musical (MIR por sus siglas
en inglés). En particular, propone varios métodos computacionales
para el análisis y la descripción automáticas de partituras y grabaciones
de audio de música de makam turco-otomana (MMTO). Las principales
contribuciones de la tesis son el corpus de música que ha sido creado
para el desarrollo de la investigación y la metodología para alineamiento
de audio y partitura desarrollada para el análisis del corpus. Además,
se presentan varias metodologías nuevas para análisis computacional en
el contexto de las tareas comunes de MIR que son relevantes para MMTO.
Algunas de estas tareas son, por ejemplo, extracción de la melodía
predominante, identificación de la tónica, estimación de tempo, reconocimiento
de makam, análisis de afinación, análisis estructural y análisis de
progresión melódica. Estas metodologías constituyen las partes de un sistema
completo para la exploración de grandes corpus de MMTO llamado
Dunya-makam.
La tesis comienza presentando el corpus de música de makam turcootomana
de CompMusic. El corpus incluye 2200 partituras, más de 6500
grabaciones de audio, y los metadatos correspondientes. Los datos han
sido recopilados, anotados y revisados con la ayuda de expertos. Utilizando criterios como compleción, cobertura y calidad, validamos el corpus
y mostramos su potencial para investigación. De hecho, nuestro corpus
constituye el recurso de mayor tamaño y representatividad disponible para
la investigación computacional de MMTO. Varios conjuntos de datos para
experimentación han sido igualmente creados a partir del corpus, con el
fin de desarrollar y evaluar las metodologías específicas propuestas para
las diferentes tareas computacionales abordadas en la tesis.
La parte dedicada al análisis de las partituras se centra en el análisis
estructural a nivel de sección y de frase. Los márgenes de frase son identificados
automáticamente usando uno de los métodos de segmentación
existentes más avanzados. Los márgenes de sección son extraídos usando
una heurística específica al formato de las partituras. A continuación,
se emplea un método de nueva creación basado en análisis gráfico para
establecer similitudes a través de estos elementos estructurales en cuanto
a melodía y letra, así como para etiquetar relaciones semióticamente.
La sección de análisis de audio de la tesis repasa el estado de la cuestión
en cuanto a análisis de los aspectos melódicos en grabaciones de MMTO.
Se proponen modificaciones de métodos existentes para extracción
de melodía predominante para ajustarlas a MMTO. También se presentan
mejoras de metodologías tanto para identificación de tónica basadas
en distribución de alturas, como para reconocimiento de makam.
La metodología para alineación de audio y partitura constituye el grueso
de la tesis. Aborda los retos específicos de esta cultura según vienen
determinados por las características musicales, las representaciones relacionadas
con la teoría musical y la praxis oral de MMTO. Basada en
varias técnicas tales como deformaciones dinámicas de tiempo subsecuentes,
transformada de Hough y modelos de Markov de longitud variable,
la metodología de alineamiento de audio y partitura está diseñada para tratar
las diferencias estructurales entre partituras y grabaciones de audio. El
método es robusto a la presencia de expresiones melódicas no anotadas,
desviaciones de tiempo en las grabaciones, y diferencias de tónica y afinación.
La metodología utiliza los resultados del análisis de partitura y
audio para enlazar el audio y los datos simbólicos. Además, la metodología
de alineación se usa para obtener una descripción informada por
partitura de las grabaciones de audio. El análisis de audio informado por
partitura no sólo simplifica los pasos para la extracción de características
de audio que de otro modo requerirían sofisticados métodos de procesado
de audio, sino que también mejora sustancialmente su rendimiento en
comparación con los resultados obtenidos por los métodos más avanzados
basados únicamente en datos de audio.
Las metodologías analíticas presentadas en la tesis son aplicadas al
corpus de música de makam turco-otomana de CompMusic e integradas
en una aplicación web dedicada al descubrimiento culturalmente específico
de música. Algunas de las metodologías ya han sido aplicadas a
otras tradiciones musicales, como música indostaní, carnática y griega.
Siguiendo las mejores prácticas de investigación en abierto, todos los datos
creados, las herramientas de software y los resultados de análisis está
disponibles públicamente. Las metodologías, las herramientas y el corpus
en sí mismo ofrecen grandes oportunidades para investigaciones futuras
en muchos campos tales como recuperación de información musical, musicología
computacional y educación musical.
dc.description.abstract
Aquesta tesi adreça diverses deficiències en l’estat actual de les metodologies
d’extracció d’informació de música (Music Information Retrieval o
MIR). En particular, la tesi proposa diverses estratègies per analitzar i descriure
automàticament partitures musicals i enregistraments d’actuacions
musicals de música Makam Turca Otomana (OTMM en les seves sigles
en anglès). Les contribucions principals de la tesi són els corpus musicals
que s’han creat en el context de la tesi per tal de dur a terme la recerca i
la metodologia de alineament d’àudio amb la partitura que s’ha desenvolupat
per tal d’analitzar els corpus. A més la tesi presenta diverses noves
metodologies d’anàlisi computacional d’OTMM per a les tasques més habituals
en MIR. Alguns exemples d’aquestes tasques són la extracció de
la melodia principal, la identificació del to musical, l’estimació de tempo,
el reconeixement de Makam, l’anàlisi de la afinació, l’anàlisi de la
estructura musical i l’anàlisi de la progressió melòdica. Aquest seguit de
metodologies formen part del sistema Dunya-makam per a la exploració
de grans corpus musicals d’OTMM.
En primer lloc, la tesi presenta el corpus CompMusic Ottoman-
Turkish makam music. Aquest inclou 2200 partitures musicals, més de
6500 enregistraments d’àudio i metadata complementària. Les dades han
sigut recopilades i anotades amb ajuda d’experts en aquest repertori musical. El corpus ha estat validat en termes de d’exhaustivitat, cobertura i
qualitat i mostrem aquí el seu potencial per a la recerca. De fet, aquest
corpus és el la font més gran i representativa de OTMM que pot ser utilitzada
per recerca computacional. També s’han desenvolupat diversos
subconjunts de dades per al desenvolupament i evaluació de les metodologies
específiques proposades per a les diverses tasques computacionals
que es presenten en aquest tesi.
La secció de la tesi que tracta de l’anàlisi de partitures musicals se centra
en l’anàlisi estructural a nivell de secció i de frase musical. Els límits
temporals de les frases musicals s’identifiquen automàticament gràcies a
un metodologia de segmentació d’última generació. Els límits de les seccions
s’extreuen utilitzant un seguit de regles heurístiques determinades
pel format de les partitures musicals. Posteriorment s’utilitza un nou mètode
basat en anàlisi gràfic per establir semblances entre aquest elements
estructurals en termes de melodia i text. També s’utilitza aquest mètode
per etiquetar les relacions semiòtiques existents.
La següent secció de la tesi tracta sobre anàlisi d’àudio i en particular
revisa les tecnologies d’avantguardia d’anàlisi dels aspectes melòdics en
OTMM. S’hi proposen adaptacions dels mètodes d’extracció de melodia
existents que s’ajusten a OTMM. També s’hi presenten millores en metodologies
de reconeixement de makam i en identificació de tònica basats
en distribució de to.
La metodologia d’alineament d’àudio amb partitura és el nucli de
la tesi. Aquesta aborda els reptes culturalment específics imposats per
les característiques musicals, les representacions de la teoria musical i
la pràctica oral particulars de l’OTMM. Utilitzant diverses tècniques tal
i com Dynamic Time Warping, Hough Transform o models de Markov
de durada variable, la metodologia d’alineament esta dissenyada per enfrontar
les diferències estructurals entre partitures musicals i enregistraments
d’àudio. El mètode és robust inclús en presència d’expressions
musicals no anotades en la partitura, desviacions de tempo ocorregudes
en les actuacions musicals i diferències de tònica i afinació. La metodologia
aprofita els resultats de l’anàlisi de la partitura i l’àudio per enllaçar
la informació simbòlica amb l’àudio. A més, la tècnica d’alineament
s’utilitza per obtenir descripcions de l’àudio fonamentades en la partitura.
L’anàlisi de l’àudio fonamentat en la partitura no només simplifica les fases
d’extracció de característiques d’àudio que requeririen de mètodes de
processament d’àudio sofisticats, sinó que a més millora substancialment
els resultats comparat amb altres mètodes d´ultima generació que només
depenen de contingut d’àudio.
Les metodologies d’anàlisi presentades s’han utilitzat per analitzar
el corpus CompMusic Ottoman-Turkish makam music i s’han integrat en
una aplicació web destinada al descobriment musical de tradicions culturals
específiques. Algunes de les metodologies ja han sigut també aplicades
a altres tradicions musicals com la Hindustani, la Carnàtica i la Grega.
Seguint els preceptes de la investigació oberta totes les dades creades, eines
computacionals i resultats dels anàlisis estan disponibles obertament.
Tant les metodologies, les eines i el corpus en si mateix proporcionen àmplies
oportunitats per recerques futures en diversos camps de recerca tal
i com la musicologia computacional, la extracció d’informació musical i
la educació musical.
Traducció d’anglès a català per Oriol Romaní Picas.
dc.format.mimetype
application/pdf
dc.publisher
Universitat Pompeu Fabra
dc.relation
Dades primàries
dc.relation.uri
http://hdl.handle.net/10230/33729
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Ottoman-Turkish makam music
dc.subject
Machine learning
dc.subject
Audio signal processing
dc.subject
Music information retrieval
dc.subject
Audio-score alignment
dc.subject
Dynamic time warping
dc.subject
Subsequence matching
dc.subject
Graph analysis
dc.subject
Directed acyclic graphs
dc.subject
k-means clustering
dc.subject
Variable-length Markov models
dc.subject
Audio recording
dc.subject
Automatic description
dc.subject
Research corpus
dc.subject
Reproducibility
dc.subject
Arel-Ezgi-Uzdilek theory
dc.subject
Automatic phrase segmentation
dc.subject
Semiotic labeling
dc.subject
Predominant melody extraction
dc.subject
Pitch-class distribution
dc.subject
Melodic progression
dc.subject
Music discovery
dc.subject
Hindustani music
dc.subject
Carnatic music
dc.subject
Raga recognition
dc.subject
Música makam turc otomana
dc.subject
aprenentatge automàtic
dc.subject
Recuperació d’informació musical
dc.subject
Deformació dinàmica de temps
dc.subject
Emparellament de subseqüències
dc.subject
anàlisi gràfica
dc.subject
Aglomeració de k mitjanes
dc.subject
Models de Markov de longitud variable
dc.subject
Partitura musical
dc.subject
Corpus de recerca
dc.subject
Conjunt de dades de proba
dc.subject
Teoria Arel-Ezgi-Uzdilek
dc.subject
Extracció de la melodia predominant
dc.subject
Música hindustani
dc.subject
Reconeixement de raga
dc.title
Computational analysis of audio recordings and music scores for the description and discovery of Ottoman-Turkish Makam music
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.authoremail
sertan.senturk@upf.edu
dc.contributor.director
Serra, Xavier
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de doctorat en Tecnologies de la Informació i les Comunicacions