dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Koduri, Gopala Krishna
dc.date.accessioned
2017-04-21T10:42:50Z
dc.date.available
2017-04-21T10:42:50Z
dc.date.issued
2017-02-22
dc.identifier.uri
http://hdl.handle.net/10803/402439
dc.description.abstract
This thesis is a result of our research efforts in building a multi-modal knowledgebase
for the specific case of Carnatic music. Besides making use of metadata
and symbolic notations, we process natural language text and audio data to extract
culturally relevant and musically meaningful information and structuring
it with formal knowledge representations. This process broadly consists of two
parts. In the first part, we analyze the audio recordings for intonation description
of pitches used in the performances. We conduct a thorough survey and
evaluation of the previously proposed pitch distribution based approaches on a
common dataset, outlining their merits and limitations. We propose a new data
model to describe pitches to overcome the shortcomings identified. This expands
the perspective of the note model in-vogue to cater to the conceptualization of
melodic space in Carnatic music. We put forward three different approaches to
retrieve compact description of pitches used in a given recording employing our
data model. We qualitatively evaluate our approaches comparing the representations
of pitched obtained from our approach with those from a manually labeled
dataset, showing that our data model and approaches have resulted in representations
that are very similar to the latter. Further, in a raaga classification task
on the largest Carnatic music dataset so far, two of our approaches are shown to
outperform the state-of-the-art by a statistically significant margin.
In the second part, we develop knowledge representations for various concepts
in Carnatic music, with a particular emphasis on the melodic framework. We
discuss the limitations of the current semantic web technologies in expressing
the order in sequential data that curtails the application of logical inference. We
present our use of rule languages to overcome this limitation to a certain extent.
We then use open information extraction systems to retrieve concepts, entities
and their relationships from natural language text concerning Carnatic music.
We evaluate these systems using the concepts and relations from knowledge representations we have developed, and groundtruth curated using Wikipedia data.
Thematic domains like Carnatic music have limited volume of data available online.
Considering that these systems are built forweb-scale data where repetitions
are taken advantage of, we compare their performances qualitatively and quantitatively,
emphasizing characteristics desired for cases such as this. The retrieved
concepts and entities are mapped to those in the metadata. In the final step, using
the knowledge representations developed, we publish and integrate the information
obtained from different modalities to a knowledge-base. On this resource,
we demonstrate how linking information from different modalities allows us to
deduce conclusions which otherwise would not have been possible.
en_US
dc.description.abstract
Esta tesis es resultado de nuestro trabajo de investigación para construir una
base de conocimiento multimodal para el caso específico de la música carnática.
Además de hacer uso de metadatos y notación simbólica, procesamos texto de
lenguaje natural y datos de audio para extraer información culturalmente relevante
y musicalmente significativa, y estructurarla con representaciones formales
de conocimiento. En líneas generales, este proceso consiste en dos partes. En la
primera parte, analizamos grabaciones de audio para describir la entonación de
las alturas usadas en las interpretaciones. Llevamos a cabo un exhaustivo análisis
y evaluación de los métodos basados en distribución de altura propuestos anteriormente,
señalando sus ventajas y limitaciones. Proponemos un nuevo modelo
de datos para la descripción de alturas con el fin de superar las limitaciones identificadas.
Esto amplía la perspectiva del modelo actual de nota para contribuir a
la conceptualización del espacio melódico en música carnática. Ofrecemos tres
propuestas diferentes para la extracción de una descripción compacta de las alturas
usadas en una grabación dada utilizando nuestro modelo de datos. Evaluamos
cualitativamente nuestras propuestas comparando las representaciones de
alturas obtenidas según nuestro método con aquellas procedentes de un conjunto
de datos anotado manualmente, con lo que mostramos que nuestro modelo de
datos y nuestras propuestas resultan en representaciones muy similares a estas
últimas. Además, en una tarea de clasificación de raagas en el mayor conjunto
de datos de música carnática hasta la fecha, dos de nuestras propuestas muestran
mejor rendimiento que el estado del arte con un margen estadístico significativo.
En la segunda parte, desarrollamos representaciones de conocimiento para varios
conceptos en música carnática, con un particular énfasis en el marco melódico.
Discutimos las limitaciones de las tecnologías de web semántica actuales para expresar
el orden de datos secuenciales, lo que restringe la aplicación de inferencia
lógica. Presentamos nuestro uso de lenguajes de reglas para superar hasta cierto punto esta limitación. A continuación utilizamos sistemas abiertos de extracción
de información para extraer conceptos, entidades y sus relaciones a partir de texto
de lenguaje natural relacionado con música carnática. Evaluamos estos sistemas
usando los conceptos y las relaciones de las representaciones de conocimiento que
hemos desarrollado, así como información de referencia contrastada con datos de
Wikipedia. Dominios temáticos como el de música carnática tienen un volumen
limitado de datos disponibles en internet. Considerando que estos sistemas están
construidos para datos a escala de la web, en la que es posible beneficiarse de las
repeticiones, comparamos sus rendimientos cualitativa y cuantitativamente, enfatizando
las características deseadas para casos como este. Los conceptos y entidades
extraídas son mapeadas a aquellos existentes en los metadatos. En el paso
final, usando las representaciones de conocimiento desarrolladas, publicamos e
integramos la información obtenida por diferentes modalidades en una base de
conocimiento. Con este recurso demostramos como la conexión de información
de diferentes modalidades nos permite deducir conclusiones que de otra manera
no habrían sido posibles.
en_US
dc.description.abstract
Aquesta tesi és el resultat de la nostra investigació per a construir una base de
coneixement multimodal per a la música Carnàtica. A part d’utilitzar metadades
i representacions simbòliques musicals, també processem text en llenguatge natural
i l’àudio mateix per tal d’extreure informació que sigui rellevant tant des d’un
punt de vista cultural com musical i que puguem estructurar amb representacions
formals de coneixement. El procés que seguim està compost principalment
de dues parts. En la primera part analitzem les gravacions d’àudio per descriure’n
l’entonació de les altures tonals utilitzades. Comparem i avaluem aproximacions
existents basades en histogrames d’altures tonals utilitzant una base de dades comuna
de referència i en subratllem els avantatges i les limitacions. Proposem un
nou model de dades per descriure l’altura tonal de les notes i superar les limitacions
prèviament identificades. Aquest model va més enllà dels ja establerts i
permet acomodar la conceptualització de l’espai melòdic en la música Carnàtica.
Utilitzant el nostre model de dades proposem tres mètodes diferents per extreure
descripcions compactes de les altures tonals de les notes d’una gravació. Fem una
avaluació qualitativa a través de la comparació de descripcions generades amb els
mètodes proposats i descripcions generades manualment, i comprovem que els
nostres mètodes generen descripcions molt semblants a les generades manualment.
També comprovem com els nostres mètodes són útils per a la classificació
de raga avaluant amb la base de dades més gran de música Carnàtica que s’ha
creat fins al dia d’avui. Dos dels nostres mètodes obtenen puntuacions més altes
que els millors mètodes existents, amb marges de millora estadísticament significatius.
En la segona part de la nostra investigació desenvolupem representacions de
coneixement sobre diversos conceptes de la música Carnàtica, posant un èmfasi
especial en aspectes melòdics. Parlem sobre les limitacions de les tecnologies de
la web semàntica pel que fa a la representació del concepte d’ordre en dades seqüencials, fet que limita les possibilitats d’inferències lògiques. Proposem l’ús de
llenguatges de normes per, fins a cert punt, superar aquestes limitacions. Després
utilitzem sistemes d’extracció d’informació per recuperar conceptes, entitats i les
seves relacions a partir de l’anàlisi de text natural sobre música Carnàtica. Avaluem
aquests sistemes utilitzant conceptes i relacions extretes de representacions
de coneixement que nosaltres mateixos hem desenvolupat i també utilitzant dades
curades provinents de la Wikipedia. Per temàtiques com la música Carnàtica hi
ha un volum de dades limitat accessible en línia. Tenint en compte que aquests sistemes
estan pensats per funcionar amb grans volums de dades on les repeticions
són importants, en fem una comparació qualitativa i quantitativa emfatitzant
aquelles característiques més rellevants per casos amb volums de dades limitats.
Els conceptes i entitats recuperades són emparellats amb conceptes i entitats
presents a les nostres metadades. Finalment, utilitzant les representacions de
coneixement desenvolupades, integrem les informacions obtingues de les diferents
modalitats i les publiquem en una base de coneixement. Utilitzant aquesta
base de coneixement demostrem com el fet de combinar informacions provinents
de diferents modalitats ens permet arribar a conclusions que d’una altra manera
no haurien estat possibles.
en_US
dc.format.extent
215 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
eng
en_US
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Descripción de entonación
en_US
dc.subject
Entonación melódica
en_US
dc.subject
Música carnática
en_US
dc.subject
Datos multimodales
en_US
dc.subject
Base de conocimiento
en_US
dc.subject
Ontologías
en_US
dc.subject
Intonation description
en_US
dc.subject
Melodic intonation
en_US
dc.subject
Carnatic music
en_US
dc.subject
Multimodal data
en_US
dc.subject
Knowledge-base
en_US
dc.subject
Ontologies
en_US
dc.title
Towards a multimodal knowledge base for Indian art music: a case study with melodic intonation
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.authoremail
gopala.koduri@upf.edu
en_US
dc.contributor.director
Serra, Xavier
dc.embargo.terms
cap
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de doctorat en Tecnologies de la Informació i les Comunicacions