Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
Programa de doctorat en Tecnologies de la Informació i les Comunicacions
This thesis is a result of our research efforts in building a multi-modal knowledgebase for the specific case of Carnatic music. Besides making use of metadata and symbolic notations, we process natural language text and audio data to extract culturally relevant and musically meaningful information and structuring it with formal knowledge representations. This process broadly consists of two parts. In the first part, we analyze the audio recordings for intonation description of pitches used in the performances. We conduct a thorough survey and evaluation of the previously proposed pitch distribution based approaches on a common dataset, outlining their merits and limitations. We propose a new data model to describe pitches to overcome the shortcomings identified. This expands the perspective of the note model in-vogue to cater to the conceptualization of melodic space in Carnatic music. We put forward three different approaches to retrieve compact description of pitches used in a given recording employing our data model. We qualitatively evaluate our approaches comparing the representations of pitched obtained from our approach with those from a manually labeled dataset, showing that our data model and approaches have resulted in representations that are very similar to the latter. Further, in a raaga classification task on the largest Carnatic music dataset so far, two of our approaches are shown to outperform the state-of-the-art by a statistically significant margin. In the second part, we develop knowledge representations for various concepts in Carnatic music, with a particular emphasis on the melodic framework. We discuss the limitations of the current semantic web technologies in expressing the order in sequential data that curtails the application of logical inference. We present our use of rule languages to overcome this limitation to a certain extent. We then use open information extraction systems to retrieve concepts, entities and their relationships from natural language text concerning Carnatic music. We evaluate these systems using the concepts and relations from knowledge representations we have developed, and groundtruth curated using Wikipedia data. Thematic domains like Carnatic music have limited volume of data available online. Considering that these systems are built forweb-scale data where repetitions are taken advantage of, we compare their performances qualitatively and quantitatively, emphasizing characteristics desired for cases such as this. The retrieved concepts and entities are mapped to those in the metadata. In the final step, using the knowledge representations developed, we publish and integrate the information obtained from different modalities to a knowledge-base. On this resource, we demonstrate how linking information from different modalities allows us to deduce conclusions which otherwise would not have been possible.
Esta tesis es resultado de nuestro trabajo de investigación para construir una base de conocimiento multimodal para el caso específico de la música carnática. Además de hacer uso de metadatos y notación simbólica, procesamos texto de lenguaje natural y datos de audio para extraer información culturalmente relevante y musicalmente significativa, y estructurarla con representaciones formales de conocimiento. En líneas generales, este proceso consiste en dos partes. En la primera parte, analizamos grabaciones de audio para describir la entonación de las alturas usadas en las interpretaciones. Llevamos a cabo un exhaustivo análisis y evaluación de los métodos basados en distribución de altura propuestos anteriormente, señalando sus ventajas y limitaciones. Proponemos un nuevo modelo de datos para la descripción de alturas con el fin de superar las limitaciones identificadas. Esto amplía la perspectiva del modelo actual de nota para contribuir a la conceptualización del espacio melódico en música carnática. Ofrecemos tres propuestas diferentes para la extracción de una descripción compacta de las alturas usadas en una grabación dada utilizando nuestro modelo de datos. Evaluamos cualitativamente nuestras propuestas comparando las representaciones de alturas obtenidas según nuestro método con aquellas procedentes de un conjunto de datos anotado manualmente, con lo que mostramos que nuestro modelo de datos y nuestras propuestas resultan en representaciones muy similares a estas últimas. Además, en una tarea de clasificación de raagas en el mayor conjunto de datos de música carnática hasta la fecha, dos de nuestras propuestas muestran mejor rendimiento que el estado del arte con un margen estadístico significativo. En la segunda parte, desarrollamos representaciones de conocimiento para varios conceptos en música carnática, con un particular énfasis en el marco melódico. Discutimos las limitaciones de las tecnologías de web semántica actuales para expresar el orden de datos secuenciales, lo que restringe la aplicación de inferencia lógica. Presentamos nuestro uso de lenguajes de reglas para superar hasta cierto punto esta limitación. A continuación utilizamos sistemas abiertos de extracción de información para extraer conceptos, entidades y sus relaciones a partir de texto de lenguaje natural relacionado con música carnática. Evaluamos estos sistemas usando los conceptos y las relaciones de las representaciones de conocimiento que hemos desarrollado, así como información de referencia contrastada con datos de Wikipedia. Dominios temáticos como el de música carnática tienen un volumen limitado de datos disponibles en internet. Considerando que estos sistemas están construidos para datos a escala de la web, en la que es posible beneficiarse de las repeticiones, comparamos sus rendimientos cualitativa y cuantitativamente, enfatizando las características deseadas para casos como este. Los conceptos y entidades extraídas son mapeadas a aquellos existentes en los metadatos. En el paso final, usando las representaciones de conocimiento desarrolladas, publicamos e integramos la información obtenida por diferentes modalidades en una base de conocimiento. Con este recurso demostramos como la conexión de información de diferentes modalidades nos permite deducir conclusiones que de otra manera no habrían sido posibles.
Aquesta tesi és el resultat de la nostra investigació per a construir una base de coneixement multimodal per a la música Carnàtica. A part d’utilitzar metadades i representacions simbòliques musicals, també processem text en llenguatge natural i l’àudio mateix per tal d’extreure informació que sigui rellevant tant des d’un punt de vista cultural com musical i que puguem estructurar amb representacions formals de coneixement. El procés que seguim està compost principalment de dues parts. En la primera part analitzem les gravacions d’àudio per descriure’n l’entonació de les altures tonals utilitzades. Comparem i avaluem aproximacions existents basades en histogrames d’altures tonals utilitzant una base de dades comuna de referència i en subratllem els avantatges i les limitacions. Proposem un nou model de dades per descriure l’altura tonal de les notes i superar les limitacions prèviament identificades. Aquest model va més enllà dels ja establerts i permet acomodar la conceptualització de l’espai melòdic en la música Carnàtica. Utilitzant el nostre model de dades proposem tres mètodes diferents per extreure descripcions compactes de les altures tonals de les notes d’una gravació. Fem una avaluació qualitativa a través de la comparació de descripcions generades amb els mètodes proposats i descripcions generades manualment, i comprovem que els nostres mètodes generen descripcions molt semblants a les generades manualment. També comprovem com els nostres mètodes són útils per a la classificació de raga avaluant amb la base de dades més gran de música Carnàtica que s’ha creat fins al dia d’avui. Dos dels nostres mètodes obtenen puntuacions més altes que els millors mètodes existents, amb marges de millora estadísticament significatius. En la segona part de la nostra investigació desenvolupem representacions de coneixement sobre diversos conceptes de la música Carnàtica, posant un èmfasi especial en aspectes melòdics. Parlem sobre les limitacions de les tecnologies de la web semàntica pel que fa a la representació del concepte d’ordre en dades seqüencials, fet que limita les possibilitats d’inferències lògiques. Proposem l’ús de llenguatges de normes per, fins a cert punt, superar aquestes limitacions. Després utilitzem sistemes d’extracció d’informació per recuperar conceptes, entitats i les seves relacions a partir de l’anàlisi de text natural sobre música Carnàtica. Avaluem aquests sistemes utilitzant conceptes i relacions extretes de representacions de coneixement que nosaltres mateixos hem desenvolupat i també utilitzant dades curades provinents de la Wikipedia. Per temàtiques com la música Carnàtica hi ha un volum de dades limitat accessible en línia. Tenint en compte que aquests sistemes estan pensats per funcionar amb grans volums de dades on les repeticions són importants, en fem una comparació qualitativa i quantitativa emfatitzant aquelles característiques més rellevants per casos amb volums de dades limitats. Els conceptes i entitats recuperades són emparellats amb conceptes i entitats presents a les nostres metadades. Finalment, utilitzant les representacions de coneixement desenvolupades, integrem les informacions obtingues de les diferents modalitats i les publiquem en una base de coneixement. Utilitzant aquesta base de coneixement demostrem com el fet de combinar informacions provinents de diferents modalitats ens permet arribar a conclusions que d’una altra manera no haurien estat possibles.
Descripción de entonación; Entonación melódica; Música carnática; Datos multimodales; Base de conocimiento; Ontologías; Intonation description; Melodic intonation; Carnatic music; Multimodal data; Knowledge-base; Ontologies
62 - Ingeniería. Tecnología