Human-centered machine learning for music emotion recognition

Author

Gómez Cañón, Juan sebastián

Director

Gómez Gutiérrez, Emilia

Cano Cerón, Estefanía

Herrera Boyer, Perfecto

Date of defense

2022-10-26

Pages

273 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

Doctorate programs

Programa de doctorat en Tecnologies de la Informació i les Comunicacions

Abstract

This doctoral thesis is focused on music in terms of emotion -- such algorithms compose the computational task of music emotion recognition (MER). MER evaluates emotionally relevant features from music, correlates them with certain emotions that could be perceived by or induced to a listener, and finally attempts to predict these emotions. The work attempts to frame the relevance of the MER task into two broad research questions: what for? and for whom? In general, MER displays a need to incorporate contextual and individual data to eventually be able to effectively model the annotations that it tries to predict. Therefore, the main goal of this dissertation is to improve understanding of systems that place the human at the center of the MER system. The studies and experiments included here cover several subtopics for that goal: discovering interpretable/meaningful features for machine learning models, allowing and encouraging response diversity during dataset creation, selecting relevant music according to the background of the listener, enabling an evaluation feedback between the listeners and the MER model for evaluation and improvement, and guiding potential application scenarios with overall ethical principles. As a consequence of our findings, we propose methodologies to incorporate a human-centric perspective in several stages of the MER task: acknowledging the complexity of creating a “ground truth” from subjective emotion annotations, incorporating properties and context from diverse listeners by using agreement as input to the algorithms, and evaluating possible risks of adopting a human-centric perspective for personalization purposes.


Esta tesis doctoral se centra en el uso de algoritmos de aprendizaje automático para la caracterización de la música en términos de emoción -- dichos algoritmos forman parte de la tarea computacional del reconocimiento de emociones en la música (MER, por sus siglas en inglés). Un sistema MER evalúa las características emocionalmente relevantes de la música, las correlaciona con ciertas emociones que podrían ser percibidas o inducidas a un oyente y, finalmente, intenta predecir estas emociones. Este trabajo intenta enmarcar la relevancia de la tarea MER en dos amplias cuestiones de investigación: ¿para qué? y ¿para quién? En general, la investigación en MER necesita incorporar datos contextuales e individuales para poder modelar de manera efectiva las anotaciones que intenta predecir. Por lo tanto, el objetivo principal de esta tesis mejorar el entendimiento de sistemas que coloquen al ser humano en el centro del sistema MER. Los estudios y experimentos incluidos aquí cubren varios subtemas con ese objetivo: descubrir características interpretables/significativas para los modelos de aprendizaje automático, permitir y fomentar la diversidad de respuestas durante la creación del conjunto de datos, seleccionar música relevante de acuerdo con los antecedentes del oyente, permitir una retroalimentación de evaluación entre los oyentes y el modelo MER para la evaluación y mejora del mismo, y orientar los posibles escenarios de aplicación con principios éticos generales. Como consecuencia de nuestros hallazgos, proponemos metodologías para incorporar una perspectiva centrada en el ser humano en varias etapas de la tarea MER: reconocer la complejidad de crear una “verdad fundamental” (“ground truth”) a partir de anotaciones subjetivas de emociones, incorporar propiedades y contexto de diversos oyentes utilizando su consenso como entrada para los algoritmos y evaluar los posibles riesgos sociales de adoptar una perspectiva centrada en el ser humano a través de la personalización.


Aquesta tesi doctoral se centra en l'ús d'algorismes d'aprenentatge automàtic per a la caracterització de la música en termes d'emoció - aquests algoritmes fan part de la tasca computacional del reconeixement d'emocions a la música (MER, per les sigles en anglès). Un sistema MER avalua les característiques emocionalment rellevants de la música, les correlaciona amb certes emocions que podrien ser percebudes o induïdes a un oient i, finalment, intenta predir aquestes emocions. La tesi intenta emmarcar la rellevància de la tasca MER en dues àmplies preguntes de recerca: per què? i per a qui? En general, la investigació a MER necessita incorporar dades contextuals i individuals per eventualment poder modelar de manera efectiva les anotacions que intenta predir. Per tant, l'objectiu principal d'aquesta tesi és desenvolupar sistemes que col·loquin l'ésser humà al centre del sistema MER. Els estudis i els experiments inclosos aquí cobreixen diversos subtemes per a aquest objectiu: descobrir característiques interpretables/significatives per als models d'aprenentatge automàtic, permetre i fomentar la diversitat de respostes durant la creació del conjunt de dades, seleccionar música rellevant d'acord amb els antecedents de l'oient , permetre una retroalimentació d'avaluació entre els oients i el model MER per a l'avaluació i la millora, i orientar els possibles escenaris d'aplicació amb principis ètics generals. A conseqüència de les nostres troballes, proposem algunes metodologies per incorporar una perspectiva centrada en l'ésser humà en diverses etapes de la tasca MER: reconèixer la complexitat de crear una ``veritat fonamental'' (``ground truth'') a partir d'anotacions subjectives d'emocions, incorporar propietats i context de diversos oients utilitzant el seu consens com a entrada per als algoritmes i avaluar els riscos socials possibles d'adoptar una perspectiva centrada en l'ésser humà a través de la personalització.

Keywords

Machine learning; Music emotion recognition; Human-centered; Personalization

Subjects

62 - Engineering. Technology in general

Documents

tjsgc.pdf

5.679Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/

This item appears in the following Collection(s)