Human-centered machine learning for music emotion recognition

dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Gómez Cañón, Juan sebastián
dc.date.accessioned
2022-11-07T15:26:02Z
dc.date.available
2022-11-07T15:26:02Z
dc.date.issued
2022-10-26
dc.identifier.uri
http://hdl.handle.net/10803/675915
dc.description.abstract
This doctoral thesis is focused on music in terms of emotion -- such algorithms compose the computational task of music emotion recognition (MER). MER evaluates emotionally relevant features from music, correlates them with certain emotions that could be perceived by or induced to a listener, and finally attempts to predict these emotions. The work attempts to frame the relevance of the MER task into two broad research questions: what for? and for whom? In general, MER displays a need to incorporate contextual and individual data to eventually be able to effectively model the annotations that it tries to predict. Therefore, the main goal of this dissertation is to improve understanding of systems that place the human at the center of the MER system. The studies and experiments included here cover several subtopics for that goal: discovering interpretable/meaningful features for machine learning models, allowing and encouraging response diversity during dataset creation, selecting relevant music according to the background of the listener, enabling an evaluation feedback between the listeners and the MER model for evaluation and improvement, and guiding potential application scenarios with overall ethical principles. As a consequence of our findings, we propose methodologies to incorporate a human-centric perspective in several stages of the MER task: acknowledging the complexity of creating a “ground truth” from subjective emotion annotations, incorporating properties and context from diverse listeners by using agreement as input to the algorithms, and evaluating possible risks of adopting a human-centric perspective for personalization purposes.
en_US
dc.description.abstract
Esta tesis doctoral se centra en el uso de algoritmos de aprendizaje automático para la caracterización de la música en términos de emoción -- dichos algoritmos forman parte de la tarea computacional del reconocimiento de emociones en la música (MER, por sus siglas en inglés). Un sistema MER evalúa las características emocionalmente relevantes de la música, las correlaciona con ciertas emociones que podrían ser percibidas o inducidas a un oyente y, finalmente, intenta predecir estas emociones. Este trabajo intenta enmarcar la relevancia de la tarea MER en dos amplias cuestiones de investigación: ¿para qué? y ¿para quién? En general, la investigación en MER necesita incorporar datos contextuales e individuales para poder modelar de manera efectiva las anotaciones que intenta predecir. Por lo tanto, el objetivo principal de esta tesis mejorar el entendimiento de sistemas que coloquen al ser humano en el centro del sistema MER. Los estudios y experimentos incluidos aquí cubren varios subtemas con ese objetivo: descubrir características interpretables/significativas para los modelos de aprendizaje automático, permitir y fomentar la diversidad de respuestas durante la creación del conjunto de datos, seleccionar música relevante de acuerdo con los antecedentes del oyente, permitir una retroalimentación de evaluación entre los oyentes y el modelo MER para la evaluación y mejora del mismo, y orientar los posibles escenarios de aplicación con principios éticos generales. Como consecuencia de nuestros hallazgos, proponemos metodologías para incorporar una perspectiva centrada en el ser humano en varias etapas de la tarea MER: reconocer la complejidad de crear una “verdad fundamental” (“ground truth”) a partir de anotaciones subjetivas de emociones, incorporar propiedades y contexto de diversos oyentes utilizando su consenso como entrada para los algoritmos y evaluar los posibles riesgos sociales de adoptar una perspectiva centrada en el ser humano a través de la personalización.
en_US
dc.description.abstract
Aquesta tesi doctoral se centra en l'ús d'algorismes d'aprenentatge automàtic per a la caracterització de la música en termes d'emoció - aquests algoritmes fan part de la tasca computacional del reconeixement d'emocions a la música (MER, per les sigles en anglès). Un sistema MER avalua les característiques emocionalment rellevants de la música, les correlaciona amb certes emocions que podrien ser percebudes o induïdes a un oient i, finalment, intenta predir aquestes emocions. La tesi intenta emmarcar la rellevància de la tasca MER en dues àmplies preguntes de recerca: per què? i per a qui? En general, la investigació a MER necessita incorporar dades contextuals i individuals per eventualment poder modelar de manera efectiva les anotacions que intenta predir. Per tant, l'objectiu principal d'aquesta tesi és desenvolupar sistemes que col·loquin l'ésser humà al centre del sistema MER. Els estudis i els experiments inclosos aquí cobreixen diversos subtemes per a aquest objectiu: descobrir característiques interpretables/significatives per als models d'aprenentatge automàtic, permetre i fomentar la diversitat de respostes durant la creació del conjunt de dades, seleccionar música rellevant d'acord amb els antecedents de l'oient , permetre una retroalimentació d'avaluació entre els oients i el model MER per a l'avaluació i la millora, i orientar els possibles escenaris d'aplicació amb principis ètics generals. A conseqüència de les nostres troballes, proposem algunes metodologies per incorporar una perspectiva centrada en l'ésser humà en diverses etapes de la tasca MER: reconèixer la complexitat de crear una ``veritat fonamental'' (``ground truth'') a partir d'anotacions subjectives d'emocions, incorporar propietats i context de diversos oients utilitzant el seu consens com a entrada per als algoritmes i avaluar els riscos socials possibles d'adoptar una perspectiva centrada en l'ésser humà a través de la personalització.
en_US
dc.format.extent
273 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
eng
en_US
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-sa/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Machine learning
en_US
dc.subject
Music emotion recognition
en_US
dc.subject
Human-centered
en_US
dc.subject
Personalization
en_US
dc.title
Human-centered machine learning for music emotion recognition
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
62
en_US
dc.contributor.authoremail
juansebastian.gomez@upf.edu
en_US
dc.contributor.director
Gómez Gutiérrez, Emilia
dc.contributor.director
Cano Cerón, Estefanía
dc.contributor.director
Herrera Boyer, Perfecto
dc.embargo.terms
cap
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de doctorat en Tecnologies de la Informació i les Comunicacions


Documents

tjsgc.pdf

5.679Mb PDF

Aquest element apareix en la col·lecció o col·leccions següent(s)