dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Gómez Cañón, Juan sebastián
dc.date.accessioned
2022-11-07T15:26:02Z
dc.date.available
2022-11-07T15:26:02Z
dc.date.issued
2022-10-26
dc.identifier.uri
http://hdl.handle.net/10803/675915
dc.description.abstract
This doctoral thesis is focused on music in terms of emotion -- such algorithms compose the
computational task of music emotion recognition (MER). MER evaluates emotionally relevant
features from music, correlates them with certain emotions that could be perceived by or
induced to a listener, and finally attempts to predict these emotions. The work attempts to frame
the relevance of the MER task into two broad research questions: what for? and for whom?
In general, MER displays a need to incorporate contextual and individual data to eventually be
able to effectively model the annotations that it tries to predict. Therefore, the main goal of this
dissertation is to improve understanding of systems that place the human at the center of the
MER system. The studies and experiments included here cover several subtopics for that goal:
discovering interpretable/meaningful features for machine learning models, allowing and
encouraging response diversity during dataset creation, selecting relevant music according to
the background of the listener, enabling an evaluation feedback between the listeners and the
MER model for evaluation and improvement, and guiding potential application scenarios with
overall ethical principles. As a consequence of our findings, we propose methodologies to
incorporate a human-centric perspective in several stages of the MER task: acknowledging the
complexity of creating a “ground truth” from subjective emotion annotations, incorporating
properties and context from diverse listeners by using agreement as input to the algorithms, and
evaluating possible risks of adopting a human-centric perspective for personalization purposes.
en_US
dc.description.abstract
Esta tesis doctoral se centra en el uso de algoritmos de aprendizaje automático para la
caracterización de la música en términos de emoción -- dichos algoritmos forman parte de la
tarea computacional del reconocimiento de emociones en la música (MER, por sus siglas en
inglés). Un sistema MER evalúa las características emocionalmente relevantes de la música,
las correlaciona con ciertas emociones que podrían ser percibidas o inducidas a un oyente y,
finalmente, intenta predecir estas emociones. Este trabajo intenta enmarcar la relevancia de la
tarea MER en dos amplias cuestiones de investigación: ¿para qué? y ¿para quién? En general,
la investigación en MER necesita incorporar datos contextuales e individuales para poder
modelar de manera efectiva las anotaciones que intenta predecir. Por lo tanto, el objetivo
principal de esta tesis mejorar el entendimiento de sistemas que coloquen al ser humano en el
centro del sistema MER. Los estudios y experimentos incluidos aquí cubren varios subtemas
con ese objetivo: descubrir características interpretables/significativas para los modelos de
aprendizaje automático, permitir y fomentar la diversidad de respuestas durante la creación del
conjunto de datos, seleccionar música relevante de acuerdo con los antecedentes del oyente,
permitir una retroalimentación de evaluación entre los oyentes y el modelo MER para la
evaluación y mejora del mismo, y orientar los posibles escenarios de aplicación con principios
éticos generales. Como consecuencia de nuestros hallazgos, proponemos metodologías para
incorporar una perspectiva centrada en el ser humano en varias etapas de la tarea MER:
reconocer la complejidad de crear una “verdad fundamental” (“ground truth”) a partir de
anotaciones subjetivas de emociones, incorporar propiedades y contexto de diversos oyentes
utilizando su consenso como entrada para los algoritmos y evaluar los posibles riesgos sociales
de adoptar una perspectiva centrada en el ser humano a través de la personalización.
en_US
dc.description.abstract
Aquesta tesi doctoral se centra en l'ús d'algorismes d'aprenentatge automàtic per a la
caracterització de la música en termes d'emoció - aquests algoritmes fan part de la tasca
computacional del reconeixement d'emocions a la música (MER, per les sigles en anglès).
Un sistema MER avalua les característiques emocionalment rellevants de la música, les
correlaciona amb certes emocions que podrien ser percebudes o induïdes a un oient i,
finalment, intenta predir aquestes emocions. La tesi intenta emmarcar la rellevància de la tasca
MER en dues àmplies preguntes de recerca: per què? i per a qui? En general, la investigació a
MER necessita incorporar dades contextuals i individuals per eventualment poder modelar de
manera efectiva les anotacions que intenta predir. Per tant, l'objectiu principal d'aquesta tesi és
desenvolupar sistemes que col·loquin l'ésser humà al centre del sistema MER. Els estudis i els
experiments inclosos aquí cobreixen diversos subtemes per a aquest objectiu: descobrir
característiques interpretables/significatives per als models d'aprenentatge automàtic, permetre
i fomentar la diversitat de respostes durant la creació del conjunt de dades, seleccionar música
rellevant d'acord amb els antecedents de l'oient , permetre una retroalimentació d'avaluació
entre els oients i el model MER per a l'avaluació i la millora, i orientar els possibles escenaris
d'aplicació amb principis ètics generals. A conseqüència de les nostres troballes, proposem
algunes metodologies per incorporar una perspectiva centrada en l'ésser humà en diverses
etapes de la tasca MER: reconèixer la complexitat de crear una ``veritat fonamental'' (``ground
truth'') a partir d'anotacions subjectives d'emocions, incorporar propietats i context de diversos
oients utilitzant el seu consens com a entrada per als algoritmes i avaluar els riscos socials
possibles d'adoptar una perspectiva centrada en l'ésser humà a través de la personalització.
en_US
dc.format.extent
273 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
eng
en_US
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-sa/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Machine learning
en_US
dc.subject
Music emotion recognition
en_US
dc.subject
Human-centered
en_US
dc.subject
Personalization
en_US
dc.title
Human-centered machine learning for music emotion recognition
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.authoremail
juansebastian.gomez@upf.edu
en_US
dc.contributor.director
Gómez Gutiérrez, Emilia
dc.contributor.director
Cano Cerón, Estefanía
dc.contributor.director
Herrera Boyer, Perfecto
dc.embargo.terms
cap
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de doctorat en Tecnologies de la Informació i les Comunicacions