Advances in Explainable AI for Affective Computing and Activity Recognition in Elderly
llistat de metadades
Author
Director
Manresa Yee, Cristina Suemay
Darder Mesquida, Antònia
Tutor
Manresa Yee
Date of defense
2025-07-24
Pages
277 p.
Department/Institute
Universitat de les Illes Balears. Doctorat en Tecnologies de la Informació i les Comunicacions
Abstract
[eng] The global population is aging at an unprecedented rate, posing significant challenges in healthcare and social services—particularly due to the high incidence of falls and other age-related risks. At the same time, deep learning has revolutionized computer vision by enabling state-of-the-art performance in tasks such as facial expression recognition (FER) and human activity recognition (HAR), which are crucial for monitoring both the physical and emotional well-being of older adults. However, existing approaches often fail to deliver robust performance on specific populations, and the "black-box" nature of deep learning models limits their transparency and trustworthiness—an issue that is especially critical in high-stakes domains like healthcare, where explainable artificial intelligence (XAI) is essential. This thesis aims to improve the quality of life for the elderly by advancing facial expression recognition and human activity recognition through deep learning techniques, while placing special emphasis on the interpretability of these models via explainable artificial intelligence tools. To achieve this goal, we began by conducting two systematic literature reviews that mapped current deep learning approaches for FER and HAR and identified critical gaps—such as the underrepresentation of older adults in existing datasets and the limited use of XAI tools. In response to these challenges, we pursued several interrelated studies. To enhance FER in older adults, we first compiled a diverse collection of existing datasets and evaluated them using novel similarity metrics, and then developed innovative methods to address age biases by leveraging XAI tools to explore differences between age groups. For HAR, recognizing the scarcity of XAI techniques for video data, we modified an agnostic perturbation-based XAI method to derive separate spatial and temporal explanations and designed a framework that adapts common image and tabular-based XAI techniques to the video domain. Finally, to better understand human trust in AI systems, we investigated the similarities between human and machine performance in FER, examined how various explanation strategies affect user trust, and further explored user preferences regarding different XAI methods. In conclusion, this thesis advances the state of the art in both deep learning and XAI for assistive technologies aimed at elderly care. By addressing the dual challenges of performance and interpretability, our work contributes to the development of robust, transparent, and user-centered recognition systems. These systems not only have the potential to improve monitoring and intervention strategies—thereby enhancing the physical and emotional well-being of older adults—but also pave the way for future research in human-centric AI. Ultimately, the integration of effective FER and HAR with explainable AI represents a significant step toward creating safer, more autonomous living environments for the aging population, ensuring that technological innovations translate into tangible societal benefits.
[cat] La població mundial està envellint a un ritme sense precedents, cosa que planteja reptes significatius en l'atenció sanitària i els serveis socials—especialment a causa de l'alta incidència de caigudes i altres riscos associats a l'edat. Al mateix temps, l'aprenentatge profund ha revolucionat la visió per computadora en permetre un rendiment d'última generació en tasques com el reconeixement d'expressions facials i el reconeixement d'activitats humanes (FER i HAR, per les seves sigles en anglès), fonamentals per monitoritzar tant el benestar físic com l'emocional de les persones grans. No obstant això, els enfocaments existents sovint no aconsegueixen oferir un rendiment robust en poblacions específiques, i la naturalesa de "caixa negra" dels models d'aprenentatge profund limita la seva transparència i fiabilitat, un problema especialment crític en dominis d'alt risc com el sanitari, on la intel·ligència artificial explicable (XAI de les sigles en anglès) és essencial. Aquesta tesi té com a objectiu millorar la qualitat de vida de les persones grans avançant en el reconeixement d'expressions facials i el reconeixement d'activitats humanes mitjançant tècniques d'aprenentatge profund, posant especial èmfasi en la interpretabilitat d'aquests models a través d'eines d'intel·ligència artificial explicable. Per aconseguir aquest objectiu, es duen a terme dues revisions sistemàtiques de la literatura que cartografien els enfocaments actuals d'aprenentatge profund per a FER i HAR i identifiquen punts febles, com ara la subrepresentació de les persones grans en els conjunts de dades existents i l'ús limitat d'eines XAI. En resposta a aquests desafiaments, es realitzen diversos estudis interrelacionats. Per millorar el FER en persones grans, es recopila una col·lecció diversa de conjunts de dades i s'avalua amb noves mètriques de similitud, desenvolupant, a més, mètodes innovadors per abordar els biaixos relacionats amb l'edat mitjançant l'ús d'eines XAI que permeten explorar les diferències entre grups d'edat. Pel que fa al HAR, reconeixent la manca de tècniques XAI per a dades de vídeo, es modifica un mètode XAI basat en pertorbacions agnòstiques per obtenir explicacions separades en les dimensions espacial i temporal, i es dissenya un marc de treball que adapta tècniques XAI habituals per a imatges i dades tabulars al domini del vídeo. Finalment, per tal d'entendre millor la confiança dels usuaris en sistemes d'IA, s'investiguen les similituds entre el rendiment humà i el de les màquines en FER, s'examina com diverses estratègies d'explicació influeixen en la confiança de l'usuari, i s'exploren les preferències dels usuaris respecte a diferents mètodes XAI. En conclusió, aquesta tesi avança l'estat de l'art en aprenentatge profund i en XAI per a tecnologies assistencials destinades a la cura de les persones grans. En abordar el doble repte de rendiment i interpretabilitat, la nostra recerca contribueix al desenvolupament de sistemes de reconeixement robusts, transparents centrats en la persona, que no només tenen el potencial de millorar la monitorització i les estratègies d'intervenció—afavorint així el benestar físic i emocional de les persones grans—sinó que també obren el camí per a futures investigacions en IA centrada en l'ésser humà. La integració d'un FER i HAR efectius amb intel·ligència artificial explicable representa un pas important cap a la creació d'entorns de vida més segurs i autònoms per a la població envellida, assegurant que les innovacions tecnològiques es tradueixin en beneficis socials tangibles.
[spa] La población mundial está envejeciendo a un ritmo sin precedentes, lo que plantea desafíos significativos en la atención sanitaria y los servicios sociales—especialmente debido a la alta incidencia de caídas y otros riesgos asociados a la edad. Al mismo tiempo, el aprendizaje profundo ha revolucionado la visión por computador al permitir un alto rendimiento en tareas como el reconocimiento de expresiones faciales y el reconocimiento de actividades humanas (FER y HAR, por sus siglas en inglés), fundamentales para monitorizar tanto el bienestar físico como el emocional de las personas mayores. Sin embargo, los enfoques existentes a menudo no logran ofrecer un rendimiento robusto en poblaciones específicas, y la naturaleza de "caja negra" de los modelos de aprendizaje profundo limita su transparencia y fiabilidad—un problema especialmente crítico en dominios de alto riesgo como el sanitario, donde la inteligencia artificial explicable (XAI) resulta esencial. Esta tesis tiene como objetivo mejorar la calidad de vida de las personas mayores avanzando en el reconocimiento de expresiones faciales y el reconocimiento de actividades humanas mediante técnicas de aprendizaje profundo, poniendo especial énfasis en la interpretabilidad de estos modelos a través de herramientas de inteligencia artificial explicable. Para lograr este objetivo, se realizan dos revisiones sistemáticas de la literatura que mapean los enfoques actuales de aprendizaje profundo para FER y HAR e identifican brechas críticas, como la subrepresentación de las personas mayores en los conjuntos de datos existentes y el uso limitado de herramientas XAI. En respuesta a estos desafíos, se llevan a cabo varios estudios interrelacionados. Para mejorar el FER en personas mayores, se compila una colección diversa de conjuntos de datos y se evalúan utilizando nuevas métricas de similitud, desarrollando además métodos innovadores para abordar los sesgos relacionados con la edad mediante el uso de herramientas XAI que permiten explorar las diferencias entre grupos etarios. Para el HAR, ante la escasez de técnicas XAI para datos de video, se modifica un método XAI basado en perturbaciones agnósticas para obtener explicaciones separadas en sus dimensiones espacial y temporal, y se diseña un marco de trabajo que adapta técnicas XAI comunes para imágenes y datos tabulares al dominio del video. Finalmente, para entender mejor la confianza de los usuarios en sistemas de IA, se investigan las similitudes entre el rendimiento humano y el de las máquinas en FER, se examina cómo diversas estrategias de explicación influyen en la confianza del usuario, y se exploran las preferencias de los usuarios respecto a distintos métodos XAI. En conclusión, esta tesis avanza el estado del arte en aprendizaje profundo y en XAI para tecnologías asistenciales orientadas al cuidado de las personas mayores. Al abordar el doble desafío de rendimiento e interpretabilidad, nuestro trabajo contribuye al desarrollo de sistemas de reconocimiento robustos, transparentes y centrados en la persona, que no solo tienen el potencial de mejorar la monitorización y las estrategias de intervención—potenciando así el bienestar físico y emocional de los mayores—sino que también sientan las bases para futuras investigaciones en IA centrada en el ser humano. La integración de un FER y HAR efectivos con inteligencia artificial explicable representa un paso significativo hacia la creación de entornos de vida más seguros y autónomos para la población envejecida, asegurando que las innovaciones tecnológicas se traduzcan en beneficios sociales tangibles.
Keywords
Explainable artificial intelligence; Computer vision; Facial expression recognition; Human activity recognition; Elderly; Intel·ligència artificial explicable; Visió per computador; Reconeixement d'expressions facials; Reconeixement d'activitats humanes; Gent gran; Inteligencia artificial explicable; Visión por computador; Reconocimiento de expresiones faciales; Reconocimiento de actividades humanas; Gente mayor
Subjects
0 - Basic concepts; 004 - Computer science



