Deep Multimodal Learning for Egocentric Storytelling and Food Analysis

Autor/a

Bolaños Solà, Marc

Director/a

Radeva, Petia

Fecha de defensa

2021-04-09

Páginas

260 p.



Departamento/Instituto

Universitat de Barcelona. Departament de Matemàtiques i Informàtica

Resumen

The world of Machine Learning and Computer Vision has experienced a revolution since the last years. The appearance of Deep Learning algorithms and Convolutional Neural Networks, altogether with the increased processing capabilities provided by modern GPUs and the enormous amounts of annotated data publicly available, have allowed a boost in the field as never seen before. These notable improvements achieved in the Machine Learning world have led to the appearance of new fields like the Multimodal Learning, which encompasses and learns from many subfields. Additionally, new applications have taken profit of these advancements in order to reach high levels of performance. The huge results improvement of the currently available algorithms have allowed not only revolutionizing the academic world, but also bringing AI-based solutions to the market that looked like science fiction barely 10 years ago. This thesis, which is written as a papers compendium, focuses on delving deeper into the novel topic of Deep Multimodal Learning by proposing new algorithms and solutions for both already existing and newly defined problems. From the applications perspective, most of the papers presented can be divided in two areas of applicability. From the one hand, Egocentric Vision and Storytelling, which consists in acquiring images from the daily life of a person in order to analyse its behaviour patterns like social interactions, activities and events, interactions with objects, etc. And on the other hand, Food Recognition and Analysis, which consists in visually analysing and recognizing the food appearing on images in multiple contexts and with different levels of complexity, from food groups recognition to nutritional analysis. In both applications, the final purpose of the proposed papers is building tools that provide information that could lead to a better quality of life of the users.


El mundo del Machine Learning y la Visión por Computador ha experimentado una revolución los últimos años. La aparición de algoritmos de Deep Learning y Convolutional Neural Networks, junto con las mayores capacidades de procesamiento proporcionadas por GPU modernas y las enormes cantidades de datos anotados disponibles públicamente, han permitió un impulso en el campo como nunca antes se había visto.Estas notables mejoras logradas en el mundo del Machine Learning han llevado a la aparición de nuevos campos como el Aprendizaje Multimodal, que engloba y aprende de muchos subcampos. Además, nuevas aplicaciones han aprovechado estos avances para alcanzar altos niveles de rendimiento. La enorme mejora en los resultados de los algoritmos disponibles actualmente ha permitido no solo revolucionar el mundo académico, sino también llevar al mercado soluciones basadas en IA que parecían ciencia ficción hace apenas 10 años.Esta tesis, que está escrita como un compendio de artículos, se enfoca en profundizar en el novedoso tema del Aprendizaje Multimodal Profundo al proponer nuevos algoritmos y soluciones para problemas ya existentes y recientemente definidos. Desde la perspectiva de las aplicaciones, la mayoría de los trabajos presentados se pueden dividir en dos áreas de aplicabilidad. Por un lado, la Visión Egocéntrica y el Storytelling, que consiste en la adquisición de imágenes de la vida diaria de una persona para analizar su comportamiento y extraer patrones asociadas a estos como por ejemplo interacciones sociales, actividades y eventos, interacciones con objetos, etc. Y por otro lado, el Reconocimiento y Análisis de Alimentos, que consiste en visualmente analizar y reconocer la comida que aparece en imágenes en múltiples contextos y con diferentes niveles de complejidad, desde el reconocimiento de grupos de alimentos hasta el análisis nutricional.En ambas aplicaciones, el propósito final de los artículos propuestos es construir herramientas que brinden información que pueda conducir a una mejor calidad de vida de los usuarios.

Palabras clave

Aprenentatge automàtic; Aprendizaje automático; Machine learning; Algorismes; Algoritmos; Algorithms; Adquisició del coneixement (Sistemes experts); Adquisición de conocimientos (Sistemas expertos); Knowledge acquisition (Expert systems); Percepció de les formes; Percepción de formas; Form perception; Xarxes neuronals convolucionals; Redes neuronales convolucionales; Convolutional neural networks

Materias

004 - Informática

Área de conocimiento

Ciències Experimentals i Matemàtiques

Documentos

MBS_PhD_THESIS.pdf

49.20Mb

 

Derechos

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Este ítem aparece en la(s) siguiente(s) colección(ones)