Universitat de Barcelona. Departament de Matemàtiques i Informàtica
[eng] Deep learning's rapid growth brings vast application potential across diverse domains. Achieving optimal performance hinges on a critical interplay between three key elements: powerful model architectures, vast amounts of data, and a deep understanding of the target domain. Each element presents unique challenges. This thesis tackles these challenges to unlock the full potential of models, exploring solutions for data, models, and task understanding. The first part of this thesis tackles the fundamental challenges associated with data used in deep learning. Acquiring large-scale data is a significant challenge, often limited by factors like annotation costs and label errors. Data within a dataset frequently exhibits significant diversity. We address these challenges with a multifaceted approach. We investigate the development of noise-robust sample-selection-based deep learning models to handle the presence of label errors. To leverage the large volumes of unlabeled data available, we explore contrastive self- supervised learning strategies. To address the heterogeneity within datasets, we propose a sample importance strategy to prioritize samples that present learning challenges. These solutions address the various data-related challenges that hinder deep learning models. The second part of the thesis covers the critical role of understanding model behaviour. We use uncertainty quantification metrics to gain valuable insights into the capabilities of the models in making predictions. By understanding these metrics, we identify areas where the model’s predictions might be less reliable. We extend our exploration by applying these uncertainty metrics across various tasks to improve the decision-making process of the models. The final part of this thesis explores the importance of task understanding. We utilize the challenging domain of food recognition as a case study. Food recognition presents unique challenges due to the visual complexity of food images. We address the domain-specific challenges of fine- grained and multi-label classification by strategically designing and modifying deep learning models to improve their performances. Our research during this thesis yielded significant advancements in several key areas of model development. We achieved state-of-the-art results on several benchmarks across various tasks, demonstrating the effectiveness of our proposed solutions. This highlights the potential of our work to contribute to the broader field of deep learning.
[spa] El rápido crecimiento del aprendizaje profundo ofrece un gran potencial de aplicación en diversos dominios. Lograr un rendimiento óptimo depende de una interacción crítica entre tres elementos clave: arquitecturas de modelos potentes, grandes cantidades de datos y una comprensión profunda del dominio de destino. Cada elemento presenta desafíos únicos. Esta tesis aborda estos desafíos para desbloquear todo el potencial de los modelos, explorando soluciones para los datos, los modelos y la comprensión de tareas. La primera parte de esta tesis aborda los retos fundamentales asociados a los datos utilizados en el aprendizaje profundo. La adquisición de datos a gran escala es un desafío importante, a menudo limitado por factores como los costos de anotación y los errores de etiqueta. Los datos dentro de un conjunto de datos con frecuencia exhiben una diversidad significativa. Abordamos estos desafíos con un enfoque multifacético. Investigamos el desarrollo de modelos de aprendizaje profundo basados en la selección de muestras robustos al ruido para manejar la presencia de errores de etiqueta. Para aprovechar los grandes volúmenes de datos no etiquetados disponibles, exploramos estrategias contrastivas de aprendizaje autosupervisado. Para abordar la heterogeneidad dentro de los conjuntos de datos, proponemos una estrategia de importancia de la muestra para priorizar las muestras que presentan desafíos de aprendizaje. Estas soluciones abordan los diversos desafíos relacionados con los datos que obstaculizan los modelos de aprendizaje profundo. La segunda parte de la tesis aborda el papel fundamental de la comprensión del comportamiento del modelo. Utilizamos métricas de cuantificación de incertidumbre para obtener información valiosa sobre las capacidades de los modelos para hacer predicciones. Al comprender estas métricas, identificamos áreas en las que las predicciones del modelo podrían ser menos fiables. Ampliamos nuestra exploración aplicando estas métricas de incertidumbre en varias tareas para mejorar el proceso de toma de decisiones de los modelos. La parte final de esta tesis explora la importancia de la comprensión de tareas. Utilizamos el desafiante dominio del reconocimiento de alimentos como estudio de caso. El reconocimiento de alimentos presenta desafíos únicos debido a la complejidad visual de las imágenes de alimentos. Abordamos los desafíos específicos del dominio de la clasificación detallada y multietiqueta mediante el diseño y la modificación estratégicos de modelos de aprendizaje profundo para mejorar su rendimiento. Nuestra investigación durante esta tesis produjo avances significativos en varias áreas clave del desarrollo de modelos. Logramos resultados de vanguardia en varios puntos de referencia en diversas tareas, lo que demuestra la efectividad de nuestras soluciones propuestas. Esto pone de manifiesto el potencial de nuestro trabajo para contribuir al campo más amplio del aprendizaje profundo.
Processament d'imatges; Proceso de imágenes; Image processing; Visió per ordinador; Visión por ordenador; Computer vision; Xarxes neuronals convolucionals; Redes neuronales convolucionales; Convolutional neural networks; Aprenentatge automàtic; Aprendizaje automático; Machine learning
62 - Engineering
Ciències Experimentals i Matemàtiques
Programa de Doctorat en Matemàtiques i Informàtica
ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.