dc.contributor
Universitat de Barcelona. Departament de Matemàtiques i Informàtica
dc.contributor.author
Aguilar, Eduardo
dc.date.accessioned
2021-02-10T10:05:13Z
dc.date.available
2021-02-10T10:05:13Z
dc.date.issued
2020-09-23
dc.identifier.uri
http://hdl.handle.net/10803/670751
dc.description
Programa de Doctorat en Matemàtica i Informàtica
en_US
dc.description.abstract
Several computer vision approaches have been proposed for tackling food analysis problems, due to the challenging problem it poses, the ease collection of food images, and its numerous applications to health and leisure. However, high food ambiguity, interclass variability and intra-class similarity define a real challenge for the Deep learning and Computer Vision algorithms. With the advent of Convolutional Neural Networks, the complex problem of visual food analysis has experienced significant improvement. Despite this, for real applications, where thousands of foods must be analyzed and recognized it is necessary to better understand what the model learns and, from this, guide its learning on more discriminatives features to improve its accurate and robustness.
In this thesis we address the problem of analyzing food images through methods based on deep learning algorithms. There are two distinguishable parts. In the first part, we focus on the food recognition task and delve into uncertainty modeling. First, we propose a new multi-task model that is able to simultaneously predict different food-related tasks. Here, we extend the homoscedastic uncertainty modeling to allow single-label and multilabel classification and propose a regularization term, which jointly weighs the tasks as well as their correlations. Second, we propose a novel prediction scheme based on a class hierarchy that considers local classifiers, in addition to a flat classifier. For this, we define criteria based on the Epistemic Uncertainty estimated from the ’children’ classifiers and the prediction from the ’parent’ classifier to decide the approach to use. And third, we propose three new data augmentation strategies that analysis class-level or sample-level epistemic uncertainty to guide the model training.
In the second part we contribute to the design of new methods for food detection (food/nonfood classification), for ensemble of food classifiers and for semantic food detection. First, we proposes an overview of the last advances on food/non-food classification and an optimal model based on the GoogLeNet architecture, Principal Component Analysis, and a Support Vector Machine. Second, we propose a combination of multiple classifiers for food recognition based on two different Convolutional models that complement each other and thus, achieve an improvement in performance. And third, we address the problem of automatic food tray analysis in canteens and restaurants environment through a new approach that integrates in the same framework food localization, recognition and segmentation for semantic food detection.
All the methods designed in this thesis are validated and contrasted over relevant public food datasets and the results obtained are reported in detail.
en_US
dc.description.abstract
El desafiante problema que plantea el análisis de alimentos, la facilidad para recopilar imágenes de alimentos y sus numerosas aplicaciones para la salud y el ocio son algunos de los factores principales que han incentivado la generación de varios enfoques de visión por computadora para abordar este problema. Sin embargo, la ambigüedad alimentaria, variabilidad entre clases y similitud dentro de la clase definen un desafío real para los algoritmos de aprendizaje profundo y visión por computadora. Con la llegada de las redes neuronales convolucionales, el complejo problema del análisis visual de los alimentos ha experimentado una mejora significativa. A pesar de ello, para aplicaciones reales, donde se deben analizar y reconocer miles de alimentos, es necesario comprender mejor lo que aprende el modelo y, a partir de ello, orientar su aprendizaje en aspectos más discriminatorios para mejorar su precisión y robustez.
En esta tesis abordamos el problema del análisis de imágenes de alimentos mediante métodos basados en algoritmos de aprendizaje profundo. Hay dos partes distinguibles. En la primera parte, nos centramos en la tarea de reconocimiento de alimentos y profundizamos en el modelado de incertidumbre. Primero, proponemos un nuevo modelo multi-tarea que es capaz de predecir simultáneamente diferentes tareas relacionadas con los alimentos. Aquí, ampliamos el modelo de incertidumbre homocedástica para permitir la clasificación tanto de etiqueta única como de etiquetas múltiples, y proponemos un término de regularización, que pondera conjuntamente las tareas y sus correlaciones. En segundo lugar, proponemos un novedoso esquema de predicción basado en una jerarquía de clases que considera clasificadores locales y un clasificador plano. Para decidir el enfoque a utilizar (plano o local), definimos criterios basados en la incertidumbre epistémica estimada a partir de los clasificadores de 'hijos' y la predicción del clasificador de
'padres'. Y tercero, proponemos tres nuevas estrategias de aumento de datos que analizan la incertidumbre epistémica a nivel de clase o de muestra para guiar el entrenamiento del modelo.
En la segunda parte contribuimos al diseño de nuevos métodos para la detección de alimentos (clasificación food/non-food), para generar predicciones a partir de un conjunto de clasificadores de alimentos y para la detección semántica de alimentos. Primero, establecemos en estado del arte en cuanto a últimos avances en clasificación de food/non-food y proponemos un modelo óptimo basado en la arquitectura GoogLeNet, Análisis de Componentes Principales (PCA) y una Máquina de Vector de Soporte (SVM). En segundo lugar, proponemos medidas difusas para combinar múltiples clasificadores para el reconocimiento de alimentos basados en dos arquitecturas convolucionales diferentes que se complementan y de este modo, logran una mejora en el rendimiento. Y tercero, abordamos el problema del análisis automático de bandejas de alimentos en el entorno de comedores y restaurantes a través de un nuevo enfoque que integra en un mismo marco la localización, el reconocimiento y la segmentación de alimentos para la detección semántica de alimentos.
Todos los métodos diseñados en esta tesis están validados y contrastados sobre conjuntos de datos de alimentos públicos relevantes y los resultados obtenidos se informan en detalle.
en_US
dc.format.extent
154 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
eng
en_US
dc.publisher
Universitat de Barcelona
dc.rights.license
ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Processament d'imatges
en_US
dc.subject
Proceso de imágenes
en_US
dc.subject
Image processing
en_US
dc.subject
Visió per ordinador
en_US
dc.subject
Visión por ordenador
en_US
dc.subject
Computer vision
en_US
dc.subject
Xarxes neuronals convolucionals
en_US
dc.subject
Redes neuronales convolucionales
en_US
dc.subject
Convolutional neural networks
en_US
dc.subject.other
Ciències Experimentals i Matemàtiques
en_US
dc.title
Deep Learning and Uncertainty Modeling in Visual Food Analysis
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.director
Radeva, Petia
dc.contributor.tutor
Radeva, Petia
dc.embargo.terms
cap
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess