dc.contributor
Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
dc.contributor.author
Rodríguez López, Pau
dc.date.accessioned
2019-07-15T07:33:21Z
dc.date.available
2019-07-15T07:33:21Z
dc.date.issued
2019-03-01
dc.identifier.isbn
9788449087028
en_US
dc.identifier.uri
http://hdl.handle.net/10803/667196
dc.description.abstract
Reconèixer i identificar diverses subcategories en el nostre entorn és una activitat
crucial a les nostres vides. Reconèixer un amic, trobar cert bacteri en imatges de
microscopi, o descobrir un nou tipus de galàxia en són només alguns exemples.
Malgrat això, el reconeixement de subcategories en imatges encara és una tasca
costosa en el camp de la visió per computador, ja que les diferències entre dues
imatges de la mateixa subcategoria eclipsen els detalls que distingeixen dues subcategories
diferents. En aquest tipus de problema, en què la distinció entre categories
radica en diferències subtils, les xarxes neuronals més robustes a pertorbacions
se centren en els canvis més obvis i solen fallar, ja que ignoren els detalls que permeten
distingir entre diferents categories. Per altra banda, els models amb massa
capacitat tendeixen a memoritzar detalls únics d’imatges concretes, pel que fallen
en generalitzar amb noves imatges mai vistes. En aquesta tesi doctoral, motivats
per l’impacte potencial del reconeixement automàtic de subcategories, abordem
els desafiaments presentats i demostrem que és possible obtenirmodels generals i
robustos. Concretament, estudiem les diferents fases dels algorismes de reconeixement
d’imatges: preprocessament de les dades, atenció a diferents regions, activitat
de les neurones, i l’espai de categories. A cada fase abordem diferents problemes
que redueixen la precisió delsmodels al classificar diferents tipus de dades i proposem
diferents solucions a cada capítol: i) Abordem el problema de la sensibilitat a
l’alineament de les imatges en el reconeixement d’expressions facials, com el dolor.
ii) Proposem un mecanisme d’atenció que permet a les xarxes neuronals centrar-se
i processar en detall les parts més informatives de les imatges. iii) Estenem els
mecanismes d’atenció més enllà dels píxels, permetent les xarxes atendre la seva
pròpia activitat neuronal per a corregir les prediccions finals. iv) Després proposem
una nova funció de cost per a regularitzar les connexions de les capes de neurones,
incentivant l’aprenentatge de patrons diferents i, per tant, prevenint la memorització
de detalls únics. v) Estudiem els avantatges de modelar explícitament l’espai
de categories utilitzant la teoria de codis correctors d’errors. Com a resultat, en
aquesta tesi demostrem que els mecanismes d’atenció i regularització poden ser la
clau per a solucionar els problemes de reconeixement de subcategories, així com
una bona modelització de l’espai d’entrada i sortida dels models.
en_US
dc.description.abstract
Reconocer e identificar diferentes subcategorías en nuestro entorno es una actividad
crucial en nuestras vidas. Reconocer un amigo, encontrar cierta bacteria en
imágenes de microscopio, o descubrir un nuevo tipo de galaxia son solo algunos
ejemplos. Sin embargo, el reconocimiento de subcategorías en imágenes aún es
una tarea ardua en el campo de la visión por computador, ya que las diferencias
entre dos imágenes de la misma subcategoría eclipsan los detalles que distinguen
dos subcategorías diferentes. En este tipo de problema, en que la distinción entre
categorías radica en diferencias sutiles, las redes neuronales más insensibles a perturbaciones
se centran en los cambios más obvios y tienden a errar, ya que ignoran
aquellos detalles que permiten desambiguar entre diferentes categorías. Por otro
lado, los modelos con demasiada capacidad tienden a memorizar detalles únicos de
imágenes concretas, por lo que fallan al generalizar con nuevas imágenes nunca vistas.
En esta tesis doctoral, motivados por el impacto potencial del reconocimiento
automático de subcategorías, abordamos los desafíos presentados y demostramos
que es posible obtenermodelos generales y robustos. Concretamente, estudiamos
las diferentes fases de los algoritmos de reconocimiento de imágenes: preproceso
de los datos, atención a diferentes regiones, actividad de las neuronas y el espacio
de categorías. En cada fase, abordamos diferentes problemas que merman la precisión
de los modelos al clasificar diferentes tipos de datos, y proponemos diferentes
soluciones en cada capítulo: i) Primero abordamos el problema de la sensibilidad al
alineamiento de las imágenes en el reconocimiento de expresiones faciales, como
el dolor. ii) A continuación, proponemos un mecanismo de atención que permite a
las redes neuronales centrarse y procesar en detalle las partes más informativas de
las imágenes. iii) Extendemos losmecanismos de atenciónmás allá de los píxeles,
permitiendo las redes atender su propia actividad neuronal para corregir las predicciones
finales. iv)Después proponemos una nueva función de coste para regularizar
las conexiones de las capas de neuronas, incentivando el aprendizaje de patrones
distintos y, por lo tanto, previniendo la memorización de detalles únicos en objetos.
v) Finalmente, estudiamos las ventajas de modelar explícitamente el espacio de
categorías usando la teoría de códigos correctores de errores. Como resultado, en
esta tesis demostramos que los mecanismos de atención y regularización pueden
ser la clave para solucionar los problemas del reconocimiento de subcategorías, así
como una buena modelización del espacio de entrada y salida de losmodelos.
en_US
dc.description.abstract
Fine-grained recognition, i.e. identifying similar subcategories of the same superclass,
is central to human activity. Recognizing a friend, finding bacteria in
microscopic imagery, or discovering a new kind of galaxy, are just but few examples.
However, fine-grained image recognition is still a challenging computer vision task
since the differences between two images of the same category can overwhelm the
differences between two images of different fine-grained categories. In this regime,
where the difference between two categories resides on subtle input changes, excessively
invariant CNNs discard those details that help to discriminate between
categories and focus on more obvious changes, yielding poor classification performance.
On the other hand, CNNs with too much capacity tend to memorize
instance-specific details, thus causing overfitting. In this thesis,motivated by the
potential impact of automatic fine-grained image recognition, we tackle the previous
challenges and demonstrate that proper alignment of the inputs, multiple
levels of attention, regularization, and explicitmodeling of the output space, results
inmore accurate fine-grained recognitionmodels, that generalize better, and are
more robust to intra-class variation. Concretely, we study the different stages of the
neural network pipeline: input pre-processing, attention to regions, feature activations,
and the label space. In each stage, we address different issues that hinder
the recognition performance on various fine-grained tasks, and devise solutions
in each chapter: i)We deal with the sensitivity to input alignment on fine-grained
human facial motion such as pain. ii) We introduce an attention mechanism to
allow CNNs to choose and process in detail the most discriminate regions of the
image. iii)We further extend attention mechanisms to act on the network activations,
thus allowing them to correct their predictions by looking back at certain
regions, at different levels of abstraction. iv) We propose a regularization loss to
prevent high-capacity neural networks to memorize instance details by means of
almost-identical feature detectors. v)We finally study the advantages of explicitly
modeling the output space within the error-correcting framework. As a result, in
this thesis we demonstrate that attention and regularization seem promising directions
to overcome the problems of fine-grained image recognition, as well as proper
treatment of the input and the output space.
en_US
dc.format.extent
145 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
eng
en_US
dc.publisher
Universitat Autònoma de Barcelona
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Visió per computador
en_US
dc.subject
Visión por computador
en_US
dc.subject
Computer vision
en_US
dc.subject
Aprenentatge computacional
en_US
dc.subject
Aprendizaje computacional
en_US
dc.subject
Machine learning
en_US
dc.subject
Classificació d'imatges
en_US
dc.subject
Clasificación de imágenes
en_US
dc.subject
Image classification
en_US
dc.subject.other
Tecnologies
en_US
dc.title
Towards robust neural models for fine-grained image recognition
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.authoremail
pau.rodri1@gmail.com
en_US
dc.contributor.director
Gonzàlez i Sabaté, Jordi
dc.contributor.director
Gomfaus Sitjes, Josep M.
dc.contributor.director
Roca Marvà, F. Xavier
dc.embargo.terms
cap
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess