Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
Reconèixer i identificar diverses subcategories en el nostre entorn és una activitat crucial a les nostres vides. Reconèixer un amic, trobar cert bacteri en imatges de microscopi, o descobrir un nou tipus de galàxia en són només alguns exemples. Malgrat això, el reconeixement de subcategories en imatges encara és una tasca costosa en el camp de la visió per computador, ja que les diferències entre dues imatges de la mateixa subcategoria eclipsen els detalls que distingeixen dues subcategories diferents. En aquest tipus de problema, en què la distinció entre categories radica en diferències subtils, les xarxes neuronals més robustes a pertorbacions se centren en els canvis més obvis i solen fallar, ja que ignoren els detalls que permeten distingir entre diferents categories. Per altra banda, els models amb massa capacitat tendeixen a memoritzar detalls únics d’imatges concretes, pel que fallen en generalitzar amb noves imatges mai vistes. En aquesta tesi doctoral, motivats per l’impacte potencial del reconeixement automàtic de subcategories, abordem els desafiaments presentats i demostrem que és possible obtenirmodels generals i robustos. Concretament, estudiem les diferents fases dels algorismes de reconeixement d’imatges: preprocessament de les dades, atenció a diferents regions, activitat de les neurones, i l’espai de categories. A cada fase abordem diferents problemes que redueixen la precisió delsmodels al classificar diferents tipus de dades i proposem diferents solucions a cada capítol: i) Abordem el problema de la sensibilitat a l’alineament de les imatges en el reconeixement d’expressions facials, com el dolor. ii) Proposem un mecanisme d’atenció que permet a les xarxes neuronals centrar-se i processar en detall les parts més informatives de les imatges. iii) Estenem els mecanismes d’atenció més enllà dels píxels, permetent les xarxes atendre la seva pròpia activitat neuronal per a corregir les prediccions finals. iv) Després proposem una nova funció de cost per a regularitzar les connexions de les capes de neurones, incentivant l’aprenentatge de patrons diferents i, per tant, prevenint la memorització de detalls únics. v) Estudiem els avantatges de modelar explícitament l’espai de categories utilitzant la teoria de codis correctors d’errors. Com a resultat, en aquesta tesi demostrem que els mecanismes d’atenció i regularització poden ser la clau per a solucionar els problemes de reconeixement de subcategories, així com una bona modelització de l’espai d’entrada i sortida dels models.
Reconocer e identificar diferentes subcategorías en nuestro entorno es una actividad crucial en nuestras vidas. Reconocer un amigo, encontrar cierta bacteria en imágenes de microscopio, o descubrir un nuevo tipo de galaxia son solo algunos ejemplos. Sin embargo, el reconocimiento de subcategorías en imágenes aún es una tarea ardua en el campo de la visión por computador, ya que las diferencias entre dos imágenes de la misma subcategoría eclipsan los detalles que distinguen dos subcategorías diferentes. En este tipo de problema, en que la distinción entre categorías radica en diferencias sutiles, las redes neuronales más insensibles a perturbaciones se centran en los cambios más obvios y tienden a errar, ya que ignoran aquellos detalles que permiten desambiguar entre diferentes categorías. Por otro lado, los modelos con demasiada capacidad tienden a memorizar detalles únicos de imágenes concretas, por lo que fallan al generalizar con nuevas imágenes nunca vistas. En esta tesis doctoral, motivados por el impacto potencial del reconocimiento automático de subcategorías, abordamos los desafíos presentados y demostramos que es posible obtenermodelos generales y robustos. Concretamente, estudiamos las diferentes fases de los algoritmos de reconocimiento de imágenes: preproceso de los datos, atención a diferentes regiones, actividad de las neuronas y el espacio de categorías. En cada fase, abordamos diferentes problemas que merman la precisión de los modelos al clasificar diferentes tipos de datos, y proponemos diferentes soluciones en cada capítulo: i) Primero abordamos el problema de la sensibilidad al alineamiento de las imágenes en el reconocimiento de expresiones faciales, como el dolor. ii) A continuación, proponemos un mecanismo de atención que permite a las redes neuronales centrarse y procesar en detalle las partes más informativas de las imágenes. iii) Extendemos losmecanismos de atenciónmás allá de los píxeles, permitiendo las redes atender su propia actividad neuronal para corregir las predicciones finales. iv)Después proponemos una nueva función de coste para regularizar las conexiones de las capas de neuronas, incentivando el aprendizaje de patrones distintos y, por lo tanto, previniendo la memorización de detalles únicos en objetos. v) Finalmente, estudiamos las ventajas de modelar explícitamente el espacio de categorías usando la teoría de códigos correctores de errores. Como resultado, en esta tesis demostramos que los mecanismos de atención y regularización pueden ser la clave para solucionar los problemas del reconocimiento de subcategorías, así como una buena modelización del espacio de entrada y salida de losmodelos.
Fine-grained recognition, i.e. identifying similar subcategories of the same superclass, is central to human activity. Recognizing a friend, finding bacteria in microscopic imagery, or discovering a new kind of galaxy, are just but few examples. However, fine-grained image recognition is still a challenging computer vision task since the differences between two images of the same category can overwhelm the differences between two images of different fine-grained categories. In this regime, where the difference between two categories resides on subtle input changes, excessively invariant CNNs discard those details that help to discriminate between categories and focus on more obvious changes, yielding poor classification performance. On the other hand, CNNs with too much capacity tend to memorize instance-specific details, thus causing overfitting. In this thesis,motivated by the potential impact of automatic fine-grained image recognition, we tackle the previous challenges and demonstrate that proper alignment of the inputs, multiple levels of attention, regularization, and explicitmodeling of the output space, results inmore accurate fine-grained recognitionmodels, that generalize better, and are more robust to intra-class variation. Concretely, we study the different stages of the neural network pipeline: input pre-processing, attention to regions, feature activations, and the label space. In each stage, we address different issues that hinder the recognition performance on various fine-grained tasks, and devise solutions in each chapter: i)We deal with the sensitivity to input alignment on fine-grained human facial motion such as pain. ii) We introduce an attention mechanism to allow CNNs to choose and process in detail the most discriminate regions of the image. iii)We further extend attention mechanisms to act on the network activations, thus allowing them to correct their predictions by looking back at certain regions, at different levels of abstraction. iv) We propose a regularization loss to prevent high-capacity neural networks to memorize instance details by means of almost-identical feature detectors. v)We finally study the advantages of explicitly modeling the output space within the error-correcting framework. As a result, in this thesis we demonstrate that attention and regularization seem promising directions to overcome the problems of fine-grained image recognition, as well as proper treatment of the input and the output space.
Visió per computador; Visión por computador; Computer vision; Aprenentatge computacional; Aprendizaje computacional; Machine learning; Classificació d'imatges; Clasificación de imágenes; Image classification
004 - Informàtica
Tecnologies