Color in visual recognition: from flat to deep representations and some biological parallelisms

Autor/a

Rafegas Fonoll, Ivet

Director/a

Vanrell i Martorell, Maria Isabel

Data de defensa

2017-11-13

ISBN

9788449077487

Pàgines

166 p.



Departament/Institut

Universitat Autònoma de Barcelona. Departament de Ciències de la Computació

Resum

El reconocimiento visual es uno de los principales problemas de la visión por computador que intenta resolver para la comprensión de imágenes. Persigue responder a la pregunta de qué objetos hay en una imagen. Este problema puede ser resuelto computacionalmente, usando conjuntos de características visuales relevantes como bordes, esquinas, color u otras partes más complejas de los objetos. Esta tesis contribuye en averiguar cómo las características de color tienen que ser representadas para las tareas de reconocimiento. Las características de las imágenes pueden ser extraídas mediante dos enfoques distintos. Una primera estrategia es definir manualmente descriptores de imágenes y posteriormente usar una técnica de aprendizaje para clasificar el contenido (conocido como esquema llano [Kruger,2013]). En esta estrategia habitualmente se usan consideraciones perceptuales para definir unas características de color eficientes. En esta tesis proponemos un nuevo descriptor de color llano basado en la extensión de canales de color para promover la representación del contraste espaciocromático que supera los métodos del estado de arte. No obstante, estos esquemas llanos escasean de generalidad, alejándose así de las capacidades de los sistemas biológicos. Una segunda estrategia propone evolucionar de los esquemas llanos a procesos jerárquicos, tal y como se desempeña en la corteza visual. Además incluye un proceso automático para el aprendizaje de características óptimas. Los esquemas profundos, y especialmente las redes neuronales convolucionales (CNNs), han demostrado un impactante desempeño para solventar distintos problemas visuales. Aun así, se carece de entender las representaciones internas obtenidas como resultado del aprendizaje automático. En esta tesis proponemos una nueva metodología para explorar la representación interna de CNNs entrenadas, mediante la definición de la Neuron Feature como visualización de las propiedades intrínsecas codificadas en cada una de las neuronas. De manera adicional, e inspirándonos en técnicas fisiológicas, proponemos obtener diferentes índices de selectividad de las neuronas (por ejemplo, color, clase, orientación o simetría, entre otros) para etiquetar y clasificar la población de neuronas de la CNN y comprender las representaciones aprendidas. Finalmente, utilizando la metodología propuesta, mostramos un profundo estudio sobre cómo el color es representado en una red específica entrenada para el reconocimiento de objetos y que compite con las capacidades de representación de los primates [Cadieu,2014]. Encontramos diversos paralelismos con los sistemas visuales biológicos: (a) un importante número de neuronas selectivas al color a través de todas las capas; (b) una representación de baja frecuencia y de colores oponentes para bordes de color; mientras que hay una mayor muestra de frecuencias para las neuronas de luminosidad (comparado con las de color) tal y como se efectúa en V1; (c) una mayor representación de tonalidades de color en la segunda capa que se alinea con los mapas de tonos observados en V2; (d) un fuerte vínculo entre las características de color y de forma en todas las capas, yendo des de características básicas en las primeras capas (V1 y V2) hasta formas relacionadas con el objeto y el fondo en capas más profundas (V3 y V4); y (e) una fuerte correlación entre las neuronas selectivas al color y la tendencia de la base de datos.


El reconeixement visual és un dels principals problemes que la visió per computador que intenta resoldre per a la comprensió d’imatges. Persegueix respondre a la pregunta de quins objectes hi ha en una imatge. Aquest problema pot ser resolt computacionalment, usant conjunts de característiques visuals rellevants com ara fronteres, cantonades, color o altres parts més complexes dels objectes. Aquesta tesi contribueix en esbrinar com les característiques del color han de ser representades per a les tasques de reconeixement. Les característiques de les imatges poden ser extretes mitjançant dos enfocaments diferents. Una primera estratègia és definir manualment descriptors d’imatges i posteriorment utilitzar una tècnica d’aprenentatge per tal de classificar-ne el contingut (conegut com esquema pla [Kruger,2013]). En aquesta estratègia habitualment s’usen consideracions de percepció per definir unes característiques de color eficients. En aquesta tesi proposem un nou descriptor de color pla basat en la extensió de canals de color per tal de promoure la representació espaciocromàtica del contrast que supera els mètodes de l’estat de l’art. No obstant això, aquests esquemes plans flaquegen de generalitat, allunyant-se així de les capacitats dels sistemes biològics. Una segona estratègia proposa evolucionar aquests esquemes plans cap a processos jeràrquics, tal i com es desenvolupa en el còrtex visual. A més, inclou un procés automàtic per l’aprenentatge de característiques òptimes. Els esquemes profunds, i especialment les xarxes neuronals convolucionals (CNNs), han demostrat una impactant capacitat en solucionar diferents problemes visuals. No obstant això, s’escasseja de comprendre les representacions internes obtingudes com a resultat de l’aprenentatge automàtic. En aquesta tesis proposem una nova metodologia per a explorar la representació interna de les CNNs entrenades, mitjançant la definició de la Neuron Feature com a visualització de les propietats intrínseques codificades en cada una de les neurones. De manera addicional, i inspirant-nos en tècniques fisiològiques, proposem obtenir diferents índexs de selectivitat de les neurones (per exemple, color, classe, orientació o simetria, entre altres) per tal d’etiquetar i classificar la població de neurones de la CNN i comprendre les representacions apreses. Finalment, utilitzant la metodologia proposada, mostrem un estudi profund sobre com el color és representat en una xarxa específica entrenada per al reconeixement d’objectes, que competeix amb les capacitats de representació dels primats [Cadieu,2014]. Trobem diversos paral•lelismes amb els sistemes visuals biològics: (a) un important nombre de neurones selectives al color a través de totes les capes; (b) una representació de baixa freqüència i de colors oponents per a les fronteres de color; mentre que hi ha una major mostra de freqüències per a les neurones de lluminositat (comparat amb les de color) tal i com s’efectua a V1; (c) una major representació de tonalitats de color a la segona capa que s’alinea amb els mapes de tons observats a V2; (d) un fort lligam entre les característiques de color i de forma en totes les capes, anant des de característiques bàsiques a les primeres capes (V1 i V2) fins a formes relacionades amb l’objecte i el fons a les capes més profundes (V3 i V4); i (e) una forta correlació entre les neurones selectives al color i la tendència de la base de dades.


Visual recognition is one of the main problems of computer vision that tries to solve for image understanding. It pursuits to answer the question of what objects are in images. This problem can be computationally solved by using relevant sets of visual features, such as edges, corners, color or more complex object parts. This thesis contributes on how color features have to be represented for recognition tasks. Image features can be extracted following two different approaches. A first approach is defining handcrafted descriptors of images followed by a learning scheme to classify the content (named flat schemes in [Kruger,2013]). In this approach, perceptual considerations are habitually used to define efficient color features. Here we propose a new flat color descriptor based on the extension of color channels to boost the representation of spatio-chromatic contrast that overcomes state-of-the-art approaches. However, flat schemes present a lack of generality far away from the capabilities of biological systems. A second approach proposes to evolve these flat schemes to a hierarchical process, as it is performed in the visual cortex. This includes an automatic process to learn optimal features. These deep schemes, and more specially Convolutional Neural Networks (CNNs), have shown an impressive performance to solve different vision problems. However, there is a lack of understanding about the internal representation obtained, as a result of the automatic learning. In this thesis we propose a new methodology to explore the internal representation of trained CNNs by defining the Neuron Feature as a visualization of the intrinsic features encoded in each individual neuron. Additionally, and inspired by physiological techniques, we propose to compute different neuron selectivity indexes (e.g., color, class, orientation or symmetry, amongst others) to label and classify the full CNN neuron population to understand learned representations. Finally, using the proposed methodology, we show an in-depth study on how color is represented on a specific CNN, trained for object recognition, that competes with primate representational abilities [Cadieu,2014]. We found several parallelisms with biological visual systems: (a) an important number of color selectivity neurons through all the layers; (b) an opponent and low frequency representation of color oriented edges and a higher sampling of frequency selectivity in brightness than in color in 1st layer like in V1; (c) a higher sampling of color hue in the second layer aligned to observed hue maps in V2; (d) a strong color and shape entanglement in all layers going from basic features in shallower layers (V1 and V2) to object and background shapes in deeper layers (V4 and IT); and (e) a strong correlation between neuron color selectivities and color dataset bias.

Paraules clau

Visió per computador; Visión por computador; Computer vision; Xarxes neuronals convolucionals; Redes neuronales convolucionales; Convolutional neural networks; Índex de selectivitat; Índices de selectividad; Selectivity indexes

Matèries

004 - Informàtica

Àrea de coneixement

Tecnologies

Documents

irf1de1.pdf

5.357Mb

 

Drets

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

Aquest element apareix en la col·lecció o col·leccions següent(s)