Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
En aquesta tesi intentaré explicar (1) com movem els ulls, (2) com fer màquines que entenguin la informació visual i executar moviments oculars, i (3) com fer que aquestes màquines entenguin tasques per tal de decidir per aquets moviments oculars. (1) Hem analitzat del comportament dels moviments oculars provocat per les diferències de característiques de baix nivell amb una base de dades d’imatges composada per 230 patrons generats sintèticament. S’han generat un total de 15 tipus d’estímuls (p.e. orientació, brillantor, color, tamany, etc.), amb 7 contrastos per cada categoría de característica. Les dades de 34 participants s’han pogut col leccionar a partir d’un seguidor ocular durant la visualització de la base de dades, amb les tasques d’Observació Lliure i Cerca Visual. Els resultats han mostrat que la saliency és predominantment i distinctivament influenciada per: 1. el tipus de característica, 2. el contrast de característiques, 3. la temporalitat de les fixacions, 4. la dificultat de la tasca i 5. l’esbiaixament central. A partir d’aquesta base de dades (SID4VAM) hem computat una comparació dels models de saliency testejant el seu rendiment utilitzant patrons psicofísics. El nostre estudi revela que els models en l’estat de l’art en saliency basats Deep Learning no tenen bon rendiment amb patrons sintètics, contràriament, els models d’inspiració Espectral/Fourier en superen el rendiment i són més consistents amb la experimentació psicofísica. (2) Les computacions de l’escorça visual primària (area V1 o escorça estriada) s’han hipotetitzat com a responsables, entre altres mecanismes de processament visual, de l’atenció visual bottom-up (o també anomenada saliency). Per tal de validar aquesta hipòtesi, s’han processat diferents bades de dades d’imatges amb seguidor ocular a partir d’un model biològicament plausible de V1 (anomenat Neurodyamic Saliency Wavelet Model o NSWAM). Seguint el model neurodinàmic de Li, hem definit les connexions laterals de V1 amb una xarxa de neurones firing rate, sensitives a característiques visuals com la brillantor, el color, la orientació i la escala. Els processos subcorticals inferiors (i.e. retinals i talàmics) s’han modelitzat funcionalment. Els mapes de saliency resultats s’han generat a partir de la sortida del model, representant l’activitat neuronal de V1 cap a les arees del cervell involucrades en el control dels moviments oculars. Fa falta destacar que la nostra arquitectura unificada és capaç de reproduir diferents processos de la visió (i.e. inducció de brillantor, cromàtica i malestar visual) sense aplicar cap tipus d’entrenament ni optimització i seguint la mateixa parametrització. S’ha extès el model (NSWAM-CM) incluint una implementació de la magnificació cortical per tal de definir les projeccions retinotòpiques cap a V1 per cada visualització de la escena. També s’ha proposat la inhibició de retorn i mecanismes de selecció per tal de predir l’atenció tant en Observació Lliure com Cerca Visual. Els resultats han demostrat que el model supera en rendiment a altres models biològicament inspirats per a la predicció de saliency i sequències de saccades, en concret en imatges de sintètiques i de natura. (3) El priming de tasca és crucial per a la execució de moviments oculars, involucrant interaccions entre arees cerebrals relacionades amb la conducta orientada a la meta, memòria de treball i de llarg termini en combinació amb les zones neuronals responsables de processar els estímuls. En l’últim estudi, hem proposat d’extendre el Selective Tuning Reference Fixation Controller Model, basat en instruccions de tasca (STAR-FCT), describint noves definicions computacionals de la Memòria de Llarg Termini, l’Executiu de Tasques Visuals i la Memòria de Treball per a la Tasca. A partir d’aquests mòduls hem sigut capaços d’utilitzar instruccions textuals per tal de guiar el model a dirigir la atenció a categoríes específiques d’objecte i/o llocs concrets de la escena. Hem disenyat el nostre model de memòria a partir de una jerarquía de característiques tant d’alt com de baix nivell. La relació entre les instruccions executives de la tasca i les representacions de la memòria s’han especificat utilitzant un arbre de similaritats semàntiques entre les característiques apreses i les anotacions de categoría d’objecte. Els resultats en comparació amb la saliency han mostrat que utilitzant aquest model, tant els mapes de localització d’objecte com les prediccions de saccades tenen major probabilitat de caure en les regions salients depenent de les instruccions.
In this thesis we try to explain (1) how we move our eyes, (2) how to build machines that understand visual information and deploy eye movements, and (3) how to make these machines understand tasks in order to decide for eye movements. (1) We provided the analysis of eye movement behavior elicited by low-level feature distinctiveness with a dataset of 230 synthetically-generated image patterns. A total of 15 types of stimuli has been generated (e.g. orientation, brightness, color, size, etc.), with 7 feature contrasts for each feature category. Eye-tracking data was collected from 34 participants during the viewing of the dataset, using Free-Viewing and Visual Search task instructions. Results showed that saliency is predominantly and distinctively in uenced by: 1. feature type, 2. feature contrast, 3. temporality of xations, 4. task di culty and 5. center bias. From such dataset (SID4VAM), we have computed a benchmark of saliency models by testing performance using psychophysical patterns. Our study reveals that state-of-the-art Deep Learning saliency models do not perform well with synthetic pattern images, instead, models with Spectral/Fourier inspiration outperform others in saliency metrics and are more consistent with human psychophysical experimentation. (2) Computations in the primary visual cortex (area V1 or striate cortex) have long been hypothesized to be responsible, among several visual processing mechanisms, of bottom-up visual attention (also named saliency). In order to validate this hypothesis, images from eye tracking datasets have been processed with a biologically-plausible model of V1 (named Neurodynamic Saliency Wavelet Model or NSWAM). Following Li's neurodynamic model, we de ne V1's lateral connections with a network of ring-rate neurons, sensitive to visual features such as brightness, color, orientation and scale. Early subcortical processes (i.e. retinal and thalamic) are functionally simulated. The resulting saliency maps are generated from the model output, representing the neuronal activity of V1 projections towards brain areas involved in eye movement control. We want to pinpoint that our uni ed computational architecture is able to reproduce several visual processes (i.e. brightness, chromatic induction and visual discomfort) without applying any type of training or optimization and keeping the same parametrization. The model has been extended (NSWAM-CM) with an implementation of the cortical magni cation function to de ne the retinotopical projections towards V1, processing neuronal activity for each distinct view during scene observation. Novel inhibition of return and selection mechanisms are also proposed to predict attention in Free-Viewing and Visual Search conditions. Results show that our model outpeforms other biologically-inpired models of saliency prediction as well as to predict visual saccade sequences, speci cally for nature and synthetic images. (3) Task priming has been shown to be crucial to the deployment of eye movements, involving interactions between brain areas related to goal-directed behavior, working and long-term memory in combination with stimulus-driven eye movement neuronal correlates. In our latest study we proposed an extension of the Selective Tuning Attentive Reference Fixation Controller Model based on task demands (STAR-FCT), describing novel computational de nitions of Long-Term Memory, Visual Task Executive and Task Working Memory. With these modules we are able to use textual instructions in order to guide the model to attend to speci c categories of objects and/or places in the scene. We have designed our memory model by processing a visual hierarchy of low- and high-level features. The relationship between the executive task instructions and the memory representations has been speci ed using a tree of semantic similarities between the learned features and the object category labels. Results reveal that by using this model, the resulting object localization maps and predicted saccades have a higher probability to fall inside the salient regions depending on the distinct task instructions compared to saliency.
Saliency; Saliencia; Saliency; Moviments oculars; Movimientos oculares; Eye movements; Escorça visual; Corteza visual; Visual cortex
004 - Informática
Tecnologies