A computational model of eye guidance, searching for text in real scene images

Author

Clavelli, Antonio

Director

Karatzas, Dimosthenis

Codirector

Boccignone, Giuseppe

Tutor

Lladós Canet, Josep

Date of defense

2014-10-13

ISBN

9788449047459

Legal Deposit

B-24619-2014

Pages

109 p.



Department/Institute

Universitat Autònoma de Barcelona. Departament de Ciències de la Computació

Abstract

La cerca d’objectes de text en imatges d’escena reals és un problema obert i una àrea de cerca molt activa la visió per computador. S’han proposat un gran nombre de mètodes basats en l’extensió dels mètodes des de l’anàlisi de documents o inspirat en mètodes de detecció d’objectes. No obstant això, el problema de la cerca d’objectes en imatges d’escena reals segueix sent un problema extremadament difícil a causa de la gran variabilitat en l’aparen¸ca dels objectes. Aquesta tesi es basa en els més recents troballes en la literatura de l’atenció visual, introduint un nou model computacional de visió guiada que apunta descriure la cerca de text en imatges d’escenes reals. En primer lloc es presenten els resultats més pertinents de la literatura científica en relació amb l’atenció visual, els moviments oculars i la cerca visual. Els més rellevants models d’atenció són discutits i integrats amb recents observacions sobre la funció dels anomenats ’top-down constraints’ i l’emergent necessitat d’un model estratificat d’atenció en què la saliència no és l’únic factor guia d’atenció. L’atenció visual s’explica per la interacció de diversos factors moduladors, com ara objectes, valor, plans i saliència. S’introdueix la nostra formulació probabilística dels mecanismes d’atenció en es- cenes reals per a la tasca de cerca d’objectes. El model es basa en l’argument que el desplegament d’atenció depèn de dos processos diferents però interactuants: un procés d’atenció que assigna valor a les fonts d’informació i un procés motor que uneix flexiblement informació amb l’acció. En aquest marc, l’elecció d’on buscar la propera tasca és dependent i orientada a les classes d’objectes incrustats en imatges d’escenes reals. La dependència de la tasca es té en compte en explotar el valor i la recompensa de contemplar certes parts o proto-objectes de la imatge que proporcionen una esclarissada representació dels objectes en l’escena. A la secció experimental prova el model en condicions de laboratori, comparant les simulacions del model amb dades d’experiments de eye tracking. La comparació és qualitativa en termes de trajectòries d’exploració i quantitativa, en termes de similitud estadística de l’amplitud de moviments oculars. Els experiments s’han realitzat amb dades de eye tracking tant d’un conjunt de dades públic de rostre humans i text, tant amb un nou conjunt de dades de eye tracking i d’imatges urbanes amb text. L’última part d’aquesta tesi es dedica a estudiar en quina mesura el model proposat pot respondre del desplegament d’atenció en un entorn complex. S’ha utilitzat un dispositiu mòbil de eye tracking i una metodologia desenvolupada específicament per comparar les dades simulades amb les dades gravades de eye tracking. Tal configuració permet posar a prova el model en la tasca de cerca de text molt semblant a una cerca real, en la condició d’informació visual incompleta.


La búsqueda de objetos de texto en imágenes de escena reales es un problema abierto y un área de investigación muy activa la visión por computador. Se han propuesto un gran número de métodos basados en la extensión de los métodos desde el análisis de documentos o inspirado en métodos de detección de objetos. Sin embargo, el problema de la búsqueda de objetos en imágenes de escena reales sigue siendo un problema extremadamente difícil debido a la gran variabilidad en la apariencia de los objetos. Esta tesis se basa en los más recientes hallazgos en la literatura de la atención visual, introduciendo un nuevo modelo computacional de visión guiada que apunta a describir la búsqueda de texto en imágenes de escenas reales. En primer lugar se presentan los resultados mas pertinentes de la literatura científica en relación con la atención visual, los movimientos oculares y la búsqueda visual. Los mas relevantes modelos de atención son discutidos e integrados con recientes obser- vaciones sobre la función de los denominados ’top-down constraints’ y la emergente necesidad de un modelo estratificado de atención en el que la saliencia no es el único factor guía de atención. La atención visual se explica por la interacción de varios factores moduladores, tales como objetos, valor, planes y saliencia. Se introduce nuestra formulación probabilística de los mecanismos de atención en escenas reales para la tarea de búsqueda de objetos. El modelo se basa en el argumento de que el despliegue de atención depende de dos procesos distintos pero interactuantes: un proceso de atención que asigna valor a las fuentes de información y un proceso motor que une flexiblemente información con la acción. En ese marco, la elección de dónde buscar la próxima tarea es dependiente y orientada a las clases de objetos incrustados en imágenes de escenas reales. La dependencia de la tarea se tiene en cuenta al explotar el valor y la recompensa de contemplar ciertas partes o proto-objetos de la imagen que proporcionan una rala representación de los objetos en la escena. En la sección experimental se prueba el modelo en condiciones de laboratorio, comparando las simulaciones del modelo con datos de experimentos de eye tracking. La comparación es cualitativa en términos de trayectorias de exploración y cuanti- tativa, en términos de similitud estadística de la amplitud de movimientos oculares. Los experimentos se han realizado con datos de eye tracking tanto de un conjunto de datos públicos de rostros humanos y texto, tanto con un nuevo conjunto de datos de eye tracking y de imágenes urbanas con texto. La última parte de esta tesis se dedica a estudiar en qué medida el modelo prop- uesto puede responder del despliegue de atención en un entorno complejo. Se ha utilizado un dispositivo móvil de eye tracking y una metodología desarrollada es- pecíficamente para comparar los datos simulados con los datos grabados de eye track- ing. Tal configuración permite poner a prueba el modelo en la tarea de búsqueda de texto muy parecida a una búsqueda real, en la condición de información visual incompleta.


Searching for text objects in real scene images is an open problem and a very ac- tive computer vision research area. A large number of methods have been proposed tackling the text search as extension of the ones from the document analysis field or inspired by general purpose object detection methods. However the general problem of object search in real scene images remains an extremely challenging problem due to the huge variability in object appearance. This thesis builds on top of the most recent findings in the visual attention literature presenting a novel computational model of eye guidance aiming to better describe text object search in real scene images. First are presented the relevant state-of-the-art results from the visual attention literature regarding eye movements and visual search. Relevant models of attention are discussed and integrated with recent observations on the role of top-down con- straints and the emerging need for a layered model of attention in which saliency is not the only factor guiding attention. Visual attention is then explained by the interaction of several modulating factors, such as objects, value, plans and saliency. Then we introduce our probabilistic formulation of attention deployment in real scene. The model is based on the rationale that oculomotor control depends on two interacting but distinct processes: an attentional process that assigns value to the sources of information and motor process that flexibly links information with action. In such framework, the choice of where to look next is task-dependent and oriented to classes of objects embedded within pictures of complex scenes. The dependence on task is taken into account by exploiting the value and the reward of gazing at certain image patches or proto-objects that provide a sparse representation of the scene objects. In the experimental section the model is tested in laboratory condition, compar- ing model simulations with data from eye tracking experiments. The comparison is qualitative in terms of observable scan paths and quantitative in terms of statisti- cal similarity of gaze shift amplitude. Experiments are performed using eye tracking data from both a publicly available dataset of face and text and from newly performed eye-tracking experiments on a dataset of street view pictures containing text. The last part of this thesis is dedicated to study the extent to which the proposed model can account for human eye movements in a low constrained setting. We used a mobile eye tracking device and an ad-hoc developed methodology to compare model simulated eye data with the human eye data from mobile eye tracking recordings. Such setting allow to test the model in an incomplete visual information condition, reproducing a close to real-life search task.

Keywords

Visual attention; Atención visual

Subjects

11 - Metaphysics

Knowledge Area

Tecnologies

Documents

ac1de1.pdf

1010.Kb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/

This item appears in the following Collection(s)