A gaze estimation method and system for natural light cameras

Autor/a

Ferhat, Onur

Director/a

Vilariño Freire, Fernando

Fecha de defensa

2017-09-20

ISBN

9788449073298

Páginas

116 p.



Departamento/Instituto

Universitat Autònoma de Barcelona. Departament de Ciències de la Computació

Resumen

Els dispositius de seguiment d’ulls han estat tradicionalment utilitzats només dins dels laboratoris, i requerien professionals capacitats i mecanismes de configuració elaborats. No obstant això, en els últims anys el treball científic sobre dispositius fàcils d’usar que no requereixen cap maquinari especial—a part de les omnipresents càmeres frontals en ordinadors, tauletes i mòbils —té com a objectiu fer aquesta tecnologia accessible. Aquests tipus de seguidors tenen diversos desafiaments addicionals que dificulten el problema, com imatges de baixa resolució proporcionades per una càmera web normal, les condicions canviants d’il·luminació ambiental, les diferències d’aparença personal, els canvis en la postura del cap, etc. La investigació recent en el camp s’ha centrat en tots aquests desafiaments amb la finalitat de proporcionar millors resultats d’estimació de la mirada en una configuració del món real. En aquest treball, tractem d’abordar el problema de seguiment de la mirada en una configuració de càmera única. Primer analitzem tota la feina prèvia al camp, identificant les fortaleses i debilitats de cada idea provada. Comencem el nostre treball amb un mètode d’estimació de la mirada basat en l’aparença, que és la idea més simple que crea una correlació directa entre un pegat d’imatge rectangular extret voltant de l’ull en una imatge de càmera i el punt de mirada. Aquí, fem una extensa anàlisi dels factors que afecten l’execució d’aquest seguidor en diverses configuracions experimentals, per tal d’abordar aquests problemes en futurs treballs. A la segona part del nostre treball, proposem un mètode d’estimació de la mirada basat en característiques, que codifica la imatge de la regió ocular en una representació compacta. Argumentem que aquest tipus de representació és més adequat per a tractar amb la postura del cap i canvis en la condició d’il·luminació, ja que redueix la dimensionalitat de l’entrada (és a dir, la imatge de l’ull) i trenca la connexió directa entre les intensitats dels píxels de la imatge i l’estimació de la mirada. Finalment, utilitzem un algoritme d’alineació de la cara per tenir una estimació de la postura de cara robusta, fent servir un model 3D personalitzat per al subjecte que fa servir el seguidor. Combinem això amb una xarxa neuronal convolucional entrenada en un gran conjunt de dades d’imatges per aconseguir un seguidor de mirades invariant a la postura de la cara.


Los dispositivos de seguimiento de ojos han sido tradicionalmente utilizados sólo dentro de los laboratorios, y requerían profesionales capacitados y mecanismos de configuración elaborados. Sin embargo, en los últimos años el trabajo científico sobre dispositivos fáciles de usar que no requieren ningún hardware especial —aparte de las omnipresentes cámaras frontales en ordenadores, tabletas y móviles— tiene como objetivo hacer esta tecnología accesible. Estos tipos de seguidores tienen varios desafíos adicionales que dificultan el problema, como imágenes de baja resolución proporcionadas por una cámara web normal, las condiciones cambiantes de iluminación ambiental, las diferencias de apariencia personal, los cambios en la postura de la cabeza, etc. La investigación reciente en el campo se ha centrado en todos estos desafíos con el fin de proporcionar mejores resultados de estimación de la mirada en una configuración del mundo real. En este trabajo, tratamos de abordar el problema de seguimiento de la mirada en una configuración de cámara única. Primero analizamos todo el trabajo previo en el campo, identificando las fortalezas y debilidades de cada idea probada. Comenzamos nuestro trabajo con un método de estimación de la mirada basado en la apariencia, que es la idea más simple que crea una correlación directa entre un parche de imagen rectangular extraído alrededor del ojo en una imagen de cámara y el punto de mirada. Aquí, hacemos un extenso análisis de los factores que afectan el desempeño de este seguidor en varias configuraciones experimentales, con el fin de abordar estos problemas en futuros trabajos. En la segunda parte de nuestro trabajo, proponemos un método de estimación de la mirada basado en características, que codifica la imagen de la región ocular en una representación compacta. Argumentamos que este tipo de representación es más adecuado para tratar con la pose de la cabeza y cambios en la condición de iluminación, ya que reduce la dimensionalidad de la entrada (es decir, la imagen del ojo) y rompe la conexión directa entre las intensidades de los píxeles de la imagen y la estimación de la mirada. Por último, utilizamos un algoritmo de alineación de la cara para tener una estimación de la postura de cara robusta, usando un modelo 3D personalizado para el sujeto que usa el seguidor. Combinamos esto con una red neuronal convolucional entrenada en un gran conjunto de datos de imágenes para conseguir un seguidor de miradas invariante a la postura de la cara.


Eye tracker devices have traditionally been only used inside laboratories, requiring trained professionals and elaborate setup mechanisms. However, in the recent years the scientific work on easier–to–use eye trackers which require no special hardware —other than the omnipresent front facing cameras in computers, tablets, and mobiles— is aiming at making this technology common–place. These types of trackers have several extra challenges that make the problem harder, such as low resolution images provided by a regular webcam, the changing ambient lighting conditions, personal appearance differences, changes in head pose, and so on. Recent reasearch in the field has focused on all these challenges in order to provide better gaze estimation performances in a real world setup. In this work, we aim at tackling the gaze tracking problem in a single camera setup. We first analyze all the previous work in the field, identifying the strengths and weaknesses of each tried idea. We start our work on the gaze tracker with an appearance–based gaze estimation method, which is the simplest idea that creates a direct mapping between a rectangular image patch extracted around the eye in a camera image, and the gaze point (or gaze direction). Here, we do an extensive analysis of the factors that affect the performance of this tracker in several experimental setups, in order to address these problems in future works. In the second part of our work, we propose a feature–based gaze estimation method, which encodes the eye region image into a compact representation. We argue that this type of representation is better suited to dealing with head pose and lighting condition changes, as it both reduces the dimensionality of the input (i.e. eye image) and breaks the direct connection between image pixel intensities and the gaze estimation. Lastly, we use a face alignment algorithm to have robust face pose estimation, using a 3D model customized to the subject using the tracker. We combine this with a convolutional neural network trained on a large dataset of images to build a face pose invariant gaze tracker.

Palabras clave

Seguiment dels ulls; Seguimiento de los ojos; Eye tracking; Interacció de l'ordinador humana; Interacción de la computadora humana; Human computer interaction; Vsió per computador; Visión por computador; Computer vision

Materias

004 - Informática

Área de conocimiento

Tecnologies

Documentos

onfe1de1.pdf

1.220Mb

 

Derechos

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

Este ítem aparece en la(s) siguiente(s) colección(ones)