Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica
La visió i el llenguatge són àmpliament considerats com a pedres angulars de la intel·ligència. Tot i que el llenguatge i la visió tenen objectius diferents: el llenguatge té el propòsit de la comunicació, la transmissió d’informació i la visió té el propòsit de construir representacions mentals al nostre voltant per navegar i interactuar amb els objectes, interactuen i depenen els uns dels altres en moltes tasques que fem sense esforç. . Aquesta dependència està estudiant activament en diverses tasques de Computer Vision, p. subtítols d’imatges, resposta visual a preguntes, recuperació d’oracions amb imatges, posada a terra de frases, només per nomenar-ne alguns. Totes aquestes tasques comparteixen la dificultat inherent d’alinear les dues modalitats, alhora que són robustes als llenguatges previs i diversos biaixos existents als conjunts de dades. L’objectiu final de la investigació de la visió i el llenguatge és poder injectar coneixement del món mentre s’eliminen els biaixos que vénen amb els conjunts de dades. En aquesta tesi, ens centrem principalment en dues tasques de visió i llenguatge, és a dir, subtítols d’imatge i resposta visual a preguntes de text d’escena (STVQA). En tots dos dominis, comencem definint una nova tasca que requereix la utilització del coneixement mundial i en ambdues tasques trobem que els models comunament emprats són propensos als biaixos que hi ha a les dades. Concretament, presentem noves tasques i descobrim diversos problemes que impedeixen l’exercici a cada nivell i proporcionem remeis o possibles solucions a cada capítol: i) Definim una nova tasca per anar més enllà del subtitulat d’imatges a la interpretació d’imatges que pot utilitzar entitats anomenades en forma de coneixement del món. ii) Estudiem el problema de l’al·lucinació d’objectes als sistemes clàssics de subtítols d’imatges i desenvolupem una solució independent de l’arquitectura. iii) Definim una subtasca de Visual Question Answering que requereix llegir el text de la imatge (STVQA), on destaquem les limitacions dels models actuals. iv) Proposem una arquitectura per a la tasca STVQA que pot apuntar a la resposta a la imatge i mostrar com combinar-la amb els models clàssics de VQA. v) Mostrem fins on ens pot portar el llenguatge a STVQA i descobrim un altre biaix més que fa que els models ignorin la imatge mentre realitzen la Resposta Visual a Preguntes.
La visión y el lenguaje son ampliamente considerados como piedras angulares de la inteligencia. Aunque el lenguaje y la visión tienen objetivos diferentes: el lenguaje tiene el propósito de la comunicación, la transmisión de información y la visión tiene el propósito de construir representaciones mentales a nuestro alrededor para navegar e interactuar con los objetos, interactúan y dependen unos de otros en muchas tareas que realizamos sin esfuerzo. . Esta dependencia se está estudiando activamente en varias tareas de Computer Vision, p. subtítulos de imágenes, respuesta visual a preguntas, recuperación de oraciones con imágenes, puesta a tierra de frases, solo por nombrar algunos. Todas estas tareas comparten la dificultad inherente de alinear las dos modalidades, al mismo tiempo que son robustas a los lenguajes previos y varios sesgos existentes en los conjuntos de datos. El objetivo final de la investigación de la visión y el lenguaje es poder inyectar conocimiento del mundo mientras se eliminan los sesgos que vienen con los conjuntos de datos. En esta tesis, nos centramos principalmente en dos tareas de visión y lenguaje, a saber, subtítulos de imagen y respuesta visual a preguntas de texto de escena (STVQA). En ambos dominios, comenzamos definiendo una nueva tarea que requiere la utilización del conocimiento mundial y en ambas tareas encontramos que los modelos comúnmente empleados son propensos a los sesgos que existen en los datos. Concretamente, presentamos nuevas tareas y descubrimos varios problemas que impiden el desempeño en cada nivel y proporcionamos remedios o posibles soluciones en cada capítulo: i) Definimos una nueva tarea para ir más allá del subtitulado de imágenes a la interpretación de imágenes que puede utilizar entidades nombradas en forma de conocimiento del mundo. ii) Estudiamos el problema de la alucinación de objetos en los sistemas clásicos de subtítulos de imágenes y desarrollamos una solución independiente de la arquitectura. iii) Definimos una subtarea de Visual Question Answering que requiere leer el texto de la imagen (STVQA), donde destacamos las limitaciones de los modelos actuales. iv) Proponemos una arquitectura para la tarea STVQA que puede apuntar a la respuesta en la imagen y mostrar cómo combinarla con los modelos clásicos de VQA. v) Mostramos hasta dónde nos puede llevar el lenguaje en STVQA y descubrimos otro sesgo más que hace que los modelos ignoren la imagen mientras realizan la Respuesta Visual a Preguntas.
Vision and Language are broadly regarded as cornerstones of intelligence. Even though language and vision have different aims –language having the purpose of communication, transmission of information and vision having the purpose of constructing mental representations around us to navigate and interact with objects –they cooperate and depend on one another in many tasks we perform effortlessly. This reliance is actively being studied in various Computer Vision tasks, e.g. image captioning, visual question answering, image-sentence retrieval, phrase grounding, just to name a few. All of these tasks share the inherent difficulty of the aligning the two modalities, while being robust to language priors and various biases existing in the datasets. One of the ultimate goal for vision and language research is to be able to inject world knowledge while getting rid of the biases that come with the datasets. In this thesis, we mainly focus on two vision and language tasks, namely Image Captioning and Scene-Text Visual Question Answering (STVQA). In both domains, we start by defining a new task that requires the utilization of world knowledge and in both tasks, we find that the models commonly employed are prone to biases that exist in the data. Concretely, we introduce new tasks and discover several problems that impede performance at each level and provide remedies or possible solutions in each chapter: i) We define a new task to move beyond Image Captioning to Image Interpretation that can utilize Named Entities in the form of world knowledge. ii) We study the object hallucination problem in classic Image Captioning systems and develop an architecture-agnostic solution. iii) We define a sub-task of Visual Question Answering that requires reading the text in the image (STVQA), where we highlight the limitations of current models. iv) We propose an architecture for the STVQA task that can point to the answer in the image and show how to combine it with classic VQA models. v) We show how far language can get us in STVQA and discover yet another bias which causes the models to disregard the image while doing Visual Question Answering.
Visió i llenguatge; Visión y lenguaje; Vision and language; Subtítols d’imatges; Subtítulos de imagen; Image captioning; Text de l’escena pregunta visual resposta; Escena texto visual pregunta respuesta; Scene text visual question answering
004 - Informática
Ciències Experimentals