Exploring the role of Text in Visual Question Answering on Natural Scenes and Documents

Perez Tito, Ruben; Perez Tito, Ruben

Exploring the role of Text in Visual Question Answering on Natural Scenes and Documents

Author

Perez Tito, Ruben

Director

Valveny Llobet, Ernest

Tutor

Valveny Llobet, Ernest

Date of defense

2023-11-13

Pages

190 p.

Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Abstract

Visual Question Answering (VQA) és la tasca on donada una imatge i una pregunta en llenguatge natural, l'objectiu és generar una resposta en llenguatge natural. En la intersecció entre la visió per computador i el processament del llenguatge natural, aquesta tasca es pot veure com una mesura de les capacitats de comprensió de les imatges, ja que requereix raonar sobre objectes, accions, colors, posicions, les relacions entre els diferents elements, així com emprar el sentit comú, coneixements globals, habilitats aritmètiques i comprensió del llenguatge natural. No obstant, tot i que el text present a les imatges conté informació semànticament important que és explícita i no disponible de cap altra forma, la majoria dels mètodes VQA són analfabets, ignorant en gran part el text de les imatges malgrat la seva potencial importància. En aquesta tesi, iniciem un viatge per aconseguir aportar capacitats de lectura als models de visió per computador aplicats a la tasca VQA, creant nous conjunts de dades i mètodes que puguin llegir, raonar i integrar el text amb altres indicis visuals en imatges d'escenes naturals i documents. Al Capítol 3, adrecem el problema de com combinar el text en escenes naturals amb la informació visual per entendre completament tots els matisos de les imatges. Per a això, definim una nova subtasca de VQA que requereix llegir el text de la imatge, destacant les limitacions dels mètodes actuals i, en conseqüència, proposem una nova arquitectura que pot raonar sobre ambdues modalitats. Al Capítol 5, canviem el domini de VQA amb capacitats de lectura i l'apliquem en imatges de documents escanejats, proporcionant una perspectiva final d'alt nivell al camp dedicat a intel·ligència sobre documents, els quals s'ha centrat principalment a digitalitzar el contingut d'aquests documents i extreure valors clau sense tenir en compte la finalitat per a la qual s'extreia la informació. Per a això, creem un conjunt de dades que requereix que els mètodes raonin sobre els elements únics que es poden trobar en documents, com ara text, taules, figures o gràfics disposats en complexos dissenys, per a aconseguir proporcionar respostes precises en llenguatge natural. No obstant això, vam observar que les característiques visuals explícites aporten una lleugera contribució al rendiment total, ja que la informació es troba principalment al mateix text i en la seva posició. En conseqüència, al Capítol 6, proposem aplicar VQA sobre imatges infogràfiques, buscant imatges de documents amb elements visualment més rics que requereixin explotar al màxim la informació visual per respondre les preguntes. En aquest capítol mostrem la diferència de rendiment de diferents mètodes quan s'utilitzen sobre imatges de documents escanejats o sobre imatges infogràfiques, i proposem un nou mètode que integra les característiques visuals en les primeres etapes, el qual permet que l'arquitectura del model exploti les característiques visuals durant l'operació d'autoatenció. En canvi, al Capítol 7, apliquem VQA a una gran col·lecció de documents d'una sola pàgina, on els mètodes han de trobar quins documents són rellevants per respondre la pregunta i proporcionar la resposta en si. Finalment, al Capítol 8, imitant els escenaris reals on els sistemes han de processar documents amb diverses pàgines, proposem utilitzar documents multipàgina per a VQA mostrant les limitacions dels mètodes ja existents. A més, proposem una arquitectura jeràrquica que pot processar documents llargs, respondre les preguntes plantejades i proporcionar l'índex de la pàgina on es troba la informació per respondre la pregunta com a mesura d'explicabilitat.

Visual Question Answering (VQA) es la tarea en la que dada una imagen y una pregunta en lenguaje natural, el objetivo es generar una respuesta en lenguaje natural. En la intersección entre la visión por computador y el procesamiento del lenguaje natural, esta tarea puede verse como una medida de las capacidades de comprensión de las imágenes, ya que requiere razonar sobre objetos, acciones, colores, posiciones, las relaciones entre los diferentes elementos, así como utilizar el sentido común, conocimientos globales, habilidades aritméticas y comprensión del lenguaje natural. Sin embargo, aunque el texto presente en las imágenes contiene información semánticamente importante que es explícita y no disponible en ninguna otra forma, la mayoría de los métodos de VQA son analfabetos, ignorando en gran parte el texto de las imágenes a pesar de su potencial importancia. En esta tesis, iniciamos un viaje para conseguir aportar capacidades de lectura a los modelos de visión por computador aplicados a la tarea VQA, creando nuevos conjuntos de datos y métodos que puedan leer, razonar e integrar el texto con otros indicios visuales en imágenes de escenas naturales y documentos. En el Capítulo 3, dirigimos el problema de cómo combinar el texto en escenas naturales con la información visual para entender completamente todos los matices de las imágenes. Para ello, definimos una nueva subtarea de VQA que requiere leer el texto de la imagen, destacando las limitaciones de los métodos actuales y, en consecuencia, proponemos una nueva arquitectura que puede razonar sobre ambas modalidades. En el Capítulo 5, cambiamos el dominio de VQA con capacidades de lectura y lo aplicamos en imágenes de documentos escaneados, proporcionando una perspectiva final de alto nivel en el campo dedicado a la inteligencia sobre documentos, el cual se ha centrado principalmente en digitalizar el contenido de estos documentos y extraer valores clave sin tener en cuenta la finalidad para la que se extraía dicha información. Para ello, creamos un conjunto de datos que requiere que los métodos razonen sobre los elementos únicos que pueden encontrarse en documentos como texto, tablas, figuras o gráficos dispuestos en complejos diseños, para conseguir proporcionar respuestas precisas en lenguaje natural. Sin embargo, observamos que las características visuales explícitas aportan una ligera contribución al rendimiento total, puesto que la información se encuentra principalmente en el mismo texto y en su posición. Por ello, en el Capítulo 6, proponemos aplicar VQA sobre imágenes infográficas, buscando imágenes de documentos con elementos visualmente más ricos que requieran explotar al máximo la información visual para responder a las preguntas. En este capítulo mostramos la diferencia de rendimiento de diferentes métodos cuando se utilizan sobre imágenes de documentos escaneados o sobre imágenes infográficas, y proponemos un nuevo método que integra las características visuales en las primeras etapas, que permite que la arquitectura del modelo explote las características visuales durante la operación de autoatención. En cambio, en el Capítulo 7, aplicamos VQA a una gran colección de documentos de una sola página, donde los métodos deben encontrar qué documentos son relevantes para responder a la pregunta y proporcionar la respuesta en sí. Por último, en el Capítulo 8, imitando los escenarios reales donde los sistemas deben procesar documentos con varias páginas, proponemos utilizar documentos multipágina para VQA mostrando las limitaciones de los métodos ya existentes. Además, proponemos una arquitectura jerárquica que puede procesar documentos largos, responder a las preguntas planteadas y proporcionar el índice de la página donde se encuentra la información para responder a la pregunta como medida de explicabilidad.

Visual Question Answering (VQA) is the task where given an image and a natural language question, the objective is to generate a natural language answer. At the intersection between computer vision and natural language processing, this task can be seen as a measure of image understanding capabilities, as it requires to reason about objects, actions, colors, positions, the relations between the different elements as well as commonsense reasoning, world knowledge, arithmetic skills and natural language understanding. However, even though the text present in the images conveys important semantically rich information that is explicit and not available in any other form, most VQA methods remained illiterate, largely ignoring the text despite its potential significance. In this thesis, we set out on a journey to bring reading capabilities to computer vision models applied to the VQA task, creating new datasets and methods that can read, reason and integrate the text with other visual cues in natural scene images and documents. In Chapter 3, we address the combination of scene text with visual information to fully understand all the nuances of natural scene images. To achieve this objective, we define a new sub-task of VQA that requires reading the text in the image, and highlight the limitations of the current methods. In addition, we propose a new architecture that integrates both modalities and jointly reasons about textual and visual features. In Chapter 5, we shift the domain of VQA with reading capabilities and apply it on scanned industry document images, providing a high-level end-purpose perspective to Document Understanding, which has been primarily focused on digitizing the document's contents and extracting key values without considering the ultimate purpose of the extracted information. For this, we create a dataset which requires methods to reason about the unique and challenging elements of documents, such as text, images, tables, graphs and complex layouts, to provide accurate answers in natural language. However, we observed that explicit visual features provide a slight contribution in the overall performance, since the main information is usually conveyed within the text and its position. In consequence, in Chapter 6, we propose VQA on infographic images, seeking for document images with more visually rich elements that require to fully exploit visual information in order to answer the questions. We show the performance gap of different methods when used over industry scanned and infographic images, and propose a new method that integrates the visual features in early stages, which allows the transformer architecture to exploit the visual features during the self-attention operation. Instead, in Chapter 7, we apply VQA on a big collection of single-page documents, where the methods must find which documents are relevant to answer the question, and provide the answer itself. Finally, in Chapter 8, mimicking real-world application problems where systems must process documents with multiple pages, we address the multipage document visual question answering task. We demonstrate the limitations of existing methods, including models specifically designed to process long sequences. To overcome these limitations, we propose a hierarchical architecture that can process long documents, answer questions, and provide the index of the page where the information to answer the question is located as an explainability measure.

Keywords

Visió i Llenguatge; Vision and Language; Visión y Lenguaje; Visió per Computador; Computer Vision; Visión por Computador; Resposta de preguntes imatges; Visual question answering; Respuesta de preguntas imagene

Subjects

Knowledge Area

Tecnologies

Recommended citation

This citation was generated automatically.

Documents

rpt1de1.pdf

53.56Mb

Export

DIDL MARC MARC_CCUC METS OAI_DC ORE QDC RDF

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/

This item appears in the following Collection(s)

Programa de Doctorat en Informàtica [89]

Àrea de contingut