Following The Pattern: Scene Text Spotting Guided by Regular Expressions

dc.contributor.author
Garcia Bordils, Sergi
dc.date.accessioned
2024-12-17T08:22:58Z
dc.date.available
2024-12-17T08:22:58Z
dc.date.issued
2024-10-21
dc.identifier.uri
http://hdl.handle.net/10803/692870
dc.description.abstract
El reconeixement de text en escena (STR per les seves sigles en anglès) és un subcamp de la visió per computador que s'encarrega de localitzar i reconèixer text en imatges naturals. Degut a la gran quantitat d'informació semàntica que el text pot proporcionar a tasques de més alt nivell, ha atret una gran quantitat de recerca, el qual s'ha traduït en grans salts de rendiment. Gran part de l'èxit aconseguit és gràcies als avenços del deep learning (aprenentatge profund), que ha permès ampliar les capacitats dels models d'STR. Tot i això, aquests models enfoquen aquesta tasca des d'un punt de vista totalment genèric, on tot el text es tracta de la mateixa manera i ignorant el context semàntic. En aquesta tesi identifiquem i estudiem dues principals mancances que són fruit d'aquest comportament genèric. La primera és la dependència en el vocabulari après per la part del reconeixement de la xarxa, la qual cosa pot degradar els resultats en paraules o construccions morfològiques que mai s'han vist. La segona té a veure amb la granularitat de la detecció, que definim com els límits que s'estableixen per separar el text en instàncies individuals. La majoria de models estableixen aquest límit a nivell de paraula. Si el nostre objectiu és trobar expressions de text que contenen espais o es troben en diverses línies, un model genèric les separarà en diferents instàncies. Primer, estudiem el fenomen de dependència en el vocabulari creant l'Out-of-Vocabulary (fora de vocabulari) challenge, una nova plataforma d'avaluació de models que pot distingir entre el rendiment en paraules que els models han vist abans i les que no. Fent servir aquesta plataforma, es va organitzar una competició on els participants van haver d'entrenar els seus models tenint en compte que s'avaluarien en fent servir aquesta distinció. L'avaluació del resultat dels participants ens va permetre mesurar l'impacte de memoritzar les paraules del conjunt d'entrenament. Més endavant, introduïm la tasca de Structured Scene-Text Spotting (extracció de text estructurat en escena), una nova tasca on els models han de localitzar el text de la imatge que segueix una regex (expressió regular) concreta. També introduïm un nou conjunt de dades d'avaluació, l’Structured Scene-Text Spotting Test, que conté diverses classes de text que segueixen expressions regulars. Aquest text no pertany a cap vocabulari en concret, pot contenir espais i estar dividit en diferents línies, cosa que ens permet avaluar les dues principals mancances dels models genèrics d’STR. Com a alternativa a aquests models, proposem fer servir aquesta regex directament dins de la xarxa, on es guia el procés de localització cap al text que estem buscant, mentre que la resta és ignorat. Demostrem que els dos models que proposem, l’STEP i l’STEPup, obtenen millors resultats que les xarxes genèriques.
dc.description.abstract
El reconocimiento de texto en escena (STR por sus siglas en inglés) es un subcampo de la visión por computador que se encarga de localizar y reconocer texto en imágenes naturales. Debido a la gran cantidad de información semántica que el texto puede proporcionar a tareas de más alto nivel, ha atraído una gran cantidad de investigación, la cual se ha traducido en grandes saltos de rendimiento. Gran parte de el éxito logrado es gracias a los avances en deep learning (aprendizaje profundo), que ha permitido ampliar las capacidades de los modelos STR. A pesar de esto, estos modelos enfocan esta tarea desde un punto de vista totalmente genérico, donde todo el texto se trata de la misma forma e ignorando su contexto semántico. En esta tesis identificamos y estudiamos dos de las principales carencias, fruto de este comportamiento genérico. La primera es la dependencia en el vocabulario aprendido por la parte del reconocimiento de la red, lo cual puede degradar los resultados en palabras o construcciones morfológicas que no se han visto antes. La segunda tiene que ver con la granularidad de la detección, que definimos como los límites que se establecen para separar el texto en instancias individuales. La mayoría de los modelos establecen este límite a nivel de palabra. Si nuestro objetivo es encontrar expresiones de texto que contienen espacios o se encuentran en diversas líneas, un modelo genérico las separará en diferentes instancias. Primero, estudiamos el fenómeno de dependencia en el vocabulario creando el Out-of-Vocabulary (fuera de vocabulario) challenge, una nueva plataforma de evaluación de modelos que puede distinguir entre el rendimiento en palabras que los modelos han visto antes y las que no. Usando esta plataforma, se organizó una competición donde los participantes tuvieron que entrenar sus modelos teniendo en cuenta que se evaluarían usando esta distinción. La evaluación del los resultados de los participantes nos permitieron mesurar el impacto de memorizar las palabras del conjunto de entrenamiento. Más adelante, introducimos la tarea de Structured Scene-Text Spotting (exacción de texto estructurado en escena), una nueva tarea donde los modelos deben localizar el texto de la imagen que sigue una regex (expresión regular) concreta. También introducimos un nuevo conjunto de datos de evaluación, el Structured Scene-Text Spotting Test, que contiene diversas clases de texto que siguen expresiones regulares. Este texto no pertenece a ningún vocabulario en concreto, puede contener espacios y estar dividido en diferentes líneas, permitiéndonos evaluar las dos principales carencias de los modelos genéricos de STR. Como alternativa a estos modelos, proponemos usar esta regex directamente dentro de la red, donde se guía el proceso de localización hacia el texto que estamos buscando, mientras que el resto se ignora. Demostramos que los dos modelos que proponemos, el STEP y el STEPup, obtienen mejores resultados que las redes genéricas.
dc.description.abstract
Scene-Text Recognition (STR) is a sub-field of computer vision that tackles the problem of text localization and recognition in natural images. Since scene-text provides crucial semantic information for high-level tasks, continued research interest has resulted in great leaps in performance. Much of this success is thanks to the surge of deep learning, which has significantly pushed the capabilities of STR models. However, these models adopt a purely generic approach toward text extraction, where all text is treated indistinctively and the possible semantics of the textual content are ignored. We identify and study two main disadvantages which are the consequence of this generic nature. The first one is the reliance on vocabulary priors by the recognition step, which can degrade recognition performance on unseen words and morphological constructions. The second one is related to the \textit{detection granularity}, which we define as the boundary at which the network separates text into individual instances. Most networks establish this localization boundary at word level. If our downstream application requires textual expressions that feature spaces or line breaks, generic STR detectors will split it into different instances. First, we study the phenomenon of vocabulary reliance with the creation of the Out-of-Vocabulary challenge, a novel STR benchmark that distinguishes between performance on seen and unseen vocabulary. Using this benchmark, we organized a competition where participants had to train their models for both in and out-of-vocabulary performance. The evaluation of the participant's models and our baselines allowed us to assess the impact of language reliance on STR. Then, we introduce the task of Structured Scene-Text Spotting, a novel task where STR models have to spot the text instances that match a given regular expression (regex). We also introduce the Structured Scene-Text Spotting Test dataset, which contains many classes of text that follow regular expressions. These instances are not found in any vocabulary and contain spaces and multi-line text, which allows us to probe our two main concerns of generic STR. As opposed to these generic models, we propose leveraging the given regex directly in the spotting pipeline, guiding the detection and recognition to directly spot the target text, while ignoring the rest. We show how our two proposed approaches STEP and STEPup, obtain better end-to-end results than the generic STR beaselines.
dc.format.extent
164 p.
dc.language.iso
eng
dc.publisher
Universitat Autònoma de Barcelona
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-nc/4.0/
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Text en escena
dc.subject
Scene-Tex
dc.subject
Texto en escena
dc.subject
CNN
dc.subject
Expressions regulars
dc.subject
Regular expressions
dc.subject
Expresiones regulares
dc.subject.other
Tecnologies
dc.title
Following The Pattern: Scene Text Spotting Guided by Regular Expressions
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.date.updated
2024-12-17T08:22:58Z
dc.subject.udc
004
dc.contributor.director
Rossinyol Sanabra, Marçal
dc.contributor.director
Karatzas , Dimosthenis
dc.contributor.tutor
Karatzas , Dimosthenis
dc.embargo.terms
cap
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica


Documents

sgb1de1.pdf

18.49Mb PDF

This item appears in the following Collection(s)