Learning to represent handwritten shapes and words for matching and recognition

Author

Almazán, Jon

Director

Valveny Llobet, Ernest

Codirector

Fornés Bisquerra, Alicia

Date of defense

2014-11-21

ISBN

9788449047039

Legal Deposit

B-26902-2014

Pages

109 p.



Department/Institute

Universitat Autònoma de Barcelona. Departament d'Informàtica

Abstract

La escritura es una de las formas más importantes de comunicación y durante siglos ha sido el método ma ́s fiable para preservar conocimiento. Sin embargo, a pesar del reciente desarrollo de las imprentas y dispositivos, la escritura manuscrita todavía se utiliza ampliamente para tomar notas, hacer anotaciones, o dibujar bocetos. Con el fin de hacerlos fácilmente accesibles, hay una enorme cantidad de documentos escritos a mano, algunos de ellos con un valor cultural incalculable, que han sido recientemente digitalizados. Esto ha hecho necesario el desarrollo de métodos capaces de extraer información de este tipo de imágenes. Transferir a los ordenadores la capacidad de comprender y reconocer texto y formas escritas a mano ha sido el objetivo de muchos investigadores debido a su gran importancia para muchos campos diferentes. Sin embargo, el diseño de buenas representaciones para lidiar con formas manuscritas es un problema muy difícil debido a la gran variabilidad en este tipo de formas. Una de las consecuencias de trabajar con formas escritas a mano es que necesitamos representaciones que sean robustas, es decir, capaces de adaptarse a la gran variabilidad interna de la clase. Necesitamos representaciones que sean discriminativas, es decir, capaces de aprender cuáles son las diferencias entre las clases. Y necesitamos representaciones que sean eficientes, es decir, capaces de ser calculadas y comparadas con rapidez. Desafortunadamente, las técnicas actuales de representación de formas manuscritas para la recuperación y el reconocimiento no cumplen todos o algunos de estos requisitos. En esta tesis nos centramos en el problema de aprender a representar formas manuscritas dirigido a tareas de recuperación y reconocimiento. En concreto, en la primera parte de la tesis, nos centramos en el problema general de la representación de formas manuscritas para clasificación y reconocimiento. Primero presentamos un descriptor de forma basado en una rejilla deformable que se adapta a grandes deformaciones y donde las celdas de la cuadrícula se utilizan para extraer diferentes características. Seguidamente, proponemos utilizar este descriptor para aprender modelos estadísticos basados en el Active Appearance Model, que aprende de forma conjunta la variabilidad en la estructura y la textura de una determinada clase. En la segunda parte nos centramos en una aplicación concreta, el problema de word spotting, donde el objetivo es encontrar todas las instancias de una palabra dada en un conjunto de imágenes. En primer lugar, abordamos el problema sin segmentación previa y proponemos un enfoque no supervisado, basado en ventana deslizante que supera el estado del arte en dos datasets públicos. En segundo lugar, se aborda el problema de word spotting con varios escritores, donde la variabilidad de palabras aumenta exponencialmente. Se describe un método en el que las imágenes de texto y cadenas de texto se proyectan en un subespacio vectorial común, y donde aquellos vectores que representan la misma palabra están más próximos. Esto se logra gracias a una combinación de label embedding y aprendizaje de atributos, y una regresión a subespacio común. Evaluamos nuestro método en bases de datos públicas de documentos manuscritos e imágenes naturales que muestran resultados comparables o mejores que el estado del arte en tareas de búsqueda y reconocimiento.


Writing is one of the most important forms of communication and for centuries, handwriting had been the most reliable way to preserve knowledge. However, despite the recent development of printing houses and electronic devices, handwriting is still broadly used for taking notes, doing annotations, or sketching ideas. In order to be easily accessed, there is a huge amount of handwritten documents, some of them with uncountable cultural value, that have been recently digitized. This has made necessary the development of methods able to extract information from these document images. Transferring the ability of understanding handwritten text or recognizing handwritten shapes to computers has been the goal of many researches due to its huge importance for many different fields. However, designing good representations to deal with handwritten shapes, e.g. symbols or words, is a very challenging problem due to the large variability of these kinds of shapes. One of the consequences of working with handwritten shapes is that we need representations to be robust, i.e., able to adapt to large intra-class variability. We need representations to be discriminative, i.e., able to learn what are the differences between classes. And, we need representations to be efficient, i.e., able to be rapidly computed and compared. Unfortunately, current techniques of handwritten shape representation for matching and recognition do not fulfill some or all of these requirements. Through this thesis we focus on the problem of learning to represent handwritten shapes aimed at retrieval and recognition tasks. Specifically, on the first part of the thesis, we focus on the general problem of representing handwritten shapes for classification and matching. We first present a novel shape descriptor based on a deformable grid that deals with large deformations by adapting to the shape and where the cells of the grid can be used to ex- tract different features. Then, we propose to use this descriptor to learn statistical models, based on the Active Appearance Model, that jointly learns the variability in structure and texture of a given shape class. Then, on the second part, we focus on a concrete application, the problem of word spotting, where the goal is to find all instances of a query word in a dataset of images. First, we address the segmentation-free problem and propose an unsupervised, sliding-window-based approach that achieves state-of-the-art results in two public datasets. Second, we address the more challenging multi-writer problem, where the variability in words exponentially increases. We describe an approach in which both word images and text strings are embedded in a common vectorial subspace, and where those that represent the same word are close together. This is achieved by a combination of label embedding and attributes learning, and a common subspace regression. This leads to a low- dimensional, unified representation of word images and strings, resulting in a method that allows one to perform either image and text searches, as well as image transcription, in a unified framework. We test our approach on four public datasets of both handwritten documents and natural images showing results comparable or better than the state-of-the-art on spotting and recognition tasks

Subjects

68 - Industries, crafts and trades for finished or assembled articles

Knowledge Area

Ciències Experimentals

Documents

ja1de1.pdf

1.120Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/

This item appears in the following Collection(s)