Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
El text es la manera més habitual d’intercanviar informació des de les edats. Amb el desenvolupament recent d’imatges de bases de dades de manuscrits manuscrits històrics, la demanda d’algorismes per fer accessibles aquestes bases de dades per a la navegació i la indexació estan augmentant. L’augment exponencial de les bases de dades d’imatges disponibles públicament i les col·leccions personals d’imatges, aquest interès també inclou l’enteniment del text sobre imatges naturals. Activar la cerca o comprendre una gran collecció de manuscrits o bases de dades d’imatges requereix un mètode ràpid i robust. Els investigadors han trobat diferents maneres de representar paraules retallades per a la comprensió i la concordança, cosa que funciona bé quan les paraules ja estan segmentades. No obstant això, no hi ha cap manera trivial d’estendre’ls per a documents no segmentats. En aquesta tesi, explorem diferents mètodes per a la recuperació i el reconeixement de text a partir d’imatges sense escena de documents i escenes. Hi ha dues formes de representació diferents a la literatura, s’utilitza una representació de longitud fixa a partir de paraules retallades i una altra amb una seqüència de característiques de longitud variable. Al llarg d’aquesta tesi, hem estudiat aquestes dues representacions per la seva idoneïtat en la lliure comprensió del text. A la primera part, ens hem centrat en la segmentació de paraules lliures amb una representació de longitud fixa. Vam ampliar l’ús d’una representació exitosa per a la recuperació gratuïta de segmentacions. En la segona part de la tesi, explorem funcions basades en seqüències i, finalment, proposem una solució unificada on el mateix marc pot generar ambdós tipus de representacions.
El texto es la forma más común de compartir información desde edades. Con el reciente desarrollo de bases de datos de imágenes de manuscritos históricos manuscritos, la demanda de algoritmos para hacer accesibles estas bases de datos para la navegación y la indexación están en aumento. El aumento exponencial de las bases de datos de imágenes disponibles al público y las colecciones personales de imágenes, este interés ahora también abarca la comprensión de texto en imágenes naturales. La habilitación de la búsqueda o la comprensión de una gran colección de manuscritos o bases de datos de imágenes necesita un método rápido y sólido. Los investigadores han encontrado diferentes maneras de representar la palabra recortada para la comprensi ón y la coincidencia, que funciona bien cuando las palabras ya están segmentadas. Sin embargo, no hay una forma trivial de ampliar estos para documentos no segmentados. En esta tesis, exploramos diferentes métodos para la recuperación y el reconocimiento de texto a partir de documentos no segmentados e imégenes de escena. Existen dos formas diferentes de representación en la literatura, una usa una representaci ón de longitud fija aprendida de palabras recortadas y otra una secuencia de características de longitud variable. A lo largo de esta tesis, hemos estudiado estas dos representaciones por su idoneidad en la segmentación, la comprensión libre del texto. En la primera parte, nos centramos en la detección de palabras sin segmentación utilizando una representación de longitud fija. Extendimos el uso de una representación exitosa para la recuperación libre de segmentación. En la segunda parte de la tesis, exploramos las características basadas en secuencia y finalmente proponemos una soluci´on unificada donde el mismo marco puede generar ambos tipos de representaciones.
Text is the most common way of information sharing from ages. With recent development of images databases of handwritten historic manuscripts the demand for algorithms to make these databases accessible for browsing and indexing are in rise. Exponential increase of publicly available image databases and personal collections of pictures, this interest now also embraces text understanding on natural images. Enabling search or understanding large collection of manuscripts or image databases need fast and robust method. Researchers have found different ways to represent cropped word for understanding and matching, which works well in when words are already segmented. However there is no trivial way to extend these for non-segmented documents. In this thesis we explore different methods for text retrieval and recognition from unsegmented document and scene images. Two different ways of representation exists in literature, one uses a fixed length representation learned from cropped words and another a sequence of features of variable length. Throughout this thesis, we have studied both these representation for their suitability in segmentation free understanding of text. In the first part we are focused on segmentation free word spotting using a fixed length representation. We extended the use of one successful representation for segmentation free retrieval. In the second part of the thesis, we explore sequence based features and finally propose a unified solution where same framework can generate both kind of representations.
Word spotting; Indexament; Indexamiento; Indexing; Reconeixment de paraules manuscrites; Reconocimiento de palabras manuscritas; Handwriting recognition
004 - Informática
Ciències Experimentals