Word spotting and recognition in images from heterogeneous sources

dc.contributor
Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
dc.contributor.author
Ghosh, Suman Kumar
dc.date.accessioned
2019-02-14T06:45:30Z
dc.date.available
2019-02-14T06:45:30Z
dc.date.issued
2018-05-30
dc.identifier.isbn
9788449083662
en_US
dc.identifier.uri
http://hdl.handle.net/10803/665691
dc.description.abstract
El text es la manera més habitual d’intercanviar informació des de les edats. Amb el desenvolupament recent d’imatges de bases de dades de manuscrits manuscrits històrics, la demanda d’algorismes per fer accessibles aquestes bases de dades per a la navegació i la indexació estan augmentant. L’augment exponencial de les bases de dades d’imatges disponibles públicament i les col·leccions personals d’imatges, aquest interès també inclou l’enteniment del text sobre imatges naturals. Activar la cerca o comprendre una gran collecció de manuscrits o bases de dades d’imatges requereix un mètode ràpid i robust. Els investigadors han trobat diferents maneres de representar paraules retallades per a la comprensió i la concordança, cosa que funciona bé quan les paraules ja estan segmentades. No obstant això, no hi ha cap manera trivial d’estendre’ls per a documents no segmentats. En aquesta tesi, explorem diferents mètodes per a la recuperació i el reconeixement de text a partir d’imatges sense escena de documents i escenes. Hi ha dues formes de representació diferents a la literatura, s’utilitza una representació de longitud fixa a partir de paraules retallades i una altra amb una seqüència de característiques de longitud variable. Al llarg d’aquesta tesi, hem estudiat aquestes dues representacions per la seva idoneïtat en la lliure comprensió del text. A la primera part, ens hem centrat en la segmentació de paraules lliures amb una representació de longitud fixa. Vam ampliar l’ús d’una representació exitosa per a la recuperació gratuïta de segmentacions. En la segona part de la tesi, explorem funcions basades en seqüències i, finalment, proposem una solució unificada on el mateix marc pot generar ambdós tipus de representacions.
en_US
dc.description.abstract
El texto es la forma más común de compartir información desde edades. Con el reciente desarrollo de bases de datos de imágenes de manuscritos históricos manuscritos, la demanda de algoritmos para hacer accesibles estas bases de datos para la navegación y la indexación están en aumento. El aumento exponencial de las bases de datos de imágenes disponibles al público y las colecciones personales de imágenes, este interés ahora también abarca la comprensión de texto en imágenes naturales. La habilitación de la búsqueda o la comprensión de una gran colección de manuscritos o bases de datos de imágenes necesita un método rápido y sólido. Los investigadores han encontrado diferentes maneras de representar la palabra recortada para la comprensi ón y la coincidencia, que funciona bien cuando las palabras ya están segmentadas. Sin embargo, no hay una forma trivial de ampliar estos para documentos no segmentados. En esta tesis, exploramos diferentes métodos para la recuperación y el reconocimiento de texto a partir de documentos no segmentados e imégenes de escena. Existen dos formas diferentes de representación en la literatura, una usa una representaci ón de longitud fija aprendida de palabras recortadas y otra una secuencia de características de longitud variable. A lo largo de esta tesis, hemos estudiado estas dos representaciones por su idoneidad en la segmentación, la comprensión libre del texto. En la primera parte, nos centramos en la detección de palabras sin segmentación utilizando una representación de longitud fija. Extendimos el uso de una representación exitosa para la recuperación libre de segmentación. En la segunda parte de la tesis, exploramos las características basadas en secuencia y finalmente proponemos una soluci´on unificada donde el mismo marco puede generar ambos tipos de representaciones.
en_US
dc.description.abstract
Text is the most common way of information sharing from ages. With recent development of images databases of handwritten historic manuscripts the demand for algorithms to make these databases accessible for browsing and indexing are in rise. Exponential increase of publicly available image databases and personal collections of pictures, this interest now also embraces text understanding on natural images. Enabling search or understanding large collection of manuscripts or image databases need fast and robust method. Researchers have found different ways to represent cropped word for understanding and matching, which works well in when words are already segmented. However there is no trivial way to extend these for non-segmented documents. In this thesis we explore different methods for text retrieval and recognition from unsegmented document and scene images. Two different ways of representation exists in literature, one uses a fixed length representation learned from cropped words and another a sequence of features of variable length. Throughout this thesis, we have studied both these representation for their suitability in segmentation free understanding of text. In the first part we are focused on segmentation free word spotting using a fixed length representation. We extended the use of one successful representation for segmentation free retrieval. In the second part of the thesis, we explore sequence based features and finally propose a unified solution where same framework can generate both kind of representations.
en_US
dc.format.extent
134 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
eng
en_US
dc.publisher
Universitat Autònoma de Barcelona
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Word spotting
en_US
dc.subject
Indexament
en_US
dc.subject
Indexamiento
en_US
dc.subject
Indexing
en_US
dc.subject
Reconeixment de paraules manuscrites
en_US
dc.subject
Reconocimiento de palabras manuscritas
en_US
dc.subject
Handwriting recognition
en_US
dc.subject.other
Ciències Experimentals
en_US
dc.title
Word spotting and recognition in images from heterogeneous sources
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
004
en_US
dc.contributor.authoremail
sghosh@cvc.uab.es
en_US
dc.contributor.director
Valveny Llobet, Ernest
dc.embargo.terms
cap
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess


Documents

skg1de1.pdf

1.692Mb PDF

This item appears in the following Collection(s)