Word spotting and recognition in images from heterogeneous sources

Ghosh, Suman Kumar

Word spotting and recognition in images from heterogeneous sources

dc.contributor

Universitat Autònoma de Barcelona. Departament de Ciències de la Computació

dc.contributor.author

Ghosh, Suman Kumar

dc.date.accessioned

2019-02-14T06:45:30Z

dc.date.available

2019-02-14T06:45:30Z

dc.date.issued

2018-05-30

dc.identifier.isbn

9788449083662

en_US

dc.identifier.uri

http://hdl.handle.net/10803/665691

dc.description.abstract

El text es la manera més habitual d’intercanviar informació des de les edats. Amb el desenvolupament recent d’imatges de bases de dades de manuscrits manuscrits històrics, la demanda d’algorismes per fer accessibles aquestes bases de dades per a la navegació i la indexació estan augmentant. L’augment exponencial de les bases de dades d’imatges disponibles públicament i les col·leccions personals d’imatges, aquest interès també inclou l’enteniment del text sobre imatges naturals. Activar la cerca o comprendre una gran collecció de manuscrits o bases de dades d’imatges requereix un mètode ràpid i robust. Els investigadors han trobat diferents maneres de representar paraules retallades per a la comprensió i la concordança, cosa que funciona bé quan les paraules ja estan segmentades. No obstant això, no hi ha cap manera trivial d’estendre’ls per a documents no segmentats. En aquesta tesi, explorem diferents mètodes per a la recuperació i el reconeixement de text a partir d’imatges sense escena de documents i escenes. Hi ha dues formes de representació diferents a la literatura, s’utilitza una representació de longitud fixa a partir de paraules retallades i una altra amb una seqüència de característiques de longitud variable. Al llarg d’aquesta tesi, hem estudiat aquestes dues representacions per la seva idoneïtat en la lliure comprensió del text. A la primera part, ens hem centrat en la segmentació de paraules lliures amb una representació de longitud fixa. Vam ampliar l’ús d’una representació exitosa per a la recuperació gratuïta de segmentacions. En la segona part de la tesi, explorem funcions basades en seqüències i, finalment, proposem una solució unificada on el mateix marc pot generar ambdós tipus de representacions.

en_US

dc.description.abstract

El texto es la forma más común de compartir información desde edades. Con el reciente desarrollo de bases de datos de imágenes de manuscritos históricos manuscritos, la demanda de algoritmos para hacer accesibles estas bases de datos para la navegación y la indexación están en aumento. El aumento exponencial de las bases de datos de imágenes disponibles al público y las colecciones personales de imágenes, este interés ahora también abarca la comprensión de texto en imágenes naturales. La habilitación de la búsqueda o la comprensión de una gran colección de manuscritos o bases de datos de imágenes necesita un método rápido y sólido. Los investigadores han encontrado diferentes maneras de representar la palabra recortada para la comprensi ón y la coincidencia, que funciona bien cuando las palabras ya están segmentadas. Sin embargo, no hay una forma trivial de ampliar estos para documentos no segmentados. En esta tesis, exploramos diferentes métodos para la recuperación y el reconocimiento de texto a partir de documentos no segmentados e imégenes de escena. Existen dos formas diferentes de representación en la literatura, una usa una representaci ón de longitud fija aprendida de palabras recortadas y otra una secuencia de características de longitud variable. A lo largo de esta tesis, hemos estudiado estas dos representaciones por su idoneidad en la segmentación, la comprensión libre del texto. En la primera parte, nos centramos en la detección de palabras sin segmentación utilizando una representación de longitud fija. Extendimos el uso de una representación exitosa para la recuperación libre de segmentación. En la segunda parte de la tesis, exploramos las características basadas en secuencia y finalmente proponemos una soluci´on unificada donde el mismo marco puede generar ambos tipos de representaciones.

en_US

dc.description.abstract

Text is the most common way of information sharing from ages. With recent development of images databases of handwritten historic manuscripts the demand for algorithms to make these databases accessible for browsing and indexing are in rise. Exponential increase of publicly available image databases and personal collections of pictures, this interest now also embraces text understanding on natural images. Enabling search or understanding large collection of manuscripts or image databases need fast and robust method. Researchers have found different ways to represent cropped word for understanding and matching, which works well in when words are already segmented. However there is no trivial way to extend these for non-segmented documents. In this thesis we explore different methods for text retrieval and recognition from unsegmented document and scene images. Two different ways of representation exists in literature, one uses a fixed length representation learned from cropped words and another a sequence of features of variable length. Throughout this thesis, we have studied both these representation for their suitability in segmentation free understanding of text. In the first part we are focused on segmentation free word spotting using a fixed length representation. We extended the use of one successful representation for segmentation free retrieval. In the second part of the thesis, we explore sequence based features and finally propose a unified solution where same framework can generate both kind of representations.

en_US

dc.format.extent

134 p.

en_US

dc.format.mimetype

application/pdf

dc.language.iso

eng

en_US

dc.publisher

Universitat Autònoma de Barcelona

dc.rights.license

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

dc.rights.uri

http://creativecommons.org/licenses/by-nc-nd/4.0/

dc.source

TDX (Tesis Doctorals en Xarxa)

dc.subject

Word spotting

en_US

dc.subject

Indexament

en_US

dc.subject

Indexamiento

en_US

dc.subject

Indexing

en_US

dc.subject

Reconeixment de paraules manuscrites

en_US

dc.subject

Reconocimiento de palabras manuscritas

en_US

dc.subject

Handwriting recognition

en_US

dc.subject.other

Ciències Experimentals

en_US

dc.title

Word spotting and recognition in images from heterogeneous sources

en_US

dc.type

info:eu-repo/semantics/doctoralThesis

dc.type

info:eu-repo/semantics/publishedVersion

dc.subject.udc

004

en_US

dc.contributor.authoremail

sghosh@cvc.uab.es

en_US

dc.contributor.director

Valveny Llobet, Ernest

dc.embargo.terms

cap

en_US

dc.rights.accessLevel

info:eu-repo/semantics/openAccess

Documentos

skg1de1.pdf

1.692Mb PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)

Departament de Ciències de la Computació [93]