dc.contributor
Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
dc.contributor.author
Cruz Fernández, Francisco
dc.date.accessioned
2017-01-26T14:29:20Z
dc.date.available
2017-01-26T14:29:20Z
dc.date.issued
2016-11-15
dc.identifier.isbn
9788449028199
en_US
dc.identifier.uri
http://hdl.handle.net/10803/399520
dc.description.abstract
Actualmente, más del 80\% de los documentos almacenados en papel pertenecen al
ámbito empresarial. Avances en materia de digitalización de documentos han
fomentado el interés en crear copias digitales para solucionar problemas de
mantenimiento y almacenamiento, además de poder disponer de formas eficientes de
transmisión y extracción automática de la información contenida en ellos. Esta
situación ha propiciado la necesidad de crear sistemas capaces de extraer y analizar
automáticamente esta información.
La gran variedad en tipos de documentos hace que esta no sea una tarea trivial. Un
proceso de extracción de datos numéricos de tablas o facturas difiere sustancialmente
del reconocimiento de texto manuscrito en un documento con anotaciones. No
obstante, hay un nexo común en las dos tareas: dado un documento, es necesario
localizar la región donde está la información de interés. En el área del Análisis de
Documentos, a este proceso se denomina Análisis de la estructura del documento, y
tiene como objetivo la identificación y categorización de las diferentes entidades que
lo componen. Estas entidades pueden ser regiones de texto, imágenes, líneas de texto,
celdas de una tabla, campos de un formulario, etc. Este proceso se puede realizar
desde dos enfoques diferentes: análisis físico, o análisis lógico. El análisis físico consiste
en identificar la ubicación y los limites que definen el área donde se encuentra la
región de interés. El análisis lógico incluye además información acerca de su función y
significado dentro del ámbito del documento. Para poder modelar esta información, es
necesario incorporar al proceso de análisis un conocimiento previo sobre la tarea. Este
conocimiento previo se puede modelar haciendo uso de relaciones contextuales entre
las diferentes entidades. El uso del contexto en tareas de visión por computador ha
demostrado ser de gran utilidad para guiar el proceso de reconocimiento y reforzar los
resultados. Este proceso implica dos cuestiones fundamentales: qué tipo de
información contextual es la adecuada para cada problema, y como incorporamos esa
información al modelo.
En esta tesis abordamos el análisis de la estructura de documentos basándonos en la
incorporación de información contextual en el proceso de análisis. Hacemos énfasis en
el uso de modelos gráficos probabilísticos y otros mecanismos para proponer
soluciones al problema de la identificación de regiones y la segmentación de líneas de
texto manuscritas. Presentamos varios métodos que hacen uso de modelos gráficos
probabilísticos para resolver las anteriores tareas, y varios tipos de información
contextual. En primer lugar presentamos un conjunto de características que pueden
modelar información contextual sobre la posición relativa entre las diferentes
regiones. Utilizamos estas características junto a otras para en varios modelos basados
en modelos gráficos probabilísticos, y los comparamos con un modelo sintáctico
clásico basado en gramáticas libres de contexto. En segundo lugar presentamos un
marco probabilístico aplicado a la segmentación de líneas de líneas de texto.
Combinamos el proceso de inferencia en el modelo con la estimación de las líneas de
texto. Demostramos como el uso de información contextual mediante modelos
gráficos probabilísticos es de gran utilidad para estas tareas.
en_US
dc.description.abstract
Currently, more than 80% of the documents stored on paper belong to the business
field. Advances in digitization techniques have fostered the interest in creating digital
copies in order to solve maintenance and storage problems, as well as to have efficient
ways for transmission and automatic extraction of the information contained therein.
This situation has led to the need to create systems that can automatically extract and
analyze this kind of information.
The great variety of types of documents makes this not a trivial task. The extraction
process of numerical data from tables or invoices differs substantially from a task of
handwriting recognition in a document with annotations. However, there is a common
link in the two tasks: Given a document, we need to identify the region where the
information of interest is located. In the area of Document Analysis this process is
called Layout Analysis, and aims at identifying and categorizing the different entities
that compose the document. These entities can be text regions, pictures, text lines or
tables, among others. This process can be done from two different approaches:
physical or logical analysis. Physical analysis focus on identifying the physical
boundaries that define the area of interest, whereas logical analysis also models
information about the role and semantics of the entities within the scope of the
document. To encode this information it is necessary to incorporate prior knowledge
about the task into the analysis process, which can be introduced in terms of
contextual relations between entities. The use of context has proven to be useful to
reinforce the recognition process and improve the results on many computer vision
tasks. It presents two fundamental questions: what kind of contextual information is
appropriate, and how to incorporate this information into the model.
In this thesis we study several ways to incorporate contextual information on the task
of document layout analysis. We focus on the study of Probabilistic Graphical Models
and other mechanisms for the inclusion of contextual relations applied to the specific
tasks of region identification and handwritten text line segmentation. On the one
hand, we present several methods for region identification. First, we present a method
for layout analysis based on Conditional Random Fields for maximum a posteriori
estimation. We encode a set of structural relations between different classes of
regions on a set of features. Second, we present a method based on 2D-Probabilistic
Context-free Grammars and perform a comparative study between probabilistic
graphical models and this syntactic approach. Third, we propose a statistical approach
based on the Expectation-Maximization algorithm devised to structured documents.
We perform a thorough evaluation of the proposed methods on two particular
collections of documents: a historical dataset composed of ancient structured
documents, and a collection of contemporary documents. On the other hand, we
present a probabilistic framework applied to the task of handwritten text line
segmentation. We successfully combine the EM algorithm and variational approaches
for this purpose. We demonstrate that the use of contextual information using
probabilistic graphical models is of great utility for these tasks.
en_US
dc.format.extent
158 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
eng
en_US
dc.publisher
Universitat Autònoma de Barcelona
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Anàlisi de documents
en_US
dc.subject
Análisis de documentos
en_US
dc.subject
Document analysis
en_US
dc.subject
Segmentació
en_US
dc.subject
Segmentación
en_US
dc.subject
Segmentation
en_US
dc.subject
Models probabilístics
en_US
dc.subject
Modelos probabilisticos
en_US
dc.subject
Probabilistic models
en_US
dc.subject.other
Tecnologies
en_US
dc.title
Probabilistic graphical models for document analysis
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.authoremail
fcruz@vcv.uab.es
en_US
dc.contributor.director
Ramos Terrades, Oriol
dc.embargo.terms
cap
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess