dc.contributor.author
Kang, Lei
dc.date.accessioned
2021-07-02T15:59:00Z
dc.date.available
2021-07-02T15:59:00Z
dc.date.issued
2020-12-21
dc.identifier.uri
http://hdl.handle.net/10803/672067
dc.description.abstract
Els documents escrits a mà no només es conserven en arxius històrics, sinó que també s’utilitzen àmpliament en documents administratius, com ara xecs o formularis. Amb l’auge de de l’anomenat aprenentatge profund (Deep Learning), s’ha aconseguit un bon rendiment en conjunts de dades específics per al reconeixement de text manuscrit. Tot i això, encara és difícil resoldre casos d’ús reals a causa de la variació entre estils d’escriptura de diferents escriptors i el fet de tenir dades etiquetades limitades. Per tant, es requereix explorar arquitectures de reconeixement d’escriptura més sòlides així com proposar mètodes per disminuir la bretxa entre conjunts de dades font i objectiu de manera no supervisada.
En aquesta tesi, en primer lloc, explorem noves arquitectures per al reconeixement de text manuscrit, un mètode Sequence-to-Sequence amb mecanisme d’atenció i un mètode basat en transformadors no recurrents. En segon lloc, ens centrem en la disminució de la bretxa de rendiment entre les dades d’origen i les de destinació de manera no supervisada. Finalment, proposem un grup de mètodes generatius per a imatges de text manuscrits, que es poden utilitzar per augmentar el conjunt d’entrenament per obtenir un reconeixement més robust. A més, simplement modificant el mètode generatiu i unint-lo amb un reconeixedor, acabem amb un mètode de desenredament eficaç per destil·lar contingut textual d’estils d’escriptura a mà per aconseguir un rendiment de reconeixement generalitzat.
Superem el rendiment dels reconeixedors de text manuscrit de l’estat de l’art en els resultats experimentals entre diferents conjunts de dades científics i industrials, que demostren l’eficàcia dels mètodes proposats. Tant ell reconeixement no recurrent com el mètode de desenredament són les primeres contribucions al camp del reconeixement d’escriptura a mà. A més, hem esbossat les línies de recerca potencials, que serien interessants explorar en el futur.
en_US
dc.description.abstract
Los documentos manuscritos no solo se conservan en archivos históricos, sino que también se usan ampliamente en documentos administrativos como cheques y reclamaciones. Con el auge de las redes neuronales profundas, muchas técnicas del estado del arte han obtenido un buen rendimiento en conjuntos de datos específicos para el reconocimiento de texto manuscrito (HTR). Sin embargo, los casos de uso reales todavía son un desafío debido a la variabilidad de estilos de escritura de diferentes escritores y la cantidad limitada de datos etiquetados. Por lo tanto, es necesario explorar tanto arquitecturas para reconocimiento de texto manuscrito más robustas como proponer métodos para disminuir la brecha entre los datos de origen y destino de una manera no supervisada.
En esta tesis, en primer lugar, exploramos arquitecturas novedosas para el HTR, desde el método secuencia-a-secuencia (Seq2Seq) con mecanismo de atención, hasta el método no recurrente basado en Transformers. En segundo lugar, nos centramos en reducir la brecha de rendimiento entre los datos de origen y de destino mediante métodos no supervisados. Finalmente, proponemos un grupo de métodos generativos para imágenes de texto manuscrito, que pueden usarse para aumentar el conjunto de entrenamiento y obtener un reconocedor más robusto. Además, simplemente modificando el método generativo y uniéndolo con un reconocedor, obtenemos un método eficaz para destilar el contenido textual de los estilos de escritura para lograr un rendimiento de reconocimiento generalizado.
En resultados experimentales obtenemos rendimientos en HTR que superan los del estado del arte en diferentes conjuntos de datos científicos e industriales, los cuales demuestran la efectividad de los métodos propuestos. Hasta donde sabemos, el reconocedor no recurrente y el método de para destilar son contribuciones originales en el campo de reconocimiento de texto manuscrito. Finalmente, hemos esbozado posibles líneas de investigación que sería interesante explorar en el futuro.
en_US
dc.description.abstract
Handwritten documents are not only preserved in historical archives but also widely used in administrative documents such as cheques and claims. With the rise of the deep learning era, many state-of-the-art approaches have achieved good performance on specific datasets for Handwritten Text Recognition (HTR). However, it is still challenging to solve real use cases because of the varied handwriting styles across different writers and the limited labeled data. Thus, both exploring a more robust handwriting recognition architectures and proposing methods to diminish the gap between the source and target data in an unsupervised way are demanded.
In this thesis, firstly, we explore novel architectures for HTR, from Sequence-to-Sequence (Seq2Seq) method with attention mechanism to non-recurrent Transformer-based method. Secondly, we focus on diminishing the performance gap between source and target data in an unsupervised way. Finally, we propose a group of generative methods for handwritten text images, which could be utilized to increase the training set to obtain a more robust recognizer. In addition, by simply modifying the generative method and joining it with a recognizer, we end up with an effective disentanglement method to distill textual content from handwriting styles so as to achieve a generalized recognition performance.
We outperform state-of-the-art HTR performances in the experimental results among different scientific and industrial datasets, which prove the effectiveness of the proposed methods. To the best of our knowledge, the non-recurrent recognizer and the disentanglement method are the first contributions in the handwriting recognition field. Furthermore, we have outlined the potential research lines, which would be interesting to explore in the future.
en_US
dc.format.extent
149 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
eng
en_US
dc.publisher
Universitat Autònoma de Barcelona
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Visió per computador
en_US
dc.subject
Visión por computadora
en_US
dc.subject
Computer vision
en_US
dc.subject
Reconeixement de patrons
en_US
dc.subject
Reconocimiento de patrones
en_US
dc.subject
Pattern recognition
en_US
dc.subject
Reconeixement de text manuscrit
en_US
dc.subject
Reconocimiento de texto manuscrito
en_US
dc.subject
Handwritten text recognition
en_US
dc.subject.other
Tecnologies
en_US
dc.title
Robust Handwritten Text Recognition in Scarce Labeling Scenarios: Disentanglement, Adaptation and Generation
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.authoremail
lei.kang@aliyun.com
en_US
dc.contributor.director
Fornés Bisquerra, Alicia
dc.contributor.codirector
Rossinyol Sanabra, Marçal
dc.contributor.codirector
Villegas Santamaría, Mauricio
dc.contributor.tutor
Lladós, Josep
dc.embargo.terms
cap
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica