Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica
Sectors com la informació i tecnologia d'assegurances, finances i legal, processen un continu de factures, justificants, reclamacions o similar diàriament. L'èxit en l'automatització d'aquestes transaccions es basa en l'habilitat de digitalitzar correctament el contingut textual així com incorporar la comprensió semàntica. Aquest procés, conegut com Extracció d'Informació (EI) consisteix en diversos passos que són, el reconeixement de el text, la identificació d'entitats nomenades i en ocasions en reconèixer relacions entre aquestes entitats. En el nostre treball vam explorar models neurals multi-tasca a nivell d'imatge i de graf per solucionar els passos d'aquest procés de forma unificada. En el camí, vam estudiar els beneficis i inconvenients d'aquests enfocaments en comparació amb mètodes que resolen les tasques seqüencialment per separat.
Sectores como la información y tecnología de seguros, finanzas y legal, procesan un continuo de facturas, justificantes, reclamaciones o similar diariamente. El éxito en la automatización de estas transacciones se basa en la habilidad de digitalizar correctamente el contenido textual asi como incorporar la comprensión semántica. Este proceso, conococido como Extracción de Información (EI) consiste en varios pasos que son, el reconocimiento del texto, la identificación de entidades nombradas y en ocasiones en reconocer relaciones entre estas entidades. En nuestro trabajo exploramos modelos neurales multi-tarea a nivel de imagen y de grafo para solucionar los pasos de este proceso de forma unificada. En el camino, estudiamos los beneficios e inconvenientes de estos enfoques en comparación con métodos que resuelven las tareas secuencialmente por separado.
Sectors as fintech, legaltech or insurance process an inflow of million of forms, invoices, id documents, claims or similar every day. The success in the automation of these transactions depends on the ability to correctly digitize the textual content as well as to incorporate semantic understanding. This procedure, known as information extraction (IE) comprises the steps of localizing and recognizing text, identifying named entities contained in it and optionally finding relationships among its elements. In this work we explore multi-task neural models at image and graph level to solve all steps in a unified way. While doing so we find benefits and limitations of these end-to-end approaches in comparison with sequential separate methods.
Inteligencia artificial; Artificial intelligence; Visió per computador; Visión por computador; Computer vision; Documents; Documentos
004 - Informática
Tecnologies