Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge
Programa de Doctorat en Traducció i Ciències del Llenguatge
La disponibilidad de herramientas conceptuales para la descripción y la extracción en un determinado dominio de conocimiento es fundamental para garantizar el acceso a la información. En contextos de conflictos armados hay una profusa generación de documentos o materiales para la cual es importante diseñar herramientas y sistemas de gestión de la información adecuadas. Esta tesis aborda las estrategias terminológicas y computacionales necesarias para desarrollar un corpus sobre el conflicto armado en Colombia, los recursos de anotación del corpus, una ontología y un grafo de conocimiento. La representación del conocimiento con fines de recuperación de información pasa por el ámbito de la terminología y las tecnologías de la lengua para usar recursos, técnicas y herramientas del procesamiento de lenguaje natural y de la lingüística computacional. El reconocimiento de entidades nombradas es una tarea para la extracción de información en distintos ámbitos de conocimiento, partiendo de ontologías que recogen conceptualmente la terminología propia de dichos dominios. En esta tesis doctoral se conforma un corpus de textos o multimodales sobre el conflicto armado colombiano que son generados por instituciones, colectivos y organizaciones que trabajan en temas de paz, derechos humanos y memoria. Esta información constituye un corpus documental en el cual se usan técnicas de procesamiento de lenguaje natural para la extracción de relaciones desde el punto de vista conceptual contribuyendo al análisis y exploración de información desde su contenido. Esta tesis propone un modelo semántico y computacional para la construcción de un grafo de conocimiento con técnicas de aprendizaje para el reconocimiento de entidades nombradas, en un campo de conocimiento en donde no existen suficientes ontologías o corpus previamente anotados. La tesis está centrada sobre el tratamiento de textos haciendo uso de técnicas de procesamiento de lenguaje natural para el descubrimiento de entidades nombradas con aprendizaje profundo que permita la construcción de un grafo de conocimiento a partir de una ontología de base, construida desde otras terminologías. Este estudio es un aporte a la construcción de herramientas para el español y para la gestión de conocimiento alrededor de temas del conflicto armado en Colombia y como metodología que puede ser extrapolable a otros dominios de conocimiento en donde no existen previamente ontologías o grafos.
La disponibilitat d'eines conceptuals per a la descripció i l'extracció en un domini de coneixement determinat és fonamental per a garantir l'accés a la informació. En contextos de conflictes armats hi ha una generació profusa de documents o materials per als quals és important dissenyar eines i sistemes de gestió de la informació adequades. Aquesta tesi aborda les estratègies terminològiques i computacionals necessàries per a desenvolupar un corpus sobre el conflicte armat a Colòmbia, els recursos d’anotació del corpus, una ontologia i un graf de coneixement. La representació del coneixement amb finalitats de recuperació d'informació passa per l'àmbit de la terminologia i les tecnologies de la llengua per fer servir recursos, tècniques i eines del processament de llenguatge natural i de la lingüística computacional. El reconeixement d'entitats nomenades (NER) és una tasca per a l'extracció d'informació en diferents àmbits de coneixement, partint d'ontologies que recullen conceptualment la terminologia pròpia dels dominis esmentats. En aquesta tesi doctoral es conforma un corpus de textos o multimodals sobre el conflicte armat colombià generats per institucions, col·lectius i organitzacions que treballen en temes de pau, drets humans i memòria. Aquesta informació constitueix un corpus documental en el qual es fan servir tècniques de processament de llenguatge natural per a l'extracció de relacions des del punt de vista conceptual per contribuir a l'anàlisi i exploració de la informació des del contingut. Aquesta tesi proposa un model semàntic i computacional per a la construcció d'un graf de coneixement amb tècniques d'aprenentatge per al reconeixement d'entitats nomenades, en un camp de coneixement on no hi ha prou ontologies o corpus prèviament anotats. La tesi se centra sobre el tractament de textos fent ús de tècniques de processament de llenguatge natural per al descobriment d'entitats nomenades amb aprenentatge profund, que permeti la construcció d'un graf de coneixement a partir d'una ontologia de base, construïda des d'altres terminologies. Aquest estudi és una aportació a la construcció d'eines per a l'espanyol i per a la gestió de coneixement al voltant de temes del conflicte armat a Colòmbia i com a metodologia que pot ser extrapolable a altres dominis de coneixement on no hi ha prèviament ontologies o grafs.
The availability of conceptual tools for description and extraction in a knowledge domain is fundamental to ensure access to information. In armed conflict contexts there is a profuse generation of documents or materials for which it is important to design adequate information management tools and systems. This thesis approaches the terminological and computational strategies needed to develop a corpus on the armed conflict in Colombia, corpus annotation resources, an ontology and a knowledge graph. Knowledge representation for information retrieval purposes goes through the field of terminology and language technologies to use resources, techniques and tools of natural language processing and computational linguistics. The named entity recognition is a task of extraction of information from several fields of knowledge, based on ontologies that conceptually collect the terminology of these domains. In this doctoral thesis, a corpus of texts or multimodal texts on the Colombian armed conflict generated by institutions, collectives and organizations working on issues of peace, human rights and memory. This information is a documentary corpus in which natural language processing techniques are used for the extraction of relationships from a conceptual field, contributing to the analysis and exploration of information from its content. This thesis proposes a semantic and computational model for the construction of a knowledge graph with learning techniques for the named entity recognition, in a field of knowledge where there are not enough ontologies or annotated corpora previously. The thesis is focused on the treatment of texts using natural language processing techniques for the discovery of named entities with deep learning that allows the construction of a knowledge graph from a base ontology, built from other terminologies. This study contributes to the construction of tools for Spanish and for knowledge management around issues of the armed conflict in Colombia and as a methodology it that can be extrapolated to other knowledge domains where ontologies or graphs do not previously exist.
Reconocimiento de entidades nombradas; Grafos de conocimiento; Ontologías; Terminología; Conflictos armados; Reconeixement d'entitats anomenades; Grafs de coneixement; Ontologies; Terminologia; Conflictes armats; Named entity recognition; Knowledge graphs; Ontologies; Terminology; Armed conflicts
81 - Lingüística y lenguas