Modelo semántico y computacional para análisis del conflicto armado en Colombia

dc.contributor
Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge
dc.contributor.author
Tangarife Patiño, Ana María
dc.date.accessioned
2024-09-18T11:16:35Z
dc.date.issued
2024-07-17
dc.identifier.uri
http://hdl.handle.net/10803/692191
dc.description.abstract
La disponibilidad de herramientas conceptuales para la descripción y la extracción en un determinado dominio de conocimiento es fundamental para garantizar el acceso a la información. En contextos de conflictos armados hay una profusa generación de documentos o materiales para la cual es importante diseñar herramientas y sistemas de gestión de la información adecuadas. Esta tesis aborda las estrategias terminológicas y computacionales necesarias para desarrollar un corpus sobre el conflicto armado en Colombia, los recursos de anotación del corpus, una ontología y un grafo de conocimiento. La representación del conocimiento con fines de recuperación de información pasa por el ámbito de la terminología y las tecnologías de la lengua para usar recursos, técnicas y herramientas del procesamiento de lenguaje natural y de la lingüística computacional. El reconocimiento de entidades nombradas es una tarea para la extracción de información en distintos ámbitos de conocimiento, partiendo de ontologías que recogen conceptualmente la terminología propia de dichos dominios. En esta tesis doctoral se conforma un corpus de textos o multimodales sobre el conflicto armado colombiano que son generados por instituciones, colectivos y organizaciones que trabajan en temas de paz, derechos humanos y memoria. Esta información constituye un corpus documental en el cual se usan técnicas de procesamiento de lenguaje natural para la extracción de relaciones desde el punto de vista conceptual contribuyendo al análisis y exploración de información desde su contenido. Esta tesis propone un modelo semántico y computacional para la construcción de un grafo de conocimiento con técnicas de aprendizaje para el reconocimiento de entidades nombradas, en un campo de conocimiento en donde no existen suficientes ontologías o corpus previamente anotados. La tesis está centrada sobre el tratamiento de textos haciendo uso de técnicas de procesamiento de lenguaje natural para el descubrimiento de entidades nombradas con aprendizaje profundo que permita la construcción de un grafo de conocimiento a partir de una ontología de base, construida desde otras terminologías. Este estudio es un aporte a la construcción de herramientas para el español y para la gestión de conocimiento alrededor de temas del conflicto armado en Colombia y como metodología que puede ser extrapolable a otros dominios de conocimiento en donde no existen previamente ontologías o grafos.
ca
dc.description.abstract
La disponibilitat d'eines conceptuals per a la descripció i l'extracció en un domini de coneixement determinat és fonamental per a garantir l'accés a la informació. En contextos de conflictes armats hi ha una generació profusa de documents o materials per als quals és important dissenyar eines i sistemes de gestió de la informació adequades. Aquesta tesi aborda les estratègies terminològiques i computacionals necessàries per a desenvolupar un corpus sobre el conflicte armat a Colòmbia, els recursos d’anotació del corpus, una ontologia i un graf de coneixement. La representació del coneixement amb finalitats de recuperació d'informació passa per l'àmbit de la terminologia i les tecnologies de la llengua per fer servir recursos, tècniques i eines del processament de llenguatge natural i de la lingüística computacional. El reconeixement d'entitats nomenades (NER) és una tasca per a l'extracció d'informació en diferents àmbits de coneixement, partint d'ontologies que recullen conceptualment la terminologia pròpia dels dominis esmentats. En aquesta tesi doctoral es conforma un corpus de textos o multimodals sobre el conflicte armat colombià generats per institucions, col·lectius i organitzacions que treballen en temes de pau, drets humans i memòria. Aquesta informació constitueix un corpus documental en el qual es fan servir tècniques de processament de llenguatge natural per a l'extracció de relacions des del punt de vista conceptual per contribuir a l'anàlisi i exploració de la informació des del contingut. Aquesta tesi proposa un model semàntic i computacional per a la construcció d'un graf de coneixement amb tècniques d'aprenentatge per al reconeixement d'entitats nomenades, en un camp de coneixement on no hi ha prou ontologies o corpus prèviament anotats. La tesi se centra sobre el tractament de textos fent ús de tècniques de processament de llenguatge natural per al descobriment d'entitats nomenades amb aprenentatge profund, que permeti la construcció d'un graf de coneixement a partir d'una ontologia de base, construïda des d'altres terminologies. Aquest estudi és una aportació a la construcció d'eines per a l'espanyol i per a la gestió de coneixement al voltant de temes del conflicte armat a Colòmbia i com a metodologia que pot ser extrapolable a altres dominis de coneixement on no hi ha prèviament ontologies o grafs.
ca
dc.description.abstract
The availability of conceptual tools for description and extraction in a knowledge domain is fundamental to ensure access to information. In armed conflict contexts there is a profuse generation of documents or materials for which it is important to design adequate information management tools and systems. This thesis approaches the terminological and computational strategies needed to develop a corpus on the armed conflict in Colombia, corpus annotation resources, an ontology and a knowledge graph. Knowledge representation for information retrieval purposes goes through the field of terminology and language technologies to use resources, techniques and tools of natural language processing and computational linguistics. The named entity recognition is a task of extraction of information from several fields of knowledge, based on ontologies that conceptually collect the terminology of these domains. In this doctoral thesis, a corpus of texts or multimodal texts on the Colombian armed conflict generated by institutions, collectives and organizations working on issues of peace, human rights and memory. This information is a documentary corpus in which natural language processing techniques are used for the extraction of relationships from a conceptual field, contributing to the analysis and exploration of information from its content. This thesis proposes a semantic and computational model for the construction of a knowledge graph with learning techniques for the named entity recognition, in a field of knowledge where there are not enough ontologies or annotated corpora previously. The thesis is focused on the treatment of texts using natural language processing techniques for the discovery of named entities with deep learning that allows the construction of a knowledge graph from a base ontology, built from other terminologies. This study contributes to the construction of tools for Spanish and for knowledge management around issues of the armed conflict in Colombia and as a methodology it that can be extrapolated to other knowledge domains where ontologies or graphs do not previously exist.
ca
dc.format.extent
252 p.
ca
dc.language.iso
spa
ca
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
ca
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Reconocimiento de entidades nombradas
ca
dc.subject
Grafos de conocimiento
ca
dc.subject
Ontologías
ca
dc.subject
Terminología
ca
dc.subject
Conflictos armados
ca
dc.subject
Reconeixement d'entitats anomenades
ca
dc.subject
Grafs de coneixement
ca
dc.subject
Ontologies
ca
dc.subject
Terminologia
ca
dc.subject
Conflictes armats
ca
dc.subject
Named entity recognition
ca
dc.subject
Knowledge graphs
ca
dc.subject
Ontologies
ca
dc.subject
Terminology
ca
dc.subject
Armed conflicts
ca
dc.title
Modelo semántico y computacional para análisis del conflicto armado en Colombia
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
81
ca
dc.contributor.authoremail
anamariatangarife@gmail.com
ca
dc.contributor.director
Lorente, Mercè
dc.embargo.terms
6 mesos
ca
dc.date.embargoEnd
2025-01-13T02:00:00Z
dc.rights.accessLevel
info:eu-repo/semantics/embargoedAccess
dc.description.degree
Programa de Doctorat en Traducció i Ciències del Llenguatge


Documents

Aquest document conté fitxers embargats fins el dia 13-01-2025

Aquest element apareix en la col·lecció o col·leccions següent(s)