Modelo semántico y computacional para análisis del conflicto armado en Colombia

Tangarife Patiño, Ana María

Modelo semántico y computacional para análisis del conflicto armado en Colombia

dc.contributor

Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge

dc.contributor.author

Tangarife Patiño, Ana María

dc.date.accessioned

2024-09-18T11:16:35Z

dc.date.available

2025-01-13T23:05:10Z

dc.date.issued

2024-07-17

dc.identifier.uri

http://hdl.handle.net/10803/692191

dc.description.abstract

La disponibilidad de herramientas conceptuales para la descripción y la extracción en un determinado dominio de conocimiento es fundamental para garantizar el acceso a la información. En contextos de conflictos armados hay una profusa generación de documentos o materiales para la cual es importante diseñar herramientas y sistemas de gestión de la información adecuadas. Esta tesis aborda las estrategias terminológicas y computacionales necesarias para desarrollar un corpus sobre el conflicto armado en Colombia, los recursos de anotación del corpus, una ontología y un grafo de conocimiento. La representación del conocimiento con fines de recuperación de información pasa por el ámbito de la terminología y las tecnologías de la lengua para usar recursos, técnicas y herramientas del procesamiento de lenguaje natural y de la lingüística computacional. El reconocimiento de entidades nombradas es una tarea para la extracción de información en distintos ámbitos de conocimiento, partiendo de ontologías que recogen conceptualmente la terminología propia de dichos dominios. En esta tesis doctoral se conforma un corpus de textos o multimodales sobre el conflicto armado colombiano que son generados por instituciones, colectivos y organizaciones que trabajan en temas de paz, derechos humanos y memoria. Esta información constituye un corpus documental en el cual se usan técnicas de procesamiento de lenguaje natural para la extracción de relaciones desde el punto de vista conceptual contribuyendo al análisis y exploración de información desde su contenido. Esta tesis propone un modelo semántico y computacional para la construcción de un grafo de conocimiento con técnicas de aprendizaje para el reconocimiento de entidades nombradas, en un campo de conocimiento en donde no existen suficientes ontologías o corpus previamente anotados. La tesis está centrada sobre el tratamiento de textos haciendo uso de técnicas de procesamiento de lenguaje natural para el descubrimiento de entidades nombradas con aprendizaje profundo que permita la construcción de un grafo de conocimiento a partir de una ontología de base, construida desde otras terminologías. Este estudio es un aporte a la construcción de herramientas para el español y para la gestión de conocimiento alrededor de temas del conflicto armado en Colombia y como metodología que puede ser extrapolable a otros dominios de conocimiento en donde no existen previamente ontologías o grafos.

dc.description.abstract

La disponibilitat d'eines conceptuals per a la descripció i l'extracció en un domini de coneixement determinat és fonamental per a garantir l'accés a la informació. En contextos de conflictes armats hi ha una generació profusa de documents o materials per als quals és important dissenyar eines i sistemes de gestió de la informació adequades. Aquesta tesi aborda les estratègies terminològiques i computacionals necessàries per a desenvolupar un corpus sobre el conflicte armat a Colòmbia, els recursos d’anotació del corpus, una ontologia i un graf de coneixement. La representació del coneixement amb finalitats de recuperació d'informació passa per l'àmbit de la terminologia i les tecnologies de la llengua per fer servir recursos, tècniques i eines del processament de llenguatge natural i de la lingüística computacional. El reconeixement d'entitats nomenades (NER) és una tasca per a l'extracció d'informació en diferents àmbits de coneixement, partint d'ontologies que recullen conceptualment la terminologia pròpia dels dominis esmentats. En aquesta tesi doctoral es conforma un corpus de textos o multimodals sobre el conflicte armat colombià generats per institucions, col·lectius i organitzacions que treballen en temes de pau, drets humans i memòria. Aquesta informació constitueix un corpus documental en el qual es fan servir tècniques de processament de llenguatge natural per a l'extracció de relacions des del punt de vista conceptual per contribuir a l'anàlisi i exploració de la informació des del contingut. Aquesta tesi proposa un model semàntic i computacional per a la construcció d'un graf de coneixement amb tècniques d'aprenentatge per al reconeixement d'entitats nomenades, en un camp de coneixement on no hi ha prou ontologies o corpus prèviament anotats. La tesi se centra sobre el tractament de textos fent ús de tècniques de processament de llenguatge natural per al descobriment d'entitats nomenades amb aprenentatge profund, que permeti la construcció d'un graf de coneixement a partir d'una ontologia de base, construïda des d'altres terminologies. Aquest estudi és una aportació a la construcció d'eines per a l'espanyol i per a la gestió de coneixement al voltant de temes del conflicte armat a Colòmbia i com a metodologia que pot ser extrapolable a altres dominis de coneixement on no hi ha prèviament ontologies o grafs.

dc.description.abstract

The availability of conceptual tools for description and extraction in a knowledge domain is fundamental to ensure access to information. In armed conflict contexts there is a profuse generation of documents or materials for which it is important to design adequate information management tools and systems. This thesis approaches the terminological and computational strategies needed to develop a corpus on the armed conflict in Colombia, corpus annotation resources, an ontology and a knowledge graph. Knowledge representation for information retrieval purposes goes through the field of terminology and language technologies to use resources, techniques and tools of natural language processing and computational linguistics. The named entity recognition is a task of extraction of information from several fields of knowledge, based on ontologies that conceptually collect the terminology of these domains. In this doctoral thesis, a corpus of texts or multimodal texts on the Colombian armed conflict generated by institutions, collectives and organizations working on issues of peace, human rights and memory. This information is a documentary corpus in which natural language processing techniques are used for the extraction of relationships from a conceptual field, contributing to the analysis and exploration of information from its content. This thesis proposes a semantic and computational model for the construction of a knowledge graph with learning techniques for the named entity recognition, in a field of knowledge where there are not enough ontologies or annotated corpora previously. The thesis is focused on the treatment of texts using natural language processing techniques for the discovery of named entities with deep learning that allows the construction of a knowledge graph from a base ontology, built from other terminologies. This study contributes to the construction of tools for Spanish and for knowledge management around issues of the armed conflict in Colombia and as a methodology it that can be extrapolated to other knowledge domains where ontologies or graphs do not previously exist.

dc.format.extent

252 p.

dc.language.iso

spa

dc.publisher

Universitat Pompeu Fabra

dc.rights.license

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

dc.rights.uri

http://creativecommons.org/licenses/by-nc-nd/4.0/

dc.source

TDX (Tesis Doctorals en Xarxa)

dc.subject

Reconocimiento de entidades nombradas

dc.subject

Grafos de conocimiento

dc.subject

Ontologías

dc.subject

Terminología

dc.subject

Conflictos armados

dc.subject

Reconeixement d'entitats anomenades

dc.subject

Grafs de coneixement

dc.subject

Ontologies

dc.subject

Terminologia

dc.subject

Conflictes armats

dc.subject

Named entity recognition

dc.subject

Knowledge graphs

dc.subject

Ontologies

dc.subject

Terminology

dc.subject

Armed conflicts

dc.title

Modelo semántico y computacional para análisis del conflicto armado en Colombia

dc.type

info:eu-repo/semantics/doctoralThesis

dc.type

info:eu-repo/semantics/publishedVersion

dc.subject.udc

dc.contributor.authoremail

anamariatangarife@gmail.com

dc.contributor.director

Lorente, Mercè

dc.rights.accessLevel

info:eu-repo/semantics/openAccess

dc.description.degree

Programa de Doctorat en Traducció i Ciències del Llenguatge

Documentos

tamtp.pdf

2.072Mb PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)

Programa de Doctorat en Traducció i Ciències del Llenguatge [310]