dc.contributor
Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge
dc.contributor.author
Tangarife Patiño, Ana María
dc.date.accessioned
2024-09-18T11:16:35Z
dc.date.issued
2024-07-17
dc.identifier.uri
http://hdl.handle.net/10803/692191
dc.description.abstract
La disponibilidad de herramientas conceptuales para la descripción y la extracción en un
determinado dominio de conocimiento es fundamental para garantizar el acceso a la
información. En contextos de conflictos armados hay una profusa generación de
documentos o materiales para la cual es importante diseñar herramientas y sistemas de
gestión de la información adecuadas. Esta tesis aborda las estrategias terminológicas y
computacionales necesarias para desarrollar un corpus sobre el conflicto armado en
Colombia, los recursos de anotación del corpus, una ontología y un grafo de
conocimiento.
La representación del conocimiento con fines de recuperación de información pasa por
el ámbito de la terminología y las tecnologías de la lengua para usar recursos, técnicas y
herramientas del procesamiento de lenguaje natural y de la lingüística computacional.
El reconocimiento de entidades nombradas es una tarea para la extracción de
información en distintos ámbitos de conocimiento, partiendo de ontologías que recogen
conceptualmente la terminología propia de dichos dominios. En esta tesis doctoral se
conforma un corpus de textos o multimodales sobre el conflicto armado colombiano que
son generados por instituciones, colectivos y organizaciones que trabajan en temas de
paz, derechos humanos y memoria. Esta información constituye un corpus documental
en el cual se usan técnicas de procesamiento de lenguaje natural para la extracción de
relaciones desde el punto de vista conceptual contribuyendo al análisis y exploración de
información desde su contenido.
Esta tesis propone un modelo semántico y computacional para la construcción de un
grafo de conocimiento con técnicas de aprendizaje para el reconocimiento de entidades
nombradas, en un campo de conocimiento en donde no existen suficientes ontologías o
corpus previamente anotados. La tesis está centrada sobre el tratamiento de textos
haciendo uso de técnicas de procesamiento de lenguaje natural para el descubrimiento
de entidades nombradas con aprendizaje profundo que permita la construcción de un
grafo de conocimiento a partir de una ontología de base, construida desde otras
terminologías.
Este estudio es un aporte a la construcción de herramientas para el español y para la
gestión de conocimiento alrededor de temas del conflicto armado en Colombia y como
metodología que puede ser extrapolable a otros dominios de conocimiento en donde no
existen previamente ontologías o grafos.
ca
dc.description.abstract
La disponibilitat d'eines conceptuals per a la descripció i l'extracció en un domini de
coneixement determinat és fonamental per a garantir l'accés a la informació. En
contextos de conflictes armats hi ha una generació profusa de documents o materials per
als quals és important dissenyar eines i sistemes de gestió de la informació adequades.
Aquesta tesi aborda les estratègies terminològiques i computacionals necessàries per a
desenvolupar un corpus sobre el conflicte armat a Colòmbia, els recursos d’anotació del
corpus, una ontologia i un graf de coneixement.
La representació del coneixement amb finalitats de recuperació d'informació passa per
l'àmbit de la terminologia i les tecnologies de la llengua per fer servir recursos,
tècniques i eines del processament de llenguatge natural i de la lingüística
computacional.
El reconeixement d'entitats nomenades (NER) és una tasca per a l'extracció
d'informació en diferents àmbits de coneixement, partint d'ontologies que recullen
conceptualment la terminologia pròpia dels dominis esmentats. En aquesta tesi doctoral
es conforma un corpus de textos o multimodals sobre el conflicte armat colombià
generats per institucions, col·lectius i organitzacions que treballen en temes de pau,
drets humans i memòria. Aquesta informació constitueix un corpus documental en el
qual es fan servir tècniques de processament de llenguatge natural per a l'extracció de
relacions des del punt de vista conceptual per contribuir a l'anàlisi i exploració de la
informació des del contingut.
Aquesta tesi proposa un model semàntic i computacional per a la construcció d'un graf
de coneixement amb tècniques d'aprenentatge per al reconeixement d'entitats
nomenades, en un camp de coneixement on no hi ha prou ontologies o corpus
prèviament anotats. La tesi se centra sobre el tractament de textos fent ús de tècniques
de processament de llenguatge natural per al descobriment d'entitats nomenades amb
aprenentatge profund, que permeti la construcció d'un graf de coneixement a partir d'una
ontologia de base, construïda des d'altres terminologies.
Aquest estudi és una aportació a la construcció d'eines per a l'espanyol i per a la gestió
de coneixement al voltant de temes del conflicte armat a Colòmbia i com a metodologia
que pot ser extrapolable a altres dominis de coneixement on no hi ha prèviament
ontologies o grafs.
ca
dc.description.abstract
The availability of conceptual tools for description and extraction in a knowledge
domain is fundamental to ensure access to information. In armed conflict contexts there
is a profuse generation of documents or materials for which it is important to design
adequate information management tools and systems. This thesis approaches the
terminological and computational strategies needed to develop a corpus on the armed
conflict in Colombia, corpus annotation resources, an ontology and a knowledge graph.
Knowledge representation for information retrieval purposes goes through the field of
terminology and language technologies to use resources, techniques and tools of natural
language processing and computational linguistics.
The named entity recognition is a task of extraction of information from several fields
of knowledge, based on ontologies that conceptually collect the terminology of these
domains. In this doctoral thesis, a corpus of texts or multimodal texts on the Colombian
armed conflict generated by institutions, collectives and organizations working on
issues of peace, human rights and memory. This information is a documentary corpus in
which natural language processing techniques are used for the extraction of
relationships from a conceptual field, contributing to the analysis and exploration of
information from its content.
This thesis proposes a semantic and computational model for the construction of a
knowledge graph with learning techniques for the named entity recognition, in a field of
knowledge where there are not enough ontologies or annotated corpora previously. The
thesis is focused on the treatment of texts using natural language processing techniques
for the discovery of named entities with deep learning that allows the construction of a
knowledge graph from a base ontology, built from other terminologies.
This study contributes to the construction of tools for Spanish and for knowledge
management around issues of the armed conflict in Colombia and as a methodology it
that can be extrapolated to other knowledge domains where ontologies or graphs do not
previously exist.
ca
dc.format.extent
252 p.
ca
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
ca
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Reconocimiento de entidades nombradas
ca
dc.subject
Grafos de conocimiento
ca
dc.subject
Terminología
ca
dc.subject
Conflictos armados
ca
dc.subject
Reconeixement d'entitats anomenades
ca
dc.subject
Grafs de coneixement
ca
dc.subject
Terminologia
ca
dc.subject
Conflictes armats
ca
dc.subject
Named entity recognition
ca
dc.subject
Knowledge graphs
ca
dc.subject
Terminology
ca
dc.subject
Armed conflicts
ca
dc.title
Modelo semántico y computacional para análisis del conflicto armado en Colombia
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.authoremail
anamariatangarife@gmail.com
ca
dc.contributor.director
Lorente, Mercè
dc.embargo.terms
6 mesos
ca
dc.date.embargoEnd
2025-01-13T02:00:00Z
dc.rights.accessLevel
info:eu-repo/semantics/embargoedAccess
dc.description.degree
Programa de Doctorat en Traducció i Ciències del Llenguatge