Descripción y evaluación de un sistema basado en reglas para la extracción automática de contextos definitorios

Author

Alarcón Martínez, Rodrigo

Director

Bach, Carme

Sierra Martínez, Gerardo

Date of defense

2009-09-28

ISBN

9788469292631

Legal Deposit

B.47405-2009



Department/Institute

Universitat Pompeu Fabra. Institut Universitari de Lingüística Aplicada

Doctorate programs

Programa de doctorat en Traducció i Ciències del Llenguatge

Abstract

El desarrollo de herramientas computacionales de ayuda en tareas lexicográficas y terminográficas es un creciente interés dentro del campo del procesamiento del lenguaje natural. Algunas herramientas se han desarrollado para la extracción automática de términos en textos especializados. Además, algunos estudios se han enfocado en el desarrollo de métodos para adquirir conocimiento definitorio sobre términos, tomando en cuenta la idea de que los términos suelen definirse en estructuras denominadas contextos definitorios, donde se emplean una serie de patrones que pueden ser reconocidos automáticamente. Partiendo de esta premisa, en esta tesis presentamos un sistema basado en reglas lingüísticas para la extracción de contextos definitorios sobre textos especializados en español. Este sistema esta formado por cuatro procesos: la extracción de ocurrencias de patrones definitorios; el filtro de contextos no relevantes; la identificación de los elementos constitutivos en los candidatos, es decir, el término y la definición; y la organización jerárquica de los resultados con el fin de encontrar los mejores candidatos.


The development of computational tools to help on lexicography and terminography tasks is indeed a growing interest on natural language processing field. Some tools have been developing for the extraction of terms from specialised texts. In addition, some studies have been focused on developing methods for acquiring definitional knowledge about terms, considering that the terms are commonly defined in structures called definitional contexts, which employ some patterns that can be automatically identified. Taking into account this premise, in this thesis we present a system based on linguistic rules for the extraction of definitional contexts in Spanish specialised texts. The system includes four processes: the extraction of textual fragments with definitional patterns; the filtering of non-relevant contexts; the identification of the constituent elements in the candidates, i.e., terms and definitions; and the ranking of the results to identify the best candidates.

Keywords

computational terminography; computational linguistics; information extraction; extraction of definitional knowledge; extraction of definitions; definitional contexts extraction; definitional contexts; terminografía computacional; lingüística computacional; extracción de información; extracción de definiciones; extracción de conocimiento definitorio; extracción de contextos definitorios; contextos definitorios

Subjects

004 - Computer science and technology. Computing. Data processing; 81 - Linguistics and languages

Note

Material addicional: http://hdl.handle.net/10230/6295

Documents

TRAM.pdf

4.233Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)