Metalinguistic information extraction from specialized texts to enrich computational lexicons


Autor/a

Rodríguez Penagos, Carlos

Director/a

Badia i Cardús, Antoni

Vallduví Botet, Enric

Data de defensa

2005-02-03

ISBN

8468912581

Dipòsit Legal

B.14491-2005



Departament/Institut

Universitat Pompeu Fabra. Departament de Traducció i Filologia

Programa de doctorat

Programa de doctorat en Traducció i Ciències del Llenguatge

Resum

Este trabajo presenta un estudio empírico del uso y función del metalenguaje en el conocimiento científico experto y los lenguajes de especialidad en lengua inglesa, con especial atención al establecimiento, modificación y negociación de la terminología común del grupo de especialistas de cada área. Mediante enunciados discursivos llamados Operaciones Metalingüísticas Explícitas se formaliza y analiza el carácter dinámico de las estructuras conceptuales científicas y los sublenguajes que las vehiculan.<br/>Por otro lado, se presenta la implementación de un sistema automático de extracción de información metalingüística en textos de especialidad. El sistema MOP (Metalinguistic Operation Processor) extrae enunciados metalingüísticos y definiciones de documentos especializados, utilizando tanto autómatas de estados finitos como algoritmos de aprendizaje automático. El sistema crear bases semi-estructuradas de información terminológica llamadas Metalinguistic Information Databases (MID), de utilidad para la lexicografía especializada, el procesamiento del lenguaje natural y el estudio empírico de la evolución del conocimiento científico, entre otras aplicaciones.


This work presents an empirical study of the use and function of metalanguage in expert scientific knowledge and special-domain languages, with special focus on how each field's terminology is established, modified and negotiated within the group of experts. Through discourse statements called Explicit metalinguistic Operations the dynamic nature of conceptual structures and the sublanguages that embody them are formalized and analyzed.<br/>On the other hand, it presents a system implementation for the automatic extraction of metalinguistic information from specialized texts. The Metalinguistic Operation Processor (MOP) system extracts metalinguistic statements and definitions from special-domain documents, using finite-state machinery and machine-learning algorithms. The system creates semi-structured databases called Metalinguistic Information Databases (MID), useful for specialized lexicography, Natural Language Processing, and the empirical study of scientific knowledge, among other applications.

Paraules clau

definitions; metalanguage; natural language processing; corpus especializados; términos; lexical acquisition; conocimiento científico; pragmatics; discourse processing; terminología; procesamiento del lenguaje natural; metalenguaje; extracción de información; definiciones; semántica; scientific knowledge; information extraction; terminology; semantics; specialized corpora; pragmática; procesamiento del discurso; adquisición léxica; terms

Matèries

81 - Lingüística i llengües

Documents

tcrp1de1.pdf

788.8Kb

 

Drets

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Aquest element apareix en la col·lecció o col·leccions següent(s)