The Structure of the lexicon in the task of the automatic acquisition of lexical information

Romeo, Lauren Michele

The Structure of the lexicon in the task of the automatic acquisition of lexical information

dc.contributor

Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge

dc.contributor.author

Romeo, Lauren Michele

dc.date.accessioned

2015-12-10T10:11:34Z

dc.date.available

2015-12-10T10:11:34Z

dc.date.issued

2015-10-16

dc.identifier.uri

http://hdl.handle.net/10803/325420

dc.description

Material addicional: http://hdl.handle.net/10230/24562

dc.description.abstract

La información de clase semántica de los nombres es fundamental para una amplia variedad de tareas del procesamiento del lenguaje natural (PLN), como la traducción automática, la discriminación de referentes en tareas como la detección y el seguimiento de eventos, la búsqueda de respuestas, el reconocimiento y la clasificación de nombres de entidades, la construcción y ampliación automática de ontologías, la inferencia textual, etc. Una aproximación para resolver la construcción y el mantenimiento de los léxicos de gran cobertura que alimentan los sistemas de PNL, una tarea muy costosa y lenta, es la adquisición automática de información léxica, que consiste en la inducción de una clase semántica relacionada con una palabra en concreto a partir de datos de su distribución obtenidos de un corpus. Precisamente, por esta razón, se espera que la investigación actual sobre los métodos para la producción automática de léxicos de alta calidad, con gran cantidad de información y con anotación de clase como el trabajo que aquí presentamos, tenga un gran impacto en el rendimiento de la mayoría de las aplicaciones de PNL. En esta tesis, tratamos la adquisición automática de información léxica como un problema de clasificación. Con este propósito, adoptamos métodos de aprendizaje automático para generar un modelo que represente los datos de distribución vectorial que, basados en ejemplos conocidos, permitan hacer predicciones de otras palabras desconocidas. Las principales preguntas de investigación que planteamos en esta tesis son: (i) si los datos de corpus proporcionan suficiente información para construir representaciones de palabras de forma eficiente y que resulten en decisiones de clasificación precisas y sólidas, y (ii) si la adquisición automática puede gestionar, también, los nombres polisémicos. Para hacer frente a estos problemas, realizamos una serie de validaciones empíricas sobre nombres en inglés. Nuestros resultados confirman que la información obtenida a partir de la distribución de los datos de corpus es suficiente para adquirir automáticamente clases semánticas, como lo demuestra un valor-F global promedio de 0,80 aproximadamente utilizando varios modelos de recuento de contextos y en datos de corpus de distintos tamaños. No obstante, tanto el estado de la cuestión como los experimentos que realizamos destacaron una serie de retos para este tipo de modelos, que son reducir la escasez de datos del vector y dar cuenta de la polisemia nominal en las representaciones distribucionales de las palabras. En este contexto, los modelos de word embedding (WE) mantienen la “semántica” subyacente en las ocurrencias de un nombre en los datos de corpus asignándole un vector. Con esta elección, hemos sido capaces de superar el problema de la escasez de datos, como lo demuestra un valor-F general promedio de 0,91 para las clases semánticas de nombres de sentido único, a través de una combinación de la reducción de la dimensionalidad y de números reales. Además, las representaciones de WE obtuvieron un rendimiento superior en la gestión de las ocurrencias asimétricas de cada sentido de los nombres de tipo complejo polisémicos regulares en datos de corpus. Como resultado, hemos podido clasificar directamente esos nombres en su propia clase semántica con un valor-F global promedio de 0,85. La principal aportación de esta tesis consiste en una validación empírica de diferentes representaciones de distribución utilizadas para la clasificación semántica de nombres junto con una posterior expansión del trabajo anterior, lo que se traduce en recursos léxicos y conjuntos de datos innovadores que están disponibles de forma gratuita para su descarga y uso.

spa

dc.description.abstract

cat

dc.description.abstract

Lexical semantic class information for nouns is critical for a broad variety of Natural Language Processing (NLP) tasks including, but not limited to, machine translation, discrimination of referents in tasks such as event detection and tracking, question answering, named entity recognition and classification, automatic construction and extension of ontologies, textual inference, etc. One approach to solve the costly and time-consuming manual construction and maintenance of large-coverage lexica to feed NLP systems is the Automatic Acquisition of Lexical Information, which involves the induction of a semantic class related to a particular word from distributional data gathered within a corpus. This is precisely why current research on methods for the automatic production of high- quality information-rich class-annotated lexica, such as the work presented here, is expected to have a high impact on the performance of most NLP applications. In this thesis, we address the automatic acquisition of lexical information as a classification problem. For this reason, we adopt machine learning methods to generate a model representing vectorial distributional data which, grounded on known examples, allows for the predictions of other unknown words. The main research questions we investigate in this thesis are: (i) whether corpus data provides sufficient distributional information to build efficient word representations that result in accurate and robust classification decisions and (ii) whether automatic acquisition can handle also polysemous nouns. To tackle these problems, we conducted a number of empirical validations on English nouns. Our results confirmed that the distributional information obtained from corpus data is indeed sufficient to automatically acquire lexical semantic classes, demonstrated by an average overall F1-Score of almost 0.80 using diverse count-context models and on different sized corpus data. Nonetheless, both the State of the Art and the experiments we conducted highlighted a number of challenges of this type of model such as reducing vector sparsity and accounting for nominal polysemy in distributional word representations. In this context, Word Embeddings (WE) models maintain the “semantics” underlying the occurrences of a noun in corpus data by mapping it to a feature vector. With this choice, we were able to overcome the sparse data problem, demonstrated by an average overall F1-Score of 0.91 for single-sense lexical semantic noun classes, through a combination of reduced dimensionality and “real” numbers. In addition, the WE representations obtained a higher performance in handling the asymmetrical occurrences of each sense of regular polysemous complex-type nouns in corpus data. As a result, we were able to directly classify such nouns into their own lexical-semantic class with an average overall F1-Score of 0.85. The main contribution of this dissertation consists of an empirical validation of different distributional representations used for nominal lexical semantic classification along with a subsequent expansion of previous work, which results in novel lexical resources and data sets that have been made freely available for download and use.

eng

dc.format.extent

174 p.

dc.format.mimetype

application/pdf

dc.language.iso

eng

dc.publisher

Universitat Pompeu Fabra

dc.rights.license

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/

dc.rights.uri

http://creativecommons.org/licenses/by-nc-nd/3.0/

dc.source

TDX (Tesis Doctorals en Xarxa)

dc.subject

Clases semánticas léxicas

dc.subject

Nombres

dc.subject

Clases semánticas léxicas nominales

dc.subject

Hipótesis distribucional

dc.subject

Modelos distribucionales

dc.subject

Semántica distribucional

dc.subject

Clasificación automática

dc.subject

Clasificación semántica

dc.subject

Léxico generativo

dc.subject

Estructura qualia

dc.subject

Roles de qualia

dc.subject

Extracción automática de información léxica

dc.subject

Tipos-complejos

dc.subject

Clasificación cascada

dc.subject

Word embeddings

dc.subject

Polisemia regular

dc.subject

Polisemia

dc.subject

Classes semàntiques lèxiques

dc.subject

Noms

dc.subject

Classes semàntiques lèxiques nominals

dc.subject

Hipòtesi distribucional

dc.subject

Models distribucionals

dc.subject

Semàntica distribucional

dc.subject

Classificació automàtica

dc.subject

Classificació semàntica

dc.subject

Lèxic generatiu

dc.subject

Rols de qualia

dc.subject

Extracció automàtica d'informació lèxica

dc.subject

Tipus-complexos

dc.subject

Classificació cascada

dc.subject

Polisèmia regular

dc.subject

Polisèmia

dc.subject

Lexical semantic classes

dc.subject

Nouns

dc.subject

Nominal lexical semantic classes

dc.subject

Distributional hypothesis

dc.subject

Distributional models

dc.subject

Lexical semantics

dc.subject

Automatic classification

dc.subject

Semantic classification

dc.subject

Generative lexicon

dc.subject

Qualia structure

dc.subject

Qualia roles

dc.subject

Automatic extraction of lexical information

dc.subject

Complex-types

dc.subject

Cascade classification

dc.subject

Word embeddings

dc.subject

Regular polysemy

dc.subject

Polysemy

dc.title

The Structure of the lexicon in the task of the automatic acquisition of lexical information

dc.type

info:eu-repo/semantics/doctoralThesis

dc.type

info:eu-repo/semantics/publishedVersion

dc.subject.udc

cat

dc.contributor.authoremail

lauren.romeo@upf.edu

dc.contributor.director

Bel Rafecas, Núria

dc.embargo.terms

cap

dc.rights.accessLevel

info:eu-repo/semantics/openAccess

dc.identifier.dl

B 29464-2015

dc.description.degree

Programa de doctorat en Traducció i Ciències del Llenguatge

Documentos

tlmr.pdf

1.621Mb PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)

Programa de Doctorat en Traducció i Ciències del Llenguatge [304]