Annotation of regular polysemy: an empirical assessment of the underspecified sense

Author

Martínez Alonso, Héctor

Director

Sandford Pedersen, Bolette

Bel Rafecas, Núria

Date of defense

2013-12-19

Legal Deposit

B 15442-2014

Pages

235 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge

Doctorate programs

Programa de doctorat en Traducció i Ciències del Llenguatge

Abstract

Words that belong to a semantic type, like location, can metonymically behave as a member of another semantic type, like organization. This phenomenon is known as regular polysemy. In Pustejovsky's (1995) Generative Lexicon, some cases of regular polysemy are grouped in a complex semantic class called a dot type. For instance, the sense alternation mentioned above is the location organization dot type. Other dot types are for instance animal meat or container content. We refer to the usages of dot-type words that are potentially both metonymic and literal as underspeci ed. Regular polysemy has received a lot of attention from the theory of lexical semantics and from computational linguistics. However, there is no consensus on how to represent the sense of underspeci ed examples at the token level, namely when annotating or disambiguating senses of dot types. This leads us to the main research question of the dissertation: Does sense underspeci cation justify incorporating a third sense into our sense inventories when dealing with dot types at the token level, thereby treating the underspeci ed sense as independent from the literal and metonymic? We have conducted an analysis in English, Danish and Spanish on the possibility to annotate underspeci ed senses by humans. If humans cannot consistently annotate the underspeci ed sense, its applicability to NLP tasks is to be called into question. Later on, we have tried to replicate the human judgments by means of unsupervised and semisupervised sense prediction. Achieving an NLP method that can reproduce the human judgments for the underspeci ed sense would be suf- cient to postulate the inclusion of the underspeci ed in our sense inventories. The human annotation task has yielded results that indicate that the kind of annotator (volunteer vs. crowdsourced from Amazon Mechanical Turk) is a decisive factor in the recognizability of the underspeci ed sense. This sense distinction is too nuanced to be recognized using crowdsourced annotations. The automatic sense-prediction systems have been unable to nd empiric evidence for the underspeci ed sense, even though the semisupervised system recognizes the literal and metonymic senses with good performance. In this light, we propose an alternative representation for the sense alternation of dot-type words where literal and metonymic are poles in a continuum, instead of discrete categories.


Las palabras de una clase sem antica como lugar pueden comportarse meton - micamente como miembros de otra clase sem antica, como organizaci on. Este fen omeno se denomina polisemia regular. En el Generative Lexicon de Pustejovsky (1995), algunos casos de polisemia regular se encuentran agrupados en una clase sem antica compleja llamada dot type. Por ejemplo, la alternaci on de sentidos anterior es el dot type lugar orga- nizaci on. Otros ejemplos de dot type son animal carne or contenedor con- tenido. Llamamos subespeci cados a los usos de palabras pertenecientes a un dot type que son potentialmente literales y met onimicos. La polisemia regular ha recibido mucha atenci on desde la teor a en sem antica l exica y desde la ling u stica computacional. Sin embargo, no existe un consenso sobre c omo representar el sentido de los ejemplos subespeci cados al nivel de token, es decir, cuando se anotan o disambiguan sentidos de palabras de dot types. Esto nos lleva a la principal pregunta de esta tesis: >Justi ca la subespeci- caci on la incorporaci on de un tercer sentido a nuestros inventarios de sentidos cuando tratamos con dot types a nivel de token, tratando de este modo el el sentido subespeci cado como independiente de los sentidos met onimico y literal? Hemos realizado un an alisi en ingl es, dan es y espa~nol sobre la posibilidad de anotar sentidos subespeci cados usando informantes. Si los humanos no pueden annotar el sentido subespeci cado de forma consistente, la aplicabilidad del mismo en tareas computacionales ha de ser puesta en tela de juicio. Posteriormente hemos tratado de replicar los juicios humanos usando aprendizaje autom atico. Obtener un m etodo computacional que reproduzca los juicios humanos para el sentido subespeci cado ser a su ciente para incluirlo en los inventarios de sentidos para las tareas de anotaci on. La anotaci on humana ha producido resultados que indican que el tipo de anotador (voluntario o crowdsourced mediante Amazon Mechanical Turk) es un factor decisivo a la hora de reconocer el sentido subespeci cado. Esta diferenciaci on de sentidos requiere demasiados matices de interpretaci on como para poder ser anotada usando Mechanical Turk. Los sistemas de predicci on autom atica de sentidos han sido incapaces de identi car evidencia emp rica su ciente para el sentido subespeci cado, a pesar de que la tarea de reconocimiento semisupervisado reconoce los sentidos literal y meton mico de forma satisfactoria. Finalmente, propones una representaci on alternativa para la representaci on de sentidos de las palabras de dot types en la que literal y met onimico son polos en un cont nuo en lugar de categor as discretas.

Keywords

Polisèmia; Tractament automàtic de la parla

Subjects

81 - Linguistics and languages

Documents

thma.pdf

2.999Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)