Annotation of regular polysemy: an empirical assessment of the underspecified sense

dc.contributor
Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge
dc.contributor.author
Martínez Alonso, Héctor
dc.date.accessioned
2014-06-16T12:13:43Z
dc.date.available
2014-06-16T12:13:43Z
dc.date.issued
2013-12-19
dc.identifier.uri
http://hdl.handle.net/10803/145324
dc.description.abstract
Words that belong to a semantic type, like location, can metonymically behave as a member of another semantic type, like organization. This phenomenon is known as regular polysemy. In Pustejovsky's (1995) Generative Lexicon, some cases of regular polysemy are grouped in a complex semantic class called a dot type. For instance, the sense alternation mentioned above is the location organization dot type. Other dot types are for instance animal meat or container content. We refer to the usages of dot-type words that are potentially both metonymic and literal as underspeci ed. Regular polysemy has received a lot of attention from the theory of lexical semantics and from computational linguistics. However, there is no consensus on how to represent the sense of underspeci ed examples at the token level, namely when annotating or disambiguating senses of dot types. This leads us to the main research question of the dissertation: Does sense underspeci cation justify incorporating a third sense into our sense inventories when dealing with dot types at the token level, thereby treating the underspeci ed sense as independent from the literal and metonymic? We have conducted an analysis in English, Danish and Spanish on the possibility to annotate underspeci ed senses by humans. If humans cannot consistently annotate the underspeci ed sense, its applicability to NLP tasks is to be called into question. Later on, we have tried to replicate the human judgments by means of unsupervised and semisupervised sense prediction. Achieving an NLP method that can reproduce the human judgments for the underspeci ed sense would be suf- cient to postulate the inclusion of the underspeci ed in our sense inventories. The human annotation task has yielded results that indicate that the kind of annotator (volunteer vs. crowdsourced from Amazon Mechanical Turk) is a decisive factor in the recognizability of the underspeci ed sense. This sense distinction is too nuanced to be recognized using crowdsourced annotations. The automatic sense-prediction systems have been unable to nd empiric evidence for the underspeci ed sense, even though the semisupervised system recognizes the literal and metonymic senses with good performance. In this light, we propose an alternative representation for the sense alternation of dot-type words where literal and metonymic are poles in a continuum, instead of discrete categories.
eng
dc.description.abstract
Las palabras de una clase sem antica como lugar pueden comportarse meton - micamente como miembros de otra clase sem antica, como organizaci on. Este fen omeno se denomina polisemia regular. En el Generative Lexicon de Pustejovsky (1995), algunos casos de polisemia regular se encuentran agrupados en una clase sem antica compleja llamada dot type. Por ejemplo, la alternaci on de sentidos anterior es el dot type lugar orga- nizaci on. Otros ejemplos de dot type son animal carne or contenedor con- tenido. Llamamos subespeci cados a los usos de palabras pertenecientes a un dot type que son potentialmente literales y met onimicos. La polisemia regular ha recibido mucha atenci on desde la teor a en sem antica l exica y desde la ling u stica computacional. Sin embargo, no existe un consenso sobre c omo representar el sentido de los ejemplos subespeci cados al nivel de token, es decir, cuando se anotan o disambiguan sentidos de palabras de dot types. Esto nos lleva a la principal pregunta de esta tesis: >Justi ca la subespeci- caci on la incorporaci on de un tercer sentido a nuestros inventarios de sentidos cuando tratamos con dot types a nivel de token, tratando de este modo el el sentido subespeci cado como independiente de los sentidos met onimico y literal? Hemos realizado un an alisi en ingl es, dan es y espa~nol sobre la posibilidad de anotar sentidos subespeci cados usando informantes. Si los humanos no pueden annotar el sentido subespeci cado de forma consistente, la aplicabilidad del mismo en tareas computacionales ha de ser puesta en tela de juicio. Posteriormente hemos tratado de replicar los juicios humanos usando aprendizaje autom atico. Obtener un m etodo computacional que reproduzca los juicios humanos para el sentido subespeci cado ser a su ciente para incluirlo en los inventarios de sentidos para las tareas de anotaci on. La anotaci on humana ha producido resultados que indican que el tipo de anotador (voluntario o crowdsourced mediante Amazon Mechanical Turk) es un factor decisivo a la hora de reconocer el sentido subespeci cado. Esta diferenciaci on de sentidos requiere demasiados matices de interpretaci on como para poder ser anotada usando Mechanical Turk. Los sistemas de predicci on autom atica de sentidos han sido incapaces de identi car evidencia emp rica su ciente para el sentido subespeci cado, a pesar de que la tarea de reconocimiento semisupervisado reconoce los sentidos literal y meton mico de forma satisfactoria. Finalmente, propones una representaci on alternativa para la representaci on de sentidos de las palabras de dot types en la que literal y met onimico son polos en un cont nuo en lugar de categor as discretas.
spa
dc.format.extent
235 p.
cat
dc.format.mimetype
application/pdf
dc.language.iso
eng
cat
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Polisèmia
cat
dc.subject
Tractament automàtic de la parla
cat
dc.title
Annotation of regular polysemy: an empirical assessment of the underspecified sense
cat
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
81
cat
dc.contributor.authoremail
hector.martinez@upf.edu
cat
dc.contributor.director
Sandford Pedersen, Bolette
dc.contributor.director
Bel Rafecas, Núria
dc.embargo.terms
cap
cat
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.identifier.dl
B 15442-2014
cat
dc.description.degree
Programa de doctorat en Traducció i Ciències del Llenguatge


Documents

thma.pdf

2.999Mb PDF

Aquest element apareix en la col·lecció o col·leccions següent(s)