dc.contributor
Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge
dc.contributor.author
Martínez Alonso, Héctor
dc.date.accessioned
2014-06-16T12:13:43Z
dc.date.available
2014-06-16T12:13:43Z
dc.date.issued
2013-12-19
dc.identifier.uri
http://hdl.handle.net/10803/145324
dc.description.abstract
Words that belong to a semantic type, like location, can metonymically behave
as a member of another semantic type, like organization. This phenomenon
is known as regular polysemy.
In Pustejovsky's (1995) Generative Lexicon, some cases of regular polysemy
are grouped in a complex semantic class called a dot type. For instance, the
sense alternation mentioned above is the location organization dot type.
Other dot types are for instance animal meat or container content.
We refer to the usages of dot-type words that are potentially both metonymic
and literal as underspeci ed. Regular polysemy has received a lot of attention
from the theory of lexical semantics and from computational linguistics. However,
there is no consensus on how to represent the sense of underspeci ed
examples at the token level, namely when annotating or disambiguating senses
of dot types.
This leads us to the main research question of the dissertation: Does sense
underspeci cation justify incorporating a third sense into our sense inventories
when dealing with dot types at the token level, thereby treating the underspeci
ed sense as independent from the literal and metonymic?
We have conducted an analysis in English, Danish and Spanish on the possibility
to annotate underspeci ed senses by humans. If humans cannot consistently
annotate the underspeci ed sense, its applicability to NLP tasks is to be
called into question.
Later on, we have tried to replicate the human judgments by means of unsupervised
and semisupervised sense prediction. Achieving an NLP method that
can reproduce the human judgments for the underspeci ed sense would be suf-
cient to postulate the inclusion of the underspeci ed in our sense inventories.
The human annotation task has yielded results that indicate that the kind
of annotator (volunteer vs. crowdsourced from Amazon Mechanical Turk) is
a decisive factor in the recognizability of the underspeci ed sense. This sense
distinction is too nuanced to be recognized using crowdsourced annotations.
The automatic sense-prediction systems have been unable to nd empiric
evidence for the underspeci ed sense, even though the semisupervised system
recognizes the literal and metonymic senses with good performance.
In this light, we propose an alternative representation for the sense alternation
of dot-type words where literal and metonymic are poles in a continuum,
instead of discrete categories.
eng
dc.description.abstract
Las palabras de una clase sem antica como lugar pueden comportarse meton -
micamente como miembros de otra clase sem antica, como organizaci on. Este
fen omeno se denomina polisemia regular.
En el Generative Lexicon de Pustejovsky (1995), algunos casos de polisemia
regular se encuentran agrupados en una clase sem antica compleja llamada dot
type. Por ejemplo, la alternaci on de sentidos anterior es el dot type lugar orga-
nizaci on. Otros ejemplos de dot type son animal carne or contenedor con-
tenido.
Llamamos subespeci cados a los usos de palabras pertenecientes a un dot
type que son potentialmente literales y met onimicos. La polisemia regular ha
recibido mucha atenci on desde la teor a en sem antica l exica y desde la ling u stica
computacional. Sin embargo, no existe un consenso sobre c omo representar el
sentido de los ejemplos subespeci cados al nivel de token, es decir, cuando se
anotan o disambiguan sentidos de palabras de dot types.
Esto nos lleva a la principal pregunta de esta tesis: >Justi ca la subespeci-
caci on la incorporaci on de un tercer sentido a nuestros inventarios de sentidos
cuando tratamos con dot types a nivel de token, tratando de este modo el el
sentido subespeci cado como independiente de los sentidos met onimico y literal?
Hemos realizado un an alisi en ingl es, dan es y espa~nol sobre la posibilidad
de anotar sentidos subespeci cados usando informantes. Si los humanos no
pueden annotar el sentido subespeci cado de forma consistente, la aplicabilidad
del mismo en tareas computacionales ha de ser puesta en tela de juicio.
Posteriormente hemos tratado de replicar los juicios humanos usando aprendizaje
autom atico. Obtener un m etodo computacional que reproduzca los juicios
humanos para el sentido subespeci cado ser a su ciente para incluirlo en los inventarios
de sentidos para las tareas de anotaci on.
La anotaci on humana ha producido resultados que indican que el tipo de
anotador (voluntario o crowdsourced mediante Amazon Mechanical Turk) es un
factor decisivo a la hora de reconocer el sentido subespeci cado. Esta diferenciaci
on de sentidos requiere demasiados matices de interpretaci on como para
poder ser anotada usando Mechanical Turk.
Los sistemas de predicci on autom atica de sentidos han sido incapaces de
identi car evidencia emp rica su ciente para el sentido subespeci cado, a pesar
de que la tarea de reconocimiento semisupervisado reconoce los sentidos literal
y meton mico de forma satisfactoria.
Finalmente, propones una representaci on alternativa para la representaci on
de sentidos de las palabras de dot types en la que literal y met onimico son polos
en un cont nuo en lugar de categor as discretas.
spa
dc.format.extent
235 p.
cat
dc.format.mimetype
application/pdf
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Tractament automàtic de la parla
cat
dc.title
Annotation of regular polysemy: an empirical assessment of the underspecified sense
cat
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.authoremail
hector.martinez@upf.edu
cat
dc.contributor.director
Sandford Pedersen, Bolette
dc.contributor.director
Bel Rafecas, Núria
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.identifier.dl
B 15442-2014
cat
dc.description.degree
Programa de doctorat en Traducció i Ciències del Llenguatge