Deep stochastic sentence generation : resources and strategies

dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Mille, Simon
dc.date.accessioned
2014-10-14T10:34:33Z
dc.date.available
2014-10-14T10:34:33Z
dc.date.issued
2014-07-25
dc.identifier.uri
http://hdl.handle.net/10803/283136
dc.description.abstract
The present Ph.D. thesis addresses the problem of deep data-driven Natural Language Generation (NLG), and in particular the role of proper corpus annotation schemata for stochastic sentence realization. The lack of multilevel corpus annotation has prevented so far the development of proper statistical NLG systems starting from abstract structures. We first detail a methodology for annotating corpora at different levels of linguistic abstraction (namely, semantic, deep-syntactic, surface-syntactic, topological, and morphological levels), and report on the actual annotation of such corpora, manually for Spanish and automatically for English. Then, using the resulting annotated data for our experiments, we train and evaluate deep stochastic NLG tools which go beyond the current state of the art, in particular thanks to the absence of rules in non-isomorphic transductions. Finally, we show that such data can also serve well other purposes such as statistical surface and deep dependency parsing.
eng
dc.description.abstract
La presente tesis aborda el problema de la generación de textos partiendo desde estructuras profundas; se examina especialmente el papel de un esquema de anotación apropiado para la generación estadística de oraciones. La falta de anotación en varios niveles ha impedido hasta ahora el desarrollo de sistemas de generación estadística desde estructuras abstractas. En primer lugar, se detalla la metodología para anotar corpus en varios niveles (representaciones semánticas, sintácticas profundas, sintácticas superficiales, topológicas y morfológicas), y se presenta su proceso de anotación, manual para el español, y automático para el inglés. Posteriormente, se usan los datos anotados para entrenar y evaluar varios generadores de textos que van más allá del estado del arte actual, en particular porque no contienen reglas para transducciones no isomórficas. Por último, se muestra que estos datos se pueden utilizar también para otros objetivos tales como el análisis sintáctico estadístico de estructuras superficiales y profundas.
spa
dc.format.extent
326 p.
dc.format.mimetype
application/pdf
dc.language.iso
eng
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/3.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Corpus
dc.subject
Annotation
dc.subject
Dependency
dc.subject
Multilevel
dc.subject
Resource creation
dc.subject
Natural Language Processing
dc.subject
NLP
dc.subject
Natural Language Generation
dc.subject
NLG
dc.subject
Text generation
dc.subject
Data-driven
dc.subject
Machine Learning
dc.subject
Syntax
dc.subject
Semantics
dc.subject
Morphology
dc.subject
Morpho-syntax
dc.subject
Annotation methodology
dc.subject
Annotation criteria
dc.subject
Annotation tools
dc.subject
Graph transduction
dc.subject
Spanish
dc.subject
English
dc.subject
Parsing
dc.subject
Meaning-Text Theory
dc.subject
MTT
dc.subject
AnCora
dc.subject
Anotación
dc.subject
Dependencias
dc.subject
Multinivel
dc.subject
Creación de recursos
dc.subject
Procesamiento del Lenguaje Natural
dc.subject
PLN
dc.subject
Generación de Lenguaje Natural
dc.subject
NLG
dc.subject
Generación profunda
dc.subject
Generación de textos
dc.subject
Estadístico
dc.subject
Aprendizaje automático
dc.subject
Sintáxis
dc.subject
Semántica
dc.subject
Morfología
dc.subject
Morfo-sintáxis
dc.subject
Metodología de anotación
dc.subject
Transducción de grafos
dc.subject
Español
dc.subject
Inglés
dc.subject
Análisis sintáctico
dc.subject
Teoría Sentido-Texto
dc.subject
TST
dc.title
Deep stochastic sentence generation : resources and strategies
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
62
cat
dc.contributor.authoremail
simon.mille@upf.edu
dc.contributor.director
Wanner, Leo
dc.embargo.terms
cap
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.identifier.dl
B 23198-2014
dc.description.degree
Programa de doctorat en Tecnologies de la Informació i les Comunicacions


Documents

tsm.pdf

3.302Mb PDF

This item appears in the following Collection(s)