Deep stochastic sentence generation : resources and strategies

Mille, Simon

Deep stochastic sentence generation : resources and strategies

dc.contributor

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

dc.contributor.author

Mille, Simon

dc.date.accessioned

2014-10-14T10:34:33Z

dc.date.available

2014-10-14T10:34:33Z

dc.date.issued

2014-07-25

dc.identifier.uri

http://hdl.handle.net/10803/283136

dc.description.abstract

The present Ph.D. thesis addresses the problem of deep data-driven Natural Language Generation (NLG), and in particular the role of proper corpus annotation schemata for stochastic sentence realization. The lack of multilevel corpus annotation has prevented so far the development of proper statistical NLG systems starting from abstract structures. We first detail a methodology for annotating corpora at different levels of linguistic abstraction (namely, semantic, deep-syntactic, surface-syntactic, topological, and morphological levels), and report on the actual annotation of such corpora, manually for Spanish and automatically for English. Then, using the resulting annotated data for our experiments, we train and evaluate deep stochastic NLG tools which go beyond the current state of the art, in particular thanks to the absence of rules in non-isomorphic transductions. Finally, we show that such data can also serve well other purposes such as statistical surface and deep dependency parsing.

eng

dc.description.abstract

La presente tesis aborda el problema de la generación de textos partiendo desde estructuras profundas; se examina especialmente el papel de un esquema de anotación apropiado para la generación estadística de oraciones. La falta de anotación en varios niveles ha impedido hasta ahora el desarrollo de sistemas de generación estadística desde estructuras abstractas. En primer lugar, se detalla la metodología para anotar corpus en varios niveles (representaciones semánticas, sintácticas profundas, sintácticas superficiales, topológicas y morfológicas), y se presenta su proceso de anotación, manual para el español, y automático para el inglés. Posteriormente, se usan los datos anotados para entrenar y evaluar varios generadores de textos que van más allá del estado del arte actual, en particular porque no contienen reglas para transducciones no isomórficas. Por último, se muestra que estos datos se pueden utilizar también para otros objetivos tales como el análisis sintáctico estadístico de estructuras superficiales y profundas.

spa

dc.format.extent

326 p.

dc.format.mimetype

application/pdf

dc.language.iso

eng

dc.publisher

Universitat Pompeu Fabra

dc.rights.license

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/

dc.rights.uri

http://creativecommons.org/licenses/by-nc-nd/3.0/

dc.source

TDX (Tesis Doctorals en Xarxa)

dc.subject

Corpus

dc.subject

Annotation

dc.subject

Dependency

dc.subject

Multilevel

dc.subject

Resource creation

dc.subject

Natural Language Processing

dc.subject

NLP

dc.subject

Natural Language Generation

dc.subject

NLG

dc.subject

Text generation

dc.subject

Data-driven

dc.subject

Machine Learning

dc.subject

Syntax

dc.subject

Semantics

dc.subject

Morphology

dc.subject

Morpho-syntax

dc.subject

Annotation methodology

dc.subject

Annotation criteria

dc.subject

Annotation tools

dc.subject

Graph transduction

dc.subject

Spanish

dc.subject

English

dc.subject

Parsing

dc.subject

Meaning-Text Theory

dc.subject

MTT

dc.subject

AnCora

dc.subject

Anotación

dc.subject

Dependencias

dc.subject

Multinivel

dc.subject

Creación de recursos

dc.subject

Procesamiento del Lenguaje Natural

dc.subject

PLN

dc.subject

Generación de Lenguaje Natural

dc.subject

NLG

dc.subject

Generación profunda

dc.subject

Generación de textos

dc.subject

Estadístico

dc.subject

Aprendizaje automático

dc.subject

Sintáxis

dc.subject

Semántica

dc.subject

Morfología

dc.subject

Morfo-sintáxis

dc.subject

Metodología de anotación

dc.subject

Transducción de grafos

dc.subject

Español

dc.subject

Inglés

dc.subject

Análisis sintáctico

dc.subject

Teoría Sentido-Texto

dc.subject

TST

dc.title

Deep stochastic sentence generation : resources and strategies

dc.type

info:eu-repo/semantics/doctoralThesis

dc.type

info:eu-repo/semantics/publishedVersion

dc.subject.udc

cat

dc.contributor.authoremail

simon.mille@upf.edu

dc.contributor.director

Wanner, Leo

dc.embargo.terms

cap

dc.rights.accessLevel

info:eu-repo/semantics/openAccess

dc.identifier.dl

B 23198-2014

dc.description.degree

Programa de doctorat en Tecnologies de la Informació i les Comunicacions

Documentos

tsm.pdf

3.302Mb PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)

Programa de Doctorat en Tecnologies de la Informació i les Comunicacions [394]