Using annotated discourse information of a RST Spanish-Chinese treebank for translation and language learning tasks

dc.contributor
Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge
dc.contributor.author
Cao, Shuyuan
dc.date.accessioned
2018-12-19T11:51:25Z
dc.date.available
2019-05-08T01:00:27Z
dc.date.issued
2018-11-09
dc.identifier.uri
http://hdl.handle.net/10803/664419
dc.description.abstract
As one of the essential elements for Natural Language Processing (NLP), discourse has called much attention during recent years. Many studies explore the role of how discourse elements affect in different NLP research areas, such as parsing, sentiment analysis, machine translation evaluation, among others. Besides, along with the discourse analysis development, different treebanks annotated with discourse information for different languages form a great contribution for advancing the NLP researches. Spanish and Chinese are two of the most spoken languages in the world; the language pair occupy an important position for NLP studies. Therefore, this study aims to make a discourse analysis between the two languages in terms of annotating discourse similarities and differences under the theoretical framework of Rhetorical Structure Theory (RST) by Mann and Thompson (1988). Our goal, which is the main objective of this study, based on the annotation results, the study seeks to develop a protocol that includes recommendations for Spanish-Chinese translation. In addition, with a globalized context in the current society, the communication between Spanish and Chinese is more and more intensive. Therefore, another intention of our study is to develop some resources for the language learning between Spanish-Chinese. To achieve our goals, for the development of the protocol, we firstly establish a Spanish-Chinese parallel corpus and annotate the discourse information of the entire corpus. Then we evaluate the annotation results following a qualitative method to guarantee the high quality of the annotation results. Lastly, we conclude the discourse similarities and differences to make the protocol. Regarding the language learning between the two languages, we fully use the manually annotated discourse markers (DM) to develop a question-answering module. In recent years, there have been few contrastive works of Spanish and Chinese for discourse analysis. Therefore, this PhD study aims to partially fill a knowledge gap in the study between Spanish and Chinese.
dc.description.abstract
Como uno de los elementos esenciales para el Procesamiento del Lenguaje Natural (PLN), el discurso ha llamado mucho la atención durante los últimos años. Diversos estudios exploran el papel de cómo los elementos del discurso afectan en diferentes áreas de investigación del PLN, por ejemplo, el análisis sintáctico, el análisis de sentimientos, la evaluación de la traducción automática, entre otros. Además, junto con el desarrollo del análisis del discurso, diferentes treebanks anotados con infomación discursiva para diferentes idiomas forman una gran contribución para el avance de las investigaciones del PLN. El español y el chino son dos de los idiomas más hablados en el mundo, ambos ocupan un lugar importante para los estudios de PNL. Por lo tanto, este estudio pretende hacer un análisis del discurso entre las dos lenguas en términos de anotar similitudes y diferencias del discurso bajo el marco teórico Teoría de la Estructura Retórica (RST) de Mann y Thompson (1988). El objetivo principal de este estudio, basado en los resultados de la anotación, busca desarrollar un protocolo que incluya recomendaciones para la traducción entre el español y el chino. Además, en un contexto globalizado en la sociedad actual, la comunicación entre españoles y chinos es cada vez más intensa. Por lo tanto, la otra intención de nuestro estudio es desarrollar algunos recursos para el aprendizaje de idiomas entre los españoles y los chinos. Para lograr nuestros objetivos de desarrollo del protocolo, primero establecemos un corpus paralelo español-chino y anotamos la información discursiva de todo el corpus. Luego evaluamos los resultados de la anotación siguiendo un método cualitativo para garantizar la alta calidad de los resultados de anotación. Por último, concluimos las similitudes y diferencias del discurso para hacer este protocolo. Con respecto al aprendizaje de lenguas entre el español y el chino, utilizamos completamente los marcadores discursivos (MD) anotados manualmente para desarrollar un módulo de preguntas y respuestas. En los últimos años, han habido pocos trabajos que comparen el español y el chino. Por lo tanto, este estudio de doctorado tiene como objetivo llenar parcialmente una brecha de conocimiento entre el estudio de las lenguas española y china.
dc.format.extent
193 p.
dc.format.mimetype
application/pdf
dc.language.iso
eng
dc.publisher
Universitat Pompeu Fabra
dc.relation
Research data from the thesis available.
dc.relation.uri
http://ixa2.si.ehu.es/rst/zh/search.php
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Discourse analysis
dc.subject
RST
dc.subject
Corpus
dc.subject
Translation
dc.subject
Language learning
dc.subject
Análisis del discurso
dc.subject
Traducción
dc.subject
Aprendizaje de idiomas
dc.title
Using annotated discourse information of a RST Spanish-Chinese treebank for translation and language learning tasks
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
81
dc.contributor.authoremail
shuyuan.cao@upf.edu
dc.contributor.director
da Cunha Fanego, Iria
dc.contributor.director
Iruskieta, Mikel
dc.embargo.terms
6 mesos
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de doctorat en Traducció i Ciències del Llenguatge


Documents

tsc.pdf

3.433Mb PDF

Aquest element apareix en la col·lecció o col·leccions següent(s)