Neural machine translation evaluation & error analysis in a Spanish-Korean translation

dc.contributor
Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge
dc.contributor.author
Kim, Ahrii
dc.date.accessioned
2019-11-13T13:18:46Z
dc.date.available
2019-11-13T13:18:46Z
dc.date.issued
2019-10-14
dc.identifier.uri
http://hdl.handle.net/10803/667853
dc.description.abstract
From RBMT to SMT and NMT, the MT field witnessed, first, a conceptual turn —from rule-based to data-base— and now, a technological turn —from MT algorithm to ML algorithm. Now that NMT became a new state of the art, this thesis quested for evaluating its performance in a Spanish-to-Korean translation, which, for the best of our knowledge, was the first attempt in this regard. The results reported that the NMT-based Google Translate (GNMT) had about 78% of reliability. In an experiment with post-editing, the post-editing was 37% more productive in GNMT than translation from scratch. An important finding was obtained from quantitative and qualitative error analysis. It reported that only 6% of the errors detected in the dataset were a syntactic error in such a distant pair like this. The results of this thesis served as a proof of a promising future of NMT in distant pairs.
en_US
dc.description.abstract
Des de la Traducció Automàtica (TA) basada en regles a la TA estadística i la TA neuronal (TAN), el camp de la TA va presenciar, primer, un gir conceptual - des d'aproximacions basades en regles fins aproximacions basades en dades- i ara, un gir tecnològic –de l’algoritme de la TA al d'Aprenentatge Automàtic. Ara que la TAN s'ha convertit en un nou estat de l'art, busquem avaluar el seu grau de qualitat en la traducció de l'espanyol al coreà,. Aquest estudie constitueix, segons el nostre coneixement, el primer que intenta avaluar aquest parell de llengües. Els resultats informen que Google Translate, basada en la TAN té al voltant el 78% de fiabilitat. En un experiment amb postedició, la postedició és un 37% més productiva que la traducció des de zero. Apartir d'una anàlisi d'errors quantitativa i qualitativa hem pogut fer constatar que només el 6% dels errors detectats van ser de naturalesa sintàctica en un parell de llengües tan distant com aquest. Els resultats obtinguts en aquesta tesi van servir com a prova per a un futur prometedor de la TAN en parells distants.
en_US
dc.description.abstract
Desde la Traducción Automática (TA) basada en reglas a la TA estadística y la TA neuronal (TAN), el campo de la TA presenció, primero, un giro conceptual —desde aproximaciones basadas en reglas hasta aproximaciones basadas en datos— y ahora, un giro tecnológico —del algoritmo de la TA al de Aprendizaje Automático. Ahora que la TAN se ha convertido en un nuevo estado del arte, buscamos evaluar su desempeño en la traducción del español al coreano, que constituye, según nuestro conocimiento, el primer intento al respecto. Los resultados informan que Google Translate basada en la TAN tenía alrededor del 78% de fiabilidad. En un experimento con posedición, la posedición es un 37% más productiva que la traducción desde cero. Obtuvimos un hallazgo importante a partir de un análisis de errores cuantitativo y cualitativo. Informamos que solo el 6% de los errores detectados fueron sintácticos en un par de lenguas tan distante como este. Nuestros resultados sirvieron como prueba para un futuro prometedor de la TAN en pares distantes.
en_US
dc.format.extent
301 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
eng
en_US
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Neural machine translation
en_US
dc.subject
MT evaluation
en_US
dc.subject
Error analysis
en_US
dc.subject
Spanish-Korean translation
en_US
dc.subject
Traducció automàtica neuronal
en_US
dc.subject
Avaluació de traducció automàtica
en_US
dc.subject
Anàlisi d'errors
en_US
dc.subject
Traducció de l'espanyol-coreà
en_US
dc.subject
Traducción automática neuronal
en_US
dc.subject
Evaluación de traducción automática
en_US
dc.subject
Análisis de errores
en_US
dc.subject
Traducción del español-coreano
en_US
dc.title
Neural machine translation evaluation & error analysis in a Spanish-Korean translation
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
81
en_US
dc.contributor.authoremail
ahrii.kim01@estudiant.upf.edu
en_US
dc.contributor.director
Colominas, Carme
dc.embargo.terms
cap
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de doctorat en Traducció i Ciències del Llenguatge


Documents

tak.pdf

16.76Mb PDF

This item appears in the following Collection(s)