Post-editing effort and linguistically motivated evaluation of machine translation

Álvarez Vidal, Sergi

Post-editing effort and linguistically motivated evaluation of machine translation

dc.contributor

Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge

dc.contributor.author

Álvarez Vidal, Sergi

dc.date.accessioned

2021-11-03T13:14:48Z

dc.date.available

2021-11-03T13:14:48Z

dc.date.issued

2021-09-28

dc.identifier.uri

http://hdl.handle.net/10803/672723

dc.description.abstract

The recent improvements in neural MT (NMT) have driven a shift from statistical MT (SMT) to NMT, which has propelled the use of post-editing (PE) in translation workflows. However, many professional translators state that if the quality of the MT output is not good enough, they delete the remaining segments and translate everything from scratch. The problem is that usual automatic measurements do not always indicate the quality of theMT output, especially with high quality outputs, and there is still no clear correlation between PE effort and productivity scores. We combine quantitative and qualitative methods to study some of the usual automatic metrics used to evaluate the quality of MT output, and compare them to measures of post-editing effort. Then, we study in detail different direct and indirect measures of effort in order to establish a correlation among them. We complement this study with the analysis of translators’ perceptions of the task. Finally, we conduct a fine-grained analysis of MT errors based on postediting corrections and suggest an error-based approach to evaluate raw MT output which includes the use of challenge sets.

en_US

dc.description.abstract

Les recents millores en traducció automàtica neuronal (TAN) han provocat un canvi de la traducció automàtica estadística (TAS) a la TAN, que ha incrementat l’ús de la postedició en els fluxos de treball industrials. Tanmateix, molts traductors professionals afirmen que si la qualitat de la TA no és prou bona, eliminen tot el segment i el tradueixen de cap i de nou. El problema és que les mesures automàtiques habituals no sempre indiquen la qualitat de la TA, especialment quan aquesta és bona, i no hi ha una correlació directa entre l’esforç de postedició i les mesures de productivitat. Combinem mètodes quantitatius i qualitatius per estudiar algunes de les mesures automàtiques més habituals utilitzades per evaluar la qualitat de la TA, i les comparem amb les mesures de l’esforç de postedició. A continuació, estudiem en detall diferent mesures directes i indirectes d’esforç per establir-hi una correlació. Complementem aquest estudi amb l’anàlisi de les percepcions dels traductors que duen a terme aquesta tasca. Finalment, fem una anàlisis detallada dels errors de TA a partir de les correccions fetes en la postedició i proposem un enfocament basat en errors per evaluar la TA que inclou l’ús d’un conjunt de frases de prova.

en_US

dc.format.extent

182 p.

en_US

dc.format.mimetype

application/pdf

dc.language.iso

eng

en_US

dc.publisher

Universitat Pompeu Fabra

dc.rights.license

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

dc.source

TDX (Tesis Doctorals en Xarxa)

dc.subject

Neural MT (NMT)

en_US

dc.subject

Traducció automàtica neuronal (TAN)

en_US

dc.title

Post-editing effort and linguistically motivated evaluation of machine translation

en_US

dc.type

info:eu-repo/semantics/doctoralThesis

dc.type

info:eu-repo/semantics/publishedVersion

dc.subject.udc

en_US

dc.contributor.authoremail

salvarezvidal@gmail.com

en_US

dc.contributor.director

Oliver, Antoni

dc.contributor.director

Badia i Cardús, Antoni

dc.embargo.terms

cap

en_US

dc.rights.accessLevel

info:eu-repo/semantics/openAccess

dc.description.degree

Programa de doctorat en Traducció i Ciències del Llenguatge

Documents

tsav.pdf

1.419Mb PDF

Aquest element apareix en la col·lecció o col·leccions següent(s)

Programa de Doctorat en Traducció i Ciències del Llenguatge [304]