Traducción automática neuronal para lenguas con recursos reducidos. La evaluación de los usuarios según el principio de no inferioridad.

Autor/a

Do Campo Bayón, María

Director/a

Sánchez-Gijón, Pilar

Tutor/a

Sánchez-Gijón, Pilar

Data de defensa

2023-11-17

Pàgines

219 p.



Programa de doctorat

Universitat Autònoma de Barcelona. Programa de Doctorat en Traducció i Estudis Interculturals

Resum

La present tesi de recerca té com a objectiu desenvolupar un motor de traducció automàtica neuronal (TAN) per a la combinació de castellà i gallec, amb un enfocament especial en la comunicació digital a través de les xarxes socials. La recerca parteix de l'anàlisi dels processos habituals d'entrenament de la TAN dins de la indústria de la traducció. A partir d'aquesta anàlisi, es fonamentaran els fonaments teòrics d'aquest treball. En primer lloc, s'abordarà el multilingüisme i la seva relació amb la comunicació digital en missatges curts, on s'aprofundirà en la seva caracterització i s'analitzaran els principals reptes que planteja la traducció automàtica en aquest gènere textual específic. Posteriorment, es definirà la traducció automàtica neuronal, es descriurà el marc legal i els procediments habituals per a la creació del corpus d'entrenament i, finalment, s'analitzaran les principals mètriques d'avaluació de la qualitat de la TAN. Un cop descrit el marc teòric i els antecedents, dins del marc metodològic, es descriuen en detall els procediments duts a terme per entrenar el motor de traducció i crear el corpus d'entrenament necessari per al seu funcionament òptim. Posteriorment, es presenta l'estratègia d'avaluació de la qualitat dissenyada específicament per a aquest motor i context particular. Aquest enfocament innovador incorpora tres mètriques d'avaluació diferents: BLEU, MQM-DQF i una anàlisi de no inferioritat, amb la finalitat d'obtenir dades quantitatives i qualitatives exhaustives sobre les traduccions de piulades. L'avaluació de no inferioritat, en particular, es presenta com una aproximació innovadora en el camp de l'avaluació de la qualitat de la TAN. Per validar tant el motor com l'instrument d'anàlisi, es fa una prova pilot inicial. Els resultats i les dades obtinguts en aquesta fase pilot s'empren per millorar el motor i ampliar el corpus d'entrenament. Posteriorment, es procedeix a una avaluació més exhaustiva del motor, integrant les dades de les tres mètriques d'avaluació esmentades anteriorment. La triangulació de resultats proporciona una avaluació completa de la qualitat final del motor. Finalment, a partir de l'anàlisi de les dades recopilades, s'assoleixen els objectius plantejats i s'extrauen conclusions sòlides que recolzen les hipòtesis de partida i contribueixen al coneixement en el camp de la TAN i la seva aplicació en contextos específics de comunicació digital.


La presente tesis de investigación tiene como objetivo desarrollar un motor de traducción automática neuronal (TAN) para la combinación castellano-gallego y el ámbito de las redes sociales. La investigación parte del análisis de los procesos habituales de entrenamiento de la TAN dentro de la industria de la traducción. A partir de este análisis, se fundamentarán los pilares teóricos de este trabajo. En primer lugar, se abordará el multilingüismo y su relación con la comunicación digital en mensajes cortos, donde se profundizará en su caracterización y se analizarán los principales desafíos que plantea la traducción automática en este género textual. Posteriormente, se definirá la TAN, se describirá el marco legal y los procedimientos habituales para la creación del corpus de entrenamiento y, finalmente, se analizarán las principales métricas de evaluación de la calidad de la TAN. Una vez descrito el marco teórico y los antecedentes, dentro del marco metodológico, se describen en detalle los procedimientos llevados a cabo para entrenar el motor de traducción y crear el corpus de entrenamiento necesario para su funcionamiento óptimo. Posteriormente, se presenta la estrategia de evaluación de la calidad diseñada específicamente para este motor y contexto particular. Este enfoque novedoso incorpora tres métricas de evaluación distintas: BLEU, MQM-DQF y un análisis de no inferioridad, con el propósito de obtener datos cuantitativos y cualitativos exhaustivos sobre las traducciones de tuits. La evaluación de no inferioridad, en particular, se presenta como una aproximación innovadora en el campo de la evaluación de la calidad de la TAN. Para validar tanto el motor como el instrumento de análisis, se realiza una prueba piloto inicial. Los resultados y datos obtenidos en esta fase piloto se emplean para mejorar el motor y ampliar el corpus de entrenamiento. Posteriormente, se procede a una evaluación más exhaustiva del motor, integrando los datos de las tres métricas de evaluación mencionadas anteriormente. La triangulación de resultados proporciona una evaluación completa de la calidad final del motor. Finalmente, a partir del análisis de los datos recopilados, se alcanzan los objetivos planteados y se extraen conclusiones sólidas que respaldan las hipótesis de partida y contribuyen al conocimiento en el campo de la TAN y su aplicación en contextos específicos de comunicación digital.


The present research thesis aims to develop a neural machine translation (NMT) engine for the Spanish-Galician language pair within the domain of social media communication. The research commences with an analysis of the typical NMT training processes employed within the translation industry, laying the foundational theoretical framework for this work. Firstly, the thesis delves into the realm of multilingualism and its relationship with digital communication through short messages, providing an in-depth characterization and addressing the primary challenges posed by automatic translation within this textual genre. Subsequently, it defines neural machine translation, describes the legal framework, and outlines the standard procedures for creating the training corpus. Additionally, it scrutinizes the principal metrics used to assess the quality of NMT. Once the theoretical framework and antecedents have been elucidated, the methodological section offers a comprehensive description of the procedures used to train the translation engine and construct the necessary training corpus for its optimal functioning. Furthermore, it introduces the quality assessment strategy designed specifically for this engine and context. This innovative approach incorporates three distinct evaluation metrics: BLEU, MQM-DQF, and a non-inferiority analysis, with the aim of obtaining comprehensive quantitative and qualitative data on tweet translations. The non-inferiority assessment emerges as a pioneering approach in the field of NMT quality assessment. To validate both the engine and the analytical instrument, an initial pilot test is conducted. The results and data acquired in this pilot phase are utilized to enhance the engine and expand the training corpus. Subsequently, a more exhaustive evaluation of the engine is performed, integrating the data from the three evaluation metrics. The triangulation of results yields a comprehensive assessment of the final quality of the engine. Finally, based on the analysis of the collected data, the established objectives are met, and robust conclusions are drawn that support the initial hypotheses. This research contributes to the field of NMT and its application in specific contexts of digital communication.

Paraules clau

Llengua amb recursos reduïts; Low-resource language; Lengua con recursos reducidos; Lingua con recursos reducidos; Traducció automàtica neuronal; Neural machine translation; Traducción automática neuronal; Tradución automática neuronal; Avaluació de no inferioritat; Non-inferiority evaluation; Evaluación de no inferioridad; Non inferioridade

Matèries

81 - Lingüística i llengües

Àrea de coneixement

Ciències Socials

Documents

mdcb1de1.pdf

5.420Mb

 

Drets

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/

Aquest element apareix en la col·lecció o col·leccions següent(s)