Estratègies estadístiques aplicades a l'extracció automàtica de terminologia

Author

Vàzquez Garcia, Mercè

Director

Oliver, Antoni

Date of defense

2014-07-10

Legal Deposit

B 23188-2014

Pages

248 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge

Doctorate programs

Programa de doctorat en Traducció i Ciències del Llenguatge

Abstract

 La terminologia és present en totes les àrees de coneixement. Amb l'ús de la tecnologia en els diferents àmbits de la societat, la creació i difusió de nous termes és molt ràpida i efectiva. En les darreres dècades s'han desenvolupat mètodes d'extracció automàtica de termes basats en anàlisi lingüística, estratègies estadístiques i una combinació de les dues modalitats per a facilitar el buidatge manual d'aquestes unitats, però aquests mètodes tendeixen a extreure un alt nombre de candidats a terme, i aquest fet dificulta la validació manual dels candidats. En aquesta tesi hem dissenyat un algorisme que aprofita els termes presents en un àmbit d'especialitat per a detectar-ne de nous (mètode token slot recognition) i fa ús de mesures d'associació lèxica per a poder resoldre aquesta limitació. El treball presenta el nivell de rendibilitat que ofereix la combinació d'estratègies estadístiques analitzades. Hem observat que el mètode token slot recognition extreu els candidats que tenen més probabilitat de ser terminològics i té capacitat per a processar corpus en diferents llengües i àmbits d'especialitat. La nostra recerca també confirma que les mesures d'associació lèxica situen els termes en les posicions inicials d'una llista de candidats i, en conseqüència, faciliten la tasca de validació manual final dels candidats. Com a conclusió, la combinació d'estratègies analitzades ofereix flexibilitat a l'hora d'identificar i validar els termes presents en corpus d'especialitat, fet que permet plantejar la seva integració en una eina d'extracció de terminologia.


 Terminology is found in all areas of knowledge. Due to the use of technology in the different ambits of society, new terms are being created and distributed very quickly and efficiently. Over recent decades, automatic term extraction methods have been developed based on linguistic analysis, statistical strategies and a combination of the two to aid manual extraction. However, these automatic methods tend to produce large numbers of term candidates, which makes manual candidate validation tasks more difficult. This thesis presents an algorithm that uses the terms from a specialist area to detect new terms (token slot recognition method) and lexical association measures to overcome these limitations. It also shows the level of performance offered by the combination of statistical strategies analysed. The token slot recognition method extracts candidates that are more likely to be terms and is able to process corpora in different languages and specialist areas. The research also confirms that lexical association measures place terms in the top positions in lists of candidates and, as a result, aid the final manual candidate validation tasks. In conclusion, the combination of statistical strategies analysed offers flexibility when identifying and validating the terms present in a specialist corpus, which raises the possibility of integrating them into a term extraction tool.


 La terminología se encuentra presente en todas las áreas de conocimiento. Con el uso de la tecnología en los diferentes ámbitos de la sociedad, la creación y difusión de nuevos términos es muy rápida y efectiva. En las últimas décadas se han desarrollado métodos de extracción automática de termas basados en análisis lingüístico, estrategias estadísticas y una combinación de las dos modalidades para facilitar el vaciado manual de estas unidades, pero estos métodos tienden a extraer un alto número de candidatos a término, y este hecho dificulta la validación manual de los candidatos. En esta tesis hemos diseñado un algoritmo que aprovecha los términos presentes en un ámbito de especialidad para detectar nuevos términos (método token slot recognition) y hace uso de medidas de asociación léxica para poder resolver esta limitación. El trabajo presenta el nivel de productividad que ofrece la combinación de estrategias estadísticas analizadas. Hemos observado que el método token slot recognition extrae los candidatos que tienen más probabilidad de ser terminológicos y tiene capacidad para procesar corpus en diferentes lenguas y ámbitos de especialidad. Nuestra investigación también confirma que las medidas de asociación léxica sitúan los términos en las posiciones iniciales de una lista de candidatos y, en consecuencia, facilitan la tarea de validación manual final de los candidatos. Como conclusión, la combinación de estrategias analizadas ofrece flexibilidad a la hora de identificar y validar los términos presentes en corpus de especialidad, lo que permite plantear su integración en una herramienta de extracción de terminología.

Keywords

Terminologia; Informàtica; Mètodes estadístics; Terminology; Computing; Statistical methods; Terminología; Informática; Métodos estadísticos

Subjects

81 - Linguistics and languages

Documents

tmv.pdf

1.553Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/3.0/es/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/3.0/es/

This item appears in the following Collection(s)