Detección y extracción de neologismos semánticos especializados: un acercamiento mediante clasificación automática de documentos y estrategias de aprendizaje profundo

dc.contributor
Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge
dc.contributor.author
Torres Rivera, Andrés
dc.date.accessioned
2019-11-20T12:14:23Z
dc.date.available
2020-04-28T01:00:16Z
dc.date.issued
2019-10-31
dc.identifier.uri
http://hdl.handle.net/10803/667928
dc.description.abstract
En el campo de la neología, se han desarrollado diferentes acercamientos metodológicos para la detección y extracción de neologismos semánticos empleando estrategias como la desambiguación semántica y el modelado de temas, pero todavía no existe una propuesta de un sistema para la detección de estas unidades. A partir de un estudio detallado sobre los supuestos teóricos necesarios para delimitar y describir los neologismos semánticos, en esta tesis proponemos el desarrollo de una aplicación para identificar y vaciar dichas unidades mediante estrategias estadísticas, de minería de datos y de aprendizaje automático. La metodología planteada se basa en el tratamiento del proceso de detección y extracción como un problema de clasificación, que consiste en analizar la concordancia de temas entre el campo semántico del significado principal de una palabra y el texto en el que se encuentra. Para constituir la arquitectura del sistema propuesto, analizamos cinco métodos de clasificación automática supervisada y tres modelos para la generación de representaciones vectoriales de palabras mediante aprendizaje profundo. Nuestro corpus de análisis está compuesto por los neologismos semánticos del ámbito de la informática pertenecientes a la base datos del Observatorio de Neologia de la Universitat Pompeu Fabra, que han sido registrados desde 1989 hasta 2015. Utilizamos este corpus para evaluar los distintos métodos que implementa el sistema: clasificación automática, extracción de palabras a partir de contextos cortos y generación de listas de palabras similares. Este primer acercamiento metodológico busca establecer un marco de referencia en materia de detección y extracción de neologismos semánticos.
en_US
dc.description.abstract
Dins del camp de la neologia, s’han dissenyat diferents aproximacions metodològics per a la detecció i extracció de neologismes semàntics amb tècniques com la desambiguació semàntica i el modelatge de temes, però encara no existeix cap proposta d’un sistema per a la detecció d’aquestes unitats. A partir d’un estudi detallat sobre els supòsits teòrics necessaris per identificar i descriure els neologismes semàntics, en aquesta tesi proposem el desenvolupament d’una aplicació per identificar i buidar aquestes unitats mitjançant estratègies estadístiques, de mineria de dades i d’aprenentatge automàtic. La metodologia que es planteja es basa en el tractament del procés de detecció i extracció com un problema de classificació, que consisteix a analitzar la concordança de temes entre el camp semàntic del significat principal d’una paraula i el text en què es troba aquesta paraula. Per constituir l’arquitectura del sistema proposat, analitzem cinc mètodes de classificació automàtica supervisada i tres models per a la generació de representacions vectorials de paraules mitjançant aprenentatge profund. El nostre corpus d’anàlisi està format pels neologismes semàntics de l'àmbit de la informàtica pertanyents a la base de dades de l’Observatori de Neologia de la Universitat Pompeu Fabra, que s’han registrat des de 1989 fins a 2015. Utilitzem aquest corpus per avaluar els diferents mètodes que implementa el sistema: classificació automàtica, extracció de paraules a partir de contextos breus i generació de llistes de paraules similars. Aquesta primera aproximació metodològica busca establir un marc de referència en matèria de detecció i extracció de neologismes semàntics.
en_US
dc.description.abstract
Dans le domaine de la néologie, différentes approches méthodologiques ont été développées pour la détection et l’extraction de néologismes sémantiques. Ces approches utilisent des stratégies telles que la désambiguïsation sémantique et la modélisation thématique, mais il n’existe aucun système complet de détection de néologismes sémantiques. Avec une étude détaillée des hypothèses théoriques nécessaires pour délimiter et décrire les néologismes sémantiques, nous proposons dans cette thèse le développement d’une application qui permet d’identifier et d’extraire ces unités à travers de méthodes statistiques, d’extraction d’information et d’apprentissage automatique. La méthodologie proposée est basée sur le traitement du processus de détection et d’extraction en tant que problème de classification. Il consiste à analyser la proximité des thèmes entre le champ sémantique de la signification principale d’un terme et son contexte. Pour la construction du système nous avons étudié cinq méthodes de classification automatique supervisée et trois modèles pour la génération de représentations vectorielles de mots par apprentissage profonde. Le corpus d’analyse est composé de néologismes sémantiques du domaine informatique appartenant à la base de données de l’Observatoire de Néologie de l’Université Pompeu Fabra, enregistrés de 1989 à 2015. Nous utilisons ce corpus pour évaluer les différentes méthodes mises en œuvre par le système : classification automatique, extraction de mots à partir de contextes courts et génération de listes de mots similaires. Cette première approche méthodologique cherche à établir un cadre de référence en termes de détection et d’extraction de néologismes sémantiques.
en_US
dc.description.abstract
In the field of neology, different methodological approaches for the detection and extraction of semantic neologisms have been developed using strategies such as word sense disambiguation and topic modeling, but there is still not a proposal for a system for the detection of these units. Beginning from a detailed study on the necessary theoretical assumptions required to delimit and describe semantic neologisms, in this thesis, we propose the development of an application to identify and extract said units using statistical, data mining and machine learning strategies. The proposed methodology is based on treating the process of detection and extraction as a classification task, which consists on analyzing the concordance of topics between the semantic field from the main meaning of a word and the text where it is found. To build the architecture of the proposed system, we analyzed five automatic classification methods and three deep learning based word embedding models. Our analysis corpus is composed of the semantic neologisms of the computer science field belonging to the database of the Observatory of Neology of the Pompeu Fabra University, which have been registered from 1989 to 2015. We used this corpus to evaluate the different methods that our system implements: automatic classification, keyword extraction from short contexts, and similarity list generation. This first methodological approach aims to establish a framework of reference in terms of detection and extraction of semantic neologisms.
en_US
dc.format.extent
164 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
spa
en_US
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Neología
en_US
dc.subject
Terminología
en_US
dc.subject
Procesamiento del lenguaje natural
en_US
dc.subject
Aprendizaje automático
en_US
dc.subject
Aprendizaje profundo
en_US
dc.subject
Neologia
en_US
dc.subject
Terminologia
en_US
dc.subject
Processament de llenguatge natural
en_US
dc.subject
Aprenentatge automàtic
en_US
dc.subject
Aprenentatge profund
en_US
dc.subject
Neology
en_US
dc.subject
Terminology
en_US
dc.subject
Natural language processing
en_US
dc.subject
Machine learning
en_US
dc.subject
Deep learning
en_US
dc.subject
Néologie
en_US
dc.subject
Terminologie
en_US
dc.subject
Traitement du langage naturel
en_US
dc.subject
Apprentissage automatique
en_US
dc.subject
Apprentissage en profondeur
en_US
dc.title
Detección y extracción de neologismos semánticos especializados: un acercamiento mediante clasificación automática de documentos y estrategias de aprendizaje profundo
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
81
en_US
dc.contributor.authoremail
andres.torres@upf.edu
en_US
dc.contributor.director
Estopà, Rosa
dc.contributor.director
Torres-Moreno, Juan-Manuel
dc.embargo.terms
6 mesos
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de doctorat en Traducció i Ciències del Llenguatge


Documents

tatr.pdf

4.852Mb PDF

Aquest element apareix en la col·lecció o col·leccions següent(s)