Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge
Programa de doctorat en Traducció i Ciències del Llenguatge
In this thesis, I tackle the ability of deep neural networks to represent entities, and I assess the extent to which this feature impacts tasks involving entities. I consider two standard architectures, LSTM and Transformer, both for analysis and as the main components of the developed models. First, I investigate the behaviour of different model components in a controlled setup, and then I probe the referential information encoded in these models when they are trained on language modelling. Using the insights from the analysis experiments, I develop a set of models and I test their performance on the task of character identification. I show that, while the models achieve good results on this task, the entity representations developed by them are not at the same level. Through different analyses conducted on these models, I investigate how the task, the models and the data impact this difference between task performance and entity representations.
En aquesta tesi, abordo la capacitat de les xarxes neuronals profundes per representar entitats, i avaluo fins a quin punt aquesta característica afecta les tasques que impliquen entitats. Incloc dues arquitectures estàndard, LSTM i Transformer, tant per a l’anàlisi com per al desenvolupament de models computacionals. En primer lloc, investigo el comportament de diferents components dels models en un entorn controlat, i examino la informació referencial codificada en aquests models quan s’entrenen com a models de llenguatge. A continuació, utilitzant els resultats d’aquestes anàlisis, desenvolupo un conjunt de models i poso a prova el seu rendiment en la tasca d’identificació de personatges. Demostro que, tot i que els models aconsegueixen bons resultats en aquesta tasca, les representacions d’entitats que construeixen aquests models no es troben al mateix nivell. A través de diferents anàlisis, investigo com la tasca, els models i les dades afecten aquesta diferència entre el rendiment en la tasca i les representacions d’entitats que emergeixen.
En esta tesis, abordo la capacidad de las redes neuronales profundas para representar entidades, y evalúo hasta qué punto esta característica afecta las tareas que involucran entidades. Considero dos arquitecturas estándar, LSTM y Transformer, tanto para el análisis como para el desarrollo de modelos computacionales. Primero, investigo el comportamiento de diferentes componentes de los modelos en un entorno controlado, y a continuación examino qué información referencial está codificada en estos modelos cuando se entrenan como modelos de lenguaje. Usando los resultados de estos análisis, desarrollo un conjunto de modelos y examino su rendimiento en la tarea de identificación de personajes. Muestro que, si bien los modelos logran buenos resultados en esta tarea, las representaciones de entidades desarrolladas por los mismos no est´an al mismo nivel. A través de diferentes análisis, investigo cómo la tarea, los modelos y los datos impactan esta diferencia entre el rendimiento en la tarea y las representaciones de entidades.
Deep learning models
81 - Linguistics and languages