dc.contributor
Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge
dc.contributor.author
Weber, Lucas
dc.date.accessioned
2024-07-22T10:55:13Z
dc.date.available
2024-07-22T10:55:13Z
dc.date.issued
2024-05-03
dc.identifier.uri
http://hdl.handle.net/10803/691850
dc.description.abstract
Language models (LMs) have evolved to become remarkably capable yet
similarly complex and intransparant systems. Our ability to understand
how they achieve their outstanding traits – i.e. making them interpretable –
can be achieved from different angles. In this dissertation, I analyse the
learning dynamics of LMs and seek to understand the relationship between
the properties of training data and the models’ generalization behaviours.
I introduce a framework that links generalisation with conceptual knowledge,
specifically linguistic theory, which can be used for model analysis
or model-driven hypothesis testing. This approach is applied to analyze
the pre-training process of LMs. Furthermore, I delve into the dynamics
of new learning paradigms, such as in-context learning, contributing to
our understanding of their inconsistent prediction behaviour. Recognizing
that the analysis of complex systems often demands holistic methods, this
dissertation emphasizes and employs innovative and systematic methodologies
for interpretability.
ca
dc.description.abstract
Els models de llenguatge (MLs) han evolucionat per esdevenir notablement
capac¸os, però al mateix temps són sistemes complexos i poc transparents.
La nostra capacitat per entendre com aconsegueixen aquestes
característiques destacades – és a dir, fent-los interpretables – es pot aconseguir
des de diferents punts de vista. En aquesta dissertació, analitzo
la dinàmica d’aprenentatge dels MLs. Introdueixo un marc que enllaça
la generalització amb el coneixement conceptual, específicament la teoria
lingüística, que pot ser utilitzat per a l’anàlisi del model o per a la
prova d’hipòtesis dirigida pel model. Aquest enfocament s’aplica per
analitzar el procés de pre-entrenament dels MLs. A més, m’endinso en la
dinàmica de nous paradigmes d’aprenentatge, com ara el in-context learning,
il·luminant les raons del seu comportament de predicció inconsistent.
Reconèixer que l’anàlisi de sistemes complexos sovint exigeix mètodes
holístics, aquesta dissertació emfatitza i utilitza metodologies innovadores
i sistemàtiques per a la interpretabilitat.
ca
dc.format.extent
208 p.
ca
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
ca
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Language models
ca
dc.subject
Models de llenguatge
ca
dc.title
Interpreting the learning dynamics of language models
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.authoremail
lucasweber000@gmail.com
ca
dc.contributor.director
Hupkes, Dieuwke
dc.contributor.director
Bruni, Elia
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de Doctorat en Traducció i Ciències del Llenguatge