dc.contributor
Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge
dc.contributor.author
Sorato, Danielly
dc.date.accessioned
2024-10-07T11:49:04Z
dc.date.available
2024-10-07T11:49:04Z
dc.date.issued
2024-09-16
dc.identifier.uri
http://hdl.handle.net/10803/692277
dc.description.abstract
Embedding models are powerful machine-learning-based representations of human
language used in a myriad of Natural Language Processing tasks. Due to their ability
to learn underlying word association patterns present in large volumes of data, it is
possible to observe various sociolinguistic phenomena encoded in the distributional
vector spaces, among them, social stereotypes. Even if such models must be carefully
tested for social biases and not blindly employed in downstream applications due
to ethically concerning outcomes, they can be useful for discourse analysis of large
volumes of textual data, for instance. In this thesis, we explore the use of language
models to analyze and quantify biases towards migrant groups. We start by conducting
a monolingual diachronic study of articles published in the Spanish newspaper
20 Minutos between 2007 and 2018. Then, we analyze the Danish, Dutch, English,
and Spanish portions of four different multilingual corpora of political discourse,
covering the 1997-2018 period. For both the aforementioned studies, we examined
the effect of sociopolitical variables such as unemployment and criminality numbers
on our bias measurements using statistical models. Finally, we contribute to the
creation of linguistic resources for investigating biases against migrants by releasing
a multilingual dataset for the Catalan, Portuguese, and Spanish languages inspired
by social surveys that measure perceptions and attitudes towards immigration in
European countries.
ca
dc.description.abstract
Los modelos de embeddings son potentes representaciones del lenguaje humano
basadas en el aprendizaje automático que se utilizan en una gran variedad de tareas
de Procesamiento del Lenguaje Natural. Debido a su capacidad para aprender
patrones subyacentes de asociación de palabras presentes en grandes volúmenes de
datos, es posible observar diversos fenómenos sociolingüísticos codificados en los
espacios vectoriales distributivos, entre ellos, los estereotipos sociales. Si bien es
necesario examinar cuidadosamente tales modelos para detectar sesgos sociales y no
emplearlos ciegamente en aplicaciones debido a resultados éticamente preocupantes,
pueden ser útiles para el análisis del discurso de grandes volúmenes de datos textuales,
por ejemplo. En esta tesis exploramos el uso de modelos del lenguaje para
analizar y cuantificar los sesgos hacia los inmigrantes. Comenzamos realizando un
estudio diacrónico monolingüe de artículos publicados en el periódico español 20
Minutos entre 2007 y 2018. En segundo lugar, analizamos las partes danesa, holandesa,
inglesa y española de cuatro corpus multilingües de discurso político diferentes
que cubren el período 1997-2018. En ambos estudios, examinamos el efecto
de variables sociopolíticas como las cifras de desempleo y criminalidad en nuestras
mediciones de sesgo utilizando modelos estadísticos. Finalmente, contribuimos a
la creación de recursos lingüísticos para investigar los sesgos contra los inmigrantes
mediante la publicación de un conjunto de datos multilingüe (catalán, portugués, y
castellano) inspirados en encuestas sociales que miden las percepciones y actitudes
hacia la inmigración en los países europeos.
ca
dc.description.abstract
Els models d’embeddings són representacions potents del llenguatge humà basades
en l’aprenentatge automàtic que s’utilitzen en una gran varietat de tasques de Processament
del Llenguatge Natural. A causa de la seva capacitat per aprendre patrons
subjacents d’associació de paraules presents en grans volums de dades, és possible observar
diversos fenòmens sociolingüístics codificats als espais vectorials distributius,
entre ells, els estereotips socials. Si cal bé examinar acuradament aquests models
per detectar biaixos socials i no fer-los servir cegament en aplicacions a causa de
resultats èticament preocupants, poden ser útils per a l’anàlisi del discurs de grans
volums de dades textuals, per exemple. En aquesta tesi explorem l’ús de models
del llenguatge per analitzar i quantificar els biaixos cap als immigrants. Comencem
fent un estudi diacrònic monolingüe d’articles publicats al diari español 20 Minutos
entre 2007 i 2018. En segon lloc, analitzem les parts danesa, holandesa, anglesa i
espanyola de quatre corpus multilingües de discurs polític diferents, que cobreixen
el període 1997-2018. En tots dos estudis, examinem l’efecte de variables sociopolítiques
com les xifres de desocupació i criminalitat en els nostres mesuraments de
biaix utilitzant models estadístics. Finalment, contribuïm a la creació de recursos
lingüístics per investigar els biaixos contra els immigrants mitjançant la publicació
d’un conjunt de dades multilingüe (catalan, portuguès i castellà) inspirats en enquestes
socials que mesuren les percepcions i actituds cap a la immigració als països
europeus .
ca
dc.format.extent
204 p.
ca
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
ca
dc.rights.uri
http://creativecommons.org/licenses/by-nc-sa/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Social bias
ca
dc.subject
Stereotypes
ca
dc.subject
Immigration
ca
dc.subject
Word embeddings
ca
dc.subject
Sesgo social
ca
dc.subject
Estereotipos
ca
dc.subject
Inmigración
ca
dc.subject
Biaix social
ca
dc.subject
Estereotips
ca
dc.title
Analysing social biases toward migrant groups encoded in language models
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.authoremail
danielly.sorato@upf.edu
ca
dc.contributor.director
Colominas, Carme
dc.contributor.director
Zavala-Rojas, Diana
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de Doctorat en Traducció i Ciències del Llenguatge