Analysing social biases toward migrant groups encoded in language models

dc.contributor
Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge
dc.contributor.author
Sorato, Danielly
dc.date.accessioned
2024-10-07T11:49:04Z
dc.date.available
2024-10-07T11:49:04Z
dc.date.issued
2024-09-16
dc.identifier.uri
http://hdl.handle.net/10803/692277
dc.description.abstract
Embedding models are powerful machine-learning-based representations of human language used in a myriad of Natural Language Processing tasks. Due to their ability to learn underlying word association patterns present in large volumes of data, it is possible to observe various sociolinguistic phenomena encoded in the distributional vector spaces, among them, social stereotypes. Even if such models must be carefully tested for social biases and not blindly employed in downstream applications due to ethically concerning outcomes, they can be useful for discourse analysis of large volumes of textual data, for instance. In this thesis, we explore the use of language models to analyze and quantify biases towards migrant groups. We start by conducting a monolingual diachronic study of articles published in the Spanish newspaper 20 Minutos between 2007 and 2018. Then, we analyze the Danish, Dutch, English, and Spanish portions of four different multilingual corpora of political discourse, covering the 1997-2018 period. For both the aforementioned studies, we examined the effect of sociopolitical variables such as unemployment and criminality numbers on our bias measurements using statistical models. Finally, we contribute to the creation of linguistic resources for investigating biases against migrants by releasing a multilingual dataset for the Catalan, Portuguese, and Spanish languages inspired by social surveys that measure perceptions and attitudes towards immigration in European countries.
ca
dc.description.abstract
Los modelos de embeddings son potentes representaciones del lenguaje humano basadas en el aprendizaje automático que se utilizan en una gran variedad de tareas de Procesamiento del Lenguaje Natural. Debido a su capacidad para aprender patrones subyacentes de asociación de palabras presentes en grandes volúmenes de datos, es posible observar diversos fenómenos sociolingüísticos codificados en los espacios vectoriales distributivos, entre ellos, los estereotipos sociales. Si bien es necesario examinar cuidadosamente tales modelos para detectar sesgos sociales y no emplearlos ciegamente en aplicaciones debido a resultados éticamente preocupantes, pueden ser útiles para el análisis del discurso de grandes volúmenes de datos textuales, por ejemplo. En esta tesis exploramos el uso de modelos del lenguaje para analizar y cuantificar los sesgos hacia los inmigrantes. Comenzamos realizando un estudio diacrónico monolingüe de artículos publicados en el periódico español 20 Minutos entre 2007 y 2018. En segundo lugar, analizamos las partes danesa, holandesa, inglesa y española de cuatro corpus multilingües de discurso político diferentes que cubren el período 1997-2018. En ambos estudios, examinamos el efecto de variables sociopolíticas como las cifras de desempleo y criminalidad en nuestras mediciones de sesgo utilizando modelos estadísticos. Finalmente, contribuimos a la creación de recursos lingüísticos para investigar los sesgos contra los inmigrantes mediante la publicación de un conjunto de datos multilingüe (catalán, portugués, y castellano) inspirados en encuestas sociales que miden las percepciones y actitudes hacia la inmigración en los países europeos.
ca
dc.description.abstract
Els models d’embeddings són representacions potents del llenguatge humà basades en l’aprenentatge automàtic que s’utilitzen en una gran varietat de tasques de Processament del Llenguatge Natural. A causa de la seva capacitat per aprendre patrons subjacents d’associació de paraules presents en grans volums de dades, és possible observar diversos fenòmens sociolingüístics codificats als espais vectorials distributius, entre ells, els estereotips socials. Si cal bé examinar acuradament aquests models per detectar biaixos socials i no fer-los servir cegament en aplicacions a causa de resultats èticament preocupants, poden ser útils per a l’anàlisi del discurs de grans volums de dades textuals, per exemple. En aquesta tesi explorem l’ús de models del llenguatge per analitzar i quantificar els biaixos cap als immigrants. Comencem fent un estudi diacrònic monolingüe d’articles publicats al diari español 20 Minutos entre 2007 i 2018. En segon lloc, analitzem les parts danesa, holandesa, anglesa i espanyola de quatre corpus multilingües de discurs polític diferents, que cobreixen el període 1997-2018. En tots dos estudis, examinem l’efecte de variables sociopolítiques com les xifres de desocupació i criminalitat en els nostres mesuraments de biaix utilitzant models estadístics. Finalment, contribuïm a la creació de recursos lingüístics per investigar els biaixos contra els immigrants mitjançant la publicació d’un conjunt de dades multilingüe (catalan, portuguès i castellà) inspirats en enquestes socials que mesuren les percepcions i actituds cap a la immigració als països europeus .
ca
dc.format.extent
204 p.
ca
dc.language.iso
eng
ca
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
ca
dc.rights.uri
http://creativecommons.org/licenses/by-nc-sa/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Social bias
ca
dc.subject
Stereotypes
ca
dc.subject
Immigration
ca
dc.subject
Word embeddings
ca
dc.subject
Sesgo social
ca
dc.subject
Estereotipos
ca
dc.subject
Inmigración
ca
dc.subject
Biaix social
ca
dc.subject
Estereotips
ca
dc.subject
Immigració
ca
dc.title
Analysing social biases toward migrant groups encoded in language models
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
81
ca
dc.contributor.authoremail
danielly.sorato@upf.edu
ca
dc.contributor.director
Colominas, Carme
dc.contributor.director
Zavala-Rojas, Diana
dc.embargo.terms
cap
ca
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de Doctorat en Traducció i Ciències del Llenguatge


Documents

tdsp.pdf

3.417Mb PDF

This item appears in the following Collection(s)