Analysing social biases toward migrant groups encoded in language models

Author

Sorato, Danielly ORCID

Director

Colominas, Carme

Zavala-Rojas, Diana ORCID

Date of defense

2024-09-16

Pages

204 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge

Doctorate programs

Programa de Doctorat en Traducció i Ciències del Llenguatge

Abstract

Embedding models are powerful machine-learning-based representations of human language used in a myriad of Natural Language Processing tasks. Due to their ability to learn underlying word association patterns present in large volumes of data, it is possible to observe various sociolinguistic phenomena encoded in the distributional vector spaces, among them, social stereotypes. Even if such models must be carefully tested for social biases and not blindly employed in downstream applications due to ethically concerning outcomes, they can be useful for discourse analysis of large volumes of textual data, for instance. In this thesis, we explore the use of language models to analyze and quantify biases towards migrant groups. We start by conducting a monolingual diachronic study of articles published in the Spanish newspaper 20 Minutos between 2007 and 2018. Then, we analyze the Danish, Dutch, English, and Spanish portions of four different multilingual corpora of political discourse, covering the 1997-2018 period. For both the aforementioned studies, we examined the effect of sociopolitical variables such as unemployment and criminality numbers on our bias measurements using statistical models. Finally, we contribute to the creation of linguistic resources for investigating biases against migrants by releasing a multilingual dataset for the Catalan, Portuguese, and Spanish languages inspired by social surveys that measure perceptions and attitudes towards immigration in European countries.


Los modelos de embeddings son potentes representaciones del lenguaje humano basadas en el aprendizaje automático que se utilizan en una gran variedad de tareas de Procesamiento del Lenguaje Natural. Debido a su capacidad para aprender patrones subyacentes de asociación de palabras presentes en grandes volúmenes de datos, es posible observar diversos fenómenos sociolingüísticos codificados en los espacios vectoriales distributivos, entre ellos, los estereotipos sociales. Si bien es necesario examinar cuidadosamente tales modelos para detectar sesgos sociales y no emplearlos ciegamente en aplicaciones debido a resultados éticamente preocupantes, pueden ser útiles para el análisis del discurso de grandes volúmenes de datos textuales, por ejemplo. En esta tesis exploramos el uso de modelos del lenguaje para analizar y cuantificar los sesgos hacia los inmigrantes. Comenzamos realizando un estudio diacrónico monolingüe de artículos publicados en el periódico español 20 Minutos entre 2007 y 2018. En segundo lugar, analizamos las partes danesa, holandesa, inglesa y española de cuatro corpus multilingües de discurso político diferentes que cubren el período 1997-2018. En ambos estudios, examinamos el efecto de variables sociopolíticas como las cifras de desempleo y criminalidad en nuestras mediciones de sesgo utilizando modelos estadísticos. Finalmente, contribuimos a la creación de recursos lingüísticos para investigar los sesgos contra los inmigrantes mediante la publicación de un conjunto de datos multilingüe (catalán, portugués, y castellano) inspirados en encuestas sociales que miden las percepciones y actitudes hacia la inmigración en los países europeos.


Els models d’embeddings són representacions potents del llenguatge humà basades en l’aprenentatge automàtic que s’utilitzen en una gran varietat de tasques de Processament del Llenguatge Natural. A causa de la seva capacitat per aprendre patrons subjacents d’associació de paraules presents en grans volums de dades, és possible observar diversos fenòmens sociolingüístics codificats als espais vectorials distributius, entre ells, els estereotips socials. Si cal bé examinar acuradament aquests models per detectar biaixos socials i no fer-los servir cegament en aplicacions a causa de resultats èticament preocupants, poden ser útils per a l’anàlisi del discurs de grans volums de dades textuals, per exemple. En aquesta tesi explorem l’ús de models del llenguatge per analitzar i quantificar els biaixos cap als immigrants. Comencem fent un estudi diacrònic monolingüe d’articles publicats al diari español 20 Minutos entre 2007 i 2018. En segon lloc, analitzem les parts danesa, holandesa, anglesa i espanyola de quatre corpus multilingües de discurs polític diferents, que cobreixen el període 1997-2018. En tots dos estudis, examinem l’efecte de variables sociopolítiques com les xifres de desocupació i criminalitat en els nostres mesuraments de biaix utilitzant models estadístics. Finalment, contribuïm a la creació de recursos lingüístics per investigar els biaixos contra els immigrants mitjançant la publicació d’un conjunt de dades multilingüe (catalan, portuguès i castellà) inspirats en enquestes socials que mesuren les percepcions i actituds cap a la immigració als països europeus .

Keywords

Social bias; Stereotypes; Immigration; Word embeddings; Sesgo social; Estereotipos; Inmigración; Biaix social; Estereotips; Immigració

Subjects

81 - Linguistics and languages

Documents

tdsp.pdf

3.417Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/

This item appears in the following Collection(s)