Analysing social biases toward migrant groups encoded in language models

Sorato, Danielly

Analysing social biases toward migrant groups encoded in language models

dc.contributor

Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge

dc.contributor.author

Sorato, Danielly

dc.date.accessioned

2024-10-07T11:49:04Z

dc.date.available

2024-10-07T11:49:04Z

dc.date.issued

2024-09-16

dc.identifier.uri

http://hdl.handle.net/10803/692277

dc.description.abstract

Embedding models are powerful machine-learning-based representations of human language used in a myriad of Natural Language Processing tasks. Due to their ability to learn underlying word association patterns present in large volumes of data, it is possible to observe various sociolinguistic phenomena encoded in the distributional vector spaces, among them, social stereotypes. Even if such models must be carefully tested for social biases and not blindly employed in downstream applications due to ethically concerning outcomes, they can be useful for discourse analysis of large volumes of textual data, for instance. In this thesis, we explore the use of language models to analyze and quantify biases towards migrant groups. We start by conducting a monolingual diachronic study of articles published in the Spanish newspaper 20 Minutos between 2007 and 2018. Then, we analyze the Danish, Dutch, English, and Spanish portions of four different multilingual corpora of political discourse, covering the 1997-2018 period. For both the aforementioned studies, we examined the effect of sociopolitical variables such as unemployment and criminality numbers on our bias measurements using statistical models. Finally, we contribute to the creation of linguistic resources for investigating biases against migrants by releasing a multilingual dataset for the Catalan, Portuguese, and Spanish languages inspired by social surveys that measure perceptions and attitudes towards immigration in European countries.

dc.description.abstract

Los modelos de embeddings son potentes representaciones del lenguaje humano basadas en el aprendizaje automático que se utilizan en una gran variedad de tareas de Procesamiento del Lenguaje Natural. Debido a su capacidad para aprender patrones subyacentes de asociación de palabras presentes en grandes volúmenes de datos, es posible observar diversos fenómenos sociolingüísticos codificados en los espacios vectoriales distributivos, entre ellos, los estereotipos sociales. Si bien es necesario examinar cuidadosamente tales modelos para detectar sesgos sociales y no emplearlos ciegamente en aplicaciones debido a resultados éticamente preocupantes, pueden ser útiles para el análisis del discurso de grandes volúmenes de datos textuales, por ejemplo. En esta tesis exploramos el uso de modelos del lenguaje para analizar y cuantificar los sesgos hacia los inmigrantes. Comenzamos realizando un estudio diacrónico monolingüe de artículos publicados en el periódico español 20 Minutos entre 2007 y 2018. En segundo lugar, analizamos las partes danesa, holandesa, inglesa y española de cuatro corpus multilingües de discurso político diferentes que cubren el período 1997-2018. En ambos estudios, examinamos el efecto de variables sociopolíticas como las cifras de desempleo y criminalidad en nuestras mediciones de sesgo utilizando modelos estadísticos. Finalmente, contribuimos a la creación de recursos lingüísticos para investigar los sesgos contra los inmigrantes mediante la publicación de un conjunto de datos multilingüe (catalán, portugués, y castellano) inspirados en encuestas sociales que miden las percepciones y actitudes hacia la inmigración en los países europeos.

dc.description.abstract

Els models d’embeddings són representacions potents del llenguatge humà basades en l’aprenentatge automàtic que s’utilitzen en una gran varietat de tasques de Processament del Llenguatge Natural. A causa de la seva capacitat per aprendre patrons subjacents d’associació de paraules presents en grans volums de dades, és possible observar diversos fenòmens sociolingüístics codificats als espais vectorials distributius, entre ells, els estereotips socials. Si cal bé examinar acuradament aquests models per detectar biaixos socials i no fer-los servir cegament en aplicacions a causa de resultats èticament preocupants, poden ser útils per a l’anàlisi del discurs de grans volums de dades textuals, per exemple. En aquesta tesi explorem l’ús de models del llenguatge per analitzar i quantificar els biaixos cap als immigrants. Comencem fent un estudi diacrònic monolingüe d’articles publicats al diari español 20 Minutos entre 2007 i 2018. En segon lloc, analitzem les parts danesa, holandesa, anglesa i espanyola de quatre corpus multilingües de discurs polític diferents, que cobreixen el període 1997-2018. En tots dos estudis, examinem l’efecte de variables sociopolítiques com les xifres de desocupació i criminalitat en els nostres mesuraments de biaix utilitzant models estadístics. Finalment, contribuïm a la creació de recursos lingüístics per investigar els biaixos contra els immigrants mitjançant la publicació d’un conjunt de dades multilingüe (catalan, portuguès i castellà) inspirats en enquestes socials que mesuren les percepcions i actituds cap a la immigració als països europeus .

dc.format.extent

204 p.

dc.language.iso

eng

dc.publisher

Universitat Pompeu Fabra

dc.rights.license

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/

dc.rights.uri

http://creativecommons.org/licenses/by-nc-sa/4.0/

dc.source

TDX (Tesis Doctorals en Xarxa)

dc.subject

Social bias

dc.subject

Stereotypes

dc.subject

Immigration

dc.subject

Word embeddings

dc.subject

Sesgo social

dc.subject

Estereotipos

dc.subject

Inmigración

dc.subject

Biaix social

dc.subject

Estereotips

dc.subject

Immigració

dc.title

Analysing social biases toward migrant groups encoded in language models

dc.type

info:eu-repo/semantics/doctoralThesis

dc.type

info:eu-repo/semantics/publishedVersion

dc.subject.udc

dc.contributor.authoremail

danielly.sorato@upf.edu

dc.contributor.director

Colominas, Carme

dc.contributor.director

Zavala-Rojas, Diana

dc.embargo.terms

cap

dc.rights.accessLevel

info:eu-repo/semantics/openAccess

dc.description.degree

Programa de Doctorat en Traducció i Ciències del Llenguatge

Documents

tdsp.pdf

3.417Mb PDF

Aquest element apareix en la col·lecció o col·leccions següent(s)

Programa de Doctorat en Traducció i Ciències del Llenguatge [310]