Universitat Politècnica de Catalunya. Departament de Ciències de la Computació
DOCTORAT EN INTEL·LIGÈNCIA ARTIFICIAL (Pla 2012)
(English) Machine learning and, more specifically, deep learning applications have grown in number in recent years. These intelligent systems have shown remarkable performance across various domains, including sensitive areas like medicine and justice. Nevertheless, these models remain opaque, and we need a complete understanding of their internal process. Therefore, the deployment of these black box models can pose risks. Firstly, it might not comply with the current legislation. Secondly, it may lead to severe consequences. Let us consider a scenario in which a model used in a medical application is gender-biased, yielding distinct predictions depending on a person's gender. This fact would perpetuate discrimination against certain parts of the population and exacerbate existing inequalities. To better understand the model's behaviour, enabling the detection and mitigation of potential biases and ultimately achieving more trustworthy models, the eXplainable AI (XAI) field is an active research domain which is growing and receiving increasing attention. Various approaches have been proposed in the literature. Nevertheless, the most widely used are the post-hoc methods. These approaches can be applied once the model is trained, thus preserving the model's original performance. By employing these post-hoc explainability methods to gain insights into the model and identify biases within the datasets and models, we realized that two other biases arise: XAI and human biases. While different XAI methods exist, assessing their faithfulness becomes challenging due to the absence of a ground truth determining what the correct explanation is. The uncertainty regarding whether the explanation accurately reflects the model's behaviour can lead to what we refer to as XAI biases. Is the model biased or is it the explainability method that fails to reflect the model's behaviour? Human bias is another of the biases that emerge when applying these explainability methods. How we show these explanations to humans can be misleading or lead to incorrect conclusions. This can be due to confirmation or automation biases. In addition, when domain experts are asked to review all the explanations, the process can be time-consuming and may lead experts to overlook potential biases in the data and models. The main goal of this thesis is to mitigate the influence of these two new sources of biases (i.e., XAI and human) when explainability is used to detect biases in datasets and models. First, we focus on mitigating XAI biases. To do so, we propose a methodology to assess the reliability of XAI methods. Although our primary goal was to use this methodology within the computer vision discipline, we also demonstrated its applicability in other domains, such as the natural language processing field. After selecting the most reliable XAI method according to our proposed approach, we focus on mitigating human biases. With this objective in mind, we present potential methodologies to semi-automate the detection of data/model biases, thereby reducing the noise introduced by humans. Adopting this approach limits the domain expert's intervention to the final step, in which experts assess whether the biases found are harmful or harmless.
(Català) El camp de l'aprenentatge automàtic i, més concretament, el de l'aprenentatge profund han anat creixent en els últims anys. Aquests sistemes intel·ligents han demostrat un rendiment extraordinari en diversos àmbits, incloent-hi àrees sensibles com la medicina i la justícia. No obstant això, aquests models continuen sent opacs, no tenim una comprensió completa del seu procés intern. Per tant, el desplegament d'aquests models, que també s'anomenen models de caixa negra, pot plantejar nombrosos riscos. En primer lloc, podria no complir la legislació actual. En segon lloc, podria tenir conseqüències greus. Considerem un escenari en el qual un model utilitzat en una aplicació mèdica que presenta biaix de gènere, produeix prediccions diferents depenent del gènere de la persona. Aquest fet perpetuaria la discriminació contra determinades parts de la població i exacerbaria les desigualtats existents. Per entendre millor el comportament del model i així, permetre la detecció i la mitigació de biaixos i aconseguir models més fiables, sorgeix el camp de la IA eXplicable (en anglés, XAI). Es tracta d'un domini actiu de recerca que està creixent i rebent cada vegada més atenció. Tot i que en la literatura s'han proposat diversos enfocaments, els més utilitzats són els mètodes post-hoc. Aquestes tècniques es poden aplicar una vegada que el model està entrenat, preservant així el rendiment original del model. Utilitzant aquests mètodes d'explicabilitat post-hoc per obtenir informació sobre el model i identificar biaixos dins dels conjunts de dades i models, ens vam adonar que sorgeixen uns altres dos biaixos: biaixos de l'explicabilitat i biaixos humans. Tot i que existeixen diferents mètodes d'explicabilitat, el fet d'avaluar-ne la fidelitat esdevé un repte a causa de l'absència d'una veritat fonamental que determine quina és l'explicació correcta. La incertesa sobre si l'explicació reflecteix amb precisió el comportament del model pot conduir al que anomenem biaixos XAI. El model està esbiaixat o és el mètode d'explicabilitat que no reflecteix el comportament del model? El biaix humà és un altre dels biaixos que sorgeixen quan s'apliquen aquests mètodes d'explicabilitat. La manera en què mostrem aquestes explicacions als humans pot portar a conclusions enganyoses. D'una banda, això pot ser degut a biaixos de confirmació o automatització. D'altra banda, quan es demana als professionals del domini que revisen totes les explicacions, aquest procés pot demanar molt de temps i fer-los passar per alt els possibles biaixos en les dades i els models. L'objectiu principal d'aquesta tesi és mitigar la influència d'aquestes dues noves fonts de biaixos (XAI i humans) quan s'utilitza l'explicabilitat per detectar biaixos en conjunts de dades i models. En primer lloc, ens centrem a mitigar els biaixos XAI. Per a això, proposem una metodologia per avaluar la fiabilitat dels mètodes d'explicabilitat. Tot i que el nostre objectiu principal era utilitzar aquesta metodologia dins de la disciplina de la visió per ordinador, també en demostrem l'aplicabilitat en altres àmbits, com el camp del processament del llenguatge natural. Després de seleccionar el mètode d'explicabilitat més fiable segons la tècnica proposada, ens centrem a mitigar els biaixos humans. Amb aquest objectiu a la ment, presentem metodologies per semiautomatitzar la detecció de biaixos en les dades i el model, i reduir així el soroll introduït pels humans. L'adopció d'aquest enfocament limita la intervenció experta solament al pas final, en què s'avalua si els biaixos trobats són perjudicials o inofensius.
004 - Informàtica
Àrees temàtiques de la UPC::Informàtica
"Tesi amb menció de Doctorat Internacional i de Doctorat Industrial (Generalitat de Catalunya) "