Contributions to Explainability and Attack Detection  in Deep Learning

Haffar, Rami

Contributions to Explainability and Attack Detection in Deep Learning

Author

Haffar, Rami

Director

Domingo Ferrer, Josep

Sánchez Ruenes, David

Date of defense

2023-11-21

Pages

179 p.

Department/Institute

Universitat Rovira i Virgili. Departament d'Enginyeria Informàtica i Matemàtiques

Abstract

La intel·ligència artificial (IA) és essencial per a diversos propòsits crucials a la vida humana. Tot i això, molts algorismes d'IA, especialment els models d'aprenentatge profund (AP), són caixes negres, cosa que implica que no comprenem com prenen decisions. Per evitar una societat autoritària basada en algoritmes, és fonamental que les decisions basades en l'aprenentatge automàtic siguin “explicables” per inspirar confiança. Hi ha dues metodologies principals per generar explicacions. Els mètodes d'explicació que utilitzen components interns dels models d'AP (explicacions específiques del model) són més precisos i efectius que els basats només en entrades i sortides (explicacions independents del model). Malauradament, els usuaris de models caixa negra no tenen accés als components interns dels proveïdors. Tot i això, perquè els usuaris confiïn en les prediccions i s'alineïn amb normes ètiques, aquestes han d'estar acompanyades d'explicacions generades local i independentment per ells mateixos (en lloc de les ofertes pels proveïdors del model). En aquesta tesi s'exploren tècniques d'explicabilitat específiques i agnòstiques del model. Es proposa un mètode d‟explicació independent del model basat en l‟ús de boscos aleatoris de decisió com a model substitut, protegint les prediccions de models caixa negra en entorns centralitzats i descentralitzats. També es proposa un explicador específic del model que utilitza els gradients del model per generar exemples contradictoris i explicar per què un exemple dentrada es classifica en una classe específica. Aquests mètodes superen tècniques d'avantguarda en proporcionar explicacions més representatives i més protecció del model, amb menys cost computacional.

La inteligencia artificial (IA) es esencial para diversos propósitos cruciales en la vida humana. Sin embargo, muchos algoritmos de IA, especialmente los modelos de aprendizaje profundo (AP), son cajas negras, lo que implica que no comprendemos cómo toman decisiones. Para evitar una sociedad autoritaria basada en algoritmos, es fundamental que las decisiones basadas en el aprendizaje automático sean "explicables" para inspirar confianza. Existen dos metodologías principales para generar explicaciones. Los métodos de explicación que utilizan componentes internos de los modelos de AP (explicaciones específicas del modelo) son más precisos y efectivos que los basados solo en entradas y salidas (explicaciones independientes del modelo). Desafortunadamente, los usuarios de modelos caja negra carecen de acceso a los componentes internos de los proveedores. Sin embargo, para que los usuarios confíen en las predicciones y se alineen con normas éticas, estas deben estar acompañadas de explicaciones generadas local e independientemente por ellos mismos (en lugar de las ofrecidas por los proveedores del modelo). En esta tesis, se exploran técnicas de explicabilidad específicas y agnósticas del modelo. Se propone un método de explicación independiente del modelo basado en el uso de bosques aleatorios de decisión como modelo sustituto, protegiendo las predicciones de modelos caja negra en entornos centralizados y descentralizados. También se propone un explicador específico del modelo que utiliza los gradientes del modelo para generar ejemplos contradictorios y explicar por qué un ejemplo de entrada se clasifica en una clase específica. Estos métodos superan técnicas de vanguardia al proporcionar explicaciones más representativas y mayor protección del modelo, con menor costo computacional.

Artificial intelligence (AI) is used for various purposes that are critical to human life. However, most state-of-the-art AI algorithms, and in particular deep-learning (DL) models, are black-box, meaning humans cannot understand how such models make decisions. To forestall an algorithm-based authoritarian society, decisions based on machine learning ought to inspire trust by being \emph{explainable}. For AI explainability to be practical, it must be feasible to obtain explanations systematically and automatically. There are two main methodologies to generate explanations. Explanation methods using internal components of DL models (a.k.a. model-specific explanations) are more accurate and effective than those relying solely on the inputs and outputs (a.k.a. model-agnostic explanations). However, the users of the black-box model lack white-box access to the internal components of the providers' models.Nevertheless, the only way for users to trust predictions and for these to align with ethical regulations is for predictions to be accompanied by explanations locally and independently generated by the users (rather than by explanations offered by the model providers). Furthermore, those models can be vulnerable to various security and privacy attacks targeting their training. In this thesis, we leverage both model-specific and model-agnostic explainability techniques. First, we propose a model-agnostic explainability method using random decision forests as surrogates. The surrogate model can explain the predictions of the black-box models in both centralized and decentralized settings. In addition, it uses those explanations to protect the models from attacks that might target them. We also propose a model-specific explainability method that uses the gradients of the model to generate adversarial examples that counterfactually explain why an input example is classified into a specific class. We also generalize this method so that external users can use it by training a local surrogate model that mimics the black-box model's behavior and using the surrogate gradients to generate the adversarial examples. Extensive experimental results show that our methods outperform the state-of-the-art techniques by providing more representative explanations and model protections while requiring a low computational cost.

Keywords

Explicabilitat; Intel · ligència artificial; Detecció d'atacs; Explicabilidad; Inteligencia artificial; Detección de ataques; Explainability; Artificial intelligence; Attack detection

Subjects

004 - Computer science; 62 - Engineering

Knowledge Area

Ciències

Documents

TESI Rami Haffar.pdf

5.390Mb

Export

DIDL MARC MARC_CCUC METS OAI_DC ORE QDC RDF

Rights

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)

Departament d'Enginyeria Informàtica i Matemàtiques [112]

Àrea de contingut