Contributions on dimensionality reduction and interpretable machine learning

Author

Pachón García, Cristian

Director

Delicado Useros, Pedro Francisco

Date of defense

2025-05-08

Pages

97 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa

Doctorate programs

DOCTORAT EN ESTADÍSTICA I INVESTIGACIÓ OPERATIVA (Pla 2012)

Abstract

(English) This thesis is divided into two parts. The first one is devoted to dimensionality reduction for large data sets, while the second one focuses on the field of Interpretable Machine Learning. Part of the material presented in this thesis has been published either in journals or workshops. Concretely, the original work of Chapter 1 can be found in Delicado and Pachón-García (2024a). Regarding Chapter 3, the original publication is Pachón-García et al. (2024) and the material of Chapter 4 is Hernández-Pérez et al. (2024). Finally, Chapter 5 is intended to be sent to a journal, but Delicado and Pachón-García (2024b) is a preprint version. To begin with, we present a set of algorithms implementing multidimensional scaling (MDS) for large data sets. MDS is a family of dimensionality reduction techniques using a n×n distance matrix as input, where n is the number of individuals, and producing a low dimensional configuration: a n × r matrix with r << n. When n is large, MDS is unaffordable with classical MDS algorithms because their extremely large memory and time requirements. We compare six non-standard algorithms intended to overcome these difficulties. They are based on the central idea of partitioning the data set into small pieces, where classical MDS methods can work. Two of these algorithms are original proposals. In order to check the performance of the algorithms as well as to compare them, we have done a simulation study. In addition, an open-source R package implementing the algorithms has been created. Regarding the field of machine learning (ML), it is worth noting that its presence in our society is increasing, which brings with it the need to understand the behaviour of ML mechanisms, including machine learning predictive algorithms fed with tabular data, text, or images, among other types of data. Therefore, this thesis focuses on the problem of interpretability. On the one hand, we present SurvLIMEpy, an open-source Python package that implements the SurvLIME algorithm. This method allows to compute local feature importance for machine learning algorithms designed for modelling Survival Analysis data. The presented implementation uses a matrix-wise formulation, which allows to speed up the execution time. Additionally, SurvLIMEpy assists the user with visualisation tools to better understand the result of the algorithm. The package supports a wide variety of survival models, from the Cox Proportional Hazards Model to deep learning models such as DeepHit or DeepSurv. We study the ability of the algorithm to capture the importance of the features by means of a simulation study. With the goal of employing SurvLIMEpy, we train and compare three types of machine learning algorithms for Survival Analysis: Random Survival Forest, DeepSurv and DeepHit, using the SEER database to model cutaneous malignant melanoma. Our work underscores the importance of explainability methods for interpreting black-box models and provides insights into important features related to melanoma prognosis. On the other hand, we consider the field of Functional Data Analysis in order to provide it with interpretability tools. Designing interpretability methods for functional data models implies working with a set of features whose size is infinite. In the context of scalar on function regression, we propose an interpretability method based on the Shapley value for continuous games, a mathematical formulation that allows to fairly distribute a global payoff among a continuous set players. The method is illustrated through a set of experiments with simulated and real data sets. The open source Python package ShapleyFDA is also presented.


(Català) Aquesta tesi es divideix en dues parts. La primera se centra en el camp de la reducció de la dimensió, mentre que la segona està dedicada a estudiar el camp de la interpretabilitat de models d’aprenentatge automàtic. Part del treball que es presenta s’ha publicat o bé en revistes o bé en publicacions derivades de congressos. Concretament, el text original del Capítol 1 està publicat a Delicado i Pachón-García (2024a). D’altra banda, el treball original en què està basat el Capítol 3 està publicat a Pachón- García et al. (2024), mentre que el text del Capítol 4 es pot trobar a Hernández-Pérez et al. (2024). Finalment, el Capítol 5 s’enviarà a una revista, però una versió preliminar es pot trobar a Delicado i Pachón-García (2024b). Aquesta tesi comença presentant un conjunt d’algorismes que implementen l’escalat multidimensional (MDS, per les seves inicials en anglès) per a conjunt de dades amb un elevat nombre d’observacions. L’MDS és una família de tècniques que usen com input una matriu de distàncies n × n, essent n el nombre d’individus, per obtenir una configuració de baixa dimensió: una nova matriu n × r, amb r << n. Quan n és elevat, els algorismes clàssics d’MDS no poden ser utilitzats perquè els recursos que necessiten (memòria i temps) són extremadament elevats. En aquest treball, comparem sis algorismes que estan dissenyats amb l’objectiu de solucionar aquests problemes. Tots ells estan basats en la idea de dividir el conjunt de dades en parts més petites de manera que els algorismes clàssics es poden usar. Dos d’aquests són propostes originals nostres. Per tal d’estudiar el comportament d’aquests algorismes, emprem un estudi basat en simulacions. A més a més, hem implementat una llibreria en obert basada en R que conté la implementació dels sis algorismes. En relació amb el camp de l’aprenentatge automàtic, presentem la llibreria SurvLIMEpy, un paquet en obert basat en Python que implementa l’algorisme de SurvLIME. Aquest mètode permet obtenir importància de covariables per models d’aprenentatge automàtic en el camp de l’anàlisi de supervivència. La implementació que presentem es basa en càlculs matricials, cosa que permet un guany en temps de computació. A més a més, SurvLIMEpy incorpora funcionalitats per visualitzar els resultats. El paquet s’integra molt fàcilment amb una àmplia varietat de models de supervivència, així pot gestionar des de models com el de Cox a models d’aprenentatge automàtic, com DeepHit o DeepSurv. Per tal d’estudiar el comportament de l’algorisme, realitzem un estudi de simulació. Amb la finalitat d’usar SurvLIMEpy en un cas pràctic, entrenem i comparem tres tipus de models d’aprenentatge automàtic per l’anàlisi de supervivència: Random Survival Forest, DeepSurv i DeepHit, on hem usat la base de dades en obert SEER. L’objectiu de l’estudi és estudiar el melanoma maligne cutani. El treball ajuda a obtenir coneixement sobre els aspectes més importants que estan relacionats amb aquest tipus de càncer. D’altra banda, ens situem en el camp de l’anàlisi de dades funcionals per tal de desenvolupar eines d’interpretabilitat dins aquest camp. Dissenyar mètodes d’interpretabilitat per dades funcionals implica treballar amb dades que viuen en un espai de dimensió infinita. En el context de regressor funcional i resposta escalar, proposem un mètode que es basa en el valor de Shapley, una teoria matemàtica que permet distribuir el guany en un joc en el qual juguen infinits jugadors. La proposta que fem s’estudia mitjançant un conjunt d’experiments basats en dades simulades així com en dades reals. A més a més, també es presenta ShapleyFDA, un paquet en obert de Python que implementa la nostra proposta.


(Español) Esta tesis se divide en dos partes. La primera se centra en el campo de la reducción de la dimensión, mientras que la segunda está dedicada a estudiar el campo de la interpretabilidad de los modelos de aprendizaje automático. Parte del trabajo que se presenta se ha publicado o bien en revistas o bien en publicaciones derivadas de congresos. Concretamente, el texto original del Capítulo 1 está publicado en Delicado y Pachón-García (2024a). Por otro lado, el trabajo original del Capítulo 3 está publicado en Pachón-García y col. (2024), mientras que el texto del Capítulo 4 se puede encontrar en Hernández- Pérez y col. (2024). Finalmente, el Capítulo 5 se va a enviar a una revista, pero una versión preliminar se encuentra en Delicado y Pachón-García (2024b). Esta tesis empieza presentando un conjunto de algoritmos para el escalado multidimensional (MDS, por sus iniciales en inglés) para conjuntos de datos con un elevado número de observaciones. El MDS es una familia de técnicas que usa como input una matriz de distancias n × n, siendo n el número de individuos, para obtener una configuración de baja dimensión: una matriz n×r, con r << n. Cuando n es grande, los algoritmos clásicos de MDS no pueden ser utilizados porque los recursos que necesitan (memoria y tiempo) son extremadamente elevados. En este trabajo, comparamos seis algoritmos que están diseñados con el objetivo de solucionar estos problemas. Todos ellos están basados en la idea de dividir el conjunto de datos en partes más pequeñas de manera que los algoritmos clásicos se puedan usar. Dos de éstos son propuestas originales nuestras. Con la finalidad de estudiar el comportamiento de los seis algoritmos, realizamos un estudio de simulación. Además, hemos implementado una librería en código abierto en R que contiene la implementación de los mencionados algoritmos. Con relación al campo del aprendizaje automático, presentamos la librería SurvLIMEpy, un paquete de código abierto basado en Python que implementa el algoritmo SurvLIME. Este método permite obtener relevancia de covariables para modelos de aprendizaje automático en el campo del análisis de supervivencia. Se presenta una implementación en forma matricial, cuya finalidad es acelerar el tiempo de ejecución. Además, SurvLIMEpy incorpora funcionalidades para visualizar los resultados. El paquete se integra con mucha facilidad con una amplia variedad de modelos de supervivencia, de manera que gestiona modelos como el de Cox así como modelos de aprendizaje automático tales como DeepHit o DeepSurv. Con la finalidad de estudiar este método, presentamos un conjunto de experimentos basados en simulaciones. Con el objetivo de usar SurvLIMEpy en un caso práctico, entrenamos tres tipos de modelos de aprendizaje automático para el análisis de supervivencia: Random Survival Forest, DeepSurv y DeepHit, donde hemos usado la base de datos en abierto SEER. El objetivo del estudio es modelar el melanoma maligno cutáneo. Este trabajo ayuda a obtener conocimiento sobre los aspectos más relevantes que están relacionados con este tipo de cáncer. Por otro lado, nos situamos en el campo del análisis de datos funcionales, con el objetivo de desarrollar herramientas de interpretabilidad dentro de este campo. Diseñar métodos de interpretabilidad para datos funcionales implica trabajar con datos que viven en un espacio de dimensión infinita. En el contexto de regresor funcional y respuesta escalar, proponemos un método basado en el valor de Shapley para un continuo de jugadores, una teoría matemática que permite distribuir la ganancia en un juego cuando participan infinitos jugadores. La propuesta que realizamos se analiza mediante un conjunto de experimentos basados en datos simulados, así como en datos reales. Además, también se presenta ShapleyFDA, un paquete en abierto de Python que implementa nuestra propuesta.

Keywords

Dimensionality reduction; multidimensional scaling; big data; interpretable machine learning; explainable artificial intelligence; Shapley value; functional data analysis; survival analysis

Subjects

51 - Matemàtiques; 004 - Informàtica

Knowledge Area

Àrees temàtiques de la UPC::Matemàtiques i estadística; Àrees temàtiques de la UPC::Informàtica

Documents

TCPG1de1.pdf

8.542Mb

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/

This item appears in the following Collection(s)