Universitat Politècnica de Catalunya. Departament de Ciències de la Computació
DOCTORAT EN INTEL·LIGÈNCIA ARTIFICIAL (Pla 2012)
(English) In the field of organ transplantation, a critical gap exists: the availability of organs falls far short of the demand, resulting in numerous recipients dying before they can receive a transplant. The complexity of this field extends beyond surgical procedures, encompassing the challenges of matching organs to patients and ensuring effective post-operative care-both of which are crucial for the patients' survival and quality of life. Recently, artificial intelligence (AI) technologies, particularly machine learning (ML) and deep learning (DL) methods, have shown great potential in enhancing the accuracy of organ matching and in managing post-transplant patient risks more effectively. However, the application of these methods faces several challenges, including issues with model interpretability, data imbalance, and limitations due to small dataset sizes and insufficient labeled samples. This thesis focuses on the application and exploration of soft computing techniques in the analysis and modeling of organ transplant data. By integrating soft computing techniques with ML models, this study aims to develop new computational approaches to address the key data challenges in the organ transplant domain. Through this research, we aim to provide deeper insights into data analysis and modeling in organ transplant scenarios, thereby offering more accurate and personalized decision support for doctors and patients. This thesis demonstrates how enhancing interpretability in ML models for assessing organ transplant risks can be achieved, particularly by addressing gaps in understanding the impact of features over follow-up time and across different patient subgroups. The Extreme Gradient Boosting (XGBoost) model is shown to outperform traditional risk scores and other ML models across various follow-up periods. Using SHapley Additive exPlanations (SHAP), this thesis provides detailed insights into how specific features dynamically affect different patient subgroups over these periods, thereby enhancing both global and subgroup-specific interpretability in the context of organ transplantation. To tackle the prevalent challenge of data imbalance in the field of organ transplantation, two novel rule-based methods, Ad-RuLer and ARUST, are proposed. Ad-RuLer improves the representation of minority classes through iterative rule comparison. Building on this, ARUST further refines the segmentation of the sample space through density peak clustering (DPC), enhancing the granularity of data synthesis. Simultaneously, it enhances the detection and elimination of overlapping and noisy samples, thus improving the classification performance of the synthesized samples. These methods outperform traditional resampling techniques in predicting de novo solid malignancies in post-liver transplant recipients, showcasing their robust ability to handle imbalanced data effectively. Addressing the issues of small sample sizes and insufficient labeled samples, the thesis presents a novel neuro-fuzzy system, D-DMR-FBLS. This system integrates Deep Belief Networks (DBN) and Takagi-Sugeno-Kang (TSK) systems within the Broad Learning System (BLS) framework to enhance representation learning capacity during the unsupervised training phase (UTP). Additionally, two types of graph-based manifold regularization strategies are proposed for the system: sample-based and feature-based. Adapted into a semi-supervised learning method, it leverages the similarities among samples, including unlabeled ones, and the correlations between features within the fuzzy feature space, further improving the model's predictive performance in scenarios of small sample sizes and insufficient labeled samples.
(Català) En el camp del trasplantament d’òrgans, hi ha una bretxa crítica: la disponibilitat d’òrgans està molt per sota de la demanda, la qual cosa resulta en la mort de nombrosos receptors abans que puguin rebre un trasplantament. Recentment, les tecnologies d'intel·ligència artificial, especialment l'aprenentatge automàtic i l'aprenentatge profund, han mostrat un gran potencial per millorar la precisió en la selecció d’òrgans i la gestió de riscos post-trasplantament, però enfronten desafiaments com la interpretabilitat dels models, el desequilibri de dades, la mida reduïda dels conjunts de dades i la insuficiència de mostres etiquetades. Aquesta tesi es centra en l'aplicació i exploració de tècniques de soft computing en l'anàlisi i modelatge de dades de trasplantaments d’òrgans. Integrant aquestes tècniques amb models d'aprenentatge automàtic, aquest estudi busca desenvolupar nous enfocaments computacionals per abordar els principals desafiaments de dades en el domini del trasplantament d'òrgans. A través d'aquesta investigació, es pretén proporcionar una visió més profunda de l'anàlisi i el modelatge de dades en escenaris de trasplantament d'òrgans, oferint així un suport de decisió més precís i personalitzat per a metges i pacients. Aquesta tesi demostra com es pot millorar la interpretabilitat en els models d'aprenentatge automàtic (ML) per avaluar els riscos en el trasplantament d'òrgans, particularment abordant les llacunes en la comprensió de l'impacte de les característiques al llarg del temps de seguiment i en diferents subgrups de pacients. S’ha mostrat que el model d'Extreme Gradient Boosting (XGBoost) supera els punts de risc tradicionals i altres models de ML en diversos períodes de seguiment. Utilitzant les SHapley Additive exPlanations (SHAP), aquesta tesi proporciona una visió detallada de com les característiques específiques afecten dinàmicament a diferents subgrups de pacients durant aquests períodes, millorant així la interpretabilitat tant global com específica de subgrups en el context del trasplantament d'òrgans. Per abordar el desafiament prevalent del desequilibri de dades en el camp del trasplantament d’òrgans, es proposen dos mètodes nous basats en regles, Ad-RuLer i ARUST. Ad-RuLer millora la representació de classes minoritàries a través de la comparació iterativa de regles. Basant-se en això, ARUST refina encara més la segmentació de l’espai de mostres mitjançant l’agrupament de pics de densitat (DPC), augmentant la granularitat de la síntesi de dades. Simultàniament, millora la detecció i eliminació de mostres superposades i sorolloses, millorant així el rendiment de classificació de les mostres sintetitzades. Aquests mètodes superen les tècniques tradicionals de re-muestreig en la predicció de neoplàsies malignes sòlides de novo en receptors de trasplantament de fetge, demostrant la seva robustesa i capacitat per manejar dades desequilibrades de manera efectiva. Per abordar els problemes de mida reduïda de mostra i insuficiència de mostres etiquetades, la tesi presenta un sistema neuro-difús nou, D-DMR-FBLS. Aquest sistema integra Xarxes de Creences Profundes (DBN) i sistemes Takagi-Sugeno-Kang (TSK) dins del marc d’un Sistema d’Aprenentatge Ampli (BLS) per millorar la capacitat d’aprenentatge de representació durant la fase d’entrenament no supervisat (UTP). A més, es proposen dos tipus d’estratègies de regularització: basades en mostres i basades en característiques. Adaptat a un mètode d’aprenentatge semi-supervisat, aprofita les similituds entre les mostres, incloses les no etiquetades, i les correlacions entre característiques dins de l'espai de característiques difuses, millorant encara més el rendiment predictiu del model en escenaris de mides de mostra petites i mostres etiquetades insuficients.
(Español) En el campo del trasplante de órganos, existe una brecha crítica: la disponibilidad de órganos está muy por debajo de la demanda, lo que resulta en la muerte de numerosos receptores antes de que puedan recibir un trasplante. Recientemente, las tecnologías de inteligencia artificial, especialmente el aprendizaje automático y el aprendizaje profundo, han mostrado un gran potencial para mejorar la precisión en la selección de órganos y la gestión de riesgos post-trasplante, pero enfrentan desafíos como la interpretabilidad de los modelos, el desbalance de datos, el tamaño reducido de los conjuntos de datos y la insuficiencia de muestras etiquetadas. Esta tesis se centra en la aplicación y exploración de técnicas de computación blanda en el análisis y modelado de datos de trasplantes de órganos. Al integrar técnicas de computación blanda con modelos de aprendizaje automático, este estudio busca desarrollar nuevos enfoques computacionales para abordar los principales desafíos de datos en el dominio del trasplante de órganos. A través de esta investigación, se pretende proporcionar una visión más profunda del análisis y modelado de datos en escenarios de trasplante de órganos, ofreciendo así un soporte de decisión más preciso y personalizado para médicos y pacientes. Esta tesis demuestra cómo se puede mejorar la interpretabilidad en los modelos de aprendizaje automático (ML) para evaluar los riesgos en el trasplante de órganos, particularmente abordando las lagunas en la comprensión del impacto de las características a lo largo del tiempo de seguimiento y en diferentes subgrupos de pacientes. Se ha mostrado que el modelo de Extreme Gradient Boosting (XGBoost) supera a los puntajes de riesgo tradicionales y a otros modelos de ML en varios periodos de seguimiento. Utilizando las SHapley Additive exPlanations (SHAP), esta tesis proporciona una visión detallada de cómo las características específicas afectan dinámicamente a diferentes subgrupos de pacientes durante estos periodos, mejorando así la interpretabilidad tanto global como específica de subgrupos en el contexto del trasplante de órganos. Para abordar el desafío prevalente del desbalance de datos en el campo del trasplante de órganos, se proponen dos métodos novedosos basados en reglas, Ad-RuLer y ARUST. Ad-RuLer mejora la representación de clases minoritarias a través de la comparación iterativa de reglas. Basándose en esto, ARUST refina aún más la segmentación del espacio de muestras mediante el clustering de picos de densidad (DPC), aumentando la granularidad de la síntesis de datos. Simultáneamente, mejora la detección y eliminación de muestras superpuestas y ruidosas, mejorando así el rendimiento de clasificación de las muestras sintetizadas. Estos métodos superan a las técnicas tradicionales de re-muestreo en la predicción de nuevas malignidades sólidas en receptores de trasplante de hígado, demostrando su robusta capacidad para manejar datos desbalanceados de manera efectiva. Para abordar los problemas de tamaño reducido de muestra e insuficiencia de muestras etiquetadas, la tesis presenta un sistema neuro-difuso novedoso, D-DMR-FBLS. Este sistema integra Redes de Creencias Profundas (DBN) y sistemas Takagi-Sugeno-Kang (TSK) dentro del marco de un Sistema de Aprendizaje Amplio (BLS) para mejorar la capacidad de aprendizaje de representación durante la fase de entrenamiento no supervisado (UTP). Además, se proponen dos tipos de estrategias de regularización de variedad basadas en grafos para el sistema: basadas en muestras y basadas en características. Adaptado a un método de aprendizaje semi-supervisado, aprovecha las similitudes entre las muestras, incluidas las no etiquetadas, y las correlaciones entre características dentro del espacio de características difusas, mejorando aún más el rendimiento predictivo del modelo en escenarios de tamaños de muestra pequeños y muestras etiquetadas insuficientes.
004 - Informàtica; 616.3 - Patologia de l'aparell digestiu. Odontologia
Àrees temàtiques de la UPC::Informàtica; Àrees temàtiques de la UPC::Ciències de la salut
ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.