Advanced methods and applications in phylogenetic tree generation and model interpretability

Author

Segura Alabart, Natàlia

Director

Serratosa Casanelles, Francesc d'Assís

Fernández Sabater, Alberto

Date of defense

2024-11-12

Pages

111 p.



Department/Institute

Universitat Rovira i Virgili. Departament d'Enginyeria Informàtica i Matemàtiques

Abstract

Els arbres filogenètics són diagrames que representen les relacions evolutives entre diverses entitats, com les espècies biològiques, basades en les semblances i diferències en les seves característiques. En aquests diagrames, els nodes representen elements individuals o tàxons, mentre que les branques representen les connexions evolutives entre ells. En aquest context, cal definir o analitzar mètodes específics basats en distàncies per determinar com creen un arbre filogenètic i entendre la història evolutiva que proporcionen. Aquesta tesi té dos objectius principals. El primer és investigar diferents algorismes basats en la distància aplicats en la creació i l'anàlisi d'arbres filogenètics, centrant-se en les implicacions dels llaços en la proximitat que poden conduir a ambigüitats en les estructures dels arbres filogenètics binaris. Analitzem com aquests arbres inexactes afecten la nostra comprensió de les relacions evolutives. L'anàlisi desenvolupada en aquesta tesi demostra que els llaços de proximitat dificulten la representació precisa de les històries evolutives, interpretacions potencialment enganyoses de les relacions filogenètiques. A més, proposem un nou mètode per a generar arbres filogenètics que abordi eficaçment els vincles en el problema de proximitat, millorant així la fiabilitat de la inferència evolutiva. El segon focus de la tesi és la interpretabilitat de Graph Convolutional Networks (GCNs), que són models avançats d'aprenentatge profund per a dades estructurades per grafs. Malgrat la seva eficàcia, els GCN són sovint criticats per la seva naturalesa de "caixa negra", plantejant reptes en transparència i confiança, especialment en aplicacions crítiques com l'atenció sanitària. Els generadors de mapes de rellevància (SMGs) ofereixen explicacions post-hoc per a les decisions dels GCNs ressaltant les característiques clau a les dades d'entrada. Investiguem l'eficàcia d'aquests mapes de rellevància i proposem mètriques per avaluar el seu rendiment, millorant així la interpretabilitat dels GCN.


Los árboles filogenéticos son diagramas que representan las relaciones evolutivas entre varias entidades, como las especies biológicas, basadas en los parecidos y diferencias en sus características. En estos diagramas, los nodos representan elementos individuales o taxones, mientras que las ramas representan las conexiones evolutivas entre ellos. En este contexto, hay que definir o analizar métodos específicos basados en distancias para determinar como crean un árbol filogenético y entender la historia evolutiva que proporcionan. Esta tesis tiene dos objetivos principales. El primero es investigar diferentes algoritmos basados en la distancia aplicados en la creación y el análisis de árboles filogenéticos, centrándose en las implicaciones de los lazos en la proximidad que pueden conducir a ambigüedades en las estructuras de los árboles filogenéticos binarios. Analizamos como estos árboles inexactos afectan nuestra comprensión de las relaciones evolutivas. El análisis desarrollado en esta tesis demuestra que los lazos de proximidad dificultan la representación precisa de las historias evolutivas, interpretaciones potencialmente engañosas de las relaciones filogenéticas. Además, proponemos un nuevo método para generar árboles filogenéticos que aborde eficazmente los vínculos en el problema de proximidad, mejorando así la fiabilidad de la inferencia evolutiva. El segundo foco de la tesis es la interpretabilitat de Graph Convolutional Networks (GCNs), que son modelos avanzados de aprendizaje profundo para datos estructurados por grafos. A pesar de su eficacia, los GCN son a menudo criticados por su naturaleza de "caja negra", planteando retos en transparencia y confianza, especialmente en aplicaciones críticas como la atención sanitaria. Los generadores de mapas de relevancia (SMGs) ofrecen explicaciones puesto-hoc para las decisiones de los GCNs resaltando las características clave a los datos de entrada. Investigamos la eficacia de estos mapas de relevancia y proponemos métricas para evaluar su rendimiento, mejorando así la interpretabilitat de los GCN.


Phylogenetic trees are diagrams that represent the evolutionary relationships among various entities, such as biological species, based on the similarities and differences in their characteristics. In these diagrams, nodes represent individual elements or taxa, while branches represent the evolutionary connections between them. In this context, specific distance-based methods need to be defined or analyzed to determine how they create a phylogenetic tree and understand the evolutionary history they provide. This thesis has two main goals. The first is to investigate different distance -based algorithms applied in the creation and analysis of phylogenetic trees, focusing on the implications of ties in proximity that can lead to ambiguities in binary phylogenetic tree structures. We analyze how these inexact trees affect our understanding of evolutionary relationships. The analysis developed in this thesis demonstrates that ties in proximity hinder the accurate representation of evolutionary histories, potentially misleading interpretations of phylogenetic relationships. Additionally, we propose a new method for generating phylogenetic trees that effectively addresses the ties in proximity problem, thereby enhancing the reliability of evolutionary inference. The second focus of the thesis is the interpretability of Graph Convolutional Networks (GCNs), which are advanced deep learning models for graph-structured data. Despite their efficacy, GCNs are often criticized for their "black box" nature, posing challenges in transparency and trust, especially in critical applications like healthcare. Saliency map generators (SMGs) offer post-hoc explanations for GCNs decisions by highlighting key features in the input data. We investigate the effectiveness of these saliency maps and propose metrics to evaluate their performance, thereby enhancing the interpretability of GCNs.

Keywords

Empats en proximitat; Mètodes basats en la distància; Mapes de saliència; Empates en proximidad; Métodos basados en la distancia; Mapas de saliencia; Ties in proximity; Distance-based methods; Saliency maps

Subjects

004 - Computer science; 575 - General genetics. General cytogenetics. Immunogenetics. Evolution. Phylogeny

Knowledge Area

Enginyeria i arquitectura

Documents

TESI Natàlia Segura Alabart.pdf

4.172Mb

 

Rights

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)