Towards a linearly organized embedding space of biological networks

Autor/a

Xenos, Alexandros

Director/a

Przulj, Natasa

Tutor/a

Larrosa Bondia, Francisco Javier

Fecha de defensa

2024-02-02

Páginas

131 p.



Departamento/Instituto

Universitat Politècnica de Catalunya. Departament de Ciències de la Computació

Programa de doctorado

DOCTORAT EN INTEL·LIGÈNCIA ARTIFICIAL (Pla 2012)

Resumen

(English) The recent technological advances in high-throughput sequencing have yielded vast amounts of large-scale biological omics data that describe different aspects of cellular functioning. These omics data are typically modelled and analyzed as networks. Due to the high dimensionality of biological networks, embeddings are a cornerstone in the analysis of such complex networks. Embedding biological networks is challenging, as it involves capturing both topological (similar wiring patterns) and neighborhood-based similarity of the nodes. However, current network embedding algorithms do not preserve both types of similarity, which limits the information preserved in the embedding space. Moreover, the existing methods for analyzing the embedding space of molecular networks use the vectors of the biological entities as the input for computationally intensive ML models that aid downstream analysis tasks. In contrast, in the field of NLP, they mine the word embedding space directly by doing simple linear operations between the word embedding vectors. In this thesis, following the NLP paradigm, we mine biological knowledge directly from the embedding space, and we identify the properties of a space that make it suitable for linear operations. In network biology, Non-Negative Matrix Tri Factorization (NMTF) is extensively used to embed networks in a low-dimensional space because it is an explainable AI method that also enables the joint representation of different networks in a shared space. We demonstrate the power of the NMTF-based data integration in the context of COVID-19 by applying two integration frameworks to identify COVID-19 related genes and prioritize drugs for repurposing targeting their gene products. Our newly identified genes could not have been identified with either network-medicine or differential expression based approaches that rely on a single type of omic data. Then, to extract new biological knowledge based on linear operations, we introduce two NLP inspired network representations: the Positive Pointwise Mutual Information (PPMI) matrix and the Graphlet Degree Vector (GDV) PPMI matrix. The PPMI matrix captures the neighborhood-based similarities of the nodes based on random walks between adjacent nodes, while the GDV PPMI matrix, the topological ones by using random walks between similarly wired nodes, independent of being adjacent. As a showcase, we represent the nodes of the human PPI network with our GDV PPMI and PPMI matrix and generate the embedding spaces by factorizing these matrices with NMTF. We show that genes embedded close in these spaces have similar biological functions, so we can extract new biomedical knowledge directly by doing linear operations on their embedded vectors. We exploit this property to predict genes participating in protein complexes and to identify cancer-related genes based on the cosine similarities between the vector representations of the genes. We also go beyond embeddings that preserve one type of similarity by introducing novel random-walk based network embeddings that incorporate the graphlets (small, connected and induced subgraphs) into DeepWalk and LINE methods. We use the graphlets that leverage both topological and neighbourhood-based similarity as the context for the random walks. In a graphlet-based random walk, a node can visit any other nodes that simultaneously participate in the given graphlet. We show that in the graphlet-based representations of the networks, more adjacent nodes have the same label (i.e., the nodes are grouped in a more homophilic way) than in the standard random walk representations. Then we factorize these matrices with NMTF and show that the more homophilic the network representation, the more functionally organized is the corresponding embedding space, and thus the downstream analysis tasks are better. Our new graphlet-based methodologies embed networks in linear spaces, alleviating the need for computationally expensive ML methods.


(Español) Con los recientes avances tecnológicos en técnicas de secuenciación masiva, hemos sido inundados con vastas cantidades de datos biológicos omics a gran escala que describen diferentes aspectos del funcionamiento celular. Estos datos omics suelen modelarse y analizarse como redes. Los nodos de la red representan entidades biológicas y los enlaces representan la relación entre estas entidades. Debido a la alta dimensionalidad de las redes biológicas, se utiliza un paso de preprocesamiento que mapea (“embed”) la red en un espacio de baja dimensionalidad. Embeddings de redes biológicas es desafiante, ya que implica capturar la similitud topológica como la de vecindario (proximidad de los nodos en la red). Sin embargo, las técnicas actuales de embeddings de redes conservan una de los dos similitudades, lo que limita la información capturada en el espacio de embedding. Además, los métodos para analizar datos omics modelados como redes utilizan los embedded vectores de las entidades biológicas como entrada para sistemas de aprendizaje automático (“ML”) intensivos en computación que ayudan en tareas de análisis posteriores. Por otro lado, en el campo del Procesamiento del Lenguaje Natural (PLN), se explora directamente el espacio de palabras mediante operaciones lineales entre los embedding vectores de palabras. En esta tesis, inspirados del PLN, exploramos cómo extraer información biológica directamente el espacio d-dimensional de redes. En la biología de redes, la Tri Factorización de Matrices No Negativas (NMTF, por sus siglas en inglés) se utiliza ampliamente para representar redes en un espacio de baja dimensionalidad porque es un método de IA explicativo que también permite la representación conjunta de diferentes redes en un espacio compartido. Demostramos el poder de la integración de datos basada en NMTF en el contexto de la COVID-19. Aplicamos dos marcos de integración para identificar genes relacionados con la COVID-19 y priorizar medicamentos para su reutilización dirigidos a los productos génicos. Nuestros genes recién identificados no podrían haberse identificado mediante enfoques basados en medicina de red o en expresión diferencial que dependen de un solo tipo de datos omics. Ademas presentamos dos representaciones de redes inspiradas en el PLN: la matriz GDV PPMI y la matriz PPMI. La matriz GDV PPMI captura las similitudes topológicas entre los nodos basa en caminatas aleatorias entre nodos conectados de manera similar y la matriz PPMI las similitudes basadas en el vecindario basa en caminatas aleatorias entre nodos adyacentes. Como ejemplo, representamos los nodos de la red de PPI humana con nuestras matrices GDV PPMI y PPMI, y generamos espacios de “embedding” mediante la factorización de estas matrices con NMTF. Demostramos que las proteínas que interactúan en la red PPI y las proteínas conectadas de manera similar tienen incrustaciones similares basadas en las factorizaciones de PPMI y GDV-PPMI, respectivamente. Explotamos esta organización funcional de estos espacios para asignar proteínas a complejos proteicos basándonos en las distancias entre estas entidades en el espacio vectorial identificando, de ese modo, nuevos genes relacionados con cancer. También vamos más allá de las embeddings que preservan un tipo de similitud al introducir novedosas embeddings de red basadas en caminatas aleatorias que incorporan los graphlets (subgrafos pequeños, conectados e inducidos) en los métodos DeepWalk y LINE. Utilizamos los graphlets que aprovechan tanto la similitud topológica como la basada en el vecindario como contexto para las caminatas aleatorias. En una caminata aleatoria basada en graphlet, un nodo puede visitar cualquier otro nodo que participe simultáneamente en el graphlet dado. Mostramos que, en las representaciones basadas en graphlet de las redes, más nodos adyacentes tienen la misma etiqueta (i.e., los nodos se agrupan de manera más homofílica) que en las representaciones de caminatas aleatorias.

Materias

004 - Informática; 512 - Álgebra; 57 - Biología

Área de conocimiento

Àrees temàtiques de la UPC::Informàtica; Àrees temàtiques de la UPC::Matemàtiques i estadística

Documentos

TAX1de1.pdf

15.02Mb

 

Derechos

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

Este ítem aparece en la(s) siguiente(s) colección(ones)