Universitat Politècnica de Catalunya. Departament de Ciències de la Computació
DOCTORAT EN INTEL·LIGÈNCIA ARTIFICIAL (Pla 2012)
(English) Recent developments in high-throughput analysis technologies have transformed biomedical research by generating extensive longitudinal and heterogeneous multi-omics data, including transcriptomics, proteomics, and metabolomics, measured at both bulk and single-cell levels. This data revolution has advanced precision medicine, moving beyond a "one-size-fits-all" approach toward personalized disease treatment by considering all available clinical and molecular information to deliver tailored therapies. While traditional single-omics studies provide valuable insights into cellular functions, they offer only partial perspectives of molecular mechanisms, overlooking the complementary information within different omics layers. Biological processes are interconnected and complex, and a comprehensive analysis of all data is vital for elucidating the molecular mechanisms underlying complex diseases and establishing novel treatment strategies in precision medicine. To enable such systems-level analysis, it is necessary to develop new artificial intelligence (AI) data integration (fusion) methods that provide a holistic view of the data, revealing deeper biological insights and identifying novel therapeutic targets. In this thesis, we develop three AI-based data integration frameworks to fuse and mine longitudinal multi-omics data and study complex diseases. These data include longitudinal bulk and single-cell transcriptomics, longitudinal bulk proteomics, longitudinal bulk metabolomics, and molecular interaction networks. First, we integrate the data and embed them into lower-dimensional spaces, producing gene embeddings that simplify the complexity of multi-omics data while preserving essential biological information. Then, we mine these gene embeddings to shed light on early Parkinson's disease (PD) development and senescence-escape in melanoma. We use two data integration frameworks on longitudinal PD multi-omics data to predict novel PD-associated genes that might cause PD and drive its progression, emphasize molecular mechanisms that could play crucial roles in PD pathogenesis, and propose new treatment strategies based on drug-repurposing (i.e., using an existing drug for a new treatment, for which it was not initially designed). Moreover, our methods reveal new PD genes that go beyond standard single-omics differential analyses, demonstrating that our joint and integrative analysis of multi-omics data provides a new and valuable perspective on the development of PD. We apply the last integration framework to longitudinal multi-omics data of three different mutant melanoma cell lines, which have been exposed to a combination of senescence-inducing inhibitors, to investigate the mechanisms by which cancer cells evade senescence, a vital process in cancer progression and treatment. Thus, we identify dysregulated pathways associated with the onset of senescence and its exit and predict novel genes that potentially contribute to senescence escape. Our methodological frameworks are versatile and could be applied to other diseases or processes where time is a critical factor. In addition, our integration algorithms could be easily adapted and extended to include other omics data during the fusion process, facilitating future methodological improvements and biological discoveries. Overall, this thesis offers significant methodological and biological contributions by proposing data integration frameworks that improve our understanding of complex diseases and provide a basis for future advances in precision medicine.
(Català) Els avenços recents en tecnologies d’anàlisi d’alt rendiment han transformat la recerca biomèdica en generar dades multi-òmiques longitudinals extenses i heterogènies, com la transcriptòmica, la proteòmica i la metabolòmica, mesurades tant a escala global com a nivell unicel·lular. Aquesta revolució de les dades ha impulsat la medicina de precisió, superant l’enfocament de "talla única" i avançant cap a tractaments personalitzats que integren tota la informació clínica i molecular disponible per oferir teràpies adaptades. Tot i que els estudis òmics tradicionals proporcionen informació valuosa sobre les funcions cel·lulars, només ofereixen una visió parcial dels mecanismes moleculars, passant per alt la informació complementària de les diferents capes òmiques. Atès que els processos biològics són interconnectats i complexos, és essencial realitzar una anàlisi exhaustiva de totes les dades per comprendre millor els mecanismes moleculars implicats en malalties complexes i desenvolupar noves estratègies terapèutiques en medicina de precisió. Per fer possible aquest tipus d’anàlisi a nivell de sistemes, cal desenvolupar nous mètodes d’integració de dades basats en intel·ligència artificial (IA) que proporcionin una visió holística de les dades, revelant coneixements biològics més profunds i identificant noves dianes terapèutiques. Aquesta tesi presenta tres models d’integració de dades basats en IA per fusionar i explorar dades multi-òmiques longitudinals en l’estudi de malalties complexes. Els conjunts de dades inclouen transcriptòmica longitudinal massiva i de cèl·lula única, proteòmica i metabolòmica longitudinal massiva i xarxes d’interacció molecular. En primer lloc, integrem aquestes dades i les representem en espais de dimensionalitat reduïda, generant incrustacions de gens que simplifiquen la complexitat de les dades multi-òmiques tot preservant-ne la informació biològica essencial. A continuació, explorem aquestes incrustacions per comprendre millor el desenvolupament inicial de la malaltia de Parkinson (PD) i l’escapament de la senescència en el melanoma. Apliquem dos models d’integració de dades a conjunts de dades longitudinals multi-òmiques de la PD per predir nous gens associats a la malaltia que podrien estar implicats en la seva aparició i progressió, identificar mecanismes moleculars rellevants per a la patogènesi de la PD i proposar estratègies terapèutiques basades en la reutilització de fàrmacs (és a dir, utilitzar un fàrmac existent per a una nova indicació terapèutica no prevista inicialment). A més, els nostres mètodes descobreixen nous gens relacionats amb la PD que van més enllà de les anàlisis òmiques tradicionals, demostrant que la integració de dades multi-òmiques ofereix una nova perspectiva sobre el desenvolupament de la malaltia. També apliquem el tercer model d’integració a dades multi-òmiques longitudinals de tres línies cel·lulars mutants de melanoma exposades a una combinació d’inhibidors inductors de senescència, per investigar els mecanismes mitjançant els quals les cèl·lules canceroses eviten aquest procés, fonamental en la progressió i el tractament del càncer. Això ens permet identificar vies moleculars desregulades associades a l’inici i sortida de la senescència i predir nous gens que podrien contribuir a l’escapament de la senescència. Els nostres models són versàtils i podrien aplicar-se a altres malalties o processos on el temps sigui un factor clau. A més, els nostres algorismes d’integració es poden adaptar i ampliar fàcilment per incloure altres dades òmiques en el procés de fusió, facilitant millores metodològiques i noves troballes en el futur. En conjunt, aquesta tesi fa contribucions metodològiques i biològiques significatives en proposar models d’integració de dades que milloren la comprensió de malalties complexes i serveixen com a base per a futurs avenços en medicina de precisió.
(Español) Los recientes avances en las tecnologías de análisis de alto rendimiento han transformado la ciencia biomédica al generar amplios datos multiómicos longitudinales y heterogéneos, como la transcriptómica, la proteómica y la metabolómica, medidos tanto a gran escala como a nivel unicelular. Esta revolución de los datos ha avanzado la medicina de precisión, superando el concepto de "talla única" y progresando hacia el tratamiento personalizado de las enfermedades mediante la consideración de toda la información clínica y molecular disponible para ofrecer terapias a medida. Si bien los estudios ómicos tradicionales brindan información útil sobre las funciones celulares, sólo ofrecen perspectivas parciales de los mecanismos moleculares, ignorando la información complementaria dentro de las diferentes capas ómicas. Los procesos biológicos están interconectados y complejos, por lo que un análisis de todos los datos es vital para elucidar los mecanismos moleculares implicados en enfermedades complejas y establecer nuevas estrategias de tratamiento en la medicina de precisión. Para realizar este tipo de análisis a nivel sistémico, es necesario desarrollar nuevos métodos de integración (fusión) de datos de inteligencia artificial (IA) que proporcionen una visión holística de los datos, revelando conocimientos biológicos más profundos e identificando nuevas dianas terapéuticas. En esta tesis, desarrollamos tres modelos de integración de datos basados en IA para fusionar y extraer datos multiómicos longitudinales y estudiar enfermedades complejas. Estos datos incluyen transcriptómica longitudinal masiva y unicelular, proteómica y metabolómica longitudinal masiva y redes de interacción molecular. Primero, integramos los datos y los incrustamos en espacios de menor dimensión, produciendo incrustaciones de genes que simplifican la complejidad de los datos multiómicos a la vez que preservan la información biológica esencial. Luego, exploramos estas incrustaciones de genes para iluminar el desarrollo temprano de la enfermedad de Parkinson (EP) y el escape de la senescencia en el melanoma. Usamos dos modelos de integración de datos sobre datos longitudinales multi-ómicos de la EP para predecir nuevos genes asociados a la EP que podrían causar la EP e impulsar su progresión, destacar los mecanismos moleculares que podrían tener roles cruciales en la patogénesis de la EP, y proponer nuevas estrategias de tratamiento basadas en la reutilización de fármacos (es decir, usar un fármaco existente para un tratamiento no previsto inicialmente). Además, nuestros métodos revelan nuevos genes de la EP que van más allá de los análisis diferenciales estándar de una sola ómica, demostrando que nuestro análisis conjunto e integrador de datos multi-ómicos ofrece una nueva y valiosa perspectiva sobre el desarrollo de la EP. Aplicamos el último modelo de integración a datos multi-ómicos longitudinales de tres líneas celulares de melanoma mutantes diferentes, expuestas a una combinación de inhibidores inductores de senescencia, para investigar los mecanismos por los cuales las células cancerosas evaden la senescencia, un proceso vital en la progresión y tratamiento del cáncer. Así, identificamos vías desreguladas asociadas con el inicio de la senescencia y su salida y predecimos nuevos genes que potencialmente contribuyen a escapar de la senescencia. Nuestros modelos metodológicos son versátiles y podrían aplicarse a otras enfermedades o procesos en los que el tiempo es un factor crítico. Además, nuestros algoritmos de integración podrían ser fácilmente adaptados y extendidos para incluir otros datos ómicos durante el proceso de fusión, facilitando futuras mejoras metodológicas y descubrimientos biológicos. En general, esta tesis ofrece notables contribuciones metodológicas y biológicas al proponer modelos de integración de datos que mejoran nuestra comprensión de enfermedades complejas y sirven como base para futuros avances en medicina de precisión.
bioinformatics; network biology; multi-omics; data integration; single-cell; precision medicine; machine learning; complex diseases
004 - Informàtica; 616 - Patologia. Medicina clínica. Oncologia
Àrees temàtiques de la UPC::Informàtica; Àrees temàtiques de la UPC::Enginyeria biomèdica
Tesi amb menció de Doctorat Internacional