Exploring genomic datasets through machine learning methods leveraging high-performance computing

Autor/a

Gómez Sánchez, Gonzalo

Director/a

Berral García, Josep Lluís

Codirector/a

Carrera Pérez, David

Data de defensa

2024-07-10

Pàgines

112 p.



Departament/Institut

Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors

Programa de doctorat

DOCTORAT EN ARQUITECTURA DE COMPUTADORS (Pla 2012)

Resum

(English) In recent years, the exponential increase of generated data has raised the need for implementing new methodologies to process the huge datasets being created. High-Performance Computing (HPC) brings together a set of technologies mainly based on parallel computing that help reduce the time expended analyzing these datasets. A research field where these technologies are needed is Computational Genomics. Furthermore, the complexity of the genomic datasets limits the use of basic conventional methods for the discovery of complex significant relations, introducing the need for Machine learning (ML) algorithms and robust statistical methods to better classify these variants. In the first part of the thesis, we aim to identify complex patterns of somatic genomic rearrangements in cancer samples, which are triggered by internal cellular processes and environmental factors. The problem of classification becomes particularly challenging when considering thousands of rearrangements at a time, often composed of multiple DNA breaks, increasing the difficulty in classifying and interpreting them functionally. Here we present a new statistical approach to analyze structural variants (SVs) from 2,392 tumor samples from the Pan-Cancer Analysis of Whole Genomes (PCAWG) Consortium and identify significant recurrence. The proposed methodology is able not only to identify complex patterns of SVs across different cancer types but also to prove them as not random occurrences, identifying a new class of pattern composed of three SVs that was not previously described. In the second part of the thesis, we approach another challenge of human genetics, which is the study of the relation between single nucleotide variants (SNVs) and complex diseases, such as Type 2 Diabetes, Asthma, or Alzheimer's. The study of these disease-variant associations is usually performed in a single independent manner, disregarding the possible effect derived from the interaction between genomic variants. Here, we have created a containerized framework that uses Multifactor Dimensionality Reduction (MDR) to detect combinations of variants associated with Type 2 Diabetes (T2D), called Variant Interaction Analysis (VIA). This methodology has been tested in the Northwestern University NUgene project cohort using a subset of 1,883,192 variant pairs with some degree of association with T2D and identifying a subset of 104 significant pairs, two exhibiting a potential functional relationship with T2D. The developed algorithm has been released in an open-source repository, including the containerized HPC framework, which can be used to search for significant pairwise interactions in other datasets. In both frameworks developed within the thesis, the use of large-scale supercomputing architectures has been a hard requirement to find relevant clinical indicators. To ensure open and broad access to HPC technologies, governments, and academia are pushing toward the introduction of novel computing architectures in large-scale scientific environments. This is the case of RISC-V, an emerging open standard instruction-set architecture. To evaluate such technologies, in the last two parts of the thesis, we propose the use of our VIA use case as a benchmarking, providing the first genomic application for RISC-V. With this use case, we provide a representative case for heavy ETL (Extract, Transform, Load) data processing. We developed a version of the VIA workload for RISC-V and adapted our implementation in x86-based supercomputers (e.g. Marenostrum IV at the Barcelona Supercomputing Center (BSC)) to make a fair comparison with RISC-V, since some technologies are not available there. With this benchmark, we have been able to indicate the challenges and opportunities for the next RISC-V developments and designs to come, from a first comparison between x86 and RISC-V architectures on genomic workload executions over real hardware implementations.


(Català) En els darrers anys, l'augment exponencial de les dades que s'estan generant ha suposat la necessitat d'implementar noves metodologies per processar els enormes conjunts de dades que s'estan creant. La Computació d'Alt Rendiment o High-Performance Computing (HPC) reuneix un conjunt de tecnologies basades principalment en computació paral·lela, que ajuden a reduir el temps dedicat a analitzar aquests conjunts de dades. Un camp de recerca on calen aquestes tecnologies és la Genòmica Computacional. A més, la complexitat dels conjunts de dades genòmiques limita l'ús de mètodes convencionals bàsics per al descobriment de relacions significatives complexes, fet que introdueix la necessitat d'algorismes d'aprenentatge automàtic o Machine Learning (ML) i mètodes estadístics sòlids. A la primera part de la tesi, el nostre objectiu és identificar patrons complexos de reordenaments genòmics somàtics en mostres de càncer. La dificultat de la classificació rau en l'ocurrència de milers de reordenaments alhora, sovint compostos per múltiples trencaments d'ADN. Aquí presentem un nou enfocament estadístic per analitzar variants estructurals (SV) de 2392 mostres de tumors del Consorci d'Anàlisi Pan-Càncer de Genomes Complets (PCAWG) i identificar-ne una recurrència significativa. La metodologia proposada no sols és capaç d'identificar patrons complexos de SV en diferents tipus de càncer, sinó també de demostrar que no són esdeveniments aleatoris, identificant una nova classe de patró compost per tres SV que no es va descriure anteriorment. A la segona part de la tesi abordem un altre repte de la genètica humana, que és l'estudi de la relació entre variants d'un sol nucleòtid (SNV) i malalties complexes, com ara la diabetis tipus 2, l'asma o l'Alzheimer. L'estudi d'aquestes associacions malaltia-variant se sol fer de manera única i independent. Tot i això, aquí hem creat un algorisme que utilitza la reducció de dimensionalitat multifactorial (MDR) per detectar combinacions de variants associades amb la diabetis tipus 2 (T2D). Aquesta metodologia s'ha provat a la cohort del projecte NUgene de la Universitat Northwestern utilitzant 1.883.192 parells de variants amb algun grau d'associació amb la diabetis tipus 2 i identificant un subconjunt de 104 parells significatius, dos dels quals exhibeixen una possible relació funcional amb la diabetis tipus 2. L'algoritme es va publicar en un repositori de codi obert, i es va poder utilitzar per buscar interaccions per parells significatives en altres conjunts de dades. En tots dos marcs desenvolupats dins de la tesi, l'ús d'arquitectures de supercomputació a gran escala ha estat necessari. Per garantir un accés obert a les tecnologies HPC, els governs i el món acadèmic estan impulsant la introducció d'arquitectures informàtiques noves en entorns científics a gran escala. Aquest és el cas del RISC-V, una arquitectura de conjunt d'instruccions estàndard oberta. Per avaluar aquestes tecnologies, a les dues darreres parts de la tesi, proposem l'ús del nostre cas d'ús VIA com a punt de referència, proporcionant la primera aplicació genòmica per a RISC-V. Amb aquest cas dús, proporcionem un cas representatiu per al processament pesant de dades ETL (Extracció, Transformació, Càrrega). Desenvolupem una versió de la càrrega de treball VIA per a RISC-V i adaptem la nostra implementació en superordinadors basats en x86 (per exemple, Marenostrum IV al Barcelona Supercomputing Center (BSC)) per fer una comparació justa amb RISC-V, ja que algunes tecnologies no estan disponibles. Amb aquest benchmark, hem pogut indicar els desafiaments i les oportunitats per als propers desenvolupaments i dissenys de RISC-V, a partir d'una primera comparació entre les arquitectures x86 i RISC-V en execucions de càrregues de treball genòmiques sobre implementacions de maquinàries reals.


(Español) En los últimos años, el aumento exponencial de los datos que están siendo generados ha supuesto la necesidad de implementar nuevas metodologías para procesar los enormes conjuntos de datos que se están creando. La Computación de Alto Rendimiento o High-Performance Computing (HPC) reúne un conjunto de tecnologías basadas principalmente en computación paralela, que ayudan a reducir el tiempo dedicado a analizar estos conjuntos de datos. Un campo de investigación donde se necesitan estas tecnologías es la Genómica Computacional. Además, la complejidad de los conjuntos de datos genómicos limita el uso de métodos convencionales básicos para el descubrimiento de relaciones significativas complejas, lo que introduce la necesidad de algoritmos de aprendizaje automático o Machine Learning (ML) y métodos estadísticos sólidos. En la primera parte de la tesis, nuestro objetivo es identificar patrones complejos de reordenamientos genómicos somáticos en muestras de cáncer. La dificultad de la clasificación reside en la ocurrencia de miles de reordenamientos a la vez, a menudo compuestos por múltiples roturas de ADN. Aquí presentamos un nuevo enfoque estadístico para analizar variantes estructurales (SV) de 2392 muestras de tumores del Consorcio de Análisis Pan-Cáncer de Genomas Completos (PCAWG) e identificar una recurrencia significativa. La metodología propuesta no solo es capaz de identificar patrones complejos de SV en diferentes tipos de cáncer, sino también de demostrar que no son sucesos aleatorios, identificando una nueva clase de patrón compuesto por tres SV que no se describió anteriormente. En la segunda parte de la tesis abordamos otro reto de la genética humana, que es el estudio de la relación entre variantes de un solo nucleótido (SNV) y enfermedades complejas, como la diabetes tipo 2, el asma o el Alzheimer. El estudio de estas asociaciones enfermedad-variante se suele realizar de forma única e independiente. Sin embargo, aquí hemos creado un algoritmo que utiliza la reducción de dimensionalidad multifactorial (MDR) para detectar combinaciones de variantes asociadas con la diabetes tipo 2 (T2D). Esta metodología se ha probado en la cohorte del proyecto NUgene de la Universidad Northwestern utilizando 1.883.192 pares de variantes con algún grado de asociación con la diabetes tipo 2 e identificando un subconjunto de 104 pares significativos, dos de los cuales exhiben una posible relación funcional con la diabetes tipo 2. El algoritmo se publicó en un repositorio de código abierto, pudiéndose utilizar para buscar interacciones por pares significativas en otros conjuntos de datos. En ambos marcos desarrollados dentro de la tesis, el uso de arquitecturas de supercomputación a gran escala ha sido un requisito necesario. Para garantizar un acceso abiertoa las tecnologías HPC, los gobiernos y el mundo académico están impulsando la introducción de arquitecturas informáticas novedosas en entornos científicos a gran escala. Este es el caso de RISC-V, una arquitectura de conjunto de instrucciones estándar abierta. Para evaluar dichas tecnologías, en las dos últimas partes de la tesis, proponemos el uso de nuestro caso de uso VIA como punto de referencia, proporcionando la primera aplicación genómica para RISC-V. Con este caso de uso, proporcionamos un caso representativo para el procesamiento pesado de datos ETL (Extracción, Transformación, Carga). Desarrollamos una versión de la carga de trabajo VIA para RISC-V y adaptamos nuestra implementación en supercomputadoras basadas en x86 (por ejemplo, Marenostrum IV en el Barcelona Supercomputing Center (BSC)) para hacer una comparación justa con RISC-V, ya que algunas tecnologías no están disponibles. allá. Con este benchmark, hemos podido indicar los desafíos y oportunidades para los próximos desarrollos y diseños de RISC-V, a partir de una primera comparación entre las arquitecturas x86 y RISC-V en ejecuciones de cargas de trabajo genómicas sobre implementaciones de hardware reales.

Matèries

004 - Informàtica; 575 - Genètica general. Citogenètica general. Immunogenètica. Evolució. Filogènia

Àrea de coneixement

Àrees temàtiques de la UPC::Informàtica

Documents

TGSG1de1.pdf

12.76Mb

Drets

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

Aquest element apareix en la col·lecció o col·leccions següent(s)