Bioinformatics methods for the genomics and metabolomics analysis of immune-mediated inflammatory diseases

Author

Alonso, Arnald

Director

Julià Cano, Antoni

Codirector

Marsal Barril, Sara

Date of defense

2015-09-28

Pages

280 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament d'Enginyeria de Sistemes, Automàtica i Informàtica Industrial

Abstract

During the last decade, genomics have been widely used to the characterization of the molecular basis of common diseases. Genome-wide association studies (GWAS) have been highly successful in characterizing the genetic variation that influences human traits including the susceptibility to common diseases. In metabolomics, recent improvements of analytical technologies have enabled the analysis of complete metabolomic profiles. Using this approach, high-throughput metabolomics studies have already demonstrated a high potential for the discovery of disease biomarkers. The use of powerful high-throughput measurement technologies has resulted in the generation of large datasets of biological variation. In order to extract relevant biological information from this data, highly specialized bioinformatics methods are required. This thesis is focused on the development of new methodological tools to improve the processing of genomics and metabolomics high-throughput data. These new tools have been used in the analysis framework of the Immune-Mediated Inflammatory Diseases (IMIDs) Consortium. The IMID Consortium is a large Spanish network of biomedical researchers on autoimmune diseases, which holds one of the largest collections of biological samples from this group of diseases, as well as healthy controls. The first analysis tool that has been developed is a computationally efficient algorithm for simultaneous genotyping of single nucleotide polymorphisms (SNPs) and copy number variants (CNVs) using microarray data. This bioinformatics tool, called GStream, integrates the genotyping of both types of genomic variants into a single processing pipeline. We demonstrate that the developed algorithms provide a significant increase in genotyping accuracy and call rate when compared to previous algorithms. Using GStream, the researchers performing large-scale GWASs will not only benefit from the combined and fast genotyping of SNPs and CNVs but, more importantly, they will also improve the accuracy and therefore the statistical power of their studies. The second tool that was developed during this thesis was FOCUS, a bioinformatics framework that provides a complete data analysis workflow for high-throughput metabolomics studies based on one-dimensional nuclear magnetic resonance (NMR). FOCUS workflow includes quality control, peak alignment, peak picking and metabolite identification. The algorithms included in FOCUS were designed to overcome several technical challenges that can dramatically affect the quality of the results. FOCUS allows users to easily obtain high-quality NMR feature matrices, which are ready for chemometric analysis, as well as metabolite identification scores for each peak that greatly simplify the biological interpretation of the results. When tested against previous NMR data processing methodologies, FOCUS clearly showed a superior performance, even in datasets with high levels of spectral unalignment. he final research work included in this thesis is a GWAS in Crohn's disease (CD) clinical phenotypes. CD is the most prevalent chronic inflammatory disease of the bowel, and is characterized by segmental and transmural inflammation of the gastrointestinaltract. CD is a highly heterogeneous disease, with patients showing different degrees of severity. The identification of the genetic basis associated with disease severity is therefore a major objective in CD translational research. The present PhD thesis includes the first GWAS of clinically relevant phenotypes in CD. A total of 17 phenotypes associated with different clinical complications were analyzed. In this study, we identified new genetic regions significantly associated to complicated disease course, disease location, mild disease course, and erythema nodosum. These findings are of high relevance since they show the existence of a genetic component for disease heterogeneity that is independent of the genetic variation associated with susceptibility to CD.


Durant la darrera dècada, la genòmica ha jugat un paper clau en la caracterització de la base molecular de les malalties complexes. Els estudis d'associació de genoma complet (GWAS) han permès caracteritzar les regions genètiques que influencien fenotips humans tals com la susceptibilitat a desenvolupar malalties complexes. En metabolòmica, millores en les tecnologies analítiques han impulsat l'obtenció de perfils metabolòmics en grans cohorts de mostres. Els estudis resultants han demostrat també un gran potencial per a identificar biomarcadors d'utilitat en malalties humanes. L'aplicació de les tecnologies high-throughput permet generar grans conjunts de dades de variació biològica i l'extracció de la informació rellevant requereix l'aplicació de potents eines bioinformàtiques. Aquesta tesi es centra en el desenvolupament de nous mètodes per a millorar i agilitzar el processat de dades genòmiques i metabolòmiques high-throughput, així com la seva posterior implementació en forma d'aplicacions bioinformàtiques. Aquestes aplicacions s'han incorporat al flux d'anàlisi del consorci IMID (malalties inflamatòries mediades per immunitat). Aquest consorci és una xarxa espanyola d'investigadors biomèdics amb l'interès comú de l'estudi de malalties autoimmunes i disposa d'una de les col·leccions de mostres més extenses de pacients d'aquestes malalties. La primera eina bioinformàtica implementada consisteix en un conjunt d'algoritmes que integren el genotipat de polimorfismes de nucleòtid simple i variacions de nombre de còpies sobre dades de microarrays de genotipat. Aquesta eina, anomenada GStream, incorpora de forma eficient tot el flux d'anàlisi necessari per al genotipat en GWAS. S'ha demostrat que els algoritmes desenvolupats milloren significativament la precisió del genotipat i augmenten el nombre de variants genètiques identificades respecte a les metodologies anteriors. La utilització d'aquesta eina permet doncs ampliar el nombre de variants genètiques analitzades, incrementant de forma significativa el poder estadístic dels estudis genètics GWAS. La segona eina desenvolupada ha estat FOCUS. Es tracta d'una eina bioinformàtica integrada que inclou totes les etapes de processat d'espectres de ressonància magnètica nuclear per a estudis de metabolòmica. El flux d'anàlisi inclou el control de qualitat, l'alineament/quantificació de pics espectrals i la identificació dels metabolits associats als pics quantificats. Tots els algoritmes han estat dissenyats per a corregir els biaixos que limiten considerablement la qualitat dels resultats i que són un dels reptes tècnics de la metabolòmica actual. FOCUS obté una matriu numèrica d'alta qualitat llesta per a l'anàlisi quimiomètric, i genera uns scores d'identificació que simplifiquen la interpretació biològica dels resultats. FOCUS ha assolit un rendiment significativament superior al de metodologies prèvies. Aquesta tesi conclou amb el primer GWAS de fenotips clínics de malaltia de Crohn. Aquesta malaltia IMID és la malaltia inflamatòria intestinal de major prevalença i és molt heterogènia, amb pacients que presenten graus molt diferents de gravetat. La identificació de variants genètiques associades als fenotips d'aquesta malaltia és, per tant, un dels objectius més rellevants per a la investigació translacional. Un total de 17 fenotips han estat analitzats utilitzant cohorts de descobriment i validació per tal d'identificar i replicar loci de risc associats a cadascun d'ells. Els resultats de l'estudi han permès identificar, per primer cop, regions genètiques associades a l'evolució de la malaltia i a la seva localització. Aquests resultats són de gran rellevància ja que no tan sols han permès identificar noves vies biològiques associades a fenotips clínics, sinó que també demostren, per primer cop, la existència d'un component genètic de la heterogeneïtat a la malaltia de Crohn i que és independent de la variació genètica associada al risc de patir la malaltia.

Subjects

004 - Computer science and technology. Computing. Data processing; 517 - Analysis; 57 - Biological sciences in general

Documents

TAAP1de1.pdf

66.15Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/3.0/es/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/3.0/es/

This item appears in the following Collection(s)