Caracterització bioinformàtica de la relació entre l'impacte molecular de les variants patogèniques i el fenotip clínic

Author

Marín Sala, Òscar

Director

de la Cruz i Montserrat, Xavier

Tutor

Enrique, Enrique

Date of defense

2017-07-19

ISBN

9788449073366

Pages

179 p.



Department/Institute

Universitat Autònoma de Barcelona. Departament de Bioquímica i Biologia Molecular

Abstract

L’adveniment de la seqüenciació de nova generació (NGS) promet canviar el paradigma de la medicina, però les dades provinents de la seqüenciació porten amb elles un conjunt de reptes tècnics i metodològics importants, i que dificulten la seva integració en la medicina de precisió. L’aprenentatge automàtic apareix com una possible solució a diversos d’aquests problemes, ja que és una eina molt potent capaç de processar i analitzar dades de gran complexitat. Aquesta tesi estudia temes clau per a la possible aplicació en clínica de les tècniques de NGS mitjançant eines bioinformàtiques i d’aprenentatge automàtic. En primer lloc, s’estudien les característiques moleculars i evolutives de les variants patogèniques compensades en altres espècies (CPD), i quin rang d’impacte fenotípic poden produir els CPD. En segon lloc, s’apliquen mètodes de xarxes neurals per la predicció de l’efecte de les variants puntuals patogèniques en la severitat de la malaltia, a partir d’atributs fisicoquímics i evolutius associats al canvi d’aminoàcid. S’usen les proteïnes F8 i F9 com a model. També s’analitzen les característiques de les variants que produeixen els efectes lleus i els severs de les malalties. Finalment, s’apliquen mètodes basats en arbres de decisió per crear una metodologia de predicció de les CPD a partir de variables que descriuen el canvi molecular i la relació evolutiva d’una posició amb les altres de la proteïna. Després s’usen aquests mètodes per buscar la presència de variants CPD en humans amb l’estudi dels individus seqüenciats a 1000G, i s'analitza si aquestes variants poden ser una fracció de l’incidentaloma.


The advent of Next Generation Sequencing (NGS) carries the promise to change medicine's paradigm, but sequencing data comes with a myriad of noticeable technical and methodological challenges. Those hurdles difficult the integration of NGS technologies in precision medicine. Machine Learning is a possible solution to some of those problems, as it is a powerful toolbox with algorithms capable of processing big and complex data. This thesis deals with key topics in the clinical application of NGS techniques using bioinformatics and machine learning methods. First, we study the molecular and evolutionary characteristics of variants known as compensated pathogenic deviations (CPD), which are pathological variants appearing as wild type in other organisms, and its associated phenotype impact. Second, we apply neural network models to predict the phenotype severity of pathological variants. We use physico-chemical and evolutionary attributes that describe the amino-acid change, using proteins F8 as F9 as our models. We also analyze the characteristics of variants associated to mild and severe versions of disease. Last, we apply methods based on decision trees to create a CPD prediction methodology from descriptors of the molecular change and the evolutionary relationship between positions in the protein sequence. We use those predictors to search for CPD variants within humans, studying the sequenced individuals from the 1000G project. We study the likelihood that those variants are a fraction of the incidentalome.

Keywords

Patogenitcitat; Patogenicidad; Pathogenicity; Genòmica; Genómica; Genomics; Aprenentatge automàtic; Aprendizaje automático; Machine learning

Subjects

577 - Biochemistry. Molecular biology. Biophysics

Knowledge Area

Ciències Experimentals

Documents

oms1de1.pdf

3.157Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)