Universitat Autònoma de Barcelona. Departament de Bioquímica i Biologia Molecular
L’adveniment de la seqüenciació de nova generació (NGS) promet canviar el paradigma de la medicina, però les dades provinents de la seqüenciació porten amb elles un conjunt de reptes tècnics i metodològics importants, i que dificulten la seva integració en la medicina de precisió. L’aprenentatge automàtic apareix com una possible solució a diversos d’aquests problemes, ja que és una eina molt potent capaç de processar i analitzar dades de gran complexitat. Aquesta tesi estudia temes clau per a la possible aplicació en clínica de les tècniques de NGS mitjançant eines bioinformàtiques i d’aprenentatge automàtic. En primer lloc, s’estudien les característiques moleculars i evolutives de les variants patogèniques compensades en altres espècies (CPD), i quin rang d’impacte fenotípic poden produir els CPD. En segon lloc, s’apliquen mètodes de xarxes neurals per la predicció de l’efecte de les variants puntuals patogèniques en la severitat de la malaltia, a partir d’atributs fisicoquímics i evolutius associats al canvi d’aminoàcid. S’usen les proteïnes F8 i F9 com a model. També s’analitzen les característiques de les variants que produeixen els efectes lleus i els severs de les malalties. Finalment, s’apliquen mètodes basats en arbres de decisió per crear una metodologia de predicció de les CPD a partir de variables que descriuen el canvi molecular i la relació evolutiva d’una posició amb les altres de la proteïna. Després s’usen aquests mètodes per buscar la presència de variants CPD en humans amb l’estudi dels individus seqüenciats a 1000G, i s'analitza si aquestes variants poden ser una fracció de l’incidentaloma.
The advent of Next Generation Sequencing (NGS) carries the promise to change medicine's paradigm, but sequencing data comes with a myriad of noticeable technical and methodological challenges. Those hurdles difficult the integration of NGS technologies in precision medicine. Machine Learning is a possible solution to some of those problems, as it is a powerful toolbox with algorithms capable of processing big and complex data. This thesis deals with key topics in the clinical application of NGS techniques using bioinformatics and machine learning methods. First, we study the molecular and evolutionary characteristics of variants known as compensated pathogenic deviations (CPD), which are pathological variants appearing as wild type in other organisms, and its associated phenotype impact. Second, we apply neural network models to predict the phenotype severity of pathological variants. We use physico-chemical and evolutionary attributes that describe the amino-acid change, using proteins F8 as F9 as our models. We also analyze the characteristics of variants associated to mild and severe versions of disease. Last, we apply methods based on decision trees to create a CPD prediction methodology from descriptors of the molecular change and the evolutionary relationship between positions in the protein sequence. We use those predictors to search for CPD variants within humans, studying the sequenced individuals from the 1000G project. We study the likelihood that those variants are a fraction of the incidentalome.
Patogenitcitat; Patogenicidad; Pathogenicity; Genòmica; Genómica; Genomics; Aprenentatge automàtic; Aprendizaje automático; Machine learning
577 - Biochemistry. Molecular biology. Biophysics
Ciències Experimentals