Binary pathogenicity classification of missense variants through development of quantitative protein-specific predictors

Author

Özkan, Selen

Director

Cruz, Xavier de la

Tutor

Gelpi Buchaca, Josep Lluís

Date of defense

2023-12-01

Pages

229 p.



Department/Institute

Universitat de Barcelona. Facultat de Biologia

Abstract

[eng] Precision medicine aims to provide personalized patient care using genetic data. However, interpreting the phenotypic consequences of genetic variants remains a bottleneck in both clinical and research settings. Computational methods available mostly focus on predicting the binary impact of protein sequence variants (benign/pathogenic). Despite their high predictive power, there still are limitations that affect their reliability. New research efforts are made for approaching the variant prediction problem from a completely different angle: continuous prediction of the molecular impact of variants comparable to the functional assay values. The work in this thesis belongs to this new paradigm. We start by reviewing the status of the pathogenicity predictors to understand their nature, progress, and limitations. We follow this review by focusing on prediction models for two important tumor suppressor genes involved in hereditary breast and ovarian cancers: BRCA1 and BRCA2. We developed two protein-specific predictors for BRCA1 and BRCA2 proteins trying several regression techniques. Using a small set of features and training sets, we show the potential of regression approaches for addressing the prediction of the quantitative impact of variants. These studies led to the main goal of this thesis project: the development of a novel approach for predicting the clinical impact of missense variants based on a fundamental formulation of the problem. First, we train a series of 30 protein-specific regression models using the deep mutational scanning experiments available in the literature and a set of sequence- and structure (AlphaFold)-based input features. We show that our models’ performances display significant predictive ability. Second, we extend this protein-specific approach to the clinical genome by developing a general Ensemble Learning based-predictor. For a given variant, this model combines the predictions of a set of representative protein-specific predictors by simply taking their medians. When compared against predictors with similar nature, such as ENVISION, our model showed higher Pearson’s correlations for most of the cases in our dataset. Lastly, we address the final goal of the project: generating binary outcomes from our Ensemble model. The result was subject to a rigorous testing of the resulting methodology in an independent validation dataset against top ranking in silico tools in the field. We see that our methodology reaches a predictive level comparable to that of established binary methods, like REVEL or others. In summary, we show that our approach can be useful for predicting the molecular impact of variants and their potential binary status while keeping a high potential for interpretability.


[spa] La medicina de precisión tiene como objetivo brindar atención personalizada al paciente usando datos genéticos. Sin embargo, interpretar las consecuencias fenotípicas de las variantes genéticas sigue siendo un obstáculo tanto en el ámbito clínico como en el de investigación. Los métodos computacionales actuales se centran principalmente en predecir el impacto binario (benigna/patógenica) de las variantes de la secuencia de las proteínas. Pero a pesar de su alto poder predictivo, todavía existen limitaciones que afectan a su fiabilidad. Por ello, se están realizando nuevos esfuerzos de investigación para abordar el problema de la predicción de variantes desde un ángulo diferente: obtener una predicción continua del impacto molecular de variantes comparable a los valores de los ensayos funcionales. El trabajo de esta tesis pertenece a este nuevo paradigma. Comenzamos revisando el estado de los predictores de patogenicidad para comprender su naturaleza, progreso y limitaciones. Continuamos esta revisión centrándonos en los modelos de predicción de dos importantes genes supresores de tumores implicados en el cáncer de mama y de ovario hereditario: BRCA1 y BRCA2. Finalmente, desarrollamos dos predictores específicos de proteínas para BRCA1 y BRCA2 probando varias técnicas de regresión. Utilizando un pequeño conjunto de características descriptivas y conjuntos de entrenamiento, mostramos el potencial de las técnicas de regresión para abordar la predicción del impacto cuantitativo de las variantes. Estos estudios me prepararon para abordar el principal objetivo de esta tesis: el desarrollo de una nueva aproximación para predecir el impacto clínico de las variantes sin sentido basado en una formulación fundamental del problema. Primero, entrenamos una serie de 30 modelos de regresión específicos de proteínas utilizando los experimentos de escaneo mutacional profundo disponibles en la literatura y un conjunto de características descriptivas basadas en secuencia y estructura (AlphaFold). A continuación, mostramos que nuestros modelos tienen una mayor y significativa capacidad predictiva. En segundo lugar, ampliamos esta aproximación específica de proteínas al genoma clínico mediante el desarrollo de un predictor general tipo Ensemble. Para una variante determinada, este modelo combina las predicciones de un conjunto de predictores específicos de proteínas representativos simplemente tomando sus medianas. En comparación con predictores de naturaleza similar, como ENVISION, nuestro modelo mostró mejores correlaciones de Pearson para la mayoría de los casos de nuestro conjunto de datos. Por último, abordamos el objetivo final del proyecto: generar una predicción binaria a partir de nuestro modelo Ensemble. Evaluamos dichas predicciones con un riguroso test con un conjunto de datos de validación independiente y lo comparamos con las mejores herramientas in silico del campo. Los resultados nos muestran que nuestra metodología alcanza un nivel predictivo comparable al de los métodos binarios establecidos, como REVEL u otros. En resumen, mostramos que nuestra aproximación puede ser útil para predecir el impacto molecular de las variantes y su correspondiente estado binario, manteniendo un alto potencial de interpretabilidad.

Keywords

Ciències de la salut; Ciencias biomédicas; Medical sciences; Medicina personalitzada; Medicina Individualizada; Personalized medicine; Fenotip; Fenotipo; Phenotype; Bioinformàtica; Bioinformática; Bioinformatics; Aprenentatge automàtic; Aprendizaje automático; Machine learning

Subjects

575 - General genetics. General cytogenetics

Knowledge Area

Ciències Experimentals i Matemàtiques

Note

Programa de Doctorat en Biomedicina

Documents

SO_PhD_THESIS.pdf

24.03Mb

 

Rights

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)