Bayesian neural networks to predict aging and disease risk

Author

Alfonso Pérez, Gerardo

Director

González Ruiz, Juan Ramón

Tutor

Santos, Mauro

Date of defense

2019-11-15

ISBN

9788449092732

Pages

129 p.



Department/Institute

Universitat Autònoma de Barcelona. Departament de Genètica i de Microbiologia

Abstract

Ha habido un mayor enfoque en la medicina personalizada en los últimos años. Las mejoras tecnológicas significativas en las últimas décadas han generando una explosión en los datos disponibles y esto ha sido uno de los impulsores de la expansión de la medicina personalizada. Por ejemplo, la cantidad de datos de metilación del ADN, así como los datos SNP disponibles, ha aumentado considerablemente. Esta tesis se centra en las técnicas de análisis de estos datos aplicados al campo del envejecimiento, así como a la detección de enfermedades, más concretamente para la identificación del cáncer y la diabetes. Se mostrará que el uso de un enfoque de dos pasos que consiste en una primera etapa en la que la dimensionalidad de los datos se reduce por algoritmos como Elastic Net, seguido de una técnica de predicción robusta como Bayesian Neural Networks es una opción viable que genera una pronóstico preciso. Otro algoritmo que también se utilizó para la detección de enfermedades son las máquinas de soporte vectoriales y los KNN. Esta disertación se puede dividir en tres secciones principales con la primera sección cubriendo el tema de los relojes biológicos utilizando datos de metilación del ADN y la reducción de la dimensionalidad mencionada anteriormente combinada con las redes neuronales bayesianas. El reloj biológico presentado en esta disertación genera previsiones de edad que son más precisas que algunos relojes existentes conocidos. Esta mejora se logra mediante el uso de un algoritmo no lineal. La segunda sección cubre el tema de la identificación del cáncer utilizando, como en el caso anterior, los datos de metilación del ADN y las máquinas de soporte vectoriales , así como el algoritmo KNN. Se mostrará que para una gran cantidad de diferentes tipos de cáncer, como pulmón, colon, cervical o vejiga, el uso de datos de metilación de ADN junto con SVM genera pronósticos precisos. Otros algoritmos, como por ejemplo los KNN, también se utilizaron con fines de detección de cáncer. La última sección cubre el estudio de la diabetes utilizando en este caso los datos de SNPs y las redes neuronales bayesianas que también generaron una detección precisa de la diabetes. Dada la cantidad cada vez mayor de datos de metilación de ADN, así como los datos de SNP disponibles, así como los avances en el almacenamiento de datos, existe una creciente necesidad de tener métodos más adecuados y sofisticados para analizar dichos datos. Una de las suposiciones básicas de esta tesis es que la relación entre la metilación del ADN y el envejecimiento y el cáncer, así como entre los SNP y la diabetes no necesariamente necesitan seguir un modelo lineal y, por lo tanto, modelos no lineales, como las redes neuronales bayesianas, pueden generar resultados más precisos. Se demostrará que este es el caso con modelos que generan resultados bastante precisos.


There has been an increased focus on personalized medicine in recent times. Significant technological improvements in the last few decades generating an explosion in the data available has been one the drivers of the expansion of this field. For instance, the amount of DNA methylation data as well as SNPs data available has increased very substantially. This dissertation focuses on the developments of techniques for analyzing that data applied to the field of aging as well of illness detection, more specifically for cancer and diabetes identification. It will be shown that using a two-step approach consisting of a first stage in which the dimensionality of the data is reduced using algorithms such as Elastic Net, followed with a robust forecasting techniques such as Bayesian Neural Networks is a viable option generating accurate forecast. Other algorithm were also used for illness detection such as Support Vector Machines as well as K-Nearest Neighbors. This dissertation can be divided into three main sections with the first section covering the topic of biological clocks using DNA methylation data and the previously mentioned reduction of dimensionality combined with Bayesian Neural Networks. The biological clock presented in this dissertation generates age forecasts that are more accurate than some well-known existing clocks. This improvement is accomplished by using a non-linear algorithm. The second section covers the issue of cancer identification using, as in the previous case, DNA methylation data and Support Vector Machines as well as K-nearest Neighbor algorithm. It will be shown that for a large amount of different types of cancer, such as lung, colon, cervical or bladder the usage of DNA methylation data in conjunction with SVM generate accurate forecasts. Other algorithms, such as for instance K-Nearest Neighbors, were also used for cancer detection purposes. The last section cover the study of diabetes using in this case SNPs data and Bayesian Neural Networks that also generates accurate diabetes detection. Given the ever increasing amount of DNA methylation data as well as SNPs data available as well as advances in data storage there is an increasing need to have more suitable and sophisticated methods for analyzing such data. One of the base assumptions in this dissertation is that the relationship between DNA methylation and aging and cancer as well as between SNPs and diabetes do not necessarily need to follow a linear model and hence non-linear models, such as Bayesian Neural Networks, can generate more accurate results. It will be shown that this is the case with models generating fairly accurate outcomes.

Keywords

Metilació; Metilación; Methylation; SNP; ADN

Subjects

51 - Mathematics

Knowledge Area

Ciències Experimentals

Documents

gap1de1.pdf

17.61Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)