Study of gene regulatory networks inference methods from gene expression data

Author

Bellot Pujalte, Pau

Director

Salembier, Philippe

Codirector

Meyer, Patrick E.

Date of defense

2017-05-08

Pages

127 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions

Abstract

A cell is a the basic structural and functional unit of every living thing, it is protein-based an that regulates itself. The cell eats to stay alive, it grows and develops; reacting to the environment, while subjected to evolution. It also makes copies of itself. These processes are governed by chain of chemical reactions, creating a complex system. The scientific community has proposed to model the whole process with Gene Regulatory Networks (GRN). The understanding of these networks allows gaining a systems-level acknowledgment of biological organisms and also to genetically related diseases. This thesis focused on network inference from gene expression data, will contribute to this field of knowledge by studying different techniques that allows a better reconstruction of GRN. Gene expression datasets, are characterised by having thousands of noisy variables measured only with tens of samples. Moreover, these variables presents non-linear dependencies between them. Therefore, recovering a model that is capable of capturing the relationships contained in this data, constitutes a major challenge. The main contribution of this thesis is a set of fair and sound studies of different GRN inference methods and post-processing algorithms. First, we present a novel approach for inferring gene networks and we compare it with other methods. It is inspired by the concept of "variable importance" in feature selection. However, many algorithms can be proposed to infer GRNs, so there is a need to assess the quality of these algorithms. Secondly, and motivated by the fact that the previous comparison was not informative enough, we introduce a new framework for in silico performance assessment of GRN inference methods. This work has led to an open source R/Bioconductor package called NetBenchmark. Finally, and thanks to this tool we have corroborated that inferring gene regulatory networks from expression data is a tough problem. The different algorithms have some particular biases and strengths, and none of them is the best across all types of data and datasets. Therefore, we present a framework for evaluating and standardising network consensus methods to aggregate various network inferences


Una célula es es la unidad estructural y funcional básica de todo ser viviente capaz de autoregularse mediante proteínas. La célula come para mantenerse viva, crece y se desarrolla; Reaccionando al medio ambiente y está sometida a la evolución. También hace copias de sí misma. Estos procesos se rigen por una cadena de reacciones químicas, creando un sistema complejo. La comunidad científica ha propuesto modelar todo el proceso con las redes reguladoras de genes (GRN). La comprensión de estas redes permite entender los sistemas de los organismos biológicos y también las enfermedades genéticas. Esta tesis se centra en la inferencia de GRN a partir de datos de expresión génica, contribuye a este campo de conocimiento mediante el estudio de diferentes técnicas que permiten una mejor reconstrucción de GRN. Los conjuntos de datos de expresión génica se caracterizan por tener miles de variables ruidosas de las que sólo se disponen decenas de muestras. Además, estas variables presentan dependencias no lineales entre ellas. Por lo tanto, recuperar un modelo capaz de capturar las relaciones contenidas en estos datos, constituye un reto importante. La principal contribución de esta tesis es un conjunto de estudios de los diferentes métodos de inferencia de GRN y algoritmos de posprocesamiento. En primer lugar, presentamos un nuevo enfoque para inferir redes de genes y lo comparamos con otros métodos del estado del arte. Se inspira en el concepto de "importancia de variable" propio de la selección de características (feature selection). Sin embargo, muchos algoritmos pueden ser propuestos para inferir GRNs, por lo que hay una necesidad de evaluar la calidad de estos algoritmos. En segundo lugar, y motivado por el hecho de que la comparación anterior no era lo suficientemente informativa, introducimos un nuevo marco para la evaluación en bases de datos sintéticas de los métodos de inferencia GRN. Este trabajo ha llevado a un paquete de código abierto de R / Bioconductor llamado NetBenchmark. Finalmente, y gracias a esta herramienta hemos corroborado que inferir las redes reguladoras de genes a partir de los datos de expresión es un problema difícil. Los diferentes algoritmos tienen algunos sesgos y fortalezas particulares, y ninguno de ellos es el mejor en todos los tipos de datos y conjuntos de datos. Por lo tanto, presentamos un marco para evaluar y estandarizar los métodos de consenso de redes para agregar varias inferencias de red.

Subjects

004 - Computer science and technology. Computing. Data processing; 621.3 Electrical engineering

Knowledge Area

Àrees temàtiques de la UPC::Enginyeria de la telecomunicació

Documents

TPBP1de1.pdf

2.729Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)