Desarrollo y utilización de herramientas bioinformáticas en el estudio de datos de secuenciación masiva: Análisis genómicos en arácnidos.

Author

Sánchez Herrero, José Francisco

Director

Rozas Liras, Julio A.

Sánchez-Gracia, Alejandro

Tutor

Rozas Liras, Julio A.

Date of defense

2019-12-13

Pages

287 p.



Department/Institute

Universitat de Barcelona. Departament de Genètica, Microbiologia i Estadística

Abstract

Encontramos una gran cantidad de información genómica en bases de datos para numerosos organismos pero existe un sesgo hacia ciertos grupos taxonómicos por el interés económico, social o sanitario. Los avances y el abaratamiento de los costes de las tecnologías de secuenciación masiva han permitido aplicar estas técnicas en organismos no modelo pero aun así no resulta rutinario el poder generar recursos genómicos de buena calidad. Las arañas, grupo de estudio de esta tesis doctoral, son organismos no modelo infrarrepresentados en las bases de datos. La disponibilidad de un nuevo genoma favorecería el conocimiento de importantes aspectos como la presencia del veneno, seda o la adaptación a los procesos de terrestralización y la evolución del sistema quimiosensorial. Los objetivos principales de esta tesis doctoral son el desarrollar herramientas bioinformáticas y generar recursos genómicos en organismos no modelo, especialmente en arácnidos. Hemos implementado la herramienta DOMINO, para la búsqueda e identificación de marcadores moleculares en organismos no modelo mediante datos de secuenciación masiva. Permite generar marcadores a diferentes rangos taxonómicos que pueden ser empleados de forma directa, amplificados por PCR o empleados en el desarrollo de regiones para métodos de captura de secuencia. Hemos validado el software mediante simulaciones computacionales y datos empíricos para ajustar, configurar los parámetros y maximizar su sensibilidad y precisión. Además, hemos desarrollado una interfaz gráfica que permite el acceso a usuarios menos familiarizados con los entornos de programación. También hemos generado un ensamblaje genómico de un representante del género de arañas Dysdera, combinando diferentes librerías de secuenciación. Mediante diferentes estadísticas descriptivas determinamos la calidad y continuidad del ensamblaje y lo anotamos estructural y funcionalmente mediante predicciones ab initio y evidencias de bases de datos y de ARN. Obtuvimos un ensamblaje genómico con N50 de 38 kb, que no podía ser mejorado por la complejidad del genoma que incluía un alto número de repeticiones, aunque la calidad del genoma en cuanto a la integridad de los genes era bastante buena. Por tanto, hemos generado un recurso genómico muy útil no sólo para el análisis de características específicas del género pero también de otros arácnidos o artrópodos.


There is a vast amount of information indexed in genomic databases from multiple species of organisms but there is a bias against some taxonomic groups for their relevance at social, sanitary and economical level. The progress and the reduction of sequencing technologies have allowed the implementation of these techniques in non-model organisms but still, it is neither straightforward nor cheap to obtain high quality genomic resources. Spiders, main group of interest of this thesis, are non-model organisms underrepresented in genomic databases. The availability of a new genome would shed light into relevant biological traits such as the presence of venom, silk or the adaptation to terrestrial ecosystems and the chemosensory system. The main objectives of this thesis are to develop bioinformatics methods and to generate genomic resources for non-model organisms, specifically, spiders. We have developed the tool DOMINO for the development of molecular markers in non-model organisms from next generation sequencing data. This tool allows identifying markers at different taxonomic ranges that could be employed directly, amplified using PCR in other related samples or for the generation of sequence capture strategies. We have validated the software using computer simulations and empirical data to adjust, configure and maximize its precision and sensitivity. Also, we have generated a graphical user interface to improve the usability of the software among those users with limited expertise in programming languages. We have also developed a genomic assembly of a representative spider of the genus Dysdera by combining multiple sequencing technologies. Using several descriptive statistics we determined the quality and completeness of the assembly and conducted the structural and functional annotation by ab initio and evidence-based predictions. We obtained a genome with a N50 of 38 kb, that it could not be improved because the complexity of the genome that include a high proportion of repetitive regions, nevertheless the quality of genome in terms of gene completeness was fairly good. Globally we have generated a very useful genomic resource not only for conducting studies of specific biological or evolutionary characteristics in this genus but also for other arachnids or arthropods.

Keywords

Bioinformàtica; Bioinformática; Bioinformatics; Genòmica; Genómica; Genomics; Aràcnids; Arácnidos; Arachnida

Subjects

575 - General genetics. General cytogenetics

Knowledge Area

Ciències Experimentals i Matemàtiques

Documents

JFSH_TESIS.pdf

15.87Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/

This item appears in the following Collection(s)