Development and application of integrative tools for the functional and structural analyses of genomes

Author

Paytuví Gallart, Andreu

Director

Ruiz-Herrera Moreno, Aurora

Aiese Cigliano, Riccardo

Date of defense

2019-04-12

ISBN

9788449086731

Pages

191 p.



Department/Institute

Universitat Autònoma de Barcelona. Departament de Biologia Cel·lular, de Fisiologia i d'Immunologia

Abstract

Des del desenvolupament de la seqüenciació de Sanger l’any 1977, els avenços tecnològics han revolucionat el camp dels òmiques. Els projectes de seqüenciació a gran escala han generat una enorme quantitat de dades que han motivat el desenvolupament d'eines bioinformàtiques per a la integració, organització i interpretació d’aquestes dades. Com que la quantitat de dades de seqüenciació produïdes a tot el món es duplica cada 7 mesos, cal millorar la seva accessibilitat, processament i interpretació. En aquest sentit, l'objectiu principal d'aquest treball és desenvolupar eines bioinformàtiques per a l'anàlisi de les característiques funcionals i estructurals dels genomes. D'una banda, la capacitat d'emmagatzematge i l'accessibilitat de les dades de seqüenciació s'ha convertit en un repte, no només per a les dades brutes, sinó també per als resultats després del processament. Aquest és el cas de la transcriptòmica, una de les òmiques més finançades actualment. Per superar les limitacions actuals sobre les bases de dades existents per als lncRNA de plantes s’ha desenvolupat Green Non-Coding (GreeNC), una de les bases de dades en línia més àmplies del camp que ha inclòs 39 plantes superiors i 6 algues, emmagatzemant d’aquesta manera més de 200,000 lncRNAs. D'altra banda, la disponibilitat d'eines de fàcils d’usar per a permetre l’anàlisi i la gestió de dades de manera eficient a gran escala ajudaria a democratitzar la bioinformàtica. Diversos programes han aparegut recentment per permetre l'anàlisi de dades RNA-seq d'una manera accessible. No obstant això, cap d'ells proporciona una solució d’extrem a extrem. En aquest context, hem aprofitat la computació al núvol per a desenvolupar una plataforma fàcil d'usar anomenada Artificial Intelligence RNA-seq (AIR). AIR és la primera solució d'extrem a extrem per a l'anàlisi de dades RNA-seq que no es limita a espècies model i que no requereix habilitats bioinformàtiques prèvies. Un cop desenvolupat, AIR s’ha validat aprofitant mostres de RNA-seq derivades de cèl·lules germinals espermatogèniques de ratolí produïdes en el nostre grup de recerca. S’ha observat un augment de la prevalença de gens no codificants durant l'espermatogènesi i el silenciament del cromosoma X. També s’han identificat gens diferencialment expressats consistents amb el desenvolupament seqüencial de l’espermatogènesi. Precisament, se sap que el genoma experimenta grans canvis en la seva organització tri-dimensional (3D) del genoma durant l'espermatogènesi. Per caracteritzar aquesta reorganització en 3D s’ha fet servir AIR i altres eines addicionals per a l'anàlisi de dades Hi-C per generar un mapa d’interaccions de la cromatina i de les característiques genòmiques funcionals de la línia germinal masculina del ratolí. Els nostres resultats han revelat patrons no descrits prèviament: (i) l'organització d’escala subcromosòmica es perd durant la profase I; (ii) l'organització d’escala supranucleosòmica es fa difusa durant l'espermatogènesi, especialment en els espermatozous; (iii) esdeveniments específics com l’agrupació de telòmers (bouquet) i la inactivació del cromosoma X han estat observats; (iv) conformacions obertes específiques de cada tipus cel·lular s’han correlacionat amb l'expressió de gens amb funcions rellevants. En general, s’han desenvolupat noves solucions bioinformàtiques per a millorar l'accessibilitat, el processament i la interpretació de les dades òmiques que han permès l’anàlisi de les característiques funcionals i estructurals dels genomes.


Since the development of the Sanger sequencing in 1977, technological advances have revolutionized the -omics field. Large-scale sequencing projects have resulted in the generation of an enormous amount of data that have motivated the development of bioinformatics tools for its integration, organization and interpretation. Due to the fact that the amount of sequencing data produced worldwide doubles every 7 months, there is the need to improve data accessibility, processing and interpretation. In this sense, the main aim of this work is to develop bioinformatics tools for the analysis of the functional and structural characteristics of genomes. On the one hand, storage capacity and accessibility of -omics data has become a challenge, not only for raw data but also for post-processing results. And this is the case for transcriptomics, one of the most funded -omics. In order to overcome current limitations on the existing databases for plant lncRNAs, we developed Green Non-Coding (GreeNC), one of the most comprehensive online databases in the field that included 39 plant species and 6 algae, representing more than 200,000 lncRNAs. On the other hand, the availability of user-friendly tools to ensure feasible large-scale data analysis and management would help to democratize bioinformatics. Several software have recently emerged to allow the analysis of RNA-seq data in an accessible way. However, none of them provides an end-to-end solution. In this context, we took advantage of cloud computing to develop a cloud-based easy-to-use platform called Artificial Intelligence RNA-seq (AIR). AIR is the first end-to-end solution for the analysis of RNA-seq data that is not limited to model species and does not require previous bioinformatics skills. Once developed, we validated AIR taking advantage of RNA-seq samples derived from mouse spermatogenic germ cells produced in our research group. We observed an increase in the prevalence of non-coding genes during spermatogenesis and detected silencing of the X chromosome. We also identified differentially expressed genes that were consistent with the sequential development of spermatogenesis. Precisely, it is known that the genome undergoes large three-dimensional (3D) conformational changes during spermatogenesis. To characterize such 3D re-organization, we made use of AIR and additional tools for Hi-C data analysis to generate an integrative atlas of the chromatin interactions and functional genomic characteristics of the mouse male germ line. Our results revealed previously undescribed patterns: (i) the sub-chromosomal organization scale is lost during prophase I, (ii) the sub-megabase organization scale becomes diffuse along spermatogenesis especially in sperm, (iii) specific events such as the telomere bouquet and the X chromosome inactivation were observed, and (iv) cell-specific open conformations correlated with the expression of genes with relevant functional roles. Overall, we have developed new bioinformatics solutions to enhance accessibility, processing and interpretation of -omics data that permitted the analysis of functional and structural features of genomes.

Keywords

Bioinformàtica; Bioinformática; Bioinformatics; Transcriptòmica; Transcriptómica; Transcriptomics; Espermatogènesi; Espermatogénesis; Spermatogenesis

Subjects

576 - Cellular and subcellular biology. Cytology

Knowledge Area

Ciències Experimentals

Documents

apg1de1.pdf

6.953Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)