Comparative analysis of eukaryotic gene sequence features

Author

Abril Ferrando, Josep Francesc

Director

Guigó Serra, Roderic

Date of defense

2005-05-17

ISBN

9788469112090

Legal Deposit

B.47269-2005



Department/Institute

Universitat Pompeu Fabra. Departament de Ciències Experimentals i de la Salut

Doctorate programs

Programa de doctorat en Biomedicina

Abstract

L'incessant augment del nombre de seqüències genòmiques, juntament amb <br/>l'increment del nombre de tècniques experimentals de les que es disposa, <br/>permetrà obtenir el catàleg complet de les funcions cel.lulars de <br/>diferents organismes, incloent-hi la nostra espècie. Aquest catàleg <br/>definirà els fonaments sobre els que es podrà entendre millor com els <br/>organismes funcionen a nivell molecular. Al mateix temps es tindran més <br/>pistes sobre els canvis que estan associats amb les malalties. Per tant, <br/>la seqüència en brut, tal i com s'obté dels projectes de seqüenciació de <br/>genomes, no té cap valor sense les anàlisis i la subsegüent anotació de <br/>les característiques que defineixen aquestes funcions. Aquesta tesi <br/>presenta la nostra contribució en tres aspectes relacionats de <br/>l'anotació dels gens en genomes eucariotes.<br/> <br/>Primer, la comparació a nivell de seqüència entre els genomes humà i de <br/>ratolí es va dur a terme mitjançant un protocol semi-automàtic. El <br/>programa de predicció de gens SGP2 es va desenvolupar a partir <br/>d'elements d'aquest protocol. El concepte al darrera de l'SGP2 és que <br/>les regions de similaritat obtingudes amb el programa TBLASTX, es fan <br/>servir per augmentar la puntuació dels exons predits pel programa <br/>geneid, amb el que s obtenen conjunts d'anotacions més acurats <br/>d'estructures gèniques. SGP2 té una especificitat que és prou gran com <br/>per que es puguin validar experimentalment via RT-PCR. La validació de <br/>llocs d'splicing emprant la tècnica de la RT-PCR és un bon exemple de <br/>com la combinació d'aproximacions computacionals i experimentals <br/>produeix millors resultats que per separat.<br/> <br/>S'ha dut a terme l'anàlisi descriptiva a nivell de seqüència dels llocs <br/>d'splicing obtinguts sobre un conjunt fiable de gens ortòlegs per humà, <br/>ratolí, rata i pollastre. S'han explorat les diferències a nivell de <br/>nucleòtid entre llocs U2 i U12, pel conjunt d'introns ortòlegs que se'n <br/>deriva d'aquests gens. S'ha trobat que els senyals d'splicing ortòlegs <br/>entre humà i rossegadors, així com entre rossegadors, estan més <br/>conservats que els llocs no relacionats. Aquesta conservació addicional <br/>pot ser explicada però a nivell de conservació basal dels introns. <br/>D'altra banda, s'ha detectat més conservació de l'esperada entre llocs <br/>d'splicing ortòlegs entre mamífers i pollastre. Els resultats obtinguts <br/>també indiquen que les classes intròniques U2 i U12 han evolucionat <br/>independentment des de l'ancestre comú dels mamífers i les aus. Tampoc <br/>s'ha trobat cap cas convincent d'interconversió entre aquestes dues <br/>classes en el conjunt d'introns ortòlegs generat, ni cap cas de <br/>substitució entre els subtipus AT-AC i GT-AG d'introns U12. Al contrari, <br/>el pas de GT-AG a GC-AG, i viceversa, en introns U2 no sembla ser inusual.<br/> <br/>Finalment, s'han implementat una sèrie d'eines de visualització per <br/>integrar anotacions obtingudes pels programes de predicció de gens i per <br/>les anàlisis comparatives sobre genomes. Una d'aquestes eines, el <br/>gff2ps, s'ha emprat en la cartografia dels genomes humà, de la mosca del <br/>vinagre i del mosquit de la malària, entre d'altres. El programa <br/>gff2aplot i els filtres associats, han facilitat la tasca d'integrar <br/>anotacions de seqüència amb els resultats d'eines per la cerca <br/>d'homologia, com ara el BLAST. S'ha adaptat també el concepte de <br/>pictograma a l'anàlisi comparativa de llocs d splicing ortòlegs, amb el <br/>desenvolupament del programa compi.


El aumento incesante del número de secuencias genómicas, junto con el <br/>incremento del número de técnicas experimentales de las que se dispone, <br/>permitirá la obtención del catálogo completo de las funciones celulares <br/>de los diferentes organismos, incluida nuestra especie. Este catálogo <br/>definirá las bases sobre las que se pueda entender mejor el <br/>funcionamiento de los organismos a nivel molecular. Al mismo tiempo, se <br/>obtendrán más pistas sobre los cambios asociados a enfermedades. Por <br/>tanto, la secuencia en bruto, tal y como se obtiene en los proyectos de <br/>secuenciación masiva, no tiene ningún valor sin los análisis y la <br/>posterior anotación de las características que definen estas funciones. <br/>Esta tesis presenta nuestra contribución a tres aspectos relacionados de <br/>la anotación de los genes en genomas eucariotas.<br/> <br/>Primero, la comparación a nivel de secuencia entre el genoma humano y el <br/>de ratón se llevó a cabo mediante un protocolo semi-automático. El <br/>programa de predicción de genes SGP2 se desarrolló a partir de elementos <br/>de dicho protocolo. El concepto sobre el que se fundamenta el SGP2 es <br/>que las regiones de similaridad obtenidas con el programa TBLASTX, se <br/>utilizan para aumentar la puntuación de los exones predichos por el <br/>programa geneid, con lo que se obtienen conjuntos más precisos de <br/>anotaciones de estructuras génicas. SGP2 tiene una especificidad <br/>suficiente como para validar esas anotaciones experimentalmente vía <br/>RT-PCR. La validación de los sitios de splicing mediante el uso de la <br/>técnica de la RT-PCR es un buen ejemplo de cómo la combinación de <br/>aproximaciones computacionales y experimentales produce mejores <br/>resultados que por separado.<br/> <br/>Se ha llevado a cabo el análisis descriptivo a nivel de secuencia de los <br/>sitios de splicing obtenidos sobre un conjunto fiable de genes ortólogos <br/>para humano, ratón, rata y pollo. Se han explorado las diferencias a <br/>nivel de nucleótido entre sitios U2 y U12 para el conjunto de intrones <br/>ortólogos derivado de esos genes. Se ha visto que las señales de <br/>splicing ortólogas entre humanos y roedores, así como entre roedores, <br/>están más conservadas que las no ortólogas. Esta conservación puede ser <br/>explicada en parte a nivel de conservación basal de los intrones. Por <br/>otro lado, se ha detectado mayor conservación de la esperada entre <br/>sitios de splicing ortólogos entre mamíferos y pollo. Los resultados <br/>obtenidos indican también que las clases intrónicas U2 y U12 han <br/>evolucionado independientemente desde el ancestro común de mamíferos y <br/>aves. Tampoco se ha hallado ningún caso convincente de interconversión <br/>entre estas dos clases en el conjunto de intrones ortólogos generado, ni <br/>ningún caso de substitución entre los subtipos AT-AC y GT-AG en intrones <br/>U12. Por el contrario, el paso de GT-AG a GC-AG, y viceversa, en <br/>intrones U2 no parece ser inusual.<br/> <br/>Finalmente, se han implementado una serie de herramientas de <br/>visualización para integrar anotaciones obtenidas por los programas de <br/>predicción de genes y por los análisis comparativos sobre genomas. Una <br/>de estas herramientas, gff2ps, se ha utilizado para cartografiar los <br/>genomas humano, de la mosca del vinagre y del mosquito de la malaria. El <br/>programa gff2aplot y los filtros asociados, han facilitado la tarea de <br/>integrar anotaciones a nivel de secuencia con los resultados obtenidos <br/>por herramientas de búsqueda de homología, como BLAST. Se ha adaptado <br/>también el concepto de pictograma al análisis comparativo de los sitios <br/>de splicing ortólogos, con el desarrollo del programa compi.


The constantly increasing amount of available genome sequences, along <br/>with an increasing number of experimental techniques, will help to <br/>produce the complete catalog of cellular functions for different <br/>organisms, including humans. Such a catalog will define the base from <br/>which we will better understand how organisms work at the molecular <br/>level. At the same time it will shed light on which changes are <br/>associated with disease. Therefore, the raw sequence from genome <br/>sequencing projects is worthless without the complete analysis and <br/>further annotation of the genomic features that define those functions. <br/>This dissertation presents our contribution to three related aspects of <br/>gene annotation on eukaryotic genomes.<br/> <br/>First, a comparison at sequence level of human and mouse genomes was <br/>performed by developing a semi-automatic analysis pipeline. The SGP2 <br/>gene-finding tool was developed from procedures used in this pipeline. <br/>The concept behind SGP2 is that similarity regions obtained by TBLASTX <br/>are used to increase the score of exons predicted by geneid, in order to <br/>produce a more accurate set of gene structures. SGP2 provides a <br/>specificity that is high enough for its predictions to be experimentally <br/>verified by RT-PCR. The RT-PCR validation of predicted splice junctions <br/>also serves as example of how combined computational and experimental <br/>approaches will yield the best results.<br/> <br/>Then, we performed a descriptive analysis at sequence level of the <br/>splice site signals from a reliable set of orthologous genes for human, <br/>mouse, rat and chicken. We have explored the differences at nucleotide <br/>sequence level between U2 and U12 for the set of orthologous introns <br/>derived from those genes. We found that orthologous splice signals <br/>between human and rodents and within rodents are more conserved than <br/>unrelated splice sites. However, additional conservation can be <br/>explained mostly by background intron conservation. Additional <br/>conservation over background is detectable in orthologous mammalian and <br/>chicken splice sites. Our results also indicate that the U2 and U12 <br/>intron classes have evolved independently since the split of mammals and <br/>birds. We found neither convincing case of interconversion between these <br/>two classes in our sets of orthologous introns, nor any single case of <br/>switching between AT-AC and GT-AG subtypes within U12 introns. In <br/>contrast, switching between GT-AG and GC-AG U2 subtypes does not appear <br/>to be unusual.<br/> <br/>Finally, we implemented visualization tools to integrate annotation <br/>features for gene- finding and comparative analyses. One of those tools, <br/>gff2ps, was used to draw the whole genome maps for human, fruitfly and <br/>mosquito. gff2aplot and the accompanying parsers facilitate the task of <br/>integrating sequence annotations with the output of homologybased tools, <br/>like BLAST.We have also adapted the concept of pictograms to the <br/>comparative analysis of orthologous splice sites, by developing compi.

Keywords

amino acid sequences; eukaryotic cells; cèl·lules; seqüències dels aminoàcids; genòmica; chicken; gallus gallus; rattus norvegicus; rat; mus musculus; mouse; gene prediction RT-PCR validation; SGP2; evaluation; geneid; comparative computational gene finding; anopheles gambiae; genome map; drosophila melanogaster; fruitfly; mosquito; human; compi; gff2aplot; gff2ps; feature visualization; U12; genome annotation; U2; splice sites; exonic gene structure; genomics; bioinformatics

Subjects

575 - General genetics. General cytogenetics

Documents

tjaf.pdf

15.00Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)