Design and practical usage of web biological databases for the annotation and classification of proteins

dc.contributor
Universitat Autònoma de Barcelona. Departament de Bioquímica i Biologia Molecular
dc.contributor.author
Hermoso Pulido, Toni
dc.date.accessioned
2015-10-16T14:55:59Z
dc.date.available
2015-10-16T14:55:59Z
dc.date.issued
2015-07-21
dc.identifier.isbn
9788449055492
dc.identifier.uri
http://hdl.handle.net/10803/313460
dc.description.abstract
En l'anomenada societat de la informació, les dades representen unes parts estructurals clau en la generació del coneixement. De la mateixa manera, la Bioinformàtica depèn en darrer terme d'una adequada gestió i processament de les dades que s'originen de les anàlisis tant tradicionals com d'alt rendiment. Com a objectiu principal d'aquesta tesi, s'han compilat diferents aproximacions pràctiques per a la manipulació de les dades de seqüenciació de proteïnes i les anàlisis resultants que s'hi apliquen. En tot cas, com a pas preliminar, eines i algorismes bioinformàtics preexistents s'han adaptat abans al paradigma de la informació actual, bàsicament centrat en el World Wide Web. Després d'una pertinent adaptació d'aquestes aplicacions (en aquest document: ProtLoc, TransMem, TranScout i Bypass), esdevé possible encarar el processament massiu de dades proteiques que s'han originat dels darrers projectes de seqüenciació de genomes. Els resultats d'aquestes anàlisis es fan disponibles per a la comunitat científica d'arreu del món mitjançant bases de dades biològiques basades en el web, de ple accés i d'ús amigable. Com exemples, es presenten dos casos: TrSDB, un compendi de factors de transcripció coneguts i putatius de diferents organismes models, i ArchDB, una base de dades web estructural de llaços de proteïnes. Com a pas posterior, a partir del programa Bypass —una eina basada en lògica difusa per a la reanotació i avaluació d'alineaments proteics obtinguts amb cerca per homologia— s'implementa un entorn complet d'anotació i gestió de seqüències. Com a punt fort, el sistema també és suficientment flexible i modular per a permetre l'entrada de diferents tipus de dades (p. ex., Gene Ontology) o comunicar-se amb altres aplicacions ja existents i potencialment futures. De forma paral·lela, i aprofitant l'explosió de dades crues de seqüenciació i la curació de les bases de dades, es presenta una caracterització bioinformàtica d'una nova família de metal·locarboxipeptidases. Mitjançant aproximacions computacionals, va ser possible plantejar unes primeres hipòtesis per a l'activitat enzimàtica i la història filogenètica d'aquest grup de proteïnes. Notablement, llur identificació pot representar un enfocament esperançador per a tractar processos biològics com ara la malària o desordres neuronals, on aquestes molècules s'hi troben implicades estretament.
cat
dc.description.abstract
En la llamada sociedad de la información, los datos representan unas partes estructurales clave en la generación del conocimiento. Del mismo modo, la Bioinformática depende en último término de una adecuada gestión y procesado de los datos que se originan de los análisis tanto tradicionales como de alto rendimiento.

Como objetivo principal de esta tesis, se han compilado diferentes aproximaciones prácticas para la manipulación de los datos de secuenciación de proteínas y los análisis resultantes que se aplican. En todo caso, como paso preliminar, herramientas y algoritmos bioinformáticos preexistentes se han adaptado antes al paradigma de la información actual, básicamente centrado en el World Wide Web. Después de una pertinente adaptación de estas aplicaciones (en este documento: ProtLoc, TransMem, TranScout y Bypass), se hace posible encarar el procesamiento masivo de datos proteicos que se han originado de los últimos proyectos de secuenciación de genomas. 
Los resultados de estos análisis se hacen disponibles para la comunidad científica mundial mediante bases de datos biológicas basadas en el web, de pleno acceso y de uso amigable. Como ejemplos, se presentan dos casos: TrSDB, un compendio de factores de transcripción conocidos y putativos de diferentes organismos modelos, y ArchDB, una base de datos web estructural de lazos de proteínas.
Como paso posterior, a partir del programa Bypass —una herramienta basada en lógica difusa para la reanotación y evaluación de alineamientos proteicos obtenidos a partir de búsqueda por homología— se implementa un entorno completo de anotación y gestión de secuencias. Como punto fuerte, el sistema también es suficientemente flexible y modular para permitir la entrada de diferentes tipos de datos (p. ej., Gene Ontology) o comunicarse con otras aplicaciones ya existentes y potencialmente futuras.

De forma paralela, y aprovechando la explosión de datos crudos de secuenciación y la curación de las bases de datos, se presenta una caracterización bioinformática de una nueva familia de metalocarboxipeptidasas. Mediante aproximaciones computacionales, fue posible plantear unas primeras hipótesis para la actividad enzimática y la historia filogenética de este grupo de proteínas. Notablemente, su identificación puede representar un enfoque esperanzador para tratar procesos biológicos como por ejemplo la malaria o desórdenes neuronales, donde estas moléculas se encuentran implicadas estrechamente.
spa
dc.description.abstract
In the so-called Information society, data represent a key structural parts of knowledge generation. Likewise, present-day Bioinformatics ultimately relies on the proper management and processing of data originated from both traditional and high-throughput biological analyses. As a primary aim of this thesis, different practical approaches for the handling of raw protein sequence data and their applied resulting Bioinformatics analyses are compiled. Nonetheless, as a preliminary step, pre-existing Bioinformatics tools and algorithms are adapted to the characteristics of current informational paradigm, basically revolving around the World Wide Web. After a proper adaptation of those applications (in this document: ProtLoc, TransMem, TranScout and Bypass), it becomes possible to face the massive processing of protein data originating from the last genome sequencing projects. The outcomes of these analyses are made available for the world-wide scientific community in the form of user-friendly and fully accessible web-based biological databases. As examples, two cases are presented: TrSDB, a compendium of well-known and putative transcription factors from different model organisms, and ArchDB, a structural web database of protein loops. As a further step, starting from Bypass program —a fuzzy-logic based tool for the re-annotation and evaluation of protein homology search alignments—, a complete annotation and sequence management framework is deployed. As as strong point, the system is also flexible and modular enough for allowing the input of different data (e. g. Gene Ontology) or cross-communicate with other future and existing applications. Parallely to this, and also taking advantage of the explosion of raw sequence data and database curation, a Bioinformatics characterization of a new metallacarboxypeptidase family is introduced. By using computational means, it was possible to present a first hypotheses for the enzymatic activity and phylogenetical history of these group of proteins. Notably, their actual identification may represent an enlightening focus for dealing with biological processes such as malaria or neurodegenerative disorders, where these molecules are intimately linked.
eng
dc.format.extent
152 p.
dc.format.mimetype
application/pdf
dc.language.iso
cat
dc.publisher
Universitat Autònoma de Barcelona
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Bioinformàtica
dc.subject
Bioinformática
dc.subject
Bioinformatics
dc.subject
Base de dades
dc.subject
Base de datos
dc.subject
Batabases
dc.subject
NoSQL
dc.subject.other
Ciències Experimentals
dc.title
Design and practical usage of web biological databases for the annotation and classification of proteins
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
577
cat
dc.contributor.authoremail
toniher@cau.cat
dc.contributor.director
Querol Murillo, Enrique
dc.contributor.director
Avilés i Puigvert, Francesc Xavier
dc.embargo.terms
cap
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.identifier.dl
B-26135-2015


Documentos

thp1de1.pdf

4.526Mb PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)