dc.contributor
Universitat Pompeu Fabra. Departament de Ciències Experimentals i de la Salut
dc.contributor.author
Chatzou, Maria
dc.date.accessioned
2018-07-19T15:59:08Z
dc.date.available
2018-07-19T15:59:08Z
dc.date.issued
2016-11-07
dc.identifier.uri
http://hdl.handle.net/10803/587086
dc.description.abstract
One of the main and most recent challenges of modern biology is to keep-up with
growing amount of biological data coming from next generation sequencing
technologies. Keeping up with the growing volumes of experiments will be the only
way to make sense of the data and extract actionable biological insights. Large-scale
comparative bioinformatics analyses are an integral part of this procedure. When
doing comparative bioinformatics, multiple sequence alignments (MSAs) are by far
the most widely used models as they provide a unique insight into the accurate
measure of sequence similarities and are therefore instrumental to revealing genetic
and/or functional relationships among evolutionarily related species. Unfortunately,
the well-established limitation of MSA methods when dealing with very large datasets
potentially compromises all downstream analysis. In this thesis I expose the current
relevance of multiple sequence aligners, I show how their current scaling up is
leading to serious numerical stability issues and how they impact phylogenetic tree
reconstruction. For this purpose, I have developed two new methods, MEGA-Coffee,
a large scale aligner and Shootstrap a novel bootstrapping measure incorporating
MSA instability with branch support estimates when computing trees. The large
amount of computation required by these two projects was carried using Nextflow, a
new computational framework that I have developed to improve computational
efficiency and reproducibility of large-scale analyses like the one carried out in the
context of these studies.
en_US
dc.description.abstract
Uno de los principales y más recientes retos de la biología moderna es poder hacer
frente a la creciente cantidad de datos biológicos procedentes de las tecnologías de
secuenciación de alto rendimiento. Mantenerse al día con los crecientes volúmenes
de datos experimentales es el único modo de poder interpretar estos datos y extraer
conclusiones biológicos relevantes. Los análisis bioinformáticos comparativos a gran
escala son una parte integral de este procedimiento. Al hacer bioinformática
comparativa, los alineamientos múltiple de secuencias (MSA) son con mucho los
modelos más utilizados, ya que proporcionan una visión única de la medida exacta
de similitudes de secuencia y son, por tanto, fundamentales para inferir las
relaciones genéticas y / o funcionales entre las especies evolutivamente
relacionadas. Desafortunadamente, la conocida limitación de los métodos MSA para
analizar grandes bases de datos, puede potencialmente comprometer todos los
análisis realizados a continuación. En esta tesis expongo la relevancia actual de los
métodos de alineamientos multiples de secuencia, muestro cómo su uso en datos
masivos está dando lugar a serios problemas de estabilidad numérica y su impacto
en la reconstrucción del árbol filogenético. Para este propósito, he desarrollado dos
nuevos métodos, MEGA-café, un alineador de gran escala y Shootstrap una nueva
medida de bootstrapping que incorpora la inestabilidad del MSA con las
estimaciones de apoyo de rama en el cálculo de árboles filogéneticos. La gran
cantidad de cálculo requerido por estos dos proyectos se realizó utilizando Nextflow,
un nuevo marco computacional que se ha desarrollado para mejorar la eficiencia
computacional y la reproducibilidad del análisis a gran escala como la que se lleva a
cabo en el contexto de estos estudios.
en_US
dc.format.extent
121 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
eng
en_US
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Multiple sequence aligments
en_US
dc.subject
Evolutionary analyses
en_US
dc.subject
Comparative bioinformatics analyses
en_US
dc.subject
Computational reproducibility
en_US
dc.subject
Computational workflow frameworks
en_US
dc.subject
Alineamiento múltiple de secuencias
en_US
dc.subject
Análisis evolutivo
en_US
dc.subject
Análisis bioinformático comparativo
en_US
dc.subject
Reproducibvilidad computacional
en_US
dc.subject
Entornos computacionales de flujo de datos
en_US
dc.title
Large-scale comparative bioinformatics analyses
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.authoremail
maria@lifebit.ai
en_US
dc.contributor.director
Notredame, Cedric
dc.embargo.terms
6 mesos
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de doctorat en Biomedicina