Novel methods for multiple sequence alignment and evolutionary modeling

dc.contributor
Universitat Pompeu Fabra. Departament de Medicina i Ciències de la Vida
dc.contributor.author
Mansouri, Leila
dc.date.accessioned
2023-03-30T13:48:54Z
dc.date.available
2024-09-27T22:05:19Z
dc.date.issued
2023-03-27
dc.identifier.uri
http://hdl.handle.net/10803/688007
dc.description.abstract
El continuo aumento de los proyectos de producción de datos genómicos a gran escala, como el "Earth BioGenome Project" (Lewin et al., 2018), pone los métodos de análisis de datos bajo una presión sin precedentes. Es necesario crear nuevas estrategias para poder analizar todas estas secuencias. Los métodos de modelización más utilizados en biología son los alineamientos múltiples de secuencias (MSA) y la reconstrucción de árboles filogenéticos. En esta tesis, he abordado estos dos temas desde el ángulo del análisis de secuencias de proteínas, con un enfoque particular que distingue entre los análisis basados en estructuras y los basados en secuencias. Los problemas a los cuales se enfrentan las metodologías existentes, sin embargo, no son únicamente computacionales. De hecho, el escalado de métodos clave como los MSA no sólo necesita más recursos informáticos, sino también requiere la mejora de los algoritmos, ya que la fiabilidad del MSA disminuye cuando se trabaja con más de 1000 secuencias (Sievers et al., 2011). Para solucionar este problema, he colaborado en el desarrollo de un nuevo algoritmo de MSA, denominado regresivo (“regressive”) (Garriga et al., 2021), que ofrece una mejor escalabilidad que sus equivalentes progresivos (“progressive”) en términos de cálculo y precisión. Aunque alinear con precisión secuencias distantemente relacionadas seguirá siendo difícil, la amplia aceptación de que la información tridimensional es mucho más resiliente que su equivalente secuencial puede ofrecer una solución alternativa. Hasta ahora, la falta de datos estructurales experimentales ha limitado la relevancia práctica de esta observación, pero la situación está cambiando rápidamente. Gracias a la mejoría recientemente lograda en la predicción de la estructura de las proteínas (Jumper et al., 2021), se está generando una cantidad masiva de datos estructurales cuya calidad se acerca a la experimental. En la actualidad se dispone de más de 200 millones de modelos que pueden utilizarse para el tipo de análisis que se realiza actualmente con los datos cristalográficos. Anticipándome a esto, he explorado la posibilidad de utilizar estructuras predichas por AlphaFold2 (AF2) para estimar MSA basados en estructuras (Baltzis, Mansouri et al., 2022). He descubierto que los MSA basados en modelos estructurales AF2 muestran una mejoría muy significativa en la exactitud con respecto a sus contrapartes basados en secuencias. A continuación, he abordado el problema del análisis de secuencias desde un ángulo filogenético enfocando inicialmente en escenarios evolutivos de parálogos y, posteriormente, he evaluado el potencial del uso de datos estructurales para la reconstrucción de la evolución de secuencias usando secuencias de proteínas arbitrariamente relacionadas. Estos análisis coinciden en corroborar la idoneidad de la información estructural de las proteínas para fines de análisis evolutivo.
ca
dc.description.abstract
The massive ongoing scale-up of genomics data production projects, such as the Earth BioGenome Project (Lewin et al., 2018), puts data analysis methods under unprecedented pressure. New approaches are needed to analyse all these sequences. The most commonly used modelling methods in biology are multiple sequence alignments (MSAs) and phylogenetic tree reconstruction. In this thesis, I have addressed these two topics from the angle of protein sequence analysis with a specific interest in the relationship between structure-based and sequence-based analyses. The problem of data scaling up is not only computational. Indeed, the scale-up of key methods such as MSA modelling does not merely need more computational resources. Still, it also requires conceptual algorithmic improvements, since MSA accuracy decreases when dealing with more than 1000 sequences (Sievers et al., 2011). To address this issue, I helped in the development of a new MSA algorithm, named regressive (Garriga et al., 2021), featuring improved scaling-up capacities over its progressive counterparts in terms of computation and accuracy. Accurately aligning distantly related sequences will, however, remain a challenge but this problem could be alleviated using protein structures as it is well established that three-dimensional information is much more resilient than its sequence counterpart. The scarcity of experimental structural data has, so far, limited the practical relevance of this observation, however, the situation is rapidly changing. Thanks to the newly achieved improvement of protein structure prediction (Jumper et al., 2021), a massive amount of experimental-grade structural data is being generated. Over 200 million models are now available and they may be used for the kind of analysis currently carried out on crystalographic data. Anticipating this, I have explored the possibility of using AlphaFold2(AF2)-predicted structures to estimate structure-based-MSAs (Baltzis, Mansouri et al., 2022). I have found that MSAs based on AF2 structural models display a highly significant improvement in accuracy over their sequence-based counterparts. Next, I have addressed the problem of sequence analysis from a phylogenetic angle initially with a focus on paralogous evolutionary scenarios and, subsequently, I evaluated the potential of the use of structural data for the reconstruction of sequence evolution on arbitrarily related protein sequences . These analyses coincide in supporting the suitability of protein structure information for evolutionary analysis purposes.
ca
dc.format.extent
160 p.
ca
dc.language.iso
eng
ca
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
ca
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Alineamiento de secuencias múltiples
ca
dc.subject
AlphaFold2
ca
dc.subject
Filogenia
ca
dc.subject
Estructura de proteínas
ca
dc.subject
Evolución de proteínas
ca
dc.subject
Multiple Sequence alignment
ca
dc.subject
AlphaFold2
ca
dc.subject
Phylogeny
ca
dc.subject
Structure of protein
ca
dc.subject
Protein evolution
ca
dc.title
Novel methods for multiple sequence alignment and evolutionary modeling
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
577
ca
dc.contributor.authoremail
leila.mansouri01@estudiant.upf.edu
ca
dc.contributor.director
Notredame, Cedric
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de doctorat en Biomedicina


Documentos

tlm.pdf

15.60Mb PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)