Universitat de Barcelona. Facultat de Farmàcia i Ciències de l'Alimentació
[eng] Structural biology is essential for understanding the structure and dynamics of biological macromolecules, proteins, nucleic acids and their complexes, and to derive how the alterations produced in their structure affect the function. X-ray crystallography is one of the techniques that enables us to characterize the three-dimensional structure of these biological macromolecules. This knowledge allows a rational design and development of pharmaceutical drugs. However, during the diffraction experiment a fundamental part of the required information, the phases, cannot be measured giving rise to the phase problem. In order to calculate the electron density map and to obtain the three-dimensional structure, approximate phases need to be retrieved. The intensities obtained during the diffraction experiment and the phases are related to the structure, so similar structures will have related diffraction patterns. Thus, one widely used approach to overcome this problem is molecular replacement. This approach consists of using phases from a homologous structure correctly placed in the same unit cell of the unknown structure to approximate its phases. Therefore, the lack of homologous structures could make this process highly challenging. Now, with the rise of deep learning methods, predicted models have reached the accuracy of closed homologs facilitating structure solution by molecular replacement and increasing the number of structures solved in a reduced period of time. Instead, ab initio methods only use the knowledge that a structure is composed of atoms. Our approach to structure solution, halfway between ab initio and molecular replacement is implemented in the software ARCIMBOLDO. It consists of exploiting secondary and tertiary structure elements for phasing by using small and very accurate fragments. In this context, numerous probes are produced and only a few ones are correct, being difficult to identify. Because of this, structure solution may be a challenge requiring high computational resources and time. For that reason, a new packing function has been developed in order to reduce the number of incorrect partial probes facilitating the prioritization of the correct ones, increasing the efficiency of the computational resources used. Also, ARCIMBOLDO has been adapted for its use with predicted models. Those predictions have facilitated the phasing process, but they also have raised concern about model bias. Thus, we have addressed the need to reconsider how to assess model validation. Traditionally, the criteria to consider that a model has been validated was a reasonable agreement between observed and calculated structure factors, stereochemical constraints and physically reasonable thermal vibration factors. As predicted models have a perfect stereochemistry, this criteria should not be used to measure the reliability of the structural model generated. In this work, we correlate the models obtained with AlphaFold and RoseTTAFold with the experimental data systematically eliminating prior knowledge from the determination when those models are used. And finally, we have deeply analyzed the performance of AlphaFold2 in order to understand the biological conformations generated in its predictions and we have develop a new method called VAIRO which is able to cluster prior consistent knowledge to promote the conformational states of interest, even those marginally reflected in deposited X-ray structures.
[cat] La cristal·lografia de raigs X és una tècnica clau que ens permet caracteritzar l’estructura tridimensional de macromolècules biològiques, com les proteïnes, els àcids nucleics i els complexos que formen. No obstant, durant l’experiment de difracció una part de la informació necessària per la determinació estructural, les fases, no es pot mesurar. És el que es coneix com el problema de les fases. Així doncs, per calcular el mapa de densitat electrònica s’utilitzen diferents estratègies per recuperar les fases. La més extesa és el reemplaçament molecular basat en la relació de similitud entre el patró de difracció generat amb l’experiment i l’estructura. Aquest mètode consisteix en la utilització de les fases d’una estructura homòloga per calcular les fases inicials de l’estructura problema. El nostre mètode, ARCIMBOLDO, està pensat per quan no existeixen estructures suficientment similars per poder determinar l’estructura desconeguda amb reemplaçament molecular. Enlloc d’utilitzar l’estructura completa, utilitzem fragments d’estructura secundària i terciària que, tot i representar una fracció mínima del patró de difracció, quan són col·locats en la posició adequada permeten la seva extensió cap a l’estructura completa. En aquest context, es generen moltes possibles solucions que no sabem si són correctes o no fins que s’extenen cap a la solució completa. Per tal de reduir el nombre d’hipòtesis a avaluar i facilitar la priorització de les que podrien ser correctes, s’ha desenvolupat una nova funció de packing que incorpora informació sobre l’entorn de les solucions. El desenvolupament de mètodes basats en intel·ligència artificial com AlphaFold o RoseTTAFold ha facilitat molt la determinació estructural de macromolècules ja que les prediccions assoleixen una qualitat similar a la dels homòlegs propers. Donat que les prediccions són esteroquímicament perfectes i que aquest és un dels conceptes en els que es basa la validació de les estructures determinades, hi pot haver risc de no donar prou pes a la informació experimental i basar la determinació en el model. Per adreçar aquesta qüestió, ARCIMBOLDO ha estat adaptat al seu ús amb prediccions, per treure el màxim profit d’aquests models alhora que revalora la informació proporcionada per l’experiment per evitar determinacions estructurals esbiaixades. Per últim, s’ha desenvolupat un mètode per guiar les prediccions d’AlphaFold cap a diferents estadis conformacionals, fins i tot aquells infrarepresentats en les estructures cristal·logràfiques dipositades al Protein Data Bank. El mètode VAIRO utilitza la informació prèvia que tenim del sistema biològic i l’agrupa de manera consistent per permetre la producció de prediccions que reflexin la dinàmica dels complexos macromoleculars.
Macromolècules; Macromoléculas; Macromolecules; Radiocristal·lografia; Radiocristalografía; X-ray crystallography; Estructura molecular; Molecular structure
577 - Biochemistry. Molecular biology. Biophysics
Ciències Experimentals i Matemàtiques
Programa de Doctorat en Biotecnologia / Tesi realitzada a l'Institut de Biologia Molecular de Barcelona (IBMB-CISC)