Relaciones secuencia-estructura-función en glicosiltransferasas con plegamiento GTA: una aproximación bioinformática

Author

Romero García, Javier

Director

Biarnés Fontal, Xevi

Codirector

Planas, Antoni (Planas Sauter)

Date of defense

2016-07-29

Pages

365 p.



Department/Institute

Universitat Ramon Llull. IQS

Abstract

En aquesta tesi s'ha realitzat un estudi global, sobre les relacions seqüencia-estructura-funció de proteïnes glicosiltransferasa amb plegament GTA, mitjançant un enfocament bioinformàtic i de biologia computacional. La tesi està estructurada en quatre capítols principals. En els dos primers s'aborda aquest estudi per a un enzim essencial de Mycoplasma genitalium involucrada en la síntesi de glicolípids de membrana (MG517). En el tercer capítol s'estudien els canvis de conformació d'un bucle catalític, en el mecanisme d'una proteïna de Micobacterium tuberculosis (GpgS), que inicia la ruta biosintética dels lipopolisacáridos 6-O-metilglucosa (MGLPs) en aquest organisme. Finalment, en el capítol 4 s'aborda la relació entre una regió específica de les glicosiltransferasas amb plegament GTA, i l'especificitat pel substrat. Començant per l'estudi de proteïnes específiques, com la proteïna MG517 de Mycoplasma genitalium o GpgS de Micobacterium tuberculosi, passant pel de les estructures de totes les proteïnes cristal·litzades amb plegament GTA, fins a la utilització de totes les seqüències existents per aquesta superfamilia de proteïnes (més de 100000), s'han trobat característiques comunes a totes elles que relacionen la seqüència, amb l'estructura i la funció de cada proteïna. Tot això s'ha aconseguit utilitzant tècniques i mètodes bioinformàtics i computacionals, entre els quals destaquen: el modelatge per homologia, les simulacions de Dinàmica Molecular i Metadinámica, el Docking de ligandos, la superposició d'estructures tridimensionals, alineaments múltiples i la construcció d'arbres filogenètics. Gràcies a aquest estudi, s'ha pogut identificar una topologia consens comú a totes les GTAs, amb la qual s'ha construït un model tridimensional de la regió N-terminal de la proteïna MG517, de la qual fins ara no existia estructura coneguda. El model tridimensional ha estat validat per dinàmica molecular i experimentalment, la qual cosa ha permès identificar posicions catalítiques clau en MG517 com I193 base general, D40, I126, I169, I170 i I218 d'unió a substrats. A més, per a MG517 s'ha proposat un model d'interacció monotópica amb la membrana, mitjançant una hèlix amfipàtica a la seva regió C-terminal. La mateixa topologia consens, ha permès el refinament d'un alineament múltiple de GTAs, amb el qual s'ha generat un perfil Hidden Makov Model (HMM) per a la regió N-terminal d'aquest grup de proteïnes. Aquest perfil facilita l'alineament de noves proteïnes GTAs i la identificació de les seves estructures secundàries. També ha permès identificar, dins de la topologia consens, una regió de seqüència i estructura molt variable, fins i tot per a proteïnes de la mateixa família, on es posiciona l'acceptor específic de cada proteïna i que hem denominat “Regió Variable”. S'han descrit els canvis de conformació del bucle catalític en la proteïna GpgS mitjançant simulacions de dinàmica molecular de llarga durada i diferents càlculs de metadinámica utilitzant multitud de variables col·lectives. S'ha demostrat que les diferents conformacions són una propietat intrínseca de la proteïna, però estan desplaçades cap a la seva forma inactiva en absència de ligandos. La presència del substrat dador més el metall al centre actiu, promou el moviment de les cadenes laterals de dos residus del bucle, Arg256 i His258, que desplaça l'equilibri cap a la forma activa i l'estabilitza mitjançant la interacció de His258 amb el metall, proposant-se un mecanisme d'ajust induït per a aquesta proteïna. Completant aquests resultats amb càlculs de docking de ligandos, s'ha pogut proposar l'ordre d'entrada dels ligandos, sent l'acceptor el primer a arribar al centre actiu, seguit pel dador, moment en què succeeix el canvi conformacional en el bucle. Arran d'aquestes simulacions, s'ha observat que la interacció del metall amb un residu de histidina en el bucle catalític, és una característica comuna a la gran majoria de famílies GTAs, al costat de les ja conegudes del motiu DXD o la tètrada d'aspartats proposada en literatura D-DXD-D, que es proposa canviar a D-DXD-D-H. S'ha estudiat l'evolució de la superfamilia GTAs i la seva relació amb els substrats, trobant que el plegament global del domini GTA, defineix l'especificitat de l'acceptor i que l'homologia entre seqüències està més influïda per aquesta molècula aceptora del sucre que per la molècula dadora. La regió variable sembla sofrir una pressió evolutiva menor que la resta de la seqüència, la qual cosa explica la seva major variabilitat, no obstant això, conté residus altament conservats que interaccionen amb l'acceptor específic de cada proteïna. S'ha utilitzat aquesta regió per a la generació de perfils HMM específics per a cada acceptor i família de proteïnes. Aquests perfils s'han utilitzat amb èxit pel screening de proteïnes GTA de funció desconeguda i la predicció del seu acceptor.


En esta tesis se ha realizado un estudio global, acerca de las relaciones secuencia-estructura-función de proteínas glicosiltransferasa con plegamiento GTA, mediante un enfoque bioinformático y de biología computacional. La tesis está estructurada en cuatro capítulos principales. En los dos primeros se aborda este estudio para una enzima esencial de Mycoplasma genitalium involucrada en la síntesis de glicolípidos de membrana (MG517). En el tercer capítulo se estudian los cambios conformacionales de un bucle catalítico, en el mecanismo de una proteína de Micobacterium tuberculosis (GpgS), que inicia la ruta biosintética de los lipopolisacáridos 6-O-metilglucosa (MGLPs) en este organismo. Por último, en el capítulo 4 se aborda la relación entre una región específica de las glicosiltransferasas con plegamiento GTA, y la especificidad por el sustrato. Comenzando por el estudio de proteínas específicas, como la proteína MG517 de Mycoplasma genitalium o GpgS de Micobacterium tuberculosis, pasando por el de las estructuras de todas las proteínas cristalizadas con plegamiento GTA, hasta la utilización de todas las secuencias existentes para esta superfamilia de proteínas (más de 100000), se han encontrado características comunes a todas ellas que relacionan la secuencia, con la estructura y la función de cada proteína. Todo ello se ha conseguido utilizando técnicas y métodos bioinformáticos y computacionales, entre los que destacan: el modelado por homología, las simulaciones de Dinámica Molecular y Metadinámica, el Docking de ligandos, la superposición de estructuras tridimensionales, alineamientos múltiples y la construcción de árboles filogenéticos. Gracias a este estudio, se ha podido identificar una topología consenso común a todas las GTAs, con la que se ha construido un modelo tridimensional de la región N-terminal de la proteína MG517, de la que hasta ahora no existía estructura conocida. El modelo tridimensional ha sido validado por dinámica molecular y experimentalmente, lo cual ha permitido identificar posiciones catalíticas clave en MG517 como E193 base general, D40, Y126, Y169, I170 y Y218 de unión a sustratos. Además, para MG517 se ha propuesto un modelo de interacción monotópica con la membrana, mediante una hélice anfipática en su región C-terminal. La misma topología consenso, ha permitido el refinamiento de un alineamiento múltiple de GTAs, con el que se ha generado un perfil Hidden Makov Model (HMM) para la región N-terminal de este grupo de proteínas. Este perfil facilita el alineamiento de nuevas proteínas GTAs y la identificación de sus estructuras secundarias. También ha permitido identificar, dentro de la topología consenso, una región de secuencia y estructura muy variable, incluso para proteínas de la misma familia, donde se posiciona el aceptor específico de cada proteína y que hemos denominado “Región Variable”. Se han descrito los cambios conformacionales del bucle catalítico en la proteína GpgS mediante simulaciones de dinámica molecular de larga duración y distintos cálculos de metadinámica utilizando multitud de variables colectivas. Se ha demostrado que las distintas conformaciones son una propiedad intrínseca de la proteína, pero están desplazadas hacia su forma inactiva en ausencia de ligandos. La presencia del sustrato dador más el metal en el centro activo, promueve el movimiento de las cadenas laterales de dos residuos del bucle, Arg256 e His258, que desplaza el equilibrio hacia la forma activa y la estabiliza mediante la interacción de His258 con el metal, proponiéndose un mecanismo de ajuste inducido para esta proteína. Completando estos resultados con cálculos de docking de ligandos, se ha podido proponer el orden de entrada de los ligandos, siendo el aceptor el primero en llegar al centro activo, seguido por el dador, momento en que sucede el cambio conformacional en el bucle. A raíz de estas simulaciones, se ha observado que la interacción del metal con un residuo de histidina en el bucle catalítico, es una característica común a la gran mayoría de familias GTAs, junto a las ya conocidas del motivo DXD o la tétrada de aspartatos propuesta en literatura D-DXD-D, que se propone cambiar a D-DXD-D-H. Se ha estudiado la evolución de la superfamilia GTAs y su relación con los sustratos, encontrando que el plegamiento global del dominio GTA, define la especificidad del aceptor y que la homología entre secuencias está más influida por esta molécula aceptora del azúcar que por la molécula dadora. La región variable parece sufrir una presión evolutiva menor que el resto de la secuencia, lo que explica su mayor variabilidad, sin embargo, contiene residuos altamente conservados que interaccionan con el aceptor específico de cada proteína. Se ha utilizado esta región para la generación de perfiles HMM específicos para cada aceptor y familia de proteínas. Estos perfiles se han utilizado con éxito para el screening de proteínas GTA de función desconocida y la predicción de su aceptor.


This thesis has conducted a comprehensive study on the sequence-structure-function relations for glycosyltransferase proteins with GTA fold, through a bioinformatic computational biology approach and. The thesis is divided into four main chapters. In the first two, is approached this study by an essential enzyme in Mycoplasma genitalium involved in synthesis membrane glycolipids (MG517). In the third chapter, conformational changes of a catalytic loop are studied in the mechanism of a protein of Mycobacterium tuberculosis (GpgS), which starts the 6-O-methyl glucose biosynthetic pathway of lipopolysaccharide (MGLPs) in this organism. Finally, in chapter 4, the relationship between a specific region of the glycosyltransferase with GTA folding and substrate specificity is addressed. Starting with the study of specific proteins, such as Mycoplasma genitalium MG517 protein or Mycobacterium tuberculosis GpgS, through the structures of all proteins crystallized with GTA folding, and the use of all existing sequences for this protein superfamily (over 100000), it has found common characteristics to them all linking sequence, structure and function of each protein. All this, has been achieved using bioinformatics and computational techniques and methods, among which are: homology modeling, simulations of Molecular Dynamics and Metadinámica, the Docking of ligands, overlapping three-dimensional structures, multiple alignments and phylogenetic tree building. Thanks to this study, it has been possible to identify a consensus topology common to all GTAs, with which it has built a three-dimensional model of the N-terminus of the protein MG517, region which hitherto was known structure. The three-dimensional model has been validated experimentally by molecular and dynamic, which has identified key catalytic MG517 positions as general base E193, D40, Y126, Y169, Y218 I170 and substrate binding. Furthermore, for it has been proposed a MG517 monotopic membrane interaction model by an amphipathic helix in the C-terminal region. The same topology consensus has permitted the refinement of a multiple alignment of GTAs, with which we generate a profile Hidden Makov Model (HMM) for the N-terminal region of this group of proteins. This profile facilitates the alignment of GTAs new proteins and identifying their secondary structures. It has also enabled us to identify, within the consensus topology, a region of highly variable sequence and structure, even for proteins of the same family, where each protein specific acceptor is positioned that we have called "Variable Region". Have been described conformational changes in the catalytic loop GpgS protein, by long duration Molecular Dynamics simulations and different calculations of metadinámica using many collective variables. It has been shown that different conformations, are an intrinsic property of the protein, but are displaced towards its inactive form in the absence of ligands. The presence of the donor substrate plus metal in the active site, promotes the movement of the side chains of two residues of the loop, Arg256 and His258, which shifts the equilibrium to the active form and stabilizes by the interaction of His258 with metal, proposing an induced fit mechanism for this protein. Completing these results with docking of ligands calculations, it has been possible to propose the order of entry of the ligands, being the acceptor the first to reach the active site, followed by the donor, when that happens the conformation loop changes. Following these simulations, it has been observed that the interaction of the metal with a histidine residue in the catalytic loop, is a feature common to the vast majority of GTAs families, with the already known motif DXD or tetrad aspartates proposal in literature D-DXD-D, proposed switch to D-DXD-DH. We have studied the evolution of GTAs superfamily and their relationship with the substrates, finding that the overall folding of GTA domain, defines the acceptor specificity and the homology between sequences is more influenced by the acceptor molecule of sugar than the molecule donor. The variable region seems to suffer less evolutionary pressure than the rest of the sequence, which explains its greater variability, however, contain highly conserved residues that interact with the specific acceptor for each protein. This region has been used for profiling specific HMM for each acceptor and protein family. These profiles have been successfully used for screening GTA proteins of unknown function and predicting their acceptor.

Keywords

Bioinformática; Metadinámica; Simulation; Metadynamics; Simulación; Dinámica Molecular; Modelling; Molecular Dynamics; Modelado; Bioinformatics

Subjects

004 - Computer science and technology. Computing. Data processing; 547 - Organic chemistry; 548 - Crystallography; 573 - General and theoretical biology; 577 - Material bases of life. Biochemistry. Molecular biology. Biophysics

Knowledge Area

Ciències

Documents

Tesi_Javier_Romero.pdf

8.920Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)