Anàlisi bioinformàtica de les mutacions puntuals patològiques


Autor/a

Ferrer Costa, Carles

Director/a

Cruz Montserrat, Francisco Javier de la

Orozco López, Modesto

Data de defensa

2005-07-29

ISBN

8468953164

Dipòsit Legal

B.51928-2005



Departament/Institut

Universitat de Barcelona. Departament de Bioquímica i Biologia Molecular (Biologia)

Resum

L'obtenció del primer esborrany del genoma humà porta associada l'aparició d'una quantitat ingent de dades. D'aquestes cal destacar les relacionades a la variació intraespecífica, en particular les variacions puntuals o SNP (<i>single nucleotide polimorphisms</i>). Aquesta variabilitat és la base de la transmissió de malalties monogèniques hereditàries, així com la susceptibilitat a patir malalties poligèniques amb un patró d'heredabilitat complex. Una comprensió profunda de la relació entre patologia i mutacions puntuals ha de provenir de la comprensió de l'impacte que tenen aquestes a nivell molecular. <br/>Amb aquest objectiu es va construir una base de dades de mutacions puntuals patològiques en proteïnes humanes i es va establir un model de mutació neutra derivat de l'anàlisi dels alineaments múltiples de seqüència. Amb els dos grups de dades es va fer una anàlisi comparativa de les distribucions de fins 23 paràmetres diferents per les mutacions, que podem agrupar en tres grans blocs: paràmetres estructurals, evolutius i basats en propietats d'aminoàcids. L'observació de moltes d'aquestes distribucions mostren que hi ha un clar comportament diferencial entre les mutacions neutres i les patològiques. <br/>A la vista d'aquests resultats, es provar l'ús d'aquests paràmetres per l'anotació o predicció de mutacions puntuals o SNPs no sinònims en regions codificants. <br/>Es van usar xarxes neurals per tal de combinar tots els paràmetres usats en la caracterització de les mutacions, i millorar així els resultats en la predicció del caràcter patològic de les mutacions puntuals. S'obté amb la xarxa més optimitzada un encert total del 87% i un enriquiment de la predicció sobre l'atzar del 73%. En comparació amb els altres mètodes es veu una millora en les prediccions atribuïble segurament al bon comportament de les xarxes neurals. <br/>Fer accessible l'ús d'aquesta metodologia mitjançant el disseny d'un servidor web va ser el següent pas a abordar. El servidor s'anomena PMut i és accessible via Internet a l'adreça http://mmb2.pcb.ub.es:8080/PMut. <br/>Posteriorment al projecte Genoma humà es van iniciar la seqüenciació d'altres espècies, especialment animals models. L'estudi de quan transferibles podien ser les eines derivades per l'anotació de mutacions puntuals humanes en l'anotació de mutacions en animals models va ser el següent pas abordat en la tesi. <br/>D'aquesta manera es va generar una base de dades de mutacions patològiques en altres espècies i d'aquestes es van derivar les neutres corresponents. D'aquestes mutacions, la majoria corresponen a ratolí. Com a model humà es va usar la base de dades de mutacions puntuals humanes. <br/>Es va procedir a fer ús de les xarxes neurals per posar a punt procediments de predicció de mutacions en altres espècies. Es van usar les dades humanes per entrenar una xarxa per predir les dades de ratolí, i els resultats tot i que inferiors són bons, ja que tenim un encert total del 86% i un enriquiment sobre l'atzar del 53%. <br/>L'última pregunta que ens hem formulat en aquesta tesi és, quan una mutació que és patològica en una proteïna humana ho seguirà sent en proteïnes homòlogues? Aquesta, qüestió apareix amb més força quan en l'anàlisi dels alineaments múltiples apareix el residu patològic com a salvatge en altres espècies, casos que es coneixen com CPDs (<i>compensated pathogenic deviations</i>). Els estudis recents expliquen l'aparició d'aquestes CPDs per la presència de mutacions compensatòries que permeten l'existència d'aquesta, però ens vam plantejar si existeixen altres raons que expliquin aquest fet. Així ens vam decidir a explorar aquest fenomen amb el nostre grup de dades de mutacions patològiques humanes, amb les CPDs derivades es van fer anàlisis a nivell de seqüència i d'estructura que semblen indicar-nos que altres raons podrien explicar també l'aparició d'aquests residus en altres espècies.


<I>La publicación del genoma humano lleva asociada la aparición de una gran cantidad de datos. Entre estos cabe destacar las relacionadas con la variabilidad intraespecífica, en particular las variaciones puntuales o SNPs ("Single Nucleotide Polimorphisms"). Esta variabilidad es la base de la transmisión de enfermedades monogénicas hereditarias, así como la susceptibilidad a padecer enfermedades poligénicas. Una comprensión profunda de la relación entre patología y mutaciones puntuales tiene que provenir de la comprensión del impacto a nivel molecular que tienen estas mutaciones. <br/>Con este objetivo se construyó una base de datos de mutaciones puntuales patológicas en proteínas humanas y se estableció un modelo de mutación neutra derivado del análisis de los alineamientos múltiples de secuencia. Con los dos grupos se hizo un análisis comparativo de las distribuciones de hasta 23 parámetros distintos que se agrupan tres bloques distintos, parámetros estructurales, evolutivos y basados en propiedades de los aminoácidos. La observación y el análisis de estas distribuciones muestra que hay un claro comportamiento diferencial de entre las mutaciones neutras y patológicas. <br/>A la vista de estos resultados, el siguiente paso fue probar estos parámetros para la anotación o predicción de mutaciones puntuales. <br/>Se usaron redes neuronales, con tal de combinar todos los parámetros usados en la caracterización de las mutaciones puntuales. Con la red más optimizada se consigue un acierto total del 87% y un enriquecimiento de la predicción sobre el azar del 73%. En comparación con los otros métodos se ve una mejora en las predicciones que es seguramente atribuible a la bondad en el comportamiento de las redes neuronales. <br/>Hacer accesible el uso de esta metodología mediante el diseño de un servidor web fue el siguiente paso a abordar en esta tesis. El servidor se llama PMut y es accesible vía Internet en la dirección http://mmb2.pcb.ub.es:8080/PMut. <br/>Posteriormente al proyecto Genoma humano se inició la secuenciación de otras especies, especialmente animales modelos. El estudio de cuan transferibles pueden ser las herramientas derivadas para la anotación de mutaciones puntuales humanas en la anotación de mutaciones en animales fue el siguiente paso abordado en la tesis. <br/>De esta manera se generó una base de datos de mutaciones patológicas en otras especies y se derivaron las neutras correspondientes. De estas mutaciones la mayoría corresponden a ratón. Como modelo humano se usó la base de datos de mutaciones puntuales humanas. <br/>Se procedió a hacer uso de las redes neuronales para poner a punto procedimientos de predicción. Se usaron los datos humanos para entrenar la red para predecir los datos de ratón y los resultados aunque son inferiores que en humanos son buenos, ya que obtenemos un acierto total del 86% y un enriquecimiento sobre el azar del 53%. <br/>La última pregunta que nos hemos formulado en esta tesis es: cuando una mutación que es patológica en una proteína humana ¿lo seguirá siendo en proteínas homólogas?. Esta cuestión aparece con más fuerza cuando analizamos los alineamientos múltiples de secuencia y el residuo que es patológico en humanos aparece como neutro en la misma posición en otras proteínas. Estas mutaciones se llaman CPDs (<i>compensated pathogenic deviations</i>). Los estudios recientes explican la existencia de estas mutaciones por la presencia de otras mutaciones compensatorias en posiciones cercanas a la CPD, pero nos planteamos si existen otras razones que expliquen este hecho. Así nos decidimos a explorar este fenómeno en nuestra base de datos de mutaciones puntuales patológicas humanas. Con las CPDs derivadas se hicieron distintos análisis a nivel de secuencia y de estructura que parecen indicar que otras razones podrían explicar estas CPDs. Estas serian que las CPD son menos dañinas que las mutaciones patológicas o que se encuentran en zonas menos lesivas para la estructura. </I>


ENGLISH ABSTRACT:<br/><br/>The human genome draft has associated a huge amount of data. Of these data we should note all related to intraspecific variability, in particular point mutations or SNPs (<I>single nucleotide polimorphisms</I>). These variability is responsible of monogenic diseases and also susceptibility to polygenic or complex diseases. A deep comprehension of relationship between pathology and point mutations should come from an understanding of the molecular impact of these point mutations to the structural environment. <br/>With this idea we constructed a database of pathological and neutral point mutations in human proteins. 23 different parameters were derived from the database, these parameters can be classified in three subjects, structural, evolutionary and physico-chemical properties. The comparative analysis between pathological and neutral mutations for each parameter shown a significant difference in certain parameters for the pathological versus the neutral ones. <br/>The second step was try to use these parameters all together in a strategy to predict pathological behavior for point mutations in proteins. To accomplish this idea we developed a neural network based procedure that raise better result than previously published works. <br/>We developed also a web server in order to let other people to use this prediction protocol. The server is called PMut and is accessible through http://mmb2.pcb.ub.es:8080/PMut. <br/>With the publication of mouse genome and other animal model genomes a new question arose. When is possible to use a human based procedures to predict pathological point mutations in proteins? In order to tackle this question we constructed a database analogous to the human based but in other species, basically, mouse. With the database we trained neural networks to predict non-human point mutations based in human point mutations. We shown is possible to predict non-human point mutations based on neural networks trained with human point mutations with acceptable numbers. <br/>Finally we studied the phenomena of CPDs (<I>compensated pathogenic deviations</I>). These CPDs are mutations that are pathological in human but appear as neutral in homologous proteins. It is said that mutations appear because the presence of compensatory mutations, but we show that other explanations can be possible. For example, the CPDs appear in positions that are more flexible to changes and also involve changes that are less damaging.

Paraules clau

Variacions intraeespecífiques; SNP; Malalties hereditàries; Genòmica

Matèries

577 - Bioquímica. Biologia molecular. Biofísica

Àrea de coneixement

Ciències Experimentals i Matemàtiques

Documents

0.PREVI.pdf

934.1Kb

1.CAP_1.INTRODUCCIO.pdf

574.9Kb

10.CAP_10.ALTRES_TREBALLS.pdf

998.3Kb

11.APENDIX.pdf

60.30Kb

2.CAP_2.OBJECTIUS.pdf

36.18Kb

3.CAP_3.pdf

3.167Mb

4.CAP_4.pdf

832.3Kb

5.CAP_5.pdf

1.133Mb

6.CAP_6.pdf

210.6Kb

7.CAP_7.pdf

217.3Kb

8.CAP_8.RESUM.pdf

315.6Kb

9.CAP_9.CONCLUSIONS.pdf

49.78Kb

 

Drets

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Aquest element apareix en la col·lecció o col·leccions següent(s)