Bioinformatic analysis of the functional effects of human polymorphic inversions on gene expression, epigenetics and phenotypic traits

dc.contributor.author
Campoy García, María Elena
dc.date.accessioned
2024-07-08T17:27:04Z
dc.date.available
2024-07-08T17:27:04Z
dc.date.issued
2024-03-20
dc.identifier.uri
http://hdl.handle.net/10803/691678
dc.description.abstract
Les variants estructurals contribueixen de manera substancial a la diversitat genètica i fenotípica dels organismes. Tot i això, aquest tipus de variants no estan completament caracteritzades. Dins de les variants estructurals, les inversions són d'especial interès pels efectes que tenen sobre la recombinació. Tanmateix, molts estudis les deixen de banda a causa de la seva naturalesa balancejada, la presència de seqüències repetitives als punts de trencament i el fet que moltes d'elles són recurrents. Els últims avenços en tècniques genòmiques ens han permès finalment, completar un catàleg d'inversions humanes, tot i que el nombre d'inversions estudiades en profunditat encara és limitat. En aquest estudi, utilitzem el conjunt d'inversions polimòrfiques humanes més gran i fiable en l'actualitat. Aquestes inversions han estat anotades manualment i caracteritzades a escala seqüència per després fer una anàlisi completa dels seus potencials efectes funcionals a diferents nivells. Aquest catàleg representa un recurs únic que inclou un total de 134 inversions, 80 de les quals han estat generades per mecanismes no homòlegs (NH) i les altres 54 per recombinació homòloga no al·lèlica (NAHR), amb més de 61 duplicacions invertides entre elles. Aquestes variants estructurals ja havien estat genotipades mitjançant PCR o PCR inversa en un nombre de mostres variable (95-551), així com mitjançant BreakSeq en les 3.202 mostres del conjunt de dades "high-coverage" del Projecte 1000 Genomes. A més, gràcies a processos bioinformàtics d'alta precisió, s'ha pogut imputar una gran fracció de variants en mostres addicionals dels projectes GTEx i Geuvadis. Això ha facilitat l'extensió de l'anàlisi a altres conjunts de dades moleculars, concretament, els efectes de les inversions sobre l'expressió gènica així com sobre múltiples marques epigenètiques, incloent-hi metilació a les illes CpG, marques de modificació d'histones, dominis reguladors cromatínics i accessibilitat de la cromatina. Així, s'ha pogut determinar que 24 inversions NH, 21 inversions NAHR i 17 duplicacions invertides actuen com a QTLs principals en algun dels senyals moleculars que hem analitzat en diferents línies cel·lulars, teixits i ancestres poblacionals. Cal destacar també, que aquestes variants estan enriquides en canvis d'expressió gènica i afecten un nombre de gens més gran en comparació amb el nombre d'SNPs. A més, el 28,3% de les inversions i el 16,4% de les duplicacions invertides presenten un elevat desequilibri de lligament amb senyals de GWAS. És interessant assenyalar, també, que les inversions NAHR solen estar enriquides en efectes funcionals, superposades d'alguna manera amb gens i tenen més efecte sobre els gens que regulen. Aquestes característiques es fan especialment evident per les inversions més grans, com la 17q21.31 i la 8p23.1. Es proposa que aquestes dues inversions actuen com a supergens, i que les seves conseqüències funcionals podrien compensar possibles efectes negatius en la fertilitat. Finalment, hem identificat 21 variants candidates sobre les quals volem realitzar una caracterització funcional més detallada pròximament. En conjunt, aquestes troballes subratllen l'important paper de les inversions i revelen part de la base genètica responsable de la variabilitat fenotípica humana desconeguda fins ara, contribuint així, a una millora en la comprensió de l'impacte funcional real d'aquestes variants estructurals tan poc estudiades.
dc.description.abstract
La variación estructural contribuye de forma substancial a la diversidad genética y fenotípica pero aún no se ha podido completar la caracterización de estas variantes. Las inversiones son especialmente interesantes debido a sus efectos en la recombinación. Sin embargo, a menudo se han dejado de lado debido a su naturaleza balanceada, la presencia de secuencias repetitivas en sus puntos de rotura y al hecho de que muchas de ellas son recurrentes. Las nuevas técnicas genómicas nos están permitiendo por fin completar el catálogo de inversiones humanas, aunque el número de inversiones estudiadas en detalle aún es limitado. En este estudio, hemos utilizado el conjunto de datos más grande y más fiable hasta la fecha de inversiones polimórficas humanas anotadas manualmente y bien caracterizadas a nivel de secuencia para realizar un análisis completo de sus efectos funcionales potenciales a varios niveles. Este recurso único incluye un total de 134 inversiones, de las cuales 80 han sido generadas por mecanismos no homólogos (NH) y 54 por recombinación homóloga no alélica (NAHR), más 61 duplicaciones invertidas. Estas variantes habían sido previamente genotipadas por PCR o PCR inversa en un número variable de muestras (95-551) y mediante BreakSeq en las 3.202 muestras del conjunto de datos "high-coverage" del proyecto 1000 Genomas. Además, mediante imputación bioinformática precisa de una gran proporción de las variantes en las muestras que forman parte de proyectos como GTEx o Geuvadis, ha sido posible extender el análisis a otros datos moleculares. En concreto, hemos analizado los efectos de las inversiones sobre la expresión génica y múltiples marcas epigenéticas, que incluyen metilación en islas CpG, marcas de modificación de histonas, dominios regulatorios cromatínicos y accesibilidad de la cromatina. Hemos podido determinar así que que 24 inversiones NH, 21 inversiones NAHR y 17 duplicaciones invertidas actúan como QTLs principales en algunas de las señales moleculares que hemos analizado en varias lineas celulares, tejidos y ancestrías. Destaca también que estas variantes están enriquecidas en cambios de expresión génica y afectan a un número mayor de genes en comparación con SNPs. Además, 28.3% de las inversiones y 16.4% de las duplicaciones invertidas se encuentran en alto desequilibrio de ligamiento con señales GWAS. En particular, es interesante señalar que las inversiones NAHR suelen estar enriquecidas en efectos funcionales, tienen algún tipo de solapamiento con genes y tienen mayores efectos sobre aquellos que regulan. Esto es especialmente evidente para aquellas de mayor tamaño, como las inversiones 17q21.31 y 8p23.1, que se ha propuesto que actúan como supergenes, y en las que sus consecuencias funcionales podrían compensar los posibles efectos negativos en la fertilidad. Finalmente, hemos identificado 21 variantes candidatas sobre las que realizar una caracterización funcional futura más detallada. Por lo tanto, estos hallazgos subrayan el importante papel que las inversiones tienen en muchos organismos y revelan parte de la base genética desconocida responsable de la variabilidad humana fenotípica, contribuyendo a una mayor comprensión del impacto funcional real de estas variantes poco estudiadas.
dc.description.abstract
Structural variation (SV) contributes substantially to genetic and phenotypic diversity, but the characterization of these variants is far from complete. Inversions are particularly interesting because of their effects on recombination. However, they are often missed due to their balanced nature, the repetitive sequences at their breakpoints and the fact that many are recurrent. The latest genomic techniques are finally allowing us to obtain a full catalogue of human inversions, although the number of inversions studied in detail is still limited. Here, we have taken advantage of the largest and most reliable dataset of sequence-resolved and manually-annotated human polymorphic inversions so far, to do a complete analysis of their potential functional effects at multiple levels. This unique resource totals 134 inversions, including 80 generated by non-homologous (NH) mechanisms and 54 by non-allelic homologous recombination (NAHR), and 61 inverted duplications, which had been previously genotyped in a variable number of samples by PCR or iPCR (95-551) and in the 3,202 samples from the 1000 Genomes Project high-coverage release by BreakSeq. Furthermore, thanks to the accurate bioinformatic imputation of a large fraction of the variants in additional samples from the GTEx and Geuvadis projects, it was possible to extend the analysis to other molecular datasets. Specifically, we have tested inversion effects on gene expression and multiple epigenetic changes, such as methylation of CpG sites, histone modification marks, chromatin regulatory domains and chromatin accessibility. We have found that 24 NH inversions, 21 NAHR inversions and 17 inverted duplications act as lead QTLs for some of the molecular traits that were analyzed across different cell lines, tissues and ancestries. Interestingly, the studied variants showed an enrichment of gene expression changes and a higher number of unique affected genes compared to SNPs. Moreover, 28.3% of the inversions and 16.4% of the inverted duplications are in high linkage disequilibrium (LD) with GWAS signals. In particular, NAHR inversions tend to be enriched in functional effects, have some kind of overlap with genes and have larger effect sizes on the genes that they regulate. This is especially evident for the largest ones, like the 17q 21.31 and 8p23.1 inversions, that have been proposed to act as supergenes, and in which the functional consequences could compensate the associated fertility costs. Finally, we have identified 22 potential interesting candidates on which to perform further functional characterization in the future. Therefore, these findings highlight the important role that inversions can play in many organisms and reveal part of the missing genetic basis responsible for human phenotype variability, contributing to a more global understanding of the real functional impact of these little studied variants.
dc.format.extent
196 p.
dc.language.iso
eng
dc.publisher
Universitat Autònoma de Barcelona
dc.rights.license
ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Genoma humà
dc.subject
Human genome
dc.subject
Genoma humano
dc.subject
Inversions cromosòmiques
dc.subject
Chromosomal inversions
dc.subject
Inversiones cromosómicas
dc.subject
Bioinformàtica
dc.subject
Bioinformatics
dc.subject
Bioinformática
dc.subject.other
Ciències de la Salut
dc.title
Bioinformatic analysis of the functional effects of human polymorphic inversions on gene expression, epigenetics and phenotypic traits
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.date.updated
2024-07-08T17:27:04Z
dc.subject.udc
575
dc.contributor.director
Cáceres Aguilar, Mario
dc.contributor.tutor
Cáceres Aguilar, Mario
dc.embargo.terms
cap
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Universitat Autònoma de Barcelona. Programa de Doctorat en Genètica


Documents

mecg1de1.pdf

26.27Mb PDF

This item appears in the following Collection(s)