Métodos estadísticos para tratar incertidumbre en estudios de asociación genética: aplicación a CNVs y SNPs imputados

Author

Subirana Cachinero, Isaac

Director

González Ruiz, Juan Ramón

Codirector

Monleón Getino, Toni

Tutor

Oller i Sala, Josep Maria

Date of defense

2014-09-18

Legal Deposit

B 25576-2014

Pages

212 p.



Department/Institute

Universitat de Barcelona. Departament d'Estadística

Abstract

En los últimos años, se han descubierto un gran número de variantes genéticas de distinta naturaleza, desde las más simples que indican un cambio en un nucleótido (SNPs), hasta otras más complejas referentes al número de copias de un segmento de la cadena de ADN (CNVs). A pesar de que existen otras muchas variantes, como son las inversiones, microsatélites, etc., esta tesis se ha focalizado en los SNPs y en los CNVs, ya que son los dos tipos de variantes más analizadas en los estudios de epidemiología genética. En muchas situaciones, los métodos para analizar el efecto que tienen los SNPs o los CNVs sobre las enfermedades están bien resueltos. Sin embargo, en algunos casos, los SNPs y los CNVs se observan con incertidumbre. Por ejemplo, a veces el genotipo para un SNP no se observa directamente sino que se imputa. A su vez, establecer el número de copias para un CNV se hace de forma indirecta a partir de la señal cuantitativa de su sonda (probe). Esto hace que se requieran métodos estadísticos “no estándar” apropiados para estudiar la asociación entre SNPs imputados o CNVs incorporando esta incertidumbre. En la literatura se han descrito diferentes estrategias para afrontar los estudios de asociación entre una variante genética medida con incertidumbre y una variable respuesta: (i) la estrategia Naive y (ii) la estrategia conocida como Dosage. A grosso modo, la primera no tiene en cuenta la incertidumbre, mientras que la segunda lo hace de forma aproximada. En esta tesis doctoral se proponen y describen analíticamente modelos estadísticos para tratar datos genéticos medidos con incertidumbre que solventen las limitaciones que presentan los métodos existentes. Se demuestra que dichos modelos tienen la característica de incorporar la incertidumbre de forma adecuada en la función de verosimilitud. Además, se han escrito algoritmos numéricos para maximizar la función de verosimilitud de manera eficiente, a fin de poder analizar centenares de miles de variantes genéticas (estudios conocidos como GWAS –Genome Wide Association Studies-). El modelo propuesto es capaz de analizar distintos tipos de variable respuesta: binario (presencia o no de cierta enfermedad), cuantitativa (nivel de colesterol en sangre) ó censurada (tiempo hasta recaída). No sólo se han diseñado técnicas para el análisis de las variantes genéticas de forma individual sino también para pares simultáneamente (interacciones). Todo ello se ha implementado en distintas funciones estructuradas e integradas como parte de un programa de código libre y de uso común en la epidemiología genética como es R. Además, se ha escrito parte del código de las funciones en lenguaje C++ a fin de que los cálculos sean mucho más rápidos. El resultado ha sido la creación de un package de R llamado CNVassoc juntamente con un extenso manual de uso con numerosos ejemplos e instrucciones (vignette). Los artículos que conforman esta tesis son los siguientes: • “Accounting for uncertainty when assessing association between copy number and disease: a latent class model”, donde se presenta y describe el modelo propuesto. • “Genetic association analysis and meta-analysis of imputed SNPs in longitudinal studies”, donde se amplía el modelo al análisis de SNPs imputados en estudios con respuesta del tipo “tiempo hasta evento” (longitudinales). • “Interaction association analysis of imputed SNPs in case control and longitudinal studies”, donde se aplica el modelo a interacciones de pares de SNPs imputados en estudios de casos y controles y en estudios longitudinales. • “CNVassoc: Association analysis of CNV data using R”, en que se describe el package desarrollado e implementado en R junto con su vignette.


In the last years, a large number of genetic variants have been discovered, from the simplest ones indicating a change in a nucleotide (SNPs), until the much more complex ones which are repetitions in a segment of DNA chain (CNVs). Although it exist more genetic variants such as microsatellites, inversions, etc. this thesis has focused on SNPs and CNVs, since these variants are the most analyzed by far. In many cases, the methods to analyze the effect of SNPs or CNVs on a disease are well solved. However, in some cases, SNPs and CNVs are measured with uncertainty. For example, sometimes the genotype for a SNP has not been directly observed but has been imputed instead. At the same time, to establish the number of copies for a CNV is done indirectly from the quantitative signal by a designed probe. This makes necessary “no standard” and appropriated statistical methods to study the association between imputed SNPs or CNVs incorporating this uncertainty. Several strategies have been described in the literature to perform association studies between a genetic variant measured with uncertainty and a response: (i) Naive strategy and (ii) a strategy known as Dosage. A grosso modo, the first does not take into account uncertainty, while the second does but in an approximated way. In this thesis, a statistical method is proposed to deal with genetic data measured with uncertainty and overcome the limitations of other existing methods. This method has been described analytically, which incorporates the uncertainty in the model likelihood properly. Also, numerical algorithms have been built to maximize the likelihood in an efficient way in order to analyze hundreds of thousand variants in a reasonable time (GWAS –Genome Wide Association Studies-). All this has been implemented in several functions structured and integrated as part of a free and very popular software in genetic epidemiology called R. Also, part of the code has been translated to C++ to speed up the process. Quantitative, binary or time-to-event response types are supported by the proposed method, covering the most popular designs in genetic association studies: case-control, quantitative traits or longitudinal studies. The method has been accommodated to perform interaction analysis (epistasis), as well.

Keywords

Genètica; Genética; Genetics; Epidemiologia genètica; Epidemiología genética; Genetic epidemiology

Subjects

311 - Statistics as a science. Statistical theory

Knowledge Area

Ciències Experimentals i Matemàtiques

Documents

ISC_TESIS.pdf

5.200Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/3.0/es/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/3.0/es/

This item appears in the following Collection(s)