Statistical methods for the analysis of microbiome compositional data in HIV studies

Author

Rivera Pinto, Javier

Director

Calle, M. Luz

Noguera Julian, Marc

Date of defense

2018-11-30

Pages

196 p.



Department/Institute

Universitat de Vic - Universitat Central de Catalunya. Departament de Biociències

Abstract

The human microbiome is involved in many essential functions, such as food digestion and immune system maintenance. Alterations in its composition may have important effects on human health and they have been associated to high impact diseases such as obesity, asthma, cancer or cardiovascular disease among others. This thesis is focused on the study of the link between the gut microbiome and HIV infection. The interest arises because of the important damages that the virus causes in the gut epithelium, which houses most of our immune system. Because of this damage, HIV patients present systemic and chronic inammation responsible of an increase in their risk of having non-AIDS related diseases. Thus, understanding how gut microbiome alterations after HIV infection are related to immune dysregulation is of major importance. The analysis of microbiome data is challenging. Since microbiome abundances are obtained from high-throughput DNA sequencing techniques, the total number of reads per sample is constrained by the maximum number of sequence reads that the DNA sequencer can provide. This total count constraint induces strong dependencies among the abundances of the different taxa and confers the compositional nature of microbiome data. This means that the abundance values are not informative by themselves and that the relevant information is contained in the ratios of abundances between the diferent taxa. Ignoring the compositional nature of microbiome data may have important negative effects, such as spurious correlations, subcompositional incoherences, and the increase of type I error. In this context, we have proposed two novel statistical methods for microbiome analysis that preserve the principles of compositional data analysis: MiRKAT-CoDA (weighted and unweighted) and selbal algorithm. MiRKAT-CoDA algorithm is a distance-based method for testing the overall association between microbial composition and a response variable of interest. It extends Kernel machine regression to compositional data analysis by considering a subcompositional dominant distance, such as Aitchison distance. The weighted version of MiRKAT-CoDA provides a measure of the contribution of each taxon to the global association with the response variable. selbal algorithm is a new approach for the identification of microbial signatures associated to an outcome. The approach is innovative because, instead of defining the microbial signature as a linear combination of a set of taxa abundances, it is defined as a balance between two groups of taxa, a mathematical notion that preserves the principles of compositional data analysis. In summary, the major contributions of this thesis are two new methodological strategies: MiRKAT-CoDA (weighted and unweighted) and selbal algorithm, for microbiome association testing and for the identification of microbiome signatures, respectively. Moreover, the results of this thesis have helped to advance the study of the role of the gut microbiome in HIV infection.


El microbioma humano participa en muchas funciones esenciales como la digestión de alimentos y el mantenimiento del sistema inmunitario. Alteraciones en su composición pueden afectar a la salud del individuo, habiendo sido relacionados cambios en el microbioma con enfermedades tales como obesidad, asma, cáncer o enfermedades cardiovasculares entre otras. Esta tesis está centrada en el estudio de la relación entre el microbioma intestinal y la infección por VIH. Este interés surge debido al importante daño que el VIH produce sobre el epitelio intestinal, el cuál contiene la mayor parte del sistema inmunitario. Debido a este daño, los pacientes infectados por VIH presentan una inflamación sistémica y crónica, responsable del incremento del riesgo de padecer enfermedades no relacionadas directamente con el SIDA. Así pues, resulta importante entender las alteraciones en el microbioma intestinal asociadas a la infección y patogénesis del VIH. El análisis de los datos de microbioma resulta todo un desafio desde el punto de vista estadístico. Dado que los datos de abundancia del microbioma se obtienen por técnicas de secuenciación del ADN, el número total de reads por muestra viene limitado por el número máximo de secuencias que puede proporcionar el secuenciador. Esta limitación en el número de reads genera fuertes dependencias entre las abundancias de las diferentes taxas y define la naturaleza composicional de este tipo de datos. Este hecho supone que los valores de abundancia no son informativos en sí mismos, sino que la información la proporcionan realmente los ratios entre distintas componentes. De ignorar la composicionalidad de los datos de abundancia microbiana, los resultados obtenidos pueden ser confusos e incoherentes. Así, pueden aparecer correlaciones espurias, incoherencias subcomposicionales o incluso un incremento de los falsos positivos a la hora de definir las diferencias entre distintos grupos de individuos. En este contexto, presentamos dos nuevas propuestas para el estudio del microbioma que preservan los principios del análisis de datos composicionales: los algoritmos MiRKAT-CoDA (ponderada y sin ponderar) y selbal. El algoritmo MiRKAT-CoDA es un método basado en distancias que permite evaluar si existe una asociación global entre la composición microbiana y una variable respuesta de interés. Este método es una extensión de la Kernel machine regression dentro del ámbito del análisis de datos composicionales, considerando una distancia subcomposicionalmente dominante como es la distancia de Atichison. La versión ponderada de MiRKAT- CoDA proporciona para cada variable un valor que mide la contribución de cada una de las taxas en la asociación global con la variable respuesta. Por otra parte, el algoritmo selbal es una nueva propuesta focalizada en la identificación de firmas microbianas asociadas a una variable de interés. El método es novedoso debido a que en lugar de definir la firma microbiana como una combinación lineal de un conjunto de variables, se define como un balance entre dos grupos de taxas, una noción matemática que preserva los principios del análisis de datos composiconales. En resumen, las mayores aportaciones de esta tesis son dos estrategias metodológicas diferentes: MiRKAT-CoDA (ponderada y sin ponderar) y selbal. Estas propuestas resultan útiles para evaluar la asociación entre microbioma y variable respuesta así como identifiar firmas microbianas, respectivamente. Además, los resultados de esta tesis han contribuido al avance en el estudio del papel que desempeña el microbioma intestinal en la infección por VIH.

Keywords

Sida; VIH (Virus); Microbioma humà

Subjects

61 - Medical sciences

Knowledge Area

Salut

Note

Programa de Doctorat : Ciències Experimentals i Tecnologies

Documents

tesdoc_a2018_rivera_javier_statistical.pdf

8.814Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)