Data science in HIV : statistical approaches for therapeutic HIV vaccine data

Author

Alarcón Soto, Yovaninna

Director

Langohr, Klaus

Codirector

Gómez Melis, Guadalupe

Date of defense

2021-06-30

Pages

203 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa

Doctorate programs

Estadística i investigació operativa

Abstract

The present dissertation contributes to Data Science in the Human lmmunodeficiency Virus (HIV) field, addressing specific issues related to the modelling of data coming from three different clinical trials based on the development of HIV therapeutic vaccines. The biological questions that these studies raise are identify biomarkers that predict HIV viral rebound; explain the time to viral rebound as a consequence of antiretroviral therapy (cART) stop considering the variability of data sources; and find the relationship between spot size and spot count from Enzyme-Linked lmmunosorbent spot (ELISpot) assays data. To handle these problems from a statistical perspective, in this thesis we: adapt the elastic net penalization to the accelerated failure time model with interval-censored data, fit a mixed effects Cox model with interval-censored data, and improve statistical methodologies to deal with ELISpot assays data and a binary response, respectively. In order to address the variable selection among a vast number of predictors to explain the time to viral rebound, we consideran elastic-net penalization approach within the accelerated failure time model. Elastic-net regularization considers a possible correlation structure among covariates, which is the case of messenger RNA (mRNA) data. For this purpose, we derive the expression of the penalized log-likelihood function for the special case of the interval-censored response (time to viral rebound). Following, we maximize this function using distinct approaches and optimization methods. Finally, we apply these approaches to the Dendritic Cell-Based Vaccine clinical trial, and we discuss different numerical methods for the maximization of the log-likelihood. To explain the time to viral rebound in the context of another study with data from several clinical trials, we use a mixed effects Cox model to account for the data heterogeneity. This model allows us to handle the heterogeneity between the Analytical Treatment lnterruption (ATI) studies and the fact that the patients had different number of ATI episodes. Our method proposes the use of a multiple imputation approach based on a truncated Weibull distribution to replace the interval-censored by imputed survival times. Our simulation studies show that our method has desirable properties in terms of accuracy and precision of the estimators of the fixed effects parameters. Concerning the clinical results, the higher the pre-cART VL, the larger the instantaneous risk of a viral rebound. Our method could be applied to any data set that presents both interval-censored survival times and a grouped data structure that could be treated as a random effect. We finally address two different issues that have arisen when analyzing the BCN02 clinical trial. On one hand, we fit univariate log-binomial models as an alternative to the usual logistic regression. On the other hand, we use one/two- way unbalanced ANOVA to analyze the variability of the main outcomes from the ELISpot assays across time. Although these assays are widely used in the context of the HIV study, the relationship between spot size or spot count and other variables has not been studied until now. In this thesis, we propose, develop, and apply different statistical approaches that contributes to answer diverse clinical questions that are relevant in several clinical trials. We have tried to highlight that to be able to choose the appropriate methodology, make correct clinical interpretations and contribute to a meaningful scientific progress, a narrow collaboration with scientists is necessary. We expect that the original results from this thesis will contribute to the path of development and evaluation of a therapeutic HIV vaccine, helping to improve the way of living of HIV-infected people.


La presente tesis contribuye a la ciencia de datos abordando problemas biológicos relevantes en el desarrollo de vacunas terapéuticas para el Virus de Inmunodeficiencia Humana (VIH) mediante la modelización de datos procedentes de tres ensayos clínicos diferentes. Algunas de las cuestiones suscitadas en estos estudios y que esta tesis aborda son: identificar biomarcadores para estudiar los factores de riesgo del rebote viral del VIH, explicar el tiempo transcurrido hasta el rebote viral como consecuencia del cese de la terapia antirretroviral (cART) considerando la variabilidad de las fuentes de datos y estudiar la relación entre las variables spot size y spot count en ensayos inmunoabsorbentes (ELISpot). Para abordar cada uno de estos interrogantes desde una perspectiva estadística, en esta tesis hemos adaptado una penalización de red elástica para el modelo de vida acelerada (AFT) con datos censurados en un intervalo, ajustado un modelo de Cox de efectos mixtos con datos censurados en un intervalo y mejorado las metodologías estadísticas existentes para tratar los datos de los ensayos ELISpot y de respuesta binaria, respectivamente. En primer lugar, hemos abordado el problema de tener más de cinco mil ARN mensajeros (ARNm) para explicar el tiempo hasta el rebote viral. Para ello, hemos considerado un enfoque de penalización de red elástica para el modelo de vida acelerada. Esta regularización considera una posible estructura de correlación entre las covariables, como sucede con los ARNm. Para este objetivo, primero derivamos la expresión de la función de verosimilitud penalizada considerando una respuesta censurada en un intervalo (tiempo hasta el rebote viral). A continuación, maximizamos esta función utilizando distintos enfoques y métodos de optimización. Finalmente, aplicamos estos métodos al ensayo clínico DCV2 y discutimos sobre diferentes enfoques numéricos para la maximización de la verosimilitud. En segundo lugar, para explicar el tiempo hasta el rebote viral proponemos ajustar un modelo de Cox de efectos mixtos. Dado que el tiempo hasta el rebote viral está censurado en un intervalo utilizamos imputación múltiple basada en una distribución de Weibull truncada. Este modelo nos permite controlar la heterogeneidad entre los estudios de interrupción analítica del tratamiento (ATI) y el hecho de que los pacientes tengan diferente número de episodios ATI. Según el estudio de simulación que realizamos, nuestro método tiene propiedades deseables en términos de exactitud y precisión de los estimadores de los parámetros de efectos fijos. Finalmente abordamos dos problemas diferentes dentro del ensayo clínico BCN02. Por un lado, ajustamos modelos log-binomiales univariados como alternativa a la clásica regresión logística. Por otro lado, utilizamos un modelo ANOVA no balanceado para analizar la variabilidad de los resultados principales de los ensayos ELISpot a lo largo del tiempo. Aunque los ensayos ELISpot se usan a menudo en el estudio del VIH, la relación entre variables como el spot size, spot count y otras no se había estudiado hasta ahora. En esta tesis hemos propuesto y desarrollado diferentes enfoques estadísticos que han dado respuesta a preguntas biológicas planteadas en tres ensayos clínicos. En este trabajo se destaca la importancia de que los distintos miembros de un equipo científico-multidisciplinar colaboren estrechamente, para así poder determinar la metodología apropiada, hacer correctas interpretaciones clínicas de los resultados de éste y, de esta forma, contribuir a un progreso científico significativo. Esperamos que los resultados originales de esta tesis contribuyan al desarrollo y la evaluación de una vacuna terapéutica del VIH, lo cual ayudaría notablemente a mejorar la calidad de vida de las personas infectadas por VIH.

Subjects

311 - Statistics as a science. Statistical theory; 578 - Virology; 616.9 - Communicable diseases. Infectious and contagious diseases, fevers

Knowledge Area

Àrees temàtiques de la UPC::Matemàtiques i estadística

Documents

TYAS1de1.pdf

4.171Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/

This item appears in the following Collection(s)