Universitat de Barcelona. Departament d'Estadística
The process of creating an efficacious malaria vaccine is complex due to the characteristics of the disease that are directly related to the responsible parasite. In the disease-vaccine interaction several aspects need to be taken into account to improve and understand the vaccine and for that reason different types of data need to be analyzed. Current assays technology allows analyzing several proteins simultaneously with a small blood volume. The combination of the medium throughput dataset of some assays and the small sample size of some malaria studies may hinder the use of classical statistical methods. In the context of low number of observations and medium or high number of variables the support vector machines (SVM) models are a powerful tool to analyze sparse data, i.e., data in which the number of predictors is larger or approximately equal to the number of observations, especially when handling binary outcomes. However, biomedical research often involves analysis of time-to-event outcomes. Several methods have been tested in the literature to deal with censored data into the SVM framework. Most of these methods are based on a support vector regression (SVR) approach and results found in the literature suggest no significant differences with Cox proportional hazards model and kernel Cox regression. Another perspective is a SVM for binary classification, however, almost no work has been done into this approach: only SVM learning using privileged information and SVM with uncertain classes have been described. This PhD thesis aims to propose alternative methods and extensions to the ones existing in the binary classification framework, specifically, proposing a conditional survival approach for weighting censored observations, a semi-supervised SVM with local invariances perspective and evaluating a weighted SVM model. Another important aspect in biomedical research is to identify the relevance of the variables in a model, i.e., which variables are important related to the response variable. In the SVM framework most of the work done is related to linear kernels, however, the main advantage of SVM is using non-linear kernels. This PhD thesis aims to propose three approaches based on the Recursive Feature Elimination (RFE) algorithm to rank variables based on non-linear SVM and SVM for survival analysis. Moreover, the proposed algorithms are focused on interpretation and visualization of each one the RFE iterations, allowing to identify relevant variables associated with the response variable and among predictor variables. After evaluating all proposed methods in a simulation study under several scenarios, a real dataset applying these methods has been analyzed: the Mal067 data aims to identify immune responses correlated with protection from malaria that were elicited by the malaria RTS,S vaccine and by natural immunity. All SVM for survival analysis methods have been implemented in R, since neither R packages nor R functions have been found.
El procés de crear una vacuna eficaç contra la malària és complex degut a les característiques del paràsit responsable. Les tècniques de laboratori actuals permeten analitzar moltes proteïnes simultàniament amb molt poc volum de sang, això, juntament amb la poca grandària mostral de molts estudis de malària fa que els mètodes estadístics clàssics no siguin adequats. Les màquines de suport vectorial (SVM) són una eina molt potent per tractar aquest tipus de dades en el context de poques observacions i moltes variables, moltes vegades, però, la recerca està enfocada en variables resposta temps fins a esdeveniment. Gran part de la recerca feta a la literatura en aproximar els mètodes SVM a dades de supervivència està enfocada des de la perspectiva de SVM per regressió. Una altra perspectiva molt poc desenvolupada i avaluada és la de SVM per classificació binària. En aquesta tesi proposem extensions i mètodes alternatius basats en SVM per classificació binària, específicament, proposant una ponderació de les dades censurades basada en la supervivència condicionada, una perspectiva semi-supervisada de SVM amb invariàncies locals i l’avaluació de SVM ponderant les observacions censurades. Un aspecte important en la recerca biomèdica és la identificació de la rellevància de variables en el model, és a dir, quines variables són importants en relació a la variable resposta. En el context de SVM, gran part de la recerca està enfocada a kernels lineals, però el gran avantatge dels SVM és la possibilitat d’utilitzar kernels no lineals. En aquesta tesi proposem tres aproximacions basades en l’algoritme recursiu d’eliminació de característiques (RFE) per ordenar variables, des d’una perspectiva de kernels no lineals i SVM per l’anàlisi de supervivència. A més, els mètodes proposats permeten ser interpretats i visualitzats a cada iteració de l’algoritme RFE, permeten identificar la rellevància de les variables predictores amb respecte la variable resposta i l’associació entre variables predictores. Després d’avaluar tots els mètodes proposats per SVM amb dades censurades i rellevància de variables, mitjançant simulacions, s’han analitzat les dades reals de l’estudi Mal067 que estudia correlats de protecció contra la malària induïts per la vacuna RTS,S.
Vacuna de la malària; Vacuna de la malaria; Malaria vaccine; Processament de dades; Proceso de datos; Data processing
311 - Estadística
Ciències Experimentals i Matemàtiques
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.