Análisis de datos longitudinales y multivariantes mediante distancias con modelos lineales generalizados

Author

Melo Martínez, Sandra Esperanza

Director

Cuadras, C. M. (Carlos María)

Date of defense

2012-09-06

Legal Deposit

B. 4357-2013

Pages

184 p.



Department/Institute

Universitat de Barcelona. Departament d'Estadística

Abstract

Se propusieron varias metodologías para analizar datos longitudinales (en forma univariante, mediante MANOVA, en curvas de crecimiento y bajo respuesta no normal mediante modelos lineales generalizados) usando distancias entre observaciones (o individuos) con respecto a las variables explicativas con variables respuesta de tipo continuo. En todas las metodologías propuestas al agregar más componentes de la matriz de coordenadas principales se encuentra que se gana en las predicciones con respecto a los modelos clásicos. Por lo cual resulta ser una metodología alternativa frente a la clásica para realizar predicciones. Se probó que el modelo MANOVA con DB y la aproximación univariante longitudinal con DB generan resultados tan robustos como la aproximación de MANOVA clásica y univariante clásica para datos longitudinales, haciendo uso en la aproximación clásica de máxima verosimilitud restringida y mínimos cuadrados ponderados bajo condiciones de normalidad. Los parámetros del modelo univariante con DB fueron estimados por el método de máxima verosimilitud restringida y por mínimos cuadrados generalizados. Para la aproximación MANOVA con DB se uso mínimos cuadrados bajo condiciones de normalidad. Además, se presentó como realizar inferencia sobre los parámetros involucrados en el modelo para muestras grandes. Se explicó también una metodología para analizar datos longitudinales mediante modelos lineales generalizados con distancias entre observaciones con respecto a las variables explicativas, donde se encontraron resultados similares a la metodología clásica y la ventaja de poder modelar datos de respuesta continua no normal en el tiempo. Inicialmente, se presenta el modelo propuesto, junto con las ideas principales que dan su origen, se realiza la estimación de parámetros y el contraste de hipótesis. La estimación se hace aplicando la metodología de ecuaciones de estimación generalizada (EEG). Por medio de una aplicación en cada capítulo se ilustraron las metodologías propuestas. Se ajusto el modelo, se obtuvo la estimación de los diferentes parámetros involucrados, se realizó la inferencia estadística del modelo propuesto y la validación del modelo propuesto. Pequeñas diferencias del método DB con respecto al clásico fueron encontradas en el caso de datos mixtos, especialmente en muestras pequeñas de tamaño 50, resultado obtenido de la simulación. Mediante simulación para algunos tamaños de muestra se encontró que el modelo ajustado DB produce mejores predicciones en comparación con la metodología tradicional para el caso en que las variables explicativas sean mixtas utilizando la distancia de Gower. En tamaños de muestras pequeñas 50, independiente del valor de la correlación, las estructuras de autocorrelación, la varianza y el número de tiempos, usando los criterios de información Akaike y Bayesiano (AIC y BIC). Además, para muestras pequeñas de tamaño 50 se encuentra más eficiente (eficiencia mayor a 1) el método DB en comparación con el método clásico, bajo los diferentes escenarios considerados. Otro resultado importante es que el método DB presenta mejor ajuste en muestras grandes (100 y 200), con correlaciones altas (0.5 y 0.9), varianza alta (50) y mayor número de mediciones en el tiempo (7 y 10). Cuando las variables explicativas son solamente de tipo continuo o categórico o binario, se probó que las predicciones son las mismas con respecto al método clásico. Adicionalmente, se desarrollaron los programas en el software R para el análisis de este tipo de datos mediante la metodología clásica y por distancias DB para las diferentes propuestas en cada uno de los capítulos de la tesis, los cuales se anexan en un CD dentro de la tesis. Se esta trabajando en la creación de una librería en R con lo ya programado, para que todos los usuarios tengan acceso a este tipo de análisis. Los métodos propuestos tienen la ventaja de poder hacer predicciones en el tiempo, se puede modelar la estructura de autocorrelación, se pueden modelar datos con variables explicativas mixtas, binarias, categóricas o continuas, y se puede garantizar independencia en las componentes de la matriz de coordenadas principales mientras que con las variables originales no se puede garantizar siempre independencia. Por último, el método propuesto produce buenas predicciones para estimar datos faltantes, ya que al agregar una o más componentes en el modelo con respecto a las variables explicativas originales de los datos, se puede mejorar el ajuste sin alterar la información original y por consiguiente resulta ser una buena alternativa para el análisis de datos longitudinales y de gran utilidad para investigadores cuyo interés se centra en obtener buenas predicciones.


LONGITUDINAL AND MULTIVARIATE DATA ANALYSIS THROUGH DISTANCES WITH GENERALIZED LINEAR MODELS We are introducing new methodologies for the analysis of longitudinal data with continuous responses (univariate, multivariate for growth curves and with non-normal response using generalized linear models) based on distances between observations (or individuals) on the explicative variables. In all cases, after adding new components of the principal coordinate matrix, we observe a prediction improvement with respect to the classic models, thus providing an alternative prediction methodology to them. It was proven that both the distance based MANOVA model and the univariate longitudinal models are as robust as the classical counterparts using restricted maximum likelihood and weighted minimum squares under normality assumptions. The parameters of the distance based univariate model were estimated using restricted maximum likelihood and generalized minimum squares. For the distance based MANOVA we used minimum squares under normality conditions. We also showed how to perform inference on the model parameters on large samples. We indicated a methodology for the analysis of longitudinal data using generalized linear models and distances between the explanatory variables, where the results were similar to the classical approach. However, our approach allowed us to model continuous, non-normal responses in the time. As well as presenting the model and the motivational ideas, we indicate how to estimate the parameters and hypothesis test on them. For this purpose we use generalized estimating equations (EEG). We present an application case in each chapter for illustration purposes. The models were fit and validated. After performing some simulations, we found small differences in the distance based method with respect to the classical one for mixed data, particularly in the small sample setting (about 50 individuals). Using simulation we found that for some sample sizes, the distance based models improve the traditional ones when explanatory variables are mixed and Gower distance is used. This is the case for small samples, regardless of the correlation, autocorrelation structure, the variance, and the number of periods when using both the Akaike (AIC) and Bayesian (BIC) Information Criteria. Moreover, for these small samples, we found greater efficiency (>1) in our model with respect to the classical one. Our models also provide better fits in large samples (100 or 200) with high correlations (0.5 and 0.9), high variance (50) and larger number of time measurements (7 and 10). We proved that the new and the classical models coincide when explanatory variables are all either continuous or categorical (or binary). We also created programs in R for the analysis of the data considered in the different chapters of this thesis in both models, the classical and the newly proposed one, which are attached in a CD. We are currently working to create a public, accessible R package. The main advantages of these methods are that they allow for time predictions, the modelization of the autocorrelation structure, and the analysis of data with mixed variables (continuous, categorical and binary). In such cases, as opposed to the classical approach, the independency of the components principal coordinate matrix can always be guaranteed. Finally, the proposed models allow for good missing data estimation: adding extra components to the model with respect to the original variables improves the fit without changing the information original. This is particularly important in the longitudinal data analysis and for those researchers whose main interest resides in obtaining good predictions.

Keywords

Mínims quadrats; Mínimos cuadrados; Least squares; Correlació (Estadística); Correlación (Estadística); Correlation (Statistics); Distància de Gower; Distancia de Gower; Gower's Distance

Subjects

311 - Statistics as a science. Statistical theory

Knowledge Area

Ciències Experimentals i Matemàtiques

Documents

SEMM_TESIS.pdf

1.396Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)