Desarrollo de técnicas estadísticas basadas en computacion intensiva para el análisis de medidas repetidas

Author

Sánchez Espigares, Josep Anton

Director

Ocaña Rebull, Jordi

Date of defense

2021-04-09

Pages

217 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa

Doctorate programs

Estadística i investigació operativa

Abstract

This thesis includes contributions to statistical methodologies and practical applications in situations where data has been obtained as a result of repeated measures. The first block includes a first article where different resampling methods in mixed linear models are evaluated by simulation against deviations from the assumptions of symmetry and Gaussian kurtosis of the variance components. One of these methods constitutes our proposal, designed and implemented in R. The result of the previous simulations shows that the misspecifications induced by the simulation scenarios do not have the same properties if they affect random effects or residuals. Taking into account that both components of the variance tend to have different sample sizes, an exploration of the impact of the misspecification of the Gaussian distribution implemented in the simulation of scenarios is proposed, as a function of the sample size. The second article of this block proposes a visualization of the type II error in goodness-of-fit test to the normal distribution, where the alternatives considered correspond to unimodal distributions with different asymmetry and kurtosis. In this article, a mosaic visualization is proposed to assess the capability to reject the hypothesis of normality of the test, taking into account the type of misspecification considered and the sample size. The third article compares different normality tests based on the type II error represented in the previously designed mosaic. Considering as a set of alternative distributions those included in the unimodal parametric family included in the mosaic, the graphic representation obtained gives an idea of the ability of the tests to distinguish deviations from normality. It would be as an equivalent to the power curves obtained in tests with numerical parameter space. The fourth article presents the application of the goodness-of-fit test to the distribution that represents each mosaic cell for a specific sample and the representation of the p-value of the test according to a gray scale. This last article aims to reflect the set of distributions of the family considered to be compatible with the sample evaluated, as a result of the concurrent application of the set of tests associated with the mosaic cells. The second part of the thesis includes four publications resulting from the collaboration with Dr. Basem Aljoumani on applied topics of hydrology. The inclusion of these articles in this thesis is justified mainly by the statistical contributions to the analysis of hydrological data. The fifth article focuses on the extension of ARIMA models in the context of prediction of water content in the field, including intervention analysis (scheduled irrigation), atypical detection (rainfall) and transfer function (temperature information and water content to predict salinity). The sixth and seventh articles propose an extension of a classical deterministic model for the evaluation of salinity in the field to incorporate a stochastic component that allows the model to be adjusted to the data based on statistical criteria. The transformation of the model allows formulating it in a linear and Gaussian state space and applying the Kalman filter for its treatment. The difference between the two articles is based on the fact that in the first one the data is obtained in the field, while in the other one a laboratory experiment is performed. The eighth article analyzes data on the contents of contaminating metals on a roadside near a highway based on a series of covariates. Linear mixed additive models is the technique applied in this context.


Esta tesis incluye aportaciones a metodologías estadísticas y aplicaciones prácticas en situaciones donde los datos se han obtenido como resultado de medidas repetidas. El primer bloque incluye un primer artículo donde se evalúan mediante simulación diferentes métodos de remuestreo en modelos lineales mixtos frente a desviaciones de los supuestos de simetría y curtosis gaussianas de las componentes de varianza. Uno de esos métodos constituye nuestra propuesta, diseñada e implementada en R. El resultado de las simulaciones anteriores pone de manifiesto que las especificaciones erróneas inducidas por los escenarios de simulación no presentan las mismas propiedades si afectan a efectos aleatorios o a residuos. Teniendo en cuenta que ambas componentes de la varianza suelen presentar diferente tamaño de muestra, se plantea una exploración del impacto de la especificación errónea de la distribución gaussiana implementada en la simulación de escenarios, como función del tamaño de muestra. El segundo artículo de este bloque propone una visualización del error de tipos II en test de bondad de ajuste a la normal, donde las alternativas consideradas corresponden a distribuciones unimodales con diferente asimetría y curtosis. En este artículo se propone una visualización en forma de mosaico para valorar la capacidad de rechazar la hipótesis de normalidad del test, atendiendo al tipo de especificación errónea considerada y el tamaño de la muestra. El tercer artículo compara diferentes tests de normalidad en base al error de tipo II representado en el mosaico diseñado previamente. Considerando como conjunto de distribuciones alternativas las incluidas en la familia paramétrica unimodal que conforma el mosaico, la representación gráfica obtenida da una idea de la capacidad de los tests para distinguir las desviaciones de la normalidad. Sería como un equivalente a las curvas de potencias obtenidas en tests con espacio de parámetros numéricos. El cuarto artículo plantea la aplicación del test de bondad de ajuste a la distribución que representa cada celda del mosaico para una muestra concreta y la representación del p-valor del test según una escala de grises. Este último artículo pretende reflejar el conjunto de distribuciones de la familia considerada que son compatibles con la muestra evaluada, como resultado de la aplicación concurrente del conjunto de tests asociado las celdas del mosaico. La segunda parte de la tesis incluye cuatro publicaciones resultados de la colaboración con el Dr. Basem Aljoumani en temas aplicados de hidrología. La inclusión de estos artículos en esta tesis se justifica principalmente por las aportaciones estadísticas al análisis de datos de datos hidrológicos. El quinto artículo se centra en la extensión de los modelos ARIMA en el contexto de la predicción del contenido de agua en el terreno, incluyendo análisis de intervención (riegos programados), detección de atípicos (lluvias puntuales) y función de transferencia (información de temperatura y contenido de agua para predecir la salinidad). El sexto y séptimo artículos proponen una extensión de un modelo clásico determinista para la evaluación de la salinidad en el terreno para incorporar una componente estocástica que permita ajustar el modelo a los datos en base a criterios estadísticos. La transformación del modelo permite formularlo en espacio de estado lineal y gaussiano y aplicar el filtro de Kalman para su tratamiento. La diferencia entre ambos artículos se basa en que en el primero de ellos los datos son obtenidos en el terreno, mientras que en el otro se realiza un experimento en laboratorio. El octavo artículo analiza datos de contenidos de metales contaminantes en los bordes de una autopista en base a una serie de covariables. Los modelos lineales aditivos mixtos es la técnica aplicada en este contexto.

Subjects

311 - Statistics; 51 - Mathematics

Knowledge Area

Àrees temàtiques de la UPC::Matemàtiques i estadística

Note

Tesi en modalitat de compendi de publicacions; redactada en castellà, però amb els articles del compendi en anglès.

Documents

TJASE1_de1.pdf

6.970Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)