El diagnóstico de la sobredispersión en modelos de análisis de datos de recuento

Author

Vives Brosa, Jaume

Director

Losilla Vidal, Josep Maria

Date of defense

2002-09-05

ISBN

8469998501

Legal Deposit

B-43682-2002



Department/Institute

Universitat Autònoma de Barcelona. Departament de Psicologia de la Salut i de Psicologia Social

Abstract

En primer lugar se presenta un estudio bibliométrico con el objetivo de evaluar la frecuencia de uso de las variables de recuento en diferentes ámbitos de investigación en Psicología, así como los modelos de análisis que se aplican habitualmente a los datos de recuentos<br/>Para ello se selecciona una muestra de 168 artículos procedentes de dos de las diez revistas con mayor índice de impacto asignado por el ISI (índice JCR-SCI) para cada ámbito de aplicación en Psicología.<br/>Los resultados muestran que las variables de recuento son de uso habitual en Psicología, puesto que aparecen en un 38.1% de los artículo revisados, y que existe una aplicación masiva del modelo lineal general mientras que no se aplican modelos específicos para datos de recuento.<br/>Una vez establecida la importante presencia de las variables de recuento en Psicología y constatado el notable problema de la aplicación de modelos estadísticos no adecuados para datos de recuentos, se expone la propuesta, ya conocida aunque poco aplicada en Psicología, de analizar los datos a través del modelado. De esta forma, y después de discutir las características del modelado desde un punto de vista epistemológico, se repasan las características básicas del modelado estadístico así como del modelo lineal generalizado (MLG) puesto que forman parte de las bases teóricas de este trabajo.<br/>A continuación se expone las características distribucionales de las variables de recuento que permiten justificar la aplicación de modelos lineales generalizados adecuados para este tipo de variables. Así, en primer lugar se describe la distribución de Poisson así como el modelo de regresión de referencia en el ámbito de los recuentos: el modelo de regresión de Poisson (MRP).<br/>La restrictividad impuesta por los supuestos en los que se basa el MRP provocan que su ámbito de aplicación sea restringido a un conjunto de situaciones que resultan poco habituales en la práctica. La más importante de tales situaciones es la de equidispersión. En ausencia de equidispersión la situación más habitual es la sobredispersión. En presencia de sobredispersión deben aplicarse modelos o procedimientos que permitan modelar la causa de sobredispersión, que sean menos restrictivos en cuanto a la igualdad media-variancia condicionales o bien que corrijan el error estándar de las estimaciones del modelo de regresión de Poisson. Sin embargo, existe un paso previo que resulta de vital importancia: la detección de la sobredispersión. Para ello se exponen un conjunto de métodos de diagnóstico de sobredispersión.<br/>En la parte empírica, se estudian diversos aspectos relacionados con el diagnóstico y el tratamiento de la sobredispersión, que se concretan el estudio de la tasa nominal de error y de potencia de las pruebas diagnósticas de sobredispersión; la comparación de procedimientos para la corrección del error estándar de las estimaciones del MRP en presencia de sobredispersión y, adicionalmente se comprueba la incidencia de la sobredispersión sobre las estimaciones de los coeficientes y de sus errores estándar.<br/>Para cubrir estos objetivos se han implementado 5 experimentos de simulación Monte Carlo en el entorno R, y han sido organizados en 3 estudios.<br/>En cuanto a los resultados, destaca la eficiencia, consistencia y potencia de las pruebas LR y c2 así como superioridad de las estimaciones bootstrap y jackknife para la corrección del error estándar.


A bibliometric study is presented which main aims are to evaluate the frequency of use of the count variables in different research areas in Psychology, as well as the statistical models that are habitually applied to count data variables.<br/>A random sample of 168 articles from two of the ten magazines with greater impact index (JCR-SCI index) for each area of Psychology is selected. <br/>The results show that count variables are habitual in Psychology, since they appear in 38,1% of the articles reviewed, and that there is a massive application of the general linear model whereas specific models for count data are not applied. <br/>Once established the important presence of count variables in Psychology and stated the remarkable problem of the application of suitable statistical models for count data, the proposal we make, already well-known although little applied in Psychology, is to analyze data through a modelling strategy. On this basis, and after discussing the aspects of modelling from an epistemologic point of view, statistical modelling as well as the generalized linear model (GLM) main features are reviewed since they are the theoretical bases of this work. <br/>Next, distributional characteristics of count variables that justify the application of suitable generalized linear models for this kind of variables are introduced. Thus, for a start it is described the Poisson distribution as well as the benchmark regression model for count variables: the Poisson regression model (PRM). <br/>The set of assumptions on which the PRM is based causes its application scope to be restricted to a set of situations that are not actually habitual. Maybe the most important of such situations is equidispersion. When there is no equidispersion the most habitual situation is overdispersion. In presence of overdispersion some models or procedures must be applied that allow, at least, on of the following: to model the overdispersion source, to relax the conditional mean-variance assumption or to correct the standard error of the PRM estimations. Nevertheless, there is a previous step exists that is of vital importance: the diagnostic of the overdispersion. <br/>In the empirical part, diverse issues related to the diagnosis and the treatment of overdispersion are treated: the study of the error nominal rate and power of overdispersion diagnostic; the comparison of standard error correction procedures of the PRM estimations in presence of overdispersion and, additionally, the verification of the incidence of overdispersion on the coefficients estimations and their standard errors. In order to cover these objectives 5 Monte Carlo experiments of simulation have been implemented in the R framework, and have been organized in 3 studies. The results show the efficiency, consistency and power of tests LR and c2 as well as the superiority of bootstrap and jackknife estimations for the correction of the standard error.

Keywords

Recuento; Sobredispersión; Monte Carlo

Subjects

159.9 - Psychology

Knowledge Area

Ciències de la Salut

Documents

jvb1de2.pdf

538.7Kb

jvb2de2.pdf

679.9Kb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)