Universitat Autònoma de Barcelona. Departament de Matemàtiques
Donat que les dades de recompte es troben en molt fenòmens reals, la necessitat de mètodes i tècniques de qualitat per modelitzar i analitzar aquest tipus de dades és completament indiscutible. En aquest sentit, durant els últims anys, s’han trobat molts articles a la literatura dins dels que s’han desenvolupat tant mètodes bαsics com més generals per l’anàlisi d’aquestes dades. Tot i que a la literatura hi ha un ampli ventall de treballs que tracten alguns dels problemes més rellevants de les dades de recompte, molts altres problemes encara no s’han abordat. Aquesta tesi doctoral té la finalitat d’introduir nous mètodes i tècniques per analitzar alguns dels problemes de les dades de recompte com la sobredispersió, la inflació al zero (i la deflació al zero), i el fenomen que es dona quan hi ha falta de recomptes. Aquesta tesis està formada per un conjunt de publicacions que presenten i discuteixen en detall alguns dels mètodes proposats per tractar els problemes anteriorment mencionats. Particularment, dos d’aquests articles [1, 2] es centren en ajustar el fenomen de falta de recomptes, proposant dos models basats en els processos autoregressius de dades discretes i no negatives. A més a més, s’han estudiat una sèrie d’aplicacions, en diferents contextos, basades en dades reals, amb la finalitat de demostrar la usabilitat d’aquests nous models. D’altra banda, el treball [3] proposa un model més general de series temporals de recomptes. Aquest model considera series temporals amb una sobredispersió moderada, independentment de si la sèrie és o no estacionaria. Aquest nou model s’ha utilitzat per analitzar les dades de mortalitat recollides en granges bovines a petita escala. Aquestes dades de mortalitat tenen la particularitat de ser recomptes baixos, amb molts zeros i una sobredispersió forτa lleugera. Aquesta anàlisi forma part dæun projecte del Ministeri d’Agricultura, Pesca i Alimentació del Govern d’Espanya. L’última publicació que s’ha inclòs en aquesta tesi [4] proposa una proba exacte de bondat d’ajustament per detectar l’ inflació al zero (i la deflació al zero) en distribucions discretes dins del marc de la dosimetria biològica. La proba proposada en aquest treball va ser introduïda per primer cop per [5], derivada dels problemes d’ocupació. En el context de la dosimetria biològica, aquest nou test es considera un complement del test clàssic u quan les dades no són sobredisperses (sotadisperses), però si estan inflades al zero (no inflades al zero). Els mètodes introduïts en aquesta tesi doctoral es poden veure com a petits signes de progrés dins de l’anàlisi de dades de recompte. Aquests mètodes permeten estudiar problemes des de diferents punts de vista, mostrant resultats especialment bons quan s’analitzen problemes reals dins de l’àmbit de la salut publica i la dosimetria biològica. No obstant, encara que aquest treball és un avenτ dins de l’anàlisi de dades de recompte, molts més esforτos s’han de fer per anar millorant les tècniques i les eines d’anàlisis de dades de recompte. [1] Fernández-Fontelo, A., Cabaña, A., Puig, P. and Moriña, D. (2016). Under-reported data analysis with INAR-hidden Markov chains. Statistics in Medicine; 35(26): 4875-4890. [2] Fernández-Fontelo, A., Cabaña, A., Joe, H., Puig, P. and Moriña, D. Count time series models with under-reported data for gender-based violence in Galicia (Spain). Submitted. [3] Fernández-Fontelo, A., Fontdecaba, S., Alba, A. and Puig, P. (2017). Integer-valued AR processes with Hermite innovations and time-varying parameters: An application to bovine fallen stock surveillance at a local scale. Statistical Modelling; 17(3): 172-195. [4] Fernández-Fontelo, A., Puig, P., Ainsbury, E.A. and Higueras, M. (2018). An exact goodness-of-fit test based on the occupancy problems to study zero-inflation and zero-deflation in biological dosimetry data. Radiation Protection Dosimetry: 1-10. [5] Rao, C.R. and Chakravarti, I.M. (1956). Some small sample tests of significance for a Poisson distribution. Biometrics; 12: 264-282.
Since count data are present in the nature of many real processes, the need for high-quality methods and techniques to accurately model and analyse these data is irrefutable. In this sense, in the past years, many comprehensive works have been presented in the literature where both, primary and more general methods to deal with count data, have developed based on different approaches. Despite the vast amount of excellent works dealing with the major concerns in count data, some issues related to these data remain to be addressed. This Ph.D. thesis is aimed at introducing novel methods and techniques of count data analysis to deal with some issues such that the overdispersion, the zero-inflation (and zero-deflation), and the phenomenon of under-reporting. In this sense, this thesis comprises different publications where innovative methods have been presented and discussed in detail. In particular, two of these articles [1, 2] are focused on the assessment of the under-reporting issue in count time series. These works propose two realistic models based on integer-valued autoregressive models. Besides, real-data applications within different frameworks are studied to demonstrate the practicality of these proposed models. On the other hand, the paper by [3] proposes a general model of count time series, which considers slightly overdispersed data, even if a series is non-stationary. This model has been used to analyse data of fallen cattle collected at a local scale when series have low counts, many zeros, and moderate overdispersion as part of a project commanded by the Ministry of Agriculture, Food and Environment of Spain. The last paper included in this thesis [4] proposes an exact goodness-of-fit test for detecting zero-inflation (and zero-deflation) in count distributions within the biological dosimetry framework. The test suggested in [4] was firstly introduced by [5] derived from the problems of occupancy. In the biological dosimetry context, this test is viewed as a complement to the always used u-test, when data are not overdispersed (not underdispersed), but they are zero-inflated (zero-deflated). The methods introduced in this Ph.D. thesis can be viewed as small but relevant signs of progress in count data analysis. They allow studying several issues of count data from different points of view, showing especially good results when dealing with some real-world concerns in public health and biological dosimetry frameworks. Although this work constitutes an advance in count data analysis, more efforts have to keep doing to improve the existing techniques and tools. [1] Fernández-Fontelo, A., Cabaña, A., Puig, P. and Moriña, D. (2016). Under-reported data analysis with INAR-hidden Markov chains. Statistics in Medicine; 35(26): 4875-4890. [2] Fernández-Fontelo, A., Cabaña, A., Joe, H., Puig, P. and Moriña, D. Count time series models with under-reported data for gender-based violence in Galicia (Spain). Submitted. [3] Fernández-Fontelo, A., Fontdecaba, S., Alba, A. and Puig, P. (2017). Integer-valued AR processes with Hermite innovations and time-varying parameters: An application to bovine fallen stock surveillance at a local scale. Statistical Modelling; 17(3): 172-195. [4] Fernández-Fontelo, A., Puig, P., Ainsbury, E.A. and Higueras, M. (2018). An exact goodness-of-fit test based on the occupancy problems to study zero-inflation and zero-deflation in biological dosimetry data. Radiation Protection Dosimetry: 1-10. [5] Rao, C.R. and Chakravarti, I.M. (1956). Some small sample tests of significance for a Poisson distribution. Biometrics; 12: 264-282.
Models INAR; Modelos INAR; INAR modelos; Subregistrar; Subregistrar; Under-reporting; Zero-inflació; Zero-inflación; Zero-inflaction
519.1 - Combinatorial analysis. Graph theory
Ciències Experimentals