Avances en el análisis de series temporales categóricas con aplicaciones

Author

Baena Mirabete, Sergio

Director

Puig i Casado, Pere

Date of defense

2020-09-03

ISBN

9788449094774

Pages

133 p.



Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Matemàtiques

Abstract

Molts mètodes estadístics s’han aplicat recentment en l’anàlisi de sèries temporals categòriques i discretes. Això posa de manifest la importància de desenvolupar noves tècniques per analitzar i modelitzar eficientment aquest tipus de dades. Una cadena de Markov d’ordre k és un model probabilístic molt utilitzat per descriure sèries de memòria curta. No obstant això, els models de Markov en el context de sèries temporals categòriques poden ser problemàtics pel fet que el nombre de paràmetres augmenta exponencialment amb l’ordre k. D’altra banda, l’interès per les sèries temporals de recompte ha augmentat ràpidament en els últims anys. En aquest sentit, el model clàssic INAR(1) és àmpliament utilitzat per analitzar sèries temporals de recompte. No obstant això, el càlcul de la funció de versemblança per a models INAR(p) de major ordre (p> 1) és qualificat com numèricament intractable en la literatura. De manera similar, l’anàlisi de sèries temporals definides en Z (incloent tant enters positius com negatius) ha despertat també l’interès de molts investigadors. El càlcul eficient de les probabilitats de variables aleatòries de recompte així com d’aquelles definides en els enters és essencial per avaluar la funció de versemblança i ajustar aquests models. Diferents mètodes aproximats han estat proposats en la literatura [4]. Aquesta tesi doctoral té com a objectiu introduir noves tècniques i aplicacions rellevants per analitzar sèries temporals categòriques i discretes. La conformen diferents publicacions on es presenten i es discuteixen en detall alguns mètodes innovadors al respecte. Concretament, dos d’aquests articles [1, 2] proposen diversos models basats en cadenes de Markov i les seves mixtures, que són il·lustrats amb dues aplicacions rellevants. Específicament, en l’article [1], es presenten els models de curta-llarga persistència, aplicats a l’estudi de les migracions de ràtings municipals en l’àmbit del risc de crèdit. En l’article [2], es proposen, de forma parsimoniosa, models latents de Markov i mixtures de cadenes de Markov per analitzar seqüències de ‘cara-creu’ mentalment produïdes per un grup d’estudiants durant un experiment. En l’últim dels articles inclosos [3], derivem un conjunt de relacions de recurrència per al càlcul de les probabilitats d’una gran classe de variables aleatòries definides en els enters. Mostrem que la funció de probabilitat es pot calcular de forma recursiva per aquelles variables aleatòries on les seves funcions generatrius de probabilitat satisfan certa forma funcional. Aquestes recurrències són útils per al càlcul, de manera simple i eficient, de les probabilitats així com de la seva funció de versemblança corresponent. Es presenten alguns exemples d’aplicació mostrant l’eficiència del mètode. Els mètodes presentats en aquesta tesi es poden veure com avenços petits però significatius en aquests camps. Encara que aquest treball constitueix un avenç en aquestes aplicacions, s’han de seguir fent més esforços per millorar les tècniques i eines existents. [1] Baena-Mirabete, S. & Puig, P. (2018). Parsimonious higher-order markov models for rating transitions. JRSS, A, 181(1):107-131. [2] Baena-Mirabete, S., Espinal, A., & Puig, P. (2019). Exploring the randomness of mentally generated head-tail sequences. Statistical Modelling. [3] Baena-Mirabete, S. & Puig, P. (2020). Computing probabilities of integer-valued random variables by recurrence relations. Statistics & Probability Letters, 161. [4] Pedeli, X., Davison, A. C., & Fokianos, K. (2015). Likelihood estimation for the INAR(p) model by saddlepoint approximation. JASA, 110(511):1229-1238.


Muchos métodos estadísticos se han aplicado recientemente en el análisis de series temporales categóricas y discretas. Ello pone de manifiesto la importancia de desarrollar nuevas técnicas para analizar y modelizar eficientemente este tipo de datos. Una cadena de Markov de orden k es un modelo probabilístico muy utilizado para describir series de memoria corta. Sin embargo, los modelos de Markov en el contexto de series temporales categóricas pueden ser problemáticos debido a que el número de parámetros aumenta exponencialmente con el orden k. Por otro lado, el interés por las series temporales de recuento ha aumentado rápidamente en los últimos años. En este sentido, el modelo clásico INAR(1) es ampliamente utilizado para analizar series temporales de recuento. Sin embargo, el cálculo de la función de verosimilitud para modelos INAR(p) de mayor orden (p>1) es calificado como numéricamente intratable en la literatura. De forma similar, el análisis de series temporales definidas en Z (incluyendo tanto enteros positivos como negativos) ha despertado también el interés de muchos investigadores. El cálculo eficiente de las probabilidades de variables aleatorias de recuento así como de aquellas definidas en los enteros es esencial para evaluar la función de verosimilitud y ajustar estos modelos. Diferentes métodos aproximados han sido propuestos en la literatura [4]. Esta tesis doctoral tiene como objetivo introducir técnicas novedosas y aplicaciones relevantes para analizar series temporales categóricas y discretas. La conforman diferentes publicaciones donde se presentan y se discuten en detalle algunos métodos innovadores al respecto. Concretamente, dos de estos artículos [1, 2] proponen varios modelos basados en cadenas de Markov y sus mixturas, que se ilustran con dos aplicaciones relevantes. Específicamente, en el artículo [1], se presentan los modelos de corta-larga persistencia, aplicados al estudio de las migraciones de ratings municipales en el ámbito del riesgo de crédito. En el artículo [2], se proponen, de forma parsimoniosa, modelos latentes de Markov y mixturas de cadenas de Markov para analizar secuencias de ‘cara-cruz’ mentalmente producidas por un grupo de estudiantes durante un experimento. En el último de los artículos incluidos [3], derivamos un conjunto de relaciones de recurrencia para el cálculo de las probabilidades de una gran clase de variables aleatorias definidas en los enteros. Mostramos que la función de probabilidad puede calcularse de forma recursiva para aquellas variables aleatorias cuyas funciones generatrices de probabilidad satisfacen cierta forma funcional. Estas recurrencias son útiles para el cálculo, de forma simple y eficiente, de las probabilidades así como de su función de verosimilitud correspondiente. Se presentan algunos ejemplos de aplicación mostrando la eficiencia del método. Los métodos presentados en esta tesis pueden verse como avances pequeños pero significativos en estos campos. Aunque este trabajo constituye un avance en estas aplicaciones, se deben seguir haciendo más esfuerzos para mejorar las técnicas y herramientas existentes. [1] Baena-Mirabete, S. & Puig, P. (2018). Parsimonious higher-order markov models for rating transitions. JRSS, A, 181(1):107-131. [2] Baena-Mirabete, S., Espinal, A., & Puig, P. (2019). Exploring the randomness of mentally generated head-tail sequences. Statistical Modelling. [3] Baena-Mirabete, S. & Puig, P. (2020). Computing probabilities of integer-valued random variables by recurrence relations. Statistics & Probability Letters, 161. [4] Pedeli, X., Davison, A. C., & Fokianos, K. (2015). Likelihood estimation for the INAR(p) model by saddlepoint approximation. JASA, 110(511):1229-1238.


Many statistical methods have been recently applied to analyse categorical and discrete time series. This highlights the importance of developing new techniques to accurately model and analyse this kind of data. The Markov chain of order k is a well-known probabilistic model usually used to describe short-memory series. However, Markov modelling in the context of categorical time series can be problematic because the number of parameters increases exponentially as the order k grows. On the other hand, the importance of count time series has rapidly increased in the past years. In this sense, the classical INAR(1) model is widely used to analyse count time series. However, the computation of the likelihood function for higher-order INAR(p) models (p>1) is qualified as numerically intractable in the literature. Similarly, the analysis of time series defined on Z (including both positive and negative integers) has also attracted the attention of many researchers. The efficient computation of the probabilities of integer-valued and count random variables is essential for computing the likelihoods and fitting these models. Several approximated methods have been proposed in the literature [4]. This Ph.D. thesis is aimed at introducing novel techniques and relevant applications for analysing categorical and discrete time series. It comprises different publications where some innovative methods are presented and discussed in detail. In particular, two of these articles [1, 2] propose several models based on Markov chains and their mixtures, which are illustrated with two relevant applications. Specifically, in paper [1], we introduce the short-long persistence models, applied to the study of municipal rating migrations in credit risk. In paper [2], we propose parsimonious latent Markov models and mixture of Markov chains to analyse head-tail series mentally produced by a group of students during an experiment. In the last paper included [3], we derive a set of recurrence relations for calculating the probabilities of a large class of integer-valued random variables. We show that the probability function can be recursively computed for those random variables with a probability generating function satisfying certain functional form. They are useful for a practical and efficient computation of the probabilities and their related likelihood function. Some examples of application are provided demonstrating the performance of the method. The methods introduced in this thesis can be viewed as small but significant advances in these fields. Although this work constitutes an advance in these applications, more efforts have to keep doing to improve the existing techniques and tools. [1] Baena-Mirabete, S. & Puig, P. (2018). Parsimonious higher-order markov models for rating transitions. JRSS, A, 181(1):107-131. [2] Baena-Mirabete, S., Espinal, A., & Puig, P. (2019). Exploring the randomness of mentally generated head-tail sequences. Statistical Modelling. [3] Baena-Mirabete, S. & Puig, P. (2020). Computing probabilities of integer-valued random variables by recurrence relations. Statistics & Probability Letters, 161. [4] Pedeli, X., Davison, A. C., & Fokianos, K. (2015). Likelihood estimation for the INAR(p) model by saddlepoint approximation. JASA, 110(511):1229-1238.

Keywords

Cadenes de Markov; Cadenas de Markov; Markov chains; Dades longitudinals; Datos longitudinales; Longitudinal data; Sèries categòriques; Series categóricas; Categorical series

Subjects

51 - Mathematics

Knowledge Area

Ciències Experimentals

Documents

sbm1de1.pdf

1.059Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)