Causal inference and forescasting methods for climate data nalysis

Author

Silini, Riccardo

Director

Masoller Alonso, Cristina

Codirector

Barreiro Parrillo, Marcelo

Date of defense

2022-07-05

Pages

165 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament de Física

Doctorate programs

Física computacional i aplicada

Abstract

To advance time series forecasting we need to progress on multiple fronts. In this thesis, we develop algorithms to identify causal relations which allow to identify the driving processes containing useful information for the prediction of the process of interest. Complementing this, machine learning algorithms allow to exploit such information to build data-driven forecast models, and to correct the prediction of dynamical models. The identification from time series analysis of reliable indicators of causal relationships, is essential for many disciplines. Main challenges are distinguishing correlation from causality and discriminating between direct and indirect interactions. Over the years, many methods for data-driven causal inference have been proposed; however, their success largely depends on the characteristics of the system under investigation. Often, their data requirements, computational cost or number of parameters, limit their applicability. In this thesis, we propose a computationally efficient measure for causality testing, with the goal of overcoming the limitations of information-theoretic measures, due their high computational cost. The proposed metric is useful when causality networks need to be inferred from the analysis of a large number of relatively short time series. It can also be very useful for the selection of the inputs for the machine learning algorithms; in fact, it allows to identify those processes which contain useful information for the prediction of a given process. This is particularly useful for systems composed of a large number of processes, whose interactions are poorly understood. On the other hand, the socioeconomic impact of weather extremes draws the attention of researchers to the development of novel methodologies to make more accurate weather predictions. The Madden-Julian Oscillation (MJO), which is the dominant mode of variability in the tropical atmosphere on sub-seasonal time scales, is particularly important because it can promote or enhance extreme events in both, the tropics and the extratropics. Currently, the prediction skill of MJO is receiving a lot of attention, and in this thesis we take two machine learning approaches; first we use machine learning as a stand-alone technique to analyze observed data, showing that two artificial neural networks, a feed-forward neural network and a recurrent neural network, allow a competitive prediction, yet not exceeding the skill of the state-of-art dynamical models. Then, we combine dynamical models with machine learning, which allows to improve the predictions of the best dynamical model. In particular, machine learning allows to improve the prediction of the MJO intensity and geographical localization


Para avanzar en el pronóstico de series temporales, es necesario avanzar en múltiples frentes. En esta tesis, desarrollamos algoritmos para descubrir relaciones causales que identifican los procesos que actúan como fuentes de información y pueden ayudar a mejorar la predicción del proceso de interés. Por otro lado, los algoritmos de aprendizaje automático permiten explotar dicha información para mejorar la predicción de los modelos dinámicos. La identificación de relaciones de causalidad a partir de series temporales es esencial en muchas disciplinas. Los desafíos en este ámbito son distinguir la correlación de la causalidad, así como diferenciar entre las interacciones directas e indirectas. A lo largo de los años se han propuesto numerosos métodos de inferencia causal basados en la observación de datos. No obstante, su éxito depende de las características del sistema a investigar. A menudo, el coste computacional o el número de parámetros limitan su aplicabilidad. En esta tesis se propone una medida computacionalmente eficiente para el testeo de causalidad. La métrica que se propone resulta util cuando es necesario inferir causalidad a partir de análisis de un gran número de series temporales relativamente cortas. También puede resultar muy útil en la selección de entradas en los algoritmos de aprendizaje automático. De hecho, permite identificar aquellos procesos que contienen información útil en la predicción de cierto proceso dado. Por otro lado, el impacto socioeconómico de fenómenos meteorológicos extremos requiere el desarrollo de nuevas metodologías con el objetivo de obtener predicciones meteorológicas más precisas. La Oscilación de Madden-Julian (MJO) es el modo dominante de variabilidad en la atmósfera tropical en escalas temporales subestacionales, y puede promover o aumentar eventos extremos tanto en el trópico como el extratrópico. Actualmente, la prediccion de la MJO genera mucho interés. Por esta razon, en esta tesis se han escogido dos metodologías diferentes de aprendizaje automático. Primero, se han utilizado dos redes neuronales artificiales para analizar datos observacionales, una red neuronal feed-forward y una red neuronal recurrente. Se muestra que esto permite una predicción competitiva, pero sin superar la capacidad de los modelos dinámicos actuales. Por este motivo, en un segundo estudio se han combinado modelos dinámicos con aprendizaje automático, que permiten mejorar las predicciones del mejor modelo dinámico. En particular, el aprendizaje automático permite mejorar la predicción de la intensidad de MJO y su localización geográfica

Subjects

004 - Computer science and technology. Computing. Data processing; 55 - Earth Sciences. Geological sciences

Knowledge Area

Àrees temàtiques de la UPC::Física

Documents

TRS1de1.pdf

5.233Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/

This item appears in the following Collection(s)