Massive cosmological data generation and distribution

Autor/a

Tallada Crespi, Pau

Director/a

Tonello , Nadia

Carretero Palacios, Jorge

César Galobardes, Eduardo

Tutor/a

César Galobardes, Eduardo

Fecha de defensa

2024-04-12

Páginas

153 p.



Programa de doctorado

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Resumen

En les darreres dècades, físics i astrònoms han transformat radicalment la seva metodologia per investigar el contingut i l'evolució de l'univers. Les tècniques informàtiques avançades s'han convertit en eines indispensables per gestionar la gran quantitat de dades produïdes actualment pels telescopis automatitzats i altres instruments d'alta sensibilitat. Per poder extreure coneixements científics d'aquesta vasta quantitat de dades es requereix la col·laboració interdisciplinària d'enginyers mecànics i electrònics, físics, astrònoms, informàtics i enginyers de programari. Aquesta tesi doctoral explora la interfície entre l'enginyeria de informàtica i la cosmologia dins del Port d'Informació Científica (PIC), un centre de dades i computació científica d'alt rendiment (HTC). Les contribucions es centren en dues àrees centrals: la gestió integral de les dades i el desenvolupament d'algoritmes complexos per a simulacions cosmològiques. En l'àmbit de la gestió de dades, es solen emprar habitualment eines com les bases de dades relacionals. En aquesta tesi hem anat un pas més enllà, en situar-la en un posició pionera i central en l'arquitectura de gestió de dades del projecte de cartografiat extragalàctic Física de l'Univers Accelerat (PAUS, de l'anglès). El disseny d'una infraestructura integral de gestió de dades, dins de les estrictes limitacions del projecte PAUS, és la primera contribució d'aquesta recerca. A més, ateses les limitacions de les bases de dades relacionals a l'hora de gestionar grans volums de dades i el seus patrons d'ús en constant evolució, aquesta tesi també aprofundeix en l'estudi d'alternatives. Els reptes en la distribució de catàlegs cosmològics dins de la col·laboració PAUS ens han portat a l'adopció de l'ecosistema Apache Hadoop. Aquesta línia de recerca va derivar en la creació de CosmoHub, una aplicació impulsada per Apache Hive -un esforç sense precedents en astronomia i cosmologia- i que promou els principis de la Ciència Oberta. Paral·lelament, en el camp del desenvolupament d'algoritmes per a simulacions cosmològiques, aquesta tesi descriu l'esforç per desenvolupar, optimitzar i calibrar un algoritme per simular els fluxos electromagnètics observats de les galàxies. Aquest algoritme, integrat en un conjunt molt més ampli de mòduls Python dins d'un pipeline impulsat per Spark, és fonamental per a la creació dels catàlegs virtuals de galàxies més extensos i complets, que donen suport al projecte Euclid de l'Agència Espacial Europea.


En las últimas décadas, físicos y astrónomos han transformado radicalmente su metodología para investigar el contenido y la evolución del universo. Las técnicas informáticas avanzadas se han convertido en herramientas indispensables para gestionar la gran cantidad de datos producidos actualmente por los telescopios automatizados y otros instrumentos de alta sensibilidad. Para poder extraer conocimientos científicos de esta vasta cantidad de datos se requiere la colaboración interdisciplinaria de ingenieros mecánicos y electrónicos, físicos, astrónomos, informáticos e ingenieros de software. Esta tesis doctoral explora la intersección entre la ingeniería informática y la cosmología dentro del Port d'Informació Científica (PIC), un centro de datos y computación científica de alto rendimiento (HTC). Las contribuciones se centran en dos áreas centrales: la gestión integral de los datos y el desarrollo de algoritmos complejos para simulaciones cosmológicas. En el ámbito de la gestión de datos, se suelen utilizar herramientas como las bases de datos relacionales. En esta tesis hemos dado un paso más allá, al situarla en una posición pionera y central en la arquitectura de gestión de datos del proyecto de cartografiado extragaláctico Física del Universo Acelerado (PAUS, en inglés). El diseño de una infraestructura integral de gestión de datos, dentro de las estrictas limitaciones del proyecto PAUS, es la primera contribución de esta investigación. Además, atendiendo a las limitaciones de las bases de datos relacionales a la hora de gestionar grandes volúmenes de datos y sus patrones de uso en constante evolución, esta tesis también profundiza en el estudio de alternativas. Los retos en la distribución de catálogos cosmológicos dentro de la colaboración PAUS nos han llevado a la adopción del ecosistema Apache Hadoop. Esta línea de investigación derivó en la creación de CosmoHub, una aplicación impulsada por Apache Hive -un esfuerzo sin precedentes en astronomía y cosmología- y que promueve los principios de la Ciencia Abierta. Paralelamente, en el ámbito del desarrollo de algoritmos para simulaciones cosmológicas, esta tesis describe el esfuerzo por desarrollar, optimizar y calibrar un algoritmo para simular los flujos electromagnéticos observados de las galaxias. Este algoritmo, integrado en un conjunto mucho más amplio de módulos Python dentro de un pipeline impulsado por Spark, es fundamental para la creación de los catálogos virtuales de galaxias más extensos y completos, que dan soporte al proyecto Euclid de la Agencia Espacial Europea.


In recent decades, physicists and astronomers have significantly transformed their methodology for investigating the universe's content and evolution. Advanced computing techniques have emerged as indispensable tools to manage the substantial data amassed by contemporary automated telescopes and highly sensitive instruments. Extracting scientific insights from the vast information pool necessitates interdisciplinary collaboration among mechanical and electronic engineers, physicists, astronomers, computer scientists, and software engineers. This PhD thesis explores the interface of Computer Science and Cosmology within the Port d'Informació Científica (PIC), a High Throughput Computing (HTC) data center. The work encompasses two core domains: (comprehensive) data management and the advancement of (complex) algorithms for cosmological simulations. In the realm of data management, conventional tools like relational databases are usually employed. In this work, a pioneering stance is taken towards them, exemplified by their central role in the Physics of the Accelerating Universe Survey (PAUS). The design of a comprehensive data management infrastructure within the tight constraints of PAUS is the first contribution in this thesis. Moreover, given the limitations of relational databases in handling extensive data and evolving usage patterns, this study also delves into alternatives. The challenges in the distribution of cosmological catalogs within the PAUS collaboration lead to the adoption of the Apache Hadoop ecosystem. This investigation culminated in the creation of CosmoHub, an application leveraging Apache Hive -an unprecedented endeavor within astronomy and cosmology- that promotes Open Science principles. Concurrently, in the domain of algorithm development for cosmological simulations, this thesis describes the effort in developing, optimizing and calibrating an algorithm for the simulation of observed galaxy electromagnetic fluxes. This algorithm, integrated into a much larger set of Python modules within a Spark-driven pipeline operating on a Hadoop cluster, is crucial to the creation of the most extensive and comprehensive virtual galaxy catalogs, serving the European Space Agency's Euclid project.

Palabras clave

Gestió de dades; Data management; Gestión de datos; Distribució de dades; Data distribution; Distribución de datos; Optimització d'algorismes; Algorithm optimization; Optimización de algoritmos

Materias

004 - Informática

Área de conocimiento

Tecnologies

Documentos

ptc1de1.pdf

10.23Mb

 

Derechos

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/

Este ítem aparece en la(s) siguiente(s) colección(ones)