dc.contributor.author
Tallada Crespi, Pau
dc.date.accessioned
2024-07-09T09:56:23Z
dc.date.available
2024-07-09T09:56:23Z
dc.date.issued
2024-04-12
dc.identifier.uri
http://hdl.handle.net/10803/691707
dc.description.abstract
En les darreres dècades, físics i astrònoms han transformat radicalment la seva metodologia
per investigar el contingut i l'evolució de l'univers. Les tècniques informàtiques avançades
s'han convertit en eines indispensables per gestionar la gran quantitat de dades produïdes
actualment pels telescopis automatitzats i altres instruments d'alta sensibilitat.
Per poder extreure coneixements científics d'aquesta vasta quantitat de dades es requereix
la col·laboració interdisciplinària d'enginyers mecànics i electrònics, físics, astrònoms, informàtics
i enginyers de programari.
Aquesta tesi doctoral explora la interfície entre l'enginyeria de informàtica i la cosmologia
dins del Port d'Informació Científica (PIC), un centre de dades i computació
científica d'alt rendiment (HTC). Les contribucions es centren en dues àrees centrals: la
gestió integral de les dades i el desenvolupament d'algoritmes complexos per a simulacions
cosmològiques.
En l'àmbit de la gestió de dades, es solen emprar habitualment eines com les bases de
dades relacionals. En aquesta tesi hem anat un pas més enllà, en situar-la en un posició
pionera i central en l'arquitectura de gestió de dades del projecte de cartografiat extragalàctic
Física de l'Univers Accelerat (PAUS, de l'anglès). El disseny d'una infraestructura
integral de gestió de dades, dins de les estrictes limitacions del projecte PAUS, és la primera
contribució d'aquesta recerca.
A més, ateses les limitacions de les bases de dades relacionals a l'hora de gestionar
grans volums de dades i el seus patrons d'ús en constant evolució, aquesta tesi també
aprofundeix en l'estudi d'alternatives. Els reptes en la distribució de catàlegs cosmològics
dins de la col·laboració PAUS ens han portat a l'adopció de l'ecosistema Apache Hadoop.
Aquesta línia de recerca va derivar en la creació de CosmoHub, una aplicació impulsada
per Apache Hive -un esforç sense precedents en astronomia i cosmologia- i que promou
els principis de la Ciència Oberta.
Paral·lelament, en el camp del desenvolupament d'algoritmes per a simulacions cosmològiques,
aquesta tesi descriu l'esforç per desenvolupar, optimitzar i calibrar un algoritme
per simular els fluxos electromagnètics observats de les galàxies. Aquest algoritme,
integrat en un conjunt molt més ampli de mòduls Python dins d'un pipeline impulsat per
Spark, és fonamental per a la creació dels catàlegs virtuals de galàxies més extensos i
complets, que donen suport al projecte Euclid de l'Agència Espacial Europea.
dc.description.abstract
En las últimas décadas, físicos y astrónomos han transformado radicalmente su metodología
para investigar el contenido y la evolución del universo. Las técnicas informáticas avanzadas
se han convertido en herramientas indispensables para gestionar la gran cantidad de datos producidos
actualmente por los telescopios automatizados y otros instrumentos de alta sensibilidad.
Para poder extraer conocimientos científicos de esta vasta cantidad de datos se requiere
la colaboración interdisciplinaria de ingenieros mecánicos y electrónicos, físicos, astrónomos, informáticos
e ingenieros de software.
Esta tesis doctoral explora la intersección entre la ingeniería informática y la cosmología
dentro del Port d'Informació Científica (PIC), un centro de datos y computación
científica de alto rendimiento (HTC). Las contribuciones se centran en dos áreas centrales:
la gestión integral de los datos y el desarrollo de algoritmos complejos para simulaciones
cosmológicas.
En el ámbito de la gestión de datos, se suelen utilizar herramientas como las bases de datos relacionales.
En esta tesis hemos dado un paso más allá, al situarla en una posición pionera y central
en la arquitectura de gestión de datos del proyecto de cartografiado extragaláctico
Física del Universo Acelerado (PAUS, en inglés). El diseño de una infraestructura
integral de gestión de datos, dentro de las estrictas limitaciones del proyecto PAUS, es la primera
contribución de esta investigación.
Además, atendiendo a las limitaciones de las bases de datos relacionales a la hora de gestionar
grandes volúmenes de datos y sus patrones de uso en constante evolución, esta tesis también
profundiza en el estudio de alternativas. Los retos en la distribución de catálogos cosmológicos
dentro de la colaboración PAUS nos han llevado a la adopción del ecosistema Apache Hadoop.
Esta línea de investigación derivó en la creación de CosmoHub, una aplicación impulsada
por Apache Hive -un esfuerzo sin precedentes en astronomía y cosmología- y que promueve
los principios de la Ciencia Abierta.
Paralelamente, en el ámbito del desarrollo de algoritmos para simulaciones cosmológicas,
esta tesis describe el esfuerzo por desarrollar, optimizar y calibrar un algoritmo
para simular los flujos electromagnéticos observados de las galaxias. Este algoritmo,
integrado en un conjunto mucho más amplio de módulos Python dentro de un pipeline impulsado por
Spark, es fundamental para la creación de los catálogos virtuales de galaxias más extensos y
completos, que dan soporte al proyecto Euclid de la Agencia Espacial Europea.
dc.description.abstract
In recent decades, physicists and astronomers have significantly transformed their methodology
for investigating the universe's content and evolution. Advanced computing techniques
have emerged as indispensable tools to manage the substantial data amassed by
contemporary automated telescopes and highly sensitive instruments. Extracting scientific
insights from the vast information pool necessitates interdisciplinary collaboration
among mechanical and electronic engineers, physicists, astronomers, computer scientists,
and software engineers.
This PhD thesis explores the interface of Computer Science and Cosmology within the
Port d'Informació Científica (PIC), a High Throughput Computing (HTC) data center.
The work encompasses two core domains: (comprehensive) data management and the
advancement of (complex) algorithms for cosmological simulations.
In the realm of data management, conventional tools like relational databases are usually
employed. In this work, a pioneering stance is taken towards them, exemplified by
their central role in the Physics of the Accelerating Universe Survey (PAUS). The design
of a comprehensive data management infrastructure within the tight constraints of PAUS
is the first contribution in this thesis.
Moreover, given the limitations of relational databases in handling extensive data and
evolving usage patterns, this study also delves into alternatives. The challenges in the
distribution of cosmological catalogs within the PAUS collaboration lead to the adoption of
the Apache Hadoop ecosystem. This investigation culminated in the creation of CosmoHub,
an application leveraging Apache Hive -an unprecedented endeavor within astronomy and
cosmology- that promotes Open Science principles.
Concurrently, in the domain of algorithm development for cosmological simulations,
this thesis describes the effort in developing, optimizing and calibrating an algorithm for
the simulation of observed galaxy electromagnetic fluxes. This algorithm, integrated into
a much larger set of Python modules within a Spark-driven pipeline operating on a Hadoop
cluster, is crucial to the creation of the most extensive and comprehensive virtual galaxy
catalogs, serving the European Space Agency's Euclid project.
dc.publisher
Universitat Autònoma de Barcelona
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-sa/4.0/
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Gestió de dades
dc.subject
Data management
dc.subject
Gestión de datos
dc.subject
Distribució de dades
dc.subject
Data distribution
dc.subject
Distribución de datos
dc.subject
Optimització d'algorismes
dc.subject
Algorithm optimization
dc.subject
Optimización de algoritmos
dc.subject.other
Tecnologies
dc.title
Massive cosmological data generation and distribution
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.date.updated
2024-07-09T09:56:23Z
dc.contributor.director
Tonello , Nadia
dc.contributor.director
Carretero Palacios, Jorge
dc.contributor.director
César Galobardes, Eduardo
dc.contributor.tutor
César Galobardes, Eduardo
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica