Content Delivery Network solutions for the CMS experiment: the evolution towards HL-LHC

Autor/a

Pérez Dengra, Carlos

Director/a

Flix Molina, Jose

Sikora , Anna Barbara

Tutor/a

Sikora , Anna Barbara

Fecha de defensa

2024-02-02

Páginas

175 p.



Programa de doctorado

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Resumen

El Gran Col·lisionador d'Hadrons (LHC) al CERN de Ginebra està preparat per a una actualització transformadora, preparant-se per millorar tant el seu accelerador com els detectors de partícules. Aquesta iniciativa estratègica està impulsada deu vegades més d'enfrontaments de protons anticipats per a la propera fase d'alta lluminositat programada per començar el 2029. El paper vital jugat per la infraestructura computacional subjacent, la World-Wide LHC Computing Grid, en el processament de les dades generades durant aquests enfrontaments subratlla la necessitat de la seva expansió i adaptació per satisfer les demandes de la nova fase de l'accelerador. La provisió d'aquests recursos computacionals per part de la comunitat mundial encara és essencial, tot dins d'un marc pressupostari constant. Tot i que els avenços tecnològics ofereixen cert alleujament per a l'augment esperat, nombrosos projectes d'investigació i desenvolupament estan en curs. El seu objectiu és portar els recursos futurs a nivells manejables i proporcionar solucions rendibles per gestionar de manera eficaç el creixent volum de dades generades. En la recerca d'un accés optimitzat a les dades i la utilització eficient dels recursos, la comunitat del LHC està investigant activament les tècniques de Xarxa de Distribució de Continguts (CDN, per les seves sigles en anglès). Aquestes tècniques serveixen com a mecanisme per a la implementació rendible de sistemes d'emmagatzematge lleugers que donen suport tant a recursos de còmput tradicionals com a oportunistes. A més, busquen millorar el rendiment de l'execució de tasques facilitant la lectura eficient de dades d'entrada mitjançant l'emmagatzematge del contingut en cache dels usuaris finals. Es presenta un estudi exhaustiu per avaluar els beneficis de la implementació de solucions de cache de dades per a l'experiment Compact Muon Solenoid (CMS). Aquest examen en profunditat serveix com a estudi de cas realitzat específicament per a les instal·lacions informàtiques espanyoles, jugant un paper crucial en el suport a les activitats de CMS. Els patrons d'accés a dades i els estudis de popularitat suggereixen que les tasques d'anàlisi d'usuaris són les que més es beneficien de les tècniques de CDN. En conseqüència, s'ha introduït una cache de dades a la regió per obtenir una comprensió més profunda d'aquests efectes.


El Gran Colisionador de Hadrones (LHC) en el CERN de Ginebra está listo para una actualización transformadora, preparándose para mejorar tanto su acelerador como los detectores de partículas. Esta iniciativa estratégica está impulsada por el aumento de diez veces en las colisiones de protones anticipadas para la próxima fase de alta luminosidad programada para comenzar en 2029. El papel vital desempeñado por la infraestructura computacional subyacente, la World-Wide LHC Computing Grid, en el procesamiento de los datos generados durante estas colisiones subraya la necesidad de su expansión y adaptación para satisfacer las demandas de la nueva fase del acelerador. La provisión de estos recursos computacionales por parte de la comunidad mundial sigue siendo esencial, todo dentro de un marco presupuestario constante. Aunque los avances tecnológicos ofrecen cierto alivio para el aumento esperado, numerosos proyectos de investigación y desarrollo están en marcha. Su objetivo es llevar los recursos futuros a niveles manejables y proporcionar soluciones rentables para manejar eficazmente el creciente volumen de datos generados. En la búsqueda de un acceso optimizado a los datos y la utilización eficiente de los recursos, la comunidad del LHC está investigando activamente las técnicas de Red de Entrega de Contenidos (CDN, por sus siglas en inglés). Estas técnicas sirven como un mecanismo para la implementación rentable de sistemas de almacenamiento ligeros que admiten tanto recursos de cómputo tradicionales como oportunistas. Además, buscan mejorar el rendimiento de la ejecución de tareas facilitando la lectura eficiente de datos de entrada mediante el almacenamiento en caché de contenido cerca del usuario final. Se presenta un estudio exhaustivo para evaluar los beneficios de implementar soluciones de almacenamiento en caché de datos para el experimento Compact Muon Solenoid (CMS). Este examen en profundidad sirve como un estudio de caso específicamente realizado para las instalaciones informáticas españolas, desempeñando un papel crucial en el apoyo a las actividades de CMS. Los patrones de acceso a datos y los estudios de popularidad sugieren que las tareas de análisis de usuarios son las que más se benefician de las técnicas de CDN. En consecuencia, se ha introducido una caché de datos en la región para obtener una comprensión más profunda de estos efectos.


The Large Hadron Collider at CERN in Geneva is poised for a transformative upgrade, preparing to enhance both its accelerator and particle detectors. This strategic initiative is driven by the tenfold increase in proton-proton collisions anticipated for the forthcoming high-luminosity phase scheduled to start by 2029. The vital role played by the underlying computational infrastructure, the World-Wide LHC Computing Grid, in processing the data generated during these collisions underlines the need for its expansion and adaptation to meet the demands of the new accelerator phase. The provision of these computational resources by the worldwide community remains essential, all within a constant budgetary framework. While technological advancements offer some relief for the expected increase, numerous research and development projects are underway. Their aim is to bring future resources to manageable levels and provide cost-effective solutions to effectively handle the expanding volume of generated data. In the quest for optimised data access and resource utilisation, the LHC community is actively investigating Content Delivery Network (CDN) techniques. These techniques serve as a mechanism for the cost-effective deployment of lightweight storage systems that support both, traditional and opportunistic compute resources. Furthermore, they aim to enhance the performance of executing tasks by facilitating the efficient reading of input data via caching content near the end user. A comprehensive study is presented to assess the benefits of implementing data cache solutions for the Compact Muon Solenoid (CMS) experiment. This in-depth examination serves as a use-case study specifically conducted for the Spanish compute facilities, playing a crucial role in supporting CMS activities. Data access patterns and popularity studies suggest that user analysis tasks benefit the most from CDN techniques. Consequently, a data cache has been introduced in the region to acquire a deeper understanding of these effects. In this paper, the details of the implementation of a data cache system in the PIC Tier-1 compute facility is presented. It includes insights into the developed monitoring tools and discusses the positive impact on CPU usage for analysis tasks executed in the region. The study is augmented by simulations of data caches, with the objective of discerning the most optimal requirements in both size and network connectivity for a data cache serving the Spanish region. Additionally, the study delves into the cost benefits associated with deploying such a solution in a production environment. Furthermore, it investigates the potential impact of incorporating this solution into other regions of the CMS computing infrastructure.

Palabras clave

Computació grid distribuïda; Distributed grid computing; Computación grid distribuida; Física d'altes energies; High energy physics; Física de altas energías; CMS

Materias

004 - Informática

Área de conocimiento

Tecnologies

Documentos

cpd1de1.pdf

38.86Mb

 

Derechos

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Este ítem aparece en la(s) siguiente(s) colección(ones)