Universitat Politècnica de Catalunya. Departament d'Arquitectura de Computadors
DOCTORAT EN ARQUITECTURA DE COMPUTADORS (Pla 2012)
(English) The Oil and Gas (O&G) industry ranks prominently among the leading commercial users of powerful supercomputers worldwide, as indicated by global High-Performance Computing (HPC) ranking lists, such as TOP500 and Green500. Geoscience applications, particularly flow and geomechanical simulators, pose demanding workloads for HPC in adressing complex engineering challenges in the O&G industry, together with seismic processing. The rise of hybrid on-demand and cloud HPC environments presents new challenges to end users. Beyond expertise in their fields, users must navigate the intricacies of computer architecture to select the optimal hardware and parallelization option. They also need to consider the business model decisions of the cloud providers, such as managing spot instances, selecting different cloud regions, or even different cloud providers. Furthermore, users struggle with the complexities of configuring their own geoscience software due to the multitude of tunable numerical parameters. Default values may not be optimal for specific reservoir models, requiring geoscientists’ expertise in both the physics and mathematics behind the simulators and in computer science. A deep understanding of application performance is challenging, as it can vary based on input parameters. Many users end up relying on default configurations or decisions by system administrators for geoscience software, missing opportunities to optimize speed and cost-effectiveness. This thesis aims to shift the paradigm in utilizing HPC for geoscience by entrusting computer architecture decisions to domain-aware optimization algorithms. Such an approach not only enhances usability for the end user, but can also translate into substantial reductions in both time and cost. These algorithms could lead to better utilization of on-premises supercomputers and cost optimization of cloud resources. We evaluate the feasibility of this approach through the contributions of three algorithms. The first algorithm of this work was named TunaOil, which is a novel methodology that uses previous reservoir simulation executions to train an oracle that proposes near-optimal numerical parameters for subsequent simulations within a History Matching (HM) workflow. This allows the simulation parameters to be adjusted without additional executions, saving valuable time. Experiments show that the contribution of this algorithm is an improvement of up to 31% in the overall runtime of the HM workflow. The second algorithm, named MScheduler, is a metascheduler framework designed for reservoir simulations in the cloud. It effi- ciently executes SLURM jobs by utilizing spot Virtual Machines (VMs) to minimize costs and ensure job completion even in the event of VM termination. Key contributions include a novel methodology for reservoir simulation checkpointing, a cost-based scheduler, and an analysis of the strategy using real production jobs. MScheduler significantly reduces financial costs with a slight increase in makespan. On average, it reduces monetary costs by up to 32%, with only an 8% increase in the makespan compared on-demand executions. In the best case, the monetary savings reach 66%, with a 19% increase in makespan. The third algorithm utilizes Machine Learning (ML) algorithms in job schedulers to predict execution times of reservoir job, improving cluster resource efficiency. The developed model classifies the duration time interval of SLURM reservoir simulation jobs with an accuracy of more than 70%, exceeding the standard performance described in the job scheduling literature, thus contributing to improved scheduling decisions. Together, these algorithms mark a paradigm shift in HPC utilization for geoscience applications. They liberate end users from complex computer architecture choices, contributing to improved decision-making and significant time and cost benefits.
(Español) La industria del petróleo y gas (O&G) ocupa un lugar destacado entre los principales usuarios comerciales de potentes supercomputadoras en todo el mundo, como lo indican las listas de clasificación global de Computación de alto rendimiento (HPC), como TOP500 y Green500. Las aplicaciones de geociencia, en particular los simuladores geomecánicos y de flujo, plantean cargas de trabajo exigentes para HPC al abordar complejos desafíos de ingeniería en la industria del petróleo y gas, junto con el procesamiento sísmico. El auge de los entornos HPC híbridos bajo demanda y en la nube presenta nuevos desafíos para los usuarios finales. Más allá de la experiencia en sus campos, los usuarios deben explorar las complejidades de la arquitectura informática para seleccionar el hardware óptimo y la opción de paralelización. También deben considerar decisiones sobre el modelo de negocio de los proveedores de la nube, como la gestión de instancias puntuales, la selección de diferentes regiones de la nube o incluso diferentes proveedores de la nube. Además, los usuarios luchan con las complejidades de configurar su propio software de geociencia debido a la multitud de parámetros numéricos ajustables. Los valores predeterminados pueden no ser óptimos para modelos de yacimientos específicos, lo que requiere del usuario conocimiento fuera de su campo de especialización. Esta tesis tiene como objetivo cambiar el paradigma en la utilización de HPC para las geociencias al confiar las decisiones de arquitectura informática a algoritmos de optimización conscientes del dominio. Este enfoque no solo mejora la usabilidad para el usuario final, sino que también puede traducirse en reducciones sustanciales tanto de tiempo como de costos. Estos algoritmos podrían conducir a una mejor utilización de las supercomputadoras locales y a la optimización de costos de los recursos de la nube. Evaluamos la viabilidad de este enfoque a través de las contribuciones de tres algoritmos. El primer algoritmo de este trabajo se denominó TunaOil, que es una metodología novedosa que utiliza ejecuciones previas de simulación para entrenar un oráculo que propone parámetros numéricos casi óptimos para simulaciones posteriores dentro de un flujo de trabajo iterativo. Esto permite ajustar los parámetros de simulación sin ejecuciones adicionales, ahorrando un tiempo valioso. Los experimentos muestran que la contribución de este algoritmo mejora hasta un 31% el tiempo de ejecución general. El segundo algoritmo, denominado MScheduler, es un metaprogramador diseñado para simulaciones en la nube. El mismo ejecuta de manera eficiente trabajos SLURM mediante el uso de máquinas virtuales (VM) puntuales para minimizar los costos y garantizar la finalización del trabajo, incluso en caso de terminación de la VM. Las contribuciones clave incluyen una metodología novedosa para puntos de control de simulación de yacimientos, un programador basado en costos y una análisis de la estrategia utilizando trabajos de producción reales. MScheduler reduce significativamente los costos financieros (de 32 a 66%) con un ligero aumento en el makespan (de 8 a 19%). El tercer algoritmo utiliza algoritmos de aprendizaje automático (ML) para predecir los tiempos de ejecución de simulacion, mejorando la eficiencia de los recursos del clúster. El modelo desarrollado clasifica el intervalo de duración de los trabajos de simulación de yacimientos SLURM con una precisión de más de 70%, superando el rendimiento estándar descrito en la literatura sobre programación de trabajos, contribuyendo así a mejorar las decisiones de programación. Juntos, estos algoritmos marcan un cambio de paradigma en la utilización de HPC para aplicaciones de geociencia. Liberan a los usuarios finales de opciones complejas de arquitectura informática, contribuyendo para una mejor toma de decisiones con beneficios en tiempo y costes.
004 - Computer science; 55 - Geological sciences. Meteorology
Àrees temàtiques de la UPC::Informàtica; Àrees temàtiques de la UPC::Enginyeria civil
Tesi amb menció de Doctorat Internacional