Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica
En entornos HPC es primordial mantener en continuo funcionamiento las aplicaciones que implican gran tiempo de ejecución. La redundancia es uno de los métodos utilizados en HPC como una estrategia de protección frente a cualquier fallo, pero generando un overhead debido a la información redundante que implica tiempo y recursos adicionales para asegurar el correcto funcionamiento del sistema. La tolerancia a fallos se ha constituido como un elemento fundamental para asegurar la disponibilidad en los sistemas en entornos de computación de altas prestaciones. Entre las estrategias utilizadas se encuentra el rollback recovery, que consiste en regresar a un estado anterior correcto guardado previamente, es a través de los checkpoint que permiten guardar la información del estado de un proceso periódicamente en un sistema de almacenamiento estable; pero hay una gran latencia involucrada ya que todos los procesos están accediendo de manera concurrente al sistema de ficheros. Así mismo, el almacenamiento del checkpoint puede afectar el rendimiento y la escalabilidad de las aplicaciones paralelas que utilizan el paso de mensajes. Por lo tanto, se hace importante conocer los elementos que pueden impactar en el almacenamiento del checkpoint y como estos pueden influir en la escalabilidad de una aplicación con tolerancia a fallos. Caracterizar los archivos que se generan al realizar el checkpoint de una aplicación paralela es útil para determinar los recursos consumidos y su impacto en el sistema de E/S. También es importante caracterizar la aplicación que realiza checkpoint, debido a que la E/S del checkpoint depende en gran medida de esta. La presente investigación propone una metodología que ayuda en la configuración del almacenamiento estable, de los ficheros de E/S ge- nerados por la tolerancia a fallos, teniendo en cuenta los patrones de acceso a los ficheros generados y los requerimientos de usuario. Esta metodología tiene tres fases en las que se caracteriza los patrones de E/S del checkpoint, luego se analizan los requisitos de almacenamiento estable y se modela el comportamiento de la estrategia de tolerancia a fallos. Para completar esta última fase de la metodología se propone un modelo para la predicción de la escalabilidad del checkpoint. Esta metodología puede ser útil a la hora de seleccionar qué tipo de configuración de checkpoint es más adecuada según las características de las aplicaciones y los recursos disponibles. Así, el usuario podrá saber cuánto espacio de almacenamiento consume el checkpoint y cuánto consume la aplicación, para poder establecer políticas que ayuden a mejorar la distribución de los recursos.
In HPC environments, it is essential to keep applications that require a long execution time running continuously. Redundancy is one of the methods used in HPC as a protection strategy against any failure, but generating an overhead due to redundant information implies additional time and resources to ensure the correct functioning of the system. Fault tolerance has become fundamental in ensuring system availability in high-performance computing environments. Among the strategies used is the rollback recovery, which consists of returning to a previous correct state previously saved. Checkpoints allow information on the state of a process to be saved periodically in a stable storage system. Still, a lot of latency is involved as all processes are concurrently accessing the file system. Also, checkpoint storage can affect parallel application performance and scalability that uses message passing. Therefore, it is important to know the elements that can impact checkpoint storage and how they can influence the scalability of a fault-tolerant application. For example, characterizing the files generated when performing the checkpoint of a parallel application is useful to determine the resources consumed and their impact on the I/O system. It is also important to characterize the application that performs the checkpoint because the I/O of the checkpoint depends mainly on it. The present research proposes a methodology that helps in configuring stable storage of the I/O files generated by fault tolerance, considering the access patterns to the generated files and the user requirements. This methodology has three phases in which the I/O patterns of the checkpoint are characterized. Then, the stable storage requirements are analyzed, and the behavior of the fault tolerance strategy is modeled. A model of prediction of checkpoint scalability has been proposed as part of the last phase of the methodology. This methodology can be useful when selecting which type of checkpoint configuration is most appropriate based on the characteristics of the applications and the available resources. Thus, the user will know how much storage space the checkpoint consumes and how much the application consumes to establish policies that help improve the distribution of resources.
Sistema d'E/S; Sistema de E/S; I/O System; Tolerancia a Fallos; Fault Tolerance; HPC
004 - Computer science
Tecnologies