Gestión del Almacenamiento para Tolerancia a Fallos en Computación de Altas Prestaciones

dc.contributor.author
León Otero, Betzabeth
dc.date.accessioned
2024-01-09T10:05:31Z
dc.date.available
2024-01-09T10:05:31Z
dc.date.issued
2023-03-09
dc.identifier.uri
http://hdl.handle.net/10803/689691
dc.description.abstract
En entornos HPC es primordial mantener en continuo funcionamiento las aplicaciones que implican gran tiempo de ejecución. La redundancia es uno de los métodos utilizados en HPC como una estrategia de protección frente a cualquier fallo, pero generando un overhead debido a la información redundante que implica tiempo y recursos adicionales para asegurar el correcto funcionamiento del sistema. La tolerancia a fallos se ha constituido como un elemento fundamental para asegurar la disponibilidad en los sistemas en entornos de computación de altas prestaciones. Entre las estrategias utilizadas se encuentra el rollback recovery, que consiste en regresar a un estado anterior correcto guardado previamente, es a través de los checkpoint que permiten guardar la información del estado de un proceso periódicamente en un sistema de almacenamiento estable; pero hay una gran latencia involucrada ya que todos los procesos están accediendo de manera concurrente al sistema de ficheros. Así mismo, el almacenamiento del checkpoint puede afectar el rendimiento y la escalabilidad de las aplicaciones paralelas que utilizan el paso de mensajes. Por lo tanto, se hace importante conocer los elementos que pueden impactar en el almacenamiento del checkpoint y como estos pueden influir en la escalabilidad de una aplicación con tolerancia a fallos. Caracterizar los archivos que se generan al realizar el checkpoint de una aplicación paralela es útil para determinar los recursos consumidos y su impacto en el sistema de E/S. También es importante caracterizar la aplicación que realiza checkpoint, debido a que la E/S del checkpoint depende en gran medida de esta. La presente investigación propone una metodología que ayuda en la configuración del almacenamiento estable, de los ficheros de E/S ge- nerados por la tolerancia a fallos, teniendo en cuenta los patrones de acceso a los ficheros generados y los requerimientos de usuario. Esta metodología tiene tres fases en las que se caracteriza los patrones de E/S del checkpoint, luego se analizan los requisitos de almacenamiento estable y se modela el comportamiento de la estrategia de tolerancia a fallos. Para completar esta última fase de la metodología se propone un modelo para la predicción de la escalabilidad del checkpoint. Esta metodología puede ser útil a la hora de seleccionar qué tipo de configuración de checkpoint es más adecuada según las características de las aplicaciones y los recursos disponibles. Así, el usuario podrá saber cuánto espacio de almacenamiento consume el checkpoint y cuánto consume la aplicación, para poder establecer políticas que ayuden a mejorar la distribución de los recursos.
ca
dc.description.abstract
In HPC environments, it is essential to keep applications that require a long execution time running continuously. Redundancy is one of the methods used in HPC as a protection strategy against any failure, but generating an overhead due to redundant information implies additional time and resources to ensure the correct functioning of the system. Fault tolerance has become fundamental in ensuring system availability in high-performance computing environments. Among the strategies used is the rollback recovery, which consists of returning to a previous correct state previously saved. Checkpoints allow information on the state of a process to be saved periodically in a stable storage system. Still, a lot of latency is involved as all processes are concurrently accessing the file system. Also, checkpoint storage can affect parallel application performance and scalability that uses message passing. Therefore, it is important to know the elements that can impact checkpoint storage and how they can influence the scalability of a fault-tolerant application. For example, characterizing the files generated when performing the checkpoint of a parallel application is useful to determine the resources consumed and their impact on the I/O system. It is also important to characterize the application that performs the checkpoint because the I/O of the checkpoint depends mainly on it. The present research proposes a methodology that helps in configuring stable storage of the I/O files generated by fault tolerance, considering the access patterns to the generated files and the user requirements. This methodology has three phases in which the I/O patterns of the checkpoint are characterized. Then, the stable storage requirements are analyzed, and the behavior of the fault tolerance strategy is modeled. A model of prediction of checkpoint scalability has been proposed as part of the last phase of the methodology. This methodology can be useful when selecting which type of checkpoint configuration is most appropriate based on the characteristics of the applications and the available resources. Thus, the user will know how much storage space the checkpoint consumes and how much the application consumes to establish policies that help improve the distribution of resources.
ca
dc.format.extent
216 p.
ca
dc.language.iso
spa
ca
dc.publisher
Universitat Autònoma de Barcelona
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
ca
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Sistema d'E/S
ca
dc.subject
Sistema de E/S
ca
dc.subject
I/O System
ca
dc.subject
Tolerancia a Fallos
ca
dc.subject
Fault Tolerance
ca
dc.subject
HPC
ca
dc.subject.other
Tecnologies
ca
dc.title
Gestión del Almacenamiento para Tolerancia a Fallos en Computación de Altas Prestaciones
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
004
ca
dc.contributor.authoremail
betzabethleon@gmail.com
ca
dc.contributor.director
Franco Puntes, Daniel
dc.contributor.director
Rexachs del Rosario, Dolores Isabel
dc.embargo.terms
cap
ca
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica


Documents

blo1de1.pdf

4.624Mb PDF

This item appears in the following Collection(s)