Performability issues of fault tolerance solutions for message-passing systems: the case of RADIC

dc.contributor
Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius
dc.contributor.author
Silva dos Santos, Guna Alexander
dc.date.accessioned
2011-04-12T14:54:14Z
dc.date.available
2010-02-17
dc.date.issued
2009-07-20
dc.date.submitted
2010-02-17
dc.identifier.isbn
9788469260562
dc.identifier.uri
http://www.tdx.cat/TDX-0217110-130952
dc.identifier.uri
http://hdl.handle.net/10803/5774
dc.description.abstract
¿Es adecuado un sistema rápido pero poco robusto?¿Es adecuado un sistema disponible pero lento? Estas dos cuestiones representan la importancia de prestaciones y disponibilidad en clusters de computadores. <br/>Esta tesis se enmarca en el estudio de la relación entre prestaciones y disponibilidad cuando un cluster de computadores basado en el modelo de paso de mensajes, usa un protocolo de tolerancia a fallos basado en rollback-recovery con log de mensajes pesimista. Esta relación también es conocida como performability. <br/>Los principales factores que influyen en la performability cuando se usa la arquitectura de tolerancia a fallos RADIC son identificados y estudiados. Los factores fundamentales son la latencia de envío de mensajes que se incrementa cuando se usa el log pesimista, que implica una perdida de prestaciones, como también la replicación de los datos redundantes (checkpoint y log) necesaria para el incremento de la disponibilidad en RADIC y el cambio de la distribución de procesos por nodo causada por los fallos, que pueden causar degradación de las prestaciones así como las paradas por mantenimiento preventivo. <br/>Para tratar estos problemas se proponen alternativas de diseño basadas en análisis de la performability. La pérdida de prestaciones causada por el log y la replicación ha sido mitigada usando la técnica de pipeline. El cambio en la distribución de procesos por nodo puede ser evitado o restaurada usando un mecanismo flexible y transparente de redundancia dinámica que ha sido propuesto, que permite inserción dinámica de nodos spare o de repuesto. <br/>Los resultados obtenidos demuestran que las contribuciones presentadas son capaces de mejorar la performability de un cluster de computadores cuando se usa una solución de tolerancia a fallos como RADIC.
cat
dc.description.abstract
Is a fast but fragile system good? Is an available but slow system good? These two questions demonstrate the importance of performance and availability in computer clusters. <br/>This thesis addresses issues correlated to performance and availability when a rollback- recovery pessimistic message log based fault tolerance protocol is applied into a computer cluster based on the message-passing model. Such a correlation is also known as performability. <br/>The root factors influencing the performability when using the RADIC (Redundant Array of Distributed Independent Fault Tolerance Controllers) fault tolerance architecture are raised and studied. Factors include the message delivery latency, which increases when using pessimistic logging causing performance overhead, as also in the redundant data (logs and checkpoints) replication needed to increase availability in RADIC and the process per node distribution changed by faults, which may cause performance degradation and preventive maintenance stops. <br/>In order to face these problems some alternatives are presented based on a performability analysis. Using a pipeline approach the performance overhead of message logging and the redundant data replication were mitigated. Changes in the process per node distribution can be avoided or restored using the flexible and transparent mechanism for dynamic redundancy proposed, or using a dynamic insertion of spare or replacement nodes. <br/>The obtained results show that the presented contributions could improve the performability of a computer cluster when using a fault tolerance solution such as RADIC.
cat
dc.format.mimetype
application/pdf
dc.language.iso
eng
dc.publisher
Universitat Autònoma de Barcelona
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Ordenadores digitales
dc.subject
Fiabilidad de los ordenadores
dc.subject
Arquitectura de ordenadores
dc.subject.other
Tecnologies
dc.title
Performability issues of fault tolerance solutions for message-passing systems: the case of RADIC
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
519.1
cat
dc.contributor.authoremail
guna@caos.uab.es
dc.contributor.director
Rexachs del Rosario, Dolores Isabel
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
cat
dc.identifier.dl
B-38543-2009


Documentos

gasd1de1.pdf

1.732Mb PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)