Fault-tolerant Cache Coherence Protocols for CMPs

dc.contributor
Universidad de Murcia. Departamento de Ingeniería y Tecnología de Computadores
dc.contributor.author
Fernández Pascual, Ricardo
dc.date.accessioned
2011-04-12T20:20:15Z
dc.date.available
2010-01-21
dc.date.issued
2007-07-23
dc.date.submitted
2010-01-21
dc.identifier.isbn
9788469293652
dc.identifier.uri
http://www.tesisenred.net/TDR-0121110-125118
dc.identifier.uri
http://hdl.handle.net/10803/10940
dc.description.abstract
We propose a way to deal with transient faults in the interconnection network of many-core CMPs that is different from the classic approach of building a fault-tolerant interconnection network. In particular, we provide fault tolerance mechanisms at the level of the cache coherence protocol so that it guarantees the correct execution of programs even when the underlying interconnection network does not deliver all messages correctly. This way, we can take advantage of the different meaning of each message to achieve fault tolerance with lower overhead than at the level of the interconnection network, which has to treat all messages alike with respect to reliability.<br/><br/>We design several fault-tolerant cache coherence protocols using these techniques and evaluate them. This evaluation shows that, in absence of faults, our techniques do not increase significantly the execution time of the applications and their major cost is an increase in network traffic due to acknowledgment messages that ensure the reliable transference of ownership between coherence nodes, which are sent out of the critical path of cache misses. In addition, a system using our protocols degrades gracefully when transient faults actually happen and can support fault rates much higher than those expected in the real world with only a small performance degradation.
eng
dc.description.abstract
Se proponen una forma de tratar con los fallos transitorios en la red de interconexión de un CMP con gran número de núcleos que es diferente del enfoque clásico basado en construir una red de interconexión tolerante a fallos. En particular se proporcionan mecanismos de tolerancia a fallos al nivel del protocolo de coherencia. De esta forma, se puede aprovechar el conocimiento que el protocolo tiene sobre el significado de cada mensaje para obtener tolerancia a fallos con menor sobrecarga que en el nivel de red, que tiene que tratar todos los mensajes idénticamente.<br/><br/>En la tesis se diseñan y evalúan varios protocolos de coherencia utilizando estas técnicas. Los resultados muestran que, cuando no hay fallos, nuestras técnicas no incrementan significativamente el tiempo de ejecución de las aplicaciones y su mayor coste es un incremento en el tráfico de red. Además, un sistema que use nuestros protocolos soporta tasas de fallos mucho mayores que las esperadas en circunstancias realistas y su rendimiento se degrada gradualmente cuando ocurren los fallos.
spa
dc.format.mimetype
application/pdf
dc.language.iso
eng
dc.publisher
Universidad de Murcia
dc.rights.license
ADVERTENCIA. El acceso a los contenidos de esta tesis doctoral y su utilización debe respetar los derechos de la persona autora. Puede ser utilizada para consulta o estudio personal, así como en actividades o materiales de investigación y docencia en los términos establecidos en el art. 32 del Texto Refundido de la Ley de Propiedad Intelectual (RDL 1/1996). Para otros usos se requiere la autorización previa y expresa de la persona autora. En cualquier caso, en la utilización de sus contenidos se deberá indicar de forma clara el nombre y apellidos de la persona autora y el título de la tesis doctoral. No se autoriza su reproducción u otras formas de explotación efectuadas con fines lucrativos ni su comunicación pública desde un sitio ajeno al servicio TDR. Tampoco se autoriza la presentación de su contenido en una ventana o marco ajeno a TDR (framing). Esta reserva de derechos afecta tanto al contenido de la tesis como a sus resúmenes e índices.
dc.source
TDR (Tesis Doctorales en Red)
dc.subject
CMP
dc.subject
multiprocesador en un chip
dc.subject
coherencia
dc.subject
tolerancia a fallos
dc.subject
fault-tolerance
dc.subject
cache-coherence
dc.subject.other
Arquitectura de computadores
dc.title
Fault-tolerant Cache Coherence Protocols for CMPs
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
621.3
spa
dc.contributor.authoremail
rfernandez@ditec.um.es
dc.contributor.director
García Carrasco, José Manuel
dc.contributor.director
Acacio Sánchez, Manuel Eugenio
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
cat
dc.identifier.dl
MU-143-2010


Documents

FernandezPascual.pdf

1.443Mb PDF

This item appears in the following Collection(s)