Node fault tolerance for distributed embedded systems based on FTT-Ethernet

Autor/a

Derasevic, Sinisa

Director/a

Barranco, Manuel

Proenza, Julián

Tutor/a

Barranco, Manuel

Fecha de defensa

2018-12-04

Páginas

217 p.



Departamento/Instituto

Universitat de les Illes Balears. Doctorat en Tecnologies de la Informació i les Comunicacions

Resumen

[eng] When Distributed Embedded Systems (DESs) operate in evolving environments, changing requirements might be imposed on the system, and thus the system needs the ability to adapt to them. Furthermore, when such systems are employed for real-time (RT) critical applications, both support for satisfying stringent RT guarantees and attaining a high level of reliability must be provided. The Flexible Time-Triggered (FTT) communication paradigm provides support for changing real-time traffic requirements in adaptive RT DESs, i.e., it provides RT flexibility. The different implementations of FTT on Ethernet have recently added to FTT advantages of Ethernet such as high bandwidth, low cost and, since Ethernet is the de facto Link Layer standard of many communication systems, also an easier potential integration. A specific FTT implementation on Ethernet, called Flexible Time-Triggered Ethernet Star (FTTRS), has been recently proposed to add mechanisms to tolerate faults in the channel as a means to increase the reliability of the final system. However, it is known that to reach a very high level of system reliability it is crucial to also tolerate faults in the computation nodes. This is so because the computation nodes are usually the most complex components of a DES and, hence, they are less reliable than most of the components that constitute the channel, e.g. the links. This thesis proposes a node replication architecture and appropriate node faulttolerance (FT) mechanisms so as to attain a high level of reliability for critical RT DES. The proposed architecture and FT mechanisms are based on an active node replication strategy with distributed majority voting. The mechanisms are designed on top of FTTRS in order to take advantage of the features that the FTT paradigm and the FTTRS communication subsystem already provide in terms of channel RT flexibility and channel fault tolerance. We start by introducing the concepts, terminology and methodology used to specify, design and test a fault-tolerant system. Special attention has been paid to describing the specific fault-tolerance techniques used in this dissertation. Also, we present the foundations on top of which we develop our node FT mechanisms. In particular we present the FTT communication paradigm and the details of the FTTRS itself. Then, we describe the main contributions of this dissertation. We start by a general description of the overall system. Then, we clarify what types of faults (fault model) we address, and we thoroughly describe and classify all the manners in which these faults may manifest (failure model). Afterwards we focus on describing the proposed FT mechanisms based on both active node replication and FTTRS. Once this description is completed, we propose a realization of the designed FT mechanisms for the specific case of control applications. Moreover, in order to test and verify the correctness of our node replication architecture and FT mechanisms, we present a simulation model as well as a real prototype. We use these simulation model and real prototype to thoroughly inject faults (in terms of all the manners in which faults can manifest according to the failure model) and, then, we inspect if the mechanisms function as intended in both of them. Finally, we build a dependability model to quantify the level of reliability attainable by a DES relying on our node replication architecture and FT mechanisms. By means of the work described in the current dissertation we prove the following thesis statement: “It is possible to attain high levels of reliability of adaptive critical RT DES that rely on a reliable and flexible RT communication subsystem based on an FTT implementation on Ethernet by providing FT mechanisms for the nodes.”


[spa] Los sistemas empotrados distribuidos son sistemas compuestos por un conjunto de nodos interconectados que trabajan para lograr un objetivo común y que forman parte de un sistema mecánico o eléctrico más grande. Los nodos suelen estar interconectados por medio de una red de comunicación. En cuanto a las redes de comunicación, en las últimas décadas Ethernet se ha convertido en una de las tecnologías más populares debido a sus muchas ventajas tales como simplicidad, anchos de banda siempre crecientes y bajo coste, entre otras. Cuando los sistemas empotrados distribuidos forman parte de sistemas más grandes que ejecutan aplicaciones críticas, a menudo existe la necesidad de proporcionar un soporte para requisitos de respuesta en tiempo real y para la consecución de una muy elevada fiabilidad. La tecnología original de Ethernet no proporciona ningún soporte de este tipo. Por lo tanto, en esta disertación usamos el recientemente propuesto subsistema de comunicación que recibe el nombre de Flexible Time-Triggered Replicated Star (FTTRS) como medio para interconectar los nodos de los sistemas empotrados distribuidos que ejecutan aplicaciones críticas. FTTRS toma la tecnología de red Ethernet como base y sobre ella proporciona mecanismos para soportar respuesta en tiempo real y elevada fiabilidad. La respuesta en tiempo real es proporcionada por el uso del paradigma de comunicación Flexible Time-Triggered (FTT) implementado sobre el protocolo Ethernet el cual, además de la provisión de garantías de tiempo real, también proporciona flexibilidad, en concreto, la capacidad de modificar el comportamiento de la red en tiempo de ejecución mientras se mantienen las garantías de tiempo real comprometidas. La elevada fiabilidad en FTTRS se logra mediante mecanismos que toleran los fallos que podrían afectar a la comunicación entre nodos. Sin embargo, proporcionar tolerancia a fallos únicamente al subsistema de comunicación no es suficiente para satisfacer los requisitos de fiabilidad más exigentes de las aplicaciones críticas. Para alcanzar altos niveles de fiabilidad, los fallos en los propios nodos del sistema empotrado distribuido también deben ser tratados. En consecuencia, hemos diseñado varios mecanismos de tolerancia a fallos para tratar los fallos que puedan afectar al correcto funcionamiento de los nodos. Estos mecanismos aprovechan las características del subsistema de comunicación FTTRS y del paradigma de comunicación FTT subyacente. Concluyendo, en esta tesis veremos cómo podemos, con la introducción de mecanismos específicos para tolerar los fallos de los nodos de un sistema empotrado distribuido basado en FTTRS, lograr muy elevados niveles de fiabilidad para el sistema en su conjunto. Además del diseño de los mecanismos de tolerancia a fallos de los nodos, también mostraremos cómo se puede evaluar la fiabilidad resultante y estableceremos cuál es el beneficio obtenido, comparando dicha fiabilidad con la de una versión no tolerante a fallos del mismo sistema.


[cat] Els sistemes encastats distribuïts són sistemes composts per un conjunt de nodes interconnectats que treballen per aconseguir un objectiu comú i que formen part d’un sistema mecànic o elèctric més gran. Els nodes solen estar interconnectats mitjançant una xarxa de comunicació. Quant a les xarxes de comunicació, en les últimes dècades Ethernet s’ha convertit en una de les tecnologies més populars a causa dels seus molts avantatges tals com a simplicitat, amples de banda sempre creixents i baix cost, entre d’altres. Quan els sistemes encastats distribuïts formen part de sistemes més grans que executen aplicacions crítiques, sovint existeix la necessitat de proporcionar un suport per a requisits de resposta en temps real i per a la consecució d’una molt elevada fiabilitat. La tecnologia original d’Ethernet no proporciona cap suport d’aquest tipus. Per tant, en aquesta dissertació usem el recentment proposat subsistema de comunicació que rep el nom de Flexible Time-Triggered Replicated Star (FTTRS) com a mitjà per interconnectar els nodes dels sistemes encastats distribuïts que executen aplicacions crítiques. FTTRS pren la tecnologia de xarxa Ethernet com a base i sobre ella proporciona mecanismes per suportar resposta en temps real i elevada fiabilitat. La resposta en temps real és proporcionada per l’ús del paradigma de comunicació Flexible Time-Triggered (FTT) implementat sobre el protocol Ethernet el qual, a més de la provisió de garanties de temps real, també proporciona flexibilitat, en concret, la capacitat de modificar el comportament de la xarxa en temps d’execució mentre es mantenen les garanties de temps real compromeses. L’elevada fiabilitat en FTTRS s’aconsegueix mitjançant mecanismes que toleren les fallades que podrien afectar a la comunicació entre nodes. En qualsevol cas, proporcionar tolerància a fallades únicament al subsistema de comunicació no és suficient per satisfer els requisits de fiabilitat més exigents de les aplicacions crítiques. Per aconseguir alts nivells de fiabilitat, les fallades en els propis nodes del sistema encastat distribuït també han de ser tractades. En conseqüència, hem dissenyat diversos mecanismes de tolerància a fallades per tractar les fallades que puguin afectar al correcte funcionament dels nodes. Aquests mecanismes aprofiten les característiques del subsistema de comunicació FTTRS i del paradigma de comunicació FTT subjacent. Concloent, en aquesta tesi veurem com podem, amb la introducció de mecanismes específics per tolerar les fallades dels nodes d’un sistema encastat distribuït basat en FTTRS, aconseguir molt elevats nivells de fiabilitat per al sistema en el seu conjunt. A més del disseny dels mecanismes de tolerància a fallades dels nodes, també mostrarem com es pot avaluar la fiabilitat resultant i establirem quin és el benefici obtingut, comparant aquesta fiabilitat amb la d’una versió no tolerant a fallades del mateix sistema.

Palabras clave

Ethernet; Fault tolerance; Hard real-time systems; Adaptive systems;Distributed embedded systems; Dependable systems; Flexible systems; Reliablesystems; Reliability evaluation; Simulation

Materias

004 - Informática; 62 - Ingeniería. Tecnología

Área de conocimiento

Sistemes incrustats distribuïts, informàtica industrial i comunicacions industrials

Documentos

tsd1de1.pdf

4.164Mb

 

Derechos

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

Este ítem aparece en la(s) siguiente(s) colección(ones)