dc.contributor
Universitat de les Illes Balears. Doctorat en Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Derasevic, Sinisa
dc.date.accessioned
2019-03-18T10:29:43Z
dc.date.available
2019-03-18T10:29:43Z
dc.date.issued
2018-12-04
dc.identifier.uri
http://hdl.handle.net/10803/666276
dc.description.abstract
[eng] When Distributed Embedded Systems (DESs) operate in evolving environments,
changing requirements might be imposed on the system, and thus the system
needs the ability to adapt to them. Furthermore, when such systems are
employed for real-time (RT) critical applications, both support for satisfying stringent RT guarantees and attaining a high level of reliability must be provided.
The Flexible Time-Triggered (FTT) communication paradigm provides support
for changing real-time traffic requirements in adaptive RT DESs, i.e., it provides
RT flexibility. The different implementations of FTT on Ethernet have recently
added to FTT advantages of Ethernet such as high bandwidth, low cost and, since
Ethernet is the de facto Link Layer standard of many communication systems,
also an easier potential integration.
A specific FTT implementation on Ethernet, called Flexible Time-Triggered
Ethernet Star (FTTRS), has been recently proposed to add mechanisms to
tolerate faults in the channel as a means to increase the reliability of the final
system. However, it is known that to reach a very high level of system reliability it
is crucial to also tolerate faults in the computation nodes. This is so because the
computation nodes are usually the most complex components of a DES and,
hence, they are less reliable than most of the components that constitute the
channel, e.g. the links.
This thesis proposes a node replication architecture and appropriate node faulttolerance
(FT) mechanisms so as to attain a high level of reliability for critical RT
DES. The proposed architecture and FT mechanisms are based on an active node
replication strategy with distributed majority voting. The mechanisms are
designed on top of FTTRS in order to take advantage of the features that the FTT
paradigm and the FTTRS communication subsystem already provide in terms of
channel RT flexibility and channel fault tolerance.
We start by introducing the concepts, terminology and methodology used to
specify, design and test a fault-tolerant system. Special attention has been paid to
describing the specific fault-tolerance techniques used in this dissertation. Also,
we present the foundations on top of which we develop our node FT mechanisms.
In particular we present the FTT communication paradigm and the details of the
FTTRS itself.
Then, we describe the main contributions of this dissertation. We start by a
general description of the overall system. Then, we clarify what types of faults
(fault model) we address, and we thoroughly describe and classify all the
manners in which these faults may manifest (failure model). Afterwards we focus
on describing the proposed FT mechanisms based on both active node replication and FTTRS. Once this description is completed, we propose a realization of the
designed FT mechanisms for the specific case of control applications.
Moreover, in order to test and verify the correctness of our node replication
architecture and FT mechanisms, we present a simulation model as well as a real
prototype. We use these simulation model and real prototype to thoroughly inject
faults (in terms of all the manners in which faults can manifest according to the
failure model) and, then, we inspect if the mechanisms function as intended in
both of them. Finally, we build a dependability model to quantify the level of
reliability attainable by a DES relying on our node replication architecture and FT
mechanisms.
By means of the work described in the current dissertation we prove the
following thesis statement:
“It is possible to attain high levels of reliability of adaptive critical RT DES that
rely on a reliable and flexible RT communication subsystem based on an FTT
implementation on Ethernet by providing FT mechanisms for the nodes.”
dc.description.abstract
[spa] Los sistemas empotrados distribuidos son sistemas compuestos por un conjunto
de nodos interconectados que trabajan para lograr un objetivo común y que forman
parte de un sistema mecánico o eléctrico más grande. Los nodos suelen estar interconectados
por medio de una red de comunicación.
En cuanto a las redes de comunicación, en las últimas décadas Ethernet se ha
convertido en una de las tecnologías más populares debido a sus muchas ventajas
tales como simplicidad, anchos de banda siempre crecientes y bajo coste, entre otras.
Cuando los sistemas empotrados distribuidos forman parte de sistemas más
grandes que ejecutan aplicaciones críticas, a menudo existe la necesidad de proporcionar
un soporte para requisitos de respuesta en tiempo real y para la consecución
de una muy elevada fiabilidad. La tecnología original de Ethernet no proporciona
ningún soporte de este tipo.
Por lo tanto, en esta disertación usamos el recientemente propuesto subsistema
de comunicación que recibe el nombre de Flexible Time-Triggered Replicated Star (FTTRS)
como medio para interconectar los nodos de los sistemas empotrados distribuidos
que ejecutan aplicaciones críticas. FTTRS toma la tecnología de red Ethernet
como base y sobre ella proporciona mecanismos para soportar respuesta en tiempo
real y elevada fiabilidad. La respuesta en tiempo real es proporcionada por el uso
del paradigma de comunicación Flexible Time-Triggered (FTT) implementado sobre
el protocolo Ethernet el cual, además de la provisión de garantías de tiempo real,
también proporciona flexibilidad, en concreto, la capacidad de modificar el comportamiento
de la red en tiempo de ejecución mientras se mantienen las garantías
de tiempo real comprometidas. La elevada fiabilidad en FTTRS se logra mediante
mecanismos que toleran los fallos que podrían afectar a la comunicación entre nodos.
Sin embargo, proporcionar tolerancia a fallos únicamente al subsistema de comunicación
no es suficiente para satisfacer los requisitos de fiabilidad más exigentes
de las aplicaciones críticas. Para alcanzar altos niveles de fiabilidad, los fallos en los
propios nodos del sistema empotrado distribuido también deben ser tratados.
En consecuencia, hemos diseñado varios mecanismos de tolerancia a fallos para
tratar los fallos que puedan afectar al correcto funcionamiento de los nodos. Estos
mecanismos aprovechan las características del subsistema de comunicación FTTRS
y del paradigma de comunicación FTT subyacente.
Concluyendo, en esta tesis veremos cómo podemos, con la introducción de mecanismos
específicos para tolerar los fallos de los nodos de un sistema empotrado distribuido
basado en FTTRS, lograr muy elevados niveles de fiabilidad para el sistema
en su conjunto. Además del diseño de los mecanismos de tolerancia a fallos de los
nodos, también mostraremos cómo se puede evaluar la fiabilidad resultante y estableceremos
cuál es el beneficio obtenido, comparando dicha fiabilidad con la de
una versión no tolerante a fallos del mismo sistema.
dc.description.abstract
[cat] Els sistemes encastats distribuïts són sistemes composts per un conjunt de nodes
interconnectats que treballen per aconseguir un objectiu comú i que formen part
d’un sistema mecànic o elèctric més gran. Els nodes solen estar interconnectats mitjançant
una xarxa de comunicació.
Quant a les xarxes de comunicació, en les últimes dècades Ethernet s’ha convertit
en una de les tecnologies més populars a causa dels seus molts avantatges tals com
a simplicitat, amples de banda sempre creixents i baix cost, entre d’altres.
Quan els sistemes encastats distribuïts formen part de sistemes més grans que executen
aplicacions crítiques, sovint existeix la necessitat de proporcionar un suport
per a requisits de resposta en temps real i per a la consecució d’una molt elevada fiabilitat.
La tecnologia original d’Ethernet no proporciona cap suport d’aquest tipus.
Per tant, en aquesta dissertació usem el recentment proposat subsistema de comunicació
que rep el nom de Flexible Time-Triggered Replicated Star (FTTRS) com a
mitjà per interconnectar els nodes dels sistemes encastats distribuïts que executen
aplicacions crítiques. FTTRS pren la tecnologia de xarxa Ethernet com a base i sobre
ella proporciona mecanismes per suportar resposta en temps real i elevada fiabilitat.
La resposta en temps real és proporcionada per l’ús del paradigma de comunicació
Flexible Time-Triggered (FTT) implementat sobre el protocol Ethernet el qual, a més
de la provisió de garanties de temps real, també proporciona flexibilitat, en concret,
la capacitat de modificar el comportament de la xarxa en temps d’execució mentre
es mantenen les garanties de temps real compromeses. L’elevada fiabilitat en FTTRS
s’aconsegueix mitjançant mecanismes que toleren les fallades que podrien afectar a
la comunicació entre nodes.
En qualsevol cas, proporcionar tolerància a fallades únicament al subsistema de
comunicació no és suficient per satisfer els requisits de fiabilitat més exigents de
les aplicacions crítiques. Per aconseguir alts nivells de fiabilitat, les fallades en els
propis nodes del sistema encastat distribuït també han de ser tractades.
En conseqüència, hem dissenyat diversos mecanismes de tolerància a fallades
per tractar les fallades que puguin afectar al correcte funcionament dels nodes. Aquests
mecanismes aprofiten les característiques del subsistema de comunicació FTTRS
i del paradigma de comunicació FTT subjacent.
Concloent, en aquesta tesi veurem com podem, amb la introducció de mecanismes
específics per tolerar les fallades dels nodes d’un sistema encastat distribuït
basat en FTTRS, aconseguir molt elevats nivells de fiabilitat per al sistema en el seu
conjunt. A més del disseny dels mecanismes de tolerància a fallades dels nodes,
també mostrarem com es pot avaluar la fiabilitat resultant i establirem quin és el
benefici obtingut, comparant aquesta fiabilitat amb la d’una versió no tolerant a fallades
del mateix sistema.
dc.format.mimetype
application/pdf
dc.publisher
Universitat de les Illes Balears
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Ethernet; Fault tolerance; Hard real-time systems; Adaptive systems;Distributed embedded systems; Dependable systems; Flexible systems; Reliablesystems; Reliability evaluation; Simulation
dc.subject.other
Sistemes incrustats distribuïts, informàtica industrial i comunicacions industrials
dc.title
Node fault tolerance for distributed embedded systems based on FTT-Ethernet
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.director
Barranco, Manuel
dc.contributor.director
Proenza, Julián
dc.contributor.tutor
Barranco, Manuel
dc.rights.accessLevel
info:eu-repo/semantics/openAccess