Рефераты. Разработка отказоустойчивой операционной системы реального времени для вычислительных систем с максимальным рангом отказоустойчивости p> 5. Если выводом по очередной записи становится отсутствие отказов по определенным элементам, то это предположение заносится в матрицу состояния ВС путем инкрементирования ячейки, соответствующей элементу ВС, в пользу которого делается это предположение.

6. После обработки всех записей, матрица состояний ВС просматривается на предмет поиска минимального отрицательного значения.

7. Если такое значение есть, то соответствующий элемент признается отказавшим, иначе принимается решение об отсутствии оказов.
Данный алгоритм создан так, что в матрице состояний после его завершения, не окажется больше двух минимальных отрицательных значений, причем эти значения не будут принадлежать одинаковым функциональным элементам (то есть одновременно 2-м ПЭ или 2-м каналам связи). В случае присутствия одинаковых минимальных значений, делается выбор в пользу отказа канала связи.

Проиллюстрируем его на примере ВС, изображенной на рис. 2.7, и отказа
ПЭ5 в этой конфигурации. Обмен для голосования в сети осуществляется следующим образом:

ПЭ1->ПЭ2, ПЭ3;

ПЭ2->ПЭ3, ПЭ5;

ПЭ3->ПЭ5, ПЭ1;

ПЭ5->ПЭ1, ПЭ2.
Обмен результатами голосования для принятия консолидированного решения – по всей ВС. Приведем логику анализа неисправности с точки зрения выбранной эвристики.

Вариант 1: ПЭ5 продолжает функционирование, обмен и голосование, но функциональная задача выполняется неверно. Таким образом, сигналов о неисправности от модулей коммуникации ПЭ сети поступать не будет.

В таблице 2.23 представлены записи от всех ПЭ, расшифрованные в соответствии с выбранной логикой.

Таблица 2.23

|ПЭ№ |Данные |Информация от |Возможная причина |Вывод |
| |голосования|модуля |неисправности | |
| |от ПЭ № |коммуникации |ПЭ № или Линк | |
| | | |№ | |
| |1 |Нет |5 | |
| | | |1-5 | |
|1 |2 |Нет |5 |Неисправен |
| | | |2-5 |ПЭ5 |
| |3 |Нет |Нет неисправности | |
| |5 |Нет |5 | |
| | | |1-5, 3-5 | |
| |1 |Нет |5 | |
| | | |1-5 | |
|2 |2 |Нет |5 |Неисправен |
| | | |2-5 |ПЭ5 |
| |3 |Нет |Нет неисправности | |
| |5 |Нет |5 | |
| | | |1-5, 3-5 | |
| |1 |Нет |5 | |
| | | |1-5 | |
|3 |2 |Нет |5 | Неисправен |
| | | |2-5 |ПЭ5 |
| |3 |Нет |Нет неисправности | |
| |5 |Нет |5 | |
| | | |1-5, 3-5 | |

Составим матрицу состояния ВС, получившуюся у ПЭ1 (см. таблицу 2.24).

Таблица 2.24

|№/№ |1 |2 |3 |5 |
|1 |2 |1 |2 |-1 |
|2 |1 |2 |2 |0 |
|3 |2 |2 |2 |0 |
|5 |-1 |0 |0 |-2 |

Таким образом, делается вывод о неисправности ПЭ5. Аналогичный вывод, судя по таблице 1, делают и ПЭ1 и ПЭ2.

Вариант 2: Наступил фатальный отказ ПЭ5, при котором он прекращает обмен с ВС, либо выдает неинформативные данные.

Таблица 2.25 содержит расшифровку записей всех ПЭ в этом случае.

Таблица 2.25

|ПЭ№ |Данные |Информация от |Возможная причина |Вывод |
| |голосования|модуля |неисправности | |
| |от ПЭ № |коммуникации |ПЭ № или Линк № | |
| |1 |Нет | 1 или 3 или 5 | |
| | | |3-5 или 1-5 | |
|1 |2 |Нет |5 |Неисправен |
| | | |2-5 |ПЭ5 |
| |3 |Тайм-аут или | 3 или 5 | |
| | |КС |3-5 или 1-5 | |
| |5 |Тайм-аут или |5 | |
| | |КС |1-5 | |
| |1 |Нет | 1 или 3 или 5 | |
| | | |3-5 или 1-5 | |
|2 |2 |Нет |5 |Неисправен |
| | | |2-5 |ПЭ5 |
| |3 |Тайм-аут или | 3 или 5 | |
| | |КС |3-5 или 2-5 | |
| |5 |Тайм-аут или |5 | |
| | |КС |2-5 | |
| |1 |Тайм-аут или |1 или 5 3-5 или | |
| | |КС |1-5 | |
|3 |2 |Тайм-аут или |2 или 5 |Неисправен |
| | |КС |3-5 или 2-5 |3-5 |
| |3 |Нет |1 или 2 или 3 или 5 | |
| | | |3-5 или 1-5 или 2-5 | |
| |5 |Тайм-аут или |5 | |
| | |КС |3-5 | |

Таким образом :

. В ПЭ1 оказывается 4 голоса против ПЭ5 и 3 голоса против канала связи 1-5. Решение – отказ ПЭ5.

. В ПЭ2 оказывается 4 голоса против ПЭ5 и 3 голоса против канала связи 2-5. Решение – отказ ПЭ5.

. В ПЭ3 оказывается 4 голоса против ПЭ5 и 4 голоса против канала связи 3-5. Решение – отказ канала связи 3-5.
Ситуация, аналогичная наступившей в ПЭ3, возникает, когда у ПЭ остается лишь один канал связи. После его утраты ПЭ становится изолированным и отключается.

2.6. Оценка надежностных характеристик отказоустойчивой ВС

Выбранная концепция построения специализированной распределенной операционной системы реального времени позволит однородной системе функционировать при возникновении N -1 отказа ПЭ в системе.

Если не учитывать вероятность отключения работоспособных процессорных модулей, то можно провести оптимистическую оценку вероятности отказа всей системы за определенный период функционирования и среднего времени наработки на отказ системы.

Будем предполагать, что поток отказов в каждом узле системы является простейшим, т.е. стационарным, ординарным и без последствия, с показательным законом распределения длины интервала между соседними событиями (отказами):

[pic] (1) где: [pic] - вероятность того, что за время t произойдет ровно “K” событий (отказов);

( - параметр потока, интенсивность потока отказов;

T0 – математическое ожидание длины интервала между соседними событиями – среднее время наработки на отказ;

P0(t) – вероятность того, что за время t не произойдет ни одного события (отказа), вероятность безотказной работы.

Обозначим через [pic]– среднее время наработки на отказ одного узла системы. Для отказоустойчивых систем под состоянием отказа будем понимать состояние фатального отказа, т.е. для ОС-N(m), это состояние, при котором произошел отказ более чем “m” узлов системы (m+1, m+2, …).

В произвольный момент времени t мы можем застать систему в одном из двух состояний:

- работоспособном, с вероятностью R(t),

- в состоянии фатального отказа, с вероятностью P(t).

Если взглянуть на систему с учетом состояний работоспособности каждого из N ее элементов (узлов), то в произвольный момент времени t мы можем застать систему в одном из 2N состояний (см. рис. 2.10).

[pic]

Рис 2.10. Состояния N-узловой системы

Если поставить в соответствие каждому узлу системы разряд двоичного N разрядного числа (0 – узел работает, 1 – узел отказал), то каждому такому состоянию системы можно поставить в соответствие свой номер, равный значению введенного двоичного N разрядного числа и каждому такому состоянию соответствует некоторая вероятность нахождения системы в момент времени t в этом состоянии.

Все 2N состояний системы можно разбить на несколько групп состояний, каждое из которых отличается от других количеством отказавших узлов.
Нулевая группа (группа с номером 0) содержит одно состояние ([pic]= 1), в котором все узлы системы находятся в состоянии работоспособности, т.е. имеется ровно 0 отказавших элементов. Первая группа включает в себя все состояния, в которых отказал ровно один узел (двоичные номера этих состояний содержат лишь одну единицу в N разрядном двоичном коде).
Количество состояний, входящих в первую группу равно [pic]=N – числу сочетаний из N по 1 ([pic]).

Вторую группу составляют состояния, в которых в системе имеется два отказавших элемента, таких состояний ровно [pic] и т.д.

В i-ю группу включаются все состояния, в которых в системе отказало ровно i узлов, таких состояний [pic].

Предпоследняя (N-1) –я группа включает в себя [pic]состояний, т.е. N состояний.

Последняя N-я группа содержит одно состояние ([pic]=1), в котором отказали все N узлов системы.

Т.к. в произвольный момент времени система может находится только в одном из всех 2N состояний, то эти события являются несовместными. Поэтому вероятность нахождения системы в любом из состояний, относящихся к одной из упомянутых выше групп можно получить как сумму вероятностей нахождения системы во всех состояниях данной группы. А если учесть, что внутри каждой i-й группы все состояния характеризуются наличием ровно i отказавших узлов, то вероятности для всех состояний одной группы равны между собой, поэтому:

[pic] (2) где: Pi – вероятность нахождения системы (в произвольный момент времени t) в любом из состояний, отнесенных к i-й группе;

[pic]- вероятность нахождения системы в одном конкретном состоянии, отнесенном к i-й группе.

Все состояния, отнесенные к i-й группе характеризуются наличием в системе (в произвольный момент времени t) ровно i отказавших узлов и ровно
(N-i) исправных узлов.

В соответствии с введенным выше предположением о простейшем потоке отказов (1) вероятность [pic]можно оценить следующим образом:

[pic] (3) где первая скобка соответствует тому, что (N-i) элементов находятся в работоспособном состоянии, а вторая тому, что i элементов отказали.
Подставляя (3) в (2) можно получить выражение для вычисления вероятностей
Pi.

Очевидно, что для системы ОС-N(m) (N узловой системы с рангом отказоустойчивости m) все состояния системы, входящие в группы 0,1,2,…m относятся к тем состояниям, в которых система нормально функционирует. В этой связи вероятность R(t) можно оценить следующим образом:

[pic] (4)

Вероятность фатального отказа системы ОС – N(m) можно оценить как сумму вероятностей нахождения системы в состояниях, отнесенных к группам m+1, m+2, … N-1, N:

[pic] (5)

Критерием правильности предложенной методики является выполнение условия R(t)+P(t)=1 для любых систем и любых значений t.

Объединяя выражения (2) (3) (4) и (5), получим окончательные формулы для вычисления вероятностей безотказной работы – RN(m)(t) и фатального отказа –PN(m)(t) систем ОС-N(m) для произвольного момента времени t:

[pic] (6)

Для практических расчетов целесообразно использовать одну из этих формул, а именно ту, у которой (в зависимости от значений N и m) меньше суммируемых членов, т.е. при [pic] целесообразно использовать формулу
PN(m)(t) в противном случае – формулу RN(m)(t). При этом второй параметр получается из соотношения RN(m)(t)+PN(m)(t)=1.

Таким образом для систем типа N(N-1) выражения (6) принимают вид:

[pic] (6а)

Рассмотрим теперь определение среднего времени наработки на отказ
T0N(m) отказоустойчивых систем ОС-N(m).

Невосстанавливаемая N-узловая отказоустойчивая система m-го ранга (ОС-
N(m)) может быть представлена марковской моделью с количеством состояний
(N+1):

[pic] где: 0 – состояние, в котором ни один узел системы не отказал;

1 – состояние (объединяющее группу из [pic] состояний системы – см. рис. 2.4), в котором отказал ровно 1 узел;

2 – состояние (объединяющее группу из [pic] состояний системы), в котором отказали ровно 2 узла; m – состояние (объединяющее группу из [pic] состояний системы), в котором отказало ровно m узлов и т.д.

Переход из одного состояния в другое (по мере постепенной деградации системы) определяется интенсивностью потока отказов, воздействующих на систему, находящуюся в соответствующем состоянии. Интенсивность потока отказов, воздействующих на систему, находящуюся в i-м состоянии, определяется количеством работоспособных узлов (N-i). Т.о. среднее время нахождения системы в i-м состоянии определяется следующим образом:

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.