Банк Рефератов - Разработка отказоустойчивой операционной системы реального времени для вычислительных систем с максимальным рангом отказоустойчивости

Рефераты. Разработка отказоустойчивой операционной системы реального времени для вычислительных систем с максимальным рангом отказоустойчивости p> Основные трудности связаны с ошибочными измерениями или неверным результатом ФЗ при вызывающей сбой комбинации входных данных. Применение методов устойчивого оценивания к решению этой проблемы поможет избежать потерь времени на повторные измерения и расчет ФЗ, а также поможет внести определенность при несогласованности данных в процессе голосования.
2. Усовершенствование подсистемы сбора и анализа отказов для диагностирования множественных отказов на одном такте работы системы.

Однако, следует учесть, что обнаружение большего числа отказов требует пропорциональное увеличение числа обменов между модулями голосования, а также числа процессорных элементов, участвующих при голосовании.
3. Расширить возможности самодиагностирования ПЭ подсистемой промежуточных тестов ввода-вывода, тестом таймеров и др.
4. Предусмотреть возможности резервирования ФЗ или отдельных ее частей для программного обнаружения отказа, локализации и передачи управления дублирующему фрагменту ФЗ.

Представленный в работе материал является попыткой систематизировать и реализовать основные принципы разработки системного программного обеспечения для отказоустойчивых вычислительных систем. Частично или полностью, эти принципы реализуются разработчиками ОСРВ для обеспечения отказоустойчивости сетевых приложений. Дальнейшее развитие реализованных в представленной работе принципов в еще более сложные системы позволит решать еще более широкий круг задач в рамках обеспечения надежности вычислительных систем.

Заключение

В рамках решения поставленной задачи, по результатам аналитических исследований, были выделены основные свойства и механизмы распределенных операционных систем реального времени, необходимых для работы критически важных приложений. Это:
. Время реакции системы;
. Время переключения контекста;
. Наличие средств диспетчеризации;
. Наличие средств синхронизации, межзадачного и межпроцессорного взаимодействия;

Однако требования, предъявляемые к надежности вычислительных систем, таковы, что этих средств зачастую оказывается недостаточно. В ходе аналитической работы, была доказана необходимость и описана структура таких встроенных механизмов обеспечения отказоустойчивости ОСРВ, как:
. Средства маршрутизации пакетов данных в сети ПЭ;
. Средства высокоуровневого межпроцессорного обмена;
. Протокол голосования, анализа отказов в ВС, и принятия консолидированного решения;
. Средства реконфигурации ВС.

В ходе дальнейших исследований, был рассмотрен пример организации отказоустойчивых вычислений, и на основе логики принятия консолидированного решения, предложен эвристический алгоритм анализа результатов голосования узлов (ПЭ) ВС и средств диагностики.

Далее была предложена вероятностная модель отказоустойчивой ВС, рассчитаны ее надежностные характеристики, показавшие увеличение среднего времени наработки ВС на отказ в 2,5 – 3,5 раз с расширением ВС до 5-7 узлов, даны рекомендации по выбору типа ВС при ее проектировании.

В ходе практической реализации свойств отказоустойчивости, была создана программная модель, имитирующая многопроцессорную ВС, управляемую распределенной ОСРВ. Структура ПО модели включает в себя ПО узла ВС и ПО системы контроля и диалога с пользователем. Модель позволила отработать логику организации отказоустойчивых вычислений и проверить ее в различных ситуациях.

Реализация модели позволила выделить ключевые особенности системного
ПО, характерного для организации отказоустойчивых вычислений в целом:

. Наличие глобального системного цикла, задаваемого организацией внешних устройств или объекта управления.

. Использование механизмов межзадачного взаимодействия (семафоры, события, мьютексы) для организации циклов и передачи управления и диспетчеризации процессов.

. Прямая работа с таймерами. Программирование таймеров производится на низком уровне (функциями операционной системы), это требование диктуется рамками жесткого реального времени - необходимости четкого удержания системного цикла.

. Использование сторожевых таймеров во всех активных модулях ПО, для предотвращения зависания вычислительного процесса и межпроцессорного обмена.

. Наличие иерархической структуры функций межпроцессорного обмена, опирающихся на драйвера базовой операционной системы.

. Наличие в системном ПО различного рода контейнерных классов, а именно: массивов, очередей, списков которые активно используются для хранения и передачи системной информации, диспетчеризации событий или сообщений.

Даны рекомендации по портированию системного ПО на платфртму
TMS320C30. Выбор платформы осуществлялся по таким критериям, как: наличие широкого спектра совместимых базовых ОСРВ, оптимизация микропроцессора под задачи управления, тактовая частота микропроцессора, объем оперативной памяти, наличие сред разработки и отладки и т.д. Реализованы аппаратно- зависимые модули ПО в части процедур самодиагностики процессора и памяти.

В заключение, перечислены основные перспективы наращивания возможностей системного ПО и усложнения принципов его работы.

Дальнейшее развитие реализованных в представленной работе принципов в еще более сложные системы позволит решать еще более широкий круг задач в рамках обеспечения надежности вычислительных систем.

Технологическая часть

6.Технологическая часть

Данная глава посвящена технологии разработки программного обепечения модели отказоустойчивой распределенной вычислительной системы и переносу
(портированию) основных модулей отказоустойчивой ОСРВ на платформу
TMS320C30.

Программное обеспечение модели ВС состоит из двух частей, разработанных для функционирования на базе персонального компьютера с процессором Pentium-100 и выше с операционной системой Windows 98 и выше.
Первая часть предназначена для генерации системных файлов процессорных элементов ВС на основе заданной топологии, запуска модели ВС, имитации объекта управления и генерации системной информации о сбоях ВС. Вторая часть предназначена для моделирования узла ВС.

Программное обеспечение, переносимое на платформу TMS320C30, на данном этапе состоит из набора функций, которые являются надстройкой над базовой ОСРВ.

6.1. Системные исследования

В ходе системных исследований проводился анализ системы, в которой будет использоваться разрабатываемая ОСРВ, и были выделены основные надстройки над базовой ОСРВ для поддержания свойств системы в процессе ее работы.

Общая структура системы, моделируемая разрабатываемым программным продуктом, представлена на рис. 6.1.

Таким образом, программное обеспечение модели системы разбивается на две части. Первая – это ПО, в задачи которой входит: моделирование объекта управления (обмен информацией с ВС), инициализация ВС на основе заданной топологической информации, моделирование сбоев и отказов элементов ВС для отладки модулей обеспечения отказоустойчивости ВС.

[pic]

Рис. 6.1. Структура ВС

Вторая часть служит для моделирования ПЭ системы и предназначена для отработки алгоритмов обеспечения отказоустойчивости в процессе непрерывного функционирования ВС.

Анализ требований к функционированию ВС предопределил структуру распределенной операционной системы ВС, которая состоит из идентичных операционных систем узлов сети, отличных друг от друга лишь своим номером и содержанием системных таблиц, обусловленных размещением узла в сети ПЭ.
Структура распределенной ОС представлена на рис. 6.2.

[pic]Рис. 6.2. Структура распределенной ОС

Задачей ПО является обеспечение обмена между объектом управления и ПЭ, обмена функциональной и системной информацией внутри ВС, выполнение функциональной задачи согласно информации от объекта управления, реакции на сбои и отказы в системе, выявление и локализации отказавших участков ВС консолидированным решением рабочей конфигурацией сети, реконфигурация системы в реальном времени в соответствии с принятым решением.

Платформа TMS320C30, для реализации выбранной концепции построения
ОСРВ, была выбрана, исходя из аппаратных характеристик, наличия большого класса базовых ОСРВ, совместимых с данной платформой, удобных средств разработки и отладки.

6.2. Разработка спецификации
Разработка спецификации служит для более четкой формализации требований к программному обеспечению, полученных на этапе системных исследований.

6.2.1. Требования к ПО управляющей части

Программное обеспечение служит для инициализации работы ВС, имитации объекта управления, демонстрации работы ВС в условиях возникновения отказов и должно состоять из модулей, обеспечивающих:
1. Анализ топологии моделируемой ВС:

. ввод и считывание модифицированной матрицы связности ВС;

. создание файлов инициализации для узлов ВС на основе топологической информации.
2. Запуск системы;
3. Обмен функциональной информацией с ВС:

. выдача информации для обработки ВС на очередном цикле;

. прием обработанной информации от ВС на очередном цикле.
4. Моделирование отказов и сбоев компонент ВС:

. формирование сигнала на полный отказ определенного канала связи ПЭ

(прекращение функционирования);

. формирование сигнала на сбой определенного канала связи ПЭ

(искажение информации при передаче);

. формирование сигнала на полный отказ ПЭ (прекращение функционирования, “зависание”);

. формирование сигнала на сбой ПЭ (неверный расчет функциональной задачи).

6.2.2. Требования к ПО узлов сети

В распределенной операционной системе организация программного обеспечения следующая. Каждый модуль содержит копию ОС, которая спроектировано так, чтобы обеспечить стандартный интерфейс с другими модулями в системе. Прикладное программное обеспечение распределенной ОС выступает как набор параллельно взаимодействующих процессов, а ОС узла обеспечивает высокоуровневую структуру для обслуживания межпроцессорных связей, а также содержит процедуры диагностики и локализации отказов, реконфигурации и замены отказавшего элемента.

Таким образом, ПО узла должно обеспечивать:
1. Определение статических маршрутов передачи информации в ВС, исходя из текущей топологии ВС;
2. Расчет функциональной задачи на очередном цикле;
3. Обмен функциональной и системной информацией внутри ВС:

. прием и передача функциональной информации после завершения расчета функциональной задачей;

. прием и передача информации о результатах элементарных проверок функциональной информации;

. прием и передача информации о результатах голосования

(консолидированного решения).

. прием и передача информации инициализации при замене отказавшего элемента;

. обеспечение транзитной передачи информации при отказе канала связи.
4. Сравнение поступающей функциональной информации (элементарная проверка) и формирование промежуточного решения о состоянии системы.
5. Голосование и принятие консолидированного решения о наличии (отсутствия) отказов в системе.
6. Реконфигурацию ВС в соответствии с результатами голосования.
7. Синхронизацию работы ВС.
8. Обмен информацией с объектом управления:

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14