Например, Бобцов

НАДЕЖНОСТЬ ДУБЛИРОВАННЫХ ВЫЧИСЛИТЕЛЬНЫХ КОМПЛЕКСОВ

НАДЕЖНОСТЬ ДУБЛИРОВАННЫХ ВЫЧИСЛИТЕЛЬНЫХ КОМПЛЕКСОВ
УДК 681.3
НАДЕЖНОСТЬ ДУБЛИРОВАННЫХ ВЫЧИСЛИТЕЛЬНЫХ КОМПЛЕКСОВ
В.А. Богатырев, С.А. Башкова, В.Ф. Беззубов, А.В. Полякова, Е.Ю. Котельникова, И.Ю. Голубев
Предложена марковская модель надежности восстанавливаемого дублированного вычислительного комплекса, функционирующего в режиме разделения нагрузки, оценены коэффициент сохранения эффективности, стационарный и нестационарный коэффициенты готовности. Ключевые слова: отказоустойчивость, дублированный комплекс, разделение нагрузки, надежность, коэффициент сохранения эффективности.
Введение
Обеспечение высокой надежности управляющих компьютерных систем требует введения избыточности [1–3], поэтому в таких системах в качестве базовых вычислительных средств используются дублированные вычислительные комплексы, зачастую объединяемые в кластеры [4–9]. В системах компьютерного управления дублированные комплексы функционируют либо в режиме параллельной работы, (каждый запрос направляется на обслуживание в два полукомплекса, результаты вычислений сравниваются), что повышает достоверность работы, либо в режиме разделения нагрузки, что позволяет повысить производительность, но может привести к потере результатов вычислений.
Структура дублированного комплекса
Рассмотрим дублированный (двухмашинный) комплекс (рис. 1), каждый из полукомплексов которого включает процессор (Р) и модуль памяти (М), реконфигурация системы осуществляется с использованием переключателя (S). В режиме разделения нагрузки по мере накопления отказов при реконфигурации возможен переход (деградация) от распределения запросов на обслуживание в два полукомплекса до их обслуживания одним полукомплексом, возможно, формируемым из исправного оборудования разных полукомплексов.
Рис. 1. Дублированный комплекс
Марковская модель надежности дублированного комплекса
При построении марковской модели надежности восстанавливаемого комплекса в режиме разделения нагрузки будем считать, что известны интенсивности отказов λp , λm , λs и восстановлений μp , μm , μs процессоров Р, памяти М и переключателя S, причем восстановление проводится одним ремонтником после любого отказа.
Граф переходов для марковской модели надежности исследуемой системы приведен на рис. 2, на котором отказавшие узлы затемнены. Решение дифференциальных уравнений, составленных по графу переходов по рис. 2, позволяет найти вероятности всех состояний комплекса и в результате суммирования работоспособных состояний определить нестационарный коэффициент готовности (функцию готовности) комплекса [1]. Решение системы дифференциальных уравнений проведено в системе компьютерной математики Mathcad-14 по методу Рунге-Кута. Представление системы дифференциальных уравнений в Mathcad-14 по графу рис. 2 приведено на рис. 3, а результат ее решения отражен на рис. 4, а. Для нахождения стационарного коэффициента готовности комплекса составим систему алгебраических уравнений (приравнивая производные в правой части нулю). Результаты решения системы алгебраических уравнений представлены матрицей на рис. 4, б, при λp=0,0001, λm=0,0003, λs=0,0002 1/ч; μp=0,5, μm=0,5, μs=0,5 1/ч. Сумммируя найденные вероятности работоспособных состояний, вычисляем коэффициент готовности (стационарный) комплекса.
76 Научно-технический вестник Санкт-Петербургского государственного университета
информационных технологий, механики и оптики, 2011, № 6 (76)

В.А. Богатырев, С.А. Башкова, В.Ф. Беззубов и др.

Рис. 2. Граф переходов для марковской модели надежности системы

1 

 

0

 

0

 

0

 

0 

0

 

0

 

0

 

0

 

0

P

:

 

0

 

0



0

 

0

 

0

 

0

 

0

 

0

 

0



0

 P0s  2P0 p  2P0m  P1s  P2 p  P3m 

 

2P1 p  2P1m  P1s  P0s  P4 p  P5m

 

 

P2 p  P2 p  2(P2m )  2Ps  2P0 p  P9 p

 

 

P3m  P3m  2(P3 p )  P3s  2P0m  P6 p  P7 p  P8m

 

 P4 p  P4 p  2P4m  2P1 p  P2s  P12 p   P5m  P5m  2P5 p  2P1m  P3s  P10 p  P11m  P13 p 

 

P6 p  P6 p  P6s  P6m  P2m  P3 p  P14m  P15 p

 

 

P7 p  P7 p  P7s  P7m  P2m  P3 p

 

 

P8m  P8s  P8 p  P3m

 

 D(t, P) : 


P9 p  P9s  P9m  P2 p P10 p  P10 p  P10m  P4m  P5 p  P7s

  

 

P11m  P11 p  P5m  P8s  0

 

 

P12 p  P12m  P4 p  P9s

 

P13 p  P13m  P13 p  P4m  P5 p  P6s  P16m  P17 p 

 

P14m  P14 p  P14s  P6m  P7m  P8 p  P18 p

 

 

P15 p  P15m  P15s  P6 p  P7 p  P9m

 

 

P16m  P16 p  P10m  P11 p  P13m  P14s  P19 p

 

 P17 p  P17m  P10 p  P12m  P13 p  P15s 

 

P18 p  P18s  P14 p  P15m

 

 

P19 p  P16 p  P17m  P18s

 

Z : rkfixed(P, 0,100,1000, D)

n : 0...1000

Рис. 3. Задание системы дифференциальных уравнений в Mathcad-14

Оценка коэффициента сохранение эффективности
Представляя каждый полукомплекс системой массового обслуживания типа М/М/1 [10], для работоспособных состояний системы найдем среднее время пребывания запросов.
Для исходного состояния (при отсутствии отказов) поток запросов распределяется на обслуживание в два полукомплекса и среднее время пребывания запросов в системе вычисляется как

Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики, 2011, № 6 (76)

77

НАДЕЖНОСТЬ ДУБЛИРОВАННЫХ ВЫЧИСЛИТЕЛЬНЫХ КОМПЛЕКСОВ

Т0

 1 

, 2

где λ – интенсивность потока запросов, а v – среднее время их выполнения. Для состояний с обслуживанием запросов в одном полукомплексе (например, при отказе
процессора какого-либо полукомплекса) среднее время пребываний запросов равно

Т1



 1 

.

Zn,1+ Zn,2+ Zn,3+ Zn,4+ Zn,8+ Zn,14+ Zn,7+ Zn,5+ Zn,6

1 0,9999999

0,9999998 0,9999997

0,9999996

0,9999995 0

5 10 15 Время, ч

20

аб

Рис. 4. Результат решения системы дифференциальных (а) и алгебраических уравнений (б) в системе компьютерной математики Mathcad-14

Для состояний с отказом модуля памяти одного полукомплекса и работы двух процессоров с одним модулем памяти (подключенным к одному процессору непосредственно через магистраль, а ко второму – через переключатель) среднее время пребывания запросов найдем как

Тз



 1 



(1 ) 1 (1 )

,

где π – доля запросов, направляемых в полукомплекс с исправным процессором и памятью, а (1– π) – в

полукомплекс с отказом модуля памяти; δ – коэффициент, учитывающий замедление вычислений для

процессора, работающего с памятью через переключатель (процессор, работающий с памятью своего

полукомплекса, имеет больший приоритет).

Определив вероятности Рi всех N работоспособных состояний системы и вычислив нормированную эффективность i-го состояния относительно исходного состояния (без отказов), найдем коэффициент сохранения эффективности комплекса как

kсэ



N i0

T0 Ti

Pi

.

Проведем расчет коэффициента сохранения эффективности при λp=0,0001, λm=0,0003, λs=0,0002 1/ч; μp=0,5, μm=0,5, μs=0,5 1/ч. Результаты расчета коэффициента сохранения эффективности системы от интенсивности запросов представлены на рис. 5. На рис. 5, а, при π=0,5 кривые 1–3 соответ-

ствуют δ=1; 1,5; 2. На рис. 5, б, при δ=2 кривые 1–4 соответствуют π=0,5; 0,6; 0,7; 0,8.

78 Научно-технический вестник Санкт-Петербургского государственного университета
информационных технологий, механики и оптики, 2011, № 6 (76)

В.А. Богатырев, С.А. Башкова, В.Ф. Беззубов и др.

аб Рис. 5. Коэффициент сохранения эффективности системы: кривые 1–3 соответствуют δ=1; 1,5; 2 при π=0,5 (а); кривые 1–4 соответствуют π=0,5; 0,6; 0,7; 0,8
при δ=2 (б)
Представленные зависимости показывают существенность влияния организации связи через адаптер (переключатель) на эффективность вычислительного процесса при накоплении отказов. Таким образом, для восстанавливаемых дублированных комплексов представляется целесообразным исследование вариантов организации межмашинной взаимосвязи и их влияния на отказоустойчивость вычислительного процесса.
Заключение
Таким образом, предложена марковская модель надежности восстанавливаемого дублированного вычислительного комплекса, позволяющая определить стационарный и нестационарный коэффициент готовности комплекса и оценить влияние накопления отказов на снижение эффективности системы.
Для восстанавливаемых дублированных комплексов показано влияние на эффективность вычислительного процесса распределения нагрузки при накоплении отказов. Таким образом, представляется целесообразным исследование вариантов организации межмашинной взаимосвязи и их влияния на отказоустойчивость вычислительного процесса, а также решение задачи оптимизации распределения нагрузки в частично работоспособных комплексах.
Литература
1. Половко А.М. Основы теории надежности. – СПб: БХВ Петербург, 2006. – 704 с. 2. Панфилов И.В., Половко А.М. Вычислительные системы. – М.: Советское радио, 1980. – 304 с. 3. Шубинский И.Б., Николаев В.И., Колганов С.К., Заяц А.М. Активная защита от отказов управляющих
модульных вычислительных систем. – СПб: Наука, 1993. – 285 с. 4. Богатырев В.А. Отказоустойчивые многомашинные вычислительные системы динамического распре-
деления запросов при дублировании функциональных ресурсов // Изв. вузов. Приборостроение. – 1996. – № 4. – С. 81–84. 5. Богатырев В.А., Богатырев С.В. Анализ готовности многоуровневой коммуникационной подсистемы компьютерных систем кластерной архитектуры // Научно-технический вестник СПбГУ ИТМО. – 2009. – № 1. – С. 88–94. 6. Богатырев В.А. Оптимальное резервирование системы разнородных серверов // Приборы и системы. Управление, контроль, диагностика. – 2007. – № 12. – С. 30–36. 7. Богатырев В.А. К анализу сохранения эффективности вычислительных систем с функциональной деградацией модулей // Приборы и системы. Управление, контроль, диагностика. – 2000. – № 12. – С. 68–70. 8. Богатырев В.А. Отказоустойчивость вычислительных систем с функциональной реконфигурацией // Приборы и системы. Управление, контроль, диагностика. – 2001. – № 11. – С. 51–53. 9. Богатырев В.А. Оценка вероятности безотказной работы функционально-распределенных вычислительных систем при иерархической структуре узлов // Изв. вузов. Приборостроение. – 2000. – № 3. – С. 67–70. 10. Клейнрок Л. Теория массового обслуживания. – М.: Машиностроение, 1979. – 432 с.

Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики, 2011, № 6 (76)

79

БЫСТРЫЙ ПОСЛЕДОВАТЕЛЬНЫЙ ЦЕЛОЧИСЛЕННЫЙ ДЕЛИТЕЛЬ ПО ОСНОВАНИЮ 4

Богатырев Владимир Анатольевич Башкова Светлана Андреевна Беззубов Владимир Федорович Полякова Анастасия Вячеславовна Котельникова Елена Юрьевна Голубев Иван Юрьевич

– Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, доктор технических наук, профессор, Vladimir.bogatyrev@gmail.com
– Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, студентка,
sveta.bashkova@gmail.com – Санкт-Петербургский национальный исследовательский университет
информационных технологий, механики и оптики, аспирант, bezzubov-
vf@yandex.ru – Санкт-Петербургский национальный исследовательский университет
информационных технологий, механики и оптики, студент,
axel.denielt@gmail.com – Санкт-Петербургский национальный исследовательский университет
информационных технологий, механики и оптики, аспирант,
elka842@yandex.ru – Санкт-Петербургский национальный исследовательский университет
информационных технологий, механики и оптики, аспирант,
golubev@mail.ru

80 Научно-технический вестник Санкт-Петербургского государственного университета
информационных технологий, механики и оптики, 2011, № 6 (76)