НАДЕЖНОСТЬ ДУБЛИРОВАННЫХ ВЫЧИСЛИТЕЛЬНЫХ КОМПЛЕКСОВ
НАДЕЖНОСТЬ ДУБЛИРОВАННЫХ ВЫЧИСЛИТЕЛЬНЫХ КОМПЛЕКСОВ
УДК 681.3
НАДЕЖНОСТЬ ДУБЛИРОВАННЫХ ВЫЧИСЛИТЕЛЬНЫХ КОМПЛЕКСОВ
В.А. Богатырев, С.А. Башкова, В.Ф. Беззубов, А.В. Полякова, Е.Ю. Котельникова, И.Ю. Голубев
Предложена марковская модель надежности восстанавливаемого дублированного вычислительного комплекса, функционирующего в режиме разделения нагрузки, оценены коэффициент сохранения эффективности, стационарный и нестационарный коэффициенты готовности. Ключевые слова: отказоустойчивость, дублированный комплекс, разделение нагрузки, надежность, коэффициент сохранения эффективности.
Введение
Обеспечение высокой надежности управляющих компьютерных систем требует введения избыточности [1–3], поэтому в таких системах в качестве базовых вычислительных средств используются дублированные вычислительные комплексы, зачастую объединяемые в кластеры [4–9]. В системах компьютерного управления дублированные комплексы функционируют либо в режиме параллельной работы, (каждый запрос направляется на обслуживание в два полукомплекса, результаты вычислений сравниваются), что повышает достоверность работы, либо в режиме разделения нагрузки, что позволяет повысить производительность, но может привести к потере результатов вычислений.
Структура дублированного комплекса
Рассмотрим дублированный (двухмашинный) комплекс (рис. 1), каждый из полукомплексов которого включает процессор (Р) и модуль памяти (М), реконфигурация системы осуществляется с использованием переключателя (S). В режиме разделения нагрузки по мере накопления отказов при реконфигурации возможен переход (деградация) от распределения запросов на обслуживание в два полукомплекса до их обслуживания одним полукомплексом, возможно, формируемым из исправного оборудования разных полукомплексов.
Рис. 1. Дублированный комплекс
Марковская модель надежности дублированного комплекса
При построении марковской модели надежности восстанавливаемого комплекса в режиме разделения нагрузки будем считать, что известны интенсивности отказов λp , λm , λs и восстановлений μp , μm , μs процессоров Р, памяти М и переключателя S, причем восстановление проводится одним ремонтником после любого отказа.
Граф переходов для марковской модели надежности исследуемой системы приведен на рис. 2, на котором отказавшие узлы затемнены. Решение дифференциальных уравнений, составленных по графу переходов по рис. 2, позволяет найти вероятности всех состояний комплекса и в результате суммирования работоспособных состояний определить нестационарный коэффициент готовности (функцию готовности) комплекса [1]. Решение системы дифференциальных уравнений проведено в системе компьютерной математики Mathcad-14 по методу Рунге-Кута. Представление системы дифференциальных уравнений в Mathcad-14 по графу рис. 2 приведено на рис. 3, а результат ее решения отражен на рис. 4, а. Для нахождения стационарного коэффициента готовности комплекса составим систему алгебраических уравнений (приравнивая производные в правой части нулю). Результаты решения системы алгебраических уравнений представлены матрицей на рис. 4, б, при λp=0,0001, λm=0,0003, λs=0,0002 1/ч; μp=0,5, μm=0,5, μs=0,5 1/ч. Сумммируя найденные вероятности работоспособных состояний, вычисляем коэффициент готовности (стационарный) комплекса.
76 Научно-технический вестник Санкт-Петербургского государственного университета
информационных технологий, механики и оптики, 2011, № 6 (76)
В.А. Богатырев, С.А. Башкова, В.Ф. Беззубов и др.
Рис. 2. Граф переходов для марковской модели надежности системы
1
0
0
0
0
0
0
0
0
0
P
:
0
0
0
0
0
0
0
0
0
0
P0s 2P0 p 2P0m P1s P2 p P3m
2P1 p 2P1m P1s P0s P4 p P5m
P2 p P2 p 2(P2m ) 2Ps 2P0 p P9 p
P3m P3m 2(P3 p ) P3s 2P0m P6 p P7 p P8m
P4 p P4 p 2P4m 2P1 p P2s P12 p P5m P5m 2P5 p 2P1m P3s P10 p P11m P13 p
P6 p P6 p P6s P6m P2m P3 p P14m P15 p
P7 p P7 p P7s P7m P2m P3 p
P8m P8s P8 p P3m
D(t, P) :
P9 p P9s P9m P2 p P10 p P10 p P10m P4m P5 p P7s
P11m P11 p P5m P8s 0
P12 p P12m P4 p P9s
P13 p P13m P13 p P4m P5 p P6s P16m P17 p
P14m P14 p P14s P6m P7m P8 p P18 p
P15 p P15m P15s P6 p P7 p P9m
P16m P16 p P10m P11 p P13m P14s P19 p
P17 p P17m P10 p P12m P13 p P15s
P18 p P18s P14 p P15m
P19 p P16 p P17m P18s
Z : rkfixed(P, 0,100,1000, D)
n : 0...1000
Рис. 3. Задание системы дифференциальных уравнений в Mathcad-14
Оценка коэффициента сохранение эффективности
Представляя каждый полукомплекс системой массового обслуживания типа М/М/1 [10], для работоспособных состояний системы найдем среднее время пребывания запросов.
Для исходного состояния (при отсутствии отказов) поток запросов распределяется на обслуживание в два полукомплекса и среднее время пребывания запросов в системе вычисляется как
Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики, 2011, № 6 (76)
77
НАДЕЖНОСТЬ ДУБЛИРОВАННЫХ ВЫЧИСЛИТЕЛЬНЫХ КОМПЛЕКСОВ
Т0
1
, 2
где λ – интенсивность потока запросов, а v – среднее время их выполнения. Для состояний с обслуживанием запросов в одном полукомплексе (например, при отказе
процессора какого-либо полукомплекса) среднее время пребываний запросов равно
Т1
1
.
Zn,1+ Zn,2+ Zn,3+ Zn,4+ Zn,8+ Zn,14+ Zn,7+ Zn,5+ Zn,6
1 0,9999999
0,9999998 0,9999997
0,9999996
0,9999995 0
5 10 15 Время, ч
20
аб
Рис. 4. Результат решения системы дифференциальных (а) и алгебраических уравнений (б) в системе компьютерной математики Mathcad-14
Для состояний с отказом модуля памяти одного полукомплекса и работы двух процессоров с одним модулем памяти (подключенным к одному процессору непосредственно через магистраль, а ко второму – через переключатель) среднее время пребывания запросов найдем как
Тз
1
(1 ) 1 (1 )
,
где π – доля запросов, направляемых в полукомплекс с исправным процессором и памятью, а (1– π) – в
полукомплекс с отказом модуля памяти; δ – коэффициент, учитывающий замедление вычислений для
процессора, работающего с памятью через переключатель (процессор, работающий с памятью своего
полукомплекса, имеет больший приоритет).
Определив вероятности Рi всех N работоспособных состояний системы и вычислив нормированную эффективность i-го состояния относительно исходного состояния (без отказов), найдем коэффициент сохранения эффективности комплекса как
kсэ
N i0
T0 Ti
Pi
.
Проведем расчет коэффициента сохранения эффективности при λp=0,0001, λm=0,0003, λs=0,0002 1/ч; μp=0,5, μm=0,5, μs=0,5 1/ч. Результаты расчета коэффициента сохранения эффективности системы от интенсивности запросов представлены на рис. 5. На рис. 5, а, при π=0,5 кривые 1–3 соответ-
ствуют δ=1; 1,5; 2. На рис. 5, б, при δ=2 кривые 1–4 соответствуют π=0,5; 0,6; 0,7; 0,8.
78 Научно-технический вестник Санкт-Петербургского государственного университета
информационных технологий, механики и оптики, 2011, № 6 (76)
В.А. Богатырев, С.А. Башкова, В.Ф. Беззубов и др.
аб Рис. 5. Коэффициент сохранения эффективности системы: кривые 1–3 соответствуют δ=1; 1,5; 2 при π=0,5 (а); кривые 1–4 соответствуют π=0,5; 0,6; 0,7; 0,8
при δ=2 (б)
Представленные зависимости показывают существенность влияния организации связи через адаптер (переключатель) на эффективность вычислительного процесса при накоплении отказов. Таким образом, для восстанавливаемых дублированных комплексов представляется целесообразным исследование вариантов организации межмашинной взаимосвязи и их влияния на отказоустойчивость вычислительного процесса.
Заключение
Таким образом, предложена марковская модель надежности восстанавливаемого дублированного вычислительного комплекса, позволяющая определить стационарный и нестационарный коэффициент готовности комплекса и оценить влияние накопления отказов на снижение эффективности системы.
Для восстанавливаемых дублированных комплексов показано влияние на эффективность вычислительного процесса распределения нагрузки при накоплении отказов. Таким образом, представляется целесообразным исследование вариантов организации межмашинной взаимосвязи и их влияния на отказоустойчивость вычислительного процесса, а также решение задачи оптимизации распределения нагрузки в частично работоспособных комплексах.
Литература
1. Половко А.М. Основы теории надежности. – СПб: БХВ Петербург, 2006. – 704 с. 2. Панфилов И.В., Половко А.М. Вычислительные системы. – М.: Советское радио, 1980. – 304 с. 3. Шубинский И.Б., Николаев В.И., Колганов С.К., Заяц А.М. Активная защита от отказов управляющих
модульных вычислительных систем. – СПб: Наука, 1993. – 285 с. 4. Богатырев В.А. Отказоустойчивые многомашинные вычислительные системы динамического распре-
деления запросов при дублировании функциональных ресурсов // Изв. вузов. Приборостроение. – 1996. – № 4. – С. 81–84. 5. Богатырев В.А., Богатырев С.В. Анализ готовности многоуровневой коммуникационной подсистемы компьютерных систем кластерной архитектуры // Научно-технический вестник СПбГУ ИТМО. – 2009. – № 1. – С. 88–94. 6. Богатырев В.А. Оптимальное резервирование системы разнородных серверов // Приборы и системы. Управление, контроль, диагностика. – 2007. – № 12. – С. 30–36. 7. Богатырев В.А. К анализу сохранения эффективности вычислительных систем с функциональной деградацией модулей // Приборы и системы. Управление, контроль, диагностика. – 2000. – № 12. – С. 68–70. 8. Богатырев В.А. Отказоустойчивость вычислительных систем с функциональной реконфигурацией // Приборы и системы. Управление, контроль, диагностика. – 2001. – № 11. – С. 51–53. 9. Богатырев В.А. Оценка вероятности безотказной работы функционально-распределенных вычислительных систем при иерархической структуре узлов // Изв. вузов. Приборостроение. – 2000. – № 3. – С. 67–70. 10. Клейнрок Л. Теория массового обслуживания. – М.: Машиностроение, 1979. – 432 с.
Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики, 2011, № 6 (76)
79
БЫСТРЫЙ ПОСЛЕДОВАТЕЛЬНЫЙ ЦЕЛОЧИСЛЕННЫЙ ДЕЛИТЕЛЬ ПО ОСНОВАНИЮ 4
Богатырев Владимир Анатольевич Башкова Светлана Андреевна Беззубов Владимир Федорович Полякова Анастасия Вячеславовна Котельникова Елена Юрьевна Голубев Иван Юрьевич
– Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, доктор технических наук, профессор, Vladimir.bogatyrev@gmail.com
– Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, студентка,
sveta.bashkova@gmail.com – Санкт-Петербургский национальный исследовательский университет
информационных технологий, механики и оптики, аспирант, bezzubov-
vf@yandex.ru – Санкт-Петербургский национальный исследовательский университет
информационных технологий, механики и оптики, студент,
axel.denielt@gmail.com – Санкт-Петербургский национальный исследовательский университет
информационных технологий, механики и оптики, аспирант,
elka842@yandex.ru – Санкт-Петербургский национальный исследовательский университет
информационных технологий, механики и оптики, аспирант,
golubev@mail.ru
80 Научно-технический вестник Санкт-Петербургского государственного университета
информационных технологий, механики и оптики, 2011, № 6 (76)
УДК 681.3
НАДЕЖНОСТЬ ДУБЛИРОВАННЫХ ВЫЧИСЛИТЕЛЬНЫХ КОМПЛЕКСОВ
В.А. Богатырев, С.А. Башкова, В.Ф. Беззубов, А.В. Полякова, Е.Ю. Котельникова, И.Ю. Голубев
Предложена марковская модель надежности восстанавливаемого дублированного вычислительного комплекса, функционирующего в режиме разделения нагрузки, оценены коэффициент сохранения эффективности, стационарный и нестационарный коэффициенты готовности. Ключевые слова: отказоустойчивость, дублированный комплекс, разделение нагрузки, надежность, коэффициент сохранения эффективности.
Введение
Обеспечение высокой надежности управляющих компьютерных систем требует введения избыточности [1–3], поэтому в таких системах в качестве базовых вычислительных средств используются дублированные вычислительные комплексы, зачастую объединяемые в кластеры [4–9]. В системах компьютерного управления дублированные комплексы функционируют либо в режиме параллельной работы, (каждый запрос направляется на обслуживание в два полукомплекса, результаты вычислений сравниваются), что повышает достоверность работы, либо в режиме разделения нагрузки, что позволяет повысить производительность, но может привести к потере результатов вычислений.
Структура дублированного комплекса
Рассмотрим дублированный (двухмашинный) комплекс (рис. 1), каждый из полукомплексов которого включает процессор (Р) и модуль памяти (М), реконфигурация системы осуществляется с использованием переключателя (S). В режиме разделения нагрузки по мере накопления отказов при реконфигурации возможен переход (деградация) от распределения запросов на обслуживание в два полукомплекса до их обслуживания одним полукомплексом, возможно, формируемым из исправного оборудования разных полукомплексов.
Рис. 1. Дублированный комплекс
Марковская модель надежности дублированного комплекса
При построении марковской модели надежности восстанавливаемого комплекса в режиме разделения нагрузки будем считать, что известны интенсивности отказов λp , λm , λs и восстановлений μp , μm , μs процессоров Р, памяти М и переключателя S, причем восстановление проводится одним ремонтником после любого отказа.
Граф переходов для марковской модели надежности исследуемой системы приведен на рис. 2, на котором отказавшие узлы затемнены. Решение дифференциальных уравнений, составленных по графу переходов по рис. 2, позволяет найти вероятности всех состояний комплекса и в результате суммирования работоспособных состояний определить нестационарный коэффициент готовности (функцию готовности) комплекса [1]. Решение системы дифференциальных уравнений проведено в системе компьютерной математики Mathcad-14 по методу Рунге-Кута. Представление системы дифференциальных уравнений в Mathcad-14 по графу рис. 2 приведено на рис. 3, а результат ее решения отражен на рис. 4, а. Для нахождения стационарного коэффициента готовности комплекса составим систему алгебраических уравнений (приравнивая производные в правой части нулю). Результаты решения системы алгебраических уравнений представлены матрицей на рис. 4, б, при λp=0,0001, λm=0,0003, λs=0,0002 1/ч; μp=0,5, μm=0,5, μs=0,5 1/ч. Сумммируя найденные вероятности работоспособных состояний, вычисляем коэффициент готовности (стационарный) комплекса.
76 Научно-технический вестник Санкт-Петербургского государственного университета
информационных технологий, механики и оптики, 2011, № 6 (76)
В.А. Богатырев, С.А. Башкова, В.Ф. Беззубов и др.
Рис. 2. Граф переходов для марковской модели надежности системы
1
0
0
0
0
0
0
0
0
0
P
:
0
0
0
0
0
0
0
0
0
0
P0s 2P0 p 2P0m P1s P2 p P3m
2P1 p 2P1m P1s P0s P4 p P5m
P2 p P2 p 2(P2m ) 2Ps 2P0 p P9 p
P3m P3m 2(P3 p ) P3s 2P0m P6 p P7 p P8m
P4 p P4 p 2P4m 2P1 p P2s P12 p P5m P5m 2P5 p 2P1m P3s P10 p P11m P13 p
P6 p P6 p P6s P6m P2m P3 p P14m P15 p
P7 p P7 p P7s P7m P2m P3 p
P8m P8s P8 p P3m
D(t, P) :
P9 p P9s P9m P2 p P10 p P10 p P10m P4m P5 p P7s
P11m P11 p P5m P8s 0
P12 p P12m P4 p P9s
P13 p P13m P13 p P4m P5 p P6s P16m P17 p
P14m P14 p P14s P6m P7m P8 p P18 p
P15 p P15m P15s P6 p P7 p P9m
P16m P16 p P10m P11 p P13m P14s P19 p
P17 p P17m P10 p P12m P13 p P15s
P18 p P18s P14 p P15m
P19 p P16 p P17m P18s
Z : rkfixed(P, 0,100,1000, D)
n : 0...1000
Рис. 3. Задание системы дифференциальных уравнений в Mathcad-14
Оценка коэффициента сохранение эффективности
Представляя каждый полукомплекс системой массового обслуживания типа М/М/1 [10], для работоспособных состояний системы найдем среднее время пребывания запросов.
Для исходного состояния (при отсутствии отказов) поток запросов распределяется на обслуживание в два полукомплекса и среднее время пребывания запросов в системе вычисляется как
Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики, 2011, № 6 (76)
77
НАДЕЖНОСТЬ ДУБЛИРОВАННЫХ ВЫЧИСЛИТЕЛЬНЫХ КОМПЛЕКСОВ
Т0
1
, 2
где λ – интенсивность потока запросов, а v – среднее время их выполнения. Для состояний с обслуживанием запросов в одном полукомплексе (например, при отказе
процессора какого-либо полукомплекса) среднее время пребываний запросов равно
Т1
1
.
Zn,1+ Zn,2+ Zn,3+ Zn,4+ Zn,8+ Zn,14+ Zn,7+ Zn,5+ Zn,6
1 0,9999999
0,9999998 0,9999997
0,9999996
0,9999995 0
5 10 15 Время, ч
20
аб
Рис. 4. Результат решения системы дифференциальных (а) и алгебраических уравнений (б) в системе компьютерной математики Mathcad-14
Для состояний с отказом модуля памяти одного полукомплекса и работы двух процессоров с одним модулем памяти (подключенным к одному процессору непосредственно через магистраль, а ко второму – через переключатель) среднее время пребывания запросов найдем как
Тз
1
(1 ) 1 (1 )
,
где π – доля запросов, направляемых в полукомплекс с исправным процессором и памятью, а (1– π) – в
полукомплекс с отказом модуля памяти; δ – коэффициент, учитывающий замедление вычислений для
процессора, работающего с памятью через переключатель (процессор, работающий с памятью своего
полукомплекса, имеет больший приоритет).
Определив вероятности Рi всех N работоспособных состояний системы и вычислив нормированную эффективность i-го состояния относительно исходного состояния (без отказов), найдем коэффициент сохранения эффективности комплекса как
kсэ
N i0
T0 Ti
Pi
.
Проведем расчет коэффициента сохранения эффективности при λp=0,0001, λm=0,0003, λs=0,0002 1/ч; μp=0,5, μm=0,5, μs=0,5 1/ч. Результаты расчета коэффициента сохранения эффективности системы от интенсивности запросов представлены на рис. 5. На рис. 5, а, при π=0,5 кривые 1–3 соответ-
ствуют δ=1; 1,5; 2. На рис. 5, б, при δ=2 кривые 1–4 соответствуют π=0,5; 0,6; 0,7; 0,8.
78 Научно-технический вестник Санкт-Петербургского государственного университета
информационных технологий, механики и оптики, 2011, № 6 (76)
В.А. Богатырев, С.А. Башкова, В.Ф. Беззубов и др.
аб Рис. 5. Коэффициент сохранения эффективности системы: кривые 1–3 соответствуют δ=1; 1,5; 2 при π=0,5 (а); кривые 1–4 соответствуют π=0,5; 0,6; 0,7; 0,8
при δ=2 (б)
Представленные зависимости показывают существенность влияния организации связи через адаптер (переключатель) на эффективность вычислительного процесса при накоплении отказов. Таким образом, для восстанавливаемых дублированных комплексов представляется целесообразным исследование вариантов организации межмашинной взаимосвязи и их влияния на отказоустойчивость вычислительного процесса.
Заключение
Таким образом, предложена марковская модель надежности восстанавливаемого дублированного вычислительного комплекса, позволяющая определить стационарный и нестационарный коэффициент готовности комплекса и оценить влияние накопления отказов на снижение эффективности системы.
Для восстанавливаемых дублированных комплексов показано влияние на эффективность вычислительного процесса распределения нагрузки при накоплении отказов. Таким образом, представляется целесообразным исследование вариантов организации межмашинной взаимосвязи и их влияния на отказоустойчивость вычислительного процесса, а также решение задачи оптимизации распределения нагрузки в частично работоспособных комплексах.
Литература
1. Половко А.М. Основы теории надежности. – СПб: БХВ Петербург, 2006. – 704 с. 2. Панфилов И.В., Половко А.М. Вычислительные системы. – М.: Советское радио, 1980. – 304 с. 3. Шубинский И.Б., Николаев В.И., Колганов С.К., Заяц А.М. Активная защита от отказов управляющих
модульных вычислительных систем. – СПб: Наука, 1993. – 285 с. 4. Богатырев В.А. Отказоустойчивые многомашинные вычислительные системы динамического распре-
деления запросов при дублировании функциональных ресурсов // Изв. вузов. Приборостроение. – 1996. – № 4. – С. 81–84. 5. Богатырев В.А., Богатырев С.В. Анализ готовности многоуровневой коммуникационной подсистемы компьютерных систем кластерной архитектуры // Научно-технический вестник СПбГУ ИТМО. – 2009. – № 1. – С. 88–94. 6. Богатырев В.А. Оптимальное резервирование системы разнородных серверов // Приборы и системы. Управление, контроль, диагностика. – 2007. – № 12. – С. 30–36. 7. Богатырев В.А. К анализу сохранения эффективности вычислительных систем с функциональной деградацией модулей // Приборы и системы. Управление, контроль, диагностика. – 2000. – № 12. – С. 68–70. 8. Богатырев В.А. Отказоустойчивость вычислительных систем с функциональной реконфигурацией // Приборы и системы. Управление, контроль, диагностика. – 2001. – № 11. – С. 51–53. 9. Богатырев В.А. Оценка вероятности безотказной работы функционально-распределенных вычислительных систем при иерархической структуре узлов // Изв. вузов. Приборостроение. – 2000. – № 3. – С. 67–70. 10. Клейнрок Л. Теория массового обслуживания. – М.: Машиностроение, 1979. – 432 с.
Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики, 2011, № 6 (76)
79
БЫСТРЫЙ ПОСЛЕДОВАТЕЛЬНЫЙ ЦЕЛОЧИСЛЕННЫЙ ДЕЛИТЕЛЬ ПО ОСНОВАНИЮ 4
Богатырев Владимир Анатольевич Башкова Светлана Андреевна Беззубов Владимир Федорович Полякова Анастасия Вячеславовна Котельникова Елена Юрьевна Голубев Иван Юрьевич
– Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, доктор технических наук, профессор, Vladimir.bogatyrev@gmail.com
– Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, студентка,
sveta.bashkova@gmail.com – Санкт-Петербургский национальный исследовательский университет
информационных технологий, механики и оптики, аспирант, bezzubov-
vf@yandex.ru – Санкт-Петербургский национальный исследовательский университет
информационных технологий, механики и оптики, студент,
axel.denielt@gmail.com – Санкт-Петербургский национальный исследовательский университет
информационных технологий, механики и оптики, аспирант,
elka842@yandex.ru – Санкт-Петербургский национальный исследовательский университет
информационных технологий, механики и оптики, аспирант,
golubev@mail.ru
80 Научно-технический вестник Санкт-Петербургского государственного университета
информационных технологий, механики и оптики, 2011, № 6 (76)