Например, Бобцов

СИСТЕМЫ ДУБЛИРОВАННЫХ ВЫЧИСЛИТЕЛЬНЫХ КОМПЛЕКСОВ С ПЕРЕРАСПРЕДЕЛЕНИЕМ ЗАПРОСОВ

И.Ю. Голубев

УДК 004.75
СИСТЕМЫ ДУБЛИРОВАННЫХ ВЫЧИСЛИТЕЛЬНЫХ КОМПЛЕКСОВ С ПЕРЕРАСПРЕДЕЛЕНИЕМ ЗАПРОСОВ
И.Ю. Голубев
Исследованы подходы к организации структуры отказоустойчивой вычислительной сети на базе дублированных вычислительных комплексов, предусматривающих повышение надежности и производительности на основе динамического перераспределения потока запросов с учетом состояний работоспособности и загруженности компьютерных узлов. Представленные результаты демонстрируют существенную роль выбора кратности резервирования и алгоритмов управления запросами в эффективности системы. Выявлены зависимости эффективности системы от способа распределения вычислительных узлов по разным уровням сети и потока запросов между ними. Показана эффективность обеспечения надежности и производительности вычислительных систем, компонуемых из дублированных вычислительных комплексов на основе динамического распределения запросов. Ключевые слова: дублированные вычислительные комплексы, распределение нагрузки, вычислительные сети.
Введение
В настоящее время широкое распространение получили вычислительные сети – распределенные вычислительные системы, включающие в себя вычислительные узлы и коммуникационную среду, обеспечивающую их взаимодействие [1–3]. Для систем ответственного целевого назначения актуальной является задача обеспечения их высокой производительности и надежности. Возрастание требований к надежности проектируемой системы обусловлено не только ответственностью целевого приложения, но

Научно-технический вестник информационных технологий, механики и оптики, 2012, № 2 (78)

65

СИСТЕМЫ ДУБЛИРОВАННЫХ ВЫЧИСЛИТЕЛЬНЫХ КОМПЛЕКСОВ …
и коммерческими факторами и причинами, например, недопустимостью перерывов в работе системы, которые могут приводить к серьезным финансовым потерям.
Постановка задачи
Цель представленной работы – исследование подходов к организации структуры отказоустойчивой вычислительной сети на базе дублированных вычислительных комплексов (ДВК) [1], предусматривающих повышение надежности и производительности на основе динамического перераспределения потока запросов с учетом состояний работоспособности и загруженности компьютерных узлов [4–9].
Задачей исследования является выявление зависимостей эффективности вычислительной сети от кратности резервирования вычислительных элементов и от параметров распределения потока запросов между ними [4–9] с учетом использования в качестве компьютерных узлов ДВК.
На рис. 1 представлена структура рассматриваемой сети. ДВК объединены в кластеры: группу штатных кластеров и один – резервный. Мощности резервного кластера могут использоваться путем перераспределения диспетчерами запросов (ДЗ) потока запросов с целью повышения производительности и надежности вычислительной сети.

Рис. 1. Структура сети

Предполагается возможность отказов ДВК, а также каналов связи (КС) как внутри ДВК, так и между кластерами сети. ДЗ считаются абсолютно надежными.
Потоки запросов с известной интенсивностью поступают на ДЗ каждого из n штатных кластеров, которые обмениваются между собой информацией об интенсивности входящих в них потоков запросов, а также о состоянии каждого из m включенных в них ДВК. Анализируя значения интенсивностей потоков и состояние ДВК, каждый ДЗ на основе заданного алгоритма принимает решение о необходимости перераспределения части запросов на резервный кластер. При обработке запросов на мощностях резервного кластера время их обслуживания включает в себя время транспортировки данных по КС.

Оценка надежности и задержек в системе

Кластер считается работоспособным, если исправен его КС и хотя бы один из ДВК. Вероятность

работоспособного состояния каждого кластера Pк(t) в течение времени t определяется следующим обра-

зом: Pк (t)  pкск (t)(1 (1 pвм (t))2m ) , где pкск(t) и pвм(t) – вероятность работоспособного состояния канала

связи кластера (КСК) и вычислительной машины (ВМ), составляющей ДВК; m – общее количество ДВК

в кластере.

Система работоспособна, если либо исправны все кластеры верхнего уровня, либо исправны КС

всех кластеров системы и хотя бы один из ДВК резервного кластера. Вероятность работоспособного со-

стояния системы Pс(t) в течение времени t оценивается так:

(1 (1 pвм (t))2dγ ) 



Pc (t)



pкс (t) pкск (t)n

 (1 (1

pвм

(t

))2

d

(1γ) n1

)n1





 

,

 (1



(1 

pвм

(t ))2dγ

)(1



(1



pвм

(t ))2 d

(1γ) n1

)n1

 

(1)

где pкс – вероятность работоспособности КС между уровнями структуры сети; n – общее количество кластеров в системе; d – общее количество ДВК в системе; γ – доля ДВК в резервном кластере от общего

числа ДВК системы.

66 Научно-технический вестник информационных технологий, механики и оптики,
2012, № 2 (78)

И.Ю. Голубев

В предположении экспоненциального распределения времени между отказами вероятность рабо-

тоспособности компонент сети определяется как pкс (t)  exp(ксt) , pкск (t )  exp(λкскt ) ,

pвм (t )  exp(λвмt ) , где λкс , λкск , λвм – суммарные интенсивности отказов КС между уровнями струк-
туры сети, КСК и ВМ соответственно. Предполагается, что поступающие в систему запросы образуют простейшие потоки, а длительности обслуживания запросов в ВМ и КС распределены по экспоненциальному закону. Сделанные предположения позволяют построить модель экспоненциальной сети массового обслуживания (СеМО), поддающейся исследованию аналитическими методами [10].
Среднее время пребывания запросов в каждом из кластеров верхнего и нижнего уровней ( T и Tр
соответственно), с учетом представления кластеров в виде СеМО, в которой ДВК – это система массового обслуживания (СМО) типа M/M/1, определяется формулами

 Tp



2 μкск






 



,

Tp



2 μкс

 

p  p

,

где μкск , μкс , μ – величины, обратные времени пребывания запроса соответственно в КСК, в КС между

уровнями структуры сети и в каждой из СМО; ρ , ρр – коэффициенты использования каждой из СМО

кластеров соответственно верхнего и нижнего уровней сети.

Предполагается, что система работает в устойчивом режиме, а нагрузка внутри кластеров верхне-

го и нижнего уровня распределяется равномерно, таким образом, что в любой момент времени

ρ



λ(1 τ) r(1 γ)μ



1,

ρр



λτ rγμ

1,

где λ – интенсивность поступления потока запросов в кластер; τ – доля запросов, перенаправляемых на
обработку в резервном кластере; r – количество работоспособных ДВК в системе. Среднее время пребывания запросов в системе вычисляется

Tср



d


(1 γ)T



γTp Сdr

pвrм (t)(1

pвм (t))d r

.

r 1

(2)

В качестве оценки эффективности системы используется комплексный показатель, равный отно-

шению полученных в формулах (1), (2) вероятности работоспособного состояния системы и среднего

времени пребывания запросов в системе

Iэф (t)  Pс (t) / Тср .

Определение кратности резервирования

Предполагается, что изначально нагрузка между штатными кластерами распределяется равномерно. Последующие рассуждения ведутся с учетом рационального в таком случае равномерного распределения ДВК между кластерами сети.
Iэф(t)

0,20

0,15

0,10

0,05 0

0,05 1,

0,1 2,

0,15  3,

Рис. 2. Зависимость эффективности системы от способа распределения ДВК: кривая 1 соответствует 8 штатным кластерам сети; кривая 2 – 10; кривая 3 – 12
Для расчетов принимается λкс = λкск = 5×10–6 ч–1; λвм = 5×10–4 ч–1; d = 100; t = 5000 ч; μ кс = 0,1 с–1;

μкск = 2 с–1; μ = 2 с–1; интенсивность поступления запросов в систему λ = 10 с–1, доля запросов τ предполагается равной доле γ выделенных в резервный кластер ДВК.

Научно-технический вестник информационных технологий, механики и оптики, 2012, № 2 (78)

67

СИСТЕМЫ ДУБЛИРОВАННЫХ ВЫЧИСЛИТЕЛЬНЫХ КОМПЛЕКСОВ …

На рис. 2 представлена зависимость эффективности системы по обработке запросов от количества кластеров верхнего уровня и от доли ДВК γ , предназначенных для работы на нижнем уровне сети. Кривая 1 соответствует 8 штатным кластерам сети, кривая 2 – 10, кривая 3 – 12. На рис. 2 видно, что оптимальным для структуры из 8 штатных кластеров является выделение в резервный кластер 4% от общего числа ДВК. Дальнейшие расчеты представлены для структуры из 8 штатных кластеров с найденной кратностью резервирования.
Определение параметров распределения запросов
Рассмотрен подход к управлению потоками запросов, основанный на перераспределении части потока запросов на резервный кластер в случае достижения порогового уровня загрузки. Для определения порогового значения загрузки в соответствии с формулой (2) и выбранной структурой вычислительной сети построена кривая зависимости эффективности системы по обработке запросов от доли потока запросов τ , направляемых на обработку в резервный кластер, представленная на рис. 3.
Iэф(t)
0,213

0,175

0,138

0,1 0

0,05 0,1 0,15 

Рис. 3. Зависимость эффективности системы от доли распределения запросов

На рис. 3 видно, что оптимальное значение для доли потока запросов τ , направляемых на обра-
ботку в резервный кластер, равно 0,04. Для проверки полученных аналитическим путем результатов в системе моделирования общецеле-
вого назначения GPSS World была разработана имитационная модель вычислительной сети выбранной структуры. Реализованный в модели алгоритм распределения нагрузки учитывает суммарную длину очередей к каждому из кластеров верхнего уровня: в случае достижения порогового значения длины очереди запросы перенаправляются в резервный кластер.

№ Доля запросов τ , Среднее время пребы- Среднее время пребы-

перенаправляемых вания в системе запро- вания в системе запро-

для обработки в

са, обслуживаемого в са, обслуживаемого в

резервном кластере штатном кластере, с резервном кластере, с

1 0,01

19,2549

26,72

2 0,02

12,7366

22,435

3 0,03

9,6016

35,661

4 0,04

5,1485

51,791

5 0,045

1,9616

55,271

6 0,05

1,7689

57,399

7 0,06

1,6855

72,525

8 0,07

1,6654

88,921

9 0,08

1,6468

113,572

10 0,09

1,6326

154,646

Эффективность системы по обработке запросов
0,0517 0,0773 0,0964 0,1644 0,229 0,2181 0,1669 0,1331 0,0979 0,0639

Таблица. Результаты имитационного эксперимента

Результаты серии имитационных экспериментов представлены в таблице. Расхождение значения оптимальной доли потока запросов τ , направляемых на обработку в резервный кластер, с полученными
ранее аналитическим путем данными не превосходит 10%, что является допустимой для модели погрешностью.

68 Научно-технический вестник информационных технологий, механики и оптики,
2012, № 2 (78)

А.А. Ожиганов, И.Д. Захаров

Заключение

Проведенные исследования демонстрируют существенную роль выбора кратности резервирования в эффективности системы дублированных вычислительных комплексов. Показана эффективность обеспечения надежности и производительности вычислительных систем, компонуемых из дублированных вычислительных комплексов на основе динамического распределения запросов.
Исследование выполнено при финансовой поддержке Правительства Санкт-Петербурга.

Литература

1. Голубев И.Ю., Богатырев В.А., Беззубов В.Ф. Сравнительный анализ структур отказоустойчивых дублированных вычислительных комплексов // Информационно-измерительные и управляющие системы. – М.: Радиотехника. – 2011. – Т. 9. – № 2. – C. 8–12.
2. Половко А.М., Гуров С.В. Основы теории надежности: Учебное пособие. – 2-е изд., перераб. и доп. – СПб: БВХ–Петербург, 2008. – 704 с.
3. Takefusa A., Matsuoka S., Aida K. [et al.] Overview of a performance evaluation system for global computing scheduling algorithms // Proceedings of the Eighth IEEE International Symposium on High Performance Distributed Computing (HPDC’99). – 1999. – P. 97–104.
4. Богатырев В.А. Протоколы динамического распределения запросов и отображения функциональных ресурсов в отказоустойчивых вычислительных системах // Электронное моделирование. – 1999. – № 6. – С. 87–96.
5. Богатырев В.А. Комбинаторный метод оценки отказоустойчивости функционально-распределенных вычислительных систем // Электронное моделирование. – 2000. – № 4. – С. 84–92.
6. Богатырев В.А. Оценка надежности функционально избыточных многомашинных вычислительных систем с реконфигурацией на основе перераспределения функций // Электронное моделирование. – 1994. – № 2. – С. 88–90.
7. Богатырев В.А. Распределение заданий в многомашинных вычислительных системах // Изв. вузов. Приборостроение. – 1986. – № 5. – С. 43–47.
8. Богатырев В.А. Безотказность адаптивно-перестраиваемой системы с реконфигурацией на основе перераспределения функций // Изв. вузов. Приборостроение. – 1993. – № 4. – С. 84–87.
9. Богатырев В.А. Динамическое отображение конфигурации в локальных сетях магистральной топологии // Изв. вузов. Приборостроение. – 1993. – № 9–10. – С. 30–35.
10. Алиев Т.И. Основы моделирования дискретных систем: Учебное пособие. – СПб: СПбГУ ИТМО, 2009. – 363 с.

Голубев Иван Юрьевич

– Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, аспирант, www.golubev@mail.ru

Научно-технический вестник информационных технологий, механики и оптики, 2012, № 2 (78)

69