ОПТИМАЛЬНЫЙ СИНТЕЗ ДЛЯ ДИНАМИЧЕСКИХ СИСТЕМ С ЗАПАЗДЫВАНИЕМ ПО УПРАВЛЕНИЮ
ОПТИМАЛЬНЫЙ СИНТЕЗ ДЛЯ ДИНАМИЧЕСКИХ СИСТЕМ С ЗАПАЗДЫВАНИЕМ ...
УДК 681.5
ОПТИМАЛЬНЫЙ СИНТЕЗ ДЛЯ ДИНАМИЧЕСКИХ СИСТЕМ С ЗАПАЗДЫВАНИЕМ ПО УПРАВЛЕНИЮ
Д.А. Музыка, Р.О. Пещеров, В.Ю. Тертычный-Даури
Рассмотрена задача формирования закона оптимального управления для нелинейных динамических систем с запаздыванием по времени в канале управления. В соответствии с принципом оптимальности обосновывается необходимое условие оптимальности (уравнение Беллмана) для систем с запаздыванием в канале по управлению. Выводы анализа подкрепляются результатами численного моделирования в задаче оптимальной стабилизации вращения твердого тела. Ключевые слова: запаздывание в канале управления, оптимальное управление, принцип оптимальности, беллмановская оптимизация.
Введение Основной поток публикаций по регулируемым динамическим системам с запаздыванием касается вопросов устойчивости и стабилизации изучаемых процессов (например, работы [1–4] и содержащаяся там библиография). Полученные результаты можно рассматривать как обобщение результатов теории дифференциальных уравнений с запаздывающим аргументом в фазовой переменной. В некоторых работах решены задачи с запаздыванием по управлению применительно к общей (но не оптимальной) адаптивной задаче управления с возмущениями [5–7]. Значительно более скромным выглядит список работ по оптимизации управляемых динамических систем с запаздыванием по управлению [1–3]. Данные публикации в основном посвящены принципу максимума с учетом эффекта запаздывания. В настоящей работе, по-видимому, впервые ставится и решается задача синтеза оптимального управления в непрерывных динамических системах с запаздыванием в канале управления с использова-
58 Научно-технический вестник информационных технологий, механики и оптики,
2012, № 5 (81)
Д.А. Музыка, Р.О. Пещеров, В.Ю. Тертычный-Даури
нием беллмановского оптимизационного подхода (метода динамического программирования). На рис. 1 условно изображена схема формируемой системы управления.
У u t БЗ u t h ОУ x t
xt
Рис. 1. Общая блок-схема системы управления с инерционным запаздыванием: ОУ – объект управления; БЗ – блок запаздывания; У – управление
Ставится основная цель – построить оптимальное управление объектом, которое бы решало задачу минимизации функционала качества в условиях запаздывания по управлению.
Постановка задачи
Пусть объект управления задается векторным уравнением
x f x t ,u t h,t ,
(1)
где x t Rn – состояние системы в момент времени t , где t [t0 t1] – заданный интервал, h const 0
– запаздывание в управлении (так называемое инерционное запаздывание); при этом предполагается, что
в самом объекте (1) запаздывания нет, но оно есть в регуляторе u t h Rn . Интегрируя уравнение (1),
получим равносильное ему векторное интегральное уравнение Вольтерра:
t
x t x0 f x s,u s h, s ds,
(2)
t0
где x0 x(t0 ) – заданный вектор начального состояния системы. Уравнение (2) показывает, что x(t) –
состояние системы в момент времени t – зависит от значений управления u(s h) в предыдущие момен-
ты времени s h , где t0 s t(t0 0, h 0) . Далее, управление u() Rn входит в уравнения (1)–(2) в виде значения u() в запаздывающий
момент времени s h , где h 0 . При малых s t0 запаздывающий момент s h может оказаться отрицательным. В связи с этим, чтобы подынтегральное выражение в уравнении (2) имело смысл,
управление u t следует задавать и при отрицательных t , а именно при t t0 h,0 , когда t0 h . Таким
образом, управление u t надо задавать на более широком интервале времени t t0 h,t1 , причем со-
стояние x(t) должно быть определено на более узком интервале времени t t0 ,t1 .
Будем считать, что на управляющие силы u Rn наложены некоторые ограничения: u U Rr , где U – некоторое заданное множество допустимых управлений. Требуется выбором управления
u t , t t0 h,t1 обеспечить минимум функционала качества
t1
J
V
x t1 ,t1
F
x s,u s
h, s ds
min
uU
t0
(3)
и перевести систему (1) из начального состояния x t0 в конечное x t1 . Полагаем, что в системе (1) с
функционалом (3) вектор-функция f и скалярные функции V , F непрерывно дифференцируемы по всем
своим аргументам. Напомним, что принцип оптимальности Беллмана, лежащий в основе метода динамического про-
граммирования, применим для систем, последующее движение которых полностью определяется состоянием этих систем в любой текущий момент времени [1]. Согласно Беллману, оптимальная стратегия определяется только начальным условием и конечной целью, т.е. принцип оптимальности утверждает, что для любого первоначального состояния и стратегии (управления) в начальный момент последующие стратегии должны составлять оптимальное движение относительно состояния, полученного в результате применения начальной стратегии. Указанная формулировка принципа оптимальности останется справед-
ливой и для систем с запаздыванием, если в понятие состояния системы в текущий момент времени t
включить и предысторию изменения фазовых координат системы на промежутке времени последейст-
вия: t h t t .
Научно-технический вестник информационных технологий, механики и оптики, 2012, № 5 (81)
59
ОПТИМАЛЬНЫЙ СИНТЕЗ ДЛЯ ДИНАМИЧЕСКИХ СИСТЕМ С ЗАПАЗДЫВАНИЕМ ...
Отметим также, что отличительной особенностью метода динамического программирования, использующего принцип оптимальности, является то, что отрезки оптимальной траектории определяются в
обратной последовательности, начиная с заданного конечного (целевого) состояния x t1 .
Необходимое условие оптимальности
Принцип оптимальности Беллмана позволяет сформулировать необходимое условие оптимальности для динамических систем с последействием по управлению вида (1) с функционалом качества (3).
Допустим, что x0 t – оптимальная траектория системы (1) с заданным начальным x t0 и ко-
нечным состоянием x t1 . Требуется перевести систему (1) из векторной точки x t0 в векторную точку
x t1 по траектории x0 t , выбрав оптимальное управление u0 t h , минимизирующее функционал
(3). Можно показать, что функционал качества (3) с запаздыванием по времени в управлении можно подходящим функциональным преобразованием свести к функционалу с управлением без запаздывания по времени, но с запаздыванием по индексу [3]. Тем самым возникает возможность использовать стандартные оптимизационные процедуры метода динамического программирования и к системам с запаздыванием по управлению.
Теорема. Пусть поставлена задача синтеза оптимального управления для системы (1) с функционалом (3) с оговоренными выше требованиями непрерывности и гладкости для всех входящих скалярных функций и вектор-функций.
Тогда, если x0 t – оптимальная траектория системы (1) с заданными значениями x t0 и x t1 ,
оптимальное управление u0 t h удовлетворяет уравнение Беллмана (уравнение Гамильтона–Якоби–
Беллмана) вида
min
uU
dS
x0 t,t
dt
F
x0
t
,
u
t
h
,
t
0
,
либо
dS
x0 t,t
dt
F x0 t ,u0 t h,t 0 ,
где обозначено
t1
S
x0 t,t
V
|t1
min uU
F x0 s,u s h, s ds ,
t
причем
S x0 t1 ,t1 V |t1 V x t1 ,t1 ,
а для подынтегральной функции F имеет место равенство (5), (6).
(4)
(5) (6) (7)
Доказательство. Обозначим через S x0 t0 ,t0 минимум функционала J (3). Из принципа опти-
мальности следует, что часть траектории с концами x0 t (в начале при t t ) и x0 t1 (в конце при
t t1 ), удовлетворяющая уравнению (1), также оптимальна. Значит, минимальное значение порождаемо-
го этой частью траектории функционала равно S x0 t ,t (6) с граничным значением S x0 t1 ,t1 V |t1
(7). Приходим тем самым к так называемому функциональному уравнению Беллмана (6). Пусть t t Δt , где Δt – достаточно малый интервал времени. Тогда минимальное значение
функционала по части оптимальной траектории с начальным состоянием x0 t x0 t Δt и конечным
состоянием x0 t1 определяется равенством
t1
S
x0 (t), t
V
|t1
min uU
F x0 s,u s h, s ds .
t
(8)
Разобьем интервал интегрирования на два: от t до t t Δt и от t до t1 . Тогда, сравнивая интегралы (6) и (8), получим, что
S
x0 t,t
V
|t1
t Δt
min
uU
t
F
t1
x0 s,u s h, s ds F t Δt
x
0
s
,
u
s
h
,
s
ds
,
(9)
или с точностью до малых 1 Δt более высокого порядка, чем Δt , можно написать (с учетом опти-
мальности на втором интервале):
60 Научно-технический вестник информационных технологий, механики и оптики,
2012, № 5 (81)
Д.А. Музыка, Р.О. Пещеров, В.Ю. Тертычный-Даури
S
x0 t,t
V
|t1
min
uU
F
x0
t ,u t
h,t Δt
t1
min F uU t'
x0
s
,
u
s
h
,
s
ds
1
Δt
,
где с точностью до 1 Δt имеем в соотношении (9) для первого интеграла справа
t Δt
F x0 s,u s h, s ds F x0 t ,u t h,t Δt 1 Δt ,
t
lim
Δt0
1 Δt
Δt
0
.
Таким образом, имеем запись
S
x0 t,t
min uU
F x0 t ,u t h,t Δt S
x0 (t), t
1 Δt .
Пусть, ради простоты записи, x t x0 t . Тогда, разлагая x(t) в ряд Тейлора, получим
(10)
x(t) x t Δt x t x t Δt 2 Δt x t f x t ,u t h,t Δt 2 Δt ,
(11)
где 2 Δt – остаточный член выше первого порядка малости от Δt . Подставим это разложение x(t)
(11) в выражение для S x t,t . При соответствующем разложении в ряд Тейлора, полагая при этом,
что существуют частные производные S / xi , i 1, n , и S / t , получим
S x(t),t S x t Δt ,t Δt S xt f xt,u t h,t Δt 2 Δt ,t Δt
S
xt,t
n
i 1
S xt,t
xi
fi
xt,u t
h,t Δt
S
xt,t
t
Δt
3
Δt ,
где 3 Δt – это остаточный член выше первого порядка малости по Δt , причем здесь
(12)
n
i 1
S
xt,t
xi
fi
x t ,u t
h , t
S
xt,t
t
dS
xt,t
dt
,
S x
S x1
, S x2
,..., S xn
gradS
,
(*) сверху по-прежнему означает операцию транспонирования. Следовательно, для S x(t), t имеем
S x(t),t
S
x
t
,
t
S
xt
x
,
t
f
x t ,u t h,t Δt
S
xt
t
,
t
Δt
3 Δt .
(13)
Подставим затем выражение (13) в правую часть соотношения (10), полагая x t x0 t . Посколь-
ку выражения S x t ,t и S / t не зависят от u u t h , то их можно вынести за знак min . После uU
сокращения и деления обеих частей на Δt получим
S
x0 t,t
t
min
uU
S
x0 t,t
x0
f
x0 t ,u t
h,t
F
x0
t ,u t
h,t
4 Δt
Δt
,
(14)
где 4 Δt – остаточный член выше первого порядка малости по Δt , т.е. 4 Δt / Δt 0 при Δt 0 .
При Δt 0 из уравнения (14) получим уравнение Беллмана для управляемых систем с запаздыванием в управлении:
либо
S
x0 t,t
t
min
uU
S
x0 t,t
x0
f
x0
t ,u t
h, t
F
x0
t ,u t
h
,
t
,
(15)
S
x0 t,t
t
S
x0 t,t
x0
f x0 t ,u0 t h,t F x0 t ,u0 t h,t .
(16)
С помощью полной производной dS / dt последние два уравнения (15) и (16) можно записать в ви-
де соотношений (4) и (5) соответственно из формулировки теоремы. Тем самым утверждение полностью доказано.
Научно-технический вестник информационных технологий, механики и оптики, 2012, № 5 (81)
61
ОПТИМАЛЬНЫЙ СИНТЕЗ ДЛЯ ДИНАМИЧЕСКИХ СИСТЕМ С ЗАПАЗДЫВАНИЕМ ...
Модельный пример
В качестве простейшего модельного примера можно взять управляемую линейную систему с уравнением движения
x t x t u x t , xp t ,t h , x, xp R ,
с целевым функционалом качества вида (3):
t1
J
V y t1
V ysu2 s h
ds min, uU
t0
где V y t y2 t – функция Беллмана, u t h u x t , xp t ,t h , y t x t xp t , xp t –
программное движение системы, и стабилизационным условием limtt1 x t xp t , где 0 – за-
данная достаточно малая постоянная. Применяя описанный выше метод оптимальной стабилизации с помощью теоремы, получим необходимое условие оптимальности в виде уравнения Беллмана
min V y y2 u2 0 .
uU
C учетом исходного уравнения движения y x xp x u xp это уравнение можно записать в
развернутом виде:
V
y
x x p
y2
min
uU
V y
u
u2
0
,
V y
2y ,
откуда следует формула для выбора оптимального управления
u0 t h u0 x t , xp t ,t h y t x t xp t .
После подстановки u0 в уравнение движения получим
x xp ,
а при подстановке u 0 в уравнение Беллмана будем иметь
2 y x x p y2 2 y2 y2 0,
или 2 y x x p 0 . Чтобы уравнение Беллмана имело место, выберем xp t , полагая x xp 0 .
Таким образом, приходим к системе двух уравнений первого порядка относительно x t и xp t :
x xp , xp x .
Очевидно, что эта система равносильна системе двух уравнений второго порядка xp xp , x x
с общими решениями
, ,xp t C1ett0 C2ett0
x t C1et t0 C2et t0
где C1, C2 – произвольные постоянные. Выбирая начальные условия
xp t0 C1 C2 x t0 , x p t0 C1 C2 x t0
так, чтобы C1 0 , т.е.
xp t0 C2 x t0 , x t0 C2 xp t0
(это обеспечивается выбором программной траектории xp t C2ett0 , t t0 ,t1 ), придем к задаче оп-
тимального торможения или, в противном случае, т.е. когда C1 0 , к задаче оптимального разгона движения исходного объекта управления.
Оптимальная стабилизация вращения твердого тела
В качестве примера синтеза оптимального управления рассмотрим движение твердого тела вокруг
неподвижного центра инерции под действием управляющего момента M :
I I M ,
(17)
либо в скалярной форме
Ap C B qr M x , Bq A C pr M y , Cr B A pq M z ,
Здесь A, B, C – главные центральные моменты инерции тела; p, q, r – проекции вектора угловой
скорости твердого тела на главные центральные оси инерции связанной с телом системы координат
0xyz, I diag A, B,C – тензор инерции. Уравнения Эйлера (17) можно записать в нормальном виде:
62 Научно-технический вестник информационных технологий, механики и оптики,
2012, № 5 (81)
Д.А. Музыка, Р.О. Пещеров, В.Ю. Тертычный-Даури
I 1 I u, u I 1M ,
или
p k1qr u1, q k2 pr u2 , r k3 pq u3 ,
где обозначено
up
Mx A
,
uq
My B
,
ur
Mz C
,
k1
BC A
,
k2
C
B
A
,
k3
AB C
.
Тем самым имеем
f u ,
(18)
1 p
u1
2
q
,
u
u2
,
3 r
u3
k1qr
f
k2
pr
.
k3 pq
Зададим также программную траекторию
p f p .
Введем в рассмотрение вектор-функцию y p , где p p t – программное движение.
Цель управления – минимизация разницы между движением системы и программной траекторией. Необ-
ходимо выбрать закон оптимального стабилизирующего управления u 0 в функции измеряемых значений
t ,t t0 ,t1 так, чтобы обеспечивались следующие целевые условия:
t1
J
u, y,t0 ,t1
y* y t t1 t0
y* y u*u
dt
min , uU
lim(
t t1
yt y t0
)
,
(19)
где 0 – заданная малая постоянная, а y t – евклидова норма вектора y t . Для решения задачи
(17)–(19) воспользуемся полученными ранее результатами. Зададим стационарную функцию Беллмана
V
y
y y
,
V
t1
y y t t1
как решение уравнения Беллмана (4):
min V y V y uu 0 ,
uU
с функционалом качества (19). С учетом выражения (18) выражение (20) запишется в виде
(20)
2y f y y y min 2yu uu 0 , uU
(21)
откуда будет следовать формула задания оптимального управления: u0 y . При таком значении управ-
ления уравнение движения примет следующий вид:
y y F ,t , F ,t f ,t p ,
или
p p f ,t p .
Если положить F ,t 0 , то V y y y 0 t , откуда следует, что y 0 , p
t . Таким образом, имеем ограничение на выбор p : F ,t 0 p f ,t , где
t0 p t0 , т.е. y0 0 , y t y t0 ett0 . Подставляя это выражение, получим дифференциальное
уравнение для определения p t :
p t f p t y t0 ett0 ,t .
Приведем данные численных расчетов для модели (17)–(19). В примере задавались следующие
значения: главных моментов инерции: A = 3 кг·м2; B = 1 кг·м2; C = 2 кг·м2; t0 ,t1 0,10с ;
p 0 5 рад / с ; q 0 6 рад / с ; r 0 7 рад / с ; 0, 05 .
После подстановки u0 y обратно в уравнение Беллмана (20), (21) получим V 2V , V y y 0, y 0, при t по экспоненциальному закону. Из графиков видно, что цель управления достигнута и произведена стабилизация вращения твердого тела. При данном оптимальном управлении u0 функционал ка-
чества J принимает минимальное постоянное значение J V t0 y t0 y t0 110 (рад/с)2, где
y t0 (5,6,7) рад/с.
Научно-технический вестник информационных технологий, механики и оптики, 2012, № 5 (81)
63
ОПТИМАЛЬНЫЙ СИНТЕЗ ДЛЯ ДИНАМИЧЕСКИХ СИСТЕМ С ЗАПАЗДЫВАНИЕМ ...
Рис. 2. Графики зависимостей угловых скоростей вращения твердого тела;
y t t p t ( p1 t ,q1 t , r1(t))
Заключение
Основным результатом проделанной работы следует считать формирование алгоритма оптимального стабилизирующего управления для нелинейных динамических систем с запаздыванием в канале обратной связи. Отметим важные особенности данного алгоритма: 1. Уравнение Беллмана (4) обосновано в той степени, в которой имеют место требования гладкости
функции Беллмана, т.е. в той мере, в которой справедливо допущение о существовании частных про-
изводных S / x , S / t функции S x t ,t ;
2. Уравнение Беллмана (4) позволяет выразить оптимальное управление u0 u0 t h в момент време-
ни t h в функции вектора состояния x t в момент времени t и самого времени t . Отметим, что
формирование блока запаздывания (рис. 1), указывающего на зависимость между управлениями
u0 t , u0 t h , является самостоятельной задачей и в данной статье не рассматривается.
Литература
1. Габасов Р., Кириллова Ф.М. Качественная теория оптимальных процессов. – М.: Наука, 1971. – 508 с. 2. Колмановский В.Б., Носов В.Р. Устойчивость и периодические режимы регулируемых систем с по-
следействием. – М.: Наука, 1981. – 448 с. 3. Матвеев А.С., Якубович В.А. Оптимальные системы управления: обыкновенные дифференциальные
уравнения. Специальные задачи. – СПб: Изд-во СПбГУ, 2003. – 540 с. 4. Тертычный-Даури В.Ю. Галамех. Оптимальная механика. В 4-х томах. – М.: ФИЗМАТЛИТ, 2008. –
Т. 4. – 607 с. 5. Бобцов А.А., Пыркин А.А. К задаче управления параметрически неопределенным линейным объек-
том с запаздыванием в канале управления // Научно-технический вестник СПбГУ ИТМО. – 2011. – № 3 (73). – С. 138. 6. Бобцов А.А., Пыркин А.А. Компенсация гармонического возмущения в условиях запаздывания по управлению // Изв. РАН. Теория и системы управления. – 2008. – № 4. – С. 19–23. 7. Бобцов А.А., Колюбин С.А., Пыркин А.А. Компенсация неизвестного мультигармонического возмущения для нелинейного объекта с запаздыванием по управлению // Автоматика и телемеханика. – 2010. – № 11. – С. 136–148.
Музыка Дмитрий Александрович Пещеров Руслан Олегович Тертычный-Даури Владимир Юрьевич
– Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, магистрант, 146038@niuitmo.ru
– Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, магистрант, rpeshcherov@mail.ru
– Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, доктор физ.-мат. наук, профессор, tertychny-dauri@mail.ru
64 Научно-технический вестник информационных технологий, механики и оптики,
2012, № 5 (81)
УДК 681.5
ОПТИМАЛЬНЫЙ СИНТЕЗ ДЛЯ ДИНАМИЧЕСКИХ СИСТЕМ С ЗАПАЗДЫВАНИЕМ ПО УПРАВЛЕНИЮ
Д.А. Музыка, Р.О. Пещеров, В.Ю. Тертычный-Даури
Рассмотрена задача формирования закона оптимального управления для нелинейных динамических систем с запаздыванием по времени в канале управления. В соответствии с принципом оптимальности обосновывается необходимое условие оптимальности (уравнение Беллмана) для систем с запаздыванием в канале по управлению. Выводы анализа подкрепляются результатами численного моделирования в задаче оптимальной стабилизации вращения твердого тела. Ключевые слова: запаздывание в канале управления, оптимальное управление, принцип оптимальности, беллмановская оптимизация.
Введение Основной поток публикаций по регулируемым динамическим системам с запаздыванием касается вопросов устойчивости и стабилизации изучаемых процессов (например, работы [1–4] и содержащаяся там библиография). Полученные результаты можно рассматривать как обобщение результатов теории дифференциальных уравнений с запаздывающим аргументом в фазовой переменной. В некоторых работах решены задачи с запаздыванием по управлению применительно к общей (но не оптимальной) адаптивной задаче управления с возмущениями [5–7]. Значительно более скромным выглядит список работ по оптимизации управляемых динамических систем с запаздыванием по управлению [1–3]. Данные публикации в основном посвящены принципу максимума с учетом эффекта запаздывания. В настоящей работе, по-видимому, впервые ставится и решается задача синтеза оптимального управления в непрерывных динамических системах с запаздыванием в канале управления с использова-
58 Научно-технический вестник информационных технологий, механики и оптики,
2012, № 5 (81)
Д.А. Музыка, Р.О. Пещеров, В.Ю. Тертычный-Даури
нием беллмановского оптимизационного подхода (метода динамического программирования). На рис. 1 условно изображена схема формируемой системы управления.
У u t БЗ u t h ОУ x t
xt
Рис. 1. Общая блок-схема системы управления с инерционным запаздыванием: ОУ – объект управления; БЗ – блок запаздывания; У – управление
Ставится основная цель – построить оптимальное управление объектом, которое бы решало задачу минимизации функционала качества в условиях запаздывания по управлению.
Постановка задачи
Пусть объект управления задается векторным уравнением
x f x t ,u t h,t ,
(1)
где x t Rn – состояние системы в момент времени t , где t [t0 t1] – заданный интервал, h const 0
– запаздывание в управлении (так называемое инерционное запаздывание); при этом предполагается, что
в самом объекте (1) запаздывания нет, но оно есть в регуляторе u t h Rn . Интегрируя уравнение (1),
получим равносильное ему векторное интегральное уравнение Вольтерра:
t
x t x0 f x s,u s h, s ds,
(2)
t0
где x0 x(t0 ) – заданный вектор начального состояния системы. Уравнение (2) показывает, что x(t) –
состояние системы в момент времени t – зависит от значений управления u(s h) в предыдущие момен-
ты времени s h , где t0 s t(t0 0, h 0) . Далее, управление u() Rn входит в уравнения (1)–(2) в виде значения u() в запаздывающий
момент времени s h , где h 0 . При малых s t0 запаздывающий момент s h может оказаться отрицательным. В связи с этим, чтобы подынтегральное выражение в уравнении (2) имело смысл,
управление u t следует задавать и при отрицательных t , а именно при t t0 h,0 , когда t0 h . Таким
образом, управление u t надо задавать на более широком интервале времени t t0 h,t1 , причем со-
стояние x(t) должно быть определено на более узком интервале времени t t0 ,t1 .
Будем считать, что на управляющие силы u Rn наложены некоторые ограничения: u U Rr , где U – некоторое заданное множество допустимых управлений. Требуется выбором управления
u t , t t0 h,t1 обеспечить минимум функционала качества
t1
J
V
x t1 ,t1
F
x s,u s
h, s ds
min
uU
t0
(3)
и перевести систему (1) из начального состояния x t0 в конечное x t1 . Полагаем, что в системе (1) с
функционалом (3) вектор-функция f и скалярные функции V , F непрерывно дифференцируемы по всем
своим аргументам. Напомним, что принцип оптимальности Беллмана, лежащий в основе метода динамического про-
граммирования, применим для систем, последующее движение которых полностью определяется состоянием этих систем в любой текущий момент времени [1]. Согласно Беллману, оптимальная стратегия определяется только начальным условием и конечной целью, т.е. принцип оптимальности утверждает, что для любого первоначального состояния и стратегии (управления) в начальный момент последующие стратегии должны составлять оптимальное движение относительно состояния, полученного в результате применения начальной стратегии. Указанная формулировка принципа оптимальности останется справед-
ливой и для систем с запаздыванием, если в понятие состояния системы в текущий момент времени t
включить и предысторию изменения фазовых координат системы на промежутке времени последейст-
вия: t h t t .
Научно-технический вестник информационных технологий, механики и оптики, 2012, № 5 (81)
59
ОПТИМАЛЬНЫЙ СИНТЕЗ ДЛЯ ДИНАМИЧЕСКИХ СИСТЕМ С ЗАПАЗДЫВАНИЕМ ...
Отметим также, что отличительной особенностью метода динамического программирования, использующего принцип оптимальности, является то, что отрезки оптимальной траектории определяются в
обратной последовательности, начиная с заданного конечного (целевого) состояния x t1 .
Необходимое условие оптимальности
Принцип оптимальности Беллмана позволяет сформулировать необходимое условие оптимальности для динамических систем с последействием по управлению вида (1) с функционалом качества (3).
Допустим, что x0 t – оптимальная траектория системы (1) с заданным начальным x t0 и ко-
нечным состоянием x t1 . Требуется перевести систему (1) из векторной точки x t0 в векторную точку
x t1 по траектории x0 t , выбрав оптимальное управление u0 t h , минимизирующее функционал
(3). Можно показать, что функционал качества (3) с запаздыванием по времени в управлении можно подходящим функциональным преобразованием свести к функционалу с управлением без запаздывания по времени, но с запаздыванием по индексу [3]. Тем самым возникает возможность использовать стандартные оптимизационные процедуры метода динамического программирования и к системам с запаздыванием по управлению.
Теорема. Пусть поставлена задача синтеза оптимального управления для системы (1) с функционалом (3) с оговоренными выше требованиями непрерывности и гладкости для всех входящих скалярных функций и вектор-функций.
Тогда, если x0 t – оптимальная траектория системы (1) с заданными значениями x t0 и x t1 ,
оптимальное управление u0 t h удовлетворяет уравнение Беллмана (уравнение Гамильтона–Якоби–
Беллмана) вида
min
uU
dS
x0 t,t
dt
F
x0
t
,
u
t
h
,
t
0
,
либо
dS
x0 t,t
dt
F x0 t ,u0 t h,t 0 ,
где обозначено
t1
S
x0 t,t
V
|t1
min uU
F x0 s,u s h, s ds ,
t
причем
S x0 t1 ,t1 V |t1 V x t1 ,t1 ,
а для подынтегральной функции F имеет место равенство (5), (6).
(4)
(5) (6) (7)
Доказательство. Обозначим через S x0 t0 ,t0 минимум функционала J (3). Из принципа опти-
мальности следует, что часть траектории с концами x0 t (в начале при t t ) и x0 t1 (в конце при
t t1 ), удовлетворяющая уравнению (1), также оптимальна. Значит, минимальное значение порождаемо-
го этой частью траектории функционала равно S x0 t ,t (6) с граничным значением S x0 t1 ,t1 V |t1
(7). Приходим тем самым к так называемому функциональному уравнению Беллмана (6). Пусть t t Δt , где Δt – достаточно малый интервал времени. Тогда минимальное значение
функционала по части оптимальной траектории с начальным состоянием x0 t x0 t Δt и конечным
состоянием x0 t1 определяется равенством
t1
S
x0 (t), t
V
|t1
min uU
F x0 s,u s h, s ds .
t
(8)
Разобьем интервал интегрирования на два: от t до t t Δt и от t до t1 . Тогда, сравнивая интегралы (6) и (8), получим, что
S
x0 t,t
V
|t1
t Δt
min
uU
t
F
t1
x0 s,u s h, s ds F t Δt
x
0
s
,
u
s
h
,
s
ds
,
(9)
или с точностью до малых 1 Δt более высокого порядка, чем Δt , можно написать (с учетом опти-
мальности на втором интервале):
60 Научно-технический вестник информационных технологий, механики и оптики,
2012, № 5 (81)
Д.А. Музыка, Р.О. Пещеров, В.Ю. Тертычный-Даури
S
x0 t,t
V
|t1
min
uU
F
x0
t ,u t
h,t Δt
t1
min F uU t'
x0
s
,
u
s
h
,
s
ds
1
Δt
,
где с точностью до 1 Δt имеем в соотношении (9) для первого интеграла справа
t Δt
F x0 s,u s h, s ds F x0 t ,u t h,t Δt 1 Δt ,
t
lim
Δt0
1 Δt
Δt
0
.
Таким образом, имеем запись
S
x0 t,t
min uU
F x0 t ,u t h,t Δt S
x0 (t), t
1 Δt .
Пусть, ради простоты записи, x t x0 t . Тогда, разлагая x(t) в ряд Тейлора, получим
(10)
x(t) x t Δt x t x t Δt 2 Δt x t f x t ,u t h,t Δt 2 Δt ,
(11)
где 2 Δt – остаточный член выше первого порядка малости от Δt . Подставим это разложение x(t)
(11) в выражение для S x t,t . При соответствующем разложении в ряд Тейлора, полагая при этом,
что существуют частные производные S / xi , i 1, n , и S / t , получим
S x(t),t S x t Δt ,t Δt S xt f xt,u t h,t Δt 2 Δt ,t Δt
S
xt,t
n
i 1
S xt,t
xi
fi
xt,u t
h,t Δt
S
xt,t
t
Δt
3
Δt ,
где 3 Δt – это остаточный член выше первого порядка малости по Δt , причем здесь
(12)
n
i 1
S
xt,t
xi
fi
x t ,u t
h , t
S
xt,t
t
dS
xt,t
dt
,
S x
S x1
, S x2
,..., S xn
gradS
,
(*) сверху по-прежнему означает операцию транспонирования. Следовательно, для S x(t), t имеем
S x(t),t
S
x
t
,
t
S
xt
x
,
t
f
x t ,u t h,t Δt
S
xt
t
,
t
Δt
3 Δt .
(13)
Подставим затем выражение (13) в правую часть соотношения (10), полагая x t x0 t . Посколь-
ку выражения S x t ,t и S / t не зависят от u u t h , то их можно вынести за знак min . После uU
сокращения и деления обеих частей на Δt получим
S
x0 t,t
t
min
uU
S
x0 t,t
x0
f
x0 t ,u t
h,t
F
x0
t ,u t
h,t
4 Δt
Δt
,
(14)
где 4 Δt – остаточный член выше первого порядка малости по Δt , т.е. 4 Δt / Δt 0 при Δt 0 .
При Δt 0 из уравнения (14) получим уравнение Беллмана для управляемых систем с запаздыванием в управлении:
либо
S
x0 t,t
t
min
uU
S
x0 t,t
x0
f
x0
t ,u t
h, t
F
x0
t ,u t
h
,
t
,
(15)
S
x0 t,t
t
S
x0 t,t
x0
f x0 t ,u0 t h,t F x0 t ,u0 t h,t .
(16)
С помощью полной производной dS / dt последние два уравнения (15) и (16) можно записать в ви-
де соотношений (4) и (5) соответственно из формулировки теоремы. Тем самым утверждение полностью доказано.
Научно-технический вестник информационных технологий, механики и оптики, 2012, № 5 (81)
61
ОПТИМАЛЬНЫЙ СИНТЕЗ ДЛЯ ДИНАМИЧЕСКИХ СИСТЕМ С ЗАПАЗДЫВАНИЕМ ...
Модельный пример
В качестве простейшего модельного примера можно взять управляемую линейную систему с уравнением движения
x t x t u x t , xp t ,t h , x, xp R ,
с целевым функционалом качества вида (3):
t1
J
V y t1
V ysu2 s h
ds min, uU
t0
где V y t y2 t – функция Беллмана, u t h u x t , xp t ,t h , y t x t xp t , xp t –
программное движение системы, и стабилизационным условием limtt1 x t xp t , где 0 – за-
данная достаточно малая постоянная. Применяя описанный выше метод оптимальной стабилизации с помощью теоремы, получим необходимое условие оптимальности в виде уравнения Беллмана
min V y y2 u2 0 .
uU
C учетом исходного уравнения движения y x xp x u xp это уравнение можно записать в
развернутом виде:
V
y
x x p
y2
min
uU
V y
u
u2
0
,
V y
2y ,
откуда следует формула для выбора оптимального управления
u0 t h u0 x t , xp t ,t h y t x t xp t .
После подстановки u0 в уравнение движения получим
x xp ,
а при подстановке u 0 в уравнение Беллмана будем иметь
2 y x x p y2 2 y2 y2 0,
или 2 y x x p 0 . Чтобы уравнение Беллмана имело место, выберем xp t , полагая x xp 0 .
Таким образом, приходим к системе двух уравнений первого порядка относительно x t и xp t :
x xp , xp x .
Очевидно, что эта система равносильна системе двух уравнений второго порядка xp xp , x x
с общими решениями
, ,xp t C1ett0 C2ett0
x t C1et t0 C2et t0
где C1, C2 – произвольные постоянные. Выбирая начальные условия
xp t0 C1 C2 x t0 , x p t0 C1 C2 x t0
так, чтобы C1 0 , т.е.
xp t0 C2 x t0 , x t0 C2 xp t0
(это обеспечивается выбором программной траектории xp t C2ett0 , t t0 ,t1 ), придем к задаче оп-
тимального торможения или, в противном случае, т.е. когда C1 0 , к задаче оптимального разгона движения исходного объекта управления.
Оптимальная стабилизация вращения твердого тела
В качестве примера синтеза оптимального управления рассмотрим движение твердого тела вокруг
неподвижного центра инерции под действием управляющего момента M :
I I M ,
(17)
либо в скалярной форме
Ap C B qr M x , Bq A C pr M y , Cr B A pq M z ,
Здесь A, B, C – главные центральные моменты инерции тела; p, q, r – проекции вектора угловой
скорости твердого тела на главные центральные оси инерции связанной с телом системы координат
0xyz, I diag A, B,C – тензор инерции. Уравнения Эйлера (17) можно записать в нормальном виде:
62 Научно-технический вестник информационных технологий, механики и оптики,
2012, № 5 (81)
Д.А. Музыка, Р.О. Пещеров, В.Ю. Тертычный-Даури
I 1 I u, u I 1M ,
или
p k1qr u1, q k2 pr u2 , r k3 pq u3 ,
где обозначено
up
Mx A
,
uq
My B
,
ur
Mz C
,
k1
BC A
,
k2
C
B
A
,
k3
AB C
.
Тем самым имеем
f u ,
(18)
1 p
u1
2
q
,
u
u2
,
3 r
u3
k1qr
f
k2
pr
.
k3 pq
Зададим также программную траекторию
p f p .
Введем в рассмотрение вектор-функцию y p , где p p t – программное движение.
Цель управления – минимизация разницы между движением системы и программной траекторией. Необ-
ходимо выбрать закон оптимального стабилизирующего управления u 0 в функции измеряемых значений
t ,t t0 ,t1 так, чтобы обеспечивались следующие целевые условия:
t1
J
u, y,t0 ,t1
y* y t t1 t0
y* y u*u
dt
min , uU
lim(
t t1
yt y t0
)
,
(19)
где 0 – заданная малая постоянная, а y t – евклидова норма вектора y t . Для решения задачи
(17)–(19) воспользуемся полученными ранее результатами. Зададим стационарную функцию Беллмана
V
y
y y
,
V
t1
y y t t1
как решение уравнения Беллмана (4):
min V y V y uu 0 ,
uU
с функционалом качества (19). С учетом выражения (18) выражение (20) запишется в виде
(20)
2y f y y y min 2yu uu 0 , uU
(21)
откуда будет следовать формула задания оптимального управления: u0 y . При таком значении управ-
ления уравнение движения примет следующий вид:
y y F ,t , F ,t f ,t p ,
или
p p f ,t p .
Если положить F ,t 0 , то V y y y 0 t , откуда следует, что y 0 , p
t . Таким образом, имеем ограничение на выбор p : F ,t 0 p f ,t , где
t0 p t0 , т.е. y0 0 , y t y t0 ett0 . Подставляя это выражение, получим дифференциальное
уравнение для определения p t :
p t f p t y t0 ett0 ,t .
Приведем данные численных расчетов для модели (17)–(19). В примере задавались следующие
значения: главных моментов инерции: A = 3 кг·м2; B = 1 кг·м2; C = 2 кг·м2; t0 ,t1 0,10с ;
p 0 5 рад / с ; q 0 6 рад / с ; r 0 7 рад / с ; 0, 05 .
После подстановки u0 y обратно в уравнение Беллмана (20), (21) получим V 2V , V y y 0, y 0, при t по экспоненциальному закону. Из графиков видно, что цель управления достигнута и произведена стабилизация вращения твердого тела. При данном оптимальном управлении u0 функционал ка-
чества J принимает минимальное постоянное значение J V t0 y t0 y t0 110 (рад/с)2, где
y t0 (5,6,7) рад/с.
Научно-технический вестник информационных технологий, механики и оптики, 2012, № 5 (81)
63
ОПТИМАЛЬНЫЙ СИНТЕЗ ДЛЯ ДИНАМИЧЕСКИХ СИСТЕМ С ЗАПАЗДЫВАНИЕМ ...
Рис. 2. Графики зависимостей угловых скоростей вращения твердого тела;
y t t p t ( p1 t ,q1 t , r1(t))
Заключение
Основным результатом проделанной работы следует считать формирование алгоритма оптимального стабилизирующего управления для нелинейных динамических систем с запаздыванием в канале обратной связи. Отметим важные особенности данного алгоритма: 1. Уравнение Беллмана (4) обосновано в той степени, в которой имеют место требования гладкости
функции Беллмана, т.е. в той мере, в которой справедливо допущение о существовании частных про-
изводных S / x , S / t функции S x t ,t ;
2. Уравнение Беллмана (4) позволяет выразить оптимальное управление u0 u0 t h в момент време-
ни t h в функции вектора состояния x t в момент времени t и самого времени t . Отметим, что
формирование блока запаздывания (рис. 1), указывающего на зависимость между управлениями
u0 t , u0 t h , является самостоятельной задачей и в данной статье не рассматривается.
Литература
1. Габасов Р., Кириллова Ф.М. Качественная теория оптимальных процессов. – М.: Наука, 1971. – 508 с. 2. Колмановский В.Б., Носов В.Р. Устойчивость и периодические режимы регулируемых систем с по-
следействием. – М.: Наука, 1981. – 448 с. 3. Матвеев А.С., Якубович В.А. Оптимальные системы управления: обыкновенные дифференциальные
уравнения. Специальные задачи. – СПб: Изд-во СПбГУ, 2003. – 540 с. 4. Тертычный-Даури В.Ю. Галамех. Оптимальная механика. В 4-х томах. – М.: ФИЗМАТЛИТ, 2008. –
Т. 4. – 607 с. 5. Бобцов А.А., Пыркин А.А. К задаче управления параметрически неопределенным линейным объек-
том с запаздыванием в канале управления // Научно-технический вестник СПбГУ ИТМО. – 2011. – № 3 (73). – С. 138. 6. Бобцов А.А., Пыркин А.А. Компенсация гармонического возмущения в условиях запаздывания по управлению // Изв. РАН. Теория и системы управления. – 2008. – № 4. – С. 19–23. 7. Бобцов А.А., Колюбин С.А., Пыркин А.А. Компенсация неизвестного мультигармонического возмущения для нелинейного объекта с запаздыванием по управлению // Автоматика и телемеханика. – 2010. – № 11. – С. 136–148.
Музыка Дмитрий Александрович Пещеров Руслан Олегович Тертычный-Даури Владимир Юрьевич
– Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, магистрант, 146038@niuitmo.ru
– Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, магистрант, rpeshcherov@mail.ru
– Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, доктор физ.-мат. наук, профессор, tertychny-dauri@mail.ru
64 Научно-технический вестник информационных технологий, механики и оптики,
2012, № 5 (81)