ОПТИМАЛЬНЫЙ СИНТЕЗ ДЛЯ ДИНАМИЧЕСКИХ СИСТЕМ С ЗАПАЗДЫВАНИЕМ ПО УПРАВЛЕНИЮ

ОПТИМАЛЬНЫЙ СИНТЕЗ ДЛЯ ДИНАМИЧЕСКИХ СИСТЕМ С ЗАПАЗДЫВАНИЕМ ...
УДК 681.5
ОПТИМАЛЬНЫЙ СИНТЕЗ ДЛЯ ДИНАМИЧЕСКИХ СИСТЕМ С ЗАПАЗДЫВАНИЕМ ПО УПРАВЛЕНИЮ
Д.А. Музыка, Р.О. Пещеров, В.Ю. Тертычный-Даури
Рассмотрена задача формирования закона оптимального управления для нелинейных динамических систем с запаздыванием по времени в канале управления. В соответствии с принципом оптимальности обосновывается необходимое условие оптимальности (уравнение Беллмана) для систем с запаздыванием в канале по управлению. Выводы анализа подкрепляются результатами численного моделирования в задаче оптимальной стабилизации вращения твердого тела. Ключевые слова: запаздывание в канале управления, оптимальное управление, принцип оптимальности, беллмановская оптимизация.
Введение Основной поток публикаций по регулируемым динамическим системам с запаздыванием касается вопросов устойчивости и стабилизации изучаемых процессов (например, работы [1–4] и содержащаяся там библиография). Полученные результаты можно рассматривать как обобщение результатов теории дифференциальных уравнений с запаздывающим аргументом в фазовой переменной. В некоторых работах решены задачи с запаздыванием по управлению применительно к общей (но не оптимальной) адаптивной задаче управления с возмущениями [5–7]. Значительно более скромным выглядит список работ по оптимизации управляемых динамических систем с запаздыванием по управлению [1–3]. Данные публикации в основном посвящены принципу максимума с учетом эффекта запаздывания. В настоящей работе, по-видимому, впервые ставится и решается задача синтеза оптимального управления в непрерывных динамических системах с запаздыванием в канале управления с использова-
58 Научно-технический вестник информационных технологий, механики и оптики,
2012, № 5 (81)

Д.А. Музыка, Р.О. Пещеров, В.Ю. Тертычный-Даури
нием беллмановского оптимизационного подхода (метода динамического программирования). На рис. 1 условно изображена схема формируемой системы управления.
У u t  БЗ u t  h ОУ x t 

xt

Рис. 1. Общая блок-схема системы управления с инерционным запаздыванием: ОУ – объект управления; БЗ – блок запаздывания; У – управление

Ставится основная цель – построить оптимальное управление объектом, которое бы решало задачу минимизации функционала качества в условиях запаздывания по управлению.

Постановка задачи

Пусть объект управления задается векторным уравнением

x  f x t ,u t  h,t ,

(1)

где x t   Rn – состояние системы в момент времени t , где t [t0 t1] – заданный интервал, h  const  0
– запаздывание в управлении (так называемое инерционное запаздывание); при этом предполагается, что
в самом объекте (1) запаздывания нет, но оно есть в регуляторе u t  h  Rn . Интегрируя уравнение (1),

получим равносильное ему векторное интегральное уравнение Вольтерра:

t

x t   x0   f x s,u s  h, s ds,

(2)

t0

где x0  x(t0 ) – заданный вектор начального состояния системы. Уравнение (2) показывает, что x(t) –

состояние системы в момент времени t – зависит от значений управления u(s  h) в предыдущие момен-

ты времени s  h , где t0  s  t(t0  0, h  0) . Далее, управление u()  Rn входит в уравнения (1)–(2) в виде значения u() в запаздывающий

момент времени   s  h , где h  0 . При малых s  t0 запаздывающий момент   s  h может оказаться отрицательным. В связи с этим, чтобы подынтегральное выражение в уравнении (2) имело смысл,

управление u t  следует задавать и при отрицательных t , а именно при t t0  h,0 , когда t0  h . Таким

образом, управление u t  надо задавать на более широком интервале времени t t0  h,t1  , причем со-

стояние x(t) должно быть определено на более узком интервале времени t t0 ,t1  .

Будем считать, что на управляющие силы u  Rn наложены некоторые ограничения: u U  Rr , где U – некоторое заданное множество допустимых управлений. Требуется выбором управления

u t , t t0  h,t1 обеспечить минимум функционала качества

t1

J

V

 x t1 ,t1 



F

x s,u s



h, s ds 

min
uU

t0

(3)

и перевести систему (1) из начального состояния x t0  в конечное x t1  . Полагаем, что в системе (1) с

функционалом (3) вектор-функция f и скалярные функции V , F непрерывно дифференцируемы по всем

своим аргументам. Напомним, что принцип оптимальности Беллмана, лежащий в основе метода динамического про-
граммирования, применим для систем, последующее движение которых полностью определяется состоянием этих систем в любой текущий момент времени [1]. Согласно Беллману, оптимальная стратегия определяется только начальным условием и конечной целью, т.е. принцип оптимальности утверждает, что для любого первоначального состояния и стратегии (управления) в начальный момент последующие стратегии должны составлять оптимальное движение относительно состояния, полученного в результате применения начальной стратегии. Указанная формулировка принципа оптимальности останется справед-
ливой и для систем с запаздыванием, если в понятие состояния системы в текущий момент времени t
включить и предысторию изменения фазовых координат системы на промежутке времени последейст-
вия: t  h  t  t .

Научно-технический вестник информационных технологий, механики и оптики, 2012, № 5 (81)

59

ОПТИМАЛЬНЫЙ СИНТЕЗ ДЛЯ ДИНАМИЧЕСКИХ СИСТЕМ С ЗАПАЗДЫВАНИЕМ ...

Отметим также, что отличительной особенностью метода динамического программирования, использующего принцип оптимальности, является то, что отрезки оптимальной траектории определяются в
обратной последовательности, начиная с заданного конечного (целевого) состояния x t1 .

Необходимое условие оптимальности

Принцип оптимальности Беллмана позволяет сформулировать необходимое условие оптимальности для динамических систем с последействием по управлению вида (1) с функционалом качества (3).
Допустим, что x0 t  – оптимальная траектория системы (1) с заданным начальным x t0  и ко-
нечным состоянием x t1  . Требуется перевести систему (1) из векторной точки x t0  в векторную точку
x t1  по траектории x0 t  , выбрав оптимальное управление u0 t  h , минимизирующее функционал
(3). Можно показать, что функционал качества (3) с запаздыванием по времени в управлении можно подходящим функциональным преобразованием свести к функционалу с управлением без запаздывания по времени, но с запаздыванием по индексу [3]. Тем самым возникает возможность использовать стандартные оптимизационные процедуры метода динамического программирования и к системам с запаздыванием по управлению.
Теорема. Пусть поставлена задача синтеза оптимального управления для системы (1) с функционалом (3) с оговоренными выше требованиями непрерывности и гладкости для всех входящих скалярных функций и вектор-функций.
Тогда, если x0 t  – оптимальная траектория системы (1) с заданными значениями x t0  и x t1  ,
оптимальное управление u0 t  h удовлетворяет уравнение Беллмана (уравнение Гамильтона–Якоби–

Беллмана) вида

 min
uU

  

dS

x0 t,t
dt



F



x0



t



,

u

t



h



,

t



 



0

,



либо

 dS

x0 t,t
dt

 F x0 t ,u0 t  h,t   0 ,

где обозначено

t1

  S

x0 t,t

V

|t1

 min uU

F x0 s,u s  h, s ds ,

t

причем

   S x0 t1 ,t1  V |t1  V x t1 ,t1 ,

а для подынтегральной функции F  имеет место равенство (5), (6).

(4)
(5) (6) (7)

 Доказательство. Обозначим через S x0 t0 ,t0 минимум функционала J (3). Из принципа опти-

мальности следует, что часть траектории с концами x0 t  (в начале при t  t ) и x0 t1  (в конце при
t  t1 ), удовлетворяющая уравнению (1), также оптимальна. Значит, минимальное значение порождаемо-
   го этой частью траектории функционала равно S x0 t ,t (6) с граничным значением S x0 t1 ,t1  V |t1
(7). Приходим тем самым к так называемому функциональному уравнению Беллмана (6). Пусть t  t  Δt , где Δt – достаточно малый интервал времени. Тогда минимальное значение
функционала по части оптимальной траектории с начальным состоянием x0 t  x0 t  Δt  и конечным

состоянием x0 t1  определяется равенством

t1

  S

x0 (t), t

V

|t1

 min uU

F x0 s,u s  h, s ds .

t

(8)

Разобьем интервал интегрирования на два: от t до t  t  Δt и от t до t1 . Тогда, сравнивая интегралы (6) и (8), получим, что

   S

x0 t,t

V

|t1

 t Δt



min
uU



t

F

t1
x0 s,u s  h, s ds  F t Δt



x

0



s



,

u



s



h



,

s



ds

 

,

(9)

или с точностью до малых 1 Δt  более высокого порядка, чем Δt , можно написать (с учетом опти-
мальности на втором интервале):

60 Научно-технический вестник информационных технологий, механики и оптики,
2012, № 5 (81)

Д.А. Музыка, Р.О. Пещеров, В.Ю. Тертычный-Даури

  S

x0 t,t

V

|t1



min
uU

 

F

 x0

t ,u t

 h,t Δt

t1
 min F uU t'

 x0



s



,

u



s



h



,

s



ds

 



1



Δt



,

где с точностью до 1 Δt  имеем в соотношении (9) для первого интеграла справа

t Δt
 F x0 s,u s  h, s ds  F x0 t ,u t  h,t Δt  1 Δt  ,
t

lim
Δt0

1 Δt 
Δt



0

.

Таким образом, имеем запись

    S

x0 t,t

 min uU

F x0 t ,u t  h,t Δt  S

x0 (t), t

 1 Δt  .

Пусть, ради простоты записи, x t   x0 t  . Тогда, разлагая x(t) в ряд Тейлора, получим

(10)

x(t)  x t  Δt   x t   x t  Δt  2 Δt   x t   f x t ,u t  h,t Δt  2 Δt  ,

(11)

где 2 Δt  – остаточный член выше первого порядка малости от Δt . Подставим это разложение x(t)

(11) в выражение для S  x t,t . При соответствующем разложении в ряд Тейлора, полагая при этом,

что существуют частные производные S / xi , i  1, n , и S / t , получим

 S  x(t),t  S x t  Δt ,t  Δt  S xt  f xt,u t  h,t Δt  2 Δt ,t  Δt 



S

 xt,t  

n

i 1

S  xt,t
xi

fi

xt,u t

 h,t Δt



S

xt,t
t

Δt



3

 Δt  ,

где 3 Δt  – это остаточный член выше первого порядка малости по Δt , причем здесь

(12)

n

i 1

S

xt,t
xi

fi

x t ,u t



h  , t 



S

xt,t
t



dS

xt,t
dt

,

S x



  

S x1

, S x2

,..., S xn

  



gradS

,

(*) сверху по-прежнему означает операцию транспонирования. Следовательно, для S  x(t), t имеем

S  x(t),t



S



x



t



,

t





 

S



xt
x



,

t



 

f

x t ,u t  h,t Δt



S



xt
t



,

t



Δt

 3 Δt .

(13)

Подставим затем выражение (13) в правую часть соотношения (10), полагая x t   x0 t  . Посколь-

ку выражения S  x t ,t  и S / t не зависят от u   u t  h , то их можно вынести за знак min . После uU
сокращения и деления обеих частей на Δt получим

   S


x0 t,t
t



min
uU



S

x0 t,t
x0

  

f

x0 t ,u t

 h,t  

F

 x0

t ,u t

 h,t  


4 Δt 
Δt

,

(14)

где 4 Δt  – остаточный член выше первого порядка малости по Δt , т.е. 4 Δt  / Δt  0 при Δt  0 .
При Δt  0 из уравнения (14) получим уравнение Беллмана для управляемых систем с запаздыванием в управлении:

либо

   S


x0 t,t
t



min
uU



S

x0 t,t
x0

  

f

 x0

t ,u t

 h, t 



F

 x0

t ,u t



h



,

t



 

,



(15)

   S


x0 t,t
t

 S 


x0 t,t
x0



 

f x0 t ,u0 t  h,t   F x0 t ,u0 t  h,t  .

(16)

С помощью полной производной dS / dt последние два уравнения (15) и (16) можно записать в ви-
де соотношений (4) и (5) соответственно из формулировки теоремы. Тем самым утверждение полностью доказано.

Научно-технический вестник информационных технологий, механики и оптики, 2012, № 5 (81)

61

ОПТИМАЛЬНЫЙ СИНТЕЗ ДЛЯ ДИНАМИЧЕСКИХ СИСТЕМ С ЗАПАЗДЫВАНИЕМ ...

Модельный пример

В качестве простейшего модельного примера можно взять управляемую линейную систему с уравнением движения

x t   x t   u x t , xp t ,t  h , x, xp  R ,
с целевым функционалом качества вида (3):

t1

 J

 V  y t1   

V  ysu2 s  h

ds  min, uU

t0

где V  y t   y2 t  – функция Беллмана, u t  h  u x t , xp t ,t  h , y t   x t   xp t  , xp t  –

программное движение системы, и стабилизационным условием limtt1 x t   xp t   , где   0 – за-
данная достаточно малая постоянная. Применяя описанный выше метод оптимальной стабилизации с помощью теоремы, получим необходимое условие оптимальности в виде уравнения Беллмана
 min V  y  y2  u2  0 .
uU
C учетом исходного уравнения движения y  x  xp  x  u  xp это уравнение можно записать в
развернутом виде:

 V
y

x  x p



y2



min
uU

  

V y

u



u2

  



0

,

V y

 2y ,

откуда следует формула для выбора оптимального управления

u0 t  h  u0 x t , xp t ,t  h   y t     x t   xp t  .

После подстановки u0 в уравнение движения получим

x  xp ,

а при подстановке u 0 в уравнение Беллмана будем иметь

 2 y x  x p  y2  2 y2  y2  0,

 или 2 y x  x p  0 . Чтобы уравнение Беллмана имело место, выберем xp t  , полагая x  xp  0 .

Таким образом, приходим к системе двух уравнений первого порядка относительно x t  и xp t  :
x  xp , xp  x .
Очевидно, что эта система равносильна системе двух уравнений второго порядка xp  xp , x  x
с общими решениями

   , ,xp t  C1ett0  C2ett0 

x t  C1et t0  C2et t0 

где C1, C2 – произвольные постоянные. Выбирая начальные условия
xp t0   C1  C2  x t0 , x p t0   C1  C2  x t0 

так, чтобы C1  0 , т.е.
xp t0   C2  x t0 , x t0   C2  xp t0 

(это обеспечивается выбором программной траектории  xp t  C2ett0  , t t0 ,t1  ), придем к задаче оп-

тимального торможения или, в противном случае, т.е. когда C1  0 , к задаче оптимального разгона движения исходного объекта управления.

Оптимальная стабилизация вращения твердого тела

В качестве примера синтеза оптимального управления рассмотрим движение твердого тела вокруг

неподвижного центра инерции под действием управляющего момента M :

I   I  M ,

(17)

либо в скалярной форме

Ap  C  B qr  M x , Bq   A  C  pr  M y , Cr   B  A pq  M z ,

Здесь A, B, C – главные центральные моменты инерции тела; p, q, r – проекции вектора угловой

скорости  твердого тела на главные центральные оси инерции связанной с телом системы координат

0xyz, I  diag  A, B,C  – тензор инерции. Уравнения Эйлера (17) можно записать в нормальном виде:

62 Научно-технический вестник информационных технологий, механики и оптики,
2012, № 5 (81)

Д.А. Музыка, Р.О. Пещеров, В.Ю. Тертычный-Даури

  I 1  I  u, u  I 1M ,

или

p  k1qr  u1, q  k2 pr  u2 , r  k3 pq  u3 ,

где обозначено

up



Mx A

,

uq



My B

,

ur



Mz C

,

k1



BC A

,

k2



C

 B

A

,

k3



AB C

.

Тем самым имеем

  f   u ,

(18)

 1   p 

 u1 





 

2

 



 

q

 

,

u



 

u2

 

,

 3   r 

 u3 

 k1qr 

f





 

k2

pr

 

.

 k3 pq 

Зададим также программную траекторию

 p  f p  .

Введем в рассмотрение вектор-функцию y    p , где p  p t  – программное движение.

Цель управления – минимизация разницы между движением системы и программной траекторией. Необ-

ходимо выбрать закон оптимального стабилизирующего управления u 0 в функции измеряемых значений

t ,t t0 ,t1  так, чтобы обеспечивались следующие целевые условия:

  t1

 J

u, y,t0 ,t1

 y* y  t t1 t0

y* y  u*u

dt

 min , uU

lim(
t t1

yt y t0 

)



,

(19)

где   0 – заданная малая постоянная, а y t  – евклидова норма вектора y t  . Для решения задачи

(17)–(19) воспользуемся полученными ранее результатами. Зададим стационарную функцию Беллмана

 V

y



y y

,

V

t1



y y t t1

как решение уравнения Беллмана (4):

min V  y V  y  uu  0 ,
uU

с функционалом качества (19). С учетом выражения (18) выражение (20) запишется в виде

(20)

 2y f  y  y y  min 2yu  uu  0 , uU

(21)

откуда будет следовать формула задания оптимального управления: u0   y . При таком значении управ-

ления уравнение движения примет следующий вид:

y  y  F ,t  , F ,t   f ,t    p ,

или

   p    p  f ,t    p .

Если положить F ,t   0 , то V  y  y y  0 t   , откуда следует, что y  0 ,   p

t   . Таким образом, имеем ограничение на выбор p : F ,t   0 p  f ,t , где

t0   p t0  , т.е. y0  0 , y t   y t0  ett0  . Подставляя это выражение, получим дифференциальное

уравнение для определения p t  :

  p t   f p t   y t0  ett0  ,t .

Приведем данные численных расчетов для модели (17)–(19). В примере задавались следующие

значения: главных моментов инерции: A = 3 кг·м2; B = 1 кг·м2; C = 2 кг·м2; t0 ,t1   0,10с ;

p 0  5 рад / с ; q 0  6 рад / с ; r 0  7 рад / с ;   0, 05 .

После подстановки u0   y обратно в уравнение Беллмана (20), (21) получим V  2V , V  y y  0, y  0, при t   по экспоненциальному закону. Из графиков видно, что цель управления достигнута и произведена стабилизация вращения твердого тела. При данном оптимальном управлении u0 функционал ка-
чества J принимает минимальное постоянное значение J  V t0   y t0  y t0   110 (рад/с)2, где
y t0   (5,6,7) рад/с.

Научно-технический вестник информационных технологий, механики и оптики, 2012, № 5 (81)

63

ОПТИМАЛЬНЫЙ СИНТЕЗ ДЛЯ ДИНАМИЧЕСКИХ СИСТЕМ С ЗАПАЗДЫВАНИЕМ ...

Рис. 2. Графики зависимостей угловых скоростей вращения твердого тела;
y t   t   p t   ( p1 t ,q1 t , r1(t))

Заключение

Основным результатом проделанной работы следует считать формирование алгоритма оптимального стабилизирующего управления для нелинейных динамических систем с запаздыванием в канале обратной связи. Отметим важные особенности данного алгоритма: 1. Уравнение Беллмана (4) обосновано в той степени, в которой имеют место требования гладкости
функции Беллмана, т.е. в той мере, в которой справедливо допущение о существовании частных про-
изводных S / x , S / t функции S  x t ,t  ;

2. Уравнение Беллмана (4) позволяет выразить оптимальное управление u0  u0 t  h в момент време-

ни t  h в функции вектора состояния x t  в момент времени t и самого времени t . Отметим, что
формирование блока запаздывания (рис. 1), указывающего на зависимость между управлениями
u0 t  , u0 t  h , является самостоятельной задачей и в данной статье не рассматривается.
Литература

1. Габасов Р., Кириллова Ф.М. Качественная теория оптимальных процессов. – М.: Наука, 1971. – 508 с. 2. Колмановский В.Б., Носов В.Р. Устойчивость и периодические режимы регулируемых систем с по-
следействием. – М.: Наука, 1981. – 448 с. 3. Матвеев А.С., Якубович В.А. Оптимальные системы управления: обыкновенные дифференциальные
уравнения. Специальные задачи. – СПб: Изд-во СПбГУ, 2003. – 540 с. 4. Тертычный-Даури В.Ю. Галамех. Оптимальная механика. В 4-х томах. – М.: ФИЗМАТЛИТ, 2008. –
Т. 4. – 607 с. 5. Бобцов А.А., Пыркин А.А. К задаче управления параметрически неопределенным линейным объек-
том с запаздыванием в канале управления // Научно-технический вестник СПбГУ ИТМО. – 2011. – № 3 (73). – С. 138. 6. Бобцов А.А., Пыркин А.А. Компенсация гармонического возмущения в условиях запаздывания по управлению // Изв. РАН. Теория и системы управления. – 2008. – № 4. – С. 19–23. 7. Бобцов А.А., Колюбин С.А., Пыркин А.А. Компенсация неизвестного мультигармонического возмущения для нелинейного объекта с запаздыванием по управлению // Автоматика и телемеханика. – 2010. – № 11. – С. 136–148.

Музыка Дмитрий Александрович Пещеров Руслан Олегович Тертычный-Даури Владимир Юрьевич

– Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, магистрант, 146038@niuitmo.ru
– Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, магистрант, rpeshcherov@mail.ru
– Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, доктор физ.-мат. наук, профессор, tertychny-dauri@mail.ru

64 Научно-технический вестник информационных технологий, механики и оптики,
2012, № 5 (81)