Рассматривается задача управления с прогнозирующей моделью по критерию «mean-variance» для дискретных систем с мультипликативными шумами и скачкообразно меняющимися параметрами. Параметры уравнений меняются в соответствии с эволюцией однородной марковской цепи с конечным пространством состояний и известной матрицей переходных вероятностей. Определена стратегия управления с учетом явных ограничений на управляющие переменные.
Mean-variance MPC for linear systems with Markovian jumps under constraints.pdf Моделями с марковскими скачкообразными параметрами описывается широкий класс реальных систем [1]. В этих моделях предполагается, что смена структуры системы осуществляется в соответствии с эволюцией наблюдаемой или скрытой марковской цепи с конечным пространством состояний. Решению различных задач управления и оценивания для таких систем посвящено значительное количество работ [2-12]. В работах нобелевского лауреата по экономике Г. Марковица [13] при решении однопериодной (статической) задачи оптимизации инвестиционного портфеля (ИП) был предложен критерий «mean-variance» («среднее - вариация»). Этот критерий представляет собой соотношение (trade-off) между вариацией и математическим ожиданием выхода системы. В динамической постановке задача управления по критерию «mean - variance» в непрерывном и дискретном времени на примере оптимизации ИП рассматривалась в [14-16]. С учетом марковских скачков параметров уравнений данная задача решена в работах [11, 12]. В этих работах задача минимизации критерия решается в конечной точке горизонта управления. При этом не контролируются значения вариации и математического ожидания выхода системы в промежуточных точках траектории. В работах [6, 7] сформулирована и решена задача управления системами с марковскими скачками и мультипликативными шумами на конечном горизонте с учетом значений дисперсии и математического ожидания выхода вдоль всей траектории управления. В упомянутых выше работах [6, 7, 11, 12, 14-16] не учитываются ограничения на переменные управления. Однако во многих практических задачах, в том числе при оптимизации ИП, необходимо учитывать жесткие ограничения на управляющие воздействия. Эффективным подходом к синтезу систем управления с ограничениями, получившим широкое признание и применение в практике управления сложными технологическими процессами, является метод управления с прогнозирующей моделью (управление со скользящим горизонтом) [17]. Применению данного метода к управлению дискретными системами с марковскими скачками посвящены работы [3, 5]. В [5] предлагается метод синтеза стратегий управления при «мягких» вероятностных ограничениях. В работе [3] рассматривается задача управления по квадратичному критерию при «жестких» ограничениях на управляющие переменные. В настоящей работе рассматривается задача синтеза стратегий управления с прогнозированием для систем с марковскими скачками и мультипликативными шумами по критерию «mean-variance». Получены уравнения синтеза оптимальных стратегий управления с учетом «жестких» ограничений на управляющие переменные. 1. Постановка задачи Пусть объект управления описывается уравнением B0[a(k +1),k +1] + £Bj [a(k +1),k +1]wj (k +1) j =1 x(k +1) = Ax(k) + u(k), (1) где x(k) - ^-мерный вектор состояния, u(k) - «„-мерный вектор управления, Wj(k), j = 1,2,...,n, - независимые между собой дискретные белые шумы с нулевым средним и единичной дисперсией, a(k), k = 0,1,2..., - однородная дискретная марковская цепь с конечным множеством состояний {1,2,.,v}, известной матрицей переходных вероятностей P = [ Pj ], i, j е {1,2,..., v}, Pn= P {a(k +1) = aj |a(k) = a }, £ Pfi = 1, j=1 и известным начальным распределением Pi = p{a(o) = i}, i = 1,2,...,v; £p, = 1. i =1 Предполагается, что состояние марковской цепи a(k) в момент времени k доступно наблюдению. Последовательности wjk) и a(k) независимы. A, Bj[a(k),k], j = 0,.,n, - матрицы соответствующих размерностей. Пусть скалярный выход системы (1) y(k) = L(k) x(k), (2) где L(k) - вектор-строка соответствующей размерности. На управляющие воздействия накладываются ограничения „min (k) < S(k)U(k) < Umax(k), (3) где S(k) - матрица соответствующей размерности. Для управления системой (1) при ограничениях (3) синтезируем стратегии с прогнозирующей моделью по следующему правилу. На каждом шаге k минимизируем «теап^апапсе»-критерий со скользящим горизонтом управления: m J (k + m / k) = £ pj(k, i)M {(y(k + i) - M {y(k + i)/ x(k), a(k )})2 / x(k), a(k)} i =1 -p2 (k, i)M {y(k + i) / x(k), a( k)} + +M {uT (k + i -1/ k) R(k, i - 1)u(k + i -1/ k)/ x(k), a(k)}, (4) на траекториях системы (1) по последовательности прогнозирующих управлений u(kk),... ,u(k+m-1/k), зависящих от состояния системы в момент времени k, при ограничениях (3), p1(k,i) > 0, p2(k,i) > 0 - весовые коэффициенты, R(k,i) > 0 - весовая матрица соответствующей размерности, m - горизонт прогноза, k - текущий момент времени. В качестве управления в момент времени k берем u(k) = u(k/k). Чтобы получить управление u(k+1) на следующем шаге, процедура повторяется для следующего момента k+1 и т.д. Весовые коэффициенты p1(k,i)>0, p2(k,i)>0 можно рассматривать как коэффициенты склонности к риску, задающие соотношение между ожидаемым выходом системы и соответствующим риском (вариацией) в момент времени k. Замечание 1. В критерии (4) присутствуют слагаемые, содержащие квадратичные формы от управлений. В общем случае наличие этих слагаемых гарантирует существование решения задачи управления. 2. Синтез стратегий управления с прогнозированием Цепь Маркова с дискретным временем допускает следующее представление в пространстве состояний [9]: 0(k +1) = P0(k) + u(k +1), (5) где 0(k) = [5(a(k),1),...,5(a(k),v)]T, 5(a(k)j) - функция Кронекера, j = 1,2,...,v; u(k) -мартингал разность с характеристиками M {u(k +1)/ 0(k )} = 0; (6) C (k +1) = M{ u(k + 1)uT (k +1)/0(k)> = diag{P0(k)> - P diag{0(k)}PT. (7) С учетом (5) систему (1) можно представить в следующем виде: B0 [0(k +1), k +1] + £ Bj [0(k +1), k + 1]wj (k +1) x(k +1) = Ax(k) + u(k), (8) j=1 где Bj [0(k), k] = £ 0,. (k)Bj(1) (k), (j = M). (9) i=1 Здесь 0,(k), i = 1,2, .,v, - компоненты вектора 0(k), Щ- г)>, j = 0,...,n, i = 1,...,v, -множество значений матрицы Bj[0(k),k]. Критерий (4) будет иметь вид m J (k+m / k)=£pj(k ,i)M {(y(k+i) -M {y(k+i)/x(k ),0(k x(k ),0(k)}- (10) i=1 -p2(k ,i) M {y(k+i)/x(k ),0(k)}+ M {uT (k+i-1/k) R(k ,i-1)u(k+i-1/k)/x(k ),0(k)}, Теорема. Вектор прогнозирующих управлений U(k) = [uT(k/k),.,uT(k+m-1/k)]T, минимизирующий критерий (4) при ограничениях вида (3), на каждом шаге k определяется из решения задачи квадратичного программирования с критерием вида Y (k + m / k) = UT (k) H (k )U (k) - F (k )U (k) (11) при ограничениях Umm(k) < S(k)U(k) < UmaX(k), (12) S(k) = diag(S(k),..., S(k + m -1)), U min (k) = [«L(k),..., uln(k + m - 1)]T , (13) (14) U max (k) = [um ax(k),..., ^m aX(k + m - 1)]T ; H(k), F(k) - блочные матрицы вида " Hu(k) H^(k) - Hm (k )■ H (k) = H21 (k) H22 (k) ••• H2m (k) _ Hml{k ) Hm2(k ) ••• Hmm (k ). F(k) = [F1(k) F2(k) ••• Fm (k)], где блоки которых равны i ((k +t))T Er [diag {0(k)} - P' diag (6(k)} (P )T ] ETq Q (m -t)B0r) (k +t) + n v t Htt (k) = R(k, t -1) + q=1 r=1 +ZZ((q)(k +t)) [Eq diag{((k)}}]Q(m-t)Bjq)(k +t); (15) j=1 q=1 Htf (k) = ££ ((q) (k +1) )T Er [Pf-t diag {0(k)} q=1 r=1 Ft (k) = Q2(m -1)XEqPt0(k)B0q) (k +1); q=1 Q1(t) = ATQ1(t -1)A + LT (k + m - t)p1(k,m -1)L(k + m -1),(t = 1m); Q1 (0) = LT (k + m)p1 (k,m)L(k + m); Q2 (t) = Q2(t -1)A + L(k + m - t)p2 (k, m - t),(t = 1, m); Q2(0) = L(k + m)p2(k, m); Eq = [0,...,0,1,0,...,0], q = ^. Оптимальное управление U (k) = [InK 0n. - 0n. ] U(kX -Pf diag(0(k)} (P') ETq (AT )f-t Q (m - f)B0r) (k + f), f > t; (16) (17) (18) (19) (20) (21) (2) (23) H'f (k) = Hj (k), t > f ; ft где In - единичная матрица размерности nu, 0n - квадратная нулевая матрица размерности nu. Замечание 2. Заметим, что условие R(k,i)>0 гарантирует, что матрица H(k) будет положительно определенная и, следовательно, решение задачи квадратичного программирования с критерием (4) существует и единственное. Доказательство. Введем обозначение Jk+s = M {[ft(k,1)[y(k +1) -M{y(k +1)/x(k), 0(k)}]2 --p2 (k, 1)y(k +1) + uT (k/ k)R(k, 0)u(k /k)] / x(k), 0(k)} + +M {[pj (k, 2)[y(k + 2) - M{y(k + 2) / x(k), 0(k)}]2 --p2 (k, 2) y(k + 2) + uT (k +1/ k) R(k, 1)u(k +1/ k)] / x(k), 0(k)} +... + +M {[pj (k, s)[y(k + s) -M{y(k + s) / x(k), 0(k)}]2 - -p2 (k, s) y (k + s) + uT (k + s -1/ k) R (k, s - 1)u(k + s -1/ k)] / x(k), 0(k)}. Очевидно, что Jk+s+1 = M {[p (k + s + 1)[y(k + s +1) -M{y(k + s +1)/ x(k), 0(k)}]2 --p2 (k, s +1) y(k + s +1) + uT (k + s / k) R(k, s )u (k + s / k) ] / x(k), 0(k)} + Jk+s (24) и J (k + m / k) = Jk+m. (25) Рассмотрим Jk+1 = M {[pi (k, 1)[y(k +1) - M{y(k +1) / x(k), 0(k)}]2 - -p2 (k, 1) y(k +1) + uT (k / k) R(k, 0)u (k / k)] / x(k), 0(k)}. (26) Подставив в (26) вместо y(k+1) его выражение через x(k) из (2) и (8), вместо 0(k+1) его выражение через 0(k) из (5) и взяв условное математическое ожидание, будем иметь Jk+ = uT (k / k)£ £ (B0r) (k + 1))T [EgC(k +1)ET ]Lt (k + 1)P1 (k, 1) X r=1 g=1 n V V xL(k +1) B0g) (k + 1)u (k / k) + uT (k / k )£££ (Bsr) (k + 1))T Eg [ P0(k )0T (k) PT + s=1 r=1 g =1 +C (k + 1)]ErTLT (k + 1)pj (k, 1) L( k +1) Bs( g) (k +1) u( k / k) - V -p2 (k, 1) L(k +1) Ax(k) - p2 (k, 1) L(k +1)£ [ ErP0(k )]B0r) (k + 1)u (k / k) + r=1 +uT (k / k) R(k ,0)u(k / k), где C(k+1) = M{u(k+1 )uT(k+1)/0(k)}. Предположим далее, что для некоторого q верно т q v v 1 i Jk+ q =£uT(k + i-1/k)££(b0r)(k + i)) [Eg£P'-1 C(k +1)(Pl-ifErr]x i=1 r=1 g=1 ' =1 q £ (A'-i )T LT (k + /)Pj (k, /) L(k + /) A'-iB^g) (k + i)u(k + i -1/ k) + t=i T q n v v £uT (k + i -1/k){£££()(k + i)) Eg [Pi0(k)0T (k)(Pi )T + i=1 s=1 r=1 g=1 (At-i )T L (k +1)p1 (k, t)L(k +1)At-'B(Sg) (k + i) + R(k, i)}u(k + i -1/ k) + t=i q-1 _ | t _i_ +2i i uT (k + i -1/k) jXX(B0r)(k + i)) [Eg i Pj C(k + 1)(Р'-1)г ETr] x i =1 j=i+1 [ r=1 g=1 г=1 x(Aj-i )T ii (At-j )T LT (k + t)p1(k, t)L(k + t)At-jB0g)(k + j)iu(k + j -1/k) - Ax(k)-iip2(k ,t) L(k+1) At-i i ErP' 0(k )B0 r)(k+i)u(k+i-1/k), i=1 t=i r=1 t=j ' q " ip2(k ,t) L(k+1 )At-1 [ t=1 _ где C(k+l) = M{x>(k+l)x>T(k+l)/0(k)}. Покажем, что данная формула верна и для q+1. Действительно, из (24) следует, что Jk+q+1 = M ([Р1(k, q +1)[y(k + q +1) -M{y(k + q +1)/ x(k), 0(k)}]2 - (28) -p2 (k, q +1) y(k + q +1) + uT (k + q / k) R(k, q)u (k + q / k)] / x(k), 0(k)} + Jk+q. Подставим в (28) вместо y(k+q+1) его рекуррентное выражение через x(k) из (8) и (2), вместо Jk+q его выражение из (27), взяв условное математическое ожидание и преобразовав выражение, получим q+1 V V т i Jk+q =i uT (k + i -1/k )ii(B0r )(k + i)) [Eg i P'-1 C(k + l)(P'-'f ET] X i =1 r=1 g=1 l=1 q+1 x£ (A'-i )T LT (k + t)p1 (k, t )L(k + t)At-iB0g) (k + i )u (k + i -1/k) + t=i q+1 I n V V т i +iuT (k+i-1/k)| ) (k+i)) Eg [p'0(k)0T (k)(P )T +iPi-lc(k+1)(P'-1 )t ]ET x i=1 [s=1 r=1 g=1 l=1 q+1 1 x i (A'-i )T LT (k +1)p1 (k,t)L(k +1)a'-i B(g) (k + i) + R(k, i) [■u(k + i -1/k) + t=i J q q+1 Г V V т i +2£ i uT (k + i -1/k) ]ii(B0r)(k + i)) [Eg £ Pjj C(k + l)(Pi-ll ETr] x i=1 j=i+1 [r=1 g=1 l=1 q+1 1 x(Aj-i )T i(At-j )TLT (k + t)p1(k,t)L(k + t)At-jB0g)(k + j) !>u(k + j -1/k) - (29) t=j J q+1 ip2(k ,t) L(k+1 )At-1 .t=1 q+1 q+1 v Ax(k)-iip2(k ,t) L(k+1) At-i i ErPi 0(k )B0r)(k+i)u(k+i-1/k). i=1 t=i r=1 Формула (29) совпадает с (27), если в (27) q заменить на q+1, а значит, согласно принципу математической индукции, формула (27) верна для всех q = 1,2,.. ,,m. Вводя рекуррентные соотношения (19) - (21), из (25) и (27) следует, что m V V т J(k + m / k) = i uT (k + i -1/ k)i i (B0r) (k + i)) x i =1 r=1 g=1 i x[Eg i P'-l C(k +1)(P'-l )TETr ]Q1(m - i)B0g) (k + i)u (k + i -1/ k) + l=1 +£ uT (k + i -1/k) j£££(r)(k + i)) Eg [P' 0(k)0T (k)(Pi )T + i=1 [ s=1 r=1 g=1 + £P'-lC(k + ')(P'-l )T ]ETQ (m - i)B((g) (k + i) + R(k, i) Iu(k + i -1/k) + '=1 m-1 m +2 £ £ uT (k + i -1/k) ]££( r )(k + i)) [Eg £ Pj C(k + l)(Pi-')r eT]> i =1 j=i+1 [ r=1 g=1 '=1 x( Ajl )r Q (m - j) B0g) (k + j) j u (k + j -1/k) - Q2(m - 1)Ax(k) m v -£ Q2 (m - i)£ErPi0(kB) (k + i)u(k + i -1/k). (30) i=1 r=1 Из определения 0(k) следует, что 0(k +1 )0T (k +1) = diag{0(k +1)}. (31) Для вычисления матрицы C(k+t) = M{u(k+t)uT(k+t)/0(k)}, используя уравнения (6), (7) и (31), нетрудно показать, что C (k +1) = M {u(k +1 )uT (k +1)/ 0(k)} = = diag{0(k)}- Pdiag{-10(k)} PT, (t = 1m). (32) Рассмотрим подробнее выражения, входящие в критерий (30). Используя (31), (32), получим P' 0( k )0T (k)( P' )t +£ Pi-lC(k + l)(P'-' )т = diag{Pi 0(k)}; (33) '=1 i £[P'-lC(k +1)(P'-l)T ] = diag{P'0(k)}-P' diag{0(k)}(P' )T ; (34) '=1 i £[P}-lC(k +1)(P'-l)T ] = P}-' diag{P'0(k)}- P} diag{0(k)}(P' )T. (35) '=1 С учетом (33) - (35) выражение (30) примет вид т m V V J(k + m/k) = £uT (k+i -1/k)££() (k+i)) x i=1 r=1 g=1 xEg[diag{P'0(k)}-P' diag{0(k)}(P' )T ]ETrQ1 (m-i)B(0g)(k+i)u(k+i -1/k) + m Г n V т 1 +£uT (k+i -1/k)j ££(r) (k+i)) Er diag{P'0(k) IETrQl (m -i)B(r) (k + i) + m-1 m +R(k,i)}u(k + i-1/k) + 2£ £ uT(k+i-1/k)
Пакшин П.В. Дискретные системы со случайными параметрами и структурой. М: Физ-матлит, 1994.
Пакшин П.В., Ретинский Д.М. Робастная стабилизация систем случайной структуры с переключаемой статической обратной связью по выходу // Автоматика и телемеханика. 2005. № 7. C. 135-147.
Домбровский В.В., Объедко Т.Ю. Управление с прогнозированием системами с марковскими скачками при ограничениях и применение к оптимизации инвестиционного портфеля // Автоматика и телемеханика. 2011. № 5. С. 96-112.
Смагин В.И., Поползухина Е.В. Синтез следящих систем управления для объектов со случайными скачкообразными параметрами и мультипликативными возмущениями // Вестник Томского государственного университета. 2000. № 271. С. 171-175.
Blackmore L., Bektassov A., Ono M., Williams B.C. Robust optimal predictive control of jump Markov linear systems using particles // Hybrid Systems: Comput. and Control / A. Bemporad, A. Bicchi, G. Buttazzo, eds. New York: Springer-Verlag, 2007. V. 4416.
Costa O.L.V., Okimura R.T. Discrete-time mean-variance optimal control of linear systems with Markovian jumps and multiplicative noise // Intern. J. Control. 2009. V. 82. No. 2. P. 256-267.
Costa O.L.V., Oliveira A. Optimal mean-variance control for discrete-time linear systems with Markovian jumps and multiplicative noises // Automatica. 2012. V. 48. No. 2. P. 304-315.
Dragan V., Morozan T. The linear quadratic optimization problems for a class of linear stochastic systems with multiplicative white noise and Markovian jumping // IEEE Transactions Automatic Control. 2004. V. 49. No. 5. P. 665-675.
Elliott R.J., Aggoun L., Moore J.B. Hidden Markov Models: Estimation and Control. Berlin: Springer-Verlag, 1995.
LiX., ZhouX.Y. Indefinite stochastic LQ control with Markovian jumps in a finite time horizon // Communications in Information and Systems. 2002. No. 2. P. 265-282.
Yin G., Zhou X.Y. Markowitz mean-variance portfolio selection with regime switching: from discrete-time models to their continuous-time limits // IEEE Transactions Automat. Control. March 2004. V. 39. No. 3. P. 349-360.
Zhou X.Y., Yin G. Markowitz's mean-variance portfolio selection with regime-switching: a continuous-time model // SIAM Journal on Control and Optimization. 2003. V. 42. No. 4. P. 1466-1482.
MarcowitzH.M. Portfolio selection // J. Finance. 1952. V. 7. No. 1. P. 77-91.
Bajeux-Besnainou I., Portait R. Dynamic asset allocation in a mean-variance framework // Management Science. 1998. V. 44. No. 11. Part 2. P. S79-S95.
LiD., Ng W.-L. Optimal dynamic portfolio selection: multi-period mean-variance formulation // Mathematical Finance. 2000. No. 10. P. 387-406.
Zhou X.Y., Li D. Continuous-time mean-variance portfolio selection: a stochastic LQ framework // Applied Mathematics & Optimization. 2000. No. 42. P. 19-33.
Rawlings J. Tutorial: Model predictive control technology // Proc. Amer. Control Conf. San Diego. California. June 1999. P. 662-676.