О теории непараметрических систем управления | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2013. № 1(22).

О теории непараметрических систем управления

Приводятся краткие сведения о параметрической теории управления дискретно-непрерывными процессами, в частности теории дуального управления и параметрической теории адаптивных систем. Обсуждается вопрос о месте теории непараметрических систем в общей теории управления. Рассматриваются некоторые модели и алгоритмы управления в условиях непараметрической неопределенности.

On the theory of nonparametric control systems.pdf Современная теория управления, в значительной степени, относится к разряду параметрических. Это означает, что на этапе формулировки задачи идентификации и управления предполагается каким-то образом выбранная параметрическая структура, описывающая процесс, или некоторое уравнение, известное с точностью до параметров. Ранее [1] был описан дискретно-непрерывный процесс и пути идентификации стохастических систем, которые тесно связаны с имеющейся априорной информацией. Часто априорной информации бывает недостаточно для обоснованного выбора параметрического класса моделей. Это один из «камней» преткновения, как в теории моделирования, так и в теории управления. Основное внимание в дальнейшем будет уделено задачам идентификации в «широком» смысле. Более того, нас будет интересовать, прежде всего, моделирование и управление в условиях непараметрической неопределенности, а также случай, когда априорная информация об исследуемом процессе соответствует одновременно как непараметрическому, так и параметрическому классу. 1. Теория дуального управления Феномен дуализма в системах управления был открыт в 1962 г. А. А. Фельд-баумом и в последующем существенно развит им и его последователями. Сущность дуализма состоит в том, что управляющие воздействия носят двойственный характер. Они, как замечает А. А. Фельдбаум, «должны быть в известной мере изучающими, но, в известной мере, направляющими» [2]. Приведем схему дуального управления [2]. * Введем следующие обозначения: x5 - задающее воздействие, которое смешивается с шумом h* и поступает в качестве у* в регулятор; выход объекта x5 также смешивается с шумом h5 в виде у5 и поступает в регулятор; управляющее воздействие u5 смешивается с помехой g5 и поступает в виде v5 на объект, ко- 2013 № 1(22) Управление, вычислительная техника и информатика Рис. 1 Далее предполагается следующее: - рассматриваемая задача - байесова, h*, h5, g5 - последовательности независимых случайных величин с неизменными плотностями вероятности P(h*), P(h5), P(g5); £5 =|(5, ц), где ц - случайный вектор с известной априорной плотностью вероятности Р(ц). Аналогично полагаем x5 = x(X, 5), где X - случайный вектор с заданной плотностью вероятности P(X) и все внешние воздействия - £ 5, h*, h5, g5, x* - статистически независимы; «■' о 7 о 7 о 7 ^ о 7 о 7 - объект не имеет памяти и описывается уравнением x5 = F(£ 5, v5), где F -ограничена, однозначна и дифференцируема; - способы комбинации сигнала и шума считаются известными и неизменными, т.е. у* = у*(x*, hs), v5 = v(u5, g5), у* = y*(x*, hs), вместо которых и вероятностных характеристик шумов можно сразу задать условные плотности вероятности P(V5 / us), P(ys / x5), P(y* / x5). Задача состоит в определении оптимальной стратегии регулятора. 2. Постановка задачи дуального управления Введём удельную функцию потерь W5 = W(5,xs,x*), тогда общая функция потерь W имеет вид [2] W = £W5 (5, x5, x*). (1) 5=0 Назовём оптимальной систему, для которой полный риск минимален, RS -удельный риск: R = м{W} = {W5 (5, x5, x*)} = ^5 , (2) 5=0 5=0 Будем считать, что регулятор в общем случае обладает памятью и характеризуется случайной стратегией. Введём временные векторы u5 = (u0,..., u5), x5 = (x0,..., x5) и по аналогии V5, x*, у*, y5,0 < 5 < n. торый находится под воздействием помехи £5; 5 - дискретное время; H*, H, G -каналы связи. Теперь поставим задачу отыскания оптимальной случайной стратегии регулятора, т.е. оптимальных плотностей вероятности [2] PS(us) = Гs(us /us-1,А-^0 ^ s ^ n , (3) при которых полный риск R минимален. Поскольку rs суть плотность вероятности, то Гs >0, jrs(us)dQ(us) = 1. (4) Q Здесь Q - область возможных значений us, Ts (s = 0,...,n) называются удельными стратегиями, а их совокупность - полной стратегией. В подобной постановке задача управления была рассмотрена в [2]. Несколько иная трактовка теории дуального управления была дана Я.З.Цыпкиным в [3]. 3. Непараметрическое дуальное управление В теории дуального управления [2] и в теории адаптивных систем [3] предполагается математическое описание объекта с точностью до вектора параметров. В большинстве случаев априорной информации недостаточно, чтобы обосновано выбрать параметрическую модель исследуемого процесса. Поэтому приходится проводить серию экспериментов на объекте (часто длительных и дорогостоящих), чтобы качественно, с практической точки зрения, решить задачу идентификации. В условиях непараметрической неопределённости [4] уравнение процесса с точностью до вектора параметров не известно, но известны свойства объекта качественного характера, например однозначность характеристик или неоднозначность для безынерционных процессов; линейность или тип нелинейности для динамических. Если вид уравнения, описывающего процесс, не известен, то известные параметрические методы теории управления [2, 3] не применимы для решения задач идентификации и управления. Введем оператор объекта A , описывающий процесс, т.е. x(t) = A < u(t) > , (5) где u(t) - управляющее воздействие, x(t) - выходная переменная объекта. Если существует оператор, обратный A , т.е. A"1, A~lA = I - единичный оператор, то A'1 x(t) = A-A < u(t) >, u(t) = A_1x(t). (6) Задавая теперь траекторию x(t) = x*(t), находим из (6) идеальное значение u*(t). Таким образом (6) может быть отнесён к категории идеальных регуляторов. В дальнейшем будем его называть ^-регулятор, чтобы отличить от многих известных. Однако проблема состоит в том, что в большинстве случаев его построить нельзя, тем более, что оператор A - неизвестен. Попытка, хотя бы частично, решить эту проблему введением в устройство управления (УУ) корректирующих цепочек, компенсирующих звеньев и т.п. предпринимались ранее. В некоторых технических системах это приводило к успеху. В 50-х годах прошлого столетия академиком В.С. Кулебакиным был предложен и существенно развит метод Кф)-изображений, который привел к появлению теории инвариантности автоматически регулируемых и управляемых систем. Но в этом случае необходима высокая точность описания исследуемых процессов дифференциальными уравнениями. Если вид уравнения, описывающий исследуемый процесс, не известен, то классические методы теории управления не применимы. Рассмотрим частный случай. Пусть объект описывается линейным дифференциальным уравнением неизвестного порядка. В этом случае при нулевых начальных условиях x(t) [5] t x(t) = |h(t - T)u(т)dт , (7) 0 где h(t -т) - весовая функция системы, является производной переходной функции k (t), т.е. h(t) = k '(t). Известно, что обратным оператором (7) является оператор [5] t u(t) = | v(t -т) x(T)d т, (8) 0 где v(t) - весовая функция объекта в направлении «выход - вход» и v(t) = w'(t), где w(t) - переходная функция системы в том же направлении. В этом случае A представлен оператором (7), а A- - выражением (8). Следовательно, теперь проблема состоит в отыскании весовых функций h(t), v(t). Один из возможных путей решения этого вопроса состоит в решении уравнения Винера - Хопфа. Другой - в снятии переходной характеристики на реальном объекте с последующей оценкой его весовой функции по результатам измерений {x; = ki, tt, i = 1, s} . Непараметрическая модель (7) будет иметь вид t xs (t) = j hs (t-т, ks, ts )u (т^т, (9) 0 где ks, ts - временные векторы: ks = (kj,...,ks), ts = (tj,...,ts), а hs(-)равна К (t) = — ±kH (, (10) scs i =1 I Cs J H(•) - колоколообразные (ядерные) функции, cs - параметр размытости, удовлетворяющие некоторым условиям сходимости [4]. Предлагается переходную функцию v(t) получить на модели в направлении «выход - вход», т.е. «вспять». По-видимому, впервые это было сделано в [6]. Таким образом, из соотношения t xs (t) = 1(t) = | hs (t -т, ks , ts )uCr)dт , (11) 0 можно получить выборки {u}, tj, j = 1, s}. Тогда непараметрический алгоритм управления линейной динамической системой примет вид t ( л s (t)=j - i 0 V scs ] =1 t-T-t w]H' x (T)dt , (12) где x (t) - задающее воздействие, интегрирование выражений (11), (12) осуществляется численно. Ясно, что объемы выборок при определении переходных характеристик на реальном объекте и на модели могут не совпадать. Фрагмент работы алгоритма (12) будет представлен ниже. Поскольку операторы A и A-1 по реальным данным будут оценены не точно, то возникает необходимость несколько изменить схему «включения» на входе объекта A-1, добавив обратную связь в следующем виде: x*(t) A-1 u*(t) УУ u(t) Объект (A) x*(t) x(t) h Рис. 2 Отметим, что неизвестные операторы A и A- оценивались по исходным переходным характеристикам процесса (уравнение процесса было неизвестно) в классе непараметрических статистик [4]. На рис. 2: A- - непараметрическая оценка обратного оператора объекта, u* -выход (оценка A-), помеха h* действует в канале обратной связи. Непараметрический алгоритм дуального управления имеет вид us+1 = u* +Aus+1. (13) Здесь u* определяется по формуле (12), а Aus+j =е(x*+j - xs) - поисковые шаги. Таким образом в u* сосредоточены «знания» об объекте, а Aus+j - «изучающие» поисковые шаги. В этом и состоит дуализм алгоритма (13). Поясним его на примере безынерционного объекта x = f (u, ц), в качестве оценки которого примем непараметрическую оценку функции регрессии по наблюдениям {x, ui, ц, i = 1, s}, где ц - контролируемое, но неуправляемое входное воздействие [4] где колоколообразные функции Ф() и параметр размытости cs удовлетворяют некоторым условиям сходимости [4]. Более подробные асимптотические исследования алгоритмов класса (14) приводятся в [7]. Аналогом выражения (8) в этом случае будет u = f_1(x, ц), где f x, ц) - функция, обратная f (u, ц), а u* из (13) будет равно u* =£u,.фГx*±LZxL1фГц±1-h 1 Ар фГf^lfL1фГцs±1-h 1, (15) i=1 V Cs J V Cs J/ i=1 V Cs J V Cs J где x*±1 - задающее воздействие. Функции x = f (u, ц) являются взаимнооднозначными и непрерывными. Проанализируем характер дуализма алгоритма (13). На начальной стадии управления основная роль принадлежит второму слагаемому Aus ±1 формулы (13). Это случай активного накопления информации в системе дуального управления, который начинается с появления первого наблюдения входной и выходной переменных объекта. По мере процесса обучения (накопления информации) всё возрастающую роль при формировании управляющего воздействия us±1 начинает играть первое слагаемое, т.е. u*. Таким образом, в процессе дуального управления объектом фигурируют как этап изучения объекта, так и этап приведения его к цели. Более общая схема непараметрического дуального управления представлена ниже: Рис. 3 Здесь (рис. 3) в результате функционирования замкнутого контура управления происходит уточнение оценки обратного оператора объекта. 4. Вычислительные эксперименты Приведем некоторые результаты вычислительных экспериментов, которые носят иллюстративный характер. Поэтому ниже не приводятся сведения о выборе параметра размытости на каждом этапе эксперимента, поискового шага, а показаны только итоговые результаты, из соображений краткости изложения. На рис. 4 показан случай, когда на вход объекта действуют управляемая переменная u (t) и неуправляемая, но контролируемая переменная |a(t). Обучение управляющей системы, включающей в себя блоки Aи УУ, начинается с первой триады наблюдения, т. е. выработка управляющего воздействия осуществляется при наличии триады (u1, x1). На рис. 4 показано обучение непараметрической системы дуального управления при изменяющихся задающих воздействиях x* и ц. На начальной стадии управления I необходимо некоторое время (накопление выборки) для приведения объекта в заданное состояние. На этапе II задающее значение x * выбиралось вне имеющихся наблюдений выхода объекта x , поэтому требовалось некоторое время для приведения объекта в заданное состояние x * . На этапе III задающее воздействие представляло собой траекторию, а на этапе IV - случайную величину. Как видно, на III и IV этапах процесс управления достаточно высокого качества. Приведенные выше результаты имеют иллюстративный характер, как и было отмечено выше, поскольку из соображений краткости не приводятся конкретные сведения о настройке параметров размытости, поисковых шагов. 0 6 4 2 " x* < ■ К IV x xt I / III JwX Ht II 40 60 80 Рис. 4 100 120 t Результаты управления линейным динамическим объектом (было взято дифференциальное уравнение третьего порядка), представлены на рис. 5. Задающее воздействие xt* - случайная величина, генерируемая датчиком равномерно распределенных случайных чисел. Были проведены многочисленные эксперименты, один из которых и приведен. Преднамеренно был взят достаточно малый объем выборки. При увеличении объема выборки процессы, представленные на рис. 5, практически совпадают. Рис. 5 Эксперимент был проведен по следующей схеме: сначала на объекте (уравнения объектов были неизвестны) снимались переходные характеристики, и с использованием их оценивался оператор A по формуле (9) и обратный оператор Aпо формуле (12). Из рисунков видно удовлетворительное качество управления даже в таком «экзотическом» случае. С подобной задачей не справится ни один из известных регуляторов. 5. Общая схема реального процесса Ниже приведена схема дискретно-непрерывного реального процесса, чаще всего встречающегося на практике, и некоторые пути моделирования. Рис. 6 На рис. 6 обозначено: А - неизвестный оператор объекта, х(t), q(t), z(t) -выходные переменные процесса, и({) - управляющее воздействие, |(t) - входная контролируемая, но неуправляемая переменная процесса, ra(t)- переменная, характеризующая промежуточное состояние процесса, |(t) - векторное случайное воздействие, t - непрерывное время, Hц, Hu, Hx , Hю , Hq , Hz - каналы связи, соответствующие различным переменным, включающие в себя средства контроля, устройства для измерения наблюдаемых переменных, |, ut, xt, qt, zt, rot - измерения |(t), u(t), x(t), q(t), z(t), ro(t) в дискретное время t. Контроль переменных (x,и, ц, q, z) осуществляется через некоторый интервал времени, т.е. x. , ui, ц. , qi, zi, ю. , i = 1, s, - выборка измерений переменных процесса (xj,u1,ц1,q1,z1,ю1), (x2,u2,ц2,q2,z2,ю2), ^,(xs,us,|s,qs,zs,ros), s - объем выборки, Кц (t), hx(t), hu (t), hffl (t), hq (t), hz (t) со значком вверху - случайные помехи измерений соответствующих переменных процесса. Отметим существенное отличие выходных переменных z(t), q(t) и x(t), представленных на рис. 6. Выходная переменная x(t) контролируется через интервалы времени At, q(t) контролируются через существенно большие интервалы времени AT , z(t) - через T (T >> AT >> At). С практической точки зрения для исследуемого процесса наиболее важным часто является контроль переменных z(t). Например, выходные переменные x(t) контролируются с помощью различного рода индукционных, емкостных и других датчиков, q(t) - на основе лабораторных анализов, а z(t) - в результате длительного химического анализа, физико-механических испытаний и др. Этим и обусловлено существенное отличие дискретности контроля выходных переменных x(t) и z (t). Особенностью здесь является то, что измеренное значение выхода объекта станет известным только через определенные промежутки времени, этим объясняется запаздывание в измерениях выходных переменных объекта x(t), q(t) и z(t). At, AT и T - дискретность, с которой происходят измерения. Очевидно, что в матрице наблюдений появляются пропуски при наблюдении q (t), z (t), но мы специально сейчас не будем останавливаться на этом вопросе. В этом случае выходные переменные, как и ранее, зависят от входных и ra(t) (дополнительная информация), то есть следующим образом: (16) х($) = А(ы (t), |(t), ra(t), §(t), t). Достаточно подробный анализ такого процесса был проведен в [8]. Конкретные задачи идентификации будут ниже приведены с указанием различий в каждом рассматриваемом случае. Из рис. 6 ясно, что значения выходных переменных x(t), q(t), z(t) объекта зависят от входных u(t), |(t), |(t). Полученные ra(t) представляют дополнительную информацию о протекании исследуемого процесса, которую целесообразно использовать при построении модели. Таким образом, задача идентификации состоит в построении моделей, которые, в достаточно общем виде, могут быть представлены следующим образом: (17) (18) (19) x (t )= A (u (t-т), |(t-т), ю (t-т)); q (t )= AA (u (t -т), |(t -т), ю (t-т), x (t)); z (t)= A (u (t-т), |(t-т),ю (t-т), x(t), q(t)) , где т - запаздывания, отличающиеся по различным каналам, но из соображений простоты записи не снабжены соответствующими индексами. Многообразие задач идентификации будет обусловлено различными объемами априорной информации, типами процессов, наличием запаздывания в объекте и каналах связи. Л _ а =0, i =1,к, f ( (t-т),|> (t-т),ю (t-т),x® ((),q® ((),z® (/),P}=0, i=к+1,/, (20) 4 ( (t-т),ц® (t-т),ю (t-т),x® (t),q® ((),z® (t),Ws)=0, i =/+1,v, 6. ^-модели динамических объектов Ниже рассмотрим задачу построения модели динамического процесса, представленного на рис. 6. Отметим, что AT и T значительно превышают постоянную времени объекта по всем остальным каналам. Без нарушения общности можно считать, что контроль переменных q (t), z (t) осуществляется через интервалы времени AT и T , где AT

Ключевые слова

дискретно-непрерывный процесс, дуальное управление, непараметрические методы, адаптивное управление, априорная информация, discrete-continuous process, dual control, nonparametric methods, adaptive control, a priori information

Авторы

ФИООрганизацияДополнительноE-mail
Медведев Александр ВасильевичСибирский государственный аэрокосмический университет им. акад. М.Ф. Решетнёва (г. Красноярск)профессор, доктор технических наук, заведующий кафедрой системного анализа и исследования операцийSaor_medvedev@sibsau.ru
Всего: 1

Ссылки

Медведев А.В. Теория непараметрических систем. Общий подход // Вестник. СибГАУ им. ак. М.Ф. Решетнева. Красноярск, 2008. Вып. 3. С. 65-69.
Фельдбаум А.А. Основы теории оптимальных автоматических систем. М.: Физматгиз, 1963. 552 с.
Цыпкин Я.З. Адаптация и обучение в автоматических системах. М.: Наука, 1968. 320 с.
Медведев А.В. Непараметрические системы адаптации. Новосибирск: Наука, 1983. 174 с.
Куликовский Р. Оптимальные и адаптивные процессы в системах автоматического регулирования. М.: Наука, 1967. 397 с.
Medvedev A.V. Identification and control for linear dynamic system of unknown order // Optimization Techniques IFIP Technical Conference. Berlin - Heidelberg - New York: Springer-Verlag, 1975. P. 48-56.
Кошкин Г.М. Пивен И.Г. Непараметрическая идентификация стохастических объектов. Хабаровск: Российская академия наук, Дальневосточное отделение, 2009. 336 с.
Медведев А.В. Теория непараметрических систем. Процессы. // Вестник СибГАУ им. ак. М.Ф. Решетнева. Красноярск, 2010. Вып. 3.
Калман Р.Е. Идентификация систем с шумами // Успехи математических наук. 1985. Т. 40. № 4. 244 с.
Уиттл П. Вероятность. М.: Наука, 1982. 288 с.
Медведев А.В. Анализ данных в задаче идентификации // Компьютерный анализ данных моделирования. Минск: БГУ, 1995. Т. 2. С. 201-206.
 О теории непараметрических систем управления | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2013. № 1(22).

О теории непараметрических систем управления | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2013. № 1(22).

Полнотекстовая версия