МЕТОДЫ СОВРЕМЕННОЙ ТЕОРИИ АВТОМАТИЧЕСКОГО УПРАВЛЕНИЯ
МЕТОДЫ ТЕОРИИ АВТОМАТИЧЕСКОГО УПРАВЛЕНИЯ
Цикл учебников и учебны...
60 downloads
349 Views
10MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
МЕТОДЫ СОВРЕМЕННОЙ ТЕОРИИ АВТОМАТИЧЕСКОГО УПРАВЛЕНИЯ
МЕТОДЫ ТЕОРИИ АВТОМАТИЧЕСКОГО УПРАВЛЕНИЯ
Цикл учебников и учебных пособий основан в 1997 г.
Под общей редакцией заслуженного деятеля науки РФ, доктора технических наук, профессора К.А. Пупкова
МЕТОДЫ КЛАССИЧЕСКОЙ И СОВРЕМЕННОЙ ТЕОРИИ АВТОМАТИЧЕСКОГО УПРАВЛЕНИЯ Учебник в пяти томах
ТОМ 5
МЕТОДЫ СОВРЕМЕННОЙ ТЕОРИИ АВТОМАТИЧЕСКОГО УПРАВЛЕНИЯ
Под редакцией заслуженного деятеля науки РФ, доктора технических наук, профессора К.А. Пупкова и заслуженного деятеля науки РФ, доктора технических наук, профессора Н.Д. Егупова Издание второе, переработанное и дополненное Рекомендовано Министерством образования Российской Федерации в качестве учебника для студентов высших учебных заведений, обучающихся по машиностроительным и приборостроительным специальностям
Москва Издательство МГТУ им. Н.Э. Баумана 2004
УДК 681.5:681.3 (075.8) ББК 14.2.6 М54 Рецензенты: 1. Академик РАН Е.П. Попов; 2. Кафедра автоматических систем Московского института радиотехники, электроники и автоматики (заведующий кафедрой, член-корреспондент РАН Е.Д. Теряев) Авторы: д-р техн. наук, проф. К.А. Пупков, д-р техн. наук, проф. Н.Д. Егупов, д-р техн. наук, проф. А.И. Баркин, д-р техн. наук, проф. А.В. Зайцев, канд. техн. наук, доц. С.В. Канушкин, д-р техн. наук, проф. Л.Г. Комарцова, канд. техн. наук, доц. М.О. Корлякова, д-р техн. наук, проф. Ю.П. Корнюшин, канд. техн. наук, доц. В.И. Краснощеченко, д-р техн. наук, проф. А.П. Курдюков, канд. техн. наук, доц. А.В. Максимов, канд. техн. наук, доц. Д.В. Мельников, инженер Ю.И. Мышляев, канд. техн. наук, доц. В.Н. Пилишкин, д-р техн. наук, проф. В.М. Рыбин, д-р техн. наук, проф. Г.Ф. Утробин, д-р техн. наук, проф. Н.В. Фалдин, канд. техн. наук, доц. Н.Б. Филимонов М54 Методы классической и современной теории автоматического управления: Учебник в 5-и тт.; 2-е изд., перераб. и доп. Т.5: Методы современной теории автоматического управления / Под ред. К.А. Пупкова, Н.Д. Егупова. — М.: Издательство МГТУ им. Н.Э. Баумана, 2004. — 784 с.; ил. ISBN 5-7038-2193-2 (Т.5) ISBN 5-7038-2194-0 В пятом томе учебника изложены основные теоретические положения некоторых направлений теории автоматического управления, интенсивно развиваемых в последние десятилетия. Рассмотрены методы расчета и проектирования систем, использующие аппарат дифференциальной геометрии. Отражены центральные положения теории катастроф, теории хаоса; приведены понятия, связанные с теорией фракталов и их использованием. В конце 70-х годов возникла теория робастного управления. Рассмотрены перспективные направления теории робастного управления. Достаточно полно рассмотрен класс адаптивных систем. Впервые в учебной литературе с необходимой полнотой и глубиной отражены основные положения теории интеллектуальных систем. В шестой главе рассмотрены вопросы применения нейрокомпьютеров в системах управления. В седьмой главе излагаются основы, а также методология и техника применения полиэдрального программирования в задачах дискретного управления и наблюдения с учетом ресурсных и фазовых ограничений. Учебник является частью общего курса теории автоматического управления, читаемого отдельными разделами студентам МГТУ им. Н.Э. Баумана, ТулГУ, ОУАТЭ и других вузов. Учебник предназначен для студентов вузов. Может быть полезен аспирантам и инженерам, а также научным работникам, занимающимся автоматическими системами. УДК 681.5:681.3 (075.8) ББК 14.2.6
ISBN 5-7038-2193-2 (Т.5) ISBN 5-7038-2194-0
© Пупков К.А., Егупов Н.Д. и др., 2004 © МГТУ им. Н.Э. Баумана, 2004 © Издательство МГТУ им. Н.Э. Баумана, 2004
175-летию МГТУ им. Н.Э. Баумана посвящается
ОБЩЕЕ ПРЕДИСЛОВИЕ К УЧЕБНИКУ I. Особенности учебника Учебник издается в пяти томах и включает также задания для самостоятельной работы. Для него характерно следующее: 1. Учебник охватывает основные фундаментальные положения, составляющие содержание методов теории автоматического управления. Главное достоинство университетского образования в России — упор на фундаментальные знания. Фундаментальность, интеграция образования и науки являются важнейшими факторами подготовки кадров с уровнем, обеспечивающим адаптацию к творчеству по приоритетным направлениям развития науки, включая теорию автоматического управления, с целью разработки: • теоретических основ конструирования современных сложных систем автоматического управления технологическими процессами и подвижными объектами; • алгоритмического обеспечения на основе последних достижений вычислительной математики; • информационных технологий, позволяющих наиболее эффективно проводить автоматизацию процессов, реализуя предварительные научно-технические исследования и расчеты на ЭВМ. Такой подход обеспечивает освоение и широкое применение информационных технологий, проявление инициативы и самостоятельности при решении сложных технических проблем. Сказанное выше также способствует профессиональной уверенности выпускника в результатах его деятельности. В связи с этим в учебнике рассмотрены фундаментальные положения, являющиеся базой основных направлений теории автоматического управления (ТАУ). Изложение материала начинается с основных понятий и определений (сущность проблемы автоматического управления, определение системы автоматического управления (САУ), фундаментальные принципы управления, основные виды и законы автоматического управления и др.) и заканчивается рассмотрением содержания некоторых современных направлений теории автоматического управления. Поскольку курс теории автоматического управления включен в учебные планы различных инженерных специальностей и является одним из важнейших элементов общетехнического образования, учебник может быть рекомендован студентам, заново приобретающим знания в области теории автоматического управления, и специалистам, которым приходится эти знания восстанавливать. Учебником могут пользоваться также студенты тех специальностей, для которых курс является профилирующим, определяющим квалификацию инженера. При изучении курса студент или специалист должен сделать выборку материала, определяемого конкретной задачей и возможностями общего плана обучения. 2. Инженерная направленность учебника. Поскольку учебник предназначен для студентов вузов, обучающихся по машиностроительным и приборостроительным специальностям, чрезвычайно важным является этап подготовки, связанный прежде всего с освоением инженерных расчетов. Органическое сочетание фундаментальных знаний (о чем говорилось выше) и инженерных методов расчета и проектирования сложных
6
Методы современной теории автоматического управления
автоматических систем обеспечивает подготовку специалистов, способных решать сложнейшие проблемы в области аэрокосмической, ракетной и атомной техники, робототехники, автомобилестроения, медицины, автоматизации производственных процессов и других современных систем и комплексов, а также наукоемких технологий. Как указано в [195], классическую теорию автоматического управления в основном создавали инженеры для инженеров и лишь частично — математики для инженеров. Эти результаты отражены в первых трех томах и многие методы, например относящиеся к проблеме синтеза регуляторов, можно рассматривать как инженерные приемы, показавшие высокую эффективность при решении сложных проблем проектирования САУ (этот факт отражен в главе 6 третьего тома). Современная ТАУ разрабатывается в основном математиками и инженерами, имеющими высокую математическую культуру, поэтому освоение соответствующих разделов учебника требует определенной математической подготовки. В условиях непрерывного повышения уровня математической подготовки выпускников многих вузов данная проблема преодолевается достаточно просто (эти разделы изложены в 4 и 5 томах). В основном же изложение ведется с инженерной точки зрения: подчеркиваются главные идеи, лежащие в основе методов, но не всегда приводятся строгие математические доказательства. Учитывая, что без освоения технического аспекта и глубокого знания физических процессов, протекающих в элементах САУ (особенно при решении задач синтеза регуляторов сложных систем, и это является одним из факторов, определивших популярность частотного метода), изучение методов теории автоматического управления не приводит к нужному результату, физическая и содержательная сторона дела подчеркивается в течение всего курса. Более того, значительное внимание уделено рассмотрению конкретных промышленных систем управления. Например, в главе 6 третьего тома рассмотрены системы управления теплоэнергетическими параметрами атомных электростанций, системы управления баллистическими ракетами, высокоточным оружием, системы, используемые в противосамолетной и противоракетной обороне (ПСО и ПРО). 3. Методы теории автоматического управления, рассмотренные в учебнике, в большинстве своем ориентированы на применение ЭВМ. Интенсивное развитие процессов автоматизации проектирования систем автоматического управления, обусловленное развертыванием высокопроизводительных вычислительных комплексов в проектно-конструкторских организациях, перемещение центра тяжести процесса проектирования от аппаратного обеспечения к алгоритмическому и программному обеспечению приводят к необходимости разработки нового методологического обеспечения, включая соответствующие вычислительные технологии [195]. Для содержания книги характерна, в известной мере, «вычислительная окраска» изложенного материала, поскольку возможности современных ЭВМ позволяют значительно ускорить сроки проектирования САУ и, таким образом, налагают свой отпечаток на вычислительную часть ТАУ. Успех в решении поставленных задач расчета и проектирования с использованием ЭВМ зависит от многих факторов, основными из которых являются: степень адекватности математической модели системы; степень эффективности численных методов ТАУ, используемых в алгоритмическом обеспечении; наличие высококачественного программного обеспечения; от того, насколько успешно используется творческий потенциал исследователя-проектировщика. При этом решающий фактор остается за человеком, который может решать многие неформализованные задачи. Поскольку системы автоматизированного проектирования (САПР) являются в настоящее время одним из наиболее эффективных средств повышения производительности инженерного труда и научной деятельности, сокращения сроков и улучшения качества разработок, то в соответствующих главах и приложениях отражено
Предисловие
7
содержание используемых численных методов и вычислительных схем с необходимым обоснованием. Рассмотренное в пятитомнике методологическое обеспечение, ориентированное на применение ЭВМ, может служить базой для решения весьма сложных задач инженерного проектирования САУ. 4. В учебнике с единых позиций изложены как основные методы классической ТАУ, так и положения, определяющие содержание некоторых современных направлений теории управления. В настоящее время имеют место различные трактовки, связанные с выделением в ТАУ «классической» и «современной» теории. Некоторые из них отражены, например, в [17, 77, 133, 154, 176, 195, 201, 230, 239]. В учебнике под современными методами понимаются методы, интенсивно развиваемые в последние два десятилетия и в настоящее время внедряемые в практику инженерных расчетов и создания новых систем, включающие аппарат синтеза грубых систем автоматического управления в пространстве состояний, H ∞ -теория оптимального управления, задачи оптимизации многообъектных многокритериальных систем с использованием стабильно-эффективных компромиссов, синтез систем автоматического управления методами дифференциальной геометрии (геометрический подход), использование нейрокомпьютерных управляющих вычислительных систем, основные положения теории катастроф, фракталов, хаоса, а также задачи исследования и проектирования адаптивных и интеллектуальных систем (они отражены в третьем, четвертом и пятом томах учебника). Таким образом, учебник охватывает наиболее важные разделы теории автоматического управления; вместе с тем он не претендует на всесторонний охват проблематики теории автоматического управления. Не затронуты такие важные направления, как инвариантность, теория чувствительности, методы и алгоритмы оценивания динамических процессов, идентифицируемость и методы и алгоритмы идентификации (отражены лишь содержание проблемы и подходы к ее решению), системы со случайной структурой, стохастические системы, теория нелинейной фильтрации и др. 5. Основное содержание и структуру учебника определил коллектив авторов, включающий представителей разных российский школ науки об управлении: К.А. Пупков (МГТУ им. Н.Э. Баумана), Н.Д. Егупов (МГТУ им. Н.Э. Баумана), А.И. Баркин (Институт системного анализа РАН), И.Г. Владимиров (Университет Квинслэнда, г. Брисбэйн, Австралия), Е.М. Воронов (МГТУ им. Н.Э. Баумана), А.В. Зайцев (Военная академия РВСН им. Петра Великого), С.В. Канушкин (Серпуховский военный институт РВСН), В.Г. Коньков (МГТУ им. Н.Э. Баумана), Ю.П. Корнюшин (МГТУ им. Н.Э. Баумана), В.И. Краснощеченко (МГТУ им. Н.Э. Баумана), А.П. Курдюков (Институт проблем управления РАН), А.М. Макаренков (МГТУ им. Н.Э. Баумана), Л.Т. Милов (Московский государственный автомобильно-дорожный институт (МАДИ)), В.Н. Пилишкин (МГТУ им. Н.Э. Баумана), В.И. Рыбин (Московский государственный инженерно-физический институт (МИФИ)), В.И. Сивцов (МГТУ им. Н.Э. Баумана), Я.В. Слекеничс (Обнинский университет атомной энергетики (ОУАТЭ)), В.Н. Тимин (совместное конструкторское бюро «Русская Авионика»), А.И. Трофимов (Обнинский университет атомной энергетики (ОУАТЭ)), Г.Ф. Утробин (Военная академия РВСН им. Петра Великого), Н.В. Фалдин (Тульский государственный университет), О.В. Шевяков (Министерство образования Российской Федерации). II. Методические вопросы Необходимо указать, что никакой учебник не может дать окончательных рецептов для решения широчайшего спектра задач, порожденных практикой проектирования сложных систем автоматического управления. Изложенный в книгах материал призван служить базой, фундаментом, позволяющим с большей скоростью и эффективностью находить пути для решения задач практики.
8
Методы современной теории автоматического управления Цикл: Методы теории автоматического управления
1-я серия учебников «Методы классической и современной теории автоматического управления» ⎯ серия базового уровня
2-я серия учебников ⎯ серия повышенного базового уровня
Том 1: Математические модели, динамические характеристики и анализ систем автоматического управления. ⎯ М.: Изд-во МГТУ, 2004
Том 1: К.А. Пупков, А.В. Фалдин, Н.Д. Егупов. Методы синтеза оптимальных систем автоматического управления. ⎯ М.: Изд-во МГТУ, 2000. ⎯ 512 с.
Том 2: Статистическая динамика и идентификация систем автоматического управления. ⎯ М.: Изд-во МГТУ, 2004 Том 2: Е.М. Воронов. Оптимизация многообъектных многокритериальных систем. ⎯ М.: Изд-во МГТУ, 2001. ⎯ 576 с. Том 3: Синтез регуляторов систем автоматического управления. ⎯ М.: Изд-во МГТУ, 2004
Том 4: Теория оптимизации систем автоматического управления. ⎯ М.: Изд-во МГТУ, 2004
Том 3: К.А. Пупков, Н.Д. Егупов и др. Методы робастного, нейронечеткого и адаптивного управления. ⎯ М.: Изд-во МГТУ, 2001. ⎯ 744 с.
Том 5: Методы современной теории автоматического управления. ⎯ М.: Изд-во МГТУ, 2004
Рис. 1. Структура цикла учебников и учебных пособий «Методы теории автоматического управления»
Предисловие
9 В томах 1−5 изучаются
Математическое описание классов систем, отраженных на приводимой ниже структурной схеме 1
2
4
3
5
6
4
5
6
7
8
7
8
9
10
9
10
1. САУ; 2. Линейные САУ; 3. Нелинейные САУ; 4. Непрерывные САУ; 5. Дискретные САУ; 6. Непрерывно-дискретные САУ; 7. Стационарные САУ; 8. Нестационарные САУ; 9. САУ с сосредоточенными параметрами; 10. САУ с распределенными параметрами
2-й том
1-й том Детерминированный анализ систем: 1. Устойчивость. 2. Качество в переходном режиме. 3. Качество в установившемся режиме и др.
Статистический анализ линейных и нелинейных систем
Линейная фильтрация (фильтры Винера− Колмогорова, фильтры Калмана− Бьюси); нелинейная фильтрация
3-й том Синтез систем по заданным показателям качества. Методы синтеза регуляторов: 1. Группа методов, основанная на принципе динамической компенсации. 2. Группа методов, основанная на аппарате математического программирования. 3. Частотный метод. 4. Модальное управление. 5. Методы H ∞ -теории управления. 6. Метод моментов и др. 7. Задания для самостоятельной работы
Идентификация объектов управления в классе линейных и нелинейных систем; задания для самостоятельной работы
4-й том Синтез оптимальных систем. Методы оптимизации: 1. Вариационное исчисление. 2. Принцип максимума, включая управление при ограничениях на фазовые координаты. 3. Динамическое программирование. 4. Аналитическое конструирование регуляторов. 5. Нелинейное программирование. 6. Метод моментов. 7. Синтез оптимальных обратных связей. 8. Оптимизация многообъектных многокритериальных систем и др. 9. Задания для самостоятельной работы
5-й том 1. Методы синтеза грубых систем. 2. Адаптивные системы. 3. Синтез систем методами дифференциальной геометрии. 4. Основные положения теории катастроф, фракталов и теории хаоса. 5. Нейросетевые методы для решения задач проектирования вычислительных систем. 6. Интеллектуальные системы и др. 7. Задания для самостоятельной работы
Рис. 2. Структурная схема, иллюстрирующая содержание пятитомника «Методы классической и современной теории автоматического управления» (базовый уровень)
10
Методы современной теории автоматического управления
Вместе с тем материал излагается таким образом, чтобы читателю были видны пути практического применения рассматриваемых методов. В большинстве своем методы доведены до расчетных алгоритмов, приводятся таблицы и другой вспомогательный материал, облегчающий их применение. Положения, изложенные во всех разделах, иллюстрируются подробно рассмотренными примерами расчета и проектирования конкретных систем, которые нашли широкое применение: • при решении задач управления баллистическими ракетами, зенитными управляемыми ракетами (ЗУР), в системах противосамолетной и противоракетной обороны; • в атомной энергетике; • в турбиностроении; • при создании систем вибрационных испытаний и др. Весьма важным является вопрос методики изучения курса «Теории автоматического управления» с целью стать специалистом в этой области, пользуясь циклом учебных пособий и учебников, издаваемых указанным выше коллективом авторов. Весь цикл учебников и учебных пособий можно условно разбить на две серии: 1-я серия — базовая; эта серия включает пять томов настоящего учебника. 2-я серия — базовая повышенного уровня, в которой основное внимание уделено глубокому и достаточно полному изложению методов, определяющих содержание некоторых современных направлений теории автоматического управления. Сказанное выше иллюстрируется рис. 1. Базовый уровень приобретается изучением предлагаемого учебника, в котором систематически изложены методы классической и современной теории управления и дано достаточно полное представление о проблематике и путях развития науки об управлении техническими объектами. Содержание каждого из томов учебника серии базового уровня иллюстрируется рис. 2. После освоения базового уровня можно приступить к специализации в той или другой области теории автоматического управления, изучая соответствующие тома 2-й серии, а также статьи и монографии по специальным проблемам теории управления и др. Авторы выражают глубокую благодарность рецензентам — академику РАН Е.П. Попову и коллективу кафедры «Автоматические системы» Московского государственного института радиотехники, электроники и автоматики (МИРЭА), руководимой членом-корреспондентом РАН Е.Д. Теряевым, за ценные замечания, способствовавшие улучшению содержания книги. Авторы благодарят заслуженного деятеля науки и техники РФ, д-ра техн. наук, проф. А.С. Шаталова, заслуженного деятеля науки и техники РФ, д-ра техн. наук, проф. Б.И. Шахтарина (МГТУ им. Н.Э. Баумана), которые своими советами позволили значительно улучшить структуру учебника, углубить изложение отдельных теоретических положений, улучшить окончательный вариант рукописи. Авторы благодарят концерн «Росэнергоатом», департамент образования и науки Правительства Калужской области, а также Издательский Дом «Манускрипт» за помощь в издании учебника. Большой объем книги и широта охваченного материала вызвали большие трудности при ее написании. Конечно, эти трудности не всегда удавалось преодолеть наилучшим образом. Читатели, вероятно, смогут высказать много замечаний и дать свои предложения по улучшению книги. Авторы заранее признательны всем читателям, которые не сочтут за труд указать на замеченные неточности, ошибки, на пути совершенствования структуры учебника и его содержания. К.А. Пупков Н.Д. Егупов
Введение к 5-му тому
11
ВВЕДЕНИЕ К 5-МУ ТОМУ Настоящая книга представляет собой 5-й том учебника «Методы классической и современной теории автоматического управления». Авторы ставили своей целью в 5-и томах изложить как единое целое положения классической и современной теории автоматического управления. В первых 4-х томах изучаются математические модели широкого класса систем и их динамические характеристики, методы детерминированного и статистического анализа, задачи синтеза САУ при соблюдении противоречивых требований к устойчивости и качеству и теория оптимизации. В пятом томе отражены основные положения важных направлений теории автоматического управления, развиваемых в последние десятилетия. Назначение 5-го тома состоит не в том, чтобы студенты получили полное представление об изучаемых направлениях, а в том, чтобы познакомить их лишь с ключевыми положениями актуальных направлений и указать пути глубокого изучения их содержания. При этом изложенный круг вопросов, которые сами по себе имеют важное значение, может служить основой для последующего изучения монографий и статей, связанных с рассмотрением таких проблем, как применение в теории систем геометрических методов, теории катастроф и теории хаоса, адаптивного и робастного управления, класса интеллектуальных систем и нейрокомпьютеров и др. Введено понятие бифуркаций, рассматриваются соответствующие определения, для класса операторов определены точки бифуркации, т.е. точки, в которых в уравнении с соответствующим оператором происходит рождение нового, нетривиального решения этого уравнения. Показано также, что хаотическое поведение динамических систем определяется высокой чувствительностью к начальным условиям и невозможностью предсказания поведения на большом интервале времени. Рассмотрены некоторые положения робастного управления. Проектировщик часто не располагает полной информацией о моделях объектов, т.е. последние содержат неопределенности и, таким образом, имеют место информационные ограничения, например, при проектировании новых технологических процессов, объектов новой техники и др. Явление неопределенности может порождаться неизвестными параметрами объекта, неточно известными нелинейными характеристиками математической модели, неизмеряемыми внешними возмущениями и др. Если методы классической теории управления основаны на предположении, что все характеристики управляемого процесса известны заранее и поэтому возможно использование закона управления, заданного в явной форме, то в условиях неопределенности задача обеспечения требуемого качества управления обеспечивается применением методов робастного управления. При проектировании систем автоматического управления часто используют свойство адаптации, когда недостаточная степень априорной информации восполняется обработкой по соответствующим алгоритмам текущей информации. Системы, обладающие свойством адаптации (что позволяет сократить сроки их проектирования, наладки и испытаний), называют адаптивными. С учетом сказанного можно поставить вопрос о решении проблемы оптимизации в условиях неполной априорной информации (адаптивное оптимальное управление). Подходы к решению указанных задач изложены в учебнике. Изучение теории автоматического управления без учета физических процессов, протекающих в проектируемой системе, может привести к полной беспомощности
12
Теория оптимизации систем автоматического управления
в постановке и решении практических задач. Поэтому в учебнике уделено большое внимание изучению и применению численных методов для исследования и синтеза достаточно сложных автоматических систем с целью дать представление о реально используемых алгоритмах и таких понятиях, как корректность, устойчивость и обусловленность вычислительных схем. Некоторые материалы, изложенные во всех томах учебника, могут быть использованы для самостоятельной работы, в частности, для написания рефератов, отражающих с необходимой полнотой содержание актуальных проблем с привлечением других источников, а также в курсовом и дипломном проектировании. Соавторами отдельных разделов пятого тома являются: канд. техн. наук, доц. Д.А. Акименко (пп. 6.10, 6.11), канд. техн. наук, доц. Ю.Е. Гагарин (Приложение 2), д-р техн. наук, проф. А.А. Грешилов (Приложение 2), инженер К.И. Желнов (пп. 6.10, 6.11), проф. А.К. Карышев (п. 3.3), инженер А.А. Карышев (пп. 6.1, 6.2), инженер А.Л. Репкин (пп. 4.1, 4.2), инженер К.Ю. Савинченко (пп. 5.1, 5.2), инженер М.Р. Фишер (пп. 5.3, 5.4). Глава 1 и пп. 3.1, 3.2 написаны канд. техн. наук, доц. В.И. Краснощеченко. Авторы выражают признательность сотрудникам редакционно-издательского отдела Калужского филиала МГТУ им. Н.Э. Баумана К.И. Желнову, С.Н. Капранову, К.Ю. Савинченко, М.Р. Фишеру, А.Л. Репкину, Н.Г. Варварской, Т.В. Тимофеевой за подготовку рукописи к изданию и создание оригинал-макета учебника.
Список используемых аббревиатур и обозначений
13
СПИСОК ИСПОЛЬЗУЕМЫХ АББРЕВИАТУР АдСУ АКОР АСГ АЦП БД БЗ БС ВИП ВС ГА ДАЗУ ДЭ ДЭС ИАД ИС ИСУ КВП КЛП КУ ЛП ЛПР МВ МВГ МВС ММ МНК МО МП МСАУ НК НС НЭ ОКС ОНО ООУ ОУ ПАС ПП ППП
— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —
адаптивная система управления аналитическое конструирование оптимальных регуляторов алгоритм скоростного градиента аналого-цифровой преобразователь база данных база знаний билинейная система вспомогательная интегральная поверхность вычислительная система генетический алгоритм динамическое автоматическое запоминающее устройство дифференциальная эволюция динамическая экспертная система интеллектуальный анализ данных интеллектуальная система интеллектуальная система управления классический винеровский процесс кусочно-линейное программирование корректирующее устройство линейное программирование лицо, принимающее решение механизм внимания метод ветвей и границ многопроцессорная вычислительная сеть метод максимума метод наименьших квадратов математическое ожидание математическое программирование многомерная система автоматического управления нейрокомпьютер нейронная сеть нейроподобный элемент окружающая среда обобщенный настраиваемый объект обобщенный объект управления объект управления поисковая адаптивная система полиэдральное программирование; переменные переключения процессор параллельного представления
14
Методы современной теории автоматического управления РБД САУ СИФ СНЛ СНС СПС CC СТР СУ ФВ ФВП ФМП ФПВ ЦАП ЦВМ ЦУ ЭМ
— — — — — — — — — — — — — — — — —
реляционная база данных система автоматического управления система итерированных функций система управления с нечеткой логикой самонастраивающаяся система система с переменной структурой семантическая сеть среда транспьютерной реализации система управления функция выбора фрактальный винеровский процесс функционально-множественная принадлежность функция плотности вероятности цифро-аналоговый преобразователь центральная вычислительная машина цель управления эталонная модель
Список используемых аббревиатур и обозначений
15
СПИСОК ИСПОЛЬЗУЕМЫХ ОБОЗНАЧЕНИЙ
Г
— отношение эквивалентности — отношение изоморфизма — матрица коэффициентов усиления
ℑ( f )
— множество Жюлиа
γ′ ( k ) , γ′′ ( k )
— переменные переключения
Θ λi
— матрица настраиваемых параметров — корни характеристического уравнения
μ( X )
— функция принадлежности
ρ ( x, y )
— метрика
σ (t )
— случайный сигнал ошибки системы
σ X (t )
— среднеквадратическое отклонение случайного сигнала X ( t )
ϕ ( a, b )
— групповая операция в группе G r
χ
— отображение катастрофы
,R
Ω⊂R
m
— множество управлений
A (t ) , B (t )
— матрицы коэффициентов векторно-матричного
A A` A⊂ B A∪ B A∩ B
— — — — —
A ( jω)
— амплитудно-фазовая характеристика
a, b, c
— элементы r-параметрической группы G r
CLν
— коммуникационная загрузка
cr
— оператор кроссинговера
( )
Diff M n
дифференциального уравнения оператор системы дополнение нечеткого множества A отношение вложения объединение нечетких множеств пересечение нечетких множеств
— группа диффеоморфизмов многообразия M n
D
— область поиска решения задачи
d ( w)
— внешнее возмущение
df
— фрактальная размерность
d HB
— размерность Хаусфорда–Безиковича
E (h)
— функция ошибки
Fас ( ⋅)
— функция ассоциации
16
Методы современной теории автоматического управления
( )
Fit H kt
— функция фитнесса (полезности)
[ f ]x
— росток функции f
G
— непрерывная группа преобразований, изоморфная своей r-параметрической группе G r (группа Ли)
Gr
— r-параметрическая группа
H kt
— особь биологического вида; генотип
h
— шаг интегрирования
h (t )
— переходная характеристика
I
— единичная матрица
I ( D)
— наименьшая алгебра Ли, содержащая множество управляемых векторных полей D
I ( p), J (R)
— функционал качества
J (F )
— наименьшее линейное подпространство дифференциальных 1-форм, замкнутое относительно операции дифференцирования Ли функций множества функций f векторными полями алгебры I 0 ( D )
j = −1
— мнимая единица
K (t )
— матрица коэффициентов обратной связи
Ker ( A )
— ядро нечеткого множества A
L2 ( Ω ) , C [ 0, T ] — функциональные пространства L (G )
— алгебра Ли группы Ли G
LX
— производная Ли вдоль векторного поля X ( x ) — оператор математического ожидания
M M M
#
— многообразие катастрофы
n
— гладкое многообразие размерности n
M hn ( y )
— h-е морсовское седло
m
— порядок числителя передаточной функции
m (t )
— полезный входной сигнал
mi ( k )
— моменты изменений характеристик
N { x x , P}
— гауссовская плотность распределения
N0 Np
— операция нечеткого отрицания — число элементов обучающей выборки
N x, N y
— размерности входного и выходного сигналов
n
— порядок знаменателя передаточной функции
Список используемых аббревиатур и обозначений n (t )
— помеха
o1 ,K , on
— множество сигналов
ot
— оператор отбора
Pr { A B}
— условная вероятность события A при условии B
P P%
— передаточная функция нормального объекта
P
17
— передаточная функция возмущенного объекта t
— популяция
q (E)
— целевая функция невязки
r ( w)
— входной сигнал системы
RXY ( t1 , t2 )
— взаимная корреляционная функция случайных процессов X (t ) и Y (t )
r
— количество элементов популяции
S ( A)
— носитель нечеткого множества A
S XX ( ω)
— спектральная плотность случайного сигнала X ( t )
sl T
— оператор селекции — постоянная времени
T(X )
— терм-множество переменной X
Ta , Tb
— элементы группы преобразования G (действия группы G r на многообразии M n )
U (t )
— управляющее воздействие
U ( x)
— окрестность точки x ∈ M n
U k ( mk , γ k )
— гипотеза
u
— ( m× 1 )-вектор управления размерности
V ( ⋅)
— функция Ляпунова
W(s)
— передаточная функция системы в пространстве состояний
W (s)
— передаточная функция скалярной системы
W ( s, t )
— параметрическая передаточная функция
WLν
— вычислительная загрузка
wij
— синаптические веса между нейронами
X ,Y
— векторные поля в естественном базисе как дифференциальные операторы для гладких функций, определенных на многообразии M n
X ( x ) ,Y ( x )
— координатные представления векторных полей в точке x ∈ M n
[ X ,Y ] ( x )
— коммутатор, скобка Ли векторных полей X ( x ) ,Y ( x )
18
Методы современной теории автоматического управления x
— точка многообразия M n, вектор состояния
x′
— точка многообразия M n ( x′ ∈ M n ), полученная преобразованием точки x ∈ M n
x&
— производная по t по функции x ( t )
X (t )
— выходной векторный сигнал
X t , Yt
— однопараметрическая группа преобразований, фазовый поток
( x1 ,K, xn )
— координаты точки x ∈ M n в R n в исходном базисе
x
для векторных полей X ( x ) ,Y ( x )
— норма элемента x
Y (t )
— входной векторный сигнал
Yвыч ( t )
— вектор вычисленный параметров
y
— ( l × 1 )-вектор выхода размерности
z ( k + 1)
— вектор доступных наблюдений
Фр
— диссипативная функция Рэлея
Эк
— кинетическая энергия
Эп
— потенциальная энергия
Глава 1. Синтез САУ методами дифференциальной геометрии
ГЛАВА 1.
19
СИНТЕЗ СИСТЕМ АВТОМАТИЧЕСКОГО УПРАВЛЕНИЯ МЕТОДАМИ ДИФФЕРЕНЦИАЛЬНОЙ ГЕОМЕТРИИ
В 1872 году Феликс Клейн в своей знаменитой Эрлангенской программе сформулировал идею классификации всех видов геометрий на основе симметрии, согласно которой каждая геометрия характеризуется преобразованиями, которые допускается в ней производить над геометрическими объектами, а также свойствами этих объектов, которые не изменяются, остаются инвариантными при этих преобразованиях. Каждая геометрия определяется группой преобразований (группой симметрий), оставляющих те или иные свойства геометрических фигур инвариантными. Так были классифицированы евклидова, аффинная, проективная геометрия и «резиновая геометрия» — топология. Эта идея применения группового подхода давно, широко и с успехом используется в прикладных науках: квантовой механике, кристаллографии, небесной механике и др. Два десятилетия назад геометрический язык проник и в теорию управления, где симметрия реализуется в виде непрерывных групп преобразований (групп Ли). О значении этого подхода говорит тот факт, что ведутся работы по созданию «Единой геометрической теории управления» (ЕГТУ) [257]. Автор ЕГТУ А.Г. Бутковский пишет [259]: «Каждое поколение говорит на своем языке: 30–40 лет назад в теории управления начался переход на язык функционального анализа, в механике еще раньше происходил небезболезненный переход на векторный и тензорный языки. Сейчас, по-видимому, настало время переходить на язык современной геометрии. Причем это веление не только внутренних императивов науки. Можно указать, в частности, весьма актуальные научно-технические проблемы, для решения которых нужны более мощные, по сравнению с существующими, теоретические и технические средства. Такие средства нужны, например, для создания распределенных регуляторов для активных, нелинейных, неоднородных и неизотропных сплошных сред». Геометрический подход позволяет с гораздо более широких позиций взглянуть на фундаментальные проблемы теории управления: управляемость, наблюдаемость, инвариантность, декомпозицию и агрегирование. Особенно он полезен для исследования нелинейных систем управления, трудности анализа и синтеза которых общеизвестны. В данном разделе будут изложены основные математические понятия, теоремы и некоторые методы, используемые при геометрическом подходе к задачам синтеза систем управления. Рассмотрены геометрические аспекты управляемости, наблюдаемости, синтеза регуляторов для нелинейных систем управления, приведены многочисленные примеры. К сожалению, охватить все проблемы теории управления достаточно сложно. Более подробную информацию о применении дифференциально-геометрических методов в теории управления можно найти в прекрасном обзоре Ю.Н. Андреева [8]. 1.1.
ГЛАДКИЕ МНОГООБРАЗИЯ И ИХ РОЛЬ В ИССЛЕДОВАНИИ НЕЛИНЕЙНЫХ СИСТЕМ УПРАВЛЕНИЯ
Развитие теории для достаточно общих классов нелинейных систем требует применения класса пространств состояний более общих, чем линейные пространства. Об этом свидетельствуют следующие примеры [8]: 1. Множества достижимости билинейных систем (простейших нелинейных систем) подпространствами не являются.
20
Методы современной теории автоматического управления
2. При изучении задач управления ориентацией твердого тела в качестве пространства состояний фигурирует векторное расслоение (объединение касательных пространств) группы SO(3) (группа кососимметричных ортогональных матриц третьего порядка). Это расслоение не обладает структурой векторного пространства (сумма двух положительных поворотов может дать нулевой поворот). 3. Часто требуется рассматривать движение системы в открытой области R n, которая не обладает структурой векторного пространства. 4. В задачах аналитического конструирования регуляторов целесообразно рассматривать движение системы не из определенного фиксированного состояния, а сразу из всех возможных состояний, принадлежащих некоторой области, т.е. изучать не отдельные траектории, а переходные отображения системы, заданные фиксированным управлением. При таком обобщении задачи, существенном с позиции приложений, n-мерное дифференциальное уравнение заменяется матричным, а в качестве пространства состояний рассматривается группа по умножению невырожденных квадратных матриц n-го порядка. Такой прием, называемый иногда подъемом динамики системы из фазового пространства в группу, оказывается весьма полезным в различных задачах. Необходимое для изучения перечисленных ситуаций обобщение достигается применением в качестве пространств состояний дифференцируемых гладких многообразий. Основная идея дифференциальной геометрии состоит в применении математического анализа к решению геометрических задач. Поэтому объектами изучения должны быть топологические пространства, в которых имеют смысл такие понятия, как дифференцирование и интегрирование. Кривые и поверхности в трехмерном пространстве являются именно такими объектами. Основными инструментами их изучения являются криволинейные координаты. Рассмотрим, как они вводятся на произвольном топологическом пространстве. Введение координат. Если в окрестности U ( x ) топологического пространства M ⊂ R N введены координаты ( x1 ,K , x N ) , то каждую точку окрестности U можно
отождествить с некоторой точкой y = ( y1 ,K , y n ) арифметического (координатного) пространства R n ( n ≤ N ) , используя непрерывное взаимнооднозначное (т.е. гомеоморфное) отображение ϕ. Определение 1.1 [69]. Если задан гомеоморфизм ϕ : U ( x ) → R n , n ≤ N , удовлетворяющий условиям: 1) ϕ ∈ C r , r ≥ 1 ( C r — пространство r-непрерывно дифференцируемых функций),
как отображение из R N в R n ;
2) rank ( ∂ϕ ∂x ) = n для любой точки y ∈ R n , то пара (U ( x ) , ϕ ) называется картой точки x в M класса C r , или C r -картой в M .
Замечание 1.1. Из определения 1.1 следует что карта (U ( x ) , ϕ ) точки x являет-
ся картой любой точки z ∈ U ( x ) . Таким образом, задание карты означает локальное задание множества М (задание окрестности U ( x ) ) в виде ⎧ y1 = ϕ1 ( x1 ,K , xN ) ; ⎪ ⎨ M ⎪ y = ϕ x ,K , x , n( 1 N) ⎩ n
(1.1)
Глава 1. Синтез САУ методами дифференциальной геометрии
где ϕi , i = 1, n
(n ≤ N )
21
— функции класса C r , определяющие гомеоморфизм ϕ.
Окрестность точки U ( x ) часто называют координатной окрестностью ввиду того, что гомеоморфизм (1.1) определяет на множестве U ( x ) криволинейные координаты y1 ,K , yn , не связанные, вообще говоря, со стандартными координатами объемлющего пространства R N .
Для линейных систем характерно то, что карта (U ( x ) , ϕ ) взаимнооднозначно
отображает все множество M . Для нелинейных систем это несправедливо. Поэтому карт требуется несколько. Введем еще одно определение. Определение 1.2. Множество M ⊂ R N называется n-мерным подмногообразием в R N класса C r (r ≥ 1), или C r -подмногообразием, если каждая его точка имеет некоторую C r -карту. Будем обозначать это подмногообразие через M n. Другими словами, множество M в R N — n-мерное подмногообразие, если для каждой его точки можно построить координатную систему; каждая координатная система определена локально (и называется локальной системой координат). Но все множество координатных систем «охватывает» все многообразие. Множество координатных систем определяет многообразие M n с помощью атласа. Определение 1.3. Атласом многообразия M n называют такое множество карт {(U α , ϕ α )} класса C r , открытые множества {U α } которых образуют покрытие M n. Атлас
{(U α , ϕ α )}
многообразия M n задает множество координатных систем,
«обслуживающих» все многообразие. Чтобы задать многообразие, достаточно задать какой-нибудь атлас. Ясно, что M n =
∞
UUα
α=1
и так как каждая окрестность U α является открытой, то в
окрестности отдельных карт U α и U β ( U α ∩ U β ) отображения ϕ α и ϕ β должны быть согласованы, т.е. должен существовать гомеоморфизм перехода от одной системы координат к другой. Пусть (U , ϕ ) ( ϕ : U → R n ), (V , ψ ) ( ψ : V → R n ) — две карты M n и U ∩ V ≠ 0. Тогда каждой точке x ∈ U ∩ V отвечают две системы координат: {ξ1 ( x ) ,K , ξn ( x )} и
{h1 ( x ) ,K, hn ( x )}
— координаты точек ϕ ( x ) ∈ ϕ (U ∩ V ) и ψ ( x ) ∈ ψ (U ∩ V ) , кото-
рые, вообще говоря, различны. Обе системы координат равнозначны в том смысле, что существует гомеоморфизм перехода ψϕ −1 : ϕ (U ∩ V ) → ψ (U ∩ V ) , связывающий обе системы координат и позволяющий первые координаты непрерывно выразить через вторые: ⎧ ξ1 = χ1 ( h1 ,K , hn ) ; ⎪ (1.2) ⎨ M ⎪ξ = χ h , K , h n( 1 n) ⎩ n и, наоборот, вторые непрерывно выразить через первые:
22
Методы современной теории автоматического управления ⎧ h1 = ℵ1 ( ξ1 ,K , ξ n ) ; ⎪ ⎨ M ⎪ h = ℵ ξ ,K , ξ . n( 1 n) ⎩ n
(1.3)
В формулах (1.2) и (1.3) через χ1 ,K , χ n ; ψ 1 ,K , ψ n обозначены координатные функции отображения ϕψ −1 = ( χ 1 ,K , χ n ) ; ψϕ −1 = (ℵ1 ,K , ℵ n ) .
Если все карты U α , Vβ согласованы таким образом в атласе, то атлас называют согласованным. Для любого атласа A обозначим через A max множество всех карт, согласован-
ных с каждой картой атласа, и назовем A max — максимальным атласом атласа А или гладкой структурой на M n. Определение 1.4. Хаусдорфово пространство M со счетной базой и с заданной на нем гладкой структурой называется гладким (дифференциальным) многообразием. При этом число n (размерность образа карт) называется размерностью многообразия. Другими словами, дифференцируемое многообразие в окрестности каждой своей точки устроено как R n , т.е. существует диффеоморфное (гладкий изоморфизм) ото-
бражение окрестностей каждой точки в R n, причем дифференцируемые окрестности близких точек согласованы таким образом, что при помощи гладких замен переменных можно перейти с одной окрестности в другую. Графически это выглядит следующим образом (рис. 1.1).
Рис. 1.1. Гладкое многообразие и две его карты Пример 1.1. В качестве примера гладкого многообразия рассмотрим проективную плоскость RP2 и найдем максимальный атлас этого многообразия. Точками RP2 являются всевозможные прямые, проходящие через начало координат в R3. Каждая такая прямая однозначно определяется своим направляющим вектором a , a ≠ 0. При этом векторы a и λa ,
λ ≠ 0, являются направляющими для одной и той же прямой. Обозначим через ( x1 : x2 : x3 ) прямую с направляющим вектором a = ( x1; x2 ; x3 ) . Будем считать, что T
( x1 : x2 : x3 ) = ( y1 : y2 : y3 )
случае, когда найдется такое ненулевое число λ, что y1 = λx1 , y2 = λx2 , y3 = λx3 .
в том и только том
Глава 1. Синтез САУ методами дифференциальной геометрии
23
Введем следующие координаты на RP . Рассмотрим множество прямых U i ( i = 1, 2, 3 ), у которых i-я 2
координата направляющего вектора не равна нулю. Заметим, что если у одного направляющего вектора a какой-то прямой i-я координата не равна нулю, то это верно и для любого другого направляющего вектора этой прямой, так как этот (второй) вектор имеет вид λa , λ ≠ 0. Поэтому множества U1 , U 2 , U 3 определены однозначно. А так как направляющий вектор прямой не равен нулевому вектору, то, по крайней мере, одна его координата не равна нулю, и, значит, ∩3i =1U i = RP2. Пусть
( x1 : x2 : x3 ) ∈ U1.
Поставим в соответствие этой прямой точку R2 с координатами y1 = x 2 / x1,
y 2 = x 3 / x1. Числа y1 и y2 назовем координатами прямой ( x1 : x2 : x3 ) как точки RP2 в системе координат,
связанной с U1. Таким образом, получено отображение ϕ1 : ( x1 : x2 : x3 ) → ( y1 : y2 ) . Отображение ϕ1 должно иметь обратное, так как ϕ1 — диффеоморфизм: имеем ϕ1−1
( y1 : y2 ) =
= → (1: y1 : y2 ) , что проверяется непосредственной подстановкой y1 = x 2 / x1, y 2 = x 3 / x1 и учетом x1 ≠ 0.
Аналогично определяются диффеоморфизмы: ϕ2 : U 2 → R 2 : ( x1 : x2 : x3 ) → ( x1 / x2 : x3 / x2 ) ; ϕ3 : U 3 → R 2 : ( x1 : x2 : x3 ) → ( x1 / x3 : x2 / x2 ) . 2
Таким образом, на RP вводятся три локальные системы координат (три карты) и атлас на RP2 можно задать из 3-х карт (U i , ϕi ) , i = 1, 2, 3 U1 = { x : x1 ≠ 0} , ϕ1 ( x ) = ( x2 / x1 , x3 / x1 ) ; U 2 = { x : x2 ≠ 0} , ϕ2 ( x ) = ( x1 / x2 , x3 / x2 ) ; U 3 = { x : x3 ≠ 0} , ϕ3 ( x ) = ( x1 / x3 , x2 / x3 ) .
Найдем отображение перехода из одной системы координат в другую, в такую, где определены обе системы координат. Пусть l = ( x1 : x2 : x3 ) ∈ U1 ∩ U 2 . В системе координат (U 1 , ϕ1 ) точка l имеет координаты y1 = x 2 / x1, y 2 = x 3 / x1, а в системе (U 2 , ϕ 2 ) − y1 = x1 / x 2 , y 2 = x 3 / x 2 . Легко видеть, что y%1 = 1/ y1 , y% 2 = y2 / y1. Эту же связь можно получить, записав в координатах отображение y2 y1−1. Действительно, −1 1
Так как прямая
ϕ ϕ → (1: y1 : y2 ) ⎯⎯ → (1/ y1; y2 / y1 ) . ( y1 , y2 ) ⎯⎯⎯ l = ( x1 : x 2 : x 3 ) = (1: y1 : y 2 ) лежит в U1 ∩ U 2 , то y1 ≠ 0 2
и отображение ϕ 2 o ϕ1−1 зада-
ется бесконечно дифференцируемыми функциями. Аналогичное утверждение верно и для отражений ϕ1 o ϕ −2 1 , ϕ 3 o ϕ −21 , ϕ 2 o ϕ 3−1 , ϕ1 o ϕ 3−1 , ϕ 3 o ϕ1−1.
Многообразия — это наиболее общая формулировка пространства состояний (фазового пространства) для динамической системы. Для исследования поведения динамической системы важно знать, как взаимосвязаны точки этого многообразия. И здесь на первый план выходит нахождение группы преобразований, которая действует на заданном многообразии. К изучению свойств таких групп мы и приступаем. 1.2.
ГРУППЫ И АЛГЕБРЫ ЛИ
1.2.1. ОПРЕДЕЛЕНИЕ ГРУППЫ Множества и функции на них — вот два типа объектов, к изучению которых сводится, в конечном счете, любая математическая теория [298]. Если аргументы функции f пробегают множество M и она принимает при этом значения из того же самого множества, то f называется алгебраической операцией на множестве M . Раздел математики, в котором изучаются алгебраические операции, называется алгеброй. При этом алгебру интересует только вопрос, как действует та или иная алгебраическая операция, и вовсе не интересует вопрос, на чем она действует. Отвлечься от второго вопроса и сосредоточиться на первом позволяет понятие изоморфизма. Пусть заданы два множества с отмеченными на них алгебраическими операциями, и можно установить взаимнооднозначное соответствие между самими множествами и
24
Методы современной теории автоматического управления
между множествами операций на них, причем соответственные операции будут функциями одинакового числа аргументов и при соответствующих значениях аргументов будут принимать соответственные значения. Тогда эти множества с операциями называются изоморфными. Изоморфные объекты одинаково устроены в смысле операций, поэтому в алгебре их не различают. Каждый класс изоморфных объектов выделяет в чистом виде некоторый тип алгебраических операций. Это сводит задачу алгебры — изучение алгебраических операций — к более осязаемой задаче изучения множеств с операциями с точностью до изоморфизма. Один из самых распространенных типов алгебраических операций — бинарная операция, подчиненная некоторым аксиомам, которая стала самостоятельным разделом современной алгебры, — а именно разделом теории групп. Сразу заметим, что термин «алгебра», используемый выше, — это термин, используемый для названия одного из разделов современной математики. Далее, при введении понятий «группа Ли» и «алгебра Ли» термин «алгебра» трактуется в более узком смысле и будет раскрыт позднее. Чтобы понять всю мощь применения теории групп для решения задач математики и прикладных наук, достаточно упомянуть следующий факт: в 1830 году Эварист Галуа, (который ввел термин «группа»), используя групповой подход, достаточно просто показал неразрешимость в общем случае алгебраического уравнения в радикалах при n ≥ 5. Широкое применение эта теория в форме непрерывных групп преобразований получила в физике, в частности, в квантовой механике, в небесной механике и, в последнее время, в теории управления [8, 29, 96]. Непрерывные группы (преобразований) иначе называются группами Ли — в честь норвежского математика Софуса Ли, стоявшего у истоков этой теории и получившего в своих трудах на основе группового подхода основные теоремы о разрешимости системы дифференциальных уравнений в квадратурах. Прежде чем изучать группы Ли, дадим определение абстрактному понятию «группа». Пусть G — множество элементов произвольной природы. Введем на этом множестве бинарную операцию. Бинарная операция (также используется термин «групповая операция») на множестве G — это соответствие, при котором каждой упорядоченной паре элементов данного множества отвечает однозначно определенный элемент этого же множества. Бинарную операцию будем обозначать точкой «⋅ ». Определение 1.5. Множество G с бинарной операцией « ⋅ » называется группой, если выполнены следующие 3 аксиомы: 1) ассоциативность (1.4) ( a ⋅ b ) ⋅ c = a ⋅ ( b ⋅ c ) ∀ a, b, c ∈ G; 2) существование единицы. В множестве G существует такой единственный элемент e ∈ G, что a ⋅ e = e ⋅ a = a ∀ a ∈ G; (1.5) 3) наличие обратного элемента. Для любого a ∈ G существует в G такой элемент x, что a ⋅ x = x ⋅ a = e. (1.6) −1 Обратный к а элемент будем обозначать a . Если ∀ a, b ∈ G имеет место равенство a ⋅ b = b ⋅ a, тогда группа называется коммутативной, или абелевой. Изоморфизм, т.е. взаимнооднозначное гомоморфное отображение, абстрактно равных групп позволяет распространить полученные результаты для одной группы на
Глава 1. Синтез САУ методами дифференциальной геометрии
25
группу, изоморфную ей, так как изоморфные группы имеют одну и ту же групповую структуру. Напомним, что гомоморфным отображением (гомоморфизмом) групп или некоторой иной алгебраической структуры называется отображение одной группы, алгебраической структуры в другую, сохраняющее операции. Последнее означает, что образ результата операции (в частности, бинарной), производимой над элементами исходного множества, можно получить, выполнив над образами элементов операцию, определенную на содержащем их множестве. Другими словами, если, например, рассматриваются две группы G1 и G 2 с соответствующими бинарными операциями ⊗1 для G1 и ⊗2 — G 2 , а f — гомоморфизм f : G1 → G 2 , то ∀ a, b ∈ G1 имеет место равенство f ( a ⊗1 b ) = f ( a ) ⊗2 f ( b ) ,
где f ( a ) , f ( b ) ∈ G2 . Рассмотрим пример, где структуру одной плохо формализованной группы H можно изучать по изоморфной ей хорошо формализованной группе G. Пример 1.2. Пусть элементами группы G служат корни уравнения x 4 − 1 = 0,
G = {1, j , −1, − j} , где j = −1. Групповая операция « ⋅ » — обычное умножение. Рассмотрим группу H вращений квадрата в плоскости, где элементами служат повороты квадрата на соответствующие углы: a 0 : ϕ = 0; a : ϕ = 90; a 2 : ϕ = 180;
{
}
a 3 : ϕ = 270°, т.е. H = e, a = a1 , a 2 , a3 . В группе G : единичный элемент e = 1. Обратные элементы: для 1 → 1; для j → − j; для −1 → −1; для − j → j. В группе H единичный элемент e = a 0 . Обратные элементы: для a → a 3; для a 2 → a 2 ; для a 3 → a; для e → e. Обозначим через f : H → G отображение группы H на G :
⎛ a0 a a 2 a 3 ⎞ ⎜⎜ ⎟⎟ . ⎝ 1 j −1 − j ⎠ Легко проверить, что для любых элементов r , s ∈ H f ( r ⋅ s ) = f ( r ) o f ( s ). Можно показать, что это отображение является изоморфным. Например, r = a; s = a 3 ;
r ⋅ s = a 4 = a0 (поворот на 360°);
f ( r ⋅ s ) = f ( a0 ) = 1 = f = f ( r ) ⋅ f ( s ) = j ⋅ ( − j ) . Таким образом, изучить структуру группы H (группы вращения квадрата) можно с помощью более формализованной изоморфной ей группы G.
1.2.2.
ГРУППЫ ЛИ
Определение 1.6. Гладкое многообразие G r размерности r называется группой Ли, если на G r задана структура гладкого многообразия, т.е. групповые операции гладкие. Иначе говоря, группа Ли (или непрерывная группа преобразований) — это множество преобразований, которое наделено двумя структурами: 1) алгебраически — это группа; 2) топологически — это многообразие, причем обе структуры согласованы между собой. Что она преобразует, мы рассмотрим чуть ниже, а пока определим, в чем заключается согласованность двух этих структур. Пусть a 0 , b0 ∈ G r — некоторые элементы G r . Существуют такие координатные окрестности V a 0 , Vb0 , V c 0 точек a0 , b0 , c0 = a0 ⋅ b0 («⋅ » — групповая операция), соот-
ветственно с координатами ( a1 ,K , a r ) , ( b1 ,K , br ) , ( c1 ,K , c r ) — структура многообразия, — что V a 0 ⋅V b0 ⊂ V c 0 и координаты c i = ϕ1 ( a1,K, a r ; b1,K, br ) , i = 1, r , точки
26
Методы современной теории автоматического управления
c = a ⋅ b ∈V c 0 являются гладкими функциями от координат точек a ∈V a 0 , b ∈V b0 , где
{
Va0 ⋅ Vb0 = a ⋅ b / a ∈ Va0 , b ∈ Vb0
} (см. рис. 1.2).
Из групповых свойств рассмотрим, как на группе Ли выполняется третья аксиома абстрактной группы (наличие обратного элемента), причем необходимо учитывать требование гладкости.
a0 Va (a1 ,...,ar ) 0
b0 Vb (b1 ,...,br )
Gr c0 Vc (c1 ,...,cr ) 0
0
Рис. 1.2. Топологическая группа G r и ее элементы
Требование гладкости операции a → a −1 означает следующее. Пусть вблизи точки c 0 = a 0−1 есть карта V c 0 с координатами ( c1 ,K, c r ) . Тогда существует такая координатная окрестность V a 0 точки a0 с координатами ( a1 ,K, a r ) , что V a−01 ⊂ V c 0 и координаты c i = hi ( a1 ,K, a r ) , i = 1, r точек c = a −1 ∈V c0 — гладкие функции от коор-
{
динат точек a ∈ V a 0 , где Va−01 = a −1 a ∈ Va0
a0 (a1 ,...,ar )
} (рис. 1.3).
Gr c 0 = a0-1 (c1 ,...,cr )
Рис. 1.3. К согласованности топологической и алгебраической структур группы G r
Иначе говоря, если а — групповой элемент вблизи a0, тогда a −1 — групповой элемент вблизи a 0−1. Элементы a, b ∈ G r называются параметрами и определяют группу G r как r-параметрическую группу. Благодаря изоморфизму непрерывные группы G r можно рассматривать как непрерывные группы преобразований (действий) на гладком многообразии M n. Пусть G r — группа Ли, M n — гладкое многообразие размерности n. Скажем, что группа Ли G r действует на многообразии M n, если для любого элемента
a ∈ G r , x ∈ M n задано гладкое отображение Ta : M n → M n. По другому: каждой паре ( a, x ) , где a ∈ G r , x ∈ M n, соответствует точка Ta x ∈ M n, т.е. задано отображение h : G r × M n → M n. На отображение h накладываются следующие три ограничения (соответствующие аксиомам группы): 1. Отображение h : G r × M n → M n — гладкое. Пусть ( x1′ ,K , x′n ) — локальная система координат в окрестности U ⊂ M n точки Ta 0 x 0 ∈ U , где a 0 ∈ G r , x 0 ∈ M n . Тогда
Глава 1. Синтез САУ методами дифференциальной геометрии
27
найдутся такие координатные окрестности V , W точек a 0 ∈ G r , x 0 ∈ M n соответственно, что
{
}
VW ⊂ Tv W v ∈ V ⊂ G r , w ∈ W ⊂ M n ⊂ U ,
поэтому отображение Ta : W → U можно записать в виде xi′ = fi ( a1 ,K , ar ; x1 ,K, xn ) , i = 1, n,
(1.7)
где a1 ,K, ar — локальные координаты в окрестности V , а x1 ,K, xn — локальные координаты в окрестности W . В (1.7) штрих « ′ » обозначает не производную, а служит для введения новой точки. Тогда требование гладкости отображения h заключается в том, что все функции xi′ = fi ( a1 ,K, ar ; x1 ,K, xn ) , i = 1, n гладкие по a и x. 2. Произведению двух элементов a, b ∈ G r с групповой операцией ϕ ( a, b ) соответствует композиция соответствующих преобразований с групповой операцией « ⋅ », т.е. Tϕ( a ,b ) = Ta ⋅ Tb . (1.8) 3. Единичному элементу e ∈ G r отвечает тождественное преобразование id (от английского identity — тождество) многообразия M n, т.е. Te x = id ( x ) = x.
(1.9)
r
В этом случае r-параметрическая группа G изоморфна непрерывной группе преобразований G Tr (конечно, каждая группа имеет свою групповую операцию). Структурные свойства группы — это те, которые одновременно принадлежат всем изоморфным между собой группам, а также их алгебрам. Поэтому при изучении структуры группы преобразований GTr можно ограничиться ее r-параметрической группой G r. Исходя из этого, мы в дальнейшем G будем называть r-параметрической группой преобразований (действующей на гладком многообразии M n ) ( G ≅ G r ) и не делать между ними различий. Пример 1.3. Группа вращений плоскости. Действует в R 2. Преобразование Ta :
⎛ cos a sin a ⎞ Ta = ⎜ ⎟, ⎝ − sin a cos a ⎠ параметр a ∈ G1 (однопараметрическая группа преобразований). Действие в R 2 : ⎛ x1′ ⎞ ⎛ cos a sin a ⎞ ⎛ x1 ⎞ ⎜ ′ ⎟ = Ta ⋅ x = ⎜ ⎟ ⎜ ⎟. x ⎝ − sin a cos a ⎠ ⎝ x2 ⎠ ⎝ 2⎠ Композиция преобразований ⎛ cos a sin a ⎞ ⎛ cos b sin b ⎞ ⎛ cos ( a + b ) sin ( a + b ) ⎞ Ta ⋅ Tb = ⎜ ⎟⎜ ⎟ = ⎜⎜ ⎟⎟ ⋅ ⎝ − sin a cos a ⎠ ⎝ − sin b cos b ⎠ ⎝ − sin ( a + b ) cos ( a + b ) ⎠ Отсюда делаем вывод, что групповая операция в G 1 : ϕ ( a, b ) = a + b соответствует обычному сложению, а групповая операция в GT1 : Ta ⋅ Tb — обычному умножению матриц.
У данной группы есть специальное обозначение SO(2), что означает: специальная ортогональная, действующая в R 2. Группа SO(2) интересна и тем, что здесь можно наглядно проанализировать две структуры (алгебраическую и топологическую). Покажем это:
28
Методы современной теории автоматического управления 1) алгебраическая структура: ⎪⎧⎛ cos a sin a ⎞ ⎪⎫ G1 = ⎨⎜ ⎟ : 0 ≤ a ≤ 2π ⎬ . sin a cos a − ⎠ ⎩⎪⎝ ⎭⎪ В этой группе можно легко выделить групповые свойства: • бинарная операция — обычное умножение матриц; • обратный элемент — обратная матрица; • единичный элемент — единичная матрица; 2) топологическая структура. G1 можно отождествить с единичной окружностью (многообразие с двумя картами) S 1 = {(cos a, sin a ) : 0 ≤ a ≤ 2π} в R 2, что позволяет определить на SO(2) структуру многообразия.
Определение 1.7. Пусть задано действие группы Ли G r на многообразии M n. Орбитой точки x ∈ M n называется множество O ( x ) = Ta x | a ∈ G r ⊂ M n .
{
}
Пример 1.4. Орбитой для любой точки x 0 = ( x10 , x 20 ) ∈ R 2 группы SO(2) будет окружность радиуса 2 2 r = x10 + x20 .
Пример 1.5. Найдем орбиту действия группы линейных замен координат на множестве матриц линейных операторов.
Пусть x — ( n × n )-матрица линейного оператора; a ∈ G n ных ( n × n )-матриц. Тогда
{
O ( x ) = Ta x : axa −1 ∀a ∈ G n
2
2
— множество невырожденных квадрат-
}
является орбитой (матрицы) x и определяет множество матриц, подобных x.
Определение 1.8. Функция ω ( x ) , постоянная на орбитах, называется инвариан-
том группы преобразований, т.е. ω (Ta ⋅ x ) = ω ( x ) для всех a ∈ G r , x ∈ O ( x ) ⊂ M n . 1.2.3.
ИНФИНИТЕЗИМАЛЬНЫЙ ОПЕРАТОР НЕПРЕРЫВНОЙ ГРУППЫ ПРЕОБРАЗОВАНИЙ
Рассмотрим преобразования (1.7), которые определяют действие r-параметрической группы G r на многообразии M n . Пусть r = 1, тогда
x′i = f i ( a; x ) , i = 1, n,
(1.10)
причем f ( 0; x ) = x. Пусть z ( x1′ ,K , x′n ) = z ( x ′ ) — произвольная функция от x′. Проведем линеаризацию действия группы (1.10) в окрестности ее единицы (тождественного преобразования), т.е. разложим функцию z ( x ′ ) по степеням a в окрестности точки a = 0. Имеем z ( x′ ) = z ( x ) + a
dz ( x′ ) da
+ a =0
2 a 2 d z ( x′ ) ⋅ 2 da 2
K.
(1.11)
a =0
Обозначим ⎛ ∂x ′i ⎞ = ξi ( x ) ⎜ ⎟ ⎝ ∂a ⎠ a =0
(1.12)
Глава 1. Синтез САУ методами дифференциальной геометрии
и запишем оператор
29
n
∂ (1.13) . ∂x i i =1 Учитывая правило дифференцирования сложной функции, можем в первом приближении записать равенство (1.11) как (1.14) z ( x ′) = z ( x ) + aXz. Равенство (1.14) называется инфинитезимальным преобразованием группы, а оператор (1.13) — ее инфинитезимальным оператором. X = ∑ ξi ( x )
1.2.4. АЛГЕБРЫ ЛИ Изучение структуры и свойств группы Ли G — достаточно сложная проблема, подчас неподдающаяся решению. Поэтому неоценимо открытие, сделанное С. Ли, который уже в первых работах установил, что многие свойства, связанные с группами преобразований, такие как инварианты, вопросы структуры, изоморфизм и др., выражаются в терминах алгебры Ли, порожденной данной группой. Алгебра Ли L является линеаризацией группы Ли G в окрестности ее единичного элемента. Поэтому вопросы, связанные с действиями группы G r , на многообразии (фазовом пространстве) M n в теории управления определяет управляемость, наблюдаемость, инвариантность, возможность декомпозиции. В силу локального изоморфизма между группой и алгеброй Ли эти групповые свойства можно исследовать по линеаризованной модели группы — ее алгебре Ли. Теория алгебр Ли играет при этом примерно ту же роль, какая отводится в теории линейных систем линейной алгебре. Дадим определение алгебры Ли. Определение 1.9. Алгеброй Ли L называется векторное пространство над вещественным полем R, для любой пары элементов которых a, b определена билинейная операция (умножение), удовлетворяющая определенным условиям, a ⋅ b = c так, что полученный вектор c принадлежит этому же пространству. Иначе говоря, алгебра Ли — это векторное пространство, замкнутое относительно операции умножения. Это умножение называется коммутатором элементов a, b и обозначается c = [a, b]. (1.15) В теории управления коммутатор часто называют скобкой Ли [209, 228, 250, 255], в механике его называют скобкой Пуассона [113, 150]. Мы далее будем называть это умножение коммутатором (это наиболее общее название), либо скобками Ли — когда элементами алгебры Ли будут векторные поля. Введенный коммутатор (операция умножения) должен отвечать следующим условиям: 1) билинейности [αa + βb, c ] = ⎡⎣ α ( a, c )⎤⎦ + β [b, c ] , (1.16) [a, αb + βc ] = α [a, b] + β [a, c ] ; 2) кососимметричности (1.17) [ a, b ] = − [b, a ]; 3) для него справедливо тождество Якоби (1.18) ⎣⎡[a, b] , c ⎦⎤ + ⎣⎡[b, c ] , a ⎦⎤ + ⎣⎡[c, a ] , b ⎦⎤ = 0
для любых a, b, c ∈ L и α, β ∈ R. Из выражений (1.17) и (1.18) видно, что алгебра Ли является антикоммуникативной (формула (1.17)) и неассоциативной, где условие ассоциативности заменено тождеством Якоби (1.18).
30
Методы современной теории автоматического управления
Из свойства 2) также следует, что (1.19) [ a, a ] = 0. Примеры алгебр Ли: 1. Пространство R 3 с обычным векторным умножением a × b, a, b ∈ R 3 является алгеброй Ли. Тождество Якоби следует из равенства a × ( b × c ) = b ( a, c ) − c ( a, b ) , справедливого для произвольных трех векторов a, b, c ∈ R 3. 2. Множество полиномов от вещественной переменной с коммутатором ∂q − q ( x ) ∂p . ⎣⎡ p ( x ) , q ( x ) ⎦⎤ = p ( x ) ∂x ∂x 3. В теории гладких многообразий алгебры Ли (над полем R ) возникают как алгебры векторных полей. Векторные поля на гладких многообразиях (обобщение понятия поверхности) выступают как элементы касательных пространств к данному многообразию. Линейное пространство всех касательных векторов к многообразию M n в точке x называют касательным пространством к многообразию M n в точке x и обозначают TM xn (рис. 1.4).
( )
( )
TM xn
x
Mn
Рис. 1.4. Касательное пространство к многообразию
Рассмотрим дизъюнктивное объединение TM n = UTM xn всех касательных пространств к многообразию M n , которое называется касательным расслоением. Свое название расслоение берет из свойств касательных пространств к многообразию: касательные пространства TM xn1 I TM xn2 = ∅ не пересекаются, если x1 ≠ x 2 , т.е. это объединение выглядит как слоеный вертикально стоящий пирог (см. рис. 1.5). TMxn1
TMxn2
X (x )
Mn x1
x2
Рис. 1.5. Касательное расслоение
Глава 1. Синтез САУ методами дифференциальной геометрии
31
Можно показать [102], что на множестве TM n можно также ввести структуру гладкого многообразия. Определение 1.10. Векторным полем на многообразии M n называется такое отображение X : M n → TM n , что X ( x ) ∈ TM xn для каждого x ∈ M n . Векторное поле иногда называют сечением касательного расслоения TM n. На рис. 1.5 это отображено сплошной волнистой линией на касательном расслоении TM n (подробнее см. [69, 113, 269]). Каждое векторное поле X ( x ) является инфинитезимальной образующей для однопараметрической (параметр t ) группы непрерывных преобразований (диффеоморфизмов, т.е. гладких изоморфизмов) G = { X t } на многообразии M n. Выше было рассмотрено, как по действию группы получить ее инфинитезимальную образующую (инфинитезимальной оператор) X , и ниже будет показано, как по инфинитезимальному оператору восстановить группу. Векторное поле X ( x ) для каждой гладкой функции z ( x ) , определенной на многообразии M n, является линейным дифференциальном оператором Х (оператором дифференцирования вдоль векторного поля X ( x ) ). Будем придерживаться следующих обозначений: X ( x ) = ( ξ1 ( x ) ,K , ξ n ( x ) )
•
T
— это координатное представление поля в кон-
кретной точке x. n ∂ — векторное поле как дифференциальный оператор для • X = ∑ ξi ( x ) ∂x i i =1 гладких функций, определенных на M n. Векторные поля X ( x ) , заданные на произвольном гладком многообразии M n, образуют алгебру Ли L с коммутатором (скобками Ли) — дифференциальным оператором первого порядка, имеющим координаты (1.20) [ X ,Y ] i ( x ) = Xη i ( x ) − Yξ i ( x ) , i = 1, n, где n
X = ∑ ξi ( x ) i =1
n ∂ ∂ , Y = ∑ ηi ( x ) , ∂x i ∂ xi i =1
[ X , Y ]i ( x ) — i-я координата векторного поля [ X , Y ]i ( x ) в точке x. В координатной форме векторное поле (1.20) можно записать в виде ∂η ∂ξ [ X ,Y ] ( x ) = ⎛⎜ ⎞⎟ X ( x ) − ⎛⎜ ⎞⎟ Y ( x ) , x ∂ ∂ ⎝ ⎠ ⎝ x⎠
(1.21)
где ( ∂Q ∂x ) — матрица Якоби вектор-функции Q ( x ) . 1.3.
ГРУППОВОЙ АНАЛИЗ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ. ОДНОПАРАМЕТРИЧЕСКИЕ ГРУППЫ ПРЕОБРАЗОВАНИЙ
Для исследования системы обыкновенных дифференциальных уравнений, где в качестве параметра используется время, важно рассмотреть так называемые однопараметрические группы (локальных диффеоморфизмов — взаимнооднозначных и непрерывно дифференцируемых отображений), часто называемые фазовыми потоками [113, 114].
32
Методы современной теории автоматического управления
Пусть на n-мерном арифметическом координатном пространстве R n задана группа G однопараметрических преобразований (параметр p ), связывающая две точки фазового пространства следующим соотношением (см. формулу (1.10)): x ′i = Fi ( x, p ) , (1.22)
где Fi ( x, p ) — аналитическая функция по переменным ( x , p ) в некотором открытом множестве изменения переменной x и в некоторой окрестности параметра p 0 , соответствующего тождественному преобразованию ( p 0 — единичный элемент группы G, т.е. x = F ( x, p 0 ) ). Для удобства сделаем следующее преобразование. Заменим p = p 0 + a, (1.23) где a — также скалярный параметр. Замена (1.23) позволяет свести преобразование (1.22) к следующему: x ′i = Fi ( x, p 0 + a ) = f i ( x, a ) , i = 1, n, (1.24) где тождественному преобразованию x ′i = f i ( x, a ) соответствует ненулевое значение параметра a, т.е. единичный элемент a 0 = 0. Инфинитезимальный оператор для преобразования (1.24) группы G имеет вид (см. п. 1.2.3) n ∂ X= , (1.25) ξi ( x ) ∂ xi i =1
∑
где
⎛ ∂f ( x , a ) ⎞ (1.26) =⎜ i ⎟ , i = 1, n. ∂a ∂a ⎝ ⎠0 a=a0 Так как группа G преобразований (1.24) является непрерывной, естественно рассмотреть постепенное преобразование точек пространства, по мере того, как мы изменяем непрерывным образом параметр a от a 0 = 0. Итак, имеем ξi =
∂f i ( x , a )
x ′ = f ( x, a ) .
(1.27)
Рассмотрим вариацию параметра a : a → a + da. Соседнее значение параметра a + da будет переводить x в x′ + dx ′, так как f — аналитическая функция параметра a. Но мы можем также найти значение параметра δa очень близкое к 0 (т.е. преобразование очень близкое к тождественному), которое переводит точку x ′ в x′ + dx ′. Значит, мы имеем два пути перехода из точки x в x′ + dx ′: (1.28) 1) x ′ + dx ′ = f ( x , a + da ) ; 2) x′ = f ( x, a ) ; x′ + dx ′ = f ( x′, δa ) . Геометрически это выглядит следующим образом (рис. 1.6).
(1.29)
Рис. 1.6. Действие однопараметрической группы в окрестности единичного элемента
Глава 1. Синтез САУ методами дифференциальной геометрии
33
Разложим последнее соотношение (1.29) в ряд Тейлора в окрестности тождественного преобразования a0 = 0. Имеем ∂f ( x′, b ) (1.30) x′ + dx′ = f ( x′,0) + δa + K = x′ + ξ ( x′) δa + K . ∂b b =0 В формуле (1.30) учтена зависимость (1.26). Если вариация параметра δa очень мала, можно принять dx ′ = ξ ( x ′ ) δa. (1.31) С другой стороны, пользуясь определением группы Ли, имеем (1.32) x ′ + dx ′ = f ( x ′, δa ) = f ( f ( x, a ) , δa ) = f ( x , ϕ ( a, δa ) ) , где ϕ(a, b ) — групповая операция параметрической группы G1 (см. ниже). Сравнивая выражения (1.28) и (1.32), получим a + da = ϕ ( a, δa ) . (1.33) Найдем, как связан дифференциал da с вариацией параметра δa. Разложим правую часть (1.33) в ряд Тейлора в окрестности a 0 = 0 a + da = ϕ ( a, 0 ) +
δϕ ( a, b ) δb
δa + K = a + b =0
δϕ ( a, b ) δb
Если вариация δa мала, то можно принять ∂ϕ ( a, b ) δa, da = ∂b b =0 откуда
δa + K .
(1.34)
b =0
(1.35)
−1
⎛ ∂ϕ ( a, b ) ⎞ δa = ⎜ ⎟ da = ψ ( a ) da. ⎜ ∂b ⎟ b =0 ⎠ ⎝ Подставляя формулу (1.36) в (1.31), получим dx ′ = ξ ( x ′ ) ψ ( a ) da.
(1.36)
(1.37)
Если ввести новый параметр t a
t = ∫ ψ ( a ) da,
(1.38)
dt = ψ ( a ) da,
(1.39)
0
т.е.
тогда из (1.37) можно определить dx ′ = ξ ( x ′ ) , x ′ ( 0 ) = x. (1.40) dt Новый параметр t для однопараметрической группы преобразований G называется каноническим, так как в этом случае групповая операция имеет простейший вид t3 = ϕ ( t1 , t2 ) = t1 + t2 . (1.41)
Обратный элемент канонического параметра группы G1 t −1 = −t. (1.42) Свойства (1.41) и (1.42) очевидны, так как согласно (1.40) дифференциал преобразования dx ′ линейно связан с дифференциалом параметра t
34
Методы современной теории автоматического управления dx ′ = ξ ( x ′) dt ,
конечно же, при условии, что ξ(⋅) не является функцией параметра t. Если параметр t определить как время, то соотношение (1.40) можно трактовать следующим образом: между однопараметрической группой преобразований в пространстве R n и системой автономных обыкновенных дифференциальных уравнений с аналитическими правыми частями существует взаимнооднозначное соответствие (с точностью до несущественной замены параметра). Интегрируя систему (1.40) мы полностью восстанавливаем группу по ее инфинитезимальному оператору (с точностью до замены параметра). Связь однопараметрической группы преобразований G с введенным каноническим параметром t и автономными обыкновенными дифференциальными уравнениями позволяет дать следующее (широко используемое) ее определение [13, 26]. Определение 1.11. Локальная однопараметрическая группа G (диффеоморфных
{X t } в многообразии M n — это отображение R × M в ( t , x ) ∈ I × M → X t ( x ) ∈ M n , I = ( −ε, ε ) ∈ R, которое удовлетворяет следующим
преобразований)
M,
ак-
сиомам группы: 1) для каждого t ∈ R X t : x → X t x есть преобразование в M n ; 2) для всех t , s ∈ I , t + s ∈ I , x ∈ M n X t + s x = X t ⋅ ( X s x ) = X t X s x;
(1.43)
3) обратное преобразование имеет вид: если x ′ = X t x , то x = X t −1 x = X −t x ′. (1.44) Замечание 1.2. Термин «локальная» показывает, что для нелинейной системы дифференциальных уравнений решение может существовать не для всех t ∈ R. Ниже мы будем придерживаться этого определения, но прилагательное «локальная» для краткости опустим. Сопоставляя введенные аксиомы с аксиомами абстрактной группы (см. п. 1.2), мы видим, что: 1) параметр a здесь единственный и обозначен через t ;
2) групповой операцией параметрической группы G1 ϕ ( a, b ) = a + b = t + s является обычное сложение; 3) умножением в группе преобразований G = {X t } является в общем случае композиция преобразований. Пример 1.6. Рассмотрим группу подобия G , действующую в пространстве R 2 ( n = 2 ):
x ′ = px , p∈R , x ∈ R 2 . (1.45) Найдем однопараметрическую группу преобразований и канонический параметр t для данной группы. Представим параметр p в окрестности единичного элемента p 0 = 1 в виде p = p 0 + a = 1 + a. Согласно аксиомам группы: а) условие композиции преобразований x′ = (1 + a ) x, x ′′ = (1 + b ) x ′ = (1 + b )(1 + a ) x = (1 + a + b + ba ) x = (1 + c ) x. ~1 Таким образом, групповая операция параметрической группы G , где единичным элементом является a 0 = 0, имеет вид c = ϕ ( a, b ) = a + b + ab;
б) обратный элемент группы G% 1
(
)
ϕ a, a −1 = a + a −1 + a −1a = a 0 = 0,
(1.46)
(1.47)
Глава 1. Синтез САУ методами дифференциальной геометрии
35
%1
где a 0 = 0 — единственный элемент группы G . Напомним, что единичным элементом группы G является p 0 = 1. Заметим, что в формуле (1.47) нельзя перемножать a −1a обычным образом, т.е. a −1a = 1, так как в этом случае получаемое значение a% −1 = − (1 + a ) не удовлетворяет групповой операции:
(
)
ϕ a, a% −1 = a + a% −1 + a% −1a = a − (1 + a ) − (1 + a ) a = − (1 + a + aa ) ≠ 0. Выражая a
−1
из (1.47), получим a −1 = −
(
)
a . 1+ a
(1.48)
В этом случае ϕ a, a −1 = 0. Найдем инфинитезимальный оператор группы G. Имеем x′i = f i ( x , a ) = (1 + a ) x i , i = 1, 2. Согласно формуле (1.26) ∂f ( x , a ) ξi ( x) = i = x i , i = 1, 2, ∂a a =0 т.е. оператор группы подобия имеет вид X = x1
∂ ∂ + x2 . ∂x1 ∂x 2
(1.49)
(1.50)
Определим функцию ψ (a ) (см. (1.36)) ⎛ ∂ϕ ( a , b ) ψ (a) = ⎜ ⎜ ∂b ⎝
⎞ ⎟ ⎟ b=0 ⎠
−1
= (1 + a )
−1
=
1 . 1+ a
Канонический параметр a
a
da = ln (1 + a ) = ln p, +a 1 0
t = ∫ ϕ ( a ) da = ∫ 0
откуда p = et. Подставляя (1.51) в (1.45), окончательно получим
(1.51)
x′i = e t x i , i = 1,2,
(1.52) 1
где t = 0 — единичный элемент параметрической группы G соответствует e = 1 единичному элементу группы преобразований G. Уравнения (1.52) — не что иное, как решение системы дифференциальных уравнений x& i = x i , i = 1, 2 с начальными условиями x i ( 0 ) = x i . Пример 1.7. Рассмотрим на плоскости группу вращения (параметр а — угол поворота): x1′ = x1 cos a + x 2 sin a = f 1 ( x , a ) ;
x′2 = − x1 sin a + x 2 cos a = f 2 ( x , a ) .
(1.53)
Найдем инфинитезимальный оператор данной группы. По определению ∂f ( x , a ) ξ1 ( x) = 1 = x2; ∂a a =0 ξ 2 ( x) =
∂f 2 ( x, a ) ∂a
= − x1. a =0
Таким образом, оператор имеет вид X = x2
∂ ∂ − x1 . ∂x1 ∂x 2
(1.54)
Найдем групповую операцию: x1′′ = x1′ cos b + x′2 sin a = ( x1 cos a + x 2 sin a ) cos b + ( − x1 sin a + x 2 cos a ) sin b = = x1 cos ( a + b ) + x 2 sin ( a + b ) ; x′′2 = − x1′ sin b + x′2 cos b = − ( x1 cos a + x 2 sin a ) sin b + ( − x1 sin a + x 2 cos a ) cos b = = − x1 sin ( a + b ) + x 2 cos ( a + b ) . Таким образом, групповая операция параметрической группы G1 есть c = ϕ ( a, b ) = a + b.
(1.55)
36
Методы современной теории автоматического управления
А параметр a группы (1.53) является в то же время каноническим, т.е. a = t , преобразование самой группы G имеет вид ⎛ cos t sin t ⎞ Xt = ⎜ (1.56) ⎟. ⎝ sin t cos t ⎠ Можно заметить, что преобразование (1.56) однопараметрической группы вращения G — это переходная матрица состояния для системы дифференциальных уравнений, определяемых оператором группы (1.54) ⎧ dx1 ⎪⎪ dt = x 2 ; (1.57) ⎨ ⎪ dx 2 = − x , 1 ⎪⎩ dt т.е. Ф ( t , 0 ) = X t . Это же утверждение справедливо и для примера 1.6.
1.4.
ВЕКТОРНЫЕ ПОЛЯ НА МНОГООБРАЗИЯХ. ПОЛНЫЕ ВЕКТОРНЫЕ ПОЛЯ
С каждым элементом a ∈ G r группы Ли G r связаны два гладких отображения: R a : G r → G r , L a : G r → G r группы Ли G r , которые определяются равенствами Ra ( b ) = ba,
(1.58)
La ( b ) = ab.
(1.59)
Отображение La называется левым сдвигом, а Ra — правым сдвигом на элемент a ∈ G r. В координатах имеем ( La b ) i = ϕ i ( a1 ,K , a r , b1 ,K, br ) ,
где a
( Ra b ) i = ϕ i ( b1 ,K , br , a1 ,K , a r ) , i = 1, r, имеет координаты ( a1 ,K , a r ) , a ( b1 ,K , br ) — координаты элемента
(1.60) (1.61) b; La и
Ra — гладкие отображения, которые имеют обратные. Формулы (1.60) и (1.61) опре-
деляют собой координатные представления групповой операции группы Ли G r . Между левым La и правым сдвигом Ra имеют место следующие соотношения: а) La Lb = Lab ; b) Ra Rb = Rab ; (1.62) c) La Rb = Rb La . В дальнейшем при исследовании глобального поведения динамической системы на многообразии нам потребуется специальные векторные поля на группах Ли — так называемые левоинвариантные векторные поля. Определение 1.12. Векторное поле X на группе Ли G r называется левоивариантным, если оно переходит в себя при увлечении любым левым групповым сдвигом, т.е. L ( a )* X (Tb x ) = X (TaTb x ) (1.63) для произвольных элементов a, b ∈ G r . Здесь ( La )* — увлечение векторов X (Tb x ) отображением La , т.е. r . ( La )* : TGbr → TGab
(1.64)
Иначе говоря, при рассмотрении группы G r как многообразия увлечение ( La )* определяет отображение касательного пространства элемента b ∈ G r в касательное
Глава 1. Синтез САУ методами дифференциальной геометрии
37
пространство элемента ab ∈ G r , и это отображение определяется дифференциалом действия элемента a, т.е. (1.65) ( La )* = dTa . Графически левоинвариантность векторного поля X может быть показана следующим образом (рис. 1.7).
Рис. 1.7. Графическая интерпретация левоинвариантного векторного поля
Итак, соотношение (1.63) запишется следующим образом: dTa ( X (Tb x ) ) = X (TaTb x ) .
(1.66)
Это говорит о том, что левоинвариантные векторные поля многообразия M n касательными отображениями группы переводятся в векторные поля этого же многообразия M n . Другими словами, левоинвариантное векторное поле всюду на многообразии не имеет особенностей. Это свойство отражено в следующей лемме. Лемма 1.1 [157]. Левоинвариантные векторные поля на группе G r однозначно определяются своими значениями в единице группы. Это значит, что единица параметрической группы G r a = 0 соответствует тождественному преобразованию: T0 x = x (единица группы преобразований) и X (Ta x ) = ( La )∗ X (T0 x ) = ( La )∗ X ( x ) ,
(1.67)
т.е. касательным отображением группы преобразований можно получить вектор X ( x ) в любой точке x% ∈ M n , где x% = Ta x. Следствие (леммы 1.1) [157]. Пространство левоинвариантных векторных полей на группе Ли конечномерно и его размерность равна размерности группы Ли G r .
( )
Определение 1.13. Алгеброй Ли L G r
группы Ли G r называется пространство
всех левоинвариантных векторных полей на группе Ли G r с операцией умножения — коммутатором векторных полей [⋅,⋅]. Пример 1.8. Покажем, что инфинитезимальный оператор Х группы вращении формирует левоинвариантное векторное поле X ( x ) . Имеем: ∂ ∂ − x1 ; ∂x1 ∂x2 2) векторное поле в координатах 1) оператор X = x2
⎛ x ⎞ X ( x) = ⎜ 2 ⎟; ⎝ − x1 ⎠ 3) группа G1 (один параметр a = t )
38
Методы современной теории автоматического управления x1′ = x1 cos t + x2 sin t ; x2′ = − x1 sin t + x2 cos t; 4) действие группы Ta = X t
⎛ cos t sin t ⎞ Xt = ⎜ ⎟. ⎝ − sin t cos t ⎠ Пусть в единице группы ( t 0 = 0, X 0 = E ) x ( 0 ) = x0 . Имеем ⎛ x10 cos t + x 20 sin t ⎞ Ta x 0 = X t x 0 = ⎜ ⎟. ⎝ − x10 sin t + x 20 cos t ⎠ Тогда векторное поле в точке X t x 0 ⎛ x2 ( t ) ⎞ ⎛ − x10 sin t + x20 cos t ⎞ X (Ta x0 ) = X ( X t x0 ) = ⎜ ⎟ = ⎜⎜ ⎟⎟ . ⎜ ⎟ ⎝ − x1 ( t ) ⎠ ⎝ − ( x10 cos t + x20 sin t ) ⎠
С другой стороны, векторное поле в начальной точке x0
⎛ x20 ⎞ X ( x0 ) = ⎜ ⎟. ⎝ − x10 ⎠ Касательное отображение группы G
( X t )* =
∂ ( X tx ) = Xt , ∂x
что дает ⎛ cos t sin t ⎞ ⎛ x20 ⎞ ⎛ − x10 sin t + x20 cos t ⎞ ⎟⎟ . ⎟ = ⎜⎜ ⎟⎜ ⎝ − sin t cos t ⎠⎝ − x10 ⎠ ⎝ − ( x10 cos t + x20 sin t ) ⎠
( X t )* X ( x0 ) = ⎜ Отсюда мы делаем вывод:
X ( X t x 0 ) = ( X t )* X ( x 0 ) ,
т.е. векторное поле X ( x ) левоинвариантно. В общем случае для линейных стационарных систем x& = Ax , где X t = e At. Имеем т.е.
( X t ) ( X ( x0 ) ) = X t ( X ( x0 ) ) = e At ( Ax0 ) = A ( e At x0 ) = Ax ( t ) = X ( X t x0 ) , X t ( X ( x0 ) ) = X ( X t x 0 ) .
Важнейшее свойство левоинвариантных векторных полей — их полнота. Определение 1.14. Векторное поле X ( x ) называется полным, если его однопараметрическая группа G = ( X t ) определена для всех t ∈ ( −∞, ∞ ) , т.е. решение дифференциального уравнения (1.68) x& ( t ) = X ( x ) может быть продолжено неограниченно. Уравнение (1.68) с действием группы X t может быть записано в следующем виде d (1.69) ( X t x ) = X ( X t x ) , X t x ∈ M n ∀x ∈ M n , t ∈ R1. dt Полные векторные поля и их группы G = { X t } удовлетворяют уравнению (1.69)
для любого t ∈ ( −∞, ∞) , для неполных это справедливо только в локальной окрестности. Пример 1.9 [113]. Рассмотрим дифференциальное уравнение x& = 1 . Пусть фазовым пространством (многообразием) для этого уравнения будет открытое подмножество R: M 1 = {x ∈ R : 0 < x < 1} . (1.70)
Глава 1. Синтез САУ методами дифференциальной геометрии
39
Группа преобразования G определяется действием X t = (1 + t ) , что приводит к тому, что для всех t≠0 1 преобразование X t не переводит фазовое пространство в себя, т.е. X t M 1 → / M при t ≠ 0, т.е. векторное
поле X ( x ) = 1 не имеет однопараметрической группы на этом фазовом пространстве (многообразии). Так как решение определено только для t = 0 — векторное поле не является полным.
Причина этого — в некомпактности многообразия M 1 (1.70). Имеет место следующая теорема о существовании однопараметрической группы преобразований для некоторого векторного поля X ( x ) . Теорема 1.1 [113]. Пусть M n — гладкое (класса C r , r ≥ 2 ) многообразие, X : M n → TM n — векторное поле. Пусть вектор X ( x ) отличен от нулевого вектора TM xn только лишь компактной части K многообразия M n. Тогда существует одно-
параметрическая группа преобразований X t : M n → M n , для которой поле X ( x ) является полем фазовой скорости, т.е. удовлетворяет дифференциальному уравнению d (1.71) ( X t x ) = X ( X t x ). dt 1.5.
СВЯЗЬ СИСТЕМЫ ОБЫКНОВЕННЫХ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ И ЛИНЕЙНОГО УРАВНЕНИЯ В ЧАСТНЫХ ПРОИЗВОДНЫХ ПЕРВОГО ПОРЯДКА. МЕТОД ХАРАКТЕРИСТИК
Многие свойства групп преобразований могут быть изложены как решения уравнения в частных производных, поэтому важно знать, как соотносится система обыкновенных дифференциальных уравнений, которыми обычно описывается динамика систем управления, с уравнениями в частных производных. 1.5.1.
МЕТОД ХАРАКТЕРИСТИК РЕШЕНИЯ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ В ЧАСТНЫХ ПРОИЗВОДНЫХ
Рассмотрим простейший тип дифференциального уравнения в частных производных первого порядка — линейное однородное дифференциальное уравнение для одной неизвестной функции z = z ( x1 , x 2 ) двух независимых переменных ( n = 2 ) ξ1 ( x )
или
∂z ∂z + ξ 2 (x ) =0 ∂x 2 ∂x 2 Xz ( x ) = 0,
(1.72) (1.73)
где 2
∂ (1.74) ∂xi i =1 — векторное поле, рассматриваемое как дифференциальный оператор, действующий на гладкую функцию z ( x ) , определенную на поверхности X = ∑ ξi ( x )
z = ψ ( x ). (1.75) Уравнение (1.72) имеет тривиальное решение (1.76) z = const, которое мы не рассматриваем, а ищем нетривиальное решение вида (1.75). Дифференциальное уравнение (1.72) будем рассматривать в области θ ( x ) , в ко-
торой коэффициенты ξ i ( x ) , i = 1, 2 определены и непрерывны.
40
Методы современной теории автоматического управления
Особенность дифференциальных уравнений в частных производных первого порядка состоит в том, что их решение вполне определяется интегральными кривыми некоторых систем обыкновенных дифференциальных уравнений. Для дифференциального уравнения (1.72) к этому результату можно прийти следующим путем. Любое решение z = ψ ( x ) изображается поверхностью в ( z , x1 , x2 ) пространстве, лежащей над плоскостью x1 0 x2 (рис. 1.8). z = ψ( x )
z = ψ( x ) = C линия уровня
Z 0
x1
x2
( x 1 = ϕ1 (t ), x 2 = ϕ2 (t ))
Рис. 1.8. К выводу метода характеристик
Точки этой поверхности, лежащие на одной и той же высоте С z = ψ( x ) = C , образуют некоторую кривую, называемую линией уровня. Уравнение линий уровня имеет вид x1 = ϕ 1 ( t ) , x 2 = ϕ 2 ( t ) , z = ψ ( ϕ 1 ( t ) , ϕ 2 ( t ) ) = C ,
(1.77)
(1.78)
где t — параметр. Дифференцируя соотношение ψ ( ϕ1 ( t ) , ϕ 2 ( t ) ) = C по t , получим ∂ψ ∂ψ ( ϕ1 ( t ) , ϕ 2 ( t ) ) ⋅ ϕ& 1 ( t ) + ∂x ( ϕ1 ( t ) , ϕ 2 ( t ) ) ⋅ ϕ& 2 ( t ) = 0. ∂x1 2 Так как функция ψ удовлетворяет уравнению (1.72), то имеем ∂ψ ∂ψ ξ1 ( ϕ1 ( t ) , ϕ 2 ( t ) ) ⋅ ϕ1 ( t ) , ϕ 2 ( t ) ) + ξ 2 ( ϕ1 ( t ) , ϕ 2 ( t ) ) ⋅ ( ( ϕ1 ( t ) , ϕ 2 ( t ) ) = 0. ∂x1 ∂x 2 Если
(1.79)
(1.80)
∂ψ ∂ψ + > 0 всюду, то из соотношений (1.79), (1.80) следует, что ∂x1 ∂x2
⎧⎪ ϕ& 1 ( t ) = ξ1 ( ϕ1 ( t ) , ϕ 2 ( t ) ) ; (1.81) ⎨ ⎪⎩ϕ& 2 ( t ) = ξ 2 ( ϕ1 ( t ) , ϕ 2 ( t ) ) . Итак, проекции линий уровня на плоскости x1 0 x2 заданы уравнениями (1.81) и для всех интегральных поверхностей одинаковы. На основании сказанного можно сделать вывод об отыскании интегральных поверхностей: находим интегральные кривые системы дифференциальных уравнений: ⎪⎧ x&1 ( t ) = ξ1 ( x ) ; (1.82) ⎨ ⎪⎩ x& 2 ( t ) = ξ 2 ( x ) ,
Глава 1. Синтез САУ методами дифференциальной геометрии
41
x1 = ϕ 1 ( t ) , x 2 = ϕ 2 ( t ) и поднимаем эти кривые на подходящую высоту так, чтобы
они образовали некоторую дифференцируемую поверхность z = ψ ( x ) . Каждая кривая x1 = ϕ 1 ( t ) , x 2 = ϕ 2 ( t ) , z = C (1.83) с произвольной константой С называется характеристической кривой или просто характеристикой дифференциального уравнения (1.72). Дифференциальные уравнения (1.82) по отношению к дифференциальному уравнению (1.72) называют характеристическими уравнениями. Интегральные кривые x1 = ϕ 1 ( t ) , x 2 = ϕ 2 ( t ) в приложениях теории групп Ли называются орбитами действия однопараметрических групп диффеоморфизмов. Справедливы следующие утверждения [14]: 1) каждый интеграл z = ψ ( x ) уравнения (1.72) постоянен вдоль каждой характеристической кривой (орбиты), т.е. ψ ( ϕ 1 ( t ) , ϕ 2 ( t ) ) = const; (1.84) 2) каждая характеристика (орбита) (1.83), которая имеет хотя бы одну общую точку с интегральной поверхностью уравнения (1.72), целиком лежит на этой поверхности. Таким образом, каждая интегральная поверхность (в теории групп Ли — дифференцируемое многообразие) построена из характеристик (орбит); 3) если две интегральные поверхности уравнения (1.72) имеют общую точку, то они имеют и всю характеристику (орбиту), проходящую через эту точку. Пример 1.10. Найти решение уравнения ∂z ∂z x2 − x1 = 0. ∂x1 ∂x 2 Из характеристического уравнения (1.82) x&1 = x2 , x&2 = − x1 находим x x& = x1x2 + 11 x2 x&2 = − x1x2
(1.85) (1.86)
x1x&1 + x2 x&2 = 0 или x12 + x22 = const, т.е. все характеристические кривые являются концентрическими окружностями с центром в начале координат. Но можно подойти к решению этой задачи иначе. Рассмотрим действие векторного поля (оператора) ∂ ∂ (1.87) X = x2 − x1 ∂x1 ∂x2 на функцию z(x). Тогда уравнение (1.86) примет вид X ⋅ z ( x ) = 0. (1.88) Уравнение (1.88) показывает, что функция z ( x ) является инвариантом (см. п. 1.6) группы вращения G, для которой X является инфинитезимальным оператором. Интегрируя уравнения (1.86) или используя ряд Ли (см. п. 1.6), восстановим эту группу G. Ее действие имеет вид ⎛ cos t sin t ⎞ Xt =⎜ ⎟, ⎝ − sin t cos t ⎠ а орбиты (характеристики) определяются выражением x (t ) = X t x (0)
с константой уровня c = x12 (0 ) + x22 (0 ) .
(1.89)
Замечание 1.3. Для дифференциального уравнения (1.72) при n > 2 все выводы, полученные для задачи с n = 2, остаются в силе.
42
Методы современной теории автоматического управления Замечание 1.4. Инварианты однопараметрических групп Xz ( x ) = 0 расслаивают
пространство R n на непересекающиеся между собой поверхности, что напрямую в задачах управления связано с управляемостью систем (это будет рассмотрено ниже). 1.6.
ВОССТАНОВЛЕНИЕ ГРУППЫ ПО ЕЕ ИНФИНИТЕЗИМАЛЬНОМУ ОПЕРАТОРУ. РЯД ЛИ. ИНВАРИАНТЫ ГРУППЫ
Рассмотрим однопараметрическую группу преобразований в окрестности ее единицы (формула (1.14) для z ( x ′) = x ′ ) x′i = x i + ξ i ( x ) ⋅ t + …,
(1.90)
где ⎛ ∂x′ ⎞ ξ i ( x ) = ⎜ i ⎟ = x& i , i = 1, n, (1.91) ⎝ ∂t ⎠ t = 0 t — канонический параметр. Пусть z ( x ) — некоторая функция. Рассмотрим, как преобразуется данная функция с помощью однопараметрической группы (1.90). Имеем (1.92) z ( x ′) = z ( x1 + ξ1 ( x ) ⋅ t + K , x 2 + ξ 2 ( x ) ⋅ t + K , x n + ξ n ( x ) ⋅ t + K) = z% ( x; t ) .
Найдем полную производную функции z ( x ′) по параметру t : n ∂z ⋅ ∂x′i dz (1.93) . =∑ dt i =1 ∂x′ ⋅ ∂t Учитывая, что (считаем поле левоинвариантным) ∂x′i = ξ i ( x′) , (1.94) ∂t формулу (1.93) можно записать в виде dz = Χz ( x ′ ) , (1.95) dt где n ∂ (1.96) Χ = ∑ ξ i ( x′) ∂ x′i i =1 — инфинитезимальный оператор. Уравнение (1.95) называется уравнением Лиувилля. Найдем связь преобразованной функции z% ( x; t ) с исходной z ( x ) и оператором Χ .
Разложим функцию z% ( x; t ) по степеням t в ряд Тейлора в окрестности точки t = 0. Получим ∂z% t 2 ∂ 2 z% (1.97) z% ( x; t ) = z ( x;0 ) + t ⋅ + +K . ∂t t =0 2 ∂t 2 t = 0 Из выражения (1.92) ясно, что z% ( x;0 ) = z ( x ) , а из уравнения Лиувилля (1.95) имеем ∂z% ( x; t ) dz = = Χz ( x ′ ) . ∂t dt В формуле (1.97) это соотношение дает ∂z% = Xz ( x ) . ∂t t = 0
Глава 1. Синтез САУ методами дифференциальной геометрии
43
Обозначив X z ( x ′ ) = q ( x ′ ) , т.е. вводя новую функцию, получим согласно уравнению (1.95) dq = Xq ( x ′ ) = X ( Xz ( x ′ ) ) = X 2 z ( x ′ ) , dt
т.е. ∂ 2 z% d 2 z ∂ 2 z% 2 ′ = = Χ x ; z ( ) ∂t 2 dt 2 ∂t 2
= Χ 2z ( x ). t =0
Продолжая аналогичную процедуру, мы находим искомую связь t2 ⋅ X 2 ⋅ z ( x) +K . (1.98) 2 Данный ряд называют рядом Ли. Формально рассматривая (1.98) как экспоненциальный ряд, можно записать z% ( x; t ) = e tX z ( x ) , (1.99) z% ( x; t ) = z ( x ) + t ⋅ X ⋅ z ( x ) +
где e tX называется операторной экспонентой. Если z ( x ) = x, тогда (1.99) примет вид или
x% i ( x; t ) = x i = e tX x i , i = 1, n,
(1.100)
x′i = x i + t ⋅ ξ i ( x ) + K , i = 1, n.
(1.101)
Формулы (1.100), (1.101) показывают, как можно с помощью ряда Ли восстанавливать группу по ее инфинитезимальному оператору X . Учитывая соотношение (1.101), формулу Лиувилля (1.95) можно записать в следующем виде: ∂z% ( x; t ) dz ( x ′ ) ∂ tX e z ( x ) = Xe tX z ( x ) = Xz% ( x; t ) , = = dt ∂t ∂t или ∂z% = Xz%. (1.102) ∂t Дополнив (1.102) начальным условием z% ( x ; 0 ) = z ( x ) , получаем задачу Коши
(
)
для линейного управления в частных производных относительно искомой функции z% ( x; t ) , эквивалентную системе нелинейных дифференциальных уравнений (1.91), т.е. если решение системы (1.91) будет x′i = f i ( x, t ) , i = 1, n,
(1.103)
тогда решение уравнения (1.102) имеет вид z% ( x; t ) = z ( f 1 ( x; t ) , f 2 ( x; t ) ,K , f n ( x; t ) ) .
(1.104)
Пример 1.11. Рассмотрим группу вращений плоскости ⎧ x1′ = cos tx1 + sin tx 2 ; ⎨ ⎩ x′2 = − sin tx1 + cos tx 2 ,
которая порождается следующим инфинитезимальным оператором: ∂ ∂ − x1 X = x2 . ∂x1 ∂x 2
(1.105)
(1.106)
Пусть функция z ( x ) имеет вид z ( x ) = x1 x 2 .
(1.107)
44
Методы современной теории автоматического управления Найдем, как будет изменяться функция z ( x ) при действии X t группы вращений ⎛ cos t sin t ⎞ Xt =⎜ ⎟. ⎝ − sin t cos t ⎠ В точке x′ функция z ( x ′ ) будет следующей:
(1.108)
z ( x ′) = x1′ ⋅ x′2 ,
(1.109)
а функцию z% ( x; t ) найдем подстановкой выражений (1.105) в (1.109). Получим
(
)
1 (1.110) z% ( x; t ) = z% ( x′) = ( cos tx1 + sin tx 2 )( − sin tx1 + cos tx 2 ) = sin 2t x 22 − x12 + cos2tx1 x 2 . 2 Убедимся, что функция (1.110) удовлетворяет уравнению (1.102), а значит, является его решением, т.е. при подстановке выражения (1.110) в левую и правую часть (1.102) мы должны получить тождество. Итак, ∂z% = cos2t x 22 − x12 − 2sin 2tx1 x 2 ; (1.111) ∂t
(
)
⎛ ∂ ∂ ⎞⎛ 1 ⎞ 2 2 2 2 − x1 Χ%z = ⎜ x 2 (1.112) ⎟ ⎜ sin 2t x 2 − x1 + cos 2tx1 x 2 ⎟ = cos 2t x 2 − x1 − 2sin 2tx1 x 2 . ∂x 2 ⎠ ⎝ 2 ⎠ ⎝ ∂x1 Из выражений (1.111), (1.112) видно, что соотношение (1.110) действительно является решением уравнения (1.102).
(
)
(
)
Рассматривая ряд Ли (1.98), мы можем сделать вывод, что некоторая функция z ( x ′ ) не изменяется при действии однопараметрической группы, т.е. z% ( x; t ) = z% ( x ) ,
(1.113)
если
Xz ( x ) = 0. (1.114) Напомним, что такая функция называется инвариантом группы (см. п. 1.2). Однородное линейное уравнение в частных производных (1.114) позволяет найти орбиты действия X t .
Основное свойство инварианта группы: при умножении инварианта z ( x ) на
произвольную функцию γ ( x ) инвариант является константой для инфинитезимального оператора данной группы. Действительно, учитывая, что z ( x ) — инвариант, получим X ( γ ( x ) ⋅ z ( x )) = X ( γ ( x )) z ( x ) + γ ( x ) X ( z ( x )) = z ( x ) X ( y ( x )).
(1.115)
Пример 1.12. Для группы вращений плоскости с инфинитезимальным оператором ∂ ∂ Χ = x2 − x1 ∂x1 ∂x 2 инвариантом группы является функция z ( x ) = x12 + x 22 , что находится непосредственной проверкой.
Инвариантное семейство. Если функция z ( x ) является инвариантом группы, то,
приравнивая ее произвольной постоянной z ( x ) = c, получим семейство кривых, каждая из которых группой не изменяется, т.е. каждая кривая преобразуется сама в себя, т.е. любая кривая такого семейства является инвариантом кривой. Для практических применений важен иной случай. Пусть задано семейство кривых z ( x ) = c, причем функция z ( x ) не является инвариантом группы G, т.е. преобразования (действия) группы X t изменяют кривые семейства. Найдем условия, при которых действия группы преобразуют кривые семейства в другие кривые того же семейства. Такое семейство будем называться инвариантным. Задача: найти функцию z ( x ) , которая определяет инвариантное семейство.
Глава 1. Синтез САУ методами дифференциальной геометрии
45
Пусть z1 ( x ) = c1 и z2 ( x ) = c2 два представления одного и того же семейства. Это значит, что константы c1 и c 2 функционально связаны, т.е. тогда
c2 = β ( c1 ) ,
(1.116)
z2 ( x ) = β ( z1 ( x ) )
(1.117)
и условие инвариантности семейства z1 ( x ) = c1 состоит в следующем: z%1 ( x; t ) = β ( z1 ( x ) , t ) .
(1.118)
Разложим z%1 ( x; t ) в ряд Тейлора по степеням t , получим z%1 ( x; t ) = z1 ( x ) + tβ1 ⎡⎣ z1 ( x ) ⎤⎦ +
t2 β 2 ⎡⎣ z1 ( x ) ⎤⎦ + K . 2
(1.119)
Сравнивая этот ряд с рядом Ли (1.98), находим необходимое условие инвариантности семейства: (1.120) Xz1 ( x ) = β ( z1 ( x ) ) . Это условие является и достаточным, так как если оно выполняется, то dβ (1.121) X 2 z1 ( x ) = X β1 ( z1 ( x ) ) = 1 β1 ( z1 ( x ) ) = β 2 ( z1 ( x ) ) dz1
(см. основное свойство инварианта), т.е. β1 ( z1 ( x ) ) , β2 ( z1 ( x ) ) и т.д. являются инва-
риантами. Эти условия нахождения инвариантного семейства можно привести к более компактному виду, если учесть следующее. Так как некоторая функция Ω ( z1 ( x ) ) определяет то же инвариантное семейство, то X Ω ( z 1 ( x ) ) = h ( z1 ( x ) ) ; отсюда следует
dΩ X ( z1 ( x ) ) = h ( z1 ( x ) ) . dz1 Пользуясь свободой в выборе функции Ω, положим dΩ = h ( z1 ( x ) ) . dz1 Это приводит к условию Xz1 ( x ) = 1, которое позволяет найти инвариантное семейство.
(1.122)
Пример 1.13. Найдем инвариантное семейство для группы вращений плоскости. Инфинитезимальный оператор группы ∂ ∂ . X = x2 − x1 ∂x1 ∂x 2
Из условия (1.122) получим x2
∂z1 ∂z − x1 1 = 1. ∂x1 ∂x 2
(1.123)
Уравнение (1.123) является неоднородным уравнением. Его можно привести к однородному, если воспользоваться следующим правилом. Пусть (рассматривается общий случай) (1.124) ω ( z1 , x ) = 0 — неявное решение уравнения (1.122). Тогда имеем
46
Методы современной теории автоматического управления d ω ∂ω ∂z1 ∂ω = + = 0, i = 1, n, dx i ∂z1 ∂x i ∂x i
(1.125)
откуда
dz1 ∂ω ∂ω : , i = 1, n. =− dx i ∂x i ∂z1 После подстановки (1.126) в (1.122) получим однородное уравнение n ∂ω ∂ω ∑ ξ i ( x ) ∂x + ∂z = 0, 1 i i =1 где по-прежнему n ∂ X = ∑ ξi ( x ) . ∂ xi i =1
(1.126)
(1.127)
Продолжим решение примера 1.13. С учетом (1.127) ( n = 3 ) имеем ∂ω ∂ω ∂ω (1.128) x2 − x1 + = 0. ∂x1 ∂x 2 ∂z1 Этому однородному дифференциальному уравнению первого порядка в частных производных соответствует следующая система обыкновенных дифференциальных уравнений: ⎧ dx1 ⎪ dt = x 2 ; ⎪ ⎪ dx 2 (1.129) = − x1; ⎨ ⎪ dt ⎪ dz1 ⎪ dt = 1. ⎩ После исключения параметра t из системы (1.129) получим следующую систему уравнений: dx1 dx 2 dz1 , (1.130) = = 1 x 2 − x1 которая имеет следующие первые интегралы: dx1 dx 2 = ⇒ α 1 = x12 + x 22 ; 1) x 2 − x1 2)
dz1 dx1 x x1 x = ⇒ α 2 = z1 − arcsin 1 = z1 − arcsin = z1 − arctg 1 . α1 1 x2 α 12 − x12 x12 − x 22
Общее решение уравнения (1.128) ⎛ x ⎞ ω = β ( α1, α 2 ) = β ⎜ x12 + x 22 , z1 − arctg 1 ⎟ , x 2⎠ ⎝ где β — произвольная функция от двух первых интегралов (у однородного уравнения должно быть n − 1 первых интеграла: для (1.128) n = 3 ). Пусть x β ( α1 ( x, z1 ) , α 2 ( x, z1 ) ) = γ x12 + x 22 + z1 − arctg 1 . x2
(
)
Приравнивая β(⋅) = 0, согласно (1.124) получим z1 = arctg
x1 +γ x2
(
)
x12 + x 22 .
Для γ ≡ 0 z1′ = arctg
x1 = c1 x2
определяет пучок прямых, для γ = x12 + x 22
z1′′ = arctg — семейство спиралей Архимеда.
x1 + x12 + x 22 = c 2 x2
Глава 1. Синтез САУ методами дифференциальной геометрии arctg
x1 = c1′′ x2
x2
x′ = X t x
arctg
47 x1 = c1′ x2
(первое инвариантное семейство)
(второе инвариантное семейство)
действие группы вращений
x1
Рис. 1.9. Инвариантное семейство для группы вращений
Оба семейства z1′ , z1′′ являются инвариантными относительно действия группы вращений. На рис. 1.9
изображено инвариантное семейство arctg ( x1 x 2 ) = c1.
1.7.
КАНОНИЧЕСКИЕ КООРДИНАТЫ
Известно, что для линейных систем управления можно подобрать такой базис, при котором виды дифференциальных уравнений имеют особенно простой вид (диагональная или жорданова матрица общего вида). Такие координаты называют каноническими. В теории непрерывных групп преобразований вид инфинитезимального оператора также зависит от выбранного базиса, поэтому важно найти такую систему координат, при котором вид оператора будет наиболее простым. Попробуем определить ее. Без уменьшения общности рассмотрим однопараметрическую группу преобразований на двухмерном многообразии M 2. Пусть x = ( x1 , x 2 ) , x ∈ M 2 — исходные координаты. Введем новые координаты x1′ = x1′ ( x ) , x2′ = x2′ ( x ) . (1.131) Пусть в старых координатах x инфинитезимальный оператор X имеет вид ∂ ∂ (1.132) . X = ξ1 ( x ) + ξ2 ( x ) ∂x1 ∂x2 Обозначим через X% данный оператор в новых координатах ∂ % ∂ (1.133) . X% = ξ%1 ( x ′ ) + ξ2 ( x ′ ) ∂x1′ ∂x2′ Дифференциальному оператору (1.133) соответствует следующая система обыкновенных дифференциальных уравнений (см. п. 1.5): ⎧ dx1′ % ⎪⎪ dt = ξ1 ( x ′ ) ; (1.134) ⎨ ⎪ dx′2 = ξ% ( x ′ ) . 2 ⎪⎩ dt Уравнение Лиувилля (1.95) здесь имеет вид dx1′ dx2′ (1.135) = Xx1′ , = Xx2′ . dt dt Таким образом, имеем ⎧ξ% 1 ( x ′ ) = Xx1′ ( x ) ; x = x( x′) ⎪ (1.136) ⎨% ⎪ξ 2 ( x ′ ) = Xx′2 ( x ) x = x ( x ′) , ⎩
48
Методы современной теории автоматического управления
где указано, что после применения оператора X необходимо перейти от старых координат к новым. Итак, в новых координатах оператор X имеет вид ∂ ∂ + ( Xx′2 ) x = x x′ X% = ( Xx1′ ) x = x x ′ . (1.137) ( ) ∂x ′ ( ) ∂x ′ 1 2 Если найти такие координаты x ′, что Xx1′ = 1, Xx2′ = 0, (1.138) то в этом случае оператор (1.137) имеет вид ∂ X% = . ∂x1′
(1.139)
Назовем такие координаты x ′, где оператор X имеет вид (1.139), каноническими. Для случая, когда n > 2, уравнения перехода к каноническим координатам x1′ = x1′ ( x ) , x′2 = x′2 ( x ) ,K , x′n = x′n ( x ) выглядят следующим образом: Xx1′ = 1, Xx2′ = 0,K , Xxn′ = 0, (1.140) где x′2 ( x ) ,K , x ′n ( x ) — представляет собой (n − 1) функционально независимых ин-
варианта группы инфинитезимального оператора X . Функция x1′ ( x ) определяет инвариантное семейство группы. Инварианты x2′ ( x ) ,K , xn′ ( x ) и функция x1′ ( x ) являются каноническими координатами группы. 1.8.
ФОРМУЛА ХАУСДОРФА. ГРУППЫ СИММЕТРИЙ. ТЕОРЕМА ЛИ
В п. 1.6 было рассмотрено действие X t однопараметрической группы на функцию
z ( x ) . Основной же задачей непрерывных групп преобразований (групп Ли), ради которой и была разработана Софусом Ли теория непрерывных групп, является изучение групповых свойств дифференциальных уравнений. Поэтому определим, как изменяется система дифференциальных уравнений при действии на нее некоторой однопараметрической группы преобразований. Без уменьшения общности будем рассматривать систему второго порядка: ⎧ dx1 ⎪⎪ dt = ξ1 ( x ) ; x ∈ M 2. (1.141) ⎨ dx 2 ⎪ = ξ2 ( x), ⎪⎩ dt Пусть на многообразии M 2 задана однопараметрическая группа преобразований ⎧⎪ x1′ = f 1 ( x , τ ) ; (1.142) ⎨ ⎪⎩ x′2 = f 2 ( x, τ ) ,
где τ — канонический параметр преобразования. Согласно п. 1.3, уравнения (1.141) порождают однопараметрическую группу преобразований (диффеоморфизмов) с оператором ∂ ∂ (1.143) + ξ2 ( x ) , A = ξ1 ( x ) ∂x1 ∂x2 а группа преобразований (1.142) определяется ее инфинитезимальным оператором ∂ ∂ (1.144) X = η1 ( x ) . + η2 ( x ) ∂x1 ∂x2
Глава 1. Синтез САУ методами дифференциальной геометрии
49
Необходимо найти, как изменятся уравнения (1.141) при преобразованиях (1.142). В новых переменных x1′ , x2′ уравнения (1.141) примут вид ⎧ dx1′ % ⎪⎪ dt = ξ1 ( x ′, τ ) ; (1.145) ⎨ ⎪ dx′2 = ξ% ( x ′, τ ) . 2 ⎪⎩ dt Этим дифференциальным уравнениям соответствует инфинитезимальный оператор группы ∂ % ∂ + ξ 2 ( x ′, τ ) A% = ξ% 1 ( x ′, τ ) . (1.146) ∂x1′ ∂x2′ Найдем связь между дифференциальными операторами A, X , A% . Для чего запишем преобразование группы (1.142) и обратное ему в виде рядов Ли (операторной экспоненты (1.99)). Имеем ⎧⎪ x1′ = eτX x1 , x2′ = eτX x2 , (1.147) ⎨ −τX −τX ⎪⎩ x1 = e x1′ , x2 = e x2′ . Воспользуемся формулами (1.147) и (1.136), для того чтобы представить оператор % A в старых координатах. Имеем ∂ ∂ + A% x 2 = A = A% x1 x′= x′( x ) ∂x x′ = x′( x ) ∂x 1 2 (1.148) ∂ ∂ −τX −τX % % x1′ x′2 = Ae + Ae . x′ = x′( x ) ∂x1 x′ = x′( x ) ∂x 2 Из формулы (1.148) находим ⎧ A% e −τX x ′ = ξ1 ( x ) ; 1 ⎪⎪ x ′ = x ′( x ) (1.149) ⎨ ⎪ A% e −τX x ′2 = ξ 2 ( x ). x ′ = x ′( x ) ⎪⎩ Так как ξi ( x ) , i = 1, 2 не зависит от τ (это параметр группы с оператором Х), имеем
(
)
(
(
)
)
(
( (
)
) )
(
)
d % −τX Ae x1′ = 0, dτ откуда ∂A% −τX % e−τX x ′ + XA% e−τX x′ = 0. e x1′ − AX (1.150) 1 1 ∂τ В формуле (1.150) первые два слагаемых — это дифференцирование функций A% ( x ′, τ ) и e − τX по τ, а последний член определяется формулой Лиувилля (1.95) для
функции z = A% e −τX x1′. Аналогичная формула имеет место для координаты x2′ . Таким образом, из соотношения (1.150) имеем дифференциальные уравнения ∂A% % − XA% = ⎡ A% , X ⎤ = AX (1.151) ⎣ ⎦ ∂τ с начальным условием A% ( x ′, τ ) = A ( x′) . (1.152) τ= 0
Уравнение (1.151), определяющее преобразованный оператор A% , является аналогом уравнения Лиувилля, определяющего преобразованную функцию. Из соотноше-
50
Методы современной теории автоматического управления
ния (1.151) можно дать другое определение коммутатора (скобки Ли): это есть производная преобразованного оператора A% по параметру группы, определяемой оператором X . Решение задачи Коши (1.151), (1.152) осуществим разложением оператора A% ( x ′, τ ) в ряд Тейлора по степеням параметра τ : ∂A% τ2 ∂ 2 A% A% ( x ′, τ ) = A% ( x ′ ) + τ + +K . ∂τ τ= 0 2! ∂τ2 τ= 0
(1.153)
Из формул (1.151), (1.152) имеем ∂A% = [ A, X ] . ∂τ τ= 0 Аналогично можно показать, что ∂ 2 A% = ⎡⎣[ A, X ] , X ⎤⎦ , ∂τ 2 τ= 0 и ряд примет вид τ2 (1.154) A% = A + τ [ A, X ] + ⎡⎣[ A, X ] , X ⎤⎦ + K . 2! Данный ряд называется формулой Хаусдорфа, которая связывает операторы A, X , A% . Если в (1.154) имеет место равенство (1.155) [ A, X ] = 0, тогда (1.156) A% = A, т.е. преобразования группы с оператором X не изменяют оператора A (или системы дифференциальных уравнений (1.151)). Такая группа (1.142) называется группой симметрий и основная особенность ее преобразований заключается в том, что любое решение системы дифференциальных уравнений (1.141) она переводит в решение этих же дифференциальных уравнений. Основное назначение групп симметрии — это возможность понижения порядка системы дифференциальных уравнений и, в конечном счете, решение этой системы в квадратурах. Именно этой цели и добивался С. Ли при формировании своей теории групп непрерывных преобразований. Полученный результат справедлив для произвольной размерности n. Имеет место следующая теорема. Теорема 1.2 [151]. Пусть задана система обыкновенных дифференциальных уравнений ⎧ dx1 ⎪ dt = ξ1 ( x ) ; ⎪ (1.157) M ⎨ ⎪ dx ⎪ n = ξn ( x ) . ⎪⎩ dt Если известна группа симметрии этой системы, оператор которой n ∂ (1.158) X = ∑ ηi ( x ) , ∂xi i =1 т.е. [ A, X ] = 0, где A — оператор системы (1.157), тогда система (1.157) может быть понижена в порядке. До казательство . Предположим, что известна полная группа инвариантов группы оператора (1.158), т.е. известны ее канонические координаты
Глава 1. Синтез САУ методами дифференциальной геометрии
51
⎧ x1′ = x1′ ( x ) ; ⎪ ⎨ M ⎪ x′ = x′ x , n( ) ⎩ n в которых оператор X имеет наиболее простой вид (см. п. 1.7) ∂ X% = ; ∂x1′
тогда условие [A, X ] = 0 переходит в условие
⎡% ∂ ⎤ % % (1.159) ⎣⎡ A, X ⎦⎤ = ⎢ A, ∂x′ ⎥ = 0, 1⎦ ⎣ которое говорит о том, что все координаты оператора n ∂ A% = ∑ ξi ( x ′ ) ∂xi′ i =1 не зависят от переменной x1′ , т.е. система уравнений (1.157) в новых координатах x ′ имеет вид ⎧ dx1′ % ⎪ dt = ξ1 ( x 2 , x 3 ,K , x n ) ; ⎪ (1.160) M ⎨ ⎪ dx ′ ⎪ n = ξ% n ( x 2 , x 3 ,K , x n ) . ⎪⎩ dt Система уравнений (1.160) имеет порядок (n − 1) : ⎧ dx ′2 % ⎪ dt = ξ 2 ( x 2 , x 3 ,K , x n ) ; ⎪ (1.161) M ⎨ ⎪ dx ′ ⎪ n = ξ% n ( x 2 , x 3 ,K , x n ) , ⎪⎩ dt а решение первого уравнения (1.160) может быть получено после получения решения системы (1.161). Итак, было показано, что если рассматривается однородное дифференциальное линейное уравнение первого порядка в частных производных Az = 0, (1.162) где n ∂ A = ∑ ξi ( x ) , x∈M n (1.163) ∂ x i i =1
и на многообразии M n задана однопараметрическая группа преобразований {X t } с инфинитезимальным оператором n ∂ (1.164) X = ∑ ηi ( x ) , ∂x i i =1 то группа G = {X t } является группой симметрии для дифференциального уравнения (1.162), если она переводит любое решение уравнения (1.162) в некоторое решение этого же уравнения. Необходимым и достаточным условием этого является выполнение равенства (1.165) [ A, X ] = 0.
52
Методы современной теории автоматического управления
Условие (1.165) довольно жесткое, а наличие оператора X , который переводит решение (1.162) в его же решение, можно ослабить, если ввести следующее определение. Определение 1.15. Скажем, что уравнение (1.162) допускает оператор (1.164), который переводит решения уравнения (1.162) в его же решения тогда и только тогда, когда (1.166) [ A, X ] = λ ( x ) A, где λ ( x ) — некоторая функция, зависящая от вида оператора X . Ясно, что если ω ( x ) — решение (1.162), тогда
[ A, X ] ω ( x ) = A ( X ω ( x ) ) − X ( Aω ( x ) ) = λ ( x ) Aω ( x ) = 0. Из этого следует, что т.е. функция
(
)
(1.167)
Α X ( ω ( x ) ) = 0,
(1.168)
ω1 ( x ) = X ( ω ( x ) )
(1.169)
тоже является решением уравнения (1.162), а это значит, что оператор X переводит любое решение (1.162) в другое его решение. Тогда решение (1.162) ω ( x ) = const (1.170) должно быть инвариантным семейством для однопараметрической группы преобразования {X t } оператора X (см. п. 1.6). Для практических приложений важно определить действие нескольких однопараметрических групп. Но предварительно введем некоторые определения, которые расширяют известные понятия из линейной алгебры. Определение 1.16. Вектор-функции ϕ i ( x ) = ( ϕ i1 ( x ) ,K , ϕ in ( x ) ) , i = 1, m называются линейно связанными, если существуют такие ненулевые функции ci ( x ) , не все равные нулю, что m
∑ ci ( x ) ϕ i ( x ) = 0. i =0
Если (1.170) справедливо только для ci ( x ) = 0, i = 1, m, тогда вектор-функции
{ϕ ( x ) , i = 1, m} называются линейно несвязанными. i
Ясно, что введенные термины являются обобщением понятия линейной зависимости и независимости для векторных пространств. Если в (1.170) c i ( x ) = c i , i = 1, m, т.е. это константы, тогда вектор-функции ϕi ( x ) называются линейно зависимыми. n
Определение 1.17. Операторы X j =
∑ξ k =1
jk
(x )
∂ , j = 1, m являются полной сис∂xk
темой, если в некоторой открытой области выполнены следующие два условия: 1) операторы X j линейно не связаны, т.е. rank {ξ1 ( x ) , ξ 2 ( x ) ,K , ξ m ( x )} = m;
(1.171)
2) коммутатор любой пары операторов линейно связанно выражается через операторы системы m
⎡⎣ X j , X i ⎤⎦ = ∑ c ji ,k ( x )X k . k =1
(1.172)
Глава 1. Синтез САУ методами дифференциальной геометрии
53
Полную систему в теории управления часто называют инволютивной [228, 270]. Если у полной системы операторы коммутируют, т.е. ⎡⎣ X j , X i ⎤⎦ = 0 ∀ i, j = 1, m, (1.173) тогда такую систему называют инволюционной [14]. Каждую инволютивную систему подходящей заменой базиса можно привести к инволюционной [14] (см. также п. 1.13). Для инволютивных (инволюционных) систем имеется следующая важная теорема. Теорема 1.3 [95]. Инволютивные (инволюционные) системы характеризуются тем, что однопараметрические группы преобразований (диффеоморфизмов), определенные операторами системы, имеют (n − m ) общих функционально независимых инвариантов (интегральный базис), т.е. система уравнений X i ω = 0, i = 1, m (1.174)
имеет (n − m ) функционально независимых решения ω1 ( x ) ,K , ω n − m ( x ) , а любое другое решение является функцией от этих решений. При этом нахождение каждого инварианта позволяет понизить порядок системы на единицу. Зная h частных интегралов (инвариантов) ω1 ( x ) ,K , ω h ( x ) , 1 ≤ h ≤ n − m, можно
найти остальные (n − m − h ) инвариантов посредством введения новых независимых переменных: ⎧⎪ y1 = ω1 ( x ) , y 2 = ω 2 ( x ) ,K , y h = ω h ( x ) , (1.175) ⎨ ⎪⎩ y h +1 = x h +1 ,K , y n = x n . В этом случае число переменных уменьшается на h, и переменные y1 ,K , yh рассматриваются как параметры. Пример 1.14. Даны два дифференциальных оператора: ∂ ∂ ∂ ⎧ ⎪ X1 = ∂x + ∂x − 2 ∂x ; ⎪ 1 2 3 ⎨ ∂ ∂ ∂ ∂ ⎪X = x + x2 − ( x1 + x2 ) + x4 . 1 ⎪⎩ 2 ∂x1 ∂x2 ∂x3 ∂x4
(1.176)
В координатной форме x1 ⎛ ⎞ ⎛1⎞ ⎜ ⎟ ⎜ ⎟ x2 1⎟ ⎜ ⎟. ⎜ X1 ( x ) = ; X2 ( x) = ⎜ − ( x1 + x2 ) ⎟ ⎜ −2 ⎟ ⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟ x4 ⎝0⎠ ⎝ ⎠ Коммутатор операторов ⎛1 0 ⎜ 0 1 [ X1, X 2 ] ( x ) = ⎜⎜ −1 −1 ⎜⎜ ⎝0 0
0 0⎞ ⎟ 0 0⎟ 0 0⎟ ⎟ 0 1 ⎟⎠
⎛1⎞ ⎛ 1⎞ ⎜ ⎟ ⎜ ⎟ 1 ⎜ ⎟ − ( 0) = ⎜ 1 ⎟ = X ( x ) , 1 ⎜ −2 ⎟ ⎜ −2 ⎟ ⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟ ⎝ 0⎠ ⎝ 0⎠
т.е. система { X 1, X 2 } является инволютивной (полной), где c12 ( x ) = 1. Составим уравнения для нахождения инвариантов операторов (1.176) ( n = 4, m = 2, число инвариантов — 2) X 1ω ( x ) = 0, X 2 ω( x ) = 0. (1.177) Первый инвариант для (1.177):
ω1 ( x ) = x1 + x2 + x3 .
Введем новые переменные: y1 = x1 + x2 + x3 ; y 2 = x 2 ; y3 = x3 ; y 4 = x4 . Обозначим преобразования (1.178) через
y = g ( x ).
(1.178)
54
Методы современной теории автоматического управления
Выразим старые координаты через новые: x1 = y1 − y2 − y3 ; x2 = y2 ; x3 = y3 ; x4 = y4 ; тогда x = g −1 ( y ) .
(1.179)
Если в старых координатах xi каждое уравнение в частных производных X i ω = 0 соответствует системе обыкновенных дифференциальных уравнений x& k = ξ ik ( x ) , k = 1, 4, i = 1, 2,
то в новых координатах {y k } имеем 4
y& k = ∑
∂y k
j =1 ∂x j
x j = η ik ( y ) = X i y k ( x ) x = g −1
( y)
.
В этом случае операторы X 1, X 2 в новых координатах имеют вид
∂y ( x ) ⋅ X1( x) Y1 ( y ) = X 1 y ( x ) x = g −1 ( y ) = ∂x
⎛1 ⎜ 0 =⎜ x = g −1 ( y ) ⎜0 ⎜⎜ ⎝0
1 1 0⎞ ⎟ 1 0 0⎟ 0 1 0⎟ ⎟ 0 0 1 ⎟⎠
⎛ 1⎞ ⎛ 0⎞ ⎜ ⎟ ⎜ ⎟ ⎜ 1 ⎟=⎜ 1 ⎟ ⎜ −2 ⎟ ⎜ −2 ⎟ ⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟ ⎝ 0⎠ ⎝ 0⎠
и Y1 =
∂ ∂ . −2 ∂y 2 ∂y3
(1.180)
Аналогично, для оператора Y2 получим
Y2 ( y ) = X 2 y ( x ) ⎛1 ⎜ 0 =⎜ ⎜0 ⎜⎜ 0 ⎝
∂y ( x ) ⋅ X 2 ( x ) x = g −1 ( y ) = ∂x x1 0 ⎛ ⎞ ⎛ ⎞ ⎜ ⎟ ⎜ ⎟ x x 2 2 ⎜ ⎟ ⎟ =⎜ ⎜ − ( x1 + x 2 ) ⎟ ⎜ − ( x1 + x 2 ) ⎟ ⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟ x4 x4 ⎝ ⎠ x = g −1 ( y ) ⎝ ⎠
x = g −1 ( y )
1 1 0⎞ ⎟ 1 0 0⎟ 0 1 0⎟ ⎟ 0 0 1 ⎟⎠
=
⎛ 0 ⎞ ⎜ ⎟ y2 ⎟ =⎜ ⎜ y 3 − y1 ⎟ ⎜⎜ y ⎟⎟ −1 ⎝ ⎠ 4 x = g (y)
и ∂ ∂ ∂ . + ( y 3 − y1 ) + y4 (1.181) ∂y 2 ∂y 3 ∂y 4 Из соотношений (1.180), (1.181) видно, что в новых координатах понижен порядок системы; координата y1 = const является параметром. Ищем второй инвариант (в координатах y ): Y2 = y 2
∂ω ⎧ ∂ω ⎪ ∂y − 2 ∂y = 0; ⎪ 2 3 ⎨ ⎪ y ∂ω + ( y − y ) ∂ω + y ∂ω = 0. 3 1 4 ⎪⎩ 2 ∂y 2 ∂y 3 ∂y 4 Инвариант для (1.182): ω2 ( y ) =
(1.182)
2 y 2 + y 3 − y1 . y4
Заменяя новые координаты на старые
y = g ( x), получим второй инвариант в исходных координатах x −x ω2 ( x ) = 2 1 . x4
Рассмотрим теперь действие нескольких однопараметрических групп. Пусть на многообразии M n действует r однопараметрических групп преобразования Gi , i = 1, r (параметр ti ) с инфинитезимальными линейно несвязанными операторами X i , i = 1, r. В этом случае можно считать, что на многообразии M n действует одна r-параметрическая группа G r [281], где Gi , i = 1, r — однопараметрическая подгруппа груп-
Глава 1. Синтез САУ методами дифференциальной геометрии
55
пы G r . Если r = n − 1, то знаменитая теорема Ли о разрешимости уравнения (1.1) в квадратурах определяется следующим образом. Теорема 1.4 (С. Ли, 1873 г.) [37, 150]. Если уравнение (1.162) и соответственно система обыкновенных дифференциальных уравнений (характеристические уравнения): ⎧ x&1 = ξ1 ( x ) ; ⎪ (1.183) M ⎨ ⎪ x& = ξ x n( ) ⎩ 1n допускает ( n − 1) -параметрическую разрешимую группу G n −1, операторы которой X1 ,K , X n −1 вместе с оператором А составляют линейно несвязанную систему, то уравнение (1.162) решается в квадратурах. Так как локальные свойства группы Ли (непрерывных групп преобразований) можно изучать по их линейному приближению — их алгебре Ли, то, не вдаваясь в подробное изложение термина «разрешимая группа» (детали см. в [281]), покажем, как эта теорема выглядит в алгебраической форме. Пусть { X1 ,K , X n −1} — базис алгебры Ли Ln −1 (полная система операторов), т.е. ∀X i ∈ Ln −1 , i = 1, n − 1 имеем
⎡⎣ X i , X j ⎤⎦ ∈ Ln −1 (1.184) и все другие скобки Ли также принадлежат Ln −1. Составим новую подалгебру L ′ алгебры Ln −1 , которая состоит из элементов
(1.185) Yk = ⎡⎣ X i , X j ⎤⎦ , i, j = 1, n − 1, k = 1, 2,K k и их линейных комбинаций. Из L ′ получим новую подалгебру L ′′, где элементами являются операторы (1.186) Z k = ⎡⎣Yi , Y j ⎤⎦ , i, j = 1, n − 1, k = 1, 2,K k
и т.д. Определение 1.18. Подалгебра L s ⊂ L r некоторой алгебры L r называется идеалом в Lr , если для любых X ∈ L r , Y ∈ L s справедливо включение [ X , Y ] ∈ Ls .
Для алгебры разрешимой группы G r (разрешимой алгебры) имеют место включения: (1.187) Ln −1 ⊃ L′ ⊃ L′′ ⊃ K ⊃ 0, где каждое следующее L является идеалом предыдущего. Теорема 1.5. Уравнение (1.162) решается в квадратурах тогда и только тогда, когда алгебра Ли Ln −1 группы G n −1 является разрешимой, т.е. имеет место включение (1.187). Эта теорема имеет важное значение в теории управления для синтеза регуляторов. Рассмотрим уравнение второго порядка d2x dx ⎞ ⎛ = f ⎜ t , x, ⎟ . (1.188) dt ⎠ dt 2 ⎝ Если это уравнение допускает оператор X1 , то оно сводится к уравнению первого порядка dx′ (1.189) = ν ( t , x′ ) . dt В свою очередь, если это последнее уравнение допускает оператор X 2 , оно решается в квадратурах. Легко показать, что любая алгебра L2 = {X 1 , X 2 }LA разрешима,
56
Методы современной теории автоматического управления
точнее, в ней можно выбрать базис так, что [ X1 , X 2 ] = β ( x ) X1. Это означает, что X 1 составляет в L 2 идеал и мы имеем цепочку L2 ⊃ L1 ⊃ 0, т.е. уравнение (1.25) допускает разрешимую группу и разрешимо в квадратурах. Пример 1.15. Рассмотрим уравнение Az = 0,
(1.190)
где ⎛ ∂ ∂ ∂ ⎞ A=⎜ (1.191) + −2 ⎟. x x x3 ⎠ ∂ ∂ ∂ 2 ⎝ 1 Уравнение (1.190) имеет (n − 1) = (3 − 1) = 2 интегралов ω1 ( x ) , ω 2 ( x ) . Найдем их с помощью групп симметрий. Уравнение (1.190) допускает оператор ∂ ∂ ∂ X = x1 . + x2 − ( x1 + x2 ) ∂x1 ∂x2 ∂x1
(1.192)
Действительно, коммутатор двух операторов [ A, X ] = A
(1.193)
подтверждает это и, следовательно, оператор X является инфинитезимальным оператором группы симметрий. Для перехода к каноническим координатам y = g ( x ) , y = ( y1, y1, y 3 )
T
найдем инварианты группы
симметрий α1 ( x ) , α 2 ( x ) . Имеем (см. п. 1.7 о нахождении канонических координат): dx1 dx 2 dx 3 . = = x1 x 2 − ( x1 + x 2 )
(1.194)
Из уравнения dx1 dx2 = x1 x2 находим первый инвариант α1 ( x ) =
x1 = const. x2
(1.195)
Из уравнения dx 2 dx 3 = x2 − ( x2 + x2 ) получим второй инвариант
α 2 ( x ) = x1 + x2 + x3 = const.
Найдем канонические координаты. Составим систему уравнений ⎧ Xy1 ( x ) = 1; ⎪ ⎨ Xy2 ( x ) = 0; ⎪ Xy ( x ) = 0. ⎩ 3
(1.196)
(1.197)
Две координаты y 2 ( x ) = α1 ( x ) =
x1 , y 3 ( x ) = α 2 ( x ) = x1 + x 2 + x 3 x2
(1.198)
известны. Необходимо найти третью каноническую координату y1 ( x ) . Неоднородное уравнение
Xy1 ( x ) = 1 соответствует следующему однородному уравнению ∂ω ∂ω ∂ω ∂ω x1 + x2 − ( x1 + x2 ) + = 0, ∂x1 ∂x2 ∂x3 ∂y1 из которого имеем следующую систему уравнений: dx3 dx1 dx2 dy = = = 1. x1 x2 ( x1 + x2 ) 1
(1.199)
(1.200)
Первые два уравнения дали нам два инварианта α1 ( x ) , α 2 ( x ) . Из уравнения dx1 = y1 x1
(1.201)
Глава 1. Синтез САУ методами дифференциальной геометрии
57
получим y1 ( x ) = ln x1. Это и есть третья каноническая координата. Найдем, как будет выглядеть оператор А в новых координатах (канонических) ∂ ∂ ∂ A% = Ay1 ( x ) + Ay 2 ( x ) + Ay 3 ( x ) ∂y1 ∂y 2 ∂y 3
= x= g
−1
( y)
∂ 1 ∂ ⎛ 1 x1 ⎞ ∂ +⎜ − ⎟ +0 ∂y 3 x1 ∂y1 ⎝ x 2 x 2 ⎠ ∂y 2
.
(1.202)
x = g −1 ( y )
Найдем обратные преобразования x = g −1 ( y ) :
⎧ x1 = e y1 ; ⎪⎪ y ⎨x2 = e 1 y2 ; ⎪ y1 y1 ⎪⎩ x 3 = y 3 − e − e y 2 . Заменяя старые координаты в (1.202) на новые (1.203), получим ∂ ∂ + e − y1 y 2 − y 22 A% = e − y1 . ∂y1 ∂y 2
(
Заметим, что в выражении (1.202) это значит, что
)
(1.203)
(1.204)
Ay3 ( x ) = 0, ω1 ( x ) = y3 ( x )
является интегралом уравнения (1.140), второй интеграл исходного уравнения определим из уравнения A% z = 0. (1.205) Этому уравнению соответствует следующая система обыкновенных дифференциальных уравнений: ⎧ dy1 − y1 ⎪⎪ dt = e ; (1.206) ⎨ ⎪ dy 2 = e − y1 y − y 2 . 2 2 ⎪⎩ dt Данная система легко решается:
(
y1 = ln
)
y2 + ln c. y2 − 1
Переход к исходным координатам определяет еще один интеграл уравнения (1.190) ω2 ( x ) = x1 − x2 .
(1.207)
Проверим, что оператор X действительно является оператором группы симметрий: X ω1 ( x ) = 0, что уже показано выше, ⎛ ∂ ∂ ∂ ⎞ X ω2 ( x ) = ⎜ x1 + x2 − ( x1 + x2 ) ⎟ ( x1 − x2 ) = x1 − x2 , ∂x2 ∂x3 ⎠ ⎝ ∂x1 т.е. оператор X переводит решения уравнения (1.190) в его же решения.
1.9.
КОММУТАТИВНОСТЬ ОДНОПАРАМЕТРИЧЕСКИХ ГРУПП И РАЗДЕЛЕНИЕ ДВИЖЕНИЙ В НЕЛИНЕЙНЫХ СИСТЕМАХ
Групповой подход к анализу систем обыкновенных дифференциальных уравнений может быть весьма полезен, когда имеется возможность разделить общее движение системы на отдельные составляющие (эквивалент принципа суперпозиции для линейных систем). При этом не требуется восстанавливать всю группу, а вывод о разделимости можно сделать по их инфинитезимальным операторам. Рассмотрим две системы обыкновенных дифференциальных уравнений: ⎧ dx1 ⎪ dt = ξ1 ( x ) ; ⎪ (1.208) ∑ 1: ⎨ M ⎪ dx ⎪ n = ξn ( x ) ⎪⎩ dt
58
Методы современной теории автоматического управления
и ⎧ dx1 ⎪ d τ = η1 ( x ) ; ⎪ ∑ 2: ⎨ M ⎪ dx ⎪ n = ηn ( x ) . ⎪⎩ d τ Этим системам уравнений соответствуют однопараметрические группы: G1: x′i = f i ( x, t ) , i = 1, n;
G2 : xi′ = qi ( x , τ ) , i = 1, n,
(1.209)
(1.210) (1.211)
причем
(1.212) x ′ ( 0 ) = x. Инфинитезимальные операторы этих групп: n ∂ (1.213) A = ∑ ξi ( x ) ; ∂ xi i =1 n ∂ (1.214) B = ∑ ηi ( x ) . ∂ xi i =1 Выясним, как влияет последовательное действие каждой из групп на некоторую точку x ∈ M n, т.е. определим коммутацию преобразований из разных групп. Имеем: ⎧⎪ x′ = f ( x, t ) ; (1.215) ⎨ ⎪⎩ x ′′ = q ( x′, τ ) = q ( f ( x , t ) , τ ) , т.е. это коммутация действий однопараметрических групп At , Bτ : x′′ = Bτ At x. (1.216) Теперь в другом порядке: x% ′′ = Bτ At x. (1.217) Определим, при каких условиях x′′ = x% ′′, т.е. композиция преобразований не зависит от порядка выполнения преобразований: Bτ At = At Bτ . (1.218) Оказывается, коммутативное свойство (1.218) групп G1 и G 2 имеет место тогда и только тогда, когда коммутируют их инфинитезимальные операторы: AB = BA. (1.219) Связь между соотношениями (1.218) и (1.219) легко выявить из рядов Ли. Практическая значимость полученного соответствия определяется следующим утверждением. Утверждение [150]. Если группы G1 и G2 коммутируют, то их коммутация является также группой при условии, что отождествляются параметры t и τ обеих групп, т.е. q ( f ( x ′, t ) , t ) = f ( q ( x , t ) , t ) — группа.
До каз ат ельство . Согласно теореме о восстановлении однопараметрической группы G по ее инфинитезимальному оператору A с помощью ряда Ли имеем q ( f ( x , t ) , t ) = e Bt e At x = Bt At x; f ( q ( x , t ) , t ) = e At e Bt x = At Bt x,
тогда условие коммутативности дает Bt At x = At Bt x = ( A + B )t x ,
(1.220)
Глава 1. Синтез САУ методами дифференциальной геометрии
59
т.е. получена новая параметрическая группа с преобразованием Ct = ( A + B )t
(1.221)
и инфинитезимальным оператором C = A + B. (1.222) Из соотношения (1.222) вытекает следующая теорема. Теорема 1.6 (принцип суперпозиции в нелинейных системах) [150]. Если система дифференциальных уравнений dx = A( x) + B ( x) (1.223) dt такова, что операторы А и В коммутируют: [ A, B ] = 0, тогда решение системы (1.223) является суперпозицией решений систем (1.208), (1.209) x = q ( f ( x0 , t ) , t ) ≡ f ( q ( x0 , t ) , t ) , где x0 — начальные условия для систем (1.208), (1.209). Пример 1.16. Рассмотрим следующую систему дифференциальных уравнений: ⎧ x&1 = 1; ⎪& ⎪ x2 = 1; ⎨ x& = 1; ⎪ 3 ⎪ x& = 3 x 2 + x + x + x . 1 1 2 3 ⎩ 4 Запишем ее в следующем виде: x& = A ( x ) + B ( x ) ,
(1.224)
где 1 ⎞ ⎛ ⎛ 0 ⎞ ⎜ ⎟ ⎜ ⎟ 0 ⎟ 1 ⎜ ⎟, B( x) = . A( x ) = ⎜ ⎜ ⎜ 1 ⎟ 0 ⎟ ⎜ ⎟ ⎜⎜ ⎟⎟ ⎜ 3x 2 + x ⎟ ⎝ x1 + x2 ⎠ 3⎠ ⎝ 1 Найдем коммутатор (скобку Ли) векторных полей (дифференциальных операторов) A и B : A=
∂ ∂ ∂ ; + + ( x1 + x2 ) ∂x2 ∂x3 ∂x4
B=
∂ ∂ ; + 3 x12 + x3 ∂x1 ∂x4
(
(1.225)
)
1 ⎞ ⎛0⎞ ⎛ 0 0 0 0 ⎞⎛ 0 ⎞ ⎛ 0 0 0 0 ⎞ ⎛ ⎟ ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ 0 0 0 0 0 1 0 0 0 0 ⎟ = ⎜0⎟, ⎟−⎜ ⎟⎜ [ A, B ] ( x ) = ⎜⎜ 0 0 0 0 ⎟⎜ ⎜ ⎟ ⎟⎜ 1 ⎟ ⎜ 0 0 0 0 ⎟ ⎜0⎟ 0 ⎟ ⎜⎜ ⎟⎟ ⎟⎜ ⎜⎜ 6 x 0 1 0 ⎟⎜ ⎟⎟ ⎜⎜ 1 1 0 0 ⎟⎟ ⎜⎜ 2 ⎟ x x + 3 x x + ⎠⎝ 1 ⎝ 1 ⎠⎝ 1 2 ⎠ ⎝ 3 ⎠ ⎝0⎠ т.е. операторы A и B коммутируют, поэтому можно рассмотреть две системы: 1. (Оператор A ) ⎧ x&1 = 0; ⎪& ⎪ x2 = 1; ⎨ ⎪ x&3 = 1; ⎪⎩ x&4 = x1 + x2 , решение которой ⎧ x1 ( t ) = x10 ; ⎪ ⎪ x2 ( t ) = t + x20 ; ⎪ ⎨ x3 ( t ) = t + x30 ; ⎪ ⎪ t2 ⎪⎩ x4 ( t ) = x10t + 2 + x20t + x40 , где xi ,0 , i = 1, 4 — начальные условия для системы (1.226).
(1.226)
(1.227)
60 2.
Методы современной теории автоматического управления (Оператор B ) ⎧ x&1 = 1; ⎪& ⎪ x2 = 0; ⎨ x& = 0; ⎪ 3 ⎪ x& = 3 x 2 + x , 1 3 ⎩ 4
(1.228)
⎧ x1 ( t ) = t + x10 ; ⎪ ⎪ x2 ( t ) = x20 ; ⎪ ⎨ x3 ( t ) = x30 ; ⎪ 3 ⎪ x t = 3⎛ t + t 2 x + x2 t ⎞ + x t + x , ⎜⎜ 10 10 ⎟ 40 ⎪ 4( ) ⎟ 30 ⎝6 ⎠ ⎩
(1.229)
решение которой
где xi ,0 , i = 1, 4 — начальные условия для системы (1.228). Общее решение системы дифференциальных уравнений (1.224) определяется композицией действий однопараметрических групп At , Bt , причем в любой последовательности. Пусть для определенности x′ ( t ) = Bt x0 ,
т.е.
⎧ x1′ ( t ) = t + x10 ; ⎪ ⎪ x′2 ( t ) = x 20 ; ⎪ ⎨ x′3 ( t ) = x 30 ; ⎪ 3 ⎪ x′ t = 3 ⎛ t + t 2 x + x 2 t ⎞ x t + x . ⎜⎜ 10 10 ⎟ 40 ⎪ 4( ) ⎟ 30 6 ⎝ ⎠ ⎩
Действие однопараметрической группы At на x′ определяет общее решение x ( t ) = x ′′ ( t ) = At x ′ ( t ) = At Bt x0 ,
или покоординатно: ⎧ x1 ( t ) = x1′ ( t ) = t + x10 ; ⎪ ⎪ x 2 ( t ) = t + x′2 ( t ) = t + x 20 ; ⎪ ⎨ x 3 ( t ) = t + x′3 ( t ) = t + x 30 ; ⎪ 2 2 3 ⎪ x t = x′ t + t + x′ t + x′ t = t + x t + t + x t + 3 ⎛ t + t 2 x + x 2 t ⎞ + x t + x . ( 10 ) ⎜ ⎟ 30 2 4 20 10 10 ⎟ 40 ⎪ 4( ) 1 2 ⎜ 2 ⎝6 ⎠ ⎩ Изменение порядка действий однопараметрических групп x ( t ) = Bt At x0 даст тот же результат.
После введения основных понятий и теорем рассмотрим теперь, как применяются дифференциально-геометрические методы для решения конкретных проблем теории управления. И начнем мы с основной проблемы теории управления — проблемы управляемости систем управления. 1.10. УПРАВЛЯЕМОСТЬ НЕЛИНЕЙНЫХ СИСТЕМ
В начале 60-х годов Р. Калман сформулировал понятия и критерии для управляемости и наблюдаемости. Аналогичные вопросы применительно к нелинейным системам были рассмотрены в начале 70-х годов. Опираясь на работы Чоу (Chow), Германа (Herman), Хеймса–Хермеса (Heymes–Hermes), Брокетта (Brockett [256]) и работая независимо, Лобри (Lobry [281]), Суссман–Джурджевич (Sussman–Jurdjevic [297]) и Кренер (Krener [271]) разработали нелинейный аналог линейной управляемости в терминах алгебры Ли I ( D ) векторных полей на многообразии M n, генерируемых векторными
(
)
j j полями f ⋅, u ( ) , полученными при постоянных управлениях u ( ) ∈ Ω, j = 1, 2,K .
Глава 1. Синтез САУ методами дифференциальной геометрии
61
1. Постановка задачи. Рассматривается нелинейная система управления общего вида x& = f ( x, u ) ; (1.230) ∑: y = g ( x ) ,
где u ∈ Ω ⊂ R m , x ∈ M n — гладкое многообразие размерности n, y ∈ R l ; f и g — гладкие функции. Ставится задача: найти алгебраические условия управляемости для системы ∑ . Замечание 1.5. Если рассматриваются неавтономные системы, то вид (1.230) сохраняется, если в качестве переменной состояния возьмем время t с уравнением состояния x&0 = 1. Предположим, что у системы
∑
(
j векторные поля f ⋅, u ( )
) являются полными,
т.е. для каждого x 0 ∈ M n существует решение дифференциального уравнения x& = f ( x ( t ) , u ( t ) ) , удовлетворяющего условиям x ( t0 ) = x 0 , x ( t ) ∈ M n для всех t ∈ R. Обозначим через ( z ( t ) , [t0 , t1 ]) функцию, определенную на интервале [t0 , t1 ]. Чтобы выяснить, какие возникают тонкости для определения условий управляемости, и найти алгебраические критерии управляемости, введем некоторые определения. Отношение эквивалентности. Термин «отношение» используется для обозначения некоторых видов отображений, заданных на одном и том же множестве. Пусть отображение ( Ξ, R ) является отношением, где Ξ — некоторое множество, R — некоторое отношение между элементами этого множества. Будем говорить, что элемент y ∈ Ξ находится в отношении R к элементу x ∈ Ξ, и запишем это в виде yRx. (1.231) Некоторые элементы множества можно рассматривать как эквивалентные в том смысле, что любой из этих элементов при рассмотрении может быть заменен другим. В этом случае говорят, что данные элементы находятся в отношении эквивалентности. Чтобы разбить множество Ξ на группы (классы эквивалентности) эквивалентных элементов, необходимо выполнить три условия: 1) каждый элемент эквивалентен сам себе, т.е. xRx — условие рефлективности; (1.232) 2) два элемента являются эквивалентными вне зависимости от их расположения в отношении эквивалентности, т.е. (1.233) если xRy, то yRx — условие симметричности; 3) два элемента, эквивалентные третьему, эквивалентны между собой, если xRy и yRz , то xRz — условие транзитивности. (1.234) Таким образом, отношение R является отношением эквивалентности, если оно рефлексивно, симметрично и транзитивно. Заметим, что свойства отношения эквивалентности в точности повторяют в более общем виде аксиомы группы. Действительно: 1) рефлексивность — соответствует наличию единичного элемента группы; 2) симметричность — соответствует наличию обратного элемента; 3) транзитивность — соответствует аксиоме ассоциативности. Вернемся к задаче управляемости. Определение 1.19. Для заданного подмножества U ⊆ M n точка x1 является U -достижимой из начальной точки x 0 (обозначение x1 Ax 0 ), если существует ограниченное измеримое управление ( u ( t ) , [t0 , t1 ]) , удовлетворяющее условию u ( t ) ∈ Ω
62
Методы современной теории автоматического управления
для t ∈ [t0 , t1 ] , такое, что соответствующее решение ( x ( t ) , [t0 , t1 ]) дифференциального уравнения (1.230) удовлетворяет соотношению x ( t0 ) = x 0 , x ( t1 ) = x1 и x ( t ) ∈ U для всех t ∈ [t0 , t1 ] . M n -достижимость или достижимость любой точки многообразия x1 ∈ M n из x 0 будем обозначать
( ) {
}
A x 0 = x1 ∈ M n : x1 Ax 0 .
Определение 1.20. Будем называть систему
( )
∑
управляемой в точке x 0, если
A x 0 = M n , и управляемой, если A ( x ) = M n для любой точки x ∈ M n .
Данное определение управляемости характеризует глобальные свойства системы ∑ и отображает ее групповые свойства. К сожалению, в реальных условиях групповые отношение нам неизвестны, и мы можем воспользоваться только линеаризацией
{
группы Ли, действующей на многообразии M n G = Ta ∈ G : x1 = Ta x 0 ; x1 , x 0 ∈ M n
}
в окрестности ее единицы, и тем самым рассмотреть ее алгебру Ли. Это приводит к необходимости ввести понятие локальной управляемости. Определение 1.21. Динамическая система управления ∑ называется локально управляемой в точке x 0 , если для каждой окрестности U точки x 0 множество дос-
( ) также является окрестностью точки x
тижимости AU x 0
0
(рис. 1.10).
U
x1
{x
1
∈ M n : x1 AU x 0 } = AU ( x 0 )
x0
( )
Рис. 1.10. Множество достижимости AU x 0
Определение 1.22. Динамическая система управления
∑
называется локально
управляемой, если она локально управляема для любой точки x ∈ M n. Последние два определения также не в полной мере отражают возможность анализа алгеброй Ли динамической системы ∑ для оценки управляемости, так как для достижимости выполняются условия рефлексивности, т.е. xAx и транзитивности x1 AU x 0 и x 2 AU x1 следует x 2 AU x 0 , но в общем случае не удовлетворяется условие симметричности, так как нелинейные системы не обязательно должны быть симметричными, т.е. из x1 AU x 0 не обязательно следует x 0 AU x1; симметричные системы характеризуются тем, что f ( x , u ) = − f ( x , u% ) , т.е. существует управление u% ∈ Ω, позволяющее, сохраняя длину вектора скорости, изменить его на противоположный. По этой же причине вводится более слабое отношение. Для заданного открытого множества U ⊆ M существует (если система ∑ управляема) единственное наименьшее отношение эквивалентности на U , которое содержит все U-достижимые точки и на которых выполнены все три аксиомы отношения эквивалентности: рефлексивность, симметричность и транзитивность.
Глава 1. Синтез САУ методами дифференциальной геометрии
63
Будем называть это отношение слабой U-достижимостью и обозначим через WAU . Тогда легко заметить, что x ′WAU x ′′ тогда и только тогда, когда существуют такие точки x 0 ,K, x k ∈ U , что x 0 = x′,K, x k = x ′′, и либо x i Ax i −1 , либо x i −1 Ax i для всех i = 1, k . Последнее соотношение как раз характеризует свойство симметричности. Определение 1.23. Система ∑ является слабо управляемой в точке x 0, если WA ( x ) = M n для всех x ∈ M n.
Заметим, что слабая управляемость является глобальной концепцией и не отражает локального поведения системы ∑ , рассматриваемого в окрестности точки x 0, поэтому вновь вводится понятие локальности. Определение 1.24. Динамическая система уравнений
∑
называется слабо ло-
кально управляемой в точке x 0, если для каждой окрестности U точки x 0 множество
( )
WAU x 0
также является окрестностью точки x 0. Система
∑
является слабо ло-
кально управляемой, если она локально слабо управляема для каждой точки x ∈ M n. Связь между всеми введенными видами управляемости для нелинейных систем можно изобразить в виде коммутивной диаграммы (рис. 1.11).
∑
локально управляема
⇒
∑
управляема
⇓
∑
⇓
локально слабо управляема ⇒ ∑ слабо управляема
Рис. 1.11. Связь между типами управляемости для нелинейных систем
Заметим, что для линейных стационарных систем все 4 вида управляемости эквивалентны [256]. Из всех видов управляемости мы рассматриваем только слабую локальную управляемость, преимущество которой перед остальными видами заключается в том, что она имеет аналог критерия управляемости для линейных стационарных систем, а именно алгебраический критерий управляемости.
( ) определяет множество векторных полей на многообразии M . Введем на V ( M ) операцию умножения двух элементов множества, в качестве коПусть V M n
n
n
торой используем коммутатор (скобки Ли) X ⋅ Y = [ X ,Y ] = XY − YX .
{( )
}
Пусть D = f ⋅, u ( ) : u ( ) ∈ Ω, u ( ) = const, i = 1, 2, K — множество векторных поi
лей для системы
i
i
∑ , каждое из которых получено введением некоторого постоянно-
( )
го управления u ( ) ∈ Ω. Предполагается, что D ⊂ V M n . Обозначим через I ( D ) i
( ),
наименьшую подалгебру V M
n
которая содержит D и все линейные комбинации
произведений управляемых векторных полей
([⋅, ⋅])
всех порядков, полученных из
элементов D. Типовыми элементами I ( D ) являются линейные комбинации вида
64
Методы современной теории автоматического управления
(
где f i ( x ) = f x, u ( ) i
)
⎡ f 1 ⎡ f 2 ⎡K ⎡ f k −1 , f k ⎤ K⎤ ⎤ ⎤ , ⎦ ⎦ ⎦⎥ ⎦⎥ ⎣⎢ ⎣⎢ ⎣ ⎣
для некоторого постоянного управления u ( ) ∈ Ω, i = 1, 2,K . i
Если I ( D )( x ) = { X ( x ) : X ∈ I ( D )} , тогда для каждого x ∈ M n , I ( D ) является линейным подпространством (в общем случае переменной размерности) касательного пространства TM xn в точке x , т.е. I ( D )( x ) ⊂ TM xn . Подпространство I ( D )( x ) постоянной размерности связано с таким понятием теории гладких многообразий как распределение, которое позволяет строить интегральные подмногообразия на многообразии M n, что в свою очередь связано с управляемостью, инвариантностью, декомпозицией динамических систем. Определение 1.25. Назовем p -мерным дифференциальным распределением
(1 ≤ p ≤ n )
(или дифференциальной системой размерности p ) на многообразии M n
отображение Δ p : M n → Tp ( x ) ⊆ TM xn (где T p ( x ) — p-мерное подпространство касательного пространства TM xn ∀ x ∈ M n ), такое, что Δ p = T p ( x ) ⊆ TM xn , p = const. Иначе говоря, распределение Δ p размерности p на многообразии M n есть сопоставление каждой точке x из M n p -мерного подпространства Tp ( x ) из TM xn . Распределение Δ p называется инволютивным, если [ X , Y ] ( x ) ∈ Δ p ( x ) как только два векторных поля X ( x ) и Y ( x ) принадлежат Δ p для всех x ∈ M n. Пусть X i ( x ) , i = 1, p — гладкие векторные поля, такие, что в каждой точке x ∈ M n векторы X i ( x ) , i = 1, p образуют базис в Δ p ( x ) . Требование инволютивно-
сти заключается в следующем:
p
⎡⎣ X i , X j ⎤⎦ ( x ) = ∑ Cijk ( x ) X k ( x ), k = 1, p
(1.235)
k =1
(т.е. скобка Ли любых векторных полей X i ( x ) , X j ( x ) ∈ Δ p является линейно связанной комбинацией базисных векторов распределения), где Cijk ( x ) — гладкие функции на M n. Условие (1.235) говорит о том, что если векторы X i ( x ) , i = 1, p формируют
базис в Δ p инволютивного распределения, то их взаимодействие — умножение [⋅, ⋅] — не изменяет данного базиса, так как нетрудно показать [29], если X i ( x ) , i = 1, p поро-
( )
ждают инволютивное распределение Δ p и функции fij ( x ) ∈ C ∞ M n
таковы, что
p
∀x ∈ M det fij ( x ) ≠ 0, эти векторные поля X i ( x ) = ∑ fij ( x ) X j ( x ) порождают то j =1
же распределение Δ p , только с другой параметризацией. Отсюда можно записать, что инволютивное распределение формирует подалгебру Ли размерности p. Мы делаем вывод, что множество I ( D ) является инволютивным распределением для системы
∑ , если dim I ( D )( x ) = dim Δ p ( x ) = p = const ∀ x ∈ M n .
Глава 1. Синтез САУ методами дифференциальной геометрии
65
Инволютивное распределение на любом гладком многообразии формирует интегральные подмногообразия, связанные с управляемостью, наблюдаемостью, инвариантностью и другими важнейшими понятиями теории управления. Каждое гладкое полное (см. п. 1.4) векторное поле X ( x ) на гладком многообразии формирует одномерное интегральное многообразие (однопараметрическую группу диффеоморфизмов { X t } ) γ ( t ) = X t x0 , причем γ& ( t ) = X ( X t x0 ) .
Из этого можно заключить, что, в отличие от параметризованной кривой β ( t ) : β : I → M , I = [ t0 , t1 ] на многообразии M n, которая имеет самый общий вид, в том числе и самопересечения (в локальной окрестности), β (t )
интегральная кривая γ ( t ) (как одномерное многообразие) векторного поля X ( x ) точек самопересечения иметь не может, γ& ( t ) = X ( X t x0 ) γ (t )
а в каждой точке x касательным вектором к интегральной кривой γ ( t ) будет X ( x ) . Инволютивность определяет, как должны быть связаны векторные поля X1 ( x ) ,K,
X p ( x ) , чтобы формировать интегральное многообразие размерности 1 ≤ p ≤ n.
Определение 1.26 [13]. Связное подмногообразие N p размерности p в M n на-
зывается интегральным многообразием распределения Δ p , если ∀ x ∈ N p Δ p = TN xn ,
т.е. интегральное многообразие N p в каждой точке x ∈ N p касается распределения Δ p . Распределение Δ p называется (вполне) интегрируемым, если для любых x ∈ M n существует p-мерное интегральное многообразие, проходящее через x. Если не существует других интегральных многообразий для Δ p , которые содержат N p , то N p называется максимальным интегральным многообразием для Δ p . Классическая теорема Фробениуса устанавливает связь между инволютивными распределениями и интегральными многообразиями. Эта теорема может быть сформулирована в нескольких вариантах, в зависимости от того, какой аспект важен. Теорема Фробениуса 1.7 [250]. Распределение Δ p тогда и только тогда интегрируемо, когда оно инволютивно.
66
Методы современной теории автоматического управления Теорема Фробениуса 1.8 [13]. Пусть Δ p — инволютивное распределение на мно-
гообразии M n. Через каждую точку x ∈ M n проходит единственное максимальное интегральное многообразие N p для Δ p . Любое интегральное многообразие, проходящее через x, есть открытое подмногообразие в M n. Теорема Фробениуса 1.9 [256]. Если размерность I ( D ) = p для каждых x , т.е. I ( D ) = Δ p , тогда существует разбиение многообразия M n на максимальные инте-
гральные многообразия, которые все имеют размерность p и либо не пересекаются, либо совпадают. Ранее мы показали, что действие однопараметрической группы преобразований G = { X t } на многообразии M n формирует орбиту (интегральную кривую) X t x0 . Теорема Фробениуса обобщает этот случай при действии нескольких однопараметри-
{
}
ческих групп X ( i )t , i = 1, p и показывает, что для инволютивных распределений эти действия формируют орбиту (максимальное интегральное многообразие). Орбиты действия группы локальных диффеоморфизмов обладают очень важным свойством: все точки максимального интегрального многообразия (орбиты) могут быть соединены под действием этой группы, так как все точки орбиты находятся в отношении эквивалентности. А это уже определяет управляемость системы. При этом размерность инволютивного распределения Δ p ( x ) = TN xp является одной и той же для всех точек x, принадлежащих данной орбите S , dim Δ p ( x ) = p ∀ x ∈ S . Сформируем теперь алгебраический критерий управляемости. Теорема 1.10 (достаточные условия управляемости). Если динамическая система управления ∑ удовлетворяет ранговому условию управляемости в точке x 0, т.е.
( )
( )
RC : dim I ( D ) x 0 = dim Δ n x 0 = n,
тогда
∑
(1.236)
локально слабо управляема в точке x 0.
Замечание 1.6. Если правая часть ∑ является аналитической вектор-функцией, тогда ранговые условия (1.236) являются необходимым и достаточным условием локальной управляемости [256]. 2. Рассмотрим, как полученный критерий соотносится с известным алгебраическим критерием для линейных стационарных систем. В этом случае уравнения состояния ∑ определяют множество векторных полей D = {Ax + Bu : u ∈ Ω} , так что алгебра Ли генерируется векторными полями X1 ( x ) = Ax , X 2 ( x ) = b1 ,K , X m+1 ( x ) = bm ,
(1.237) (1.238)
где bi — i-й столбец матрицы B, i = 1, m рассматривается как постоянное векторное поле. Заметим, что управление u не входит в базисные векторные поля
{ X ( ) ( x ) , i = 1, m + 1} , так как система (1.237) линейна по управлению u, а как было i
сказано выше, умножение векторного поля на ненулевую функцию не изменит интегральную кривую поля, а лишь изменит параметризацию векторного поля. Вычисляя скобки Ли (коммутаторы) векторных полей X1 ( x ) ,K, X m+1 ( x ) , получим (в координатной форме)
Глава 1. Синтез САУ методами дифференциальной геометрии
67
⎣⎡ Ax, b j ⎦⎤ ( x ) = − Ab j , ⎣⎡ bi , b j ⎦⎤ ( x ) = 0; ⎡ Ax , ⎡ Ax , b j ⎤ ⎤ ( x ) = − A 2 b j , ⎡b j ⎡ Ax , b j ⎤ ⎤ ( x ) = 0 ⎣ ⎦⎦ ⎦⎦ ⎣ ⎣ ⎣ и т.д. По теореме Кэли–Гамильтона алгебра Ли I ( D ) управляемых векторных полей включает в себя постоянные векторные поля Ai b j , i = 0, n − 1, j = 1, m. Данная система является аналитической, так что согласно теореме Хермана– Нагано [256] существуют максимальные интегральные многообразия множества D, проходящие через каждую точку x ∈ R n. Ранговое условие управляемости (1.236) приводит к хорошо известному критерию Калмана
{
}
rank B;AB;K ,A n −1B = n.
Несмотря на то, что ранговое условие управляемости (1.236) определяет слабую локальную управляемость, для линейных систем оно определяет и их полную управляемость [256]. 3. Рассмотрим линейную нестационарную систему x& = A ( t ) x + B ( t ) u, x ∈ R n , u ∈ R m , (1.239) где A ( t ) , B ( t ) — гладкие функции переменной t. Введем дополнительную переменную x0 = t и перепишем уравнение (1.239) в виде x&0 = 1, x& = A ( x0 ) x + B ( x0 ) u.
Построим алгебру для векторных полей
{
D = (1, A ( x0 ) x ) , ( 0, b1 ( x0 ) ) ,K , ( 0, bm ( x0 ) ) T
T
T
(1.240)
} = { X ( x , x ) ,K , X 1
0
m +1
( x0 , x )}.
Сформируем алгебру Ли I ( D ) 0 ⎡ ⎤ ⎡⎛ 1 ⎞ ⎛ 0 ⎞⎤ ⎢ ⎥ , j = 1, m; ⎡⎣ X1 , X j +1 ⎤⎦ ( x ) = ⎢⎜ ⎟ ⎜ b x ⎟⎥ = ⎢ ∂ ⎢⎣⎝ A ( x0 ) x ⎠ ⎝ j ( 0 ) ⎠ ⎥⎦ ⎢ b j ( x0 ) − A ( x0 ) b j ( x0 ) ⎥⎥ ⎣ ∂x ⎦ ⎡⎛ 0 ⎞ ⎛ 0 ⎞ ⎤ ⎛ 0 ⎞ ⎢⎜ ⎟,⎜ ⎟ ⎥ = ⎜ ⎟ , j , k = 1, m. ⎢⎣⎝ b j ( x0 ) ⎠ ⎝ bk ( x0 ) ⎠ ⎥⎦ ⎝ 0 ⎠ Из этих выражений видно, что ранговое условие управляемости (1.236) для системы (1.240) эквивалентно следующему требованию (достаточное условие управляемости):
(
)
rank B ( t ) ; DA B ( t ) ; DA2 B ( t ) ;K = n
(1.241)
для каждого t ∈ R, где d B (t ) − A (t ) B (t ) ; (1.242) dt ⎛d ⎞ DAr B ( t ) = ⎜ − A ( t ) ⎟ DAr −1 B ( t ) . (1.243) ⎝ dt ⎠ Условие (1.241) будет и необходимым, если A ( t ) x , b1 ( t ) ,K , bm ( t ) — аналитичеDA B ( t ) =
ские векторные поля. Пример 1.17. Проанализируем управляемость линейной нестационарной системы вида 0 ⎞ ⎛ 1t ⎛1⎞ x& = ⎜⎜ 2 ⎟⎟ x + ⎜ 0 ⎟ u ( t ) . 2 t 2 t − ⎝ ⎠ ⎝ ⎠
(1.244)
68
Методы современной теории автоматического управления
Решим задачу управляемости сначала классическим способом с использованием граммиана управляемости W ( t0 , t1 ) [7]: t
W ( t0 , t1 ) = ∫ Φ ( t0 , t1 ) B ( t ) B T ( t ) ΦT ( t0 , t ) dt ,
(1.245)
0
где Φ ( t, t0 ) = ( Φ ( t0 , t ) )
−1
— переходная матрица состояния для системы (1.244). Для матрицы
0 ⎞ ⎛ 1t A ( t ) = ⎜⎜ ⎟ 2 − 2 t 2 t ⎟⎠ ⎝ переходная матрица управляемости имеет вид [7] t t0 M 0 ⎞ ⎛ , 0 < t0 ≤ t , Φ ( t , t0 ) = ⎜⎜ 2 3 2 2⎟ t t t t t0 ⎟⎠ 1 − M 0 ⎝ 0 что дает 0 ⎞ ⎛ t0 t Φ ( t0 , t ) = ⎜⎜ 2 3 2 2⎟ ⎟. ⎝ 1 t − t0 t t0 t ⎠ Кроме того, из (1.244) имеем ⎛1⎞ B (t ) = ⎜ ⎟. ⎝0⎠
(1.246)
(1.247)
Подставляя (1.246), (1.247) в формулу (1.245) получим ⎛ t2 ⎜ t0 − 0 t1 ⎜ W ( t0 , t1 ) = ⎜ 3 2 ⎜ − t + t0 0 ⎜3 3t13 ⎝
⎞ ⎟ ⎟ ⎟. 8 1 2t02 t04 ⎟ − + − 15t0 t1 3t13 5t15 ⎟⎠ 2 t0 t03 − + 3 t1 3t13
(1.248)
Если система (1.244) управляема, то для t1 > t0 матрица W ( t0 , t1 ) должна быть положительно определенной. Чтобы проверить это, в формуле (1.248) сделаем подстановку t1 = αt0 , где α > 1. После замены граммиан (1.248) примет вид ⎛ ⎜ t0 ( α − 1) W ( t0 , α t0 ) = ⎜ ⎜2 1 1 ⎜3−α+ 3 3α ⎝
2 1 1 ⎞ − + ⎟ 3 α 3α3 ⎟. 1⎧8 1 2 1 ⎫⎟ − + − ⎨ ⎬ t0 ⎩15 α 3α 3 5α5 ⎭ ⎟⎠
Проверка матрицы W ( t0 , αt0 ) на положительную определенность по критерию Сильвестра дает: Δ1 = t 0 ≤ ( α − 1) > 0,
7 7 1 ⎞ ⎛ 89 1 10 1 ⎞ ⎛8 Δ2 = ⎜ α + + + + + ⎟−⎜ + ⎟ > 0. 3α 15α 4 5α 5 ⎠ ⎝ 45 3α 2 9α3 9α 6 ⎠ ⎝ 15 Матрица W ( t0 , t1 ) — положительно определена ( 0 < t0 < t1 ) . Это говорит о том, что система (1.244) полностью управляема. Проверим теперь управляемость системы (1.244) по алгебраическому критерию (1.236). Используя выражения (1.243), (1.247), получим ⎛1⎞ B ( t ) = ⎜ ⎟ = X1 ( x ) ; ⎝ 0⎠ D AB ( t ) =
⎛ 1t d B ( t ) − A ( t ) B ( t ) = − ⎜⎜ 2 dt ⎝−2 t
0 ⎞ ⎛ 1 ⎞ ⎛ −1 t ⎞ ⎟⎜ ⎟ = ⎜ ⎟ = X2 ( x); 2 t ⎟⎠ ⎝ 0 ⎠ ⎜⎝ 2 t 2 ⎟⎠
2 2 ⎛d ⎞ ⎛d ⎞ ⎛ −1 t ⎞ ⎛ 1 t ⎞ ⎛ −1 t ⎞ DA2 B ( t ) = ⎜ − A ( t ) ⎟ DAB ( t ) = ⎜ − A ( t ) ⎟ ⎜⎜ 2 ⎟⎟ = ⎜ ⎟−⎜ ⎟= 3 3 ⎜ ⎟ ⎜ ⎝ dt ⎠ ⎝ dt ⎠ ⎝ 2 t ⎠ ⎝ − 4 t ⎠ ⎝ 6 t ⎟⎠
⎛ 2 t2 ⎞ 3 ⎛ 1 ⎞ 5 ⎛ −1 t ⎞ =⎜ ⎟ = − 2 ⎜ ⎟ − ⎜⎜ 2 ⎟⎟ = β1 X1 ( x ) − β 2 X 2 ( x ) = [ X1 , X 2 ] ( x ) . ⎜ −10 t 3 ⎟ t ⎝ 0⎠ t ⎝ 2 t ⎠ ⎝ ⎠ Отсюда делаем вывод, что базис алгебры I ( D ) составляют векторные поля X1 ( x ) и X 2 ( x ) . Проверка рангового условия:
Глава 1. Синтез САУ методами дифференциальной геометрии
69
⎧⎪1 −1 t ⎫⎪ rank I ( D ) = rank ⎨ = 2 = n для t > 0, 2⎬ ⎩⎪0 2 t ⎭⎪ значит система полностью управляема, что совпадает с ранее полученным результатом.
4. Управляемость билинейных систем. Билинейные системы (БС) описывают динамику многих систем в науке и технике. Уравнения описывают динамику управляемых объектов электроники, химии, биологии, экономики, теплофизики, квантовой механики и имеют следующий вид: m ⎛ ⎞ x& ( t ) = ⎜ A + ∑ ui ( t ) Bi ⎟ x ( t ) ; (1.249) i =1 ⎝ ⎠ y ( t ) = Cx ( t ) ,
где x ∈ R0n = R n − {0} ; C — ( l × n )-матрица; ui ( t ) — скалярные функции; A, B — ( n × n )-матрицы. Из уравнения (1.249) видно, что БС могут служить моделями систем с переменной структурой. В качестве гладкого многообразия для системы (1.249) рассматривается пространство R0n . Сформулируем алгебру Ли I ( D ) для совокупности векторных полей
{
}
D = Ax, Bi x , i = 1, m . Скобки Ли (коммутатор) имеют вид:
[ Hx, Kx ] = ( KH − HK ) x = [ H , K ] ( x ) для любых Hx, Kx ∈ D. Тогда
{
}
I ( D ) = B1 x; B2 x;K ; Bm x; [ A, B1 ] x; ⎣⎡ A, [ A, B1 ]⎦⎤ x; ⎣⎡ B, [ A, B1 ]⎦⎤ x;K .
(1.250)
Вид алгебры I ( D ) говорит о том, что все векторные поля получаются умножением некоторой ( n × n )-матрицы на один и тот же вектор x ∈ R0n . Из этого можно заключить, что алгебра I ( D ) изоморфна (взаимнооднозначный гомоморфизм) подалгебре L
алгебры Ли gl ( n, R ) всех вещественных ( n × n )-матриц, где в качестве операции умножения ( ⋅) используется коммутатор квадратных матриц R1 ⋅ R2 = [ R1 , R2 ] = R1 R − R2 R1 ,
(1.251)
где Ri , i = 1, n ∈ gl ( n, R ) — произвольные матрицы. Восстановить группу G, которая действует на R0n , по ее алгебре I ( D ) можно с помощью экспоненциального отображения (см. п. 1.6) (1.252) G = e tX : X ∈ I ( D ) .
{
}
Свойство управляемости для БС связано с транзитивностью группы G на R0n . Говорят, что множество матриц Q транзитивно на R0n , если для любых x , y ∈ R0n существует матрица P ∈ Q, такая, что Px = y. Транзитивность матричной алгебры означает, что любой линейный базис этой алгебры C1 , C 2 ,K , C m , m ≤ n удовлетворяет условию rank I ({C1 x; C 2 x;K ; C m x} ) = n для всех x ∈ R0n .
(1.253)
Для однородных билинейных систем ( A = 0) транзитивность алгебры Ли является необходимым и достаточным условием управляемости на R0n [271]. Для неоднородной билинейной системы (1.249) транзитивность матричной алгебры L — это условие только необходимое. Во многих работах рассмотрены и достаточные условия управляемости для билинейных систем (подробнее см. обзор [8]).
70
Методы современной теории автоматического управления
5. Выделение базиса и проверка управляемости нелинейных систем общего вида. Рассмотрим систему уравнений dxi (1.254) = fi ( x, u ) , dt
где x = ( x1 ,K , xn ) ∈ M n , u = ( u1 ,K , um ) ∈ Ω ⊂ R m . Функции f i ( x , u ) полагаем таки-
ми, что при каждом допустимом управлении u ( t ) существует единственное решение, проходящее через точку x0 . Ранее было показано, что движение системы происходит в том, что здесь есть управляющее воздействие u, которое входит нелинейно и параметризует векторное поле X ( x ) , координаты которого при фиксированном управлении u в каждой точке описываются вектор-функциями fi ( x , u ) , i = 1, n. Иногда удается за конечное число шагов выделить базис и для параметризованных векторных полей. Рассмотрим процедуру построения такого базиса. Введем оператор n ∂ X = ∑ fi ( x, u ) (1.255) ∂ xi i =1 и рассмотрим этот оператор, как семейство, параметризованное управлением u. Придавая управлению u различные постоянные допустимые значения u ∈ Ω, получаем операторы семейства. Выделим в этом семействе базис, т.е. подставим в (1.255) 1 2 p такие допустимые управления u ( ) , u ( ) ,K , u ( ) , что операторы n
X j = ∑ ξi , j ( x )
(
)
i =1
(
∂ , i = 1, p, ∂xi
(1.256)
)
j где ξi , j ( x ) = fi x, u ( j ) , u ( ) = u1( j ) ,K , um( j ) , j = 1, p — линейно не связаны, а
подстановка в формулу (1.255) любого другого допустимого уравнения приводит к оператору, который линейно связанно выражается через X1 , X 2 ,K , X p p
X = ∑ μ j ( x , u )X j .
(1.257)
j=1
Процесс выделения базиса сводится к исследованию на линейную зависимость. Подставляем в (1.255) любое допустимое значение u1 и решаем задачу: найдется ли такое допустимое управление u, что ранг ( n × 2 )-матрицы ⎛ f1 ( x, u) ⎜ M rank ⎜ ⎜ ⎝ f n ( x , u)
f1 ( x , u (1) ) ⎞ ⎟ M ⎟ = 2. (1) ⎟ f n ( x, u ) ⎠
Если такое u = u ( ) ∈ Ω находится, то решаем задачу нахождения такого u ∈ Ω, что ранг ( n × 3 )-матрицы 2
(
) (
)
(
) (
)
2 ⎛ f ( x, u ) f x, u (1) f1 x , u ( ) ⎞ 1 ⎜ 1 ⎟ ⎟=3 M M M rank ⎜ ⎜ ⎟ ⎜ f x, u ) f n x, u (1) f n x, u ( 2) ⎟⎟⎠ ⎜ n( ⎝ и т.д. Если на некотором шаге p для любого u ∈ Ω ранг матрицы
Глава 1. Синтез САУ методами дифференциальной геометрии
(
)
(
)
(
)
(
)
71
⎛ f ( x, u ) f x , u (1) L f x , u ( p ) ⎞ 1 1 ⎜ 1 ⎟ ⎜ ⎟ < p + 1, rank M M O M ⎜ ⎟ ⎜ f x, u ) f n x, u (1) L f n x, u ( p ) ⎟⎟⎠ ⎜ n( ⎝ то это означает, что левый ее столбец линейно связанно выражается через остальные. После выделения базиса X j , j = 1, p он пополняется, в результате чего возникает
полная система операторов X1 , X 2 ,K , X k ; k ≤ n (не путать с полным векторным полем). Таким образом, каждой точке x ∈ M n ставится в соответствие полная система операторов X1 , X 2 ,K , X k , но, вообще говоря, в разных точках может быть свое число операторов. Определение 1.27. Динамическую систему (1.230) будем называть регулярной [95], если в каждой точке x ∈ M n рассматриваемой области один и тот же набор постоянных допустимых управлений u ( ) ,K , u ( ) выделяет базисные операторы и пополненная система X1 , X 2 ,K , X k состоит из одного и того же их числа k операторов. Заметим, что полная система операторов для регулярной системы формирует конечномерную алгебру Ли и, более того, так как базис остается одним и тем же для всех x ∈ M n , можно сделать вывод о том, что полная система операторов для регулярной системы формирует инволютивное распределение Δ k размерностью k ≤ n (см. определение 1.25). 1
p
Пример 1.18 [95]. Рассмотрим систему управления ⎧ dx1 2 ⎪ dt = u1 x1 x2 + x2 x3 u2 ; ⎪ u1 ≤ 1, ⎪ dx2 = u1 x1; (1.258) ⎨ dt u2 ≤ 1. ⎪ ⎪ dx3 ⎪ dt = x2u2 , ⎩ Для такого класса систем, которые называются аффинными системами управления (т.е. системы, линейные по управлению), имеются другие критерии управляемости в случае, когда ui , i = 1, 2 неограничены. Здесь же 1 1 1 мы рассмотрим предложенный выше алгоритм. Рассмотрим первый оператор для u ( ) : u1( ) = 0, u2( ) = 1:
X1 = x2 x22
∂ ∂ . + x2 ∂x1 ∂x3
2 2 2 Второй оператор для u ( ) : u1( ) = 1, u2( ) = 0 :
X 2 = x1 x2
∂ ∂ + x1 . ∂x1 ∂x2
Проверяем их линейную несвязанность: ⎛ x x 2 0 x2 ⎞ rank ⎜⎜ 2 3 ⎟⎟ = 2, если x1 ⋅ x2 ≠ 0. ⎝ x1 x2 x1 0 ⎠ 3 3 3 Третий оператор для u ( ) : u1( ) = −1, u2( ) = 0 :
X 3 = − x1 x2 Проверка линейной несвязанности: ⎛ x2 x32 ⎜ rank ⎜ x1 x2 ⎜⎜ − x x ⎝ 1 2
0 x1 x1
∂ ∂ . − x1 ∂x1 ∂x2
x2 ⎞ ⎟ 0 ⎟ = 3, если x1 ⋅ x2 ≠ 0. 0 ⎟⎟⎠
72
Методы современной теории автоматического управления Система операторов X1 , X 2 , X 3 является полной. Действительно, при любых допустимых управлени-
ях u1 , u2 оператор X выражается линейно через X1 , X 2 , X 3 (это инволютивная система для области x1 x2 ≠ 0 ) в виде X = u1 X1 +
1 1 ( u1 − u2 ) X 2 − ( u1 + u2 ) X 3. 2 2
Полная система операторов позволяет судить об управляемости системы (1.254) по наличию у нее первых интегралов. У системы уравнений X j ω ( x ) = 0, j = 1, k (1.259) имеется (n − k ) функционально независимых инварианта, которые являются первыми интегралами для системы (1.254). Если у динамической системы (1.254) есть первый интеграл ω ( x ) , тогда пространство R n расслаивается на ( n − 1) -мерные инвариантные поверхности ω ( x ) = C : если начальная точка принадлежит поверхности ω ( x ) = C0 , то при любом управлении u ( t ) траектория x ( t ) будет оставаться на этой поверхности. Следовательно, наличие у динамической системы первого интеграла исключает полную управляемость. Из этого следует следующая теорема. Теорема 1.11 [95]. Динамическая система управления (1.254) управляема тогда, когда система операторов X1 , X 2 ,K , X k , полученная в результате пополнения операторов X1 , X 2 ,K , X p , содержит n операторов, т.е. k = n.
Рассмотренный выше пример не имеет первых интегралов (инвариантов), поэтому она управляема в локальной окрестности некоторой точки x1 ≠ 0, x2 ≠ 0. Замечание 1.7. Фактически теорема 1.11 — это другая формулировка рангового условия управляемости (1.236), где полная система операторов { X1 , X 2 ,..., X k , k = n} получена для системы управления общего вида: rank { X1 , X 2 ,K , X k }LA = rank I ( D ) = n. 1.11. НАБЛЮДАЕМОСТЬ В НЕЛИНЕЙНЫХ СИСТЕМАХ
1. Рассматривается динамическая система управления общего вида x& = f ( x, u ) ; ∑ : y = g ( x),
(1.260)
где u ∈ Ω ⊂ R m , x ∈ M n — гладкое многообразие (фазовое пространство) размерности n, y ∈ R1 , f и g — гладкие функции. Наблюдаемость системы
∑
отражает возможность по наблюдениям за вектором
выхода y ( t ) однозначно восстановить вектор состояния x ( t ) . Отсутствие полной наблюдаемости возникает в случае неоднозначности восстановления, т.е. когда одному и тому же выходу y ( t ) соответствует два и более состояния x1 ( t ) , x 2 ( t ) .
∑ определяет следующее отображение: для каждого допустимого входа ( u ( t ) , [t0 , t1 ]) и начального условия x ( t0 ) = x0 дифференциальное уравнение x& = f ( x, u ( t ) ) определяет решение ( x ( t ) , [t0 , t1 ]) с заданным начальным условием, которое, в свою очередь, формирует выход ( y ( t ) , [t0 , t1 ]) согласно соотношению y ( t ) = g ( x ( t ) ) . Обозначим это отображение как Система
Глава 1. Синтез САУ методами дифференциальной геометрии
Σ x0 : ( u ( t ) , [t0 , t1 ]) → ( y ( t ) , [t0 , t1 ]) .
73 (1.261)
Определение 1.28. Будем говорить, что пара точек x0 и x% 0 неразличима (обозна-
чение: x0 Ix% 0 ), если для каждого допустимого управления ( u ( t ) , [t0 , t1 ]) имеем Σ x0 ( u ( t ) , [t0 , t1 ]) = Σ x%0 ( u ( t ) , [t0 , t1 ]) ,
(1.262)
т.е. при одном и том же входном воздействии u ( t ) и разных (в общем случае x0 ≠ x% 0 ) начальных условиях выходные сигналы ( y ( t ) , [t0 , t1 ]) совпадают.
Неразличимость I (как некоторое отношение на M n ) определяет на множестве M отношение эквивалентности. Действительно, это отношение удовлетворяет аксиомам эквивалентности: 1) x0 Ix% 0 (рефлексивность); 2) x0 Ix% 0 ⇔ x% 0 Ix0 (симметричность); 3) если x Ix% , а x% Ix%% , то x Ix%% (транзитивность). n
0
0
0
0
0
0
Данный подход позволяет нам дать следующее определение наблюдаемости. Пусть I ( x0 ) обозначает класс эквивалентности (т.е. множество элементов M n , которые эквивалентны по отношению I элементу x0 ) x0 ∈ M n. Определение 1.29. Говорят, что система
∑
наблюдаема в точке x0 , если
I ( x0 ) = { x0 } , т.е. класс эквивалентности (неразличимости точек) состоит из одной
точки x0 . Если I ( x ) = { x} ∀x ∈ M n , то система
∑
называется наблюдаемой.
В отличие от линейных стационарных систем, где понятие наблюдаемости является глобальным понятием и определяется только видом матриц A и C ( x& = Ax + Bu; y = Cx + Du ) , для нелинейных систем необходимо ввести локальное понятие наблюдаемости. Определение 1.30. Пусть U — это некоторое подмножество M n и x0 , x% 0 ∈ U .
Будем говорить, что точка x0 U -неразличима от x% 0 ( x0 IU x% 0 ) , если для каждого
управления ( u ( t ) , [t0 , t1 ]) траектории ( x ( t ) , [t0 , t1 ]) , ( x% ( t ) , [t0 , t1 ]) , начинающиеся соответственно в точках x0 и x% 0 , обе лежат в U , т.е. x ( t ) ∈ U , x% ( t ) ∈ U для [t0 , t1 ] , и при этом
∑ x ( u ( t ) , [t0 , t1 ]) = ∑ x% ( u ( t ) , [t0 , t1 ]) . 0
0
(1.263)
U -неразличимость IU в общем случае не является отношением эквивалентности (в отличие от глобального отношения I ). И в основном не выполняется аксиома о транзитивности [256]. Поэтому вводят понятие локальной наблюдаемости. Определение 1.31. Система ∑ является локально наблюдаемой в точке x0 , ес-
ли для каждой открытой окрестности U точки x0 , IU ( x0 ) = { x0 } . Система
∑
является локально наблюдаемой, если она локально наблюдаема в каждой точке x ∈ M n. С другой стороны, понятие «наблюдаемость» можно ослабить, так как на практике достаточно различать точку x0 не от всех точек многообразия M n , а только от ее соседей. Поэтому введем следующее определение.
74
Методы современной теории автоматического управления Определение 1.32. Система
∑
называется слабо наблюдаемой в точке x0 , если
существует такая окрестность U точки x0 , что I ( x0 ) ∩ U ( x0 ) = { x0 } . Система
∑
— слабо локально наблюдаема, если это условие выполнено в каждой точке x ∈ M n. Локальный вариант этого вида наблюдаемости может быть определен следующим образом. Определение 1.33. Система ∑ — локально слабо наблюдаема в точке x0 , если существует такая открытая окрестность U точки x0 , что для каждой открытой окрестности V ( x0 ) точки x0 , V ( x0 ) ⊆ U ( x0 ) , IV ( x0 ) = { x0 } , и называется локально
слабо наблюдаемой, если это условие выполнено для каждой точки x ∈ M n. Другими словами, ∑ является локально слабо наблюдаемой, если можно мгновенно различить каждую точку от соседней. Между различными видами наблюдаемости существует следующая связь (рис. 1.12).
∑
локально наблюдаема
∑
локально слабо наблюдаема ⇒
⇒
⇓
⇓
∑
наблюдаема
∑
слабо наблюдаема
Рис. 1.12. Виды наблюдаемости в нелинейных системах
Эти соотношения справедливы для нелинейных систем, но для линейных стационарных систем можно показать, что все 4 вида наблюдаемости совпадают [256, 297]. Как для локальной слабой управляемости нелинейных систем ранее был получен алгебраический критерий, так и для проверки локальной слабой наблюдаемости имеет место простой алгебраический критерий. Обозначим через LX производную Ли вдоль векторного поля X ( x ) , т.е. для всякой гладкой функции ϕ ( x ) , определенной на многообразии M n , имеем ⎛ ∂ϕ ( x ) ⎞ X ϕ ( x ) = LX ( ϕ ( x ) ) = ⎜ , X ( x) ⎟ , ∂ x ⎝ ⎠ ∂ϕ ( x ) ⎛ ∂ϕ ( x ) ∂ϕ ( x ) ⎞ T =⎜ где X ( x ) = ( ξ1 ( x ) , ξ2 ( x ) ,K , ξ n ( x ) ) ; ,K , ⎟; ∂x ∂xn ⎠ ⎝ ∂x1 ное произведение векторов.
Обозначим через d ϕ градиент ∂ϕ ∂x . Пусть f
j
( x) =
(
f x, u ( j )
(1.264)
(⋅, ⋅)
— скаляр-
) определяет век-
торное поле на многообразие M n для некоторого постоянного управления
(
j u ( ) = ui ( j ) ,K , um( j )
)
T
, j = 1, 2,K .
Из теории линейных систем известна дуальная связь между управляемостью и наблюдаемостью. Для нелинейных систем эта связь проявляется как дуальность между векторными полями и дифференциальными 1-формами (подробнее см. [114]). Покажем, как наблюдаемость определяется через 1-формы. Пусть F 0 обозначает подмножество гладких функций на многообразии M n , со-
{
}
стоящее из функций g1 ( x ) ,K , gl ( x ) : F 0 = gi ( x ) , i = 1, l , и пусть F определяет
( )
наименьшее линейное подпространство гладких функций C ∞ M n , которое замкну-
Глава 1. Синтез САУ методами дифференциальной геометрии
75
то относительно дифференцирований Ли векторными полями I ( D ) множества F 0. Элемент F является линейной комбинацией функций вида
) )
( (
L f 1 K L f k ( gi ) K .
(1.265)
Если обозначить f 1 = X1, f 2 = X2 ,K , то для любых Xi , X j ∈ I ( D) , ⎡⎣ X i , X j ⎤⎦ ∈ I ( D ) имеем (1.266) LX1 LX 2 ( ϕ ) − LX 2 LX1 ( ϕ ) = L[ X1 , X 2 ] ( ϕ ) ,
(
)
(
)
где [ X1 , X 2 ] — скобка Ли (коммутатор) операторов X1 , X 2 . Ранее нами получено, что I ( D )( x ) = Δ p ( x ) ⊆ TM xn , где Δ p ( x ) — распределение размерности p в точке x;
TM xn
(1.267) — касательное про-
странство к многообразию M n в точке x. Элементами TM xn являются касательные
векторы X ( x ) ( x — фиксировано). Если рассмотреть действие оператора X (мы отождествляем касательные вектора с соответствующими им дифференциальными
( )
операторами) на функцию ϕ ( x ) ∈ C ∞ M n и зафиксировать ϕ , то возникает линейный функционал на пространстве TM xn : X ( x ) → X ( ϕ )( x ) . Этот функционал обозначается символом d ϕ ( x ) . По определению d ϕ ( X )( x ) = X ( ϕ )( x ) .
(1.268)
Элемент d ϕ ( x ) принадлежит TM xn∗ — сопряженному c TM xn пространству. Пусть ( ∂ ∂xi )i =1 — базис в TM xn , а dx — дифференциал функции xi ( x ) , тогда соn
гласно (1.268) имеем ⎛ ∂ dxi ⎜ ⎜ ∂x j ⎝
n
⎞ ⎛ ∂ ⎞ xi ⎟ = δij (символ Кронекера). ⎟ =⎜ ⎟ ⎜ ⎟ ⎠ j =1 ⎝ ∂x j ⎠
(1.269)
Следовательно, {dxi }i =1 — двойственный к {∂ ∂xi }i =1 базис в TM xn∗. Отсюда слеn
n
дует, что TM xn∗ ( x — фиксировано) состоит из всевозможных линейных комбина⎧⎪ ⎫⎪ ций ⎨∑ ai dxi ⎬ с вещественными коэффициентами. Для произвольной функции ⎪⎩ i =1 ⎪⎭ ∂ имеем соотношение ϕ ( x ) ∈ C ∞ M n и оператора X = ∑ ξi ( x ) ∂ xi i =1 n ∂ϕ ( x ) (1.270) d ϕ ( X )( x ) = X ( ϕ )( x ) = ∑ ξi ( x ) . ∂xi i=1
( )
Это соотношение, названное нами выше производной Ли функции ϕ ( x ) применительно к дифференциальным формам, называется значением линейной дифференциальной 1-формы ω = d ϕ на векторе X в точке x : ω ( X ) = d ϕ ( X )( x ) [114]. Найдем явную формулу для dϕ. Имеем n
X = ∑ ξi ( x ) i =1
∂ . ∂xi
(1.271)
76
Методы современной теории автоматического управления Используя соотношения (1.268), (1.269), получим ⎛ n ∂ ⎞ dxi ( X )( x ) = dxi ⎜ ∑ ξ j ( x ) ⎟ = ξi ( x ) . ⎜ j=1 ⎟ ∂ x j ⎝ ⎠ Подставляя левую часть (1.272) в (1.270) вместо ξ j ( x ) , найдем ⎛ n ∂ϕ ( x ) ⎞ d ϕ ( X )( x ) = ⎜ ∑ dxi ⎟ ( X )( x ) . ⎝ i =1 ∂xi ⎠ В силу произвольности X ( x ) ∈ TM xn имеем ⎛ n ∂ϕ ( x ) ⎞ dϕ = ⎜ ∑ dxi ⎟ . ⎝ i =1 ∂xi ⎠ Получен полный дифференциал функции ϕ ( x ) .
(1.272)
(1.273)
(1.274)
Полный дифференциал функции dϕ является частным случаем более общего дифференциального геометрического объекта, а именно дифференциальной 1-формы, общий вид которой следующий n
ω = ∑ ai ( x ) dxi ,
(1.275)
i =1
где ai ( x ) — гладкие функции на M n. Элементы множества TM xn∗ называются ковекторами в точке x ∈ M n. Вернемся к рассмотрению слабой локальной наблюдаемости. Обозначим подпространство J ( F )( x ) ⊂ TM xn∗ — подпространство дифференциальных 1-форм ( dϕ : ϕ ∈ F ). Производная Ли LX ( ϕ )( x ) показывает, как воздействует векторное поле (дифференциальный оператор) X на гладкую функцию ϕ ( x ) . Рассмотрим, как действует дифференцирование Ли на дифференциальные 1-формы. Пусть ω — дифференциальная 1-форма вида (1.275), тогда имеет место формула [13] (1.276) LX ( ω)( x ) = d ( ω ( X ) ) + d ω ( X ) . Если ω = d ϕ , т.е. это полный дифференциал или точная форма, то согласно лемме Картана [84] d ω = d ( d ϕ ) = 0. (1.277) Поэтому формулу (1.276) с учетом (1.277) можно записать как L X ( d ϕ ) = d ( LX ( ϕ ) ) , (1.278) т.е. операции дифференцирования Ли LX и d (так называемое внешнее дифференци-
рование) перестановочны. Из этого следует, что J ( F ) является наименьшим линейным подпространством дифференциальных 1-форм, которое замкнуто относительно операции дифференцирования Ли элементами I ( D ) . Элементы J ( F ) — конечные линейные комбинации дифференциальных 1-форм для функций множества F (1.279) d L 1 K L k ( gi ) K = L 1 K L k ( dgi ) K ,
( ( ( f
f
(
где по-прежнему f i ( x ) = f x , u
) )) ( ( ) ) ) для некоторых постоянных управлений u( ) ∈ Ω. f
(i )
f
i
Ковекторное пространство J ( F )( x ) определяет локальную слабую наблюдаемость системы
∑
в точке x0 .
Глава 1. Синтез САУ методами дифференциальной геометрии Определение 1.34. Говорят, что
∑
77
удовлетворяет ранговому условию наблюдае-
мости в точке x0 если размерность пространства J ( F )( x0 ) равна n. ∑ удовлетворяет ранговому условию наблюдаемости, если это условие справедливо для каждого x ∈ M n. Теорема 1.12 (о локальной слабой наблюдаемости) [256]. Если ∑ удовлетворяет ранговому условию наблюдаемости в точке x0 , тогда
∑
локально слабо наблюдае-
ма в точке x0 . До каз ат ельство . Для доказательства теоремы используем следующую лемму. Лемма 1.2 [256]. Пусть V — некоторое открытое множество M n. Если x0 , x% 0 ∈ V ; x0 IV x% 0 , тогда ϕ ( x0 ) = ϕ ( x% 0 ) для всех ϕ ∈ F .
Если размерность dim J ( F )( x0 ) = n,
тогда существует n
таких функций
ϕ1 , ϕ2 ,K , ϕn ∈ F , что дифференциалы d ϕ1 ( x0 ) , d ϕ2 ( x0 ) ,K , d ϕn ( x0 ) линейно неза-
висимы. Определим отображение: Φ : x → ( ϕ1 ( x )K ϕn ( x ) ) . T
Якобиан отображения Φ в точке x0 невырожден, т.е. rank
∂ ( ϕ1 ( x )K ϕn ( x ) ) ∂ ( x1 K xn )
= n, x = x0
поэтому по теореме о неявной функции [69] отображение Φ взаимнооднозначно отображает открытую окрестность U точки x0 . Если V ( x0 ) ⊆ U ( x0 ) — открытая окрестность точки x0 , тогда по лемме 1.2 IV ( x0 ) = { x0 } , так что ∑ является локально слабо наблюдаемой. 2. Рассмотрим хорошо известную задачу наблюдаемости для линейных стационарных систем. Имеем систему управления ⎧ x& = Ax + Bu; (1.280) ⎨ ⎩ y = Cx. Обозначим через Ci* — i -ю строку ( 1× n )-матрицы C , т.е. yi = Ci* x , i = 1, l. В соответствии с (1.260) имеем gi ( x ) = Ci* x , i = 1, l.
(1.281) (1.282)
При выводе условий управляемости получено, что алгебра Ли I ( D ) для системы (1.280) формируется векторными полями j -столбец матрицы B. Пусть
{ Ax, A b i
j
}
: i = 0, n − 1, j = 1, m , где b j —
{
}
I 0 ( D )( x ) = span Ax, Ai b j : i = 0, n − 1, j = 1, m ,
(1.283)
где span — линейная оболочка векторов Ax , Ai b j ,K в точке x. Найдем линейное пространство J ( F ) дифференциальных 1-форм, получаемых дифференцированием множества функций
{
F = { g1 ( x ) ,K , gl ( x )} = Ci* x, i = 1, l
}
(1.284)
78
Методы современной теории автоматического управления
векторными полями I 0 ( D )( x ) . Имеем ⎛ n ⎞ n n (1.285) ⎜ ∑ Cip x p ⎟ = ∑∑ akj x j Cik = Cik Ak , i = 1, l ; ⎜ p =1 ⎟ k =1 j =1 k =1 j =1 ⎝ ⎠ тогда общая формула дифференцирования F вдоль векторного поля Ax будет n
n
LAx ( Ci* x ) = ∑∑ akj x j
∂ ∂xk
(
)
LAx Ci* A j x = Ci* A j +1 x, j = 0,1,K .
(1.286)
По аналогии получим выражение для дифференцирования вдоль векторных полей A b j . Имеем i
(
)
LAi b Ci* Ak x = Ci* Ai + k b j , j
(1.287)
что приводит к следующему результату
(
)
LAx Ci* At b j = Ci* At b j = 0, t = 0,1,K .
(1.288)
Тогда пространство гладких функций F , замкнутое относительно дифференци-
рований Ли LX ( X ∈ I 0 ( D ) ) , с учетом теоремы Кэли–Гамильтона имеет вид
{
}
F = span Ci* Ak x, Ci* Ak b j : i = 1, l , j = 1, m , k = 0, n − 1 .
Построим алгебру дифференциальных 1-форм для функций пространства F . Для каждой точки x ∈ M n имеем (1.289) J ( F )( x ) = d F ( x ) = span Ci* Ak : i = 1, l , k = 0, n − 1 ,
{
так как
( d (C
}
) A b ) = 0.
d C i* Ak x = C i * Ak ; i*
k
j
В силу того, что базис пространства (1.289) не зависит от x, то он имеет постоянную размерность. Ранговый критерий наблюдаемости (теорема 1.12)
{
}
rank J ( F ) = rank Ci* Ak : i = 1, l , k = 0, n − 1 = n
(1.290)
приводит к известному критерию наблюдаемости Калмана. Замечание 1.8. Элементами J ( F ) как ковекторного пространства являются дифференциальные 1-формы вида ⎪⎧ n n ⎪⎫ J ( F ) = ⎨∑∑ Cip a kpj dx j , k = 0, n − 1, i = 1, l ⎬ , (1.291) ⎪⎩ j =1 p =1 ⎪⎭
(
(
)
где a kpj — элемент a pj p = 1, n, j = 1, n)
)
матрицы Ak , k = 0, n − 1. Всего в J ( F )
n × 1 дифференциальных 1-форм. 3. Линейные нестационарные системы. Как и в задаче управляемости, добавим к вектору состояния дополнительную переменную x0 = t , получим ⎧ x&0 = 1; ⎪ (1.292) ⎨ x& = A ( x0 ) x + B ( x0 ) u; ⎪ ⎩ y = C ( x0 ) x. Рассмотрим два векторных поля 1 ⎛ ⎞ ⎛ 0 ⎞ (1.293) X1 ( x ) = ⎜ ⎟, X2 ( x) = ⎜ ⎟. ⎝ A ( x0 ) x ⎠ ⎝ B ( x0 ) ⎠
Глава 1. Синтез САУ методами дифференциальной геометрии
79
Дифференцирование функции yi = Ci ( x0 ) x, i = 1, l вдоль векторного поля X1 ( x ) дает нам n n ⎛⎛ ∂ ⎞ ∂ ⎞ n LX1 Ci* ( x0 ) x = ⎜ ⎜ + ∑∑ akj ( x0 ) x j ⎟ ∑ Cip ( x0 ) x p ⎟ = ⎜ ⎜ ∂x0 k =1 j =1 ⎟ ∂xk ⎟⎠ p =1 ⎝⎝ ⎠ n
n n ∂ Cip ( x0 ) x p + ∑∑ akj ( x0 ) x j Cik ( x0 ) = p =1 ∂x0 k =1 j =1
=∑
Обозначим через
(1.294)
⎛ ∂ ⎞ Ci* ( x0 ) + Ci* ( x0 ) A ( x0 ) ⎟ x, i = 1, l. =⎜ ⎝ ∂x0 ⎠
⎛ ∂ ⎞ DAC ( x0 ) = ⎜ C ( x0 ) + C ( x0 ) A ( x0 ) ⎟ . ∂ x ⎝ 0 ⎠ Тогда (1.294) можно переписать в виде LX1 ( C ( x0 ) x ) = DAC ( x0 ) x.
(1.295)
(1.296)
Дальнейшее дифференцирование функции DAC ( x0 ) x приводит к реккурентной формуле L (K ( L C ( x ) ) x ) ) = L (1444 424444 3 X1
X1
0
k X1 C
( x0 ) x = D Ak C ( x0 ) x =
k
(1.297)
⎛ ∂ ⎞ D Ak −1C ( x0 ) + D Ak −1 ( C ( x0 ) A ( x0 ) ) ⎟ x . =⎜ ⎝ ∂ x0 ⎠
Так как векторное поле X 2 ( x ) не зависит от x, то при формировании линейного пространства J ( F ) (кораспределения) дифференциальных 1-форм J ( F )( x ) = d F ( x ) необходимо учитывать только функции вида (1.297) (см. формулу (1.289) для стационарного случая), поэтому ранговый критерий наблюдаемости (теорема 1.12) для системы (1.292) приводит к следующему критерию наблюдаемости: ⎛ C ( x0 ) ⎞ ⎜ ⎟ ⎜ DAC ( x0 ) ⎟ ⎜ D2C ( x ) ⎟ 0 ⎟ (1.298) rank J ( F ) = rank ⎜ A = n. ⎜ ⎟ M ⎜ k ⎟ ⎜ DAC ( x0 ) ⎟ ⎜ ⎟ M ⎝ ⎠ Перепишем условие наблюдаемости (1.298), заменив переменную x0 на t. Получим
⎛ C (t ) ⎞ ⎜ ⎟ ⎜ D AC ( t ) ⎟ ⎜ D2C (t ) ⎟ ⎟ = n, rank J ( F ) = rank ⎜ A ⎜ ⎟ M ⎜ k ⎟ ⎜ D AC ( t ) ⎟ ⎜ ⎟ M ⎝ ⎠
80
Методы современной теории автоматического управления
где d C (t ) + C (t ) A (t ) ; dt d D Ak C ( t ) = D Ak −1C ( t ) + D Ak −1C ( t ) A ( t ) , dt k = 1, 2, K . D AC (t ) =
(
) (
)
(1.299)
4. Рассмотрим практический пример применения рангового критерия наблюдаемости для нелинейной системы. Пример 1.19. Наблюдаемость в нелинейной системе. Рассмотрим следующую систему 3-го порядка: ⎧ x&1 = x2 x3 ; ⎪& ⎪ x2 = − x1 x3 ; ⎨ ⎪ x&3 = 0; ⎪ y=x. 1 ⎩ Определим необходимые элементы ( n = 3, l = 1) . Векторное поле (как дифференциальный оператор), определяющее динамику системы: ∂ ∂ ∂ − x1x3 +0 X1 = x2 x3 . ∂x1 ∂x2 ∂x3 Множество функций F 0 = { g1 ( x )} = { x1} .
Сформируем пространство функций F : ⎛ ∂ ∂ ⎞ LX1 g1 ( x ) = ⎜ x2 x3 − x1 x3 ⎟ x1 = x2 x3 ; x x2 ⎠ ∂ ∂ 1 ⎝ ⎛ ∂ ∂ ⎞ 2 L2X1 ( g1 ( x ) ) = LX1 LX1 g1 ( x ) = ⎜ x2 x3 − x1 x3 ⎟ x2 x3 = − x1 x3 ; ∂x1 ∂x2 ⎠ ⎝
(
)
⎛ ∂ ∂ ⎞ 2 3 L3X1 ( g1 ( x ) ) = ⎜ x2 x3 − x1 x3 ⎟ − x1 x3 = − x2 x3 ; x x2 ⎠ ∂ ∂ 1 ⎝
(
)
⎛ ∂ ∂ ⎞ 3 4 L4X1 ( g1 ( x ) ) = ⎜ x2 x3 − x1 x3 ⎟ − x2 x3 = x1 x3 ; ∂x1 ∂ x2 ⎠ ⎝ ⎛ ∂ ∂ ⎞ 4 5 L5X1 ( g1 ( x ) ) = ⎜ x2 x3 − x1 x3 ⎟ − x1 x3 = x2 x3 ; ∂x1 ∂ x2 ⎠ ⎝ .................................................................................... Сформируем из полученных функций F пространство J ( F ) дифференциальных 1-форм dg1 ( x ) = dx1;
(
(
)
(
)
)
d LX1 g1 ( x ) = x3dx2 + x2 dx3 ;
( ( d (L d (L
) ) g ( x ) ) = x dx + 4 x x dx ; g ( x ) ) = x dx + 5 x x dx ;
d L2X1 g1 ( x ) = − x32 dx1 − 2 x1 x3dx3 ; d L3X1 g1 ( x ) = − x33dx2 − 3 x32 x2 dx3 ; 4 X1 1
4 3
5 X1 1
5 3
1
3 1 3
3
2
4 2 3
3
.......................................... Для проверки рангового условия сформируем матрицу M C из коэффициентов (гладких функций) полученных дифференциальных 1-форм: 0 0 ⎞ ⎛ 1 ⎜ ⎟ x3 x2 ⎟ ⎜ 0 ⎜ − x2 −2 x1 x3 ⎟ 0 3 ⎟. M C = ⎜⎜ 3 0 − x3 −3x32 x2 ⎟ ⎜ ⎟ ⎜ x34 0 4 x1 x33 ⎟ ⎜ ⎟ ⎜ 0 x35 5 x2 x34 ⎟⎠ ⎝
Глава 1. Синтез САУ методами дифференциальной геометрии
81
Из анализа данной матрицы видно, что rank M C < 3, если либо x30 = 0, либо x10 = x20 = 0, где x30 , x10 , x20 — точка, в окрестности которой рассматривается наблюдаемость данной системы. Исходя из полученных соотношений можно определить области слабой локальной (в том числе и локальной) наблюдаемости. Например, Ι : x30 > 0; x10 > 0; ΙΙ : x30 < 0; x10 > 0.
1.12. ЛИНЕЙНЫЕ ЭКВИВАЛЕНТЫ НЕЛИНЕЙНЫХ СИСТЕМ. СИНТЕЗ НЕЛИНЕЙНЫХ РЕГУЛЯТОРОВ
Проблема построения регуляторов для нелинейных систем в отличие от линейных все еще далека от решения. Тем не менее идея использования хорошо разработанной теории построения линейных регуляторов для нелинейных систем остается весьма притягательной и актуальной. Главная сложность здесь — найти диффеоморфизм (гладкий изоморфизм) между исходной нелинейной системой и некоторой линейной системой. Здесь будет показано, что наличие преобразования, позволяющего перейти от нелинейной системы к линейной, сводится к условию существования группы симметрий для нелинейной системы управления. В [30] получено, что для автономных управляемых систем dx dt = f ( x , u ) группа симметрии действует на множестве решений данной системы, если диффеоморфизм имеет следующую структуру: u′ = u′ ( x , u ) , x ′ = x ′ ( x ) , где ( x , u ) — старые локальные координаты и управление,
( x′, u′)
— соответственно новые.
1. Постановка задачи. Рассматривается класс нелинейных динамических систем линейных по управлению, класс так называемых аффинных систем dx dt = X ( x ) + uY ( x ) , x ∈ M n , u ∈ R1 , Y ( x0 ) ≠ 0, (1.300)
где M n — гладкое многообразие размерности n; x0 — равновесная точка; X ( x ) , Y ( y ) — гладкие векторные поля на M n : T
X ( x ) = ⎡⎣ξ1 ( x ) ,K , ξn ( x ) ⎤⎦ ; T
Y ( x ) = ⎡⎣η1 ( x ) ,K , ηn ( x ) ⎤⎦ . Если векторные поля рассматриваются как дифференциальные операторы g
гладких функций, определенных на многообразии M n , то они представляются в виде (см. п. 1.2.4) n n ∂ ∂ X = ∑ ξi ( x ) ; Y = ∑ ηi ( x ) . ∂x i ∂x i i =1 i =1 Ставится задача: найти такие преобразования для гладкой замены координат y = y ( x ) и управления ν = ν ( x , u ) (статическая обратная связь), что система (1.300) приводится к некоторой изоморфной ей системе вида dy dt = A C y + BC ν, (1.301) где A C , B C — матрицы канонической формы Бруновского [118, 242]. 2. Линейные эквиваленты. Каноническая форма Бруновского для систем со скалярным управлением имеет следующий вид: dy1 dt = y2 ; M (1.302) dyn −1 dt = yn ; dyn dt = ν.
82
Методы современной теории автоматического управления Таким образом, если известно некоторое преобразование y1 = T1 ( x ) , то последую-
щие преобразования yi = Ti ( x ) , i = 2, n можно получить последовательным диффе-
ренцированием функции T1 ( x ) вдоль векторного поля ( X ( x ) + uY ( x ) ) , т.е. нахождением производных Ли функции T1 ( x ) вдоль векторного поля ( X ( x ) + uY ( x ) ) . Система дифференциальных уравнений, определяющих преобразование T1 ( x ) . Имеем dy1 dt = y2 = LX + uY T1 ( x ) = X (T1 ( x ) ) + uY (T1 ( x ) ) = X (T1 ( x ) ) , (1.303)
так как y2 = T2 ( x ) не зависит от управления u и поэтому Y ( T1 ( x ) ) = 0.
Аналогично получаем
(1.304)
(
)
dy2 dt = y3 = LX + uY X (T1 ( x ) ) = X 2 (T1 ( x ) ) + uY X (T1 ( x ) ) = X 2 (T1 ( x ) ) ,
соответственно
(
)
Y X (T1 ( x ) ) = 0.
(1.305) (1.306)
Заметим, что в формуле (1.305) и ниже под X i (T1 ( x ) ) понимается производная Ли i-го порядка функции T1 ( x ) вдоль векторного поля X ( x )
( (
))
X i (T1 ( x ) ) = X X K X (T1 ( x ) )K .
Продолжая находить производные Ли более высоких порядков, получим dyn −1 dt = yn = LX + uY X n − 2 (T1 ( x ) ) =
(
)
= X n −1 (T1 ( x ) ) + uY X n − 2 (T1 ( x ) ) = X n −1 (T1 ( x ) ) .
(1.307)
Итак, из (1.304), (1.306) и (1.307) имеем
(
)
Y X i ( T1 ( x ) ) = 0, i = 2, n − 2,
(1.308)
(
)
dyn dt = ν = LX + uY X n −1 (T1 ( x ) ) = X n (T1 ( x ) ) + uY X n −1 (T1 ( x ) ) .
(1.309)
Для того чтобы из (1.309) определить u, необходимо обязательно выполнить условие Y X n −1 ( T1 ( x ) ) ≠ 0. (1.310)
(
)
Из анализа (1.308)–(1.310) можно сделать следующие выводы. Преобразование (невырожденная замена координат) y1 = T1 ( x ) определяется из решения системы линейных дифференциальных уравнений в частных производных (1.308), (1.310), т.е.
( ) Y ( X ( T ( x ) ) ) ≠ 0.
Y X i ( T1 ( x ) ) = 0, i = 2, n − 2, n −1
1
(1.311а) (1.311б)
Остальные координаты получим из (1.303), (1.305), (1.307), т.е. yi = X i −1 ( Ti ( x ) ) , i = 2, n.
(1.312)
Формулу (1.312) можно записать в более привычной форме y i = Ti ( x ) = X (Ti −1 ( x ) ) = ( ∂Ti −1 ( x ) ∂x , X ( x ) ) , i = 2, n,
(1.313)
где ( d , r ) — скалярное произведение векторов d и r.
Глава 1. Синтез САУ методами дифференциальной геометрии
83
Теорема 1.13. Для аффинных систем (1.300) система дифференциальных уравнений в частных производных (1.311), из которой находится преобразование T1 ( x ) , эквивалентна системе дифференциальных уравнений в частных производных первого порядка, определенных последовательным дифференцированием векторного поля Y ( x ) вдоль векторного поля X ( x ) и последующим дифференцированием функции T1 ( x ) вдоль полученных векторных полей, т.е.
( ad Y ) (T ( x ) ) = 0, i = 0, n − 2, ( ad Y ) (T ( x ) ) ≠ 0, i X
n −1 X
где
ad iX
(1.314а)
1
(1.314б)
1
Y — производная Ли векторного поля
ad iX−1 Y
( x)
вдоль векторного поля
X ( x ) , причем для
ad 0X Y ( x ) = Y ( x ) ;
i = 0:
ad 1X Y ( x ) = L X Y ( x ) = ( XY − YX )( x ) = [ X , Y ] ( x ) =
i = 1:
=
( ( ∂Y ( x ) ∂x ) X ( x ) − ( ∂X ( x ) ∂x ) Y ( x ) ) ( x ) ;
ad 1X Y ( x ) = L X ad iX−1 Y ( x ) = ⎡⎣ X , ad iX−1 Y ( x ) ⎤⎦ ;
i=k:
здесь [ X ,Y ] ( x ) — скобка (коммутатор) Ли векторных полей X ( x ) и Y ( x ) . До каз ат ельство . Доказательство проведем по индукции. Для i = 0 : 0 ad X Y ( T1 ( x ) ) = Y ( T1 ( x ) ) = 0 и первые уравнения (1.311) и (1.314) совпадают. Для
( ad Y ) (T ( x ) ) = L Y (T ( x ) ) = ( XY − YX ) (T ( x ) ) = i = 1: = ( X (Y ( T ( x ) ) ) ) − Y ( X ( T ( x ) ) ) = −Y ( X ( T ( x ) ) ) , 1 X
X
1
1
1
1
1
1
так как Y ( T1 ( x ) ) = 0. Выше было использовано свойство производной Ли [13] L[ X ,Y ] (T1 ( x ) ) = [ L X , LY ] (T1 ( x ) ) . Исходя из определения скобок Ли и непосредственными вычислениями можно показать, что для
( ad Y ) (T ( x )) = L ( ad k X
i=k:
X
1
k
= ∑ ( −1) C kj X k − jYX j
j =0
так как YX
j
j
k −1 X Y
) (T ( x ) ) = 1
(T1 ( x ) ) = ( −1) k YX k (T1 ( x ) ) = 0,
(T1 ( x ) ) = 0,
j = 0, k − 1,
(1.315)
(1.316)
причем в (1.315) C kj =
k! . j !( k − j ) !
Формулы (1.315), (1.316) справедливы для k = 0, n − 2. Для k = n − 1
( ad
n −1 X Y
) (T ( x ) ) = ( −1) 1
n −1
YX n −1 ( T1 ( x ) ) ≠ 0.
(1.317)
Эквивалентность формул (1.311), (1.314) доказана. Функция T1 ( x ) определяется из системы линейных дифференциальных уравнений в частных производных первого порядка (1.314), но при этом векторные поля
84
Методы современной теории автоматического управления
ad iX Y ( x ) , i = 0, n − 2 должны подчиняться условию их совместной интегрируемости
— условию инволютивности. Заметим, что при Y ( x ) = Y = const
( ad Y ) (T ( x ) ) = ( −1) (YX ) (T ( x ) ) , i X
i
i
1
1
i = 0, n − 1,
(1.318)
и формулы (1.311) и (1.314) полностью совпадают. Инволютивность. Инволютивность является краеугольным камнем при выводе условий интегрируемости уравнений в частных производных и фактически при этом является синонимом термина «интегрируемость». Подробно этот вопрос мы рассмотрели в п. 1.10. Говорят, что множество векторных полей { X 1 ( x ) ,K , X m ( x )} инволютивно, если существуют такие скалярные поля (функции) α ijk ( x ) , что m
⎡⎣ X i , X j ⎤⎦ ( x ) = ∑ α ijk ( x ) X k ( x ) .
(1.319)
k =1
В этом случае совокупность
{ X 1 ( x ) ,K , X m ( x )} LA
{ X 1 ( x ) ,K, X m ( x )}
определяет алгебру Ли
относительно бинарной операции [⋅, ⋅]. Фробениус показал [29]
(см. теоремы 1.7–1.9), что система векторных полей тогда и только тогда интегрируема, когда она инволютивна. Сначала рассмотрим только класс так называемых инволюционных систем. Система векторных полей S = ( X 1 ( x ) ,K , X m ( x ) ) находится в инволюции, т.е. векторные поля попарно коммутируют, если X i X j ( z ( x ) ) = X j X i ( z ( x ) ) , i, j = 1, m или
(1.320) ⎣⎡ X i , X j ⎦⎤ ( x ) = ( X i ⋅ X j − X j ⋅ X i ) ( x ) = 0 для любой дважды и более дифференцируемой функции z ( x ) [14], т.е. условия (1.320) совпадают с (1.319) для α ijk = 0. Покажем, что любая инволютивная система векторных полей имеет в качестве канонического (исходного) базиса инволюционную систему, из которой она определяется умножением на некоторые гладкие функции, определяя тем самым то же самое гладкое инволютивное распределение Δ p (подпространство касательного пространства TM xn постоянной размерности, базис-
ные векторные поля которого замкнуты относительно бинарной операции [⋅, ⋅] ) размерности p, что и исходная инволюционная система. Пусть S = { X 1 ( x ) ,K , X n −1 ( x )} — инволюционная система на подмногообразии V.
Пусть из системы S получена новая система S = {Y1 ( x ) ,K , Y n −1 ( x )} умножени-
ем векторных полей X 1 на гладкие функции g i ( x ) , i = 1, n − 1, не обращающиеся в нуль в окрестности точки x0 . В этом случае S1 определяет то же распределение Δ n −1 , но с другой параметризацией [29]. Например, для n − 1 = 2 имеем Y1 = g1 ( x ) X1,
Y2 = g2 ( x ) X 2 . Тогда
[Y1 ,Y2 ] f ( x ) = ( γ1 ( x ) Y1 + γ 2 ( x )Y2 ( x ) + γ 3 ( x ) [ X1 , X 2 ]) f ( x ) = = ( γ1 ( x ) Y1 + γ 2 ( x ) Y2 ( x ) ) f ( x ) ,
Глава 1. Синтез САУ методами дифференциальной геометрии
85
так как из (1.320) [ X 1 , X 2 ] = 0. Функции γ i ( x ) , i = 1, 2,3 находятся из следующих соотношений:
( ) g1 ( x ) ; γ 2 ( x ) = ( g1 ( x ) X1 ( g 2 ( x ) ) ) g 2 ( x ) ; γ1 ( x ) = − g 2 ( x ) X 2 ( g1 ( x ) )
γ 3 ( x ) = g1 ( x ) ⋅ g 2 ( x ) .
Видно, что если S = { X1 ,K , X n −1} — инволюционная система на подмногообра-
зии V , то S1 = {Y1 ,K , Yn −1} определяет инволютивную систему на том же подмногообразии.
{
}
Что касается исходной системы S = { X 1 ( x ) ,K, X n−1 ( x )} = ad iX Y ( x ) , i = 0, n − 2 ,
определяющей систему (1.314а), то из вывода уравнений (1.311а) следует, что в общем случае это инволютивная система на подмногообразии V , так как из условия ⎡⎣ X i , X j ⎤⎦ f ( x ) = 0 ∀ X i ∈ Δ n −1 не обязательно следует, что ⎡⎣ X i , X j ⎤⎦ = 0. Группы преобразований. Вопрос о существовании преобразования y = T ( x ) , ν = ν ( x , u ) для исходной системы (1.300) сводится к проблеме наличия группы симметрий — группы диффеоморфизмов, переводящих решения управляемой системы (1.309) в решения системы (1.301) и наоборот. Здесь основную роль играет теорема С. Ли (аналог теоремы Руффини–Абеля–Галуа о разрешимости алгебраического уравнения в радикалах) о разрешимости линейного дифференциального уравнения в частных производных Az = 0, рассмотренная в п. 1.8. Эта теорема приводит к следующим условиям наличия у (1.300) группы симметрий: 1) X i (T1 ( x ) ) = 0, i = 1, n − 1, (1.321а)
X n (T1 ( x ) ) ≠ 0;
(1.321б)
{
}
2) система S = { X 1 ( x ) ,K , X n −1 ( x )} = ad iX Y ( x ) , i = 0, n − 2 — является инволютивной; 3) векторные поля
{ X1 ( x ) ,K , X n −1 ( x )} = {adiX Y ( x ) , i = 0, n − 1}
— линейно не-
зависимы в окрестности равновесной точки x0 . Формулы (1.321а), (1.321б) в точности повторяют условия (1.311а), (1.311б) или (1.314а), (1.314б), условия 2) выполнены для S и единственным дополнительным условием существования является 3). Если равновесная точка x0 ≠ 0, тогда преобразование y1 = T1 ( x ) − T1 ( x0 )
(1.322)
позволяет получить интегральное многообразие, проходящее через данную точку x0 . Суммируя вышесказанное, сформулируем основную теорему о наличии линейных эквивалентов у системы (1.300). Теорема 1.14. Нелинейная система (1.300) тогда и только тогда имеет линейный эквивалент — систему (1.301) в окрестности равновесной точки x0 , когда выполнены следующие условия:
{
}
1) система S = ad iX Y ( x ) , i = 0, n − 2 — инволютивна;
86
Методы современной теории автоматического управления 2) ad nX−1 Y ( x ) ≠ 0 в точке равновесия и ее окрестности; 3) векторы ad iX Y ( x ) , i = 0, n − 1 линейно независимы в точке равновесия и ее окрестности; 4) преобразование T1 ( x ) , полученное из системы дифференциальных уравнений (1.314а), связано с переменной y1 соотношением (1.322), остальные преобразования находятся из (1.303), (1.305), (1.307); 5) статическая обратная связь определяется из уравнения (1.10) ν = X n −1 ( T1 ( x ) ) + u ⋅ ad nX−1 Y ( T1 ( x ) ) , откуда после нахождения ν = ν ( y ) и замены y = T ( x ) получим обратную связь в исходной системе ν ( T ( x ) ) − X n −1 ( T1 ( x ) ) . (1.323) u ( x) = ad nX−1 Y ( T1 ( x ) ) Рассмотрим пример синтеза регулятора.
Пример 1.20 [164]. Задан нелинейный объект управления ⎧ x&1 = x2 ; ⎪ (1.324) ⎨ x&2 = sin x1 + x3 ; ⎪ x& = u. 1 ⎩ Математическая модель (1.324) описывает движение математического маятника в верхнем неустойчивом положении, при этом x1 — угол отклонения маятника от вертикали, x2 — скорость отклонения, x3 — момент, приложенный к маятнику. Уравнениями (1.324) описываются многие электромеханические объекты: синхронные генераторы, двигатели с асинхронным пуском и др. Поставим задачу синтеза регулятора для системы (1.324). Для этого проверим, можно ли свести данную систему к канонической форме Бруновского заменой координат и введением статической обратной связи. Имеем векторные поля x2 ⎛ ⎞ ⎛0⎞ ⎜ ⎟ ⎜ ⎟ (1.325) X ( x ) = ⎜ sin x1 + x3 ⎟ , Y ( x ) = ⎜ 0 ⎟ . ⎜ ⎟ ⎜1⎟ 0 ⎝ ⎠ ⎝ ⎠ Для получения невырожденного преобразования T = ( T1, T2 , T3 ) и статической обратной связи ν проверим все условия теоремы. Имеем: ⎛1⎞ ⎛0⎞ ⎛0⎞ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ 1) ad 0X Y ( x ) = Y ( x ) = ⎜ 0 ⎟ , ad X Y ( x ) = [ X ,Y ] ( x ) = ⎜ −1 ⎟ , ad 2X Y ( x ) = [ X , ad X Y ] = ⎜ 0 ⎟ , ⎜ 0⎟ ⎜1⎟ ⎜0⎟ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠
{
}
rank ad iX Y ( x ) , i = 0,1,2 = 3 в точке равновесия x0 = 0 — условие 3) выполнено;
{
}
2) так как все векторные поля ad iX Y ( x ) , i = 0,1,2 не зависят от x, то система adiX Y ( x ) , i = 0,1,2 векторных полей инволютивна (полная система) — условие 1) выполнено; 3)
ad 2X Y ( x ) = (1 0 0 ) ≠ 0 — условие 2) выполнено. T
Таким образом, преобразование T ( x ) существует и статическая обратная связь ν ( T ( x ) ) также может быть получена. Приведем исходную систему к канонической форме Бруновского. Находим компоненту преобразования y1 = T1 ( x ) . Согласно (1.314),
⎧⎛ ∂T1 ∂T1 ∂T ∂T ⎞ , Y ( x ) ⎟ = 0; ⋅ 0 + 1 ⋅ 0 + 1 ⋅1 = 0; ⎪⎜ x x x x3 ∂ ∂ ∂ ∂ ⎝ ⎠ 1 2 ⎪ ⎪ ∂T ∂ T ∂ T ∂T ⎪⎛ ⎞ 1 1 ⋅ 0 + 1 ⋅ ( −1) + 1 ⋅ 0 = 0; , ad X Y ( x ) ⎟ = 0; ⎨⎜ x ∂ ∂ ∂ ∂ x x x3 ⎝ ⎠ 1 2 ⎪ ⎪⎛ ∂T ∂ ∂ ∂ T T T ⎞ 1 ⎪⎜ 1 , ad 2X Y ( x ) ⎟ ≠ 0; ⋅ 1 + 1 ⋅ 0 + 1 ⋅ 0 ≠ 0. ∂x1 ∂x2 ∂x3 ⎠ ⎩⎪⎝ ∂x
(1.326)
Глава 1. Синтез САУ методами дифференциальной геометрии
87
Данной системе дифференциальных уравнений в частных производных, в частности, удовлетворяет следующее решение: y1 = T1 ( x ) = x1. Остальные компоненты преобразования T2 ( x ) , T3 ( x ) и статическую обратную связь ν найдем из выражений (1.303), (1.305), (1.308), (1.309) x2 ⎛ ⎞ ⎜ ⎟ ⎛ ∂T ⎞ y2 = T2 ( x ) = ⎜ 1 , X ( x ) ⎟ = (1, 0, 0 ) ⎜ sin x1 + x3 ⎟ = x2 ; ⎝ ∂x ⎠ ⎜ ⎟ 0 ⎝ ⎠ ⎛ ∂T ⎞ (1.327) y3 = T3 ( x ) = ⎜ 2 , X ( x ) ⎟ = sin x1 + x3 ; ⎝ ∂x ⎠ ⎛ ∂T ⎞ ν = ⎜ 3 , X ( x ) + uY ( x ) ⎟ = cos x1 ⋅ x2 + u. ⎝ ∂x ⎠ Проверим невырожденность преобразования y = T ( x ) в окрестности равновесной точки. Имеем ⎛ 1 0 0⎞ ⎛ ∂T ⎞ ⎜ ⎟ det ⎜ ⎟ = ⎜ 0 1 0 ⎟ ≠ 0, ⎝ ∂x ⎠ ⎜ ⎟ ⎝ cos x1 0 1⎠ а это значит, что существует взаимооднозначная связь между решениями исходной системы (1.324) и ее линейным эквивалентом в форме Бруновского ⎧ ∂y1 ⎪ ∂t = y2 ; ⎪ ⎪ ∂y2 = y3 ; (1.328) ⎨ ⎪ ∂t ⎪∂y3 ⎪ ∂t = ν. ⎩ Ввиду диффеоморфности систем (1.324) и (1.328) синтезируем регулятор для линейной системы (1.328), а из уравнения (1.327) найдем синтезируемое управление для исходной системы. Пусть для определенности для системы (1.328) был синтезирован регулятор по известным методам синтеза: ν ( y ) = K1 y1 + K 2 y2 + K 3 y3 ,
где K1 = −1, K 2 = K3 = −3. Тогда управление u ( x ) для исходной системы будет
u ( x ) = ν (T ( x ) ) − cos x1 x2 = − x1 − 3x2 − 3 ( sin x1 + x3 ) − cos x1 x2 . Замечание: если управление u в уравнении (1.300) будет векторным, тогда вид его линейного эквивалента является блочно-диагональным, где каждый блок — клетка Бруновского. Пример такого синтеза приведен в [114].
1.13. ПРОВЕРКА ИНВОЛЮТИВНОСТИ РАСПРЕДЕЛЕНИЯ ВЕКТОРНЫХ ПОЛЕЙ
При получении линейных эквивалентов нелинейных систем и нахождения общих инвариантов для нескольких однопараметрических групп необходимо определить, является ли заданная система инфинитезимальных операторов инволютивной, т.е. составляет ли она базис алгебры Ли векторных полей. Рассмотрим достаточно простой, аналитический метод решения данной проблемы, основанный на взаимнооднозначном соответствии между инволютивным семейством векторных полей V и инволюционным (с попарно коммутирующими векторными полями) семейством векторных полей V% = X% , t = 1, m , полученном из V
{
t
}
некоторым невырожденным преобразованием. Пусть на гладком многообразии M n задано множество векторных полей в естественном базисе n ∂ X i = ∑ ξ i, j ( x ) ; i = 1, m ; 1 ≤ m ≤ n − 1. (1.329) ∂x j j =1
88
Методы современной теории автоматического управления Теорема 1.15. Для того чтобы независимые векторные поля X1 ( x ) ,K , X m ( x ) ,
1 ≤ m ≤ n − 1, где n — размерность вектора x ∈ M n , определяли инволютивное распределение Δ ( x ) , необходимо и достаточно, чтобы базис X% ( x ) ,K, X% ( x ) , полу1
m
m
ченный из X1 ( x ) ,K , X m ( x ) , был инволюционным. До казательство . Необхо димо сть . Пусть векторные поля X1 ( x ) ,K , X m ( x ) определяют инволютивное распределение Δ m ( x ) касательного пространства TM xn многообразия M n, т.е. m
⎡⎣ X i , X j ⎤⎦ ( x ) = ∑ αij ,k ( x ) X k ( x ),
(1.330)
k =1 n
где α ij ,k ( x ) — гладкие функции на M . Кроме того, по теореме Фробениуса, выраженной через дифференциальные 1-формы [29], для инволютивного распределения Δ m ( x ) существует аннулятор Ann ( Δ m )
{
}
Ann ( Δ m ) = ωi = dzi : ωi ( X j ) = 0, i = 1, n − m; j = 1, m ,
где ωi — дифференциальная 1-форма, здесь, в частности, дифференциал функции
(скалярного поля) zi ( x ) . Пусть некоторый дифференциал dz ∈ Ann ( Δ m ) . В этом случае с учетом (1.329) имеем n ∂ dz ( x ) ( X j ) = X j z ( x ) = ∑ ξ j ,k ( x ) z = 0, j = 1, m, (1.331) ∂xk k =1 т.е. (1.331) определяет систему однородных дифференциальных уравнений в частных производных первого порядка. Пусть (без уменьшения общности) в системе уравнений (1.331) первые m координат каждого из векторных полей X j ( x ) , j = 1, m определяют невырожденный минор A ( x ) порядка m в области решения (1.331). Представим (1.331) в виде ⎛ n ∂ ⎛ ∂ ⎞ ⎜ ∑ ξ1,i ( x ) ⎜ ⎟ ∂ xi ∂ X x ⎛ 1⎞ ⎜ i = m +1 ⎜ 1⎟ ⎜ ⎟ ⎜ M ⎜ M ⎟ ⋅ z − A ( x ) ⋅ ⎜⎜ M ⎟⎟ ⋅ z − ⎜ ⎜X ⎟ n ⎜ ∂ ⎝ m⎠ ⎜ ∂ ⎟ ⎜ ∑ ξ m ,i ( x ) ⎜ ∂x ⎟ ⎜ ∂xi ⎝ m⎠ ⎝ i = m +1
где
⎞ ⎟ ⎟ ⎟ ⋅ z = 0, ⎟ ⎟ ⎟⎟ ⎠
⎛ ξ1,1 ( x ) L ξ1,m ( x ) ⎞ ⎜ ⎟ A( x) = ⎜ M O M ⎟. ⎜ξ ( x) L ξ ( x)⎟ m ,m ⎝ m,1 ⎠ Запишем уравнение (1.332) следующим образом: n ⎛ ∂ ⎞⎞ ⎛ ∂ ⎞ ⎛ ⎜ ⎜ ∑ ξ1,i ( x ) ⎟⎟ ⎜ ⎟ ∂xi ⎟ ⎟ ∂x1 ⎜ ⎛ X1 ⎞ ⎜ i = m +1 ⎜ ⎟ ⎜⎜ M ⎟ − A( x) ⋅⎜ M ⎟ − ⎜ ⎟ ⎟ ⋅ z = 0. M ⎟ ⎜⎜ ⎟⎟ ⎜ ⎟ ⎜ n ⎜ ⎟ ⎜⎝ Xm ⎠ ∂ ⎟⎟ ⎜ ∂ ⎟ ⎜ ⎜⎜ ⎟⎟ ⎜ ⎟ ⎜ ∑ ξ m ,i ( x ) ∂xi ⎟⎠ ⎟⎠ ⎝ ∂xm ⎠ ⎜⎝ i = m +1 ⎝
(1.332)
(1.333)
Глава 1. Синтез САУ методами дифференциальной геометрии
89
Домножим слева левую и правую часть (1.333) на A−1 ( x ) и, обозначая ⎛ X% 1 ( x ) ⎞ ⎛ X1 ( x ) ⎞ ⎜ ⎟ ⎜ ⎟ −1 ⎜ M ⎟ = A ( x)⋅⎜ M ⎟, ⎜⎜ % ⎟⎟ ⎜ X ( x)⎟ ⎝ m ⎠ ⎝ Xm ( x)⎠ ⎛ n % ∂ ⎜ ∑ ξ1,i ( x ) ∂xi ⎜ i = m +1 ⎜ M ⎜ n ⎜ ∂ % ⎜⎜ ∑ ξ m,i ( x ) ∂xi ⎝ i = m +1
(1.334)
⎞ ⎛ n ∂ ⎟ ⎜ ∑ ξ1,i ( x ) ∂xi ⎟ ⎜ i = m +1 ⎟ = A−1 ( x ) ⋅ ⎜ M ⎟ ⎜ n ⎟ ⎜ ∂ ⎟⎟ ⎜⎜ ∑ ξ m,i ( x ) ∂xi ⎠ ⎝ i = m +1
⎞ ⎟ ⎟ ⎟, ⎟ ⎟ ⎟⎟ ⎠
(1.335)
получим n ⎛ ∂ ⎞⎞ ⎛ ∂ ⎞ ⎛ ⎜ % ⎜ ∑ ξ%1,i ( x ) ⎟⎟ ⎜ ⎟ ∂xi ⎟ ⎟ ⎜ ⎛ X1 ⎞ ⎜ ∂x1 ⎟ ⎜ i = m +1 ⎜⎜ M ⎟ − ⎜ M ⎟ − ⎜ ⎟ ⎟ ⋅ z = 0. (1.336) M ⎟ ⎜⎜ ⎜ ⎟⎟ ⎜ ⎟ % ⎜ ⎟ n ⎜⎝ Xm ⎠ ⎜ ∂ ⎟ ⎜ ∂ ⎟⎟ % ⎜⎜ ⎟⎟ ⎜ ∂x ⎟ ⎜⎜ ∑ ξ m,i ( x ) ∂xi ⎟⎠ ⎟⎠ ⎝ m ⎠ ⎝ i = m +1 ⎝ Умножение слева невырожденной матрицы A−1 ( x ) на столбец векторных полей
( X1,K, X m )T
определяет столбец векторных полей
( X% 1,K, X% m )
T
, которые также
удовлетворяют условию (1.331), т.е. dz ( x ) X% j = X% j z ( x ) = 0, j = 1, m,
( )
(1.337)
где n ∂ ∂ X% j = , j = 1, m. + ∑ ξ% j ,i ( x ) ∂x j i = m +1 ∂xi
(1.338)
Выразим из уравнений (1.338) постоянные независимые векторные поля (естественный базис (репер)): n ∂ ∂ , j = 1, m. = X% j − ∑ ξ% j ,i ( x ) (1.339) ∂x j ∂ xi i = m +1 Из отношения (1.338) имеем n ⎧ % ⎪ X i = ∑ ξ j ,k ( x ) X% k ; ⎪ k =1 (1.340) ⎨ n ⎪ X% = ξ % ⎪ j ∑ j ,l ( x ) X l . l =1 ⎩ Тогда скобка Ли (коммутатор) векторных полей X i , X j через векторные поля X% t , t = 1, m выразится следующим образом: m m
m m
l =1 k =1 m m
l =1 k =1
( (
)
) )
(
⎡⎣ X i , X j ⎤⎦ = ∑∑ ξ i,k ξ j ,l ⎣⎡ X% k , X% l ⎦⎤ + ∑∑ ξ i,k X% k ξ j ,l X% l − ξ j ,l X% l ξ i,k X% k = = ∑∑
l =1 k =1
(
(
)
(
) )
ξ i,k ξ j ,l ⎡⎣ X% k , X% l ⎤⎦ + ξ i,k X% k ξ j ,l X% l − ξ j ,l X% l ξ i,k X% k .
(1.341)
90
Методы современной теории автоматического управления С другой стороны, учитывая (1.338), получим n n ⎛⎛ ∂ % ∂ ∂ % ∂ ⎡⎣ X% k , X% l ⎤⎦ = ∑ ∑ ⎜ ⎜ ξ% k ,ν − ξ% l ,μ ξ l ,μ ξ k ,ν ⎜ ⎜ x x x xν ∂ ∂ ∂ ∂ ν μ μ ν = m +1μ = m +1 ⎝ ⎝
( )
∂ % ∂ ∂ % ∂ ξ l ,μ ξ k ,ν + − ∂xk ∂xμ ∂xl ∂xν
( )
(
)
(
)
⎞ ⎟+ ⎟ ⎠
⎞ ⎟. ⎟ ⎠
(1.342)
Из выражений (1.338) и (1.342) замечаем, что скобка Ли ⎡⎣ X% k , X% l ⎤⎦ не может быть выражена в виде линейно связанной комбинации векторных полей X% t , t = 1, m, так как ⎡⎣ X% k , X% l ⎤⎦ зависит только от последних ( n − m ) координат, а первые m координат равны нулю. Подставляя в (1.341) вместо X% t , t = 1, m правую часть (1.338) и учитывая (1.330), получим m
m m
m
k =1
l =1 k =1
q =1
⎡⎣ X% i , X% j ⎤⎦ = ∑ αij ,k X k =∑∑ ξ i ,k ξ j ,l ⎡⎣ X% k , X% l ⎤⎦ + ∑ βij , q X q ,
(1.343)
где m m
( (
)
(
)
−1 β ij , q ( x ) = ∑∑ ξ i ,k X% k ξ j ,l Alq−1 − ξ j ,l X% l ξ i , k Akq l =1 k =1
) ( x ) , i, j, q = 1, m
(1.344)
и Ats−1 ( x ) — (t , s ) -элемент обратной матрицы A−1 ( x ) . Равенство (1.343) в силу сделанного выше замечания и формулы (1.338) будет иметь место тогда и только тогда, когда αij ,k ( x ) = βij ,q ( x ) , i, j , k = 1, m; (1.345) ⎡⎣ X% k , X% l ⎤⎦ = 0, k , l = 1, m.
(1.346)
Последняя формула указывает на то, что векторные поля X% t ( x ) , t = 1, m являются инволюционными (т.е. попарно коммутирующими). Достато чно сть. Пусть для совокупности полей X% t , t = 1, m справедливо соотношение (1.346), т.е. это инволюционные векторные поля, причем векторные поля X% t , t = 1, m связаны с векторными полями X t , t = 1, m матричным уравнением (1.334). Подставляя (1.334) и (1.346), получим m ⎡m ⎤ m m O = ⎢ ∑ Ak−,1q ( x ) X q , ∑ Al−,t1 ( x ) X t ⎥ = ∑∑ Ak−,1q ( x ) Al−,t1 ( x ) ⎡⎣ X q , X t ⎤⎦ + ⎢⎣ q =1 ⎥⎦ q =1 t =1 t =1 (1.347) m m m m ⎛ ⎞ ⎛ ⎞ + ∑ Ak−,1q ( x ) ⎜ ∑ X q Al−,t1 ⎟ X t − ∑ Al−,t1 ( x ) ⎜ ∑ X t Ak−,1q ⎟ X q ; k , l = 1, m. ⎜ q =1 ⎟ q =1 l =1 ⎝ t =1 ⎠ ⎝ ⎠ m Уравнения (1.347) определяют систему C2 линейных алгебраических уравнений относительно скобок ⎡⎣ X q , X t ⎤⎦ , q, t = 1, m, решая которую, получим m
⎡⎣ X q , X t ⎤⎦ = ∑ α qt ,ν ( x ) X ν , q = 1 ≤ q < t ≤ m, ν =1
т.е. инволюционность векторных полей X% t , t = 1, m определяет инволютивную систему X t , t = 1, m в области, где матрица A ( x ) невырождена.
Глава 1. Синтез САУ методами дифференциальной геометрии
91
Таким образом, алгоритм проверки инволютивности семейства векторных полей X1 ,K , X m сводится к получению семейства X% t , t = 1, m и проверки последнего на инволюционность (попарную коммутируемость). Если условие инволюционности выполнено, то исходная система инволютивна. Пример 1.21. Рассмотрим два векторных поля X1 ( x ) , X 2 ( x ) гладкого распределения Δ m ( x ) ⊂ TM x3 , инволютивность которого традиционным путем проверить достаточно сложно. Векторные поля в координатном представлении: ⎛ ⎞ x3 ⎛ 1 ⎞ ⎜ ⎟ ⎜ ⎟ X1 ( x ) = ⎜ x2 ⎟ , X 2 ( x ) = ⎜ 1 ⎟. ⎜x + x ⎟ ⎜(x + x ) x ⎟ ⎝ 1 2⎠ ⎝ 1 3 2⎠ Скобка Ли этих векторных полей имеет вид ⎛ ⎜
(1.348)
− ( x1 + x2 )
⎞ ⎟ (1.349) ⎟, ⎜ −x − x x + x ⎟ ⎝ 1 2 ( 1 2 )⎠ и сказать что-либо определенное об инволютивности X1 ( x ) и X 2 ( x ) сразу нельзя. Тем не менее они
[ X1 , X 2 ] ( x ) = ⎜
−1
действительно инволютивны в области, где x3 ≠ x2 и их скобка Ли может быть выражена в виде линейно связанной комбинации векторных полей X1 ( x ) и X 2 ( x ) : ⎛ ⎜
− ( x1 + x2 )
⎞ 2 ⎟ 1 − ( x1 + x2 ) x ( x + x ) − x3 X1 ( x ) + 2 1 2 X 2 ( x ) = ∑ αi ( x ) X i ( x ) , (1.350) ⎟= x3 − x2 x3 − x2 i =1 ⎜ −x − x x + x ⎟ ( ) ⎝ 1 2 1 2 ⎠ а это значит, что векторные поля X1 ( x ) и X 2 ( x ) формируют инволютивное распределение и соответст-
[ X1 , X 2 ] ( x ) = ⎜
−1
венно интегральное подмногообразие. Функции α i ( x ) , i = 1, 2 имеют сложный вид, и определить их методом проб и ошибок непросто. Рассмотренный подход позволяет найти функции чисто формально. Покажем это. Исходные векторные поля в естественном базисе согласно (1.329) имеют вид ⎛ ∂ ⎞ ⎜ ⎟ ⎛ ∂ ⎞ ⎜ ∂x1 ⎟ ⎜ ⎟ ⎛ X1 ⎞ ⎛ x3 x2 ( x1 + x3 ) x2 ⎞ ⎜ ∂ ⎟ ⎛ x3 x2 ⎞ ⎜ ∂x1 ⎟ + ⎟=⎜ ⎟⋅⎜ ⎜ ⎟ = ⎜⎜ ⎟⎜ ⎟ ⎟ + 1 1 x x X ∂ 1 1 ∂ x ( 1 2) ⎠ ⎜ 2 ⎟ ⎝ ⎠ ⎝ 2⎠ ⎝ ⎜ ⎟ ⎜ ∂ ⎟ ⎝ ∂x2 ⎠ ⎜⎜ ⎟⎟ (1.351) ∂ x ⎝ 3⎠ ∂ ⎞ ∂ ⎞ ⎛ ⎛ ∂ ⎞ ⎛ ⎜ ( x1 + x3 ) x2 ∂x ⎟ ⎜ ∂x ⎟ ⎜ ( x1 + x3 ) x2 ∂x ⎟ 3⎟ 3⎟ 1 ⎟ ⎜ ⎜ ⎜ . + = A( x) + ⎜ ⎜ ∂ ⎟ ⎜ ∂ ⎟ ∂ ⎟ ⎜ ( x1 + x2 ) ⎟ ⎟ ⎜ ⎟ ⎜ ( x1 + x2 ) ∂x3 ⎠ ∂x3 ⎠ ⎝ ∂x2 ⎠ ⎝ ⎝ −1 Домножая (1.351) слева на A ( x ) и считая, что определитель det ( A ( x ) ) = x3 − x2 ≠ 0, получим
∂ ⎞ ⎛ ∂ ⎞ ⎛ x ⎛ X% 1 ⎞ ⎜ ∂x1 ⎟ ⎜ 2 ∂x3 ⎟ ⎜ ⎟, ⎜ ⎟ + ⎜⎜ ⎟= % ⎟ ⎝ X 2 ⎠ ⎜⎜ ∂ ⎟⎟ ⎜⎜ x1 ∂ ⎟⎟ ⎜ ⎟ ⎝ ∂x2 ⎠ ⎝ ∂x3 ⎠
(1.352)
или в координатном представлении: ⎛1⎞ ⎛1 ⎞ ⎜ ⎟ ⎜ ⎟ (1.353) X% 1 ( x ) = ⎜ 0 ⎟ , X% 2 ( x ) = ⎜ 0 ⎟ . ⎜x ⎟ ⎜x ⎟ 2 1 ⎝ ⎠ ⎝ ⎠ Проверка ⎡⎣ X% 1 , X% 2 ⎤⎦ ( x ) = 0 показывает, что X% 1 ( x ) , X% 2 ( x ) образуют инволюционную систему. Найдем связь между X% i и X% 2 , i = 1, 2, а затем определим функции α i ( x ) , i = 1, 2 инволютивности X1 , X 2 . Из (1.352) выделим естественный базис:
92
Методы современной теории автоматического управления ∂ ⎧ ∂ % ⎪ ∂x = X1 − x2 ∂x ; ⎪ 1 3 ⎨ ∂ ∂ ⎪ . = X% 2 − x1 ∂x3 ⎩⎪ ∂x2 Подставляя (1.354) в (1.351), получим ⎧ ⎛ ⎛ ∂ ⎞ ∂ ⎞ ∂ = x 3 X% 1 + x 2 X% 2 ; ⎪ X 1 = x 3 ⎜ X% 1 − x 2 ⎟ + x 2 ⎜ X% 2 − x1 ⎟ + ( x1 + x 3 ) x 2 ∂x 3 ⎠ ∂x 3 ⎠ ∂x 3 ⎪ ⎝ ⎝ ⎨ ⎛ % ⎛ % ∂ ⎞ ∂ ⎞ ∂ ⎪ % % ⎪ X 2 = 1 ⋅ ⎜ X 1 − x 2 ∂x ⎟ + 1 ⋅ ⎜ X 2 − x1 ∂x ⎟ + ( x1 + x 3 ) ∂x = X 1 + X 2 . 3⎠ 3⎠ 3 ⎝ ⎝ ⎩
(1.354)
(1.355)
Формулы (1.335) определяют связь между инволютивными X i , i = 1, 2 и инволюционными X% i , i = 1, 2 векторными полями. Теперь найдем функции α i ( x ) , i = 1, 2. Из (1.335) имеем ⎛ X1 ⎞ ⎛ x3 ⎜ ⎟=⎜ ⎝ X2 ⎠ ⎝ 1
x2 ⎞ ⎛ X% 1 ⎞ ⎟. ⎟⋅⎜ 1 ⎠ ⎜⎝ X% 2 ⎟⎠
(1.356)
− x2 ⎞ x3 − x2 ⎟⎟ ⎛ X1 ⎞ .⎜ ⎟. x3 ⎟ ⎝ X 2 ⎠ ⎟ x3 − x2 ⎠
(1.357)
Тогда ⎛ 1 ⎛ X% 1 ⎞ ⎜ x3 − x2 ⎜⎜ ⎟=⎜ % ⎟ ⎝ X 2 ⎠ ⎜ −1 ⎜x −x ⎝ 3 2 Ранее было получено ∂ ∂ ∂ − − ( x1 + x2 ( x1 + x2 ) ) . ∂x1 ∂x2 ∂x3 Подставляя в (1.358) выражения (1.354), имеем ⎛ ∂ ⎞ ⎛ ∂ ⎞ [ X 1, X 2 ] = − ( x1 + x 2 ) ⎜ X% 1 − x 2 ⎟ − ⎜ X% 2 − x1 ⎟ − ∂x1 ⎠ ⎝ ∂x 3 ⎠ ⎝ ∂ − ( x1 + x 2 ( x1 + x 2 ) ) = − ( x1 + x 2 ) X% 1 − X% 2 . ∂x 3
[ X1, X 2 ] = − ( x1 + x2 )
(1.358)
(1.359)
И, наконец, сделав замену в (1.359) инволюционных векторных полей X% i , i = 1, 2 на X i , i = 1, 2 по формуле (1.357), окончательно получим 2 1 − ( x1 + x2 ) x ( x + x ) − x3 X1 + 2 1 2 X 2 = ∑ αi ( x ) X i , [ X1 , X 2 ] = x3 − x2 x3 − x2 i =1 что и доказывает инволютивность распределения Δ m ( x ) .
Глава 2. Синтез робастных САУ в пространстве состояний
ГЛАВА 2.
93
СИНТЕЗ РОБАСТНЫХ СИСТЕМ АВТОМАТИЧЕСКОГО УПРАВЛЕНИЯ В ПРОСТРАНСТВЕ СОСТОЯНИЙ
При управлении многомерными динамическими объектами часто встречаются задачи, когда цель управления может быть сведена к некоторым ограничениям на вектор состояния объекта. К таким задачам, в частности, могут быть отнесены: • обеспечение программного режима движения объекта управления на этапе проектирования системы автоматического управления объектом (задача программного управления и стабилизации); • перевод объекта из одного начального заданного множества в другое конечное заданное множество (задача терминального управления); • обеспечение допустимого (заданного) качества переходных процессов в системе управления объектом; • обеспечение принадлежности динамических характеристик системы автоматического управления объектом заданному множеству в пространстве состояний (задача управления фазовыми потоками (пучками траекторий), определяемыми ограничениями в пространстве состояний). Характерной особенностью подобных задач является то, что они формулируются в терминах пространства состояний объекта. А это, в свою очередь, означает, что для перечисляемых задач цель управления может быть сформулирована и представлена в виде фазовых ограничений (т.е. в виде ограничений на координаты вектора состояния). Предлагаемый метод фазовых ограничений позволяет для многомерных динамических объектов синтезировать управление, обеспечивающее выполнение заданной цели, которая может быть представлена в виде ограничений на вектор состояния объекта. 2.1.
КОНЦЕПЦИЯ ФУНКЦИОНАЛЬНО-МНОЖЕСТВЕННОЙ ПРИНАДЛЕЖНОСТИ
В этой главе рассмотрены некоторые свойства и определения пространства состояний. Вводится понятие меры близости и окрестности множества. Исследуются способы задания окрестностей множества, а также их свойства в зависимости от определения меры близости. Приводятся модели систем управления и подходы к заданию возможных неопределенностей. Показывается формирование общей цели управления для различных задач синтеза и формулируется концепция функционально-множественной принадлежности. 2.1.1. ПОНЯТИЕ ОКРЕСТНОСТИ МНОЖЕСТВА И ФУНКЦИИ ИЛИ МЕРЫ БЛИЗОСТИ Пусть рассматривается некоторое векторное нормированное метрическое пространство H с введенными на нем нормой ⋅ H и метрикой ρH ( ⋅) , обладающими всеми необходимыми свойствами [106, 206]. В этом пространстве H предполагается заданным некоторое замкнутое множество Q, т.е. Q ⊂ H, причем ΓQ ≠ ∅ и ΓQ ⊆ Q. (2.1)
94
Методы современной теории автоматического управления
Введем понятие окрестности множества в пространстве H . С этой целью введем в рассмотрение некоторый функционал, называемый мерой близости или функцией близости в H .
(
)
Определение 2.1. Функционал μ H h1 , h 2 , определенный для любых h1 , h 2 ∈ H
( Dμ = H × H ) ,
будем называть мерой близости, или функцией близости, между эле-
ментами h1 , h 2 , если для него выполняются условия:
( ) (h ,h ) = 0
1) μ H h1 , h 2 > 0 ∀ h1 , h 2 ∈ H при h1 ≠ h 2 ; 2) μ H
1
2
при h1 = h 2 .
(2.2) (2.3)
Нетрудно видеть, что мера близости μ H ( ⋅) обладает более широкими свойствами, чем метрика ρH ( ⋅) , и поэтому ей соответствует более широкий класс функций, удовлетворяющих свойствам (2.2), (2.3). В частности, всегда в качестве μ H ( ⋅) можно выбрать функцию ρH ( ⋅) , т.е.
μ H ( ⋅) = ρ H ( ⋅) .
(2.4)
На основе μ H ( ⋅) можно ввести ε -окрестность произвольного элемента h ∈ H вида
{
( ) }
Oμε ( h ) = h% ∈ H : μ H h, h% < ε ,
(2.5)
представляющую собой некоторое открытое множество в H , все элементы которого удалены от h в смысле меры близости μ H ( ⋅) не более чем на некоторую величину ε. Через Oμε ( h ) обозначим замкнутую ε -окрестность h ∈ H в смысле меры
μ H ( ⋅) . Тогда ΓOμε ( h ) ⊂ Oμε ( h ) ,
где
{
( ) }
ΓOμε ( h ) = h% ∈ H : μ H h, h% = ε .
(2.6)
Используя введенную меру близости μ H ( ⋅) , можно задавать ε -окрестности произвольных замкнутых множеств в пространстве H . С этой целью вначале введем в рассмотрение меру близости элемента h от замкнутого множества Q, которую обозначим μ H ( h, Q ) . Определение 2.2. Функционал μ H ( h, Q ) , определенный для произвольного замкнутого множества Q ⊂ H и любого элемента h ∈ H , будем называть мерой близости между элементом h и множеством Q, если для него выполняются условия:
1) μ H ( h, Q ) > 0 ∀ h ∈ H при h ∉ Q;
(2.7)
2) μ H ( h, Q ) = 0 ∀ h ∈ Q.
(2.8)
Свойства (2.7), (2.8) позволяют задавать достаточно широкий класс функций, используемых в качестве μ H ( ⋅) . В частности, можно положить
( )
μ H ( h, Q ) = min μ H h, h% . h%∈Q
(2.9)
Глава 2. Синтез робастных САУ в пространстве состояний
95
Нетрудно видеть, что данная мера удовлетворяет условиям (2.7), (2.8), которые соответственно следует в силу соотношений (2.2), (2.3). Действительно, если h ∉ Q, то согласно (2.2) μ H h, h% > 0 ∀ h% ∈ Q, и потому
( )
( )
min μ H h, h% > 0. h%∈Q
Если же h ∈ Q, то в силу (2.3)
( )
min μ H h, h% = μ H ( h, h ) = 0. h%∈Q
В качестве μ H ( ⋅) в соотношении (2.9) согласно (2.4) можно выбрать, например, одну из метрик. Вид функции μ H ( ⋅) , очевидно, при этом будет определяться не только свойствами функции μ H ( ⋅) , но также и свойствами замкнутого множества Q. Используя меру близости μ H ( h, Q ) , введем понятие ε-окрестности множества Q в пространстве H . Определение 2.3. ε-окрестностью множества Q в пространстве H в соответствии с мерой близости μ H ( ⋅) называется множество Oμε ( Q ) вида
Oμε ( Q ) = {h ∈ H : μ H ( h, Q ) < ε}.
(2.10)
Очевидно, что Q ⊂ Oμε ( Q ) и Oμε ( Q ) — открытое множество в H . Тогда под замкнутой ε-окрестностью Q будем понимать множество Qε = Oμε ( Q ) = {h ∈ H : μ H ( h, Q ) ≤ ε}
(2.11)
с граничными элементами h%, образующими границу ΓQε . Для Qε справедливо также следующее представление: Qε = h = ξ h%, δ : δ ≤ ε, h% ∈ ΓQ . (2.12)
{
}
( )
Необходимо также отметить возможность использования в качестве меры μ H ( ⋅) не функций, а некоторых функционалов. На рис. 2.1 показано формирование ε-окрестностей для пространства R 2. Γ Qε1
x2 Γ Q
Q
x2
ΓQε2
ΓQ
Qε
x1 Γ Qε
Q
x1 Qε1
Qε2
ε1 < ε2
Рис. 2.1. ε -окрестности множества Q
В дальнейшем для границы ΓQε будем использовать наименование ε-окрестности множества Qε .
96
Методы современной теории автоматического управления 2.1.2.
МОДЕЛИ РАССМАТРИВАЕМЫХ ОБЪЕКТОВ УПРАВЛЕНИЯ В ПРОСТРАНСТВЕ СОСТОЯНИЙ
Будем считать, что объекты управления, рассматриваемые в арифметическом пространстве R n, являются динамическими и в общем случае могут быть как линейными, так и нелинейными, а также как стационарными, так и нестационарными. В общем случае можно считать, что уравнения состояния объекта управления представляют собой обыкновенные дифференциальные уравнения, которые приводятся к нормальной форме, или к форме Коши [165, 191], и имеют вид ⎧⎪x& = f α ( x, u, w, β, t ) ; (2.13) ⎨ ⎪⎩x ( t0 ) = x0 , t ≥ t0 , где x — ( n × 1)-вектор состояния объекта; u — ( m × 1)-вектор управления; w — ( r × 1)вектор возмущений; β — (d ×1)-вектор параметров объекта; α — (n × 1)-вектор индексов, компоненты которого могут принимать произвольные вещественные значения из R1; f α ( ⋅) — некоторая ( n × 1)-вектор-функция, обеспечивающая существование и единст-
венность решения задачи Коши [165], с областью определения Df α ⊆ R n+ m+ r + d +1. Пусть ⎡ x1 ⎤ ⎡ u1 ⎤ ⎡ w1 ⎤ ⎡ β1 ⎤ ⎡ α1 ⎤ x = ⎢⎢ M ⎥⎥ , u = ⎢⎢ M ⎥⎥ , w = ⎢⎢ M ⎥⎥ , β = ⎢⎢ M ⎥⎥ , α = ⎢⎢ M ⎥⎥ . ⎢⎣ xn ⎥⎦ ⎢⎣um ⎥⎦ ⎢⎣ wr ⎥⎦ ⎢⎣βd ⎥⎦ ⎢⎣ α n ⎥⎦ α Тогда под f ( ⋅) понимается следующее выражение: T
(2.14) f α ( ⋅) = ⎡ f1α1 ( x, u, w, β, t ) ,K, f nα n ( x, u, w, β, t ) ⎤ , ⎣ ⎦ где каждая компонента α i , i ∈ 1, n принимает значения из некоторого заданного множества Ai ⊂ R1 , i ∈1, n, т.е. αi ∈ Ai , i ∈1, n;
при этом
(2.15)
α ∈ A.
(2.16)
Предполагается, что в зависимости от значения α i компонента fi
αi
( ⋅)
принимает
то или иное соответствующее выражение. Обозначим через Fi — множество возможных выражений функции fiαi ( ⋅) в зависимости от значения параметра αi , т.е.
{
}
Fi = fiαi ( ⋅) : αi ∈ Ai .
(2.17)
В дальнейшем множество Fi будем называть внешней шкалой структур для функции fiαi ( ⋅) . Очевидно, для задания множества возможных структур функции f α ( ⋅) можно воспользоваться метрикой или введенной выше мерой близости в пространстве функций. Необходимо также отметить, что задание структур может осуществляться в задачах формирования (проектирования) САУ (объектов управления), когда возможен неоднозначный выбор структуры одного и того же объекта, и это необходимо учесть. А задание структур целесообразно осуществлять в задачах управления при неопределенности по структуре объекта.
Глава 2. Синтез робастных САУ в пространстве состояний
97
2.1.3.
ВЕЛИЧИНЫ В УРАВНЕНИЯХ СОСТОЯНИЯ ОБЪЕКТА, ОПИСАНИЕ, ДОПУЩЕНИЯ И ОГРАНИЧЕНИЯ Рассмотрим те ограничения и предположения, которые используются о векторах x, u, w , β в уравнении состояния объекта (2.13). Вектор состояния x должен прини-
мать ограниченные по норме значения в R n. Обычно предполагается, что для этого x удовлетворяет следующим ограничениям. Пусть в R n +1 определены функции ограничения ψ j ( x, t ) , j ∈ 1, χ, непрерывно-дифференцируемые по всем своим аргументам. Тогда формируется замкнутое множество Q ( t ) вида
{
}
Q ( t ) = x ∈ R n : ψ j ( x, t ) ≤ 0, j ∈ 1, χ ,
(2.18)
которое определено для каждого t ≥ t0 на всем интервале функционирования объекта (2.13). И также определены на этом интервале множества int Q ( t ) , ΓQ ( t ) , ΓQ j ( t ) , j ∈1, χ. В дальнейшем множества Q ( t ) обычно будем считать ограниченными.
Пусть в R n задана некоторая непрерывно-дифференцируемая ( n × 1)-вектор-функция ϕ ( x ) , т.е. ϕ : Rn → Rn и ϕ ( x ) = x ∈ Rn .
(2.19)
Тогда под ограничениями (или фазовыми ограничениями) на вектор состояния x в пространстве R n будем понимать соотношение ϕ ( x ) ∈ Q ( t ) ∀ t ≥ t0 . (2.20) Заметим, что в качестве ϕ ( ⋅) могут использоваться не только вектор-функции, но также и операторы определенного вида, являющиеся диффеоморфными отображениями. Рассмотрим характер ограничений, накладываемых на вектор управления. Пусть в пространстве R m задано некоторое замкнутое, в общем случае неограниченное множество U ( t ) допустимых значений вектора управления. Тогда ограничение на значения вектора u имеет вид
u ∈ U ( t ) , t ≥ t0 .
(2.21)
Часто требуется учитывать ограничения не только на значения, но и непосредственно на вид (на структуру) формируемого алгоритма (закона) управления. С этой целью можно воспользоваться так называемыми шкалами сложности [19, 190, 192], формируемыми по признакам сложности, характеризующими уровень сложности структур синтезируемых законов управления. Считаем, что в достаточно общем случае закон управления можно представить в виде u = u γ ( x, t ) , (2.22) где u γ ( ⋅) — некоторая ( m × 1)-вектор-функция заданного вектора, который определяется выбором параметра γ. О параметре γ предполагается, что это некоторый ( g × 1)векторный параметр, значения которого характеризуют сложность структуры соответствующего закона управления. При этом сложность можно понимать как в смысле сложности технической реализации согласно [19, 190, 192], так и в более широком смысле — как некоторый признак или свойство, позволяющий упорядочить структуры законов управления по тем или иным математическим характеристикам.
98
Методы современной теории автоматического управления Пусть G = {Gν }ν=1 ⊆ R g p
(2.23)
— заданное множество значений параметра γ, а Gν , ν ∈ 1, p — его подмножества. Тогда шкала сложности по структуре управления имеет вид ℘ = {℘ν }ν=1 , p
(2.24)
где ℘ν , ν ∈ 1, p — элементы шкалы сложности, представляющие подмножества вида
{
}
℘ν = u γ ( ⋅) : γ ∈ Gν , ν ∈ 1, p.
(2.25)
При этом ℘ можно рассматривать как внешнюю шкалу, а ℘ν , ν ∈ 1, p — как внутренние, элементы которых допускают параметризацию. Возможно также, что ℘ — шкала сложности 1-го рода [192], т.е. когда (2.26) ℘1 ⊂℘2 ⊂ K ⊂℘p , или — 2-го рода, если ℘ν1 I℘ν 2 = ∅ ∀ ν1 ≠ ν 2 ∈ 1, p. Тогда ограничения на структуру закона управления имеют вид
{
(2.27)
}
u = u γ ( ⋅) ∈℘ = u γ ( ⋅) : γ ∈ G .
Рассмотрим ограничения на вектор возмущения w. В достаточно общем виде случаи ограничения на вектор w можно представить как ограничения на множество допустимых значений w , т.е. w ∈ W ( t ) ⊂ R r , t ≥ t0 ,
(2.28)
где W ( t ) — заданное в R r замкнутое ограниченное множество. Задать W ( t ) можно, например, одним из следующих способов. Пусть w 0 ( t ) = ⎡⎣ w10 ( t ) w20 ( t ) K wr0 ( t ) ⎤⎦
T
— некоторая заданная в R r вектор-функция. Тогда:
{
}
1. W ( t ) = w ∈ R r : wi − wi0 ≤ ξi ( t ) , t ≥ t0 ,
где ξi ( t ) , i ∈ 1, r — скалярные неотрицательные функции.
{
(
))
(
(2.29)
}
2. W ( t ) = w ∈ R r : w − w 0 ( t ) , V ( t ) ⋅ w − w 0 ( t ) ≤ ξ ( t ) , t ≥ t0 ,
(2.30)
где V ( t ) > 0 — ( r × r )-матрица; ξ ( t ) — скалярная неотрицательная функция.
{
3. W = w ∈ H : w − w 0
где ξ0 > 0 — скалярная величина; ⋅
H
H
}
≤ ξ0 ,
(2.31)
— одна из возможных норм в векторном
нормированном пространстве H . Кроме указанных способов задания множества W ( t ) (2.29)–(2.31) может использоваться также следующий подход. Предполагается, что возмущения, действующие на объект управления, могут быть представлены в параметрической форме, т.е. w = w ( υ, t ) , (2.32)
Глава 2. Синтез робастных САУ в пространстве состояний
99
где w ( ⋅) — некоторая ( r × 1)-вектор-функция заданного вида, являющаяся кусочнонепрерывной и необходимое число раз дифференцируемой на интервале функционирования объекта; υ — (l ×1)-векторный параметр, значения которого могут изменяться в пределах некоторого заданного R l множества V , т.е. υ ∈V . Тогда для данного случая W = W ( t ) = {w = w ( υ, t ) : υ∈ V } , t ≥ t0 .
(2.33) (2.34)
Рассмотрим ограничения на вектор параметров β в уравнении состояния (2.13). В достаточно общем случае можно считать, что допустимые значения ( d ×1)параметра β должны удовлетворять соотношению β ∈ B, (2.35) где B — некоторое заданное в R d множество. При этом β предполагается фиксированным на всем интервале функционирования объекта, а соотношение (2.35) характеризует возможную параметрическую неопределенность задания данного объекта. 2.1.4. ФОРМИРОВАНИЕ ЦЕЛИ УПРАВЛЕНИЯ Для класса динамических объектов, описываемых уравнениями типа (2.13), актуально решение следующих задач: • перевод объекта из одного начального заданного множества S0 ⊂ R n в другое
конечное заданное множество Sk ⊂ R n . При этом допустимы ограничения на время перевода. Это так называемые задачи терминального управления [52, 216]; • обеспечение программного режима движения объекта управления на этапе проектирования системы автоматического управления (САУ) объектом. Это — задачи программного управления и задачи стабилизации [188]; • обеспечение допустимого (заданного) качества переходных процессов в системе управления объектом [149, 177]; • обеспечение принадлежности динамических характеристик САУ объектом заданному множеству в пространстве состояний. Это в основном задачи управления фазовыми потоками (пучками траекторий или потоками траекторий), определяемыми фазовыми ограничениями в пространстве состояний [150, 189]. Характерной особенностью данных задач является то, что они формулируются в терминах пространства состояний объекта или системы управления (СУ) и соответственно требования к их выполнению (разрешимости) сводятся к тем или иным эквивалентным требованиям, которым должен удовлетворять вектор состояний САУ. А это, в свою очередь, означает, что для перечисленных классов задач цель управления может быть формализована и представлена в виде тех или иных ограничений на вектор состояния, т.е. в виде фазовых ограничений. Действительно, пусть рассматривается задача 1, т.е. если при t = t0 x ( t0 ) = x0 ∈ S0 (причем x0 может быть произвольным элементом из S0 ), то при t = tk (где tk — необязательно задано) необходимо, чтобы x ( tk ) = x k ∈ Sk . Тогда заданное требование можно представить в виде задачи по обеспечению фазовых ограничений следующим образом. Пусть Q∗ ( t ) ⊂ R n — такое множество, что для него выполняются условия:
100
Методы современной теории автоматического управления
⎧1. S0 ⊆ Q∗ ( t0 ) ; ⎪ ⎪2. ∃ t = t1 ≥ t0 такое, что Q∗ ( t ) I Sk′ ≠ ∅ при t ∈ ⎡t1 , t 2 ⎤ , ⎣ ⎦ ⎪ (2.36) ⎨ 2 1 2 ⎪ где t < ∞ и tk ∈ ⎡⎣t , t ⎤⎦ , в частности, можно потребовать, ⎪ ⎪ чтобы Q* ( t ) ⊆ Sk′ при t ∈ ⎣⎡t1 , t 2 ⎦⎤ . ⎩ Тогда, вводя обозначение ⎧Q* ( t ) , t ∈ ⎡t0 , t1 ⎤ ; ( ⎪ ⎣ ⎦ (2.37) Q (t ) = ⎨ * 1 2 ⎪Q ( t ) I S k , t ∈ ⎡⎣t , t ⎤⎦ , ⎩ задачу 1 приведем к виду ( x ( t ) ∈ Q ( t ) , t ≥ t0 . (2.38) Рассмотрим задачу 2. Пусть программный режим движения характеризуется некоторой траекторией x* ( t ) , которая с достаточной степенью точности должна быть вос-
(
)
произведена объектом (2.13). Пусть O x* ( t ) — некоторая замкнутая окрестность траектории x ( t ) , определенная для всех t ≥ t0 и содержащая все свои граничные эле*
(
)
менты. Окрестность O x* ( t ) = O* ( t ) задана в одной из рассмотренных выше метрик пространства R n. Тогда, задавая приемлемые размеры данной окрестности, можно считать, что траектория x* ( t ) воспроизводится с требуемой точностью, если объект (2.13) в произвольной точке окрестности O* ( t ) . Тогда задача 2 приводится к виду
(2.39) x ( t ) ∈ Q * ( t ) , t ≥ t0 . При этом когда задача 2 является задачей стабилизации, то программная траектория x* ( t ) ≡ O ∈ R n , а объект (2.13), как правило, — линеаризованный. В задаче 3 качество переходных процессов определяется видом некоторой области D ( t ) , заданной в пространстве состояний R n на основе требуемых значений показателей качества САУ. В этом случае задача 3 непосредственно сводится к соотношению (2.40) x ( t ) ∈ D ( t ) , t ≥ t0 . Рассмотрим задачу 4. Пусть (2.41) X ( t ) = { x ( t ) : x ( t0 ) = x 0 ∈ X 0 } , где X 0 — заданное замкнутое множество в R n, x ( t ) — множество значений пучка траекторий, выходящих из множества X 0 , в текущий момент времени t. Тогда задача управления пучком траекторий состоит в обеспечении соотношения X ( t ) ∈ Q% ( t ) , t ≥ t0 , (2.42) n % где Q ( t ) — заданное замкнутое множество в R , или, что то же самое, (2.43) x ( t ) ∈ Q% ( t ) ∀ x ( t0 ) = x0 ∈ X 0 , t ≥ t0 . Вообще говоря, если динамические характеристики САУ могут быть представлены через свойства траекторий x ( t ) объекта (2.13), то обеспечение ограничений на данные характеристики также сводятся к некоторым фазовым ограничениям.
Глава 2. Синтез робастных САУ в пространстве состояний
101
Таким образом, решение приведенных выше четырех задач сводится, собственно, к обеспечению соотношений (2.38)–(2.40), (2.42), (2.43), которые представляют не что иное, как ограничение на переменные состояния объекта управления. Поэтому в достаточно общем случае можно утверждать, что для широкого класса задач управления, рассматриваемых в пространстве состояний, цель управления может быть представлена в следующем виде: x ( t ) ∈ Q€ ( t ) , t ≥ t0 , (2.44) где Q€ ( t ) ⊂ R n — заданное замкнутое множество. Соотношение (2.44) может быть обобщено и представлено следующим образом: ϕ0 ( x ( t ) ) ∈ Q0 ( t ) , t ≥ t0 , (2.45) где ϕ0 ( ⋅) — заданная ( n × 1)-вектор-функция, непрерывно-дифференцируемая в R n ; Q0 ( t ) ⊂ R n — заданное замкнутое множество для всех t ≥ t0 .
2.1.5.
ФОРМИРОВАНИЕ КОНЦЕПЦИИ ФУНКЦИОНАЛЬНО-МНОЖЕСТВЕННОЙ ПРИНАДЛЕЖНОСТИ (ФМП) НА ЭЛЕМЕНТАХ ПРОСТРАНСТВА СОСТОЯНИЙ В соответствии с изложенным в предыдущем параграфе, задача управления объектом (2.13) состоит в обеспечении ограничений на вектор состояния, которые сводятся к соотношению (2.44) или (2.45), характеризующему принадлежность в пространстве R n заданному множеству и называемому соотношением принадлежности. При этом о самом объекте (2.13) предполагается, что при его задании возможна параметрическая неопределенность вида (2.35), а также неопределенность при описании структуры объекта либо в соответствии со шкалами структур (внешней и внутренней), либо на основе множества структур, ограниченных по норме. Кроме того, должны выполняться ограничения на вектор состояния (2.20) и вектор управления (2.21), (2.27) при действии возмущений вида (2.28)–(2.34). Поскольку цель управления (2.45), так же как и ограничения на вектор состояния (2.20), представляет собой ограничения на вектор x, то, считая данные ограничения совместимыми, приведем их к единому виду ϕ ( x ) = ϕ ( x ( t ) ) ∈ Q ( t ) , t ≥ t0 , (2.46)
где непрерывно дифференцируемая (n × 1)-вектор-функция ϕ ( ⋅) и множество Q ( t ) ⊂ R n выбраны так, чтобы из выполнения соотношения (2.46) следовала бы справедливость соотношений (2.20) и (2.45). Таким образом, для объекта управления (2.13) с возможными неопределенностями по структуре, параметрам, возмущениям указанного вида решается задача обеспечения соотношения принадлежности, приводимая к единому виду (2.46). При реализации соотношения (2.46) необходимо учитывать следующие особенности: • точное задание множества Q ( t ) и функции ϕ ( x ) во многих практически важных случаях часто оказывается невозможным. Это обусловлено тем, что обеспечение тех или иных ограничений обычно допускается с некоторой степенью точности; • при использовании математической модели объекта управления возможны неопределенности по структуре и параметрам модели, а также по возмущениям со стороны окружающей среды; • существенные трудности, а иногда и невозможность обеспечения заранее заданных ограничений. Это связано с тем, что задание тех или иных ограничений, исходя из технических требований, накладываемых на задачу, обычно не
102
Методы современной теории автоматического управления
учитывает вид модели объекта управления (динамику объекта). Данное обстоятельство и приводит к трудности обеспечения ограничений. Таким образом, указанные особенности характеризуют трудности при реализации соотношения принадлежности (2.46) для объекта (2.13). При этом невозможность учета динамики объекта, а также неопределенность описания его модели приводит к необходимости некоторого изменения ограничений для обеспечения их разрешимости. Следовательно, для обеспечения цели управления, сводящейся к ограничениям на вектор состояния, целесообразно соотношение (2.46) видоизменить так, чтобы допускалась неоднозначность выбора данных ограничений непосредственно из задания цели управления (соотношения принадлежности). Для этого воспользуемся введенным выше понятием ε-окрестностей множеств в пространстве состояний. Допустим, что при t = t0 вектор x ( t0 ) = x 0 удовлетворяет условию ϕ ( x0 ) ∈ Qε0 ( t0 ) ,
(2.47)
где Qε0 ( t0 ) — ε0 -окрестность множества Q ( t0 ) , соответствующая некоторой достаточно малой скалярной величине ε0 = ε ( x 0 ) ≥ 0.
(2.48)
Причем, согласно (2.48), для каждого x0 определена, вообще говоря, своя вели-
чина ε0 , а значит, и своя ε0 -окрестность Qε0 ( t0 ) (в частности, если ε0 = 0 для всех возможных x0 , то согласно (2.47) получим
ϕ ( x 0 ) ∈ Q ( t0 )
(2.49)
при любом выборе x 0 ).
Если, например, некоторая траектория x ( t ) удовлетворяет условию (2.49), то
обязательно существует такой отрезок времени T ( x0 ) , состоящий, по крайней мере, из одной точки t0 , что при t ∈ T ( x 0 ) справедливо соотношение (2.46). В случае, когда T ( x0 ) не совпадает со всем интервалом функционирования САУ, то при t ∉ T ( x0 )
условие (2.46) не выполняется, но вполне возможно, что ϕ ( x ( t ) ) ∈ Qε ( t ) , ε > ε0 ,
(2.50)
т.е. x ( t ) не выходит за пределы ε-окрестности множества Q ( t ) , где ε — достаточно малая величина. Следовательно, если соотношение принадлежности (2.46) для какойлибо траектории x ( t ) объекта (2.13) не выполняется, то для данной x ( t ) вполне возможно выполнение соотношения (2.50), в котором множество Qε ( t ) , вообще говоря, является достаточно малым расширением множества Q ( t ) за счет соответствующего выбора величины ε ≥ 0. Но тогда, учитывая приведенные выше особенности при реализации соотношения (2.46), можно считать, что выполнение соотношения (2.50) при соответствующих значениях ε на всем интервале функционирования САУ равносильно выполнению цели, поставленной перед системой. При этом в качестве цели вместо (2.46) принимается соотношение (2.50). Множество допустимых значений величины ε, для которых соотношение (2.50) с достаточной степенью точности можно рассматривать в качестве цели управления, обозначим через ε. Очевидно, что
Глава 2. Синтез робастных САУ в пространстве состояний ε = ⎡⎣ ε − , ε + ⎤⎦ ,
103 (2.51)
где ε − = 0, ε + — некоторая заданная величина. Используя введенное обозначение (2.51) и учитывая сказанное, можно расширить понятие цели управления для объекта (2.13). Будем считать, что в достаточно общем случае для объекта (2.13) цель управления обеспечивается тогда и только тогда (или состоит в том), когда на его траекториях обеспечивается выполнение следующего соотношения: (2.52) ϕ ( x ( t ) ) ∈ Qε ( t ) при ε ∈ ε, t ≥ t0 , называемого аналогично (2.46) соотношением принадлежности. При этом можно допустить, что величина ε в (2.52) имеет не фиксированное значение из множества ε для всего интервала функционирования, а является, вообще говоря, некоторой неотрицательной функцией следующего вида: (2.53) ε = ε ( x ( t ) ) = ε% ( t ) , t ≥ t0 , т.е. предполагается, что для каждого t ≥ t0 текущему значению траектории x ( t ) соответствует своя вполне определенная величина ε = ε% ( t ) ∈ ε.
Используя для ε -окрестностей определение согласно (2.11), выражение цели в виде соотношения принадлежности (2.52) представим как следующее неравенство: μ R n ϕ ( x ( t ) ) , Q ( t ) ≤ ε при ε = ε% ( t ) ∈ ε, t ≥ t0 , (2.54)
(
)
где μ R n — одна из возможных мер близости в пространстве R n , а ε% ( t ) определяется согласно (2.53). Таким образом, получим, что для динамического объекта, рассматриваемого в пространстве состояний согласно уравнению (2.13), цель управления можно представить в виде некоторого соотношения принадлежности, имеющего выражение (2.52) или (2.54) и позволяющего учесть приведенные выше особенности при реализации ограничений на x ( t ) . В соответствии с приведенными выше рассуждениями можно сформулировать так называемую концепцию функционально-множественной принадлежности (ФМП). Концепция ФМП: если произвольный динамический объект управления может быть представлен посредством своей математической модели в пространстве состояний, то стоящую перед ним цель управления всегда можно свести к тем или иным ограничениям на вектор состояния объекта, определяющими характер принадлежности вектора состояния некоторым множествам или их окрестностям в каждый текущий момент времени. Полученные выше соотношения (2.52), (2.53) являются одним из возможных подходов реализации концепции ФМП для объекта управления вида (2.13). При этом вид множеств их окрестностей определяется соответственно видом Q ( t ) и Qε ( t ) , а характер принадлежности им вектора x = x ( t ) — вектор-функцией ϕ ( ⋅) . В соответствии с концепцией ФМП цель управления формулируется следующим образом: для любой траектории x ( t ) объекта (2.13), начинающейся в некоторой ε0 -окрестности множества Q ( t0 ) , т.е. x ( t0 ) = x0 ∈ Qε ( t ) , в каждый текущий момент
времени t > t0 функционирования объекта должна существовать такая ε-окрестность
множества Q ( t ) при ε ∈ ε, для которой x ( t ) ∈ Qε ( t ) .
104 2.2.
Методы современной теории автоматического управления РЕАЛИЗАЦИЯ КОНЦЕПЦИИ ФУНКЦИОНАЛЬНО-МНОЖЕСТВЕННОЙ ПРИНАДЛЕЖНОСТИ В ПРОСТРАНСТВЕ СОСТОЯНИЙ НА ОСНОВЕ МЕТОДА ОБОБЩЕННЫХ ФАЗОВЫХ ОГРАНИЧЕНИЙ
В данной главе дается общая постановка задачи синтеза с учетом введенного определения окрестности множества и рассматривается подход к ее решению. Приводится основная теорема метода фазовых ограничений, а также ее обобщенный вариант для случая задания ограничений на функциональную зависимость от вектора состояния. Даются варианты конструктивного использования основной теоремы, в том числе с учетом ограничений на структуру законов управления. Исследуется случай, когда ограничения задаются только на часть компонент вектора состояния. 2.2.1.
ПОСТАНОВКА ЗАДАЧИ ПО ФОРМИРОВАНИЮ СТРУКТУРЫ СИСТЕМЫ И АЛГОРИТМОВ УПРАВЛЕНИЯ НА ОСНОВЕ КОНЦЕПЦИИ ФУНКЦИОНАЛЬНО-МНОЖЕСТВЕННОЙ ПРИНАДЛЕЖНОСТИ
В предыдущей главе был рассмотрен класс объектов управления, описываемых уравнением состояния (2.13) и обладающих в соответствии с данным уравнением следующими особенностями: 1) наличие неопределенности по структуре объекта, которую можно охарактеризовать на основе использования шкалы структур F , а также множества структур, ограниченных по норме; 2) наличие неопределенности по параметрам объекта; 3) отсутствие полной информации о возмущениях, действующих на объект (неопределенность по возмущениям); 4) наличие ограничений на значения управления и его структуру в соответствии со шкалой сложности ℘. С учетом данных особенностей и цели управления дадим строгую постановку задачи синтеза для рассматриваемого объекта. Будем считать, что под неопределенностью по структуре в соответствии со шкалой F понимается возможность выбора требуемой (или наиболее предпочтительной) структуры f α ( ⋅) объекта на некотором заданном множестве структур F , исходя из тех или иных условий, определяемых поставленной целью. То есть в данном случае на множестве F осуществляется выбор структуры f α ( ⋅) , которая способствует выполнению цели. В этом смысле выбор структуры может рассматриваться как управляющий фактор. Если имеется неопределенность по множеству структур, ограниченных по норме или по мере близости, то под этим будем понимать, что на всем указанном множестве структур (т.е. для каждого элемента данного множества) должна выполняться поставленная цель управления. В общем случае возможно одновременное задание неопределенности в указанном смысле. Рассмотрим, как в этом случае она может быть представлена. Допустим, что по шкале структур F выбрана та или иная структура f α ( ⋅) , т.е. f α ( ⋅) ∈ F . При этом относительно f α ( ⋅) предполагается, что ее задание осуществляется с некоторой неопределенностью (погрешностью). Множество возможных структур имеет вид ⎧⎪ f ( ⋅) ∈ R n : μ n f α ( ⋅) , f ( ⋅) ≤ δα ⎫⎪ R Фα = ⎨ (2.55) ⎬, ⎩⎪∀ x ∈ Q0 , ∀ u ∈ U 0 , ∀ w ∈ W0 , ∀ β ∈ B0 , t ≥ t0 ⎭⎪
(
)
Глава 2. Синтез робастных САУ в пространстве состояний
105
где U 0 , W0 , B0 — некоторые достаточно малые окрестности соответственно множеств U ( t ) , W ( t ) , B ( t ) ∀ t ≥ t0 ; Q0 — некоторая окрестность множества допустимых зна-
чений вектора x, для которых справедливо соотношение принадлежности (2.52) или (2.54); μ R n ( ⋅) — некоторая мера близости в R n, в частности, совпадающая с одной из норм пространства R n ; δα — заданная величина, принимающая достаточно малые неотрицательные значения, которая определяет соответствующую величину погрешности при задании той или иной структуры f α ( ⋅) ∈ F . Таким образом, каждой структуре f α ( ⋅) ∈ F соответствует свое множество возможных структур Ф α , любой элемент которой может быть реализацией модели объекта (2.13), если по шкале F в качестве данной модели выбрана структура f α ( ⋅) . Тогда одновременное задание неопределенности можно представить следующим образом. Предполагается, что в качестве структуры объекта (2.13) может использоваться произвольный элемент ⎪⎧ f ( ⋅) ∈ Ф α , где Ф α имеет вид (2.1); (2.56) ⎨ α ⎪⎩ f ( ⋅) ∈ F . Теперь с учетом имеющихся ограничений на структуру и параметры объекта можно сформулировать общую постановку задачи синтеза: для класса объектов управления, описываемых уравнением типа (2.13), требуется синтезировать такой закон управления u = u γ ( x,t ) и выбрать такую структуру f α ( ⋅) в соответствии со шкалой структур F , чтобы при обеспечении ограничений на значения закона управления и на сложность его технической реализации, задаваемой на основе шкалы сложности ℘, для произвольного значения параметра β объекта, удовлетворяющего ограничению (2.35), на всем множестве возмущений w ( t ) , удовлетворяющих соотношению (2.28) или (2.29), (2.43) при произвольной реализации f ( ⋅) структуры f α ( ⋅) и множества Фα согласно (2.55), (2.56), обеспечивалась заданная цель управ-
ления, сформированная на основе концепции ФМП в виде соотношения принадлежности (2.52) или (2.54). Таким образом, результатом решения поставленной задачи будет синтезированный закон управления u γ ( x,t ) ограниченной сложности и выбранная структура объекта f α ( ⋅) , реализуемая с точностью до произвольного элемента f ( ⋅) множества Ф α .
2.2.2.
О МЕТОДЕ ФАЗОВЫХ ОГРАНИЧЕНИЙ И ЕГО ОБОБЩЕНИИ
Сформулированная в предыдущем параграфе задача требует привлечения такого метода для её решения, который бы при учете всей совокупности ограничений и указанных неопределенностей позволял получать соотношения, допускающие неоднозначность выбора закона управления и его структуры, а также возможность принадлежности вектора состояния объекта (2.13) различным окрестностям того или иного множества. Как уже отмечалось, для решения поставленной задачи будем использовать подход, развиваемый на базе метода фазовых ограничений [159, 160, 161] и называемый в дальнейшем методом ( Q, ρ )-разбиения пространства состояний [72]. Метод фазовых ограничений основывается на следующей теореме.
106
Методы современной теории автоматического управления
Теорема 2.1. Для объекта управления, описываемого уравнением x& = f ( x, u, t ) , x ( t0 ) = x0 , t ≥ t0 , (2.57) где x, u — ( n × 1)- и ( m × 1)-векторы состояния и управления, при наличии ограничений на вектор управления вида u ∈ U ( x, t ) , (2.58)
где U ( x, t ) ⊂ R m — некоторое заданное множество для каждого x и t ≥ t0 , для выполнения следующего соотношения на вектор состояния: x = x ( t ) ∈ Q ( t ) , t ≥ t0 , (2.59)
{
}
Q ( t ) = x ∈ R n : ψ ( x, t ) ≤ 0 ,
(2.60)
где ψ ( x,t ) — скалярная непрерывно-дифференцируемая по всем своим переменным функция, достаточно, чтобы обеспечивалось неравенство ⎪⎧( ∇ x ψ, f ( x, u, t ) ) ≤ 0 для каждого x ∈ ΓQ ( t ) и хотя бы (2.61) ⎨ ⎪⎩одного соответствующего ему значения u ∈ U (x, t ) при t ≥ t0 ,
{
}
где ΓQ ( t ) = x ∈ R n : ψ ( x, t ) = 0
— граница множества Q ( t ) ; ∇ x ψ — градиент
функции ψ ( x, t ) ; ( ∇ x ψ, f ( ⋅) ) — скалярное произведение векторов ∇ x ψ, f ( ⋅) ∈ R n. В [160] показана справедливость данной теоремы для достаточно широкого класса многомерных объектов, в том числе нелинейных и нестационарных. При этом об объекте предполагается лишь, что его можно представить в нормальной форме Коши. Если цель управления объектом (2.57) приводится к более общему виду y = ϕ ( x ( t ) , t ) ∈ Q ( t ) , t ≥ t0 , (2.62) где ϕ ( x,t ) — некоторая заданная непрерывно-дифференцируемая ( n × 1)-вектор-функция, а множество (2.63) Q ( t ) = y ∈ R n : ψ ( y, t ) ≤ 0 ,
{
}
то метод фазовых ограничений может быть обобщен на основании следующей теоремы. Теорема 2.2. Для объекта управления (2.57) при наличии ограничений на вектор u (2.58) для выполнения соотношения принадлежности (2.62) для вектора состояния x достаточно, чтобы обеспечивалось следующее неравенство: ⎧⎛ ∂ψ ⎞ ⎪⎜ ∇ y ψ, ∇ x ϕ ⋅ f ( x, u, t ) + ∂t ⎟ ≤ 0 ⎠ ⎪⎝ ⎪для каждого y ∈ ΓQ t и каждого x ∈ M y, t (2.64) ( ) ( ) ⎨ ⎪и хотя бы для одного, соответствующего каждому x, ⎪ ⎪⎩значения u ∈ U ( x, t ) , t ≥ t0 , где ΓQ ( t ) — граница множества Q ( t ) ; ∇ y ψ — градиент функции ψ ( y, t ) ; ∇ x ϕ — якобиан функции ϕ ( x, t ) , вычисляемый согласно (2.17); M ( y , t ) — некоторое многообразие, соответствующее y ∈ ΓQ ( t ) и определяемое согласно зависимости
{
}
M ( y, t ) = x ∈ R n : ϕ ( x, t ) = y ,
(2.65)
при этом область значений Bϕ ( t ) функции ϕ ( x,t ) такова, что Q ( t ) ⊆ Bϕ ( t ) при t ≥ t0 .
(2.66)
Глава 2. Синтез робастных САУ в пространстве состояний
107
До каз ат е льство . Доказательство данной теоремы во многом аналогично тому, как доказывается теорема 2.1. Действительно, пусть x ( t ) — некоторая траектория объекта (2.57), такая, что ϕ ( x ( t0 ) , t0 ) = ϕ ( x0 , t0 ) ∈ Q ( t0 ) . Допустим, что соотношение (2.64) выполняется и при этом в силу (2.66) обеспечивается условие M ( y , t ) ≠ 0 ∀ y ∈ ΓQ ( t ) , t ≥ t0 . Если для выполнения соотношения (2.62) этого недостаточно, то это означает, что для рассматриваемой x ( t ) в случае нарушения (2.62) должен существовать такой момент времени t = t * ≥ t0 , для которого
(( ) ) ( )
ϕ x t * , t * = y t * = y * ∈ ΓQ ( t ) ,
(2.67)
и для сколь угодно близких к t * значений t > t * ϕ ( x (t ) , t ) = y (t ) ∉ Q (t ).
(2.68)
Согласно указанным свойствам M ( y , t ) условие (2.67) обязательно выполнится. С учетом определения множества Q ( t ) (2.63) условия (2.67), (2.68) означают, что
(
)
ψ y* , t * = 0 и ψ ( y ( t ) , t ) > 0 при t > t * ,
т.е. в момент t = t * функция ϕ ( y ( t ) , t ) является возрастающей на траектории x ( t ) . Поэтому
ψ& ( y* , t * ) > 0,
(2.69)
откуда нетрудно получить ∂ϕ ⎞ ∂ψ ⎛ ψ& = ⎜ ∇ y ψ, ∇ x ϕ ⋅ f ( x, u, t ) + . ⎟+ ∂t ⎠ ∂t ⎝ Но тогда в силу (2.69), (2.70) ⎧⎛ ∂ϕ ⎞ ∂ψ ⎪⎜ ∇ y ψ, ∇ x ϕ ⋅ f ( x, u, t ) + ∂t ⎟ + ∂t > 0 ⎠ ⎨⎝ ⎪при t = t * , x t * ∈ M y* , t * , ⎩
( )
(
)
(2.70)
(
)
что противоречит неравенству (2.64), которое должно выполняться ∀x ∈ M y* , t * , а
( )
значит и для x = x t * . Отсюда следует, что сделанное выше предположение о возможности нарушения соотношения (2.62) несправедливо. Тем самым теорема доказана. 2.2.3.
ФОРМИРОВАНИЕ ЭКВИВАЛЕНТНЫХ СООТНОШЕНИЙ В ВИДЕ МАКСМИННЫХ И МИНИМАКСНЫХ НЕРАВЕНСТВ
Неравенство (2.64) можно представить в другом виде. Действительно, из определения ψ ( ⋅) , ϕ ( ⋅) следует, что ∇ y ψ, ∂ϕ ∂t , ∂ψ ∂t зависят непосредственно только от y = ϕ ( x,t ) и от t. Поэтому выполнение неравенства (2.64) возможно тогда и только
тогда, когда за счет выбора управления u = u − ( x, t ) ∈ U ( x, t ) обеспечивается выполнение неравенства вида
108
Методы современной теории автоматического управления ⎧ ∂ϕ ⎞ ∂ψ ⎛ ∇ y ψ , ∇ x ϕ ⋅ f ( x, u , t ) + ⎜ ∇ y ψ , ⎟ + ≤0 ⎪u∈min U , t x ( ) ∂t ⎠ ∂t ⎝ ⎨ ⎪для каждого y ∈ ΓQ ( t ) и каждого x ∈ M ( y , t ) , t ≥ t , 0 ⎩
(
)
(2.71)
где u − ( x,t ) определяется в результате решения задачи минимизации min
u∈U ( x , t )
( ∇y ψ, ∇xϕ ⋅ f ( x, u, t ) ) = ( ∇y ψ, ∇xϕ ⋅ f ( x, u− ( x, t ) , t )).
(2.72)
Очевидно, если (2.71) не выполняется, то тогда и при любом другом допустимом u ∈ U ( x, t ) неравенство (2.64) выполняться не будет. Поскольку (2.71) справедливо для всех x ∈ M ( y , t ) , то оно будет выполняться тогда и только тогда, когда выполняется соотношение ⎧ ∂ϕ ⎞ ∂ψ ⎛ ≤0 min ∇ y ψ, ∇ x ϕ ⋅ f ( x, u, t ) + ⎜ ∇ y ψ, ⎟ + ⎪ x∈max ∂t ⎠ ∂t (2.73) ⎝ ⎨ M ( y , t ) u∈U ( x, t ) ⎪для каждого y ∈ ΓQ ( t ) и каждого x ∈ M ( y , t ) , t ≥ t . 0 ⎩ Таким образом, получим, что неравенство (2.64) эквивалентно неравенству (2.73). Это можно сформулировать как следствие к теореме 2.2. Следствие 2.1. Для обеспечения соотношения (2.62) для объекта (2.57) при ограничениях (2.58) достаточно, чтобы выполнялось неравенство (2.73), эквивалентное неравенству (2.64). Неравенство (2.73) не учитывает возможных ограничений на структуру закона управления. Если необходимо это учесть, то соотношение (2.64) приводится к виду, отличному от (2.73). Действительно, допустим, что желательно, чтобы синтезируемый закон управления был реализован в виде (2.22), т.е. u = u γ ( x, t ) ∈ U ( x, t ) , где параметр γ ∈ G и его значения определяют ту или иную структуру закона управления. Тогда, подставляя его в выражение (2.64), получим ⎧⎛ ∂ϕ ⎞ ∂ψ γ ≤0 ⎪⎜ ∇ y ψ, ∇ x ϕ ⋅ f x, u ( x, t ) , t + ⎟+ ∂t ⎠ ∂t (2.74) ⎨⎝ ⎪для каждого y ∈ ΓQ ( t ) и каждого x ∈ M ( y, t ) , t ≥ t . 0 ⎩ Очевидно, для выполнения (2.74) необходимо и достаточно, чтобы выполнялось неравенство ⎧ ∂ϕ ⎞ ∂ψ ⎛ ∇ y ψ, ∇ x ϕ ⋅ f x, u γ ( x, t ) , t + ⎜ ∇ y ψ, ⎟ + ≤0 ⎪ x∈max y M , t ( ) (2.75) ∂t ⎠ ∂t ⎝ ⎨ ⎪для каждого y ∈ ΓQ ( t ) , t ≥ t . 0 ⎩ Тем самым доказано следующее положение. Следствие 2.2. Для обеспечения соотношения (2.62) для объекта (2.57) за счет выбора допустимого закона управления согласно (2.58) желаемой (заданной) структуры (2.22) достаточно, чтобы выполнялось неравенство (2.75), эквивалентное в этом случае неравенству (2.64). В важном частном случае, наиболее часто встречающемся на практике, справедливо условие U ( x, t ) ≡ U ( t ) ∀ x ∈ Dϕ ( t ) , t ≥ t0 , (2.76)
(
)
(
(
)
(
))
где Dϕ ( t ) — область определения функции ϕ ( x, t ) , т.е. множество допустимых значений управления U не зависит от текущего значения вектора состояния. Тогда без
Глава 2. Синтез робастных САУ в пространстве состояний
109
учета ограничений на структуру закона управления можно показать справедливость следующего утверждения. Следствие 2.3. Чтобы для объекта (2.57) выполнялось соотношение (2.62) с учетом ограничений (2.58), (2.76), достаточно выполнения неравенства ⎧ ∂ϕ ⎞ ∂ψ ⎛ max ∇ y ψ, ∇ x ϕ ⋅ f ( x, u, t ) + ⎜ ∇ y ψ, ⎟ + ≤0 ⎪u∈min ∂t ⎠ ∂t (2.77) ⎝ ⎨ U ( x, t ) x∈M ( y , t ) ⎪для каждого y ∈ ΓQ ( t ) , t ≥ t , 0 ⎩ являющегося эквивалентным неравенству (2.64). При этом будет справедливо следующее тождество: ⎧ min max ∇ y ψ, ∇ x ϕ ⋅ f ( x, u, t ) ≡ ⎪u∈U ( x, t ) x∈M ( y , t ) ⎪ (2.78) ⎨≡ max min ∇ y ψ, ∇ x ϕ ⋅ f ( x, u, t ) ⎪ x∈M ( y , t ) u∈U ( x, t ) ⎪∀ y ∈ ΓQ ( t ) , t ≥ t0 . ⎩ До каз ат е льство . Покажем эквивалентность неравенств (2.64) и (2.77). Действительно, пусть для некоторого u = u* ∈ U ( t )
(
)
(
)
(
)
⎧⎛ ∂ϕ ⎞ ∂ψ * ≤0 ⎪⎜ ∇ y ψ, ∇ x ϕ ⋅ f x, u ( x, t ) , t + ⎟+ ∂t ⎠ ∂t ⎨⎝ ⎪∀ y ∈ ΓQ ( t ) и ∀ x ∈ M ( y , t ) , t ≥ t . 0 ⎩
(
)
(2.79)
Очевидно, данное неравенство выполняется тогда и только тогда, когда ⎧ ∂ϕ ⎞ ∂ψ ⎛ ∇ y ψ, ∇ x ϕ ⋅ f x, u* ( x, t ) , t + ⎜ ∇ y ψ, ⎟ + ≤0 ⎪ x∈max ∂t ⎠ ∂t (2.80) ⎝ ⎨ M (y,t ) ⎪∀ y ∈ ΓQ ( t ) , t ≥ t . 0 ⎩ ( ( Если, например, (2.80) для некоторого u = u ∈ U ( t ) не выполняется, то для u не
(
(
))
будет выполняться и (2.79). В свою очередь, для того чтобы существовало хотя бы одно управление u*, удовлетворяющее (2.80), необходимо и достаточно, чтобы ⎧ ∂ϕ ⎞ ∂ψ ⎛ max ∇ y ψ, ∇ x ϕ ⋅ f ( x, u, t ) + ⎜ ∇ y ψ, ⎟ + ≤0 ⎪u∈min U , t x M t , ∈ x y ( ) ∂t ⎠ ∂t ⎝ ⎨ ( ) ⎪∀ y ∈ ΓQ ( t ) , t ≥ t , 0 ⎩
(
)
т.е. должно выполняться неравенство (2.77). Таким образом, показана эквивалентность неравенств (2.77) и (2.64) в том смысле, что обеспечение неравенства (2.77) является необходимым и достаточным условием разрешимости неравенства (2.64). Покажем справедливость тождества (2.78). Прежде всего заметим, что поскольку неравенства (2.77) эквивалентны неравенствам (2.64) и неравенства (2.73) также эквивалентны неравенствам (2.64), то отсюда следует, что (2.77) и (2.73) — эквивалентны между собой, каждое из этих неравенств разрешимо тогда и только тогда, когда разрешимо другое. Для удобства дальнейших выкладок введем обозначение ∂ϕ ⎞ ∂ψ ⎛ (2.81) . σ ( y , x, u, t ) = ∇ y ψ, ∇ x ϕ ⋅ f ( x, u, t ) + ⎜ ∇ y ψ, ⎟ + ∂t ⎠ ∂t ⎝ Рассмотрим неравенство σ ( y , x, u, t ) ≤ σ0 , (2.82)
(
)
110
Методы современной теории автоматического управления
где предполагается, что величина σ0 может принимать произвольное вещественное значение. Очевидно, неравенство (2.82) имеет тот же смысл, что и неравенство (2.64). Аналогично тому, как были получены неравенства (2.73) и (2.77), находим, что (2.82) обеспечивается тогда и только тогда, когда разрешимо каждое из следующих неравенств: max min σ ( y , x, u, t ) ≤ σ0 ∀ y ∈ ΓQ ( t ) , t ≥ t0 ; (2.83) x∈M ( y , t ) u∈U ( x , t )
min
max σ ( y , x, u, t ) ≤ σ0 ∀ y ∈ ΓQ ( t ) , t ≥ t0 .
u∈U ( x , t ) x∈M ( y , t )
(2.84)
При этом, так же как (2.73) и (2.77), неравенства (2.83) и (2.84) будут эквивалентны между собой при любом значении σ0. Допустим, что в общем случае max min σ ( y , x, u, t ) ≠ min max σ ( y , x, u, t ) . (2.85) u∈U ( x , t ) x∈M ( y , t )
x∈M ( y , t ) u∈U ( x , t )
Пусть max
min σ ( y , x, u, t ) = σm ( y , t ) ,
(2.86)
min
max σ ( y , x, u, t ) = σ ± ( y , t ) .
(2.87)
x∈M ( y , t ) u∈U ( x , t )
u∈U ( x , t ) x∈M ( y , t )
Тогда согласно (2.85)
σm ( y, t ) ≠ σ± ( y, t ) . Неравенства (2.83) и (2.84) примут вид σ m ( y , t ) ≤ σ 0 ∀ y ∈ Γ Q ( t ) , t ≥ t0
и
σ ± ( y , t ) ≤ σ 0 ∀ y ∈ Γ Q ( t ) , t ≥ t0 . Предположим, для определенности, что σm ( y, t ) < σ± ( y, t ) .
(2.88) (2.89)
Тогда всегда можно указать такое значение σ0 = σ*0 , что σm ( y , t ) < σ*0 < σ ± ( y , t ) . (2.90) Но (2.90) противоречит тому, что неравенства (2.83) и (2.84) или (2.88), (2.89) эквивалентны между собой для любых значений σ 0 ∈ R1, в том числе и для σ0 = σ*0 . Поэтому и неравенство (2.90) невозможно, а значит, несправедливо предположение (2.85). Отсюда следует, что обязательно должно выполняться равенство σ m ( y , t ) = σ ± ( y , t ) ∀ y ∈ Γ Q ( t ) , t ≥ t0 , (2.91) или, что то же самое, σm ( y, t ) ≡ σ± ( y, t ) . (2.92) Из (2.91), (2.92) получим справедливость соотношения (2.78). Что и требовалось доказать.
2.2.4.
СМЕШАННЫЕ НЕРАВЕНСТВА ПРИ СТРУКТУРНЫХ ОГРАНИЧЕНИЯХ НА УПРАВЛЕНИЕ
Выше было получено неравенство (2.75), учитывающее ограничение на структуру алгоритма управления. Приведем его к более удобному виду. Аналогично тому, как введена была функция σ ( y , x, u, t ) , введем обозначение
(
))
∂ϕ ⎞ ∂ψ ⎛ . σ γ ( y , x, t ) = ∇ y ψ, ∇ x ϕ ⋅ f x, u γ ( x, t ) , t + ⎜ ∇ y ψ, ⎟ ∂t ⎠ ∂t ⎝ Тогда справедливо следующее следствие.
(
(2.93)
Глава 2. Синтез робастных САУ в пространстве состояний
111
Следствие 2.4. Для выполнения неравенства (2.64) на классе законов управления заданной, согласно (2.76), структуры необходимо и достаточно, чтобы выполнялось неравенство min max max σ γ ( y , x, t ) ≤ 0 при t ≥ t0 , (2.94) γ∈G y∈ΓQ( t ) x∈M ( y , t )
и необходимо, чтобы max min max σ γ ( y , x, t ) ≤ 0 при t ≥ t0 . y∈ΓQ( t ) γ∈G x∈M ( y , t )
До каз ат е льство . Действительно, согласно (2.75) получим max σ γ ( y , x, t ) ≤ 0 ∀ y ∈ ΓQ ( t ) при t ≥ t0 , x∈M ( y , t )
(2.95) (2.96)
где γ ∈ G. Очевидно, при фиксированном y ∈ ΓQ ( t ) для существования на множестве G требуемого γ, для которого справедливо (2.96), необходимо и достаточно, чтобы выполнялось неравенство min max σ γ ( y , x, t ) ≤ 0, t ≥ t0 . (2.97) γ∈G x∈M ( y ,t )
При этом, поскольку в зависимости от выбора γ ∈ G функция u γ ( ⋅) меняет свою структуру, то в силу (2.93) σ γ ( ⋅) также будет менять структуру. Поэтому, вообще говоря, различным γ соответствуют различные функции σ γ ( ⋅) . Обозначим σ+γ ( y, t ) = max σ γ ( y, x, t ) . x∈M ( y , t )
(2.98)
Тогда неравенство (2.96) примет вид σ+γ ( y , t ) ≤ 0 ∀ y ∈ ΓQ ( t ) , t ≥ t0 при γ ∈ G. (2.99) Для фиксированного γ ∈ G (2.99) выполняется тогда и только тогда, когда max σ +γ ( y, t ) ≤ 0, t ≥ t0 .
y∈ΓQ ( t )
(2.100)
Но отсюда следует, что для существования хотя бы одного значения γ ∈ G, для которого справедливо (2.100), необходимо и достаточно, чтобы выполнялось неравенство min max σ+γ ( y , t ) ≤ 0, t ≥ t0 , (2.101) γ∈G y∈ΓQ( t )
что эквивалентно (2.94). С учетом обозначения (2.98) неравенство (2.97) примет вид min σ +γ ( y , t ) ≤ 0, t ≥ t0 при y ∈ ΓQ ( t ) . γ∈G
Пусть
γ− y min σ+γ ( y , t ) = σ+ ( ) ( y, t ) , γ∈G
(2.102)
(2.103)
где γ ( y ) ∈ G и является решением задачи минимизации (2.102) при заданном y ∈ΓQ ( t ) . Тогда если γ− y (2.104) σ +γ ( y , t ) = σ + ( ) ( y , t ) , t ≥ t0 ∀ y ∈ ΓQ ( t ) , то это эквивалентно γ− y (2.105) max σ + ( ) ( y , t ) ≤ 0, t ≥ t0 , y∈ΓQ( t )
что эквивалентно неравенству (2.95). Невыполнение (2.105) означает, что для некоторого y = y% ∈ ΓQ ( t ) не будет выполняться неравенство (2.102), т.е.
112
Методы современной теории автоматического управления min σ +γ ( y% , t ) > 0 γ∈G
или
(2.106) σ+γ ( y% , t ) > 0 ∀ γ ∈ G. Это, в свою очередь, означает невыполнение неравенства (2.75), эквивалентному согласно следствию 2.2 неравенству (2.64). Отсюда следует необходимость (2.105) или (2.95), что и требовалось доказать. Заметим, что выполнение (2.105) означает, что для каждого y ∈ ΓQ ( t ) существуγ− y ет такое γ − ( y ) ∈ G, что закон управления u ( ) ( x,t ) обеспечивает выполнение не-
γ− y равенства (2.64) для данного y. При этом не следует, что u ( ) ( y ,t ) обеспечивает
(2.64) ∀ y ∈ ΓQ ( t ) . Поэтому (2.105) рассматривается в качестве необходимого условия разрешимости. Неравенство (2.94) может использоваться в качестве критерия разрешимости задачи синтеза на множестве законов управления заданной (ограниченной) структуры. При этом требуемый закон управления может быть непосредственно синтезирован в результате решения неравенства (2.94). 2.2.5.
О РАЗРЕШИМОСТИ ПРИ ОГРАНИЧЕНИЯХ НА ЧАСТЬ КОМПОНЕНТ ВЕКТОРА СОСТОЯНИЯ
Полученные выше соотношения (результаты) основывались на том условии (предположении), что функция σ ( y , x, u,t ) при фиксированных y, u, t определена на множестве M ( y , t ) и при этом для каждого x ∈ M ( y , t ) принимает вполне определенное значение. В более общем случае возможно, что при фиксированных y, u, t функция σ ( y , x, u,t ) неоднозначна на множестве M ( y , t ) . В частности, такая ситуация возникает, когда функция σ ( y , x, u,t ) зависит от таких компонент xi , i ∈1, n вектора X, которые в явном виде не входят в задание множества M ( y , t ) (например, σ ( ⋅) зависит от всех x1 , x2 ,K, xn , а M ( y , t ) зависит только от x1 и x2 , а оставшиеся
компоненты x3 , x4 ,K , xn в задании M ( y , t ) не участвуют).
Рассмотрим именно этот случай. Введем для каждого y ∈ ΓQ ( t ) некоторое мно-
жество M ( y , t ) , представляющее собой совокупность только тех компонент вектора
X, которые не участвуют в задании множества M ( y , t ) (если, например, все xi , i ∈1, n участвуют в задании M ( y , t ) , то M ( y , t ) = 0 ). Пусть ∀ y ∈ ΓQ ( t ) M ( y , t ) ≠ 0, t ≥ t0 . (2.107) Выясним для данного случая условия разрешимости неравенства (2.64). При этом заметим, что если x ∈ M ( y , t ) , то полностью определены компоненты xi1 , i1 ∈ I1 и не
определены (могут выбираться произвольными) компоненты xi2 , i2 ∈ I 2 , где I1 , I 2 — некоторые множества индексов
( I1 I I 2 = 0, I1 U I 2 = 1, n ).
Если же x ∈ M ( y , t ) , то
полностью определены xi2 , i2 ∈ I 2 и не определены xi1 , i1 ∈ I1. Поэтому для заданного y ∈ ΓQ ( t ) соответствующий ему вектор X является определенным, если указать
такое множество M ( y , t ) , что справедливо соотношение
Глава 2. Синтез робастных САУ в пространстве состояний x ∈ M ( y , t ) ∩ M ( y , t ) , t ≥ t0 .
113 (2.108)
Рассмотрим неравенство (2.64). С учетом обозначения (2.81) его можно привести к следующему виду: ⎧⎪σ ( y , x, u, t ) ≤ 0 ∀ y ∈ ΓQ ( t ) , ∀ x ∈ M ( y , t ) (2.109) ⎨ ⎪⎩и хотя бы для одного u = u ( x, t ) ∈ U ( x, t ) , t ≥ t0 . Поскольку выполняется условие (2.107), то на множестве M ( y , t ) функция σ ( ⋅) является неоднозначной, разрешимость неравенства (2.109) теряет смысл из-за неопределенности функции σ ( ⋅) . Неравенство (2.109) можно сделать однозначным (определенным), если x рассматривать не как элемент множества M ( y, t ) , а удовлетворяющим условию (2.108). В этом случае при фиксированном векторе y ∈ ΓQ ( t ) неравенство (2.109) приводится к выражению ⎧⎪σ ( y , x, u, t ) ≤ 0 ∀ x ∈ M ( y, t ) ∩ M * ( y , t ) (2.110) ⎨ ⎪⎩и хотя бы для одного u = u ( x, t ) ∈ U ( x, t ) , t ≥ t0 , эквивалентному тому, что на указанном граничном элементе y ∈ ΓQ ( t ) обеспечивается выполнение соотношения (2.62) при t ≥ t0 . При этом предполагается, что для
данного y ∈ ΓQ ( t ) должно существовать хотя бы одно такое непустое множество
M * ( y , t ) , что для всех элементов множества M ( y , t ) ∩ M * ( y , t ) обеспечивается не-
равенство (2.100). Если такого M * ( y, t ) не существует, то неразрешимо не только неравенство (2.110) при заданном y ∈ ΓQ ( t ) , но не обеспечивается разрешимость поставленной задачи синтеза. Если же требуемое M * ( y, t ) существует, то тогда, как правило, выбор его неоднозначен, и для решения неравенства (2.110) можно выбрать произвольное M * ( y, t ) из числа допустимых. Таким образом, показана справедливость следующего утверждения. Утверждение 2.1. Если для рассматриваемой системы (2.57) для некоторого фиксированного y ∈ ΓQ ( t ) M ( y , t ) ≠ 0 при t ≥ t0 , то в точке y ∈ ΓQ ( t ) ограничение (2.62) не будет нарушено тогда, когда на всем классе множеств M ( y , t ) найдется хотя бы одно такое множество M * ( y , t ) , что справедливо соотношение (2.110). Приведенное утверждение дает достаточное условие того, что система (2.57) в заданной граничной точке y ∈ ΓQ ( t ) не нарушает обобщенных фазовых ограничений (2.62). 2.2.6. УСЛОВИЯ РАЗРЕШИМОСТИ ПРИ НАЛИЧИИ ВОЗМУЩЕНИЙ Полученные выше соотношения метода соответствуют уравнению объекта управления вида (2.57) при отсутствии возмущений со стороны окружающей среды. Рассмотрим как изменятся данные соотношения, когда данные возмущения должны учитываться. Пусть уравнения объекта имеют вид x& = f ( x, u, ξ, t ) , x ( t0 ) = x 0 , t ≥ t0 , (2.111)
где ξ — ( r × 1)-вектор возмущений, о котором известно, что ξ ∈ Σ,
(2.112)
114
Методы современной теории автоматического управления
Σ — некоторое заданное множество в пространстве R r . Считаем, что Σ задается на основе детерминистской информации о возмущениях ξ. Тогда аналогично (2.81) можно ввести следующую функцию: ∂ϕ ⎞ ∂ψ ⎛ , (2.113) σ ( y , x, u, ξ, t ) = ∇ y ψ, ∇ x ϕ ⋅ f ( x, u, ξ, t ) + ⎜ ∇ y ψ, ⎟ + ∂t ⎠ ∂t ⎝ используя которую, так же как было получено выше неравенство (2.64), можно показать справедливость следующего соотношения: ⎪⎧σ ( y, x, u, ξ, t ) ≤ 0 ∀ y ∈ ΓQ ( t ) и ∀ x ∈ M ( y, t ) , (2.114) ⎨ ⎪⎩∃ u ∈ U ( x, t ) и ∀ ξ ∈ Σ, t ≥ t0 . Если неравенство (2.65) выполняется, то этого достаточно, чтобы обеспечивалась цель управления (2.62). Из (2.114) следует выполнение эквивалентного неравенства вида max min max σ ( y, x, u, ξ, t ) ≤ 0 ∀ y ∈ ΓQ ( t ) , t ≥ t0 , (2.115)
(
)
x∈M ( y , t ) u∈U ( x , t ) ξ∈Σ
или max
max
min max σ ( y, x, u, ξ, t ) ≤ 0, t ≥ t0 .
y∈rQ( t ) x∈M ( y , t ) u∈U ( x , t ) ξ∈Σ
(2.116)
Для решения полученных соотношений могут использоваться различные численные процедуры [43, 50, 71, 215], выбор которых существенно зависит от выбора функции σ ( ⋅) и заданных ограничений. В дальнейшем для ряда важных случаев этот вопрос будет рассмотрен подробнее. Если вместо соотношения (2.62) рассматривать следующее: y ∈ Qε ( t ) , t ≥ t0 , (2.117) то аналогично (2.63) множество Qε ( t ) можно задать в виде
{
}
Qε ( t ) = y% ∈ R n : ψ ε ( y , t ) ≤ 0 ,
(2.118)
где ε предполагается заданной величиной, выбранной на некотором диапазоне величин. Тогда, заменяя в полученных ранее соотношениях функцию ψ ( ⋅) на ψ ε ( ⋅) , получим требуемые неравенства на параметры системы. 2.2.7. ПРЯМОЙ СИНТЕЗ УПРАВЛЕНИЯ ПО ФАЗОВЫМ ОГРАНИЧЕНИЯМ Пусть рассматривается нелинейная (в общем случае, нестационарная) система следующего вида: x& = f ( x, u, ξ, t ) , x ( t0 ) = x0 , t ≥ t0 .
Например, в качестве f ( ⋅) может выбираться одна из следующих функций: 1. Линейная аддитивная зависимость от управления f ( ⋅) = f1 ( x, ξ, t ) + Bu, B — ( n × m )-матрица. 2. Нелинейная аддитивная зависимость от управления f ( ⋅) = f1 ( x, ξ, t ) + ϕ ( u ) , ϕ ( ⋅) — ( n × 1)-вектор-функция. 3. Неаддитивная (мультипликативная) зависимость от управления f ( ⋅) = F ( x, ξ, t ) ⋅ ϕ1 ( u ) ,
F ( ⋅) — ( n × q )-матричная функция с известными функционально заданными элемен-
тами; ϕ1 ( ⋅) — ( q × 1)-вектор-функция.
Глава 2. Синтез робастных САУ в пространстве состояний
115
Как уже отмечалось выше, цель управления в соответствии с концепцией функционально-множественной принадлежности может быть представлена как обеспечение следующего условия: x ( t ) ∈ Q ( t ) , t ≥ t0 ,
{
где Q ( t ) = x ∈ R n : ψ ( x, t ) ≤ 0} , ψ ( x, t ) — некоторая непрерывно-дифференцируемая скалярная функция. Заданы также ограничения на управление u ∈U ( t ) , t ≥ t0 и на возмущение
ξ ∈ Σ ( t ) , t ≥ t0 ,
где U ( t ) , Σ ( t ) — некоторые заданные множества соответственно в Rm и R r . Ставится следующая задача: для рассматриваемой системы требуется синтезировать такой допустимый закон управления u = u% ( x, t ) , который может иметь некоторую предпочтительную структуру, чтобы с учетом ограничений на возмущения обеспечивалась заданная цель управления. Для ее решения воспользуемся полученными выше неравенствами, рассматриваемыми на границе ГQ ( t ) , t ≥ t0 . Для определенности рассмотрим решение поставленной задачи на основе неравенства (2.61). Вначале рассмотрим случай, когда система зависит от управления и линейно и аддитивно. Тогда получим ≤ 0 ∀ x ∈ ГQ ( t ) , ∀ ξ ∈ Σ ( t ) , t ≥ t0 , ( ∇ xψ, f1 ( x, ξ, t ) + B ⋅ u ) + ∂ψ ∂t или ∂ψ ∀ x ∈ ГQ ( t ) , ∀ ξ ∈ Σ ( t ) , t ≥ t0 . u, BT ∇ x ψ ≤ − ( f1 ( x, ξ, t ) , ∇ x ψ ) − (2.119) ∂t Нетрудно получить условие разрешимости неравенства (2.119). Теорема 2.3. Для разрешимости неравенства (2.119) необходимо и достаточно, чтобы выполнялись условия ∂ψ ∇ x ψ ∉ Ker BT ∀ x ∈ ГQ ( t ) , для которых ( f1 ( x, ξ, t ) , ∇ x ψ ) + > 0, t ≥ t0 , (2.120) ∂t где Ker B T — ядро матрицы BT , т.е. такое множество векторов Z, что если
(
)
Z ∈ Ker B T , то BT ⋅ Z = 0. До каз ат ельство . Действительно, если выполняются условия (2.120), то из выражения (2.119) следует, что всегда можно подобрать вектор u, обеспечивающий разрешимость неравенства (2.119). Если правая часть (2.119) положительная, то данное неравенство обеспечивается, например, при u = 0 ∈ R m. Если правая часть (2.119) отрицательная, и поскольку BT ⋅∇ x ψ ≠ 0 ∈ R m , то в силу линейности функции
( u, B ∇ ψ ) = ( ∇ ψ ) T
x
x
T
Bu
по управлению (т.е. ( ∇ x ψ ) ⋅ B ⋅ u может принимать любое значение в R1 ) следует, T
что всегда возможно выбрать такой вектор u, при котором неравенство (2.119) вы-
116
Методы современной теории автоматического управления
полняется. В том случае, когда условия (2.120) несправедливы, получим, что если правая часть (2.119) отрицательная, то найдется такой вектор x ∈ ГQ ( t ) , при котором
BT ⋅∇ x ψ = 0 ∈ R m . Тогда неравенство (2.119) при любом u не выполняется. Тем самым показана справедливость теоремы. Таким образом, если (2.120) справедливо, то всегда можно выбрать такое управление u ∈ R m, для которого обеспечивается (2.119). Обозначим: β ( x,t ) = B T ⋅∇ x ψ — ( m × 1 )-вектор-функция; ∂ψ — скалярная функция. ∂t Тогда с учетом определения скалярного произведения в евклидовом пространстве R n из (2.119) получим α ( x, ξ , t ) = − ( f1 ( x, ξ, t ) , ∇ x ψ ) −
m
∑ β j ( x, t ) ⋅ u j ≤ α ( x, ξ, t ) j =1
∀ x ∈ ГQ(t ), ∀ ξ ∈ Σ(t ), t ≥ t0 ,
(2.121)
где β j ( ⋅) , j ∈ 1, m — компоненты функции β ( ⋅) . Пусть U ( x, ξ , t ) — все множество значений вектора u, удовлетворяющих неравенству (2.121) в каждой граничной точке x ∈ ГQ ( t ) . Тогда произвольный закон управления, обеспечивающий выполнение заданной цели, можно представить следующим образом: ⎧⎪∈ U ( t ) при x ∈ Q ( t ) \ ГQ ( t ) ; u ( x, t ) = ⎨ ⎪⎩∈ U ( x, ξ , t ) при x ∈ ГQ ( t ) . При этом для обеспечения ограничений на управление должно выполняться условие U ( t ) I U ( x, ξ , t ) ≠ 0 ∀ x ∈ Г Q ( t ) , t ≥ t 0 , которое можно непосредственно учесть, если неравенство (2.121) рассматривать совместно с ограничениями на управление. Используя неравенство (2.121), требуемый закон управления формируется в аналитическом виде. Действительно, согласно (2.121) получим (1.122) ( u, β ) ≤ α. Это неравенство имеет следующую геометрическую интерпретацию (см. рис. 2.2 на примере для m = 2 ). Здесь β0 = γ ⋅ β, γ ∈ R1 — вектор, удовлетворяющий условию ( β0 , β ) = γ ⋅ β
2
= α; Г — гиперплоскость, ортогональная вектору β и разбивающая все пространство
R m на два полупространства U + и U −, где U − — множество решений. Тогда требуемый закон управления имеет вид u ( x, t ) = u1 ( x, t ) + u 2 ( x, t ) , где u1 ( x, t ) ⊥ u 2 ( x, t ) , причем u1 ( x, t ) = γ1 ( x, t ) ⋅ β ( x, t ) , γ1 ( x, t ) ≤ γ ( x, ξ, t ) =
α ( x, ξ, t )
β ( x, t )
2
;
(2.123)
Глава 2. Синтез робастных САУ в пространстве состояний
117
u 2 ( x,t ) — произвольная вектор-функция, которая выбирается из условия
(u
2
( x, t ) , β ( x, t ) ) = 0.
(2.124)
В результате получим u ( x, t ) = γ1 ( x, t ) ⋅ β ( x, t ) + u 2 ( x, t ) .
(2.125)
u2 Г U+
β0
β
U−
u2
u1
u1 u
Рис. 2.2. Геометрическая интерпретация неравенства (2.122)
Соотношение (2.125) описывает все множество решений, удовлетворяющих неравенству (2.121). При этом за счет выбора функций γ1 ( x,t ) и u 2 ( x,t ) управлению u ( x,t ) можно придать желаемую структуру. Рассмотрим случай, когда исходная система имеет нелинейную аддитивную зависимость от управления. В этом случае неравенство (2.119) приводится к виду ∀ x ∈ Γ Q ( t ) , ∀ ξ ∈ ∑ ( t ) , t ≥ t0 . (2.126) ( ϕ (U ) , ∇ x ψ ) ≤ − ( f1 ( x, ξ, t ) , ∇ xψ ) − ∂ψ ∂t Тогда аналогично предыдущему случаю можно показать, что множество решений данного неравенства описывается соотношением ϕ ( u ( x, t ) ) = γ1 ( x, t ) ⋅ β1 ( x, t ) + u 2 ( x, t ) ,
где β1 ( x, t ) = ∇ x ψ, а γ1 ( x,t ) и u 2 ( x,t ) выбираются на основе соотношений, аналогичных (2.123), (2.124). Если исходная система зависит от управления неаддитивно, то неравенство (2.61) преобразуется к выражению ∂ψ (2.127) ∀ x ∈ Γ Q ( t ) , ∀ ξ ∈ ∑ ( t ) , t ≥ t0 . ϕ1 ( u ) , F T ( x, ξ, t ) ⋅∇ x ψ ≤ − ∂t В этом случае для описания множества решений данного неравенства получим соотношение ϕ1 ( u ( x, t ) ) = γ1 ( x, t ) ⋅ β 2 ( x, ξ, t ) + u 2 ( x, t ) ,
(
)
∂ψ . ∂t Функции γ1 ( x,t ) и u 2 ( x,t ) выбираются аналогично (2.123), (2.124).
где β 2 ( x, ξ, t ) = F T ( x, ξ, t ) ⋅∇ x ψ, α ( x, t ) = −
118
Методы современной теории автоматического управления
Покажем, как можно учитывать ограничения на управление на основе полученных выше соотношений. Пусть рассматривается случай, когда исходная система зависит от u линейно и аддитивно. Тогда требуемый закон управления, обеспечивающий разрешимость неравенства (2.61), имеет вид (2.125). Нетрудно видеть, что ограничения на управление выполняется тогда и только тогда, когда справедливо соотношение U ( t ) I U − ( x ) ≠ 0, x ∈ ΓQ ( t ) , t ≥ t0 , где, как уже отмечалось выше, U − ( x ) — множество решений неравенства (2.122). В зависимости от свойств множества U можно получить более простые условия выполнения ограничений на управление. На рис. 2.3 с учетом рис. 2.1 показаны различные реализации рассматриваемого соотношения. u2 Г
U+
U1
U2
U− U4
U3 0
u1
U5
Рис. 2.3. Условие обеспечения ограничений на управление
Здесь U i I U − ≠ 0, i = 2,3, 4,5, U1 I U − = 0. Обычно U — выпуклое множество, для которого 0 ∈U , 0 — нулевой элемент в R n . Тогда для выполнения рассматриваемого соотношения необходимо и достаточно, чтобы U ( t ) I Γ ( x ) ≠ 0, x ∈ ΓQ ( t ) , t ≥ t0 , или, что то же самое, должно выполняться соотношение β 0 + u 2 ∈ U ( t ) , t ≥ t0 . Сформулируем условия разрешимости неравенств (2.126) и (2.127). Очевидно, эти условия должны определяться свойствами вектор-функций ϕ ( u ) и ϕ1 ( u ) . Пусть Lϕ , Lϕ1 — области значений соответственно ϕ ( u ) , ϕ1 ( u ) . Тогда Lϕ ⊆ R n и Lϕ1 ⊆ R q .
Естественно считать, что ϕ ( 0m ) = 0n ∈ R n , ϕ1 ( 0m ) = 0q ∈ R q , где 0m , 0n , 0 q — нулевые элементы в R m , R n , R q .
Глава 2. Синтез робастных САУ в пространстве состояний
119
Через R n , R q обозначим такие минимально возможные подпространства в R n , R q , для которых Lϕ ⊆ K n , Lϕ1 ⊆ R q , n ≤ n, q ≤ q.
Достаточно распространенным является случай, когда в R n , R q можно выделить такие конусы направлений K n , K q с вершинами в начале координат, что Lϕ ⊆ K n , Lϕ1 ⊆ K q . Причем вдоль каждого направления этих конусов Lϕ , Lϕ1 обязательно
имеют элементы достаточно удаленные соответственно от 0n и 0q. В результате получим следующее условие разрешимости. Теорема 2.4. Для разрешимости неравенств (2.126), (2.127) необходимо и достаточно, чтобы выполнялось условие ∀ x ∈ ΓQ ( t ) , для которых α ( ⋅) > 0, K I U ϕ− ≠ ∅,
(2.128)
где в зависимости от рассматриваемого неравенства K = K n (или K q ); U ϕ− — полупространство в R n (или R q ), образованное гиперплоскостью Γ ϕ , проходящей через начало координат ортогонально вектору β1 ( ⋅)
( или
β 2 ( ⋅) ) и разбивающей R n (или
R q ) на два полупространства U ϕ− и U ϕ+ , и состоящее из элементов, образующих с β1 ( ⋅)
( или
β 2 ( ⋅) ) отрицательные скалярные произведения.
Нетрудно видеть, что теорема 2.4 обобщает теорему 2.3. Введем обозначение
{
}
Z + ( t ) = x ∈ ΓQ ( t ) : α ( ⋅) > 0, K I U ϕ− = 0 , t ≥ t0 .
Множество Z + ( t ) назовем зоной неразрешимости фазовых ограничений. Соответственно Z − ( t ) = ΓQ ( t ) \ Z + ( t ) — зона разрешимости. Очевидно, задача синтеза разрешима тогда и только тогда, когда Z − ( t ) = ΓQ ( t ) или Z + ( t ) = 0 ∀ t ≥ t0 .
(2.129)
Обеспечение условия (2.129) осуществляется на начальном этапе формирования системы управления. Для этого ограничения вначале должны быть параметризованы, а затем они варьируются так, чтобы выполнялось соотношение (2.128), приводимое к обычным алгебраическим неравенствам. Пусть условие (2.128) или (2.129) обеспечено, тем самым гарантируется для каждого t ≥ t0 существование закона управления. Тогда регулятор формирует данное управление в соответствии со следующим алгоритмом: 1) при t = t0 ψ ( x ( t0 ) , t0 ) = ψ ( x0 , t0 ) ≤ 0, т.е. x0 ( t0 ) ∈ Q ( t0 ) ; 2) осуществляется вычисление функции ψ ( x ( t ) , t ) при t ≥ t0 ;
(( ) )
3) если для некоторого t = t ∗ ≥ t0 ψ x t * , t ∗ = ε < 0, где ε — достаточно малая величина, то в соответствии с приведенными выше зависимостями определяется требуемое значение управления. Величина ε выбирается, исходя из соотношения между скоростью вычисления управления и скоростью протекаемых процессов.
120 2.3.
Методы современной теории автоматического управления РАСШИРЕНИЕ МЕТОДА ФАЗОВЫХ ОГРАНИЧЕНИЙ НА ε-ОКРЕСТНОСТЯХ МНОЖЕСТВ В ПРОСТРАНСТВЕ СОСТОЯНИЙ
В данной главе рассмотрены несколько подходов применения метода фазовых ограничений в зависимости от характера задания ε-окрестностей. При этом ε-окрестности предлагается задавать: как некоторые множества уровня функций ограничения; с помощью некоторых отображений (стационарных и нестационарных) границ заданных множеств; на основе проекционного подхода. Для каждого из подходов получены конкретные соотношения для решения задач синтеза. 2.3.1.
ПОСТАНОВКА ЗАДАЧИ И ПРЕДПОЛОЖЕНИЯ МЕТОДА С УЧЕТОМ ε-ОКРЕСТНОСТЕЙ Рассмотренный в предыдущей главе метод обобщенных фазовых ограничений, основанный на введении ε-окрестностей множеств в пространстве состояний, может быть обобщен с позиции других подходов, используемых для систем, задаваемых в пространстве состояний. Считаем, что объект управления, так же как и в предыдущем случае, описывается либо уравнением (2.57), либо (2.111). Вначале рассмотрим задание объекта уравнениями (2.57), согласно которым ⎪⎧x& = f ( x, u, t ) , ⎨ ⎪⎩x ( t0 ) = x0 , t ≥ t0 . При этом уравнение u удовлетворяет ограничению (2.58), т.е. u ∈ U ( x, t ) , t ≥ t0 ,
где, в частности, U ( x, t ) ≡ U = const. Вместо ограничения (2.59) на вектор состояния будем рассматривать ограничение более общего вида (см. (2.52)) ϕ ( x ) = ϕ ( x ( t ) ) ∈ Qε ( t ) , t ≥ t0 , ε ∈ E , где ϕ ( ⋅) — заданная ( n × 1)-функция, непрерывно-дифференцируемая в R n ; E — заданное в R1 множество. Требуется для объекта (2.57) синтезировать такой закон управления, который бы удовлетворял ограничению (2.58) и при этом обеспечивал принадлежность вектора состояния заданной ε-окрестности в R n согласно условию (2.52). Так же как и в предыдущей главе, получим некоторые достаточные условия на вектор управления, при выполнении которых обеспечивается (2.52). Будем считать, что ε принимает произвольное фиксированное значение на множестве E , т.е. соотношение (2.52) должно обеспечиваться в некоторой фиксированной ε-окрестности множества Q. Кроме того, положим ϕ ( x ) ≡ x. (2.130) При этих допущениях будем синтезировать требуемый закон управления. Далее для решения поставленной задачи рассмотрим два подхода, представляющие собой обобщения метода фазовых ограничений: 1) метод обобщенных фазовых ограничений; 2) метод (Q, ρ) -разбиения пространства состояний, — и основанные на использовании концепции ФМП.
Глава 2. Синтез робастных САУ в пространстве состояний
121
Вначале рассмотрим первый подход — метод обобщенных фазовых ограничений. С учетом (2.130) соотношение (2.52) принимает вид x = x ( t ) ∈ Qε ( t ) при ε ∈ E , t ≥ t0 . (2.131) Сформулируем произвольную ε-окрестность множества Q ( t ) вида (2.60), т.е. ко-
{
}
гда Q ( t ) = x ∈ R n : ψ ( x, t ) ≤ 0 . Для этого поступим следующим образом. Произвольная ε-окрестность множества Q ( t ) имеет вид
{
}
Qε ( t ) = x ∈ R n : ψ ε ( x, t ) ≤ 0 ,
(2.132)
где ψ ε ( x,t ) — скалярная, предполагаемая непрерывно-дифференцируемая функция ограничения, соответствующая данной ε-окрестности. Поскольку ε может принимать произвольное значение на множестве E = ⎡⎣ ε − , ε + ⎤⎦ , то Qε может быть произвольным множеством, удовлетворяющим соотношению Qε− ( t ) ∈ Qε ( t ) ∈ Qε+ ( t ) , t ≥ t0 ,
(2.133)
где ε − , ε + могут быть, в частности, определены аналогично (2.111). На рис. 2.4 показано, каким образом можно выбрать допустимую ε-окрестность Qε . Возможные ε-окрестности множества Q
Qε+ Q
Qε−
Рис. 2.4. Выбор ε-окрестности множества Q
Таким образом, задача синтеза требуемого закона управления может быть сформулирована следующим образом: для объекта (2.57) построить такой закон управления, удовлетворяющий ограничению (2.58), который бы обеспечивал выполнение фазовых ограничений вида (2.131) хотя бы для одной ε-окрестности Qε ( t ) произвольного вида, сформулированной для множества Q ( t ) и удовлетворяющей условию (2.133). Заметим, что вид Qε ( t ) полностью определяется заданием той или иной функции ограничения ψ ε ( x, t ) . Согласно (2.5) формирование ε-окрестностей с теми или иными свойствами для заданного множества Q определяется выбором некоторой меры близости μ ( x, Q ) , характеризующей близость или удаленность x от Q в том или ином смысле. В рассматриваемой постановке задачи синтеза вид и свойства μ ( x,Q ) специально не оговариваются и в общем случае для задания ψ ε ( x, t ) , обеспечиваю-
122
Методы современной теории автоматического управления
щих (2.133), могут использоваться μ ( x,Q ) с различными свойствами. Поскольку ψ ε ( x,t ) могут соответствовать различным μ ( x, Q ) , то в качестве Qε ( t ) , ε ∈ E до-
пускается использовать произвольное множество, удовлетворяющее (2.133). 2.3.2.
МЕТОД ФАЗОВЫХ ОГРАНИЧЕНИЙ НА ε-ОКРЕСТНОСТЯХ МНОЖЕСТВА Q
Рассмотрим решение задачи синтеза, сформулированной в предыдущем параграфе. Очевидно, если для множества Q ( t ) определена некоторая мера близости μ ( x, Q ) , то на ее основе для каждого ε ≥ 0 всегда можно построить ε-окрестность Qε ( t ) с границей ΓQε ( t ) и соответствующую ей функцию ограничения ψ ε ( x, t ) . Таким образом, в общем случае
ψ ε ( x, t ) = G ( μ ( x, Q ) , Q ( t ) , ε ) ,
(2.134)
где G ( ⋅) — некоторый оператор, определяющий однозначную зависимость от заданных μ ( x, Q ) , Q ( t ) и ε. Если в общем случае зависимость (2.134) известна, то функция ψ ε ( x,t ) является заданной, и для решения поставленной задачи синтеза можно воспользоваться сформулированной выше в предыдущей главе теоремой 2.1 с соответствующей заменой Q ( t ) , ΓQ ( t ) , ψ ( x, t ) на Qε ( t ) , ΓQε ( t ) , ψ ε ( x, t ) . Однако если даже зависимость (2.134) неизвестна, то функцию ψ ε ( x,t ) всегда можно задать с учетом требуемых свойств (2.133). При этом меру близости μ ( x,Q ) уточнять не обязательно. Таким образом, будем считать, что для произвольной ε-окрестности Qε ( t ) , удовлетворяющей (2.133), функция ψ ε ( x,t ) может быть непосредственно задана и предполагается известной. Тогда аналогично теореме 2.1 справедлива следующая теорема. Теорема 2.5. Для объекта (2.57) при наличие ограничений на вектор управления (2.58) соотношение (2.131) хотя бы для одной ε-окрестности Qε ( t ) , удовлетворяющей (2.133), будет выполняться тогда, когда выполняется неравенство ∂Ψ ε ⎧ ≤ 0 ∀ x ∈ΓQε ( t ) , хотя бы одного u = u ( ⋅) ∈ U ( x, t ) ⎪( ∇ x ψε , f ( x, u, t ) ) + ∂t ⎨ ⎪и некоторой ψε ( x, t ) , соответствующей Qε ( t ) , t ≥ t0 . ⎩
(2.135)
Данная теорема представляет собой некоторое обобщение теоремы 2.1, однако непосредственно пользоваться ею затруднительно, поскольку не определено, как формировать допустимую функцию ψ ε ( x,t ) и осуществлять набор x на границе ΓQε ( t ) произвольно выбираемой ε-окрестности. Рассмотрим, каким образом можно задавать функцию ψ ε ( x, t ) , определяющую произвольную допустимую ε-окрестность множества Q. Для этого воспользуемся свойствами поверхностей уровня функции ψ ( x, t ) , с помощью которой задается множество Q ( t ) . Известно, что поверхность уровня ΓQ ( t ) задается с помощью равенства Ψ ( x, t ) = 0, t ≥ t0 .
Глава 2. Синтез робастных САУ в пространстве состояний
123
Пусть необходимо задать некоторую поверхность ΓQε ( t ) . Считаем, что между ) ) граничными элементами x ∈ ΓQ ( t ) и x ∈ ΓQε ( t ) можно установить взаимнооднозначное и непрерывно-дифференцируемое соотношение вида ) (2.136) x = η ( x, t ) , где η ( ⋅) — ( n × 1)-вектор-функция с соответствующими свойствами. Тогда достаточно произвольную поверхность ΓQε ( t ) можно представить в виде
{
}
ΓQε ( t ) = x ∈ R n : Ψ ( η ( x, t ) , t ) = 0 .
(2.137)
Действительно, справедливость этого непосредственно следует из представления ΓQ ( t ) и связи между ΓQ ( t ) и ΓQε ( t ) . Рассматривая на множестве ΓQε ( t ) теорему 2.5, получим, что для обеспечения соотношения (2.131) на ε -окрестности Qε ( t ) достаточно, чтобы выполнялось следующее неравенство, непосредственно получаемое из неравенства (2.135): T ∂η ∂Ψ ⎧ + ≤0 ⎪( ∇ x η⋅ ∇ ηΨ , f ( x, u, t ) ) + ( ∇ ηΨ ) ⋅ (2.138) ∂t ∂t ⎨ ⎪∀ x ∈ ΓQε ( t ) и хотя бы одного u = u ( ⋅) ∈ U ( x, t ) , t ≥ t0 , ⎩ где использовались соотношения ⎧ Ψ ε ( x , t ) = Ψ ( η ( x, t ) , t ) ; ∇ x Ψ ε = ∇ x η ⋅ ∇ η Ψ ; ⎪ (2.139) ⎨ ∂Ψ ε T ∂η ∂Ψ = ( ∇ηΨ ) ⋅ + . ⎪ ∂t ∂t ⎩ ∂t Согласно определению функции η ( ⋅) , поверхность rQε ( t ) можно представить в виде
{
}
ΓQε ( t ) = x = η−1 ( x€, t ) , x€ ∈ ΓQ ( t ) ,
(2.140)
где η−1 ( ⋅) существует в силу взаимной однозначности η ( ⋅) и в достаточно общем случае предполагается известной. Из (2.140) следует, что если x пробегает все множество ΓQε ( t ) , то вектор x€ пробегает все множество ΓQ ( t ) . Поэтому если в неравенстве (2.138) осуществить замену переменной x на пере) менную x€ в соответствии с зависимостью x = η−1 ( x, t ) , то получим соотношение, эквивалентное (2.138), выполнения которого достаточно, чтобы обеспечить (2.131) на некоторой ΓQε ( t ) , и имеющее следующий вид: € T ⎧ € , f€( x€, u, t ) + ∇ Ψ € ⋅ ∂η€ + ∂Ψ ≤ 0 ∀ x€ ∈ ΓQ ( t ) € ηΨ ⎪ ∇ x η⋅∇ η ε ∂t ∂t ⎨ ⎪и хотя бы одного u = u ( ⋅) ∈ U€ ( x€, t ) , t ≥ t , 0 ⎩ где использованы обозначения € = ∇ Ψ η−1 ( x€, t ) , t ; ⎧∇ x η€ = ∇ x η η−1 ( x€, t ) , t ; ∇η Ψ η ⎪ ⎪ −1 €, ⎪⎪ f€ x€, u, t = f η−1 x€, t , u, t ; ∂ η€ = ∂η η ( x t ) , t ; ( ) ( ) ⎨ ∂t ∂t ⎪ −1 ⎪ ∂Ψ € ∂Ψ η ( x€, t ) , t ⎪ = ; U€ ( x€, t ) = U η−1 ( x€, t ) , t . ∂t ⎪⎩ ∂ t
(
) (
)
(
)
(
(
( (
)
)
(
) )
)
(2.141)
(2.142)
124
Методы современной теории автоматического управления
Таким образом, показана справедливость следующего результата. Следствие 2.5. Для обеспечения соотношения (2.131) для объекта (2.57) при ограничениях на управление (2.58) достаточно, чтобы существовала такая взаимнооднозначная и непрерывно-дифференцируемая в R n (или в Q δ+1 ( t ) ∀ t ≥ t0 ) ( n × 1)вектор-функция η ( ⋅) вида (2.136), для которой выполняется неравенство (2.141). Заметим, что неравенство (2.141) является удобным для синтеза требуемого закона управления, так как входящие в него величины полностью определены, а выбор допустимой функции η ( ⋅) не требует разрешения сложных ограничений. 2.3.3.
МЕТОД ФАЗОВЫХ ОГРАНИЧЕНИЙ ПРИ ОТОБРАЖЕНИИ ε -ОКРЕСТНОСТЕЙ НА ЗАДАННОЕ МНОЖЕСТВО Рассмотрим другой подход к заданию ε -окрестностей, позволяющий получить достаточно эффективные соотношения для синтеза управления. Произвольную ε -окрестность ΓQε ( t ) множества Q ( t ) будем задавать по аналогии с (2.136), но в отличие от (2.136) считаем, что x ε = ξ ( x, t ) , (2.143)
где xε ∈ ΓQε ( t ) , x ∈ ΓQ ( t ) ; ξ ( ⋅) — ( n × 1)-вектор-функция, непрерывно-дифференцируемая и взаимнооднозначная между поверхностями ΓQ ( t ) и ΓQε ( t ) . Вначале рассмотрим случай, когда ΓQ ( t ) = ΓQ ≡ const, ΓQε ( t ) = ΓQε ≡ const, ξ ( x, t ) = ξ ( x ) . Аналогично (2.140) можно записать ΓQε = xε = ξ ( x ) : x ∈ ΓQ .
{
(2.144)
}
(2.145)
Изменяя вид функции ξ ( x ) , для фиксированного множества Q можно получить различные ε -окрестности с границами ΓQε . Для того чтобы на Qε применять теорему 2.3, получим выражение для ∇ xε Ψ ε , зависящее непосредственно от ∇ x Ψ с учетом (2.143). Из равенства
xε = ξ ( x )
(2.146) ε
получим следующее соотношение между дифференциалами x и dx : dx ε = ∇ x ξ ⋅ d x ,
(2.147)
где ∇ x ξ — якобиан функции ξ ( x ) .
Пусть Γ = Γ ( x ) — гиперплоскость в пространстве R n, касательная к поверхности
( )
ΓQ в точке x ∈ ΓQ. Аналогично определим гиперплоскость Γ ε = Γε xε , касательε
ную к ΓQε в точке x ∈ ΓQε , которая выбирается согласно равенству (2.146). Если в соотношении (2.147) вектор dx выбирать таким образом, чтобы x + dx ∈ ΓQ, где x ∈ ΓQ, (2.148) то в силу свойств функции ξ ( x ) получим, что xε + dxε ∈ ΓQε , где xε ∈ ΓQε .
(2.149)
ε
В силу бесконечной малости векторов dx и dx следует, что x + dx ∈ Γ ( x ) , xε + dxε ∈ Γ ε xε ,
( )
(2.150)
Глава 2. Синтез робастных САУ в пространстве состояний
125
т.е. dx и dxε лежат соответственно в гиперплоскостях Γ ( x ) и Γ ε ( x ) . Известно, что
( )
ε ε ⎧ ⎪∇ xε Ψ ε ⊥ Γ x (2.151) ⎨ ⎪⎩∀xε ∈ ΓQε . Поэтому для произвольных приращений dx и dxε, удовлетворяющих (2.148), (2.149), с учетом их ортогональности векторам ∇ x Ψ , ∇ xε Ψ ε (2.151) получим
⎧∇ ⎪ xΨ ⊥ Γ ( x) ⎨ ⎪⎩∀x ∈ ΓQ,
(∇
( ∇ x Ψ , dx ) = 0
x
ε
∀ dx, что x + dx ∈ ΓQ;
)
Ψ ε , dxε = 0 ∀ dxε , что xε + dxε ∈ ΓQε .
Равенство (2.153) с учетом (2.147) примет вид
(∇
xε
) (
(
)
)
Ψε , dxε = ∇xε Ψε , ∇xξdx = ( ∇xξ ) ∇xε Ψε , dx = 0 ∀ dx, что x + dx ∈ΓQ. T
(2.152) (2.153) (2.154)
Сравнивая (2.152) и (2.154), в силу Ψ ε ( x ) произвольности вектора dx, получим
( ∇ x ξ )T ∇ x Ψ ε = β ( x ) ⋅ ∇ x Ψ , ε
(2.155)
где β ( x ) — некоторая скалярная функция, определенная ∀ x ∈ ΓQ (считая, что функция, так же как и Ψ ( x ) , с возрастанием имеет расширяющиеся множества уровня, то можно положить, что β ( x ) > 0 ∀ x ∈ ΓQ, так как вектор ∇ xε Ψ ε будет ориентирован относительно ΓQε ).
Поскольку ξ ( x ) , согласно определению, устанавливает взаимнооднозначное со-
ответствие между множествами ΓQ и ΓQε , то такое же соответствие должно быть между векторами x + dx и xε + dxε , удовлетворяющими (2.148), (2.149). Следовательно, взаимнооднозначное соответствие будет между рассматриваемыми приращениями dx и dxε. А поскольку dx и dxε связаны соотношением (2.147), то получим, что якобиан ∇ x ξ ∀ x ∈ ΓQ представляет собой невырожденную ( n × n )-матрицу. Отсюда находим, что и ∇ x ξ — также невырожденная ( n × n )-матрица. И потому из (2.155) следует, что
(
∇ xε Ψ ε = β ( x ) ⋅ ( ∇ x ξ )
(
Введем обозначение: Θ ( x ) = ( ∇ x ξ )
)
T −1
)
T −1
⋅∇ x Ψ.
(2.156)
— ( n × n )-матрица, с учетом которого
∇ xε Ψ ε = β ( x ) ⋅ Θ ( x ) ⋅∇ x Ψ.
(2.157)
Кроме того, необходимо отметить, что согласно (2.145), если x пробегает все множество ΓQ, то xε пробегает все множество ΓQε и наоборот. Тогда теорема 2.5 применительно к множеству Qε сводится к следующему результату. Следствие 2.6. Для обеспечения соотношения (2.131) для объекта (2.57) при ограничении (2.58) достаточно, чтобы существовала такая ε -окрестность Qε , связанная с заданным множеством Q посредством взаимнооднозначной и непрерывно-дифференцируемой функции ξ ( x ) согласно (2.146), для которой выполняется неравенство
(
)
⎧β ( x ) ⋅ Θ ( x ) ∇ x Ψ , f ( ξ ( x ) , u, t ) ≤ 0 ∀ x ∈ ΓQε ( t ) ⎪ ⎨ ⎪⎩и хотя бы одного u = u ( ⋅) ∈ U ( ξ ( x ) , t ) , t ≥ t0 .
(2.158)
126
Методы современной теории автоматического управления
Заметим, что поскольку скалярная функция β ( x ) > 0 ∀ x ∈ ΓQ, то неравенство (2.158) можно рассматривать в виде ⎧ Θ ( x ) ∇ x Ψ , f ( ξ ( x ) , u, t ) ≤ 0 ∀ x ∈ ΓQε ( t ) ⎪ (2.159) ⎨ ⎪⎩и хотя бы одного u = u ( ⋅) ∈ U ( ξ ( x ) , t ) , t ≥ t0 . Полученные соотношения справедливы для стационарных фазовых ограничений и функции ξ ( ⋅) . Рассмотрим более общий случай, когда Q и ξ ( ⋅) являются неста-
(
)
ционарными. 2.3.4.
МЕТОД ФАЗОВЫХ ОГРАНИЧЕНИЙ ПРИ ОТОБРАЖЕНИИ НА НЕСТАЦИОНАРНЫЕ ε-ОКРЕСТНОСТИ При рассмотрении нестационарного случая можно непосредственно пользоваться соотношениями, полученными в предыдущем параграфе. Пусть условие (2.144) не выполняется, т.е. ΓQ = ΓQ ( t ) , ΓQε = ΓQε ( t ) , ξ ( ⋅) = ξ ( x, t ) .
Поступим следующим образом. Сведем нестационарный случай к стационарному путем введения новых переменных и расширения вектора состояния. Обозначим xn+1 = t. (2.160) Введем расширенный вектор состояния ⎡ x ⎤ (2.161) x=⎢ ⎥ — ( n × 1)-вектор, ⎣ xn+1 ⎦ тогда Ψ ( x ,t ) = Ψ ( x ) . (2.162) Кроме того,
{
}
ΓQ = x ∈ R n +1 : Ψ ( x ) = 0 .
(2.163)
Вместо функции ξ ( x ) , действующей в R n, введем функцию ξ ( x ) , действующую в R n +1 следующим образом: xε = ξ ( x, t ) ⎫⎪ ε ⎬ → x = ξ (x), ε xn +1 = xn +1 ⎪⎭ где ξ ( x ) — ((n + 1) × 1)-вектор-функция, у которой ξn +1 ( x ) = ξ n +1 ( xn +1 ) = xn +1 .
Тогда аналогично (2.145) можно записать
{
}
ΓQε = x ε = ξ ( x ) : x ∈ ΓQ .
(2.164)
(2.165) (2.166)
Таким образом, приходим к задаче, соответствующей стационарному случаю, рассмотренному в предыдущем параграфе. Поэтому следствие 2.6, а значит, и неравенство (2.158) или (2.159) можно непосредственно применить к множеству ΓQε . Согласно (2.159) и введенных обозначений (2.161)–(2.165) получим, что в рассматриваемом случае для обеспечения (2.131) должно выполняться соотношение ⎧⎪ Θ ( x ) ∇ x Ψ , f ( ξ ( x ) , u ) ≤ 0 (2.167) ⎨ ⎪⎩∀x ∈ ΓQ ( t ) и хотя бы одного u = u ( ⋅) ∈ U ( ⋅) , t ≥ t0 ,
(
)
Глава 2. Синтез робастных САУ в пространстве состояний
127
где Θ ( x ) — ((n + 1) × (n + 1) )-матрица, определяемая аналогично матрице Θ ( x ) ; ((n + 1) × 1)-вектор-функция f ( ⋅) с учетом дополнительного уравнения (2.160), приводимого к виду x&n+1 = 1, определяется согласно соотношению ⎡ ⎛ ξ ( x ) , u, xn +1 ⎞ ⎤ (2.168) f ( ξ ( x), u) = ⎢ f ⎜ ⎟⎥ . 1 ⎠ ⎦⎥ ⎣⎢ ⎝ Приведем неравенство (2.167) к виду, непосредственно зависящему от исходного вектора состояния x. Согласно определению
(
Θ ( x ) = (∇x ξ )
).
T −1
(2.169)
Якобиан ∇ x ξ имеет следующее выражение: ⎡ ∂ξ1 ⎢ ∂x ⎢ 1 ⎢ ∂ξ2 ⎢ ⎢ ∂x1 ∇x ε = ⎢ M ⎢ ⎢ ∂ξn ⎢ ∂x ⎢ 1 ⎢ ∂ξn+1 ⎢ ⎣⎢ ∂x1
∂ξ1 ⎤ ∂xn+1 ⎥⎥ ∂ξ2 ∂ξ2 ∂ξ2 ⎥ L ⎥ ∂x2 ∂xn ∂xn+1 ⎥ M O M M ⎥, ⎥ ∂ξn ∂ξn ∂ξn ⎥ L ∂x2 ∂xn ∂xn+1 ⎥⎥ ∂ξn+1 ∂ξn+1 ∂ξn+1 ⎥ L ⎥ ∂x2 ∂xn ∂xn+1 ⎦⎥ где с учетом определения ξn+1 ( x ) (2.164) должны выполняться равенства ∂ξ1 ∂x2
L
∂ξ1 ∂xn
(2.170)
∂ξn+1 ∂ξ ∂ξ (2.171) = K = n+1 = 0; n+1 = 1. ∂x1 ∂xn ∂xn+1 Очевидно, внутренняя, выделенная в (2.170), матрица представляет собой якобиан ∇ x ξ. Тогда выражение (2.170) с учетом (2.171) можно привести к виду
(∇x ξ )
T
⎡ ⎢ ⎢ ⎢ =⎢ ⎢ ⎢ ⎢ ∂ξ1 ⎢⎣ ∂t
( ∇ x ξ )T ∂ξ2 ∂t
L
∂ξn ∂t
0⎤ 0 ⎥⎥ M⎥ = ⎥ 0⎥ ⎥ ⎥ 1 ⎥⎦
⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ∂ξ1 ⎢⎣ ∂t
0⎤ 0 ⎥⎥ M⎥ −1 ⎥=Θ . 0⎥ ⎥ 1⎥ ⎥⎦
Θ −1 ∂ξ2 ∂t
Используя выражение (2.172), вычислим матрицу
L
((∇x ξ )
∂ξn ∂t
)
T −1
(2.172)
.
Воспользуемся известным обстоятельством, что если R — некоторая невырожденная матрица, то обратная матрица R −1 имеет вид ⎡ R11 R21 L Rn1 ⎤ ⎢R ⎥ 1 ⎢ 12 R22 L Rn 2 ⎥ , (2.173) R −1 = M O M ⎥ det R ⎢ M ⎢ ⎥ ⎣⎢ R1n R2 n L Rnn ⎦⎥ где Ri , j — алгебраическое дополнение элемента ri , j матрицы R.
128
Методы современной теории автоматического управления
Из структуры матрицы Θ −1 следует, что Θi−1j = Θi−1j при i, j ∈1, n .
(2.174)
Кроме того, ⎧⎪Θ −n+11, j = 0 при j ∈1, n; ⎨ −1 −1 ⎪⎩Θ n+1,n+1 = det Θ .
(2.175)
Определим выражения для алгебраических дополнений Θi−,1n+1 при i ∈1, n. Согласно (2.172) для произвольного Θi−,1n+1 справедливо выражение ⎡ ⎢ ⎢ Θi−,1n+1 = ⎢ ⎢ ⎢ ∂ξ1 ⎢⎣ ∂t
⎤ ⎥ ⎥ i + n +1 ⎥ ⋅ ( −1) , (2.176) ⎥ ∂ξ2 ∂ξn ⎥ L ∂t ∂t ⎥⎦ где Θi−1 — ((n − 1) × n )-матрица, полученная вычеркиванием i-й строки матрицы Θ −1. Раскладывая детерминант (2.176) по последней строке, получим i + n +1 ⎡ n +1 ∂ξ1 n+ 2 ∂ξ 2 Θi−,1n+1 = ( −1) ⋅ ⎢( −1) ⋅ det Θi−11 + ( −1) ⋅ det Θi−21 +…+ t t ∂ ∂ ⎣ + ( −1)
n ∂ξn ∂ξ i + n+1 −1 ⎤ 1 ⋅ det Θin = − ( ) ( −1)n+ν ν ⋅ det Θi−ν1 = ∑ ⎥ ∂t ∂t ⎦ ν=1
n+ n
n
= ∑ ( −1)
i +ν+1
ν=1
Θi−1
(2.177)
∂ξν ⋅ det Θi−ν1 , ∂t
где Θi−,1ν — ((n − 1) × (n − 1) )-матрица, полученная вычеркиванием ν-го столбца матрицы Θi−1. Соотношение (2.177) справедливо для всех алгебраических дополнений Θi−,1n+1 при i ∈1, n. С помощью полученных выражений (2.174), (2.175), (2.177) может быть вычислена в соответствии с (2.173) матрица Θ вида (2.169). Имеем −1 ⎡ Θ11 Θ −211 L Θ −n11 Θ −n 1+1,1 ⎤ ⎢ −1 ⎥ Θ12 Θ −221 L Θ −n12 Θ−n 1+1,2 ⎥ ⎢ T −1 1 ⎢ ⎥ M M O M M ⎥= Θ = (∇x ξ ) = ⋅ −1 ⎢ det Θ ⎢ −1 Θ Θ −2 n1 L Θ−nn1 Θ−n 1+1, n ⎥ ⎢ 1n ⎥ ⎢Θ1,−1n +1 Θ −2,1n +1 L Θ −n,1n +1 Θ −n1+1,n +1 ⎥ ⎣ ⎦
(
)
−1 ⎡ Θ11 Θ−211 ⎢ −1 Θ−221 ⎢ Θ12 1 ⎢ M M = ⋅ det Θ −1 ⎢⎢ −1 Θ Θ −21n ⎢ 1n −1 ⎢ −1 ⎣ Θ1,n+1 Θ 2,n+1
L
Θ −n11
L
Θ −n 12
O
M
L
Θ −nn1 Θ −n,1n+1
L
⎤ ⎥ 0 ⎥ ⎥ M ⎥= 0 ⎥ ⎥ det Θ−1 ⎦⎥ 0
⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢Θ % ⎣ 1
Θ M L % % Θ2 L Θ n
0⎤ 0 ⎥⎥ M⎥, ⎥ 0⎥ 1 ⎥⎦
(2.178)
Глава 2. Синтез робастных САУ в пространстве состояний
129
где −1 n % = ∑ ( −1)i +ν+1 ∂ξν ⋅ det Θiν , i ∈1, n. (2.179) Θ i ∂t det Θ −1 ν=1 С учетом (2.160)–(2.162) определим выражение для вектора ∇ x Ψ в неравенстве (2.167). Имеем ⎡∇ x Ψ ⎤ (2.180) ∇ x Ψ = ⎢ ∂Ψ ⎥ . ⎢ ⎥ ⎣⎢ ∂t ⎦⎥ Согласно (2.167), используя (2.178)–(2.180), вычислим следующее выражение: 0⎤ ⎡ ⎢ Θ 0 ⎥⎥ ⎡∇ Ψ ⎤ ⎢ x M M ⎥ ⋅ ⎢ ∂Ψ ⎥ = Θ ⋅∇ x Ψ = ⎢ ⎥ ⎢ ⎥ ⎢ L 0 ⎥ ⎢⎣ ∂t ⎥⎦ ⎢ (2.181) ⎢Θ ⎥ % % % ⎣ 1 Θ2 L Θn 1 ⎦ ⎡Θ ⋅ ∇ x Ψ ⎤ ⎡Θ ⋅∇ x Ψ ⎤ ⎢n ⎥ ⎢ ⎥, = ⎢ % ∂Ψ ∂Ψ ⎥ = % , ∇ Ψ + ∂Ψ ⎥ ⎢ Θ Θi + ∑ x ⎢⎣ i +1 ∂xi ∂t ⎥⎦ ⎢⎣ ∂t ⎥⎦ где % = ⎡Θ % % % T Θ ⎣ 1 Θ2 K Θn ⎤⎦ . Тогда неравенство (2.167) с учетом (2.168) принимает вид ∂Ψ ⎧ % ⎪ Θ ( x ) ∇ x Ψ , f ( ξ ( x ) , u ) = Θ ( x ) ∇ x Ψ , f ( ξ ( x ) , u ) + Θ, ∇ x Ψ + ∂t ≤ 0 (2.182) ⎨ ⎪∀ x ∈ ΓQ ( t ) и хотя бы одного u = u ( ⋅) ∈ U ( ξ ( x ) , t ) , t ≥ t0 . ⎩
(
(
) (
)
) (
)
Неравенство (2.182) приводится к более компактной форме ∂Ψ ⎧ T % ⎪ ∇ x Ψ , Θ ( x ) ⋅ f ( ξ ( x ) , u, t ) + Θ + ∂t ≤ 0 ∀ x ∈ ΓQ ( t ) ⎨ ⎪и хотя бы одного u = u ( ⋅) ∈ U ( ξ ( x ) , t ) , t ≥ t0 . ⎩
(
)
(2.183)
Таким образом, показана справедливость следующего результата. Следствие 2.7. Для обеспечения соотношения (2.131) для объекта (2.57) при ограничении (2.58) достаточно, чтобы существовала такая нестационарная ε -окрестность Qε ( t ) , связанная с заданным нестационарным множеством Q ( t ) с помощью некоторой непрерывно-дифференцируемой и взаимнооднозначной функции ξ ( x ) согласно (2.143), для которой выполняется соотношение (2.183). В важном частном случае вектор-функцию ξ ( x, t ) можно выбирать стационарной, т.е. ξ ( ⋅) = ξ ( x ) . В этом случае неравенство (2.183) принимает более простой вид. Действительно, так как согласно (2.179) % ≡ 0 ∀ i ∈1, n, Θ i поскольку ∂ξν ≡ 0 ∀ν ∈ 1, n, ∂t то (2.183) приводит к выражению
130
Методы современной теории автоматического управления
∂Ψ ⎧ T ⎪ ∇ x Ψ , Θ ( x ) ⋅ f ( ξ ( x ) , u, t ) + ∂t ≤ 0 ∀ x ∈ ΓQ ( t ) (2.184) ⎨ ⎪и хотя бы одного u = u ( ⋅) ∈ U ( ξ ( x ) , t ) , t ≥ t0 . ⎩ В качестве функции ξ ( ⋅) может, в частности, использоваться функция следующе-
(
го вида∗:
)
ξ ( x ) = x + α ( x ) ∇x Ψ,
(2.185)
где x ∈ ΓQ, а α ( x ) — скалярная непрерывно-дифференцируемая функция. Тогда T ∇ x ξ = E + α ( x ) ∇ x2 Ψ + ∇ x Ψ ⋅ ( ∇ x α ) , где ⎡ ∂ 2Ψ ∂ 2Ψ ⎤ L ⎢ ⎥ 2 ∂x1∂xn ⎥ ⎢ ∂x1 ∇ x2 Ψ = ⎢ M O M ⎥ — ( n × n )-симметричная матрица. ⎢ ⎥ 2 2 ⎢ ∂ Ψ ∂ Ψ ⎥ L ⎢ ⎥ ∂xn2 ⎦⎥ ⎣⎢ ∂xn ∂x1 Отсюда находим, что
(2.186)
T −1
Θ = ⎡ E + α ( x ) ∇ 2x Ψ + ∇ x α ⋅ ( ∇ x Ψ ) ⎤ . (2.187) ⎣ ⎦ Выбирая достаточно произвольную функцию α ( ⋅) , можно задавать различные
допустимые ξ ( ⋅) вида (2.185). В качестве ξ ( ⋅) в ряде случаев целесообразно использовать следующее выражение: (2.188) ξ ( ⋅) = Mx, где M — ( n × n )-невырожденная матрица (за счет этого обеспечивается взаимнооднозначное соответствие между ΓQ и ΓQε ). Тогда ∇xξ = M (2.189) и
( )
Θ = MT
−1
.
(2.190)
При этом условием для выбора той или иной матрицы M является обеспечение неравенства det M ≠ 0. Полученные выше соотношения (2.182), (2.183) могут непосредственно использоваться для синтеза требуемых алгоритмов управления. Возможные подходы на их основе будут рассматриваться далее. 2.3.5.
О ПРОЕКЦИОННОМ ПОДХОДЕ В ЗАДАЧЕ ОБЕСПЕЧЕНИЯ ФАЗОВЫХ ОГРАНИЧЕНИЙ
Пусть так же, как и в предыдущих параграфах, рассматривается некоторое замкнутое и ограниченное множество Q ( t ) , определяемое непрерывно-дифференцируемой ∗
Нетрудно убедиться, что данная функция удовлетворяет требованию, предъявляемому к ξ ( ⋅) , т.е.
обеспечивает взаимнооднозначное соответствие между ΓQ и ΓQε .
Глава 2. Синтез робастных САУ в пространстве состояний
131
функцией ограничения Ψ ( x, t ) . Обозначим через z ( t ) — действительную траекторию объекта, описываемого уравнением (2.57). Через x ( t ) в данном случае обозначим некоторую проекцию (отображение) траектории z ( t ) на границу ΓQ ( t ) , т.е. x ( t ) ∈ Γ Q ( t ) , t ≥ t0 .
(2.191)
Отображение (проектирование) z ( t ) на ΓQ ( t ) осуществляется в соответствии со следующей зависимостью: (2.192) z ( t ) = η ( x ( t ) , t ) , t ≥ t0 , согласно которой предполагается, что для каждого t ≥ t0 фиксированному значению
z ( t ) на ΓQ ( t ) соответствует свое значение x ( t ) и наоборот. Кроме того, ( n × 1)-
вектор-функция η ( ⋅) предполагается непрерывно-дифференцируемой. Используя соотношение (2.147), определим уравнение для проекции x ( t ) ∈ ΓQ ( t ) . Для этого продифференцируем по времени правую и левую части данного уравнения. Имеем ∂η (2.193) z& = ∇ x η⋅ x& + , ∂t где ∇ x η — якобиан функции η ( ⋅) . Поскольку функция η ( ⋅) предполагается взаимнооднозначной между действительной траекторией z ( t ) и ее проекцией x ( t ) ∈ ΓQ ( t ) , то текущей скорости объекта z& должна однозначно соответствовать текущая скорость проекции x& . А это возможно только в том случае, когда ∇ x η — невырожденная матрица. Таким образом, поскольку матрица ∇ x η — невырожденная, то из (2.193) получим ∂η ⎤ −1 ⎡ (2.194) x& = ( ∇ x η ) ⎢ z& − ⎥ . ∂t ⎦ ⎣ Согласно уравнению (2.57) из (2.194) следует, что ∂η ⎤ ∂η ⎤ −1 ⎡ −1 ⎡ x& = ( ∇ x η ) ⎢ f ( z, u, t ) − ⎥ = ( ∇ x η ) ⎢ f ( η ( x, t ) , u, t ) − ⎥ . ∂ ∂t ⎦ t ⎣ ⎦ ⎣ Если обозначить ∂η ⎤ −1 ⎡ (2.195) fQ ( x, u, t ) = ( ∇ x η) ⎢ f ( η ( x, t ) , u, t ) − ⎥ , ∂t ⎦ ⎣ то последнее уравнение приводится к виду ⎧⎪x& = fQ ( x, u, t ) , (2.196) ⎨ ⎪⎩x ( t0 ) = x0 , t ≥ t0 , где x0 определяется из условия
z ( t0 ) = η ( x ( t0 ) , t0 ) .
(2.197)
Однако из уравнения (2.196) не следует, что если x ( t ) — его решение, то в этом случае обязательно x ( t ) ∈ ΓQ ( t ) ∀ t ≥ t0 . Это связано с тем, что при формировании уравнения (2.196) не учтены условия принадлежности x ( t ) к ΓQ ( t ) . Для того чтобы x ( t ) ∈ ΓQ ( t ) ∀ t ≥ t0 , очевидно, достаточно потребовать, чтобы
x ( t0 ) ∈ ΓQ ( t0 ) и ψ ( x ( t ) , t ) ≡ 0 ∀ t ≥ t0 .
(2.198)
132
Методы современной теории автоматического управления
Указанное тождество будет выполняться тогда и только тогда, когда на проекциях траекторий x ( t ) функция ψ ( ⋅) не изменяется во времени, т.е. должно выполняться уравнение
∂ψ = 0 ∀ t ≥ t0 . (2.199) ∂t Тогда (2.198) с учетом (2.199) примет вид ∂ψ x ( t0 ) ∈ ΓQ ( t0 ) и ( ∇ x ψ, x& ) + = 0, t ≥ t0 . (2.200) ∂t Поскольку x& удовлетворяет уравнению (2.196), то (2.200) приводится к виду ∂ψ x ( t0 ) ∈ ΓQ ( t0 ) и ∇ x ψ, fQ (x, u, t ) + = 0, t ≥ t0 . (2.201) ∂t Отсюда с учетом (2.195) получим ⎛ ∂η ⎤ ⎞ ∂ψ −1 ⎡ x ( t0 ) ∈ ΓQ ( t0 ) и ⎜ ∇ x ψ, ( ∇ x η) ⋅ ⎢ f ( η ( x, t ) , u, t ) − ⎥ ⎟ + (2.202) = 0 ∀ t ≥ t0 . ∂t ⎦ ⎠ ∂t ⎣ ⎝ Проанализируем выражение (2.202) относительно существования такой векторфункции η ( x, t ) , для которой траектория объекта, определяемая в соответствии с & = ( ∇ x ψ, x& ) + ψ
(
)
(2.192), удовлетворяет тем или иным требуемым ограничениям. Вообще говоря, соотношение (2.202) можно рассматривать в качестве некоторого уравнения относительно функции η ( ⋅) . Поскольку произвольную траекторию z ( t ) объекта (2.57) всегда тем или иным образом можно отобразить на заданную поверхность ΓQ ( t ) , то в общем случае обязательно существует по крайней мере хотя бы одно взаимнооднозначное соответствие определенным образом выбираемого вида между траекториями z ( t ) и их отображениями (проекциями) x ( t ) на данной поверхности ΓQ ( t ) . Поэтому уравнение (2.202) всегда должно иметь не менее одного решения η ( ⋅) . С другой стороны, если уравнение (2.202) имеет хотя бы одно решение, то оно в силу соотношений (2.192), (2.194) характеризует взаимнооднозначное соответствие между z ( t ) и x ( t ) ∈ ΓQ ( t ) . Следовательно, если уравнение (2.202) рассматривать относительно η ( ⋅) , то на всем множестве решений обязательно найдется такое, которое согласно (2.192) соответствует действительной траектории объекта (2.57). Более того, можно утверждать, что если ℘ — множество решений уравнения (2.202), то произвольное решение η ( ⋅) ∈℘ соответствует одной и той же траектории z ( t ) объекта (2.57), определяемой согласно зависимости (2.192) и находящейся во
взаимнооднозначном соответствии с проекцией x ( t ) ∈ ΓQ ( t ) , своей для каждого η ( ⋅) ∈℘.
Действительно, справедливость данного утверждения следует из того, что уравнение (2.202) получено в результате эквивалентных преобразований (2.199)–(2.201), вытекающих из условия (2.198) и использования соотношений (2.193)–(2.196), справедливых только при взаимнооднозначных функциях η ( x, t ) . Причем поскольку для объекта (2.57) начальное состояние z ( t0 ) = z ( t , z 0 ) , то ему соответствует своя траектория z ( t0 ) = z ( t , z 0 ) . А согласно (2.197) вектору z 0 соответствует вектор x0 ∈ ΓQ ( t0 ) , свой
Глава 2. Синтез робастных САУ в пространстве состояний
133
для каждой функции η ( ⋅) ∈℘. В силу (2.196) для каждых x0 и η ( ⋅) определяется своя траектория x0 ∈ ΓQ ( t0 ) ∀ t ≥ t0 . Следовательно, одной и той же траектории z ( t ) взаимнооднозначно согласно (2.192) соответствуют проекции x0 ∈ ΓQ ( t0 ) , определенного для каждой η ( ⋅) ∈℘. Рассмотрим, каким образом можно задавать функции η ( ⋅) . Пусть η ( ⋅) выбирается в виде η ( x, t ) = x + α ( x, t ) ∇ x ψ, x ∈ ΓQ ( t ) , (2.203) где α ( ⋅) — некоторая скалярная непрерывно-дифференцируемая функция, которая заранее не определена и характеризует близость (расстояние) действительной траектории z ( t ) от границы ΓQ ( t ) в каждый момент времени t ≥ t0 . Очевидно, что в каждый фиксированный момент времени t ≥ t0 произвольно заданному вектору z = η ( x, t ) ∈ R n соответствует согласно зависимости (2.203) вполне определенный вектор x ∈ ΓQ ( t ) и некоторое фиксированное число α ( ⋅) (для доказательства справедливости данного утверждения достаточно, чтобы множество Q ( t ) было выпуклым). Следовательно, η ( x,t ) вида (2.203) обеспечивает взаимнооднозначное соответствие между z ( t ) и x ( t ) и может использоваться в соотношении (2.202). При этом ⎧∇ η = E + α ( x, t ) ∇ 2 ψ + ∇ ψ ⋅ ( ∇ α )T ; x x x ⎪ x (2.204) ⎨ ∂η ∂α ∂ ∂α ⎛ ∂ψ ⎞ ∇ x ψ + α ( x, t ) ∇ x ψ = ∇ x ψ + α ( x, t ) ∇ x ⎜ ⎪ = ⎟ ∂t ∂t ⎝ ∂t ⎠ ⎩ ∂t ∂t (последнее соотношение справедливо в силу перестановочности операций ∂ ∂t и ∂ ∂xi ). Подставляя (2.204) в (2.202), получим нелинейное дифференциальное уравнение в частных производных относительно скалярной функции α ( ⋅) , которое в общем случае может не иметь аналитического решения. Для решения (2.202) относительно α ( ⋅) должны быть заданы начальные краевые
условия для α ( ⋅) . Очевидно, они определяются из уравнения x 0 + α ( x 0 , t0 ) ⋅ ∇ x ψ ( x 0 , t0 ) = z 0 ,
(2.205)
где z 0 = z ( t0 ) — начальное состояние объекта (2.57). Причем величина α ( x0 , t0 ) = α 0 , как отмечено выше, определяется однозначно. Таким образом, уравнение (2.202) решается при наличии краевого условия α ( x 0 , t0 ) = α 0 , (2.206) где α0 соответствует z 0 . Справедлив следующий результат. Утверждение 2.2. Уравнение (2.202) при заданном законе управления u = u ( ⋅) и выбранной вектор-функции η ( x,t ) вида (2.203) имеет единственное решение α ( x, t ) , удовлетворяющее краевому условию (2.206). До казательство . Действительно, в силу существования взаимнооднозначного соответствия между траекторией объекта z ( t ) и ее проекцией x ∈ ΓQ ( t ) уравнение (2.202) должно иметь не менее одного решения α ( x, t ) . Допустим, таких решений
134
Методы современной теории автоматического управления
несколько: α ν ( x, t ) , ν ∈ N , где N — некоторое множество индексов, каждое из которых такое, что α ν ( x0 , t0 ) = α 0 ∀ν ∈ N . Поскольку заданным α 0 и x0 при t = t0 согласно (2.205) соответствует вектор z 0 ,
то всем решениям α ν ( x, t ) , ν ∈ N соответствует одна и та же траектория z ( t ) объекта (2.57). Но выше было установлено, что при выборе η ( x,t ) вида (2.203) каждому вектору z для фиксированного t ≥ t0 соответствуют свои единственные значения α и x.
Поэтому для траектории z ( t ) в каждый момент t ≥ t0 может соответствовать только одно значение α ( ⋅) и одно значение x ( t ) . Следовательно, α ν ( x, t ) = α ( x, t ) ∀ν ∈ N ,
т.е. уравнение (2.202) при заданных краевых условиях и выбранном законе u ( ⋅) может иметь только единственное решение α ( x, t ) . Что и требовалось доказать. Рассмотрим требования, которым должна удовлетворять функция α ( x,t ) (или в общем случае η(x, t ) ), чтобы обеспечивалась цель (2.131). Согласно (2.131) должно выполняться соотношение z ( t ) ∈ ΓQε ( t ) или ψ ε ( z ( t ) , t ) ≤ 0 ∀ t ≥ t0 . С учетом выражения (2.203) получим ⎧⎪x + α ( x, t ) ∇ x ψ ∈ ΓQε ( t ) , x ∈ ΓQ ( t ) ⎨ ⎪⎩или ψ ε ( x + α ( x, t ) ∇ x ψ, t ) ≤ 0 ∀ t ≥ t0 . Условие (2.207) проиллюстрировано на рис. 2.5.
(2.207)
z1 α ⋅ ∇ xψ ∇ xψ
x1 x2 z2 ГQ ( t ) ГQ ε ( t ) Рис. 2.5. К пояснению условия (2.207)
Неравенство (2.207) можно привести к следующему виду: ψ ε ( x, α ( ⋅) , t ) ≤ 0 ∀ x ∈ ΓQ ( t ) , t ≥ t0 .
(2.208)
Отсюда следует, что для обеспечения требуемых фазовых ограничений функция α ( x,t ) должна удовлетворять следующему неравенству: α ( x, t ) ≤ α ε ( x, t ) ∀ x ∈ ΓQ ( t ) , t ≥ t0 ,
(2.209)
Глава 2. Синтез робастных САУ в пространстве состояний
135
где α ε ( x,t ) — некоторая известная скалярная функция, определяемая из (2.207) или (2.208) и принимающая в общем случае неотрицательные значения. Причем для каждого допустимого ε ∈ E функция α ε ( x,t ) может иметь свое выражение. Если из (2.208) или (2.207) функцию α ε ( x,t ) с достаточной степенью точности определить нельзя, то для оценки допустимости α ( x,t ) можно использовать неравенство (2.208). Таким образом, показана справедливость следующего результата. Утверждение 2.3. Для того чтобы для объекта (2.57) некоторый закон управления u = u ( ⋅) ∈ U ( ⋅) обеспечивал заданные фазовые ограничения (2.131), достаточно, чтобы функция α ( x, t ) , являющаяся решением уравнения (2.202), удовлетворяла соотношению (2.207) (или одному из эквивалентных соотношений (2.208), (2.209)) для любого α 0 = α ( x 0 , t0 ) , определяемого согласно (2.205) при произвольном z0 ∈ Qε ( t0 ) Q ( t0 ) . Используя утверждение (2.132), можно решать не только задачу обеспечения фазовых ограничений, но и, в частности, задачу обеспечения устойчивости объекта (2.57) в R n. Для этого необходимо конкретизировать вид Q ( t ) . Выделим два случая задания Q ( t ) : 1) 0 ∈ Q ( t ) , t ≥ t0 ;
(2.210)
2) 0 ∉ Q ( t ) , t ≥ t0 , n
(2.211) n
где 0 ∈ R — нулевой элемент в пространстве R . Если, например, выполняется условие (2.211), то поскольку для устойчивости объекта (2.57) в R n необходимо, чтобы z ( t ) → 0 при t → ∞ ∀ z 0 = z ( t0 ) ∈ R n , (2.212) то, используя выражение (2.203), получим ⎧⎪x ( t ) + α ( x ( t ) , t ) ∇ x ψ ( x ( t ) , t ) → 0 при t → ∞ ∀ x0 = x ( t0 ) ∈ ΓQ ( t0 ) ⎨ ⎪⎩и ∀α 0 = α ( x0 , t0 ) , удовлетворяющего (3.96).
(2.213)
Поскольку z 0 может быть любым вектором, то в качестве α 0 можно выбирать произвольное неотрицательное число. Кроме того, если обозначить: ⎧ lim x ( t ) = x∞ ; ⎪t →∞ ⎨ ∞ ⎪ lim ∇ x ψ ( x ( t ) , t ) = ∇ x ψ , ⎩t →∞ то условие (2.213) приводится к виду x∞ + α ⋅ ∇ x ψ ∞ = 0 ∀ x0 ∈ ΓQ ( t0 ) и ∀α 0 > 0. (2.214) Векторы x∞ и ∇ x ψ ∞ могут быть непосредственно определены. Действительно, поскольку z ( t ) → 0 при t → ∞, то z ( ∞ ) = 0 ∈ R n, и поэтому x∞ может быть определен как расстояние от нулевого элемента 0 ∈ R n до множества Q ( ∞ ) (до границы ΓQ(∞) ), которое предполагается выпуклым (см. рис. 2.6).
Отсюда следует, что соотношение (2.214) всегда разрешимо, так как векторы x∞ и ∇ x ψ ∞ коллинеарны, и поэтому из решения (2.214) всегда можно определить значение α ∞ .
136
Методы современной теории автоматического управления
z (t ) ∇x ψ∞
0 144244 3
x∞
ΓQ(∞)
∞∞ ⋅∇ xψ αα⋅∇ xψ
Рис. 2.6. К определению векторов x ∞ и ∇ x ψ ∞
Тогда получим, что в случае (2.211) объект (2.57) является устойчивым в R n, если α ( x ( t ) , t ) → α ∞ , x ( t ) → x∞ при t → ∞ ∀ x0 ∈ ΓQ ( t0 ) и ∀α 0 > 0.
(2.215)
Для проверки выполнения (2.215) можно воспользоваться уравнением (2.202) при подстановке в него выражения (2.203) с учетом (2.204). Если условие (2.215) выполняется для некоторого выбранного допустимого закона управления u = u ( ⋅) , то это означает, что для данного u ( ⋅) уравнение (2.202) должно выполняться при значениях t = ∞, α ( ⋅ ) = α ∞ , x = x ∞ .
(2.216)
Кроме того, с учетом (2.204) должно выполняться условие ∂α → 0 при t → ∞, (2.217) ∂t поскольку α ∞ — стационарная точка, к которой стремится функция α ( x, t ) . Аналогично получим следующее соотношение: ∂α → 0 при t → ∞ ∀ i ∈1, n ∂xi или ∇ x α → 0 при t → ∞. (2.218) Тогда, подставляя в (2.202) значения (2.216), а также в соответствии с (2.217) и (2.218) значения ∂α = 0, ∇ x α t =∞ = 0, ∂t t =∞ получим алгебраическое уравнение, которое будет выполняться, если правильно выбран закон управления u ( ⋅) . Таким образом, решая уравнение (2.202) совместно с использованием условий (2.215), можно формировать закон управления, обеспечивающий устойчивость объекта (2.57). Притом необходимо отметить, что рассмотренный подход, вообще говоря, может давать только необходимые условия устойчивости, для получения достаточных условий требуется осуществить линеаризацию (2.202) в окрестности x∞ и α ∞ и провести анализ поведения малых отклонений во времени. Аналогично обеспечение устойчивости объекта (2.57) в R n можно рассматривать для случая (2.211) на основе условий (2.212), (2.213). Однако при этом на α ( x,t ) в отличие от (2.214) будут накладываться другие условия, выполнение которых также исследуется с помощью уравнения (2.202).
Глава 2. Синтез робастных САУ в пространстве состояний
137
Используемое в рассмотренном подходе отображение η ( x,t ) может иметь более общий вид по сравнению с (2.203). Например, в качестве η ( x,t ) можно использовать вектор-функцию следующего вида: (2.219) η ( x, t ) = η% ( γ ( x, t ) , x, t ) ,
где η% ( ⋅) — некоторая ( n × 1)-вектор-функция заданного вида, непрерывно-дифферен-
цируемая по всем своим переменным; γ ( x,t ) — скалярная непрерывно-дифференцируемая функция, вид которой заранее не задан. При этом выбор той или иной функции η% ( ⋅) вида (2.219) должен обеспечивать взаимнооднозначное соответствие
между z ( t ) ∈ R n и ее проекцией x ( t ) ∈ ΓQ ( t ) . Нетрудно получить T ⎧ % ∂η% ⎪∇ x η = ∂γ ( ∇ x γ ) + ∇ x η% ( γ, x, t ) ; ⎪ ⎨ ⎪ ∂η% = ∂η% ⋅ ∂γ + ∂η% ( γ, x, t ) , ⎪⎩ ∂t ∂γ ∂t ∂t
(2.220)
∂η% ( γ, x, t ) — якобиан и частная производная по времени функции ∂t η% ( γ, x, t ) , когда скалярная функция γ ( x,t ) рассматривается как некоторый фиксированный параметр. Подставляя (2.220) в (2.202), получим уравнение в частных производных относительно функции γ ( x, t ) , которая имеет единственное решение для заданных краевых
где ∇ x η% ( γ, x, t ) ,
условий γ ( x0 , t0 ) = γ 0 , определяемых из соотношения z 0 = η% ( γ 0 , x0 , t0 ) . Справедливость этого доказывается аналогично утверждению 2.2.
(2.221)
2.3.6.
СИНТЕЗ УПРАВЛЕНИЯ ПРИ ВАРИАЦИИ НЕЧЕТКИХ ФАЗОВЫХ ОГРАНИЧЕНИЙ, ФОРМИРУЕМЫХ НА ОСНОВЕ ФУНКЦИИ БЛИЗОСТИ В отличие от приведенных выше случаев синтеза регулятора, в которых основное достаточное условие существования закона управления (2.61) рассматривается непосредственно на ε -окрестностях множества Q ( t ) , предлагается метод, позволяющий их
существенно обобщить за счет нечеткого представления границ множества Q ( t ) на основе использования функции близости. Это достигается в результате формирования достаточных условий невыхода x ( t ) за пределы нечетко заданного множества непосредственно в виде некоторых отношений, которым должна удовлетворять функция близости. Уравнение системы управления имеет вид: x& = f ( x, u, ξ, t ) , x ( t0 ) = x0 , t ≥ t0 . На переменные системы наложены прежние ограничения. Для вектора управления u : u = u ( t ) ∈U ( t ) , t ≥ t0 , U ( t ) ⊆ R m. Для вектора возмущения ξ :
ξ = ξ ( t ) ∈Σ ( t ) , t ≥ t0 , Σ ( t ) ⊆ R r. На вектор состояния x первоначально заданы «жесткие» фазовые ограничения вида x = x ( t ) ∈ Q ( t ) , t ≥ t0 .
138
Методы современной теории автоматического управления
Поскольку при «жестко» заданных ограничениях задача синтеза может оказаться неразрешимой, то приведем их к нечеткому виду. Для этого воспользуемся введенными ранее определениями ε -окрестности Qε ( t ) и меры близости ρ ( ⋅) . Напомним, что множество Qε ( t ) является ε -окрестностью множества Q ( t ) ∀ t ≥ t0 , если произвольный элемент из Qε ( t ) расположен относительно Q ( t ) на расстоянии, не превышающем заданную величину ε в смысле некоторой меры близости ρ ( ⋅) . В качестве расстояния от точки s ∈ R n до множества Q ( t ) используется
некоторая неотрицательная величина (функция) ρ ( s, Q ( t ) ) вида ⎪⎧> 0 при s ∉ Q ( t ) ; ρ ( s, Q ( t ) ) = ⎨ ⎪⎩ 0 при s ∈ Q ( t ) .
Таким образом,
{
}
Qε ( t ) = s ∈ R n : ρ ( s, Q ( t ) ) ≤ ε .
Выделим в множестве Q ( t ) некоторое подмножество Q ( t ) , т.е. Q ( t ) ⊆ Q ( t ) , t ≥ t0 .
По отношению к Q ( t ) сформируем такие ε -окрестности Qε ( t ) , что Q ( t ) ⊂ Qε ( t ) ∩ Q ( t ) (см. рис. 2.7).
x2
Q ε1 Q ε2 Q ε 3
Q 0
x1
Q Рис. 2.7. Формирование ε -окрестностей Qε ( t )
Тогда нечеткие фазовые ограничения можно представить следующим образом: (2.222) x ( t ) ∈ Qε ( t ) , t ≥ t0 , где ε ∈ E , E = ⎡⎣ε − , ε + ⎤⎦ . В результате исходная задача синтеза сводится к следующему: требуется для исходной системы построить такой допустимый закон управления u = u% ( x, t ) ∈U ( t ) ∀ t ≥ t0 ,
чтобы при действии возмущений w ( t ) ∈W ( t ) ∀ t ≥ t0 обеспечивались нечеткие фазо-
вые ограничения хотя бы на одной ε -окрестности Qε ( t ) при ε ∈ E. Получим основное условие выполнения нечетких фазовых ограничений, на основе которого обеспечивается выполнение соотношения (2.222). Пусть x ( t ) — некоторая траектория системы, которая в момент времени t = t% ≥ t0 проходит через ε -окрест-
ность Qε ( t% ) , т.е. x ( t% ) ∈ Qε ( t% ) . В этом случае должно выполняться неравенство
Глава 2. Синтез робастных САУ в пространстве состояний
139
ρ ( x ( t% ) , Q ( t% ) ) ≤ ε.
Будем рассматривать это неравенство не для всех элементов Qε ( t% ) , а только для
граничных, т.е. когда x ( t% ) ∈ ГQε ( t% ) ( ГQε — граница Qε ). Тогда получим ρ ( x ( t% ) , Q ( t% ) ) = ε.
Для того чтобы в последующий момент времени t = t% + Δt ( Δt — сколь угодно малый промежуток времени) траектория x ( t ) не вышла из множества Qε ( t ) ( т.е.
чтобы x ( t% + Δt ) ∈ Qε ( t% + Δt ) ) , необходимо обеспечить выполнение неравенства
⎪⎧ρ ( x ( t% + Δt ) , Q ( t% + Δt ) ) ≤ ε, (2.223) ⎨ ⎪⎩x ( t% ) ∈ ГQε ( t% ) , Δt → 0. Для дальнейшего преобразования данного неравенства рассмотрим некоторые свойства функции ρ ( x, Q ) . Будем предполагать, что множество Q ( t ) выбирается
так, чтобы функция ρ ( x,Q ) определялась наиболее простым образом в том или ином
смысле. В частности, можно считать Q ( t ) выпуклым множеством ∀ t ≥ t0 с непрерывной границей. Свойства функции ρ ( x,Q ) зависят от того, как именно определяется мера близости элемента x относительно множества Q ( t ) . Как уже отмечалось выше, в достаточно общем случае ρ ( x, Q ) = min ρ ( x, x ) , где под ρ ( x, x ) понимается неотрицаx∈ГQ
тельная величина, выбираемая по тем или иным правилам в соответствии с заданными векторами x ∈ R n и x ∈ ГQ. Если в качестве ρ ( x,Q ) использовать расстояние в евклидовой метрике, то для замкнутого выпуклого Q
ρ ( x, Q ) = min x − x . x∈ГQ
Это соотношение достаточно просто вычисляется, если граница ГQ является поверхностью не более чем второго порядка (например, ГQ — граница эллипсоида или линейного многогранника), это проиллюстрировано на рис. 2.8. x2
(
x2
ρ x2 , Q
x1
)
x2
ρ x ,Q
x
x2
)
ρ ( x, Q ) x
x1
0
Q
(
1
0
x1
Q а б Рис. 2.8. Определение ρ ( x,Q ) в евклидовой метрике: а — Q — параллелепипед; б — Q — эллипсоид
x1
140
Методы современной теории автоматического управления
Если Q — параллелепипед, т.е.
{
}
Q = x ∈ R n : xi ≤ qi , i ∈1, n ,
то для x ∉ Q 12
⎡ 2⎤ ρ ( x, Q ) = ⎢ ∑ ( xν − qν ) ⎥ , ⎣ ν∈N ⎦
где N — множество индексов ν ∈1, n, для которых xν > qν . Если Q — эллипсоид вида
{
}
Q = x ∈ R n : ( x, Μx ) − q ≤ 0 ,
где Μ > 0 — положительно определенная ( n × n )-матрица, q > 0, то ρ ( x, Q ) = x − x .
Здесь вектор x вычисляется на основе соотношений −1
(
x = λ ( 2Μ + λΕ ) x, λ ∈ R1 , −1
−1
)
λ 2 ( 2Μ + λΕ ) x, Μ ( 2Μ + λΕ ) x = q. Отсюда нетрудно получить, что при Μ = Ε ( Ε — единичная ( n × n )-матрица) x=
q1 2 x, ρ ( x, Q ) = x − q1 2 x
(q
12
)
= q .
Тогда для ρ ( x,Q ) при произвольной симметричной матрице Μ > 0 находится следующая оценка: ⎛ q1 2 ρ ( x, Q ) ≤ ρ% ( x, Q ) = ⎜ 1 − 1 2 ⎜ Μ x ⎝
⎞ ⎟⋅ x , ⎟ ⎠
где Μ = Μ1 2 ⋅ Μ1 2 , Μ1 2 > 0, которая становится точным равенством на собственных векторах матрицы Μ. В качестве меры близости в этом случае можно принять величину ρ% ( x, Q ) . В более общем случае функцию ρ ( x,Q ) можно задавать достаточно произвольным образом. Действительно, пусть для каждого вектора x ∉ Q ( t ) в соответствии с некоторым правилом определен вектор x ∈ ГQ ( t ) вида
x = η ( x, t ) ,
(2.224)
где η ( x,t ) — ( n × 1)-вектор-функция, которую будем считать непрерывно-дифференцируемой и обеспечивающей взаимнооднозначное соответствие между x ∈ ГQε ( t ) и
x ∈ ГQ ( t ) . Тогда
ρ ( x , Q ) = ρ ( x , x ) = ρ ( x, η ( ⋅ ) ) .
Выше (см. рис. 2.5) было показано, как могут вычисляться x и ρ ( ⋅) , если значениям ρ ( ⋅) придается определенный геометрический смысл. Вообще говоря, под мерой
Глава 2. Синтез робастных САУ в пространстве состояний
141
близости ρ ( ⋅) будем понимать некоторую неотрицательную непрерывно-дифференцируемую ограниченную скалярную функцию ρ ( x, x ) , где x ∈ ГQ выбирается для произвольного x ∉ Q согласно (2.224). Так, если 0 ∈ Q ( 0 — нулевой элемент в R n ), то η ( x,t ) можно представить в виде x = λ ⋅ Ρx, где λ ∈ R1, Ρ — заданная невырожденная ( n × n )-матрица. Пусть Q ( t ) = x ∈ R n : Ψ ( x, t ) ≤ 0 ,
{
}
где Ψ ( x,t ) — непрерывно-дифференцируемая скалярная функция. Тогда значение λ определяется из условия ψ ( λРx, t ) = 0. При ψ ( x, t ) = ( x, Mx ) − q ( t ) q1 2
λ=
q1 2
, x=
( ) ( ) Функцию ρ ( x, Q ) можно задавать согласно выражению ρ ( x, Q ) = ρ ( x, x ) = x − x = x − η ( x, t ) , x, P −1MP −1x
12
x, P −1MP −1x
12
Px.
или в более общем виде ρ ( x, Q ) = ( ( x − x ) , L ( x − x ) ) = ( x − η ( ⋅ ) ) , L ( x − η ( ⋅ ) ) ,
(
)
где L > 0 — положительно определенная ( n × n )-матрица. Таким образом, в достаточно общем случае неравенство (2.223) приводится к следующему выражению: ⎧⎪ρ x ( t% + Δt ) , η ( x ( t% + Δt ) , t% + Δt ) ≤ ε; ⎨ ⎪⎩x ( t% ) ∈ ГQε ( t% ) , Δt → 0, где ρ ( x, η ( ⋅) ) , η ( ⋅) — непрерывно-дифференцируемые по всем своим аргументам
(
)
функции. Тогда, раскладывая левую часть данного неравенства в ряд Тейлора и пренебрегая при Δt → 0 слагаемыми высших порядков малости, получим ⎡ ∂η ( ⋅) ⎤ ρ x ( t% ) , η ( x ( t% ) , t% ) + ⎢( ∇ x ρ ( ⋅) , x& ( t% ) ) + ∇ x ρ ( ⋅) , ∇ x η ( ⋅) x& ( t% ) + ⎥ Δt ≤ ε. ∂t ⎦ ⎣
(
)
(
)
Отсюда с учетом того, что ρ x ( t% ) , η ( x ( t% ) , t% ) = ε, приходим к справедливости
следующего результата. Теорема 2.6. Для существования допустимого закона управления u% ( x, t ) ∈ U ( t ) , обеспечивающего для исходной системы выполнение нечётких фазовых ограничений при действии возмущения ξ ( t ) ∈Σ ( t ) , достаточно выполнения неравенства ⎧ ∂η ( x, t ) ⎞ ⎛ T ⎪ ∇xρ ( x, x ) + ( ∇x η ( x, t ) ) ∇ x ρ ( x, x ) , f ( x, u, w, t ) + ⎜ ∇ x ρ ( x, x ) , ⎟≤0 ∂t ⎠ ⎨ ⎝ ⎪ ⎩∀ x ∈ ГQε ( t ) , ∀ w ∈W ( t ) и хотя бы для одного u = u% ( x, t ) ∈U ( t ) , t ≥ t0 ,
(
)
(2.225)
142
Методы современной теории автоматического управления
где ∇ xρ, ∇ x ρ, ∇ x η — градиенты и якобиан функций ρ ( ⋅) , η ( ⋅) . Приведем соотношение (2.225) к виду, более удобному для нахождения требуемого закона управления. Поскольку соотношение (2.225) должно выполняться для каждого x ∈ ГQε ( t% ) , то для данных векторов справедливо равенство
ρ ( x, x ) = ε, где x ∈ ГQ однозначно соответствует вектору x ∈ ГQε . Равенство при фиксированных x ∈ ГQ и ε > 0 обеспечивается, вообще говоря, на некотором множестве ℜε ( x ) , являющегося поверхностью уровня функции ρ ( x, x ) при заданном x. Причем
ℜε ( x ) ∩ ГQε ≠ ∅,
так как данное множество состоит по крайней мере из одного элемента x ∈ ГQε , которому однозначно соответствует вектор x = η ( x, t ) ∈ ГQ. Поскольку предполагается, что функция η ( ⋅) для каждого ε > 0 обеспечивает взаимнооднозначное соответствие между поверхностями ГQ ( t ) и ГQε ( t ) , то на множестве ℜε ( x ) ∩ ГQε существует только один элемент x, для которого выполняется это условие. Отсюда следует, что решением системы уравнений ⎧⎪ρ ( x, x ) = ε, (2.226) ⎨ ⎪⎩ x = η ( x,t ) для произвольных x ∈ ГQ и ε > 0 является один и только один вектор x ∈ ГQε . Решение системы (2.226) представим в виде x = z ( x, ε ) , (2.227)
где z ( ⋅) — некоторая непрерывно-дифференцируемая по всем своим аргументам функция. В результате приходим к справедливости следующего результата. Теорема 2.7. Если для некоторого заданного множества Q ( t ) ⊂ R n на основе меры близости ρ ( ⋅) для каждого ε ∈ E (ε > 0) построены ε -окрестности ГQε ( t ) таким образом, что
ρ ( x, Q ) = ρ ( x, x ) = ε, x ∈ Q ( t ) ,
где x определяется на основе взаимнооднозначной и непрерывно-дифференцируемой зависимости (2.224), то решение системы уравнений (2.226) единственно и имеет вид (2.227). Для достаточно широкого класса функций ρ ( ⋅) и η ( ⋅) выражение (2.227) можно представить в аналитическом виде. Но, вообще говоря, требование аналитичности является необязательным, так как для каждых x ∈ ГQε ( t ) и ε ∈ E вектор x ∈ ГQε ( t ) может быть вычислен с достаточной степенью точности. Заметим, что требование непрерывной дифференцируемости z ( ⋅) также является необязательным. Воспользуемся выражением (2.227) для представления основного соотношения (2.225) в более удобном виде. Подставим (2.227) в (2.225). Получим
Глава 2. Синтез робастных САУ в пространстве состояний
(
(
143
)
)
⎧ ∇ ρ z x, ε , x + ∇ η z x, ε , t T ∇ ρ z x, ε , x , f z x, ε , u, w, t + ) ) x ( ( ) ) ( ( ) ) x ( ( ⎪ x ( ( ) ) ⎪⎪ ∂η ( z ( x, ε ) , t ) ⎞ (2.228) ⎨+ ⎛ ⎟≤0 ⎪ ⎜⎝ ∇ x ρ ( z ( x, ε ) , x ) , ∂t ⎠ ⎪ ∀ ∈ ∀ ∈ x Г , и хотя бы одного u = u% ( x, t ) ∈ U ( t ) , t ≥ t0 . Q t w W t () ⎪⎩ ε( ) Для решения поставленной выше задачи достаточно, чтобы неравенство (2.228) выполнялось хотя бы для одного значения ε ∈ E. Данное требование можно существенно ослабить, что приведет к значительному расширению множества возможных решений. Действительно, пусть для каждого x ∈ ГQ ( t ) определена величина ε = ε% ( x ) ∈ E ,
где ε% ( ⋅) — некоторая неотрицательная произвольного вида скалярная функция, заданная на ГQ ( t ) и принимающая значения на отрезке E ⊂ R1. Тогда справедлив следующий результат. Теорема 2.8. Если для каждого x ∈ ГQ ( t ) найдется такое значение ε = ε% ( x ) ∈ E , что обеспечивается соотношение (2.227), то для любой траектории исходной системы, для которой x ( t0 ) = x0 ∈ Qε0 ( t0 ) , где ε 0 = ε% ( x ( t0 ) , x ( t0 ) ) = ξ ( x0 , t0 ) ,
будут обеспечены ограничения x ( t ) ∈ Qε% ( x( t ) ) , t ≥ t0 , x ( t ) = η ( x ( t ) , t ) . Заметим, что в общем случае функция ε% ( x ) не является непрерывной и может иметь разрывы первого рода. Выполнение теоремы 2.8 непосредственно следует из непрерывности границы ГQ ( t ) и непрерывности левой части неравенства (2.228). Использование теоремы 2.8 проиллюстрировано на рис. 2.9. Q ε+
x2
x0
Q
x
x1
0
x (t )
Q Q ε−
Рис. 2.9. Обеспечение нечетких фазовых ограничений
Предложенный метод синтеза позволяет достаточно эффективно формировать законы управления различными динамическими объектами. Использование нечетких ограничений и способ их описания существенно расширяет область допустимых решений и позволяет решать задачу синтеза в условиях различной внутренней и внешней неопределенности.
144 2.3.7.
Методы современной теории автоматического управления ПОСТРОЕНИЕ ЗАКОНОВ УПРАВЛЕНИЯ МЕТОДОМ «РАСТЯЖЕНИЯ» ГРАНИЦ ФАЗОВОЙ ОБЛАСТИ ПО ЭНЕРГЕТИЧЕСКИМ ФУНКЦИЯМ
Задание «жестких» (неизменяемых) фазовых ограничений, как уже отмечалось выше, часто приводит к проблеме неразрешимости задачи синтеза системы управления. Для обеспечения разрешимости целесообразно ослабить «жесткость» ограничений. Это возможно различными путями, в том числе рассмотренным в предыдущем параграфе. Однако использовать идею задания нечетких фазовых ограничений предлагается на основе энергетического представления поведения системы в окрестности заданной границы множества. Преодоление указанной проблемы в данном параграфе достигается путем придания некоторой «гибкости» границе заданной области, определяемой соответствующими фазовыми ограничениями. С этой целью рассматривается новый метод синтеза систем управления по фазовым ограничениям, основанный на использовании энергетических свойств системы вдоль границ заданных областей, за счет чего обеспечивается в определенном смысле их «гибкость» и тем самым расширение множества возможных решений задачи синтеза. Пусть так же, как и в предыдущем параграфе, рассматривается следующая система управления: x& = f ( x, u, ξ , t ) , x ( t0 ) = x 0 , t ≥ t0 . На переменные x, u, ξ заданы ограничения
{
}
x = x ( t ) ∈ Q ( t ) = x ∈ R n : ψ i ( x, t ) ≤ 0, i ∈1, χ , ψ i ( x, t ) , i ∈1, χ — некоторые заданные непрерывные функции; u = u ( t ) ∈ U ( t ) ∈ R m ; ξ ∈ Σ (t ) ∈ Rr . Ограничения на вектор x определяют желаемый характер функционирования исходной системы. Однако в общем случае заранее заданные множества Q ( t ) , U ( t ) ,
Σ ( t ) могут оказаться такими, что одновременное обеспечение ограничений является невозможным. Поэтому вместо жестко заданного множества Q ( t ) целесообразно использовать «размытое» или «растянутое» множество Q% ( t ) , получаем на основе Q ( t ) путем его «растяжения». Сама процедура «растяжения» множества будет описана ниже. А здесь лишь отметим следующее. Если траектория x ( t ) системы в некоторый
( )
момент времени t * ≥ t0 попадает изнутри Q ( t ) на границу ГQ t * , то в зависимости
( )
от величины и направления вектора x& t * фазовые ограничения могут быть нарушены, какой бы допустимый закон управления u = u% ( x, t ) не был заранее выбран. Хотя в дальнейшем при t > t * траектория x ( t ) , незначительно отклонившись от Q ( t ) , может вновь вернуться в это множество. То есть нарушение «жестко» заданных ограничений является незначительным с точки зрения технических требований к характеру функционирования системы. Поэтому в дальнейшем целесообразно пренебрегать незначительными нарушениями ограничений и считать, что в каждой точке x ∈ ГQ ( t ) , t ≥ t0 , в зависимости от значения вектора скорости x& , множество Q ( t ) может быть определенным образом «растянуто» на некоторую приемлемую величину. В результате существенно повышается возможность обеспечения приемлемых («растянутых») фазовых ограничений. Рассматриваемую задачу синтеза сформулируем следующим образом. Для исходной системы с учетом заданных ограничений требуется за счет выбора «растянутого»
Глава 2. Синтез робастных САУ в пространстве состояний
145
множества Q% ( t ) относительно Q ( t ) на приемлемую величину обеспечить синтез такого допустимого закона управления u% ( x, t ) , при котором выполняется условие x = x ( t ) ∈ Q% ( t ) при t > t0 ∀ x0 = x ( t0 ) ∈ Q ( t0 ) («растянутые» фазовые ограничения).
Под растяжением заданного множества Q ( t ) будем понимать растяжение границы ГQ ( t ) , которое может осуществляться в каждой ее точке x ∈ ГQ ( t ) . В свою очередь, под растяжением границы ГQ ( t ) в произвольной граничной точке x ∈ ГQ ( t ) понимается локальное расширение множества Q ( t ) в окрестности данной точки x, осуществляемое в соответствии с той или иной процедурой. Очевидно, каждой точке x ∈ ГQ ( t ) будет соответствовать свое локальное расширение множества Q ( t ) и свое, получаемое в результате этого расширения, растянутое множество Q% ( x, t ) . Сказанное проиллюстрировано на рис. 2.10 для случая n = 2. Q ε+
x2 Q (t )
( )
Q x1 , t
ГQ ( t )
x1 0
x2
x1
( ГQ ( x , t )
Q x2 , t
( ) 1
ГQ x , t
)
2
Рис. 2.10. Растяжение множества Q ( t ) в точках x1, x 2
x2
( )
x t , x10
x& 2 Q (t ) 0
x1
x&1
x02
(
x t , x02
)
Рис. 2.11. Растяжение множества Q ( t ) в точке x в зависимости от динамического состояния системы
Естественно также предположить, что растяжение Q ( t ) в произвольной граничной точке x ∈ ГQ ( t ) определяется как динамическими свойствами системы, так и ее динамическими состояниями в момент попадания в данную точку. Так, чем больше величина вектора x& в точке x ∈ ГQ ( t ) , тем значительней (больше) будет растяжение гра-
146
Методы современной теории автоматического управления
ницы в этой точке. Однако для каждой x ∈ ГQ ( t ) должно быть определено предельное растяжение границы ГQ ( t ) , которое не может быть превышено (см. рис. 2.11). В соответствии с используемыми представлениями о поведении системы относительно заданного множества Q ( t ) можно сделать следующий вывод: если для произвольной траектории x ( t ) , выходящей за пределы множества Q ( t ) , существует такое приемлемое растянутое множество Q ( t ) , из которого x ( t ) выйти не может, то это означает, что исходная система не может преодолеть некоторый «энергетический барьер» на соответствующем участке границы ГQ ( t ) . Таким образом, будем считать, что каждой граничной точке s ∈ ГQ ( t ) соответствует некоторая положительная скалярная величина e ( s ) > 0 ∀ s ∈ ГQ ( t ) , t ≥ t0 , задающая энергетический барьер. Этот барьер требуется преодолеть, чтобы траектория x ( t ) вышла не только за пределы заданного множества Q ( t ) , но и за пределы произвольного растянутого множества Q ( t ) , которое может быть определено для граничной точки выхода s ∈ ГQ ( t ) траектории x ( t ) . Кроме того, в каждой точке x траектории x ( t ) , находящейся за пределами Q ( t )
( т.е.
x ∉ ГQ ( t ) ) , определим энергетический запас системы в виде некоторой поло-
жительной скалярной функции e ( x, x& ) > 0. Причем
e ( x, x& ) = p ( x ) + k ( x& ) , где p ( x ) , k ( x& ) — положительные скалярные функции, характеризующие соответственно потенциальную и кинетическую энергии системы в точке x. О функциях p ( x ) , k ( x& ) будем также предполагать, что они непрерывно-дифференцируемы по всем своим аргументам и неограниченны сверху (изменяются от 0 до ∞ ). Определим возможный вид и основные свойства функций p ( x ) , k ( x& ) . Поскольку
p ( x ) характеризует потенциальную энергию системы (1) относительно множества Q ( t ) , то чем дальше расположен x от Q ( t ) , тем большее значение принимает p ( x ) . Обозначим через ρ ( x, Q ( t ) ) меру (функцию) близости точки x от множества Q ( t ) , которая будет показывать, насколько x удалена от Q ( t ) . В качестве ρ ( x, Q ( t ) ) можно, например, использовать расстояние от x до Q ( t ) , т.е. ρ ( x, Q ) = min x − y = min x − s . y∈Q
s∈ГQ
В более общем случае под мерой близости понимается величина ρ ( x, Q ) = ρ ( x, s ) , s ∈ ГQ , где каждый граничный элемент s = s ( t ) ∈ ГQ ( t ) определяется однозначно для соответствующего вектора x ∉ ГQ ( t ) на основе зависимости
s = s ( t ) = η ( x, t ) , где η ( x, t ) — некоторая n + 1 раз непрерывно-дифференцируемая функция.
Глава 2. Синтез робастных САУ в пространстве состояний
147
В результате получим следующее выражение для потенциальной энергии: p ( x ) = p1 ( ρ ( x, s ) ) = p%1 ( x, s ) , где p1 ( ρ ( x, s ) ) — скалярная неотрицательная монотонно возрастающая функция. Причем для каждого s ∈ ГQ ( t ) всегда можно указать такой вектор x, что
p%1 ( x, s ) = e ( s ) , и, следовательно, если
e ( x, s ) ≤ e ( s ) ,
то k ( x& ) = 0.
Рассмотрим определение меры близости, позволяющее эффективно задавать p ( x ) .
Для этого введем понятия поверхностей уровня, порождаемых множеством Q ( t ) . Под поверхностью δ -уровня будет пониматься граница ГQδ ( t ) множества
{
}
Qδ ( t ) = x ∈ R n : ψi ( x, t ) ≤ δ, i ∈1, χ . Тогда ГQ ( t ) = ГQ0 ( t ) — поверхность 0-уровня (δ = 0 ). В этом случае в качестве меры близости ρ ( x, Q ) можно использовать величину δ -уровня, определяющего поверхность, которой принадлежит точка x, по отношению к величине 0-уровня границы заданного множества, т.е. ρ ( x, Q ) = ψ i ( x, t ) = δ, i ∈1, χ. В результате получим p ( x ) = p1 ( δ ) ≥ 0 при δ ≥ 0 — монотонно возрастающая функция. Рассмотрим свойства функции k ( x& ) , характеризующей кинетическую энергию
системы в точке x ∉ Q ( t ) . Для определения кинетической энергии будем использовать в общем случае не весь вектор скорости x& , а только ту его составляющую, которая направлена как на нарушение исходных фазовых ограничений, так и на выход траектории x ( t ) за пределы множества Qδ ( t ) , δ > 0. Для упрощения дальнейших выкладок будет считать, что граница ГQδ ( t ) описывается с помощью только одной функции ψ ( x, t ) (т.е. χ = 1). Тогда условие нарушения фазовых ограничений можно представить согласно рис. 2.12. x2 x&
x0
x (t )
x
0
ГQδ
∇xΨ x&
x& ⊥ x1
⎧⎪ x& = x& + x& ⊥ , ⎨ ⊥ ⎪⎩ x& ⊥ x&
Qδ
Рис. 2.12. Условие выхода x ( t ) из множества Qδ
148
Методы современной теории автоматического управления
Выход x ( t ) за пределы ГQδ возможен только при ненулевой составляющей x& , имеющей то же направление, что и градиент ∇ x ψ. Нетрудно видеть, что
x& =
( x& , ∇xψ ) ⋅∇ ∇xψ
2
x ψ,
где ( x& , ∇ x ψ ) — скалярное произведение векторов x& , ∇ x ψ в R n. Поскольку кинетическая энергия определяется как зависимость от квадрата модуля вектора x& , то получим 2
( x& , ∇xψ )2 =
⎡ ( x& , ∇ x ψ ) ⎤ 2 x& =⎢ ⎥ = α ( x, x& ) . 2 ∇ ψ ∇xψ x ⎣ ⎦ При этом если учитывается нестационарность фазовых ограничений, то нетрудно показать, что ∂ψ ( x& , ∇ x ψ ) + ∂t . α ( x, x& ) = 2 ⎤1 2 ⎡ ∂ψ 2 ⎛ ⎞ ⎢ ∇xψ + ⎜ ⎟ ⎥ ∂ t ⎝ ⎠ ⎦⎥ ⎣⎢ Тогда k ( x& ) = k1 ( α ( x, x& ) ) , где k1 ( α ( x, x& ) ) — скалярная неотрицательная монотонно возрастающая функция. В результате получим e ( x, x& ) = p1 ( ρ ( x, s ) ) + k1 ( α ( x, x& ) ) , или с учетом уравнения состояния системы
(
)
e ( x, f ( x, u, w, t ) ) = p1 ( ρ ( x, s ) ) + k1 α ( x, f ( x, u, v, t ) ) =
= p1 ( ρ ( x, s ) ) + k1 ( α% ( x, u, v, t ) ) = e% ( x, u, v, t ) .
Для того чтобы для произвольной траектории x ( t )
( x ( t0 ) ∈ Q ( t0 ) )
существовало
приемлемое растянутое множество Q% ( t ) , для которого x ( t ) ∈ Q% ( t ) , t ≥ t0 , потребуем выполнения следующего неравенства: e ( x, x& ) ≤ e ( s ) , или
e% ( x, u, ξ, t ) ≤ e ( s ) ∀ s ∈ ГQ ( t ) при x = x ( t ) ∉ Q ( t ) , t ≥ t0 . Рассмотрим условия его выполнения. Считаем, что скалярные неотрицательные функции p1 ( ρ ( x, s ) ) и k1 ( α% ( x, u, ξ, t ) ) связаны между собой таким образом (по анало-
гии с потенциальной и кинетической энергиями), что увеличение одной из них автоматически приводит к уменьшению другой (заметим, что данному условию могут также удовлетворять и функции ρ ( ⋅) , α% ( ⋅) при x ∉ Q ). Если в качестве меры близости используются δ -уровни, то p1 ( δ ) + k1 ( α% ( x, u, ξ, t ) ) ≤ e ( s ) ∀ s ∈ ГQ ( t ) , t ≥ t0 . Пусть поверхности δ -уровней ( δ ≥ 0 ) ГQδ ( t ) будут такими, что между элементами ГQ0 ( t ) = ГQ ( t ) и элементами произвольной ГQδ ( t ) имеется взаимнооднознач-
Глава 2. Синтез робастных САУ в пространстве состояний
149
ное соответствие. Тогда всегда можно выбрать такую вектор-функцию η ( x, t ) , которая для каждого x ∈ ГQδ ( t ) определяет соответствующий вектор s = η ( x, t ) ∈ ГQ ( t ) . Причем в общем случае таких взаимнооднозначных функций существует бесконечное множество. В силу этого на основе соотношений ⎧⎪ψ ( x, t ) = δ, ⎨ ⎪⎩s = η ( x, t ) ∈ ГQ ( t ) , t ≥ t0 также определяется взаимнооднозначное соотношение вида x = z ( s, δ, t ) ∈ ГQδ ( t ) , t ≥ t0 , с учетом которого получим p1 ( δ ) + k1 α% ( z ( s, δ, t ) , u, ξ, t ) ≤ e ( s ) ∀ s ∈ ГQ ( t ) , t ≥ t0 ,
(
)
где p1 ( ⋅) монотонно возрастает по переменной δ, а функция k1 ( ⋅) монотонно убывает по δ. Вычислим производную ⎧ ∂k1 ∂k1 ∂α% ⎪⎪ ∂δ = ∂α% ⋅ ∂δ ; ⎨ % ⎪ ∂α = ⎛ ∇ α% , ∂z ⎞ + ⎛ ∇ α% , ∂u ⎞ , ⎪⎩ ∂δ ⎝⎜ z ∂δ ⎠⎟ ⎝⎜ u ∂δ ⎠⎟ где вектор ∂u ∂δ ≠ 0 только в том случае, если управление рассматривается (или ищется) в виде u = u% ( x, t ) = u% ( z ( s, δ, t ) , t ) . Тогда
∂u ∂z = ∇ z u% ⋅ ∂δ ∂δ
и
∂α% ⎛ ∂z ⎞ T = ⎜ ∇ z α% + ( ∇ z u% ) ⋅∇u α% , ⎟ . ∂δ ⎝ ∂δ ⎠ ∂k1 ∂α% > 0, то < 0. ∂α% ∂δ Проанализируем последнее неравенство. Вначале заметим, что скалярная величина δ принимает значения на отрезке Δ ( t )
Поскольку в силу монотонного возрастания функции k1 ( z )
δ ∈ Δ ( s ) = ⎡⎣ 0, δ ( s ) ⎤⎦ , s ∈ ГQ ( t ) ,
где δ ( s ) определяется из условия
p1 ( δ ) = e ( s ) , s ∈ ГQ ( t ) . Это соответствует максимальной потенциальной энергии, когда α% ( ⋅) = 0, т.е. когда траектория x ( t ) перестает удаляться от множества Q ( t ) , достигнув своего предельного значения, максимально удаленного от Q ( t ) . В этом случае должно выполняться равенство x%& = 0. Тогда если для некоторого s ∈ ГQ ( t ) α% ( ⋅) > 0 и при этом существует такая величина δ* ( s ) ∈ Δ ( s ) , что ∂α% ∂δ < 0 ∀δ ∈ Δ* ( s ) = ⎡⎣δ% , δ* ( s ) ⎤⎦ ⊆ Δ ( s ) , δ% ≥ 0, то это являет-
150
Методы современной теории автоматического управления
ся необходимым условием указанного равенства, или, что то же самое, равенства α% ( ⋅) = 0 при δ = δ* ( s ) . Отсюда нетрудно получить следующий результат. Теорема 2.9. Для того чтобы в некоторой точке x = z ( s, δ, t ) траектория x ( t ) исходной системы не удалялась от множества Q ( t ) в смысле меры близости, соответствующей δ -уровням, достаточно, чтобы в данной точке выполнялись соотношения: ∂α% α% ( ⋅) = 0, (2.229) < 0. ∂δ Используя теорему 2.9, можно определить условия, обеспечивающие удержание произвольной траектории системы в окрестности множества Q ( t ) .
Теорема 2.10. Для того чтобы произвольная траектория x ( t ) , x ( t0 ) = x0 ∈ Q ( t0 ) системы не удалялась от множества Q ( t ) на неограниченное расстояние в смысле меры близости, соответствующей δ -уровням, достаточно, чтобы для каждого s ∈ ГQ ( t ) выполнялось одно из условий: ⎪⎧∃ δ ≥ 0, для которого справедливо (2.229), (2.230) ⎨ ⎪⎩ либо при δ = 0 α% ( ⋅) < 0. Окончательный результат следует непосредственно из теоремы 2.10. Очевидно, для того чтобы x ( t ) не выходила за пределы приемлемого растянутого множества Q ( t ) , достаточно, чтобы соотношение (2.230) было справедливо при δ ∈ Δ ( s ) , t ≥ t0 .
Заметим, что если в качестве меры близости ρ ( x, s ) использовать другую произвольную меру, то получим результат аналогичный теоремам 2.9, 2.10 (т.е. с аналогичными соотношениями (2.229), (2.230)). При этом удаленность x ( t ) от Q ( t ) будет изменяться по новой мере близости. Отметим также, что выбор функций потенциальной энергии p1 ( δ ) и энергетического барьера e ( s ) определяет ширину отрезка Δ ( s ) , в котором осуществляется рассеивание кинетической энергии системы. На рис. 2.13 показана зона рассеивания для некоторого заданного множества Q ( t ) . x2
x1 ( t )
Зона рассеивания кинетической энергии
Q (t )
x02 x10
x1
0
x2 (t ) Рис. 2.13. Формирование зоны рассеивания энергии, определяющей приемлемое растяжение Q ( t )
Глава 2. Синтез робастных САУ в пространстве состояний
151
Часто для произвольной s ∈ ГQ ( t ) для выполнения x ( t ) ∈ Q% ( t ) достаточно, чтобы существовал δ ∈ Δ ( s ) , для которого ∂α% ∂δ
0.
Предложенный метод основан на энергетическом представлении в пространстве состояний функционирования динамической системы управления. В соответствии с методом для выхода системы за пределы влияния заданных фазовых ограничений необходимо преодолеть некоторый энергетический барьер. Удержание системы в зоне влияния фазового множества рассматривается как допустимое растяжение (локальное расширение) данного множества. Используя это представление, удалось получить достаточно простые соотношения (в виде достаточных условий), на основе которых можно эффективно как анализировать разрешимость задачи синтеза, так и непосредственно синтезировать требуемый закон управления на всём множестве действующих возмущений. 2.4.
ПОСТРОЕНИЕ РОБАСТНЫХ СИСТЕМ УПРАВЛЕНИЯ ПРИ МОДУЛЬНЫХ ОГРАНИЧЕНИЯХ
В данной главе показано решение задачи синтеза при модульных ограничениях на компоненты вектора состояния на примере линейных систем управления. Приведена геометрическая интерпретация основной теоремы метода фазовых ограничений и показано ее непосредственное использование. Рассмотрен синтез при ограничениях на качество управления, приведены некоторые численные процедуры решения задачи. Дан анализ разрешимости задачи синтеза с учетом преобразования поворота фазовых ограничений. Показаны связь кругов Гершгорина с разрешимостью задачи синтеза и их использование для построения робастных систем управления. Введена оценка степени робастности системы, с помощью которой предлагается синтезировать системы заданной робастности. Показана связь полученных достаточных условий на параметры регулятора со свойствами так называемых входных-выходных матриц. Рассмотрен вопрос выбора допустимых фазовых ограничений на основе положительного собственного вектора входной-выходной матрицы. Сформулирован критерий разрешимости задачи синтеза. Приведена процедура синтеза системы управления на основе управления максимальным собственным значением входной-выходной матрицы. Предложен критерий управляемости данным собственным значением. 2.4.1.
ПОСТАНОВКА ЗАДАЧИ СИНТЕЗА ЛИНЕЙНОЙ МСАУ ПРИ МОДУЛЬНЫХ ФАЗОВЫХ ОГРАНИЧЕНИЯХ
В предыдущих главах были получены общие соотношения, позволяющие формировать различные законы управления по заданным фазовым ограничениям для тех или иных динамических систем. Рассмотрим решение задачи синтеза применительно к линейным многомерным системам автоматического управления (МСАУ) при фазовых ограничениях вполне определенного вида. Пусть уравнение МСАУ имеет вид ⎧⎪x& = Ax + Bu% , (2.231) ⎨ ⎪⎩x ( t0 ) = x0 , t ≥ t0 , где x, u% — ( n × 1)- и ( m × 1)-векторы состояния и управления; A = A ( t ) = ⎡⎣ a jν ( t ) ⎤⎦
n ,n j ,ν=1
, B = B ( t ) = ⎡⎣b jμ ( t ) ⎤⎦
n ,m j ,μ=1
.
Причем u% = u + y1 ,
(2.232)
где y = y ( t ) — некоторое задающее управление (воздействие); u — управление, 1
1
формируемое по принципу обратной связи.
152
Методы современной теории автоматического управления
На рис. 2.14, 2.15 показаны возможные структуры, соответствующие МСАУ (2.231). y1
ε
КУ
u%
x
x& = Ax + Bu%
xв
C
x в = Cx Рис. 2.14. МСАУ с КУ в прямой цепи
Здесь КУ — корректирующее устройство, являющееся линейным безынерционным звеном; C — (l × n )-матрица измерителя вида C = C ( t ) = ⎡⎣ cξν ( t ) ⎤⎦
l ,n ξ ,ν=1
; xв —
(l × 1)-вектор выхода (измерения); x в = Cx
(2.233)
— уравнение измерителя; ε = y − x в — (l ×1)-вектор невязки; y ( t ) — (l ×1)-вектор задающих воздействий. y1
u%
x
x& = Ax + Bu%
xв
C
xв
K
Рис. 2.15. МСАУ с регулятором в цепи обратной связи
Здесь K — ( m × l )-матрица регулятора (обратной связи), которая в общем случае может быть нестационарна, т.е. K = K ( t ) = ⎡⎣ kμξ ( t ) ⎤⎦
m ,l μ ,ξ=1
;
u = Kxв = KCx
(2.234)
— уравнение регулятора. С учетом (2.232)–(2.234) уравнение (2.231) приводится к виду % + By1 , ⎧⎪x& = Ax (2.235) ⎨ ⎪⎩x ( t0 ) = x0 , t ≥ t0 , где % = A + BKC A (2.236) — матрица состояния замкнутой системы. В общем случае ограничения на вектор состояния могут быть представлены согласно рис. 2.16 (для случая n = 2 ). Здесь Q ( t0 ) , Q ( tk ) , Q ( t ) — сечения «фазовой трубки» («пучка траекторий») Ω [t0 , tk ] в начальный t0 , конечный tk и текущий t моменты времени; x10 и x02 , x1k и
xk2 — начальные и конечные значения фазовых траекторий; Ω [t0 , tk ] — фазовая труб-
ка, представляющая собой совокупность множеств Q ( t ) допустимых значений вектора состояния x и системы (2.235), определенных для каждого значения t ∈ [t0 , tk ]. В достаточно общем случае множество Q ( t ) можно представить в виде
Глава 2. Синтез робастных САУ в пространстве состояний
153
χ
Q ( t ) = I Qi ( t ),
(2.237)
i =1
где
{
}
Qi ( t ) = x ∈ R n : ψ i ( x, t ) ≤ 0 , i ∈ 1, χ, ψ i ( x, t )
— некоторые непрерывно-дифференцируемые в R n функции ограничения;
{
}
Γ Qi ( t ) = x ∈ R n : ψ i ( x, t ) = 0 , i ∈ 1, χ
— граница множества Qi ( t ) . Считаем также, что Γ Q ( t ) — граница множества Q ( t ) , образованная участками границ Γ Qi ( t ) , i ∈1, χ, которые будем обозначать Γ Q ( t ) IΓ Qi ,
i ∈1, χ. Тогда для рассматриваемой МСАУ можно поставить следующие задачи: 1) требуется определить, существует ли для данного x 0 ∈ Q ( t0 ) такая траектория x ( t , x 0 ) системы (2.235), что x ( t , x 0 ) ∈ Q ( t ) ∀ t ≥ t0 или ∀ t ∈ Τ ,
(2.238)
и если существует, то какое допустимое управление u ∈ R m ей соответствует; 2) существует ли такое допустимое управление (допустимый закон управления) u ∈ R m, которое обеспечивает выполнение условия ⎧⎪x ( t , x0 ) ∈ Q ( t ) ∀ x0 ∈ Q ( t0 ) ⎨ ⎪⎩и ∀ t ≥ t0 или ∀ t ∈ Τ , где T — некоторый заданный непрерывный отрезок времени.
( )
x t , x10
x2
(2.239)
x1k x 2 k Q (tk )
(
x t , x02
t x10
x 20
Q(t)
)
Ω [t0 , tk ]
Q ( t0 )
x1
0
Рис. 2.16. Вид «фазовой трубки»
В дальнейшем в качестве функций ограничения ψ i ( x ) , i = 1, χ рассматриваются следующие функции: ⎧⎪ψ i+ ( x, t ) = − qi ( t ) + xi , i ∈1, n; ⎨ − ⎪⎩ψ i ( x, t ) = − qi ( t ) − xi , i ∈1, n, соответствующие фазовым ограничениям вида xi ≤ qi ( t ) , i ∈1, n, qi ( t ) — непрерывно-дифференцируемые неотрицательные функции.
(2.240)
(2.241)
154
Методы современной теории автоматического управления
2.4.2. ГЕОМЕТРИЧЕСКИЕ УСЛОВИЯ ОБЕСПЕЧЕНИЯ ФАЗОВЫХ ОГРАНИЧЕНИЙ Рассмотрим применение теоремы 2.1 для случая, когда фазовые ограничения задаются в виде (2.237). Введем обозначения: ⎡ ∂ψ ∇ x ψi = ⎢ i ⎣ ∂x1
∂ψ i ∂x2
T
∂ψ i ⎤ L ⎥ , i ∈1, χ, ∂xn ⎦
% + Bu1 ( t ) , f = Ax n
∂ψ i ⋅ f j — скалярное произведение векторов ∇ x ψ i и f . j =1 ∂x j
( ∇xψi , f ) = ∑
Тогда аналогично теореме 2.1 можно показать, что для обеспечения фазовых ограничений (2.237) достаточно выполнения следующего условия. Следствие 2.8. Для объекта управления, описываемого уравнением (2.57) (или, в частном случае, (2.235)), для обеспечения ограничения x ( t ) ∈ Q ( t ) ∀ t ≥ t0 , где Q ( t ) определяется согласно (2.237), достаточно выполнения неравенств ∂ψ i ≤ 0 ∀ x ∈ ΓQi ( t ) I ΓQ ( t ) , i ∈ 1, χ, t ≥ t0 . (2.242) ∂t Покажем, как в пространстве состояний R n может быть интерпретировано данное неравенство. Допустим, что ψ i ( x, t ) ≡ ψ i ( x ) , i ∈1, χ, (2.243)
( ∇xψi , f ) +
т.е. функции ограничения стационарны, отсутствует их явная зависимость от t. Тогда неравенства (2.242) приводятся к виду (2.244) ( ∇ x ψi , f ) ≤ 0 ∀ x ∈ ΓQi I ΓQ, i ∈1, χ, t ≥ t0 .
Согласно определению [76], градиент ∇ x ψ i представляет собой вектор, ортого-
нальный гиперплоскости, касательной поверхности уровня функции ψ i ( x ) в точке
касания. Из определения ΓQi следует, что ΓQi является поверхностью уровня (нулевого
уровня) функции ψ i ( x ) . Следовательно, в каждой точке x ∈ ΓQi вектор ψ i ( x ) будет ортогонален гиперплоскости, касательной к ΓQi в данной точке.
Здесь гиперплоскости, касательные к ΓQi в точках x1, x 2, являются прямыми. Но тогда ∇ x ψ i ортогонален к данной гиперплоскости и в каждой точке x ∈ ΓQi I ΓQ.
Из (2.244) находим, что обеспечение фазовых ограничений (2.237) согласно (2.244) эквивалентно тому, что в каждой граничной точке ∀ x ∈ ΓQi I ΓQ, i ∈1, χ вектор скорости x& системы (2.57) или (2.235) должен быть направлен внутрь соот-
ветствующего полупространства R−n.
Но поскольку в каждой точке x ∈ ΓQi I ΓQ гиперплоскость Γ является касатель-
ной к границе множества Q, а само множество Q ⊂ R−n , то получим, что x& направлен либо внутрь Q, либо по касательной к его границе. В этом и состоит геометрический смысл условия (2.244), что отражено на рис. 2.17 для случая n = 2, χ = 4.
Глава 2. Синтез робастных САУ в пространстве состояний x2
∇ x ψ3
ΓQ3 I ΓQ
⋅ ΓQ1 I ΓQ
R2 ∇x ψ 2
⋅
x&
155
x&
⋅
x&
∇x ψ4
x1
x&
0
ΓQ2 I ΓQ
⋅ ∇ x ψ1
ΓQ1 I ΓQ
Q
Рис. 2.17. Геометрический смысл обеспечения фазовых ограничений
2.4.3.
ОПРЕДЕЛЕНИЕ ДОСТАТОЧНЫХ УСЛОВИЙ НА ПАРАМЕТРЫ РЕГУЛЯТОРА. ЧАСТНЫЙ СЛУЧАЙ ЭКСПОНЕНЦИАЛЬНЫХ ОГРАНИЧЕНИЙ
Неравенство (2.242) не зависит от выбора конкретного значения x0 ∈ Q ( t0 ) , т.е. если (2.242) выполняется, то, каким бы ни было начальное условие x0 ∈ Q ( t0 ) , соответствующая ему траектория x ( t , x 0 ) ∈ Q ( t ) ∀ t ≥ t0 . При этом в R m можно выбрать закон управления, обеспечивающий это включение. Если рассматривается сформулированная выше первая задача (2.238), то воспользоваться соотношением (2.242) можно следующим образом. Построим относительно заданного x0 некоторую достаточно малую окрестность Θ ( x0 ) , т.е. x 0 ∈ Θ ( x 0 ) ⊂ Q ( t0 ) .
(2.245)
Аналогично тому, как было построено множество Q ( t ) , t ≥ t0 , построим такое множество Q ( t , x0 ) , t ≥ t0 , что ⎧⎪Q ( t , x0 ) ⊆ Q ( t ) , t ≥ t0 ; (2.246) ⎨ ⎪⎩Q ( t0 , x0 ) = Θ ( x0 ) . Тогда, применяя на множестве Q ( t , x0 ) соотношение (2.242), можно решать задачу (2.238). Рассмотрим неравенство (2.242) применительно к линейной системе (2.235). Подставим в (2.242) вместо f выражение из (2.235). Получим % + Bu1 ( t ) + ∂ψ i ≤ 0 ∀ x ∈ ΓQ ( t ) ΓQ ( t ), t ≥ t , i ∈ 1, χ. ∇ x ψ i , Ax I i 0 ∂t Отсюда находим % + ∂ψ i ≤ − ∇ ψ , Bu1 ( t ) ∀ x ∈ ΓQ ( t ) ΓQ ( t ), t ≥ t , i ∈ 1, χ. (2.247) ∇ x ψ i , Ax I x i 0 i ∂t Рассмотрим случай, когда u1 ( t ) ≡ 0, (2.248)
(
(
)
)
(
)
156
Методы современной теории автоматического управления
а множество Q ( t ) формируется на основе ограничений (2.241). Тогда % ) ≤ − ∂ψ i ( ∇xψi , Ax ∂t
∀ x ∈ ΓQi± ( t ) I ΓQ ( t ), t ≥ t0 , i ∈1, χ,
(2.249)
% = [ a% ]n,n ; χ = n — для функций ограничения вида (2.240), (2.241); ΓQ + ( t ) , где A iν i ,ν=1 i ΓQi− ( t ) — границы множеств Qi+ ( t ) , Qi− ( t ) , формируемых соответственно на осно-
ве функций ψ i+ ( x, t ) , ψ i− ( x, t ) вида (2.240). Множество Q ( t ) при t ≥ t 0 является гиперпараллелепипедом и может быть представлено следующим образом (рис. 2.18, n = 2 ). Преобразуем неравенство (2.249). С учетом (2.240) получим T ⎧ ⎡ ⎤ ⎪ + ⎢ L 0 1 0 L 0 ⎥ , i ∈ 1, n; ⎪∇ x ψ i = ⎢014 4244 3 ⎥ ⎪ i ⎣ ⎦ ⎨ T ⎪ ⎡ ⎤ ⎪∇ x ψ i− = ⎢0 L 0 −1 0 L 0 ⎥ , i ∈ 1, n; 3 ⎪ ⎢ 144244 ⎥ i ⎣ ⎦ ⎩ ∂ψ i+ ∂ψ i− = = − qi ( t ) , i ∈1, n. ∂t ∂t x2 q2 ΓQ1+ I ΓQ
ΓQ1+ I ΓQ
R2
ΓQ1+ I ΓQ
Q (t ) − q1
(2.250)
0
x1
q1 −q2
ΓQ1+ I ΓQ
Рис. 2.18. Вид модульных фазовых ограничений
Так как n n % = ⎡⎢ a% x Ax ∑ 1ν ν ∑ a%2ν xν L ν=1 ⎣ ν=1 то с учетом выражений для ∇ x ψi+ , ∇ x ψ i−
T
⎤ ∑ a%nν xν ⎥ , ν=1 ⎦ n
n ⎧ + % = ∑ a%iν xν ; ⎪ ∇ x ψ i , Ax ⎪ ν=1 (2.251) ⎨ n ⎪ ∇ ψ − , Ax % = − a% x , i ∈1, n. ∑ iν ν ⎪ x i ν=1 ⎩ Вектор x в неравенстве (2.242) рассматривается на участках границы ΓQi± ( t ) I ΓQ ( t ), i ∈1, n, т.е.
(
)
(
)
Глава 2. Синтез робастных САУ в пространстве состояний ⎧⎪если x ∈ ΓQi+ I ΓQ, то xi = qi ( t ) , xν ≤ qν ( t ) , ν ∈1, n \ i ; ⎨ − ⎪⎩если x ∈ ΓQi I ΓQ, то xi = −qi ( t ) , xν ≤ qν ( t ) , ν ∈1, n \ i. Подставляя (2.250)–(2.252) в (2.242), получим ⎧n ⎪∑ a%iν xν ≤ q&i ( t ) − a%ii qi ( t ), t ≥ t0 , i ∈1, n, xν ≤ qν ( t ) ; ⎪ ν=1 ⎪ ν≠i ⎨ n ⎪− a% x ≤ q& t − a% q t , t ≥ t , i ∈1, n, x ≤ q t . i( ) ii i ( ) 0 ν ν( ) ⎪ ∑ iν ν ν=1 ⎪⎩ ν≠i
157 (2.252)
(2.253)
Очевидно, неравенства (2.253) преобразуются к виду n
∑ a%iν xν ν=1 ν≠ i
≤ q&i ( t ) − a%ii qi ( t ) , i ∈ 1, n, xν ≤ qν ( t ) , ν ∈ 1, n \ i, t ≥ t0 .
(2.254)
Поскольку (2.254) должно выполняться для любых значений xν ≤ qν ( t ) , ν ∈1, n \ i, то оно должно выполняться и для такого x, которое доставляет максимум левой части неравенства. Очевидно, n
n
n
n
ν=1 ν≠i
ν=1 ν≠i
ν=1 ν≠i
ν=1 ν≠i
∑ a%iν xν ≤ ∑ a%iν xν = ∑ a%iν ⋅ xν ≤ ∑ a%iν qν ( t ). Кроме того, при xν = qν ( t ) sign a% jν , ν ∈1, n \ i n
n
ν=1 ν≠i
ν=1 ν≠i
∑ a%iν xν = ∑ a%iν qν ( t ) , следовательно, n
n
ν=1 ν≠i
ν=1 ν≠i
∑ a%iν xν = ∑ a%iν qν ( t ). x ≤q ( t ) max
ν
ν
(2.255)
В результате (2.254) примет вид n
∑ a%iν qν ( t ) ≤ q&i ( t ) − a%ii qi ( t ) , ν=1 ν≠i
t ≥ t0 , i ∈1, n.
(2.256)
Соотношения (2.256) в общем случае являются достаточными условиями для выбора закона регулирования, обеспечивающего ограничения (2.241). Укажем частный случай, когда (2.256) являются и необходимыми условиями. Пусть qi ( t ) = d i eλt , i ∈ 1, n, где di > 0 — некоторые постоянные величины. Тогда получим n
∑ a%iν dνeλt ≤ di λeλt − a%ii di eλt , ν=1 ν≠i
i ∈1, n, t ≥ t0 ,
или n
∑ a%iν dν ≤ di ( λ − a%ii ), ν=1 ν≠i
i ∈1, n, t ≥ t0 .
(2.257)
158
Методы современной теории автоматического управления
Если система (2.231) стационарна, то неравенства (2.257) также будут стационарными. При этом согласно [160] их можно рассматривать как необходимые и достаточные условия обеспечения экспоненциальных ограничений. 2.4.4.
АНАЛИЗ РАЗРЕШИМОСТИ ДОСТАТОЧНЫХ УСЛОВИЙ ОБЕСПЕЧЕНИЯ ФАЗОВЫХ ОГРАНИЧЕНИЙ
Согласно (2.236) % = A + BKC. A % через элементы a , b , k , c соответстматрицы A iν iμ μξ ξν
Выразим элементы a%iν
венно матриц A, B, K , C. Нетрудно показать справедливость равенства l
m
a%iν = aiν + ∑∑ biμ kμξ cξν , i ∈1, n, ν ∈1, n.
(2.258)
ξ=1 μ=1
Подставив (2.258) в (2.256), получим следующую систему неравенств относительно элементов синтезируемой матрицы K : n l m l m ⎛ ⎞ ∑ aiν + ∑∑ biμ kμξ cξν ⋅ qν ( t ) ≤ q&i ( t ) − ⎜⎜ aii + ∑∑ biμ kμξ cξν ⎟⎟ qi ( t ) , ν=1 ξ=1 μ=1 ξ=1 μ=1 (2.259) ⎝ ⎠ ν≠ i
i ∈ 1, n, t ≥ t0 . Проанализируем условия разрешимости данной системы неравенств. Из (2.256), (2.259) видно, что левая часть каждого неравенства данной системы является неотрицательной. Следовательно, для разрешимости необходимо, чтобы и правые части неравенств также были неотрицательными. Кроме того, для различных задач, представляющих практический интерес, можно потребовать q&i ( t ) ≤ 0, i ∈1, n, t ≥ t0 , (2.260)
т.е. чтобы qi ( t ) были монотонно невозрастающими функциями.
Таким образом, если выполняются неравенства (2.260), то из (2.256) следует q&i ( t ) − a%ii qi ( t ) ≥ 0, i ∈1, n, t ≥ t0 или
a%ii qi ( t ) ≤ q&i ( t ) ;
a%ii ≤
q&i ( t ) ≤ 0, i ∈1, n, t ≥ t0 . qi ( t )
Отсюда l
m
aii + ∑∑ biμ kμξ cξν ≤ 0, i ∈1, n, t ≥ t0 .
(2.261)
ξ=1 μ=1
Неравенства (2.261) представляют собой необходимое условие разрешимости соотношений (2.259). Неравенства (2.259) проще обеспечивать, если матрица A имеет главную диагональ с доминирующими отрицательными элементами aii , i ∈ 1, n. Рассмотрим геометрическое условие разрешимости неравенств (2.259), которое для линейных систем может быть распространено на общий случай задания произвольных линейных ограничений. Действительно, пусть ограничения (2.237), задающие множество Q ( t ) , являются линейными, т.е. ψ i ( x, t ) , i ∈1, χ — произвольные линейные функции. Тогда Q ( t ) — некоторый многоугольник достаточно произвольного вида. Ограничения также счи-
Глава 2. Синтез робастных САУ в пространстве состояний
159
таются технически реализуемыми, т.е. соответствующий им многоугольник Q ( t ) сжимается при t ≥ t0 . Используя геометрические свойства соотношений (2.242) и известные результаты [42], согласно которым произвольная линейная форма ∂ψ i ⎤ ⎡ ⎢⎣( ∇ x ψ i , f ) + ∂t ⎥⎦ , i ∈1, χ на линейных ограничениях (2.237) принимает экстремальные значения в вершинах многоугольника Q ( t ) , аналогично рассмотренному случаю можно показать, что для разрешимости (2.242) требуется, чтобы в каждой вершине M ξ многоугольника Q ( t ) вектор скорости x& системы (2.235) был направлен внутрь Q ( t ) (см. рис. 2.19).
x2
R2
M1
M6
M2
x&
Q
x& 2
x1
x& 6
0
x& 3
1
x& 4
x& 5 M5
M3 M4
Рис. 2.19. Геометрическое условие разрешимости фазовых ограничений
Если, например, для некоторого заданного Q ( t ) геометрическое условие разрешимости не выполняется в одной из вершин M (см. рис. 2.20), то обеспечить разрешимость возможно путем деформации Q ( t ) за счет изменения вершины M. x2
Q′
M′
& x′
Q
M
R2
x&
x1
0
Рис. 2.20. Деформация Q ( t ) за счет изменения вершин
2.4.5. СИНТЕЗ МСАУ ПРИ ОГРАНИЧЕНИЯХ НА КАЧЕСТВО РЕГУЛИРОВАНИЯ Рассмотрим применение условий (2.242) или (2.247) для решения задачи построения МСАУ с заданными ограничениями на качество регулирования. Воспользуемся
160
Методы современной теории автоматического управления
определением качества регулирования согласно [177] и распространим его на случай многомерной системы. Ограничения на качество регулирования примут вид −qi− ( t ) ≤ xi ≤ qi+ ( t ) , t ≥ t0 , i ∈1, n. (2.262) В достаточно общем случае рассматривается МСАУ, показанная на рис. 2.21. y
ε
Объект упр авления
x
xв
C xв
K Рис. 2.21. Схема синтезируемой МСАУ
Здесь x& = Ax + Bu% ; u = Kx в ; x в = Cx; ε = y − u; u% = ε. Отсюда получим уравнение МСАУ x& = Ax + B ε = A x + B ( y − u ) = Ax + B ( y − K C x ) или % + B y (t ) , x (t ) = x , t ≥ t ; ⎧⎪x& = Ax 0 0 0 (2.263) ⎨ % ⎩⎪ A = A − B K C. Для рассматриваемого случая (2.263) соотношения (2.242) можно представить в виде % ≤ − ∂ψ i − ( ∇ ψ , B y ( t ) ) ∀ x ∈ Γ Q(t ) Γ Q ( t ), t ≥ t , i ∈ 1, χ. (2.264) ∇ x ψ i , Ax I i x i 0 ∂t С учетом (2.262) функции ограничения определяются согласно зависимостям: ⎧⎪ψ i+ ( x, t ) = xi − qi+ ( t ) ≤ 0, i ∈1, n; (2.265) ⎨ − − ⎪⎩ψ i ( x, t ) = − xi − qi ( t ) ≤ 0, i ∈1, n. Получим окончательный вид требуемых соотношений m ⎧n − − − ⎪∑ a%iν βiν ≥ −q&i ( t ) + a%ii qi ( t ) − ∑ biμ yμ ( t ) , i ∈ 1, n, t ≥ t0 ; μ=1 ⎪ν=1 ⎪ν≠ i (2.266) ⎨n m ⎪ a% β + ≤ q& + t − a% q + t − b y t , i ∈ 1, n, t ≥ t . 0 i ( ) ii i ( ) ∑ iμ μ ( ) ⎪ ∑ i ν iν ν=1 μ=1 ⎪⎩ν≠ i Соотношения (2.266) являются более общими по сравнению с (2.256) и могут быть сведены к последним, если положить qν− ( t ) = qν+ ( t ) ∀ν ∈1, n; yμ ( t ) ≡ 0, μ ∈ 1, m, (2.267)
(
)
т.е. несимметричные фазовые ограничения заменяются симметричными, а задающее воздействие обнуляется. Допустим, что фазовые ограничения являются симметричными, т.е. qν− ( t ) = qν+ ( t ) = qν ( t ) > 0, ν ∈1, n, а
yμ ( t ) ≠ 0 при μ ∈ 1, m.
Тогда (2.266) принимает вид m
n
μ=1
ν=1 ν≠i
∑ biμ yμ ( t ) ≤ q&i ( t ) − a%i i qi ( t ) − ∑ a%iν qν ( t ) ,
i ∈ 1, n, t ≥ t0 .
(2.268)
Глава 2. Синтез робастных САУ в пространстве состояний
161
Нетрудно видеть, что неравенства (2.268) разрешимы тогда и только тогда, когда разрешимы неравенства (2.256). А из (2.266) следует, что для разрешимости данных неравенств необходимо выполнение соотношений −q&i− ( t ) + a%ii qi− ( t ) ≤ q&i+ ( t ) − a%ii qi+ ( t ) , i ∈1, n, t ≥ t0 . (2.269) В некоторых случаях неравенство (2.266) можно упростить. Допустим, что выполняется условие B y ( t ) ∈ L {A} , (2.270) где L{A} — линейное подпространство в R n, натянутое на вектор-столбцы матрицы A (или L{A} = Im A — область значений вектор-функции A x при x ∈ R n [206]). Тогда существует такой вектор x* ∈ R n, для которого − Ax * = Bx в .
(2.271)
В системе (2.263) вида % x + Bx = ( A − BKC ) x + Bx x& = A в в произведем замену переменной по формуле x€ = x − x* . Имеем % x€ + A x * − BKCx * + Bx , x&€ + x& * = A в или с учетом (2.271) % € − x& * + BKCx* . x&€ = Ax
(2.273)
Ограничения (2.262) примут вид −qi− ( t ) ≤ x€i + xi* ≤ qi+ ( t ) , i ∈ 1, n, отсюда −qi− ( t ) − xi* ≤ x€i ≤ qi+ ( t ) − xi* , i ∈ 1, n.
(2.274)
(
(2.272)
)
Считаем, что ограничения для x€i , i ∈ 1, n являются симметричными, т.е.
qi+ ( t ) − xi* = qi− ( t ) + xi* = δi ( t ) > 0, i ∈1, n. Тогда с учетом (2.274) x€i ≤ δi ( t ) , i ∈ 1, n.
(2.275) (2.276)
На рис. 2.22 ограничения (2.274) показаны для постоянного и переменного x*. Таким образом, приходим к задаче обеспечения симметричных фазовых ограничений (2.276) для системы (2.273). а
б
xi
xi
δi
δi
δi
δi xi*
δi
xi*0 xi*
δi t
0
δi
δi
0
Рис. 2.22. Ограничения для постоянного (а) и переменного (б) вектора x*
t
162
Методы современной теории автоматического управления
Обозначим
x& * + B K Cx* = z * = z * ( K ,t ) — ( n × 1)-вектор. (2.277) Тогда система (2.273) приводится к уравнению % € − z * , x€ ( t ) = x€ , t ≥ t , (2.278) x&€ = Ax 0 0 0 где вектор x€ должен удовлетворять симметричным ограничениям (2.276). Поскольку система (2.278) имеет такой же вид, что и (2.263), то для нее справедливы соотношения n
max
xν ≤δν
∑ a%iν x€ν − zi*
≤ δ& i − a%ii δi , i ∈ 1, n, t ≥ t0 .
ν=1 ν≠ i
(2.279)
Из (2.279), с учетом того что max
xν ≤δν
n
n
ν=1 ν≠ i
ν=1 ν≠ i
∑ a%iν x€ν − zi* = ∑ a%iν δν + zi* ,
следует неравенство n
zi* ≤ δ& i − a%ii δi − ∑ a%iν δν , i ∈1, n, t ≥ t0 ,
(2.280)
ν=1 ν≠i
аналогичное (2.268) и удовлетворяющее тем же самым условиям разрешимости, что и (2.268). При этом вектор z * формируется согласно выражению (2.277). 2.4.6.
О ДЕФОРМАЦИИ ФАЗОВЫХ ОГРАНИЧЕНИЙ ДЛЯ ОБЕСПЕЧЕНИЯ РАЗРЕШИМОСТИ ДОСТАТОЧНЫХ УСЛОВИЙ
При решении неравенств (2.256) одним из приведенных в предыдущем параграфе методов вероятен случай, когда выполнение соотношений (2.259) в классе линейных законов управления (2.234) обеспечить невозможно. Но это не означает, что для рассматриваемой системы (2.235) нельзя подобрать такие фазовые ограничения, при которых соотношения (2.259) будут разрешимыми. Причем часто для разрешимости требуется лишь незначительно сформировать (изменить) заданные ограничения. В частности, так, как показано выше на рис. 2.20. Допустим, что деформация Q ( t ) осуществляется за счет некоторого поворота данного множества в пространстве R n без изменения геометрических соотношений данного множества. Переход от множества Q ( t ) к множеству Q′ ( t ) за счет некоторого поворота Q ( t ) на угол α называется преобразованием вращения [125] и характеризуется матрицей вращения Tij , соответствующей повороту Q ( t ) в плоскости двух переменных xi и x j . При этом ⎡1 ⎢0 ⎢ ⎢M ⎢ ⎢0 ⎢0 Tij = ⎢ ⎢M ⎢0 ⎢ ⎢0 ⎢ ⎢M ⎢⎣0
0 L
0
0 L 0
1 L
0
0 L 0
M O
M
M O M
0 L
0
1 L 0
M O
M
M O M
0 L cos α 0 L 0
0 L 0 0 L sin α
0 L 1 0 L 0
M O
M
M O M
0 L
0
0 L 0
L 0⎤ 0 L 0 ⎥⎥ M O M⎥ ⎥ − sin α L 0 ⎥ 0 L 0⎥ ⎥. M O M⎥ 0 L 0⎥ ⎥ cos α L 0 ⎥ ⎥ M O M⎥ 0 L 1 ⎥⎦ 0
(2.281)
Глава 2. Синтез робастных САУ в пространстве состояний
163
Матрица Tij обладает свойствами ортогональной матрицы, согласно которым
TijT ⋅ Tij = Tij ⋅ TijT = E, т.е. TijT = Tij−1. Если в R n осуществляется несколько поворотов множества Q ( t ) , характеризуемых матрицами вращения Ti1 j1 , Ti2 j2 ,K , Tik jk , то общий поворот Q ( t ) к Q′ ( t ) характеризуется матрицей вида
T = Tik jk ⋅K ⋅ Ti2 j2 ⋅ Ti1 j1 .
(2.282)
Тогда вектор x& , полученный в результате поворота вектора x, равен x′ = T x, а множество Q′ ( t ) определяется по формуле
{
}
Q′ = T ⋅ Q = x′ ∈ R n : x′ = T x, x ∈ Q .
(2.283) (2.284)
Фазовые ограничения для деформированного многоугольника будут следующими: x = x ( t ) ∈ Q′ ( t ) , t ≥ t 0 . (2.285) Таким образом, вместо соотношения x ( t ) ∈ Q ( t ) , t ≥ t0 , где Q ( t ) задается согласно (2.241), необходимо для системы (2.235) обеспечить деформированные ограничения (2.285). Данную задачу можно свести к рассмотренной путем соответствующей замены переменных. Действительно, если исходный вектор x преобразовать к x′ согласно (2.283), то в новой системе координат деформированный многоугольник имеет вид (2.286) Q′ ( t ) = x′ ∈ R n : x′ ≤ qi ( t ) , i ∈1, n ,
{
}
т.е. задается аналогично Q ( t ) в старой системе координат. Кроме того, (2.235) примет вид % − 1x′, T − 1x& ′ = AT или % − 1x′ = A % ′ x′; ⎪⎧x& ′ = T AT (2.287) ⎨ ⎪⎩x′ ( t0 ) = x′0 , t ≥ t0 , где % ′ = TAT % −1 = TAT % T A (2.288) согласно свойствам ортогональных матриц. В результате приходим к эквивалентной задаче обеспечения фазовых ограничений (2.286) для системы (2.287), которые будут выполняться тогда, если выполняется система неравенств n
∑ a%i′ν qν ( t ) ≤ q&i ( t ) − a%ii′ ( t ) qi ( t ), ν=1 ν≠i
i ∈1, n, t ≥ t0 ,
(2.289)
где
a%i′ν = a%i′ν ( K , α1 , α 2 ,K , α k ) , i, ν ∈1, n (2.290) % ′, которые помимо матрицы регулятора K зависят от — коэффициенты матрицы A углов поворота α1 , α 2 ,K , α k , определяемые матрицами вращения (2.291) Ti1 j1 , Ti2 j2 ,K, Tik jk .
При этом неравенства (2.289) разрешимы тогда и только тогда, когда для системы (2.235) разрешимы соотношения (2.242) для деформированных фазовых ограничений (2.285). Данное утверждение справедливо для произвольного невырожденного линейного преобразования (т.е. не только для преобразования вращения).
164
Методы современной теории автоматического управления
Это непосредственно следует из сравнения неравенств ∂ψ i ( x, t ) ⎧ ≤ 0; ⎪( ∇ x ψ i ( x, t ) , x& ) + ∂t ⎪ ⎪ ψ i T − 1x′, t ⎨ −1 −1 (2.292) ′ ′ & T x , t , T x ∇ ψ + ≤ 0; ⎪ x i ∂t ⎪ ⎪i ∈ 1, n, t ≥ t0 , ∀ x = T − 1x′ ∈ Γ Q′ ( t ) I Γ Qi′ ( t ). ⎩ Из (2.292) видна эквивалентность первого и второго неравенств, а значит, утверждение верно. Более того, можно показать, что если система (2.235) является полностью управляемой, то за счет преобразования поворота (2.281) многоугольник Q ( t ) вида (2.241) всегда можно деформировать таким образом, что соответствующие этому случаю неравенства (2.289) будут разрешимы. Для линейных систем вместо деформации всего многоугольника Q ( t ) можно рассматривать деформацию (смещение) его отдельных вершин. При этом смещать вершины необходимо таким образом, чтобы вектор скорости системы x& в смещенных координатах был направлен внутрь Q′ ( t ) .
(
2.4.7.
(
)
)
(
)
ИСПОЛЬЗОВАНИЕ КРУГОВ ГЕРШГОРИНА ДЛЯ АНАЛИЗА РАЗРЕШИМОСТИ ДОСТАТОЧНЫХ УСЛОВИЙ
Неравенства (2.256) можно рассматривать как некоторое обобщение известных результатов, полученных в теории матриц и используемых для локализации их собственных значений. Известным результатом, имеющим практическое значение, является теорема Герш% . В согорина [241] о локализации собственных значений произвольной матрицы A ответствии с ней вводятся обозначения: n ⎧ ⎪ρi = ∑ a%iν , i ∈1, n; ν=1 ⎪ ν≠i ⎪⎪ % ) = {z ∈ C : z − a% ≤ ρ }; (2.293) ⎨G ( A ii i ⎪ i n ⎪ % ) = G (A % ), ⎪G ( A U i ⎪⎩ i =1 % , заданного в комплексной плоскости C где ρi — радиус i-го круга Гершгорина Gi A (z
( ) %) — вектор на комплексной плоскости); G ( A
— область Гершгорина.
% , то согласно теореме ГершЕсли λi , i ∈1, n — собственные значения матрицы A горина % ∀ i ∈1, n. (2.294) λi ∈ G A
( )
Известен более общий результат, связанный с использованием кругов Гершгори% круги Гершгорина определяются слена. Согласно [8] для произвольной матрицы A дующим образом: ⎧ 1 n ⎪ρi = ⋅ ∑ a%iν pν ; pi ν=1 ⎪ (2.295) ⎨ ν≠i ⎪ % ) = {z ∈ C : z − a% ≤ ρ } , i ∈1, n. ⎪⎩Gi ( A ii i
Глава 2. Синтез робастных САУ в пространстве состояний
165
Im z C–
пл. C
ρ2
ρn a% nn
ρ1
a% 22
( )
% Gn A
( )
% G2 A
0
a%11
Re z
( )
% G1 A
Рис. 2.23. Расположение кругов Гершгорина в левой полуплоскости эквивалентно неравенствам (2.256)
( )
% имеет вид, аналогичный (2.293), и обеспечивает условия При этом область G A
локализации собственных значений (2.294), а ρi > 0, i = 1, n — произвольные неотрицательные числа. За счет соответствующего выбора ρi > 0, i = 1, n можно добиться %. хорошей локализации собственных значений матрицы A Допустим, что qi ( t ) = ρi ≡ const, i ∈1, n. (2.296) Тогда неравенства (2.106) приводятся к виду 1 n (2.297) ⋅ ∑ a% iν q ν ≤ − a% ii , i ∈1, n, t ≥ t 0 , q i ν=1 ν≠i
или с учетом (2.295) ρ i ≤ −a% ii , i ∈1, n, t ≥ t 0 , т.е. к рассмотренным уже соотношениям. % , i ∈1, n формируются согласно (2.295) Но при этом круги G A i
( )
Пусть круги Гершгорина имеют по-прежнему вид (2.295), но условия (2.296) не выполняются. Тогда получим q& 1 n ⋅ ∑ a%iν qν ≤ − a%ii + i , i ∈1, n, t ≥ t0 , qi ν=1 qi ν≠i
или q&i , i ∈1, n, t ≥ t0 . qi В плоскости C введем новую переменную z€ = z − z i , i ∈ 1, n, ρi ≤ − a%ii +
(2.298)
(2.299)
соответствующую i-му кругу Гершгорина Gi ( A ) , где z i — некоторый заданный вектор на плоскости C , z = z€ + z i ,
( )
% имеет вид и круг Gi A
166
Методы современной теории автоматического управления
( )
% = {z€ + z ∈ C : z€ + z − a% ≤ ρ } = Gi A i i ii i
{
}
= z€ ∈ C : z€ − ( a%i i − z i ) ≤ ρi , i ∈ 1, n.
( )
% , i ∈1, n центры Очевидно, что в новой системе координат у всех кругов Gi A
смещены на вектор ( a%ii − z i ) относительно нового начала отсчета (рис. 2.24).
Im z€ a%ii − zi
Im z
пл. C
zi
Re z€
ρi 0
a%ii
Re z
( )
% Gi A
Рис. 2.24. Круги Гершгорина при смещении центра координат
Положим zi =
В силу свойств qi ( t )
( )
q&i , i ∈1, n. qi
(2.300)
z i ∈ R1 и zi < 0 ∀ i ∈1, n.
(2.301)
% в новой системе координат имеют вид согласно рис. 2.25. Поэтому круги Gi A
Im z€
ρi
zi =
a%ii
( )
% Gi A
Im z
q& i qi 0
Re z, Re z€
a%i i − zi
Рис. 2.25. Круги Гершгорина в новой системе координат
В то же время неравенства (2.298) можно представить в виде ρi ≤ − ( a%ii − zi ) , i ∈1, n, t ≥ t0 . (2.302) Следовательно, и в этом случае, так же как и в двух предыдущих, получим, что неравенства (2.256) или (2.298) выполняются тогда и только тогда, когда для каждого % , i ∈1, n, представленного в новой системе координат (2.299), круга Гершгорина Gi A
( )
Глава 2. Синтез робастных САУ в пространстве состояний
167
( )
% расположен слева от прямой, параллельной мнимой оси и проходякаждый Gi A
щей через точку zi (см. рис. 2.25). Таким образом, показана справедливость следующей теоремы, связывающей разрешимость неравенств (2.256) с расположением на комплексной плоскости кругов Гершгорина. Теорема 2.11. Для разрешимости неравенств (2.256) необходимо и достаточно, что% , i ∈ 1, n, построенный для матрицы A % системы бы каждый круг Гершгорина G A i
( )
(2.235), располагался на комплексной плоскости С левее прямой, параллельной мнимой оси и проходящей через точку zi = q&i qi , i ∈ 1, n, лежащую на вещественной оси. В соответствии с данной теоремой можно утверждать, что если для системы (2.235) построены круги Гершгорина (2.295), каждый из которых на комплексной плоскости расположен левее прямой, проходящей через точку zi = q&i qi ∈ Re z и параллельной мнимой оси Im z , то будут выполняться ограничения xi ≤ qi ( t ) , i ∈ 1, n, t ≥ t0 .
Рассмотрим частный случай экспоненциальных фазовых ограничений, т.е. когда qi ( t ) = di eλt , i ∈ 1, n.
( )
% равен Тогда радиус круга Gi A ρi =
n
1 di e
λt
⋅ ∑ a%iν d ν eλt = ν=1 ν≠ i
1 n ⋅ ∑ a%iν dν , di ν=1
(2.303)
ν≠ i
а величина zi смещения мнимой оси q&i di λeλt (2.304) = = λ ∀ i = 1, n, qi d i e λt т.е. совпадает для всех кругов. При этом для обеспечения ограниченных значений траектории x ( t ) величина λ ≤ 0. Данному случаю соответствует рис. 2.26. zi =
Im z пл. C ρn
ρ2
a%nn
( )
% Gn A
ρ1
a%22
( )
% G2 A
a%11
λ
0
Re z
( )
% G1 A
Рис. 2.26. Требуемое расположение кругов Гершгорина при экспоненциальных ограничениях
% можно обеспечить требуемое расположение круТаким образом, для матрицы A гов Гершгорина в соответствии с теоремой 2.11, а тем самым будут обеспечены заданные фазовые ограничения (2.241).
168
Методы современной теории автоматического управления
2.4.8.
О СВЯЗИ УПРАВЛЯЕМОСТИ СИСТЕМЫ С РАСПОЛОЖЕНИЕМ КРУГОВ ГЕРШГОРИНА. ОЦЕНКА СТЕПЕНИ РОБАСТНОСТИ СИСТЕМЫ Известно [21], что если система (2.231) является полностью управляемой, то соб% замкнутой системы (2.235) могут иметь произвольственные значения матрицы A ное распределение (расположение) на комплексной плоскости C. Однако это свойст% , i = 1, n, во управляемости систем еще не гарантирует, что круги Гершгорина G A i
( )
% , также можно расположить на комплексной плоскости соответствующие матрице A произвольным образом. Для полностью управляемой системы можно найти такое невырожденное преобразование системы координат (2.283), для которого в новой системе координат неравенства (2.256) будут разрешимыми. При этом было показано, что в качестве такого преобразования можно использовать преобразование вращения. В более общем случае невырожденное преобразование должно быть таким, чтобы преобразованные % с доминиматрицы A и B обеспечивали возможность формирования матрицы A рующими диагональными элементами отрицательных знаков. В частности, матрицу T, соответствующую требуемому преобразованию, можно выбирать следующим образом. Пусть A′ = TAT −1 , B′ = TB (2.305) — матрицы A и B в новой системе координат. Тогда необходимо, чтобы диагональные элементы матрицы % ′ = A′ + B′KT−1 = T( A + BK )T−1 = TAT % −1 A могли принимать одновременно произвольные значения в R1, а скорость их изменения в зависимости от изменения K превосходила скорости изменения недиагональных элементов. В дальнейшем будет рассмотрена одна из процедур выбора требуемой матрицы K. Из анализа расположения кругов Гершгорина на комплексной плоскости следует вывод не только о выполнении того или иного неравенства системы (2.256), но и о степени робастности системы управления при возможном разбросе значений ее параметров. Пусть рассматривается i-е неравенство системы (2.298), т.е. q& 1 n ⋅ ∑ a%iν qν ≤ −a%ii + i , t ≥ t0 . qi ν=1 qi ν≠i i
Обозначим через K = K — значение матрицы, для которого данное неравенство обеспечивается. Считаем также, что некоторые параметры матриц A, B, C заданы неточно (полная информация об их значениях отсутствует, а сами значения задаются с некоторой, вполне определенной, погрешностью). Введем обозначения ⎧aiν = ai0ν + Δaiν ; ⎪⎪ 0 (2.306) ⎨biμ = biμ + Δbiμ ; ⎪ 0 ⎪⎩cξν = cξν + Δcξν , 0 — действительные и номинальные значения элементов где aiν , biμ , cξν и ai0ν , bi0μ , cξν
матриц A, B, C; Δaiν , Δbiμ , Δcξν — погрешности задания значений элементов, о которых имеется информация вида (2.307) Δaiν ≤ αiν ; Δbiμ ≤ βiμ ; Δcξν ≤ γ ξν , где αiν , βiμ , γ ξν — некоторые заданные величины.
Глава 2. Синтез робастных САУ в пространстве состояний
169
Тогда согласно (2.258) a%iν = a%i0ν + Δa%iν = ai0ν + Δaiν + l
m
(
)
i 0 i 0 i i + ∑∑ bi0μ kμξ Δcξν + Δbiμ kμξ Δcξν . cξν + Δbiμ kμξ cξν + bi0μ kμξ
ξ=1 μ=1
(2.308)
Отсюда l m ⎧ 0 0 0 i 0 ⎪a%iν = aiν + ∑∑ biμ kμξ cξν ; ξ=1 μ=1 ⎪ (2.309) ⎨ l m ⎪Δa% = Δa + i 0 0 iν ∑∑ Δbiμ cξν + biμ Δcξν + Δbiμ Δcξν kμξ . ⎪ iν ξ=1 μ=1 ⎩ Соотношение (2.309) показывает, как неточность задания элементов матриц % при фиксированной A, B, C влияет на неточность задания элементов матрицы A
(
)
матрице K i. Из (2.309) нетрудно получить, что Δa%iν ≤ α% iν , где с учетом (2.307) l
m
(
(2.310)
)
i 0 α% i0ν = αi0ν + ∑∑ βiμ ⋅ cξν + bi0μ ⋅ γ ξν + βiμ γ ξν kμξ . ξ=1 μ=1
(2.311)
Используя представление a%iν в виде (2.308), получим следующее выражение для i-го неравенства: 1 n 0 q& (2.312) a%iν + Δa%iν qν ≤ −a%ii0 − Δa%ii + i , ∑ qi ν=1 qi ν≠i
где Δa%iν , Δa%ii удовлетворяют (2.310), (2.311) и могут иметь в соответствии с этими соотношениями произвольные допустимые значения. Определение 2.4. Будем говорить, что система (2.235) является робастной относительно фазовых ограничений для i-й координаты вектора состояния x (для xi ), если существует такая матрица регулятора K = K 0, для которой обеспечивается выполнение неравенства xi ≤ qi ( t ) , t ≥ t0 при произвольных значениях элементов матриц A, B, C (2.306) с учетом возможного диапазона их изменения (2.307). Аналогично определим робастность системы для всего вектора состояния x. Определение 2.5. Будем говорить, что система (2.235) является робастной относительно фазовых ограничений для вектора состояния x, если существует матрица
K = K 0 , для которой на всем диапазоне изменений элементов матриц A, B, C (2.306), (2.307) обеспечиваются неравенства (2.241). Поскольку достаточным условием обеспечения ограничений (2.241) является выполнение неравенств (2.256), то рассмотрим свойство робастности системы применительно к данным неравенствам. С учетом определения 2.2 система (2.235) будет робастной относительно фазовых ограничений (2.241), если для каждого i ∈1, n выполняется неравенство (2.312) при разборе параметров системы согласно (2.306), (2.307). Неравенство (2.312) можно представить в виде q& ρi0 + Δρi ≤ − a%ii0 + Δa%ii + i , i ∈ 1, n, t ≥ t0 , (2.313) qi
(
)
170
Методы современной теории автоматического управления
( )
% . Причем где Δρi — погрешность в определении радиуса ρi круга Гершгорина Gi A
Δρi ≤
1 qi
n
∑ α% iν qν ,
i = 1, n.
(2.314)
ν=1 ν≠i
Тогда аналогично тому, как строились круги Гершгорина для неравенств (2.298), % 0 + ΔA % , i = 1, n для неравенств (2.313), как это показано можно построить круги G A i
(
)
% 0 — номинальное значение матрицы A % — допустимая по% , а ΔA на рис. 2.27, где A % . Если неравенства (2.313) выполняются, то грешность, или возмущение, матрицы A
(
)
% 0 + ΔA % , i = 1, n согласно теореме 2.11 будут находиться возмущенные круги Gi A
слева от прямых, проходящих соответственно через точки zi = q&i qi , i = 1, n и лежащих на вещественной оси qi плоскости C. При этом чем больше величины q& (2.315) Σi = i − ( a%ii0 + ρi0 ) , i ∈1, n, qi тем допускается большее параметрическое возмущение, при котором выполняются неравенства (2.313) и, значит, обеспечиваются заданные фазовые ограничения (2.241). Величину Σi будем называть степенью робастности системы (2.235) по координате xi относительно фазовых ограничений (2.241). Im z
Σi
ρi0 + Δρi
ρi0
a%i0i + Δ ai i
( )
%0 Gi A
q&i qi
(
% 0 + ΔA %0 Gi A
a%i0i
0
Re z
)
Рис. 2.27. Допустимое расположение кругов Гершгорина при параметрических возмущениях
Величину
Σ = min Σi i∈1, n
(2.316)
будем называть степенью робастности системы (2.235) относительно фазовых ограничений (2.241). Чем левее расположены на комплексной плоскости круги Гершгорина, тем большие значения принимают величины Σi , i ∈1, n и Σ и, следовательно, тем более робастной является рассматриваемая система управления (2.235). Для того чтобы обеспечить построение системы (2.235) с требуемой степенью робастности Σ0 , необходимо обеспечить выполнение неравенства Σ ≥ Σ0 , (2.317)
Глава 2. Синтез робастных САУ в пространстве состояний
171
или с учетом определений (2.315), (2.316) q& Σi = i − ( a%ii + ρi ) ≥ Σ 0 ∀ i ∈ 1, n. qi Отсюда q& (2.318) ρi ≤ − a%ii + i − Σ 0 , i ∈1, n, t ≥ t0 . qi Синтез матрицы K в соответствии с соотношениями (2.318) позволяет построить систему управления с заданной степенью робастности по отношению к ограничениям (2.241). 2.4.9.
ВХОДНЫЕ-ВЫХОДНЫЕ МАТРИЦЫ И ИХ СВЯЗЬ С РАЗРЕШИМОСТЬЮ ДОСТАТОЧНЫХ УСЛОВИЙ
Для исследования свойств неравенств (2.256), анализа их разрешимости и формирования процедуры решения могут эффективно использоваться так называемые входные-выходные матрицы [202]. Согласно их определению, это такие матрицы n ,n
, элементы которых удовлетворяют условиям A∗ = ⎡⎣ aij∗ ⎤⎦ i , j =1 αij ≥ 0 при i ≠ j; ⎧⎪ aij∗ = ⎨ ⎪⎩α ij −− произвольная вещественная величина при i = j. Рассмотрим неравенства (2.256). Очевидно, их можно представить в виде ⎧a%11q1 + a%12 q2 + K + a%1n qn ≤ q&1; ⎪ ⎪ a%21 q1 + a%22 q2 + K + a%2 n qn ≤ q&2 ; ⎨ ⎪KKKKKKKKKKKKKK ⎪ a% q + a% q + K + a% q ≤ q& , n2 2 nn n n ⎩ n1 1
которые, в свою очередь, приводятся к следующей векторной форме: € ≤ q& , Aq € и ( n × 1 )-вектор q имеют выражения где ( n × n )-матрица A ⎡ a%11 ⎢ a%21 € A=⎢ ⎢ M ⎢ ⎣⎢ a%n1
a%12 a%22 M a%n 2
L L O L
a%1n ⎤ ⎡ q1 ( t ) ⎤ ⎥ ⎢ ⎥ a%2 n ⎥ q2 ( t ) ⎥ ⎢ , q = q (t ) = , ⎢ M ⎥ M ⎥ ⎥ ⎢ ⎥ a%nn ⎦⎥ ⎣⎢ qn ( t ) ⎦⎥
(2.319)
(2.320)
(2.321)
(2.322)
T
при этом q& = q& ( t ) = ⎡⎣ q&1 ( t ) , q&2 ( t ) ,K, q&n ( t ) ⎤⎦ . Нетрудно видеть, что элементы матрицы € удовлетворяют условиям (2.319). Следовательно, матрица A € является входнойA выходной. Кроме того, вектор q ( t ) является положительным, так как ∀ i ∈ 1, n q1 ( t ) > 0.
Известно [202] следующее свойство входных-выходных матриц: если A* — входнаявыходная матрица, то она имеет собственное значение λ + с максимальной вещественной частью (т.е. Re λ + = max Re λ i , где λi , i ∈1, n — все собственные значения i∈1, n
*
матрицы A ), причем это собственное значение является вещественным (т.е. Im λ = 0 ), а собственный вектор e+ , соответствующий данному значению λ +, единственен и является положительным (т.е. ei+ > 0 ∀ i ∈1, n, где ei+ , i ∈1, n — компоненты e + ).
172
Методы современной теории автоматического управления
Таким образом, для матрицы A* справедливо ⎧ A ∗e + = λ + e + ; ⎪ (2.323) T ⎨ + Re λ i , e + = ⎡⎣ e1+ ,K , en+ ⎤⎦ > 0. ⎪λ = max i∈1, n ⎩ € Поскольку матрица A является входной-выходной, то для нее также должно выполняться свойство (2.323). А с учетом зависимости a%iν от матриц K и C получим, € является входной-выходной для любых значений матрицы K. Поэтому для что A € всегда можно указать такие матрицы A λ + = λ + ( K ) ∈ R1 ,
R n ⊃ q + = q + ( K ) > 0,
что € + = λ+q+ , Aq
(2.324)
+
где собственное значение λ имеет максимальную вещественную часть среди всех € , а q + — соответствующий ему положительный собственных значений матрицы A собственный вектор. € для анализа разрешимости Воспользуемся рассмотренным свойством матрицы A неравенств (2.256) или (2.321). Справедливо следующее утверждение. Утверждение 2.4. Для разрешимости неравенства (2.321) для практически реализуемых функций ограничения, удовлетворяющих условиям (2.240), необходимо и € удовлетворяло неравенству достаточно, чтобы собственное значение λ + матрицы A λ + ≤ 0. (2.325) Действительно, справедливость этого утверждения непосредственно следует из теоремы 2.11, согласно которой для практически реализуемых функций ограничения все круги Гершгорина лежат в левой полуплоскости комплексной плоскости C , если неравенства (2.321) разрешимы. Тогда все собственные значения λi , i ∈1, n матрицы € также находятся в левой полуплоскости, т.е. Re λ ≤ 0 ∀ i ∈1, n. И согласно опреA i
+
+
делению λ (2.323) получим, что λ ≤ 0. В то же время, если выполняется неравенство (2.325), то существуют такие практически реализуемые функции ограничения q ( t ) , для которых неравенство (2.321) выполняется. Тем самым показана справедливость утверждения 2.4. Таким образом, о разрешимости неравенства (2.321) для практически реализуемой q ( t ) можно судить по знаку λ +. Если выполняется (2.325), то при некоторой матрице K обязательно найдется такая практически реализуемая q ( t ) , для которой обеспечивается (2.321), а значит, и фазовые ограничения. 2.4.10.
О ЗАДАНИИ РАЗРЕШИМЫХ ФАЗОВЫХ ОГРАНИЧЕНИЙ
В предыдущем параграфе было показано, что если для некоторой матрицы K λ ( K ) ≤ 0, то найдется такая практически реализуемая q ( t ) , соответствующая дан+
ной K , для которой справедливо неравенство (2.321). Рассмотрим, какого вида могут быть указанные функции q ( t ) для рассматриваемой K , удовлетворяющие (2.321), и каким именно образом их можно выбрать или построить.
Глава 2. Синтез робастных САУ в пространстве состояний
173
Пусть q + ( t ) — нестационарная функция (это возможно при λ + ≠ 0 ). Согласно утверждению 2.4 считаем, что λ + < 0. Рассмотрим следующую задачу: для заданной € , у которой λ + < 0, требуется построить множество практически приемматрицы A лемых функций q ( t ) , удовлетворяющих неравенству (2.321) (т.е. для которых выполняются фазовые ограничения (2.241)). Для решения данной задачи воспользуемся разложением произвольной функции q ( t ) > 0 относительно функции q + ( t ) . Поскольку в общем случае q ( t ) ≠ ρ ( t ) ⋅ q + ( t ) , ρ ( t ) > 0, ρ ( t ) ∈ R1,
то q ( t ) можно представить в виде q ( t ) = ρ1 ( t ) ⋅ q + ( t ) − q€1 ( t ) ,
(2.326)
где величина множителя ρ1 ( t ) выбрана минимально возможной из условия, что Q ( t ) ⊆ ρ1 ( t ) ⋅ Q + ( t ) ,
(2.327)
а q€ ( t ) — вектор невязки между векторами q ( t ) и ρ1 ( t ) ⋅ q 1
+
(t ).
На рис. 2.28 показано определение ρ1 ( t ) и q€ ( t ) . 1
x2 ρ1Q + (t )
Q + (t )
q2 = ρ1q2+
Q(t )
q€1 (t ) ρ1 x1
q q2+
q+
−x2
− q1+
0
q1
q1+
ρ1q1
x1
Рис. 2.28. Разложение функции q ( t )
Поскольку Q + ( t ) , Q ( t ) — прямоугольные параллелепипеды в R n , то ρ1 ( t ) имеет вид qn ( t ) ⎪⎫ ⎪⎧ q ( t ) ⎪⎫ ⎪⎧ q1 ( t ) ρ1 ( t ) = min ⎨ +i (2.328) ⎬ = min ⎨ + ,K, + ⎬ . qn ( t ) ⎪⎭ i∈1,n ⎪ ⎪⎩ q1 ( t ) ⎩ qi ( t ) ⎪⎭ Для определенности положим, что q (t ) (2.329) ρ1 ( t ) = n+ . qn ( t ) Тогда вектор невязки q€1 аналогично тому, как показано на рис. 2.28, в общем случае можно представить следующим образом: q€1 ( t ) = ρ1 ( t ) ⋅ q1+ ( t ) − q1 ( t ) , (2.330) где ( n × 1 )-векторы q1+ ( t ) , q1 ( t ) определяются согласно выражениям
174
Методы современной теории автоматического управления ⎡ q1+ ( t ) ⎤ ⎡ q1 ( t ) ⎤ ⎢ ⎥ ⎢ ⎥ M ⎥ 1 ⎢ M ⎥, t , q1+ ( t ) = ⎢⎢ q = ( ) ⎥ + ⎢ qn −1 ( t ) ⎥ ⎢ qn −1 ( t ) ⎥ ⎢ ⎥ ⎣⎢ 0 ⎦⎥ ⎣⎢ 0 ⎦⎥
(2.331)
т.е. векторы q1+ ( t ) , q1 ( t ) являются ортогональными проекциями векторов q + ( t ) , q ( t ) на ( n − 1)-мерное координатное подпространство Rnn−1, ортогональное оси 0 xn
)
( или
вектору [ 0, 0,K, 0, xn ] . T
Таким образом,
q1+ ( t ) ∈ Rnn −1 , q1 ( t ) ∈ Rnn −1. С учетом (2.330) выражение (2.326) примет вид q ( t ) = ρ1 ( t ) q + ( t ) − ρ1 ( t ) q1+ ( t ) + q1 ( t ) .
(2.332) (2.333)
Вектор q ( t ) по аналогии с (2.326) можно представить в виде 1
q1 ( t ) = ρ2 ( t ) q1+ ( t ) − q€2 ( t ) ,
(2.334)
где множитель ρ2 ( t ) выбирается минимально возможным из условия Q1 ( t ) ⊆ ρ2 ( t ) ⋅ Q1+ ( t ) , Q1 ( t ) ,
Q1+
(t )
— ортогональные проекции многоугольников Q ( t ) , Q
(2.335) +
(t )
на подпро-
странство Rnn−1.
Множитель ρ2 ( t ) определяется с помощью соотношения
⎧⎪ q ( t ) ⎫⎪ ⎧⎪ q1 ( t ) qn−1 ( t ) ⎫⎪ ρ2 ( t ) = min ⎨ +i ⎬ = min ⎨ + ,K, + ⎬. i∈1,n −1 ⎪ q ( t ) ⎪ q n−1 ( t ) ⎪⎭ ⎪⎩ q1 ( t ) ⎩ i ⎭ Для определенности можно считать, что ⎧⎪ q ( t ) ⎫⎪ ρ2 ( t ) = ⎨ n+−1 ⎬ . ⎪⎩ qn−1 ( t ) ⎭⎪ Тогда для q€2 ( t ) по аналогии с (2.330) справедливо выражение
(2.336)
(2.337)
q€2 ( t ) = ρ2 ( t ) ⋅ q 2 + ( t ) − q 2 ( t ) ,
(2.338)
⎡ q1+ ( t ) ⎤ ⎡ q1 ( t ) ⎤ ⎢ ⎥ ⎢ ⎥ M ⎢ ⎥ ⎢ M ⎥ q 2+ ( t ) = ⎢ qn+− 2 ( t ) ⎥ , q 2 ( t ) = ⎢ qn − 2 ( t ) ⎥ , ⎢ ⎥ ⎢ ⎥ ⎢ 0 ⎥ ⎢ 0 ⎥ ⎢ ⎥ ⎢ 0 ⎥ ⎣ ⎦ ⎢⎣ 0 ⎥⎦
(2.339)
q 2+ ( t ) ∈ Rnn,−n2−1 , q 2 ( t ) ∈ Rnn,−n2−1 ,
(2.340)
где
причем где
Rnn,−n2−1
— ( n − 2 )-мерное координатное подпространство, ортогональное осям 0 xn
и 0 xn−1. Подставляя (2.338) в (2.334), получим
Глава 2. Синтез робастных САУ в пространстве состояний
175
q1 ( t ) = ρ2 ( t ) q1+ ( t ) − ρ2 ( t ) q 2+ ( t ) + q 2 ( t ) .
(2.341)
Тогда выражение (2.333) примет вид q ( t ) = ρ1 ( t ) q + ( t ) + ( ρ2 ( t ) − ρ1 ( t ) ) q1+ ( t ) − ρ2 ( t ) q 2 + ( t ) + q 2 ( t ) .
(2.342)
Продолжая и далее подобную процедуру разложения векторов, получим q n − 2 ( t ) = ρn −1 ( t ) q(
n − 2)+
( t ) − ρn −1 ( t ) q( n −1)+ ( t ) + q( n −1) ( t ) ,
(2.343)
где
Rn2,K,3 = Rn2,3 , Rn1,K,2
⎧q n − 2 ( t ) , q( n − 2 ) + ( t ) ∈ R 2 n , n −1,K,3 ; ⎪ (2.344) ⎨ ( n −1) ⎪⎩q ( t ) , q( n −1)+ ( t ) ∈ Rn1,n −1,K,3,2 , = Rn1,2 — двух- и одномерное координатное подпространства, по-
строенные указанным выше образом; ρn −1 ( t ) =
q2 (t )
q 2+ ( t )
(2.345)
.
Поскольку Rn1,2 — одномерное подпространство, то в силу (2.344) получим q n −1 ( t ) = ρn ( t ) ⋅ q(
где ρn ( t ) =
n −1) t
q1 ( t )
q1+ ( t )
(t ) ,
(2.346) (2.347)
.
Согласно определению множителей ρν ( t ) , ν ∈1, n можно записать соотношение ρ1 ( t ) ≤ ρ2 ( t ) ≤ K ≤ ρn−1 ( t ) ≤ ρ n ( t ) ,
(2.348)
рассматриваемое в текущий момент времени t ≥ t0 . Неравенства (2.348) будут справедливы ∀ t ≥ t0 , если считать, что геометрические соотношения между qi ( t ) , i ∈ 1, n также остаются неизменными ∀ t ≥ t0 . Аналогично можно получить выражение общего вида k −1
q ( t ) = ρ1 ( t ) q + ( t ) + ∑ ( ρν+1 ( t ) − ρν ( t ) ) qν+ ( t ) − ρk ( t ) q k + ( t ) + q k ( t ) ,
(2.349)
ν=1
где q k ( t ) = ρ k +1 ( t ) q k + ( t ) − ρ k +1 ( t ) q (
k +1) +
( t ) + q ( k +1) ( t ) ,
1 < k ≤ n − 2.
(2.350)
Тогда для k = n − 2 получим n −3
q ( t ) = ρ1 ( t ) q + ( t ) + ∑ ( ρv +1 ( t ) − ρv ( t ) ) q v + ( t ) − ρn − 2 ( t ) q( + ρn −1 ( t ) q(
n−2)+
v =1
− ρn −1 ( t ) q(
n −1) +
n − 2)+
( t ) + ρn ( t ) q( n −1)+ ( t ) =
(t ) + (2.351)
n −1
= ρ1 ( t ) q + ( t ) + ∑ ( ρv +1 ( t ) − ρv ( t ) ) q v + ( t ). v =1
Выражение (2.351) представляет собой разложение произвольной вектор-функции q ( t ) > 0 по элементам собственного вектора q + ( t ). Воспользуемся разложением (2.351) для решения поставленной задачи по построению требуемых функций q ( t ) . В неравенство (2.321) вместо q ( t ) подставим выражение (2.351). Тогда получим
176
Методы современной теории автоматического управления € ≤ q& , Aq
или n −1
€ + + ( ρ − ρ ) Aq ρ1Aq ∑ ν+1 ν € ν+ ≤ ν=1
n −1
≤ ρ1q& + + ρ& 1q + + ∑ ⎡⎣( ρ ν+1 − ρ ν ) q& ν+ + ( ρ& ν+1 − ρ& ν ) q ν+ ⎤⎦. ν=1
Отсюда находим n −1
n −1
ν=1
ν=1
€ ν+ ≤ ρ& q + + ⎡( ρ − ρ ) q& ν+ + ( ρ& & ν ) q ν+ ⎤. ∑ ( ρ ν+1 − ρ ν ) Aq ∑ ⎣ ν+1 ν 1 ν+1 − ρ ⎦
(2.352)
Неравенство (2.352) можно непосредственно использовать для задания требуемо€. При этом решение го класса функций q ( t ) , соответствующих заданной матрице A (2.352) осуществляется непосредственно относительно положительных функций ρν ( t ) , ν ∈1, n, удовлетворяющих условию (2.348), при фиксированных значениях векторов 2.4.11.
€ ν+ ( t ) , ν ∈ 1, n − 1. q ν+ ( t ) , q& ν+ ( t ) , q + ( t ) , Aq
ПОСТРОЕНИЕ ДОПУСТИМЫХ ФАЗОВЫХ ОГРАНИЧЕНИЙ НА ОСНОВЕ РАЗЛОЖЕНИЯ ПО ЭЛЕМЕНТАМ СОБСТВЕННОГО ВЕКТОРА
Рассмотрим возможный подход к определению допустимых функций q ( t ) , удовлетворяющих (2.321), на основе неравенства (2.352). В общем случае можно записать T
q ν+ = ⎡⎣ q1+ ,K , qn+−ν , 0,K, 0 ⎤⎦ , ν ∈1, n − 1. € получим Тогда, используя выражение (2.322), для A ⎡ n −ν + ⎤ ⎢ ∑ a€1i qi ⎥ ⎢ i =1 ⎥ € ν+ = ⎢ ⎥ , ν ∈ 1, n − 1, Aq M ⎢ ⎥ n −ν ⎢ +⎥ ⎢ ∑ a€ni qi ⎥ ⎢⎣ i =1 ⎥⎦ €. a€ij — элементы матрицы A
Обозначим В силу (2.348)
(2.353)
(2.354)
βν ( t ) = ρν+1 ( t ) − ρν ( t ) , ν ∈1, n − 1.
(2.355)
βν ( t ) ≥ 0 ∀ν ∈1, n − 1.
(2.356)
С учетом (2.354) рассмотрим левую часть неравенства (2.352). Имеем ⎡ n −ν ⎡ n −1 n −ν +⎤ +⎤ € a q ⎢ ∑ 1i i ⎥ ⎢ ∑ ∑ β ν a€1i qi ⎥ ⎢ i =1 ⎥ ⎢ ν=1 i =1 ⎥ n −1 n −1 € ν+ = β ⎢ ⎥. M ∑ βν Aq ∑ ν ⎢ M ⎥⎥ = ⎢⎢ ⎥ ν=1 ν=1 ⎢ n −ν ⎢ n −1 n −ν +⎥ +⎥ ⎢ ∑ a€ni qi ⎥ ⎢ ∑ ∑ βν a€ni qi ⎥ ⎣⎢ i =1 ⎦⎥ ⎣⎢ ν=1 i =1 ⎦⎥
(2.357)
Глава 2. Синтез робастных САУ в пространстве состояний
177
В то же время правую часть неравенства (2.352) можно привести к виду
n −1
(
ρ& 1q + + ∑ β ν q& ν+ + β& ν q ν+ ν=1
)
n −1 ⎡ ⎤ ρ& 1q1+ + ∑ β ν q&1+ + β& ν q1+ ⎢ ⎥ ν=1 ⎢ ⎥ ⎢ ⎥ n−2 ⎢ ⎥ ρ& 1q2+ + ∑ β ν q& 2+ + β& ν q2+ ⎥= ν=1 =⎢ ⎢ ⎥ ⎢. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .⎥ ⎢ ⎥ ρ& 1qn+−1 + β1q& n+−1 + β& 1qn+−1 ⎢ ⎥ ⎢ ⎥ + ρ& 1qn ⎣⎢ ⎦⎥
(
)
(
)
(
)
n −1 ⎡ ⎞ + ⎛ n −1 ⎞ + ⎤ + ⎛ ⎢ ρ& 1q1 + ⎜ ∑ β ν ⎟ q&1 + ⎜ ∑ β& ν ⎟ q1 ⎥ ⎝ ν=1 ⎠ ⎝ ν=1 ⎠ ⎢ ⎥ ⎢ ⎥ n − 2 n − 2 ⎢ ρ& q + + ⎛⎜ β ⎞⎟ q& + + ⎛⎜ β& ⎞⎟ q + ⎥ ∑ ∑ 1 2 ν 2 ν 2 ⎥. =⎢ ⎝ ν=1 ⎠ ⎝ ν=1 ⎠ ⎢ ⎥ ⎢. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .⎥ ⎢ ⎥ ρ& 1qn+−1 + β1q& n+−1 + β& 1qn+−1 ⎢ ⎥ ⎢ ⎥ + & q ρ 1 n ⎣⎢ ⎦⎥
(2.358)
Подставляя (2.357), (2.358) в (2.352), получим следующую систему неравенств относительно искомых множителей: n −1 ⎧ n −1 ⎛ n −ν ⎞ + ⎛ n −1 ⎞ + +⎞ + ⎛ ⎪∑ β ν ⎜ ∑ a€1i qi ⎟ ≤ ρ& 1q1 + ⎜ ∑ β ν ⎟ q&1 + ⎜ ∑ β& ν ⎟ q1 ; ⎠ ⎝ ν=1 ⎠ ⎝ ν=1 ⎠ ⎪ν=1 ⎝ i =1 ⎪ n −1 n −ν n − 2 n−2 ⎪ β ⎛⎜ a€ q + ⎞⎟ ≤ ρ& q + + ⎛⎜ β ⎞⎟ q& + + ⎛⎜ β& ⎞⎟ q + ; ∑ ν 2 ∑ ν 2 ν ∑ 2i i 1 2 ⎪∑ ⎠ ⎝ ν=1 ⎠ ⎝ ν=1 ⎠ ⎪⎪ν=1 ⎝ i =1 ⎨. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . ⎪ n −1 n −ν ⎪ β ⎛⎜ a€ q + ⎞⎟ ≤ ρ& q + + β q& + + β& q + ; ν ∑ n −1,i i 1 n −1 1 n −1 1 n −1 ⎪∑ ν=1 ⎝ i =1 ⎠ ⎪ ⎪ n −1 ⎛ n −ν +⎞ + ⎪∑ β ν ⎜ ∑ a€n i qi ⎟ ≤ ρ& 1qn . ⎠ ⎩⎪ν=1 ⎝ i =1
(2.359)
Система неравенств (2.359) используется для непосредственного формирования €. допустимых фазовых ограничений, соответствующих фиксированной матрице A Чтобы функция q ( t ) была монотонно невозрастающей с учетом разложения (2.351), можно положить λ t −t ρi ( t ) ≅ ρi 0e ( 0 ) , i ∈1, n, 0 ≤ λ ≤ −λ + , ρi 0 > 0 .
(2.360)
Поскольку λ + t −t qi+ ( t ) = q0+i e ( 0 ) , i ∈1, n,
то система (2.359) может быть преобразована следующим образом: n −1
⎛ n −ν
⎞
⎡
⎛ n− j
⎞
⎤
ν=1
⎝ i =1
⎠
⎣⎢
⎝ ν=1
⎠
⎦⎥
∑ β ν0 ⎜ ∑ a€ij q 0+i ⎟ ≤ ⎢ρ10λ + ⎜⎜ ∑ β ν 0 ⎟⎟ ( λ + + λ )⎥ q 0+ j ,
j ∈ 1, n.
(2.361)
178
Методы современной теории автоматического управления
На основе решения данной системы определяются требуемые множители. Система является линейной относительно ρ10 , βν 0 , ν ∈1, n − 1, и ее можно решать многими известными методами [124]. Более того, поскольку λ ≤ −λ +, то λ + λ+ ≤ 0
и потому n− j ⎡ ⎤ max + ⎢ρ10λ + ∑ βν 0 λ + + λ ⎥ q0+ j = −ρ10λ + q0+ j ∀ j ∈ 1, n. (2.362) 0≤λ≤−λ ν=1 ⎣ ⎦ Поэтому если для некоторого 0 < λ < −λ+ величины ρ10 > 0, βν 0 > 0, ν ∈ 1, n − 1 являются решениями неравенств (2.191), то они также будут решениями следующей системы: n −1 ⎛ n −ν ⎞ (2.363) ∑ βν0 ⎜ ∑ a€ji q0+i ⎟ ≤ −ρ1 0λ + ⋅ q0+ j , j ∈1, n. ν=1 ⎝ i =1 ⎠ Отсюда следует, что можно решать более простую систему неравенств (2.363), а полученные решения затем проверять на удовлетворение ими исходных неравенств. При этом нетрудно видеть, что саму систему (2.363) достаточно просто решить. Поскольку ρ10 > 0 и βν 0 > 0, ν ∈1, n − 1 выбираются независимо друг от друга, то, зада-
(
)
вая ρ10 достаточно большим по величине, а β ν 0 — достаточно малым, всегда можно обеспечить разрешимость (2.363). 2.4.12.
КРИТЕРИЙ СТАБИЛИЗИРУЕМОСТИ СИСТЕМЫ УПРАВЛЕНИЯ
В соответствии с приведенным выше утверждением 2.4 для существования практически приемлемых функций ограничения q ( t ) , обеспечивающих заданные фазовые ограничения вида (2.241), достаточно, чтобы существовала такая матрица K , которая бы обеспечивала выполнение неравенства (2.325). Рассмотрим вопрос о выборе матрицы K , для которой неравенство (2.325) разрешимо. Введем следующее определение. Будем говорить, система (2.231) стабилизируема относительно ограничений (2.241), если существует хотя бы одна такая матрица K , € собственное значение λ + = λ + ( K ) удовлетворяет нерадля которой у матрицы A венству (2.325), т.е.
λ + = λ + ( K ) ≤ 0.
Тогда в качестве критерия стабилизируемости, с учетом введенного определения, можно рассматривать уравнение λ + = λ + ( K ) = 0. (2.364) Таким образом, если обеспечивается соотношение (2.364), то система (2.231) является стабилизируемой и для нее всегда можно выбрать такую матрицу K , что λ + ( K ) ≤ 0. Пусть
(
)
€ = a€ + a€ λ + K + a€ λ n −1 + λ n = 0. a€( λ ) = det λE − A 0 1 n −1
(2.365)
€ , то для проверки Поскольку λ является собственным значением матрицы A стабилизируемости системы (2.231) можно воспользоваться соотношением (2.365) при λ+ = 0 € = 0. a€( 0 ) = det − A (2.366) +
( )
Глава 2. Синтез робастных САУ в пространстве состояний
179
Однако непосредственное решение (2.366) относительно K в общем случае связано с существенными трудностями. При этом заранее неизвестно, является ли уравнение (2.366) разрешимым для рассматриваемой системы или нет. Рассмотрим другой геометрический подход к проверке выполнения критерия стабилизируемости, основанный на использовании кругов Гершгорина. Известно, что если в ограничениях (2.241) функции qi ( t ) , i ∈1, n являются экспонентами с показателем λ, то достаточные условия, которым должна удовлетворять матрица K , приводятся к соотношениям (2.237). Используя для этого случая обозначение q ( t ) = q 0 eλt , где q0 = [ d1 , d 2 ,K , d n ] , в соответствии с (2.321) неравенства (2.237) приведем к виду € e λt ≤ λ q e λt , Aq 0 0 или € ≤ λq . (2.367) Aq 0 0 % , i ∈1, n для рассматриваемой сисЭто означает, что все круги Гершгорина G A T
i
( )
темы расположены левее прямой, параллельной мнимой оси и проходящей через точку ( λ, j ⋅ 0 ) на комплексной плоскости. Если положить λ = λ + , q 0 = q 0+ , то неравенство (2.365) приводится к виду € + = λ+q+ , Aq 0 0 что эквивалентно следующему расположению кругов Гершгорина на комплексной плоскости, представленному на рис. 2.29. Im z
пл. С
ρ +2
ρ +n
ρ1+
a% nn
( )
% Gn+ A
a% 22
a%11
λ+
0
Re z
( )
( )
% G1+ A
% G2+ A
Рис. 2.29. Круги Гершгорина на компонентах положительного собственного вектора
Здесь
ρi+ =
1 q0+i
n
∑ a%iν q0+ν , ν=1 ν≠i
i ∈1, n;
( )
% , i ∈1, n — круги Гершгорина, соотq0+ν , ν ∈1, n — компоненты вектора q0+ ; Gi+ A +
ветствующие величинам λ и
q 0+ .
180
Методы современной теории автоматического управления
(
( )
)
% , i ∈1, n имеют общую точку касания λ + , j ⋅ 0 , Согласно рис. 2.29 все круги Gi+ A
лежащую на вещественной оси. При этом данная точка может находиться как в левой, так и в правой полуплоскости комплексной плоскости. Отсюда нетрудно получить геометрический эквивалент сформулированного выше критерия стабилизируемости системы (2.231) относительно ограничений вида (2.241). Действительно, система (2.231) является стабилизируемой, если каждый круг Герш% , i ∈1, n, построенный с помощью собственного вектора q + , касается горина G + A i
( )
0
справа мнимой оси комплексной плоскости в начале координат (соответствует λ+ = 0 ). Очевидно, для того чтобы проверить, выполняется ли данный критерий стабилизируемости или нет, необходимо проверить разрешимость следующей системы уравнений: a%ii + ρi = 0, i ∈1, n, или 1 n a%ii + ∑ a%iν dν = 0, i ∈1, n, (2.368) di ν=1 ν≠i
+
где предполагается, что λ = λ = 0, а d ν = q 0+ν , ν ∈1, n, ρ i = ρ i+ , i ∈1, n. Таким образом, геометрическое условие стабилизируемости эквивалентно разрешимости системы алгебраических уравнений (2.368). При этом система (2.368) решается одновременно относительно матрицы K , а также относительно собственного вектора q 0+ . Заметим, что если для проверки стабилизируемости системы (2.231) использовать € , обеспечивающей (2.366), уравнение (2.366), то помимо вырожденности матрицы A необходимо также потребовать, чтобы значение λ = 0 имело максимально возможную собственную часть среди всех корней характеристического уравнения (2.365), кроме λ = λ + = 0. 2.4.13.
ПРОЦЕДУРА СИНТЕЗА СИСТЕМЫ УПРАВЛЕНИЯ НА ОСНОВЕ УПРАВЛЕНИЯ МАКСИМАЛЬНЫМ СОБСТВЕННЫМ ЗНАЧЕНИЕМ ВХОДНОЙ-ВЫХОДНОЙ МАТРИЦЫ
Рассмотрим вопрос о том, каким образом может быть синтезирована матрица K , обеспечивающая фазовые ограничения (2.241) с помощью введенного в предыдущем параграфе критерия стабилизируемости и его геометрического и алгебраического аналогов. Воспользуемся тем обстоятельством, что для любых значений ( m × n )-матрицы € обязательно имеет вещестK соответствующая ей входная-выходная матрица A венное собственное λ+ с максимальной вещественной частью. Притом, как было показано в предыдущем параграфе, если q 0+ — соответствующий λ+ собственный вектор (всегда положительный), то на комплексной плоскости C круги Гершгорина % , i ∈1, n располагаются согласно рис. 2.30. G+ A i
( )
Выше отмечалось, что собственное значение λ + = λ + ( K ) непрерывно зависит от матрицы K. Поэтому, непрерывно изменяя величину матрицы K , можно добиться того, чтобы значение λ+ непрерывно изменялось (увеличивалось или уменьшалось). Это соответствует тому, что на вещественной оси комплексной плоскости C точка λ+ непрерывно перемещается вправо или влево (см. рис. 2.30).
Глава 2. Синтез робастных САУ в пространстве состояний
181
Im z
λ+1′
λ+2′
λ +2 = λ + ( K 2 )
( )
λ+0′ Re z λ 0+ = λ + ( K 0 )
λ1+ = λ + ( K 1 ) 0
( )
% G+ A 2
пл. C
( )
% G+ A 1
% G+ A 0
Рис. 2.30. Управление собственным значением λ +
Здесь λ +2 < λ1+ < λ 0+ — значения собственного числа λ +, соответствующие матрицам K 2 , K1 , K 0 ; λ 0+1 , λ1+1 , λ +2 1 — скорости изменения величины λ+ в точках λ 0+ , λ1+ , λ +2
( )
( )
( )
% , G+ A % , G+ A % в зависимости от матрицы K ; G + A 0 1 2
— области Гершгорина
при K 0 , K1 , K 2 . Следовательно, собственным значением λ+ можно управлять с помощью матрицы K , непрерывно перемещая его вдоль вещественной оси комплексной плоскости C . Тогда, если система (2.231) стабилизируема в смысле (2.364), то произвольную начальную величину λ 0+ = λ + ( K 0 ) за счет непрерывного изменения матрицы K всегда
можно перевести в левую полуплоскость комплексной плоскости C по непрерывной траектории вдоль вещественной оси. Обеспечив значение λ + = λ + ( K ) ≤ 0, далее можно продолжить поиск требуемой матрицы K , обеспечивающей ограничения (2.241), либо, в случае неразрешимости последних для заданной q ( t ) , попытаться отыскать q% ( t ) , наиболее близкую в том или ином смысле к q ( t ) , для которой (2.241) выполняются. Таким образом, для решения рассматриваемой задачи предлагается вначале перевести собственное значение λ+ в левую полуплоскость комплексной плоскости C , а затем скорректировать выбор матрицы K и, если необходимо, функции q ( t ) . Рассмотрим подход к решению задачи перевода λ+ в левую полуплоскость плоскости C . Вначале необходимо найти начальное значение λ 0+ , из которого осуществляется требуемый перевод. Выберем произвольную матрицу K = K 0 и для нее опре% = A + BK C и A € . Тогда λ + = λ + ( K ) — соответствующее собственное делим A 0
0
0
0
0
€ . значение матрицы A 0
Значение λ+0 можно найти из решения характеристического уравнения (2.365) €=A € . Однако при этом не обязательно вычислять другие собственные значепри A 0 ния. Аналогично [112] можно утверждать, что если λ+0 — вещественный корень характеристического уравнения (2.365) с максимальной вещественной частью, то справедливы соотношения
182
Методы современной теории автоматического управления
( )
k a€( ) λ 0+ ≥ 0, k ∈ 0, n − 1,
(2.369)
k где a€( ) ( λ ) — k-я производная многочлена a€( λ ) .
Таким образом, величину λ+0 можно определить как минимально возможное вещественное значение, удовлетворяющее неравенствам (2.369). Величине λ+0 соответствует свой собственный вектор q0+ = q 0+ ( K 0 ) , который можно определить в результате непосредственного решения следующего линейного алгебраического уравнения: € q + = λ + q + , или λ + E − A € q + = 0. A 0 0 0 0 0 0 0
(
)
Определив указанным образом начальные значения λ 0+ , q0+ , можно решать требуемую задачу управления собственным значением λ +. Для одновременного нахождения начальных значений λ 0+ , q0+ , в отличие от предыдущей процедуры, рассмотрим численный подход, обеспечивающий сходимость к требуемым λ 0+ , q0+ . С этой целью воспользуемся неравенством (2.367) € ≤ λq , Aq 0
0 +
которое будет равенством только при λ = λ , q 0 = q0+ . Представим (2.367) в виде d3 dn d2 ⎧ ⎪a€11 + a€12 d + a€13 d + K + a€1n d ≤ λ, 1 1 1 ⎪ ⎪ d3 dn d1 + a€23 + K + a€2 n ≤ λ, ⎪a€22 + a€21 (2.370) d2 d2 d2 ⎨ ⎪.............................................................. ⎪ d n −1 d1 d2 ⎪ ⎪a€nn + a€n1 d + a€n 2 d + K + a€n,n −1 d ≤ λ. n n n ⎩ Для определенности будем считать, что значения a€ii , i ∈ 1, n можно упорядочить следующим образом: (2.371) a€nn ≤ a€n −1, n −1 ≤ K ≤ a€22 ≤ a€11 . Введем обозначения: d n−1 d d = α1; n−2 = α 2 ; K; 1 = α n−1 , dn d n−1 d2 т.е. dν (2.372) = α n−ν , ν ∈1, n − 1. d ν+1 С учетом (2.372) для величин d i d j в неравенствах (2.370) можно получить сле-
дующие выражения: ⎧α ⋅ α ⋅K ⋅ α ν , ν ∈ k + 1, n − 1; d n−ν ⎪ k +1 k + 2 (2.373) =⎨ 1 d n −k ⎪ , ν ∈ 0, k − 1. ⎩ α k ⋅ α k −1 ⋅K ⋅ α ν+1 Отсюда нетрудно видеть, что a€i ( α1 , α2 ,K, αn−1 ) = a€ii + a€i1 ⋅αn−1 ⋅K⋅αn−i +1 + a€i 2 ⋅ αn−2 ⋅K⋅ αn−i +1 + K + (2.374) 1 1 1 +a€i,i −1 ⋅ αn−i +1 + a€i ,i +1 + a€i,i + 2 + K + a€in , 2 ≤ i ≤ n. αn−i αn−i ⋅ αn−i −1 αn−i ⋅ αn−i −1...α1
Глава 2. Синтез робастных САУ в пространстве состояний
183
Выражения (2.374) можно непосредственно использовать для построения численной процедуры по одновременному нахождению начальных значений λ + и q0+ . Выберем начальные значения положительных коэффициентов α ν , ν ∈1, n − 1 достаточно малыми. Начнем увеличивать коэффициент α1 от α10 , а другие коэффициенты оставим без изменения. При обеспечении равенства a€n ( ⋅) = a€n −1 ( ⋅) значение α11 фиксируется. Кроме того, принимается, что α 0ν = α1ν , ν ∈ 2, n − 1. Причем коэффициент α 2 будем увеличивать, а остальные коэффициенты α ν оставим без изменения. Тогда для некоторого значения α 2 = α 22 > α12 хотя бы одна из возрастающих сумм сравняется по величине с одной из убывающих сумм. Допустим, что совпадение по величине произошло с суммой a€n − 2 ( ⋅) . В этом случае принимается
α1ν = αν2 , ν ∈1, n − 1\ 2. При этом коэффициент α 3 начнем увеличивать, а остальные оставим без изменения. Далее повторяется процедура, описанная выше для коэффициентов α1 , α 2 . Данная процедура продолжается до тех пор, пока величина разности a€0 ( ⋅) = a€+ ( ⋅) − a€− ( ⋅) , где a€+ ( ⋅) = max a€i ( ⋅) , a€− ( ⋅) = min a€i ( ⋅) , (2.375) i∈1, n
i∈1, n
не начнет возрастать. Чтобы обеспечить убывание величины a€0 , выделяют такие коэффициенты αν , ν ∈1, n − 1, при изменении которых сумма a€+ ( ⋅) уменьшается, а
a€− ( ⋅) — возрастает. Таким образом, повторяя процедуру требуемое число раз, добиваемся того, что a€0 ( ⋅) → 0. Данная задача всегда разрешима и имеет единственное решение при положительных коэффициентах αν , ν ∈1, n − 1 в силу свойств входныхвыходных матриц. Таким образом, в результате предложенного подхода можно одновременно найти значения λ 0+ , q0+ , соответствующие матрице K = K 0 . Далее необходимо осуществлять управление собственным значением λ + , перемещая его в левом направлении. Укажем важное условие, которое можно эффективно использовать при управлении значением λ +. Утверждение 2.5. Для стабилизируемости системы (2.231) необходимо, чтобы существовала такая матрица K , которая бы обеспечивала выполнение системы неравенств (2.376) a€ii < 0, i ∈1, n. Таким образом, чтобы обеспечить разрешимость неравенств (2.367), необходимо выполнение соотношений (2.376). Поэтому, прежде чем определять начальное значение λ + = λ 0+ , вначале необходимо выбрать такую матрицу K , которая бы обеспечивала выполнение неравенств (2.376). Если такая матрица K = K 0 найдена, то для нее находят указанным образом значение λ + = λ 0+ . Управление перемещением λ+ в левом направлении предлагается осуществить следующим образом. При фиксированной матрице K
184
Методы современной теории автоматического управления
a€i ( ⋅) = a€i ( α ) , i ∈ 1, n, где α = [ α1 , α 2 ,K, α n−1 ] — ((n − 1) × 1)-векторный параметр. T
Обозначим через
α+ = α+ ( K )
(2.377)
значение параметра α, соответствующее собственному вектору q0+ при фиксированной K. Тогда
( )
a€i α + = λ + ∀ i ∈ 1, n.
(2.378)
Поскольку коэффициенты a€ij , j ∈ 1, n явно зависят от K , то можно записать
a€i ( ⋅) = a€i ( α, K ) , i ∈ 1, n и
(
)
a€i α + , K = λ + ( K ) , i ∈ 1, n.
(2.379)
Рассмотрим вопрос о том, как следует изменять матрицу K , чтобы обеспечить равенство (2.379), а значение λ + ( K ) при этом непрерывно перемещалось бы влево. Обозначим через k ( (n ⋅ l ) × 1)-векторный параметр, составленный из всех коэффициентов матрицы K , например, следующим образом: k = [ k11 ,K , k1l , k21 ,K , k2l ,K , km1 ,K , kml ] . T
Тогда (2.379) примет вид
(
)
a€i α + , k = λ + ( k ) , i ∈ 1, n.
(2.380) (2.381)
Каждая из функций a€i ( α, k ) , i ∈ 1, n является непрерывно-дифференцируемой по всем компонентам параметра α и кусочно-непрерывной по параметру k. При этом дифференцируемость a€i ( ⋅) по компонентам параметра k нарушается на тех его значениях, для которых хотя бы один из коэффициентов a€ij , j ∈ 1, n \ i обращается в нуль. Введем обозначения
{
}
χ ij = k ∈ R ml : a€ij ( k ) = 0 , i ∈ 1, n, j ∈ 1, n \ i.
(2.382)
Очевидно, при k ∈ χij , j ∈ 1, n \ i коэффициент a€ij ( k ) и функция a€i ( α, k ) не дифференцируемы по k. Допустим, что k 0 ∉ χij ∀ j ∈ 1, n \ i, i ∈ 1, n. Для этого значения k 0
(
)
определим выражение дифференциала функций a€i α, k 0 , i ∈ 1, n. Изменение k из этого значения в произвольном направлении можно представить в следующем виде:
k = k 0 + k * ⋅ γ,
(2.383)
где γ — скалярный параметр, принимающий произвольное значение; k * — заданный ( (m ⋅ l ) × 1)-вектор, определяющий направление изменения k (k * может выбираться произвольным). Тогда m⋅l € ∂k n −1 € ∂a€i ∂a ∂a ∂α ξ (2.384) = a€i′γ α, k 0 = ∑ i ⋅ +∑ i ⋅ ν . ∂γ ∂γ ξ=1 ∂kξ ∂γ ν=1 ∂α ν
(
)
Глава 2. Синтез робастных САУ в пространстве состояний
185
Поскольку dkξ dγ ⎡ ∂a€ ∇k a€i = ⎢ i ⎣ ∂k1
= kξ* ;
∂α ⎡ ∂α1 = ∂γ ⎢⎣ ∂γ
T
∂α 2 ∂γ
L
∂α n −1 ⎤ = α ′γ ; ∂γ ⎥⎦
T
⎡ ∂a€i ∂a€i ⎤ L ⎥ ; ∇ α a€i = ⎢ ∂km −l ⎦ ⎣ ∂α1
∂a€i ∂k2
∂a€i ∂α 2
T
∂a€i ⎤ L ⎥ , ∂α n −1 ⎦
то m⋅l
∂a€ ∂k
ξ ∑ ∂k i ⋅ ∂γ = ( ∇k a€i , k* ) , ξ
ξ=1
n −1
∂a€ ∂α ν ⋅ = ( ∇ α a€i , α ′γ ) ∂γ ν ν=1 и выражение (2.384) принимает вид
∑ ∂αi
(
) (
)
a€i′γ α, k 0 = ∇ k a€i , k * + ( ∇ α a€i , α ′γ ) , i ∈ 1, n.
(2.385)
При изменении k согласно (2.383) (т.е. в направлении вектора k * ) значение λ ( k ) изменяется со скоростью +
∂λ + m⋅l ∂λ + ∂kξ =∑ ⋅ = ∇k λ + , k * , ∂γ ξ=1 ∂kξ ∂γ
(
)
(2.386)
T
⎡ ∂λ + ∂λ + ∂λ + ⎤ L где ∇k λ = ⎢ ⎥ . ∂km⋅l ⎦ ⎣ ∂k1 ∂k2 Тогда для того, чтобы осуществлять непосредственное управление собственным значением λ+ за счет соответствующего изменения параметра k , при котором λ+ непрерывно перемещается в левом направлении вдоль вещественной оси на комплексной плоскости, необходимо таким образом изменять k , чтобы левая и правая части уравнений (2.381) убывали с одинаковой скоростью (т.е. чтобы скорости изменения (производные по направлению) этих частей были одинаковыми и имели при этом отрицательный знак). Таким образом, чтобы уравнения (2.381) обеспечивались и при этом значение λ + ( k ) непрерывно уменьшалось, должны выполняться следующие соотношения: +
(
)
a€i′γ α, k 0 =
или отсюда
(∇
€i , k ka
*
) + (∇
€i , α ′γ αa
∂λ + < 0 ∀ i ∈ 1, n, ∂γ
) = (∇k λ + , k * ) < 0
(2.387) ∀ i ∈ 1, n,
( ∇ α a€i , α′γ ) = ( ∇ k λ + , k * ) − (∇ k a€i , k * ) =
(
) (
(2.388)
)
= ∇ k λ + − ∇ k a€i , k * = ∇ k (λ + − a€i ), k * , i ∈ 1, n,
т.е.
( ∇ α a€i , α′γ ) = ( ∇k ( λ + − a€i ) , k * ) ,
i ∈ 1, n.
(2.389)
Чтобы значение λ + ( k ) перемещалось влево по вещественной оси при k = k 0 , необходимо и достаточно выполнение неравенства
186
Методы современной теории автоматического управления
(
λ +γ ′ = ∇k λ + , k *
)
k =k 0
< 0,
(2.390)
при этом само значение λ +γ′ с учетом (2.390) можно выбирать произвольным. Тогда в соответствии с (2.389) нетрудно видеть, что изменение параметра k в направлении k * и заданного значения k 0 обеспечивает непрерывное перемещение λ+ влево тогда и только тогда, когда существует такая отрицательная величина λ +′, для γ
которой система линейных алгебраических уравнений (2.389) разрешима относительно ((n − 1) × 1)-векторного параметра α ′γ , область допустимых значений которого не ограничена (т.е. совпадает со всем пространством R n −1 ). Действительно, если сформулированное условие справедливо, то это означает, что при уменьшении собственного значения λ+ со скоростью λ +′ параметр α должен γ
изменяться со скоростью α ′γ , а параметр k — со скоростью γ в направлении k *. Поскольку вектор α может принимать только положительные значения, т.е. α > 0 или, что то же самое, αν > 0 ∀ν ∈1, т − 1, то при изменении k в направлении k * необходимо, чтобы положительность α сохранялась. Для достаточно малых изменений k (т.е. для достаточно малых значений γ ) с требуемой степенью точности можно записать α = α 0 + α′γ ⋅ γ, (2.391) где α = α 0 соответствует значению k 0. Тогда за счет малости γ можно обеспечить (2.252). Следовательно, сформулированное условие непротиворечиво и его выполнение обеспечивает равенство (2.242) при изменении k. Уравнения (2.389) можно представить в виде (2.392) ( ∇ a€ , α′ ) = λ + ′ − ∇ a€ , k * , i ∈ 1, n. α i
γ
γ
(
k i
)
Если воспользоваться обозначениями ⎡ ∇ k a€1 ⎤ ⎡ ∇ α a€1 ⎤ ⎢∇ a€ ⎥ ⎢∇ a€ ⎥ ∇ α a€ = ⎢ α 2 ⎥ — ( n × (n − 1) )-матрица; ∇ k a€ = ⎢ k 2 ⎥ — ( n × (m − l ) )-матрица; ⎢ M ⎥ ⎢ M ⎥ ⎢ ⎥ ⎢ ⎥ ⎣⎢∇ k a€n ⎦⎥ ⎣⎢∇ α a€n ⎦⎥ T
⎡ ⎤ L+γ ′ = ⎢ λ +γ ′ λ +γ ′ L λ +γ ′ ⎥ — ( n × 1)-вектор, ⎣ ⎦ то система уравнений (2.392) приводится к виду ∇ α a€⋅ α ′γ = L+γ′ − ∇ k a€⋅ k *
(2.393)
( n уравнений относительно n − 1 неизвестного, т.е. переопределенная система). Из теории линейных алгебраических уравнений известно [92], что для разрешимости переопределенной системы уравнений (число уравнений больше числа неизвестных) необходимо и достаточно, чтобы избыточные (лишние) уравнения были линейно зависимы от системы неизбыточных уравнений (число которых равно числу неизвестных). Нетрудно видеть, что система уравнений (2.392) или (2.393) переопределена, если в качестве неизвестных аргументов использовать компоненты ( (n − 1) × 1)-вектора α′γ (матрицы ∇ α a€, ∇k a€ известны, вектор k * задан, а вектор L+γ′ можно задавать
Глава 2. Синтез робастных САУ в пространстве состояний
187
произвольным с учетом неравенства (2.390)). Поскольку число неизвестных n, то для разрешимости (2.392) или (2.393) необходимо и достаточно, чтобы одно произвольное уравнение системы (2.392) было линейно зависимым от остальных n − 1 уравнений. В качестве такого уравнения можно, например, выбрать последнее. Сформируем матрицу, составленную из всех коэффициентов уравнений (2.393) (т.е. из коэффициентов левой и правой частей). Очевидно, данная матрица имеет вид ⎡ ⎤ Ρ = ⎢∇α a€ L+γ′ − ∇k a€⋅ k * ⎥ , (2.394) ⎣ ⎦ т.е. Ρ — ( n × n )-матрица, у которой хотя бы одна строка линейно зависима от других строк. Отсюда следует, что rank Ρ < n, и потому (2.395) det P = 0. Равенство (2.395) можно рассматривать в качестве критерия управляемости вещественного собственного значения λ+ в левом направлении относительно изменения вектора k вдоль k *. Тогда, задав произвольное значение L+ ′ , с учетом (2.390) и расγ
*
сматривая (2.395) как уравнение относительно k , можно определить допустимость того или иного направления k * при изменении вдоль него матрицы K. Затем согласно (2.393) определяется вектор α′γ , с учетом которого по формуле (2.391) оценивается величина α, а также дальнейшая возможность использования направления k * (так как необходимо, чтобы α > 0 ). 2.4.14.
СИНТЕЗ РЕГУЛЯТОРОВ НА ОСНОВЕ НЕПРЕРЫВНОЙ ДЕФОРМАЦИИ ФАЗОВЫХ МНОГОГРАННИКОВ
Рассмотрим поставленный в данной главе вопрос о деформации линейных фазовых ограничений, задающих в пространстве состояний фазовый многогранник, для обеспечения разрешимости задачи синтеза. Пусть задана система управления, описываемая линейными уравнениями состояния следующего вида: ⎧x& = f ( x, u, v, t ) = Ax + Bu + Dv; ⎪ ⎨u = Ky, y = Cx + Lω; ⎪x t = x , t ≥ t , 0 0 ⎩ ( 0) где x, u, y, v, ω — соответственно ( n × 1)-вектор состояния, ( m × 1)-вектор управления, (l ×1)-вектор выхода (измерения), ( r × 1)-вектор внешних возмущений, ( d ×1)-вектор возмущений измерения; A, B, K , C, D, L — матрицы согласованных с данными векторами размерностей n × n, n × m, m × l , l × n, n × r , l × d . На переменные состояния системы наложены ограничения, к которым согласно используемому предположению может быть приведена достаточно произвольная цель управления, стоящая перед системой: x ( t ) ∈ Q ( t ) , t ≥ t0 , где Q ( t ) = x ∈ R n : ψi ( x, t ) ≤ 0, i ∈1, χ .
{
}
Считаем, что функции ограничений ψ i ( ⋅) , i ∈1, x задаются в виде следующих линейных зависимостей: ψi ( x, t ) = ( pi ( t ) , x ) − qi ( t ) , i ∈ 1, χ, (2.396)
188
Методы современной теории автоматического управления
где pi ( t ) и qi ( t ) — соответственно ( n × 1)-вектор-функции и скалярные функции, непрерывно-дифференцируемые при t ≥ t0 ; ( pi , x ) — скалярные произведения в евклидовом пространстве R n. Кроме того, будем предполагать, что для каждого t ≥ t0 параметры рi , qi , i ∈ 1, χ могут изменяться (быть заданы) в некоторых допустимых пределах, т.е. pi ∈ pi ( t ) , qi ∈ Ri ( t ) , i ∈ 1, χ, где pi ( t ) ⊂ R n , Ri ( t ) ⊂ R1 — заданные множества. Отсюда следует, что Q ( t ) — фазовый многогранник в R n с линейными гранями, который может изменяться (деформироваться) в пространстве R n в некоторых пределах в зависимости от выбора значений параметров pi , qi , i ∈ 1, χ. Кроме того, необходимо учитывать ограничения на управления u ∈ U ( t ) , t ≥ t0 , где U ( t ) ⊂ R m — некоторое заданное множество. О возмущениях v, w известна следующая информация: v ∈ V ( t ) , t ≥ t0 ; w ∈ W ( t ) , t ≥ t0 ,
где V ( t ) ⊂ R , W ( t ) ⊂ R r
p
— некоторые замкнутые ограниченные множества (ком-
пакты). Решаемую задачу сформулируем следующим образом: требуется для рассматриваемой системы выбрать такой линейный закон управления, который бы с учетом заданных ограничений обеспечивал выполнение фазовых ограничений хотя бы для одной допустимой реализации фазового многогранника. При этом необходимо определять разрешимость задач синтеза на множестве допустимых фазовых многогранников. Для решения поставленной задачи воспользуемся методом вариации фазовых ограничений, в соответствии с которым требуемый закон управления u% ( x, w, t ) = K ( t ) y = K ( t ) C ( t ) x + K ( t ) L ( t ) w, обеспечивающий выполнение фазовых ограничений, должен удовлетворять неравенствам ∂ψ i ⎧ ≤0 ⎪ ∇ x ψ i ( x, t ) , f ( x, u% ( x, w, t ) , v, t ) + ∂t ⎨ ⎪∀ x ∈ ГQ ( t ) ∩ ГQ ( t ) , i ∈1, χ, t ≥ t , i 0 ⎩
(
)
которые преобразуются к виду % T p , x + ( p , Dv ) + ( p , BKLW ) − q& ≤ 0 ⎧σi ( x, k , v, w, t ) = p& i + A i i i i ⎪ ⎨ ⎪∀ ⎩ x ∈ ГQ ( t ) ∩ ГQ ( t ) , i ∈ 1, χ, t ≥ t0 , % = A + BKC. где A
(
)
(2.397)
С учетом ограничений на возмущения неравенства (2.397) приводятся к эквивалентной форме: % Tp , x + max ( p , Dv ) + max ( p , BKLW ) − q& ≤ 0, i ∈1, χ, t ≥ t . (2.398) max p& i + A 0 i i i i x∈ГQi ∩ГQ
(
)
v∈V
w∈W
Глава 2. Синтез робастных САУ в пространстве состояний
189
Неравенства (2.398) должны иметь решение (матрицу K ) хотя бы для одного многогранника Q ( t ) . Поскольку функция σ ( x, k , v, w ,t ) линейна относительно x, то свои экстремальные значения на произвольной грани ГQi ∩ ГQ, i ∈1, χ многогранника Q она может принимать только на вершинах данной грани. Введем обозначения M νi , ν ∈1, si , i ∈1, χ — вершины многогранника Q, принадлежащие грани ГQi ∩ ГQ. Тогда справедливы равенства % T p , x = max p& + A % T p , M i , i ∈ 1, χ. (2.399) max p& i + A ν i i i x∈ГQi ∩ ГQ
(
)
ν∈1, s i
(
)
Если неравенства (2.399) выполняются, то в каждой вершине M νi , ν ∈ 1, s, i ∈ 1, χ ,
(
) )
(
вектор скорости x& = f M νi , u% M νi , w, t , v, t
должен быть направлен внутрь много-
гранника Q (см. рис. 2.31). x2
( )
x2
M11 M 23
ГQ1 ∩ ГQ
( )
ГQ1 ∩ ГQ M11 M 24
( )
M 12 M12
( )
M12 M12
x&
x&1
2
Q
0
x1
x&
ГQ3 ∩ ГQ
x& 3
ГQ2 ∩ ГQ
x& 2
ГQ2 ∩ ГQ
M 22
3
x&1 0
x1
x& 4
( )
( )
M 23 M14
M 22 M13
( ) M13
ГQ4 ∩ ГQ
ГQ3 ∩ ГQ
а
б
Рис. 2.31. Геометрическая интерпретация неравенства (2.397): а — для (n + 1) -угольной пирамиды; б — для прямоугольного параллелепипеда с 2т вершинами
Отсюда следует, что если для некоторого многогранника Q неравенства (2.397) не выполняются, то необходимо сдеформировать Q так, чтобы векторы скоростей системы входили вовнутрь Q в каждой его вершине. Очевидно, деформацию Q можно осуществить за счет деформации вершин M νi , ν ∈ 1, si , i ∈ 1, χ (см. рис. 2.32). x2
M vi ′
ΔM vi M vi
x& ′
0
Q′
Q
x&
M vi ′ = M vi + ΔM vi x1
Рис. 2.32. Деформация вершины M νi
190
Методы современной теории автоматического управления
Здесь ΔM νi — величина деформации вершины M νi , обеспечивающая вхождение вектора скорости вовнутрь сдеформированного многогранника Q′. Синтез требуемой матрицы K осуществляется на основе неравенства (2.398). При этом
( ) max ( p , BKLw ) = max ( L K B p , w ) , max ( pi , Dv ) = max DT pi , v ; v∈V
T
i
w∈W
(2.400)
v∈ГV
T
T
w∈ГW
(2.401)
i
где ГV , ГW — границы множеств V , W . С учетом (2.399)–(2.401) неравенство (2.398) принимает вид % T p , M i + max DT p , v + max LT K T BT p , w − q& ≤ 0, ⎧max p& i + A i i i i ν ⎪ ν∈1, s v∈ГV w∈ГW i (2.402) ⎨ ⎪⎩i ∈ 1, χ, t ≥ t0 . Эти соотношения достаточно эффективно решаются методом линейного программирования. При этом множество допустимых значения управления U можно пересчитать на множество Ω допустимых значений матрицы K . В общем случае возможна ситуация, когда система неравенств (2.402) неразрешима, т.е. найдется хотя бы одно значение i ∈1, χ, для которого соответствующее неравенство не выполняется. Это означает, что на грани ГQi ∩ ГQ хотя бы в одной
(
)
(
)
(
)
из вершин M νi% , ν% ∈1, si вектор скорости не может быть направлен внутрь Q. Тогда в соответствии с рис. 2.32 осуществляется деформация M ν%i , т.е. M νi% ′ = M ν%i + ΔM ν%i . Причем направление и величину вектора ΔM ν%i необходимо выбирать таким образом, чтобы обеспечить выполнение указанного i-го неравенства (2.402) (т.е. чтобы x& в M ν%i входил вовнутрь Q′(t )). т.е.
При деформации вершины M ν%i будут деформироваться в общем случае pi и qi , ⎧pi′ = pi + Δpi ; ⎨ ⎩qi = qi + Δqi .
Тогда i-е неравенство (2.402) принимает вид % T p , M %i + p& + A % T p , ΔM %i + Δp& + A % T Δp , M %i + σi M ν%i + ΔM ν%i , ⋅ = p& i + A ν ν ν i i i i i
(
) (
) (
(
) (
) ( B p , w ) + (L K B
)
) ( ) Δp , w ) ⎤ − q& − Δq& ≤ 0. ⎦
% T Δp , ΔM %i + max ⎡ DT p , v + DT Δp , v ⎤ + + Δp& i + A ν i i i ⎦ v∈ГV ⎣
(
+ max ⎡ LT K T w∈ГW ⎣ Поскольку
T
i
T
T
T
i
i
(2.403)
i
⎧⎪pi ⊥ ГQi ∩ ГQ ∀ i ∈ 1, χ; ⎨ ⎪⎩pi′ ⊥ ГQi′ ∩ ГQ′, где ГQi′, ГQ ′ — сдеформированные грани многогранника, то для определения величины Δpi можно воспользоваться следующими соотношениями: ⎛ i′ i ⎞ ⎜ p′i , M ν% − M ν ⎟ = 0, ν ∈ 1, si \ ν% , ⎝ ⎠
Глава 2. Синтез робастных САУ в пространстве состояний или
( p + Δp , M i
Отсюда
i
i ν%
i
)
i ν%
(p , ΔM ) + ( Δp , M i
191
+ ΔM ν%i − M νi = 0, v ∈ 1, si \ ν% .
i ν%
) (
)
− M νi + Δpi , ΔM ν%i = 0, v ∈ 1, si \ ν% .
(2.404)
Для определения Δqi воспользуемся уравнением i-й гиперплоскости
( pi , x ) − qi = 0, ( pi′ , x ) − qi′ = 0,
т.е.
x ∈ ГQi ∩ ГQ; x ∈ ГQi′ ∩ ГQ ′,
( pi + Δpi , x ) − qi − Δqi = 0,
или
( Δpi , x ) − Δqi = 0,
Тогда
x ∈ ГQi′ ∩ ГQ ′.
(
) ( ) = ( Δp , M ) , v ∈ 1, s \ ν% ,
Δqi = Δpi , M ν%i + Δpi , ΔM ν%i ,
(2.405)
i ν
(2.406)
Δqi
i
i
где M νi — недеформируемые вершины i-й грани. Если ΔM ν%i — сколь угодно малая величина, то соотношения (2.404)–(2.406) приводятся к виду ⎧ pi , ΔM vi% + Δpi , M vi% − M vi = 0, v ∈ 1, si \ v%, ⎪ (2.407) ⎨ i ⎪Δqi = Δpi , M v , v ∈ 1, si . ⎩ На основе уравнений (2.407) нетрудно определить величину деформации Δpi . Действительно, произвольную грань в n-мерном пространстве определяют n − 1 линейно независимых векторов. Поэтому на i-й грани ГQi′ ∩ ГQ выделим n − 1 векто-
(
(
(
) (
{ } мыми при ν ≠ ν% (здесь {ν }
)
)
)
ров M vi% − M vi , v ∈ vki ⊆ 1, si , k ∈ 1, n − 1, обязательно являющихся линейно независиi n −1 k k =1
— некоторое подмножество индексов множества 1, si ).
Используя выделенные соотношения, получим уравнение M 0i ⋅ Δpi = P i ⋅ ΔM νi , где T ⎤ ⎡ i i ⎢ M ν1i − M ν% ⎥ ⎡piT ⎤ ⎢ ⎥ ⎢ T⎥ T ⎢ M ii − M i ⎥ ⎢p ⎥ i % ν ν2 ⎢ ⎥ , P = ⎢ i ⎥ — ((n − 1) × n )-матрицы, ⎢ ⎥ ⎢ M ⎥ M ⎢ ⎥ ⎢p T ⎥ T⎥ ⎢ i ⎣ i ⎦ i − M M i ν% ⎢⎣ ν n−1 ⎥⎦ характеризующее направление деформированного вектора p ′i и имеющее для заданной
( (
) )
(
)
деформации ΔM νi бесконечное множество решений Δpi , соответствующих одной и той же сдеформированной грани ΓQi′ I ΓQ′. Поэтому достаточно выбрать произ-
192
Методы современной теории автоматического управления
вольное из этих решений Δpi . Для этого расширим матрицы M 0i , P i до ( n × n )матриц следующим образом: ⎡ M 0i ⎤ ⎡ Pi ⎤ M 0i = ⎢ i ⎥ , Pi = ⎢ ⎥ , T ⎢⎣ mν% ,n ⎥⎦ ⎣⎢pi ⎦⎥ где mνi% ,n — ( n × 1)-вектор-строка, линейно независимая от всех строк матрицы M 0i . Таким образом, M 0i — невырожденная матрица. Тогда получим ⎧ M 0i Δpi = Pi ΔM ν%i ; ⎪ ⎨ i −1 i i i ⎪⎩Δpi = M 0 P ⋅ ΔM ν% = R i ⋅ ΔM ν% ,
(2.408)
( )
( )
где R i = M 0i
−1
P i.
Воспользуемся (2.408) для определения величины Δqi . Согласно (2.407) имеем ⎛ ⎞ −1 T Δqi = ⎜ P iT ⋅ ⎛⎜ M 0i ⎞⎟ ⋅ M νi , ΔM ν%i ⎟ = R iT ⋅ M νi , ΔM ν%i , ν ∈ 1, Si . (2.409) ⎜ ⎟ ⎝ ⎠ ⎝ ⎠ Для оценки выполнения неравенства (2.403) необходимо определить входящие в него выражения max [⋅] и max [⋅] (2.410)
( )
(
v∈ΓV
)
w∈ΓW ΔM νi% .
в зависимости от величины деформации Считаем, что множества V , W являются строго выпуклыми и задаются следующими аналитическими соотношениями: ⎧V = V ( t ) = v ∈ R r : ξ ( v, t ) ≤ 0 , t ≥ t0 ; ⎪ ⎨ d ⎪W = W ( t ) = w ∈ R : η ( w, t ) ≤ 0 , t ≥ t0 , ⎩ где ξ ( ⋅) , η ( ⋅) — непрерывно-дифференцируемые функции. Таким образом, границы
{ {
}
}
ΓV ( t ) , ΓW ( t ) являются гладкими поверхностями. Кроме того, с учетом сделанных предположений можно считать, что выражения (2.410) являются непрерывными, а значения v = v* и w = w*, на которых достигается решение задач (2.410), непрерывно зависят от величины Δpi . Вначале рассмотрим кривую из задач (2.410). Пусть v = v * = v 0 i + Δv ,
где v 0i является решением задачи (2.410) при недеформированном векторе pi ; Δv — величина деформации решения первой задачи (2.410), которая с учетом сделанных предположений обеспечивается сколь угодно малой, если сколь угодно малой является величина Δpi . Получим
(
)
( ) + (D
)
max DT ( pi + Δpi ) , v = max DT ( pi + Δpi ) , v 0i + Δv = v∈ΓV
(
v∈ΓV
= max ⎡ DT ( pi + Δpi ) , v 0i v∈ΓV ⎣
(
)
= D T ( p i + Δp i ) , v 0 i +
max
v 0 i +Δv∈ΓV
T
( pi + Δpi ) , Δv )⎤⎦ =
(D
T
( p i + Δp i ) , Δv ) .
(2.411)
Глава 2. Синтез робастных САУ в пространстве состояний
193
Для определения величины (2.411) воспользуемся следующим геометрическим представлением (см. рис. 2.33). ГV
(
∇ v ξ v 0i , t
v 0i
V Δv
∇ v ξ ( v,t )
v*
T
D pi
)
DT ( pi + Δpi )
0 Рис. 2.33. Геометрическая иллюстрация решения задачи (2.411)
При произвольных векторе pi и выпуклом множестве V , если v — решение задачи максимизации (2.410) или (2.411), должно выполняться соотношение DT pi = λ ⋅ ∇ v ξ ( v, t ) , λ > 0,
(2.412)
где λ ∈ R1 — некоторой скалярный коэффициент (т.е. вектор DT pi и градиент ∇ v ξ ( v,t ) имеет одно и то же направление). Только при выполнении (2.412) вектор v
имеет максимальную ортогональную проекцию на направление вектора DT pi , что
(
)
соответствует максимальной величине DT pi , v . Согласно (2.412)
(
)
⎧DT pi = λ 0 ⋅∇ v ξ v 0i , t ; ⎪ ⎨ T 0i ⎪D ( pi + Δpi ) = ( λ 0 + Δλ ) ∇ v ξ v + Δv, t . ⎩ Отсюда с учетом непрерывной дифференцируемости ξ ( ⋅) и достаточной малости
(
)
Δv, используя разложение ξ ( ⋅) в ряд Тейлора, получаем Δv =
(
)
(
)
−1 1 ⎡ 2 ∇ vv ξ v 0i , t ⎤ ⎡ DT ⋅ Δpi − Δλ ⋅∇ v ξ v 0i , t ⎤ , ⎦ ⎣ ⎦ λ0 ⎣
(2.413)
где ∇ 2vv ξ ( ⋅) — векторная производная ξ ( ⋅) по вектору v. Причем величина λ 0 > 0 предполагается известной. Величину Δλ в (2.413) определим из условия
( ) (
)
ξ v* , t = ξ v 0i + Δv, t = 0.
Отсюда в силу малости Δv
(
) (
) (
) ) (
(
) )
(
ξ v 0i + Δv, t = ξ v 0i , t + ∇ v ξ v 0i , t , Δv = ∇ v ξ v 0i , t , Δv = 0.
И с учетом (2.413) получим Δλ =
(
)(
(
))
−1
−1
⎞ ⋅∇ v ξ v 0i , t ⎟ ⎠
⎛ 0i 2 0i ⎜ ∇ v ξ v , t , ∇ vv ξ v , t ⎝
(
)(
(
⎛ 0i 2 0i ⎜ ∇ v ξ v , t , ∇ vv ξ v , t ⎝
))
⎞ ⋅ DT Δpi ⎟ ⎠
(
)
;
194
Методы современной теории автоматического управления Δv =
(
(
1 ∇ 2vv ξ v 0i , t λ0
))
−1
×
)(
))
−1 ⎡ ⎛ ⎞ 0i 2 0i ⋅ DT Δpi ⎟ ⎜ ∇ v ξ v , t , ∇ vv ξ v , t ⎢ T ⎝ ⎠ ∇ ξ v 0i , t × ⎢ D Δpi − v −1 ⎛ ⎞ ⎢ 0i 2 0i 0i ∇ ξ v t ∇ ξ v t ⋅∇ ξ v t , , , , v vv v ⎜ ⎟ ⎢ ⎝ ⎠ ⎣ Аналогично Δv определяем величину Δw. Имеем −1 1 2 Δw = ∇ ww η w 0i , t × μ0
(
(
)(
(
))
(
(
(
(
)
)
⎤ ⎥ ⎥. ⎥ ⎥ ⎦
(2.414)
))
(
(
)(
(
))
(
)(
(
))
⎡ ⎛ 0i 2 0i ⎜ ∇ w η w , t , ∇ ww η w , t ⎢ T T T ⎝ × ⎢L K B ⋅ Δpi − ⎛ ⎢ 0i 2 0i ⎜ ∇ w η w , t , ∇ ww η w , t ⎢ ⎝ ⎣
−1
⎞ ⋅ LT K T BT Δpi ⎟ ⎠ ⋅∇ η w 0i , t w −1 ⎞ ⋅∇ w η w 0i , t ⎟ ⎠
(
(
)
)
⎤ ⎥ (2.415) ⎥, ⎥ ⎥ ⎦
где w 0i, μ0 аналогичны v 0i, λ 0 . Выражение (2.411) с учетом пренебрежения слагаемым высшего порядка малости приводится к виду
(
) ( ) ( = ( D p , v ) + ( Dv
) (
)
max DT ( pi + Δpi ) , v = DT pi , v 0i + Dv 0i , Δpi + DT pi , N i Δpi = v∈ΓV
T
i
0i
0i
)
+ NiT DT pi , Δpi ,
где
(
1 Ni = ∇ 2vv ξ λ0
Аналогично получим
(
)
−1
⎡ −1 ⎤ T ∇ v ξ ⋅ ( ∇ v ξ ) ⋅ ∇ 2vv ξ ⎥ T ⎢ ⋅ ⎢E − ⎥⋅D . ⎛ ∇ ξ, ∇ 2 ξ −1 ⋅∇ ξ ⎞ ⎥ ⎢ ⎜ v vv v ⎟ ⎢⎣ ⎝ ⎠ ⎥⎦
(
(
)
)
) (
) (
)
max LT K T BT ( pi + Δpi ) , w = LT K T BT pi , w 0i + BKLw 0i , Δpi +
(
w∈ΓW
) (
) (
)
+ LT K T BT pi , G i Δpi = LT K T BT pi , w 0i + BKLw 0i + G iT LT K T BT pi , Δpi ,
где ⎡ −1 ⎤ T 2 ∇ η⋅ ∇ η ⋅ ∇ η ⎢ ⎥ T T T ( ) w w ww 1 ∇ 2ww η ⋅ ⎢ E − Gi = ⎥⋅L K B . − 1 μ0 ⎛ ∇ η, ∇ 2 η ⋅ ∇ η ⎞ ⎥ ⎢ ⎜ w ww w ⎟ ⎢⎣ ⎝ ⎠ ⎥⎦ Определим величины Δp& i , Δq&i , входящие в неравенство (2.403). С учетом (2.408), (2.409) получим & ΔM i% + R ⋅ ΔM& %i ; ⎧Δp& i = R ν ν i i ⎪ (2.416) ⎨ T T T i i i i & & &i ⎪⎩Δq&i = R i M ν + R i M ν , ΔM ν% + R i M ν , ΔM ν% . & , M& i , как Проанализируем данные выражения. Для определения производных R
(
)
(
−1
(
( )
) (
)
)
i
ν
следует из (2.408), (2.409), необходимо иметь зависимости изменения вершин многогранника Q ( t ) во времени M νi = M νi ( t ) . Найдем данные зависимости.
Глава 2. Синтез робастных САУ в пространстве состояний
195
Известно, что произвольная вершина M νi многогранника Q ( t ) является пересечением по крайней мере n гиперплоскостей вида (2.396), т.е.
(
) (
)
{ }
ψ i M νi , t = pi ( t ) , M νi − qi ( t ) = 0, i ∈ ikν ⊂ 1, γ , k ∈ 1, n.
Отсюда получим
{ }
M νi = M νi ( t ) = Fi−,ν1 ( t ) ⋅ α i ,ν ( t ) , i ∈ ikν , k ∈ 1, n,
где Fi ,ν ( t ) — ( n × n )-матрица, α
i ,ν
(t )
— ( n × 1)-вектор:
⎡p Tν ( t ) ⎤ ⎡ qiν ( t ) ⎤ ⎢ i1 ⎥ ⎢ 1 ⎥ Fi ,ν ( t ) = ⎢ M ⎥ ; α i ,ν ( t ) = ⎢ M ⎥ . ⎢ T ⎥ ⎢q t ⎥ ν ( ) ⎢pinν ( t ) ⎥ ⎣⎢ i1 ⎦⎥ ⎣ ⎦ & ΔM i% , Δq& r = R & T M i + R T M& i , ΔM %i В выражениях (2.416) первые слагаемые Δp& ir = R i i i i ν ν ν ν
(
)
— регулярные составляющие приращения скоростей деформации Δpi и Δqi . А вто-
(
рые слагаемые Δp& in = R i ΔM& νi% , Δq&in = R iT M νi , ΔM& ν%i
)
— соответственно нерегулярные
составляющие, наличие которых характеризует динамику (скорость) деформации вершин. Таким образом, Δp& i = Δp& ir + Δp& in , Δq&i = Δq&ir + Δq&in . В данной работе рассматривается только случай, когда ΔM& i ≡ 0 ∈ R n. ν
С учетом полученных соотношений неравенство (2.403) приводится к виду % T p , M %i + max DT p , v + max LT K T B T p , w − q& ⎤ + σi M ν%i + ΔM ν%i , ⋅ = ⎡ p& i + A i i i i⎥ ν v∈ΓV w∈ΓW ⎣⎢ ⎦
(
) (
(
)
(
(
)
Δp , Δ M ) + ) ( D p , Δp ) + ( BKLw + G L K B p , Δp ) − Δq& ⎤ = ⎦ = σ ( M , ⋅) + Δσ ( M , ⋅) ,
% T p , ΔM i% + Δp& + A % T Δp , M %i + ⎡ p& i + A i i i ν ν ⎣ + Dv 0i + NiT
) ( ) + ( Δp& + A%
T
i
0i
i
i
i ν%
i
T T i
T
T
i
T
i
i
i ν%
i
где в силу достаточной малости ΔM ν%i получим
(
) (
i ν%
i
) (
)
% T p , ΔM %i + R % T R ΔM %i , M %i + & ⋅ ΔM %i + A Δσi ΔM νi% , ⋅ = p& i + A i i i ν ν ν ν
(
) (
)
+ Dv 0i + NiT DT pi , R i ΔM ν%i + BKLw 0i + G iT LT K T B T pi , R i ΔM ν%i −
(
) (
)
(2.417)
& T M i% + R T M& %i , ΔM %i = ∇ i σ , ΔM %i , − R i i i ν ν ν ν M ν
где под ∇ M i σi будем понимать градиент функции σi ( ⋅) в v-й вершине i-й грани ν
многогранника Q ( t ) . Причем
(
(
)
% Tp + RT A % ⋅ M %i + ∇ M i σi M ν%i , ⋅ = p& i + A i i ν ν
)
+ R iT Dv 0i + NiT DT pi + BKLw 0i + G iT LT K T B T pi − M& ν%i .
Из выражения (2.417) непосредственно следует, что направление деформации ΔM ν%i необходимо выбирать так, чтобы выполнялось неравенство
(
) (
Δσi ΔM νi% , ⋅ = ∇ M i σi , ΔM νi ν
) < 0.
196
Методы современной теории автоматического управления
{ }
Поскольку в вершине M νi% пересекаются грани ΓQi I ΓQ, i ∈ ikν% , k ∈1, n, то должны выполняться неравенства
(∇
M νi
)
{ }
σi , M ν%i < 0, i ∈ ikν% , k ∈1, n.
(2.418)
Неравенства (2.418) определяют необходимое и достаточное условие существования допустимой деформации ΔM ν%i вершины M νi% . Для проверки их разрешимости можно воспользоваться следующим утверждением. Утверждение 2.6. Неравенства (2.418) разрешимы тогда и только тогда, когда в n R существует такая гиперплоскость, проходящая через вершину M νi% и разбиваю-
{ }
щая R n на два полупространства, что все векторы ∇ M i σi , i ∈ ikν% , k ∈1, n принадлеν
жат только одному из этих полупространств. Данное утверждение проиллюстрировано на рис. 2.34. ∇ M i σiv% ν
3
∇ M i σiv% ν
Q
2
Mv 0
∇ M i σiv% ν
K νi%
1
Rνi%+
Rνi%−
Гiν%
Рис. 2.34. Геометрическая иллюстрация утверждения 2.6
Здесь Гiν% — указанная в утверждении гиперплоскость, разбивающая R n на полупространства Rνi%− и Rνi%+ ; K νi% — конус допустимых направлений деформации M νi% ,
обеспечивающих неравенства (2.418). Очевидно, K νi% ⊆ Rν%i − . Нетрудно видеть, что если число гиперплоскостей, пересекающихся в вершине i M ν% , является минимально возможным, т.е. равным n, то указанная в утверждении гиперплоскость всегда существует. Введем обозначение: Σiν% — ( n × n )-матрицы:
( (
)⎤⎦ )⎤⎦
(
)
⎡⎡ i ⎢ ⎣∇ M νi σi1ν% ΔM ν% , ⋅ ⎢ ⎢ ⎡∇ i σ ν% ΔM i , ⋅ ν% Σiν% = ⎢ ⎣ M ν i2 ⎢ M ⎢ ⎢⎡ i ⎢⎣ ⎣∇ M νi σinν% ΔM ν% , ⋅ Тогда неравенства (2.418) примут вид Σiν% ⋅ ΔM ν%i < 0n , n
где 0n — нулевой элемент в R .
T⎤
⎥ ⎥ ⎥ ⎥. ⎥ ⎥ T ⎤ ⎥ ⎦ ⎥⎦ T
(2.419)
Глава 2. Синтез робастных САУ в пространстве состояний
197
Поскольку векторы ∇ M i σiν% , k ∈1, n сформированы для различных граней, пересеν
M νi% ,
кающихся в вершине
k
то можно считать, что данные векторы являются линейно
независимыми. В этом случае матрица Σiν% является невырожденной. Тогда для определения произвольной деформации ΔM νi% , удовлетворяющей неравенству (2.419), можно воспользоваться соотношением
( )
ΔM νi% = Σiν%
−1
⋅ γ iν% ,
(2.420)
где γ iν% ∈ R n и γ iν% < 0n (т.е. все компоненты вектора γ iν% отрицательные). Выбирая произвольный отрицательный вектор γ iν% ∈ R n, можно задать произвольную допустимую деформацию ΔM νi% ∈ K ν%i . Таким образом, полученное соотношение позволяет осуществлять допустимую деформацию вершины M νi% . Необходимо иметь в виду, что деформация M ν%i непосредственно влияет на изме-
(
)
{ }
нение функций σi M νi , ⋅ , i ∈ ikν , k ∈1, n, ν ∈1, si , вычисляемых в вершинах M νi тех граней, которые пересекаются в вершине M ν%i . Поэтому после деформации M ν%i может возникнуть необходимость скорректировать значения указанных функций
(
)
σi M νi , ⋅ в зависимости от того, как именно они изменились (уменьшились или уве-
личились). Возможны различные алгоритмы коррекции. Достаточно простым является следующий подход: 1. Выбирается некоторая вершина M ν%i многогранника Q, в которой не выполняется хотя бы одно из неравенств (2.402). 2. В соответствии с (2.420) осуществляется допустимая деформация вершины M ν%i . 3. После деформации выделяются все те вершины многогранника Q, в которых хотя бы одно из неравенств (2.402) не выполняется. 4. Выбирается такое приращение ΔK матрицы K , для которого выделенные в пре-
(
)
дыдущем пункте функции σi M νi , ⋅ уменьшаются. 5. Если такого приращения ΔK не существует, то вновь повторяется процедура при прежней матрице K , начиная с пункта 1, если же такое приращение существует, то выбирается новая матрица K + ΔK , для которой повторяется вся процедура, начиная с пункта 1. Применение данной процедуры позволяет достаточно эффективно синтезировать требуемую матрицу K путем чередования допустимых деформаций вершин многогранника Q и приращений матрицы обратной связи. Покажем, как именно следует осуществлять приращение матрицы K. Пусть вершины многогранника Q являются фиксированными и не деформируются. С учетом (2.402) получим
(
)
(
(
% + BΔKC σi M νi , K + ΔK , ⋅ = p& i + A
(
)
(
)
T
)
pi , M νi +
)
+ max DpTi , v + max LT ( K + ΔK ) BT pi , w − q&i . v∈ΓV
w∈ΓW
T
198
Методы современной теории автоматического управления
Отсюда
(
) (
)
(
)
% T p , M i + max DT , v − q& + σi M νi , K + ΔK = p& i + A ν pi i i
(
) (
v∈ΓV
)
+ CT ( ΔK ) B T pi , M νi + LT ( K + ΔK ) B T pi , w 0i + +
где
T
( L ( K + ΔK ) T
max
w 0 i + w∈ΓW
) (
(
T
)
(
)
(
)
BT pi , Δw = σi M νi , K , ⋅ + Δσi M νi , ⋅ ,
)
Δσi M νi , ⋅ = CT ( ΔK ) B T pi , M νi + w
T
T
( L ( K + ΔK ) T
max
w 0 i +Δw∈ΓW
T
)
B T p i , Δw ,
0i
— решение задачи максимизации (2.410). Тогда по полной аналогии с (2.415) определим величину Δw, используя вместо
LT K T B T Δpi вектор LT ( ΔK ) BT Δpi . T
В результате получим −1 1 Δw = ∇ 2ww η w 0i , t × μ0
(
))
(
)(
))
−1 ⎡ T ⎛ ⎞ 0i 2 0i ⋅ LT ( ΔK ) B T pi ⎟ ⎜ ∇ w η w , t , ∇ ww η w , t ⎢ T ⎝ ⎠ ⋅ ∇ η w 0i , t × ⎢LT ( ΔK ) B T pi − w 1 − ⎢ ⎛ ⎞ 0i 2 0i 0i w t w t w t ∇ η ∇ η ⋅ ∇ η , , , , ww w ⎜ w ⎟ ⎢ ⎝ ⎠ ⎣
(
(
=
(
(
1 ∇ 2ww η w 0i , t μ0
))
−1
(
)(
(
))
(
(
)
)
⎤ ⎥ ⎥= ⎥ ⎥ ⎦
⎡ T −1 ⎤ 2 ⎢ ⎥ ∇ w η w 0i , t ⋅ ∇ w η w 0i , t ⋅ ∇ ww η w 0i , t ⎥× ⋅ ⎢E − 1 − ⎢ ⎛ ⎞⎥ 0i 2 0i 0i ⋅ ∇w η w , t ⎟ ⎥ ⎜ ∇ w η w , t , ∇ ww η w , t ⎢ ⎝ ⎠⎦ ⎣
(
) ( ( )) ( ( ) ( ( ))
(
)) ( )
% ( ΔK ) B T p . × LT ( ΔK ) B T pi = G i i T
T
С учетом достаточной малости приращения ΔK приходим к выражению T % ( ΔK ) T B T p = Δσ M i , ⋅ = CT ( ΔK ) B T p , M i + LT K T B T p , G i
(
ν
) ( =
ν
i
( ( ΔK )
T
) (
i
i
)
i
)
% T LT K T B T p , BT pi , CM νi + G i i
(
)
в соответствии в которым определяются приращения Δσi M νi , ⋅ для всех тех функций
(
σi M νi , ⋅
) , для которых (
σi M νi , ⋅
бы обеспечивались неравенства
(
) > 0. Тогда ΔK выбирается таким образом, что)
Δσi M νi , ΔK , ⋅ ≤ 0, i ∈ χ + , ν ∈ si+ , +
где χ ⊆ 1, χ — некоторое подмножество индексов, соответствующих граням многогранника Q, на которых имеются вершины с нарушаемыми ограничениями; si+ ⊆ 1, si — некоторое подмножество указанных вершин, в которых хотя бы одно из неравенств (2.402) не выполняется. Осуществляя в соответствии с приведенным выше пп. 1–5 процедуру деформации многогранника Q, можно синтезировать требуемую матрицу K. Необходимо отметить, что в более общем случае деформацию Q можно осуществлять гораздо эффективней. Для этого, в частности, необходимо учитывать влияние
Глава 2. Синтез робастных САУ в пространстве состояний
199
деформации вершины M ν%i на изменение значений функций Δσi ( ⋅) , вычисляемых в других недеформируемых вершинах. Действительно, рассмотрим, как определяется
(
)
величина Δσi M νi , ⋅ , если вершина M νi не деформируется, а принадлежит грани ΓQi I ΓQ, на которой находится деформируемая вершина M νi% , т.е. M νi , M ν%i ∈ΓQi I ΓQ,
{ }
i ∈ ikν , k ∈1, n, ν ∈1, si .
(
)
Нетрудно видеть, что изменение величины σi M νi , ⋅ происходит за счет изменения вектора pi , которое определяется согласно (2.408). Тогда аналогично (2.417) для недеформируемой вершины M νi приходим к выражению
(
)
(
)
(
)
σi M νi , pi + Δpi , ⋅ = σi M νi , pi , ⋅ + Δσi M νi , Δpi , ⋅ , где
(
) ( + ( BKLw
) (
)
% T Δp , M i + Dv 0i + N T DT p , Δp + Δσi M νi , Δpi , ⋅ = Δp& i + A i i i i ν 0i
0i
)
+ G iT LT K T BT pi , Δpi − Δq&i .
0i
Здесь Δpi , Δp& i , v , N i , w , G i , Δq&i определяются точно так же, как и в выражении (2.417). Отсюда следует
) (
(
)
Δσi M νi , Δpi , ⋅ = ∇ M i σi , ΔM ν%i ,
где
(
)
(
ν
)
% M %i + R T Dv 0i + N T DT p + BKLw 0i + G T LT K T B T p − M& %i . ∇ M i σi M νi , ⋅ = R iT A ν ν i i i i i ν
) > 0, то деформацию необходимо осуществлять так, чтобы Δσ ( M , Δp , ⋅) ≤ 0. Если в вершине
M νi
функция
(
σi M νi , ⋅ i
2.5.
i ν
ΔM ν%i
вершины M ν%i
i
ПОСТРОЕНИЕ РОБАСТНЫХ СИСТЕМ УПРАВЛЕНИЯ ПРИ КВАДРАТИЧНЫХ ОГРАНИЧЕНИЯХ
В данной главе осуществляется синтез робастных линейных систем при квадратичных ограничениях с учетом и без ограничений на структуру закона управления. В соответствии с основной теоремой метода фазовых ограничений для решения задачи синтеза получены максимальное и минимальное неравенства, которые в дальнейшем исследуются. Показано, что требуемый закон управления может быть найден в аналитическом виде, но при этом должно выполняться некоторое условие на границе допустимого множества, эквивалентное спектральным ограничениям для соответствующей матрицы. Вводится оценка степени робастности системы управления, связанная со спектром указанной матрицы. Получены соотношения для синтеза системы заданной степени робастности. Показано, что разрешимость задачи синтеза эквивалентна разрешимости некоторого матричного неравенства, обобщающего известное неравенство А.М. Ляпунова. Рассматривается задача формирования двухуровневой системы управления. Показано, как ее разрешимость связана с управляемостью некоторой подсистемы исходной системы управления. 2.5.1. ПОСТАНОВКА ЗАДАЧИ СИНТЕЗА ПРИ КВАДРАТИЧНЫХ ОГРАНИЧЕНИЯХ Будем рассматривать систему управления того же вида (2.231), структурная схема которой представлена на рис. 2.14 и 2.15. При этом считаем, что y1 ( t ) ≡ 0 ∈ R m.
200
Методы современной теории автоматического управления
Таким образом,
x& = Ax + B u, x ( t0 ) = x 0 , t ≥ t0 .
(2.421)
При этом (n × n )- и (n × m)-матрицы A = A ( t ) , B = B ( t ) в общем случае могут быть нестационарными с непрерывно вещественными коэффициентами aij ( t ) , biν ( t ) , i ∈1, n, j ∈ 1, n, ν ∈ 1, m. Кроме того, предполагается, что ограничения на вектор состояния
и на вектор управления
x ( t , x 0 ) ∈ Q ( t ) ∀ t ≥ t0
(2.422)
u ∈ U ( x, t ) ∀ t ≥ t0
(2.423)
задаются с помощью некоторых квадратичных функций. Поэтому рассматриваемые ограничения (2.422), (2.423) будем в дальнейшем называть квадратичными. Покажем, каким образом могут быть заданы данные ограничения. Без ограничения общности произвольную квадратичную функцию, стационарную или нестационарную, можно представить в виде n
n
Ψ ( x, t ) = ( x, M ( t ) x ) − q ( t ) = ∑∑ mi j ( t ) xi x j − q ( t ) ,
(2.424)
i =1 j =1
где M = M ( t ) — (n × n )-вещественная симметричная матрица с элементами mij = mij ( t ) ,
(
)
i, j ∈1, n mij = m ji , представляющими собой непрерывно-дифференцируемые функции при t ≥ t0 ; q ( t ) — некоторая непрерывно-дифференцируемая скалярная функция. Воспользуемся квадратичными функциями вида (2.424) для задания множества Q ( t ) . Пусть Q ( t ) имеет вид
{
}
Q ( t ) = x ∈ R n : Ψ ( x, t ) = ( x, M ( t ) x ) − q ( t ) ≤ 0 .
(2.425)
Для того чтобы множество Q ( t ) было ограниченным, достаточно выполнения следующих условий, которым должны удовлетворять M ( t ) и q ( t ) :
т.е. функция q ( t )
⎧⎪M ( t ) > 0 ∀ t ≥ t0 ; (2.426) ⎨ ⎪⎩q ( t ) > 0 ∀ t ≥ t0 , должна быть положительной, а матрица M ( t ) — положительно
определенной [162] ( матрица M является положительно определенной в R n, если ∀ x ∈ R n \ {0} выполняется неравенство ( x, M x ) > 0 ) .
В общем случае будем считать, что (n × n )-матрица M = M ( t ) при t ≥ t 0 является невырожденной, т.е. det M ( t ) ≠ 0 ∀ t ≥ t0 . (2.427) Ограничения на управление представим в следующем виде:
{
}
U ( x, t ) = u ∈ R m : δ ( x, u, t ) = ( u, L ( t ) u ) − p ( x, t ) ≤ 0 ,
(2.428)
где L ( t ) — вещественная симметричная (m × m)-матрица, о которой в общем случае предполагается, что det L ( t ) ≠ 0 ∀ t ≥ t0 , (2.429) т.е. L ( t ) — невырожденная матрица ∀ t ≥ t0 .
Глава 2. Синтез робастных САУ в пространстве состояний
201
Для того чтобы U ( x, t ) было ограниченным множеством, необходимо потребовать, чтобы L ( t ) и скалярная функция p ( x, t ) удовлетворяли условию L ( t ) > 0, p ( x, t ) > 0 ∀ t ≥ t0 , ∀ x ∈ Q ( t ) . При формировании ограничений на управление u ∈U 0
(2.430) (2.431)
обычно используют некоторое фиксированное множество U 0 ≡ const. Задание U ( x, t ) в виде (2.428) должно осуществляться из условия (2.432) U ( x, t ) ⊆ U 0 ∀ x ∈ Q ( t ) , t ≥ t 0 и обеспечивать достаточно простой выбор допустимого закона управления того или иного вида. Кроме того, важным требованием, предъявляемым к синтезируемому закону управления, является требование на вид (на сложность в смысле реализации) его структуры. Пусть ζ — множество (шкала) возможных структур законов управления, упорядоченных по тому или иному признаку. Например, по признаку сложности реализации в соответствии с принципом сложности, приведенного в [192]. То есть можно записать, что ζ = {ζ ξ }
N
ξ=1
,
(2.433)
где ζ ξ — ξ -й элемент множества (шкалы) структур, представляющий собой некоторое подмножество законов управления, соответствующих заданному уровню сложности реализации (в общем случае — заданной характеристике признака, которая, в частности, может означать: линейность или нелинейность; вид и свойства нелинейности; статичность и инерционность; вид инерционности; стационарность или нестационарность и т.д.). Тогда если u ∈ ζ, (2.434) то обязательно найдется такой элемент ζ ξ , ξ ∈1, N шкалы ζ, которому и будет принадлежать управление u, т.е. u ∈ ζ ξ , ξ ∈1, N . (2.435) При этом согласно (2.435) управление u представляет собой некоторый закон ξ u ( x, t ) , т.е. u = u ξ ( x, t ) , ξ ∈1, N , (2.436) со структурой, соответствующей заданному уровню сложности реализации (или заданной характеристике некоторого признака, в частности, из числа перечисленных). Под условием u ∈ U ( x, t ) ∩ ζ (2.437) будем понимать выбор закона управления вида (2.436), принимающего допустимые значения в смысле (2.423). В результате задачу синтеза управления можно сформулировать следующим образом: на множестве допустимых значений U ( x, t ) вида (2.428) и заданной шкале
структур ℘ (2.433) требуется синтезировать закон управления u = u% ( x, t ) , удовлетворяющий условию (2.437) и обеспечивающий для системы (2.421) выполнение фазовых ограничений (2.422) для множества Q ( t ) вида (2.425). Для решения поставленной задачи, так же как и в предыдущей главе, можно непосредственно использовать теорему 2.1.
202
Методы современной теории автоматического управления
2.5.2. ПОЛУЧЕНИЕ ДОСТАТОЧНЫХ УСЛОВИЙ НА УПРАВЛЕНИЕ В соответствии с условиями теоремы 2.1 воспользуемся следующими обозначениями: ⎧ΓQ ( t ) = x ∈ R n : Ψ ( x, t ) = ( x, M ( t ) x ) − q ( t ) = 0 ; ⎪ ⎪⎪∇ x Ψ = 2M ( t ) ⋅ x; (2.438) ⎨ ⎪ ∂Ψ ⎛ dM ( t ) ⎞ dq ( t ) & ( t ) x ) − q& ( t ) , = Ψ ′t = ⎜ x, ⋅x⎟ − = ( x, M ⎪ dt dt ⎪⎩ ∂t ⎝ ⎠ & понимается производная матрицы M ( t ) по времени. где под dM dt или M
{
}
Кроме того, введем следующую скалярную функцию: ∂Ψ , (2.439) σ ( x, u, t ) = ( ∇ x Ψ , f ( x, u, t ) ) + ∂t где f ( x, u, t ) = Ax + Bu, и в отличие от (2.270) рассматривается случай, когда ϕ ( x, t ) ≡ x. Тогда в соответствии с теоремой 2.1 должно выполняться соотношение σ ( x, u, t ) ≤ 0 ∀ x ∈ ΓQ ( t ) и хотя бы одного u = u% ( x, t ) ∈ U ( x, t ) , t ≥ t0 ,
(2.440)
обеспечивающее фазовые ограничения (2.423) при допустимых значениях закона управления. Решение неравенства (2.440) можно осуществить на основе соотношений, формируемых следующим образом. Утверждение 2.7. Для разрешимости соотношения (2.440) необходимо и достаточно, чтобы выполнялось неравенство max min σ ( x, u, t ) ≤ 0 ∀ t ≥ t0 . (2.441) x∈ΓQ( t ) u∈U ( x ,t )
До каз ат е льство . Покажем справедливость данного утверждения. Для удобства введем обозначение σ− ( x, t ) = min σ ( x, u, t ) . (2.442) u∈U ( x ,t )
*
Тогда если для некоторого t = t ≥ t0 (2.441) не выполняется, то найдется такой
( )
вектор x = x∗ ∈ Γ Q t ∗ , для которого
(
)
σ − x∗ , t ∗ > 0 .
Из определения (2.442) следует, что в этом случае
(
)
(
)
σ x∗ , u , t ∗ ≥ σ − x∗ , t ∗ =
(
)
(
)
min∗ ∗ σ x∗ , u, t ∗ > 0 ∀ u ∈ U x∗ , t ∗ ,
(
u∈U x ,t
)
т.е. неравенство (2.440) не выполняется. Тем самым показана необходимость соотношения (2.441). Покажем достаточность условия (2.441). Действительно, пусть (2.441) выполняется для всех t ≥ t0 . Тогда для произвольного момента времени t = t€ ≥ t0 в силу (2.441) получим max σ− ( x, t€) ≤ 0, t€ ≥ t0 . x∈ΓQ ( t€)
Поскольку для любого x ∈ Γ Q ( t€) σ− ( x, t€) ≤ max σ− ( x, t€) , x∈ΓQ ( t€)
Глава 2. Синтез робастных САУ в пространстве состояний
203
то σ − ( x, t€) ≤ 0 ∀ x ∈ Γ Q ( t€) . Следовательно, для любого x ∈ Γ Q ( t€) найдется такой вектор u = u% ( x, t€) ∈ U ( x, t€) , для которого
(
)
min σ ( x, u, t€) = σ x, u% ( x, t€) , t€ = σ− ( x, t€) ≤ 0.
u∈U ( x ,t€)
Отсюда с учетом произвольности t€ следует достаточность условия (2.441). Тем самым утверждение доказано. Таким образом, неравенство (2.441) может рассматриваться как критерий разрешимости соотношения (2.440) и быть непосредственно использовано для синтеза требуемого (допустимого) закона управления, которое определяется в результате решения задачи минимизации
(
)
min σ ( x, u, t ) = σ x, u − ( x, t ) , t , x ∈ ΓQ ( t ) , t ≥ t0 ,
u∈U ( x ,t )
(2.443)
где u − ( x,t ) — решение задачи (2.443). Особенностью использования максминного неравенства (2.441) для синтеза управления является то, что формируемый при решении задачи (2.443) закон u − ( x,t ) будет иметь структуру, полностью определяемую видом множеств U ( x, t ) и Q ( t ) . Для синтеза закона управления u% ( ⋅) желаемой (заданной) структуры, вообще говоря, отличающейся от структуры u − ( ⋅) , целесообразно использовать непосредственно соотношение (2.440). Получим соответствующие этому случаю условия на желаемый закон управления. Пусть u = u% ( ⋅) — некоторый закон из заданной шкалы структур ℘, т.е. u% ( ⋅) ∈℘. Тогда согласно (2.435), (2.436) u% ( ⋅) можно представить в виде u% ( ⋅) = u ξ ( x, t ) , ξ ∈1, N .
(2.444)
Будем считать, что принадлежность u% ( ⋅) тому или иному элементу ℘ξ , ξ ∈1, N шкалы структур ℘ допускает параметрическое представление, т.е. произвольный элемент u ξ ( x, t ) ∈℘ξ , ξ ∈1, N имеет вид u ξ ( x, t ) = u% x, γ ξ , t , ξ ∈1, N , (2.445)
(
)
ξ
где γ — ( Nξ ×1)-векторный параметр, принимающий значения на некотором множестве G% : ξ
γ ξ ∈ G% ξ , ξ ∈1, N . (2.446) Таким образом, тот или иной желаемый закон управления будем искать в виде u% ( ⋅) = u% x, γ ξ , t , ξ ∈1, N . (2.447)
(
)
Для рассматриваемого закона управления соотношение (2.440) примет вид σ x, u% x, γ ξ , t , t = σ% x, γ ξ , t ≤ 0 ∀ x ∈ΓQ ( t ) и хотя бы одного γ ξ ∈ G% ,
( (
) ) ( ) для которого u% ( x, γ , t ) ∈U ( x, t ) , t ≥ t . ξ
Введем множества
{
ξ
(2.448)
0
(
)
}
Gξ = γ ξ ∈ G% ξ : u% x, γ ξ , t ∈ U ( x, t ) ∀ x ∈ Q ( t ) , t ≥ t0 ,
(2.449)
204
Методы современной теории автоматического управления
полученные в результате пересчета исходных ограничений на управление (2.423) непосредственно на ограничения для параметра γ ξ, определяющего вид структуры управления. Тогда вместо (2.448) получим следующие соотношения: σ% x, γ ξ , t ≤ 0 ∀ x ∈ ΓQ ( t ) и хотя бы одного γ ξ ∈ Gξ , t ≥ t0 , (2.450)
(
)
обеспечивающего синтез требуемого управления. Допустим, что для некоторого γ ξ = γ€ξ ∈ Gξ выполняется неравенство
(
)
σ% x, γ€ξ , t ≤ 0 ∀ x ∈ Γ Q ( t ) , t ≥ t0 .
(2.451)
Поскольку (2.451) справедливо для любого x ∈ Γ Q ( t ) , то (2.451) будет выпол-
(
)
няться и для того вектора x ∈ Γ Q ( t ) , на котором σ% x, γ€ξ ,t принимает максимальное значение на границе Γ Q ( t ) , т.е.
(
)
( )
max σ% x, γ€ξ , t = σ% + γ€ξ , t ≤ 0, t ≥ t0 .
x∈ΓQ ( t )
(2.452)
Нетрудно видеть, что неравенства (2.451) и (2.452) эквивалентны друг другу, так как из выполнения одного из них следует выполнение другого, и наоборот, если одно не выполняется, то и другое также выполняться не будет. Воспользуемся соотношением (2.452) для получения критерия разрешимости (2.450). Согласно (2.452) параметр γ ξ = γ€ξ определяет закон управления вида (2.447), для которого обеспечивается соотношение (2.440). Пусть на множестве Gξ выбран произвольный параметр γ ξ. Для него аналогично (2.452) можно определить функ-
( )
цию σ% + γ€ξ , t , для которой проверяется выполнение неравенства
( )
σ% + γ€ξ , t ≤ 0, t ≥ t0 .
(2.453)
Данное соотношение можно непосредственно использовать, чтобы проверить, обеспечивает ли управление (2.447) с данным γ ξ требуемые фазовые ограничения. С учетом (2.453) условие (2.450) можно представить в виде ∃ γ ξ ∈ Gξ , для которого σ% + γ ξ , t ≤ 0, t ≥ t0 . (2.454)
( )
Тогда соотношение (2.454) целесообразно использовать в качестве критерия выбора требуемых параметров γ ξ. При этом следует иметь в виду, что (2.454) проверяется для каждого выбираемого тем или иным способом γ ξ. Если указать способ перебора параметров γ ξ ∈ Gξ для проверки выполнения (2.454), то данное соотношение рассматривается, как критерий разрешимости условия (2.440) относительно желаемого закона управления на заданной шкале структур ℘. В частности, в качестве возможного способа перебора γ ξ ∈ Gξ является перебор γ ξ (формирование минимизирующей последовательности γ ξ) в соответствии с задачей минимизации (2.455) min σ% + γ ξ , t , t ≥ t0 . ξ γ ∈Gξ
( )
Тогда критерием разрешимости (2.440) относительно закона управления желаемой структуры с учетом (2.452) является следующее соотношение: (2.456) min max σ% x, γ ξ , t ≤ 0, t ≥ t0 , ξ γ ∈Gξ x∈ΓQ( t )
(
)
Глава 2. Синтез робастных САУ в пространстве состояний
205
где индекс ξ ∈1, N может выбираться произвольным в зависимости от желаемой структуры синтезируемого закона управления. Действительно, пусть для некоторого ξ ∈1, N на множестве Gξ найдется такой параметр γ ξ , для которого выполняется соотношение (2.456). Отсюда следует справедливость (2.454), а значит, и (2.452). Значит, найдется такой закон управления u% x, γ ξ , t , для которого обеспечиваются неравенства (2.448) или (2.440). С другой
(
)
стороны, если на множестве Gξ неравенство (2.456) не выполняется, то это означает, что для любого γ ξ ∈ Gξ
( )
( )
σ% + γ ξ , t ≥ min σ% + γ ξ , t > 0 ξ γ ∈Gξ
для некоторых моментов времени t ≥ t0 . Отсюда следует, что ∀ γ ξ ∈ Gξ
(
)
max σ% x, γ ξ , t > 0 для некоторых t ≥ t0 , т.е. для
x∈ΓQ( t )
каждого γ ξ ∈ Gξ в данные моменты t ≥ t0 обязательно найдутся такие векторы x ∈ Γ Q ( t ) , для которых (2.448) не выполняется (а значит, и (2.440)). Поэтому синтез
(
желаемого закона управления u% x, γ ξ ,t
)
на основе (2.440) или (2.448) осуществить
нельзя. Таким образом, показана справедливость следующего утверждения. Утверждение 2.8. Для разрешимости соотношения (2.448) относительно закона управления желаемой структуры u% x, γ ξ ,t на заданной шкале структур ℘ необхо-
(
)
димо и достаточно, чтобы обеспечивалось минимаксное неравенство (2.456). Для решения полученных неравенств: максминного (2.441), не учитывающего ограничения на структуру управления, или минимаксного (2.456), обеспечивающего желаемую структуру управления, — можно, в частности, использовать известные численные процедуры решения подобного класса задач, изложенные в [71, 215]. Однако данные процедуры в общем случае могут быть достаточно громоздкими (трудоемкими) для рассматриваемой системы, поскольку непосредственно не учитывают ее свойств, позволяющих более эффективно решать поставленную задачу. Поэтому далее предлагаются новые подходы к решению неравенств (2.441), (2.456) с учетом свойств системы (2.421). 2.5.3. ПОСТРОЕНИЕ ЗАКОНА УПРАВЛЕНИЯ НА ОСНОВЕ ДОСТАТОЧНЫХ УСЛОВИЙ Рассмотрим решение задачи синтеза законов управления, обеспечивающих выполнение неравенств (2.441), (2.456). Для этого вначале требуется сформировать функцию σ ( x, u,t ) согласно соотношению (2.439). Подставив в (2.439) выражения (2.438), получим & ( t ) x ) − q& ( t ) = σ ( x, u, t ) = ( 2M ( t ) x, A x + B u ) + ( x, M & ( t ) x ) − q& ( t ) = = 2 ( M ( t ) x, A x ) + 2 ( M ( t ) x, B u ) + ( x, M (2.457) & ( t ) x, x ) − q& ( t ) = = 2 A T M ( t ) x, x + 2 B T M ( t ) x, u + ( M
( ) ( ) & ( t ) + 2 A M ( t ) ) x, x ) + 2 ( B M ( t ) x, u ) − q& ( t ) , = ((M T
где использовалось равенство
T
( z, Фx ) = ( ФT z, x ) ,
x ∈ R n, z ∈ R l , Ф — (l × n )-матрица (l — произвольное положительное целое число).
206
Методы современной теории автоматического управления
Для упрощения дальнейших выкладок целесообразно ввести следующее обозначение: v = v ( x, t ) = B T M ( t ) x, (2.458) с учетом которого & ( t ) + 2 A T M ( t ) x, x + 2 ( v, u ) − q& ( t ) . σ ( x, u, t ) = M (2.459)
((
) )
В том случае, когда управление синтезируется в виде (2.447), функция σ ( x, u,t ) принимает вид & ( t ) + 2 A T M ( t ) x, x + 2 v, u% x, γ ξ , t − q& ( t ) . σ% x, γ ξ , t = M (2.460)
) ((
(
) ) ( (
В важном частном случае
(
))
)
u% x, γ ξ , t = K ξ × x,
(2.461)
где K ξ — ( m × n )-матрица обратной связи, которая, например, в зависимости от индекса ξ имеет вполне определенное число изменяемых коэффициентов. После подстановки (2.461) в (2.460) или (2.457) получим & ( t ) + 2A T M ( t ) x, x + 2 B T , M ( t ) x, K x − q& ( t ) = σ% ( x, K , t ) = M
) ) ( ) (( & ( t ) + 2A M ( t ) ) x, x ) + 2 ( K B M ( t ) x, x ) − q& ( t ) = = (( M & ( t ) + 2 ( A + K B ) M ( t ) ) x, x − q& ( t ) . = (( M )
ξ
ξ
T
T ξ
T
T ξ
T
(2.462)
T
Воспользуемся выражениями σ ( x, u,t ) и σ% ( x, K ξ ,t ) для решения соответственно неравенств (2.441), (2.456). Вначале рассмотрим решение задачи синтеза без учета ограничений на структуру управления. Для этого докажем справедливость следующего результата. Лемма 2.1. Решением задачи минимизации (2.443) при используемых предположениях о L ( t ) , p ( x, t ) является закон управления следующего вида: u = u − ( x, t ) = −
(L
p1 2 ( x, t )
( t ) v, v ) σ ( x, u,t )
12
−1
⋅ L− 1 ( t ) v.
(2.463)
До каз ат е льство . Из выражения согласно (2.459) следует, что (2.443) можно свести к следующей эквивалентной задаче: & + 2 A T M x, x − q& + 2 min ( v, u ) , min σ ( x, u, t ) = M u∈U ( x ,t )
((
) )
т.е. решается задача min
Но поскольку
( v, u )
u∈U ( x ,t )
( v, u ) .
u∈U ( x ,t )
(2.464)
— линейная по переменному u функция, то свои экстре-
мальные значения она принимает только на границе множества U ( x, t ) [42]. В результате окончательно задача (2.464) приводится к виду (2.465) min ( v, u ) при ( u, Lu ) − p = 0 ( L = L ( t ) , p = p ( t ) ) . u
Для решения задачи (2.465) воспользуемся методом множителей Лагранжа [24]. Введем лагранжиан L ( u, ρ ) = ( ϑ, u ) + ρ ⎡⎣( u ,Lu ) − p ⎤⎦ , где ρ — скалярный множитель Лагранжа.
Глава 2. Синтез робастных САУ в пространстве состояний
207
Используя необходимое условие экстремума ( ∇ u L = 0 ) , находим соотношение ∇ u L = v + 2ρ L u = 0. Поскольку det L ≠ 0, то из (2.466) следует 1 u = − L− 1v. 2ρ Подставляя данное выражение в (2.465), определим ρ : ρ1 =
(
)
(
(2.466) (2.467)
)
−1 −1 1 L v, v 1 L v, v , . ρ = − 2 2 p1 2 2 p1 2
Заметим, что полученные величины определены ∀ v ∈ R m. Действительно, так как p > 0, то величина p1 2 определена. Кроме того, из L > 0 следует, что L− 1 — сим-
метричная и положительно определенная матрица: L− 1 > 0. Поскольку L — невырожденная матрица, то ∀ x ∈ R n вектор L x пробегает все пространство R n, т.е. L− 1 > 0. Тем самым показано, что выражения для ρ1 , ρ2 определены ∀ v ∈ R m. Чтобы определить истинное значение множителя Лагранжа, подставим ρ1 , ρ2 в выражение ( ϑ, u ) с учетом (2.467). В результате получим, что минимальное значение ( v, u ) достигается при ρ = ρ1 , т.е.
min
u∈U ( x ,t )
( v, u ) = ( v, u−1 ) = − p1 2 ( v, L−1v )
12
,
где u = u − ( x, t ) = −
(L
p1 2
−1
v, v
)
12
⋅ L− 1v,
что и требовалось доказать. Полученное в результате решения задачи минимизации (2.443) управление − u ( x,t ) вида (2.463) является требуемым синтезируемым законом управления, удовлетворяющим максминному критерию (2.441). Однако, чтобы для данного закона обеспечивались фазовые ограничения (2.422), его необходимо проверить на выполнение неравенства (2.444). Рассмотрим важный частный случай, когда управление u − ( x,t ) вида (2.463) имеет линейную структуру. Введем обозначение p1 2 (2.468) ω ( x, t ) = − . 12 −1 L v, v
(
)
Очевидно, ω ( x,t ) — скалярная неотрицательная функция, принимающая в общем случае значения от 0 до +∞. Тогда согласно (2.463) (2.469) u − ( x, t ) = −ω ( x, t ) ⋅ L− 1 ( t ) v .
(
)
Поскольку выражение L− 1 ⋅ v линейно зависит от x, то для того, чтобы u − ( x,t ) также линейно зависел от x, необходимо потребовать выполнения условия ω ( x, t ) ≡ ω0 = const > 0. (2.470) Тогда линейный закон управления, являющийся решением задачи минимизации (2.443), имеет вид
208
Методы современной теории автоматического управления u − ( x, t ) = −ω0 ⋅ L− ( t ) B T ⋅ M ( t ) x = K − ( t ) x,
(2.471)
K − ( t ) = −ω0 ⋅ L− 1 ( t ) B T ⋅ M ( t ) ,
(2.472)
где
причем K − ( t ) ⋅ x ∈ U ( x, t ) ∀ x ∈ Q ( t ) , t ≥ t0 . Для того чтобы выполнялось условие (2.470), функция p ( x, t ) должна иметь вид
(
)
p ( x, t ) = ω02 ⋅ L− 1 ( t ) v, v υ .
(2.473)
Аналогично тому, как было получено управление (2.469), для синтеза закона
(
управления u% x, γ ξ ,t
)
с желаемой структурой (2.461) будем решать неравенство
(2.456) с учетом найденной выше функции σ% ( x, K ξ ,t ) вида (2.462). Для синтеза управления необходимо решить задачу максимизации (2.452). Введем обозначение & (t ) + 2 AT + K TBT M (t ) , S (t ) = M (2.474)
(
ξ
ξ
)
с учетом которого функция σ% ( x, K ξ ,t ) примет вид
σ% ( x, K ξ , t ) = ( S ξ ( t ) x, x ) − q& ( t ) .
(2.475)
Тогда в соответствии с (2.452) получим следующую задачу максимизации: max ⎡⎣( Sξ ( t ) x, x ) − q& ( t ) ⎤⎦ ≤ 0, t ≥ t0 при ( x, M ( t ) x ) − q ( t ) = 0 (т.е. x ∈ΓQ (t )). (2.476) x Нетрудно видеть, что решение данной задачи полностью совпадает по форме с решением задачи максимизации (2.444), обеспечивающей проверку выполнения фазовых ограничений для синтезированного закона управления u − ( x,t ) вида (2.471). В этом можно непосредственно убедиться, подставив (2.471) в выражение σ ( x, u,t ) (2.457). Поэтому решение указанных задач будет осуществлено одновременно и приведено в следующем параграфе. 2.5.4.
УСЛОВИЯ ВЫПОЛНЕНИЯ ФАЗОВЫХ ОГРАНИЧЕНИЙ НА КЛАССАХ СИНТЕЗИРУЕМЫХ ЗАКОНОВ УПРАВЛЕНИЯ
Как отмечалось выше, решение задач (2.476) и (2.444) аналогично друг другу, поскольку максимизация осуществляется на одном и том же множестве ГQ ( t ) , а выражения максимизируемых функций подобны друг другу, так как та и другая являются квадратичными формами. Поэтому вначале рассмотрим решение задачи (2.444), а затем полученный результат применим к задаче (2.476). Определим выражение функции σ − ( x,t ) для управления u − ( x,t ) с учетом (2.443), (2.471). Имеем
(( & (t ) + 2 ( A = (( M
) ) ( ) + K B ) M ( t ) ) x, x ) − q& ( t ) =
& ( t ) + 2 A T M ( t ) x, x + 2 B T M ( t ) x, K − x − q& ( t ) = σ − ( x, t ) = M T
−T
T
(2.477)
= ( S ( t ) x, x ) − q& ( t ) ,
где с учетом (2.472) & ( t ) + 2A T M ( t ) + K −T B T M ( t ) = S (t ) = M & ( t ) + 2 A T M ( t ) − 2ω M ( t ) BL− 1 ( t ) ⋅ B T M ( t ) . =M 0
(2.478)
Глава 2. Синтез робастных САУ в пространстве состояний
209
В соответствии с (2.444) для обеспечения фазовых ограничений должно выполняться неравенство max σ− ( x, t ) ≤ 0 ∀ t ≥ t0 , (2.479) x∈ΓQ( t )
которое согласно (2.477), (2.478) приводится к виду max ⎣⎡( S ( t ) x, x ) − q& ( t ) ⎤⎦ ≤ 0 при ( x, M ( t ) x ) − q ( t ) = 0, t ≥ t0 .
(2.480)
x
Сравнивая задачи максимизации (2.480) и (2.476), нетрудно видеть, что они подобны друг другу. Причем из (2.478) и (2.476) следует полная сходимость матриц S ( t ) и S ξ ( t ) , отличающихся лишь видом матриц K − и K ξ . Поэтому решение данных задач основывается на одних и тех же положениях, тем более что та и другая задачи определяют условия выполнения фазовых ограничений соответственно для законов управления (2.471) и (2.461). Для максимизации квадратичной формы (функции)* на замкнутой поверхности, также описываемой квадратичной функцией, можно воспользоваться методом множителей Лагранжа. Решение данной задачи использует следующий результат [241]. Лемма 2.2. При каждом моменте времени t ≥ t0 все собственные значения матри-
(
)
цы M − 1 S + S T , где M = M ( t ) , S = S ( t ) являются вещественными.
(
Используя лемму 2.2, получим, что собственные значения матрицы M − 1 S ξ + S ξT
)
также является вещественными ( S ξ формируется согласно (2.474)). С учетом доказанной леммы, рассматривая решение задачи максимизации (2.480), данное решение можно сформулировать в виде следующей теоремы [25]. Теорема 2.12. Для разрешимости задачи (2.480) необходимо и достаточно, чтобы для каждого t ≥ t 0 собственные значения λ i = λi ( t ) , i ∈1, n матрицы M − 1 ( t ) S ( t ) + S T ( t )
(
)
удовлетворяли неравенству
q& ( t ) , i ∈ 1, n, t ≥ t0 . (2.481) q (t ) До каз ат е льство . В соответствии с методом множителей Лагранжа для задачи (2.480) сформируем лагранжиан следующего вида, определенный для каждого t ≥ t0 : L% ( x, ρ% ) = ( S x, x ) + ρ% ⎡⎣( x, M x ) − q ⎤⎦ . Тогда максимизация квадратичной формы ( x, S x ) будет эквивалентна задаче λi (t ) ≤ λ∗ = λ∗ ( t ) = 2
max L% ( x, ρ% ) , x
для решения которой воспользуемся необходимым условием экстремума ∇ x L% = 0 . Получим ∇ L% = S + S T x + 2ρ% M x = 0 .
(
x
)
Отсюда следует, что максимизирующее значение x должно удовлетворять уравнению S + S T + 2ρ% M x = 0 . (2.482)
(
* Произвольную квадратичную форму
⎛S+S ⎞ 1 = ⎜⎜ x, x ⎟⎟ , где S + ST 2 2 ⎝ ⎠ T
(
)
( x, S x ) = ( S T x, x )
) — симметричная матрица.
можно представить в виде
( x, S x ) =
210
Методы современной теории автоматического управления
А для определения значения множителя ρ% необходимо воспользоваться условием
( x, M x ) = q.
(2.483)
Решением уравнения (2.482) является следующий вектор: M − 1 S + S T x = ( − 2ρ% ) x.
(
)
(2.484)
Но соотношение (2.484) означает, что вектор x является собственным вектором
(
)
матрицы M − 1 S + S T , коэффициент λ = − 2ρ% — соответствующим данному вектору
(
)
собственным значением матрицы M − 1 S + S T . Таким образом, максимум квадратичной формы σ − ( x,t ) на ограниченной квадратичной поверхности Γ Q ( t ) достигается
(
)
только на одном из собственных векторов матрицы M − 1 S + S T . Пусть x c — собственный вектор данной матрицы, является нетривиальным решением уравнения (2.484) (после умножения такого решения на постоянное число вновь получим решение уравнения (2.484)). Тогда, скалярно умножая на x c слева уравнение (2.482), получим
( x c , Sx c ) + ( x c , S T x c ) + 2ρ% ( x c , M x c ) = 2 ( Sx c , x c ) + 2ρ% ( x c , M x c ) = 0,
или
( S x c , x c ) = −ρ% ( x c , M x c ) .
(2.485)
Так как согласно (2.483) должно выполняться условие ( x c , M x c ) = q, то (2.485) принимает вид
( S x c , x c ) = −ρ% q.
(2.486)
Как отмечалось выше, значения коэффициента ρ% связаны с собственными значе-
(
)
ниями λi , i ∈1, n матрицы M − 1 S + S T зависимостью λ i = − 2ρ% i , i ∈1, n.
(2.487)
Тогда для собственных векторов x i , i ∈1, n, соответствующих λ i , i ∈1, n, с учетом (2.486) получим 1 S x i , x i = λ i q, i ∈1, n. (2.488) 2 Отсюда, очевидно, следует ⎡1 ⎤ 1 max ( Sx, x ) = imax Sxi , xi = max ⎢ q ⎥ = q ⋅ max λ i . (2.489) x∈ΓQ( t ) ∈ i n 1, x ∈ΓQ( t ) ⎣ 2 ⎦ 2 i∈1,n
(
)
(
)
i∈1,n
Поскольку 1 max ⎡⎣( Sx, x ) − q& ( t ) ⎤⎦ = max ( Sx, x ) − q& ( t ) = q ( t ) ⋅ max λ i − q& ( t ) , x∈ΓQ( t ) x∈ΓQ( t ) i∈1,n 2 то для выполнения (2.479) должно выполняться неравенство 1 q ( t ) max λ i − q& ( t ) ≤ 0, t ≥ t0 , i∈1,n 2 или q& ( t ) max λi ≤ 2 , t ≥ t0 . i∈1,n q (t )
Глава 2. Синтез робастных САУ в пространстве состояний
211
Тогда окончательно получим, что для разрешимости задачи (2.479) необходимо и достаточно, чтобы для каждого t ≥ t0 собственные значения матрицы M − 1 S + S T
(
удовлетворяли неравенству λ i = λ i ( t ) ≤ λ* ( t ) = 2
)
q& ( t ) , i ∈1, n, q (t )
что и требовалось доказать. В общем случае при M >/ 0 о разрешимости условия (2.479) также можно судить по вещественным собственным значениям матрицы M − 1 S + S T . Однако при этом
(
)
если для M > 0 теорема 2.12 даст необходимые и достаточные условие разрешимости (2.479), то для M >/ 0 — только необходимые. Заметим, что результаты теоремы 2.12 распространяются на случай, когда вместо S используется матрица S ξ вида (2.474) и при этом рассматривается разрешимость задачи (2.476). 2.5.5.
АНАЛИЗ СПЕКТРАЛЬНЫХ ОГРАНИЧЕНИЙ ПО ЗНАЧЕНИЯМ ХАРАКТЕРИСТИЧЕСКОГО МНОГОЧЛЕНА
Полученные выше соотношения (2.481) можно непосредственно использовать при синтезе требуемого закона регулирования. При этом, если матрица S формируется согласно (2.478) с учетом выражения (2.472) для матрицы K = K − , выполнение или невыполнение соотношений (2.481), эквивалентных выполнению или невыполнению фазовых ограничений (2.422) для закона u − ( x,t ) вида (2.471), зависит только от выбора допустимых матриц M, L и величины ω0 > 0. Если же формируется матрица S ξ вида (2.474), зависящая от K ξ (заданной структуры), то на выполнение соотношений (2.481) непосредственно оказывают влияние матрицы K ξ и M. Поэтому в первом случае обеспечение неравенств (2.481), а следовательно, синтез системы управления возможно осуществлять только за счет выбора тех или иных допустимых матриц M и L величины ω0 (варьирование M , L, ω0 ). Во втором случае обеспечение (2.481) осуществляется либо за счет варьирования коэффициентов матрицы K ξ при заданной M , либо возможно одновременное варьирование как коэффициентами K ξ , так и коэффициентами M. Непосредственная проверка неравенств (2.481) при заданных M и L либо K ξ и M может оказаться достаточно сложной, так как требует вычисления всех вещественных собственных значений матрицы M − 1 S ξ + S Tξ .
(
)
Для упрощения процедуры проверки (2.481), а значит, и процедуры синтеза необходимо включить сам процесс нахождения собственных значений. С этой целью можно воспользоваться некоторыми известными свойствами характеристических многочленов [112], позволяющими судить о распределении собственных значений исследуемой матрицы по значениям, принимаемым соответствующим ей характеристическим многочленом. Рассмотрим процедуру проверки неравенств (2.481). Пусть при некотором t ≥ t0
(
) ⎡λM − ( S + S ) ⎤} = ⎣ ⎦
g ( λ ) — характеристический многочлен матрицы M − 1 S ξ + S ξT , т.е.
(S + S )⎤⎦ = det {M ⋅ det ⎡λM − ( S + S ) ⎤ = det M ⎣ ⎦
g ( λ ) = det ⎡λE − M ⎣ = det M −1
−1
−1
T
T
T
−1
⋅ g€ ( λ ) ,
(2.490)
212
Методы современной теории автоматического управления
где
(
)
g€( λ ) = det ⎡ λM − S + S T ⎤ . ⎣ ⎦
Так как det M
−1
≠ 0 (M
−1
— невырожденная матрица), то корни уравнений g ( λ ) = 0 и g€ ( λ ) = 0 (2.491)
совпадают, т.е. для проверки (2.481) вместо многочлена g ( λ ) можно использовать многочлен g€ ( λ ) . Чтобы установить, существует ли требуемое спектральное распре-
(
)
деление (2.481) для матрицы M − 1 S ξ + S ξT , воспользуемся известным результатом, приведенным в [112], который может быть сведен к следующей теореме [25]. Теорема 2.13. Если все корни λ i , i ∈1, n нормированного* характеристического уравнения g (λ ) = 0 вещественные, то неравенства
( )
k g ( ) λ* ≥ 0, k = 0, n − 1,
(2.492)
k где g ( ) ( λ ) — k-я производная полинома g ( λ ) , λ* — произвольное вещественное
(
)
число λ* ∈ R1 , выполняются тогда и только тогда, когда все λi , i ∈1, n расположе*
ны слева от λ , т.е. когда λ i ≤ λ* ∀ i ∈1, n. (2.493) Доказательство данной теоремы, в частности, может быть осуществлено аналогично тому, как в предыдущей главе проводилось доказательство неравенств (2.369). Теоремой 2.13 можно непосредственно воспользоваться для проверки неравенств (2.481). Действительно, пусть многочлен g% ( λ ) получен в результате нормирования
многочлена g€( λ ) . Тогда для произвольного t ≥ t0 должны выполняться неравенства k g% ( ) ⎡⎣ λ * ( t ) ⎤⎦ ≥ 0, k ∈ 0, n − 1 для всех t ≥ t 0 ,
(2.494)
где λ* ( t ) = q& ( t ) q ( t ) . Поскольку коэффициенты многочлена g% ( λ ) непосредственно зависят от матриц M и L или M и K ξ , то неравенства (2.494) можно рассматривать относительно
параметров указанных матриц. Тогда, решая (2.494) относительно M и L или M и K ξ , тем самым осуществляем синтез требуемой системы управления. Если, например,
q ( t ) ≡ const ∀ t ≥ t0 ,
(2.495)
то q& ( t ) ≡ 0. Тогда λ* ( t ) ≡ 0 и (2.494) принимает вид k g% ( ) ( 0 ) ≥ 0, k ∈ 0, n − 1 ∀ t ≥ t0 .
Так как
*
нице.
(2.496)
g% ( λ ) = λ n + g% n−1λ n−1 + K + g%1λ + g% 0 ,
Многочлен g ( λ ) считается нормированным, если коэффициент при старшей степени λ равен еди-
Глава 2. Синтез робастных САУ в пространстве состояний
213
то нетрудно доказать, что k g% ( ) ( λ ) =
( n − 1)! λ n−1−k + K + n! λ n−k + g% n−1 ( n − k )! ( n − 1 − k )!
(2.497)
+ g% k +1 ( k + 1)!λ + g% k k !, k ∈ 0, n − 1.
Отсюда находим k g% ( ) ( 0 ) = g% k ⋅ k !, k ∈1, n − 1.
(2.498)
Тогда, подставляя (2.498) в (2.496), получим g% k ≥ 0, k ∈ 0, n − 1 ∀ t ≥ t0 ,
(2.499)
т.е. все коэффициенты многочлена g% ( λ ) должны быть неотрицательными. С учетом определения g€( λ ) и матрицы S (2.478) или S ξ (2.474) следует, что g% k = g% k ( M, L, ω0 ) ≥ 0, или g% k ( M, K ξ ) ≥ 0, k ∈ 0, n − 1,
где g% k ( ⋅) — некоторые известные функции, получаемые при вычислении полинома g% k ( λ ) . В результате приходим к следующим соотношениям: g% k = g% k ( M, L, ω0 ) ≥ 0, или g% k ( M, K ξ ) ≥ 0, k ∈ 0, n − 1 ∀ t ≥ t0 ,
(2.500)
которые могут непосредственно использоваться для синтеза требуемого закона управления. Если матрицы A, B, M, L — стационарные, то система неравенств (2.500) от времени не зависит. Эффективность (простота) решения неравенств (2.500) определяется характером зависимости коэффициентов g% k , k ∈1, n − 1 от элементов матриц M, L, K ξ . Чем проще зависимость, тем эффективнее решается система (2.500). Упрощения зависимости можно добиться за счет выбора соответствующего базиса в пространстве состояний R n, в котором рассматривается система (2.421), и ограничения (2.422), (2.423). В общем случае при q& ≠ 0 с учетом (2.497) неравенства (2.494) примут вид n ! ⎛ q& ⎞ 2 ( n − k )! ⎜⎝ q ⎟⎠
n−k
+ g% n −1 ( ⋅)
( n − 1)!
⎛ q& ⎞ 2 ( n − 1 − k )! ⎜⎝ q ⎟⎠
n −1− k
+K+
(2.501) ⎛ q& ⎞ + g% k +1 ( ⋅)( k + 1) !⎜ 2 ⎟ + g% k ( ⋅) k ! ≥ 0 ∀ k ∈ 0, n − 1, t ≥ t0 . ⎝ q⎠ При решении систем неравенств (2.500) или (2.501) относительно M, L, ω0 или M, K ξ важной является проблема существования решения (т.е. разрешимости данных неравенств). Далее эта проблема будет рассмотрена. 2.5.6. ОЦЕНКА РОБАСТНОСТИ СИСТЕМЫ ПРИ КВАДРАТИЧНЫХ ОГРАНИЧЕНИЯХ Полученные в предыдущем параграфе соотношения (2.500), (2.501) позволяют синтезировать требуемый закон управления. Однако при этом важным является вопрос, насколько синтезированный закон эффективен при тех или иных возмущениях системы (2.421) — структурных, параметрических, внешних и т.д., т.е. будет ли при наличии указанных возмущений обеспечено решение поставленной задачи синтеза с учетом найденного закона управления. Для ответа на этот вопрос целесообразно воспользоваться свойством робастности системы управления и оценить степень робастности на основе предлагаемого подхода.
214
Методы современной теории автоматического управления
Как следует из теоремы 2.1, если синтезированный закон управления u − ( x,t ) ви-
(
)
да (2.471) или u% x, γ ξ ,t вида (2.461) таков, что для него обеспечиваются неравенства (2.481), то задача синтеза решена. Если же (2.481) не выполняется, то необходимо выбрать другую матрицу K − вида (2.472) за счет изменения ω0 , M и L или соответственно матрицу K ξ . Таким образом, от характера выполнения неравенств (2.481) зависит, насколько эффективным является тот или иной синтезированный закон управления. Причем чем сильнее неравенства (2.481), тем, очевидно, эффективнее будет закон управления. С учетом этого можно ввести в рассмотрение некоторую меру, величина которой характеризует степень робастности синтезируемой системы управления. Обозначим через q& ( t ) Δ = Δ ( t ) = λ * − max λ i = 2 − max λ, t ≥ t 0 (2.502) q ( t ) i∈1,n i∈1,n степень робастности системы (2.421) относительно квадратичных фазовых ограничений для закона (2.471) или (2.461). Нетрудно видеть, что величина Δ характеризует робастность системы. Причем чем больше Δ, тем более робастной по отношению к различным возмущениям является система. Таким образом, величину Δ можно использовать как некоторую меру, характеризующую степень робастности системы управления. С помощью введенного определения степени робастности можно обобщить поставленную задачу синтеза, если потребовать, чтобы формируемый закон управления обеспечивал выполнение требуемых ограничений (2.422), (2.423) с заданной степенью робастности Δ 0 . Под системой, обладающей заданной степенью робастности Δ 0 по отношению к квадратичным ограничениям, будем понимать систему (2.421), для которой синтезированный закон управления обеспечивает выполнение неравенства Δ = Δ ( t ) ≥ Δ 0 ∀ t ≥ t0 , (2.503) где Δ 0 > 0 — некоторая заданная величина. В результате получим, что при синтезе управления помимо ограничений (2.422), (2.423) необходимо учитывать ограничение (2.503). Покажем, как достаточно просто можно учитывать (2.503) на основе неравенств (2.494), (2.501). Согласно (2.502) находим Δ = Δ ( t ) = λ* − max λ i ≥ Δ 0 , i∈1,n
отсюда
q& ( t ) (2.504) − Δ 0 = λ*0 ∀ t ≥ t0 . q t i∈1,n () Для обеспечения данных неравенств можно воспользоваться теоремой 5.2. Тогда аналогично (2.494) получим, что (2.504) выполняется тогда и только тогда, когда выполняются неравенства вида k (2.505) g% ( ) ⎡⎣λ *0 ( t ) ⎤⎦ ≥ 0, k ∈ 0, n − 1 ∀ t ≥ t 0 , где q& ( t ) λ*0 ( t ) = 2 − Δ0 , q (t ) max λi ≤ λ* − Δ 0 = 2
k а выражение для g% ( ) ( λ ) определяется согласно (2.497).
Глава 2. Синтез робастных САУ в пространстве состояний
215
Подставляя выражение для λ *0 ( t ) в неравенства (2.505), по аналогии с (2.501) получим следующую систему неравенств, которая используется для учета ограничений на робастность системы управления: ⎞ n! ⎛ q& 2 −Δ ( n − k )! ⎜⎝ q 0 ⎟⎠
n−k
+ g% n−1 ( ⋅)
( n − 1)!
⎛ q& ⎞ 2 −Δ ( n − 1 − k )! ⎜⎝ q 0 ⎟⎠
n −1− k
+ ... +
(2.506) ⎛ q& ⎞ + g% k +1 ( ⋅)( k + 1)!⎜ 2 − Δ 0 ⎟ + g% k ( ⋅ ) k ! ≥ 0 ∀ k ∈ 0, n − 1, t ≥ t0 . ⎝ q ⎠ Полученные соотношения (2.506) позволяют синтезировать закон управления u − ( x,t ) или u% x, γ ξ , t не только из условия обеспечения ограничений (2.422),
(
)
(2.423) (в силу теоремы 5.1), но и из условия обеспечения этих ограничений с некоторой степенью робастности. Необходимо также отметить следующее свойство введенного определения степени робастности (2.502): значение Δ не зависит от выбора базиса в неравенстве состояний R n, в котором рассматривается система (2.421). Действительно, это непосредственно следует из того, что собственные значения произвольной квадратной матрицы инвариантны к произвольному базису R n, относительно которого может быть представлена данная матрица [92]. Поэтому собственные значения λ i , i ∈1, n, а
(
значит, и max λi матрицы M − 1 S + S T i∈1,n
)
остаются неизменными для произвольного
базиса в R n. А согласно (2.452) в этом случае остается неизменной и величина Δ. 2.5.7.
РАЗРЕШИМОСТЬ ЗАДАЧИ СИНТЕЗА В КЛАССЕ ЛИНЕЙНЫХ ЗАКОНОВ УПРАВЛЕНИЯ
Выше (в п. 2.5.5) отмечалась важность проблемы разрешимости поставленной задачи синтеза, т.е. прежде чем непосредственно решать неравенства (2.500), (2.501) или (2.506), необходимо знать, а будут ли вообще данные неравенства разрешимы и что необходимо сделать (как модифицировать ограничения) для обеспечения их разрешимости. С этой целью рассмотрим вопрос об условиях разрешимости задачи синтеза в зависимости от свойств матриц A, B, M, L. При этом считаем, что для обеспечения разрешимости матрицами L и M можно варьировать. Будем рассматривать случаи, когда должен осуществляться синтез закона u − ( x,t ) вида (2.471). Как отмечалось выше (см. (2.479) или (2.476)), для того, чтобы синтезируемый закон управления решал поставленную задачу, должно выполняться неравенство max ⎡( S ( t ) , x ) − q& ( t ) ⎤⎦ ≤ 0 ∀t ≥ t0 или max ⎣⎡( S ξ ( t ) , x ) − q& ( t ) ⎦⎤ ≤ 0 ∀t ≥ t0 . (2.507) x∈ΓQ( t ) ⎣ x∈ΓQ( t )
Определим, при каких условиях выполняется первое неравенство (2.507). Для этого можно воспользоваться следующей леммой [131]. Лемма 2.3. Для каждого t ≥ t 0 матрицу L > 0 всегда можно выбрать такой, что при T ⎡ ⎤ ⎣ Ker B M ⎦ ∩ ΓQ ≠ ∅ для разрешимости неравенства (2.507) необходимо и достаточно, чтобы было разрешимо неравенство вида € , x − q& ⎤ ≤ 0, t ≥ t , ⎡ Sx (2.508) max 0 ⎦ x∈⎡ KerBT M ⎤ ∩ΓQ ⎣
⎣
⎦
(
)
& + 2A T M. где Ker BT M — ядро матрицы B T M; S€ = M
216
Методы современной теории автоматического управления
В соответствии с доказанной леммой задача разрешимости первого неравенства (2.507) сводится к задаче разрешимости более простого неравенства (2.508). Для анализа разрешимости (2.508) целесообразно ввести следующие обозначения. Пусть (2.509) H = Ker BT ⊂ R n n — некоторое подпространство в пространстве R . Считая, что размерность подпространства H равна r , т.е. dim H = r ( r > 0 — целое число),
{ }rj =1 и образуем ( n × r )-
в H зададим (выберем) произвольный базис из r векторов p j матрицу P вида
P = [ p1 p2 L pr ] , rank P = r. То есть столбцы матрицы P образованы из векторов выбранного базиса. Для анализа разрешимости (2.508) потребуется использовать следующую лемму. Лемма 2.4. Подпространство Ker BT M определяется равенством Ker BT M = M −1 ⋅ H , (2.510) где * (2.511) H = x ∈ R n : x = P z, z ∈ R r .
{
}
Покажем справедливость следующей леммы. Лемма 2.5. Матрица P T M − 1P — симметричная и положительно определенная в R n, т.е. P T M − 1P, если M > 0 . Можно записать (2.512) M − 1h, h > 0 ∀ h ∈ H \ {0}.
(
)
Поскольку H — подпространство R n, то последнее неравенство рассматривается не на всем пространстве R n, а только на некоторой его части (подпространстве H ). Поэтому в общем случае возможно, что M − 1 >/ 0 (т.е. M >/ 0 ), но при этом M имеет также свойства, при которых (2.512) выполняется, а значит, и в этом случае P T M − 1P. Выясним более общие условия, при которых выполняется неравенство (2.512), и при этом, возможно, M >/ 0 . Известно, что у произвольной симметричной матрицы M − 1 >/ 0 собственные век-
{ }
торы m1 , m 2 ,K, m n образуют базис mi
n
i =1
в пространстве R n [34]. Пусть μi , i ∈1, n
— собственные значения M − 1, соответствующие данным векторам (т.е. M − 1m i = μ i m i , где μi ≠ 0 ∀ i ∈1, n в силу невырожденности M ). Выделим положительные μν+ > 0,
(
ν ∈ N + и отрицательные μ −s > 0, s ∈ N − собственные значения здесь N + и N − —
)
непересекающиеся подмножества индексов, причем N U N = {1, 2,K, n} , которым +
соответствуют собственные векторы *
m+ν ,
ν∈ N
+
и
m−s ,
−
−
s ∈ N . Согласно [162] каж-
Справедливость представления H в виде (1.466) следует из того, что произвольный вектор x ∈ H r
можно разложить по элементам базиса пространства H как x = ∑ z j p j , z j ∈ R1 , или, что то же самое, j =1
представить в виде x = P z, z = [ z1
z2 L zr ] . T
Глава 2. Синтез робастных САУ в пространстве состояний
{ }
дое из множеств m+ν
ν∈N +
{ }
и m−s
217
представляет собой совокупность линейно-
s∈N −
неза-висимых векторов, на основе которой может быть образовано соответствующее подпространство в R n, H + и H −, т.е. H + + H − = Rn. Тогда справедлива следующая лемма. Лемма 2.6. Для положительной определенности матрицы P T M − 1P достаточно, чтобы выполнялось условие H ⊆ H +. (2.513) Данная лемма дает более общие условия положительной определенности матрицы P T M − 1P, которые, однако, являются только достаточными. Далее потребуется также использовать следующий результат. Лемма 2.7. Характеристическое уравнение
(
)
det μE − D−1F = 0,
(2.514)
где D — симметричная вещественная матрица, D > 0, F = F T , имеет неположительные корни тогда и только тогда, когда вещественная матрица F неположительно определена, т.е. когда F ≤ 0 . Приведенные выше леммы позволяют сформулировать результат о разрешимости неравенства (2.508). С этой целью проведем некоторые преобразования. Рассмотрим неравенство (2.508). Для x ∈ Ker BT M с учетом 2.4 получим x = M − 1P z, z ∈ R r . Тогда ⎧ S€ x, x = S€ M − 1P z, M − 1P z = P T M − 1S€ M − 1P z, z ; ⎪ (2.515) ⎨ ⎪( x, M x ) = M − 1P z, M M − 1P z = z, P T M − 1P z . ⎩ С учетом (2.515) неравенство (2.508) примет вид € −1Pz, z − q& ⎤ ≤ 0 при z, P T M −1Pz − q = 0, t ≥ t . max ⎡ P T M −1SM (2.516) 0 ⎦ z ⎣ Анализ разрешимости задачи (2.516) основан на следующей теореме [131]. Теорема 2.14. Для разрешимости неравенства (2.516), эквивалентного соотношению (2.508), необходимо и достаточно, чтобы выполнялось следующее матричное неравенство: & + μ∗N ⎤ P ≤ 0, P T ⎡ N A T + AN − N (2.517) ⎣ ⎦ где N = M − 1 > 0, μ∗ = q& q . При этом неравенство (2.517) является достаточным условием разрешимости поставленной задачи синтеза для системы (2.421) при ограничениях (2.422), (2.423). До каз ат е льс тво . Рассматривается неравенство (2.516) аналогично неравенству (2.479), разрешимость которого устанавливается на основе теоремы 2.1. Поэтому результаты данной теоремы можно непосредственно применить к неравенству (2.516). Тогда с учетом леммы 2.5 непосредственно получим, что для выполнения (2.516) необходимо и достаточно, чтобы собственные значения μ% j , j ∈1, r матрицы
(
) (
) ( ) (
(
(
)
(P
T
M − 1P
(
) (P −1
)
(
(
T
)
)
)
)
M − 1S€ M − 1P + P T M − 1S€T M − 1P =
= P T M − 1P
)
−1
(
)
P T M − 1 S€ + S€T M − 1P
(2.518)
218
Методы современной теории автоматического управления
удовлетворяли неравенствам q& μ% j ≤ 2 , j ∈1, r. q Обозначим μ% = 2μ€. Составим для матрицы (2.518) характеристический член. Имеем −1 det ⎡⎢μ% E − P T M −1P P T M −1 S€ + S€T M −1P ⎤⎥ = ⎣ ⎦ − 1 ⎡ & + A T M + MA M −1P ⎤ = = 2 det ⎢μ€E − P T M −1P P T M −1 M ⎥⎦ ⎣ −1 & −1 + M −1A T + AM −1 P ⎤ . = 2 det ⎡⎢μ€E − P T M −1P P T M −1 M −1MM ⎥⎦ ⎣ −1 Введем обозначение N = M , с учетом которого получим & = d M − 1 = −M − 1M & M − 1. N dt Действительно, это следует из тождества d d d ⎛d ⎞ & +M & M − 1. M ⋅ M−1 = M M −1 + ⎜ M ⎟ M−1 = M N 0≡ E= dt dt dt ⎝ dt ⎠ Используя новую переменную μ = μ€ − μ* μ* = q& q ,
(
)
(
(
)
(
)
(
)
(
)
{
(
= det μE − P T NP
{
)
−1
(
)
−1
)
(
)
& + NA T + AN P ⎤ = PT −N ⎥⎦
(
)
}
& + NA T + AN P ⎤ = ⎡ −μ∗ P T NP + P T − N ⎣ ⎦
)
(2.520)
)
(
(
много-
)
(
выражение (2.520) приведем к виду det ⎡⎢μE + μ∗E − P T NP ⎣
(2.519)
(
−1
)
}
(2.521)
(2.522)
& + μ∗ N ⎤ P . P T ⎡ NA T + AN − N ⎣ ⎦ Рассмотрим характеристическое уравнение = det μE − P T NP
{
(
det μE − P T NP
)
−1
(
)
}
& + μ∗N ⎤ P = 0. P T ⎡ NA T + AN − N ⎣ ⎦
(2.523)
С учетом (2.519), (2.521) получим, что корни уравнения (2.523) должны удовлетворять неравенствам 1 q& (2.524) μ j = μ€ j − μ* = μ% j − ≤ 0, j ∈ 1, r. 2 q
(
)
& + μ∗N ⎤ P — симметричная, то соПоскольку P T M P > 0, а P T ⎡ N A T + A N − N ⎣ ⎦ T⎡ & + μ∗N ⎤ P — негласно (2.524) и лемме 2.7 следует, что матрица P N A T + A N − N ⎣ ⎦ положительно определенная, т.е. справедливо неравенство (2.517). Тем самым показана справедливость утверждения о необходимости (2.517) для разрешимости (2.508). А поскольку выполнение (2.508) дает лишь достаточные условия для разрешимости поставленной задачи синтеза для системы (2.421), то это означает, что и (2.517) также дает только достаточные условия разрешимости. Тем самым теорема доказана. Теорема 2.14 рассмотрена для случая, когда M > 0 . Если же M >/ 0, то насколько являются справедливыми результаты данной теоремы? Можно ли и в этом случае и каким именно образом пользоваться матричным неравенством (2.517)? Поскольку
(
)
Глава 2. Синтез робастных САУ в пространстве состояний
219
теорема 2.14 основывалась на использовании соотношения (2.508) леммы 2.3, то нетрудно убедиться, что неравенство (2.508) будет выполняться независимо от положительной определенности M , т.е. она справедлива и при M >/ 0 . Другим используемым при доказательстве результатом было условие P T M − 1P > 0, которое согласно лемме 2.6 будет выполняться и при M >/ 0, если только обеспечивается (2.513). Кроме того, справедливость теоремы 2.3 основывалась на лемме 2.7. Из анализа доказательства данной теоремы видно, что согласно лемме 2.7 следует неравенство (2.517). При этом специально не требовалась положительная определенность M. Поэтому неравенство (2.517) справедливо в общем случае, в том числе и тогда, когда M >/ 0, т.е. неравенство (2.517) при обеспечении разрешимости задачи синтеза должно выполняться для любых симметричных невырожденных матриц M. Но если M >/ 0, то совместно с (2.517) должно рассматриваться условие (2.513), определяющее выбор возможных матриц M. Таким образом, неравенство (2.517) является критерием разрешимости задачи синтеза без учета ограничений на структуру алгоритма управления. Рассмотрим, при каких условиях разрешимо второе неравенство (2.507), учитывающее структурные ограничения. Воспользуемся выражением (2.474) для S ξ ( t ) . Тогда
( S ξx, x ) = ( ⎡⎣M& + 2 ( A T + K ξT B T ) M ⎤⎦ x, x ) = & x, x ) + ( ( A T + K T B T ) M x, x ) + ( M ( A + B K ) x, x ) = = (M ξ ξ % +A % T M ) x, x + ( M = (( M A ) & x, x ) , ξ ξ
(2.525)
% = A + BK . где A ξ ξ % — устойчивая матрица, то всегда можно выбрать такую Согласно [39], если A ξ
матрицу M ξ > 0, что % +A % T M < 0. Rξ = MξA ξ ξ ξ
Тогда, выбирая M = β Mξ , где β > 0, можно обеспечить неравенство R = β Rξ
0
за счет соответствующего значения β 0. Тем самым обеспечивается выполнение второго неравенства (2.507). Таким образом, одним из возможных условий разрешимости (2.507) является ста% ) на билизируемость системы (2.421) (т.е. обеспечение устойчивости матрицы A ξ множестве матриц обратной связи K ξ заданной структуры. Заметим, что анализ разрешимости (2.507) возможен и в более общем случае при учете структурных ограничений. Рассмотрим важный частный случай, когда M и q — соответственно не зависящие от времени матрица и вектор. Тогда & = O, μ* = 0, N где O — нулевая ( n × n )-матрица (случай стационарных фазовых ограничений).
220
Методы современной теории автоматического управления
В этом случая условие разрешимости (2.517) примет вид [52] W = P T VP ≤ 0, где V = NA T + AN. Образуем множество
{
}
G = x ∈ R n : ( x, Vx ) ≤ 0 .
(2.526) (2.527)
Справедлив следующий результат. Лемма 2.8. Для выполнения неравенства (2.526) необходимо и достаточно, чтобы выполнялось соотношение Ker BT = H ⊆ G. (2.528) Очевидно, когда V ≤ 0, то G = R n и (2.528) обеспечивается, поскольку H ⊆ Rn = G. Из теории устойчивости известен результат А.М. Ляпунова [21], согласно которому, если NA T + AN = V ≤ 0 и N > 0, то матрица A должна быть устойчивой. Однако в рассматриваемом случае возможно, что G ≠ R n , но (2.528) будет выполняться. При этом матрица A может быть и неустойчивой. Следовательно, полученный результат (2.526), (2.528) можно рассматривать как определенное обобщение условий устойчивости А.М. Ляпунова. 2.5.8.
О ФОРМИРОВАНИИ ДВУХУРОВНЕВОЙ СИСТЕМЫ УПРАВЛЕНИЯ ПРИ РЕШЕНИИ ОБОБЩЕННОГО МАТРИЧНОГО НЕРАВЕНСТВА
Полученное в предыдущем параграфе условие разрешимости задачи синтеза сводится в общем случае к неравенству (2.517) или, в частном случае, при стационарных фазовых ограничениях — к более простому неравенству (2.526). Неравенства (2.517), (2.526) представляют собой некоторые обобщения известного матричного неравенства А.М. Ляпунова [21], поэтому в дальнейшем их предлагается называть обобщенными матричными неравенствами. Поскольку неравенства (2.517), (2.526) представляют собой критерии разрешимости задачи синтеза, то важным является вопрос о проверке выполнения данных неравенств, и, если они не выполняются, — о возможности их обеспечения за счет допустимой вариации фазовых ограничений (т.е. матрицы M и величины q ). Вообще говоря, как было показано выше, для проверки разрешимости задачи синтеза и выбора допустимых ограничений на систему (2.421) можно непосредственно использовать неравенства (2.501) и (2.506), учитывающие также и требуемую степень робастности синтезируемой системы. Однако соотношения (2.517) и (2.526) являются более простыми и эффективными по сравнению с (2.501) и (2.506), так как дают меньшее число ограничений непосредственно на параметры рассматриваемой системы. Рассмотрим возможные подходы к решению неравенств (2.517) и (2.526). Одним из них является применение критерия Сильвестра [162] непосредственно к матрице W, определяемой согласно (2.526) или в общем случае в виде ⎧ W = P T V P; ⎪ ⎨ T * & ⎪⎩ V = NA + A N − N + μ N ( V принимает выражение (2.526) в стационарном случае). Пусть
(
W = ⎡⎣ wij ⎤⎦
r ,r i , j =1
)
(2.529)
.
Тогда в соответствии с критерием Сильвестра [162] для обеспечения неравенства W ≤ 0 или W = − W ≥ 0
Глава 2. Синтез робастных САУ в пространстве состояний
221
необходимо и достаточно, чтобы выполнялись следующие соотношения: det W1 ≥ 0, det W2 ≥ 0, K, det Wr ≥ 0, (2.530) где ⎡ w11 w12 L w1r ⎤ ⎢w ⎥ w12 ⎤ ⎡w ⎢ 21 w22 L w2 r ⎥ . = − ; ; W1 = − [ w11 ] ; W2 = − ⎢ 11 K W r ⎥ ⎢ M M O M ⎥ ⎣ w21 w22 ⎦ ⎢ ⎥ ⎣⎢ wr1 wr 2 L wrr ⎦⎥ Решая неравенства (2.530) относительно параметров системы, можно определить допустимые фазовые ограничения, которые будут обеспечиваться. Другой подход к решению рассмотрим для случая стационарных фазовых ограничений. Воспользуемся тем обстоятельством, что матрица P формируется из векторов произвольного базиса подпространства H . Поэтому выберем такой базис в H , для которого неравенство (2.526) принимает, по возможности, наиболее простой вид. В частности, в качестве такого базиса можно выбрать ортонормированный базис, для которого матрица P имеет вид ⎡ E ⎤ (2.531) P=⎢ ⎥, ⎣O n − r , r ⎦ где E — единичная ( r × r )-матрица, O n − r , r — нулевая ((n − r ) × r )-матрица. А под матрицей P понимается матрица P, полученная в результате некоторого невырожденного преобразования T при переходе в пространстве R n от исходного базиса к другому. В исходном базисе согласно (2.421) система управления имеет вид x& = Ax + B u. Пусть в новом базисе вектор состояния x ∈ R n связан с x зависимостью x = Tx, det T ≠ 0. Тогда x& = A x + B u, где A = T A T − 1 , B = T ⋅ B. Очевидно, что
(
) ( )
H = KerBT = Ker ( TB ) = Ker BT TT = TT T
−1
⋅H
(2.532)
(см. лемму 2.4). Матрицу преобразования T необходимо выбрать такой, чтобы из векторов базиса подпространства H можно было сформировать матрицу P вида (2.531). P можно представить как P = [ p1
pr ] , T
p2 L
где pi , i ∈1, r — векторы базиса подпространства H . С учетом (2.532) получим
( )
P = TT
или
( )
pi = TT
−1
−1
P,
⋅ pi , i ∈1, r.
(2.533)
Поскольку P должна иметь вид (2.531), то в соответствии с (2.533) решается задача
222
Методы современной теории автоматического управления
⎡ E ⎤ (2.534) ⋅P = ⎢ ⎥, ⎣O n − r ,r ⎦ где под P понимается матрица, составленная из векторов произвольного базиса подпространства H . На основе (2.534) определяется требуемая матрица преобразования T, которая, очевидно, может быть определена неоднозначно. Фазовые ограничения в новом базисе примут вид
(T )
T −1
(
) (
)
Ψ ( x, t ) = Ψ T − 1 x, t = T − 1 x, M T − 1 x − q =
( )
( )
где M = T − 1
= ⎜⎛ x, T ⎝ T
−1 T
(2.535)
M T − 1 x ⎞⎟ − q = ( x, M x ) − q, ⎠
M T − 1.
Отсюда N = M − 1 = T M − 1T T
(2.536)
( ) = (T )
(здесь использовалось то обстоятельство, что T
−1 T
T −1
[162]).
Представим матрицы A и N в виде ⎡A ⎡ N11 N12 ⎤ A12 ⎤ A = ⎢ 11 ⎥, N = ⎢ ⎥, ⎣ N 21 N 22 ⎦ ⎣ A 21 A 22 ⎦ T где N11 = N11 , N 22 = N T22 , N12 = N T21.
(2.537)
Здесь A11 , N11 — (r × r )-матрицы; A 22 , N 22 — ((n − r ) × (n − r ) )-матрицы; A12 , N12 — ( r × (n − r ) )-матрицы; A 21 , N 21 — ((n − r ) × r )-матрицы соответственно. В результате для неравенства (2.526) получим следующее выражение: T T ⎤ ⎛ ⎡N A12 N12 ⎤ ⎡ A11 ⋅ P T NA T + AN P = ⎣⎡E O r ,n − r ⎦⎤ ⋅ ⎜ ⎢ 11 ⎢ ⎥+ ⎜ ⎣ N 21 N 22 ⎥⎦ ⎢ A T A T ⎥ 22 ⎦ ⎣ 21 ⎝
(
( (
)
⎡A A12 ⎤ ⎡ N11 N12 ⎤ ⎞ ⎡ E ⎤ + ⎢ 11 ⎥ = ⎡⎣E O r ,n − r ⎤⎦ × ⎥⋅⎢ ⎥ ⎟⎟ ⋅ ⎢ ⎣ A 21 A 22 ⎦ ⎣ N 21 N 22 ⎦ ⎠ ⎣O n − r ,r ⎦
) (N ) (N
T T ⎡ N11A11 + N12 A12 + A11N11 + A12 N 21 ×⎢ ⎢ T T ⎢⎣ N 2 1A11 + N 22 A12 + A 21N11 + A 22 N 21
⎡ E ⎤ T T ×⎢ ⎥ = ⎡⎣ N11A11 + N12 A12 + A11N11 + A12 N 21 × O ⎣ n−r ,r ⎦ ⎡ E ⎤ × ( N11A T21 + N12 A T22 + A11N12 + A12 N 22 ) ⎤ × ⎢ = ⎦ O n−r ,r ⎥ ⎣ ⎦ = N1 1A1T1 + A11N1 1 + N1 2 A1T2 + A1 2 N 21. Тогда, используя (2.538), неравенство (2.526) представим в виде T T N11A11 + A11N11 ≤ − N12 A12 + A12 N 21 .
(
)
(
Если, например, N1 2 =
N T2 1
) )
+ N12 A T22 + A11N12 + A12 N 22 ⎤ ⎥× ⎥ T T 21A 21 + N 22 A 22 + A 21N12 + A 22 N 22 ⎥ ⎦ T 11A 21
)
(2.538) (2.539)
= O r ,n − r , то согласно (2.539)
(
)
N1 1A1T1 + A1 1N1 1 ≤ − N1 2 A1T2 + A1 2 N 2 1 ,
(2.540)
Глава 2. Синтез робастных САУ в пространстве состояний
223
т.е. получим матричное неравенство Ляпунова. Для описания уравнения (2.540) относительно допустимой матрицы N1 1 > 0 можно воспользоваться известными методами [74], предполагая при этом, что A11 — фиксированная матрица. Согласно [21] (2.540) разрешима тогда и только тогда, когда A11 — устойчивая матрица (т.е. все ее собственные значения имеют отрицательные вещественные части). Поэтому для анализа разрешимости неравенства (2.540) рассмотрим вопрос о том, при каких условиях может быть обеспечена устойчивость матрицы A11 , являющейся квадратным блоком матрицы A. Пусть управление u, синтезируемое для системы (2.421), в общем случае имеет вид u = u − ( x, t ) + u€ ( x, t ) ,
(2.541)
где u − ( x,t ) определяется согласно (2.471), а u€ ( x, t ) = K ( t ) x в , x в = C ( t ) x,
(2.542)
где x в — (l ×1)-вектор измерения; K ( t ) , C ( t ) — ( n × l )-, (l × n )-матрицы. С учетом (2.541), (2.542) уравнение системы (2.421) преобразуется к виду % ( t ) x + B ( t ) u − ( x, t ) , x& = A (2.543) % (t ) = A (t ) + B ( t ) K ( t ) C (t ). где A
Тогда вместо A для системы (2.543), эквивалентной (2.421), в полученных выше % , которой за счет высоотношениях (2.517), (2.526) можно использовать матрицу A бора матрицы K ( t ) (2.542) можно в зависимости от свойств управляемости и наблюдаемости системы (2.421) придать те или иные свойства, требуемые для разрешимости (2.517), (2.526). Выбор управления в виде (2.541) в два этапа: вначале из условия обеспечения % (закон u€(x, t ) ); а затем из условия обеспечения разтребуемых свойств матрицы A решимости поставленной задачи (закон u − (x, t )), — представляет собой формирование двухуровневой системы управления. Покажем, как при формировании управления (2.541) можно обеспечить разрешимость неравенства (2.540). С этой целью, как отмечено выше, необходимо обеспечить % будем устойчивость блока A матрицы A. По аналогии с матрицей A через A 11
% , рассматриваемую в новом базисе пространства R n и полуобозначать матрицу A % , так же как и A, разочаемую с помощью матрицы преобразования T. При этом A % той же размерности, что и A . бьем на четыре блока и выделим блок A 11 11 Нетрудно показать, что % = A + B K C, где C = CT − 1. A
(2.544)
Если, например, C = E ( x = x в ) , то % = A + B K , K = K T − 1. A
(2.545)
D = BKC (или BK ).
(2.546)
Обозначим Очевидно, D — (n × n )-матрица. Тогда, разбивая D на четыре блока тех же размерностей, что и у матрицы A, получим
224
Методы современной теории автоматического управления
% =A +D . A 11 11 11
(2.547)
Покажем, как определяется матрица D11. Пусть ⎡B ⎤ B = ⎢ 1 ⎥, (2.548) ⎣B 2 ⎦ где B1 , B 2 — соответственно ( r × m )-, ((n − r ) × m )-матрицы. С учетом определения B следует, что ⎡B ⎤ ⎡T ⎤ ⎡T B ⎤ B = ⎢ 1 ⎥ = TB = ⎢ 1 ⎥ B = ⎢ 1 ⎥, T ⎣ 2⎦ ⎣T2B ⎦ ⎣B 2 ⎦
т.е. B1 = T1B, B 2 = T2B,
(2.549)
где T1 , T2 — (r × m )-, ((n − r ) × m )-матрицы. Представим матрицу C в виде C = ⎡⎣C1 C 2 ⎤⎦ , где C1 , C 2 — (l × r )-, (l × (n − r ))-матрицы. Тогда с учетом (2.546), (2.548) получим ⎡ B KC1 B1K C 2 ⎤ ⎡B ⎤ D = ⎢ 1 ⎥ ⋅ ⎡⎣ K C1 K C 2 ⎤⎦ = ⎢ 1 ⎥, ⎣B 2 ⎦ ⎣ B 2KC1 B 2K C 2 ⎦
(2.550)
где D11 = B1KC1. Отсюда в соответствии с (2.547) следует % = A + B KC . A 11 11 1 1 Согласно (2.540) рассматривается неравенство %T +A % N ≤ 0, N A 11
11
11
(2.551) (2.552) (2.553)
11
% должна быть устойдля разрешимости которого, как отмечалось выше, матрица A 11 чивой. Поэтому анализ разрешимости неравенства (2.138) сводится к анализу суще% ствования такой ( m × l )-матрицы K , которая обеспечивает устойчивость блока A 11
% можно использовать один из алгебраивида (2.537). Для проверки устойчивости A 11 ческих критериев устойчивости [208]. Например, критерий Гурвица. И на основе вытекающих из него соотношений подбирать требуемую матрицу K. Но прежде чем осуществлять подобный подбор K , необходимо знать, возможно ли вообще обеспе-
% . С этой целью целесообразно использовать следующий подход. чить устойчивость A 11 С учетом (2.544), (2.550) получим C = ⎡⎣C1 C 2 ⎤⎦ = CT − 1 = C ⋅ ⎡⎢ T − 1 T − 1 ⎤⎥ = ⎡⎢C T − 1 C T − 1 ⎤⎥ , ⎣ ⎣ 1 2⎦ 1 2⎦ т.е.
( ) ( )
( )
( )
( )
C1 = C ⋅ T − 1 , C 2 = C ⋅ T − 1
( ) ( )
где T − 1 , T − 1 1
1
2
2
( )
,
— соответственно ( n × r )-, ( n × (n − r ))-матрицы.
Кроме того, нетрудно видеть, что
(2.554)
Глава 2. Синтез робастных САУ в пространстве состояний ⎡T ⎤ A = T A T− 1 = ⎢ 1 ⎥ ⋅ A ⋅ ⎡ T− 1 ⋅ T− 1 ⎤ = ⎣ 1 2⎦ ⎣ T2 ⎦ ⎡ T1A T − 1 ⎡ T1 A ⎤ ⎡ − 1 −1 ⎤ ⎢ =⎢ ⎥⋅ T 1⋅ T 2⎦ = ⎢ −1 ⎣ T2 A ⎦ ⎣ ⎢⎣ T2 A T Отсюда следует, что
225
( ) ( )
( ) ( )
( ) ( )
( ) T A (T ) T1A T − 1
1 1
−1
2
⎤ ⎥. ⎥ ⎦ 2⎥
2
( )
A1 1 = T1A T − 1 . 1
В результате (2.537) приводится к следующему выражению: % = T A T− 1 + T B K C T− 1 = T ( A + B K C) T− 1 = T A % T− 1 , A 11 1 1 1 1
( )
1
( )
( )
1
1
( )
1
(2.555)
в соответствии с которым можно достаточно эффективно выделять исследуемый %. блок матрицы A Используя матрицы A11 и B1 , можно установить возможность обеспечения ус% . Если, например, C = E, то рассматриваемая задача сводится к анатойчивости A 11
лизу управляемости пары матриц A11 и B1.
( )
Действительно, в этом случае A1 1 , B1 , K1 = K ⋅ T − 1
1
— соответственно ( r × r )-,
(r × m )-, (m × z )-матрицы. Причем для любой допустимой матрицы T можно придавать произвольные заранее заданные значения матрице K 1 , которым будут соответствовать свои вполне определенные значения матрицы K (т.е. выбор допустимой T не влияет на область значений K 1). Но тогда свойства матрицы
% = A +B K A 11 11 1 1
определяются парой матриц ( A1 1 , B1 ) . Поэтому если ( A1 1 , B1 ) — управляемая пара % [79] (т.е. для данных матриц выполняется критерий управляемости), то матрицу A 11
всегда можно сделать устойчивой за счет выбора соответствующей K 1 и тем самым обеспечить разрешимость (2.138). В более общем случае для обеспечения разрешимости (2.538) достаточно потребовать, чтобы пара ( A11 , B1 ) была стабилизируемой [97] (т.е. неуправляемые собственные значения матрицы A11 должны находиться в левой полуплоскости комплексной плоскости). Известно [125], как эти собственные значения выделяются. Рассмотрим случай, когда C ≠ E. Тогда в выражении (2.537) A11 , B1 , K , C1 — ( r × r )-, (r × m )-, ( m × l )-, (l × r )-матрицы. Можно также потребовать, чтобы матрицы % . Однако если A , B , C обеспечивали стабилизируемость A 11
1
1
11
rank C1 = r ,
% определяется только парой ( A , B ) . то стабилизируемость A 11 11 1 2.6.
СИНТЕЗ РОБАСТНЫХ (η-РОБАСТНЫХ) СИСТЕМ УПРАВЛЕНИЯ ПО НЕПОЛНОМУ ВЕКТОРУ СОСТОЯНИЯ
Покажем, как формируется закон управления, если система находится под некоторыми внешними воздействиями. В этом случае уравнения состояния имеют вид
226
Методы современной теории автоматического управления x& = Ax + Bu + Dv, x ( t0 ) = x0 , t ≥ t0 ,
где v — ( r × 1)-вектор возмущения; D = D ( t ) — ( n × r )-матрица. Кроме того, задано уравнение выхода (измерения) системы x в = Cx,
(2.556)
(2.557)
xв — (l ×1)-вектор выхода (измерения); C = C ( t ) — (l × n )-матрица.
О возмущении v = v ( t ) предполагается, что это либо некоторая заданная (известная) вектор-функция, либо вектор, являющийся элементом заданного множества V = V ( t ) ⊂ R l , т.е. v ( t ) ∈ V ( t ) , t ≥ t0 .
(2.558) Считаем, что ограничения накладываются непосредственно на вектор выхода y , т.е. x в = Cx ∈ Q ( t ) ∀t ≥ t0 ,
где
{
(
(
Q ( t ) = xв ∈ Rl : ψ ( xв , t ) = xв − xв0 , M xв − xв0
(2.559)
)) − q (t ) ≤ 0}.
Здесь (l × l )-матрица M ( t ) > 0 и скалярная функция q ( t ) > 0 имеют тот же смысл, что и в рассмотренном выше случае, а x 0в = x 0в ( t ) — некоторый (l ×1)-вектор, который может быть задан в виде известной вектор-функции, либо выбирается произвольно на некотором заданном множестве X в0 = X в0 ( t ) ⊂ R l , т.е. x0в ( t ) ∈ X в0 ( t ) ∀ t ≥ t0 . Ограничения на управление имеют вид u = u ( ⋅) ∈ U ( x, t ) ∀ xв = Cx ∈ Q ( t ) , t ≥ t0 ,
где
{
(
(
U ( x, t ) = u ∈ R m : u − u 0 , L u − u 0
(2.560) (2.561)
)) − p ( x, t ) ≤ 0}.
Здесь u0 = u 0 ( t ) — некоторый ( m × 1)-вектор, который либо является заданной вектор-функцией, либо выбирается произвольно на некотором заданном множестве U 0 = U 0 ( t ) ⊂ R m, т.е. u 0 ( t ) ∈ U 0 ( t ) ∀ t ≥ t0 .
(2.562)
Пусть x0 = x0 ( t ) — ( n × 1)-вектор-функция, являющаяся решением уравнения Cx = x в , (2.563) которое предполагается разрешимым. В достаточно общем случае (2.563) разрешимо неоднозначно. Тогда в качестве x0 ( t ) можно использовать произвольное решение (2.563). Введем переменные (2.564) x€ = x − x0 , u€ = u − u 0 , x€в = xв − xв0 . Тогда уравнения (2.556), (2.557) приводятся к виду ⎧⎪x&€ = Ax€ + Bu€ + η, (2.565) ⎨ 0 ⎪⎩x€в = Cx€, x€ ( t0 ) = x€0 = x0 − x ( t0 ) , t ≥ t0 , где η = η ( t ) = −x& 0 ( t ) + Ax0 ( t ) + Bu 0 ( t ) + Dv ( t ) . (2.566)
Глава 2. Синтез робастных САУ в пространстве состояний
227
Ограничения на векторы выхода и управления сводятся к следующим: ⎧x€ = x€( t ) ∈ Q€ ( t ) = x€ ∈ R n : ψ€ ( x€, t ) = x€, Mx € € − q (t ) ≤ 0 , t ≥ t ; 0 ⎪ ⎨ € = CT MC в общем случае M € ≥0 ; ⎪M ⎩ ⎧u€ = u€( ⋅) ∈ U€ ( x€, t ) = u€ ∈ R m : ( u€, Lu€) − p€ ≤ 0 при x€ ∈ Q€( t ) , t ≥ t0 ; ⎪ ⎨ ⎪p€ = p€( x€, t ) = p€ x€ + x0 ( t ) , t , ⎩
(
(
где
{
(
)
{
}
)
}
)
u€ = u€ ( ⋅) = Kx€в + Kxв0 − u 0 . Тогда аналогично предыдущему получим € ∂ψ σ ( x€, u€, t ) = ( ∇ x€ψ€, Ax€ + Bu€ + η ) + = ∂t € + 2A T M € x€ + 2 BT Mx € €, u€ + 2 x€, Mη € − q&. = x€, M
( (
)) (
) (
)
(2.567)
(2.568)
(2.569)
(2.570)
И требуемый закон управления, определяемый в результате решения задачи минимизации, рассмотренной выше, имеет следующий вид: p€1 2 € €. (2.571) u€ = u€− ( x€, t ) = − ⋅ L−1B T Mx T € 12 −1 T € L B Mx€, B Mx€
(
)
Тогда для обеспечения линейности синтезированного закона (2.571) следует положить € €, BT Mx €€ , p€ ( x€, t ) = L−1BT Mx
(
в результате чего получим
)
€ €. u€− ( x€, t ) = −L−1BT Mx
(2.572)
Согласно (2.564)
€ €. u − − u 0 = −L−1BT Mx € (2.567) находим, что Отсюда с учетом выражений для x€ (2.564), M − 0 −1 T T 0 −1 T T u − u = −L B C MC x − x = −L B C MCx +
(
−1 T
)
+ L B C MCx = −L B CT Mxв + L−1BT CT Mxв0 . Обозначим
T
0
−1 T
K − = −L−1BTCT M,
(2.573)
тогда
u − − u 0 = Kx в − K − x 0в . (2.574) Если, например, положить u0 = K − x 0в , (2.575) то требуемый закон управления, удовлетворяющий ограничениям (2.561) и являющийся линейным, имеет вид u− = K −x в . (2.576) В общем случае согласно (2.574) u − = K − ⋅ x в + u0 − K − x 0в , (2.577)
(
)
где u0 − K − x 0в — некоторая известная ( m × 1)-вектор-функция, формируемая с учетом ограничений (2.560), (2.562). При этом u 0 ( ⋅) , x в ( ⋅) можно выбирать в соответствии с (2.560), (2.562) так, чтобы обеспечить заданные фазовые ограничения.
228
Методы современной теории автоматического управления
Рассмотрим случай, когда u − ( ⋅) имеет вид (2.576). Тогда, как показано выше, для выполнения ограничений (2.559) должно рассматриваться следующее неравенство: (2.578) sup σ x€, u€− ( x€, t ) , t ≤ 0 ∀ t ≥ t0 , x€∈ΓQ€( t )
(
(
)
)
где функция σ x€, u€− , t , получаемая путем подстановки закона (2.572) в выражение (2.570), имеет вид
(
)
(
)
€ − q&; σ x€, u€− ( x€, t ) , t = ( x€, Sx€) + 2 x€, Mη
(2.579)
здесь &€ € − 2MBL € −1B T M €. S=M + 2A T M Таким образом, задача (2.578) с учетом (2.579) принимает выражение € − q& ⎤ ≤ 0 при x€, Mx € € − q = 0, t ≥ t , sup ⎡( x€, Sx€) + 2 x€, Mη 0 ⎣ ⎦ x€
(
)
(
)
(2.580)
отличающееся от соответствующей задачи максимизации для системы с квадратичными ограничениями тем, что в выражении максимизируемой функции σ− ( x€, t ) = σ x€, u€− ( x€, t ) , t
(
(
)
)
€ . имеется дополнительное слагаемое 2 x€, Mη
Поскольку максимизация осуществляется на неограниченном множестве ΓQ€ ( t ) € ), то вначале необходимо определить условия, (в силу вырожденности матрицы M при выполнении которых задача (2.570) имеет решение. Для определения условий € — ядро матрицы M €; существования введем следующие обозначения: H€ = Ker M ⊥ n H€ — подпространство в R , являющееся ортогональным дополнением ядра H€, т.е. H€ ⊕ H€ ⊥ = R n, ⊕ — знак прямой суммы подпространств. В подпространстве H€ сформируем произвольный базис
{ p€i }iχ=1 ,
из элементов
которого образуем ( n × χ )-матрицу P€ = ⎡⎣ p€1 , p€2 ,K , p€χ ⎤⎦ . Произвольный элемент x€ ∈ R n можно однозначно представить в виде суммы x€ = x€1 + x€2, (2.581) 1 ⊥ 2 € € где x€ ∈ H , x€ ∈ H . Преобразуем задачу (2.580) с учетом представления (2.581). С этой целью подставим (2.581) в выражение (2.579). Нетрудно показать, что с учетом определения x€1, x€2 после подстановки и соответствующих преобразований получим соотношения:
(
) ( (
)
€ € = x€1 , Mx € €1 , ⎧ x€, Mx ⎪ ⎪ 1 2 1 1 1 T 2 T 2 ⎪( x€, Sx€) = x€ , Sx€ + x€ , S + S x€ + x€ , S + S x€ , 2 ⎪ ⎪здесь необходимо учитывать, что ⎪ ⎨1 2 T 2 2 2 ⎪ x€ , S + S x€ = x€ , Sx€ , 2 ⎪ ⎪ x€1 , S + S T x€2 = x€1 , Sx€2 + x€2 , Sx€1 , ⎪ ⎪ € = x€1 , Mη € . ⎪⎩ x€, Mη
( (
) ( (
) ) ( ( ( ) ) ( ( ) ( )
) ) ( (
) ) (
))
) )
(2.582)
Глава 2. Синтез робастных САУ в пространстве состояний
229
Используя (2.582), приведем (2.579) к следующему выражению:
(
)
(
) ( ) 1 € ) − q& = + ( x€ , ( S + S ) x€ ) + ( x€ , ( S + S ) x€ ) + 2 ( x€ , Mη 2 1 = σ ( x€ , t ) + ( x€ , ( S + S ) x€ ) + ( x€ , ( S + S ) x€ ) . 2
σ x€, u€− ( x€, t ) , t = σ− ( x€, t ) = σ− x€1 + x€2 , t = x€1 , Sx€1 + 1
−
T
1
2
2
1
T
T
2
2
1
2
T
(2.583)
2
Тогда задача максимизации (2.580) принимает вид ⎧ 1 ⎡ − 1 ⎤ σ x€ , t + x€1 , S + S T x€2 + x€2 , S + ST x€2 ⎥ ≤ 0 ⎪ sup ⎢ 1 2 2 ⎦ (2.584) ⎨ x€ + x€ ⎣ 1 ⎪при x€1 , Mx € € − q = 0, t ≥ t . 0 ⎩ € ( t ) x€1 = q ( t ) получим Из (2.584) с учетом обозначения ΓQ€1 ( t ) = x€1 ∈ H€ ⊥ : x€1 , M
( ) ( ( ( )
) ) ( (
{
) )
(
)
эквивалентное выражение задачи максимизации 1 ⎡ ⎤ sup ⎢ σ− x€1 , t + x€1 , S + S T x€2 + x€2 , S + S T x€2 ⎥ = 1 2 ⎣ 2 ⎦ x€ + x€ 1 ⎡ ⎤ = sup ⎢ σ− x€1 , t + x€1 , S + S T x€2 + x€2 , S + S T x€2 ⎥ ≤ 0. 2 ⎦ x€1∈ΓQ€1 ( t ) ⎣
( ) ( (
) ) ( (
( ) ( (
}
) )
) ) ( (
) )
(2.585)
x€2 ∈H€
Нетрудно показать, что задача максимизации произвольной непрерывной функции Θ x€1 , x€2 на некотором множестве ℜ, которое можно представить в виде
(
)
ℜ = ℜ1 × ℜ2 ,
где ℜ1 , ℜ2 — заданные множества, такие, что x€1 ∈ ℜ1 , x€2 ∈ ℜ 2 и ℜ1 — ограниченное множество, удовлетворяет условию (2.586) sup Θ x€1 , x€2 = max sup Θ x€1 , x€2 . x€1∈ℜ1 x€2 ∈ℜ2
(
)
x€1∈ℜ1 x€2 ∈ℜ2
(
)
Действительно, для каждого фиксированного x€1 ∈ ℜ1 можно определить величину
(
)
(
sup Θ x€1 , x€2 ≥ Θ x€1 , x€2 2
x€ ∈ℜ2
Тогда значение
(
)
(
max sup Θ x€1 , x€2 ≥ Θ x€1 , x€2 x€1∈ℜ1 x€2 ∈ℜ2
)
)
∀ x€2 ∈ ℜ2 .
∀ x€1 ∈ ℜ1 , ∀ x€2 ∈ ℜ 2 ,
(
т.е. соответствует абсолютному максимуму функции Θ x€1 , x€2
)
на множестве ℜ и
потому является решением задачи максимизации. С учетом (2.586) задачу (2.585) можно представить в виде ⎧ 1 ⎡ − 1 ⎤ σ x€ , t + x€1 , S + ST x€2 + x€2 , S + S T x€2 ⎥ = ⎪ 1sup ⎢ 1 2 ⎦ ⎪ x€2∈Q€€ ( t ) ⎣ ⎪⎪ x€ ∈H ⎨ ⎧ − 1 1 2 ⎡ 1 T 2 T 2 ⎤⎫ ⎪= max ⎨σ x€ , t + sup ⎢ x€ , S + S x€ + x€ , S + S x€ ⎥ ⎬ ≤ 0 2 €1 ⎩ 2 x € ⎣ ⎦⎭ x€ ∈H ⎪ ⎪ 1 € 1 ⎪⎩при x€ , Mx€ − q ( t ) = 0, t ≥ t0 .
( ) ( (
(
( ) )
) ) ( (
( (
) ) ( (
) )
) )
(2.587)
230
Методы современной теории автоматического управления
Согласно (2.587) вначале решается задача 1 ⎡ ⎤ sup ⎢ x€1 , S + S T x€2 + x€2 , S + ST x€2 ⎥ , 2 ⎦ x€2 ∈H€ ⎣ 1 1 € а затем осуществляется минимизация по x€ ∈ ΓQ ( t ) . Поскольку
( (
) ) ( (
) )
(2.588)
)
(
&€ € + MA € − 2MBL € −1BT M € , S + ST = 2 M + AT M
то
(S + S ) x€ T
2
) (
(
(
(
) )
&€ € &€ 2 € =2 M + MA x€2 , x€2 , S + ST x€2 = 2 x€2 , Mx
)
и (2.588) приводится к виду &€ € &€ 2 ⎤ € . sup ⎡⎢ 2 x€1 , M (2.589) + MA x€2 + x€2 , Mx 2 ⎣ ⎦⎥ € x€ ∈H Очевидно, для того чтобы задача (2.587) была разрешимой, необходимо потребовать, чтобы обеспечивалась разрешимость получения задачи (2.589). При этом под разрешимостью задачи (2.589) понимается существование верхней грани на подпро&€ € &€ 2 ⎤ € . Для анализа существова+ MA x€2 + x€2 , Mx странстве H€ у функции ⎡⎢ 2 x€1 , M ⎥⎦ ⎣ ния верхней грани воспользуемся приводимыми далее результатами. Лемма 2.9. Для разрешимости задачи (2.589) необходимо, чтобы &€ 2 € ≤ 0 ∀ x€2 ∈ H€. (2.590) x€2 , Mx
( (
) )(
( (
) )(
)
)
)
(
Соотношение (2.590) можно представить в более удобном виде. Для этого воспользуемся введенным выше базисом в пространстве H€ и сформулированной из его векторов ( n × χ )-матрицей P€ ( χ = n − rank C ) . Очевидно, что произвольный вектор x€2 ∈ H€ можно представить в виде € , где z ∈ R χ . x€2 = Pz (2.591) Тогда справедлива следующая лемма. Лемма 2.10. Неравенство (2.590) эквивалентно условию &€ € P€T MP ≤ 0. Далее покажем справедливость следующей леммы. Лемма 2.11. Решения уравнения €& € = 0 z, P€T MPz
(
)
(2.592)
(2.593)
€& €. образуют подпространство Ker P€T MP
&€ € Д о к аз ат е льс тв о . Известно, что симметричную матрицу P€T MP можно предста& € T € T € вить в виде P MP = F ΛF, где F — невырожденная ( χ × χ )-матрица, а Λ — диагональная матрица: 0⎤ ⎡ λ1 ⎢ ⎥ λ2 ⎥, Λ=⎢ ⎢ ⎥ O ⎢ ⎥ λ χ ⎥⎦ ⎢⎣ 0 €& €, которые, как известно, являютλ i , i = 1, χ — собственные значения матрицы P€T MP
ся вещественными и неположительными ( λ i ≤ 0 ) .
Глава 2. Синтез робастных САУ в пространстве состояний
231
Пусть T
z€ = Fz = ⎡⎣ z€1 , z€2 ,K , z€χ ⎤⎦ .
Тогда уравнение χ €& € = z, F T ΛFz = ( Fz, ΛFz ) = ( z€, Λz€) = ∑ λ z€2 = 0 z, P€T MPz i i
)
(
(
)
i =1
имеет те же решения, что и уравнение Λz€ = 0. Поскольку det F ≠ 0 , то последнее уравнение эквивалентно следующему: F T Λz€ = F T ΛFz = 0, но это в соответствии с определением ядра матрицы означает, что решения данного уравнения образуют подпространство &€ € Ker F T ΛF = Ker P€T MP , что и требовалось доказать. Далее сформируем подпространство €& €. L€ = P€ ⋅ Ker P€T MP (2.594) С учетом (2.591) можно записать €. L€ ⊂ H€ = Ker M (2.595) 2 € Тогда согласно лемме 2.3 для каждого элемента x€ ∈ L будет выполняться соотношение &€ 2 &€ € € , MPz €& € = 0, (2.596) € = Pz = z, P€T MPz x€2 , Mx
(
) (
) (
)
поскольку в этом случае в соответствии с (2.594) € , где z ∈ Ker P€T MP €& €. x€2 = Pz Лемма 2.12. Если выполняется условие (2.590) или (2.592), то для существования верхней грани (2.589) (разрешимости задачи максимизации) необходимо, чтобы обеспечивалось соотношение &€ € (2.597) M + MA ⋅ L€ ⊂ H€.
)
(
Покажем справедливость следующего результата. Лемма 2.13. Если Σ — симметричная ( n × n )-матрица, то подпространство H ⊥, являющееся ортогональным дополнением подпространства H = Ker Σ в R n (т.е. R n = H ⊕ H ⊥ ), будет инвариантным подпространством для Σ, т.е. Σ ⋅ H ⊥ ⊆ H ⊥. €. Из леммы 2.5 следует, что H€ ⊥ — инвариантное подпространство матрицы M 1 2 Поэтому для произвольного вектора x€ = x€ + x€ получим €€= M € x€1 + x€2 = Mx € €1 ∈ H€ ⊥. Mx (2.598)
(
)
Отсюда следует, что для любой матрицы A вектор x€A = Ax€ = x€1A + x€2A , x€1A ∈ H€ ⊥ , x€2A ∈ H€ ⊥ при каждом x€ ∈ R n также будет удовлетворять аналогичному соотношению, т.е. € € = Mx € € = Mx € €1 ∈ H€ ⊥ ∀ x€ ∈ R n . MAx (2.599) A A Лемма 2.14. Условие (2.597) будет выполняться тогда и только тогда, когда справедливо соотношение €& + MA € . (2.600) L€ ⊆ Ker M
(
)
232
Методы современной теории автоматического управления
Д о к аз ат е льс тв о . Прежде всего отметим то обстоятельство, что (2.601) Ker P€ T = H€ ⊥. Действительно, это непосредственно следует из того, что вектор-столбцы l i , i ∈ 1, χ матрицы P€ согласно определению удовлетворяют условию l ∈ H€ ∀ i ∈ 1, χ, и i
потому l i ⊥ H€ ⊥. Тогда ⎡ ( l , x€) ⎤ ⎡l T ⎤ ⎢ 1 ⎥ ⎢1⎥ € € P x = ⎢ M ⎥ ⋅ x = ⎢ M ⎥ = 0 ∀ x€ ∈ H€ ⊥. ⎢ ⎥ ⎢ T⎥ ⎢⎣l χ ⎥⎦ ⎢⎣( l χ , x€) ⎥⎦ А это, в свою очередь, означает справедливость (2.601), поскольку других векторов в R n, удовлетворяющих данному равенству, не существует. Пусть x€2 ∈ L€. Тогда в соответствии с выражением (2.594) можно записать &€ € € , где z ∈ Ker P€ T MP x€2 = Pz . Отсюда получим &€ € &€ € P€ T MPz = P€ T MPz = 0, €T
( )
& € € т.е. MPz ∈ Ker P€ T . Или с учетом (2.601) €& € = Mx €& €2 ∈ H€ ⊥ ∀ x€ 2 ∈ L€. MPz Используя (2.599) и (2.602), находим, что €& + MA € x€ 2 = Mx €& € 2 + MAx € €2 ∈ H€ ⊥ ∀ x€ 2 ∈ L€, M
(2.603)
поскольку каждое из слагаемых принадлежит H€ ⊥ . Кроме того, согласно (2.597) можно записать &€ € M + MA x€ 2 ∈ H€ ∀ x€2 ∈ L€.
(2.604)
(
(2.602)
)
(
)
Так как подпространства H€ ⊥ и H€ ортогональны друг другу, т.е. H€ ⊥ H€ ⊥ , то из &€ € сравнения выражений (2.602), (2.603) следует, что один и тот же вектор M + MA x€2
(
)
только тогда может одновременно принадлежать H€ и H€ ⊥, когда он нулевой, т.е. при выполнении условия &€ € (2.605) M + MA x€ 2 = 0 ∀ x€2 ∈ L€,
(
)
а это означает справедливость (2.600), что и требовалось доказать. € является стационарной, Рассмотрим важный частный случай, когда матрица M € т.е. M ≡ const . Тогда, используя лемму 2.4, можно показать справедливость следующего результата. € — стационарная матрица, то для выполнения условия Следствие 2.9. Если M (2.597) необходимо и достаточно, чтобы подпространство H€ было инвариантно относительно матрицы A. Представим подпространство H€ в виде H€ = L€ ⊕ L€⊥ . (2.606)
Глава 2. Синтез робастных САУ в пространстве состояний
233
С учетом (2.606) для произвольного вектора x€2 ∈ H€ справедливо разложение x€2 = x€2,1 + x€2,2 , (2.607) 2,1 2,2 ⊥ где x€ ∈ L€, x€ ∈ L€ . Подставим разложение (2.607) в выражение (2.589). В результате получим €& + MA € x€2 + x€2 , Mx €& €2 = 2 x€1 , M
( (
) ) )( €& + MA € x€ + 2 x€ , M € x€ €& € + = 2 ( x€ , ( M ) ) + ( x€ , Mx ) ) ) ( ( €& + MA €& € €& € + x€ , Mx + ( x€ , Mx ) + ( x€ , Mx ) ( €& € ). 1
2,1
2,1
1
2,2
2,2
Согласно (2.596) имеем
( x€
2,1
Из (2.605) следует
2,2
2,1
2,2
2,1
2,1
(2.608)
2,2
)
&€ 2,1 € = 0. , Mx
€ x€ ) ( M&€ + MA
2,1
= 0.
Кроме того, поскольку в соответствии с (2.602) &€ 2,1 € ⊥ € ∈H , Mx а в силу (2.606) x€2,2 ∈ L€⊥ ⊂ H€, &€ 2,1 € , и поэтому то x€2,2 ⊥ Mx
( x€
2,2
) (
)
€ €2,1 = x€2,1 , Mx € €2,2 = 0. , Mx
В результате подстановки полученных соотношений в (2.608) задачу максимизации (2.589) приведем к следующему эквивалентному виду: &€ € €& €2,2 ⎤ . sup ⎡⎢ 2 x€1 , M (2.609) + MA x€2,2 + x€2,2 , Mx ⎥⎦ x€2,2 ∈L€⊥ ⎣ Поэтому вместо анализа разрешимости задачи (2.589) можно рассматривать вопрос о разрешимости (2.609). Это устанавливается на основе доказанных выше лемм, и результат формулируется в виде следующей теоремы. Теорема 2.15. Для разрешимости задачи (2.609) (а значит, и (2.589)) необходимо и достаточно, а задачи (2.587) необходимо, чтобы выполнялись условия: &€ 2,2 ⎧1) x€2,2 , Mx € < 0 ∀ x€2,2 ∈ L€⊥ ; ⎪ (2.610) ⎨ €& + MA € . ⎪2) L€ ⊂ Ker M ⎩ Справедливость данной теоремы непосредственно вытекает из лемм 2.1–2.6. Рассмотрим решение задачи максимизации (2.609) с учетом полученных соотношений (2.610). С этой целью в подпространстве L€⊥ зададим произвольный базис % { p% i }iχ=1 , где χ% = dim L€⊥ — размерность L€⊥. Из векторов введенного базиса образуем
( (
) )(
(
)
(
)
)
( n × χ% )-матрицу P% = ⎡⎣ p%1 , p% 2 ,K, p% χ% ⎤⎦ , с помощью которой произвольный вектор x€2,2 ∈ L€⊥ можно представить в виде % % , z% ∈ R χ% . x€2,2 = Pz (2.611)
234
Методы современной теории автоматического управления
Преобразуем выражение (2.609) с учетом зависимости (2.611). После непосредственной подстановки (2.611) в (2.609) получим &€ € % % + z% , P% T MPz €& % % ⎤ . sup v x€1 , z% = sup ⎡⎢ 2 x€1 , M + MA Pz (2.612) ⎥⎦ χ% χ% ⎣ z%∈R z%∈R Полученная задача представляет собой задачу безусловной максимизации, решение которой должно удовлетворять следующему уравнению: ∇ z% v x€1 , z% = 0.
(
( (
)
(
Отсюда находим
) )(
)
)
)
(
&€ &€ % € x€1 + 2P% T MPz % = 0. ∇ z% v = 2P% T M + AT M
(2.613)
Так как согласно условию 1 теоремы 2.1 &€ 2,2 €& % % < 0 ∀ z% ∈ R χ% , € x€2,2 , Mx = z% , P% T MPz
)
) (
(
&€ % &€ % — отрицательно определенная, т.е. P% T MP < 0, и, следовательно, то матрица P% T MP невырожденная. Поэтому решение уравнения (2.613) имеет вид & % −1 % T €& € € x€1. z% = − P% T MP P M + AT M (2.614)
)
(
)
(
Подставим (2.614) в (2.612). После соответствующих преобразований получим следующее значение для верхней грани: &€ € % % T € & −1 €& + AT M € . (2.615) sup v x€1 , z% = − x€1 , Rx€1 , где R = M + MA P P MP% P% T M z%∈Rχ%
(
) (
)(
(
)
) (
)
(
)
&€ % −1 &€ % Поскольку матрица P% T MP < 0, то отрицательно определенной будет и P% T MP , т.е. &€ % ) ( P% MP T
Но тогда из выражения для R ⎛ ( x€, Rx€) = ⎜ ⎡⎢ P% T M&€ + AT M€ ⎝⎣ Следовательно, R ≤ 0, или
−1
< 0.
(2.615) следует, что для произвольного x€ ∈ R n &€ % −1 ⎡ % T &€ € x€⎤ ⎞⎟ ≤ 0. x€⎤ , P% T MP P M + AT M ⎥⎦ ⎢⎣ ⎥⎦ ⎠
)
) (
(
(
)
(
)
− x€1 , Rx€1 ≥ 0 ∀ x€1 ∈ H€ ⊥.
(2.616)
Воспользуемся полученным результатом (2.616) для решения задачи (2.587). Для этого в подпространстве H€ ⊥ размерности n − χ (т.е. dim H€ ⊥ = n − χ ) зададим произвольный базис
{ pi }in=χ+1 .
Из векторов данного базиса образуем ( n × (n − χ) )-
матрицу P = ⎡⎣ pχ+1 , pχ+ 2 ,K, pn ⎤⎦ . Тогда произвольный вектор x€1 ∈ H€ ⊥ может быть представлен в виде x€1 = Pz , z ∈ R n −χ . (2.617) С учетом (2.615), (2.617), а также выражения (2.579) задача (5.172) преобразуется к следующему эквивалентному виду: € − q& − z ,P T RPz ⎤ = max ⎡ z ,P T SPz + 2 z ,P T Mη ⎦ Pz ⎣ (2.618) T T T € − q& ⎤ ≤ 0 при z ,P MPz € = max ⎡ z ,P (S − R )Pz + 2 z ,P Mη = q , t ≤ t0 . ⎦ z ⎣
(
(
) ( ) ) ( )
(
)
(
)
Глава 2. Синтез робастных САУ в пространстве состояний
235
Для решения полученной задачи (2.618) воспользуемся следующим результатом, € . устанавливающим свойства матрицы P T MP T € Лемма 2.15. Матрица P MP является положительно определенной, т.е. € > 0. P T MP (2.619) Из леммы 2.15 следует, что задача максимизации (2.618) разрешима (существует хотя бы одно решение), поскольку рассматривается максимизация непрерывной квадратичной функции на замкнутом ограниченном множестве. Решение задачи (2.618) можно осуществить, используя подход Лагранжа. Для этого введем лагранжиан € − q& + ρ ⎡ z , P T MPz € (2.620) α ( z , ρ ) = z , P T ( S − R ) Pz + 2 z , P T Mη − q⎤ . ⎣ ⎦ Тогда требуемое решение определяется из уравнения ∇ z α = 0, (2.621) где € + 2ρP T MPz € ∇ z α = P T S + S T − 2R Pz + 2P T Mη = (2.622) € ⎤ z + 2P T Mη € . = ⎡ P T S + S T − 2R P + 2ρP T MP ⎣ ⎦ Отсюда, если для множителя ρ справедливо неравенство
(
) (
(
)
(
)
)
(
)
(
)
€ det Φ ( ρ ) ≠ 0, где Φ ( ρ ) =P T S + S T − 2R P + 2ρP T MP
(2.623)
(т.е. матрица Φ ( ρ ) — невырожденная), находим вид решения € . z = −2Φ −1 ( ρ ) P T Mη
(2.624)
Значение множителя Лагранжа ρ определяется из условия −1 € € , P T MPΦ € € = z , P T MPz = 4 Φ −1 ( ρ ) P T Mη ( ρ ) PT Mη
(
) ( € = 4 ( η, MPΦ
)
−1
−1 € € ) = q. ( ρ ) PT MPΦ ( ρ ) PT Mη
(2.625)
Здесь использовалось то обстоятельство, что матрица Φ − 1 ( ρ ) , так же как и Φ ( ρ ) , является симметричной. Преобразуем задачу (2.618) к более простому виду на основе соотношения (2.622). Для этого умножим скалярно на вектор z правую и левую части уравнения (2.622). В результате получим € ⎤ z + 2P T Mη € = 0, ( z , ∇ z α ) = z , ⎡⎣ PT S + ST − 2R P + 2ρPT MP ⎦ или (2.626) € € = z , P T S + S T − 2R Pz + 2ρ z , P T MPz + 2 z , P T Mη
(
(
(
(
= 2 z , PT
(
)
)
) ) ( ) ( € ) = 0. ( S − R ) Pz ) + 2ρq + 2 ( z , P Mη
)
T
Нетрудно видеть, что последнее уравнение получено с учетом того, что
( z , P SPz ) = ( z, P S Pz ) T
и
T T
€ ) = q, ( z , P MPz T
(2.627)
тогда в соответствии с (2.626) находим € − q& = −ρq + z , P T Mη € − q&. z , P T ( S − R ) Pz + 2 z , P T Mη
(
) (
)
(
)
(2.628)
236
Методы современной теории автоматического управления
В результате задача максимизации (2.618) с учетом (2.624) приводится к следующему виду: € − q& ⎤ = max ⎡ −ρq + z , P T Mη ⎦ z ⎣ (2.629) 1 T − € , P T Mη € − q& ⎤ . max T ⎡ −ρq − 2 Φ ( ρ ) P Mη = −1 ⎦ € ⎣ −2Φ ( ρ ) P Mη
( (
)
)
Поскольку в последнем выражении варьируемыми параметрами могут быть только скалярный множитель ρ и вектор η, то в общем случае в соответствии с (2.618), (2.629) получим −1 ⎧max ⎡ −ρq − 2 η, MPΦ € ( ρ ) PT η − q& ⎤⎦ ≤ 0 ⎪ ρ, η ⎣ (2.630) ⎨ −1 € € −1 ( ρ ) P T Mη € = q, t ≥ t . ⎪при 4 η, MPΦ ρ ) P T MΦ ( 0 ⎩ Заметим, что условие (2.630) рассматривается в общем случае для каждого t ≥ t0 ,
(
)
(
)
поскольку q = q ( t ) и η = η ( t ) — некоторая скалярная и векторная функции. Кроме
того, матрицы в данном выражении также могут зависеть от времени. Таким образом, показана справедливость следующей теоремы. Теорема 2.16. Для разрешимости задачи (2.587) необходимо и достаточно, чтобы на всем интервале функционирования системы (2.556) была разрешима задача (2.630). Данная теорема дает ответ на поставленную в начале этого параграфа задачу: как выбрать допустимый закон управления, который для системы (2.556), (2.557) при наличии ограничений (2.558), (2.560)–(2.562) обеспечивает выполнение фазовых ограничений (2.559). Действительно, если согласно теореме 2.16 задача (2.630) разрешима, то это означает, что решением поставленной задачи синтеза является линейный закон управления (2.576) с учетом предположений (2.563), (2.575). В некоторых случаях использование условия (2.630) может быть существенно упрощено. Действительно, если справедливо соотношение € = η% ≡ const, (2.631) P T Mη то (2.630) преобразуем к выражению ⎧max ⎡ −ρq − 2 η% , Φ −1 ( ρ ) η% − q& ⎤ ≤ 0 ⎦ ⎪ ρ ⎣ (2.632) ⎨ −1 € ⎪при 4 η% , Φ −1 ( ρ ) P T MPΦ ρ ) η% = q, t ≥ t0 . ( ⎩ Нетрудно видеть, что в соответствии с (2.632) задача синтеза требуемого закона управления сведена к максимизации скалярной функции на некотором множестве, состоящем из конечного числа значений скалярной переменной ρ, которые определяются в результате решения полиномиального уравнения в выражении (2.632). Решение данного уравнения основано на применении известных (стандартных) вычислительных процедур и должно учитывать, что требуемое значение переменной ρ является вещественным. Соотношение (2.631) может быть, в частности, обеспечено, если η = η ( t ) = η0 ≡ const. (2.633)
(
(
)
)
Или согласно (2.566), (2.575), (2.573), (2.563) должно выполняться следующее равенство: η ( t ) = −x& 0 ( t ) + Ax0 ( t ) + Bu0 ( t ) + Dv ( t ) = = −x& 0 ( t ) + Ax0 ( t ) + BK −1x0в ( t ) + Dv ( t ) = − x& 0 ( t ) + Ax0 ( t ) −
Глава 2. Синтез робастных САУ в пространстве состояний
237
−BL−1BT CT Mxв0 ( t ) + Dv ( t ) = − x& 0 ( t ) + Ax0 ( t ) − −BL−1BT CT MCx0 ( t ) + Dv ( t ) = − x& 0 ( t ) +
(
)
(2.634)
€ x ( t ) + Dv ( t ) = η ≡ const. + A − BL B M 0 −1 T
0
Отсюда находим, что € x0 + Dv ( t ) − η , x& 0 = A − BL−1BT M 0
(
)
(2.635)
0
где вектор x согласно (2.563) удовлетворяет также уравнению Cx 0 = x 0в . Из (2.635), (2.563) можно непосредственно получить условия, обеспечивающие выполнение тождества (2.633). Действительно, если для некоторого вектора η0 разрешима задача (2.630) при t ≥ t0 , то синтезируемый закон управления имеет согласно (2.576), (2.573) вид € . u = u − ( xв , t ) = K − xв = −L−1BT CT Mxв = −L−1BT CT MCx = −L−1BT Mx (2.636) Подставим (2.636) в уравнение системы (2.556). Получим € x + Dv. x& = A − BL−1BT M
(
)
(2.637)
Тогда если для некоторого η0 условие (2.632) выполняется, то на траекториях уравнения (2.637) справедливо ограничение (2.561), т.е. xв ( t ) = Cx ( t ) ∈ Q ( t ) , t ≥ t0 , а конкретный вид возмущений v = v ( t ) в этом случае не оказывает никакого влияния на (2.561). Действительно, вычтем из (2.637) уравнение (2.635) и с учетом (2.564) получим € x€ + η . x&€ = A − BL−1BT M (2.638) 0
(
)
Поскольку (2.632) выполняется, то для x€( t ) справедливо (2.567), т.е. x€( t ) ∈ Q€ ( t ) при t ≥ t0 . А так как уравнение (2.638) не зависит от вида v ( t ) , то в силу эквивалентности (2.637) и (2.638) следует, что и (2.561) не зависит от v ( t ) , а определяется только значением вектора η0 . Однако при этом необходимо учитывать, что решение уравнения (2.635) должно удовлетворять условию (2.563). Выясним, для какого класса возмущений v ( t ) решение x0 = x0 ( t ) уравнения (2.635) является также и решением равенства (2.563). Без ограничения общности можно считать, что rank C = l , t ≥ t0 . (2.639) Представим C в виде C = [C1 C2 ] , где C1 , C 2 — соответственно (l × l )- и (l × (n − l ) )-матрицы, причем rank C1 = l , t ≥ t0 .
(2.640)
0
Вектор x также представим в виде ⎡ x01 ⎤ x0 = ⎢ ⎥ , 02 ⎣⎢ x ⎦⎥ где x 0 1 , x 0 2 — (l ×1)- и ((n − l ) × 1)-векторы.
(2.641)
238
Методы современной теории автоматического управления
Тогда произвольное решение уравнения (2.563) определяется следующим образом: ⎡ x 01 ⎤ [С1 С2 ] ⎢ 02 ⎥ = C1x 01 + C2x 02 = x 0в , ⎢⎣ x ⎥⎦ или ⎧⎪x01 = C1−1x0в − C1−1C2 x02 = F1x0в + F2 x02 ; (2.642) ⎨ 01 0 02 ⎪⎩C1x = xв − C2 x , где x 0 2 может принимать произвольное значение из пространства R n−1, F1 = C1−1 , F2 = −C1−1C2 — (l × l )- и (l × (n − l ) )-матрицы. (2.643) Обозначим % % % = A − BL−1B T M € = ⎡⎢ A11 A12 ⎤⎥ , A (2.644) % % ⎣ A 21 A 22 ⎦ % ,A % ,A % ,A % — соответственно (l × l )-, (l × (n − l ) )-, ((n − l ) × l )-, ((n − l ) × (n − l ) )где A 11 12 21 22 матрицы; ⎡ η1 ⎤ ⎡D ⎤ (2.645) D = ⎢ 1 ⎥ , η0 = ⎢ 0 ⎥ , 2 ⎣ D2 ⎦ ⎣⎢ η0 ⎦⎥
где D1 , D 2 — (l × r )-, ((n − l ) × r )-матрицы; η10 , η02 — (l × 1)-, ((n − l ) × 1)-векторы. Очевидно, x& 01 = F1x& 0в + F&1x 0в + F2x& 02 + F& 2x 02 . (2.646) С учетом (2.641), (2.642), (2.644)–(2.646) уравнение (2.635) можно представить в виде % % ⎤ ⎡ F1x 0в + F2 x 02 ⎤ ⎡ D1 ⎤ ⎡ η1 ⎤ ⎡ x& 01 ⎤ ⎡ F1x& 0в + F&1x 0в + F2 x& 02 + F& 2 x 02 ⎤ ⎡ A A 12 = ⎢ 11 + ⎢ ⎥ v − ⎢ 0 ⎥. ⎢ 02 ⎥ = ⎢ ⎥ ⎢ ⎥ ⎥ 2 % % x& 02 x 02 ⎢⎣ x& ⎥⎦ ⎢⎣ ⎥⎦ ⎣ A 21 A 22 ⎦ ⎢⎣ ⎥⎦ ⎣ D2 ⎦ ⎢⎣ η0 ⎥⎦ Отсюда находим 0 0 02 02 % F x0 + A % F x02 + A % F x02 + A % x02 + D v − η1 , ⎪⎧F1x& в + F&1xв + F2 x& + F& 2 x = A 11 1 в 11 2 12 2 12 1 0 ⎨ 02 0 02 02 2 % % % & x = A F x + A F x + A x + D v − η . ⎪⎩ 21 1 в 21 2 22 2 0 После соответствующих преобразований получим % F −A % x02 + F x& + F& − A % F x0 + F x& 0 + η1 , ⎧D1v = F& 2 − A 11 2 12 2 02 1 11 1 в 1 в 0 ⎪ (2.647) ⎨ 02 02 0 2 % % % ⎪⎩D2 v = − A 21F2 + A 22 x + x& − A 21F1xв + η0 . Запишем данную систему в виде % F −A % ⎤ F2 ⎤ 02 ⎡ F& 2 − A ⎡ D1 ⎤ 02 ⎡ 11 2 12 ⎥ x + ⎢Ο ⎥ x& + ⎢D ⎥ v = ⎢ % % ⎣ 2⎦ ⎣ n − l ,n − l ⎦ ⎣ − A 21F2 − A 22 ⎦
(
(
где Ο n −l ,n −l , Ο n −l ,l
)
)
(
)
% F ⎤ 0 ⎡ F1 ⎤ 0 ⎡ η10 ⎤ ⎡ F& − A 11 1 x + x& + , +⎢ 1 % F ⎥ в ⎢ Οn −l ,l ⎥ в ⎢ η2 ⎥ A − ⎢⎣ 0 ⎥⎦ ⎣ ⎦ 21 1 ⎦ ⎣ — соответственно нулевые ((n − l ) × (n − l ) )-, ((n − l ) × l )-матрицы.
С учетом (2.645) и обозначений % F −A % ⎤ % F⎤ ⎡F& − A ⎡F&1 − A ⎡ F2 ⎤ ⎡ F1 ⎤ 11 2 12 11 1 R1 = ⎢ 2 ⎥ , R 2 = ⎢Ο ⎥ , Φ 2 = ⎢Ο ⎥ , Φ1 = ⎢ % ⎥ % % ⎣ n−l ,n−l ⎦ ⎣ n−l ,l ⎦ ⎣ − A 21F2 − A 22 ⎦ ⎣ − A 21F1 ⎦
(2.648)
Глава 2. Синтез робастных САУ в пространстве состояний
последнее уравнение запишем следующим образом: Dv = R1x 02 + R 2 x& 02 + Φ1x 0в + Φ2 x& 0в + η0 .
239 (2.649)
Таким образом, класс требуемых возмущений V ( t ) , обеспечивающих равенство
(2.563) для решений x 0 ( t ) уравнения (2.635), задается с помощью (2.649). То есть если V ( t ) — произвольное решение (2.649), то для него обеспечивается (2.563) и (2.635). Следует иметь в виду, что x0в = xв0 ( t ) , η0 — заданные векторы, а x 0 2 ∈ R n−1 — произвольный из рассматриваемого пространства, который, вообще говоря, может выбираться в виде произвольной непрерывно-дифференцируемой по времени функции. При этом если x 0в ( t ) — ограниченная функция (или вектор), то и x 0 2 ( t ) целесообразно выбирать также ограниченной. Тогда x 0 1 ( t ) и x 0 ( t ) в силу (2.642), (2.641) также будут ограниченными. Получим условия, при выполнении которых уравнение (2.649) имеет непустое множество решений относительно функций V ( t ) . Пусть α ( D ) — линейное пространство, образованное вектор-столбцами матрицы: D = [ d1 d 2 K d r ]; d j , j ∈1, r — ( n × 1)-вектор-столбцы. Очевидно,
dim α ( D ) = rank D.
Тогда для разрешимости (2.649) необходимо и достаточно, чтобы R1x02 + R 2 x& 02 + Φ1x0в + Φ 2 x& 0в + η0 ∈ α ( D ) .
(2.650)
Обозначим
% ⎤, ⎧R = ⎡ R1 R 2 Φ1 Φ 2 η0 ⎤ = ⎡ R R ⎦ ⎣ ⎦ ⎣ ⎪⎪ (2.651) ⎨ T ⎡ω ⎤ 02 x& 02 xв0 x& в0 1⎤⎦ = ⎢ ⎥ , ⎪ω = ⎡⎣ x %⎦ ⎪⎩ ⎣ω % — матрицы, столбцы которых соответственно принадлежат и не принадлегде R, R % — векторы, размерности которых согласованы с жат подпространству α ( D ) , ω, ω %. матрицами R, R Тогда (2.650) принимает вид % % ∈ α ( D). Rω = Rω + Rω
Поскольку
(2.652)
Rω ∈ α ( D ) ∀ ω,
то для обеспечения (2.652) необходимо выбрать такое значение вектора ω, чтобы % % ∈ α ( D). Rω (2.653) % Найдем условия, при которых (2.653) будут выполняться. Для этого матрицу R представим в виде % =R % − +R % ⊥, R (2.654) − % % где R — матрица, образованная ортогональными проекциями столбцов матрицы R % ⊥ — матрица, образованная столбцами, ортогональнына подпространство α ( D ) ; R
ми подпространству α ( D ) .
240
Методы современной теории автоматического управления
Тогда согласно (2.653) получим % % =R % −ω % ⊥ω % +R % ∈ α ( D) , Rω
(2.655)
% −ω % ⊥ω % ⊥ (так как тогда % ∈ α ( D) ∀ ω %, а R % ⊥ α ( D) ∀ ω % за исключением ω % ∈ Ker R где R % ⊥ω % = 0 ∈ α (D) ). R Отсюда следует, что (2.655) выполняется тогда и только тогда, когда % ⊥. % ∈ Ker R ω (2.656) Поэтому (2.656) является необходимым и достаточным условием разрешимости (2.650) или же, что то же самое, (2.649). С учетом (2.656) уравнение (2.649) приводится к виду % −ω % ⊥. %, ω % ∈ Ker R Dv = Rω + R (2.657) ⊥ % % ∈ R содержат варьируемые координаты, то на основе (2.657) Если векторы ω, ω
задается множество возможных возмущений, соответствующих фиксированному вектору η0 .
Если вектор η0 не является фиксированным (например, η0 = η0 ( t ) — некоторая вектор-функция), то анализ разрешимости (2.650) можно осуществить следующим образом. Пусть % ⎤, ⎧R 0 = ⎡ R1 R 2 Φ1 Φ 2 ⎤ = ⎡ R 0 R 0⎦ ⎣ ⎦ ⎣ ⎪⎪ (2.658) ⎨ T ⎡ω ⎤ 02 x& 02 x0в x& в0 ⎤⎦ = ⎢ 0 ⎥ , ⎪ω0 = ⎡⎣ x % 0⎦ ⎣ω ⎩⎪ % и векторы ω , ω где матрицы R 0 , R 0 0 % 0 обладают аналогичными свойствами, что и % и векторы ω, ω % . Тогда (2.650) приводится к виду матрицы R, R % ω R 0ω 0 + η0 = R 0ω0 + R 0 % 0 + η0 ∈ α ( D ) .
(2.659)
% и вектора η воспользуемся ортогональным разложением на Для матрицы R 0 0
подпространство α ( D ) аналогично (2.654). Получим
% −, R %⊥ где матрицы R 0 0
% =R % − +R % ⊥, ⎧⎪R 0 0 0 (2.660) ⎨ − ⊥ ⎪⎩ η0 = η0 + η0 , % −, R % ⊥, а η− , η⊥ — векторы, строятся аналогично матрицам R 0 0
для которых η0− ∈ α ( D ) , η0⊥ ⊥ α ( D ) . С учетом (2.660) соотношение (2.659) приводится к виду % −ω % ⊥ % + η− + η ⊥ = R 0ω0 + η0 = R 0ω0 + R 0 % 0 + R0 ω 0 0 0 % −ω % ⊥ω % + η− + R % + η⊥ ∈ α ( D ) , = R ω +R
(
0
0
0
0
0
) (
0
0
0
)
(2.661)
− ⊥ % −ω % ⊥ω % 0 , ∀ η0− ∈ α ( D ) , а R где R 0ω 0 + R 0 % 0 + η0 ∈ α ( D ) ∀ ω 0 , ∀ ω 0 % 0 + η0 ⊥ α ( D ) . Отсюда следует, что (2.661) будет выполняться тогда и только тогда, когда ⊥ % ⊥ω R (2.662) 0 % 0 + η0 = 0. Поскольку η0 не является фиксированным, то его всегда можно выбрать таким, чтобы обеспечивалось равенство (2.662). Уравнение (2.662) в общем случае является необходимым и достаточным условием разрешимости (2.650) и (2.649). С учетом (2.662) получим следующее выражение для (2.649):
Глава 2. Синтез робастных САУ в пространстве состояний
241
− % −ω Dv = R 0ω 0 + R 0 % 0 + η0 ,
где
η0−
(2.663)
% 0 удовлетворяет (2.662). На основе ∈ α ( D ) , ω 0 — произвольные векторы, а ω
(2.663) задается множество возможных возмущений V ( t ) , соответствующих изме-
няемому вектору η0 ( t ) . Рассмотренный подход к формированию робастных систем управления позволяет ввести понятия так называемых η-робастных систем: система (2.556) имеет η-уровень робастности (внешний уровень) и сама является η-робастной, если для η ( t ) = η ≡ const ∀ t ≥ t0 обеспечивается соотношение (2.630). При этом по заданному η определяется вид множества возможных (допустимых) возмущений, при которых обеспечивается выполнение требуемых ограничений. 2.6.1.
РАЗРЕШИМОСТЬ ЗАДАЧИ СИНТЕЗА ПРИ НЕСИММЕТРИЧНЫХ КВАДРАТИЧНЫХ ОГРАНИЧЕНИЯХ
Выясним условия, при которых задача (2.630) может иметь решение. Для этого воспользуемся обозначениями, позволяющими (2.618) привести к более простому виду. Пусть € — согласно лемме 2.7 G > 0; G = P T MP € (t ). F = P T ( S − R ) P, z = P T Mη t
0
12
−1 2
( (
) )
Поскольку G > 0, то G > 0 и G > 0, где G = G1 2 ⋅ G1 2. С учетом введенных обозначений преобразуем (2.618) ⎡1 ⎤ max ⎢ z , Ft + FtT z + 2 ( z , z0 ) − q& ( t ) ⎥ = z ⎣2 ⎦ ⎡ 1 −1 2 1 2 ⎤ = max ⎢ G ⋅ G z , Ft + FtT G −1 2 ⋅ G1 2 z + 2 G −1 2 ⋅ G1 2 z , z0 − q& ( t ) ⎥ = z ⎣2 ⎦
(
(
(
)
(
)
⎡1 = max ⎢ G1 2 z , G −1 2 Ft + FtT G −1 2 ⋅ G1 2 z ⎣2
где F = G −1 2
(
) ( z ) + 2 (G
12
)
)
⎤ z , G −1 2 z0 − q& ( t ) ⎥ = ⎦
(2.664)
⎧ ⎡1 ( z€, Fz€) + 2 ( z€, z€0 ) − q& ( t )⎤⎥ ≤ 0 ⎪max z€ ⎢ ⎣2 ⎦ =⎨ ⎪при ( z , Gz ) = G1 2 z , G1 2 z = ( z€, z€) = q ( t ) , ⎩ Ft + FtT G −1 2 , z€ = G1 2 z , z€0 = G −1 2 z0 .
(
)
)
Отсюда аналогично (2.621)–(2.625) находим, что максимизирующий вектор z€ удовлетворяет условиям ⎪⎧( F − λE ) z€ + 2z€0 = 0, (2.665) ⎨ ⎪⎩( z€, z€) = q ( t ) , где λ = −2ρ, E — единичная ( (n − k ) × (n − k ) )-матрица. Пусть λ1 , λ 2 ,K, λ n−k — собственные числа матрицы F, а e1 , e2 ,K, en−k — соответствующие им собственные векторы. Для симметричной матрицы F собственные числа вещественны, а собственные векторы всегда можно задать так, чтобы они образовывали ортонормированную систему. Поэтому будем считать, что ортонормированный базис в R
n−k
.
{ei }in=−1k
—
242
Методы современной теории автоматического управления
Пусть rank F = s ≤ n − k .
Тогда для R
n−k
справедливо разложение R n−k = Ker F ⊕ H F , причем размерности ортогональных подпространств dim H F = s, dim Ker F = n − k − s, n−k
а базис {ei }i =1 можно разбить на две системы векторов, являющиеся соответственно базисами в Ker F и H F . Считаем, что {ei }i=1 — базис H F , s
{ei }in=−sk+1
— базис Ker F.
Тогда векторы z€, z€0 в базисе {ei }i=1 имеют вид s
s n−k ⎧ € = α + z e ⎪ ∑ i i ∑ α i ei , ⎪ i =1 i = s +1 (2.666) ⎨ s n−k ⎪z€ = α e + ⎪ 0 ∑ 0i i ∑ α 0 i ei . i =1 i = s +1 ⎩ Подставим (2.666) в первое уравнение (2.665) и учтем, что Fei = λi ei , где
λ s +1 = K = λ n−k = 0, так как ei ∈ Ker F, i ∈ s + 1, n − k . Получим n−k n −k ⎛ s ⎞ ⎛ s ⎞ ( F − λ E ) ⎜ ∑ α i e i + ∑ α i ei ⎟ + 2 ⎜ ∑ α 0 i ei + ∑ α 0 i e i ⎟ = i = s +1 i = s +1 ⎝ i =1 ⎠ ⎝ i =1 ⎠ s
= ∑ ⎡⎣ αi ( λ i − λ ) + 2α 0i ⎤⎦ ei + i =1
В силу линейной независимости
n −k
∑ ( 2α0i − λαi ) ei = 0.
i = s +1 n−k ei i =1
{ }
⎧⎪αi ( λ i − λ ) + 2α 0i = 0, i ∈ 1, s, ⎨ ⎪⎩−λα i + 2α 0i = 0, i ∈ s + 1, n − k .
(2.667)
Отсюда при условии, что λ ≠ 0 и λ ≠ λ i , i ∈1, s, 2α 0i ⎧ ⎪⎪αi = λ − λ , i ∈1, s, i (2.668) ⎨ α 2 ⎪α = 0i , i ∈ s + 1, n − k . ⎪⎩ i λ Умножим скалярно на z€ правую и левую часть первого уравнения в (2.665) и учтем, что ( z€, z€) = q ( t ) . Получим
( z€, Fz€) + 2 ( z€, z€0 ) = λq ( t ) ,
или
1 1 ( z€, Fz€) + ( z€, z€0 ) = λq ( t ) . 2 2
Тогда
1 1 (2.669) ( z€, Fz€) + 2 ( z€, z€0 ) − q& ( t ) = λ ⋅ q ( t ) + ( z€, z€0 ) − q& ( t ) . 2 2 Подставим (2.666), (2.668) в (2.669) и во второе уравнение (2.664), учитывая ортоn−k
нормированность системы векторов {ei }i =1 . В результате чего задачу (2.664) можно представить в виде
Глава 2. Синтез робастных САУ в пространстве состояний s ⎧ ⎡1 ⎤ α2 2 n−k 2 ⎪max ⎢ λq ( t ) + 2∑ 0i + ∑ α 0i − q& ( t ) ⎥ ≤ 0 λ i = s +1 ⎥⎦ ⎪ λ ⎢⎣ 2 i =1 λ − λ i ⎨ s α 02i 4 n−k 2 ⎪ € € − = − − α 0i = 0. z z q t q t при , 4 ( ) ( ) ( ) ∑ 2 2 ∑ ⎪ λ λ − λ 1 1 ( ) i = i = s + i ⎩ Обозначим s 1 α2 2 n−k ω ( λ ) = λq + 2∑ 0i + ∑ α 02i − q&. 2 λ i = s +1 i =1 λ − λ i
243
(2.670)
(2.671)
Перенумеруем собственные значения λ i , i ∈1, s + 1 в порядке их возрастания и обозначим через μ j так, что
min λ i = μ1 ≤ μ 2 ≤ K ≤ μ s +1 = max λi ,
i∈1, s +1
i∈1, s +1
где λ s +1 = 0. Тогда (2.671) можно представить в виде s +1 β ⎧ 1 j − q& , ⎪ω ( λ ) = λ q + 2∑ 2 λ − μj j =1 ⎪ ⎪где коэффициенты β определяются соотношениями j ⎪ ⎨ 2 ⎧α 0i при μ j = λ i , i ∈1, s, ⎪ ⎪β = ⎪ n−k 2 ⎪ j ⎨ ⎪ ∑ α 0i при μ j = λ s +1 , ⎪ = + i s 1 ⎩ ⎩
(2.672)
т.е. β j ≥ 0, j ∈ 1, s + 1. В дальнейшем будем считать, что все β j > 0. Для анализа разрешимости сформулированной задачи максимизации выясним некоторые свойства функции 1 (2.673) ω ( λ ) = ω ( λ ) + q& = λq + 2 ⋅ ω0 ( λ ) , 2 s +1 β j ω0 ( λ ) = ∑ . j =1 λ − μ j Разобьем вещественную ось R1 на интервалы Λ j , j ∈1, s + 2 таким образом, что ⎧( −∞, μ1 ) при j = 1, ⎪⎪ Λ j = ⎨ μ j −1 , μ j при 2 ≤ j ≤ s + 1, ⎪ ⎪⎩( μ S +1 , +∞ ) при j = s + 2. Очевидно, на каждом из интервалов Λ j , j ∈1, s + 2 функции ω0 ( λ ) , ω ( λ ) — не-
(
)
прерывно-дифференциренцируемы. Лемма 2.16. При λ ∈ Λ j для всех j ∈ 1, s + 2 функции ω0 ( λ ) , ω′′0 ( λ ) являются монотонно-убывающими. До каз ат ельство . Действительно, в силу выражения ω0 ( λ ) получим s +1
βj
j =1
(λ − μ j )
ω′0 ( λ ) = −∑
2
< 0,
244
Методы современной теории автоматического управления s +1
βj
j =1
(λ − μ j )
ω′′0 ( λ ) = 2 ⋅ ∑
3
s +1
βj
j =1
(λ − μ j )
ω′′′0 ( λ ) = −6 ⋅ ∑
,
(2.674) 4
0, j ∈ 1, s + 1. Тогда согласно (2.674)
⎧⎪ω′′0 ( λ ) < 0 при λ ∈ Λ1 , ⎨ ⎪⎩ω′′0 ( λ ) > 0 при λ ∈ Λ s+ 2 ,
т.е. ω′0 ( λ ) монотонно убывает на Λ1 и монотонно возрастает на Λ s+ 2 .
(
)
При λ ∈ Λ j = μ j −1 , μ j , j ∈ 2, s + 1, в силу (2.674), если λ → μ j−1 + 0, то ω′′0 ( λ ) если λ → μ j − 0, то ω′′0 ( λ )
0,
0. А так как ω′′0 ( λ ) монотонно убывает на Λ j , обяза-
тельно найдется только одно такое значение μ j −1 < λ < μ j , при котором ω′′0 ( λ ) = 0, что соответствует локальному экстремуму функции ω′0 ( λ ) на Λ j . Поскольку при
λ → μ j−1 + 0 и λ → μ j − 0 функция ω′0 ( λ ) → −∞, то данный экстремум соответствует локальному максимуму. Лемма 2.18. На каждом из интервалов Λ j , j ∈1, s + 2 функция ω ( λ ) имеет не более двух локальных экстремумов (минимум и максимум). До каз ат ельство . С учетом (2.673) значения λ, соответствующие локальным экстремумам функции ω ( λ ) , удовлетворяют уравнению 1 ω′ ( λ ) = q + 2ω′0 ( λ ) = 0, 2 или 1 ω′0 ( λ ) = − q, где q > 0. (2.675) 4 Согласно лемме 2.17 при λ ∈ Λ j , j ∈ 2, s + 1 существует величина
max ω′0 ( λ ) < 0. λ∈Λ j
Тогда, если
1 (2.676) max ω′0 ( λ ) ≥ − q, λ∈Λ j 4 уравнение (2.675) имеет два решения на Λ j при строгом неравенстве и одно решение на Λ j , когда (2.676) становится равенством. Если (2.676) не выполняется, то (2.675)
Глава 2. Синтез робастных САУ в пространстве состояний
245
на Λ j неразрешимо. Это означает, что ω ( λ ) имеет на рассматриваемых интервалах не более двух экстремумов. При λ ∈ Λ1 ω′0 ( λ ) монотонно убывает от 0 до −∞, а при λ ∈ Λ s + 2 ω′0 ( λ ) монотонно возрастает от −∞ до 0. Следовательно, на Λ1 и Λ s+ 2 обязательно найдется только по одному значению λ, удовлетворяющему (2.675) и потому соответствующему локальному экстремуму ω ( λ ) на каждом из интервалов. Тем самым лемма доказана. Обозначим через λ −j , λ +j , j ∈ 1, s + 2 вещественные решения уравнения (2.675) на интервале Λ j , т.е. λ −j , λ +j ∈ Λ j . При этом на Λ1 и Λ s+ 2 λ1− = λ1+ , λ −s+2 = λ +s+2 . Считаем, что λ −j , λ +j расположены так, что λ −j ≤ λ +j . Тогда справедлива следующая лемма. Лемма 2.19. На каждом из интервалов Λ j , j ∈ 2, ξ + 1 при разрешимости (2.675)
относительно λ −j , λ +j ∈ Λ j должно выполняться неравенство
( ) ( )
ω λ −j ≤ ω λ +j ,
(2.677)
а на Λ1 , Λ ξ+ 2 функция ω ( λ ) имеет соответственно локальный максимум и локальный минимум. До каз ат е льство . С учетом (2.673) на интервале Λ1 , если λ → −∞ + 0 или λ → μ1 − 0, то ω ( λ ) → −∞, а на интервале Λ ξ+2 , если λ → μ ξ+ 2 + 0 или λ → −∞1 − 0,
то ω ( λ ) → +∞. Тогда с учетом леммы 2.18 у ω ( λ ) на Λ1 — локальный максимум, на Λ ξ+ 2 — локальный минимум. Если на интервале Λ j , j ∈ 2, ξ + 1 уравнение (2.675) разрешимо, то согласно (2.676) существует такой отрезок ⎡⎣ λ −j , λ +j ⎤⎦ ⊂ Λ j , на котором 1 ω′0 ( λ ) ≥ − q, 4 причем на концах отрезка выполняется точное равенство. Отсюда ⎛1 ⎞ ω′ ( λ ) = ⎜ q + ω′0 ( λ ) ⎟ ⋅ 2 ≥ 0 ∀λ ∈ ⎡⎣λ −j , λ +j ⎤⎦ . 4 ⎝ ⎠ Следовательно, во всех точках отрезка, за исключением крайних, функция ω ( λ ) монотонно возрастает, и поэтому справедливо неравенство (2.677). Таким образом, при λ = λ −j ω ( λ ) имеет локальный минимум, а при λ = λ +j — локальный максимум. Если λ −j = λ +j , то у ω ( λ ) будет точка перегиба. Лемма 2.20. Если на двух произвольных интервалах Λ ν , Λ k , ν, k ∈ 1, ξ + 2 уравнение (2.675) разрешимо, то справедливо неравенство (2.678) ω λ ν+ ≤ ω λ −k при ν ≤ k .
( ) ( )
До каз ат е льство . Поскольку на Λ1 ω ( λ ) имеет локальный максимум, а на Λ ξ+ 2 — локальный минимум, то рассматриваемые интервалы Λ ν , Λ k всегда найдутся. В точках Λ v+ , Λ +k согласно (2.675) выполняются соотношения 1 1 ω′0 λ ν+ = − q, ω′0 λ +k = − q, 4 4
( )
( )
246
Методы современной теории автоматического управления
или с учетом (2.674) βj
ξ+1
∑
(
j =1 λ + ν
−μj
)
=
2
βj
ξ+1
1 q, 4
∑
(
j =1 λ − ν
−μj
)
2
1 = q. 4
(2.679)
Определим величину ξ+1 ξ+1 βj βj 1 1 ω λ −k − ω λ ν+ = λ −k q + 2∑ − − λ ν+ q − 2∑ + = 2 2 j =1 λ k − μ j j =1 λ ν − μ j
( ) ( )
=
ξ+1 1 − λ ν+ − λ −k λ k − λ ν+ q − 2∑ β j − = 2 λ k − μ j λ ν+ − μ j j =1
(
)
(
)(
(2.680)
)
⎡ ⎤ ξ+1 βj 1 ⎥. = 2 λ −k − λ ν+ ⎢ q − ∑ − + ⎢4 ⎥ λ − μ λ − μ j =1 k j j ⎦ ν ⎣ 1 Подставим в (2.680) вместо q выражение (2.679). Получим 4 ⎡ ξ+1 ⎤ ξ+1 βj βj ⎥= − + − + ⎢ ω λk − ω λν = 2 λ k − λν ⎢∑ −∑ − 2 ⎥ + + j =1 λ k − μ j λ ν − μ j ⎢⎣ j =1 λ ν − μ j ⎥⎦
(
( ) ( ) ( (
ω
)
λ ν+
)
(
)(
λ −k
− λ ν+
j =1
(λ
)
−μj
⎡ ξ+1 βj ⎢ ⎢∑ + ⎢⎣ j =1 λ ν − μ j
(
λ ν+ − λ −k − k
−μj
=2
)
) (λ 2
+ ν
−μj
)
)(
(
)
λ ν+
ξ+1
= 2 λ k− − λ ν+ ⋅ ∑ β j
(
(
− λ −k βj 2 j =1 λ ν+ − μ j λ −k
( ) − ω( ) = 2 ( (
)
ξ+1
= 2 λ k− − λ ν+ ⋅ ∑
λ k−
)
(
)(
2 ξ+1 λ −k − λ ν+ ⋅ j =1
) ∑
2
−∑
j =1
= −2
(
(λ
)
(
− k
−μj
)(
)
⎤ ⎥= ⎥ ⎥⎦ βj
)(
− μ j λ ν+ − μ j
2 ξ+1 λ −k − λ ν+ ⋅ j =1
) ∑
(2.681)
βj
λ ν+
βj
ξ+1
)
)
(λ
− k
2
−μj
λ −k − μ j
) (λ 2
)
;
(2.682) + ν
−μj
)
.
Сложим (2.681) с (2.682):
( ) ( )
(
2 ⎡ ω λ −k − ω λ ν+ ⎤ = 2 λ −k − λ ν+ ⎣ ⎦
βj
3 ξ+1
) ⋅∑
j =1
(λ
− k
−μj
) (λ 2
+ ν
−μj
)
.
(2.683)
Так как при k ≥ ν λ −k ≥ λ ν+ , отсюда следует справедливость неравенства (2.678). Тем самым лемма доказана. Следствие 2.10. Пусть J — максимальное подмножество индексов j ∈1, ξ + 2, для которых уравнение (2.675) разрешимо на интервалах Λ j . Тогда
(
)
( )
− + ω λ ξ+ 2 = max ω λ j . j∈J
До каз ат е льство . Согласно лемме 2.20 из неравенства (2.678) следует, чем боль-
( )
ше индекс j ∈1, ξ + 2, тем больше величина ω λ −j , так как при λ ν− , λ ν+ ∈ Λν всегда
( ) ( )
( ) ( )
ω λ ν− ≤ ω λ ν+ , а при j ≥ ν ω λ −j ≥ ω λ ν+ .
Поскольку max j = ξ + 2 и на Λ ξ+ 2 существует локальный минимум, то получим справедливость (2.683). Воспользуемся полученными результатами для анализа раз-
Глава 2. Синтез робастных САУ в пространстве состояний
247
решимости задачи максимизации (2.664). Решение задачи (2.664) должно удовлетворять системе уравнений (2.667). Если при этом допустить, что λ ≠ 0 и λ ≠ λi , i ∈1, ξ, то коэффициенты αi , i ∈1, n − k в разложении z€ (2.666) вычисляются по формуле (2.668), а выражение задачи (2.664) приводиться к эквивалентному виду (2.670). Используя функцию ω ( λ ) вида (2.671), нетрудно проверить справедливость соотношения
ω′ ( λ ) = с учетом которого
ξ α 02i 1 2 − 2 q − 2∑ 2 2 λ i =1 ( λ − λ i )
n −κ
∑ α02i ,
i =ξ+1
max ω ( λ ) ≤ 0 при ω′ ( λ ) = 0. λ
(2.684)
Следовательно, максимальное значение ω ( λ ) при сделанном допущении достигается на корнях уравнения
ω′ ( λ ) = 0,
(2.685)
соответствующих стационарным точкам функции ω ( λ ) (т.е. таким точкам, в которых ω ( λ ) имеет локальные экстремумы или перегибы). Поэтому справедлива следующая лемма. Лемма 2.21. Если λ ≠ 0 и λ ≠ λi , i ∈1, ξ, то решение задачи (2.664) может быть достигнуто только на элементах z€ вида (2.666), для которых коэффициенты αi , i ∈1, n − k вычисляются согласно (2.668) при значениях λ, являющихся корнями уравнения (2.685). Лемма 2.22. Решением задачи (2.684), эквивалентной (2.664) при λ ≠ 0 и λ ≠ λi , − i ∈1, ξ, является значение λ = λ ξ+ 2. До каз ат е льство . Согласно предыдущей лемме решение задачи (2.684) достигается только на стационарных точках функции k ω ( λ ) . Из (2.673) видно, что стацио-
нарные точки k ω ( λ ) и ω ( λ ) совпадают. Тогда из следствия леммы 2.20 и с учетом − (2.673) получим, что решением (2.684) будет λ = λ ξ+ 2 , т.е. лемма доказана. В соответствии с полученным результатом решение задачи (2.664) определяется − для λ = λ ξ+ 2 > μ ξ+1 = max λ i , удовлетворяющем уравнению (2.685). При этом ис-
i∈1,ξ+1
пользовались предположения, что коэффициенты β j > 0 (см. (2.672)), λ ≠ 0 и
λ ≠ λi , i ∈1, ξ. Пусть эти предположения не выполняются, т.е. некоторые из коэффициентов βi , i ∈1, ξ + 1 могут принимать нулевые значения, а λ = 0 либо λ = λi , где 1 ≤ i ≤ ξ. Поскольку λ ξ+1 = λ ξ+ 2 = K = λ ξ+ k = 0, будем для определенности считать, что λ = λ i* , 1 ≤ i* ≤ n − k . Выясним условия разрешимости для данного случая.
Так как величина λ = λi* соответствует решению задачи максимизации, для нее должны выполняться уравнения (2.667), которые можно представить в виде
(
)
αi λi − λ i* + 2α 0i = 0, i ∈1, n − k .
248
Методы современной теории автоматического управления
{
}
Пусть J i* = i ∈1, n − k : λ i = λ i* . Тогда для i ∉ J i* коэффициенты αi определяются по формулам (2.668), а для i ∈ J i* — из уравнений
(
)
αi λi − λi* + 2α 0i = 0 или αi ⋅ 0 + 2α 0i = 0.
(2.686)
Выполнение (2.686) возможно, когда α 0 i = 0 ∀ i ∈ J i* .
(2.687)
Если (2.687) справедливо, уравнению (2.686) удовлетворяет произвольное значение αi ∈ R1. Кроме того, пусть J 0 — подмножество индексов i ∈ 1, n − k , для которых α 0i = 0,
{
}
т.е. J 0 = i ∈1, n − k : α 0i = 0 (а следовательно, равны нулю и коэффициенты βi , соответствующие этим α0i по формуле (2.672)). Тогда (2.687) эквивалентно условию (2.688) J i* ⊆ J 0 . Согласно (2.666), (2.668) получим ξ ⎧ α 0i 2 n−k € = + λ + z e e 2 ⎪ ∑ λ * − λ i ∑ i i λ * ∑ α 0 i ei ; i i =1 i i∈J * ⎪ i i =ξ+1 i i∉J 0 i∉J 0 ⎪ ⎨ ξ n−k ⎪z€ = ⎪ 0 ∑ α 0 i e i + ∑ α 0 i ei . i =1 i =ξ+1 ⎪ i∉J 0 i∉J 0 ⎩ С учетом данных соотношений ξ α 02i 1 1 2 n−k 2 ω λi* = λi* q + ( z€, z€0 ) − q& = λ i* q + 2 ∑ + ∑ α0i − q&, 2 2 λi* i =ξ+1 i =1 λ i* − λ i
( )
i∉J 0
(2.689)
i∉J 0
а ограничение примет вид ξ
q − ( z€, z€) = q − 4 ∑
i =1 i∉J 0
( λi
α 02i *
− λi
)
2
−
n−k
4
∑ αi2 − λ ∑ α02i = 0,
i∈J *
i* i =ξ+1 i∉J 0
i
или ξ
q − 4∑
i =1 i∉J 0
( λi
α 02i *
− λi
)
2
−
4 n−k 2 ∑ α0i = ∑ αi2 . λi* i =ξ+1 i∈J *
(2.690)
i
i∉J 0
Однако выражение (2.689) можно непосредственно получить из (2.671), если с учетом определения J 0 подставить в (2.671) α 0i = 0. Действительно, в этом случае ξ 1 α2 2 n −k ω ( λ ) = λq + 2 ∑ 0i + ∑ α 02i − q& , 2 λ i =ξ+1 i =1 λ − λ i i∉J 0
i∉J 0
что совпадает с (2.689) при λ = λ i* . Поскольку ξ 1 α 02i 2 n −k 2 ω′ ( λ ) = q + 2 ∑ − ∑ α 0i , 2 2 λ 2 i =ξ+1 i =1 ( λ − λ i ) i∉J 0
то с учетом (2.690)
i∉J 0
(2.691)
Глава 2. Синтез робастных САУ в пространстве состояний
( )
ω′ λi* =
249
1 ∑ α02i . 2 i∉J *
(2.692)
i
При этом считаем, что (2.690) разрешимо относительно αi , i ∈ J , т.е. ξ
q − 4∑
i =1 i∉J 0
( λi
α 02i *
− λi
)
2
−
4
n−k
∑ αi2 − λ ∑ α02i ≥ 0.
i∈J *
(2.693)
i* i =ξ+1 i∉J 0
i
Из (2.692) следует, что если выполняется (2.693), то в точке λ = λi* производная
неотрицательна, а сама функция ω ( λ ) не убывает.
Лемма 2.23. Если для некоторых i* ∈1, n − k выполняются условия (2.688), (2.693), то λ i* удовлетворяет одному из соотношений:
(
⎧λ * ∈ −∞, λ1+ ⎤ ; ⎦ ⎪ i ⎪ − + (2.694) ⎨λ i* ∈ ⎡⎣λ j , λ j ⎤⎦ , 2 ≤ j ≤ ξ + 1; ⎪ − ⎪λ i* ∈ ⎡λ ξ+ ⎣ 2 , +∞ . ⎩ До каз ат ельство . Действительно, согласно (2.673) и леммам 2.18, 2.19 функция ω ( λ ) , так же как и ω ( λ ) , является монотонно неубывающей на интервалах −∞, λ1− ⎤⎦ ; − ⎡ λ −j , λ +j ⎤ при j ∈ 2, ξ + 1; ⎡ λ ξ+ ⎣ ⎦ ⎣ 2 , +∞ . А поскольку в точке λ = λi* согласно (2.692) ω ( λ ) не убывает, то λ i* может принадлежать только одному из перечисленных ин-
)
(
)
тервалов, т.е. сформулированные соотношения справедливы. Лемма 2.24. Если для некоторых i*, j* ∈1, n − k λ i* ≤ λ j * и выполняются условия (2.688), (2.693), то
( )
( )
ω λ i* ≤ ω λ j * .
(2.695)
До каз ат ельство . Из предыдущей леммы следует, что λi* , λ j* могут принадлежать только интервалам вида (2.694). Если они принадлежат одному и тому же интервалу, то (2.695) справедливо в силу монотонного неубывания ω ( λ ) на этом интервале. Если же они принадлежат разным интервалам, то согласно (2.694) обязательно λ i* ≤ λ +j1 , λ j* ≥ λ −j2 , j1 < j2 , где λ +j1 , λ −j2 — верхняя и нижняя границы интервалов, содержащих соответственно λ i* и λ j* . Но тогда в соответствии с леммой 12 и монотонным неубыванием ω ( λ )
на рассматриваемых интервалах получим
( )
( ) ( ) ( )
ω λ i* ≤ ω λ +j1 ≤ ω λ −j2 ≤ ω λ j* ,
т.е. неравенство (2.695) справедливо и в этом случае. Лемма доказана. Из леммы 2.24 следует, что если условия (2.688), (2.693) выполняются для нескольких различных собственных чисел матрицы F, то из них решением задачи максимизации может быть только наибольшее.
250
Методы современной теории автоматического управления
В общем случае максимизируемая функция ω ( λ ) имеет вид (2.691), а ограничение при этом сводится к выражению (2.685) или (2.692), т.е. рассматривается задача ⎤ ⎧ ⎡⎢ 1 s ⎥ α 02i 2 n−k 2 ⎪ max ⎢ 2 λq + 2 ∑ λ − λ + λ ∑ α 0i − q& ⎥ ≤ 0 λ i i =1 i = s +1 ⎥ ⎪ ⎢⎣ i∉J i∉J ⎦ ⎨ ⎪или при ω′ ( λ ) = 0,1 при ω′ ( λ ) = ∑ α i2 , если выполняются (2.687), (2.692). ⎪ 2 i∈J ⎩ 0
0
(2.696)
i*
В зависимости от используемого ограничения максимизирующим элементом будет либо одна из стационарных точек функции ω ( λ ) , либо одно из собственных чисел матрицы F. Основываясь на предыдущих результатах, можно сформулировать теорему, которая позволяет определить, каким именно должен быть максимизирующий элемент. Теорема 2.17. Пусть
{
( ) }
J 0* = i ∈1, n − k : Ji ≤ J 0 , ω′ λi ≥ 0 . Тогда при выполнении условий: ⎧1) J 0* ≠ ∅; ⎪ ⎨2) max λ > max λ i i ⎪⎩ i∈J 0* i∈1,n− k \J 0 решением задачи (2.696) будет λi* = max* λi .
(2.697)
i∈ℑ0
Если хотя бы одно из условий (2.697) не выполняется, решение (2.696) достигается на λ j* +1 , где j* = max j. i∈1,n − k \J 0
До каз ат ельство . Предположим, что условия (2.697) выполняются. Тогда из 1) и определения J 0* следует справедливость (2.688) и (2.693). Поэтому в силу леммы 2.24 получим ω ( λ i ) ≤ ω λ i* ∀ i ∈ J 0* ,
( )
λ i ≤ λ i* ∀ i ∈ J 0* . Следовательно, если максимум ω ( λ ) достигается на собственных
числах матрицы F, то таким числом может быть только λi* . С другой стороны, в силу условия 2) λ i* > max λ i , i∈1,n − k \ J 0
где 1, n − k \ J 0 — упорядоченное подмножество с максимальным элементом j*. Пусть max λ i = λ v* . Тогда в соответствии с перенумерацией собственных знаi∈1,n − k \ J 0
чений, используемой при выводе выражения (2.672), λ следует обозначить как μ j* (при перенумерации сохранены прежние значения индекса i, присвоение которых собственным значениям осуществляется в порядке возрастания последних, согласованного с упорядочиванием самого подмножества индексов), а через λ j* +1 — значение
(
)
λ, соответствующее локальному минимуму функции ω ( λ ) на интервале μ j* ; +∞ ,
который у ω ( λ ) будет единственным локальным экстремумом на этом интервале.
Глава 2. Синтез робастных САУ в пространстве состояний
251
Поскольку λ i* > λ υ* = μ j* , то согласно лемме 2.23 значение λ i* может принадле-
)
жать только интервалу ⎡ λ j* +1; + ∞ , на котором ω ( λ ) монотонно возрастает, т.е. ⎣
(
( )
)
λ i* ≥ λ j* +1 , и потому ω λ i* ≥ ω λ j* +1 . Но из лемм 2.21, 2.22 следует, что если мак-
симум ω ( λ ) достигается на стационарных точках, то такой точкой может быть толь-
( )
(
)
ко λ j* +1. А так как ω λ i* ≥ ω λ j* +1 , то получим справедливость первого утверждения теоремы. Допустим, что хотя бы одно из условий (2.697) не выполняется. Если первое, то условия (2.688), (2.693) не имеют места и на собственных числах максимум ω ( λ )
)
достигнуть быть не может. Если второе, то λi* ∉ ⎡ λ j* +1; + ∞ , потому согласно лем⎣ ме 2.22 λ j* +1 — решение задачи максимизации (2.696). Тем самым теорема доказана. Таким образом, согласно теореме 2.17 максимальным значением ω ( λ ) при за-
(
)
( )
данном ограничении будет либо ω λ j* +1 , либо ω λ i* . При этом с учетом определения λ j* +1 , λ i* > λ i для всех i ∈1, n − k \ J 0 . Обозначим через λ M максимизирующий элемент, т.е. λ M = λ j* +1 , или λ M = λi* . Тогда n−k 1 α 02i ω ( λ M ) = λq + 2 ∑ − q& , 2 i =1 λ M − λ i i∉J 0
где λ i = 0, i ∈ s + 1, n − k \ J 0 . Поскольку λ M > λi для всех i ∈1, n − k \ J 0 , то n−k
2∑
i =1 i∉J 0
α 02i > 0. λ M − λi
Для практически важных ограничений обычно q ( t ) — монотонно невозрастающая функция, т.е. q& ≤ 0 при t ≥ t0 . Тогда если λ M ≥ 0, то ω ( λ M ) ≥ 0 и задача (2.696) неразрешима. Очевидно, всегда λ M ≥ 0, если только λ v* = max λ i ≥ 0. Отсюда следует спраi∈1,n − k \ J 0
ведливость леммы. Лемма 2.25. При q& ≤ 0 для разрешимости задачи (2.696) необходимо, чтобы выполнялись условия: ⎧⎪1) λ v* < 0; (2.698) ⎨ * ⎪⎩2) i ∉ J 0 при λi ≥ 0. До каз ат ельство . Пусть хотя бы одно из условий (2.698) нарушено. Если первое, то λ M > λ v* ≥ 0, а значит, задача (2.696) неразрешима. Если второе, то найдется такое λ τ ≥ 0, для которого τ∈ J 0* . Тогда max* λi ≥ λ τ ≥ 0. Если при этом λ v* < 0, то согласно i∈J 0
252
Методы современной теории автоматического управления
теореме 2.17 λ M = max* λi ≥ 0, а при λ v* < 0 также λ M ≥ 0, т.е. и в этом случае i∈J 0
(2.696) не имеет решения. Отсюда следует необходимость условий (2.698). В частном случае, когда J 0* ≠ ∅ (данный случай наиболее часто встречается на практике), из леммы 2.25 следует, что для разрешимости (2.696) необходимо, чтобы λ i < 0 для всех i ∈1, n − k . Но это означает, что матрица F должна быть отрицательно-определенной. Таким образом, справедливо следующее следствие. Следствие 2.11. Если J 0* ≠ ∅, то для разрешимости (2.696) необходимо, чтобы при q& ≤ 0 выполнялось неравенство
(
)
ΡT S + ST − 2R Ρ < 0 (см. (2.664)).
(2.699)
До каз ат ельство . Действительно, так как F = G −1 2 F1 + F1T G −1 2 ,
(
)
(
где F1 = ΡT ( S − R ) Ρ, det G1 2 ≠ 0, G −1 2 = G −1 2
)
T
и F < 0, то отсюда получим, что
F1 + F1T < 0. Тогда с учетом выражения для F1 находим требуемое неравенство (2.699). Если для заданных матриц объекта A, B, C, D и матриц ограничений L, M условия разрешимости задачи максимизации выполняются, то синтезируемое управление может быть определено в соответствии с полученными ранее соотношениями. Если условия разрешимости не выполняются, то может быть поставлена задача обеспечения их выполнения за счет варьирования в некоторых допустимых пределах матриц ограничений L и M. Для анализа влияния варьирования L и M на разрешимость воспользуемся соотношениями, используемыми при преобразовании задачи максимизации (2.618) к выражению (2.664). Так как
(
)
( ) &€ € + MA € ) − 4MBL € € − 2R ΡG H ( 2M + 2(A M B M )
F = G −1 2 (F1 + F1T G −1 2 = G −1 2 Ρ Τ S + S T − 2R ΡGG −1 2 = = G −1 2 Ρ T
−1
T
T
−1 2
,
(2.700)
то для тех Z = G1 2 Z, для которых −1 2 1 2 € € BT MΡG G Z = BT MΡZ ≠ 0,
(2.701) за счет выбора L = α 0L0 , где L 0 > 0, α 0 > 0 — достаточно малая величина, всегда можно обеспечить неравенство 0, Z€, FZ€ (2.702)
(
)
а следовательно, разрешимость (2.664). € ∈ Ker BT . Согласно определению ΡZ ∈ H M€ Если (2.701) не выполняется, то MΡZ € инвариантна на подпространстве H € для всех Z ∈ R n−k и тому, что матрица M M
€ (см. лемму 2.15), получим MΡZ ∈ H M€ , Z ∈ R n−k. Но тогда рассматриваемое включение возможно только в том случае, когда H 0 = H M€ I Ker B T ≠ {0} , (2.703)
т.е. H 0 — нетривиальное подпространство. Предположим, что условие (2.703) выполняется. В этом случае в R n−k можно выделить такое подпространство R0 , что
Глава 2. Синтез робастных САУ в пространстве состояний € R = H . Пусть dim R = r и MΡ 0 0 0 0
{p }
i r0 0 i=1
253
— базис R0 . Образуем ((n − k ) × r0)-
матрицу P0 = ⎡⎣p10 , p 02 ,K , p 0r0 ⎤⎦ . r Тогда Z = P0 Z0 ∈ R0 для всех Z0 ∈ R 0 и задача максимизации с учетом (2.700) и
обозначением P = ΡP0 принимает вид
(
( )
)
)
(
)
⎧ ⎡ Z 0, P T ⎡ M €& + A T M € + MA € − R ⎤ PZ 0 + 2 Z 0, P T M € q − q& ⎤ ≤ 0 ⎪max ⎥⎦ ⎢⎣ ⎥⎦ Z0 ⎢ ⎣ (2.704) ⎨ ⎪при Z 0, P T MPZ € 0 = q. ⎩ Лемма 2.26. Для обеспечения разрешимости задачи (2.664) необходимо и достаточно, чтобы существовала такая матрица M > 0, для которой разрешима задача максимизации (2.704). Таким образом, варьируя M в некоторых допустимых пределах, необходимо добиться выполнения (2.704), затем, выбрав L, обеспечивающую (2.702), тем самым гарантируем разрешимость задачи (2.664). Лемма 2.27. Матрица € > 0. PT MP До каз ат ельство . Действительно, с учетом определения P € = P T P T MP € P = P T GP , P T MP
(
0
(
)
0
0
0
где G > 0 согласно лемме 2.15. А так как все столбцы у P0 линейно независимы, то
P0 Z0 ≠ 0 для всех Z 0 ≠ 0. Тогда
(Z , P 0
T
) (
) (( P Z ) , G ( P Z )) > 0
€ 0 = Z 0 , P T GP Z 0 = MPZ 0 0
0
0
0
0
для всех Z0 ∈ R r0 , если Z 0 ≠ 0. Отсюда следует справедливость леммы. € > 0, то det G ≠ 0 и потому решение задачи (2.704) во всем Поскольку G = PT MP аналогично решению задачи (2.618). Тогда если ввести обозначения € , F = G −1 2 P T ⎡ M €& + A T M € + MA € − R ⎤ PG −1 2 , ω = G1 2 Z0 , ω0 = G −1 2 P T Mη ⎢⎣ ⎥⎦ то аналогично тому, как (2.618) было преобразовано к (2.664), задачу (2.704) приведем к виду (2.705) max ⎡⎣( ω, Fω ) + 2 ( ω, ω 0 ) − q& ⎤⎦ ≤ 0 при ( ω, ω ) = q.
(
)
ω
Для анализа разрешимости (2.705) можно применить теорему 2.17 и лемму 2.25. При этом в частном случае согласно следствию к лемме 2.25 необходимым условием разрешимости является выполнение неравенства €& + A T M € + MA € − R ⎤ P < 0. P T ⎡M (2.706) ⎣⎢ ⎦⎥
(
)
В том случае, когда (2.703) не выполняется, то при H 0 = {0} выбор той или иной & > 0 не влияет на разрешимость задачи максимизации (2.618). Действиматрицы M тельно, так как dim H 0 = 0, то R0 = {0} и для всех Z ∈ R n−k и Z ≠ 0 выполняется неравенство (2.701). Но тогда задача (2.704) будет отсутствовать, и для обеспечения разрешимости (2.618) необходимо лишь добиться выполнения неравенства (2.702) за
254
Методы современной теории автоматического управления
счет соответствующего выбора матрицы L > 0. Такой выбор всегда возможен, если, например, L = α 0L 0 , L 0 > 0 и α 0 → 0 + 0. Отсюда следует справедливость леммы. Лемма 2.28. Для обеспечения разрешимости задачи максимизации (2.630) достаточно, чтобы не выполнялось условие (2.703), т.е. чтобы выполнялось условие H M€ ∩ Ker B T = {0} . (2.707) Заметим, что если в объекте управления допускается изменять матрицу C (например, когда вместо одних измеряемых координат вектора состояния x возможно использовать другие), то тем самым можно влиять на изменение подпространства HM€ ⊂ Rn (на его размерность dim H M€ и базис). При этом при изменении C следует стремиться к тому, чтобы обеспечить условие (2.705). Тогда в соответствии с леммой 2.28 гарантируется разрешимость (2.618), а значит, и синтез требуемого закона управления. 2.7.
ПОСТРОЕНИЕ НЕЛИНЕЙНЫХ РОБАСТНЫХ СИСТЕМ ПРИ СТРУКТУРНО-ПАРАМЕТРИЧЕСКИХ НЕОПРЕДЕЛЕННОСТЯХ
Пусть уравнения движения некоторого объекта имеют вид α ⎪⎧x& = f ( x, u, w, t ) , xв = Cx, (2.708) ⎨ ⎪⎩x ( t0 ) = x0 , t ≥ t0 , где x, u, w , xв — соответственно ( n × 1)-, ( m × 1)-, ( r × 1)-, (l × 1)-векторы состояния, управления, возмущения, выхода; f α ( ⋅) — ( n × 1)-вектор-функция, определяющая единственность решения задачи Коши, индекс (параметр) α характеризует степень точности задания функции f α ( ⋅) по параметрам и структуре. Различным значениям α соответствуют различные значения тех или иных параметров, входящих в состав f α ( ⋅) . При этом при изменении α в функции f α ( ⋅) могут происходить структурные изменения. Характер структурных и параметрических изменений, как правило, является неопределенным и зависит от окружающей среды. Поэтому точное значение параметра α в общем случае указать нельзя, но можно считать, что α ∈ А ( t ) , t ≥ t0 , (2.709) где А ( t ) — некоторое допустимое множество значений α, определенное для каждого t ≥ t0 . О возмущении w известно, что оно является элементом некоторого заданного в R r множества W , т.е. (2.710) W = w ( t ) ∈ w ( t ) , t ≥ t0 , где предполагается, что w ( t ) определено в каждый момент времени t ≥ t0 . В частности, под w ( t ) понимается множество возмущений вида
{
}
w ( t ) = w ∈ R r : wμ− ( t ) wμ Σwμ+ ( t ) , μ ∈1, r , где wμ− ( t ) , wμ+ ( t ) , μ ∈1, r — некоторые заданные функции времени. На вектор состояния системы наложено ограничение x = x ( t ) ∈ Q ( t ) , t ≥ t0 ,
(2.711)
(2.712)
где Q ( t ) — заданное в R n замкнутое ограничение (для определенности, выпуклое) множества.
Глава 2. Синтез робастных САУ в пространстве состояний
255
Решаемая задача в общем случае формулируется в следующей постановке: требуется определить такой закон управления u = u% ( x в , t ) , который обеспечивал бы требуемые фазовые ограничения (2.712) для системы (2.708), подверженной действию возмущений w ( t ) вида (2.710) (в частности, (2.711)), и при структурно параметрической неопределенности ее правой части вида (2.709). Далее будем предполагать, что функция f α ( ⋅) известна с точностью, определяемой соотношением (2.709), где А ( t ) — известное для каждого t ≥ t0 множество. В функции f α ( ⋅) выделим линейные части по состоянию и управлению, т.е. представим f α ( ⋅) в виде следующего разложения: f α ( ⋅ ) = A α x + B α u + F α ( x, u , w , t ) x, α
где A = A
α
(t ) ,
α
B =B
α
(t )
(2.713)
— некоторые ( h × n )-, ( h × m )-матрицы; F
α
( ⋅)
— ( h × n )-
матричная функция. В общем случае представление f α ( ⋅) в виде (2.713) не единственно. В рассмотрение принимаются только те разложения, для которых каждая компонента матричной функции F α ( ⋅) на границе ΓQ ( t ) множества Q ( t ) при всех t ≥ t0 принимает ограниченные по модулю экстремальные (минимальные и максимальные) значения при допустимых значениях векторов u, w. Допустимые значения w определяются согласно соотношениям (2.710), (2.711), а под допустимыми значениями вектора управления u понимаются произвольные ограниченные по величине значения u ∈ R m, если какие-либо другие ограничения на вектор управления отсутствуют. Практически достаточно произвольную функцию f α ( ⋅) можно с учетом указанных требований представить в виде (2.713). Однако способы такого представления и предпочтительность того или иного разложения не рассматриваются. Пусть управление u ищется в виде u = k α0 x в + k α1 ( x в ) x в ,
(2.714)
где k α 0 = k α 0 ( t ) — ( m × l )-матрица, k α1 = k α1 ( xв , t ) — ( m × l )-матрица, элементы коα1 α1 = kμν торой kμν ( xв , t ) , т.е. являются некоторыми функциями вектора выхода, кото-
рые могут быть как произвольными функциями (на вид матрицы-функции k α1 ( x в , t ) ограничения не накладываются), так и функциями вполне определенной структуры (на вид k α1 наложены ограничения). Например, полиномиальными, релейными и т.п. функциями. В частности, можно считать, что k α1 ( ⋅) = O ml — нулевая ( m × l )-матрица. Тогда управление u согласно (2.714) ищется в классе линейных законов. Воспользуемся соотношениями (2.713), (2.714), с учетом которых управление (2.708) преобразуется к виду x& = A α x + B α ⎡⎣k α 0 Cx + k α1 ( Cx ) Cx ⎤⎦ + F α x, k α 0Cx + k α1 ( Cx ) Cx, w , t x =
(
)
= ⎡⎢ A α + B α k α 0C + Bα k α1 ( Cx ) C + F€α ⎣ € α x, % α + F% α x, k α 0 , k α1 , w, t ⎤ x = A = ⎡A ⎣ ⎦
(
)
( ( x, k
)
α0
)
, k α1 , w , t ⎤ x = ⎦
(2.715)
256
Методы современной теории автоматического управления
где % α = A α + B α k α 0C; ⎧⎪ A ⎨%α α α1 α ⎪⎩F = B k C + F€ ( ⋅) ,
(2.716)
€ α , F€α ( ⋅) следует непосредственно из (2.715), причем A € α ( ⋅) является а вид матриц A
матрицей-функцией. С учетом (2.714), (2.715) поставленную задачу можно сформулировать следующим образом. Требуется синтезировать такие матрицы k α 0 = k α 0 ( t ) , k α1 = k α1 ( xв , t ) , для которых решения уравнения (2.715) удовлетворяло бы фазовым ограничениям (2.712) на множестве возмущений (2.710) или (2.711) и структурно-параметрической неопреде€ α в силу (2.709). ленности матрицы A Пусть множество Q ( t ) , определяющее ограничения на вектор состояния x системы (2.715), формируется аналогично тому, как это показано выше, т.е. если ψ i ( x, t ) , i ∈1, n — непрерывно-дифференцируемые по всем своим переменным скалярные функции ограничения, то
{
}
Q ( t ) = x ∈ R n : ψ i ( x, t ) ≤ 0, i ∈1, n .
(2.717)
Введем ограничения вида ψ i ± ( x, t ) = ± xi − qi ( t ) ≤ 0,
соответствующие следующим фазовым ограничениям (2.712): xi ≤ qi ( t ) , i ∈1, n,
(2.718)
где qi ( t ) , i ∈1, n — непрерывно-дифференцируемые для всех t положительные скалярные функции. Для того чтобы решение системы (2.715) удовлетворяло ограничениям (2.712) вида (2.717), достаточно, чтобы для каждого t ≥ t0 выполнялись неравенства € α x + ∂ψ i ≤ 0, x ∈ ΓQ ( t ) ∩ ΓQ ( t ) , i ∈ 1, n, ∇x ψi , A (2.719) i ∂t где ΓQ ( t ) — граница множества Q ( t ) , состоящая из участков
(
)
{
}
ΓQi ( t ) = x ∈ R n : ψi ( x, t ) = 0 , i ∈1, n.
(2.720)
Неравенства (2.719) с учетом фазовых ограничений (2.718) аналогично (2.708) приводятся к выражениям n
∑ a€αjν xν ≤ q& j − a€αjj q j ,
ν=1 ν≠ j
и
j ∈ 1, n, x j = q j , xν ≤ qν , ν ∈ 1, n \ j , t ≥ t0
n
− ∑ a€αjν xν ≤ q& j − a€αjj q j , j ∈ 1, n, x j = − q j , xν ≤ qν , ν ∈ 1, n \ j , t ≥ t0 , ν=1 ν≠ j
(
)
(2.721)
(2.722)
€ α ( ⋅) . Причем где a€αjν = a€αjν x, k α 0 , k α1 , w, t , j , ν ∈ 1, n — элементы матрицы A
(
)
a€αjν = a% αjν + f% jαν x, k α 0 , k α1 , w, t ,
(
(2.723)
)
(
)
% α k α 0 , t , F% α x, k α 0 , k α1 , w, t . где a% αjν , f% jαν ( ⋅) — элементы соответственно матриц A
Глава 2. Синтез робастных САУ в пространстве состояний
(
257
)
% k α 0 , t , и аналогично (2.708) можно поЕсли, например, F% α ( ⋅) ≡ O nn , то A α ≡ A
казать, что неравенства (2.721), (2.722) эквивалентны следующим неравенствам: n
∑ a% αjν qν ≤ q& j − a% αjj q j , ν=1 ν≠i
j ∈ 1, n, t ≥ t0 ,
(2.724)
которые решаются непосредственно относительно матрицы k α 0 ( t ) . Структурнопараметрическая неопределенность для рассматриваемой линейной системы соответствует отсутствию точной информации об элементах матриц A α , Bα. Причем под структурной неопределенностью линейной системы понимается возможность изменения хотя бы одного из элементов a αjν , bαjμ матриц A α , Bα на интервале, содержащем нулевое значение. Пусть F% α ( ⋅) ≠ O nn , тогда неравенства (2.721), (2.722) приводятся к виду
(
)
⎧a€αjν = a% αjν + f% jαν x, k α 0 , k α1 , w, t , ⎪ ⎪ n ⎪ ∑ a% αjν + f% jαν xν ≤ q& j − a% αjj + f% jjα q j , x j = q j , ⎪ ν=1 ⎪ν≠ j ⎨ ⎪ n α α %α %α ⎪− ∑ a% jν + f jν xν ≤ q& j − a% jj + f jj q j , x j = − q j , ν=1 ⎪ ν≠ j ⎪ ⎪ j ∈ 1, n, xν ≤ qν , ν ∈ 1, n \ j , t ≥ t0 . ⎩ Из (2.725) следует ⎧ n α α %α %α ⎪ ∑ a% jν + f jν xν ≤ q& j − a% jj q j − f j , x j = q j , ⎪ ν=1 ⎪ν≠ j ⎪ n ⎨ α α %α %α ⎪− ∑ a% jν + f jν xν ≤ q& j − a% jj q j + f j , x j = − q j , ν=1 ⎪ ν≠ j ⎪ ⎪⎩ j ∈ 1, n, xν ≤ qν , ν ∈ 1, n \ j , t ≥ t0 ,
(
)
(
(
)
(
)
(
)
(
)
)
(2.725)
(2.726)
где n
f% jα = ∑ f% jαν xν + f% jjα q j , x j = q j , ν=1 v≠ j
f% jα
n
=∑
ν=1 v≠ j
(2.727) f% jαν xν
−
f% jjα q j , x j
= −q j ,
т.е. f% jα , f% jα определены соответственно при x j = qi и x j = − qi . Из выражения (2.726) непосредственно следуют необходимые условия их разрешимости, являющиеся условиями существования закона управления (2.714), обеспечивающего решение поставленной задачи. Эти условия можно получить путем сложения неравенств (2.726) и приведения к виду f% jα − f% jαν ≤ 2 q& j − a% αjj q j , j ∈1, n, xν ≤ qν , ν ∈1, n \ j , t ≥ t0 . (2.728)
(
)
258
Методы современной теории автоматического управления
Соотношения (2.728) могут быть использованы для первоначальной проверки существования требуемого закона управления. Однако для синтеза управления (2.714) предлагается использовать неравенства (2.726), представляющие собой достаточные условия обеспечения фазовых ограничений (2.718). С этой целью поступим следующим образом. Поскольку неравенства (2.726) рассматриваются на всем множестве допустимых векторов x, то на их основе можно получить более жесткие, но и более удобные для синтеза матриц k α 0 , k α1 неравенства. Действительно, поскольку каждое из неравенств (2.726) справедливо в текущий момент времени t ≥ t0 соответственно для каждого
(
)
(
)
x ∈ ΓQ +j ( t ) I ΓQ ( t ) x j = qi , x ∈ ΓQ −j ( t ) I ΓQ ( t ) x j = − qi , j ∈ 1, n,
то (2.726) будут выполняться, если обеспечиваются соотношения n
n
( q& j − a% αjj qi − f%jα ) ≤ ∑ aαjν xν ≤ x∈Γmax ∑ aαjν xν ≤ x∈Γmin Q I ΓQ Q I ΓQ + j
ν=1 ν≠ j
+ j
ν=1 ν≠ j
≤ q& j − a% αjj qi − f% jα , x ∈ ΓQ +j ( t ) I ΓQ ( t ) , ⎛ n α ⎞ −∑ ≤ max q& j − a% αjj qi + f% jα ≤ ⎜ − ∑ a jν xν ⎟ ≤ min − x∈ΓQ −j IΓQ ν=1 ⎜ ν=1 ⎟ x∈ΓQ j IΓQ ν≠ j ⎝ ν≠ j ⎠ − α α ≤ q& j − a% jj qi + f% j , x ∈ ΓQ j ( t ) I ΓQ ( t ) , j ∈1, n, t ≥ t0 . n
(
a αjν xν
)
(2.729)
Неравенства (2.729) преобразуются к более простому виду. Действительно, нетрудно показать, что n
n
ν=1 ν≠ j
ν=1 ν≠ j
a% αjν qν ≤ ∑ a% αjν qν , ∑ + x∈ΓQ IΓQ max j
j ∈1, n, t ≥ t0 ;
⎛ n α ⎞ n α max ⎜ − ∑ a% jν qν ⎟ ≤ ∑ a% jν qν , j ∈1, n, t ≥ t0 . − x∈ΓQ j IΓQ ⎜ ν=1 ⎟ ν=1 ⎝ ν≠ j ⎠ ν≠ j
(2.730)
А для правых частей (2.729), поскольку a% αjν , j ∈1, n — только функции времени, справедливо min
x∈ΓQ +j IΓQ
( q&
j
)
− a% αjj q j − f% jα = q& j − a% αjj q j +
= q& j − a% αjj qi − min
x∈ΓQ −j IΓQ
(
q& j − a% αjj q j
max
x∈ΓQ +j IΓQ
min
x∈ΓQ +j IΓQ
( f% ) = α j
f% jα = q& j − a% αjj q j − f% jα+ ,
)
+ f% jα = q& j − a% αjj q j +
min
x∈ΓQ −j IΓQ
( )
(2.731)
f% jα =
= q& j − a% αjj q j + f% jα− , j ∈1, n, t ≥ t0 .
С учетом (2.730), (2.731) соотношения (2.729) приводятся к виду n
∑ a% αjν qν = q& j − a% αjj q j − f%jα+ ,
ν=1 ν≠ j n
∑
ν=1 ν≠ j
j ∈1, n, t ≥ t0 ; (2.732)
a% αjν
qν =
q& j − a% αjj q j
+ f% jα− , j ∈1, n, t ≥ t0 .
Глава 2. Синтез робастных САУ в пространстве состояний
259
Поскольку неравенства (2.732) рассматриваются на всем множестве возмущений (2.710), то, чтобы они были справедливы при любом возмущении w, достаточно обеспечить следующие условия: n
( q& j − a% αjj q j − f%jα+ ) = q& j − a% αjj q j + wmin ( − f%jα+ ) = ∑ a% αjν qν ≤ wmin ∈W ( t ) ∈W ( t )
ν=1 ν≠ j
= q& j − a% αjj q j − max f% jα+ = q& j − a% αjj q j − f% jα+ , w∈W ( t )
(2.733)
n
f% jα− = ( q& j − a% αjj q j + f%jα− ) = q& j − a% αjj q j + wmin ∑ a% αjν qν ≤ wmin ∈W ( t ) ∈W ( t )
ν=1 ν≠ j
= q& j − a% αjj q j + f% jα− , j ∈ 1, n, t ≥ t0 .
Неравенства (2.733) представляют собой достаточные условия обеспечения фазовых ограничений (2.718) и могут быть непосредственно использованы для синтеза матриц k α 0 , k α1 , поскольку в силу (2.731), (2.733) f% jα+ = max
max
w∈W ( t ) x∈ΓQ +j ( t ) I ΓQ ( t )
f% jα− = min
min −
w∈W ( t ) x∈ΓQ j ( t )I ΓQ ( t )
(
)
(
)
f% jα x, k α 0 , k α1 , w , t = f% jα+ k α 0 , k α1 , t ,
(
)
(
)
f% jα x, k α 0 , k α1 , w, t = f% jα− k α 0 , k α1 , t ,
(
(2.734)
)
и, кроме того, согласно (2.716) a αjν = a αjν k α 0 , t , j , ν ∈ 1, n, т.е. для каждого момента α0 α1 % α− α времени t ≥ t0 величины f% jα+ ν , f jν , a jν , j , ν ∈ 1, n зависят только от матриц k , k .
При синтезе матриц k α 0 , k α1 неравенства (2.733) можно рассматривать при произвольном значении α ∈ A ( t ) , t ≥ t0 согласно (2.709), а затем, выбрав для этого α матрицы k α 0 , k α1 , использовать их с некоторой степенью точности на всем множестве A ( t ) . Но можно непосредственно синтезировать k α 0 , k α1, гарантирующие ограничения (2.718) с учетом структурно-параметрической и внешней неопределенности, на основе соотношений, эквивалентных (2.709), (2.733), вида ⎛ n α α % α+ ⎞ max ⎜ ∑ a% jν qν + a% jj q j + f jν ⎟ ≤ q& j , ⎟ α∈A( t ) ⎜ ν=1 ⎝ ν≠ j ⎠ n ⎛ ⎞ &j, (2.735) max ⎜ ∑ a% αjν qν + a% αjj q j − f% jα− ν ⎟≤q α∈A( t ) ⎜ ν=1 ⎟ ⎝ ν≠ j ⎠ j ∈1, n, t ≥ t0 .
Необходимо отметить, что каждое из двух неравенств, соответствующих j ∈ 1, n и входящих в выражения (2.733) или (2.735), можно решать относительно k α 0 , k α1 независимо от другого. Однако полученные в результате такого решения значения матриц k α 0 , k α1 обязательно должны удовлетворять и другому неравенству, поскольку в выражениях (2.733), (2.735) от матрицы k α1 зависят только величины f jα+ , f jα− , j ∈1, n, а затем выбирается k α1 из условия полного обеспечения рассматриваемых неравенств.
260
Методы современной теории автоматического управления
В том случае, когда в разложении (2.713) F α ( ⋅) ≡ O nn , а управление u ищется в виде (2.714), величины f jα+ ≠ 0, f jα− ≠ 0, j ∈1, n, т.е. также сохраняется пораздельный синтез k α 0 , k α1. Однако, так как f jα+ , f jα− , j ∈1, n зависят от k α1 и не зависят от k α 0, синтез данных матриц может осуществляться не только независимо друг от друга, но и одновременно. В том случае, когда система (2.708) является линейной, структурно-параметрическая неопределенность, как отмечалось выше, соответствует неконтролируемым изменениям параметров системы на некоторых интервалах. Тогда операция max ( ⋅) согласно (2.735) соответствует непосредственно операции взятия максимума от выражения (2.735) по неконтролируемо изменяемым параметрам. Для нелинейных систем указанный случай структурно-параметрической неопределенности также имеет место. Однако можно указать более общий случай структурной неопределенности, не сводимой к тому или иному изменению параметров системы. Пусть правая часть системы (2.708) имеет вид (2.736) f α ( x, u, w, t ) = f0β ( x, u, w, t ) + ϕ ( x, t ) или (2.737) f α ( x, u, w, t ) = f0β ( x, u, w, t ) (1 + v ( x, t ) ) ,
где f0β ( ⋅) — заданная ( n × 1)-вектор-функция с параметрической неопределенностью,
характеризуемой значениями параметра β на некотором допустимом множестве β ( t ) ;
ϕ ( t ) — неизвестная ( n × 1)-вектор-функция, соответствующая аддитивной структур-
ной неопределенности; v ( x, t ) — неизвестная скалярная функция, соответствующая мультипликативной структурной неопределенности. Функции ϕ ( x, t ) , v ( x, t ) удовлетворяют тем или иным ограничениям, которые в достаточно общем случае можно представить в виде (2.738) ϕ ( x, t ) ∈ Φ , v ( x, t ) ∈ V , где Φ, V — некоторые заданные множества. В частности, можно считать, что Φ или V — это множество функций, ограниченных по величине. Например, Φ, V можно задать аналогично тому, как задано множество W ( t ) (см. (2.711)). Тогда аддитивная ϕ ( x,t ) и мультипликативная v ( x, t ) структурные неопределенности могут рассмат-
риваться по аналогии с возмущениями W ( t ) и операция максимизации на множествах Φ, V аналогична максимизации на W ( t ) вида (2.711). Возможны также и другие подходы к решению неравенств (2.735) с учетом того или иного определения операции max ( ⋅) в зависимости от определения вида множеств α ∈ A ( t ) , Φ, V . Но они в данной работе не рассматриваются. 2.7.1. ОЦЕНКА РОБАСТНОСТИ СИСТЕМЫ С ПОМОЩЬЮ КРУГОВ ГЕРШГОРИНА Для анализа разрешимости неравенств (2.735), а также для оценки робастности системы (2.708) при синтезированном законе управления вида (2.714) можно воспользоваться кругами Гершгорина [206]. % α, формируемой согласно (2.716), определены n кругов Для ( n × n )-матрицы A % α , j ∈1, n, объединение которых Гершгорина G A j
( )
Глава 2. Синтез робастных САУ в пространстве состояний
( )
261
( )
n
%α = UG A %α G A j j =1
% α. содержит собственные значения матрицы A При этом ⎧ 1 G j A α = ⎪ z ∈ C * : a% αjj − z ≤ S j = ⎨ pj ⎩⎪
( )
n
∑ a% αjν
ν=1 ν≠ j
⎫ pν ⎪ , ⎬ ⎭⎪
(2.739)
где pν , ν ∈ 1, n — произвольные положительные числа; S j , j ∈ 1, n — радиус j-го кру-
( )
% α ; C * — комплексная плоскость. га G j A
Сопоставим неравенства (2.733) с определением кругов Гершгорина (2.736). В качестве положительных величин p j примем функции q j ( t ) , т.е. p j = q j ( t ) , j ∈1, n.
( ) ( k , t ) = q 1(t ) ∑ a%
% α круг G A % α имеет радиус Тогда для матрицы A j
S αj = S αj
n
α0
ν=1 ν≠ j
j
α jν
qν( t ) , j ∈1, n.
(2.740)
С учетом (2.740) неравенства (2.733)приводятся к виду q& j 1 α+ ⎧ α α fj , − ⎪a% jj + S j ≤ qj qj ⎪ ⎪ q& j 1 α− ⎨ %α α ⎪a jj + S j ≤ q + q f j , j j ⎪ ⎪ j ∈1, n, t ≥ t . 0 ⎩
(2.741)
Поскольку z = a% αjj ∈ C * является центром j-го круга Гершгорина, то левые части не-
( )
%α равенств (2.741) соответствуют крайней правой точке круга G j A
на комплексной
плоскости C *, являющейся точкой пересечения данного круга с действительной осью. Тогда неравенства (2.741) означают, что они будут выполняться тогда и только то% α , j ∈ 1, n будет находиться слева от прямых, гда, когда каждый круг Гершгорина G A j
( )
параллельных мнимой оси на плоскости C * и проходящих соответственно через точки z +j =
q& j qj
−
f jα+ qj
, z −j =
q& j qj
−
f jα− qj
, j ∈1, n,
лежащие на действительной оси (см. рис. 2.35). Так как в общем случае z +j , z −j зависят от времени, то указанное требование должно
( )
% α , j ∈ 1, n на комплексной выполняться для всех t ≥ t0 . Положением кругов G j A
плоскости C * можно управлять за счет выбора соответствующей матрицы k α 0, так как центр каждого круга, находящийся в точке a% αjj , и радиус S αj зависят только от k α 0. А положением прямых, параллельных мнимой оси, можно управлять как с помо-
щью k α 0, так и с помощью k α1, так как f jα+ , f jα− , j ∈1, n зависят от k α 0 и k α1.
262
Методы современной теории автоматического управления
Таким образом, перемещая с помощью выбора k α 0 каждый круг Гершгорина % α влево и с помощью выбора k α1 соответствующие ему прямые, параллельные Gj A
( )
мнимой оси, вправо, можно добиться требуемого расположения кругов Гершгорина на комплексной плоскости C * и тем самым обеспечения неравенств (2.733) или (2.741). Im s
( )
пл. C *
%α Gj A
σj
Sj a% jj
0
z +j
zj
z +j =
q& j qj
−
v ++ j qj
z −j
, z −j =
q& j qj
Re s
−
v −− j qj
Рис. 2.35. Геометрическая интерпретация обеспечения фазовых ограничений
( )
%α , Допустим, что для некоторых k *α 0 , k *α1 требуемое расположение кругов G j A j ∈1, n обеспечено. Тогда для синтезированного закона управления u* = k*α0xв + k*α1 ( xв ) xв
можно говорить о степени робастности системы. Под этим будет пониматься следующее. Под степенью робастности для j-й компоненты вектора состояния понима% α (т.е. от точки z α = a% α + S α , лежащей на действиется расстояние от круга G A j
( )
j
jj
j
*
тельной оси в C ) до ближайшей из двух соответствующих ему прямых, параллельных мнимой оси (т.е. до точки z +j или z −j ), которое обозначим через σαj и согласно определению равное
{
}
σα = min z +j − z αj ; z −j − z αj , j ∈1, n.
(2.742)
С учетом (2.742) под степенью робастности системы (2.708) при синтезированном управлении u* будем понимать величину σα = min σαj . (2.743) j∈1,n
При обеспечении допустимого расположения кругов Гершгорина на комплексной плоскости σα > 0. Причем чем больше величина σα, тем более робастной является система, т.е. фазовые ограничения (2.718) для синтезированного закона управления будут обеспечиваться на более широких множествах структурно-параметрических и внешних возмущений. Заметим, что при синтезе требуемого закона управления вида (2.714) можно дополнительно потребовать, чтобы обеспечивалась заданная степень робастности, т.е. чтобы выполнялось неравенство σα ≥ σ*, (2.744) где σ* > 0 — известная величина.
Глава 2. Синтез робастных САУ в пространстве состояний
263
Эффективность решения задачи синтеза зависит от вида разложения (2.713) функции f α ( ⋅) , т.е. от свойств матриц A α , B α и функции F α ( ⋅) , тот или иной выбор которых влияет на сложность: синтеза матриц k α 0 , k α1; обеспечения заданных ограничений; требуемого размещения кругов Гершгорина на комплексной плоскости. Пример 2.1. Пусть уравнения движения некоторого объекта имеют вид x& = 3 x + x 2u + 2 x3 , t ≥ t0 ,
где x, u — скалярные переменные. Заданы фазовые ограничения: x ≤ e−t , t ≥ t0 .
Необходимо синтезировать управление u = k0 x + k1 ( x ) x. Согласно (2.713) воспользуемся разложением u ⎛ ⎞ f ( ⋅) = 3 x + u + x 2u − u + 2 x3 = 3 x + u + ⎜ ux − + 2 x 2 ⎟ x. x ⎝ ⎠ Отсюда
F ( ⋅) = ux −
u + 2 x 2 ; A = 3, B = 1. x
Согласно (2.715),(2.716)
k x + k1 ( x ) x F% ( ⋅) = BK 1 + F ( ⋅) = k1 ( x ) + ( k0 x + k1 ( x ) x ) x − 0 + 2 x 2 = k0 x 2 − 1 + k1 ( x ) x 2 + 2 x 2 . x В соответствии с (2.727), (2.734) f% + = max− t ⎡ k0 e −2t − 1 + k1 e −t e−2t + 2e −2t ⎤ e−t , ⎦ x =e ⎣
(
(
) ( )
{ (
) (
(
) ( ) ) ( )
)
)
}
f% − = min− t − ⎡ k0 e−2t − 1 + k1 −e −t e −2t + 2e −2t ⎤ e −t , ⎣ ⎦ x =e т.е.
f% + = ⎡ k0 e −2t − 1 + k1 e−t e−2t + 2e −2t ⎤ e− t , ⎣ ⎦ f% − = − ⎡ k0 e −2t − 1 + k1 −e−t e−2t + 2e −2t ⎤ e− t . ⎣ ⎦
(
Согласно (2.716) A% = A + BK 0 = 3 + k0 . Тогда неравенства (2.733) примут вид
( (
) ( ) ) ( )
⎧0 ≤ −e−t − ( 3 + k ) e−t − ⎡ k e −2t − 1 + k e −t e −2t + 2e −2t ⎤ e −t , 0 1 ⎪ ⎣ 0 ⎦ ⎨ −t −t − 2 t ⎪0 ≤ −e − ( 3 + k0 ) e − ⎡ k0 e − 1 + k1 −e −t e−2t + 2e −2t ⎤ e−t . ⎣ ⎦ ⎩ Отсюда после соответствующих преобразований следует ⎧k1 e −t ≤ − ( k0 + 2 ) − 4e 2t , ⎪ ⎨ ⎪k1 −e −t ≤ − ( k0 + 2 ) − 4e2t , t ≥ t0 . ⎩ Пусть k1 ( x ) ищется в виде
( ) ( )
k1 ( x ) = k10 + k11
1 . x2
Тогда неравенства приводятся к следующему: 1 k10 + k11 2 ≤ − ( k0 + 2 ) − 4e 2t , t ≥ t0 , x для выполнения которого достаточно, чтобы ⎪⎧ k10 ≤ − ( k0 + 2 ) , для любого k0 . ⎨ ⎪⎩ k11 ≤ −4 Таким образом, 1 1 u = k0 x + k10 x + k11 = ( k0 + k10 ) x + k11 , x x где k0 , k10 , k11 удовлетворяют приведенным выше условиям.
264
Методы современной теории автоматического управления
Предложенный метод может быть использован для достаточно широкого класса задач при построении управления различными объектами. При этом цель управления может быть сведена к достаточно общему виду фазовых ограничений. Данный класс задач особенно характерен при разработке и формировании интеллектуальных систем управления, когда необходима быстрая обработка информации, выработка управления в реальном режиме времени. Причем в этих задачах возможна неопределенность по цели. Рассмотренный метод позволяет учитывать и ее. Необходимо также отметить, что полученные соотношения метода (2.733), (2.741) могут быть эффективно реализованы на основе известных численных процедур, в том числе и параллельных алгоритмов. Возможен дальнейший анализ и обобщение неравенств (2.733), (2.741) с целью упрощения и расширения их решения. Неравенства (2.733), (2.741) могут использоваться при выработке алгоритмов управления. Поскольку полученные соотношения допускают геометрическую интерпретацию с помощью кругов Гершгорина, то они оказываются удобными в инженерных расчетах. 2.8.
СИНТЕЗ СИСТЕМ УПРАВЛЕНИЯ НА ОСНОВЕ ВАРИАЦИИ ВСПОМОГАТЕЛЬНЫХ ИНТЕГРАЛЬНЫХ ПОВЕРХНОСТЕЙ
Множество решений задачи синтеза, обеспечивающих выполнение фазовых ограничений, можно существенно расширить, если воспользоваться некоторым обобщением метода вариации фазовых ограничений. Это достигается за счет того, что условие невыхода траектории из заданного множества, рассматриваемое в каждой точке границы этого множества, заменяется на соответствующее условие, рассматриваемое для произвольной траектории, лежащей на границе заданного множества. Будем считать, что рассматривается следующая система: ⎪⎧x& = f ( x, u, ξ, t ) ; ⎨ ⎪⎩x ( t0 ) = x0 , t ≥ t0 , где x, u, ξ — соответственно ( n × 1)-, ( m × 1)-, ( r × 1)-векторы состояния, управления, возмущения. Ограничения, накладываемые на вектор состояния системы, приводятся к виду x = x (t ) ∈ Q (t ) , где
{
}
Q ( t ) = x ∈ R n : ψ ( x, t ) ≤ 0 , t ≥ t0 ,
или в общем случае
{
}
Q ( t ) = x ∈ R n : ψ i ( x, t ) ≤ 0, i ∈1, χ , t ≥ t0 .
Ограничения на управление и возмущения имеют вид u ∈ U ( t ) , t ≥ t0 ; ξ ∈ Σ ( t ) , t ≥ t0 . Если система имеет также и параметрическую неопределенность, то в этом случае f ( ⋅ ) = f ( x, u , ξ , γ , t ) , (2.745)
где γ — (l ×1)-векторный параметр, удовлетворяющий условию γ ∈ Г ( t ) , t ≥ t0 .
(2.746)
Здесь Г ( t ) — заданное множество допустимых значений параметра γ. Тогда задача синтеза формируется следующим образом: требуется для рассматриваемой системы сформировать такой допустимый закон управления u = u% ( x, t ) ,
Глава 2. Синтез робастных САУ в пространстве состояний
265
который обеспечивал бы желаемую динамику поведения системы с учетом заданных ограничений. Без ограничения общности можно считать, что нулевой элемент 0 ∈ Q ( t ) , t ≥ t0 . Кроме того, предполагается, что Q ( t ) — выпуклое множество. Пусть x = x ( t , x 0 ) — некоторая траектория системы, лежащая внутри множества Q ( t ) , т.е. x ( t , x 0 ) ∈ Q ( t ) , t ≥ t0 .
Тогда через z ( t , z 0 ) обозначим траекторию, лежащую на границе ГQ ( t ) , т.е. z ( t , z 0 ) ∈ ГQ ( t ) , t ≥ t0 ,
(2.747)
удовлетворяющую соотношению 1 1 ⋅ x ( t , x0 ) , z 0 = x0 , λ λ — некоторая скалярная неотрицательная функция. z (t, z0 ) =
где λ = λ ( t , x0 )
(2.748)
Очевидно, для произвольной траектории x ( t , x 0 ) всегда существует соответствующая только ей неотрицательная функция λ ( t , x0 ) , для которой траектория z ( t , z 0 ) удовлетворяет соотношению (2.747) (см. рис. 2.36, где для случая n = 2 проиллюстрировано данное свойство).
(
)
(
)
Здесь z* = z t * , z 0 , x* = x t * , x0 .
Рис. 2.36. Геометрическая иллюстрация свойства (2.747)
Если x ( t , x0 ) ∈ Q ( t ) в текущий момент времени t ≥ t0 , то 0 < λ ( t , x0 ) ≤ 1,
(2.749)
если же при t ≥ t0 x ( t , x0 ) ∉ Q ( t ) , то λ ( t , x0 ) > 1.
(2.750)
Определим поверхность, порожденную множеством ГQ ( t ) , следующим образом:
{
T
}
Ω ( t1 , t2 ) = ⎡⎣ z T t ⎤⎦ ∈ R n+1 : z ∈ ГQ ( t ) , t ∈ [t1 , t2 ] ,
где t1 , t2 — некоторые произвольные моменты времени.
266 Поскольку
Методы современной теории автоматического управления z ( t , z 0 ) ∈ Ω ( t0 , ∞ ) ∀ z 0 ∈ ГQ ( t0 ) , t ∈ [t0 , ∞ ) ,
то Ω ( t0 , ∞ ) является интегральной поверхностью для каждой траектории z ( t , z 0 ) . Будем называть Ω ( t0 , ∞ ) вспомогательной интегральной поверхностью (ВИП) для траекторий x ( t , x0 ) . Тогда Ω ( t1 , t2 ) — участок ВИП. Воспользуемся свойствами ВИП для решения поставленной задачи. При этом вначале рассмотрим случай простых фазовых ограничений. В силу (2.747) должно выполняться условие ⎛ x ( t , x0 ) ⎞ ψ ( z ( t , z 0 ) , t ) = ψ ⎜⎜ , t ⎟⎟ ≡ 0 ∀ t ≥ t0 . ⎝ λ ( t , x0 ) ⎠ Отсюда находим следующее уравнение: d ψ ( ⋅) = 0. dt Нетрудно получить d ψ ( ⋅) ∂ψ ( x λ , t ) ∂ψ ( x λ , t ) & = ( ∇ x ψ, x& ) + + λ, (2.751) dt ∂t ∂λ n ∂ψ где ( ∇ x ψ, x& ) = ∑ x& . i =1 ∂t Преобразуем правую часть равенства (2.751). Так как d ψ ( ⋅) 1 1 = − 2 ∇ x λ ψ, x ; ∇ x ψ ( ⋅) = ∇ x λ ψ, dλ λ λ то (2.751) преобразуется к виду 1 ∂ψ 1 ∇ x λ ψ, x& + − ∇ x λ ψ, x λ& = 0. λ ∂t λ 2 Отсюда при условии, что
(
(
)
)
(
)
( ∇x λ ψ, x ) ≠ 0,
получим
( (
) )
⎧ ∇ x λ ψ, x& ∂ψ ∂t ⎪⎪λ& = λ + λ2 ; ∇ x λ ψ, x ∇ x λ ψ, x ⎨ ⎪ ⎪⎩ x ( t0 ) = x0 , λ ( t0 , x0 ) = λ 0 . Воспользуемся соотношением (2.748) и тем, что x& = f ( x, u, ξ, t ) . В результате при-
(
)
ходим к эквивалентному выражению ⎧ ( ∇z ψ ( z, t ) , f ( λz, u, ξ, t ) ) + λ 2 ∂ψ(z, t ) ∂t = ⎪λ& = λ ( ∇ z ψ ( z , t ) , λz ) ( ∇ z ψ ( z, t ) , λz ) ⎪ ⎪ ⎨ ( ∇ z ψ , f ( λ z , u, ξ , t ) ) ∂ψ ∂t +λ = Φ ( λ , z , u, ξ , t ) ; (2.752) ⎪= ( ∇ z ψ, z ) ( ∇ z ψ, z ) ⎪ ⎪z ( t ) = z , λ ( t ) = λ . 0 0 0 ⎩ 0 На основе уравнения системы формируются основные соотношения, определяющие условия обеспечения фазовых ограничений.
Глава 2. Синтез робастных САУ в пространстве состояний
267
Если для некоторой траектории z ( t ) при u, ξ, принимающих допустимые значения, решение уравнения (2.752) удовлетворяет условию 0 < λ ( t ) ≤ 1 ∀ t ∈ [t1 , t2 ] ,
(2.753)
то согласно (2.749) получим, что x ( t ) ∈ Q ( t ) , t ∈ [t1 , t2 ]. Таким образом, можно сформулировать следующую теорему. Теорема 2.18. Если при любых допустимых значениях u ( ⋅) , ξ ( ⋅) и произвольно выбираемой траектории z ( t ) ∈ Ω ( t1 , t2 ) , т.е. z ( t ) ∈ ГΩ ( t ) ∀ t ∈ [t1 , t2 ] , решения уравнения (2.752) удовлетворяют неравенству (2.753), то для траекторий системы выполняются фазовые ограничения. Нетрудно показать, что полученный результат справедлив в более общем случае фазовых ограничений. Действительно, в этом случае также можно пользоваться теоремой 2.18, но при этом если произвольно выбираемая траектория z ( t ) ∈ Ω ( t1 , t2 ) на некотором отрезке времени T ⊆ [t1 , t2 ] принадлежит участку границы ГQ ( t ) I ГQi ( t ) , i ∈1, χ, т.е.
z ( t ) ∈ ГQ ( t ) I ГQi ( t ) , i ∈1, χ ∀ t ∈ T ,
то правая часть уравнения (2.752) принимает вид ( ∇ z ψi , f ( λz, u, ξ, t ) ) + λ ∂ψi ∂t , i ∈1, χ. Φ ( ⋅ ) = Φ i ( λ , z , u, ξ , t ) = ( ∇z ψi , z ) ( ∇z ψi , z )
(2.754)
На основе теоремы 2.18 можно учесть также тот случай, когда граница множества Q ( t ) задается нечетко или же когда допускается в определенных пределах выход траектории x ( t ) за пределы множества Q ( t ) . Следствие 2.12. Для обеспечения нечетких фазовых ограничений заданного уровня нечеткости на отрезке времени [t1 , t2 ] для исходной системы при выполнении условий теоремы 2.18 для решений уравнения (2.752) должно обеспечиваться неравенство 0 < λ ( t ) ≤ λ max ; λ max ∈ ⎡⎣λ − , λ + ⎤⎦ ; 1∈ ⎡⎣λ − , λ + ⎤⎦ . Используя теорему 2.18 и следствие, можно получить соотношение, на основе которого непосредственно осуществляется синтез требуемых систем управления. Рассмотрим класс линейных систем. Тогда f ( ⋅) = Ax + Bu + Dξ, (2.755) где A, B, D — соответственно ( n × n )-, ( n × m )-, ( n × r )-матрицы. Уравнение (2.752) для таких систем примет вид ( ∇ ψ, Az ) + ∂ψ ∂t + ( ∇ z ψ, Bu ) + ( ∇ z ψ, Dξ ) , λ t = λ , t ≥ t . λ& = λ z ( 0) 0 0 ( ∇ z ψ, z ) ( ∇ z ψ, z ) ( ∇ z ψ, z ) Пусть управление u ищется в виде ⎧u = Ky, y = Cx; ⎨ ⎩U = KCx,
(2.756)
(2.757)
где y — (l × 1)-вектор выхода; K , C — (m × l )-, (l × n )-матрицы регулятора и измерителя. С учетом (2.757) уравнение (2.756) приводится к виду
268
Методы современной теории автоматического управления λ& = λ
% ) + ∂ψ ∂t ∇ ψ, Dξ ( ∇z ψ, Az ( ), + z
( ∇ z ψ, z )
( ∇ z ψ, z )
% = A + BKC. где A Обозначим
ϕ0 =
( ∇ z ψ, Dξ ) + ∂ψ ( ∇ z ψ, z )
∂t
, ϕ1 =
λ ( t0 ) = λ 0 , t ≥ t0 .
% ) + ∂ψ ∂t ( ∇z ψ, Az .
( ∇ z ψ, z )
С учетом (2.759) запишем уравнение (2.758) λ& = ϕ1 ⋅ λ + ϕ0 , λ ( t0 ) = λ 0 , t ≥ t0 . Очевидно, решение данного уравнения будет следующим: t
∫ ϕ1( τ )d τ
λ ( t ) = λ 0et0
(2.758)
(2.759)
(2.760)
t
t
∫ ϕ1( τ)d τ
+ ∫ eτ
ϕ0 ( τ ) d τ.
t0
Тогда в соответствии с теоремой 2.18 должно быть обеспечено t t ⎧ ϕ1( τ )d τ t ∫ ϕ1( τ )d τ ∫ ⎪ t0 ⎪0 < λ 0 e + ∫ eτ ϕ0 ( τ ) d τ ≤ 1 (2.761) ⎨ t0 ⎪ ⎪⎩∀ z ( t ) ∈ Ω ( t0 , t ) , ∀ ξ ∈ V , ∀ t ∈ [t1 , t2 ]. Возможны различные подходы к непосредственному решению неравенства (2.761) относительно параметров регулятора. В основном они сводятся к численному решению. С этой целью вначале на поверхности Ω ( t1 , t2 ) можно осуществить параметризацию произвольно выбираемых траекторий z ( t ) , а затем уже относительно параметризованных z ( t ) решать неравенства. Для представления произвольной z ( t ) на поверхности Ω ( t0 , t ) можно воспользоваться известными результатами. Другой подход к решению (2.761) основывается на том, что между первым и вторым слагаемым в (2.761) имеется пропорциональная зависимость (с увеличением одного увеличивается и другое). Поэтому достаточно максимизировать первое слагаемое, затем, с учетом этого, максимизировать второе и обеспечить верхнее неравенство. Однако наиболее простым представляется следующий подход. Считаем, что неопределенность по возмущению ξ можно представить следующим образом: ξ = Gx
( в общем случае
ξ = G ( x, g ) ) ,
где G — ( r × n)-матрица, каждый элемент gμν которой задан не точно, а в некотором − + ⎤ диапазоне ⎡⎣ gμν , gμν ⎦ , т.е. − + ⎤ gμν ∈ ⎡⎣ gμν , gμν ⎦
(в общем случае G — ( r × 1)-вектор-функция, g ∈ ⎡⎣ g − , g + ⎤⎦ — варьируемый параметр). Тогда уравнение (2.758) приводится к виду ⎧λ& = λϕ% 1 , λ ( t0 ) = λ 0 , t ≥ t0 , ⎪ ⎨ ( ∇ z ψ, Az ) + ∂ψ ∂t , A% = A + BKC + DG. ⎪ϕ% 1 = ( ∇ z ψ, z ) ⎩ Отсюда
2.762)
Глава 2. Синтез робастных САУ в пространстве состояний
269
t
∫ ϕ% 1( τ )d τ
λ ( t ) = λ 0et0
≤ 1 при 0 < λ 0 ≤ 1 ∀ t ∈ [t1 , t2 ] ,
или в более общем случае t
∫ ϕ% 1( τ )d τ
λ max ∀ t ∈ [t1 , t2 ]. λ0 Очевидно, что (2.763) эквивалентно неравенству t λ ∀ t ∈ [t1 , t2 ] , ∀ z ( t ) ∈ Ω ( t1 , t2 ) , ∫ ϕ% 1 ( τ ) d τ ≤ ln λmax 0 t et0
≤
(2.763)
0
или t
max
z ( t )∈Ω( t1 ,t2 )
∫ ϕ% 1 ( τ ) d τ ≤ ln
t0
λ max ∀ t ∈ [t1 , t2 ]. λ0
(2.764)
Для решения (2.764) также можно использовать параметризацию z ( t ) на ВИП Ω ( t0 , t ) . Однако (2.764) можно существенно упростить. Действительно, если Ω ( t0 , t2 ) — гладкая поверхность, то можно показать, что на достаточно широком классе фазовых ограничений (например, обеспечивающих выпуклость Q(t ) ) выполняется неравенство t
t
t0
t0
max
z ( t )∈Ω( t1 ,t2 )
∫ ϕ% 1 ( τ ) d τ = ∫
max ϕ% 1 ( τ ) d τ.
z( t )∈Ω( t1 ,t2 )
Отсюда t
ϕ% 1 ( τ ) d τ ≤ ln ∫ z(t )max ∈Ω( t ,t ) 1 2
t0
λ max ∀ t ∈ [t1 , t2 ]. λ0
(2.765)
В результате вначале решаем задачу максимизации % + ∂ψ ∂t ∇ z ψ, Az max при ψ ( z, t ) = 0 ∀ t ∈ [t1 , t2 ] , z ( ∇ z ψ, z ) а затем непосредственно интегральное неравенство (2.765). Если, например, фазовые ограничения имеют вид xi ≤ qi ( t ) , i ∈1, n, то с учетом (2.754) на основе неравенства (2.764) получим следующие соотношения для синтеза:
(
)
n
∑ a%iν qν ( t ) + a%ii qi ( t ) − q&i ( t )
t ν=1 ν≠i
∫
qi ( t )
t0
dt ≤ ln
λ max , i ∈1, n, t ∈ [t1 , t2 ]. λ0
(2.766)
Для стационарных систем неравенства (2.766) приводятся к виду n
a%ii ( t − t0 ) + ∑ a%iν ν=1 ν≠1
t
qν ( τ )
∫ qi ( τ ) d τ ≤ ln
t0
q (t ) λ max , i ∈ 1, n, t ∈ [t1 , t2 ]. + ln i λ0 qi ( t0 )
(2.767)
Неравенства (2.766), (2.767) являются обобщением соотношений, полученных выше для синтеза робастных систем. %, В данном случае, чтобы учесть параметрические неопределенности матрицы A достаточно либо несколько увеличить число λ max , либо ужесточить неравенство (2.767).
270
Методы современной теории автоматического управления
На рис. 2.37 представлена геометрическая интерпретация неравенства (2.767) с помощью кругов Гершгорина. Здесь Ri — радиус i-го круга Гершгорина: Ri =
1 n ∑ a%iν t − t0 ν=1 ν≠1
δi =
t
qν ( τ )
∫ qi ( τ ) d τ;
t0
q (t ) ⎞ λ q (t ) 1 ⎛ λ max 1 + ln i ln max i ; ⎜⎜ ln ⎟⎟ = t − t0 ⎝ λ0 qi ( t0 ) ⎠ t − t0 λ 0 qi ( t0 )
Δi = δi − ( a%ii + Ri ) — уровень робастности по i-й компоненте вектора x, i ∈1, n, t ∈[t1, t2 ]. i -й круг Δi
Гершгорина
Im s
пл. C −− комплексная плоскость
Ri
s ∈C 0
δi
Рис. 2.37. Обеспечение желаемой робастности системы на основе неравенства (2.767)
При синтезе на основе (2.766), (2.767) обеспечивается неравенство Δi ≥ Δ 0 ∀ i ∈1, n, t ∈ [t1 , t2 ] , где Δ 0 — желаемая степень робастности системы. Предложенный подход, основанный на применении вспомогательных интегральных поверхностей, позволяет получать конструктивные соотношения на параметры синтезируемого робастного регулятора. При этом непосредственно учитываются самые различные ограничения: на состояние системы; на направление; на возмущения. Метод может эффективно использоваться для нестационарных и нелинейных систем путем сведения ограничений и систем произвольного порядка к некоторому скалярному уравнению, для решения которого и формируется эквивалентное неравенство. Решение данного уравнения можно определить аналитически не только для линейных, но и для достаточно широкого класса нелинейных систем (в первую очередь, для кусочно-линейных систем, к которым, в частности, относятся некоторые существенно нелинейные системы с разрывами первого рода). Это существенно упрощает процедуру решения эквивалентного неравенства. В общем случае эффективно решать интегральные неравенства позволяет процедура параметризации траекторий на вспомогательных интегральных поверхностях. 2.8.1.
РЕШЕНИЕ ЗАДАЧИ СИНТЕЗА НА ОСНОВЕ МЕТОДА ВИП ДЛЯ ОДНОРОДНЫХ ДИНАМИЧЕСКИХ СИСТЕМ
Исходную систему будем называть λ -однородной по x, если функцию f ( ⋅) можно представить в виде f ( x, u, ξ, t ) = Φ ⎡⎣f 1 ( x ) , f 2 ( u, ξ, t ) ⎤⎦ ,
где f 1 ( λ, x ) = λ ⋅ f 1 ( x ) , λ ∈ R1.
Глава 2. Синтез робастных САУ в пространстве состояний
271
Рассмотрим случай, когда управление u = u% ( x, t ) и возмущение ξ = G ( x, y ) вы-
бирается при таких u% ( ⋅) и G ( ⋅) , которые обеспечивают λ -однородность по x функ-
ции f ( x, u% ( x, t ) , G ( x, g ) , t ) .
В данном случае, как нетрудно убедиться, в неравенствах (2.764), (2.765) функция ϕ1 ( z, t ) вычисляется по формуле ∇ z ψ, f% ( z, t ) ϕ% 1 = , f% ( ⋅) = f ( z, u% ( z, t ) , G ( z, g, t ) ) . ( ∇ z ψ, z ) Тогда для анализа разрешимости неравенств, а также для непосредственного решения можно сформировать достаточно общее условие в виде некоторого проверяемого алгебраического соотношения. Продифференцируем выражение x ( t ) = λ ⋅ z ( t ) . Имеем λ& z + λz& = x& .
(
)
Отсюда с учетом однородности f ( ⋅) при выбираемых указанным образом u ( ⋅) и
ξ ( ⋅) получим λϕ% 1z + λz = λf% ( z, t ) . Тогда
z& = f% ( z, t ) − ϕ% 1 ( z, t ) z
(2.768)
представляет собой уравнение траектории на ВИП Ω ( t0 , ∞ ) .
Так как ψ ( z ( t ) , t ) ≡ 0, то ψ ( z, t ) является первым интегралом неравенства (2.768).
Таким образом, решение уравнения (2.768) удовлетворяют условию ⎧⎪ z ( t ) ∈ ГQ ( t ) ∀ t ≥ t0 , ⎨ ⎪⎩ z ( t0 ) ∈ ГQ ( t0 ) . В результате приходим к следующей оптимизационной задаче: t λ max J = max ∫ ϕ% 1 ( z ( τ ) , τ ) d τ ≤ ln max , t ∈ [t1 , t2 ] z( t )∈Ω( t0 ,t ) z( t )∈Ω( t0 ,t ) λ0 t 0
(2.769)
при z& = f% ( z, t ) − ϕ% 1 ( z, t ) z, представляющей собой обобщенную постановку исходной задачи синтеза, приведенной к формализованному виду и соответствующей необходимому и достаточному условию обеспечения рассматриваемых фазовых ограничений. Синтез требуемого закона управления непосредственно основан на использовании уравнения (2.768). Так же как и ранее, будем считать, что действующие на систему возмущения можно представить в виде ξ = G ( x, g ) , где G ( ⋅) — некоторая вектор-функция, а g — векторный параметр с произвольными значениями на отрезке G 0 = ⎡⎣ g − , g + ⎤⎦ . Причем G ( ⋅) и G 0 выбираются таким образом, чтобы на основе зависимости G ( ⋅) множество V возможных возмущений описывалось наиболее полным образом. Пусть u = u% ( x, t ) ⊂ U — некоторый допустимый закон управления, обеспечивающий заданные фазовые ограничения при действии возможных возмущений. Имеем ⎧⎪x& = f ( x, u, ξ, t ) = f ( x, u% ( x, t ) , G ( x, g ) , t ) = f% ( x, g, t ) ; (2.770) ⎨ ⎪⎩x ( t0 ) = x0 ∈ Q ( t0 ) , x ( t ) ∈ Q ( t ) , t > t0 .
272
Методы современной теории автоматического управления
Поскольку x ( t ) ∈ Q ( t ) ∀ t ≥ t0 , то можно указать такую поверхность ГQ% ( t ) ⊂ Q ( t ) ∀ t ≥ t , что x ( t ) ∈ ГQ% ( t ) ∀ t ≥ t . 0
0
Считаем, что ГQ% ( t ) является граничной поверхностью множества Q% ( t ) ⊂ Q ( t ) , t ≥ t . Причем O ∈ Q% ( t ) . 0
Граничную поверхность ГQ% ( t ) будем рассматривать как вспомогательную интегральную поверхность для некоторой однородной системы y& = f€( y , x ) , где y — ( n × 1)-вектор состояния, f€( ⋅) — ( n × 1)-вектор-функция, такая, что между траекториями y ( t ) и x ( t ) справедлива зависимость y ( t ) = λx ( t ) . Но выше было показано, что в этом случае движение по поверхности ГQ% ( t ) должно описываться уравнением ⎧x& = f€( x, t ) − ϕ ( x, t ) , x ( t0 ) = x0 ∈ ГQ% ( t0 ) ; ⎪⎪ (2.771) ∇ x ψ% , f% ( x, t ) + ∂ψ% ∂t ⎨ , ⎪ϕ ( x, t ) = ( ∇ x ψ% , x ) ⎪⎩ % ( x, t ) определяет границу ГQ% ( t ) , т.е. где скалярная функция ψ
(
)
{
}
ГQ% ( t ) = x ∈ R n : ψ% ( x, t ) = 0 .
Сравнивая уравнения (2.771) и (2.770), описывающих одну и ту же однородную систему f% ( x, g, t ) ≡ f% ( x, t ) − ϕ ( x, t ) x, t ≥ t0 . (2.772) приходим к справедливости следующей теоремы. Теорема 2.19. Для разрешимости задачи синтеза достаточно, чтобы существовали такие однородная система и замкнутая граничная поверхность ГQ% ( t ) , для которых обеспечивается разрешимость тождества (2.772) для системы (2.770). Соотношение (2.772) можно представить в виде уравнения относительно функции € f ( ⋅) : Rf€ = f€ − r, где R = E −
1
( ∇ x ψ% , x )
x ( ∇ x ψ% ) , r = − T
% ∂t ∂ψ
( ∇ x ψ% , x )
x.
Тогда синтез сводится к анализу разрешимости данного уравнения относительно однородной f€( ⋅) . Из (2.772) получим также следующее тождество, которое можно решать относительно однородной f€( ⋅) : % ( λx, t ) , x ) E − x ( ∇ x ψ% ( λx, t ) ) ⎤ f ( x, t ) ≡ λ 2 ⎡( ∇ x ψ ⎢⎣ ⎥⎦ ⎡ ∂ψ ( λx, t ) ⎤ 1 ≡ λ ⎢f% ( λx, t ) ( ∇ x ψ% ( λx, t ) , x ) + x ⎥ ∀λ ∈ R . ∂ t ⎣ ⎦ Однако основным неудобством представленных соотношений является то, что од% ( ⋅) , котоновременно с выбором f€( ⋅) необходимо выбрать допустимую функцию ψ T
Глава 2. Синтез робастных САУ в пространстве состояний
273
рая по существу является интегральной поверхностью уравнения (2.770). Указанную трудность можно обойти следующим образом. Представим уравнение (2.772) в виде % , f% ( x, t ) + ∂ψ% ∂t ∇x ψ f% ( x, g, t ) ≡ f€( x, t ) − x. ( ∇ x ψ% , x ) Отсюда с учетом того, что ∇ x ψ% , f€( ⋅) = f€T ( ⋅) ∇ x ψ% , ( ∇ x ψ% , x ) = xT ∇ x ψ% ,
(
(
получим
)
)
⎡ f% ( ⋅) − f€( ⋅) x T + xf€T ( ⋅) ⎤ ∇ x ψ% = − x ∂ψ% . (2.773) ⎣ ⎦ ∂t Проанализируем это уравнение на разрешимость относительно вектора ∇ x ψ% , со-
(
)
% ( x, t ) (т.е. такой функции, для которой ответствующего допустимой функции ψ ГQ% ( t ) ⊂ Q% ( t ) , t ≥ t ). 0
Из выражения (2.771) видно, что функция ϕ ( x, t ) определена только в том случае, когда (2.774) ( ∇ x ψ% , x ) ≠ 0 ∀ x ∈ ГQ% ( t ) , t ≥ t0 . Из (2.774) следует, что величина ( ∇ x ψ% , x ) должна быть знакоопределенной, так
% ( ⋅) неравенство (2.774) как в противном случае при непрерывно-дифференцируемой ψ будет нарушено. Если ( ∇xψ% , x ) < 0 ∀ x ∈ ГQ% ( t ) , t ≥ t0 , а поскольку градиент ∇ ψ% имеет в каждой точке x ∈ ГQ% ( t ) направление в сторону x
% ( ⋅) и ортогонален к гиперплоскости, касательной к ГQ% ( t ) максимального возрастания ψ в данной точке, то вектор x, выходящий из начала координат O ∈ R n, должен быть направлен внутрь множества Q% ( t ) . Но это противоречит определению множества Q% ( t ) , для которого O ∈ R n является внутренним элементом. Следовательно, выражение ( ∇ x ψ% , x ) должно быть положительно определенным, т.е. ( ∇ ψ% , x ) > 0 ∀ x ∈ ГQ% ( t ) , t ≥ t . x
(2.775)
0
Это свойство проиллюстрировано на рис. 2.38. x2 x
∇Ψ
x2
ГQ ( t ) ∇Ψ
0
x1
x
ГQ ( t ) x ∇Ψ
x1
0 б
a Рис. 2.38. Построение поверхности ГQ% ( t ) :
а — не удовлетворяющей условию (2.775); б — удовлетворяющей условию (2.775)
274
Методы современной теории автоматического управления
Для проверки выполнения условия (2.775) из уравнения (2.773) необходимо определить вектор ∇ x ψ% . Для разрешения (2.773) достаточно, чтобы
(
)
det Φ ( ⋅) det ⎡ f% ( ⋅) − f€( ⋅) xT + xf€T ( ⋅) ⎤ ≠ 0 ∀ x ∈ ГQ% ( t ) , t ≥ t0 . (2.776) ⎣ ⎦ Проанализируем свойства матрицы Φ ( ⋅) в зависимости от выбора однородной функции f€( ⋅) .
% * ( ⋅) — некоторые соответственно однородная ( n × 1)-функция и скаПусть f€* ( ⋅) , ψ лярная функция, определяющая замкнутую границу ГQ% * ( t ) , с помощью которых f€( ⋅) можно представить в виде (2.772), т.е. ∂ψ% f€ ( ⋅) , ∇ ψ% ) + ( ∂t f% ( ⋅) ≡ f€ ( ⋅) − % x ∇ ψ , ( ) *
*
x
*
x
*
⋅ x = f€* ( ⋅) − ϕ* ( ⋅) x.
% * ( ⋅) , удовлетворяющих представлению (2.772), Тогда при произвольных f ( ⋅) , ψ справедливо выражение Φ ( ⋅) = f€* ( ⋅) − ϕ* ( ⋅) x − f€( ⋅) xT + xf€T ( ⋅) = f€* ( ⋅) − f€( ⋅) xT − ϕ* (⋅) xxT + xf€T ( ⋅) . €*
(
)
(
)
Выбрав f€* ( ⋅) = f€( ⋅) , ψ% ( ⋅) = ψ% * ( ⋅) , получим
Φ ( ⋅) = −ϕ ( ⋅) xxT + xf€T ( ⋅) . (2.777) Далее воспользуемся следующим результатом. Утверждение 2.9. Произвольную однородную функцию f€( ⋅) можно представить в виде (2.778) f€( x, t ) = F ( x, t ) x, где ( n × n )-матрица F ( x,t ) удовлетворяет условию F ( λx, t ) = F ( x, t ) ∀λ ∈ R1. С учетом (2.778) матрица Φ ( ⋅) в соответствии с (2.777) примет вид
(
)
Φ ( ⋅) = xxT FT ( ⋅) − ϕ ( ⋅) E , где E — единичная ( n × n )-матрица.
( )
Поскольку det xxT = 0, то
( ) (
)
det Φ ( ⋅) = det xxT det FT ( ⋅) − ϕ ( ⋅) E = 0, т.е. Φ ( ⋅) является вырожденной матрицей, если только f€( ⋅) — однородная функция. Таким образом, теорема доказана. Утверждение 2.10. Для произвольной однородной функции f€( ⋅) , удовлетворяющей представлением (2.772), матрица Φ ( ⋅) является вырожденной, т.е.
(
)
det Φ ( ⋅) = det ⎡ f% ( ⋅) − f€( ⋅) xT + xf€T ( ⋅) ⎤ = 0 ∀ x ∈ ГQ% ( t ) , t ≥ t0 . (2.779) ⎣ ⎦ Заметим, что соотношение (2.779) позволяет как формировать требуемую однородную функцию f€( ⋅) для рассматриваемой системы уравнения, так и формировать условия на функцию f% ( ⋅) , для которой возможно представление (2.772).
Глава 2. Синтез робастных САУ в пространстве состояний
275
Таким образом, если уравнение (2.779) разрешимо относительно однородной € f ( ⋅) , то справедливо представление (2.772), но при этом не гарантируется, что ψ% ( ⋅) удовлетворяет неравенству (2.775). Получим условия, позволяющие устанавливать, выполняется ли неравенство (2.775) на решениях уравнения (2.779). В соответствии с (2.771) получим % ∂ψ ϕ ( ⋅)( ∇ x ψ% , x ) = ∇ x ψ% , f€( ⋅) + , ∂t или % ∂ψ ∇ x ψ% , ϕ ( ⋅) x − f€( ⋅) = . ∂t Используя (2.772), последнее равенство представим в виде ∂ψ% (2.780) f% ( ⋅) , ∇ x ψ% = − , ∂t где ( ∇ x ψ% , x ) > 0 ∀ x ∈ ГQ% ( t ) , t ≥ t0 . Коэффициент ∂ψ% ∂t , исходя из требований к практической реализуемости системы (2.770), следует выбрать отрицательным, т.е. % ∂t < 0 ∀ x ∈ ГQ% ( t ) , t ≥ t0 . (2.781) ∂ψ Тогда множество Q% ( t ) при возрастании t является сужающимся. Однако при со-
(
)
(
)
(
)
хранении этой тенденции допустимо на некоторых отрезках времени выбирать положительные значения ∂ψ% ∂t . Считаем, что при этом выполняется условие (2.781). ( В соответствии с (2.780) для каждого x ∈ ГQ% ( t ) векторы ∇ x ψ образуют некото( рую гиперплоскость Г% ( t ) , которой должен принадлежать хотя бы один такой ∇ x ψ, для которого обеспечивается неравенство (2.775). Но это, как нетрудно видеть, возможно только тогда, когда вектор x не направлен противоположно вектору f% ( ⋅) (см. рис. 2.39). В результате приходим к справедливости следующего результата. Утверждение 2.11. Для системы (2.770), представимой в виде (2.771), (2.772), неравенство (2.775) обеспечивается тогда и только тогда, когда выполняется условие (2.782) f% ( ⋅) ≠ αx, α < 0 ∀ x ∈ ГQ% ( t ) , t ≥ t0 . x2
% Г β ∇x Ψ
f 0
∇Ψ = −
x3
x=
αf
(α
>0
)
0
∂Ψ f ∂t f x1
∇x Ψ x2 ∇x Ψ x1
Рис. 2.39. Условие обеспечения неравенства (2.775): для x1 , x 2 , x 3 (2.775) выполняется, а для x = αf% ( α < 0 ) — нет
2
276
Методы современной теории автоматического управления
Для проверки полученного условия необходимо осуществить некоторые дополнительные построения, позволяющие избежать непосредственного перебора поверхностей ГQ% ( t ) . Введем множество
ΔQ ( t ) = Q2 ( t ) \ Q1 ( t ) , t ≥ t0 ,
где Q1 ( t ) ⊂ Q2 ( t ) ⊆ Q ( t ) , t ≥ t0 , т.е. Q ( t ) представляет собой разновидность множеств Q2 ( t ) и Q1 ( t ) . Потребуем, чтобы ΔQ ( t ) было таким множеством, внутри которого можно построить хотя бы одну замкнутую граничную поверхность вида ГQ% ( t ) , т.е. чтобы ГQ% ( t ) ⊂ ΔQ ( t ) , t ≥ t0 (см. рис. 2.40). x2
Q (t )
ΔQ ( t )
ГQ ( t )
x1
0 ГQ1 ( t ) ГQ2 ( t )
Рис. 2.40. Задание ГQ% ( t )
Тогда справедлив следующий результат. Теорема 2.20. Для разрешимости задачи синтеза при заданных фазовых ограничениях достаточно существования такой однородной функции f€( ⋅) и такого множества ΔQ ( t ) ⊂ Q ( t ) , на всех элементах которого для системы (2.770) выполняются соотношения (2.779) и (2.782). 2.8.2.
НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ ОБЕСПЕЧЕНИЯ ФАЗОВЫХ ОГРАНИЧЕНИЙ ДЛЯ ОДНОРОДНЫХ СИСТЕМ
Из анализа оптимизированной задачи (2.769) можно утверждать, что ∀ t ∈ [t1 , t2 ] решением задачи является одна и та же оптимальная в смысле (2.769) траектория z 0 ( t ) , поскольку на траекториях, являющихся решениями одного и того же уравнения (2.768), максимизируется один и тот же функционал. Действительно, пусть для некоторого произвольного момента времени t ∈ [t1 , t2 ] траектория z 0 ( t ) является оптимальной, а z ( t ) является решением (2.768) и (2.788): z ( t ) = z 0 ( t ) + δz ( t ) ,
(2.783)
где δz ( t ) — сколь угодно малая вариация траектории z 0 ( t ) . Подставляя (2.783) в (2.768), при необходимых предположениях нетрудно получить уравнение T δz& = R z 0 , t δz; R z 0 , t = ∇ z f% − ϕ% 1E − z 0 ( ∇ z ϕ% 1 ) , (2.784)
( )
( )
Глава 2. Синтез робастных САУ в пространстве состояний
( )
277
( )
где f% = f% z 0 , t , ϕ% 1 = ϕ% 1 z 0 , t . Отсюда t
0 ∫ R( z ( τ ),τ )d τ
δz ( t ) = et0
δz 0 = Φ0 ( t , t0 ) δz 0 , δz 0 = δz ( t0 ) ,
(2.785)
Φ0 ( t , t0 ) — переходная матрица уравнения (2.784), являющаяся невырожденной.
Подставляя (2.783) в максимизируемый функционал (2.769), с учетом (2.785) нетрудно показать, что приращение функционала для оптимальной траектории z 0 ( t ) должно удовлетворять равенству t ⎛t ⎞ δy = ∫ ( ∇ z ϕ% 1 , δz ) d τ = ⎜ ∫ ΦT0 ( τ, t0 ) ∇ z ϕ% 1d τ, dz 0 ⎟ = 0 ∀ z 0 . ⎜t ⎟ t0 ⎝0 ⎠ Отсюда следует, что вектор t
S ( t ) = ∫ ΦT0 ( τ, t0 ) ∇ z ϕ% 1d τ t0
должен быть ортогонален гиперплоскости, касательной к поверхности ГQ ( t0 ) в точ-
(
)
ке z 00 = z 0 ( t0 ) . Известно, что к ГQ ( t0 ) в точке z 00 ортогонален вектор ∇ z ψ z 00 , t0 . Поэтому можно записать
(
)
S ( t ) = μ ( t ) ∇ z ψ z 00 , t0 ,
(2.786)
где μ ( t ) — скалярная функция, такая, что μ ( t0 ) = 0. Вектор S ( t ) является решением уравнения S& = RS + ∇ z ϕ% 1 , S ( t0 ) = 0, t ≥ t0 ,
где R определяется в соответствии с (2.784). Отсюда с учетом (2.786) получим ⎧ μ& E − μR ∇ ψ = ∇ ϕ% , t ≥ t , ) z z 1 0 ⎪( ⎪ 0 0 (2.787) ⎨R = R z ( t ) , t , ∇ z ϕ% 1 = ∇ z ϕ% 1 z ( t ) , t , ⎪ ⎪∇ z ψ = ∇ z ψ z 00 , t0 . ⎩ Соотношение (2.787) представляет собой необходимое условие оптимальности траектории z 0 ( t ) , доставляющей максимум функционалу J вида (2.769). Причем
(
)
(
(
)
)
относительно самой траектории z 0 ( t ) соотношение (2.787) является алгебраическим. Из (2.787) следует, что при t = t0
(
)
(
)
μ& ( t0 ) ∇ z ψ z 00 , t0 = ∇ z ϕ% 1 z 00 , t0 .
А отсюда, как нетрудно видеть, определяется конкретное значение z 00 , которому в силу уравнения (2.768) соответствует единственная траектория z 0 ( t ) независимо от выбора значения t ∈ [t1 , t2 ] , для которого решается задача максимизации (2.787). Таким образом, z 0 ( t ) является одной и той же ∀ t ∈ [t1 , t2 ]. Если соотношение (2.787) реализовать затруднительно, то можно поступить следующим образом.
278
Методы современной теории автоматического управления
Поскольку
(
)
y z 0 ( t ) → max ∀ t ∈ [t1 , t2 ] ,
то
(
) (
)
y z 0 ( t + Δt ) = y z 0 ( t ) + Δy → max ∀Δt при t + Δt ∈ [t1 , t2 ] ,
а значит,
Δy → max ∀ Δt при t + Δt ∈ [t1 , t2 ].
Выбирая Δt достаточно малым, из (2.769) получим
(
)
Δy = ϕ% 1 z 0 ( t ) , t Δt.
Отсюда следует, что вдоль оптимальной траектории z 0 ( t ) функция ϕ% 1 ( z,t ) в каждый момент времени должна принимать максимальное значение. Так как при Δt → 0 ϕ% 1 t +Δt = ϕ% 1 t + ϕ&% 1 Δt , t
то получим ϕ% 1 t +Δt → max тогда и только тогда, когда ϕ&% 1 → max ∀ t ∈ [t1 , t2 ]. t
С учетом того что
∂ϕ% ∂ϕ% ϕ&% 1 = ( ∇ z ϕ% 1 , z& ) + 1 = ∇ z ϕ% 1 , f% ( z, t ) − ϕ% 1 ( z, t ) z + 1 , ∂t ∂t приходим к справедливости следующего результата. Теорема 2.21. Для разрешимости задачи (2.769), а значит, для обеспечения фазовых ограничений с учетом ограничений на управление и возмущения в классе λ однородных систем необходимо и достаточно, чтобы на решениях задачи ∂ϕ% ⎤ ⎡ max ⎢ ∇ z ϕ% 1 , f% ( ⋅) − ϕ% 1z + 1 ⎥ при z ( t0 ) = z 0 ∈ ГQ ( t0 ) , t ≥ t0 (2.788) z ⎣ ∂t ⎦ выполнялось неравенство λ min J z 0 ( t ) , u% ( ⋅) ≤ ln max ∀ t ∈ [t1 , t2 ] , (2.789) u% ( ⋅) λ0
(
(
)
)
(
)
где z 0 ( t ) — решение задачи (2.788). ⋅ осуществляется непосредстПри этом следует отметить, что минимизация min {} u% ( ⋅)
венно по параметрам, от которых зависит выбранная функция u = u% ( ⋅) = u ( x, γ,t ) ( γ — минимизирующий параметр; например, γ — это матрица обратной связи K ). Для класса λ -однородных систем, к которому относятся все линейные системы, а также часть нелинейных систем, установлены некоторые важные свойства, согласно которым можно сформировать приведенную систему с заданной интегральной поверхностью. На основе приведенной системы формируется обобщенная задача синтеза требуемого закона управления в виде некоторой оптимизационной задачи. Решение данной задачи позволяет получить необходимое и достаточное условие существования рабочего управления в виде некоторого параметрического алгебраического соотношения, для решения которого могут использоваться стандартные подходы. Класс однородных систем может быть существенно расширен, если по аналогии с λ -однородностью ввести μ ( λ ) -однородность ( F ( λx ) = μ ( λ ) F ( x ) ) . Тогда также могут использоваться те же аналитические соотношения или некоторые их обобщения.
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
ГЛАВА 3.
279
ТЕОРИЯ КАТАСТРОФ. ДЕТЕРМИНИРОВАННЫЙ ХАОС. ФРАКТАЛЫ
3.1.
ТЕОРИЯ КАТАСТРОФ
3.1.1. ВВЕДЕНИЕ Теория катастроф родилась на стыке двух дисциплин — топологии и математического анализа, ее источниками являются теория особенностей гладких отображений Х. Уитни и теория устойчивости и бифуркаций динамических систем А. Пуанкаре, А.М. Ляпунова, А.А. Андронова. Оба эти направления слились, благодаря усилиям французского математика Р. Тома, в единую теорию, которая получила название — теория катастроф. При изучении свойств решений дифференциального уравнений сначала необходимо явно оценить полное множество решений и лишь потом анализировать их свойства. Проблем не возникает, если это линейная, лучше стационарная, система дифференциальных уравнений. Для нелинейных систем полное множество решений можно построить для уравнений второго порядка (например, методом фазовой плоскости). Что же касается уравнений третьего и более высокого порядка, то здесь известны решения только частных задач. Как же поступать в этом случае? Выдающийся французский ученый Анри Пуанкаре убедительно показал, что во многих случаях необходим лишь ограниченный объем информации качественного характера, которая, в конечном итоге, и представляет интерес при изучении конкретных динамических систем. Основы современного подхода к определению качественных изменений в поведении решений обыкновенных дифференциальных уравнений были заложены А. Пуанкаре в конце XIX века. Он впервые ввел такие понятия, как структурная устойчивость, динамическая устойчивость и критические множества. Особенно интересовало Пуанкаре, как качественно меняется поведение динамической системы при изменении описывающих ее параметров. Перестройка качественной картины движения динамической системы при изменении ее параметров получила название бифуркации (буквально, раздвоение). Работы А. Пуанкаре по исследованию структурной (топологической) устойчивости динамических систем в 30-е годы XX века продолжили советские ученые А.А. Андронов и Л.С. Понтрягин. Структурно устойчивые системы они назвали грубыми [10]. В это же время Марстон Морс исследовал структуру некоторой функции (которую теперь называют морсовской) в окрестности изолированной точки многообразия, которое содержит траектории динамической системы. Он показал, что невырожденные критические точки такой функции являются изолированными точками, что определяет структурную устойчивость данной динамической системы к возмущениям. Одновременно Хаслер Уитни описал особенности гладких отображений. Рене Том заметил (в конце 50-х годов), что эти две теории — особенности гладких отображений и структурная устойчивость динамических систем — могут быть объединены в одну общую теорию. Он ввел важное понятие «трансверсальность», которое стало основным при описании структурной устойчивости. Позднее Р. Том использовал его при описании канонических форм определенных особенностей отображений R n → R1 (функций), которые он назвал катастрофами.
280
Методы современной теории автоматического управления
Предмет теории катастроф — изучение зависимости качественной природы решений уравнений от значений параметров, присутствующих в заданных уравнениях. Для данной теории требуется определенный математический аппарат, с изучения которого и начинаем изложение. 3.1.2. ОТ АНАЛИТИЧНОСТИ К ГЛАДКОСТИ. K-СТРУИ И РОСТКИ ФУНКЦИЙ Рассмотрим некоторую дифференцируемую функцию f : R → R и разложим ее в ряд Тейлора в окрестности некоторой точки x0
f ( x0 + x ) = a0 + a1 x + a2 x 2 +K . (3.1) По традиции представление этим рядом считается полезным только в том случае, если он сходится в некоторой окрестности U x0 и сумма его равна f ( x0 + x ) . В этом
случае f ( x ) называют аналитической в точке x0 . Ряд можно дифференцировать в
некоторой (возможно) меньшей окрестности Vx0 и его коэффициенты равны ai =
где Di f
x0
=
di f dxi
1 i D f i!
x0
(3.2)
,
. x = x0
Для дальнейшего анализа нам потребуется ввести некоторые определения и обозначения. Пусть M n ⊆ R n , N m ⊆ R m — гладкие многообразия (подробнее см. главу 1) и имеется некоторое отображение f : M n → N m . Определение 3.1. а) Будем говорить, что отображение f является дифференцируе-
(
)
мым класса k и обозначается f ∈ C k M n , N m , если каждая из функций fi ( x ) , i = 1, m является k раз дифференцируемой вещественной функцией на M n ; б) отображение f называется (вещественно) аналитическим и обозначается
(
)
f ∈ C ω M n , N m , если каждая из функций fi ( x ) , i = 1, m является аналитической,
т.е. может быть разложена в сходящийся ряд Тейлора; в) отображение f называется гладким (или бесконечно дифференцируемым, или
(
)
принадлежащим классу C ∞ ) и обозначается f ∈ C ∞ M n , N m , если для всякого неотрицательного целого k отображение f является дифференцируемым класса C k . Справедливо включение: C ω ⊂ C ∞ ⊂ K ⊂ C1 ⊂ C 0 . Рассмотрим теперь функцию f ( x ) = sin x. Данная функция является аналитической, т.е. f ( x ) ∈ C ω ( R, [ −1,1]) и ее ряд Тейлора имеет вид x( ) . (3.3) ( 2k + 1)! k =0 На рис. 3.1 показаны графики полиномиальных функций, которые получаются, если ограничиться первыми k членами (k ≤ 13). Из рис. 3.1 отчетливо видна сходимость ряда Тейлора. Однако замечаем, что даже при очень большом числе членов разложения приближение очень плохое вдали от начала координат. Но, с другой стороны, вблизи начала координат приближение ∞
sin x = ∑ ( −1)
k
2 k +1
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
281
очень хорошее. С увеличением числа членов разложения интервал, на котором точность приближения улучшается, также растет. Это принципиальное отличие аналитических функций от другого класса функций, а именно гладких функций.
y
x Рис. 3.1. Усечение ряда Тейлора для аналитической функции y = sin x (цифры определяют число членов разложения)
Для гладких функций ряд Тейлора может расходиться или сходиться, но не к той сумме. Рассмотрим пример. f ∈ C ∞ ( R, R ) , x = 0; ⎧⎪0, f ( x) = ⎨ −1 x 2 , x ≠ 0. ⎪⎩e Данная функция имеет следующий вид (рис. 3.2). f ( x)
1
x Рис. 3.2. Гладкая функция f ( x) = e −1 x
2
Легко проверить, что для любого k lim D k f
x →0
x
= 0.
Действительно, например, для k = 1 имеем 2 ′ 2 ′ e −1/ x 4e −1/ x 2 −1/ x2 1 lim D f = 3 e = 2 lim = lim = ... = 0. x x →0 x →0 x→0 ′ ′ x x3 3 x5
)
(
( )
2
)
(
( )
Это значит, что функция e −1 x очень «плоская» вблизи начала координат, причем более «плоская», чем любой одночлен x j , j = 3,5,7,K .
282 Так как Dk f
Методы современной теории автоматического управления 0
= 0 для любого k , ряд Тейлора вблизи начала координат имеет вид 0 + 0 x 2 + 0 x3 + K .
(3.4)
Он, конечно, сходится, но не к f ( x ) , а к f ( x ) = 0, т.е. f ( x ) является гладкой, но не аналитической функцией. Следует ли из этого, что гладкие функции не могут использоваться для приближений? Отнюдь! Как остроумно заметил Зиман (один из теоретиков теории катастроф), пора, когда сходимость остаточного члена
(
R0 ( x ) = f ( x0 + x ) − a0 + a1 x + K + ak x k
)
при k → ∞ являлась основным инструментом приближений и когда «было дозволено, чтобы «хвост» (ряда Тейлора) вилял собакой», явно прошла. Например, ряд Тейлора (3.4) хотя и не сходится к f ( x ) , прекрасно приближает эту функцию в начале координат с качественной точки зрения. Он четко улавливает, что f очень плоская в нуле. Чего он не улавливает, так это то, что начало есть локальный минимум для f . Для любой гладкой функции f ∈ C ∞ ( R, R ) определим ряд Тейлора в начале как формальный ряд ∞ 1 f ( x ) = ∑ Di f 0 xi . (3.5) i =0 i ! Ограничиваясь членами степени не выше k , получаем k-струю. Определение 3.2. k-струей гладкой функции f ∈ C ∞ ( R, R ) в точке x0 (обозначе-
ние jxk0 f ( x ) ) назовем усеченный ряд Тейлора данной функции в окрестности точки x0 , т.е. k 1 jxk0 f ( x ) = ∑ D k f i i =0 !
x0
( x − x0 )i .
(3.6)
Если ввести замену переменных y = x − x0 и перейти от функции f ( x ) к функции f% ( y ) , т.е. f ( x ) = f ( x ( y ) ) = f ( y + x0 ) = f% ( y ) ,
то k
1 jxk0 f% ( y ) = ∑ D k f% y i . (3.7) 0 i i =0 ! Поэтому без снижения общности точку x0 можно считать началом координат и в дальнейшем мы считаем, если нет особой оговорки, что x0 = 0, а формулу (3.6) мы
запишем в следующем виде (индекс «0» у j k f опущен) k 1 j k f ( x ) = ∑ Dk f i i =0 !
0
xi .
(3.8)
Замечание 3.1. Обозначение j k f ( x ) для k-струи взято по первой букве английского слова «jet» — «струя». Замечание 3.2. Определение (3.8) для k-струи, вообще говоря, не совсем математически строгое, а является представлением k-струи в некоторой координатной системе; в данном случае это координаты x0 , x1 , x 2 ,K, x k . Строгое же определение дает-
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
283
ся в бескоординатной форме, но мы всегда будем рассматривать k-струи в некотором координатном представлении, поэтому выражение (3.8) принимаем за определение. Усеченный ряд Тейлора (3.8) представляет собой многочлен, задающий полиномиальные функции jk f : R → R (3.9) независимо от того, сходится или нет ряд Тейлора. Напомним некоторые определения. Определение 3.3. Степенью одночлена назовем сумму степеней всех переменных, входящих в данный одночлен. Например: x17 x25 x14 3 — одночлен 26-й степени.
Определение 3.4. Степенью многочлена (полинома) p ( x ) назовем наивысшую из
степеней одночленов, входящих в данный многочлен. В случае, когда x ∈ R1 , степень многочлена определяет наивысшая степень переменной x. Определение 3.5 [172]. Порядком многочлена (полинома) p ( x ) назовем наиниз-
шую из степеней одночленов, входящих в данный многочлен. Для x ∈ R1 порядок многочлена определяет наинизшая степень переменной x. Определение 3.6. Будем говорить, что функция f : R → R имеет в начале координат (т.е. в точке x0 = 0 ) порядок k , если f ( 0) = D f
0
= D2 f
0
= K = D k −1 f
0
= 0.
(3.10)
Если j k f ( x ) — многочлен степени k , то многочлен f ( x ) − j k f ( x ) имеет порядок k + 1. Другими словами, i-е производные в нуле для j k f ( x ) и f ( x ) совпадают для i = 0, k . Тем самым ряд Тейлора и его усечение в виде k-струи оказывается удобным формальным средством для получения информации о производных функции f и,
значит, о ее форме вблизи начала координат, т.е. x0 = 0. 3.1.3.
РЕГУЛЯРНЫЕ И КРИТИЧЕСКИЕ НЕВЫРОЖДЕННЫЕ ТОЧКИ ГЛАДКИХ ФУНКЦИЙ
Ниже мы будем рассматривать только гладкие функции, т.е. f : M n → N ⊆ R1 , либо семейство гладких функций f : M n × A p → N 1 ⊆ R1 , M n ⊆ R n , A p ⊆ R p — множество параметров, M n , A p — гладкие многообразия. Рассмотрим, какие особенности присущи функциям. В свое время П. Монтень тонко заметил, что «функции, как и живые существа, характеризуются своими особенностями» (цит. по [15]). Именно особенности гладких функций (а в общем случае, гладких отображений) позволяют выявить качественные изменения фазовых траекторий динамических систем на основе их особенностей анализа на данном фазовом пространстве. И здесь большую роль играют критические точки гладких функций. Определение 3.7. Пусть задана гладкая функция f на гладком многообразии M n ⊆ R n ; f : M n → N ⊆ R1. Точка x 0 ∈ M n называется регулярной (некритической)
точкой функции f ( x ) , если Df
x0
⎛ ∂f ∂f ⎞ =⎜ ,K , ⎟ ≠ 0. ∂ ∂ x xn ⎠ x ⎝ 1 0
(3.11)
284
Методы современной теории автоматического управления
Для регулярных точек известна теорема о неявной функции, которая определяется следующим образом. Теорема 3.1 (теорема о неявной функции) [37]. Пусть U ⊂ R n , V ⊂ R m — открытые множества и ( x0 , y 0 ) ∈ U × V ⊂ R n+ m . Если f : U × V → R m − C1 — отображение, f ( x0 , y0 ) = 0 и det ( ∂f ∂y )
( x0 ,y0 )
≠ 0, то существует такая открытая окрестность W ( x0 ) ⊂ U
точки x 0 и такое отображение g : W ( x0 ) → V , что g ( x0 ) = y 0 и f ( x, g ( x ) ) = 0 для любого x ∈ W ( x 0 ) , причем такое отображение g единственно. Кроме того, g ∈ C1 и
( ∂g
∂x ) = −B −1A,
(3.12)
⎛ ∂f ⎞ ⎛ ∂f ⎞ где матрицы B и A получаются из матриц ⎜ ( x, y ) ⎟ и ⎜ ( x, y ) ⎟ соответственно ∂ x ∂ y ⎝ ⎠ ⎝ ⎠ при замене аргумента y на g ( x ) .
Используя теорему о неявной функции, для регулярных точек можно провести гладкую замену координат y = y ( x ) , при которой данную функцию в точке x 0 и ее окрестности можно представить в канонической форме f% ( x% ) = x% 1 , т.е. f ( x ) = f ( x ( x% ) ) = f% ( x% ) = x% 1.
(3.13)
Соотношение (3.13) не что иное как отображение того факта, что f и f% являются эквивалентными функциями (ниже дается строгое определение этому отношению). Покажем один из возможных вариантов такой регулярной замены. Пусть f ( x ) и f% ( x% ) две функции, которые описывают один и тот же физический процесс в различных
системах координат. Сделаем следующую замену x% = x% ( x ) в окрестности точки x0 : ⎧ x%1 ⎪ ⎪ x%2 ⎨ ⎪ ⎪ x% ⎩ n
= f (x); = a21 x1 + K + a2 n x1 ;
M = an1 x1 + K + ann xn .
(3.14)
Матрица Якоби этого преобразования в данной регулярной точке x 0 не вырождена при условии, что ∂f ∂x1 L ∂f ∂xn a21 L a2 n dx%i (3.15) det = det ≠ 0. M O M dx j n x = x 0 ∈R an1 L ann Если Df
x0
≠ 0, то вещественные числа aij (i = 2, n, j = 1, n) можно выбрать таким
образом, чтобы якобиан был отличен от нуля. В этом случае преобразование (3.14) обратимо и по теореме о неявной функции имеет место равенство (3.13). Пример 3.1. Пусть в системе координат ( x1 , x2 ) функция f ( x ) имеет вид f ( x ) = 2 x1 x2 . (3.16) Сделаем замену переменных:
x%1 = 2 x1 x2 ;
(3.17)
x%2 = x2 .
(3.18)
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
285
Рассмотрим окрестность точки x0 = ( x10 , x20 ) , причем x20 ≠ 0. В этом случае якобиан преобразования T
2x 2 x10 dx%i = det 20 = 2 x20 ≠ 0. 0 1 dx1 Перепишем уравнение (3.17) и (3.18) в следующем виде: f1 ( x, x% ) = ( x%1 − 2 x1 x2 ) = 0; det
f 2 ( x, x% ) = ( x%2 − x2 ) = 0.
(3.19) (3.20)
Согласно теореме 3.1 о неявной функции выделим из (3.19) и (3.20) координаты x1 и x2 как функции
от переменных ( x%1 , x%2 ) . Хотя это легко можно сделать и алгебраически, но мы сделаем полные выкладки. Имеем
Тогда (3.19) и (3.20) примут вид
x1 = g1 ( x% ) ;
(3.21)
x2 = g 2 ( x% ) .
(3.22)
f1 ( g ( x% ) , x% ) = 0;
(3.23)
f 2 ( g ( x% ) , x% ) = 0.
(3.24)
Взяв полную производную в (3.23) и (3.24) по x% , получим df ( g ( x% ) , x% ) dx%
=
∂f ( x, x% ) ∂x%
+ x = g ( x% )
∂f ( x, x% ) ∂g ( x% ) = 0, ∂x x = g ( x% ) ∂x%
(3.25)
⎛ ∂g ( x% ) ⎞ Т где f = [ f1 , f 2 ] . Разрешая (3.25) относительно ⎜ ⎟ , получим ⎝ ∂x% ⎠ ⎛ ∂g1 ( x% ) ⎜ ⎜ ∂x%1 ⎜ ∂g ( x% ) ⎜⎜ 2 ⎝ ∂x%1
∂g1 ( x% ) ⎞ −1 ⎟ −1 ∂x%2 ⎟ ⎛ ∂f ( x, x% ) ⎞ ⎛ ∂f ( x, x% ) ⎞ ⎛ −2 x2 −2 x1 ⎞ ⎛ 1 0⎞ = − ⎜⎜ = −⎜ ⎟ ⎜ ⎟ ⎟ ⎜ ⎟= ⎟ ⎜ ⎟ % 0 1 0 1⎠ − x x ∂ ∂ ∂g 2 ( x% ) ⎟ ⎝ ⎠ ⎝ ⎝ ⎠ x = g x% ⎝ ⎠ x = g ( x% ) % ⎟⎟ x g x = ( ) ( ) ∂x%2 ⎠ g ( x% ) ⎞ g ( x% ) ⎞ ⎛ 1 ⎛ 1 − 1 − 1 ⎜ ⎟ ⎛ 1 0⎞ ⎜ ⎟ g 2 ( x% ) ⎟ ⎜ g 2 ( x% ) ⎟ , = ⎜ 2 g 2 ( x% ) ⎟ = ⎜ 2 g 2 ( x% ) 0 1 ⎝ ⎠ ⎜ ⎜ 0 1 ⎟⎠ 1 ⎟⎠ ⎝ ⎝ 0 или в координатной форме: ∂g1 ( x% ) 1 = ; ∂x%1 2 g2 ( x )
(3.26)
∂g1 ( x% ) g ( x% ) =− 1 ; ∂x%2 g 2 ( x% )
(3.27)
∂g 2 ( x% ) = 0; ∂x%1
(3.28)
∂g 2 ( x% ) = 1. ∂x%2
(3.29)
Интегрируя (3.29), с учетом (3.28) получим x2 = g 2 ( x% ) = x%2 + c1.
(3.30)
C учетом того, что f ( g ( x% ) , x% ) = 0, из (3.18) получим c1 = 0. В этом случае два уравнения (3.26) и
(3.27) в частных производных приводятся к следующему виду: ∂g1 ( x% ) 1 = ; ∂x%1 2 x%2 ∂g1 ( x% ) g ( x% ) =− 1 . ∂x%2 x%2
(3.31) (3.32)
Из (3.31), (3.32) легко находим
x1 = g1 ( x% ) =
x%1 . 2 x%2
(3.33)
286
Методы современной теории автоматического управления
Ранее было получено
x2 = g 2 ( x% ) = x%2 + c1.
(3.34)
Выражения (3.33), (3.34) определяют переход от координат ( x1, x2 ) к ( x%1, x%2 ) , причем в координатах
( x%1, x%2 ) имеем x% f% ( x% ) = f ( x ) = 2 x1 x2 = f ( g ( x% ) ) = 2 1 x%2 = x%1. 2 x%2 т.е. получен канонический вид (3.13)
В том случае, если в некоторой точке x0 D f
x0
(3.33)
= 0, а f ( x ) имеет смысл потен-
циальной функции, то эта точка характеризует состояние равновесия (устойчивого или неутойчивого) и ее называют критической. При этом тип равновесия определяется собственными значениями матрицы устойчивости, или матрицы Гессе в точке x 0 ∂2 f ( x) ∂xi ∂x j
Gf ( x0 ) =
Так как D f
x0
.
(3.35)
x0
= 0, то условия применимости теоремы о неявной функции не вы-
полняются, поэтому f ( x ) не может быть представлена в канонической форме (3.13). Однако если
det ( Gf ( x0 ) ) ≠ 0,
(3.36)
то лемма Марстона Морса гарантирует существование гладкой замены переменных, такой, что f ( x ) локально (в окрестности U x0 ) может быть представлена квадратичной формой f ( x ) = f ( x ( y ) ) = f% ( y ) = f ( x0 ) − y12 − y22 − K − yh2 + yh2+1 + K + yn2 .
(3.37)
Число отрицательных членов f% ( y ) называется индексом функции Морса, саму функцию называют h-м морсовским седлом и обозначают M hn ( y ) . Если h = 0, то в точке x 0 = 0 достигается минимум f ( x ) , если h = n, то соответственно максимум. Такого рода точки x0 , где D f
x0
= 0, det Gf ( x0 ) ≠ 0, называют критическими не-
вырожденными точками. Если все критические точки функции f ( x ) являются критическими невырожденными, то функция f ( x ) называется морсовской. Далее мы рассмотрим лемму Морса, но прежде нам необходимо ознакомиться с широко используемой в дифференциальной геометрии и топологии леммой о представлении гладких функций. Лемма 3.1 (о представлении гладких функций) [37, 180]. Пусть f — C r +1 -функция ( r ≥ 0 ) (имеет производные до ( r + 1 ) порядка), заданная на выпуклой окрестности Vx0 точки x0 в R n . Тогда существуют такие C r -функции gi : Vx0 → R1 , i = 1, n, что n
f ( x ) = f ( x0 ) + ∑ gi ( x ) ( xi − xi 0 ),
(3.38)
i =1
причем
gi ( x0 ) = До казательство . Положим
∂f ( x0 ) . ∂xi
(3.39)
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
287
1
∂f ( x0 + t ( x − x0 ) ) dt. ∂xi 0
gi ( x ) = ∫
(3.40)
Это всегда можно сделать, так как x ∈Vx0 , а Vx0 — выпуклая окрестность точки x0 . Применяя элементарные преобразования анализа, получаем 1 1 ∂f ( x 0 + t ( x − x 0 ) ) ⎛ h ⎞ ∂f f ( x ) − f ( x0 ) = ∫ dt = ∫ ⎜ ∑ ( xi − xi 0 ) ( x 0 + t ( x − x 0 ) ) ⎟ dt = dt x ∂ i ⎠ 0 0 ⎝ i =1 1
n
n ∂f x 0 + t ( x − x 0 ) ) dt = ∑ ( xi − xi 0 ) g i ( x ), ( ∂xi i =1 0
= ∑ ( xi − xi 0 ) ∫ i =1
что и требовалось доказать.
Пример 3.2. Рассмотрим гладкую функцию f : R → R f ( x ) = x3 + 3 x 2
(3.41)
и найдем ее представление (3.38) в окрестности точки x0 = 1. Имеем ∂f df ( x ) = = 3 x 2 + 6 x. ∂x dx Найдем функцию g1 ( x ) . Согласно (3.40), получим 1
g1 ( x ) = ∫ 3 (1 + t ( x − 1) ) + 6 (1 + t ( x − 1) ) dt = ( x − 1) + 6 ( x − 1) + 9, 2
2
0
тогда f ( x0 ) = f (1) = 4 и представление имеет вид f ( x) = 4 +
(( x − 1)
2
)
+ 6 ( x − 1) + 9 ( x − 1) .
(3.42)
Это точное представление, так как раскрытие скобок формулы (3.42) дает (3.41).
Лемма 3.2 (лемма Морса) [37, 59, 171]. Пусть M n — гладкое многообразие (обобщенное понятие поверхности, см. подробнее главу 1) и пусть f : M n → R1 и x0 — невырожденная критическая точка функции f . Тогда в некоторой окрестности Vx0 точки x0 существует такая локальная система координат y1 ,K, yn , что yi ( x 0 ) = 0, i = 1, n и в Vx0 справедливо тождество
f ( x ) = f ( x ( y ) ) = f% ( y ) = f ( x0 ) − y12 − K − yh2 + yh2+1 + K + yn2 ,
(3.43)
где y1 ,K, yn — координаты точки y, а h — индекс функции f в точке x0 , т.е. число отрицательных членов в формуле (3.43). До каз ат ельство . Применим лемму 3.1 о представлении гладких функций к функции f ( x ) . Имеем n
f ( x ) = f ( x0 ) + ∑ gi ( x ) ( xi − xi 0 ),
(3.44)
i =1
где 1
∂f ( x0 + t ( x − x0 ) ) dt , ∂ xi 0
gi ( x ) = ∫
(3.45)
причем
∂f ( x0 ) , i = 1, n. ∂xi Так как x0 — критическая точка, то gi ( x 0 ) =
(3.46)
288
Методы современной теории автоматического управления
g i ( x 0 ) = 0, i = 1, n .
(3.47)
Применим к gi ( x ) вновь лемму о представлении гладких функций. Имеем n
∂f ( x 0 )( x i − x i 0 ) + ∂ i =1 x i
f (x) = f (x 0 ) + ∑ n
n
(
(3.48)
)
+ ∑∑ bij ( x ) ( x i − x i 0 ) x j − x j 0 , i =1 j =1
где 1
∂gi ( x0 + t ( x − x0 ) ) dt , i, j = 1, n . ∂x j 0
bij ( x ) = ∫
(3.49)
С учетом (3.47) представление (3.48) имеет вид n
n
(
)
f ( x ) = f ( x 0 ) + ∑∑ bij ( x ) ( x i − x i 0 ) x j − x j 0 . i =1 j =1
Сделаем замену переменных y% i = xi − xi 0 , i = 1, n. Тогда (3.50) можно записать в следующем виде: n
(3.50)
(3.51) n
f ( x ) = f ( x ( y% ) ) = f% ( y% ) = f ( x0 ) + ∑∑ b%ij ( y% ) y%i y% j .
(3.52)
% f% ( y% ) = f% ( y% ) − f ( x0 ) .
(3.53)
i =1 j =1
Обозначим Тогда n
n
% f% ( y% ) = ∑∑ b%ij ( y% ) y%i y% j .
(3.54)
i =1 j =1
Матрицу вторых частных производных b%ij ( y% ) сделаем симметричной, вводя замену
(
)
1 % b%ij = b%ij + b% ji , i, j = 1, n. 2
(3.55)
После чего получаем n
n
% % f% ( y% ) = ∑∑ b%ij ( y% ) y%i y% j .
(3.56)
% 1 ∂ 2 f% b%ij ( 0 ) = ( 0) 2 ∂y%i ∂y% j
(3.57)
i =1 j =1
Отметим, что
% и по определению матрица b%ij ( 0 ) невырождена, соответственно матрица b%ij ( 0 )
тоже невырождена. % Если бы функции b%ij ( y% ) были константами, то для доказательства теоремы (лем-
мы Морса) нам было достаточно привести квадратичную форму (3.56) к каноническому виду. В общем же случае процедура приведения состоит в следующем.
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
289
% ∂ 2 f% ( 0 ) ≠ 0 (это не снижает общности, так как линей∂y%12 % ным изменением координат всегда можно добиться этого), т.е. b%11 ( 0 ) ≠ 0. Тогда в
Пусть для определенности
некоторой окрестности точки y% 0 = 0 можно записать n
n
n
n
n
% % % % % f% ( y% ) = ∑∑ b%ij ( y% ) y%i y% j = b%11 ( y% ) y%12 + 2∑ b%i1 ( y% ) y%i y%1 + ∑∑ b%ij ( y% ) y%i y% j = i =1 j =1
i >1
i >1 j >1 2
⎛ ⎞ % n b%i1 ( y% ) % % y%i ⎟⎟ − = sign b%11 ( 0 ) ⎜⎜ b%11 ( y% ) y%1 + ∑ i >1 sign b%% ( 0 ) b%% ( y ⎜ ⎟ 11 11 % ) ⎝ ⎠ n n n n 1 % % % − b%i1 ( y% ) b%1 j ( y% ) y%i y% j + ∑ ∑ b%ij ( y% ) y%i y% j = %% % ∑∑ i >1 j >1 b ( y ) i >1 j >1
(3.58)
11
% % n n ⎛ b%i1 ( y% ) ⋅ b% j1 ( y% ) ⎞ % % ⎟ y%i y% j , = sign b%11 ( 0 ) y12 + ∑∑ ⎜ b%ij ( y% ) − %% % ⎜ ⎟ i >1 j >1 b11 ( y ) ⎝ ⎠ где новая координата y1 зависит от координат y%1 ,K, y% n % n b%i1 ( y% ) y% i % y1 = b%11 ( y% ) y%1 + ∑ . i >1 sign b%% ( 0 ) b%% ( y % ) 11 11
(3.59)
Матрица ⎛ ⎞ % b%i1 ( y% ) b% j1 ( y% ) ⎟ ⎜ %% (3.60) ⎜ bij ( y% ) − ⎟ , 1 < i, j ≤ n % b%11 ( y% ) ⎟ ⎜ ⎝ ⎠ невырождена в точке y% 0 = 0 и симметрична. Следовательно, мы сможем применить приведенное выше рассуждение к функции ⎛ ⎞ % n n b%i1 ( y% ) b% j1 ( y% ) ⎟ ⎜ %% ∑∑ ⎜ bij ( y% ) − %% ⎟ y%i y% j i >1 j >1 ⎜ b11 ( y% ) ⎟ ⎝ ⎠ и т.д., как в классическом алгоритме Лагранжа приведения квадратичной формы к каноническому виду. Пример 3.3. Рассмотрим функцию f ( x ) = x13 − 4 x1 + x1 x2 − x22 + x2 . Градиент этой функции
(
(3.61)
)
T
grad f ( x ) = 3 x12 − 4 + x2 ; − 2 x2 + x1 + 1 . Критические точки функции:
grad f ( x ) = 0; ⇒
(3.62)
∂f ∂f 1⎞ T ⎛ 7 (2) = 0; = 0; x(1) ⎟. 0 = (1,1) , x 0 = ⎜ − ; − 12 ⎠ ∂x1 ∂x2 ⎝ 6
Рассмотрим критическую точку x0 = x(1) 0 . В данной точке гессиан функции f ( x ) 1⎞ ⎛ 6x det ( Gf ( x ) ) = det ⎜ 1 ⎟ = −12 x1 − 2 ⎝ 1 −2 ⎠
невырожден ( det G ( x0 ) = −14 ≠ 0 ) , поэтому данная критическая точка является невырожденной и изолированной, а по лемме Морса ее можно представить некоторой квадратичной формой в каноническом виде. Получим это представление.
290
Методы современной теории автоматического управления
Сначала найдем функции gi ( x ) , i = 1, 2 (формула (3.40)) 1
∂f ( x0 + t ( x − x0 ) ) dt. ∂ xi 0
gi ( x ) = ∫
(3.63)
Имеем 1
g1 ( x ) = ∫ 3 (1 + t ( x1 − 1) ) − 4 + (1 + t ( x2 − 1) ) dt = x12 + x1 + 2
0
x2 5 − . 2 2
Согласно (3.48) найдем коэффициенты для квадратичной формы: 1
1
1
1
1
1
1
1
∂g1 ( x0 + t ( x − x0 ) ) dt = ∫ 2 (1 + t ( x1 − 1) ) + 1 dt = x1 + 2; ∂x1 0 0
b11 ( x ) = ∫
(
)
∂g1 ( x0 + t ( x − x0 ) ) dt = ∫ 12 dt = 12 ; ∂x2 0 0
b12 ( x ) = ∫
∂g 2 ( x0 + t ( x − x0 ) ) dt = ∫ 12 dt = 12 ; ∂x1 0 0
b21 ( x ) = ∫
∂g 2 ( x0 + t ( x − x0 ) ) dt = ∫ ( −1) dt = −1. ∂x2 0 0
b22 ( x ) = ∫ Итак, имеем матрицу
⎛ x + 2 1 2⎞ B (x) = ⎜ 1 ⎟. −1 ⎠ ⎝ 12
Заметим, что ⎛ 3 1 2⎞ 1 B ( x0 ) = ⎜ ⎟ = Gf ( x0 ) . ⎝1 2 −1 ⎠ 2 Получено следующее представление функции f ( x )
( с учетом
)
gi ( x 0 ) = 0, i = 1, 2, f ( x0 ) = −2 :
f ( x ) = −2 + ( x1 + 2 )( x1 − 1) + ( x1 − 1)( x2 − 1) − ( x2 − 1) . (3.64) Если раскрыть скобки в (3.64), то получим искомое выражение (3.61), т.е. представление квадратичной формы (3.64) выполнено верно. Введем замену переменных: (3.65) y%1 = x1 − x10 = x1 − 1; 2
y% 2 = x2 − x20 = x2 − 1.
2
(3.66)
Тогда x1 = y%1 + 1; x2 = y% 2 + 1. Подставляя (3.67) в (3.64), получим f% ( y% ) = −2 + ( y%1 + 3) y%12 + y%1 ⋅ y% 2 − y% 22 . Матрица ⎛ y% + 3 1 2 ⎞ B% ( y% ) = ⎜ 1 ⎟ −1 ⎠ ⎝ 12
(3.67)
(3.68)
% является симметрической, поэтому B% ( y% ) = B% ( y% ) . Обозначим % f% ( y% ) = f% ( y% ) + 2. Тогда имеем % (3.69) f% ( y% ) = ( y%1 + 3) y%12 + y%1 y% 2 − y% 22 . Приведем квадратичную форму (3.69) к каноническому виду. Согласно (3.59) введем замену координат ⎛ ⎞ y% 2 ⎟, (3.70) y1 = ⎜ y%1 + 3 y%1 + ⎜ 2 y%1 + 3 ⎟⎠ ⎝ % где sign b% ( 0 ) = 1. После замены имеем 11
⎛ 1 ⎞ 2 % f% ( y% , y1 ) = y12 + ⎜⎜ −1 − ⎟⎟ y% 2 . % y 4 1 +3 ⎠ ⎝
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
291
Обозначив
y2 = 1 +
1 y% 2 , 4 y% + 3
(3.71)
окончательно получим f€( y ) = y12 − y22 . (3.72) С точностью до перестановки индексов (сначала идут положительные, затем отрицательные члены) мы получили каноническую квадратичную форму индекса 1. Если сделать обратную замену, то имеем следующую цепочку: % f€( y ) = f€( y ( y% ) ) = f% ( y% ) = f% ( y% ) + 2 = f% ( y% ( x ) ) + 2 = f ( x ) + 2. Действительно, f€ ( y ( y% ) )
=
⎛ sign b%11 ( 0 ) ⎜ ⎜ ⎝
2
⎞ ⎛ ⎞ 2 1 ⎟ − ⎜1 + ⎟⎟ y% 2 = ⎜ ⎟ % 2 y%1 + 3 ⎠ ⎝ 4 y1 + 3 ⎠ 2 (2.65), (2.66) y% 2 1 = ( y1 + 3) y%12 + y%1 ⋅ y% 2 + − y% 22 − = ( x1 + 2 )( x1 − 1)2 + 4 y1 + 3 4 y%1 + 3
(2.70), (2.71)
y% 2
y%1 + 3 +
+ ( x1 − 1)( x2 − 1) − ( x2 − 1) = f ( x ) − f ( x 0 ) = f ( x ) + 2, т.е. представление выполнено верно. 2
Следствие 3.1 (леммы Морса) [171]. Всякая невырожденная критическая точка функции f изолирована в множестве всех критических точек этой функции, т.е. обладает окрестностью, свободной от других критических точек. Критические точки имеют большую ценность, чем регулярные (некритические), так как именно они в основном характеризуют глобальные качественные изменения в поведении функции f ( x ) . Рассмотрим морсовскую функцию f M ( x ) , x ∈ R1 , имеющую вид (рис. 3.3). fm ( x )
x x 0( ) 1
3 x 0( )
2 x 0( )
Рис. 3.3. Морсовская функция с двумя «бассейнами» (областями притяжения) и аттракторами x0(1) , x0(2)
Здесь три критические изолированные точки, причем точки x0(1) , x0(2) имеют по морсовской классификации индекс «0», а x0(3) — индекс «1». Точки x0(1) , x0(2) являются аттракторами (множествами притяжения; в данном случае каждый состоит из одной точки), причем каждый со своим «бассейном» (областью притяжения) [14]. Важность критических точек состоит в том, что при переходе из одного «бассейна» в другой всегда необходимо проходить через критическую точку, имеющую другой морсовский тип. Следовательно, если f ( x ) имеет лишь изолированные критические точки (является морсовской) и координаты всех этих точек известны, можно определить все качественные изменения в поведении функции f ( x ) при условии, что известен тип каждой морсовской точки.
292
Методы современной теории автоматического управления
Немалую роль в поведении некоторых динамических систем играют критические вырожденные точки, наличие которых подчас приводит к внезапному качественному изменению состояния систем. Появление критических вырожденных точек D f x = 0, det Gf ( x0 ) = 0 обычно связано с погружением данной функции f ( x ) в 0
параметрическое семейство функций, т.е. f = f ( x, a ) , где a = ( a1 ,K, ak ) — вектор T
параметров. Перестройки качественной картины движения динамической системы, появление особенностей отображения у функции f ( x, a ) при плавном изменении параметров изучают теория бифуркаций (бифуркация — раздвоение), теория особенностей гладких отображений, а приложения этих теорий к исследованию скачкообразных реакций механических, физических, химических, биологических, экономических систем, систем управления и иных систем на плавное изменение внешних условий (управляющих параметров) получили название теории катастроф [15]. 3.1.4.
НЕМОРСОВСКИЕ ФУНКЦИИ. ЛЕММА РАСЩЕПЛЕНИЯ. ФУНКЦИИ КАТАСТРОФ
Определение 3.8. Критические точки функции
f (x),
в которых гессиан
det ( Gf ( x0 ) ) = 0, являются неизолированными вырожденными, или неморсовскими
критическими точками. Если функция f ( x ) зависит от одного или более управляющих параметров a1 ,K, a p , то матрица Гессе Gf ( x ) и ее собственные значения зависят от этих пара-
метров. В этом случае возможно, что при некоторых значениях управляющих параметров одно (или несколько) собственных значений матрицы G может (могут) обра-
титься в нуль. Если это так, то det ( Gf ( x0 ) ) = 0 и, следовательно, условие, необходимое для леммы Морса Df
x0
= 0, det ( Gf ( x0 ) ) ≠ 0, не выполняется и в точке равнове-
сия функция f ( x ) не может быть представлена в канонической форме (в виде квадратичной формы). Но, оказывается, можно найти каноническую форму функции f ( x ) , x ∈ R n и в неморсовской критической точке. Пусть в критической точке x0 = 0 (для определенности и без снижения общности) Df
x0
Пусть
= 0 и det ( Gf ( x0 ) ) = 0.
rank Gf ( x ) = n − l ,
(3.73)
т.е. матрица Гессе Gf ( x ) имеет l нулевых собственных значений ( l ≥ 1 ). В этом случае лемма Морса не применима, т.е. представление f ( x ) в виде квадратичной n ⎛ h ⎞ формы ⎜ − ∑ yi2 + ∑ y 2j ⎟ невозможно. ⎜ i =1 ⎟ j = h +1 ⎝ ⎠ Рене Том [299] показал, что в этом случае функцию f ( x ) можно также привес-
ти к некоторой канонической форме.
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
293
Лемма 3.2 (лемма расщепления). Пусть l собственных значений матрицы Гессе
(
Gf x0 , a0
) обращаются в нуль в точке ( x , a ) , x 0
0
(
= ( x10 ,K , xn 0 ) , a0 = a10 , K, a 0p T
0
). T
Тогда можно найти такую замену переменных x = x ( x% ) , что функция f ( x ) может быть представлена в виде суммы двух функций: неморсовской f NM , зависящей от координат x%1 ,K, x%l , которые являются гладкими функциями переменных ( x1 ,K , xn )
и параметров a10 ,K, a 0p , и морсовской f M , зависящей от x%l +1 ,K , x%n , которые являются гладкими функциями только искомых координат ( x1 ,K , xn ) , т.е.
(
)
f x, a0 = f ( x ( x% ) , a ) = f% ( x% , a ) =
(3.74) = f€NM x%1 x; a0 ,K, x%l x, a0 + f€M ( x%l +1 ( x ) ,K , x%n ( x ) ) . ( Назовем координаты x = ( x%1 ,K , x%l ) — неморсовскими, x€ = ( x%l +1 ,K , x%n ) — соот-
( ( )
(
))
ветственно морсовскими. Более того, если f = f ( x, a ) , x ∈ R n , a ∈ R p , то при p ≤ 5 (т.е. когда число параметров семейства не более 5), Р. Том показал [299], что (3.74) может быть представлено в следующем виде: ( ( f ( x, a ) = f% ( x% , a ) = f% ( x€, x; a ) = Cat ( x, a ) + f M ( x€) , (3.75)
(
)
T ( T где x = ( x%1 ,K, x%l ) , x€ = ( x%l +1 ,K , x%n )T , a = a1 ,K , a p ; ( ( ( Cat ( x, a ) = [Cat ] ( x ) + p ( x, a ) ,
f M ( x€) =
± x%l2+1
±
x%l2+ 2
±K±
x%n2
(3.76) (3.77)
(знак ± в (3.77), означает, что тип морсовского седла в точке x0 M hn ( x€0 ) может быть ( любым). Функцию Cat ( x, a ) называют функцией катастрофы, или просто катастрофой, l — число нулевых собственных значений матрицы Гессе Gf ( x0 ) (число ( неморсовских координат), p — число управляющих параметров, [Cat ]0 ( x ) — рос( ток катастрофы в точке x 0 = 0 (определение ростка функции будет дано ниже), ( p ( x, a ) — возмущение ростка. Из представления (3.75) и названия функций можно сделать предварительный вывод о том, что именно неморсовские функции «создают катастрофы», в чем мы далее убедимся. 3.1.5.
ВОЗМУЩЕНИЕ МОРСОВСКИХ И НЕМОРСОВСКИХ ФУНКЦИЙ. ЭЛЕМЕНТАРНЫЕ КАТАСТРОФЫ В чем же качественное отличие морсовских и неморсовских функций в их критической точке x0 ? Прежде всего в их реакции на возмущение. Пусть x0 = 0 — крити-
(
)
ческая точка f ( x ) . Пусть f x0 , a0 характеризует для критической точки x0 и некоторого значения вектора параметров a0 состояние равновесия. Для удобства возьмем x0 = 0, a0 = 0 (это всегда можно сделать, вводя соответствующую замену пере-
менных для сдвига начала координат). Возмущенная функция F ( x, a ) в окрестности
(
)
точки x0 , a0 ∈ R n × R P определяется следующим образом:
294
Методы современной теории автоматического управления F ( x, a ) = f ( x ) + p ( x; a ) ,
(3.78)
где f ( x ) — значение функции f в окрестности точки x0 = 0, p ( x; a ) — возмущение данной функции. Посмотрим, как ведет себя морсовская функция при возмущении. Пусть x ∈ R1 (скалярный аргумент) и f ( x ) = λx 2 (λ ≠ 0). (3.79) Разложим возмущение p ( x; a ) по степеням x в окрестности точки x0 = 0, a ∈V0 — окрестность точки a 0 = 0. p ( x; a ) = p ( 0, a ) +
∂p ∂2 p ⋅x+ 2 ⋅ x2 + K . ∂x (0;a ) ∂x (0;a )
Объединяя (3.79) и (3.80), получим возмущенную функцию ⎛ ⎞ ∂p ∂2 p ⎟ ⋅ x2 + K . ⋅ x + ⎜λ + 2 F ( x; a ) = p ( 0, a ) + ∂x (0;a ) ⎜ ∂x (0;a ) ⎟ ⎝ ⎠ Обозначим для удобства ∂p ∂2 p ∂i p p1 = ; p2 = 2 ; K; pi = i . ∂x (0,a ) ∂x (0,a ) ∂x (0,a )
(3.80)
(3.81)
(3.82)
Сделаем замену переменных x = y + B2 y 2 + B3 y 3 +K, (3.83) в результате которой из ряда (3.81) можно исключить члены выше второй степени. Покажем это. Сделав подстановку (3.83) в (3.81), с учетом (3.82) получим ⎧ y : Произвольная константа = p1 ; ⎪ 2 ⎪ y : Произвольная константа = p1 B2 + ( λ + p2 ) ; ⎪⎪ 3 (3.84) ⎨ y : 0 = p1 B2 + ( λ + p2 ) ⋅ 2 B2 + p3 ; ⎪ 4 2 ⎪ y : 0 = p1 B4 + ( λ + p2 ) ⋅ 2 B3 + B2 + p3 ⋅ 3B2 + p4 ; ⎪ M ⎪⎩
(
)
Если p1 = 0, то система уравнений, определяемая при членах выше второй степени y 3 , y 4 ,K , является линейной и может быть легко решена: p3 ⎧ ⎪ B2 = − 2 ( λ + p ) ; 2 ⎪ (3.85) ⎨ 2 5 p3 p4 ⎪B = − . ⎪ 3 8 ( λ + p )2 2 ( λ + p2 ) 2 ⎩ В этом случае все коэффициенты B2 , B3 ,K определены корректно, так как единственный множитель, который встречается в знаменателях, — это отличная от нуля сумма ( λ + p2 ) . Если же p1 ≠ 0, система уравнений может быть также разрешена и
коэффициенты B2 ( p1 ) , B3 ( p1 ) ,K зависят от p1 непрерывным образом. Существенным моментом является то, что, если λ ≠ 0, всегда может быть найдено гладкое обратимое преобразование (3.83), удаляющее все члены выше второй степени.
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
295
Таким образом, в новых координатах возмущенная функция F ( x, a ) примет вид F ( x ( y ) , a ) = p ( 0; a ) + p y + {( λ + p ) + p B } y 2 = p ( 0; a ) + p y + λ% y 2 . (3.86) 1
2
Сделав замену переменных y → y% = λ% y€ = y% +
1 2
12
1
y и перенося начало координат
p1 , 2 λ%
имеем p 2 ⎪⎫ ⎪⎧ F ( y€, a ) = ⎨ p ( 0; a ) − 1 ⎬ + λ% y€2 . (3.87) 2λ% ⎪⎭ ⎪⎩ Таким образом, возмущение функции одной переменной в морсовской критической точке не влияет на качественную природу этой функции и, хотя при этом критическая точка сдвигается, тип критической точки остается без изменения (рис. 3.4), т.е. морсовские функции структурно (качественно) устойчивы. f ( x)
x
x0 x0
Рис. 3.4. Возмущение функции в морсовской критической точке
Можно показать, что для x ∈ R n возмущение морсовского h-седла M hn ( y ) также не приводит к локальным качественным изменениям. Рассмотрим, что происходит, если возмущение действует в окрестности неморсовской критической точки. Из леммы расщепления (лемма 3.2) следует, что невозмущенная функция имеет вид ( f ( x ) = f NM ( x ) + f M ( x€) , (3.88) ( где x = ( x%1 ,K, x%l ) , x€ = ( x%l +1 ,K, x%n ) . Напомним, что матрица Гессе в точке x0 − Gf ( x0 ) имеет l нулевых собственных значений. Самое общее возмущение функции f задается следующей формулой (считаем, что p(0, a) = 0 ): n n n ( F ( x; a ) = f ( x ) + p ( x; a ) = ∑ pi xi + ∑∑ ±δij + pij xi x j + f NM ( x ) + i =1
i =1 j =1
(
)
(3.89)
+ члены третьей степени и выше, ⎧1, i = j , ∂p где δij = ⎨ pi = ∂xi ⎩0, i ≠ j;
; pij = (0;a )
∂p ∂xi ∂x j
. (0;a )
Можно показать [59, 60], применяя описанную выше процедуру нелинейного преобразования координат, что каноническая форма возмущенной неморсовской функции имеет вид
296
Методы современной теории автоматического управления ( F ( x ( y% ) ; a ) = F% ( y% ; a ) = F%NM ( y; a ) + F%M ( y€; a ) , (3.90)
где
( F%NM ( y; a ) = f NM ( y%1 ,K , y%l ) + p ( y%1 ,K , y%l ) ; l
l
(3.91)
l
p = ∑ p% i y%i + ∑∑ p% ij y%i y% j + K, pi = pi ( x0 , a ); i =1
(3.92)
i =1 j =1
F%M ( y€, a ) =
n
∑
i =l +1 T
p% i y%i +
n
∑ ± y%i2 ;
(3.93)
i =l +1
( y = ( y%1 ( x, a ) ,K , y%l ( x, a ) ) , y€ = ( y%l +1 ( x ) ,K, y% n ( x ) ) .
(3.94)
Напомним, что знак «±» в (3.93) указывает на любой тип морсовского h-седла M hn в данной критической точке. Из выражений (3.91)–(3.94) можно сделать следующие важные выводы.
(
)
Если в семействе функций f ( x; a ) встречается функция f x, a0 , имеющая неморсовскую критическую точку в x0 , то, согласно (3.90), для любой другой точки f ( x; a ) a ≠ a0 , близкой к f ( x; a ) , можно найти такую координатную систему, что
(
)
возмущенная функция f ( x; a ) = f x; a0 + p ( x ) может быть получена отдельным n
возмущением морсовской
∑ ±x%i2
i =l +1
и неморсовской f NM части функции f . Мы уже
выяснили, что возмущение морсовской функции (морсовской части) не вызывает качественных изменений. Возмущения же неморсовской части функции f ( x ) — кардинально меняет топологию этой функции. Покажем это. Но прежде обратим внимание на то, что f NM ( y%1 ,K , y%l ) не содержит члены 1-й и 2-й степени, так как по определению точка x 0 — критическая и выро( жденная, т.е. f NM ( y%1 ,K, y%l ) = f NM ( y ) включает члены 3-й степени и выше. Р. Том
изучил неморсовские критические точки с одной ( l = 1 ) и двумя ( l = 2 ) степенями ( вырождений и показал, что в канонической форме F%NM ( y; a ) может быть представлена ( в виде ростка неморсовской функции, называемого ростком катастроф, [Cat ]0 ( y ) и возмущения этого ростка. Если число управляющих параметров p ≤ 5, то для ( l = 1, l = 2 ) Р. Томом были получены следующие элементарные катастрофы (табл. 3.1). Пример 3.4. Рассмотрим неморсовскую функцию одной переменной x ( l = 1 ) в 1-м параметрическом семействе, т.е. рассмотрим росток элементарной катастрофы A2 (по табл. 3.1)
f NM ( x ) = x3 = [ Cat ]0 ( x ) .
(3.95)
Покажем, что каноническим возмущением для этого ростка является a1 x. Действительно, возмущение p ( x; a ) = p0 + p1 x + p2 x 2 + p3 x3 + p4 x 4 + K ,
где p0 = p ( 0; a ) , pi = ∂ p dx i
i (0, a )
(3.96)
, i = 1, 2,K .
Тогда FNM ( x; a ) = f NM + p ( x; a ) = p0 + p1 x + p2 x 2 + (1 + p3 ) x3 + p4 x 4 + K .
(3.97)
Если сделать замену переменных x = y + B2 y 2 + B3 y 3 + K,
(3.98)
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
297
то, так же как и в (3.84), в силу того, что коэффициенты (1 + p3 ) не являются малыми, а p0 , p1, p2 считаем малыми вблизи a 0 = 0, можно подстановкой (3.98) в (3.97) и выбором соответствующих коэффициентов pi , i = 2,3,K исключить все члены ряда (3.97), начиная с x 4. В этом случае имеем f%NM ( y ) + возмущение = p% 0 + p%1 y + p% 2 y 2 + y 3 .
(3.99) Таблица 3.1
Элементарные катастрофы Р. Тома l
1
2
Тип катастрофы
p
Росток [Cat ]0 ( x( )
( Возмущение p ( x; a )
A2
1
x3
a1 x
a = ( a1 , a2 ,K , a5 )
a1 x + a2 x 2
A±3
2
±x
A4
3
x5
a1 x + a2 x 2 + a3 x 3
A±5
4
± x6
a1 x + a2 x 2 + a3 x 3 + a4 x 4
A6
5
x7
a1 x + a2 x 2 + a3 x 3 + a4 x 4 + a5 x 5
D−4
3
x12 x2 − x23
a1 x1 + a2 x2 + a3 x22
D+4
3
x12 x2 + x23
a1 x + a2 x 2 + a3 x 2
D5
4
x12 x2 + x24
a1 x + a2 x2 + a3 x12 + a4 x22
D−6
5
x12 x2 − x25
a1 x + a2 x2 + a3 x12 + a4 x22 + a5 x23
D+6
5
x12 x2 + x25
a1 x + a2 x2 + a3 x12 + a4 x22 + a5 x23
E±6
5
x13 ± x24
a1 x1 + a2 x2 + a3 x1 x2 + a4 x22 + a5 x1 x22
4
Сделаем замену переменных в (3.99) (как в методе решения уравнения 3-й степени) p% y=z− 2, 3 получим f€ ( z ) + возмущение = q + q z + z 3 . 0
NM
1
(3.100)
Постоянная составляющая q0 не влияет на качественные изменения неморсовской функции, поэтому можно принять q0 = 0. Таким образом, возвращаясь к исходным обозначениям, имеем
[Cat ]0 ( x ) = x3
каноническое возмущение
→
x3 + a1 x.
(3.101)
Проанализируем свойства этого 1-параметрического семейства функций F ( x; a ) (рис. 3.5): 1) при a1 = 0 F ( x;0 ) имеет критическую вырожденную точку в x0 = 0; 2) при a1 < 0 F ( x; a ) имеет в плоскости две изолированные морсовские критические точки. При возрастании a1 эти две критические точки стремятся друг к другу и становятся вырожденной точкой при a1 = 0;
3) при a1 > 0 F ( x; a ) не имеет критических точек. В общем случае возмущение ростка катастрофы, имеющего вырожденную критическую точку, вызывает расщепление вырожденной точки на ряд невырожденных критических точек («морсификация»). Максимальное число изолированных критических точек, получаемых при возмущении ростка катастрофы, указывается в нижнем индексе ростка. Например, росток A2 может при возмущении иметь 2 изолированные критические точки.
298
Методы современной теории автоматического управления F ( x; a )
a1 > 0
a1 = 0
0
a1 < 0
x Рис. 3.5. 1-параметрическое семейство функций F ( x; a ) = x 3 + a1x
Отсюда можно сделать вывод: возмущение функции f ( x ) в неморсовской критической точке вызывает качественное изменение в поведении f ( x ) в окрестности данной критической точки. 3.1.6. УСТОЙЧИВОСТЬ. КАЧЕСТВЕННЫЕ ИЗМЕНЕНИЯ В СИСТЕМЕ Теория катастроф с самого начала пыталась дать ответ на вопрос: почему при плавном изменении некоторых параметров динамические системы вдруг качественно меняют свою динамику? Чтобы понять, почему данная наука смогла ответить на многие такие вопросы, необходимо сказать, что ее фундаментом стали следующие теории: • теория особенностей устойчивых гладких отображений (Уитни); • теория бифуркаций. В теории катастроф теория особенностей гладких отображений используется при
(
)
изучении качественных изменений гладких функций, т.е. отображений f ∈ C ∞ M n , R , а теория бифуркаций позволяет рассмотреть целое семейство таких функций, зависящих от управляющих параметров, которые могут плавно изменяться на некотором многообразии. Качественное изменение поведения динамической системы прежде всего связано с понятием устойчивости гладких отображений. Поэтому изложение мы начнем с раскрытия этого понятия. Здесь необходимо сказать, что такие изменения возможны только с изменением топологической картины фазовых траекторий. Топология, или как ее еще называют, «резиновая геометрия» не делает, например, различия между устойчивыми фокусом и узлом на плоскости. Здесь важно, что поведение двух систем с такими фазовыми портретами качественно одинаковое. Как же выразить на языке математики такую эквивалентность? Введем определения. Определение 3.9 [63]. Пусть f и f% — два элемента C∞ M n , N m . Назовем f и f%
(
)
эквивалентными, если существуют такие диффеоморфизмы (взаимнооднозначные
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
299
отображения, дифференцируемые вместе со своими обратными) g : M n → M n и h : N m → N m , что диаграмма f
Mn → Nm g↓ ↓h
(3.102)
f%
Mn
→ Nm
коммутативна. На языке локальных координат это трактуется следующим образом: если x% = g ( x ) — гладкая замена независимых координат на многообразии M n (подробнее о многообразиях см. главу 1), y% = h ( y ) — гладкая замена зависимых координат, тогда коммутативность диаграммы (3.102) означает, что справедливы следующие соотношения: h ( f ( x ) ) = f% ( g ( x ) ) , (3.103) или
( (
))
⎧ f% ( x% ) = h f g −1 ( x% ) ; ⎪ ⎪ M ⎨ ⎪ −1 % ⎪⎩ f ( x ) = h f ( g ( x ) ) .
(
(3.104)
)
Выражения (3.103), (3.104) говорят о том, что два отображения f : M n → N m и f% : M n → N m эквивалентны, если можно одно отображение преобразовать в другое при помощи гладкой замены независимых и зависимых переменных. Пример 3.5. Пусть M 2 — двухмерное многообразие (плоскость), вложенное в пространство R 3 с координатами: 1) ( x1 , x2 ) и 2) ( x%1 , x%2 ) (рис. 3.6). Отобразим многообразие M 2 в R 3 в многообразие
N 3 ⊂ R 3 (седло), используя отображения f и f% :
(
f
)
M 2 : ( x1 , x2 ) ∈ R 2 → N 3 : x1 , x2 , − x12 + x22 ∈ R 3 ; ) f
M 2 : ( x%1 , x%2 ) ∈ R 2 → N 3 : ( x%1 , x%2 , 2 x%1 x%2 ) ∈ R3 .
y3 = y%3 N
3
M2 x%2
x2
x%1 x1
y% 2
f
f%
y2
y1 y%1
Рис. 3.6. Изображение морсовского 1-седла M 12 зависит от выбранной системы координат Покажем, что отображения f и f% являются эквивалентными. Для этого, согласно формулы (3.103), надо найти диффеоморфизмы h и g .
300
Методы современной теории автоматического управления
Определим g : M 2 → M 2 следующим образом. Замена координат в пространстве независимых переменных: x +x x%1 = g1 ( x ) = 1 2 ; 2 − x1 + x2 . x%2 = g 2 ( x ) = 2 Отображение f : M 2 → N 3 y1 = f1 ( x ) = x1; y2 = f 2 ( x ) = x2 ; y3 = f3 ( x ) = − x12 + x22 . В координатах ( y1, y2 , y3 ) многообразие N 3 задается уравнением y3 = − y12 + y22 (седло). Отображение f% : M 2 → N 3 y%1 = f%1 ( x% ) = x%1; y% = f% ( x% ) = x% ; 2
2
2
y%3 = f3 ( x% ) = 2 x%1 x%2 .
В координатах ( y%1 , y% 2 , y%3 ) многообразие N 3 задается уравнением y%3 = 2 y%1 y% 2 (седло). 3
Найдем теперь отображение h : N → N 3 (замена координат в пространстве зависимых переменных) y + y2 y%1 = h1 ( y ) = 1 ; 2 − y + y2 y% 2 = h2 ( y ) = 1 ; 2 y%3 = h3 ( y ) = − y12 + y22 . Убедимся теперь, что полученные отображения действительно удовлетворяют, например, первому выражению (3.104). Имеем x%1 − x%2 ⎧ ; ⎪⎪ x1 = 2 g −1 ( x ) ⇒ ⎨ ⎪ x = x%1 + x%2 , 2 2 ⎩⎪ ⎧ x% − x% ⎪ y1 = 1 2 ; ⎪ 2 ⎪⎪ x% + x% f g −1 ( x% ) ⇒ ⎨ y2 = 1 2 ; 2 ⎪ 2 2 ⎪ ⎪ y3 = − ⎛ x%1 − x%2 ⎞ + ⎛ x%1 + x%2 ⎞ = 2 x%1 x%2 ⎜ ⎟ ⎜ ⎟ ⎪⎩ 2 ⎠ ⎝ 2 ⎠ ⎝
(
)
и, наконец,
( (
h f g −1 ( x% )
))
x%1 − x%2 x%1 + x%2 ⎧ ⎫ + ⎪ ⎪ 2 2 = x% ; ⎪ y%1 = ⎪ 1 2 ⎪ ⎪ ⎪ ⎪ ⎛ x%1 − x%2 ⎞ ⎛ x%1 + x%2 ⎞ ⎪ ⎪ −⎜ ⎟+⎜ ⎟ ⎨ ⎬ 2 2 ⎝ ⎠ ⎝ ⎠ ⎪ = f% ( x% ) , ⇒ ⎪ y% 2 = = x%2 ; 2 ⎪ ⎪ ⎪ ⎪ 2 2 ⎪ y% = − ⎛ x%1 − x%2 ⎞ + ⎛ x%1 + x%2 ⎞ = 2 x% x% ⎪ 3 1 2 ⎜ ⎟ ⎜ ⎟ ⎪⎩ ⎪⎭ 2 ⎠ ⎝ 2 ⎠ ⎝
что подтверждает правильность найденных преобразований.
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
301
Перейдем к понятию устойчивости отображений. Определение 3.10 [10]. Пусть
(
)
f ∈ C∞ M n , N m .
Отображение
(структурно) устойчивым, если существует такая окрестность W f C
∞
(M
n
,N
m
) , что всякое отражение
f
называется точки
f
в
f% ∈ W f эквивалентно f .
Иными словами, отображение f устойчиво, если всякое достаточно близкое отображение f% может быть превращено в f с помощью подходящих замен координат в прообразе и образе f% . Как же определить, когда для гладких отображений и, в частности, для гладких функций имеет место устойчивость? И здесь, прежде всего, необходимо найти тот атрибут отображения (функции), который отвечает за устойчивость. Таким атрибутом является росток отображений (функции), о котором мы ранее уже упоминали, теперь дадим ему определение. Определение 3.11 [63]. Пусть M n — гладкое многообразие и x — точка M n . Две гладкие вещественные функции f и g , определенные в некоторых окрестностях U x и Vx точки x, называются эквивалентными вблизи x, если они совпадают ( f = g ) в некоторой окрестности Gx ⊆ U x ∩ Vx . Замечание. Это отношение эквивалентности отлично от того, что дано в определении 3.9, и относится к определению ростка функции, а не устойчивости отображений. Пусть f : U x → R — гладкая функция, где U x — некоторая окрестность точки x. Тогда ростком функции f в точке x (обозначение [ f ]x ) называется класс эквивалентности функции по отношению к эквивалентности, введенной в определении 3.11. Про две функции из одного класса говорят, что они имеют общий росток в точке x. Графически это определение можно отобразить следующим образом (риc. 3.7). f ( x)
f
g
Gx x x Рис. 3.7. Функции f и g с общим ростком в точке x
Таких функций f и g , имеющих общий росток в точке x, может быть бесконечное множество, поэтому росток
[ f ]x
определяют как класс, т.е. как множество
однотипных (эквивалентных) функций по определенному выше отношению эквивалентности. По аналогии с эквивалентностью функций введем эквивалентность ростков функций.
302
Методы современной теории автоматического управления
Определение 3.12 [15]. Два ростка [ f ]x и ⎡⎣ f% ⎤⎦ гладких функций f : M n → R и x% f% : M n → R называются эквивалентными, если существуют ростки диффеоморфиз-
мов прообраза [ g ]x и образа [ h ] y , переводящие первый росток во второй ⎡⎣ f% ⎤⎦ = [ h ] y ⋅ [ f ]x ⋅ ⎡ g −1 ⎤ . ⎣ ⎦ x% x%
Определение 3.13 [15]. Росток [ f ]x гладкой функции f : M n → R в точке x ∈ M n называют устойчивым, если для сколь угодно малой окрестности U x точки x суще-
(
)
ствует окрестность W f функции f в C ∞ M n , R , в которой для любой функции f% ∈ W f в U x найдется такая точка x% , что росток ⎡⎣ f% ⎤⎦ эквивалентен ростку [ f ]x . x% Устойчивость функции в точке — это свойство ростка, а не функции [15]. Это свойство не теряется при изменении f , не затрагивающих хоть как-нибудь окрестность точки x. Правила нахождения ростков функции и определение их устойчивости будет рассмотрено ниже. 3.1.7. ТРАНСВЕРСАЛЬНОСТЬ И УСТОЙЧИВОСТЬ Теперь мы приступаем к изучению вопросов о том, что определяет структурную устойчивость, как определить ростки функций и найти наиболее универсальное возмущение для данного ростка функции. Начнем с фундаментального понятия, введенного Р. Томом, а именно с понятия «трансверсальность». Г.Э. Винкелькемпер назвал трансверсальность «ключом к открытию секретов многообразий». Существуют различные виды трансверсальности: трансверсальность многообразий, трансверсальность отображений и многообразий, трансверсальность отображений. В дальнейшем для нас наиболее важную роль будет играть трансверсальность отображений и многообразий, поэтому мы дадим определение именно этому понятию (по остальным видам трансверсальности см., например, [59, 60, 63, 172]). Определение 3.14 [60]. Пусть M n и N m — гладкие многообразия и f : M n → N m — гладкое отображение M n ⊆ R n , N m ⊆ R m . Пусть W — подмного-
образие в N m и x ∈ M n . Тогда говорят, что отображение f трансверсально многообразию W в точке x ∈ M n (обозначается f ∩ / W в x ), если выполняется одно из двух условий: (3.105) а) f ( x ) ∉ W ; б) f ( x ) ∈ W и TN m ( f ( x ) ) = TW ( f ( x ) ) + ( Df ) TM n ( x ) .
(3.106)
Условие б) говорит о том, что если f ( x ) ∈ W , то касательные пространства к W
( )
и f M n в точке x порождают пространство R m . Введенные условия трансверсальности позволяют определить структурную устойчивость или неустойчивость отображений и, в частности, функций. А именно: если отображение f трансверсально W в точке x, то оно будет трансверсальным W при малых возмущениях этого отображения [63, 299]. Сформулируем это в виде следующего факта. Утверждение 3.1 [63]. Если зависящее от параметра семейство отображений (функций) трансверсально данному многообразию, то для плотного множества зна-
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
303
чений параметра индивидуальные отображения (функции) также трансверсальны этому многообразию. Рассмотрим пример определения трансверсальности отображений и многобразий. Пример 3.6. Пусть W — одномерное многообразие (прямая), вложенное в R 3 и задаваемое коорди-
{
}
натно: W = x ∈ R 3 : x1 = 1, x2 = 2, x3 ⇔ (1, 2, x3 ) . Пусть M 2 = R 2 — двухмерное многообразие в R 3 (плос2
2
3
кость). Отобразим M = R в R , используя следующее отображение: f −( x12 + x22 ) ⎞ ⎛ 3 f : ( x1 , x2 ) ∈ R 2 → ⎜ 2 x1 , 3 x2 , e ⎟∈ R . ⎝ ⎠
(
( )
)
Тогда f M 2 и W пересекаются в точке x 0 = 1; 2; e −0,694 ∈ R3. В касательном пространстве к W в точке x 0 можно взять базисный вектор V3 = ( 0, 0, 1) . В касаT
( )
тельном пространстве к f M 2 в точке x 0 можно взять базисные векторы (рис. 3.8) V1 =
−( x12 + x22 ) ⎞ ∂ ⎛ −0,694 2 x1 , 3V2 , − e ⎜ ⎟ = 2; 0; e ∂x1 ⎝ ⎠x
(
)
T
;
0
−( x12 + x22 ) ⎞ ∂ ⎛ 4 −0,694 ⎞ ⎛ 2 x1 , 3 x2 , e ⎟ . ⎜ ⎟ = ⎜ 0; 3; − 3 e ∂x2 ⎝ ⎠ ⎠ x0 ⎝ T
V2 =
W = (1, 2, x3 )
x3
V3
M 2 = R2
x2 x1
x0
f
V3
V1 x2
x1
Рис. 3.8. Определение трансверсальности f и W (к примеру 3.6) Так как
⎡ 2 0 −e−0,694 ⎤ ⎢ ⎥ 4 det ⎢0 3 − e −0,694 ⎥ = 6 ≠ 0, ⎢ ⎥ 3 ⎢ ⎥ 1 ⎢⎣0 0 ⎥⎦
( ) трансверсально W
то векторы V1, V2 , V3 порождают пространство R 3. Следовательно, f M 2 точке их пересечения.
(
Пример 3.7. Пусть M = R = W , W ⊂ R 2 и f : R → R 2 , f ( x ) = x, x 2
)
в любой
(рис. 3.9) Тогда f ∩ / W для всех
ненулевых x. f можно возмутить сколь угодно мало и сделать f трансверсальным к W для всех x. А именно: f ( M ) ∩ / W = 0 (рис. 3.10, а), f ( M ) ∩ W в точках пересечения xi , i = 1,2 (рис. 3.10, б). Видно, что здесь f ( x ) является морсовской функцией, и теперь мы наглядно видим, а ранее показали это аналитически, что морсовские функции являются структурно устойчивыми.
3.1.8. МНОГООБРАЗИЯ КАТАСТРОФЫ И БИФУРКАЦИОННЫЕ МНОЖЕСТВА Рассмотрим семейство функций f : M n × A p → R, (3.107)
304
Методы современной теории автоматического управления
где M n — гладкое многообразие, M n ⊆ R n ; A p — другое гладкое многообразие, A p ⊆ R n ; R n — пространство состояний; R p — пространство управляющих параметров (управлений). f (M )
R2
f (M )
W
Рис. 3.9. Определение трансверсальности f и W (к примеру 3.7)
f (M )
f (M ) W
W x1
x2
б) f ( M ) ∩ / W в точках xi , i = 1, 2
а) f ( M ) ∩ W = ∅ ⇒ f ( M ) ∩ /W
Рис. 3.10. Возмущение отображения f (к примеру 3.7)
Определение 3.15 [172]. Многообразием катастрофы M # назовем подмножество в R n × R p , определяемое уравнением M # : Df ( x; a ) = 0,
(3.108)
т.е. это пересечение n гиперповерхностей в R n × R p : ∂f (3.109) M#: ( x; a ) = 0, i = 1, n. ∂xi Определение 3.16. Отображением катастрофы χ называется ограничение на M # естественной проекции π : Rn × R p → R p ,
т.е.
(
)
π x, A p = A p .
Определение 3.17. Особым множеством S называется подмножество в M #, состоящее из особых точек отображения χ, т.е. точек ( x, a ) ∈ M # , где χ является особым, т.е. rank Dχ < p.
Определение 3.18. Образ особого множества χ ( S ) ⊂ A p называется бифуркационным множеством и обозначается J B .
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
305
Особое множество S ⊂ M # и бифуркационное множество J B ⊂ A p имеют меру нуль в соответствующих пространствах, о чем свидетельствует следующая теорема. Теорема 3.2 (теорема Сарда) [63]. Пусть M n и N m — гладкие многообразия и f : M n → N m — гладкое отображение. Тогда множество критических значений f имеет меру нуль в N m. Из введенных определений, в частности, следует, что S — это множество точек ( x, a ) ∈ M # , в которых f ( x; a ) имеет вырожденную критическую точку, а значит J B — место, где меняется число и природа критических точек; ввиду структурной устойчивости (устойчивость относительно малых возмущений) морсовских функций такое изменение может произойти лишь при переходе через вырожденную критическую точку. Рассмотрим подробно пример, где определим все отображения и множества, которые были введены выше. Пример 3.8. Катастрофа A3 (катастрофа «сборки»): 1 4 1 x + a1 x + a2 x 2 . (3.110) 4 2 З а м е ч а н и е . Коэффициенты 1 4 и 1 2 взяты для удобства. Итак, последовательно определяем: 1. Многообразие катастрофы (множество критических точек) M # : Df ( x; a ) = x3 + a2 x + a1 = 0; (3.111) f ( x; a ) = [ Cat ]0 ( x ) + каноническое возмущение =
a1 = − a2 x − x 3. Любая точка p ∈ M
#
(3.112)
имеет следующие координаты:
( x, a2 , a1 ) = ( x, a2 , − a2 x − x3 ) . Это отображение:
( x, a2 ) → ( x, a2 , − a2 x − x3 ) .
R2 → M , 2.
(3.113) (3.114) #
Множество критических вырожденных точек (особое множество S ⊂ M ): 3 x 2 + a2 = 0, D 2 f ( x; a ) = 0;
(3.115)
6 x = 0, D f ( x; a ) = 0.
(3.116)
3
Точка сборки Многообразие катастрофы M # Линия складок
х
— Отображение катастрофы х
a2
0
A2
I a1
a2
a1
IB
III
II
Рис. 3.11. Многообразие катастрофы и бифуркационное множество элементарной катастрофы A3
306
Методы современной теории автоматического управления f ( x)
a2
x f ( x)
f ( x)
I
x
x
0 II
f ( x)
IB
a1
f ( x) x
x f ( x)
III
x
Рис. 3.12. Бифуркационное множество J B и вид функции f ( x; a )
при разных значениях параметров ( a1 , a2 ) : I — 1 критическая точка; II — 2 критические точки; III — 3 критические точки Из (3.115) получаем точки пространства управляющих параметров, которые определяют вырожденную критическую точку на S ⊂ M # ( l = 1 ): (2.111)
3.
a2 = −3 x 2 ⇒ a1 = 2 x3 . Если исключить x ∈ S из (3.117), то получим 3
(3.117)
2
⎛ a2 ⎞ ⎛ a1 ⎞ (3.118) ⎜ ⎟ + ⎜ ⎟ = 0. ⎝ 3 ⎠ ⎝2⎠ Уравнение (3.118) определяет часть бифуркационного множества J B . Оставшуюся часть найдем из
выражения (3.116) для дважды вырожденных точек ( l = 2 ). Имеем (2.115)
(2.111)
6 x = 0 ⇒ x = 0 ⇒ a2 = 0 ⇒ a1 = 0.
(3.119)
Итак, бифуркационное множество (сепаратриса управляющих параметров) J B состоит из точки
( a1, a2 ) = ( 0,0 ) (точка сборки) и кривой складок, описываемой уравнением (3.118) (рис. 3.11). f ( x; a ) в разных областях пространства управляющих параметров A2 имеет вид (рис. 3.12). 3.1.9.
Функция
ТОПОЛОГИЯ УИТНИ. ЭКВИВАЛЕНТНОСТЬ (УСТОЙЧИВОСТЬ) ФУНКЦИЙ С ТОЧКИ ЗРЕНИЯ ТЕОРИИ НЕПРЕРЫВНЫХ ГРУПП
Цель этого параграфа — ввести топологию на множестве гладких отображений (гладких функций). Все понятия эквивалентности отображений (функций), которые мы ввели ранее, определялись тем, что нелинейной заменой координат можно одно отображение перевести в другое. Но конечные нелинейные преобразования достаточно сложны и трудно реализуемы. Можно ли найти какой-нибудь инфинитезимальный, т.е. работающий с бесконечно малыми преобразованиями, аналог такой нелинейной процеду-
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
307
ры, который бы позволил относительно просто решать задачу приведения гладкой функции к каноническому виду? Такой анализ был найден, для чего использовались k-струи гладких отображений (функций). Напомним (см. п. 3.1), что k-струя в точке x 0 = 0 (для определенности) j k f ( x ) — это усеченный ряд Тейлора отображения f в точке x 0 = 0 до членов порядка k включительно.
Определение 3.19 [63]. Пусть M n и N m — гладкие многообразия и x0 ∈ M n. Пусть f , g : M n → N m — гладкие отображения, удовлетворяющие условию f ( x0 ) = g ( x0 ) = y 0 .
1.
f имеет касание первого порядка с g в точке x0 , если Df n
бражение Tx0 M → Ty0 N 2.
m
x0
= Dg x как ото0
(т.е. как отображение касательных пространств).
f имеет касание k-го порядка с g в точке x0 , если Df : TM n → TN m имеет ка-
сание ( k − 1) порядка с отображением ( Dg ) в каждой точке Tx M n. Этот факт записывается следующим образом: « f ~ k g в точке x 0 » (k — положительное целое число).
(
3. Обозначим через J k M n , N m
)
x0 , y0
множество классов эквивалентности по отно-
шению « ~ k в точке x 0 » в пространстве отображений f : M n → N m , удовлетворяющих условию f ( x 0 ) = y 0 .
(
)
4. Сформулируем множество J k M n , N m =
(
Элементами множества J k M n , N m
)
∪
( x0 , y0 )∈M n × N m
(
Jk M n , N m
)
x0 , y0
.
являются k-струи в любой точке x 0 ∈ M n ,
причем каждый элемент jx0 f можно рассматривать как некоторый класс эквивалентности, т.е. набор элементов, которые эквивалентны друг другу по признаку «все функции, входящие в данный класс, имеют одинаковый усеченный ряд Тейлора до k-й степени включительно в данной точке x 0 ». Теперь на множестве гладких отображений можно ввести топологию. Определение 3.20. Пусть M n и N m — гладкие многообразия.
(
)
1. Обозначим через C ∞ M n , N m множество гладких отображений из M n в N m. 2. Фиксируем неотрицательное целое число k . Пусть U — некоторое подмножест-
(
)
во в J k M n , N m . Обозначим
{
(
)
M (U ) = f ∈ C ∞ M n , N m : j k f
x∈M n
}
⊂U .
(
)
3. Семейство множеств {M (U )} , где U — открытое множество в J k M n , N m , образует базис некоторой топологии на C
∞
(M
n
,N
m
).
Эта топология называется
k
C -топологией Уитни. Обозначим через Wk множество открытых подмножеств в
(
)
C ∞ M n , N m в C k -топологии Уитни. ∞
4. C ∞ -топологией Уитни называется топология, базисом которой является W = U Wk . k =0
308
Методы современной теории автоматического управления
(
) метрику d , совместимую с топологией. Открытая окрестность элемента f в пространстве C ( M , N ) в C -топологии Уитни B ( f ) ≡ {g ∈ C ( M , N ) : d ( j f ( x ) , j g ( x )) < δ ( x ) ∀ x ∈ M }. Семейство { B ( f )} образует базис окрестности точки f в C ( M , N ) в Введем на J k M n , N m
∞
∞
δ
n
m
n
k
m
k
k
n
∞
δ
n
m
C k -топологии Уитни. Мы можем представить себе Bδ ( f ) как множество гладких
отображений, у которых k частных производных δ близки к соответствующим производным f .
(
После введения топологии в пространстве C ∞ M n , N m
)
его можно рассматри-
вать как многообразия Фреше [63]. Более детально структуру и свойства этого многообразия мы рассматривать не будем (подробнее см. [63]). Главная же цель введенных понятий и множеств — это сформулировать инфинитезимальный критерий устойчивости отображений Джона Мазера, который позволит получить конструктивный алгоритм поиска ростка и деформации функции.
(
Так как C ∞ M n , N m
(
C∞ M n , N m
)
)
— гладкое многообразие, то можно рассмотреть на
действие непрерывных групп преобразований (диффеоморфизмов) (под-
робнее о группах см. главу 1)
( ) ( ) где Diff ( M ) ( соответственно Diff ( N ) ) — группа всех диффеоморфизмов многообразия M ( соответственно N ) . Это действие знакомо нам по диаграмме, определяющей эквивалентность двух отображений f и f% ∈ C ( M , N ) G = Diff M n × Diff N m ,
n
m
n
m
∞
M
f ⎯⎯ →
n
m
Nm
g↓ M
n
↓h f%
n
N m,
⎯ ⎯→
( )
( )
g ∈ Diff M n , h ∈ Diff N m ,
( g , h ) ∈ G.
(
)
Действие G на элемент f ∈ C ∞ M n , N m определяется равенством
( g, h) ⋅ f
= h ⋅ f ⋅ g −1 = f% ,
т.е. элемент группы G, действуя на f , переводит его в f% . Напомним определение (подробнее см. главу 1).
(
)
Определение 3.21. Орбитой точки f ∈ C ∞ M n , N m называется множество
{
(
)
}
G ⋅ f = f% ∈ C ∞ M n , N m : f% = ( g , h ) ⋅ f ∀ ( g , h ) ∈ G ,
(
)
т.е. орбита точки f — это всевозможные элементы, принадлежащие C ∞ M n , N m , которые могут быть получены действием на f всеми элементами группы G.
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
(
309
)
Лемма 3.3 (об устойчивости) [63]. Пусть f ∈ C ∞ M n , N m . Отображение f является устойчивым тогда и только тогда, когда орбита f под действием группы
( )
( )
(
)
G = Diff M n × Diff N m является открытым множеством в C ∞ M n , N m .
Это лемма говорит о том, что f% лежит в орбите f тогда и только тогда, когда f% эквивалентно f . Применение этого критерия для нахождения эквивалентных функций также затруднительно, в силу того что весьма сложно определить элемент группы G. Но можно линеаризовать группу, рассмотрев ее инфинитезимальные преобразования в окрестности тождественного преобразования. В этом случае решение во многих случаях будет намного проще. Используя фундаментальное свойство устойчивости трансверсальных к многообразиям отображений, Джон Мазер дал инфинитезимальный критерий устойчивости отображений (замены переменных). 3.1.10. ИНФИНИТЕЗИМАЛЬНАЯ УСТОЙЧИВОСТЬ. АЛГОРИТМ Д. МАЗЕРА Изложим алгоритм Д. Мазера [172, 284, 285]. Предположим, что мы имеем k-струю j k f ( x ) ряда Тейлора функции f в окрестности x0 = 0. Ясно, что j k f ( x ) — это
полином k-й степени. Если считать, что функция (полином) f% ( x ) = j k f ( x ) , то задачей является определение всех функций g ∈ C
∞
(M
(3.120) n
,N
m
),
эквивалентных
данной функции f% . Если сама функция f будет эквивалентна f% , тогда усечение ряда Тейлора не влияет на качественные изменения в поведение данной функции. Пусть x ∈ R. Рассмотрим однопараметрическую замену (действие однопараметрической группы X t ) координат (параметр t ). Пусть X t x = x + tq ( x ) , X 0 x = x,
где q (0) =
т.е. полином порядка 2. Функция
dq = 0, dx 0
f o Xt : x → f ( Xt x)
начинает изменяться с t. Мы хотим привести ее к более простому виду. Для этого рассмотрим как начинает смещаться ( k + 1 )-струя j k +1 ( f o X t x ) . Чтобы найти независимые смещения ( k + 1 )-струи в точке j k +1 f ( x ) , используем бесконечно малые преобразования. Имеем вектор касательного пространства в точке j k +1 f ( x ) v = lim
j k +1 ( f o X t x ) − j k +1 f ( x )
t →0
t
в пространстве ( k + 1 )-струй, который будем считать выходящим из точки j k +1 f ( x ) . Из свойств линейного разложения Тейлора вытекает, что v = lim
j k +1 ( f o X t x ) − f ( x )
t Если положить F ( x, t ) = f o X t x = f ( X t x ) , то t →0
.
310
Методы современной теории автоматического управления v = lim
t →0 k +1
Компонентами вектора j
j k +1 ( F ( x, t ) − F ( x,0 ) )
. t ( F ( x, t ) − F ( x,0 ) ) являются различные производные
по x. Так как F гладко (по построению), порядок дифференцирования можно изменить ⎛ f ( x + tq ( x ) ) − f ( x ) ⎞ F ( x, t ) − F ( x,0 ) ⎞ ⎛ k +1 v = j k +1 ⎜ lim (3.121) ⎟. ⎟ = j ⎜⎜ lim ⎟ t →0 t t ⎝ t →0 ⎠ ⎝ ⎠ Рассмотрим разложение в ряд Тейлора функции f ( x + tq ( x ) ) по степеням t в точке x. Имеем
f ( x + tq ( x ) ) = f ( x ) + tq ( x ) Df
x
+ t 2l ( x, t ) ,
(3.122)
где l ( x, t ) — гладкая функция (это не зависит от того, сходится этот ряд Тейлора или нет). Поэтому (3.121) с учетом (3.122) примет вид 1 ⎛ ⎞ v = j k +1 ⎜ lim f ( x ) + tq ( x ) Df x + t 2l ( x, t ) − f ( x ) ⎟ = j k +1 q ( x ) Df x . (3.123) → 0 t t ⎝ ⎠ df = q Df x , т.е. Таким образом, для M 1 = R1 v является конструкцией функции q dx ⎧ df ⎞ k +1 ⎛ ⎪⎪v = j ⎜ q ( x ) dx ⎟ , ⎝ ⎠ (3.124) ⎨ dq ⎪q ( 0 ) = ( 0 ) = 0. ⎪⎩ dx Для дальнейшего анализа алгоритма Мазера нам необходим некоторый дополнительный математический аппарат. Имея дело со струями, часто приходится производить «усеченные» алгебраические операции. Для данного многочлена p ( x ) , где x = ( x1 ,K, xn ) , мы назовем его
(
)
(
)
усечением до степени k (включительно), многочлен, образованный всеми членами k
p ( x ) , степени которых равны или меньше k . Это усечение обозначим через p ( x ) .
Например: 2
3x − 2 y + 7 xy + 9 x3 + 43 x 7 y = 3 x − 2 y + 7 xy. Фактически (напоминаем x 0 = 0 ) k
p ( x ) = j k p ( x ).
(3.125)
Фиксируем какое-нибудь значение k , и пусть p и q — произвольные многочлены. Тогда k
p + q = pk + q k . Для произведений соответствующая формула имеет вид
(3.126)
k
k
pq = p k q k . (3.127) На основании этого анализа мы сможем рассмотреть операции над k-струями: j k ( p + q ) = j k p + j k q; (3.128)
( )( j q ) ;
j k ( pq ) = j k p
k
k
(3.129)
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
311
k
jk ( j o q) = jk j o jk g (3.130) (струйный аналог «цепного правила»). «Цепное правило» — обобщенное правило дифференцирования сложных функций, суть которого состоит в следующем. Если f : R n → R m — дифференцируемое
отображение в точке, а g : R m → R p — дифференцируемое отображение в точке f ( x ) , то композиция отображений
g o f : Rn → R p ⇒ g o f = g ( f ( x ))
также является дифференцируемым отображением в точке x и ее производная находится по формуле D ( g o f ) x = Dg f ( x ) o Df x . С k-струями функций связан ряд векторных пространств (пространства k-струй), где элементами векторов являются соответствующие коэффициенты ряда Тейлора в точке x 0 = 0 :
{ } = { j f : все f : R → R c f ( 0 ) = 0}; I = { j f : все f : R → R c f ( 0 ) = 0, Df = 0}; M = { j f : все f : R → R порядка k (k ≥ 2); Enk = j k f : все f : R n → R ;
(3.131)
J nk
k
n
(3.132)
k n
k
n
(3.133)
0
k n
k
n
(3.134)
ряд Тейлора начинается с k -го элемента} .
(
Короткий комментарий. Пространство Enk совпадает с пространством J k Rn , R в обозначениях предыдущего параграфа;
J nk
не требует комментария;
I nk
)
— множе-
M nk
— множество k-струй функций, ство k-струй функции с критическими точками; у которых отсутствует начальный участок ряда Тейлора. С учетом алгебраических операций (3.128)–(3.130) вектор ν (3.124) касательного пространства можно записать следующим образом: ν= j
k +1 ⎛
df ⎞ k +1 k +1 df ⎜ q ( x) ⎟ = j q ( x) ⋅ j dx ⎠ dx ⎝
k +1
.
(3.135)
Струи j k +1q ( x ) образуют векторное пространство I1k +1, которое можно представить себе как пространство всех многочленов со степенями одночленов, заключенных между 2 и ( k + 1 ). Выбрав какой-нибудь базис в I1k +1, мы можем найти базис интересующего нас касательного пространства. Например, если полиномы p1 ( x ) ,K, pr ( x ) в I1k +1, тогда базис в касательном пространстве j k +1 f ( x ) будет df ⎞ ⎛ (3.136) j k +1 ⎜ pi ( x ) ⎟ , 1 ≤ i ≤ r. dx ⎠ ⎝ Из них можно отбросить те, которые после усечения оказываются линейными комбинациями других. Очевидно, базис в I1k +1 : x 2 , x3 ,K , x k +1. Возьмем для примера
I1k +1 ( k = 3 ). Предположим, что
j 4 f ( x ) = px 2 + qx3 + rx 4.
312
Методы современной теории автоматического управления
Тогда ⎛ df ⎞ j 4 ⎜ ⎟ ( x ) = 2 px + 3 px 2 + 4rx3 + αx 4 , ⎝ dx ⎠ где α зависит от 5-й производной f , которую нельзя определить по 4-струе. Выби-
рая x 2 , x3 , x 4 в качестве базиса для I1k +1, приходим к следующей системе образующих для касательного пространства к орбите струй j 4 f под действием группы замены переменных: p1 = j 4 ⎡ x 2 2 px + 3qx 2 + 4rx3 + αx 4 ⎤ = 2 px3 + 3qx 4 ; ⎣ ⎦ 4⎡ 3 2 3 4 ⎤ p2 = j ⎣ x (2 px + 3qx + 4rx + αx ) ⎦ = 2 px 4 ; p3 = j 4 ⎡ x 4 2 px + 3qx 2 + 4rx3 + αx 4 ⎤ = 0. ⎣ ⎦ Для p ≠ 0 получаем 1 x4 = ⋅ p2 . 2p
(
)
(
)
Д. Мазер показал, что если базис pi , i = 1, r позволяет получить любой одночлен степени ( k + 1 ) в виде линейной комбинации базисных элементов pi , i = 1, r с постоянными коэффициентами, тогда k-струя j k f ( x ) эквивалентна множеству функций j k f ( x ) + g ( x ) , где g ( x ) — полином порядка ( k + 1 ). В этом случае такую функцию называют k-определенной. Дадим точное определение. Определение 3.22. Функцию f ( x ) назовем k-определенной в точке х 0 (здесь принято х = 0 ), если для любой другой функции f% с той же самой k-струей суще0
ствует такая гладкая замена переменных, что f ( x ) = f% ( x% ( x ) ) . Нахождение k-определенности функции f ( x ) позволяет найти (если, конечно, это возможно) полином конечной и достаточно небольшой степени, эквивалентный f . Из этого следует, что если j k f ( x ) = f% ( x ) и f% ( x ) эквивалентна f ( x ) , то возможно усечение ряда Тейлора для функции f ( x ) до k-й степени включительно. В случае функций многих переменных f : R n → R общий касательный вектор к орбите ( k + 1 )-струи j k +1 f ( x ) будет [15] k +1 ⎛
k +1
∂f ⎞ n k +1 ⎛ ∂f ⎞ (3.137) γ = j ⎜ ∑ qi ( x ) ⎟ = ∑ Qi ( x ) j ⎜ ⎟ , ∂xi ⎠ i =1 ⎝ ∂xi ⎠ ⎝ i =1 где Qi — произвольный полином из I1k +1. Так как любой член порядка k и ( k + 1 ) в n
j k ( ∂f ∂xi ) исчезает после умножения на элементы Qi ( x ) порядка ≥ 2 и усечения
до ( k + 1 )-й степени, касательное пространство к орбите j k +1 f зависит только от многочленов j k +1 ( ∂f ∂xi ) . Итак, k-определенность функции f ( x ) , x ∈ R n означает, что каждое направление в M nk +1 (см. (3.134)) (ряд Тейлора начинается с ( k + 1 )-й степени) лежит в этом касательном пространстве. Алгоритмически это означает, что
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
313
k +1 ⎧n ⎫ ⎪ k +1 ⎛ ∂f ⎞ k +1 ⎪ (3.138) ⊂ ⎨∑ Qi ( x ) j ⎜ ⎟ : Qi ( x ) ∈ I n ⎬ . ⎝ ∂xi ⎠ ⎪⎩ i =1 ⎪⎭ Если (3.138) выполнено, то каждая гладкая функция g : R n → R порядка ( k + 1 ) может быть представлена в некоторой окрестности нуля ( х0 = 0 ) в виде
M nk +1
n
∂f
∑ qi ( x ) ∂x i =1
,
i
где qi ( x ) — гладкие функции порядка ≤ 2. Алгоритм Д. Мазера для вычисления k-определенности функции n-переменных [59, 284, 285]. 1. Вычислить полиномы ⎛ ∂f ⎞ Rij ( x ) = j k +1 ⎜ p j ( x ) ⎟ , i, j = 1, 2,K , (3.139) ⎝ ∂xi ⎠
{
{
}
}
где p j ( x ) — базис пространства I n k +1 : x12 ,K, xn2 , х1 х2 ,K, х1 хn ,K . 2. Функция f ( x ) будет k-определенной, если все одночлены ( k + 1 ) степени могут быть записаны в виде линейных комбинаций полиномов Rij ( x ) с постоянными коэффициентами, т.е. выполнено включение (3.138). Пример 3.9. Вычислить определенность функции ( х0 = 0 )
f (x) =
1 1 ( x1 + x2 )2 + x23. 2 3
(3.140)
Предположим, что k = 3, тогда ∂f ∂f = x1 + x2 , = ( x1 + x2 ) + x22 , p1 , p2 ,K = x12 , x1 x2 , x22 ,K . ∂x1 ∂x2 Найдем полином R11 ( x ) :
⎡ ∂f ⎤ ⎡ ⋅ p1 ( x ) ⎥ = j 4 ⎡⎣( x1 + x2 ) x12 ⎤⎦ = j 4 ⎢( x1 + x2 ) x12 + 3 x12 + 2 x1 x2 ⋅ x1 + x12 R11 ( x ) = j 4 ⎢ x2 + х0 = 0 х0 = 0 х0 = 0 ⎣ ⎣ ∂x1 ⎦ (3.141) + ( 6 x1 + 2 x2 ) х = 0 x12 + 4 x1 х = 0 x1 x2 + 0 х = 0 x22 + 4 х = 0 x12 x2 + 6 х = 0 x13 + 0 ⎤ = 4 x12 x2 + 6 x13 x12 x2 + x13 , ⎥⎦ 0 0 0 0 0 где знак означает равенство с точностью до некоторых постоянных множителей, не влияющих на базовый полином R11 ( x ) . Представление (3.141) говорит о том, что если разложение в ряд Тейлора произво-
(
)
дится в нуле x 0 = 0, то ( k + 1 )-струя для всех полиномов со степенью s ≤ k + 1 будет совпадать с самим полиномом. Это было показано для полинома ( x1 + x2 ) x12 . Рассмотрим случай, где s > k + 1. Например,
⎡ ∂f ⎤ R24 ( x ) = j 4 ⎢ p4 ( x ) ⎥ = j 4 ⎡ ( x1 + x2 ) + x22 x13 ⎤ = j 4 ⎡⎣( x1 + x2 ) x13 + x13 x22 ⎤⎦ = ( x1 + x2 ) x13 . ⎣ ⎦ ⎣ ∂x2 ⎦ 1 1 2 В табл. 3.2 приведены полиномы Rij ( x ) для функции f ( x ) = ( x1 + x2 ) + x23 . 2 3 Все множество одночленов степени k + 1 = 3 + 1 = 4 может быть выражено через Rij ( x ) . Действительно:
(
)
x24 = R23 ( x ) − R13 ( x ) ;
x1 x23 = R22 ( x ) − R12 ( x ) ;
x12 x22 = R21 ( x ) − R11 ( x ) ;
x13 x2 = R25 ( x ) − ( R21 ( x ) − R11 ( x ) ) ;
(
)
x14 = R24 ( x ) − R25 ( x ) − ( R21 ( x ) − R11 ( x ) ) .
Таким образом, функция f ( x ) в нуле является 3-определенной.
314
Методы современной теории автоматического управления Таблица 3.2 П о л и н о м ы Rij ( x ) д л я п р и м е р а 3 . 9
j
p j (x)
⎡ ∂f ⎤ Rij ( x ) = j 4 ⎢ p j ( x )⎥ ∂ x ⎣ 1 ⎦
⎡ ∂f ⎤ Rij ( x ) = j 4 ⎢ p j ( x )⎥ ∂ x ⎣ 2 ⎦
1
x12
2
x1 x2
( x1 + x2 ) x12 ( x1 + x2 ) x1 x2
3
x22
4
x13
5
x12 x2
6
x1 x22
7
x23
( x1 + x2 ) x12 + x12 x22 ( x1 + x2 ) x1 x2 + x1 x23 ( x1 + x2 ) x22 + x24 ( x1 + x2 ) x13 ( x1 + x2 ) x12 x2 ( x1 + x2 ) x22 x1 ( x1 + x2 ) x23
8
x14
↓
( x1 + x2 ) x22 ( x1 + x2 ) x13 ( x1 + x2 ) x12 x2 ( x1 + x2 ) x22 x1 ( x1 + x2 ) x23 0
0
↓
↓
3.1.11. ДЕФОРМАЦИЯ (УНИВЕРСАЛЬНЫЕ ВОЗМУЩЕНИЯ) ФУНКЦИИ Функции с неморсовскими критическими точками, к которым относится и ростки функции катастроф, могут устойчиво встречаться лишь в семействах функций, зависящих от одного или более управляющих параметров. Поэтому можно изучить возмущения на данную функцию с вырожденной критической точкой, вложив неморсовскую функцию f ( x ) в семейство функций F ( x; a ) : f = f ( x ) , x = ( x1 ,K , xn ) ,
(
F = F ( x; a ) , a = a1 ,K , a p
— вектор параметров
f ( x ) = F ( x;0 ) .
(3.142)
)
(3.143) (3.144)
Определение 3.23. Семейство функций F ( x; a ) называется р-мерной деформацией функции f ( x ) . Чем больше семейство функций, тем больше общие возмущения могут быть описаны. Можно ли найти такое семейство, которое, с одной стороны, достаточно велико, чтобы с его помощью можно было описать все возможные качественно различные возмущения f ( x ) , а с другой стороны, достаточно мало, чтобы с ним было легко работать? Такие возмущения были найдены. Определение 3.24 [172]. Заданная р-мерная деформация F ( x; a ) называется версальной, если любая другая деформация F% ( x% ; a% ) функции f ( x ) может быть получена из нее путем гладкой замены переменных: x%1 = x%1 ( x; a ) ; (3.145) a% j = a% j ( a ) , j = 1, p% , где p% не обязательно равно p.
Определение 3.25. Деформация F ( x; a ) называется универсальной деформацией
f ( x ) , если она является версальной и имеет минимальную размерность. Д. Мазер [284, 285] предложил алгоритм определения универсальной деформации (возмущения) функции (в теории катастроф — это ростки функции катастроф).
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
315
Алгоритм требует найти число, k-определенность функции f ( x ) , для того чтобы работать лишь с полиномом f% ( x ) = j k f ( x ) . При этом предполагается, что •
n j -последовательность одночленов от переменных x1 , x2 ,K , xl (l — число неморсовских переменных) степеней 0, 1, 2,K n j : 1; x1 , x2 ,K, xl ; x12 , x1 x2 ,K ;
•
(3.146)
F ( x; a ) является р-мерной деформацией полинома f% ( x ) .
Определим многочлены Tj (x) =
∂ k +1 j F ( x; a ) a=0 . aj
(3.147)
Кроме того, должны быть перечислены все многочлены вида: ⎧ ∂f% ⎫ Sij ( x ) = j k ⎨ n j ( x )⎬. x ∂ ⎩ i ⎭
(3.148)
Тогда, если все одночлены степени не выше k могут быть выражены в виде любые одночлены степени ≤ k = ∑ sij Sij ( x ) + ∑ t jT j ( x ), (3.149) i, j
j
где sij , t j — вещественные числа, то это означает, что F ( x; a ) является версальной деформацией f% ( x ) ; если T j ( x ) минимально, то F ( x; a ) — универсальная деформация полинома f% ( x ) . Полиномы T j ( x ) образуют минимальное множество тогда и только тогда, когда они линейно независимы. При нахождении канонической линейной (по T j ( x) ) формы универсальной деформации полинома f% ( x ) p
F ( x; a ) = f% ( x ) + ∑ a jT j ( x ) j =1
для определения параметров деформации a j может быть применена теорема о неявной функции. Пример 3.10. Вычислить универсальную деформацию функции (ростка катастрофы D+4 , см. табл. 3.1) f ( x ) = x12 x2 + x23 3. Ясно, что полином f% ( x ) = j 3 f ( x ) = f ( x ) = x12 x2 + x23 3. Функция f% ( x ) является 3-определенной. Имеем ∂f% ( x ) ∂f% ( x ) = 2 x1 x2 ; = x12 + x22 . ∂x1 ∂x2 Найдем полиномы Sij ( x ) (формула (3.148)). Ни один из одночленов первой степени x1 , x2 не может быть выражен в виде линейной комбинации Sij , поэтому полагаем T1 ( x ) = x1 , T2 ( x ) = x2 . Для одночленов второй степени в качестве базисных можно использовать S11 ( x ) = x1 x2 , S 21 ( x ) = x12 + x22 . Множество полиномов второй степени является линейным вектором пространства размерностью 3. Два базисных вектора S11 ( x ) , S 21 ( x ) уже есть. В качестве третье-
316
Методы современной теории автоматического управления
го вектора можно взять x12 , x22 или x12 − x22 . Возьмем T3 ( x ) = x22 . Все одночлены x13 , x12 x2 , x1 x22 , x23 ( k = 3 ) могут быть выражены с помощью полиномов Sij ( x ) . Например: x23 = S13 ( x ) − S12 ( x ) . Таблица 3.3
П о л и н о м ы Sij ( x ) д л я п р и м е р а 3 . 1 0
j
nj
⎡ ∂f% ⎤ S1 j ( x ) = j 3 ⎢ n j ( x )⎥ ∂ x ⎣ 1 ⎦
⎡ ∂f% ⎤ S2 j ( x ) = j 3 ⎢ n j ( x )⎥ ∂ x ⎣ 2 ⎦
0
1
x1 x2
x12 + x22
1
x1
x12 x2
x1 ( x12 + x22 )
2
x2
x1 x22
x2 ( x12 + x22 )
3
x12
0
0
↓
↓
↓
Таким образом, универсальной деформацией (с точностью до гладкой замены координат) f ( x ) будет
F ( x; a1 , a2 , a3 ) = x12 x2 +
x23 + a1 x1 + a2 x2 + a3 x22 . 3
3.1.12. РОСТОК ФУНКЦИИ КАТАСТРОФЫ Росток функции в точке x0 представляет собой результат двух процессов: использование управляющих параметров для удаления начальных членов разложения функции в ряд Тейлора и использование гладкой замены переменных для удаления крайних членов разложения. В действительности росток лежит между двумя линейными векторами пространства, конструируемыми в алгоритмах вычисления определенности и деформации (возмущений). Алгоритм нахождения ростка функции можно определить следующим образом [60, 285]: 1) найти k-определенность функции, после чего можно работать с полиномом f% ( x ) = j k f ( x ) ;
2) пусть Vk — линейное векторное подпространство, порождаемое всеми одночленами от x1 ,K, xe (переменные неморсовской функции степени) не выше k, при этом ( k + l )! ; dimVk = k !l ! 3) пусть VR — линейное векторное подпространство Vk , порождаемое всеми многочленами Rij ( x ) , получаемыми в алгоритме нахождения определенности;
4) пусть VD — линейное векторное подпространство, порожденное минимальным множеством T j ( x ) , получаемых в алгоритме деформации.
Тогда Vk − (VR ⊕ VD ) = Vk (VR ⊕ VD ) является линейным векторным пространством, порожденным первыми частными производными ростка f . Пример 3.11. Найти канонический (простейший) росток [ f ]0 ( x ) , связанный с функцией f ( x1, x2 ) = x12 x2 + x22 3 + x22 2, l = 2. Наша задача: найти определенность данной функции, что позволяет отбросить «хвост» порядка ( k + 1 ) всех функций, имеющих такую же k-струю, а затем в k-струе извлечь информацию об универсальной деформации. Остаток и есть росток данной функции.
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
317
Прежде всего, найдем полиномы Rij ( x ) и Sij ( x ) , связанные с нахождением k-определенности и деформации (возмущения). Данные функции приведены в табл. 3.4. Сразу заметим, что в данной таблице помещены полиномы Rij ( x ) и для базисных одночленов x1 , x2 , которые не используются для нахождения k-определенности данной функции, но необходимы в дальнейшем для определения размерности пространства VR . Функция f ( x ) является 4-определенной, 5 членов 5-й степени x1i x2j (i + j = 5, i = 0,5) из 6 непосредственно совпадают с отдельными полиномами Rij ( x ) (они заключены в штриховую рамку, например x25 = R2,13 (x) ), а оставшийся одночлен x15 = R26 ( x ) − R17 ( x ) − R13 ( x ) является линейной комбинацией Rij ( x ) . Полиномы для нахождения ростка функций f ( x ) = x12 x2 + x23 3 + x22 2. Перейдем к определению пространств Vk , VR , VD . Пространство Vk = V4 имеет размерность ( l = 2 ) dimVk =
( k + l )! = ( 4 + 2 )! = 15. k !l !
4!2!
Таблица 3.4 Ф у н к ц и и Rij ( x ) и Sij ( x ) д л я п р и м е р а 3 . 1 1 p j (x)
n j (x)
R1 j ( x ) =
S1 j ( x ) =
R2 j ( x ) =
S2 j ( x ) =
j
⎡ ∂f ⎤ = j5 ⎢ p j ( x )⎥ ⎣ ∂x1 ⎦
⎡ ∂f ⎤ n j ( x )⎥ = j4 ⎢ ⎣ ∂x1 ⎦
⎡ ∂f ⎤ p j ( x )⎥ = j5 ⎢ ⎣ ∂x2 ⎦
⎡ ∂f ⎤ = j4 ⎢ n j ( x )⎥ ⎣ ∂x2 ⎦
0
—
1
—
x1 x2 x12 x2
x12 + x22 + x2
—
1
x1
x1
x12 x2
2
x2
x2
x1 x22
x1 x22
x2 x12 + x23 + x22
x2 x12 + x23 + x22
3
x12
x12
x13 x2
x13 x2
x14 + x12 x22 + x12 x2
4
x1 x2
x1 x2
x22 x22
x22 x22
x14 + x12 x22 + x12 x2 x13 x2 + x1 x23 + x1 x24
5
x22
x22
x1 x23
x1 x23
6
x13
x13
x14 x2
0
7
x12 x 2
x13 x22
8
x12 x 2 x1x22
x1 x22
x12 x23
9
x23
x23
x1 x24
10
x14
x14
0
x14 x2
0
11
x13 x2
—
↓
x13 x22
↓
12
x12 x22
—
x12 x23
13
x1 x23
—
x1 x24
14
x24 x15
—
x25
15
↓
—
x13
+
x12 x2
x12 x22
+
+ x1 x2
x24
+
x23
x15 + x13 x22 + x13 x2 x14 x2 x13 x22
+ +
x12 x23
x22 x23 + x12 x22 x1 x24 + x1 x23 +
x25
+
x24
x13
+ x1 x22 + x1 x2
x12 x2 + x1 x23 + x1 x22 x12 x22 + x24 + x23
x13 x2 x12 x22
x1 x23 x24
0
↓ Для нахождения размерности пространства VR ⊂ V4 , базисом которого являются полиномы Rij ( x ) , представим базис пространства V4 в виде узлов некоторой сетки, где узлы определяют базисные одночлены V4 (произведения x1i x2i (i + j ≤ 4, i, j = 0, 4) ) (рис. 3.13). Прежде всего, найдем полиномы (одночлены) Rij ( x ) , которые в точности совпадают с некоторыми базисными одночленами V4 . Это одночлены Rij ( x ) , i = 1,5 (они обведены сплошной тонкой рамкой в табл. 3.4 и отмечены на рис. 3.13 черными кружками). Следующие базисные одночлены подпространства VR получены в виде линейной комбинации полиномов Rij ( x ) , в табл. 3.4 они обведены кружком, а на рис. 3.13 представлены белыми кружками. Имеем
318
Методы современной теории автоматического управления x24 = R2,9 ( x ) − R2,12 ( x ) − R2,14 ( x ) .
Заметим, что полином R2,8 ( x ) = R2,4 ( x ) + R2,13 ( x ) + R15 ( x ) , т.е. является линейной комбинацией других полиномов. Далее
x23 = R25 ( x ) − R14 ( x ) − ( R29 ( x ) − R2,12 ( x ) R2,14 ( x ) ) ;
x14 = R23 ( x ) − R14 ( x ) − R11 ( x ) ;
(
)
x22 = R22 ( x ) − R11 ( x ) − R25 ( x ) − R14 ( x ) − ( R2,9 ( x ) − R2,12 ( x ) − R2,14 ( x ) ) .
Других базисных одночленов мы получить больше не можем, но к 9 базисным одночленам мы можем добавить линейно независимый многочлен R21 ( x ) = x13 + x1 x12 + x1 x2 . Таким образом, размерность dim VR = 10.
x2
x24 x32 x22 x2 x1
x02 x10
x1
x12
x13
x14
Рис. 3.13. Базисные элементы пространства V4
Для определения размерности пространства VD необходимо дополнить базисные одночлены (черные
и белые кружки на рис. 3.13) пространства VR независимыми полиномами Sij ( x ) и получить размерность пространства полиномов Sij ( x ) . Это два одночлена x1 x2 = S10 ( x ) ; x13 = S 21 ( x ) − S12 ( x ) − S10 ( x ) .
На рис. 3.13 эти базисные элементы показаны треугольниками. Линейное подпространство V4 , порождаемое полиномами Sij ( x ) , определяется 11 базисными одночленами (черные и белые кружки и треугольники) и многочленом S 20 ( x ) = x12 + x22 + x2 . Дополнение к этому пространству в V4 имеет размерность 15 − 12 = 3 и порождается многочленами T j ( x ) . В качестве базисных векторов этого пространства VD выбираем три одночлена, 1, x1 , x12 (показаны
на рис. 3.13 прямоугольниками). Тогда пространство VR ⊕ VD порождается одночленами, изображенными на рис. 3.13 белыми и черными кружками и квадратами вместе с многочленом R21 ( x ) = x13 + x1 x22 + x1 x2 . Пространство V4 − (VD ⊕ VR ) имеет размерность 15 − (10 + 3) = 2 и порождается двумя линейно независимыми комбинациями из трех одночленов x13 , x1 x2 , x2 , которые также линейно независимы от R21 ( x ) . В качестве базисных векторов удобно взять пару одночленов x2 , x13 . Первые производные ростка [ f ]0 ( x ) порождают двухмерное пространство ∂ [ f ]0 ( x ) ∂x1
x13 ,
∂ [ f ]0 ( x ) ∂x2
x2 .
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы Следовательно,
[ f ]0 ( x ) = αx14 + βx22 ,
319
α ≠ 0, β ≠ 0
и f является 4-определенной. Как только определим знаки α и β, то с помощью обычного преобразования масштабов получим канонический росток вида ± x14 ± x22 . Матрица Гессе функции f ( x ) в точке x0 = 0 имеет вид Gf
0
⎛0 0⎞ =⎜ ⎟, ⎝0 1⎠
так что коэффициент β, связанный в ростке [ f ]0 ( x ) с x22 , должен быть положительным. Коэффициент α одночлена x14 должен быть отрицательным. Это может быть определено путем решения уравнения f ( x ) = 0. Линия корней и знаки функций в трех открытых областях, на которые эти линии корней разбивают пространство R 2 , изображены на рис. 3.14; функция f ( x ) имеет следующий вид: 2 ⎛ 1⎛ 3⎞ 3⎞ f ( x ) = x12 x2 + x23 3 + x22 2 = 0 = x2 ⎜ x12 + ⎜ x2 + ⎟ − ⎟ . ⎜ ⎟ 3 4 16 ⎝ ⎠ ⎝ ⎠
x2
I f ( x) > 0
С −1
−
B f ( x) < 0
1 2
−
1 2
D
f ( x) > 0
−1 3 − 2
II
f ( x) = 0 1 2
x1
1
A
III f ( x) < 0
Рис. 3.14. Корни уравнения f ( x ) = 0
Если взять α > 0, т.е. сделать
[ f ]0 ( x )
и соответственно f ( x ) положительно определенной функцией,
то из рис. 3.14 видно, что область G = {Ι U ΙΙ : f ( x ) > 0} состоит из двух компонент связности и любая +
деформация, соединяющая две точки из области I и II, например С и D, должна проходить через границу f ( x ) = 0. Это обстоятельство не позволяет сдеформировать любой росток αx14 + β x22 , α > 0, β > 0 непрерывным образом в функцию f ( x ) . Напротив, в области G − = {III : f ( x ) < 0} любые две точки, например А и В, могут быть продеформированы друг в друга, поэтому эта связная область и росток αx14 + β x22 , α < 0, β > 0 можно продеформировать непрерывно в f ( x ) . Таким образом, необходимо взять
росток [ f ]0 ( x ) < 0, т.е. отрицательно определенную функцию, и, следовательно, α < 0. Итак, окончательно канонический росток функции x3 x 2 f ( x ) = x12 x2 + 2 + 2 3 2 имеет вид [ f ]0 ( x ) = − x14 + x22 .
3.1.13
ПРИМЕР ИССЛЕДОВАНИЯ БИФУРКАЦИОННОГО ПОВЕДЕНИЯ ЛЕТАТЕЛЬНОГО АППАРАТА
Рассмотрим поведение симметричного реактивного летательного аппарата, для которого потеря устойчивости соответствует одной элементарной катастрофе [60, 289].
320
Методы современной теории автоматического управления
Переменные состояния: три компоненты угловой скорости x1 = ωx , x2 = ω y , x3 = ωz , x4 = α (угол атаки), x5 = β (угол скольжения), x ∈ R 5 .
Управляющие параметры: a ∈ R 2. В данном случае мы их обозначим так, как принято в теории управления — через u и назовем управлением. Итак, 1 (3.150) u1 = a1 = δ э = δ э л + δ э п , 2 где δ э л , δ э п — отклонение соответственно левого и правого элеронов;
(
1 (3.151) δв л + δв п , 2 — отклонение соответственно левого и правого рулей высоты. Таким обра-
(
u2 = а2 = δв =
δ в л , δв п
)
)
зом, имеем x ∈ R 5 , u( = a ) ∈ R 2 . Уравнения движения летательного аппарата имеют следующий вид: ___ x&i = f i ( x; u ) , i = 1,5, u ∈ R 2 ,
(3.152)
стационарное решение которого xi 0 = 0, i = 1,5; u j 0 = 0, j = 1, 2.
(3.153)
Разложим систему уравнений (3.152) в ряд Тейлора в окрестности стационарной точки ( x 0 = 0, u0 = 0 ). Имеем 5
∂f i j =1 ∂x j
3 3 ∂fi ∂ 2 fi uj + ∑∑ j =1 ∂u j j =1 k > j ∂x j ∂xk 2
x&i = ∑
xj + ∑ 0
0
5
x j xk , i = 1,3;
(3.154)
0
2
∂fi j =1 ∂x j
x&i = ∑
____ ∂f i u j , i = 4,5 . j =1 ∂u j
xj + ∑ 0
(3.155)
0
В разложении (3.154), (3.155) первая сумма представляет линейные аэродинамические составляющие, вторая сумма — линейные управляющие воздействия, третья сумма (3.154) учитывает инерционные параметры. Стационарные решения системы (3.154), (3.155) находим, полагая ____ x&i = 0, i = 1,5 ; 5
∂f i ∂ j =1 x j
3 3 ∂f i ∂ 2 fi uj + ∑∑ j =1 ∂u j j =1 k > j ∂x j ∂xk 2
0=∑
xj + ∑ 0
0
5
∂fi j =1 ∂x j
x j xk , i = 1, 3;
(3.156)
0
2
0=∑
∂f i u j. j =1 ∂u j
xj + ∑ 0
(3.157)
0
Обозначим для удобства ∂f i ∂x j
____
____
= Fij ; i = 4,5, j = 1,5 ;
(3.158)
0
____ ____ ∂f i ; j = 1, 2 , i = 1,5 ; ∂u j
(3.159)
0
∂ 2 fi ∂x j ∂xk
= Bi , jk . 0
(3.160)
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
321
Два уравнения (3.157) линейны по переменным x1 ,K, x5 . Используя их, выразим переменные x4 , x5 с учетом (3.158)–(3.160) в виде линейной комбинации управляющих параметров и остальных переменных x1 ,K, x3 . Подставляя эти выражения в (3.156), получим три нелинейных алгебраических уравнения 2 5 ⎧ ⎪0 = ∑U%1 j u j + ∑ F%1 j x j + B1,23 x2 x3 ; ⎪ j =1 j =1 ⎪ 2 5 ⎪ (3.161) ⎨0 = ∑U% 2 j u j + ∑ F%2 j x j + B2,31 x3 x1; j =1 j =1 ⎪ ⎪ 2 5 ⎪0 = U% u + F% x + B x x . ∑ 3j j ∑ 3j j 3,12 1 2 ⎪ j =1 j =1 ⎩ Константы U% ij , F%1 j получены при подстановке x4 и x5 в (3.156) и приведении подобных членов. Инерционные члены не изменяются, так как в их сумму не входят переменные x4 , x5 . Решим систему алгебраических нелинейных уравнений (3.161). Выразим из второго и третьего уравнений (3.161) переменные x2 , x3 через переменную x1 x2 =
где
Q2 ( x, u ) Q ( x, u ) ; x3 = 3 , Q1 ( x ) Q1 ( x, u )
(
)(
)
Q1 ( x ) = F%23 + B2,31 x1 F%32 + B3,21 x1 − F%22 F%33 ;
(3.162)
(3.163)
⎛ 2 ⎞ ⎛ 2 ⎞ (3.164) Q2 ( x, u ) = − ⎜ ∑U% 3 j u j + F%31 x1 ⎟ F%23 + B2,31 x1 + F%33 ⎜ ∑U% 2 j u j +F%21 x1 ⎟ ; ⎜ j =1 ⎟ ⎜ j =1 ⎟ ⎝ ⎠ ⎝ ⎠ ⎛ 2 ⎞ ⎛ 2 ⎞ Q3 ( x, u ) = − ⎜ ∑U% 2 j u j + F%21 x1 ⎟ F%23 + B2,31 x1 + F%22 ⎜ ∑U% 3 j u j +F%31 x1 ⎟ . (3.165) ⎜ j =1 ⎟ ⎜ j =1 ⎟ ⎝ ⎠ ⎝ ⎠ Подстановка (3.162)–(3.165) в первое уравнение (3.161) приводит к следующему алгебраическому уравнению:
(
)
(
)
2
0 = ∑U%1 j u j Q12 ( x ) + F%1 x1Q12 ( x, u ) + F%12Q1 ( x, u ) Q2 ( x, u ) + j =1
(3.166)
+ F%13Q1 ( x, u ) Q3 ( x, u ) + B1,23Q2 ( x, u ) Q3 ( x, u ) .
Это уравнение 5-й степени относительно переменной x = x1. Заметим, что Q1 ( x ) не завит от управляющих параметров (управлений). Рассмотрим конкретный числовой пример. Пусть (3.166) имеет вид (напомним, здесь обозначено u = a ) 5
0 = ∑ ak x k = grad Ф ( x; u ) = Ф′x ( x; u ) ;
(3.167)
k =0
a5 = −21,6; a4 = −326, 44u1; a3 = 50,3u2 + 358,9; a2 = 5412,6u1; a1 = 11752,8u2 − 1525,9; a0 = −23015u1. Выражение (3.167) определяет двухмерное многообразие (гиперповерхность), погруженное в трехмерное пространство R 3 с координатами ( x; u1; u2 ).
322
Методы современной теории автоматического управления
Определим бифуркационное множество J в для функции Ф ( x; u ) , т.е. множество
(
)
меры нуль в пространстве управляющих параметров u ∈ R 2 , точки которого параметризуют функцию Ф ( x; u ) с вырожденными критическими точками. Для этого нам необходимо найти пересечение 2-х гиперповерхностей Ф′x ( x; u ) = 0, (3.168)
(3.169) Ф′′xx ( x; u ) = 0. Используем переменную х для параметрического представления управляющих параметров (управлений) ( u1 ( x ) , u2 ( x ) ) на бифуркационном множестве J в . Запишем 5
Ф′x ( x; u ) = ∑ ai ( u ) xi = 0,
(3.170)
Ф′′xx ( x; u ) = ∑ iai ( u ) x (i −1) = 0
(3.171)
i =0 5
i =0
в матричном виде. Имеем 0 −21,6 ⎤ ⎡ 0 ⎢ −326, 4 0 0 ⎥⎥ ⎢ ⎡ u1 ⎤ 5 4 3 2 1 ⎡x x x x x 1⎤ ⎢ 0 50,3 358,9 ⎥ ⎢ ⎥ (3.172) ⎢ 4 ⎥⎢ ⎥ u2 = 0. 3 2 1 0 0 ⎥⎢ ⎥ ⎣⎢5 x 4 x 3 x 2 x 1 0 ⎦⎥ ⎢ 5412,6 ⎢⎣ 1 ⎥⎦ ⎢ 0 11752,8 −1525,9 ⎥ ⎢ ⎥ 0 0 ⎦⎥ ⎣⎢ −23015 Каждому значению х в (3.172) соответствует пара совместных уравнений для управлений (u1; u2 ). Решение этих уравнений единственно при условии, что определитель системы не равен нулю. Параметрическое представление кривых складки ( u1 ( x ) ; u2 ( x ) ) показано на рис. 3.15. Эта проекция многообразия катастрофы на плоскость управляющих параметров (управлений) u1 = δ э ; u2 = δв формирует бифуркационное множество J в . Множество J в делит плоскость R 2 управляющих параметров на открытые непересекающиеся
области, в которых функция Ф ( x; u ) имеет различное число (1, 3, 5) критических точек, а динамическая система соответственно 1, 3, 5 устойчивых или неустойчивых состояний равновесия. Рассмотрим случай, когда управление производится только элеронами δэ , т.е. u1 при фиксированном положении руля высоты u 2 = δ в = 0, 01 рад ≈ 0,6° (сечение А, рис. 3.15). Пусть u1 t =0 = 0, и мы начинаем медленно увеличивать угол δэ = u1. Сначала переменная x1 ( = ωx ) линейно реагирует на изменение u1 (рис. 3.16), но при достижении точки a ( 6°), т.е. при попадании на бифуркационное множество J в , скачком переходит на нижний лист (точка δ, рис. 3.16). На этом листе состояние летательного аппарата по координате x = x1 = ωx совершенно неуправляемо при отклонении элеронов (−25° < u1 < 25°). Другими словами, если пилот попытается вернуть летательный аппарат в состояние x = 0, уменьшая u1 при u2 = const, он потерпит неудачу. Летательный аппарат не будет реагировать на изменение u1 до тех пор, пока не достигнет
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
323
значения u1 ≈ −25° (точка в, рис. 3.16), при котором происходит скачкообразный переход на верхний лист. Последующее увеличение u1 вновь сопровождается отсутствием необходимой реакции вплоть до значения u1 = +25° (точка д ), при котором точка х вновь перескочит на нижний лист (точка е ). Средний лист остается недостижимым при u2 = const = 0,6°. Заставить систему вернуться на средний лист (в том числе в состояние x = x1 = 0 ) можно только изменив оба управления u1 и u2 . u 2 = δ в ( рад )
3
Сечение Б
3
Jв
Сечение А
в 1, г 1
5 в, г
1
а 1, б 1
д 1, e 1
а, б
3
1
1
д, е
3 u1 = δ э ( рад )
Рис. 3.15. Бифуркационное множество J в многообразия катастрофы реактивного
летательного аппарата в плоскости управляющих параметров δэ , δв (u1 , u2 ). Цифры указывают на число состояний равновесия (устойчивых и неустойчивых)
x = x1
г д 0
в
а
б
е u1 = δ э ( ° ) Рис. 3.16. Зависимость координаты x1 = ωx от угла поворота элеронов
при постоянном отклонении руля высоты 0,6° (сечение А, рис. 3.15)
324
Методы современной теории автоматического управления
Если взять другое сечение, u2 = const, например, увеличить u2 до u2 = 1, 2° (сечение Б, рис. 3.15), то точки скачкообразного перехода с нижнего листа на верхний и наоборот еще более сдвинутся (точка г′ ≈ −60° ) (рис. 3.17). Таким образом, на основе использования теории катастроф возможно качественное изучение особенностей поведения динамических управляющих систем, в том числе получение бифуркационных множеств и устойчивых компонент многообразия систем.
x = x1
г′
д′ 0
в′
а′
б′
е′ δ э (°)
Рис. 3.17. Зависимость координаты x1 = ωx от угла поворота элеронов
при постоянном угле отклонения рулей высоты 1, 2° (сечение Б, рис. 3.15)
3.2.
ДЕТЕРМИНИРОВАННЫЙ ХАОС
3.2.1. БИФУРКАЦИИ И ХАОС При рассмотрении функций катастроф мы установили, что фундаментом их изучения являются теория особенностей гладких устойчивых отображений и теория бифуркаций. Изменение качественной картины фазовых траекторий при наличии бифуркаций иногда приводит к возникновению нового типа движений, которое получило, и вполне обоснованно, название «хаос». Совсем недавно было обнаружено, что движение некоторых очень простых динамических систем не всегда можно предсказать на большой интервал времени. Такие явления были названы хаотическими. В чем же различие между случайным и хаотическим движением? При случайном движении мы имеем ситуации, когда неизвестны действующие силы, а известны, например, случайные характеристики некоторых параметров. При хаотическом движении мы рассматриваем задачу как детерминированную, где отсутствуют случайные или непредсказуемые силы или параметры, а характер движения динамической системы в значительной степени зависит от начальных условий. Такая динамика возможна только в нелинейных системах. А. Пуанкаре, стоявший у истоков нелинейной механики, в очерке «Наука и метод» писал: «иногда небольшая разница в первоначальных состояниях вызывает большие различия в окончательном явлении. Небольшая погрешность в первом вызвала бы огромную ошибку в последнем. Предсказание становится невозможным».
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
325
В современной литературе термин «хаотический» применяется к таким движениям в детерминированных физических и математических системах, траектории которых обнаруживают сильную зависимость от начальных условий. Системы с хаотической динамикой иногда еще называют системами с нерегулярной динамикой. Подчеркивая детерминированность задачи, хаос иногда называют детерминированным [247]. Следует ли считать хаотические движения исключительным случаем в реальных физических задачах или они встречаются в широком диапазоне изменения параметров (что напрямую, как мы видели ранее, связано с возможностью появления бифуркаций)? При проектировании систем управления необходимо уметь предугадывать их поведение. Выбрав параметры, при которых могут возникнуть хаотические колебания, проектировщик лишается возможности предсказывать поведение системы. До недавнего времени основным инструментом при расчетах системы управления была линейная теория. Но потребности современных технологий приводят к тому, что рабочие значения параметров переместились в область нелинейных режимов, что увеличивает возможность возникновения явлений хаотической динамики. В каких динамических системах могут возникнуть хаотические колебания? Прежде всего в системах, где присутствуют сильные нелинейности [143]: 1) колебания изогнутых упругих структур; 2) механические системы с зазором или мертвой зоной; 3) динамика «колесо−рельс»; 4) системы с трением скольжения; 5) системы управления с нелинейными обратными связями; 6) лазеры и нелинейные оптические системы. Хаотические звенья обладают новым геометрическим свойством, называемым фрактальной структурой, что нельзя наблюдать в классической нелинейной механике. Фракталы, фрактальные размерности, странные аттракторы будут подробно рассмотрены далее в параграфе, но начнем его мы с парадигм хаоса, потому что, как заметил Томас Кун (цит. по [143]), «крупные изменения происходят в науке в общем не тогда, когда выдвигаются новые теории, а когда меняются простые модели, с помощью которых ученые формируют и осваивают новую теорию». Парадигма (греч. paradigma — пример, образец), как известно, — это концептуальная теория, модель или задача, которая охватывает основные свойства целого класса задач. Известны парадигмы: теории колебаний — модель, состоящая из массы и пружины; нелинейной динамики — движение маятника или задача трех тел. Парадигмами хаоса являются странный аттрактор Эдварда Лоренца и логистическое уравнение, к изучению которых мы и приступаем. 3.2.2.
ПАРАДИГМЫ ХАОСА: СТРАННЫЙ АТТРАКТОР ЛОРЕНЦА И ЛОГИСТИЧЕСКОЕ УРАВНЕНИЕ
3.2.2.1. АТТРАКТОР ЛОРЕНЦА В 1963 г. специалист по физике атмосферы Э.Н. Лоренц из Массачусетского технологического института предложил простую модель тепловой конвекции в атмосфере, которая, как затем выяснилось, стала хорошей моделью для изучения турбулентности. Представим себе слой жидкости, находящийся под действием сил тяготения, который подогревается снизу. Пусть T0 — температура в верхней части слоя жидкости, T1 — соответственно нижней (рис. 3.18).
326
Методы современной теории автоматического управления
z
y T0 < T1
g
x T1
Тепловой поток
Рис. 3.18. Модель тепловой конвекции Лоренца
Когда эта разность становиться достаточно большой, возникают циркулярные, подобные вихрям, движения жидкости; жидкость, подогреваемая снизу, становится легче и всплывает, а более тяжелая опускается под действием гравитации (рис. 3.18). В общем случае тепловые процессы и конвективные течения жидкости описываются уравнением теплопроводности и уравнением Навье–Стокса, которые являются уравнениями в частных производных. Э. Лоренц сделал ряд допущений и получил трехмерную модель тепловой конвекции в обыкновенных дифференциальных уравнениях: x&1 = σ ( x2 − x1 ) ; (3.173) x&2 = ρx1 − x2 − x1 x3 ; x&3 = x1 x2 − β x3 ,
(3.174) (3.175)
где x1 — безразмерная переменная, пропорциональная амплитуде скорости, с которой жидкость циркулирует в жидком кольце; x2 , x3 — безразмерные переменные, которые отражают распределение температуры по каналу. В уравнениях (3.173)–(3.175) присутствуют 3 параметра: σ, ρ — связаны с числами Прандтля и Рэлея соответственно, а β описывает геометрию системы: σ = 10, β = 8 3, ρ > 1 — набор значений, которые предпочитают специалисты в данной области. В дальнейшем при исследовании два параметра ρ, β считались постоянными, а изучалось влияние ρ на динамику описываемых конвективных процессов ( ρ > 0 ). Рассмотрим состояние равновесия для уравнений Лоренца (3.173)–(3.175). Имеем 0 = σ ( x2 − x1 ) ; (3.176) 0 = ρx1 − x2 − x1 x3 ;
(3.177)
0 = x1 x2 − β x3 . (3.178) Уравнения (3.176)–(3.178) имеют три решения, т.е. существует три положения равновесия: x(1) (3.179) 0 = ( 0; 0; 0 ) ;
x(2) 0 =
(
(
)
β ( ρ − 1) ; β ( ρ − 1) ; ρ − 1 ;
(3.180)
)
(3.181)
x(3) 0 = − β ( ρ − 1) ; − β ( ρ − 1) ; ρ − 1 .
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
327
Первая неподвижная точка x (0 ) соответствует состоянию теплопроводности без движения жидкости (происходит диффузионная форма передачи тепла, без конвек1
ции). Линеаризируя уравнения (3.173)–(3.175) в точке x(0 ) , получим ⎛ −σ σ 0 ⎞ ∂f i 1 A 0( ) = = ⎜⎜ ρ −1 0 ⎟⎟ . ∂x j (1) ⎜ x0 0 −β ⎟⎠ ⎝ 0 1
(3.182)
Матрица A 0( ) имеет собственные значения: σ +1 1 (3.183) λ1,2 = − ± ( σ + 1)2 + 4 ( ρ − 1) σ , λ3 = −β. 2 2 Таким образом, при принятых параметрах: σ = 10, β = 8 3 и 0 < ρ < 1, состояние 1
x 0( ) устойчиво. При ρ = 1 начинается конвекция Бенара, так как λ1 = 0 и именно в 1
этот момент «принимают эстафету» равновесные точки x 0( ) , x 0( ) (которые соответствуют движущимся валам). Линеаризация (3.173)–(3.175) в этих точках дает: ⎛ −σ ⎞ 0 σ ⎜ ⎟ ∂fi 2 A(0 ) = 1 =⎜ −1 β ( ρ − 1) ⎟ ; (3.184) ⎟ ∂x j ( 2) ⎜ x0 ⎜ β ( ρ − 1) β ( ρ − 1) −β ⎟⎠ ⎝ ⎛ ⎞ 0 −σ σ ⎜ ⎟ f ∂ 3 i (3.185) 1 A 0( ) = =⎜ −1 − β ( ρ − 1) ⎟ . ∂x j ( 3) ⎜ ⎟ x0 ⎜ − β ( ρ − 1) − β ( ρ − 1) ⎟ −β ⎝ ⎠ 2
3
2 3 Характеристические уравнения для матриц A (0 ) и A (0 ) совпадают и имеют вид
ϕ ( λ ) = λ3 + ( σ + β + 1) λ 2 + β ( σ + ρ ) λ + 2βσ ( ρ − 1) = 0.
(3.186)
При ρ = 1, λ1 = 0, λ 2 = −β = −8 3, λ 3 = − ( σ + 1) = −11, т.е. «конвективная» равновесная точка находится на границе устойчивости. Рассмотрим движение корней характеристического уравнения (3.186) при изменении параметра ρ ( σ = 10, β = 8 3, ρ ≥ 1) . Траектории движения корней λ i ( ρ ) , i = 1, 2,3 на комплексной плоскости изображены на рис. 3.19. При 1 ≤ ρ ≤ ρв = 1,3456 все корни левые и вещественные; при ρ = ρв = 1,3456 два корня сливаются в один двойной
λ1 ( ρв ) = λ 2 ( ρв ) = −1, 2894 (точка А, рис. 3.19) — устойчивый узел переходит в устой-
чивый фокус; дальнейшее увеличение ρ ( ρ > ρв ) приводит к появлению пары ком-
плексно-сопряженных корней, которые движутся к мнимой оси. При ρ = ρc = 24,7368 (критическое значение ρ ) имеется пара чисто мнимых корней: возникают структурно и динамические неустойчивые периодические орбиты — циклы. При ρ > ρc имеет место неустойчивый фокус и появление устойчивых периодических движений — предельных циклов, т.е. имеет место бифуркация Хопфа. Ниже о ней будет подробно изложено. Критическое значение параметра ρ = ρc можно определить по формуле ρc = σ
σ+β+3 = 24, 7368 (для σ = 10, β = 8 3). σ − β −1
(3.187)
328
Методы современной теории автоматического управления +j
пл λ
λ1 ( ρc ) Б −15
А λ3 (1) −12
−10
λ 2 (1) −8
−5
10 9 8 7 6 5 4 3 2 1 −1
λ3 (1, 3456 ) A : ( λ1 (1, 3456 ) = λ 2 (1,3456 ) ≅ −1, 29 ) Б
λ 2 ( ρ > ρc ) λ 2 ( ρc ) Б
λ1 (1)
+1
−1 −2 −3 −4 −5 −6 −7 −8 λ (ρ ) −9 1 c −10 λ1 ( ρ > ρc )
2 3 Рис. 3.19. Траектории движения корней матриц линеаризации A (0 ) , A(0 ) 2 3 в равновесных точках x(0 ) , x(0 ) при изменении параметра ρ
На рис. 3.20 и рис. 3.21 показаны траектории модели Лоренца для ρ = 10 и ρ = 23, т.е. ρ < ρc . Аттрактором (притягивающим множеством) в этих двух случаях является некоторая точка, определяемая выражениями (3.179)–(3.181), причем устойчивыми 2 3 1 являются точки x 0( ) и x (0 ) , x (0 ) — неустойчивое седло.
Рис. 3.20. Фазовая траектория модели Лоренца ( σ = 10; ρ = 10; β = 8 3) , устойчивый фокус
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
329
Рис. 3.21. Фазовая траектория модели Лоренца ( σ = 10; ρ = 23 < ρc = 24,7368; β = 8 3) , устойчивый фокус
При ρ > ρc два положения равновесия x (0 ) и x 0( ) становятся неустойчивыми фокусами, и сложная хаотическая траектория блуждает между тремя неустойчивыми равновесными точками (рис. 3.22), наступает хаос (нерегулярная динамика). Первая особенность нового качественного движения системы заключается в том, что каждая из точек равновесия не является притягивающей, однако траектория не уходит далеко от трех точек равновесия и занимает ограниченную область, которая в отличие от случаев ρ < ρc уже не является точкой; аттрактором является множество точек, внутри которых содержатся три точки равновесия. 2
3
x3
2 x (0 )
x (0 ) 1
x (0 ) 3
x2
x1 Рис. 3.22. Точки равновесия и фазовые траектории в модели Лоренца при ρ > ρc
Вторая особенность: внутри аттрактора Лоренца (рис. 3.23) невозможно точно предугадать поведение траектории на длительный интервал (траектория очень чувствительна к начальным условиям), движения ее блуждающие. Такие аттракторы получили название странных аттракторов.
330
Методы современной теории автоматического управления
Рис. 3.23. Странный аттрактор Лоренца ( ρ = 25 > ρc = 24,7368; β = 8 3) ρ Аттрактор Лоренца (фрактальное множество) Бифуркация Хопфа: ρc метастабильный хаос
Изолированные глобальные аттракторы: узлы-фокусы
24,74
Бесконечно много периодически замкнутых траекторий и бесконечно много неустойчивых турбулентных замкнутых траекторий фокус
седло
фокус
узел
седло
узел
13,93
ρb = 1,35
Бифуркация
3 точки равновесия
A+3
1 точка равновесия (узел)
Рис. 3.24. Качественные изменения свойств аттрактора Лоренца при варьировании параметра ρ
Третья особенность: аттрактор, т.е. множество, к которому притягиваются траектории в модели Лоренца, не является ни двухмерной поверхностью, ни спаянным двухмерным многообразием. По существу он представляет собой топологический объ-
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
331
ект патологической природы. Он имеет дробную хаусдорфову (фрактальную) размерность: d f = 2,06. Подробнее о фракталах и фрактальных множествах см. п. 3.3. Заметим, что все обнаруженные в настоящее время странные аттракторы имеют дробную хаусдорфову размерность, т.е. являются фрактальными множествами. Общую картину качественных изменений, свойств аттрактора Лоренца можно проследить на следующей диаграмме [59, 60] (рис. 3.24). 3.2.2.2. ЛОГИСТИЧЕСКОЕ УРАВНЕНИЕ Второй парадигмой хаоса (хаотического поведения) является так называемое логистическое уравнение, или уравнение роста популяций xn+1 = axn − bxn2 , (3.188)
где axn — рост или рождение популяции за n-й период; bxn2 — ограничения роста, связанные с ограниченностью энергетических и пищевых ресурсов; xn +1 — число популяций к началу ( n + 1 )-го периода. Перепишем (3.188) в безразмерном виде, вводя замену переменных b a′ xn′ = xn ; xn = xn′ . a b Тогда a a2 a2 a2 2 . (3.189) xn′ +1 = xn′ +1 ( xn′ ) = a xn′ − b 2 ( xn′ ) = xn′ (1 − xn′ ) = λxn′ (1 − xn′ ) , λ = b b b b Запишем (3.189) в исходных обозначениях xn+1 = λxn (1 − xn ) . (3.190) Это и есть логистическое уравнение, где λ является параметром. При этом, для того чтобы относительное значение численности популяций (например, насекомых) находилось между 0 и 1, следует ограничить λ ∈ [ 0, 4]. Для того чтобы оценить влияние параметра λ на численность популяций, рассмотрим рост численности за два цикла. Имеем xn+1 = λxn (1 − xn ) = f ( xn ) ; (3.191) xn+ 2 = λxn+1 (1 − xn+1 ) = f ( xn+1 ) = f ( f ( xn ) ) = f 2 ( xn ) .
(3.192)
Если xn , xn+1 , xn+ 2 ,K принадлежит некоторому множеству M ⊂ R1, то данная функция f отображает множество M в себя, т.е. f : M → M. (3.193) В связи с этим введем некоторые определения. Отображения (3.191) и (3.192) можно рассматривать как итеративный процесс воздействия функции f на начальную точку x0 . Ясно, что для произвольного n имеем
(
)
f n ( x0 ) = f ⋅ f n −1 ( x0 ) = f f n −1 ( x0 ) .
Поскольку каждая точка x0 ∈ M функции f как-то перемещается по множеству M , то функция (3.191) задает дискретную динамику системы. Если для некоторой точки x0 ∈ M определены все итерации f n ( x0 ) , то множество { f n ( x0 ) , n ∈ N — множество натуральных чисел} называется орбитой точки x0 под действием функции f (мы имеем еще одну наглядную интерпретацию действия группы на многообразии).
332
Методы современной теории автоматического управления
Определение 3.26. Точка xe называется неподвижной точкой функции (а в общем случае отображения) f , если f n ( xe ) = xe ∀n ∈ N . Определение 3.27. Неподвижная точка xe функции f называется притягивающей, если
(
) (
)
ρ f n ( x0 , xe ) < ρ f n−1 ( x0 , xe ) ,
(3.194)
где ρ ( x, y ) — расстояние между точками x и y ∈ M ; в частности, (3.194) может иметь вид f n ( x0 ) − xe < f n−1 ( x0 )n − xe .
(3.195)
В этом случае отображение f : M → M называют сжимающим. Для того, чтобы точка xe была притягивающей, а отображение (функция) f сжимающим, достаточно, чтобы функция f в окрестности точки xe (включая саму точку) удовлетворяла условию Липшица [106] f ( x2 ) − f ( x1 ) ≤ k x2 − x1 (3.196) с константой k < 1; x1 , x2 принадлежат окрестности точки xe . В частности, условие
( )
сжатия выполнено, если функция в окрестности точки xe U xe
имеет производную
f ′ ( x ) , причем
f ′ ( x ) ≤ k < 1.
(3.197)
Естественно, условие (3.197) должно быть выполнено и в точке xe , т.е. f ′ ( xe ) < 1.
(3.198)
На рис. 3.25 и рис. 3.26 изображен ход последовательных приближений в случае 0 < f ′ ( x ) < 1 и в случае −1 < f ′ ( x ) < 0 ( M = [ a, b ]) . Это так называемые диаграммы Ламерея. Если в окрестности U xe , включая саму точку xe , имеем f ′ ( x ) > 1, то такую точку назовем отталкивающей точкой. f ( x) b f (b)
f ( x )= x
M f (a )
a
a
xe
x2 = f ( x1 ) = f
2
x2 x1 = f ( x0 ) x0 b
( x0 )
x
M
Рис. 3.25. Притягивающая точка xe при 0 < f ′ ( x ) < 1, x ∈ M , f : M → M , M = U xe
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
333
f ( x)
b f ( x )= x
f ( x0 )
M
f ( x1 )
a a x 2 = f ( x1 ) = f
2
x0
( x0 )
x2 xe x1 = f ( x0 ) b
x
M
Рис. 3.26. Притягивающая точка при −1 < f ′ ( x ) < 0, x ∈ M , f : M → M , M = U xe
Определение 3.28. Точка x p называется периодической точкой функции f пе-
риода k , если f k ( x p ) = x p при f i ( x p ) ≠ x p для i < k . Орбита периодической точки
состоит из k точек и называется циклом периода k . Определение 3.29. Точка x p является периодической точкой функции f периода k , если она является неподвижной точкой функции f периода k , но не является неподвижной точкой итераций с меньшим номером. Теперь вернемся к логистическому уравнению (3.190) и рассмотрим как изменяется его динамика при гладком изменении параметра λ. Прежде всего найдем неподвижные точки отображения f λ (мы используем индекс λ для того, чтобы подчеркнуть зависимость f от параметра λ ). Имеем (3.199) xe = λxe (1 − xe ) , λ > 0. Неподвижные точки: λ −1 1 2 (3.200) xe( ) = 0, xe( ) = . λ Оценим тип неподвижных точек: (3.201) f λ′ ( 0 ) = λ; ⎛ λ −1 ⎞ (3.202) f λ′ ⎜ ⎟ = 2 − λ. ⎝ λ ⎠ Приравняв их к ±1, получаем, что неподвижные точки теряют гиперболичность при λ = 1 и λ = 3. Потеря гиперболичности приводит к качественному изменению динамики, т.е. при λ = 1 и λ = 3 имеют место бифуркации. Построим диаграммы Ламерея при изменении 0 < λ < 3.
1 2 1. 0 < λ < 1 (рис. 3.27). Две неподвижные точки. Для λ = 0,5 : xe( ) = 0, xe( ) = −1.
1 2 Диаграмма Ламерея показывает, что xe( ) = 0 — притягивающая точка, xe( ) = −1 — отталкивающая.
334
Методы современной теории автоматического управления
f ( x) 0 < λ 0, поэтому f λn xe(2) = xe(2) и наблюдается рост популяций. Эту зависимость можно наблюдать на бифуркационной диаграмме (рис. 3.30).
f ( x) 2 x e( )
1< λ < 3 x e( ) 1
x′′0
x1
x′0
x
Рис. 3.29. Диаграмма Ламерея для λ = 2; точка xe(1) = 0 становится отталкивающей,
а xe(2) = ( λ − 1) λ — притягивающей
x&
0,5
x 0
1
2
3
λ
Рис. 3.30. Бифуркационная диаграмма логистического уравнения для периода 0 < λ < 3
Еще одной особенностью является то, что на этом интервале сначала xe(1) , а затем xe(2) являются периодическими точками периода 1 ( T = 1 ). При λ = 3 f λ′ ( xe ) = 1
и наступает вторая бифуркация. 4. λ ( ) = 3 (вторая бифуркация) — бифуркация удвоения периода: притягивающая неподвижная точка xe(2) = ( λ − 1) λ (период T = 1 ) превращается в отталкивающую, а 1
336
Методы современной теории автоматического управления
рядом с ней появляется цикл вдвое большего периода ( T = 2 ), fλ2 ( xe ) = xe (рис. 3.31). При λ > 3 все точки интервала (0,1) притягиваются к этому циклу (рис. 3.32). f λ ( x ) , f λ2 ( x ) λ=3 f λ2 ( x ) = f ( f ( x ) )
x e( ) 1
f λ ( x)
x
2 x e( )
Рис. 3.31. Неподвижные точки xe(1) = 0, xe(2) = 2 3; периоды T = 1, T = 2; λ = 3 — бифуркация удвоения периода f λ ( x ) , f λ2 ( x )
f λ2 ( x )
(1)
xe
x′0
f λ (x)
( 3)
xe
(2)
xe
4 x e( ) x′′0
x
Рис. 3.32. Неподвижные точки циклов 1, 2 (T = 1;2): xe(1) ,
xe(2)
— отталкивающие (цикла 2, T = 2 ); xe(3) , xe(4) — притягивающие (цикла 2) для λ = 3,2, x ∈ [0,1]
На интервале (0,1) отображение f λ2 ( x ) = f λ ( f λ ( x ) ) имеет три неподвижные точки, причем две из них притягивающие xe(3) и xe(4) , и одна xe(2) — отталкивающая. Увеличение λ (λ > 3) происходит до некоторого λ (2) , при котором происходит третья бифуркация: бифуркация удвоения периода 2 ( T = 4 ). Эта бифуркация имеет место при
( f )′ ( x ) 2 λ
x = xe(3) , x = xe( 4 )
(2) = 1, что соответствует λ ≅ 3, 45.
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
337
При λ > λ (2) для отображения f λn ( x ) вблизи каждой из точек xe(3) и xe(4) появятся еще две неподвижные точки, т.е. возникает цикл периода 4 ( T = 4 ), причем устойчивый. Дальнейшее увеличение λ > λ (2) ≅ 3, 45 приводит к появлению бесконечной последовательности ( λ ( n ) , n = 3, 4,5 ) значений параметра λ : при λ = λ ( n ) происходит потеря устойчивости цикла периода 2n −1 и возникает устойчивый цикл периода 2n. Этот процесс удвоения периода происходит до тех пор, пока λ не достигнет значения λ ∞ = 3,56994. Вблизи этого значения последовательные значения параметров, при которых происходит удвоение периода, подчиняются закону λ ( n +1) − λ ( n ) → δ = 4,66920 (число Фейгенбаума). (3.203) λ ( n ) − λ ( n −1) При λ > λ ∞ могут возникнуть хаотические колебания (рис. 3.33). Отображение, соответствующее λ ≥ λ ∞ , имеет инвариантное множество канторовского типа F (подробнее о канторовском множестве см. в п. 3.3), окруженного бесконечным числом неустойчивых циклов периода 2n. При этом все точки интервала [ 0,1] , кроме точек этих циклов и их прообразов, притягиваются к множеству F , которое является фрактальным и его дробная (фрактальная) размерность равна d f ≈ 0,518. Для λ = 4 уравнение (3.190) может быть решено путем замены переменных, что позволит увидеть чрезвычайную зависимость решения от начальных условий. Покажем это [16]. Итак, сделаем следующую замену 1 − cos 2πθn (3.204) xn = . 2 x Бифуркация удвоения периода
Хаос
T =1
T =2 λ
(1)
2 λ( )
λ∞
λ
Рис. 3.33. Бифуркационная диаграмма логистического уравнения, λ ∈ [ 2, 4]
При такой замене уравнение (3.190) преобразуется следующим образом ( λ = 4 ): 1 ⎡1 1 ⎤ 1 (1 − cos 2πθn+1 ) = 4 ⎢ (1 − cos 2πθn ) ⋅ ⎛⎜1 − ⋅ (1 − cos 2πθn ) ⎞⎟⎥ = (1 − cos 4πθn ) . (3.205) 2 ⎝ 2 ⎠⎦ 2 ⎣2 Одним из решений уравнения (3.205) является (3.206) θn+1 = 2θ n , т.е.
θn = 2n θ0 .
(3.207)
338
Методы современной теории автоматического управления
Можно непосредственно убедиться в том, что это решение соответствует хаосу в системе. Действительно, поскольку xn связано с θn функцией cos 2πθn , добавление целого числа к θn (или замена знака) приводит к тому же самому значению xn . Поэтому, если записать θn в обычной десятичной системе, например, положив θn = 11, 2693K, то можно просто отбросить 11. Еще лучше использовать двоичную систему для θ0 , положив, например, 1 1 1 1 (3.208) θ0 = + + + + K = 0,101101K . 2 8 16 64 При этом умножение на два (переход от n → (n + 1) ) означает просто сдвиг запятых в «десятых» вправо на 1 знак, так что θ1 = 0,01101K, θ2 = 0,1101K, θ3 = 0,101K , θ4 = 0,01K .
Таким образом, значения θn , порождаемые любыми начальными θ0 , зависят от n -го и следующего разрядов θ0 . Это позволяет дать одно из возможных определений хаотического поведения (о чем мы уже выше говорили): динамическая переменная xn при больших n принимает значения, которые чрезвычайно сильно зависят от точного начального значения x0 . В рассматриваемом случае предложим, что имеется два начальных значения x0 и x0′ , которые различаются на малое число ε и порождают две последовательности популяций xn и xn′ , начинающиеся соответственно с x0 и x0′ . Тогда после n шагов разница между ними увеличивается до значения 2n ε. 3.2.2.3. ПРОИЗВОДНАЯ ШВАРЦА И БИФУРКАЦИЯ УДВОЕНИЯ ПЕРИОДА Бесконечная последовательность бифуркаций удвоения периода, как это имело место для логистического уравнения, соответствует не всем унимодальным (одномодальным) функциям, т.е. непрерывно дифференцируемым отображениям единичного интервала [0,1] (в частности всем, имеющим один максимум при x = 1 2 и монотон-
ным при 0 ≤ x ≤ 1 2; 1 2 ≤ x ≤ 1 ). Кроме свойств унимодальности, необходимо, чтобы производная Шварца функции f (обозначение — Sf ) [15] 2
−1 2 f ′′′ 3 ⎛ f ′′ ⎞ d2 − ⎜ ⎟ ( f ′( x )) f ′ 2⎝ f ′ ⎠ dx 2 была отрицательна на всем интервале [ 0,1].
Sf =
Это справедливо для логистического уравнения, так как для него f ′′′ ( x ) = 0. Отметим, что из условия Sf < 0 следует Sf n < 0 для всех итераций f . 3.2.3.
БИФУРКАЦИЯ ХОПФА И ХАОС. КРИТЕРИЙ РЮЭЛЯ–ТАКЕНСА
Бифуркация Хопфа является одним из возможных путей зарождения хаоса в системе, поэтому важно изучить ее подробнее. Рассмотрим линейную систему 2-го порядка: x&1 = λx1 − ωx2 ; (3.209) x&2 = ωx1 + λx2 , (3.210) где λ является параметром. Собственные значения матрицы A :
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
339
⎛ λ −ω ⎞ A=⎜ ⎟ ⎝ω λ ⎠ — два комплексных корня S1,2 = λ ± jω. При λ = 0 (два чисто мнимых корня) фазовые траектории системы (3.209), (3.210) — это круговые орбиты (центры) (рис. 3.34). В этом случае система (3.209), (3.210) является как статически, так и динамически неустойчивой системой, поэтому значение параметра λ = 0 определяет множество (точку) бифуркаций.
x2
x1
Рис. 3.34. Фазовые траектории для чисто мнимых корней матрицы A (λ = 0)
Рассмотрим, как влияют возмущения (деформации) на центры. Для этого удобно перейти от декартовой к полярной системе координат: x1 = r cos θ; (3.211) x2 = r sin θ. (3.212) Тогда (3.209), (3.210) примут вид: r& = λr ; (3.213) &θ = ω. (3.214) На бифуркационном множестве J B = {λ = 0} происходит изменение динамической устойчивости, что сопровождается появлением качественно новых решений. Рассмотрим возмущение (деформацию) вырожденной (для λ = 0 ) системы (3.213), (3.214). Для этого запишем: r& = f r ( r ,0 ) = λr + члены более высокой степени; (3.215) θ& = f ( r,0 ) = ω + члены более высокой степени. (3.216) θ
На бифуркационном множестве J B первые члены, разлагаемые f θ ( r,0 ) в ряд Тейлора, отличны от нуля ( ω ≠ 0 ); поэтому можно ожидать, что члены более высокой степени несущественны и ими можно пренебречь [59]. В первом приближении можно ограничиться только возмущениями, инвариантными относительно вращения (деформации радиальные), т.е. (3.217) fr ( r, θ) = fr ( r ). Радиальная функция f r ( r ) может включать только члены с нечетными степенями r , поскольку из инвариантности относительно вращения следует, что замена x1 → − x1 , x2 → − x2 дает x&1 → − x&1 , x&2 → − x&2 .
340
Методы современной теории автоматического управления
Эта симметрия нарушается, если f r ( r ) содержит члены с четными степенями r. Таким образом, достаточно общая деформация (возмущение) динамической системы (3.213), (3.214) имеет вид r& = λr + Ar 3 + Br 5 + K; (3.218) &θ = ω. (3.219) Ограничившись первыми двумя членами разложения (3.218), т.е., считая r& ≠ 0 −1 2
при λ = 0, ⇒ A ≠ 0, и вводя замену переменных r → A r%, получим следующий канонический вид деформированной системы (в старых обозначениях): (3.220) r& = λr ± r 3 ; &θ = ω. (3.221) Рассмотрим стационарные значения (неподвижные точки) для данной динамической системы. Пусть r& = λr − r 3 . (3.222) Очевидно, что re = 0 всегда является стационарным значением. Это есть точка притяжения (устойчивая) при λ < 0 и отталкивающая (неустойчивая) точка при λ > 0. При λ > 0 имеется устойчивый предельный цикл с радиусом r = λ. (3.223) Решение (3.221) тривиально θ ( t ) = θ0 + ωt , (3.224) именно поэтому радиальное решение уравнений (3.220), (3.222) ответственно за появление качественно новых решений. Итак, имеем следующую картину качественных изменений в начале координат: • λ < 0 ( S1,2 = λ ± jω) — устойчивый фокус; • •
λ = 0 — фокус теряет устойчивость и становится неустойчивым; λ > 0 — неустойчивый фокус переходит в устойчивый предельный цикл радиуса r = λ . Такой бифуркационный переход называется суперкритической бифуркацией Хопфа. Фазовый портрет такой бифуркации показан на рис. 3.35.
λ0
устойчивый фокус
устойчивый предельный цикл неустойчивый фокус
λ центр
Рис. 3.35. Суперкритическая бифуркация Хопфа в точке re = 0
Для динамической системы r& = λr + r 3
(3.225)
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
341
точка re = 0 всегда является равновесной. Она устойчива при λ < 0 и неустойчива при λ > 0. При λ < 0 имеется неустойчивый предельный цикл с радиусом r = −λ . (3.226) Если λ подходит к нулю снизу, отталкивающее множество (неустойчивый предельный цикл) «наползает» на устойчивый фокус в начале координат и, наконец, полностью вытесняет его при λ = 0. Это явление называется субкритической бифуркацией Хопфа. Фазовый портрет этой бифуркации показан на рис. 3.36.
λ=0
λ0
неустойчивый предельный цикл
неустойчивый фокус
λ
устойчивый фокус
центр
Рис. 3.36. Субкритическая бифуркация Хопфа в точке re = 0
Другими словами суперкритическая (субкритическая) бифуркация Хопфа определяет наличие периодических решений (предельных циклов) при λ < λ 0 , где λ 0 — точка бифуркации (здесь λ 0 = 0 ). В 1971 г. Рюэль и Такенс предложили путь перехода к хаосу в динамических системах на основе бифуркаций Хопфа. Изучая поведение динамических систем при бифуркациях Хопфа, они пришли к выводу, что даже после двух бифуркаций Хопфа регулярное движение может стать сильно неустойчивым и переходит в хаотическое движение на странном аттракторе [295]. При этом подразумевается, что хаотическое движение становится возможным только после двух бифуркаций Хопфа, когда траектория выходит в дополнительное измерение, так как двухпериодическое движение соответствует траектории на торе, на котором появление хаоса запрещается теоремой Пуанкаре–Бендиксона [247]. Однако после двух бифуркаций Хопфа появление странного аттрактора не только возможно и неизбежно (критерий Рюэля–Такенса). Переход к хаосу по модели Рюэля–Такенса–Ньюхауса имеет вид (рис. 3.37). A2
A1
Ac
странный аттрактор с большой размерностью
A0
dim A0 = 0 dim A1 = 1 (1-я бифуркация Хопфа; предельный цикл)
ω1
ω2
dim A2 = 2 (2-я бифуркация Хопфа; движение на торе)
dim Ac > 2
Рис. 3.37. Переход к хаосу через 2 бифуркации Хопфа по модели Рюэля–Такенса–Ньюхауса
342
Методы современной теории автоматического управления
3.2.4. КАЧЕСТВЕННЫЕ И КОЛИЧЕСТВЕННЫЕ ПРИЗНАКИ ХАОСА Прежде всего необходимо еще раз напомнить, что хаотические колебания могут возникнуть в системе, содержащей нелинейный элемент. В линейной системе хаотические колебания отсутствуют. Какие же качественные признаки могут сигнализировать о возможности появления хаотических компонент? Мы их уже рассмотрели выше, теперь только суммируем полученные результаты: 1) высокая чувствительность к изменению начальных условий; 2) растущая сложность регулярных движений по мере изменения некоторых параметров; 3) фрактальные свойства движения в фазовом пространстве, которые указывают на присутствие странного аттрактора (странный аттрактор Лоренца); 4) наличие в непрерывной системе бифуркаций Хопфа; 5) наличие в дискретной системе бифуркаций удвоения периода (логистическое уравнение). Количественные признаки хаоса определяются ее показателями: 1) положительный показатель Ляпунова; 2) фрактальная размерность аттрактора. Рассмотрим подробнее каждый из показателей. 3.2.4.1. ПОКАЗАТЕЛЬ ЛЯПУНОВА Хаос в детерминированных системах подразумевает высокую чувствительность к изменению начальных условий. Это означает, что две траектории, близкие друг к другу в фазовом пространстве в некоторый начальный момент, экспоненциально расходятся за малое в среднем время. Если ρ0 — мера начального расстояния между двумя исходными точками, то, спустя малое время t , расстояние между траекториями, выходящими из этих точек, становится равным ρ ( t ) = ρ 0 e αt . (3.227)
Для дискретных систем соответственно имеем ρ n = ρ 0 e αn . (3.228) Величина α называется показателем Ляпунова. Критерий хаоса в терминах показателя Ляпунова: ⎧α > 0 −− хаотичное движение; (3.229) ⎨ ⎩α ≤ 0 −− регулярное движение. Рассмотрим процедуру экспериментального определения показателя Ляпунова. Вычисление показателя Ляпунова α : 1) начинается с выбора опорной траектории, точки на соседней траектории и измерения величины ρ ( t ) ρ0 (рис. 3.38); 2) интегрируются уравнения движения вдоль соседней траектории и определяется ρ0 ( t ) ; 3) когда расстояние ρ ( t ) становится слишком большим и рост его отклоняется от экспоненциального поведения, находим новую соседнюю траекторию и определяем новое начальное расстояние ρ0 ( t ) и т.д.; 4) показатель Ляпунова находится осреднением: N ρ ( tk ) 1 α= ln , (3.230) ∑ t N − t0 k =1 ρ0 ( tk −1 )
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
343
где N — число точек на опорной траектории, равное числу соседних траекторий, взятых для получения экспоненциального показателя Ляпунова α.
x3
ρ0 ( t1 )
t1
t0
t2
опорная траектория
ρ ( t2 )
ρ ( t1 )
ρ0 ( t0 )
x2
x1 Рис. 3.38. Геометрические построения, характеризующие определение показателя Ляпунова для непрерывных систем
Для дискретных систем
xn +1 = f ( xn )
(3.231)
— показатель Ляпунова характеризует среднюю потерю информации за одну итерацию [15]. Рассмотрим разность между итерированными отображениями f n ( x0 ) и f n ( x0 + ε ) , где ε — малая величина. Имеем ⎧ρ0 = ε; ⎪ ⎪ ρ = f ( x + ε ) − f ( x ) = df ⋅ ε; 0 0 ⎨ 1 dx x0 ⎪ ⎪ρ = f n ( x + ε ) − f n ( x ) = εe nα( x0 ) . 0 0 ⎩ n
Тогда n f n ( x0 + ε ) − f n ( x0 ) 1 1 df ( x0 ) lim ln . α ( x0 ) = lim lim ln = n →∞ ε→0 n n →∞ n dx0 f n ( x0 )
(3.232)
Выражение (3.232) определяет показатель Ляпунова для дискретных систем при итерированных отображениях. Рассмотрим пример: известное нам логистическое уравнение (3.190) и найдем показатель Ляпунова для λ = 4. В этом случае, используя замену переменных (3.204), мы получим соотношение между xn → θn и x0 → θ0 (формула (3.207)) θ n = 2 n θ0 .
Используя (3.232), получим 1 ⎛ d θn ( θ0 ) ⎞ ln ⎜ ⎟ = ln 2 > 0, n →∞ n ⎝ d θ0 ⎠
α ( θ0 ) = lim
это значит, что для λ = 4 имеет место хаос, в чем мы еще раз убедились.
344 3.3.
Методы современной теории автоматического управления ФРАКТАЛЫ
3.3.1. ПОНЯТИЕ О ФРАКТАЛАХ Знакомство с фракталами начнем с экскурса в историю. В 1890 г. итальянский математик и логик Джузеппе Пеано построил кривую (кривую Пеано), областью определения которой является отрезок ( dim = 1) , а областью
значений — квадрат ( dim = 2 ) . Было показано, каким образом одна точка, двигаясь непрерывно по квадрату, может (за бесконечное время) пройти, по крайней мере, один раз через каждую точку квадрата и его границы. Кривая Пеано, ее потом окрестили «монстром», является непрерывной кривой, но нигде (ни в одной точке) не дифференцируема. В 1904 г. шведский математик Хельга фон Кох, используя итерированные отображения, получила фигуру, названную позднее «снежинкой Кох», особенностью которой является бесконечная протяженность границы при ограниченных размерах самой снежинки. Были получены и другие монстры. В 1919 г. немецкий тополог Феликс Хаусдорф решил проблему размерности извивающихся кривых, приписав им дробную размерность. Систематическое изучение объектов такой необычной группы было начато французским математиком Бенуа Б. Мандельбротом. Термин «фрактал» (англ. fractal) был введен Б. Мандельбротом в 1975 году. Он был получен от двух латинских глаголов: frangere — ломать и fractus — дробный [283]. Дадим теперь два определения фрактала. Определение 3.30 [214]. Фракталом называется множество, размерность Хаусдорфа–Безиковича (ниже будет показано вычисление этой размерности), d HB которого строго больше его топологической размерности dT (d HB > dT ). Кривая Пеано, имея топологическую размерность dT = 1 (одномерная кривая), имеет фрактальную размерность 1 < d f < 2. Определение 3.31 [214]. Фракталом называется структура, состоящая из частей, которые в каком-то смысле подобны целому (именно самоподобные объекты стали основным инструментом Б. Мандельброта для исследования фракталов). Определение 3.30 является строгим и наиболее точно отражает суть фракталов, а именно их дробную размерность. Однако, при всей правильности и точности, оно слишком ограничено, так как исключает многие фракталы в различных технических и физических задачах. Определение 3.31 содержит еще один отличительный признак: фрактал выглядит одинаково, в каком бы масштабе его не наблюдать. Ниже мы подробно познакомимся с самоподобными объектами. Несмотря на данные выше определения, по признанию даже самого Б. Мандельброта, строгого и полного определения фракталов пока не существует [214], тем не менее мы будем придерживаться следующего определения. Определение 3.32 [240]. Фракталами называются масштабно-инвариантные множества, обладающие дробной размерностью Хаусдорфа–Безиковича. Это определение объединяет отличительные признаки фракталов, данные определениями 3.30 и 3.31. 3.3.2. РАЗМЕРНОСТЬ ХАУСДОРФА–БЕЗИКОВИЧА Фракталы можно рассматривать как множество точек, вложенных в пространство. Когда речь идет об обычных геометрических объектах: линия, поверхность, шар, то их топологические размерности dT известны и являются целыми числами.
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
345
Рассмотрим, как вводится мера некоторого множества точек G, вложенного в пространство при определении размерности Хаусдорфа–Безиковича ( d HB ) . Простой способ измерить длину кривых, площадь поверхности или объем тела состоит в том, чтобы разделить пространство на небольшие кубы с ребрами r (рис. 3.39).
r r
r β
p
Q
Рис. 3.39. Измерение «величины» различных множеств точек с помощью кубов с ребрами r
Пусть для некоторой кривой β (рис. 3.39) длиной L0 получено N ( r ) количество прямолинейных отрезков длиной r , аппроксимирующих данную кривую. Тогда L = N ( r ) ⋅ r → L0 r 0 = L0 при r → 0, (3.233) где r — длина прямолинейного отрезка. В пределе r → 0 мера L становится равной длине кривой L0 и не зависит от r. Множеству точек кривой β можно поставить в соответствие и площадь. Если N ( r ) — число квадратов, r 2 — площадь каждого из них, то площадь кривой β определяется так: A = N ( r ) r 2 → L0 r1 , r → 0. (3.234)
Аналогично, объем V кривой β может быть найден как V = N ( r ) r 3 = L0 ⋅ r 2 , r → 0. (3.235) Разумеется, что для обычных кривых β площадь A и объем V обращаются в нули при r → 0 и единственной представляющей интерес мерой является длина кривой β. Теперь перейдем к поверхности p (см. рис. 3.39), для которой в качестве меры множества точек возьмем площадь A = N ( r ) r 2 → A0 r 0 = A0 , r → 0. (3.236)
Можно ли для поверхности p в качестве меры взять объем? Формально это выглядит следующим образом: V = N ( r ) r 3 → A 0⋅ r1 , r → 0, (3.237) при r → 0 этот объем для обычной (!) поверхности также равен нулю. Поставим другой вопрос: можно ли поверхности p поставить в соответствие какую-нибудь длину? Формально мы можем принять за такую длину величину (3.238) L = N ( r ) ⋅ r → A 0⋅ r −1 , r → 0, которая расходится при r → 0. Этот результат имеет смысл, так как поверхность невозможно покрыть конечным числом прямолинейных отрезков.
346
Методы современной теории автоматического управления
Вывод: единственной мерой множества точек, образующих поверхность в трехмерном пространстве является площадь, однако «монстры», подобные кривой Пеано, «снежинке Кох» и другие, требуют обобщить меру величины множества точек. До сих пор, определяя меру величины множества точек G в пространстве, мы выбирали некоторую пробную функцию h ( r ) [143, 214] (элементарную меру) h ( r ) = γ (d ) rd ,
(3.239)
где γ ( d ) — геометрический коэффициент, зависящий от пробной функции: γ ( d ) = 1 — для прямолинейных отрезков, кубов, квадратов; γ ( d ) = π 4 — для круга; γ ( d ) = π 6 — для сферы; d — размерность меры.
После выбора пробной функции h ( r ) множество G покрывается N ( r ) пробными функциями (элементарными мерами) и определяется мера этого множества Md =
N (r )
∑ h ( r ).
(3.240)
i =1
Отсюда можно сделать вывод: при r → 0 мера M d равна нулю или бесконечности в зависимости от выбора d (размерности меры). Определение 3.33 [214]. Размерность Хаусдорфа–Безиковича d HB данного множества точек G есть критическая размерность, при которой мера M d изменяет свое значение с нуля на бесконечность N(r ) ⎧ 0 при d > d HB ; (3.241) M d = ∑ γ (d )rd = γ (d ) N (r )rd → ⎨ ⎩∞ при d < d HB . i =1 Ясно, что когда d = d HB , мера M d должна быть конечной, она и определяет размерность Хаусдорфа–Безиковича d HB . Приняв γ ( d ) = 1, т.е. покрыв множество точек прямолинейными объектами (отрезок, квадрат, куб) и приравняв (3.241) некоторой конечной величине, например 1, мы получим N ( r ) r d HB = 1, (3.242) откуда размерность Хаусдорфа–Безиковича определим как ln ( N ( r ) ) (3.243) d HB = = d f , если d HB −− дробное число . ln (1 r )
(
)
Если d HB является дробной, то размерность Хаусдорфа–Безиковича будем обозначать d f и называть фрактальной размерностью Хаусдорфа–Безиковича. Теперь перейдем к построению и изучению самоподобных фракталов. 3.3.3. ПРИНЦИП САМОПОДОБИЯ. САМОПОДОБНЫЕ ФРАКТАЛЫ Рассмотрим несколько примеров на построение множеств с использованием формулы (3.243). Возьмем отрезок прямой единичной длины (это можно сделать для любого отрезка, приняв длину этого отрезка за единицу, так как размерность длины в данном случае не играет никакой роли). Разделим отрезок на N1 ( r ) равных частей, где r — длина каж-
дой части. Каждую часть можно считать копией исходного отрезка, уменьшенной в 1 r раз. Очевидно, что N1 ( r ) ⋅ r = 1. Назовем исходный отрезок сегментом 0-й итерации (0-го поколения [214]). Ясно, что если мы используем формулу (3.243), то получаем
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы d HB =
ln ( N1 ( r ) ) ln (1 r )
=
347
ln N1 ( r ) = 1, ln N1 ( r )
т.е. исходный отрезок без дополнительных преобразований имеет размерность Хаусдорфа–Безиковича, совпадающую с размерностью топологической. Поступим теперь по-другому: от исходного отрезка AB (сегмента 0-й итерации) (рис. 3.40, а) перейдем, например, к образующей 1-й итерации самоподобного фрактала CD, где число сегментов равно 7, а длина каждого отрезка по-прежнему равна r = 1 3 (рис. 3.40, б). 1 A ε =1/3
B сегмент 0-й итерации 1/3 1/3 N1 ( r ) = 3
а
1/3 (A) 1/3 C
1/3 (B) образующая 1-й 1 D итерации 1/3 1/3 1/3 N (r) = 7 сегмент 1-й итерации б
Рис. 3.40. Построение образующей самоподобного фрактала с r = 1 3, N ( r ) = 7
Если теперь использовать формулу (3.243), то получим ln ( N ( r ) ) ln 7 1,94 d HB = = = = 1,81 = d f . ln (1 r ) ln 3 1,1 Таким образом, величина d f = 1,81 (фрактальная размерность самоподобного фрактала с образующей CD ) показывает, что кривая CD в 1,81 раза «более извилистая» на отрезке AB, чем сам отрезок AB. Можно провести и обратную процедуру, выкидывая, например, часть отрезков длины r из сегмента AB. В этом случае размерность образующей будет меньше размерности сегмента AB, т.е. d f ∈ ( 0,1) . Построение самого фрактального множества (самоподобного фрактала) производят последовательным использованием сегмента i-й итерации для образующей ( i + 1) итерации. При i → ∞ получим предельное (фрактальное) множество. Аналогичный алгоритм используется и для двухмерных объектов, например квадратов. Возьмем квадрат единичной площади (квадрат 0-й итерации) и, разделив каждую сторону на N1 ( r ) равных частей длиной r , получим N 2 ( r ) квадратов, подобных исходному, но имеющих сторону в 1 r раз меньше исходной (рис. 3.41, а). Сформируем образующую 1-й итерации самоподобного фрактала, выкидывая из исходного квадрата N 3 ( r ) ∈ (1, N 2 ( r ) ) квадратов (рис. 3.41, б). На рис. 3.41, б r = 1 4, N1 ( r ) = 4, N 2 ( r ) = 16, N3 ( r ) = 10.
Если теперь определить число копий исходного квадрата в образующей 1-й итерации, то оно равно N ( r ) = 6 = N2 ( r ) − N3 ( r ).
348
Методы современной теории автоматического управления 14 14 14 14 14 14 14 14 а
б
Рис. 3.41. Квадрат 0-й итерации, N 2 ( r ) = 16 (а); образующая самоподобного
фрактала N ( r ) = 6 1-й итерации (б)
Найдем фрактальную размерность получаемого множества ln N ( r ) ln 6 1,79 df = = = = 1, 29. ln (1 r ) ln 4 1,39 Совершенно аналогичную процедуру можно производить над геометрическими объектами размерности n > 2. Из проведенного анализа следует, что для того чтобы найти размерность самоподобного фрактала, необходимо определить число элементарных мер (пробных функций) N ( r ) образующей 1-й итерации (число подобъектов), вычислить коэффициент подобия r и использовать формулу (3.243). Рассмотрим построение некоторых классических фрактальных множеств. 3.3.4. КЛАССИЧЕСКИЕ ФРАКТАЛЫ [119] Примерами классических фракталов, построенных задолго до появления данного понятия, являются снежинка Кох, ковер Серпинского, губка Менгера, пыль Кантора и множество других. Снежинка Кох представляет собой замкнутую кривую, составленную из трех одинаковых фракталов, каждый из которых строится на стороне равностороннего треугольника. Процедуру построения рассмотрим на примере одной из сторон треугольника. Она выполняется для каждой из сторон. Пусть K 0 — исходный отрезок (одна сторона треугольника). Разделим его на 3 части и уберем среднюю часть. Вместо средней части добавим два новых отрезка той же длины так, чтобы в центре отрезка образовался новый (маленький) равносторонний треугольник, но без основания. В результате получим новое множество K1 (см. рис. 3.42). Данную процедуру можно выполнять многократно над каждым из отрезков, получая все новые и новые множества K 2 , K3 и т.д. В результате на n-м шаге итерационного процесса получим снежинку Кох (рис. 3.43). Поскольку N ( r ) = 4, а r = 1 3, то размерность фрактала ln 4 df = ≈ 1, 2618. ln 3 Особенностью данного фрактала является бесконечная длина предельной кривой, описывающей его границу. Действительно, длина кривой K1 составляет l1 = 4 3, дли-
на кривой K 2 соответственно l2 = 42 32 , на n-м шаге итерационного процесса длина кривой ln = 4n 3n . При n → ∞ длина предельной кривой для одной стороны фрактала l = lim
n →∞
4n 3n
→ ∞.
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
а
б
в
г
Рис. 3.42. Построение снежинки Кох:
349
Рис. 3.43. Снежинка Кох
а — K0 ; б — K1 ; в — K2 ; г — K3
Алгоритмы построения таких фракталов, как ковер Серпинского, пыль Кантора и других, во многом сходны с алгоритмом построения снежинки Кох. Принцип построения ковра состоит в разбиении некоторой замкнутой области (исходного множества) на непересекающиеся подобласти (непересекающиеся подмножества), обязательно содержащие внутреннюю подобласть, и последующем удалении именно внутренней подобласти. Процедура итеративно повторяется с каждым из оставшихся подмножеств. Наиболее иллюстративно это видно на примере ковра, построенного на базе равностороннего треугольника (рис. 3.44), хотя ковер можно строить, взяв за основу квадрат или другую плоскую фигуру. Пусть исходным множеством S0 является равносторонний треугольник вместе с областью, которую он замыкает. Разобьем его на четыре меньших треугольника и удалим внутренний треугольник без замыкающих его сторон. Получим множество S1. Выполним аналогичную операцию над оставшимися треугольниками. В результате будет иметь место множество S 2 . Продолжая итерационный процесс, на n-м шаге получим множество Sn (см. рис. 3.45). Предельное множество S и образует ковер Серпинского.
Рис. 3.44. Ковер Серпинского
Рис. 3.45. Построение ковра Серпинского
Так как коэффициент подобия r = 1 2 (строка разбивается на две части), а количество элементов, участвующих в итерационном процессе N ( r ) = 3, то размерность фрактала (ковра), построенного на основе треугольника, ln 3 df = ≈ 1,585. ln 2
350
Методы современной теории автоматического управления
Так же как и снежинка, данный ковер имеет свою особенность, а именно то, что предельное множество S имеет площадь нулевой меры. Действительно, на первом шаге удаляется 1 4 площади треугольника, на втором шаге — три треугольника площадью 1 42 от исходного. На третьем шаге — 32 треугольников площадью 1 43 от исходного. На i-м шаге удаляемая площадь составит 3i −1 4i . В пределе ( n → ∞ ) общая удаляемая площадь составит величину n
S уд = lim ∑ 3i −1
1
= 1. 4i Таким образом, для треугольного ковра Серпинского имеет место площадь меры нуль. К множествам нулевой меры относится и пыль Кантора (фрактальная пыль). Принцип построения этого множества состоит в следующем. На первом шаге отрезок единичной длины [0,1] разбивается на три части и удаляется средний, открытый инn →∞
i =1
теграл (1 3, 2 3) . На последующих шагах вновь удаляются центральные части оставшихся отрезков, не включая их концы (рис. 3.46). Предельным множеством является пыль Кантора.
Рис. 3.46. Построение пыли Кантора
Так как N ( r ) = 2, а коэффициент подобия r = 1 3, то размерность фрактала ln 2 ≈ 0, 6309. ln 3 Подсчитаем длину выбрасываемых интервалов. На первом шаге выбрасывается интервал длиной 1 3. На втором шаге выбрасываются два интервала длиной 1 32 от df =
длины исходного единичного отрезка. На n-м шаге выбрасываются 2 n−1 интервалов, каждый длиной 1 3n . Таким образом, общая длина выбрасываемых интервалов для предельного множества n 1 l = lim ∑ 2i −1 i = 1. n →∞ 3 i =1 Как видим, пыль Кантора относится к множествам нулевой меры Лебега. Множества типа «пыль Кантора» могут быть построены и на основе плоских фигур, путем выбрасывания отдельных частей. В отличие от снежинки Кох или ковра Серпинского фрактальная пыль является разрывным множеством. Множества Кантора, являющиеся самоподобными фракталами, могут иметь различную размерность, в зависимости от того, на какое количество частей разбивается отрезок (фигура) и какое количество частей выбрасывается при переходе от одного множества к другому. Если Канторова пыль образуется путем деления отрезка на N ( r ) частей, то при выбрасывании одной части размерность фрактала составит
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы d f N −1 =
ln ( N ( r ) − 1) ln ( N ( r ) )
351
,
при выбрасывании N ( r ) − 1 частей (одна пылинка) соответственно d f1 =
ln (1)
ln ( N ( r ) )
.
При N ( r ) → ∞ d f N −1 → 1, d f1 → 0. Таким образом, различные фракталы, относящиеся к множествам Кантора, построенных на основе отрезка, могут иметь размерность d f , принадлежащую интервалу ( 0,1) . Если при построении пыли Кантора за основу взять плоские фигуры, то размерность фракталов может меняться в более широких пределах. Отметим, что различные множества Кантора обладают тремя основными свойствами: они компактны, совершенны и вполне разрывны. 3.3.5.
ФРАКТАЛЬНАЯ РАЗМЕРНОСТЬ АТТРАКТОРОВ. ПРИМЕНЕНИЕ ТЕОРИИ ФРАКТАЛОВ В НЕКОТОРЫХ ЗАДАЧАХ УПРАВЛЕНИЯ
Существуют три альтернативных подхода к определению фрактальной размерности аттракторов [143]: 1) поточечная размерность; 2) корреляционная размерность; 3) информационная размерность. Мы рассмотрим две из них, поточечную и корреляционную, причем последняя будет использована нами для нахождения фрактальных характеристик динамики объектов управления. Поточечная (фрактальная) размерность. Рассмотрим какую-нибудь траекторию в фазовом пространстве на протяжении длительного времени (рис. 3.47). x3
Траектория в фазовом пространстве
δ
x0
x2
x1
L
Выборочные точки
Рис. 3.47. Геометрические построения для нахождения поточечной (фрактальной) размерности
352
Методы современной теории автоматического управления
Проведем выборку точек на траектории (достаточно большое число N 0 ) произвольным образом. Опишем вокруг какой-нибудь точки x0 на траектории сферу диа-
метра δ (или куб с ребром δ ) и подсчитаем число выборочных точек N ( δ ) , попав-
ших внутрь сферы. Вероятность того, что выборочная точка окажется внутри сферы, определяется выражением N (δ) P (δ) = , (3.244) N0 где N 0 — общее число точек на траектории. Размерность траектории в точке x ( ) i
(где x ( ) — вектор в фазовом пространстве), полученная путем измерения доли времени, проведенного траекторией внутри малой сферы, имеет вид i
d fp = lim
(
ln P δ, x( ) i
).
(3.245) ln δ Несмотря на то, что формула (3.245) отличается от общей формулы (3.243) по определению фрактальной размерности, тем не менее выражение (3.245) можно привести к (3.243). Покажем это. Вернемся к рис. 3.47. Пусть длина всей кривой L равна 1 (уже говорилось ранее, что это всегда можно допустить). Пусть r — расстояние между отдельными точками. Тогда N ( r ) ⋅ r (где N (r ) — число точек, попавших в сферу) δ→0
определяет длину кривой L ( δ ) в сфере диаметра δ, а N 0 r = 1. Отсюда имеем
N (r) ⋅ r = N ( r ) ⋅ r. N0 ⋅ r Рассмотрим отрезок δ (диаметр сферы). Если вновь принять длину этого отрезка за 1, т.е. δ = 1, то число отрезков, покрывающих длину δ = 1, определится как 1 r , в L (δ) =
то же время число отрезков, покрывающих L ( δ ) , равно 1 N (r ) ⋅ r ⋅ = N (r ). r
Таким образом, d fp = lim
r →0
ln N ( r ) ln (1 r )
и мы получим исходную формулу (3.243). Как мы видим, здесь вновь использовался основной принцип — принцип самоподобия фракталов. Для многих аттракторов это определение не зависит от x( ) , но для некоторых аттракторов d fp зависит от x( ) , i
i
поэтому лучше воспользоваться усредненной поточечной размерностью. Выберем случайным образом множество точек M < N 0 и в каждой точке вычис-
( )
лим d fp x( ) . Усредненная поточечная размерность определяется как i
( )
1 M ∑ d fp x(i ) . M i =1 Корреляционная (фрактальная) размерность [143]. Эта размерность широко используется для определения меры упорядоченности движений и является нижней оценкой хаусдорфовой размерности странного аттрактора. d fp =
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
353
На первом этапе определяется корреляционный интеграл C ( δ ) по формуле N
1
N
∑∑1 ⎡⎣⎢δ − N →∞ N 2
C ( δ ) = lim
i =1 j =1
i j x( ) − x( ) ⎤ , ⎦⎥
(3.246)
где 1[ z ] — функция Хевисайда; ... — какая-либо норма. Фактически двойная сумi j i j ма в (3.246) определяет число пар x( ) , x( ) , расстояние x ( ) − x ( ) между которыми
не превышает δ. Предполагается, что x ( ) — вектор, описывающий положение изоi
бражающее точки x ( ) = x ( ti ) в фазовом пространстве в момент времени ti , где i
ti = t0 + iT , i = 1, N , Т — некоторый заданный промежуток времени. При малых δ
корреляционный интеграл C ( δ )
δ
d fc
, поэтому корреляционную размерность d fc
можно определить по наклону зависимости ln C ( δ ) от ln δ или d fc = lim
ln C ( δ )
. (3.247) ln δ В случае изучения скалярной динамической системы или одной координаты вектора состояния x, размерность странного аттрактора можно определить с помощью процедуры Паккарда–Такенса [143]. Пусть xi — реализация одной из координат фаδ→0
зового пространства системы — xi = x ( ti ) . Введем в рассмотрение новое фазовое пространство (пространство вложения размерности p ), точки которого определяют-
{
}
p ся векторами y (j ) = x j , x j +1 ,K , x j + p −1 , сконструированными из последних значе-
ний величин x ( j = 1, 2,K , n = N − p + 1) . При изменении t получим в этом пространстве траекторию, воспроизводящую некоторое множество, корреляционная размерность которого d (fc ) может быть вычислена через корреляционный интеграл p
1 p C ( ) ( δ ) = lim 2 n →∞ n
∑∑1( δ − n
n
j =1 k =1
p p y (j ) − y (k )
)
(3.248)
p по наклону зависимости ln C ( ) ( δ ) от ln δ или
d (fc ) = lim p
δ→0
p ln C ( ) ( δ )
ln δ
(3.249)
.
Изменяя размерность p векторов y, проанализируем зависимость d (fc ) от p и p
назовем ее кривой Паккарда–Такенса. Оказывается, при малых p размерность d (fc ) с p
ростом p увеличивается. Однако если регистрируемый сигнал есть проявление детерминированного хаоса, то при некотором p = p0 величина d (fc ) перестает расти (!). p
Достигнутое при этом значение d (fc 0 ) принимается за размерность d fc странного p
аттрактора исходной системы. Если же рост d (fc ) продолжается без насыщения, то p
это свидетельствует о том, что наблюдаемый сигнал является случайным (!). Таким образом, обычный случайный процесс можно рассматривать как движение системы на аттракторе бесконечной размерности. Конечная размерность ат-
354
Методы современной теории автоматического управления
трактора означает, что данный сигнал можно воссоздать с помощью динамической системы. При решении задач управления важно отличать детерминированный хаос от обычных шумов и помех. Дело в том, что наличие внутреннего порядка в детерминированном хаосе позволяет в принципе управлять им, в то же время как шумовой хаос неуправляем [240]. Покажем [143], что минимальное число динамических переменных, необходимое для описания наблюдаемого хаотического движения оценивается как ⎡⎣ d fc ⎤⎦ + 1, где
[z]
— целая часть z. Эта оценка может быть использована, в частности, для реше-
ния одной из самых сложных задач, возникающих при идентификации модели рассматриваемой системы, — задачи определения ее сложности. Рассмотрим примеры, связанные с применением процедуры Паккарда–Такенса для: 1) идентификации размерности математической модели и 2) диагностики объекта управления. Пример 3.12 [240]. Обработка записей пульсаций давления, вызванных работой штангового глубинного насоса (данные с тензодатчиков с глубины 390 м). На рис. 3.48 представлены графики пульсации давления глубинного насоса для различных жидкостей. P( t )
Pст a) а
t
б)
t
Pст
Pст
б
в) в
t
Рис. 3.48. Пульсация давления в скважине: P — давление, μ — вязкость, Pст — статическое давление;
а — μ ≈ 1, 0 Па⋅с (вязкость пластовой воды); б — μ ≈ 50 Па⋅с (дегазированная нефть); в — μ ≈ 500 Па⋅с (водоэмульсионная смесь)
Как видно из рис. 3.48, при большой вязкости начинаются периодические колебания с периодом, равным продолжительности одного цикла качания насоса. С уменьшением вязкости μ движения усложняются и, можно предположить, устанавливаются хаотические колебания при малых μ (рис. 3.48, а). Проверим эту гипотезу процедурой Паккарда–Такенса. На рис. 3.49 построена зависимость корреляционной размерности d (fc ) от размерности p вектора y. p
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
355
d (fc ) p
4
3
2
1
p 5
10
15
20
Рис. 3.49. Построение кривой Паккарда–Такенса для выявления хаоса и определения фрактальной размерности ( μ ≈ 1, 0 Па ⋅ с ) Из рис. 3.49 видно, что при p ≈ 12 наступает насыщение d (fc ) . Следовательно, в данном случае дейстp
вительно наблюдается детерминированный хаос, причем ⎡⎣ d fc ⎤⎦ = 3, поэтому минимальное число динамических переменных, необходимых для описания наблюдаемых колебаний, равно 4. Пример 3.13 (диагностика объекта управления) [240]. При бурении скважины одной из важнейших технических задач является оценка степени износа долота с целью его своевременной замены. Косвенная оценка состояния бурильного инструмента по изменению механической скорости проходки не всегда надежна, поскольку изменение скорости проходки может быть связано с изменением свойств породы, а не с износом долота. Для диагностики состояния долота предложена оценка значения корреляционной размерности пульсаций давления промывочной жидкости. На рис. 3.50 представлены графики рассчитанных корреляционных размерностей для изношенного и неизношенного инструментов. ( p)
d fc
6
2 4
1 2
p 1
5
9
13
17
Рис. 3.50. Кривые Паккарда–Такенса, характеризующие неизношенное (1) и изношенное (2) долото Видно, что неизношенное долото характеризуется конечной фрактальной размерностью d fc ≈ 4,5, в то время как фрактальная размерность изношенного инструмента не ограничивается конечной величиной и определяет случайный процесс, а не детерминированный хаос.
356
Методы современной теории автоматического управления
3.3.6. L-СИСТЕМЫ. ТЕРТЛ-ГРАФИКА Для рассмотренных выше классических фракталов характерен единый принцип построения — добавляются либо выбрасываются отдельные линии или области. Процесс повторяется многократно (итерационно). Этот процесс лег в основу L -систем, позволяющих создавать отдельную, достаточную большую группу самоподобных фракталов (предложены в 1968 г. А. Линденмайером). С помощью L -систем, использующих подсистему графического вывода под названием тертл-графика (ТГ) (от английского turtle — черепаха), обычно строят связанные и несвязанные фрактальные множества — снежинки, ковры, кривые (Госиера, Гильберта, Пеано и др.), а также фрактальные деревья, растения, русла рек и т.д. Сущность тертл-графики состоит в том, что изображающая точка (черепашка) движется по экрану монитора прямолинейно, дискретными шагами, оставляя или не оставляя свой след. После каждого перемещения она может повернуться на некоторый угол в ту или иную сторону, или продолжить движение вновь по прямой. Так образуется непрерывная или разрывная дискретная линия на экране. Изображающая точка может вернуться на несколько шагов назад, не прерывая свой след, и начать движение в новом направлении. В этом случае происходит ветвление траектории движения. Изображающая точка движется по командам, задаваемых кодовыми словами. В каждой точке экрана положение изображающей точки задается тремя параметрами: x, y , α ( x, y — координаты точки; α — направление движения). Кодовое слово состоит из указаний перемещения на один шаг с оставлением или неоставлением следа, увеличением или уменьшением направления движения на некоторый угол Θ, открытием ветви, закрытием ветви. L -систему образуют алфавит, инициатор (слово инициализации, аксиома) и набор порождающих правил, определяющих преобразование аксиомы для организации итерационного процесса. Алфавит состоит из набора отдельных символов. Каждый символ представляет собой микрокоманду предписывающую определенное действие выполняемое изображающей точкой. Например: • F — переместиться вперед на один шаг, прорисовывая след; • b — переместиться вперед на один шаг, не прорисовывая след; • [ — открыть ветвь; • ] — закрыть ветвь; • + — увеличить угол α на величину Θ; • − — уменьшить угол α на величину Θ. Из элементов алфавита можно создавать слова инициализации (аксиомы). Например L -система, позволяющая нарисовать на экране равносторонний треугольник, следующая: π Θ = , аксиома F + + F + + F . 3 Изображающая точка имеет первоначальное направление движения под углом π 3. Согласно команде F выполняется движение на один шаг. По командам + и + осуществляется поворот на угол 2 ⋅ π 3. Следующая команда F предписывает движение еще на один шаг. Команды + и + поворачивают изображающую точку вновь в положительном направлении на угол 2 ⋅ π 3. Окончательная команда F замыкает треугольник. Порождающее правило предназначено для замены микрокоманды в аксиоме группой микрокоманд. Например, если в приведенной выше аксиоме команду F заменить порождающим правилом new f = F − F + + F − F , то изображающая точка при движении по экрану нарисует снежинку Кох. Порождающее правило — это раз-
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
357
новидность рекурсивной процедуры. Глубина рекурсии показывает, какое количество итераций по замене микрокоманд группой микрокоманд необходимо выполнить. С помощью микрокоманды ветвления осуществляется построение деревьев и растений. Порождающие правила позволяют выполнять ветвления многократно не только от линии основного направления движения изображающей точки, но и от построенных ранее ветвей. На рис. 3.51, 3.52 изображены фракталы, построенные с помощью микрокоманды ветвления. Выше рассматривалась лишь алгоритмическая сторона построения фракталов — множеств дробной размерности. Для понимания того, как из множеств образовываются фракталы, какие преобразования над ними выполняются, как организуется итерационный процесс, будет ли последовательность множеств сходящейся или нет, остановимся на отдельных математических аспектах теории фракталов.
Рис. 3.51. Куст после 4-х итераций
Рис. 3.52. Цветок после 3-х итераций
3.3.7. АФФИННЫЕ ПРЕОБРАЗОВАНИЯ Выполняемые над линиями или плоскими фигурами преобразования при построении фракталов относятся к аффинным преобразованиям (АП). Аффинное преобразование состоит из линейного преобразования пространства R n в пространство R m и преобразования сдвига. В матричной форме это задается формулой T ( x ) = Ax + B, x ∈ R n , где A — прямоугольная ( m × n )-матрица вещественных чисел; B — вектор из m элементов. Наиболее иллюстративны действия, выполняемые АП в пространстве R 2 . Линейная составляющая аффинного преобразования осуществляет деформацию (сжатие или растяжение) плоской фигуры. Причем площадь фигуры уменьшается или увеличивается в det ( A ) раз. Если, например, плоская фигура — многоугольник, то каждая
из его сторон, являющаяся отрезком с координатами ⎡⎣( x11 , y11 ) , ( x21 , y21 ) ⎤⎦ , преобразуется в новую сторону, т.е. отрезок с координатами ⎡⎣( x12 , y12 ) , ( x22 , y22 ) ⎤⎦ , причем левая сторона оригинала отражается в левую сторону изображения, правая — в правую, внутренняя область — во внутреннюю область. Операция сдвига, не меняя формы фигуры, осуществляет лишь ее перемещение в плоскости. При преобразовании, выполняемом в плоскости, т.е. в пространстве R 2, АП имеет вид a ⎤ ⎡ x ⎤ ⎡b ⎤ ⎛ ⎡ x ⎤ ⎞ ⎡a T ⎜ ⎢ 1 ⎥ ⎟ = ⎢ 11 12 ⎥ ⎢ 1 ⎥ + ⎢ 1 ⎥ . ⎝ ⎣ x2 ⎦ ⎠ ⎣ a21 a22 ⎦ ⎣ x2 ⎦ ⎣ b2 ⎦
358
Методы современной теории автоматического управления
Коэффициенты aij , i, j = 1, 2; bi , i = 1, 2 называются аффинными коэффициентами и однозначно определяются при отображении трех несовпадающих точек ( x11 , y11 ) ,
( x21 , y21 ) , ( x31 , y31 )
в три другие точки ( x12 , y12 ) , ( x22 , y22 ) , ( x32 , y32 ) из следующей
системы уравнений:
⎧ ⎡ x11 y11 1⎤ ⎡ a11 ⎤ ⎡ x12 ⎤ ⎪⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎪ ⎢ x21 y21 1⎥ ⎢ a12 ⎥ = ⎢ x22 ⎥ ; ⎪⎪⎣⎢ x31 y31 1⎦⎥ ⎣⎢ b1 ⎦⎥ ⎣⎢ x32 ⎦⎥ ⎨ ⎪ ⎡ x11 y11 1⎤ ⎡ a21 ⎤ ⎡ y12 ⎤ ⎪⎢ x y21 1⎥⎥ ⎢⎢ a22 ⎥⎥ = ⎢⎢ y22 ⎥⎥ . ⎪ ⎢ 21 ⎪⎩ ⎢⎣ x31 y31 1⎥⎦ ⎢⎣ b2 ⎥⎦ ⎢⎣ y32 ⎥⎦ Преобразования, выполняемые для ковра Серпинского на любом из шагов для одной
(
(
))
из треугольных областей координаты вершин треугольника ( 0, 0 ) , (1, 0 ) , 1 2, 3 2 , можно задать с помощью трех аффинных преобразований (рис. 3.53) ⎛ ⎡ x ⎤ ⎞ ⎡1 2 0 ⎤ ⎡ x1 ⎤ ⎡ 0 ⎤ T1 ⎜ ⎢ 1 ⎥ ⎟ = ⎢ ⎥ ⎢ ⎥ + ⎢ ⎥; ⎝ ⎣ x2 ⎦ ⎠ ⎣ 0 1 2 ⎦ ⎣ x2 ⎦ ⎣ 0 ⎦ ⎛ ⎡ x ⎤ ⎞ ⎡1 2 0 ⎤ ⎡ x1 ⎤ ⎡1 2 ⎤ (3.250) T2 ⎜ ⎢ 1 ⎥ ⎟ = ⎢ ⎥ ⎢ ⎥ + ⎢ ⎥; ⎝ ⎣ x2 ⎦ ⎠ ⎣ 0 1 2 ⎦ ⎣ x2 ⎦ ⎣ 0 ⎦ ⎛ ⎡ x ⎤ ⎞ ⎡1 2 0 ⎤ ⎡ x1 ⎤ ⎡ 1 4 ⎤ T3 ⎜ ⎢ 1 ⎥ ⎟ = ⎢ ⎥. ⎥⎢ ⎥+⎢ ⎝ ⎣ x2 ⎦ ⎠ ⎣ 0 1 2 ⎦ ⎣ x2 ⎦ ⎣ 3 4 ⎦ Одной из разновидностей аффинных преобразований является изометрия T ( x ) = Qx + B. Матрица Q , определяющая линейное преобразование, ортонормирована, т.е.
QT Q = QQT = I, где I — единичная ( n × n )-матрица. T3
T1
T2 Рис. 3.53. Аффинные преобразования для ковра Серпинского
Столбцы матрицы Q образуют ортонормированный базис. Действительно, результат перемножения строки матрицы QT и столбца матрицы Q можно рассматривать как скалярное произведение двух векторов qi и qiT ( qi — i-й столбец матрицы Q) n
(q , q ) = ∑ q i
T i
k =1
ik qkj
⎧1, i = j; = δij = ⎨ ⎩0, i ≠ j.
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
359
Здесь δij — символ Кронекера. Для изометрии характерна неизменность метрики до и после преобразования T ( x ) − T ( y ) 2 = x − y 2 , x, y ∈ R n . В пространстве R 2 вращение плоской фигуры, ее отражение и сдвиг являются изометриями. Обобщением изометрии является преобразование подобия. Преобразование S : R n → R n задается выражением S ( x ) = rQx + B, где Q — ортонормированная функция, r — коэффициент подобия, вещественное число, r > 0. Для преобразования подобия справедливо S ( x ) − S ( y ) 2 = r x − y 2 , x, y ∈ R n . Изменяя коэффициент подобия r в ходе итерационного процесса, можно получать разнообразные фракталы. 3.3.8. МЕТРИКА ХАУСДОРФА При построении фракталов в ходе итерационного процесса осуществляется переход от одного подмножества к другому. На каждом шаге выполняются аффинные (или другие) преобразования. В ходе этого процесса формируется некоторая последовательность множеств. Последовательность может быть как сходящейся, так и рас∞
ходящейся. Известно, что последовательность {x n }n =1 из X сходится к точке x ∈ X в метрике ρ, определенной для этого пространства, если lim ρ ( x n , x ) = 0.
n →∞
Для определения сходимости последовательности множеств к фракталу используется метрика Хаусдорфа H ( A, B ) , т.е. мера для измерения расстояния между двумя множествами A и B. Метрика Хаусдорфа задается на множестве K всех непустых компактных подмножеств пространства R n следующим образом: H ( A, B ) = max {d ( A, B ) , d ( B, A )} , A, B ∈ K . Здесь d ( X, Y ) — расстояние между двумя компактными множествами X и Y. Расстояние d ( X, Y ) , в свою очередь, определяется так: d ( X, Y ) = max {d ( x, Y ) : x ∈ X} ,
где d ( x, Y ) = min x − y 2 : y ∈ Y — расстояние между точкой x ∈ X и множеством Y. Понятия d ( x, Y ) и d ( X, Y ) иллюстрируются на рис. 3.54 и рис. 3.55.
Метрику Хаусдорфа можно определить, используя понятие дилатации (расширения). Дилатацией множества X из пространства R n радиуса r (обозначается X + r ) является векторная сумма X + Br ( 0 ) , где Br ( 0 ) — замкнутый шар радиуса r с центром в начале координат, т.е. X + r = U {Br ( x ) : x ∈ X} , где U — знак объединения множеств. Метрика Хаусдорфа между двумя непустыми компактными множествами A и B через дилатацию определяется зависимостью
360
Методы современной теории автоматического управления
H ( A, B ) = min {ε > 0 : A ⊂ B + ε, B ⊂ A + ε} , где ⊂ — знак вложения множеств. Графическая иллюстрация данного понятия приведена на рис. 3.56.
d ( x, Y )
d ( X, Y )
x
X
Y Рис. 3.54. К пояснению понятия d ( x, Y )
Y
Рис. 3.55. К пояснению понятия d ( X, Y )
εA
Дилатация В ( B + εB ) εB
εA
B εB
εA
εB
Дилатация А ( A + εA )
A
Рис. 3.56. Нахождение метрики Хаусдорфа между множествами А и В: H ( A, B ) = max {ε A , ε B : A ⊂ B + ε B , B ⊂ A + ε A } = ε B , ε B = d ( A, B ) , ε A = d ( B, A)
Введенная метрика Хаусдорфа позволяет определить сходимость последователь∞
ности компактных множеств { An }n =1 к компактному множеству A. Для того чтобы lim An = A
n →∞
в метрике Хаусдорфа, необходимо и достаточно, чтобы для любого ε можно было выбрать такое N , что из n > N следует An ⊂ A + ε, A ⊂ An + ε. Множества An являются аппроксимирующими множествами для множества A.
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
361
3.3.9. СИСТЕМА ИТЕРИРОВАННЫХ ФУНКЦИЙ Как отмечалось ранее, процедура построения фракталов представляет собой итерационный процесс — переход от одного множества к другому. На каждом шаге выполняются преобразования над множеством, полученном на предыдущем шаге. Данный алгоритм можно представить в виде следующей схемы: E0 — исходное компактное множество, Ei = Ti ( Ei −1 ) , i = 1, 2,K ;
(3.251)
здесь Ti ( Ei −1 ) — преобразования, выполняемые на i -м шаге над множеством Ei −1. Например, для ковра Серпинского преобразование Ti ( Ei −1 ) будет объединением трех аффинных преобразований, определенных формулами (3.250): Ti ( Ei −1 ) = T1 ( Ei −1 ) ∪ T2 ( Ei −1 ) ∪ T3 ( Ei −1 ) . На каждом шаге итерационного процесса выполняются однотипные преобразования. В общем же случае на каждом шаге могут выполняться различные преобразования, определяемые следующим образом: m
T ( E ) = U Ti ( E ).
(3.252)
i =1
Преобразования вида (3.252) называются преобразованиями Хатчинсона. Преобразования Хатчинсона T позволяют строить разнообразные фракталы за счет выбора различных элементарных преобразований Ti ( E ) . Необходимо отметить, что если преобразования Ti ( Ei −1 ) заранее определены, то получаемый результат совершенно не зависит от выбора исходного компактного множества E0 . Кроме того, не любые преобразования T порождают фракталы. Пусть имеется совокупность Ti , i = 1, m действующих на R n и образующих одно преобразование T вида (3.252), тогда система итерированных функций (СИФ) будет являться совокупностью данных отображений вместе с итерационной схемой (3.251). Итерационная схема (3.251) может порождать предельное множество E : E = lim En (3.253) n →∞
вследствие сходимости в метрике Хаусдорфа, но может и не порождать. Если предел существует, то предельное множество является аттрактором системы итерированных функций. Достаточно часто аттрактор является фракталом. Для того, чтобы предел (3.253) существовал, необходимо и достаточно, чтобы отображения Ti : i = 1, m были сжимающими отображениями с коэффициентом сжатия Si < 1 (смотри также логистическое уравнение в п. 3.2). В этом случае преобразование Хатчинсона T также будет сжимающим, с коэффициентом сжатия определяемым из условия S = max ( S1 ,K , Sm ) , и аттрактор будет являться неподвижной точкой отображения T в полном пространстве K с метрикой Хаусдорфа. Под точкой здесь понимается компактное множество. Действительно, для любого компактного множества A выполняется условие: c ∈ A + ε тогда и только тогда, когда существует такой элемент a ∈ A, что d ( c, a ) ≤ ε. Следовательно, если A ⊂ B + ε и B ⊂ A + ε, то для каждого отображения Ti справедли-
во Ti ( A ) ⊂ Ti ( B ) + Si ε и соответственно Ti ( B ) ⊂ Ti ( A ) + Si ε. Поскольку преобразова-
362
Методы современной теории автоматического управления
ние Хатчинсона есть объединение сжимающих отображений Ti , то T ( A ) ⊂ T ( B ) + S ⋅ ε и T ( B ) ⊂ T ( A ) + S ⋅ ε. Пусть ε = H ( A, B ) , тогда H (T ( A ) , T ( B ) ) < S ⋅ r или H (T ( A ) , T ( B ) ) = S ⋅ H ( A, B ) .
Таким образом, преобразование T является сжимающим и предел (3.253) существует. Алгоритмы, реализующие СИФ, позволяют строить самые разнообразные фракталы в зависимости от того, из какого количества и каких сжимающих отображений сформировано преобразование Хатчинсона. Если, например, преобразование Хатчинсона получено с использованием двух аффинных преобразований ⎡ 0, 4 −0,3733⎤ ⎡ 0,3533⎤ T1 ( x ) = ⎢ ⎥ x + ⎢ 0, 0 ⎥ ; 0, 06 0, 6 ⎣ ⎦ ⎣ ⎦ ⎡ −0,8 −0,1867 ⎤ ⎡1,1 ⎤ x + ⎢ ⎥, T2 ( x ) = ⎢ ⎥ 0,8 ⎦ ⎣0,1371 ⎣0,1⎦
т.е.
T ( x ) = T1 ( x ) ∪ T2 ( x ) ,
то можно построить фрактал под названием «лист» (рис. 3.57). Если использовать четыре аффинных преобразований вида 0 ⎤ ⎡ 0, 2550 ⎡ 0,3726 ⎤ T1 ( x ) = ⎢ x+⎢ ⎥ ⎥; 0, 2550 ⎦ ⎣ 0 ⎣ 0,6714 ⎦ 0 ⎤ ⎡ 0, 2550 ⎡ 0,1146 ⎤ T2 ( x ) = ⎢ ⎥ x + ⎢ 0, 2232 ⎥ ; 0 0, 2550 ⎣ ⎦ ⎣ ⎦ 0 ⎤ ⎡ 0, 2550 ⎡ 0,6306 ⎤ T3 ( x ) = ⎢ x+⎢ ⎥; 0, 2550 ⎥⎦ ⎣ 0 ⎣ 0, 2232 ⎦ ⎡ 0,3700 −0,6420 ⎤ ⎡ 0,6356 ⎤ T4 ( x ) = ⎢ x+⎢ ⎥ ⎥, ⎣ −0,6420 0,3700 ⎦ ⎣ −0,0061⎦ то будет иметь место фрактал под названием «кристалл» (рис. 3.58). Аффинные преобразования для ковра Серпинского определены выше в п. 3.3.7.
Рис. 3.57. Фрактал «лист»
Рис. 3.58. Фрактал «кристалл»
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
363
Задача построения предельного множества E — аттрактора из исходного компактного множества E0 в результате итерационного процесса с заданным преобразо-
ванием T ( Ei ) является прямой. Особенностью задачи является то, что вид аттрактора определяется только коэффициентами аффинного преобразования (если такое используется) и не зависит от выбора исходного множества E0 . В то же время можно поставить обратную задачу, а именно, определить совокупность сжимающих отображений, для которых заданное множество является аттрактором. Обратная задача значительно сложнее прямой, однако имеет огромное прикладное значение, в частности, в области сжатия изображений [37]. Необходимость сжатия изображений обусловлена различными факторами. Основными являются — разгрузка каналов связи и соответственно снижение себестоимости передачи данных; использование существующих каналов, изначально не предназначенных для передачи изображений; экономия памяти компьютеров за счет архивации изображений и т.д. Сущность подхода к сжатию изображений состоит в том, что исходное изображение разбивается на отдельные компоненты, каждое из которых считается аттрактором некоторой системы итерированных функций. Для каждой СИФ определяются типы преобразований, например, аффинных. Поскольку одно аффинное преобразование задается только шестью аффинными коэффициентами, то полное исходное изображение можно закодировать относительно небольшим количеством коэффициентов. В этом случае архивации или передаче по каналу связи подлежат лишь коэффициенты аффинного преобразования. При восстановлении изображения решается прямая задача. 3.3.10. СЛУЧАЙНЫЕ ФРАКТАЛЫ Все объекты, с которыми сталкивается человек, можно разделить на искусственные и естественные. Все искусственные объекты имеют, как правило, четкие формы, в то время как формы естественных объектов в большинстве своем являются неправильными. Поэтому такие образования, как горные хребты, береговые линии или облака подобием, в смысле неизменностью, при линейном увеличении или уменьшении, не обладают. При изменении масштаба рассмотрения объектов случайным образом меняются их отдельные элементы. Принцип самоподобия в приведенных случаях необходимо рассматривать со статистических позиций, т.е. понятие «подобный» необходимо толковать как «похожий». Отдельную группу, предназначенную для моделирования природных объектов, образуют случайные фракталы. Наиболее наглядным случайным фракталом является рандомизированная снежинка Кох. Для ее получения достаточно на каждом шаге итерационного процесса обращать вовнутрь или наружу вершину нового строящегося треугольника (рис. 3.59). Фрактальная размерность построенной таким образом кривой остается прежней. Предельная кривая рандомизированной снежинки Кох может служить прекрасной моделью, например, контура облака или острова. Аналогичный подход может быть реализован при построении фракталов с помощью L -систем, когда случайным образом реализуется, например, операция ветвления. Построенные таким образом деревья, растения или снежинки будут иметь более естественный вид. В приведенных примерах рандомизации подвергаются лишь отдельные параметры итерационного процесса, в то время как сам алгоритм (система итерированных функций) построения фракталов остается неизменным — детерминированным. Очевидно, что итерационный процесс также может быть случайным. Для того, чтобы в результате этого процесса осуществлялось построение именно фракталов, необходимо выполнение принципа самоподобия (статистического самоподобия). Свойством статистического самоподобия обладает винеровский процесс (броуновское движение), имеющий нормальное распределение.
364
Методы современной теории автоматического управления
Рис. 3.59. Рандомизированная кривая Кох
Случайный процесс X ( t ) будет винеровским с нормальным распределением на заданном интервале изменения аргумента t ∈ [ a, b ] , если он удовлетворяет следующим требованиям: 1) X ( 0 ) = 0 и функция X ( t ) почти всегда непрерывна; 2) приращение случайного процесса X ( t ) для двух значений аргумента (моментов времени) ΔX ( Δt ) = X ( t2 ) − X ( t1 ) , t2 > t1 , Δt = t2 − t1 является случайной величиной, имеющей нормальный дифференциальный закон распределения с нулевым математическим ожиданием mΔX = 0 и дисперсией DΔX( Δt ) = σ2 Δt , т.е. ⎛ Δx 2 ⎞ exp ⎜ − 2 ⎟ . ⎜ ⎟ 2πσ2 Δt ⎝ 2σ Δt ⎠ Поскольку дисперсия приращений зависит только от разности аргументов Δt = t2 − t1, а не от самих значений t1 и t2 , то приращения являются стационарными. Приращения винеровского процесса для независимых моментов времени являются независимыми случайными величинами в том смысле, что если a ≤ t1 ≤ t1′ ≤ t2 ≤ t2′ ≤ K ≤ tk ≤ tk′ ≤ b, то M {ΔX ( Δt1 ) ΔX ( Δt2 ) ...ΔX ( Δtk )} = M {ΔX ( Δt1 )} ⋅ M {ΔX ( Δt2 )}...M {ΔX ( Δtk )} , f ΔX ( Δx ) =
1
где Δti = ti′ − ti : i = 1, k . То есть винеровский процесс является марковским, если значение процесса в текущий момент времени зависит только от значений в предыдущий момент времени и величины приращения. Приращения винеровского процесса обладают свойствами статического самоподобия. Для них справедливо 1 (3.254) ΔX ( Δt ) ΔX ( r Δt ) , r или 1 X ( t + Δt ) − X ( t ) ⎣⎡ X ( t + r Δt ) − X ( t ) ⎦⎤ r
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
365
для любого r > 0. Здесь символ означает, что две случайные величины имеют одинаковые дифференциальные законы распределения. Действительно, приращение винеровского процесса является нормальным случайным процессом. Интегральный закон распределения для левой части соотношения (3.254) имеет вид Δx ⎛ 1 s2 ⎞ FΔX ( Δx ) = − exp ⎜ ∫ ⎜ 2σ2 Δt ⎟⎟ ds. 2πσ2 Δt −∞ ⎝ ⎠ Для правой части FΔX ( Δx ) =
1 2πr σ 2 Δt
r Δx
∫
−∞
⎛ s2 ⎞ exp ⎜ − ⎟⎟ ds. 2 ⎜ ⎝ 2r σ Δt ⎠
(3.255)
Выполнив замену переменных s = ru в (3.255), видим, что дисперсии одинаковые. Таким образом, величина r является коэффициентом статического самоподобия. Определим фрактальную разность винеровского процесса. Без потери общности полагаем, что интервал изменения значений аргумента [ 0, 1] . Разделим этот интервал на n равных подинтервалов одинаковой длины Δt = 1 n и таким же образом разделим вертикальную ось на подинтервалы длины Δt. Выражение ΔX Δt служит в качестве оценки числа квадратов размера Δt , необходимых для покрытия части графика y = X ( t ) , расположенной над одним подинтервалом. Так как математическое Δt , то число квадратов, необходимых
ожидание величины ΔX пропорционально на одном подинтервале, пропорционально
Δt . Всего имеется 1 Δt таких подинтер-
валов, поэтому общее число квадратов пропорционально Δt −3 2, т.е. N ( Δt ) ≈ Δt −3 2.
Таким образом, фрактальная размерность винеровского процесса ln N ( Δt ) d f = − lim = 1,5. Δt →0 ln Δt Как было показано выше, фракталы, построенные на основе детерминированных алгоритмов, имеют различную размерность. Поэтому вполне естественным является вопрос: можно ли построить случайные фракталы, имеющие размерность отличную от d f = 1,5 ? И ответ на этот вопрос является положительным. Обобщением классического винеровского процесса (КВП) является фрактальный винеровский процесс (ФВП). КВП обладает свойством марковости, т.е. это процесс без памяти [119], для него условная вероятность того, что X ( t2 ) достигает определенного значения при задании X ( t1 ) ( t1 < t2 ), зависит только от t1 и t2 , а не от поведения X ( t ) при t < t1 . ФВП, в отличие от КВП, относится к числу случайных процессов с памятью. Приращения ФВП для различных интервалов изменения аргументов являются зависимыми. Наиболее удобно фрактальный винеровский процесс определить при помощи параметра H , 0 < H < 1. При H = 1 2 ФВП совпадает с КВП. Гаусовский процесс X ( t ) является фрактальным винеровским процессом с параметром H , 0 < H < 1,
если он удовлетворяет следующим требованиям:
366
Методы современной теории автоматического управления
1) X ( 0 ) = 0 и почти все реализации X ( t ) непрерывны; 2) приращения процесса X ( t ) ΔX ( Δt ) = X ( t2 ) − X ( t1 ) , Δt = t2 − t1 , t2 > t1
являются случайной величиной, имеющей нормальное распределение ⎧⎪ 1 ⎛ ⎞ ⎫⎪ 1 Δx ⎜ ⎟ . f ΔX ( Δx ) = (3.256) − exp ⎨ H H ⎬ 2πσ ( t2 − t1 ) ⎪⎩ 2 ⎜⎝ σ ( t2 − t1 ) ⎟⎠ ⎭⎪ Как видно из (3.256), математическое ожидание нулевое, дисперсия — DΔX = σ 2 t2 − t1
2H
. Так как дисперсия приращений зависит только от разности аргу-
ментов, а не от их значений, то данный случайный процесс является стационарным. То, что случайный процесс не является марковским, означает зависимость двух его приращений. Действительно, так как X ( 0 ) = 0, то
( X ( t ) − X ( 0 ) ) ( X ( t + Δt ) − X ( t ) ) = =
{
Учитывая, что DΔX = σ 2 t2 − t1 M
}
1 2 2 2 X ( t + Δt ) − X ( 0 ) ) − ( X ( t ) − X ( 0 ) ) − ( X ( t + Δ t ) − X ( t ) ) . ( 2 2H
, имеем
{( X ( t ) − X ( 0 ) ) ( X ( t + Δt ) − X ( t ) )} = 12 σ2 ⎡⎣⎢( t + Δt )2 H − t 2 H − Δt 2 H ⎤⎦⎥ .
Как видно, полученное выражение равно нулю только при H = 1 2 (классический винеровский процесс), оно отрицательно при H < 1 2 и положительно при H > 1 2. Фрактальный винеровский процесс так же, как и классический винеровский процесс, обладает принципом статистического самоподобия с коэффициентом самоподобия r H , т.е. ΔX ( Δt )
1
ΔX ( r Δt ) для r > 0. rH Размерность фрактального винеровского процесса вычисляется аналогично вычислению фрактальной размерности классического винеровского процесса. Поскольку σ N ( Δt ) ≈ 2− H , Δt то lg ( N ( Δt ) ) d f = − lim = 2 − H. (3.257) Δt →0 lg ( Δt )
Как видно из (3.257), изменяя параметр H , можно менять фрактальную размерность. Визуально можно отметить следующие изменения в реализациях фрактального винеровского процесса для различных значений H (рис. 3.60). Увеличение H приводит не только к уменьшению d f , но и к уменьшению дисперсии процесса, т.е. он становится менее «изрезанным», более гладким. Больших отклонений от математического ожидания нет. Таким образом, изменяя H , можно менять вид случайного фрактала при постоянном значении параметра σ. Рассмотренные выше теоретические положения определяют сущность случайных фракталов. Одномерные классические и фрактальные винеровские процессы может
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
367
быть и не имеют самостоятельного значения при моделировании природных образований, однако являются основой для построения двухмерных фрактальных винеровских процессов (объектов), с помощью которых можно моделировать естественные ландшафты — горные хребты, лесную поверхность, волнение моря и т.д. Двухмерный фрактальный винеровский процесс (поверхность) определяется следующим образом. Это функция двух аргументов X ( x, y ) , обладающая следующими свойствами: 1) X ( 0, 0 ) = 0 и почти все реализации процесса непрерывны; 2) приращения процесса X ( x, y )
ΔX = X ( x + Δx, y + Δy ) − X ( x, y ) ,
где Δx = x ( t2 ) − x ( t1 ) , Δy = y ( t2 ) − y ( t1 ) — являются случайной величиной, имеющей нормальный интегральный закон распределения ⎛ ⎞ S ⎜ ⎟ 1 u2 = ∫ exp ⎜ − FΔX ( Δx ) = P ( ΔX < S ) = ⎟ du. (3.258) H 2 H 2 ⎜ 2σ2 Δx 2 + Δy 2 ⎟ 0 2πσ2 Δx2 + Δy 2 ⎝ ⎠
(
(
)
H = 0,8; D = 1,2
H = 0,6; D = 1,4
H = 0,4; D = 1,6
H = 0,2; D = 1,8
)
Рис. 3.60. Реализации фрактального винеровского процесса
Как видно из (3.258) математическое ожидание нулевое, дисперсия DΔX = σ2
(
Δx 2 + Δy 2
)
2H
.
Фрактальная размерность двухмерного винеровского процесса d f = 3 − H . Она вычисляется аналогично вычислению фрактальной размерности для классического одномерного винеровского процесса. На рис. 3.61–3.63 приведены примеры части фрактальной поверхности (функция max { X, 0} ), соответствующие двухмерным винеровским процессам с различными значениями параметра H . Изменяя значение H , можно моделировать самые разнообразные типы земной поверхности — от равнин до горных хребтов. Моделировать одномерные и двухмерные фрактальные винеровские процессы целесообразно, используя преобразование Фурье. Известен тот факт, что для физически реализуемых случайных процессов спектральная плотность является функцией убывающей. Поэтому спектральную плотность ФВП можно аппроксимировать степенной функцией вида 1 f 2 H +1 , т.е.
368
Методы современной теории автоматического управления
1 , f 2 H +1 что соответствует убывающей функции при увеличении частоты f . Sx ( f ) ≈ k
Рис. 3.61. Двухмерный фрактальный винеровский процесс: H = 0,5
Рис. 3.62. Двухмерный фрактальный винеровский процесс: H = 0, 2
Рис. 3.63. Двухмерный фрактальный винеровский процесс: H = 0,8
(3.259)
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
369
Справедливость зависимости (3.259) можно показать, основываясь на следующих положениях. Известно, что спектральную плотность стационарного случайного процесса X ( t ) , определенного на полубесконечном интервале [ 0, ∞ ) , можно определить не только через его корреляционную функцию, но и как предельный переход от спектральной плотности мощности процесса X T ( t ) , определенного на конечном интервале [ 0, T ] , а именно S x ( f ) = lim S x ( f , T ) ,
(3.260)
T →∞
где Sx ( f ,T ) =
2 1 % X ( jf , T ) T
(3.261) T
— спектральная плотность мощности функции xT ( t ) ; X% ( jf , T ) = ∫ xT ( t ) e− j 2 πf dt — 0
преобразование Фурье «усеченного» фрактального винеровского процесса, ⎧ x (t ) , 0 ≤ t ≤ T ; xT ( t ) = ⎨ ⎩ 0, t > T . Учитывая, что ФВП удовлетворяет принципу статического самоподобия, т.е. 1 x (t ) x ( rt ) rH для любого r > 0, найдем связь между спектральными плотностями для x ( t ) и x ( r Δt ) . Введем обозначение ⎧ 1 x ( rt ) , 0 ≤ t ≤ T ; ⎪ yT ( t ) = ⎨ r H ⎪ 0, t > T . ⎩ Преобразовывая данную функцию по Фурье, имеем T
Y% ( jf , T ) = ∫ yT ( t ) e− j 2 πf dt = 0
1 r H +1
rT
∫ xT ( τ )
f − j 2π τ r e dt.
(3.262)
0
⎛ f ⎞ Интеграл в правой части соотношения (3.262) есть X% ⎜ j , rT ⎟ , т.е. ⎝ r ⎠ 1 f ⎛ ⎞ Y% ( jf , T ) = H +1 X% ⎜ j , rT ⎟ . r ⎝ r ⎠ Соответственно спектральная плотность мощности для YT ( t ) будет определяться зависимостью 2
1 %⎛ f ⎞ X ⎜ j , rT ⎟ . r 2 H +1 rT ⎝ r ⎠ Используя предельный переход (3.260), получаем 1 ⎛ f ⎞ SY ( f ) = 2 H +1 S x ⎜ ⎟ . r ⎝r⎠ Поскольку x ( t ) и y ( t ) статистически самоподобны, то спектральные плотности SY ( f , T ) =
1
S x ( f ) и SY ( f ) совпадают, следовательно,
Sx ( f ) =
1 r 2 H +1
⎛ f⎞ Sx ⎜ ⎟. ⎝r⎠
370
Методы современной теории автоматического управления
Если формально положить r = f , то 1
Sx ( f ) =
S x (1) . r Справедливость зависимости (3.259) показана. Основная идея моделирования ФВП состоит в произвольном задании спектральной плотности S x ( f ) , сохраняющей требуемые свойства, определенные зависимостью (3.259), и последующем применении обратного преобразования Фурье. Моделирование осуществляется на конечном интервале изменения аргумента функции x ( t ) , т.е. рассматривается функция xT ( t ) . Поскольку используются средства вычислительной техники, то в итоге формируется числовая последовательность xT [ nT0 ] , являющаяся дискретной аппроксимацией xT ( t ) : 2 H +1
xT [ nT0 ] = xT ( t ) t = nT , n = 0, N − 1, 0
где T0 = T N — шаг дискретизации процесса; N — число дискретных отсчетов. Практическая реализация выполняется следующим образом. Формируется (синтезируется) дискретное преобразование Фурье для числовой последовательности xT [ nT0 ] в виде Xn =
K n H + 0,5
, n = 0, N − 1;
(3.263)
1 % X ( jf , T ) . T0 Зависимость (3.263) определяется в данной форме в силу справедливости соотношений (3.259). Поскольку для каждого значения n X n является произвольным комплексным числом, то коэффициент K можно задать в форме K = ve 2 πju , где v — значение нормально распределенной случайной величины с нулевым математическим ожиданием и единичной дисперсией; u — значение равномерно распределенной случайной величины на отрезке [ 0,1] .
здесь X n =
К синтезированному комплекснозначному вектору X n применяется обратное дискретное преобразование Фурье. Результатом является искомая числовая последовательность xT [ nT0 ] . При построении случайных фрактальных поверхностей — двухмерных ФВП используются те же процедуры, что и в одномерном случае. В отличие от одномерного случая вместо вектора X n вначале синтезируется двухмерная матрица X n,k : n, k = 0, N − 1, удовлетворяющая условию xnk
2
=
k
(
2
n + k2
)
H +1
,
а затем применяется двухмерное обратное преобразование Фурье. 3.3.11. МНОЖЕСТВА ЖЮЛИА В п. 3.3.9 при рассмотрении системы итерированных функций не конкретизировались типы преобразований Ti ( Ei −1 ) (3.251) (указывалось лишь, что они должны быть
сжимающими) и вид исходного компактного множества E0 . В приведенных там же
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
371
примерах использовались только аффинные преобразования. Однако, в общем случае, выполняемые преобразования могут быть нелинейными, а исходным компактом — точка на плоскости. Для удобства записи математических операций над точками плоскости последние часто рассматриваются как комплексные числа вида z = a + jb. Поэтому исходное комплексное множество, над которым выполняются операции при построении фракталов, может быть некоторым комплексным числом z , и все выполняемые преобразования можно осуществить над комплексными числами. Нелинейную функцию, используемую в итерационном процессе, также можно выбрать произвольно, однако наиболее часто при рассмотрении множеств Жюлиа ограничиваются полиномами одного комплексного переменного z вида n
f ( z ) = ∑ ai z i ,
(3.264)
i =0
где n ≥ 2, ai : i = 0, n — комплексные числа. Для каждого z0 ∈ C ( C — множество комплексных чисел) соотношение
zn +1 = f ( zn ) , n = 0,1, 2,K определяет некоторую последовательность точек, которые определенным образом заполняют комплексную плоскость. Под множеством Жюлиа функции f ( z ) , обозначаемое как I ( f ) , будем понимать границу множества точек z , стремящихся к бесконечности при бесконечном итерировании функции f ( z ) :
{
}
I ( f ) = ∂ z : f ( n ) → ∞, n → ∞ ; здесь для обозначения итерационного процесса используется запись n f ( ) = f K f ( f ( z )) ;
( (
))
символ ∂ — означает границу. Множество названо в честь французского математика Гастона Жюлиа, который одновременно с Пьером Фату исследовал поведение функции комплексного переменного при ее бесконечном итерировании. Простейшим полиномом степени два является функция f ( z ) = z 2. Для нее можно
(2 ) n n построить простейшее множество Жюлиа. Так как f ( ) ( z ) = z , то f ( ) ( z ) → ∞ n
при n → ∞ только тогда, когда z > 1. То есть единичная окружность { z : z = 1} является границей множества Жюлиа, хотя фракталом и не является. Наибольший интерес при построении множеств Жюлиа среди полиномов второй степени представляет квадратичная функция f c ( z ) = z 2 + c, (3.265) где c ∈ C — константа. Функция (3.265) является частным случаем полиномов второй степени. Замена переменных в (3.265) вида a z = a2 x + 1 ; 2 a2 c = a0 −
сводит ее к полиному общего вида
a12 , 4a2
372
Методы современной теории автоматического управления f ( x ) = a2 x 2 + a1 x + a0 .
Изменяя константу c можно построить на экране компьютера удивительной красоты заполняющие множества Жюлиа. Заполняющее множество Жюлиа состоит из точек, орбиты (траектории движения) которых, получающиеся в ходе итерационности процесса zn +1 = f ( zn ) , ограничены. Границей орбит является само множество Жюлиа. На рис. 3.64–3.66 приведены примеры заполняющих множеств Жюлиа для различных значений c. Из рисунков видно, что заполняющие множества Жюлиа являются фракталами и значения констант c влияет на их вид. Изменяя c, можно получить их невероятное разнообразие. Множества Жюлиа будут иметь место только в том случае, если при итерировании функции (3.265)
zn < 2 для n → ∞. Если при некотором n0
zn0 ≥ 2, то
lim zn = ∞, т.е. траектория изменения z , строящаяся в ходе итерационного процес-
n →∞
са, стремится в бесконечность и z не принадлежит множеству Жюлиа.
Рис. 3.64. Заполняющее множество Жюлиа для z2 = 0, 2 + 0,75i
Рис. 3.65. Заполняющее множество Жюлиа для z2 = 0,1244 + 0,7560i
Действительно, условие zn0 ≥ 2 будет выполняться либо при выборе достаточно большого значения константы c, либо при выборе z0 далеко от нуля. Положим
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
373
c = 2 − 2δ, где δ — малая (бесконечно малая) величина, т.е. c < 2. Рассмотрим мо-
дуль функции f c ( z ) : fc ( z ) = z 2 + c ≥ z
2
⎛ c ⎞ − c = z ⎜⎜ z − ⎟⎟ . z ⎠ ⎝
Рис. 3.66. Заполняющее множество Жюлиа для z2 = 0,1194 + 0,6289i
На интервале [ 2, ∞ ) для вещественной функции ϕ ( x ) = x −
c x
имеем ϕ ( x ) ≥ ϕ ( 2 ) ,
поэтому ⎛ c⎞ fc ( z ) ≥ ⎜ 2 − ⎟ z . 2⎠ ⎝
Так как c = 2 − 2δ, то f c ( z ) ≥ (1 + δ ) z .
Таким образом, для n-й итерации имеем n n f c( ) ( z ) ≥ (1 + δ ) z .
Данное выражение стремится к ∞ для всех z0 , для которых z0 > 0. Таким образом, граничным значением для z , порождающих множества Жюлиа, являются z < 2. Заполняющие множества Жюлиа при их отображении на экране компьютера могут иметь не только черно-белую окраску, но и цветную. Один из подходов в выборе цвета для его индикации состоит в подсчете числа итераций, необходимых для выполнения условия zn ≥ zгр ; zгр — некоторое фиксированное граничное значение переменной z в заполняющем множестве Жюлиа. Если число итераций находится в интервале [ n1 , n2 ] , то эта область окрашивается в один цвет, если в другом интервале, то цвет другой. Аналогично могут окрашиваться области за пределами множества Жюлиа. В ходе итерационного процесса формируется некоторая траектория θr ( z ) изменения z в виде последовательности точек. Если при некотором n zn = z0 , то z0 является периодической точкой. Наименьшее натуральное число n, обладающее указанным свойством, является периодом траектории. А сама траектория является пе-
374
Методы современной теории автоматического управления
риодической траекторией, или циклом. Для того чтобы охарактеризовать устойчивость периодической точки z0 и соответственно определить устойчивость траектории в окрестностях периодической точки, находится производная от итерируемой функции в этой точке: d ( n) λ= f ( z) dz z = z0 — собственное значение точки z0 . В зависимости от значения λ периодическая точка называется: • сверхпритягивающей, если λ = 0; • притягивающей, если λ < 1;
• нейтральной, если λ = 1; • отталкивающей, если λ > 1. Если z0 — некоторая притягивающая или сверхпритягивающая неподвижная точка, то бассейн (область) ее притяжения определяется следующим образом:
{
}
n A ( z0 ) = z ∈ C : f ( ) ( z ) → z0 , когда n → ∞ .
(3.266)
A ( z0 ) состоит из тех точек z , чьи траектории сходятся к точке z0 . Если
{
} — притягивающий цикл периода n, то каждая из не-
n −1 γ = z0 , f ( z0 ) , K , f ( ) ( z 0 )
i n подвижных точек f ( ) ( z0 ) : i = 0, n − 1 функции f ( ) ( z ) имеет свой бассейн притяжения,
а A ( γ ) представляет собой просто объединение этих бассейнов. На рис. 3.67, 3.68 приведены примеры множеств Жюлиа, ограничивающих один и три бассейна притягивающих неподвижных точек. Бесконечно удаленная точка также может быть классифицирована. Определение типа бесконечно удаленной точки осуществляется заменой z на 1 z . Поведение функции
f ( z ) в окрестностях этой точки эквивалентно поведению функции
F ( z ) = 1 f (1 z ) в окрестностях точки ноль. Если точка z = 0 — притягивающая пе-
риодическая точка для F ( z ) , то бесконечно удаленная точка также будет притягивающей и т.д. Для функции f c ( z ) = z 2 + c — бесконечно удаленная точка является сверхпритягивающей.
Рис. 3.67. Бассейн притягивающей неподвижной точки
Рис. 3.68. Бассейн притягивающего цикла периода 3
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
375
Теперь можно дать следующие, более расширенные, определения множеству Жюлиа. 1. Если γ — притягивающий цикл функции f ( z ) , то I ( f ) = ∂A ( γ ) . Или I ( f ) — граница области притяжения всех притягивающих неподвижных точек f ( z ) , включая бесконечно удаленную точку. 2. Каждая отталкивающая периодическая точка принадлежит I ( f ) , и I ( f ) является замыканием множества всех отталкивающих периодических точек f ( z ) . Или, пусть Р — множество всех отталкивающих периодических точек функции f ( z ) , тогда множество Р плотно в I ( f ) , т.е. каждая точка из I ( f ) является некоторой последовательностью точек из Р. О фрактальной размерности множеств Жюлиа почти ничего не известно. Однако если используется отображение вида f ( z ) = z 2 + c, то для c 1 можно оценить фрактальную размерность множества Жюлиа по формуле
c
d f = 1+
2
+ члены более высоких порядков. 4 log 2 Как видно из формулы, множества Жюлиа имеют дробную размерность большую единицы. Дополнением к множеству Жюлиа I ( f ) в C является множество Фату (обозначается F ( f )) F ( f ) = C \ I ( f ).
Таким образом, если γ — притягивающий цикл периода n, а A ( γ ) — объединение бассейнов притягивающего цикла, то A( γ ) ⊂ F ( f ). 3.3.12. МНОЖЕСТВА МАНДЕЛЬБРОТА Множества Жюлиа принадлежат к числу наиболее прекрасных фракталов. Большинство из них самоподобны. Вид множества Жюлиа зависит от выбора константы c. Меняя c, можно получить невероятное разнообразие множеств. Их граница постоянно меняет свою форму и при некоторых значениях с «взрывается», превращаясь в пыль. Несмотря на большее разнообразие, существует всего два типа множеств Жюлиа. Множество Жюлиа может быть либо связным, либо канторовым множеством — вполне несвязанным. Множество значений константы c, для которых множество Жюлиа является связанным, есть множество Мандельброта М. Для значений c ∉ M множество Жюлиа несвязно. Для различных типов итерируемых функций множество Мандельброта может иметь различный вид, но в основе каждого из них лежат «маленькие копии» множества Мандельброта для функции f c ( z ) = z 2 + c. Это связано с тем, что многочлен
высокой степени в отдельных малых областях изменения аргумента подобен многочлену второй степени (сравните с функцией Морса). Множество Мандельброта для функции f c ( z ) = z 2 + c определяется следующим образом:
{
}
n M = c ∈ C : f c( ) ( 0 ) g 0, когда n → ∞ .
В определении множества Мандельброта используются нулевая точка комплексной плоскости. Это связано со следующими обстоятельствами. Любой притягиваю-
376
Методы современной теории автоматического управления
щий или рационально нейтральный цикл содержит в своей области притяжения хотя бы одну критическую (периодическую) точку. Но функция f c ( z ) имеет только две критические точки: 0 и ∞. Обе точки не зависят от с. Бесконечно удаленная точка является сверхпритягивающей неподвижной точкой, поэтому интерес представляет только точка z = 0. Выбирая отдельные значения с, например, c = 1, получим траекторию (орбиту) последовательности точек: 0; 1; 2; 5; 26; 677…, т.е. 0 ∈ A ( ∞ ) . Для таких значений с другого аттрактора, кроме бесконечности, не может быть. С другой стороны, существуют такие с, например, c = 0, при которых второй аттрактор существует. В данном случае точка z = 0 притягивает все z , для которых z < 1. Ранее было показано, что граничным значением для z , порождающих множества Жюлиа для функции f c ( z ) = z 2 + c, являются те, которые удовлетворяют условию z < 2. Поэтому проверять орбиты f c ( z ) на ограниченность при z = 0 необходимо
только для констант c ≤ 2. В частности, точка c = −2 принадлежит множеству Мандельброта. Не останавливаясь на теоремах Жюлиа и Фату, доказывающих связность I ( f ) при c ∈ M , рассмотрим, какой вид имеет множество Мандельброта. При рассмотрении множества Мандельброта первое, что бросается в глаза — это область, ограниченная большой кардиоидой (рис. 3.69), с острием в точке 0,25 и закругленной вершиной в точке –0,75. Для значений с, лежащих в этой области, множества Жюлиа имеют притягивающую неподвижную точку.
Рис. 3.69. Множество Мандельброта для z 2 + c
Действительно, если z — неподвижная точка периода 1, то f c ( z ) = z 2 + c = z. Точка будет притягивающей, если d f c ( z ) < 1. λ = dz Так как d fc ( z ) = 2 z, dz
Глава 3. Теория катастроф. Детерминированный хаос. Фракталы
377
то имеем 2 z < 1.
Таким образом, граничные точки притягивающего цикла лежат на окружности 1 радиуса 1 2. Это точки z = e jϕ , где 0 ≤ ϕ ≤ 2π. 2 Из условия неподвижности точки z (3.266) следует уравнение для кривой, ограничивающей область притягивающих неподвижных точек: 1 1 c = e jϕ − e 2 jϕ. 2 4 При изменении ϕ в интервале [ 0, 2π] с описывает кардиоиду. Если z является притягивающей точкой периода 2, то она будет неподвижной 2 для функции f c( ) ( z ) , т.е.
(z
2
+c
)
2
+ c = z.
Данное уравнение можно записать следующим образом:
(z
или
(z
2
2
+c
)
2
+ c − z = 0,
)(
)
+ c − z z 2 + z + 1 + c = 0.
Соответственно имеем два уравнения z2 − z + c = 0 и
z 2 + z + (1 + c ) = 0.
Решения уравнения z 2 − z + c = 0 — это рассмотренные выше неподвижные точки для z. Пусть z1 и z2 — решения уравнения z 2 + z + 1 + c = 0. Так как они точки периода 2 для f c ( z ) , то имеем
(3.267)
⎧⎪ z12 + c = z2 ; ⎨ 2 ⎪⎩ z2 + c = z1 ,
откуда следует, что
(
)
d ( 2) f c ( z1 ) = 4 z1 z12 + c = 4 z1 z2 , dz
а также
d ( 2) f c ( z2 ) = 4 z1 z2 . dz Произведение z1 z2 двух решений уравнения (3.267) равно свободному члену этого уравнения, откуда получаем z1 z2 = 1 + c. Точки z периода 2 будут притягивающими, если d ( 2) f c ( z ) < 1, dz
378 откуда
Методы современной теории автоматического управления 4 (1 + c ) < 1.
Таким образом, область значений с, для которых существуют периодические притягивающие точки периода 2 в множестве Жюлиа, лежат в круге радиуса 0,25 с центром в точке –1. Используя компьютер, можно алгоритмическим путем (аналитически затруднительно) определить области для периодических притягивающих точек с другими периодами. Все эти области называются обрамлением множества Мандельброта. Каждая бифуркация — изменение периода притягивающей точки — порождает новые области. Они касательны к кардиоиде, а по форме похожи на круг. К каждой из них, в свою очередь, прикреплено бесконечное число еще меньших, также имеющих форму круга областей и т.д. Но и это еще не все. Если мы, выйдя из большой кардиоиды и двигаясь налево, попадем в круг, затем налево — в следующую область и продолжим движение дальше, то при этом будем все время приближаться к так называемой точке Мирберга–Фейгенбаума, которая имеет координату –1,401… . Отрезок от этой точки до –2 также принадлежит множеству Мандельброта. И на нем есть маленькая, напоминающая кардиоиду, область с заостренной вершиной в точке –1,75 (ее центр находится в точке –1,754877666…). К этой маленькой кардиоиде прикрепляется точно так же семейство круглых областей, как и к большой. На рис. 3.69 эта область отмечена стрелкой. Оказывается, что число таких «кардиоидных» бесконечно велико. Кроме того, они встречаются не только на действительной оси. Отдельного рассмотрения требуют вопросы, связанные с хаосом и множествами Жюлиа, так как квадратичная функция f c ( z ) = z 2 + c проявляет хаотическое поведение на своем множестве Жюлиа; проблема Кэли — нахождения корней комплексных полиномов методами Ньютона; внешние углы и деревья Хаббарда и многое другое, связанное с фрактальной геометрией. Мы предлагаем заинтересованному читателю самостоятельно ознакомиться с данными проблемами.
Глава 4. Адаптивные системы
ГЛАВА 4.
379
АДАПТИВНЫЕ СИСТЕМЫ
Теория адаптивных систем возникла в связи с необходимостью решения широкого класса прикладных задач, для которых неприемлемы традиционные методы, требующие знания адекватной математической модели объекта. Качество традиционных (неадаптивных) методов управления тем выше, чем больше априорной информации о самом объекте и условиях его функционирования. На практике достаточно трудно обеспечить точное математическое описание объекта управления. Так, например, при разработке автоматических систем управления технологическими процессами в химической, металлургической промышленности создание адекватной математической модели представляет обычно сложную самостоятельную задачу. Более того, характеристики объекта в процессе функционирования могут существенно изменяться. Динамические характеристики летательных аппаратов сильно зависят от режима полета, технологических разбросов, состояния атмосферы. В этих условиях традиционные методы часто оказываются неприменимыми либо не обеспечивают требуемое качество системы автоматического управления. В связи с этим уже на начальном этапе развития теории автоматического управления представлялся весьма эффективным путь построения управляющих систем, не требующих полной априорной информации об объекте и условиях его функционирования. Эффект приспособления к условиям функционирования в адаптивных системах обеспечивается за счет накопления и обработки информации о поведении объекта в процессе его функционирования. Это позволяет существенно снизить влияние неопределенности на качество управления, компенсируя недостаток априорной информации на этапе проектирования систем. 4.1.
ОПРЕДЕЛЕНИЕ И КЛАССИФИКАЦИЯ АДАПТИВНЫХ СИСТЕМ
Управляющая система, автоматически определяющая нужный закон управления посредством анализа поведения объекта при текущем управлении, называется адаптивной. Многочисленные обзоры по теории адаптивных систем имеют разнообразные варианты классификации. Мы будем придерживаться классификации, приведенной А.А. Вороновым и В.Ю. Рутковским в обзоре [46]. Адаптивные системы можно разделить на два больших класса: самоорганизующиеся и самонастраивающиеся. В самоорганизующихся системах в процессе функционирования происходит формирование алгоритма управления (его структуры и параметров), позволяющего оптимизировать систему с точки зрения поставленной цели управления (ЦУ). Такого рода задача возникает, например, в условиях изменения структуры и параметров объекта управления в зависимости от режима функционирования, когда априорной информации недостаточно для определения текущего режима. При широком классе возможных структур объекта трудно надеяться на выбор единственной структуры алгоритма управления, способной обеспечить замкнутой системе достижение ЦУ во всех режимах функционирования. Таким образом, речь идет о синтезе при свободной структуре регулятора. Очевидная сложность постановки задачи не позволяет надеяться на простые алгоритмы ее решения, а следовательно, и на широкое внедрение в настоящее время таких систем в практику. Задача существенно упрощается, если структура объекта управления известна и неизменна, а поведение зависит от ряда неизвестных параметров. Эта задача решается в классе самонастраивающихся систем (СНС), в которых структура регулятора
380
Методы современной теории автоматического управления
задана (заранее выбрана) и требуется определить лишь алгоритм настройки его коэффициентов (алгоритм адаптации). СНС делятся на два подкласса: поисковые и беспоисковые. В поисковых СНС минимум (или максимум) меры качества (производительность установки, расход топлива и т.д.) ищется с помощью специально организованных поисковых сигналов. Простейшими поисковыми системами являются большинство экстремальных систем, в которых недостаток априорной информации восполняется за счет текущей информации, получаемой в виде реакции объекта на искусственно вводимые поисковые (пробные, тестовые) воздействия. В беспоисковых СНС в явном или неявном виде имеется модель с желаемыми динамическими характеристиками. Задача алгоритма адаптации состоит в настройке коэффициентов регулятора таким образом, чтобы свести рассогласование между объектом управления и моделью к нулю. Такое управление называют прямым адаптивным управлением (direct adaptive control), а системы — адаптивными системами с эталонной моделью (model reference adaptive systems). В случае непрямого адаптивного управления (indirect adaptive control) сначала проводят идентификацию объекта, а затем определяют соответствующие коэффициенты регулятора. Такие регуляторы называются самонастраивающимися (self-turning regulators). При прямом адаптивном управлении контуры адаптации работают по замкнутому циклу. Это позволяет парировать изменения параметров объекта и регулятора в процессе функционирования. Однако каждый контур самонастройки повышает порядок системы как минимум на единицу, и при этом существенно влияет на общую динамику замкнутой системы. В случае непрямого адаптивного управления контуры самонастройки работают по разомкнутому циклу и, следовательно, не влияют на динамику системы. Однако все ошибки идентификации, уходы параметров объекта и регулятора существенно влияют на точность управления. В беспоисковых самонастраивающихся системах эталонная модель может быть реализована в виде реального динамического звена (явная модель) или присутствовать в виде некоторого эталонного уравнения, связывающего регулируемые переменные и их производные (неявная модель). В неявной модели коэффициенты эталонного уравнения являются параметрами алгоритма адаптации. 4.2.
ПОСТАНОВКА ЗАДАЧИ СИНТЕЗА АДАПТИВНОЙ СИСТЕМЫ УПРАВЛЕНИЯ. ГИПОТЕЗА О КВАЗИСТАЦИОНАРНОСТИ
Ограничимся рассмотрением задачи синтеза для непрерывных динамических объектов [232]. Пусть на объект управления (ОУ) влияют измеряемые возмущения (задающие воздействия) Y = Y ( t ) , неизмеряемые возмущения N = N ( t ) и управляющие воздействия U = U ( t ) . Наблюдениям доступны выходные переменные объекта X = Xв ( t ) . Поведение объекта зависит от ряда неизвестных параметров, совокуп-
ность которых обозначаем через ξ. Задано множество Ξ возможных значений ξ, определяющих класс допустимых объектов и возмущений. Задана цель управления, определяющая желаемое поведение ОУ. Требуется синтезировать алгоритм управления, использующий измеряемые или вычисляемые на основе измерений величины, не зависящие от ξ ∈ Ξ, и обеспечивающий для каждого ξ ∈ Ξ достижение заданной ЦУ. Вектор неизвестных параметров ξ обычно состоит из коэффициентов уравнений, составляющих математическое описание объекта, а также из коэффициентов, определяющих изменение внешних воздействий (состояния среды). Кроме того, вектор ξ
Глава 4. Адаптивные системы
381
может содержать абстрактные параметры, описывающие неизмеряемые возмущения, обусловленные неточностью описания ОУ. Вектор ξ, как правило, считается квазистационарным: постоянным или меняющимся медленно (медленнее динамических процессов в объекте и изменений внешних воздействий). В дальнейшем будем говорить, что процесс (вектор) Z рассматриваемой системы квазистационарен, если он меняется существенно медленнее остальных динамических процессов, протекающих в системе. Описанная выше задача является задачей управления в условиях неопределенности, связанной с ξ ∈ Ξ. Задача может решаться поэтапно: вначале идентификация вектора ξ, а затем определение алгоритма управления, обеспечивающего требуемое качество функционирования одним из традиционных методов. Однако такая стратегия синтеза требует дополнительного времени на изучение объекта и неприменима в нестационарных условиях. N 1 (t ) Y ( t)
Обобщенный настраиваемый объект (ОНО) X в ( t) Блок
ОУ
датчиков N 2 (t ) U(t)
Регулятор Θ (t )
Алгоритм адаптации Алгоритм адаптивного управления Рис. 4.1. Структурная схема адаптивной системы управления
Более совершенной стратегией управления является адаптивная стратегия, состоящая в одновременном изучении объекта и управлении им. Алгоритм адаптивного управления имеет двухуровневую структуру (рис. 4.1). Алгоритм 1-го уровня (алгоритм регулирования или алгоритм основного уровня) зависит от вектора параметров Θ (вектора параметров регулятора), при каждом ξ ∈ Ξ он должен обеспечивать достижение ЦУ при соответствующем выборе Θ = Θ ( ξ ) . Алгоритм 2-го уровня изменяет (настраивает) вектор Θ таким образом, чтобы обеспечить достижение ЦУ при неизвестном ξ ∈ Ξ. Совокупность алгоритмов регулирования и адаптации называется алгоритмом адаптивного управления, а динамическая система, состоящая из объекта и устройства, реализующего алгоритм адаптивного управления, — адаптивной системой управления (АдСУ). Формализуем задачу синтеза. Пусть непрерывная динамическая система, так называемый «обобщенный объект», описывается уравнениями состояния
382
Методы современной теории автоматического управления & ( t ) = F ( X, Y, U, N , ξ, t ) , X 1
(4.1)
Xв ( t ) = G ( X, Y, U, N 2 , ξ, t ) ,
(4.2)
где F ( ⋅) , G ( ⋅) — известные вектор-функции; N1 , N 2 — возмущения на ОУ и помехи измерений; X ∈ R n , U ∈ R m , Y ∈ R r , Xв ∈ Rl — векторы состояния, управления, внешних входов и выходов ОУ соответственно. В уравнения (4.1), (4.2) помимо самого объекта управления могут входить математические модели исполнительных, измерительных устройств, эталонная модель и т.п. В простейшем случае цель управления задается в виде целевого неравенства q ≤ Δ при t ≥ t* , Δ ≥ 0, (4.3)
где q ( t ) = q ( X ( t ) , U ( t ) ) — неотрицательная целевая функция.
В задачах слежения в качестве целевой функции выбирается функция невязки между действительной и желаемой траекторией движения объекта q = q ( E ( t ) , t ) , E ( t ) = X ( t ) − Xм ( t ) . Желаемое поведение системы может быть задано, например, с
помощью эталонной модели
& ( t ) = F ( X , Y, t ) , X м м м
n
(4.4) r
где X м ∈ R — вектор состояния эталонной модели; Y ∈ R — вектор задающих воздействий. В частном случае при Xм ( t ) = 0 (задача стабилизации) получается целевая функ-
ция текущего состояния объекта q = q ( X ( t ) , t ) .
Задача синтеза состоит в нахождении алгоритма управления из заданного класса двухуровневых алгоритмов вида (4.5) U (t ) = Ut ( X (t ) , U ( t ) , Θ (t ) , Y ( t )) , Θ ( t ) = Θt ( X ( t ) , U ( t ) , Θ ( t ) , Y ( t ) ) ,
(4.6)
обеспечивающих достижение ЦУ (4.3) в системе (4.1), (4.2), (4.5), (4.6) для каждого ξ ∈ Ξ. Здесь U t ( ⋅) , Θt ( ⋅) — некоторые операторы. Если АдСУ функционирует в стохастической среде, то целевое неравенство (4.3) заменяется «усредненной» целью Mq ≤ Δ при t ≥ t* , Δ ≥ 0. (4.7) Система (4.1), (4.2), (4.5), (4.6) называется адаптивной в классе Ξ по отношению к цели управления, заданной одним из неравенств (4.3), (4.7), если для любого ξ ∈ Ξ и при любых начальных условиях X ( 0 ) , U ( 0 ) , Θ ( 0 ) выполняется соответствующее неравенство (4.3) или (4.7). Так как адаптивные системы управления отличаются от традиционных (неадаптивных) систем управления наличием контура адаптации, то для формулировки задачи синтеза алгоритма адаптации удобно использовать понятие «обобщенного настраиваемого объекта» (ОНО). Обобщенный настраиваемый объект включает в себя всю неизменяемую часть системы («обобщенный объект» и регулятор основного контура). В качестве входов ОНО могут выступать как настраиваемые параметры регулятора (4.5) Θ ( t ) (см. рис. 4.1), так и входы обобщенного объекта U ( t ) ( Θ ( t ) = U ( t ) ) , если основной контур управления отсутствует. При этом формально описание системы в форме (4.1), (4.2) или в форме (4.1)–(4.3) представляет собой систему алгебраических и дифференциальных уравнений. В первом случае задача состоит в синтезе алгоритма адаптивного управления (4.5), (4.6), а во втором случае — алгоритма адаптации (4.6).
Глава 4. Адаптивные системы
383
В рамках приведенных выше схем можно рассматривать также нестационарные задачи, в которых вектор неизвестных параметров ξ меняется во времени ( ξ = ξ ( t ) ) . При этом вектор «идеальных», с точки зрения ЦУ, параметров регулятора Θ* также зависит от времени. Алгоритм адаптивного управления должен для достижения цели «отслеживать» дрейф неизвестных параметров, приспосабливаясь к изменяющимся условиям. Ясно, что такое поведение системы возможно лишь при медленном изменении ξ по сравнению с изменением состояния объекта X, когда в измерениях накапливается достаточно информации о дрейфе. При этом быстрые процессы управляются первым уровнем системы — регулятором, а медленные изменения отслеживаются вторым уровнем — адаптором. Двухуровневая система управления находится в соответствии с разделением движений объекта на быстрые (координатные) и медленные (параметрические). Предположения о медленном изменении неизвестных параметров (гипотеза квазистационарности) практически означает, что параметры объекта считаются постоянными, «замороженными». Если же скорость изменения ξ сравнима со скоростью процессов в объекте и изменением внешних воздействий, то целесообразно задаваться законом дрейфа ξ, а параметры закона считать новыми параметрами. Тем самым задача сводится к квазистационарной. 4.3.
МЕТОДЫ СИНТЕЗА АЛГОРИТМОВ АДАПТАЦИИ
Условно методы синтеза адаптивных систем можно разделить на эвристические и теоретические. В эвристических методах отсутствует строгое обоснование устойчивости адаптивной системы и, как следствие, условия применимости рассматриваемых методов. Этот подход был характерен для раннего этапа развития адаптивных систем. Теоретические (строго обоснованные) методы можно разделить на два класса: точные и приближенные. В соответствии с двухуровневой схемой адаптивной системы задача разбивается на два этапа: синтез основного контура и контура адаптации. Среди точных методов синтеза основного контура наибольшее распространение получили следующие методы: 1) метод инвариантности [88, 156], реализующий идею выбора «идеального» управления из равенства правых частей эталонной модели и модели объекта управления; 2) метод модального управления, в котором «идеальное» управление выбирается исходя из желаемых показателей качества переходного процесса; 3) оптимальный синтез, в котором решается задача оптимизации по управляющему воздействию некоторого асимптотического (при t → ∞ ) показателя качества. В основе приближенных подходов лежат методы декомпозиции, основанные на упрощении модели и синтезе по упрощенной модели. Для упрощения и декомпозиции используются методы теории возмущений [142, 238], методы скалярных и векторных функций Ляпунова [46, 136], линеаризация, понижение порядка, отбрасывание возмущений. Популярным является подход, основанный на выделении быстрых и медленных движений системы, при этом синтез осуществляется по модели, описывающей медленные движения. К таким методам относятся: 1) метод усреднения, начало которого было положено работами Н.М. Крылова, Н.Н. Боголюбова [120] и Б. Ван дер Поля [35]; 2) метод сингулярных возмущений. Фундаментальные результаты в этой области принадлежат Н.Н. Красовскому [100], Л.С. Понтрягину [166], А.Н. Тихонову [204] и их ученикам.
384
Методы современной теории автоматического управления
Основными методами синтеза алгоритмов адаптации являются: 1) градиентные методы. Алгоритм изменения настраиваемых параметров строится в направлении антиградиента целевой функции от ошибки рассогласования. Алгоритмы требуют вычисления функции чувствительности, которая зависит от параметров объекта, что противоречит постановке задачи адаптивного управления. Это преодолевается приближенным вычислением функции чувствительности с использованием эталонной модели [156]; 2) методы, основанные на применении функций Ляпунова. Большое число алгоритмов этой группы можно получить в рамках схемы скоростного градиента [9, 230, 232, 238]. В методе используется тот факт, что градиент целевой функции близок по направлению с градиентом ее приращения по времени. Алгоритм адаптации строится в антиградиентном направлении от скорости изменения целевой функции. Метод обеспечивает существование функции Ляпунова в виде суммы целевой функции и квадрата невязки между настраиваемыми и идеальными параметрами; 3) методы, основанные на теории гиперустойчивости. Синтез контура адаптации осуществляется из условия гиперустойчивости системы с адаптивным регулятором. Сравнение методов группы 2 и 3 приведены в работе [294]; 4) методы, основанные на организации скользящих режимов. При возникновении скользящего режима система приобретает свойства инвариантности по отношению к параметрическим возмущениям и помехам. К этой группе примыкают системы с сигнальной адаптацией, полученные на основе схемы скоростного градиента; 5) методы, основанные на введении «бесконечно большого» коэффициента усиления [104, 135]. В методе используется бесконечно большой коэффициент усиления, за счет которого передаточная функция системы становится эквивалентной передаточной функции эталонной модели. Главные недостатки метода: возможная потеря устойчивости при большом коэффициенте усиления, слабая помехозащищенность. Системы, построенные на основе методов четвертой и пятой группы, часто называют системами с адаптивными свойствами, поскольку в них отсутствует контур настройки параметров. 4.4.
ПОИСКОВЫЕ АДАПТИВНЫЕ СИСТЕМЫ
В поисковых адаптивных системах (ПАС) выбор направления настройки параметров, обеспечивающих экстремальное значение меры качества, осуществляется на основе организации специальных поисковых сигналов. 4.4.1. СИСТЕМЫ ЭКСТРЕМАЛЬНОГО РЕГУЛИРОВАНИЯ Простейшими ПАС являются большинство экстремальных систем. В системах экстремального регулирования инерционностью объекта часто пренебрегают, а задача состоит в «отслеживании» дрейфа экстремума статической характеристики объекта. Типовая блок-схема экстремальной системы регулирования представлена на рис. 4.2. На входы объекта подаются поисковые воздействия, и оценивается реакция объекта, проявляющаяся в изменении целевой функции q ( t ) . Определяются те воздей-
ствия, которые приближают целевую функцию к экстремуму. Экстремальные системы классифицируются по способу поиска экстремума: системы с регулярным поиском и случайным поиском. К регулярным методам относятся хорошо известные методы полного перебора, Гаусса–Зейделя, градиентного поиска и их модификации. В случайных методах направление поиска ищется случайным обра-
Глава 4. Адаптивные системы
385
зом. Подробнее представление об экстремальных системах можно получить из учебных пособий [1, 45] и справочников [182, 195]. N U(t)
X в (t )
ОУ
Устройство формирования целевой функции
Органы управления
Устройство организации поиска
Y
q (t )
Рис. 4.2. Структурная схема экстремального регулирования
4.4.2.
ПОИСКОВЫЕ АЛГОРИТМЫ НЕПРЯМОГО АДАПТИВНОГО УПРАВЛЕНИЯ С НАСТРАИВАЕМОЙ МОДЕЛЬЮ
Непрямое адаптивное управление предполагает решение задачи в два этапа. На первом этапе осуществляется идентификация объекта. На втором этапе — выбор коэффициентов регулятора. В поисковых системах идентификации измеряются входные и выходные сигналы объекта, но, в отличие от беспоисковых систем, ведется активный поиск, сопровождающийся испытаниями адаптивной модели по параметрическим каналам. При этом расширяются границы работоспособности систем идентификации с адаптивной моделью. При неполной структурной адекватности модели и объекта, при воздействии на объект случайных возмущений, при сильном отличии в начальных значениях параметров настраиваемой модели от параметров объекта возможно существование множества экстремумов целевой функции по настраиваемым параметрам. В этих условиях беспоисковые алгоритмы идентификации часто оказываются неработоспособными. В основе поисковых систем могут использоваться простейшие методы поиска экстремума, начиная от простого перебора параметров и кончая градиентными методами, а также их комбинации. Общая структурная схема поисковой идентификации представлена на рис. 4.3. Задачей алгоритма поисковой настройки является изменение параметров модели Θм таким образом, чтобы минимизировать целевую функцию невязки q ( E ) . Рассмотрим подробнее непрерывный градиентный алгоритм идентификации с синхронным детектированием [195]. Пусть объект и модель описываются уравнениями состояния & = F ( X, Y, Θ, t , N ) , X = G ( X, Y, t ) + N , (4.8) X 1 в 2 & = F ( X , Y, Θ , t ) , X = G ( X , Y , t ) , (4.9) X м м м м в.м м м где X ∈ R n , Xм ∈ R n , Xв ∈ R l , Xв.м ∈ R l , Θ ∈ R m , Θ м ∈ R m , Y ∈ R m — векторы состояний, выходов, параметров и входов объекта и модели соответственно; N1 , N 2 — векторы возмущений и помех измерения. Целью идентификации является минимизация целевой функции q ( E ) невязки E = X в − X в.м .
(4.10)
386
Методы современной теории автоматического управления N1
N2
& = F ( X, Y, Θ, t , N ) X 1
Xв
X
G ( X, Y, t , N 2 )
Объект управления Y
Алгоритм поисковой настройки
q (E)
Вычисление целевой функции
E
Θм Xм
& = F ( X , Y, Θ , t ) X м м м м
Gм ( Xм , Y, t )
Xв.м
Настраиваемая модель Рис. 4.3. Структурная схема системы поисковой идентификации
Предполагается, что q ( E ) — выпуклая, положительно определенная функция, а на& ,Θ . страиваемая модель — наблюдаемая, так что известны текущие значения X , X м
м
м
Настройку параметров модели будем осуществлять в направлении антиградиента целевой функции & = − Γ∇ q ( E ) , Θ (4.11) м Θм Т
⎛ ∂q ( E ) ⎞ где Γ = ΓТ > 0 — ( m × m)-матрица коэффициентов усиления; ∇Θм q ( E ) = ⎜ ⎟ — ⎝ ∂Θ м ⎠ градиент целевой функции по параметрам модели. Для осуществления градиентного метода необходимо определить ∂q ( E ) ∂q ( E ) ∂Gм ∂Xм =− ⋅ ⋅ . (4.12) ∂Θ м ∂E ∂Xм ∂Θм Основная трудность в вычислении правой части уравнения (4.12) состоит в нахождении ∂Xм ∂Θм . Добавим к вектору параметров Θм малую высокочастотную цен-
трированную составляющую δΘ м ( t ) . При этом уравнение модели в вариациях будет иметь вид & = ∂Fм δX + ∂Fм δΘ + ∂Fм δY. δX (4.13) м м м ∂Xм ∂Θ м ∂Y Пусть поисковый сигнал δΘм является быстроменяющейся вектор-функцией по сравнению с собственными движениями модели и движением, порожденным внешним воздействием Y ( t ) (т.е. процесс X ( t ) считается квазистационарным). Тогда
вариациями δXм ( t ) , δY можно пренебречь ввиду их малости по отношению к δΘм , так что будет справедливо приближенное равенство & ≈ ∂Fм δΘ , (4.14) δX м м ∂Θм
Глава 4. Адаптивные системы
387
или в операторной форме δXм ≈
1 ∂Fм δΘм , p ∂Θ м
(4.15)
где p = d dt — символ дифференцирования по времени. Из соотношения (4.15) при квазистационарном режиме получаем ∂Xм 1 ∂Fм ≈ , ∂Θм p ∂Θм
(4.16)
причем для достаточно высокочастотного поискового сигнала δΘм приближенное равенство можно заменить строгим. С учетом (4.16) уравнение (4.12) принимает вид ∂q ∂q ∂Gм ⎛ 1 ∂Fм ⎞ =− (4.17) ⎜ ⎟. ∂Θм ∂E ∂Xм ⎝ p ∂Θм ⎠ Для вычисления
1 ∂Fм применим процедуру синхронного детектирования. Умp ∂Θм
ножим выражение (4.15) справа на δΘ Tм и усредним полученное уравнение по некоторому скользящему интервалу времени 1 ∂Fм T T (4.18) δXм ( δΘм ) = δΘ м ( δΘм ) , p ∂Θм где δXм ( δΘм ) = T
t
T 1 δXм ( τ ) ( δΘм ( τ ) ) d τ. T t −∫T
Учитывая квазистационарность настройки модели, получаем 1 ∂Fм T T (4.19) δXм ( δΘм ) = δΘм ( δΘм ) , p ∂Θм следовательно, −1 1 ∂Fм T T = δXм ( δΘ м ) ⋅ δΘм ( δΘм ) . p ∂Θм Пусть поисковые сигналы выбираются из условия невырожденности матрицы
{
}
δΘм ( δΘм ) . Тогда алгоритм настройки параметров (4.11) с учетом (4.17), (4.19) T
принимает вид T
& = − Γ∇ q ( E ) = Γ ⎪⎧⎨ ∂q ∂Gм ⎛⎜ 1 ∂Fм ⎞⎟ ⎪⎫⎬ = Θ Θм м ⎩⎪ ∂E ∂Xм ⎝ p ∂Θ м ⎠ ⎪⎭
{
}
−1
T
(4.20)
T ⎛ ∂q ∂Gм ⎞ δΘ м ( δXм ) ⎜ ⎟ . ⎝ ∂E ∂Xм ⎠ Структурная схема системы идентификации представлена на рис. 4.4. Заметим, что термин синхронное детектирование связан с изменением вариации & ( t ) синхронно изменению вариации δΘ (поисковых сигналов) согласно равенδX м м
= Γ δΘм ( δΘ м )
T
ству (4.15) при достаточно высокочастотном сигнале δΘм , а также c возможностью детектирования (выделения) градиента на основе измеряемых величин путем их усреднения (сравните (4.11) и (4.20)).
388
Методы современной теории автоматического управления N1
N2
⎛ δ Θ ( δ Θ )T ⎞ ⎜ м ⎟ м ⎝ ⎠
G(X , Y, t )
−1
⎛ ∂qt ∂Gм ⎞ ⎜ ⎟ ⎝ ∂E ∂X м ⎠
T
δΘм δX м
& Θ м Y
Г p Θм
Θ м + δΘ м
Xв
X
& = F (X , Y , Θ , t , N ) X 1
Генератор поисковых поисковых сигналов сигналов
T
δΘ м δX м
T
E
Xм,Y
δΘм (t ) δX м (t )
& м = Fм (X м , Y, Θм , t ) X
X в. м Gм (X м , Y, t )
Рис. 4.4. Структурная схема поисковой системы с градиентным алгоритмом
Условия применимости алгоритма: 1) целевая функция q(E) — положительно определенная и выпуклая по E; 2) отличие структуры модели объекта, а также начальное рассогласование векторов Θ и Θ м обеспечивают единственное значение экстремума целевой функции; 3) поисковые сигналы δΘм — малы и центрированы, удовлетворяют условию квазистационарности процесса Xм ( t ) и невырожденности матрицы δΘм ( δΘм ) . З ам еч а ния : 1. В случае многоэкстремальности целевой функции целесообразно использовать градиентный метод в сочетании с другими методами поиска, например, со случайным поиском района главного экстремума. T
2. Условие невырожденности матрицы δΘм ( δΘм ) , в частности, выполняется для ортогональных функций, обладающих свойством T
δΘ м ( δΘ м ) = diag δΘ м ( δΘм ) . К таким функциям, например, относятся периодические сигналы с различными частотными компонентами, функции Уолша и т.п. 3. Вычислительные затраты при реализации алгоритма могут быть сокращены за T
счет вычисления матрицы δΘм ( δΘ м )
T
T
заранее на стадии проектирования, а такT
⎛ ∂q ∂Gм ⎞ же при аналитическом раскрытии матрицы-столбца ⎜ ⎟ . ⎝ ∂E ∂Xм ⎠
4. Процедура усреднения типа скользящего среднего может быть заменена усреднением в любом линейном фильтре низких частот, а с учетом наличия в алгоритме блока интегрирования Γ p может быть и вовсе опущена.
Глава 4. Адаптивные системы
389
Пример 4.1. Пусть объект управления описывается передаточной функцией вида k Wo ( s ) = , s+a где k — коэффициент усиления; a — неизвестный параметр. Требуется провести идентификацию параметра a методом синхронного детектирования, считая, что на объект действует задающее воздействие y = sin ( t ) , k = 2, а выход измеряется с аддитивной помехой η в виде центрированного случайного стационарного процесса с нормальным распределением. Выберем настраиваемую модель в виде звена первого порядка k Wм ( s ) = , s+θ где θ = θ ( t ) — настраиваемый параметр.
Пусть на вход модели поступает измеряемое задающее воздействие y с аддитивной помехой η в виде центрированного случайного стационарного процесса с нормальным распределением. Целью управления будем считать синтез алгоритма настройки параметра θ, обеспечивающего минимизацию целевой функции q = e 2 , где e = x − x м — рассогласование между выходами объекта и настраиваемой модели. Выберем в качестве поискового сигнала высокочастотный, по сравнению с задающим воздействием, сигнал вида δθ = 0,1sin ( 200t ) . Тогда в соответствии с (4.20) алгоритм идентификации будет иметь вид δθδx м θ& = γ e, γ > 0, δθ 2 где δθ 2 = 200 — заранее вычисленное значение для заданного поискового сигнала. Структурная схема системы идентификации приведена на рис. 4.5, а. Операция усреднения опущена ввиду наличия интегратора (1 p ). Результаты моделирования при разных значениях дисперсии помехи
D η = 0; 0,1; 0,3 приведены на рис. 4.5, б–г соответственно. x& = −3 x + 2 y
( δθ ) y
x
−2
γ p
δθδx
e
Генератор поисковых сигналов
θ
η
2
− xм
δθ
δx м
y x& м = −θx м + 2 y
а
θ (t )
y
θ*
θ
t б Рис. 4.5. Структурная схема (а) и результаты моделирования (б–г)
t
390
Методы современной теории автоматического управления θ (t )
θ*
θ
y
t
t в
θ(t )
θ*
θ
y
t
t
г Продолжение рис. 4.5
В заключение следует отметить, что, несмотря на очевидные преимущества поисковых алгоритмов, их реализация намного сложнее, чем беспоисковых алгоритмов адаптивного управления, так как, по крайней мере, требует наличия генератора поисковых сигналов. 4.5.
БЕСПОИСКОВЫЕ АДАПТИВНЫЕ СИСТЕМЫ УПРАВЛЕНИЯ
Выше подчеркивалось, что динамика контура самонастройки (адаптации) существенно влияет на общую динамику СНС. Поэтому синтез неразрывно связан с обеспечением устойчивости замкнутого объекта с контуром адаптации. 4.5.1. СИНТЕЗ АДАПТИВНОЙ СИСТЕМЫ МЕТОДОМ ФУНКЦИЙ ЛЯПУНОВА Метод функций Ляпунова является одним из основных методов исследования устойчивости и качества движения нелинейных систем, описываемых обыкновенными дифференциальными уравнениями. Ввиду нелинейного характера алгоритмов адаптации метод нашел эффективное приложение к проблеме синтеза адаптивных систем управления. Поясним идею применения метода функций Ляпунова на примере синтеза алгоритма адаптивного управления для линейного стационарного объекта управления [292]. Постановка задачи. Пусть объект управления (ОУ) описывается уравнением состояния & = AX ( t ) + BU ( t ) , X (4.21)
Глава 4. Адаптивные системы
391
где X ∈ R n — вектор состояний ОУ; U ∈ R m — вектор управления; A, B — ( n × n )- и ( n × m )-постоянные матрицы параметров ОУ. Предполагается доступность измерению всего вектора состояния ОУ, так что Xв = X ( t ) . Рассмотрим задачу обеспечения ОУ желаемой динамики, которую зададим с помощью эталонной модели & = A X (t ) + B Y (t ) , (4.22) X м м м м где Xм ∈ R n — вектор состояния эталонной модели; Y ( t ) ∈ R m — задающее воздействие. Выбор эталонной модели зависит от требований, предъявляемых к замкнутой системе (времени переходного процесса, перерегулирования, астатизма и т.д.). При этом, естественно, она должно быть устойчивой, т.е. матрица A м — гурвицева. Будем считать, что вектор параметров ξ ОУ, состоящий из коэффициентов матриц A, B, заранее не определен. Известно лишь, что ξ ∈ Ξ. Множество Ξ можно задать, например, с помощью максимальных и минимальных значений, которые могут принимать параметры ОУ в зависимости от условий изготовления и функционирования. Формализуем цель управления (ЦУ), потребовав, чтобы lim E ( t ) = 0, (4.23) t →∞
где E ( t ) = X ( t ) − Xм ( t ) — ошибка системы (4.21) и (4.22). Таким образом, в соответствии с ранее рассмотренной классификацией ставится задача построения СНС с явной эталонной моделью. Решим задачу на основе прямого адаптивного подхода. В соответствии с двухуровневой структурой СНС будем решать задачу в два этапа: построение основного контура и синтез контура адаптации. Синтез основного контура. Задача решается в предположении, что параметры ОУ известны. Для получения структуры «идеального» регулятора запишем уравнение в отклонениях E& ( t ) = A м E ( t ) + ( A − A м ) X ( t ) + BU ( t ) − B м Y ( t ) . (4.24) Потребуем выполнение условия разрешимости уравнения ( A − A м ) X ( t ) + BU ( t ) − Bм Y ( t ) = 0 m
n
(4.25)
m
относительно U∗ ∈ R при любых X ∈ R , Y ∈ R . При этом уравнение (4.24) будет иметь вид E& = A м E ( t ) ,
решение которого асимптотически устойчиво в силу гурвицевости матрицы A м , и, следовательно, в идеальных условиях ЦУ (4.23) достигается. Идеальное управление, удовлетворяющее соотношению (4.25), описывается уравнением U∗ ( t ) = K ∗X X ( t ) + K ∗Y Y ( t ) , которое можно записать в форме U∗ ( t ) = K ∗Y K ∗X X ( t ) + K ∗Y Y ( t ) ,
(4.26)
где K ∗X , K ∗Y , K ∗X , K ∗Y — матрицы идеальных коэффициентов регулятора, удовлетворяющие уравнениям: BK ∗X = A м − A, BK ∗Y = Bм , (4.27а) Bм K ∗X = A м − A, BK ∗Y = Bм .
(4.27б)
392
Методы современной теории автоматического управления
Условия (4.27) часто называют условиями согласованности модели и ОУ, и они определяют возможность решения поставленной задачи в условиях точного знания параметров ОУ. Заметим, что в соответствии с (4.27) матрицы идеальных коэффициентов регулятора зависят от конкретных параметров ОУ ξ ∈ Ξ. Поэтому в ситуации неопределенности параметров ОУ целесообразно настраивать матрицы коэффициентов регулятора для достижения в системе ЦУ (4.23). Выберем структуру основного контура в соответствии с (4.26) в виде U (t ) = K Y (t ) K X (t ) X (t ) + K Y (t ) Y (t ) , (4.28) где K X ( t ) , K Y ( t ) — матрицы настраиваемых коэффициентов регулятора. Подставляя (4.28) в уравнение (4.24), получаем описание обобщенного настраиваемого объекта (ОНО), состоящего из ОУ (4.21), модели (4.22) и регулятора основного контура (4.28), в форме −1 E& ( t ) = A м E ( t ) + Bм K X ( t ) − K ∗X X ( t ) + Bм ⎡⎢ K ∗Y K Y ( t ) − I ⎤⎥ × ⎣ ⎦
(
(
)
( )
)
× K X ( t ) X ( t ) + Y ( t ) = Aм E ( t ) +
(4.29)
(
)
+ B м ⎡Ф ( t ) X ( t ) + Ψ ( t ) K Y ( t ) Y ( t ) + K X ( t ) X ( t ) ⎤ , ⎣ ⎦ где I — ( m × m)-единичная матрица; Φ ( t ) , Ψ ( t ) — матрицы отклонений коэффициентов регулятора от «идеальных» значений:
( ) − (K
Ф ( t ) = K X ( t ) − K ∗X , Ψ ( t ) = K ∗Y
−1
Y
(t ) )
−1
(4.30)
.
Структура ОНО показана на рис. 4.6.
xм
x& м = A м xм + B м r
e
r u
KYr (t ) K
x& = Ax + Bu
x
K x (t ) Рис. 4.6. Структурная схема обобщенного настраиваемого объекта
Синтез контура адаптации. Для синтеза алгоритмов настройки матриц K X ( t ) и K Y ( t ) запишем уравнение ОНО (4.29) в виде E& ( t ) = A E ( t ) + B Θ ( t ) Σ ( t ) , м
м
(4.31)
где Θ ( t ) = ( Ф ( t )M Ψ ( t ) ) — расширенная матрица отклонений настраиваемых коэффициентов от их «идеальных» значений; X (t ) ⎛ ⎞ ⎟ Σ (t ) = ⎜ Y ⎜ K ( t ) ⎡ Y ( t ) + K X ( t ) X ( t )⎤ ⎟ ⎣ ⎦⎠ ⎝
Глава 4. Адаптивные системы
393
— ( p × 1)-вектор сенсоров (вектор, элементы которого являются измеримыми или вычислимыми на основе измерений функциями), p = n + m. Рассмотрим в качестве претендента на роль функции Ляпунова квадратичную скалярную функцию вида (4.32) V = 0,5ET HE + 0,5tr Θ T Г −1Θ , H = H T , Г = Г T > 0;
(
)
здесь tr D означает сумму элементов главной диагонали матрицы D (след матрицы). Определим производную функции (4.32), используя уравнение ОНО (4.31): & T Г −1Θ = ET HA E + ET HB ΘΣ + tr Θ & T Г −1Θ = & + tr Θ V& = ET HE
(
)
м
(
& = ET HA м E + tr ⎡ BTм HEΣT + Г −1Θ ⎣⎢
м
)
T
(
)
Θ⎤ . ⎦⎥
Нетрудно заметить, что если алгоритм адаптации выбрать в виде & = − ГB T HEΣT ( t ) , Г = Г T > 0, Θ м
(4.33)
то функция V обладает свойствами V > 0 и V& < 0, т.е. является функцией Ляпунова. Последнее утверждение следует из гурвицевости матрицы A м , для которой в силу леммы Ляпунова существует H = H T > 0, удовлетворяющее матричному уравнению A Tм H + HA м = −Q, Q = QT > 0,
и, следовательно, V& = −0,5ETQE.
(4.34)
Таким образом, система (4.31), (4.33) устойчива и в силу (4.34) ЦУ E ( t ) → 0 при t → ∞ достигается. Так как V& (4.34) не содержит в явном виде настраиваемых параметров, то из приведенных рассуждений следует лишь ограниченность матрицы Θ. Заметим, что из E ( t ) → 0 не следует ограниченность X ( t ) , т.е. устойчивость замкнутой системы. Однако при ограниченности задающего воздействия Y ( t ) с учетом гурвицевости матрицы A м вектор Xм ( t ) ограничен и, следовательно, ограничен вектор фазовых координат X ( t ) замкнутой системы. Условия идентифицируемости. Усилим задачу, потребовав, чтобы адаптивная система (4.31), (4.33) была асимптотически устойчивой, т.е. выполнялось lim E ( t ) = 0, t →∞ (4.35) lim Θ ( t ) = 0. t →∞
Последнее условие эквивалентно требованию K X ( t ) → K *X , K Y ( t ) → K ∗Y при t → ∞, что означает наделение алгоритма (4.33) идентифицирующими свойствами. Предположим, что компоненты вектора Σ ( t ) — ограниченные функции времени. Тогда из устойчивости системы (4.31), (4.33) и E ( t ) = 0 при t → ∞ следует
(
)
& ( t ) = lim −ГB EΣT = 0 lim Θ м
t →∞
t →∞
и, следовательно, Θ ∞ = lim Θ ( t ) — постоянная матрица. t →∞
394
Методы современной теории автоматического управления
Рассмотрим траектории, вдоль которых V& ≡ 0 или E ≡ 0. Из (4.31) получаем Bм Θ∞ Σ ( t ) = 0. (4.36) Пусть B м — матрица полного ранга, тогда из (4.36) следует тождество Θ ∞ Σ ( t ) ≡ 0.
(4.37)
Обозначим Θi — вектор-столбец матрицы Θ∞ и σi — элемент вектора Σ. Это позволяет переписать (4.37) в виде (4.38) ∑ Θi σi ( t ) = 0. i
Предположим, что Σ ( t ) — периодический вектор
( Σ (t ) = Σ (t + T )) ,
элементы
которого являются сигналами с различающимися частотными компонентами. Это означает, что σi ( t ) — линейно независимые функции времени. При этом уравнение (4.38) имеет только тривиальное решение Θi = 0, i = 1, p, так что Θ ∞ = 0. Таким образом, в предположении периодичности вектора Σ ( t ) из E ≡ 0 следует Θ = 0. Проведенный анализ устойчивости позволяет сформулировать следующую теорему. Теорема 4.1. Пусть ( n × n )-матрица A м является устойчивой, ( n × m )-матрица B м
— полного ранга, Г = Г T > 0 — (m × m )-матрица, H = H T — ( n × n )-матрица, удовлетворяющая уравнению Ляпунова A Tм H + HA м = −Q, Q = Q T > 0, (4.39)
и Σ ( t ) — ( p × 1)-вектор ограниченных функций. Тогда система ( n + mp ) дифференциальных уравнений (4.31), (4.33) E& = A м E + Bм Θ ( t ) Σ ( t ) ; & = −ГBT HE ( t ) Σ ( t )T Θ м
устойчива и E ( t ) → 0 при t → ∞. Более того, если p компонент вектора Σ ( t ) — сигналы с взаимно различными частотными компонентами, то система (4.31), (4.33) асимптотически устойчива в целом. Таким образом, теорема 4.1 сводит задачу синтеза адаптивной системы управления к конструированию структуры основного контура, обеспечивающего приведение описания ОНО к виду (4.31) и использованию для настройки неизвестных параметров регулятора (или самого ОУ) алгоритма (4.33). При этом в вектор сенсоров Σ ( t ) должны входить лишь измеряемые или вычисляемые на основе измерений ограниченные функции времени, а матрицы A м , Г, H удовлетворять условиям теоремы. Для реализации алгоритма адаптации следует записать уравнение (4.33) в терминах матриц настраиваемых коэффициентов K X ( t ) , K Y ( t ) . Для этого достаточно представить Г в виде 0 ⎞ ⎛Г Г=⎜ 1 ⎟, ⎝ 0 Г2 ⎠ где Γi = ГiT > 0 — квадратные матрицы соответствующих размеров. При этом система (4.33) записывается в виде
Глава 4. Адаптивные системы
395
& = −Г BT HE ( t ) X T ( t ) , Ф 1 м
(
& = −Г BT HE ( t ) Y + K X X Ψ 2 м
) (K ) T
Y T
.
& X ≡ 0, K & Y ≡ 0 получаем Используя равенства (4.30), с учетом K ∗ ∗ & X T T K ( t ) = −Г1B мHEX ( t ) ,
(
& Y t = −K Y Г BT HE Y + K X X K () 2 м
)( ) T
KY
T
(4.40)
K Y.
Структурная схема адаптивной системы ((4.31), (4.33)) с учетом структуры ОНО (рис. 4.6) приведена на рис. 4.7. Y
E
ОНО X
K X (t )
Y
K (t )
& = −Γ B T HEX T K 1 м
KX
(
& Y = −KY Γ BTHE Y + K X X K 2 м
)
T
( K Y )T K Y
Рис. 4.7. Структурная схема адаптивного управления линейным ОНО
Следует отметить, что в силу выбора основного контура управления в форме (4.26) в правую часть алгоритма адаптации (4.40) входит в качестве сомножителя матрица K Y . Поэтому в ходе самонастройки должно выполняться условие K Y ( t ) ≠ 0 ∀ t ≥ 0. С другой стороны, «идеальная» матрица K *Y удовлетворяет условию согласованности (4.27б). Таким образом, элементы матрицы K Y ( 0 ) (начальные условия) должны иметь те же знаки, что и элементы матрицы K *Y . Пример 4.2. Пусть объект управления описывается моделью вида & = AX + Bu , X
⎛ 0 1⎞ ⎛ 0⎞ где X ∈ R 2 , u ∈ R1; A = ⎜ ⎟ , B = ⎜ ⎟ ; α 0 , α1 , β — неизвестные параметры. α α ⎝β⎠ 1⎠ ⎝ 0 Требуется синтезировать алгоритм адаптивного управления, обеспечивающий достижение близости траекторий замкнутой системы и эталонной модели, т.е. ЦУ: X − X м → 0 при t → ∞. Зададим структуру эталонной модели в виде уравнения состояния & = A X + B y, X м м м м
⎛ 0 1⎞ ⎛ 0⎞ где Xм ∈ R 2 , y ∈ R1; A м = ⎜ ⎟ , Bм = ⎜ ⎟ ; a0 , a1 , b — параметры эталонной модели. ⎝b⎠ ⎝ a0 a1 ⎠ Параметры эталонной модели выберем исходя из желаемого расположения полюсов замкнутой систе-
(
)(
мы λ1* = −1, λ*2 = −2 так, что s 2 − a1s − a0 = s − λ1* s − λ*2
)
— характеристическое уравнение эталонной
модели. Получаем a1 = −3, a0 = −2. Значение b выберем равным 2. При этом статическая ошибка эталонной модели будет равна нулю. Э т а п 1 . Синтез алгоритма основного контура управления. Проверим условия согласованности модели объекта управления и эталонной модели (4.27б)
Bk*y = Bм ; Bм K *X = A м − A.
396
Методы современной теории автоматического управления
Очевидно, что условия выполнены при любых параметрах объекта и эталонной модели (β ≠ 0, b ≠ 0 ). Идеальное управление выберем в форме (4.26) u* ( t ) = k*y ⎡⎣K *X X ( t ) + y ( t ) ⎤⎦ ,
(
(
где k*y = b β , k1* = ( a0 − α 0 ) b , k2* = ( a1 − α1 ) b — «идеальные» параметры регулятора K *X = k1*
))
k 2* .
Заменяя «идеальные» параметры регулятора настраиваемыми, получаем алгоритм основного контура управления в виде u ( t ) = k y ( t ) ⎣⎡( k1 ( t ) x1 ( t ) + k2 ( t ) x2 ( t ) ) + y ( t ) ⎦⎤ . Э т а п 2 . Синтез алгоритма адаптации. Алгоритм настройки параметров регулятора выберем в виде (4.40) при Г1 = γ1I, γ1 > 0, γ 2 > 0 & X = −γ 0 b H ⎛ x1 − x1м ⎞ x x ; K ) ⎜ ⎟( 1 2 ) 1( ⎝ x2 − x2м ⎠ ⎛x −x ⎞ b ) H ⎜ 1 1м ⎟ ( y + k1 x1 + k2 x2 ) , ⎝ x2 − x2м ⎠ где H = H T > 0 — (2 × 2 )-матрица, являющаяся решением уравнения Ляпунова для эталонной модели:
( ) (0
k& y = −γ 2 k y
3
HA м + A мT H = −G ,
T
где G = G > 0. ⎛13 3 1 ⎞ ⎛ 4 0⎞ Выбирая G = ⎜ ⎟. ⎟ , получаем H = ⎜ 2 3⎠ ⎝ 1 ⎝ 0 2⎠ Таким образом, алгоритм адаптации имеет вид k&1 = −γ1δ ( t ) x1 ( t ) ; k& = −γ δ ( t ) x ( t ) ; 2
1
(
2
)
k& y = −γ2δ ( t ) y ( t ) + k1x ( t ) x1 ( t ) + k2x ( t ) x2 ( t ) k y ( t ) ;
δ ( t ) = 2e1 ( t ) + 4e2 ( t ) 3,
( )
где ei = xi ( t ) − xi м , γ2 = γ 2 ⋅ k y
2
> 0 — коэффициент усиления, введенный для упрощения реализации алго-
ритма (при этом антиградиентное направление настройки k y не меняется, а изменяется лишь ее скорость). x1 ( t )
x1
x1м
r
ky
k*y
t
t
t
t
k1* k 2*
k1
k2
Рис. 4.8. Результаты моделирования (пример 4.2)
Глава 4. Адаптивные системы
397
Результаты моделирования системы адаптивного управления при α 0 = 0, α1 = 1, β = 1, γ1 = 5, γ2 = 10, нулевых начальных условиях для эталонной модели и объекта и начальных условиях алгоритма адаптации k1(0) = 0, k2(0) = 0, K , k y(0) = 1, K приведены на рис. 4.8. Соответствующие значения идеальных коэффициентов регулятора основного контура равны k*y = 2, k1* = −0,5, k2* = −2. В качестве заданного входного
(
(
))
воздействия был выбран меандровый сигнал y = 0,5 1 + sign sin ( ( π ⋅ t ) 6 ) , обеспечивающий алгоритму адаптации дополнительные идентификационные свойства.
4.5.2.
СХЕМА СКОРОСТНОГО ГРАДИЕНТА
Многообразие структур объектов и целей управления, возможность широкого выбора структуры основного контура даже при использовании квадратичных форм функции Ляпунова порождает целый спектр алгоритмов адаптации. Для каждого из этих алгоритмов, подобно теореме 4.1, должны быть сформулированы условия применимости, обеспечивающие достижение поставленной ЦУ и устойчивости системы адаптивного управления. Обоснование работоспособности алгоритмов, как было показано в предыдущем параграфе, — задача не простая, а изобилие теоретических выкладок затрудняет их использование в инженерной практике. Представляется разумным иметь методы или схемы синтеза, позволяющие для конкретной ЦУ с учетом специфики ОУ осуществлять выбор алгоритмов адаптации из некоторого семейства (класса) алгоритмов и путем проверки выполнения заранее оговоренных условий доказывать их работоспособность. К таким методам относится схема скоростного градиента, в основе которой лежит идея настройки параметров в направлении, противоположном скорости изменения целевого функционала вдоль траектории ОНО. Эта идея принадлежит А.А. Красовскому [115, 116], который для задачи идентификации с адаптивной моделью установил общий вид алгоритма адаптации, оптимального по критерию обобщенной работы. Оптимальный алгоритм описывается функциональным рядом и в чистом виде не реализуем. Однако в первом приближении он совпадает с хорошо известными беспоисковыми градиентными алгоритмами. Если взять второе приближение и предположить высокочастотность входного сигнала и квазистационарность процесса настройки, то получается семейство алгоритмов скоростного градиента. Обоснование алгоритмов скоростного градиента, их модификации, способы огрубления, обеспечивающие сохранение работоспособности при аддитивных и мультипликативных шумах, а также дискретизации алгоритмов управления для нестационарных ОУ, наличия фазовых ограничений, сингулярных возмущений рассматривались в работах А.Л. Фрадкова [9, 73, 141, 230, 232, 234, 236, 237, 238]. 4.5.2.1. АЛГОРИТМЫ СКОРОСТНОГО ГРАДИЕНТА И УСЛОВИЯ ИХ ПРИМЕНИМОСТИ
Вернемся к постановке задачи, описанной в п. 4.2. В предположении измеряемости компонент вектора состояния ( Xв ( t ) = X ( t ) ) , отсутствии внешних возмущений
( N1 , N 2 ≡ 0 ) и с учетом структуры основного контура (4.5), обобщенный настраиваемый объект (ОНО) описывается дифференциальным уравнением вида & = F ( X, Θ, ξ, t ) , X (4.41) где X ∈ R n — вектор состояния ОНО; Θ ∈ R mΘ — вектор входов (вектор настраиваемых коэффициентов регулятора). Будем предполагать, что вектор-функция F ( ⋅) непрерывна по X, Θ, t и непрерывно дифференцируема по Θ, а ЦУ задается целевым неравенством (4.3) q ≤ Δ при
(
)
t ≥ t* , Δ ≥ 0, где q — локальный q = q ( X ( t ) , t ) или интегральный
398
Методы современной теории автоматического управления
t ⎛ ⎞ ⎜ q = ∫ q ( X ( τ) , Θ ( τ) , τ) d τ ⎟ ⎜ ⎟ 0 ⎝ ⎠ целевой функционал ( q (⋅) — скалярная функция). Алгоритмом скоростного градиента (АСГ) называется правило изменения вектора Θ, задаваемое уравнением адаптера вида
d ( Θ + ψ ( X, Θ, t ) )
= −Г∇Θ ω ( X, Θ, t ) , dt где Г = ГT > 0 — ( mΘ × mΘ )-матрица коэффициентов усиления; ω ( X, Θ, t ) =
(4.42)
∂q + ∇ X q T F ( X, Θ, t ) ∂t
— для локального функционала и ω ( X, Θ, t ) = q ( X, Θ, t ) — для интегрального функционала представляет собой полную производную функционала по времени в силу траектории системы (4.41); ψ ( X, Θ, t ) — некоторая вектор-функция, удовлетворяющая условию псевдоградиентности ψ ( X, Θ, t ) ⋅∇Θ ω ( X, Θ, t ) ≥ 0. T
(4.43)
Это условие эквивалентно требованию, чтобы угол ϕ между векторами ψ ( ⋅) и ∇Θ ω ( ⋅) лежал в пределах от − π 2 до π 2 (см. рис. 4.9).
ψ ( X, Θ, t )
φ ∇Θ ω ( X, Θ, t ) Рис. 4.9. Геометрическая интерпретация условия псевдоградиентности
Условие (4.43) выполняется, например, если ψ ( X, Θ, t ) = Г1∇Θ ω ( X, Θ, t ) , или ψ ( X, Θ, t ) = Г 2 sign ( ∇Θ ω ( X, Θ, t ) ) ,
(4.44а) (4.44б)
где Гi = ГiT > 0, i = 1,2 — (mΘ × mΘ )-матрицы, причем Γ 2 — диагональная; sign ( ∇Θ ω ( ⋅) ) — вектор, состоящий из знаков компонент вектора ∇Θ ω ( ⋅) . Условия применимости АСГ (4.42) для локального и интегрального целевого функционала даются соответственно теоремами 4.2, 4.3 [9]. Теорема 4.2. Пусть целевой функционал локальный и выполнены условия: 1. Условие разрешимости. Для любого P ∈ R mΘ существует единственное решение Θ = Ф ( X, P, t ) уравнения Θ + ψ ( X, Θ, t ) = P. 2. Условие локальной ограниченности. Функции F ( X, Θ, t ) , ∇ X q ( X, t ) , ψ ( X, Θ, t ) , ∇Θ ω ( X, Θ, t ) локально ограничены равномерно по t , т.е. для любого β > 0 су-
ществует такое c ( β ) , что
Глава 4. Адаптивные системы
399
F ( X, Θ, t ) + ∇ X q ( X, t ) + ψ ( X, Θ, t ) + ∇Θ ω ( X, Θ, t ) ≤ c ( β )
в любой области
{( X, Θ, t ) :
X + Θ ≤ β, t ≥ 0} .
3. Условие роста. Функция q ( X, t ) — неотрицательная, равномерно непрерывная в любой области
{( X, t ) :
X ≤ β, t ≥ 0} и удовлетворяет соотношению
inf q ( X, t ) → +∞ при X → ∞.
(4.45)
t ≥0
4. Условие выпуклости. Функция ω ( X, Θ, t ) — выпуклая по Θ ∈ R mΘ , т.е. для лю% , X, t выполнено неравенство бых Θ, Θ
(
)
(
% , t − ω ( X, Θ , t ) ≥ Θ % −Θ ω X, Θ
)
T
∇ Θ ω ( X, Θ , t ) .
(4.46)
5. Условие достижимости. Существует вектор Θ∗ ∈ R mΘ и функция ρ ( q ) > 0 при q > 0, такие, что для любых X, t ω ( X, Θ∗ , t ) ≤ −ρ ( q ) . (4.47) Тогда все траектории системы (4.41), (4.42) с начальными условиями из множества Ω0 =
{( X , Θ ) : ( I 0
0
mΘ
}
)
− Г + Г ( Θ 0 − Θ∗ ) = 0
ограничены и q ( X ( t ) , t ) → 0 при t → ∞, т.е. достигается цель управления (4.3) при любом Δ > 0. Теорема 4.3. Пусть целевой функционал — интегральный и выполнены условия разрешимости, ограниченности функций F ( X, Θ, t ) , ∇Θ ω ( X, Θ, t ) , Ф ( X, P, t ) , роста и выпуклости теоремы 4.2. Пусть, кроме того, существует такой вектор Θ* ∈ R mΘ , что ω ( X, Θ* , t ) ≤ 0 (4.48) (условие достижимости для интегрального целевого функционала). Тогда при любых X ( 0 ) , Θ ( 0 ) в системе (4.41), (4.42) достигается цель управления (4.3) при Δ = q ( X0 , 0 ) + 0,5 Θ0 − Θ∗ − ψ ( X0 , Θ0 , 0 )
В теоремах приняты обозначения: X =
n
∑ xi2
2 Γ+
.
— евклидова норма вектора X ∈ R n ;
i =1
X
= X AX — норма, порождаемая матрицей A; A + — матрица псевдообратT
A
ная к A *; Θ 0 = Θ ( 0 ) — начальные условия. Доказательство теорем 4.2, 4.3 проводится с использованием функций Ляпунова вида 2 (4.49) V ( X, Θ, t ) = q ( X, t ) + 0,5 Θ − Θ∗ Γ+ . В частности, это означает, что алгоритм адаптации, приведенный в пункте 4.5.1 принадлежит классу АСГ. В этом легко убедиться, непосредственно заменив X ( t ) на E ( t ) , выбрав q ( E, t ) = 0,5ET HE и вычислив ω ( X, Θ, t ) в силу уравнения (4.31). *
Вещественная (m × n )-матрица A + называется псевдообратной или обобщенно обратной для (n × m)матрицы A, если выполняются условия AA + A = A, A + = UA T = A T V ,
где U, V — некоторые матрицы.
400
Методы современной теории автоматического управления
Для пояснения условий теорем 4.2, 4.3 рассмотрим доказательство теоремы 4.2. До казательство теоремы 4.2 [9, 232]. Вычисляя скорость изменения функции (4.49) в силу системы (4.41), (4.42), имеем V&t = ω ( X ( t ) , Θ ( t ) , t ) − PtT Γ + Γ∇Θ ω ( X ( t ) , Θ ( t ) , t ) , где Pt = Θ ( t ) − Θ* + ψ ( X ( t ) , Θ ( t ) , t ) . По условию теоремы ( X0 , Θ 0 ) ∈ Ω0 , т.е. P0 ∈ L ( Γ ) , где L ( Γ ) — линейная оболочка столбцов матрицы Γ. В силу алгоритма (4.42) dPt dt ∈L ( Γ ) и, следовательно, Pt ∈ L ( Γ ) при всех t ≥ 0. Но Γ + Γ — проектор на множество L ( Γ ) и, следовательно,
Γ + ΓPt = Pt . При этом V&t принимает вид V&t = ω ( X ( t ) , Θ ( t ) , t ) − PtT ∇Θ ω ( X ( t ) , Θ ( t ) , t ) = = ω ( X ( t ) , Θ∗ , t ) + ⎡⎣ω ( X ( t ) , Θ ( t ) , t ) − ω ( X ( t ) , Θ∗ , t ) ⎤⎦ −
− PtT ∇Θ ω ( X ( t ) , Θ ( t ) , t ) .
Из условий выпуклости и достижимости получаем T & Vt ≤ −ρ ( q ( X, t ) , t ) + ( Θ ( t ) − Θ∗ ) ∇Θ ω ( X ( t ) , Θ ( t ) , t ) − PtT ∇Θ ω ( X ( t ) , Θ ( t ) , t ) = = −ρ ( q ( X, t ) , t ) − ψ ( X ( t ) , Θ ( t ) , t ) ⋅∇Θ ω ( X ( t ) , Θ ( t ) , t ) . T
Далее, из условия псевдоградиентности (4.43) имеем V&t ≤ −ρ ( q ( X, t ) , t ) ≤ 0. Следовательно,
(4.50)
V ( X (t ) , Θ (t ) , t ) ≤ V ( X ( 0) , Θ ( 0) , 0)
и траектории системы (4.41), (4.42) ограничены. ∞
Наконец, из конечности интеграла
∫ q ( X ( t ) , t ) dt , вытекающего из (4.50), условий 0
локальной ограниченности и равномерной непрерывности q ( X ( t ) , t ) следует достижение ЦУ q ( X ( t ) , t ) → 0 при t → ∞. Доказательство теоремы 4.3 проводится аналогично. З ам еч а ния к теоремам 4.2, 4.3: 1. Для однозначной разрешимости уравнения Θ + ψ ( X, Θ, t ) = P достаточно, чтобы функция ψ ( X, Θ ( t ) , t ) удовлетворяла условию Липшица по Θ с константой
(
)
% , t − ψ ( X, Θ, t ) ≤ l Θ % −Θ . l < 1: ψ X, Θ
2. Условие роста можно ослабить, заменив его требованием, чтобы из ограниченности q на решениях системы (4.41), (4.42) вытекала ограниченность X ( t ) . 3. Условие выпуклости ω ( X, Θ, t ) по Θ ∈ RmΘ означает, что скалярная функция ω ( X, Θ, t ) растет по аргументу Θ не медленнее линейной функции (см. рис. 4.10).
В частности, при линейности ω ( X, Θ, t ) по Θ неравенство (4.46) обращается в равенство.
Глава 4. Адаптивные системы
401
% , t) ω( X, Θ % , t ) − ω( X, Θ, t ) ω( X, Θ
% − Θ)∇ ω( X, Θ, t ) (Θ Θ
ω( X, Θ, t )
Θ
% Θ
Рис. 4.10. Геометрическая интерпретация условия выпуклости при Θ ∈ R1
4. АСГ, описываемые уравнением (4.42), принято называть алгоритмами в конечнодифференциальной форме. Частными случаями АСГ являются алгоритмы: dΘ а) = − Γ∇Θ ω ( X, Θ, t ) — дифференциальной формы; (4.51) dt б) Θ = Θ 0 − γψ ( X, Θ, t ) — конечной формы ( γ > 0 — множитель шага), (4.52) которые получаются из уравнения (4.42) при ψ ( X, Θ, t ) ≡ 0 и Γ ≡ 0 соответственно. Условия применения АСГ в дифференциальной форме (4.51) вытекают непосредственно из теорем 4.2, 4.3. Условия применения АСГ в конечной форме (4.52) будут рассмотрены ниже. 5. Смысл требований принадлежности начальных условий множеству Ω0 состоит в том, что отклонение настраиваемых параметров от своих идеальных значений вдоль направлений, по которым не действуют дифференциальные составляющие, должно быть ограничено. Только при этом возможна компенсация начального отклонения за счет конечных составляющих. При использовании АСГ в дифференциальной форме (4.51) это требование снимается, т.е. результат теоремы справедлив при любых начальных условиях X0 , Θ 0 . При этом матрица Γ + в функции Ляпунова (4.49) заменяется на Γ −1 (det Γ ≠ 0). 6. Наиболее существенными условиями теорем 4.2, 4.3 являются условия выпуклости и достижимости, которые гарантируют достижение ЦУ. Условие достижимости, по существу, означает наличие «идеального» управления, позволяющего решать поставленную задачу в условиях полной априорной информации о параметрах ОУ (Θ∗ = Θ(ξ)). Условия применимости АСГ в конечной форме (4.52) и интегральном целевом функционале приведены в теоремах 4.4, 4.5. Теорема 4.4. Пусть целевой функционал локальный и выполнены условия разрешимости, выпуклости и достижимости (при Θ∗ = Θ( X, t ) ) теоремы 4.2. Пусть, кроме того, при некоторых ρ > 0, δ ≥ 1 вектор Θ∗ = Θ ( X, t ) удовлетворяет условию ρ γ ( X, t ) ∇Θ ω ( X, Θ, t )
δ−1
≥ Θ0 − Θ∗ ( X, t ) ,
(4.53)
а вектор-функция ψ ( X, Θ, t ) — усиленному условию псевдоградиентности δ
ψ ( X, Θ, t ) ∇Θ ω ( X, Θ, t ) ≥ ρ ∇Θ ω ( X, Θ, t ) , T
тогда в системе (4.41), (4.42) достигается цель управления (4.3).
(4.54)
402
Методы современной теории автоматического управления
Теорема 4.5. Пусть целевой функционал интегральный, выполнены условия разрешимости и выпуклости теоремы 4.2. Пусть вектор Θ∗ = Θ ( X,t ) удовлетворяет условиям (4.48), (4.53), а функция ψ ( X, Θ,t ) — условию (4.54). Тогда в системе (4.41), (4.52) достигается цель управления (4.3). З ам еч а ния : 1. Усиленному условию псевдоградиентности удовлетворяют, например, функции (4.44а) и (4.44б) при δ = 2, ρ = λ min ( Γ1 ) и δ = 2, ρ = λ min ( Γ 2 ) mΘ соответст-
венно. Здесь λ min ( Γ ) — минимальное собственное число матрицы Γ, mΘ — размерность вектора Θ. 2. При выполнении условий теоремы 4.4 доказано, что ЦУ (4.3) при Δ = 0 достигается за конечное время t = t∗ и при t ≥ t∗ в системе возможно возникновение скользящего режима на поверхности q = 0. 3. Условие (4.53) представляет собой ограничение на выбор коэффициента усиления γ ( ⋅) АСГ в конечной форме. Если величина Θ0 − Θ∗ ( X, t ) ограничена, то в (4.52) можно брать γ = const . В заключение отметим, что при дополнительных условиях АСГ в дифференциальной и конечно-дифференциальной форме обладают идентифицирующими свойствами, т.е. обеспечивают в системе (4.41), (4.42) достижение дополнительной ЦУ Θ → Θ∗ при t→∞. В частности, в линейных системах эти условия сводятся к достаточному разнообразию внешних воздействий. Подробнее с этими вопросами можно познакомиться, например, в [9] или монографии [232]. 4.5.2.2. ОГРУБЛЕНИЕ АЛГОРИТМОВ СКОРОСТНОГО ГРАДИЕНТА [232] Способность сохранения системой некоторых свойств (устойчивости, диссипативности и т.п.) при достаточно малых вариациях ее математической модели называется грубостью (робастностью) системы к данному классу вариации модели. Практическая ценность свойства грубости алгоритма управления состоит в возможности получения приемлемых, с позиции точности, результатов управления реальной технической системой с помощью регулятора, синтезированного по ее математической модели. Доказано, что АСГ в конечной форме (4.52) в естественных условиях при ограни-
ченных возмущениях N ( t ) или
( N (t )
)
≤ Δ N < ∞ и описании ОНО в виде
& = F ( X, Θ, t ) + N ( t ) , X
(4.55)
& = F ( X, Θ + N ( t ) , t ) X
(4.56)
является робастным даже при зависимости возмущения от фазовых координат N = N ( X, Θ, t ) . Это достигается путем выбора достаточно большого коэффициента γ. Отметим, что модели (4.55), (4.56) являются характерными при учете шумов датчиков измерения и адаптера. Что касается АСГ в дифференциальной форме (4.51) или конечно-дифференциальной форме (4.42), то они обладают робастностью только при дополнительных условиях. Это объясняется тем, что система (4.41), (4.42) или (4.41), (4.51) находится на границе устойчивости. Имеет место лишь ограниченность траектории ( X ( t ) , Θ ( t ) )
Глава 4. Адаптивные системы
403
системы и асимптотическая устойчивость по части переменных состояния, а именно по X ( t ) . Это приводит к тому, что при сколь угодно малых возмущениях управление Θ ( t ) неограниченно растет при t → ∞, в то время как основная цель управления продолжает достигаться. Для преодоления негрубости алгоритмов используются два подхода: 1) препятствовать росту Θ ( t ) при достаточно больших Θ ;
2) прекращать изменение Θ ( t ) при малых значениях q. Первый вариант реализуется введением в АСГ отрицательной обратной связи, второй — введением зоны нечувствительности по целевой функции. АСГ с отрицательной обратной связью имеет вид d ( Θ + ψ ( X, Θ, t ) ) (4.57) = −Γ ⎡⎣ k ∇Θ ω ( X, Θ, t ) + M ( Θ + ψ ( X, Θ, t ) ) ⎤⎦ , dt где Γ = Γ T > 0, k > 0; ψ ( ⋅) удовлетворяет условию псевдоградиентности (4.34); 2
M ( Θ ) — вектор-функция, препятствующая чрезмерному увеличению Θ ( t ) .
Доказано, что при описании ОУ в форме (4.55), где N ( t ) = N ( X, Θ, t ) , и локальном целевом функционале АСГ (4.57) обеспечивает замкнутой системе диссипативность. Более того, если при «идеальном» управлении в замкнутой системе достигается ЦУ с Δ = Δ* , то при любых начальных условиях X ( 0 ) , Θ ( 0 ) и достаточно большом k АСГ (4.57) обеспечивает системе достижение ЦУ с уровнем, сколь угодно близким к предельно достижимому. На практике регуляризующую функцию M ( Θ ) часто выбирают в виде M ( Θ ) = αΘ (α > 0). Недостатком этого способа является существенное искажение
процесса управления при малых ∇Θ ω ( X, Θ, t ) . Преодолеть этот недостаток можно путем введения зоны нечувствительности по Θ − Θ , например, если взять
⎧ ⎪α ( Θ − Θ ) при Θ − Θ ≥ d , M (Θ ) = ⎨ при Θ − Θ ≤ d , ⎪⎩ 0
(4.58)
где α, d — положительные числа, Θ ∈ R mΘ — некоторая априорная оценка вектора Θ∗ ; или использовать релейную обратную связь
⎧ ⎪G sign ( Θ − Θ ) при Θ − Θ ≥ d , M (Θ) = ⎨ при Θ − Θ ≤ d , ⎪⎩ 0
(4.59)
где G > 0. АСГ в дифференциальной форме с зоной нечувствительности по целевой функции имеет вид dΘ ⎧⎪−Γ∇Θ ω ( X, Θ, t ) при q ( X, t ) ≥ Δ, (4.60) =⎨ dt ⎪⎩0 при q ( X, t ) < Δ, Δ > 0. Применение огрубленных АСГ позволяет обеспечить работоспособность синтезированных систем в условиях стохастических возмущений ограниченной интенсивности, нестационарности ОУ, а также обеспечивает сохранение свойств системы при дискретизации алгоритмов управления.
404
Методы современной теории автоматического управления
Если параметры системы постоянны, но на объект управления действуют случайные возмущения, то настраиваемые параметры будут флуктуировать. Размах флуктуаций убывает с уменьшением коэффициента усиления Г. Поэтому выбор подходящего коэффициента усиления в алгоритмах адаптивного управления осуществляется как компромисс между скоростью адаптации и точностью. Типичным является использование алгоритмов с убывающим коэффициентом усиления. Наиболее простой закон убывания имеет вид Γ Γ ( t ) = Γ1 + 0 , t +μ где Γi = ΓiT > 0 — матрицы с постоянными коэффициентами, μ > 0. Другая модификация алгоритма настройки матрицы усиления имеет вид Γ0 Γ (t ) = . 2 μ + ∇Θ ω ( X, Θ, t ) При использовании того или иного алгоритма настройки матрицы усиления Γ ( t ) следует помнить о выполнении условия двухсторонней ограниченности 0 < Γ min ≤ Γ ( t ) ≤ Γ max , Γ min = Γ Tmin > 0, Γ max = Γ Tmax > 0, которое гарантирует сохранение работоспособности АСГ. 4.5.2.3. ЭТАПЫ СИНТЕЗА АЛГОРИТМОВ АДАПТИВНОГО УПРАВЛЕНИЯ НА ОСНОВЕ СХЕМЫ СКОРОСТНОГО ГРАДИЕНТА
Последовательность действий при синтезе адаптивных систем обычно состоит из шести этапов. Э т а п 1. Постановка задачи синтеза. Постановка задачи синтеза включает: • описание объекта управления математической моделью; • формализация цели управления путем выбора подходящей целевой функции (локального или интегрального вида) и задание ЦУ в виде целевого неравенства (4.3) или (4.7). Математическую модель объекта следует привести к виду & = F ( X, U, ξ, t ) + N ( X, U, ξ, t ) , X (4.61) где ξ ∈ Ξ — набор неизвестных параметров ОУ, функция N ( X, U, ξ,t ) отражает действия малых неизмеряемых возмущений и помех, о которых известны лишь оценки их уровня и которые отбрасываются при первоначальном синтезе. Выбор подходящей целевой функции, с одной стороны, связан с основными требованиями, предъявляемыми к системе (точности, быстродействия, помехоустойчивости и т.п.), с другой стороны, решающую роль в применимости схемы скоростного градиента играет степень сглаживания задачи, которая тесно связана с видом целевого функционала. Степенью сглаживания задачи d называется наименьшее целое число n, при котором n-я производная по времени от целевой функции ( q ( n ) ) в силу уравнений ОУ явно зависит от Θ, так что ∇Θ q (i ) = 0 при i = 0, d − 1, ∇Θ q ( d ) ≠ 0. Для непосредственного применения АСГ необходимо, чтобы d = 1. Случай d = 0 соответствует случаю явной зависимости целевой функции от настраиваемых параметров q ( X, Φ ( X, Θ, t ) , t ) , где Φ ( ⋅) — некоторая вектор-функция, явно зависящая от Θ ). Для применения АСГ необходимо ввести дополнительные инерционные звенья в ОУ или целевой функционал.
Глава 4. Адаптивные системы
405
Повысить инерционность объекта можно, например, введением дополнительного фильтра εZ& = − Z + Φ ( X, Θ, t ) , где ε > 0 — малый параметр. При этом, естественно, расширяется вектор состояния объекта, а целевая функция % , t где X % = ( XM Z )T имеет степень сглаживания d = 1. q X
(
)
(
)
Можно «сгладить» саму целевую функцию, например, по формуле q&% = −αq% + β q ( X, Φ ( X, Θ, t ) , t ) , α ≥ 0, β > 0. При α = 0, β = 1 сглаживание соответствует замене локального целевого функционала q ( ⋅) на интегральный q% ( ⋅) . При d ≥ 2, наоборот, требуется снижение степени сглаживания. Этого можно добиться или переходом к новому целевому функционалу q% = dq dt (переходом от интегрального целевого функционала к локальному), или отбрасыванием малоинерционных звеньев в ОУ. Таким образом, переход от локального целевого функционала к интегральному и наоборот служит средством приведения порядка сглаживания к d = 1. Наконец, выбираемый целевой функционал должен удовлетворять условию роста (4.45). Э т а п 2. Выбор структуры регулятора (синтез основного контура). На этом этапе осуществляется выбор алгоритма основного контура из семейства алгоритмов (4.5) U ( t ) = Ut ( Xв ( t ) , U ( t ) , Θ ( t ) ) , где Θ — конечномерный вектор. Алгоритм основного конура управления при идеальных параметрах регулятора Θ = Θ* ( ξ ) и N ( X, Θ, t ) ≡ 0 должен обеспечивать достижение поставленной цели управления для любого набора параметров ОУ ( ξ ∈ Ξ ), т.е. должно выполняться соответствующее условие достижимости теорем 4.2–4.5. Синтез регулятора основного контура может осуществляться, например, одним из методов, описанных в п. 4.3. Э т а п 3. Выбор настраиваемых параметров. На данном этапе неизвестные параметры регулятора основного контура заменяются настраиваемыми. Так как компоненты вектора Θ∗ ( ξ ) являются функциями параметров ОУ, то возможны два подхода к выбору настраиваемых параметров: при прямом подходе в качестве настраиваемых параметров выбирается непосредственно вектор параметров регулятора Θ; при идентификационном подходе настраиваемым является вектор ξ€ (оценка параметров ОУ), а параметры регулятора вычисляются как Θ = Θ ξ€ .
()
Решающую роль при выборе настраиваемых параметров играет необходимость выполнения условия выпуклости функции ω ( X, Θ, t ) по настраиваемым параметрам. Итогом этапа является составление уравнения обобщенного объекта (ОНО) (4.41). Э т а п 4. Выбор алгоритма адаптации. Для полученного на этапе 3 описания ОНО формулируется новая цель адаптации, которая при прямом подходе совпадает с исходной ЦУ. При идентификационном подходе целью является сходимость оценок параметров ОУ к истинным значениям ( ξ€ → ξ ). Затем осуществляется выбор формы базового алгоритма из семейства АСГ (4.42). При выборе формы алгоритма можно руководствоваться следующими практическими рекомендациями: дифференциальная составляющая АСГ позволяет осуществлять отсле-
406
Методы современной теории автоматического управления
живание параметрических возмущений, меняющихся медленно (см. гипотезу о квазистационарности), но в широких пределах. Конечные составляющие АСГ позволяют бороться с достаточно быстрыми возмущениями, но в относительно узком диапазоне. Следует отметить, что выбранный алгоритм адаптации должен зависеть только от измеряемых или вычисляемых на основе измерений переменных. Э т а п 5. Обоснование работоспособности адаптивной системы. Обоснование работоспособности синтезированной системы в условиях отсутствия неизмеряемых возмущений ( N(⋅) ≡ 0 ) осуществляется путем проверки условий соответствующей теоремы 4.2–4.5. Э т а п 6. Огрубление АСГ. При использовании дифференциальной составляющей в АСГ, наличии неизмеряемых возмущений и помех, действующих на ОНО и адаптер, а также при дискретизации алгоритма адаптации следует провести огрубление АСГ способами, описанными ранее. Э т а п 7. Настройка адаптера. Настройка контура адаптации состоит в выборе параметров алгоритма адаптации:
(
)
коэффициентов усиления Γ = Γ T > 0 , влияющих на скорость изменения настраиваемых параметров, параметров регуляризующей обратной связи ( α > 0 ) , величины зоны нечувствительности (Δ > 0), влияющих на помехоустойчивость системы. Выбор указанных параметров тесно связан со спецификой ОУ, условиями его функционирования и определяется исходя из качества процесса самонастройки методом математического моделирования. В заключение следует отметить, что при формализации цели управления желаемая динамика системы управления задается в виде явной или неявной эталонной модели. Многочисленные примеры синтеза алгоритмов адаптивного управления для линейных и нелинейных непрерывных объектов методом скоростного градиента приведены в работах [9, 73, 129, 141, 167, 197, 231−235, 238, 267]. Ниже рассмотрены примеры применения схемы скоростного градиента при синтезе адаптивного управления линейными объектами с использованием явной и неявной эталонной модели. При этом преследуется цель не столько показать универсальность схемы и широту охвата решаемых задач управления, сколько отработать методику использования самой схемы синтеза и обсудить достоинства и недостатки форм эталонной модели. 4.5.2.4. АЛГОРИТМЫ СКОРОСТНОГО ГРАДИЕНТА В СИСТЕМАХ С ЯВНОЙ ЭТАЛОННОЙ МОДЕЛЬЮ
Системы с явной эталонной моделью по способу достижения цели управления можно разделить на системы параметрической и сигнальной адаптации. В системах с сигнальной настройкой эффект адаптации достигается без изменения параметров управляющего устройства за счет повышения коэффициента усиления или на основе создания скользящих режимов. При этом к управляющему воздействию добавляют специальный сигнал — сигнал адаптации. Эти системы достаточно просто реализуются, но обеспечивают требуемое качество управления лишь в ограниченном диапазоне изменения параметров ОУ. В системах с параметрической адаптацией цель управления достигается за счет изменения параметров управляющего устройства. Такие системы более универсальные, но имеют более сложную структуру. Сложность таких систем определяется числом настраиваемых параметров. С целью повышения точности системы и быстродействия процесса адаптации применяются алгоритмы, сочетающие в себе методы сигнальной и параметрической адаптации. В таких системах алгоритм сигнальной настройки выбирается обычно
Глава 4. Адаптивные системы
407
релейным, обеспечивая в системе высокое быстродействие. Параметрическая часть настройки служит для стабилизации коэффициента усиления в требуемых пределах. Системы с сигнально-параметрической адаптацией обеспечивают достаточно высокую точность и отличаются простотой реализации, так как наличие сигнальной составляющей позволяет уменьшить число перенастраиваемых параметров. В качестве примера рассмотрим синтез АСГ для ОУ, описываемого в форме пространства состояния уравнением (4.21) & ( t ) = AX ( t ) + BU ( t ) , X где X ∈ R n , U ∈ R m — векторы состояния и входа ОУ; A, B — постоянные (n × n)- и ( n × m )-матрицы неизвестных параметров ОУ. Эталонную модель выберем в форме (4.22). & (t ) = A X (t ) + B Y (t ) , X м м м м где X м ∈ R n ; Y ∈ R m — задающее воздействие. Потребуем для замкнутой системы достижения ЦУ (4.23) в условиях параметрической неопределенности lim E ( t ) = 0, t →∞
где E ( t ) = X ( t ) − Xм ( t ) — вектор ошибки. Будем предполагать управляемость объекта управления и измеряемость вектора состояния ( Xв = X). Система с параметрической адаптацией. В соответствии с методикой синтеза, с учетом отсутствия неизмеряемых возмущений ( N ( X, U, ξ, t ) ≡ 0 ) проведем синтез в пять этапов. Э т а п 1. Для применения схемы скоростного градиента выберем локальный целевой функционал, например, в форме скалярной квадратичной функции q = 0,5EΤ HE, H = H Τ > 0. Очевидно, что из q → 0 при t → ∞ следует выполнение ЦУ (4.23)
(E (t ) → 0
при t → ∞ ) .
Э т а п 2 . Действуя по схеме скоростного градиента, получим производную целевой функции в силу траекторий системы в (4.21), (4.22) q&t = ω ( X, Θ, t ) = EΤ H ( AX + BU − A м Xм − Bм Y ) . Структуру основного контура управления выберем из класса допустимых алгоритмов, удовлетворяющих условию достижимости (4.47). Условие достижимости будет выполнено, например, если уравнение (4.25) ( A − Aм ) X ( t ) + BU* ( t ) − Bм Y ( t ) = 0 разрешимо относительно U∗ ∈ R m при любых X ∈ R n , Y ∈ R m и A м — гурвицевая матрица. Действительно, при этих условиях существует матрица H = H Τ > 0, удовлетворяющая уравнению Ляпунова HA м + A мT H = −G , G = G T > 0, и при этом
ω ( X, U, t ) = −0,5EΤGE ≤ −α 0 q, α 0 = λ min ( G ) λ max ( H ) > 0, т.е. условие (4.47) выполняется. *
*
Оценка величины α 0 , определяющей скорость достижения ЦУ, получается на основе известного
матричного неравенства
λ min ( M ) x ≤ x TMx ≤ λ max ( M ) x , где λ min ( M ) , λ max ( M ) — минимальное и максимальное собственное число (n × n )-матрицы M, x ∈ R n .
408
Методы современной теории автоматического управления
Идеальное управление запишем в виде U∗ = K ∗X X + K ∗Y Y, (4.62) где матрицы идеальных коэффициентов регулятора удовлетворяют соотношениям (4.27а) BK ∗X = A м − A, BK ∗Y = Bм . Выполнение соотношений (4.27а), в свою очередь, эквивалентно ранговым условиям Эрцбергера [9] rank B = rank {B, Bм } = rank {B, A м − A} , (4.63) что соответствует условиям управляемости ОУ и согласованности структур матриц B, B м и A , A м . Э т а п 3 . Используя прямой подход к синтезу, выберем в качестве настраиваемых параметры регулятора Θ ( t ) = col {K X ( t ) , K Y ( t )} *. При этом структура основного контура имеет вид
U (t ) = K X (t ) X (t ) + K Y (t ) Y (t ).
(4.64)
Э т а п 4 . Перейдем к синтезу алгоритма адаптации в классе АСГ. Скоростной градиент имеет вид ∇K X ω ( X, Θ, t ) = BΤ HEXΤ , ∇ K Y ω ( X, Θ, t ) = BΤ HEY Τ. Выбирая АСГ в дифференциальной форме (4.51) и полагая Γ = γI n , γ > 0, получим dK X dK Y = −γBT HEXT , = −γB T HEY T . (4.65) dt dt С целью повышения быстродействия в контурах параметрической настройки коэффициентов регулятора (4.64) можно применять пропорционально-интегральные алгоритмы адаптации (АСГ в конечно-дифференциальной форме (4.42), (4.44а)) dK X d = −γBT HEXT − γ1 ⎡⎣BT HEXT ⎤⎦ , dt dt (4.66) dK Y d ⎡ T T T T⎤ = −γB HEY − γ1 ⎣ B HEY ⎦ , γ1 > 0, dt dt &,Y &. которые, однако, требуют измеримости векторов X Э т а п 5 . Проверим выполнение условий теоремы 4.2. Условия достижимости выполнены, если выполнено условие Эрцбергера (4.63) и A м — гурвицева матрица. Условие выпуклости выполнено (см. замечание 4.3 к теоремам 4.2, 4.3) в силу линейности (4.21) по Θ. Условие роста выполнено, если A м — гурвицева и Y ( t ) — огра-
ниченная функция. В силу теоремы 4.2 все траектории системы (4.24), (4.64), (4.65) ограничены и выполняется ЦУ q ( E ( t ) , t ) → 0 при t → ∞. Существенной особенностью систем с алгоритмами вида (4.65), (4.66) является свойство сохранять работоспособность при изменении координатных и параметрических возмущений в широких пределах. Недостатком является ухудшение качества системы при высокой скорости изменения параметрических возмущений. В этом случае целесообразнее применять алгоритмы сигнальной адаптации. Система с сигнальной адаптацией. Вернемся к рассматриваемой задаче синтеза, предполагая этапы 1–3 выполненными аналогично системе с параметрической адап*
Операция col {D, C} означает составление вектор-столбца из элементов матриц D, C.
Глава 4. Адаптивные системы
409
тацией. На четвертом этапе вместо алгоритмов (4.65) или (4.66) выберем АСГ в конечной форме (4.52), (4.44а) K X = −γB T HEXT , K Y = −γB T HEY T , (4.67) или в форме (4.65), (4.44б)
(
)
(
)
K X = −γ sign BT HEXT , K X = −γ sign BT HEY T , γ > 0.
(4.68)
Подстановка (4.67), (4.68) в (4.64) приводит соответственно к алгоритмам управления вида
(
2
U ( t ) = −γ Y ( t ) + X ( t )
2
) B HE, T
(4.69)
n ⎛ m ⎞ U ( t ) = −γ ⎜ yi ( t ) + x j ( t ) ⎟ BT HE. (4.70) ⎜ i =1 ⎟ j =1 ⎝ ⎠ Заметим, что при управлении вида (4.69) или (4.70) контур адаптивной подстройки параметров регулятора отсутствует. Э т а п 5 . Для обоснования работоспособности алгоритмов (4.69), (4.70) используем теорему 4.4. Рассмотрим, например, выполнение условий теоремы 4.4 для алгоритма (4.70). Условие разрешимости выполнено, так как градиент функции ω ( X, Θ,t ) по настраиваемым параметрам не зависит от Θ. Условие выпуклости вы-
∑
∑
полнено в силу линейности ОУ по входам. Условие достижимости выполнено при ρ ( q ) = α 0 q, α 0 = λ min ( G ) λ max ( H ) и U∗ вида (4.62). Условие роста выполнено при δ = 1. Наконец, условие (4.53) выполняется при γ > B+
A − Aм
2
2
+ Bм .
Следовательно, в системе (4.24), (4.70) достигается ЦУ E ( t ) → 0 при t → ∞. Другой вариант структуры основного контура для рассматриваемой задачи можно получить, если в качестве настраиваемых параметров выбрать непосредственно вход ОУ (Θ = U). Скоростной градиент в этом случае равен ∇ U ω ( X, U,t ) = BT HE и алгоритм (4.65), (4.44б) (при Θ0 ≡ 0 ) примет вид
(
)
U = −γ sign BT HE , γ > 0.
(4.71)
Для обоснования работоспособности алгоритма вновь воспользуемся теоремой 4.4 с учетом замечаний. Условие псевдоградиентности выполнено при δ = 1. Условие роста выполнено, если Y ( t ) — ограниченная функция. Условие однозначной разреши-
(
)
мости выполняется в силу того, что ψ ( X, Θ, t ) = sign BT HE не зависит от Θ. Условие выпуклости выполняется в силу линейности ОУ по управлению. Условие достижимости выполнено при ρ ( q ) = α 0 q, α 0 = λ min ( G ) λ max ( H ) и U* ( X, t ) вида (4.62). Из теоремы 4.4 с учетом замечаний следует, что при γ ( X, t ) = γ X X + γ Y Y , где n
n
i =1
i =1
X = ∑ xi , Y = ∑ yi , γ X ≥ B + ( A м − A ) ρ−1 , γ Y ≥ B + Bм ρ−1 , траектории системы
(4.21), (4.22), (4.71) ограничены и E ( t ) → 0 при t → 0. Алгоритмы вида (4.69)–(4.71) рекомендуется применять в случае быстро меняющихся параметрических возмущений ОУ, но в узком диапазоне. При этом возможно возникновение скользящих режимов на поверхности q ( E ) = 0.
410
Методы современной теории автоматического управления
Системы сигнально-параметрической адаптации. Другой класс алгоритмов адаптивного управления для ОУ вида (4.21) с эталонной моделью (4.22) можно получить, если перераспределить составляющие закона идеального управления (4.62), задав структуру основного контура вида U = K X X + K Y Y + US (4.72) и выбрав вектор настраиваемых параметров в виде Θ = col ( K X , K Y , U S ) ∈ R mn + m
2
+m
;
здесь U S — сигнальная составляющая управления. Вновь выбирая целевую функцию q = 0,5ET HE, вычислим компоненты скоростного градиента ∇ K X q&t = BT HEXT , ∇K Y q&t = BT HEY T , ∇ U S q&t = B T HE.
Если в алгоритме адаптации (4.42) положить Г = diag {γ1I mn , γ 2 I m2 , O m } , а алгоритм для сигнальной составляющей взять в конечной форме (4.52), то адаптивный регулятор будет описываться уравнением (4.72) при
(
)
U S = −γ E sign BT HE , dK X = −γ1BT HEXT , dt dK Y = −γ 2 BT HEY T , dt
где γ1 > 0, γ 2 > 0, γ > 0. Для проверки условия достижимости положим BK *X = ( A м − A ) , K *Y = B + Bм ,
(
BU S = ( A м − G ) E, Θ* = col K *X , K *Y , U S
(4.73)
). *
Тогда ω ( X, Θ* , t ) = −ET HGE ≤ −α0 q и, следовательно, условие достижимости выполнено при любой гурвицевой матрице G , удовлетворяющей неравенству Ляпунова HG + G T H < 0. Матрица задает желаемую динамику процесса адаптации, которая в данной структуре не зависит от динамики эталонной модели. Из теоремы 4.4 следует, что при γ > B + ( A м − G ) ρ система (4.24), (4.72), (4.73) асимптотически устойчива по переменным ошибки E ( t ) и все ее траектории при отсутствии помех ограничены. Следует заметить, что перераспределить составляющие закона управления можно по разному. Например, выбрав U* = B + ( A м − ΔA ) , K *X = B + ( A м − A ) , K *Y = B + Bм , где A = A + ΔA. Основные структуры адаптивных систем с явной ЭМ представлены в табл. 4.1. В алгоритмах адаптации в системах с явной ЭМ присутствует матрица B, которая, вообще говоря, неизвестна. Однако можно показать, что АдСУ сохраняет работоспособность, если заменить матрицу B ( ξ ) на любую матрицу того же размера B, связанную с B соотношением B = K ( ξ ) B ( ξ ) , где K = K T > 0, ξ ∈ Ξ. В частности, можно заменить B на B м , если выбрать структуру основного контура в форме (4.26) и выполнены условия разрешимости (4.27б).
Глава 4. Адаптивные системы
411
Таблица 4.1 Алгоритмы адаптивного управления с явной эталонной моделью [9, 232] № 1
Уравнения объекта; вектор управления 2
Алгоритм управления Условия сходимости, Целевой при Г = γI результат функционал 3 4 5 Алгоритмы параметрической адаптации
Литература 6
A м — гурвицева,
а) настройка коэффициентов регулятора
( ) = −γ ⋅ sign ( B HEX )
HA м + A мT H = −G , G = G T > 0,
K Y = −γ ⋅ sign B T HEY T , γ > B +
1
KX
T
T
A − Aм
2
2
+ Bм ,
rank B = rank {B, B м } =
[156]
= rank {B, A м − A},
E ( t ) → 0 при t → ∞
2
& = AX + BU, X & = A X + B Y (t ) , X м м м м
3
1 q = ET HE, 2 H = HT > 0
E = X − Xм , U = K Y Y + K X X,
Θ = col ( K Y , K X )
( (
(
5
6
U = K YK X X + K Y Y
1 б) настройка q = ET HE, коэффициентов 2 уравнения состояния H = H T > 0 & = ( A + ΔA) X + X
7
+ ( B + ΔB) Y ( t ) , & = A X + B Y (t ) , X м м м м E = X − Xм ,
Θ = col ( ΔA, ΔB)
rank B = rank {B, B м } =
= rank {B, A м − A} ,
)
)
)
)
dK X = −γBTм HEYT , dt dK Y = −γ1K Y BTм HE × dt T × ( Y − K X X ) K TYK Y d ΔA = −γHEXT , dt d ΔB = −γHEY T dt d ΔA = −γHEXT − dt d −γ1 HEXT , dt d ΔB = −γHEY T − dt d −γ1 HEY T dt
[87, 156]
E ( t ) → 0 при t → ∞
dK Y = −γB T HEY T − dt d − γ1 sign B T HEY T , dt dK X = −γB T HEXT − dt d − γ1 sign B T HEXT dt dK Y = −γB T HEY T − dt d T −γ1 B HEY T , dt dK X = −γB T HEXT − dt d T −γ1 B HEXT dt
(
4
A м — гурвицева, γ > 0,
dK Y = −γB T HEY T , dt dK X = −γB T HEXT dt
A м — гурвицева, γ > 0 и γ1 > 0,
rank B = rank {B, Bм } =
[156]
= rank {B, A м − A} , E ( t ) → 0 при t → ∞
A м — гурвицева, γ > 0 и γ1 > 0, rank B = rank {B, B м } = = rank {B, A м − A} ,
[87, 155]
E ( t ) → 0 при t → ∞ A м — гурвицева, γ > 0 и γ1 > 0, rank B = rank {B, Bм } ,
[292]
rank Bм = rank {Bм , Aм − A} ,
E ( t ) → 0 при t → ∞ A м — гурвицева, γ > 0, E ( t ) → 0 при t → ∞
[155, 279]
A м — гурвицева, γ > 0 и γ1 > 0, E ( t ) → 0 при t → ∞
[279]
412
Методы современной теории автоматического управления Продолжение табл. 4.1
1
2
3
4
5
6
Алгоритмы сигнальной адаптации
A м — гурвицева,
8
& = AX + BU, X & = A X + B Y (t ) , X м м м м
E = X − Xм
1 q = ET HE, 2 H = HT > 0
(
γ X > B+ ( Aм − A ) ,
)
U = −γ sign B T HE ,
γ Y > B + Bм ,
γ = γX X + γY Y , n
n
i =1
i =1
rank B = rank {B, B м } =
X = ∑ xi , Y = ∑ yi
= rank {B, A м − A} ,
[27, 156, 205, 279]
E ( t ) → 0 при t → ∞
Алгоритмы адаптации системы с переменной структурой A* — гурвицева, −1 A = ⎡ I n − B ( GB ) G ⎤ A м , ⎣ ⎦ det ( GB ) ≠ 0, *
9
& = AX + BU, X & = A X + B Y, X м м м м E = X − Xм,
γ Xм > ( GB ) GA ,
γ = γ Xм X м +
γ Y > ( GB ) GBм ,
T
1 q = STS 2
S = GE
−1
U = −γ ⋅ sign ( GB ) S,
−1
+ γY Y + γE E
[301]
−1
γ E > ( GB ) G ( A м − A ) , rank B = rank {B, Bм } = = rank {B, A м − A} ,
E ( t ) → 0 при t → ∞ Алгоритмы сигнально-параметрической адаптации
1 q = ET HE, 2 H = HT > 0
10
& = AX + BU, X & = A X + B Y(t ) , X м м м м E = X − Xм , S = GE, U = K X X + K Y Y + US 11
dK Y = −γB T HEY T , dt dK X = −γB T HEXT , dt
(
A м — гурвицева, γ > 0, γ0 > B+ ( Aм − A ) , rank B = rank {B, B м } =
)
= rank {B, A м − A} ,
U s = −γ s ⋅ sign B T HE ,
[81, 155, 156]
E ( t ) → 0 при t → ∞
γ s = γ0 E
dK Y & − DE) YT − = −γBT ( E dt D — гурвицева, d & − DE) YT , γ > 0, γ1 > 0, −γ1 BT ( E dt γ > B+ ( D − Aм ) , dK X t 0 & − DE) XT − 2 = −γBT ( E & q = ∫ E − DE dt dt rank B = rank {B, B м } = 0 d & − DE) XT , −γ1 BT ( E = rank {B, A м − D} , dt & − DE) , Us = −γ s ⋅ sign BT ( E E ( t ) → 0 при t → ∞
(
[9]
)
γ s = γ0 E
С ростом размерности векторов входа, выхода, состояния ОУ реализация АдСУ в явной ЭМ становится более громоздкой. Упрощению структуры препятствует условие адаптируемости (4.63). В следующем параграфе описываются адаптивные системы с неявной эталонной моделью, позволяющие за счет ослабления условия адаптируемости снизить требования к структуре основного контура и полноте измеряемой информации.
Глава 4. Адаптивные системы
413
Пример 4.3. Рассмотрим объект управления, описываемый моделью в форме пространства состояния & = AX + Bu , X ⎛ 0 1⎞ ⎛ 0⎞ где X ∈ R 2 , u ∈ R1; A = ⎜ ⎟ , B = ⎜ ⎟ ; α 0 , α1 , β — неизвестные параметры ОУ. ⎝β⎠ ⎝ α 0 α1 ⎠ Требуется синтезировать АСГ с явной эталонной моделью, обеспечивающий достижение в замкнутой системе цели управления (ЦУ) X − X м → 0 при t → ∞, где X м ∈ R 2 — вектор состояния эталонной модели & =A X +B y X м
м
м
м
⎛0 1⎞ ⎛0⎞ с известной матрицей A м = ⎜ ⎟ , B м = ⎜ ⎟ и скалярным задающим воздействием y ( t ) . ⎝ −2 −3 ⎠ ⎝2⎠ Синтез системы параметрической адаптации. Э т а п 1 . Синтез алгоритма основного контура. Выберем локальную целевую функцию q ( E ) = 0,5ET HE, где E = X − X м — ошибка слежения,
H = H T > 0. При этом ЦУ зададим в виде q ( E ) → 0 при t → ∞. Для синтеза основного контура проверим выполнение условия Эрцбергера (4.64): BK *x = A м − A, Bk *y = Bм ,
(
где K *x = k x*1
)
k x*2 , k *y — скаляр.
Решая (4.64), находим коэффициенты идеального регулятора −2 − α 0 −3 − α1 * k x*1 = , k x*2 = , k y = 2 β. β β Таким образом, система (4.64) разрешима, если β ≠ 0. Идеальное управление зададим в форме линейной обратной связи (4.62) u* = K *x X + k *y y.
Заменяя идеальные коэффициенты регулятора настраиваемыми параметрами, получаем структуру основного контура управления u ( t ) = K x ( t ) X ( t ) + k y ( t ) y ( t ) = k x1 ( t ) x1 ( t ) + k x2 ( t ) x2 ( t ) + k y ( t ) y ( t ) . Э т а п 2 . Синтез алгоритма адаптации. Выбирая АСГ в дифференциальной форме (4.65), получаем & * = −γ BT HEXT , K x
1
k&y = −γ 2 BT HEy, где γ1 > 0, γ 2 > 0, H = H T > 0 — ( 2 × 2 )-матрица, являющаяся решением уравнения Ляпунова для эталонной модели
HA м + A TмH = −G, T
где G = G > 0.
⎛ 4 0⎞ ⎛13 3 1 ⎞ Выбирая G = ⎜ ⎟ , получаем H = ⎜ ⎟. 2 3⎠ 0 2 ⎝ ⎠ ⎝ 1 Таким образом, алгоритм адаптации имеет вид k& = −γ δ ( t ) x ( t ) ; x1
1
1
k&x2 = −γ1δ ( t ) x2 ( t ) ; k&y = −γ 2δ ( t ) y ( t ) ,
где δ ( t ) = 2e1 ( t ) + 4e2 ( t ) 3, ei ( t ) = xi ( t ) − xмi ( t ) . Дискретизованный и огрубленный согласно п. 4.6.2.2 параметрический алгоритм адаптивного управления описывается следующими уравнениями: u ( tn ) = k x1 ( tn ) x1 ( tn ) + k x2 ( tn ) x2 ( tn ) + k y ( tn ) y ( tn ) ;
{ } { } k y ( tn +1 ) = k y ( tn ) − h {γ 2 δ ( tn ) y ( tn ) − μ1k y ( tn )} ;
k x1 ( tn +1 ) = k x1 ( tn ) − h γ1δ ( tn ) x1 ( tn ) − μ0 k x1 ( tn ) ; k x2 ( tn +1 ) = k x2 ( tn ) − h γ1δ ( tn ) x2 ( tn ) − μ 0 k x2 ( tn ) ; δ ( tn ) = 2e1 ( tn ) + 4e2 ( tn ) 3, ei ( tn ) = xi ( tn ) − xмi ( tn ) , i = 1, 2,
414
Методы современной теории автоматического управления
где tn = nh, h > 0 — шаг дискретизации, n = 0,1,K , μi > 0. Результаты моделирования приведены на рис. 4.11. Моделирование проводилось при следующих условиях: а) объект управления: α 0 = −1, α1 = 1, β = 1, x1 ( 0 ) = 0, x2 ( 0 ) = 0; б) эталонная модель: a0 = −2, a1 = −3, b = 2, xм1 ( 0 ) = xм2 ( 0 ) = 0; в) алгоритм адаптивного управления: γ1 = 2, γ2 = 10, μ0 = 0, μ1 = 0, kx1 ( 0) = 0, kx2 ( 0) = 0, k y ( 0) = 1, h = 0,02;
(
)
г) задающее воздействие y ( tn ) = 0,5 1 + sign ( sin ( π ⋅ tn 16 ) ) , шаг дискретизации h = 0, 02.
x (t )
y
x1
1
3
0,8
2
0,6
1
0,4
−1
t 0
5
10
15
20
25
30
35
40
45
t
−2 0
50
k x1
0,6
k *y
0
x м1
0,2 0
ky
4
5
10
15
20
25
30
35
40
45
k x2
0,4
0
0,2
−1
0 −0,2
−2
−0,4 −0,6
−3
−0,8
k x*1
−1 −1,2 −1,4
t 0
5
10
15
k x*2
−4
20
25
30
35
40
45
50
−5
t 0
5
10
15
20
25
30
35
40
45
50
Рис. 4.11. Результаты моделирования системы параметрической адаптации Синтез системы сигнальной адаптации. Вернемся к рассматриваемой задаче, предполагая, что структура алгоритма управления выбрана в виде (4.69) или (4.70). Для рассматриваемого примера имеем
(
)
u ( t ) = −γ 3 y ( t ) + x1 ( t ) + x2 ( t ) δ ( t ) , или
u ( t ) = −γ 4 sign δ ( t ) ,
где δ ( t ) = 2e1 ( t ) + 4e2 ( t ) 3, ei ( t ) = xi ( t ) − xмi ( t ) . Результаты моделирования при нулевых начальных условиях объекта управления и эталонной модели, коэффициентах усиления γ 3 = 36, γ 4 = 10 для синтезированных алгоритмов управления приведены соответственно на рис. 4.12, 4.13. Синтез системы сигнально-параметрической адаптации. Объединяя алгоритмы параметрической и сигнальной адаптации, получаем управление вида u ( t ) = u p ( t ) + us ( t ) , где u p ( t ) — параметрический алгоритм адаптивного управления в дискретизованной форме описывается системой
u p ( tn ) = k x1 ( tn ) x1 ( tn ) + k x2 ( tn ) x2 ( tn ) + k y ( tn ) y ( tn ) ;
{
}
k x1 ( tn +1 ) = k x1 ( tn ) − h γ1δ ( tn ) x1 ( tn ) − μ 0 k x1 ( tn ) ;
Глава 4. Адаптивные системы
415
{ } k y ( tn +1 ) = k y ( tn ) − h {γ 2 δ ( tn ) y ( tn ) − μ1k y ( tn )} ;
k x2 ( tn +1 ) = k x2 ( tn ) − h γ1δ ( tn ) x2 ( tn ) − μ 0 k x2 ( tn ) ; δ ( tn ) = 2e1 ( tn ) + 4e2 ( tn ) 3; ei ( tn ) = xi ( tn ) − xмi ( tn ) , i = 1, 2,
а us ( t ) можно выбрать, например, в форме us ( t ) = −γ 4 sign δ ( t ) .
Результаты моделирования при γ1 = 5, γ 2 = 2, γ 4 = 0,8, μ0 = 0, μ1 = 0, k x1 ( 0 ) = 0, k x2 ( 0 ) = 0, k y ( 0 ) = 0, h = 0, 02 приведены на рис. 4.14.
1,2
x1 ( t ) y
u (t)
2
1
1,5
0,8
1
0,6
0,5
0,4
0
xм1
0,2
−0,5
0
x1
-0,2 0
5
10
−1
t
15
20
t
−1,5
25
0
5
10
15
20
25
Рис. 4.12. Результаты моделирования системы сигнальной адаптации в форме (4.69) x1 ( t )
1,2
u (t )
y 10
1
8 6
0,8
4 2
0,6
0
0,4
x1
−2 −4
0,2
xм1
0
−6
t −0,2
0
2
4
6
8
10
12
14
16
−8
t
−10
18
0
2
4
6
8
10
12
14
16
18
Рис. 4.13. Результаты моделирования системы сигнальной адаптации в форме (4.70)
x1 ( t ) 1
ky
y
x1
1
0,8
0,9
0,6
0,8
0,4
0,7
xм1
0,6
0,2
0,5
0
t
−0,2 0
5
10
15
20
0,4 0,3
t 0
5
10
15
20
Рис. 4.14. Результаты моделирования системы сигнально-параметрической адаптации
25
416
Методы современной теории автоматического управления k2
k1
0,2
0 −0,2
0,1
−0,4
0
−0,6
−0,1
−0,8
−0,2
−1
−0,3
−1,2
t
−0,4 0
5
10
15
20
25
−1,4
t 0
5
10
15
20
25
Продолжение рис. 4.14
4.5.2.5. АЛГОРИТМЫ СКОРОСТНОГО ГРАДИЕНТА В СИСТЕМАХ С НЕЯВНОЙ ЭТАЛОННОЙ МОДЕЛЬЮ
Рассмотрим адаптивную систему управления, в которой эталонная модель выступает не в виде реализуемого динамического звена, а в виде некоторого «эталонного уравнения». Системы с параметрической адаптацией. Задача стабилизации. Рассмотрим ОУ, описываемый уравнениями состояния & = AX + BU, X = LT X , X (4.74) в где X = X ( t ) ∈ R n , U = U ( t ) ∈ R m , Xв = Xв ( t ) ∈ R l — векторы состояния, управления в выхода объекта; A = A ( ξ ) , B = B ( ξ ) , L = L ( ξ ) — параметры ОУ, зависящие от ξ∈Ξ . Поставим задачу синтеза алгоритма адаптации & = F (X ), Θ в
(4.75)
обеспечивающего для любого ξ ∈ Ξ достижение цели управления lim X ( t ) = 0, lim Θ ( t ) = const .
t →∞
t →∞
(4.76)
Регулятор основного контура выберем в виде линейной обратной связи по измеряемым выходам объекта U = Θ T Xв , (4.77) где Θl ×m — матрица настраиваемых параметров. Поставленную задачу синтеза будем решать методом скоростного градиента. Выберем локальный целевой функционал вида 1 q ( X ) = XT HX, H = H T > 0. 2 Преобразуем алгоритм основного контура (4.77) к виду %, U = R T ( Xв ) Θ (4.78)
(
% T = θ T K θT где Θ m 1
)
— (1 × lm )-вектор настраиваемых параметров, составленных из
столбцов θi , i = 1, m матрицы Θ; 0 ⎤ ⎡ Xв ⎢ ⎥ — (lm × m )-матрица. R ( Xв ) = ⎢ O ⎥ ⎢⎣ 0 Xв ⎥⎦
Глава 4. Адаптивные системы
(
% Вычислим ω X, Θ
)
417
— производную q ( X ) в силу траектории системы (4.74),
( ) % ) = X T H ( AX + BR T ( X ) Θ % ), ω ( X, Θ в T % ) = ⎡ X T HBR T ( X ) ⎤ = R ( X ) BT HX. ∇Θ% ω ( X , Θ в ⎦ в ⎣
% . Имеем (4.78), а затем градиент ∇Θ% ω X, Θ
(4.79)
В правую часть равенства (4.79) входят неизмеряемые переменные состояния X , в то время как в алгоритм адаптации должны входить только измеряемые выходы ОУ Xв . Потребуем выполнение дополнительного условия HB = LG , (4.80) где G = ( G1 K G m ) — некоторая (l × m )-матрица со столбцами Gi ∈ R l , i = 1, m. Подставляя уравнение (4.80) в (4.79), получаем ⎛ G1T X в ⋅ X в ⎞ ⎜ ⎟ % = R ( X ) G T LT X = R ( X ) G T X = ⎜ ⎟. (4.81) ∇ Θ ω X, Θ M в в в ⎜ ⎟ T ⎜ G m Xв ⋅ Xв ⎟ ⎝ ⎠ Выбирая АСГ в дифференциальной форме (4.51), получаем алгоритм адаптации вида ⎛ G1T X в ⋅ X в ⎞ ⎜ ⎟ &% ⎟, (4.82) = −Г ⎜ Θ M ⎜ ⎟ ⎜ G Tm X в ⋅ X в ⎟ ⎝ ⎠ где Γ = Γ T > 0 — (lm × lm)-матрица. Если матрицу Γ выбрать в блочно-диагональной форме и учесть, что G iT X в — скалярные функции, то алгоритм адаптации можно записать в виде (4.83) θ& i = −G iT X в Г i X в , i = 1, m,
(
)
(
)
(
)
(
)
(
)
где θ i — столбцы матрицы Θ; Γi = ΓiT > 0 — (l × l )-матрицы. Структурная схема адаптивной системы представлена на рис. 4.15, где p −1 — оператор интегрирования. Заметим, что в системе (4.74), (4.77), (4.82) (или (4.83)) отсутствует в явной форме эталонная модель. Однако при достижении в системе ЦУ (4.76) процесс адаптации &% = 0 ). Следовательно, прекращается (Θ (4.84) G iT X в = 0, i = 1, m, что позволяет трактовать эти уравнения как неявно заданную (с помощью коэффициентов векторов матрицы G ) эталонную модель. Поясним это на следующем примере. Пусть ОУ (4.74) имеет скалярный вход u ( t ) , а в качестве выходных переменных выступает скалярный выход xв ( t ) и его производные xв′ ( t ) ,K , xв(l −1) ( t ) , так что
Xв = ( xв xв′ K xв(l −1) ) = (1 p K p (l −1) ) xв , T
T
где p = d dt — оператор дифференцирования. Матрица G в этом случае представляет собой (l × 1)-вектор. С учетом этого уравнение G iT X в = 0 можно записать в виде g ( p ) xв ( t ) = 0,
(4.85)
418
Методы современной теории автоматического управления
где g ( p ) = gl −1 p l −1 + gl − 2 pl − 2 + K + g 0 — многочлен от оператора дифференцирования с коэффициентами вектора G. & = AX + B u, X
Xв
X в = LT X
U = ΘX в , Θ = (θ1,..., θm ) θi −
Γ Гi sp
GTi
i-я подсистема алгоритма адаптации (i = 1, m) Алгоритм управления Рис. 4.15. Структура адаптивной системы управления с неявной эталонной моделью
Выражение (4.85) представляет собой запись однородного дифференциального уравнения с постоянными коэффициентами, характер общего решения которого определяется корнями характеристического уравнения g ( λ ) = 0 . Таким образом, выбирая коэффициенты матрицы G, можно задать желаемую динамику эталонного уравнения (4.85) и, как следствие, — желаемую динамику адаптивной системы. Для обоснования работоспособности системы (4.74), (4.77), (4.82) воспользуемся теоремой 4.2. Условия локальной ограниченности и роста выполнены, так как правые части системы и функция q ( X ) являются гладкими функциями, не зависящими от t.
Условие выпуклости выполняется в силу линейности системы по Θ. Условие достижимости будет выполнено, если существует такая матрица Θ* , что
(
)
ω ( X , Θ* ) = X T H A X + BΘ*T X в < 0 при X ≠ 0, H = H T > 0 .
(4.86)
При этом нет необходимости находить матрицы H и Θ* , поскольку алгоритм (4.79) от них не зависит. Достаточно убедиться, что они существуют. Таким образом, возникает следующая алгебраическая задача.
Глава 4. Адаптивные системы
419
Даны ( n × n )-матрица A, ( n × m )-матрица B, (n × l )-матрица L, (l × m )-матрица G. Требуется найти условия существования таких ( n × n )-матрицы H = H T > 0 и (l × m )матрицы Θ* , что H A* + A*T H < 0, H B = L G , A* = A + B Θ*T LT . (4.87) Для формулировки утверждения, являющегося решением поставленной задачи, понадобится следующее определение. Пусть P ( λ ) — ( m × m)-матрица, состоящая из правильных дробно-рациональных
функций от λ, имеющая вид P ( λ ) = S1T ( λ I n − R )
−1
S 2 , где R — ( n × n )-матрица,
S1 , S 2 — ( n × m )-матрицы, I n — единичная ( n × n )-матрица. Введем следующие обозначения δ ( λ ) = det ( λ I n − R ) , ϕ ( λ ) = δ ( λ ) det P ( λ ) , D = li m λ P ( λ ) . λ →∞
Можно показать, что ϕ ( λ ) — многочлен не выше n − m порядка со старшим членом λ n − m det D. Матрица P ( λ ) называется минимально-фазовой, если многочлен ϕ ( λ ) гурвицев. Матрица P ( λ ) называется строго минимально-фазовой, если многочлен ϕ ( λ ) гурвицев, а матрица D симметричная и положительно определенная. В частности, при m = 1 P ( λ ) = ϕ ( λ ) δ ( λ ) — дробно-рациональная функция, а ϕ ( λ ) — многочлен степени не выше n − 1. Требование минимально-фазовости P ( λ )
означает гурвицевость многочлена ϕ ( λ ) , а для строгой минимально-фазовости требуется, чтобы многочлен ϕ ( λ ) был гурвицевым степени n − 1 с положительными коэффициентами. Теорема 4.6. Пусть для любого ξ = Ξ матрица T G T W ( λ ) — строго минималь−1
но-фазовая при некоторой T = diag {τ1 ,K , τ m } , τi > 0, где W ( λ ) = LT ( λ I − A ) B — матричная передаточная функция ОУ. Тогда существуют матрицы H = H T > 0 и Θ* , удовлетворяющие условиям (4.87), и в системе (4.74), (4.77), (4.82) достигается ЦУ (4.76). Кроме того, у системы существует квадратичная функция Ляпунова % −Θ % 2 Γ − 1, V ( X, Θ ) = X T HX + Θ *
T
где Γ = Γ > 0 — ( ml × ml )-матрица. З ам еч а ния : 1. Согласно условию теоремы и определению строго минимально-фазовой матрицы при любом ξ = Ξ должны выполняться условия: а) δ ( λ ) det G T W ( λ ) — гурвицев многочлен; б) матрица TD — симметричная и положительно определенная, где D = G T lim λ W ( λ ) = G T LT B. λ →∞
2. Если ОУ имеет скалярный вход (m = 1), то условия теоремы 4.6 сводятся к требованию строгой минимально-фазовости функции G T W ( λ ) , что, в свою очередь, эквивалентно выполнению условия: μ ( λ ) = G T Q ( λ ) — устойчивый многочлен степени n − 1
420
Методы современной теории автоматического управления
с положительными коэффициентами. Здесь Q ( λ ) = α ( λ ) W ( λ ) , α ( λ ) = det ( λ I − A ) . Согласно критерию Стодолы необходимым условием устойчивости многочлена является требование, чтобы все коэффициенты многочлена имели одинаковый знак. Следовательно, достаточно проверить положительность хотя бы одного, например, старшего, коэффициента μ ( λ ) . Требование гурвицевости μ ( λ ) сохраняется. 3. В связи с формулировкой теоремы в терминах матричной передаточной функции W ( λ ) объекта управления не обязательно приведение описания ОУ к форме пространства состояния (4.74). 4. В теореме не требуется ни управляемость, ни наблюдаемость ОУ. Поэтому многочлены числителя и знаменателя дробно-рациональной функции wij ( λ ) , являющейся элементом матрицы W ( λ ) , могут иметь одинаковые корни (нули и полюса wij (λ ) ). Однако в силу условия теоремы эти корни должны иметь отрицательные вещественные части, т.е. общие многочлены числителя и знаменателя wi j ( λ ) должны быть гурвицевыми. Системы с параметрической адаптацией. Задача слежения. Описанный подход распространяется на задачу слежения. Целью управления в этом случае является lim X ( t ) − X* ( t ) = 0 (4.88) t →∞
и ограниченность всех траекторий замкнутой системы. В качестве X* ( t ) выбирается решение, удовлетворяющее равенству A* X* ( t ) = B Θ*T Y ( t ) ,
(4.89)
где A* — желаемая матрица замкнутой системы, состоящей из ОУ (4.74) и алгоритма «идеального» управления U* = Θ*T X в ( t ) − Θ*T Y ( t ) , (4.90) так что A* = A + B Θ*T LT . В частности, при Y ( t ) = const уравнение (4.89) описывает замкнутую систему в установившемся состоянии. Уравнение (4.89) можно рассматривать как неявную эталонную модель, построенную без учета динамики ОУ. Покажем, что закон управления (4.90) обеспечивает в системе (4.74), (4.90) достижение ЦУ (4.88). Для этого, выбирая целевую функцию квадратичной формы q ( E ) = 0,5E T H E, H = H T , E = X − X* , с учетом уравнения (4.90) вычислим
((
)
)
T & = ω ( E, Θ* ) = ( X − X* ) H A + B Θ*T LT X − B Θ*T Y ( t ) − X *
& )= = ( X − X* ) H ( A * X − A * X* − X * T
(4.91)
& . = ( X − X* ) H A * ( X − X* ) − ( X − X* ) H X * T
T
Пусть матрица идеальных параметров Θ* выбирается из условия гурвицевости матрицы A* так, что существует матрица H = H T > 0, удовлетворяющая неравенству A *T H + H*A * < −ρ H < 0, ρ > 0.
Тогда получаем
& . ω ( E, Θ* ) < −ρ E T H E + E H X *
(4.92)
Глава 4. Адаптивные системы
421
Первое слагаемое неравенства (4.92) является квадратичной отрицательной функцией по E . Второе слагаемое неравенства с учетом эталонного уравнения (4.89) не & ( t ) , где C ≥ H A − 1BΘ T , и является линейпревышает по норме величины C E Y *
*
& ( t ) ∈ L ( 0, ∞ ) , т.е. ной функцией по E . Пусть вектор-функция Y 2
∞
T ∫ Y& ( t ) Y& ( t ) dt < ∞, 0
тогда при достаточно большом ρ > 0 и малом Cρ > 0 справедливо неравенство ω ( E, Θ* ) < −Cρ E T H E.
Таким образом, управление (4.90) обеспечивает замкнутой системе (4.74), (4.90) достижение ЦУ (4.88) в условиях полной априорной информации о параметрах ОУ & ∈ L ( 0, ∞ ) . при гурвицевости матрицы A* и Y 2 Регулятор основного контура при адаптивной постановке задачи управления зададим уравнением U = ΘT Xв (t ) − ΘT Y (t ) , (4.93) где Θ ( t ) , Θ ( t ) — матрицы настраиваемых параметров. Преобразуем уравнение (4.93) к виду % − QT ( Y ) Θ €, U(t ) = R T ( X в ) Θ
(
)
(
% T = θ T ,K , θ T , θ€T = θ€T ,K , θ€T где Θ m m 1 1
)
(4.94)
— (1 × lm )- и (1 × m 2 )-векторы настраиваемых
параметров, составленные из столбцов матриц Θ и Θ соответственно; 0 ⎞ 0 ⎞ ⎛ Yв ⎛ Xв ⎟ ⎜ ⎟ Q Y =⎜ O R ( Xв ) = ⎜ O ⎟ ⎟, ( ) ⎜ ⎜ 0 ⎜ 0 Yв ⎟⎠ X в ⎟⎠ ⎝ ⎝ — ( m × ml )- и ( m × m 2 )-матрицы.
(
)
% , Θ , являющейся производной от q ( E ) Вычисляя градиенты от функции ω E, Θ
вдоль траектории системы (4.74), (4.94), получаем % ,Θ € = R ( X ) BTH ( X − X ) , ∇ Θ% ω E, Θ в *
( ) %,Θ € ) = −Q ( Y ) B T H ( X − X ) . ∇ Θ€ ω ( E, Θ *
Выбирая АСГ в дифференциальной форме с учетом выполнения условия (4.80), а также дополнительного условия существования такого Θ* , что G T LT X* = Y,
получаем
(4.95)
⎛ δ1 ( t ) X в ⎞ ⎜ ⎟ &% Θ M = −Г ⎜ ⎟; ⎜ δ (t ) X ⎟ в⎠ ⎝ m ⎛ δ1 ( t ) Y ⎞ ⎜ ⎟ &€ Θ = Г⎜ M ⎟; ⎜ δ (t ) Y ⎟ ⎝ m ⎠ δi ( t ) = G iT X в − yi , i = 1, m,
(4.96)
422
Методы современной теории автоматического управления
где Г = ГT > 0, Г = ГT > 0 — ( lm × lm )- и ( m 2 × m 2 )-матрицы; yi — i-я компонента вектора Y. Убедимся в возможности выполнения условия (4.95). Учитывая уравнение эталонной модели (4.89), имеем G T LT X* = G T LT A *− 1B Θ*T Y. (4.97)
(
Выбирая Θ*T = G T LT A*− 1B
)
−1
, получаем равенство (4.95).
Если матрицы Г и Г выбрать в блочно-диагональной форме, то алгоритм (4.96) запишется в виде θ& i = −δi ( t ) Г i X в , θ& i = δ i ( t ) Г i Y, δi ( t ) =
G iT X в
(4.98)
− yi , i = 1, m,
где θi , θi — столбцы матриц Θ, Θ; Г = Г T > 0, Г = Г T > 0 — (l × 1 )- и ( m × m )-матрицы. Для проверки работоспособности системы (4.74), (4.93), (4.96) (или (4.98)) вновь & ∈ L ( 0, ∞ ) воспользуемся теоремой 4.2. Условие достижимости выполняется, если Y 2
и существует матрица Θ* , обеспечивающая выполнение условия (4.87). Условие
роста выполнено, если Y ( t ) — ограниченная вектор-функция. Условие выпуклости
выполняется в силу линейности ОУ по векторам θ% и θ€. Таким образом, условия теоремы 4.2 выполнены и справедливо следующее утверждение. Теорема 4.7. Пусть выполнены условия теоремы 4.6, Y ( t ) — ограниченная век& ∈ L ( 0, ∞ ) . Тогда все траектории системы тор-функция, такая, что ее производная Y 2
(4.74), (4.93), (4.96) (или (4.98)) ограничены и достигается ЦУ (4.88). З ам еч а ния : 1. При достижении ЦУ (4.88) δi → 0, что позволяет трактовать систему уравнений G iT X в = yi , i = 1, m как неявно заданную модель, характеризующую желаемое качество системы. & ∈ L ( 0, ∞ ) означает, что вектор-функция Y & ( t ) — гладкая функция, 2. Условие Y 2
стремящаяся к нулю на конечном интервале времени. Следовательно, задача слежения должна плавно переходить в задачу стабилизации. Пример 4.4 [73]. Рассмотрим частный случай ОУ (4.74), описываемого дифференциальным уравнением вида
(
)
p p 2 + a1 p + a0 x ( t ) = ( b1 p + b0 ) u ( t ) + n ( t ) ,
(4.99)
где a0 , a1 , b0 , b1 — параметры ОУ; n ( t ) — ограниченное возмущение; p = d dt — оператор дифференцирования. Целью управления является приближение вектора состояния X ( t ) ОУ (4.99) к состоянию равновесия
X* системы с «идеальными» коэффициентами регулятора, вычисленными в предположении, что задаю-
щее воздействие установилось на уровне y ( t ) .
Выберем непрерывный закон управления в виде
u ( t ) = θ0 ( t ) ( x ( t ) − y ( t ) ) + θ1 ( t ) x& ,
являющегося частным случаем алгоритма управления (4.93). Параметрический алгоритм адаптации в соответствии с (4.98) и при n ( t ) = 0 будут иметь вид
(4.100)
Глава 4. Адаптивные системы
423
θ& 0 = −γ 0δ ( t ) ( x ( t ) − y ( t ) ) ,
θ& 1 ( t ) = −γ1δx& ( t ) ,
(4.101)
δ ( t ) = g 0 ( x ( t ) − y ( t ) ) + g1 x& ( t ) ,
где γ 0 , γ1 — положительные числа. Для достижения ЦУ (выполнения условий теоремы 4.7) требуется, чтобы многочлен ( g1λ + g 0 )( b1λ + b0 ) был гурвицев с положительными коэффициентами, что выполняется, если g 0 , g1 , b0 , b1 имеют одинаковый знак. Кроме того, требуется, чтобы задающее воздействие y ( t ) и его производные были ограничены. Неявная эталонная модель получается из равенства δ ( t ) = 0 и имеет следующий вид:
( g1 p + g0 ) x* ( t ) = g0 y ( t ) .
(4.102)
Так как на ОУ (4.99) действует ограниченное возмущение n ( t ) , то в соответствии с пунктом 4.5.2.2 алгоритм адаптации (4.101) необходимо «огрубить», например, введением отрицательной обратной связи θ& 0 = −γ 0δ ( t ) ( x ( t ) − y ( t ) ) − α 0θ0 ( t ) , θ& 1 = −γ1δ ( t ) x& ( t ) − α1θ1 ( t ) ,
(4.103)
δ ( t ) = g 0 ( x ( t ) − y ( t ) ) + g1 x& ( t ) , α 0 > 0, α1 > 0.
Структурная схема адаптивной системы управления представлена на рис. 4.16. Предполагается, что возмущение n ( t ) является стационарным случайным процессом и моделируется как реакция формирующего фильтра с передаточной функцией WF ( p ) =
σϕ τϕ + 1
на белый шум n0 ( t ) .
Введение отрицательной обратной связи позволяет использовать алгоритм адаптивного управления (4.100), (4.103) в дискретной форме u ( t ) = θ0 k ( xk − yk ) + θ1k x&k , tk ≤ t < tk +1 ,
θ& 0 k +1 = θ0k − h ⎡⎣ γ 0δ k ( xk − yk ) − α 0θ0 k ⎤⎦ , θ& 1k +1 = θ1k − h ⎡⎣ γ1δk ( x&k − yk ) − α1θ1k ⎤⎦ , δ k = g 0 ( xk − yk ) + g1 x&k , где
(4.104)
θk = θ ( tk ) , yk = y ( tk ) , xk = x ( tk ) ,
x&k = x& ( tk ) , h = tk +1 − tk .
n0
σϕ
n
τϕ + 1 b1s + b0 s + a1s + a0
x&
2
u
θ1 θ0
γ1 s + α1
1 s
x
g1 δ
g0
y
γ0 s + α0
Рис. 4.16. Структурная схема адаптивной следящей системы с неявной эталонной моделью
424
Методы современной теории автоматического управления
При достаточно малом шаге h система (4.99), (4.104) сохраняет свою работоспособность (является экспоненциально диссипативной). Результаты моделирования системы с дискретным алгоритмом управления приведены на рис. 4.17.
а 1,0
y (x)
y x
0,5
x* 0
2
4
y (x)
б
6
8
10
12
14
16
18 t, c
10
12
14
16
18 t, c
y
1,0 x
0,5
x*
0
4
2
6
8
θ(t ) 0,8 0,6 0,4
θ0
0,2 0
θ1
t, c 8
16
24
32
Рис. 4.17. Результаты моделирования При этом параметры эталонного уравнения (4.102) были выбраны в виде g0 = 1, g1 = 1,2 c исходя из требований, что обеспечивают нулевую статическую ошибку слежения и время переходного процесса не более 3, 6 с при отсутствии возмущения ( n ( t ) = 0 ) . Начальные условия на ОУ и контур адаптации выбирались нулевыми. Диапазон возможных значений параметров ОУ задавался в виде 4 c−3 ≤ β0 ≤ 18 c−3 , 1,6 c−2 ≤ β0 ≤ 16 c−2 ,
1 c−1 ≤ α1 ≤ 3,2 c−1 , 3 c−2 ≤ α 0 ≤ 20 c−2 , параметры формирующего фильтра σϕ = 0,14, τϕ = 1. В качестве задающего воздействия был выбран меандровый сигнал y ( t ) = 0,5 (1 + sign ωt ) с периодом 14 с. Методом математического моделирования было получено приемлемое качество системы при значениях γ 0 = γ1 = 10, α 0 = α1 = 0,1, h = 0, 04 c. На рис. 4.17 для сравнения представлен график выхода y* эталонной модели (4.102) с передаточной функцией 1 W* ( p ) = . 1 + 1, 2 p Следует заметить (см. рис. 4.17, б), что параметры регулятора имеют тенденцию к неограниченному росту. Это объясняется тем, что задающее воздействие y ( t ) = 0,5 (1 + sign ωt ) не удовлетворяет условию теоремы 4.7 ( y& ∈ L2 ( 0, ∞ ) ) . Однако на любом конечном промежутке времени или при выполнении условия ⎧0,5 (1 + sign ωt ) , 0 ≤ t ≤ T ; y (t ) = ⎨ t ≥ T, ⎩ y, где y < ∞, параметры будут иметь ограниченные значения, причем скорость их изменений можно регулировать соответствующим выбором значений γ i , α i .
Глава 4. Адаптивные системы
425
Системы с сигнальной и сигнально-параметрической адаптацией. Алгоритмы с сигнальной адаптацией, получаемые на основе использования АСГ в конечной форме, при выборе в качестве входов ОНО непосредственно вектора управления объекта, фактически относятся к классу систем с переменной структурой (СПС). Синтез СПС, в том числе и на основе схемы скоростного градиента, будет рассмотрен в следующем параграфе. Системы с сигнально-параметрическими алгоритмами адаптации, сочетающими в себе релейное (знаковое) управление и параметрическую обратную связь, рассмотрим на примере стабилизации ОУ со скалярным входом и выходом [9]. Пусть ОУ имеет вид & ( t ) = A X ( t ) + B u ( t ) , s = LT X, (4.105) X где X ( t ) ∈ R n , u ( t ) ∈ R1 , s ∈ R1 — функция «невязки». Зададим целевой функционал в виде q = 0,5s 2, а цель управления в виде q → 0 при t → ∞. Тогда, действуя по схеме скоростного градиента, получим
(
)
q& = ω ( X, Θ, t ) = s ( t ) LT AX ( t ) + LT B u ( t ) .
(4.106)
Структуру основного контура выберем в виде u ( t ) = K X (t ) + us ( t ) ,
(4.107)
где вектор настраиваемых параметров Θ = col ( K , us ) . Вычислив градиент функции ω ( X , Θ,t ) (4.106) по настраиваемым параметрам, получим
(
)
(
T
)
T
∇ K ω ( X, Θ, t ) = LT B s ( t ) X T ; ∇ us ω ( X, Θ, t ) = LT B s ( t ) .
Если алгоритм настройки параметров выбрать в конечной форме (4.52), тогда закон адаптивного управления примет вид
(
)
T
u ( t ) = K ( t ) X ( t ) − γsign LT B s ( t );
(
)
(4.108)
T
K ( t ) = −γ1 LT B s ( t ) XT ( t ) .
Для обоснования работоспособности алгоритма воспользуемся теоремой 4.4. Условие строгой псевдоградиентности выполняется при δ = 1 . Условие однозначной разрешимости выполняется, так как
(
)
(
T
Ψ1 ( X, Θ, t ) = sign LT B s ( t ) , Ψ 2 ( X, Θ, t ) = LT B
)
T
s ( t ) XT ( t )
не зависят от u. Условие выпуклости выполнено в силу линейности ОУ (4.105). Условие достижимости выполнено при
(
ρ ( q ) = α 0 q , K * = − LT B
)
−1
(
LT A, u*s = −α 0 LT B
)
−1
sign s, α 0 > 0,
если det LT B ≠ 0. Из замечания к теореме 4.4 следует, что ЦУ q → 0 достигается, если
(
γ ≥ α 0 LT B
)
−1
(
ρ , γ ≥ LT B
)
−1
LT A
2
( ρα 0 ) ,
ρ > 0.
Условие роста для вектора состояния X ( t ) не выполнено, и, следовательно, более сильная ЦУ lim X ( t ) → 0 может не достигаться. Следующее утверждение показыt →∞
вает, что если ОУ (4.105) строго минимально-фазовый, то условие роста выполнено и ЦУ lim X ( t ) → 0 достигается. t →0
426
Методы современной теории автоматического управления
Таблица 4.2 Алгоритмы адаптивного управления с неявной эталонной моделью [9, 232] № Уравнения объекта; пп вектор управления
Функционал
Алгоритм управления при Γ = γΙ
Условия сходимости, результат
Литература
Алгоритмы параметрической адаптации & = AX + Bu; X Xв = LX; u = ΘT Xв ;
1 T X HX; 2 H = H T > 0;
X ∈ R n , u ∈ R1;
q=
1 W ( λ ) = L ( λI n − A )−1 B; δ ( λ ) = det ( λI n − A ) ;
HB = LT G
Q ( λ ) = δ (λ ) w(λ ) ,
dΘ = −γδ ( t ) Xв ; dt δ ( t ) = G T Xв
G T Q (λ ) — гурвицев
многочлен степени n − 1;
G T Q ( 0 ) > 0, X ( t ) → 0,
[73]
Θ ( t ) ≤ const при t → ∞
Θ ∈ Rl
2
1 T X HX; 2 H = H T > 0; q=
u = ΘGT X в , 1
Θ∈ R
HB = LT G
dΘ 2 = −γδ ( t ) ; dt δ ( t ) = G T Xв
G T W ( λ ) — строго минимально-фазовая, X ( t ) → 0, Θ ( t ) ≤ const
[245]
при t → ∞
Алгоритмы сигнально-параметрической адаптации
3
& = AX + Bu; X s = GX;
q=
u = KX + us ; u ∈ R1;
dK = −γ1GBsXT − dt d − γ 2 GBsXT ; dt us = −γ X sign GBs;
1 2 s 2
Θ = col ( K , us ) ∈ R n +1
n
GW ( λ ) — строго
минимально-фазовая, γ i > 0, −1
γ > ( GB ) G ( A + I ) ;
X = ∑ xi
X ( t ) → 0 при t → ∞
dK = −γ1GB ( s& − ds ) XT − dt d − γ 2 GB ( s& − ds ) XT ; dt us = −γ sign GB ( s& − ds ) ;
минимально-фазовая, γ i > 0,
γ s = γ0 s
X ( t ) → 0 при t → ∞
[9]
i =1
& = AX + Bu; X
4
s = GX;
t
1
u = KX + us ; u ∈ R ; Θ = col ( K , us ) ∈ R
2
q = ∫ s& − ds dt
n +1
0
GW ( λ ) — строго
−1
γ > ( GB ) d , d < 0;
[197]
Алгоритмы систем с переменной структурой GW ( λ ) — строго
5
& = AX + Bu , X
s = GX
q=
u = −γ sign s;
1 2 s 2
γ = γ0 X
минимально-фазовая, −1
γ 0 ≥ ( GB ) G ( A + I ) ;
[212]
X ( t ) → 0 при t → ∞ GW ( λ ) — строго
6
u = ΨX; θ=Ψ
q=
1 2 s 2
минимально-фазовая, ψ = −γ sign sX T
−1
γ 0 ≥ ( GB ) G ( A + I ) ;
[212]
X ( t ) → 0 при t → ∞
Лемма. Пусть система (4.105) − строго минимально-фазовая, пара {A, B} — управляема. Тогда из s ( t ) → 0,
t
2 ∫ s (t ) d t < ∞ 0
следует X ( t ) < const .
следует, что X ( t ) → 0, а из s ( t ) < const
Глава 4. Адаптивные системы
427
Аналогично, с помощью проверки условий теоремы 4.2 доказывается работоспособность системы с законом настройки K в чисто дифференциальной форме T u ( t ) = K ( t ) X ( t ) − γ sign ⎛⎜ LT B s ( t ) ⎞⎟ , ⎝ ⎠
(
(
)
)
T
& = −γ LT B s ( t ) X T ( t ) , K 1
где
γ1 > 0, γ = γ 0 x ( t ) ,
(
γ 0 > LT B
) (L A + L ) ρ −1
T
T
−1
,
или в конечно-дифференциальной форме & = −γ LT B s ( t ) X T ( t ) − γ d LT B s ( t ) X T ( t ) , γ > 0. K 1 2 2 dt Сигнально-параметрические АСГ с неявной эталонной моделью обладают высоким быстродействием, простотой реализации и сохраняют свою работоспособность в условиях параметрических и координатных возмущений, изменяющихся быстро и в достаточно широких пределах. Однако в условиях сильных параметрических и координатных возмущений переходные процессы в контуре адаптации носят существенно колебательный характер. Одним из способов борьбы с этим явлением является введение дополнительного демпфирования (производной от «невязки») в контур адаптации. Основные типовые структуры алгоритмов адаптации с неявной эталонной моделью приведены в табл. 4.2.
(
4.5.3.
{( )
)
}
АЛГОРИТМЫ СИСТЕМ С ПЕРЕМЕННОЙ СТРУКТУРОЙ
Теория систем с переменной структурой разработана коллективом ученых под руководством С.В. Емельянова. Интерес к автоматическим системам с разрывным управлением заметно усилился после проведения исследований их работы в скользящих режимах. Практическая ценность систем с разрывным управлением определяется возможностью обеспечения в них адаптивности, инвариантности, линеаризации и понижения порядка. При этом управление обеспечивает требуемое движение замкнутой системы за конечное время и при конечных управляющих воздействиях. Систематическому изложению результатов исследований по теории систем с переменной структурой (СПС) посвящены монографии [81, 82, 212, 213]. 4.5.3.1. СКОЛЬЗЯЩИЕ РЕЖИМЫ
В общем случае процедура синтеза СПС рассчитана на класс нелинейных динамических объектов & = F ( X, t ) + B ( X, t ) U, (4.109) X где X ∈ R n , U ∈ R m , а F ( X, t ) , B ( X, t ) — непрерывные по своим аргументам ( n × 1)- и ( n × m )-матрицы соответственно. Управление строится в виде U = −γG ( X, t ) sign Σ ( X ) , (4.110) где γ > 0, G ( X, t ) — мажорирующая функция для компонент эквивалентного управления g i ( X, t ) > ui.эк ( X, t ) , где G ( X, t ) = ( g1 ( X, t ) ,K, g m ( X, t ) ) , U эк = ( u1.эк ,K , um.эк ) . T
T
428
Методы современной теории автоматического управления
Предполагая, что управление осуществляется в скользящем режиме на многообразии Σ ( X ) = 0, Σ ( X ) = ( σ1 ( X ) ,K , σ m ( X ) ) , эквивалентное управление вычисляется & ( X) = 0 : из условия Σ T
откуда
& ( X) = ∂ Σ X & = ∂ Σ F ( X, t ) + ∂ Σ B ( X, t ) U = 0, Σ эк ∂X ∂X ∂X −1
⎡ ∂Σ ⎤ ∂Σ ⎡ ∂Σ ⎤ U эк = − ⎢ B ( X, t ) ⎥ F ( X, t ) , det ⎢ B ( X, t ) ⎥ ≠ 0. ∂ X ∂ X ∂ X ⎣ ⎦ ⎣ ⎦ Синтез осуществляется в два этапа. На первом этапе выбираются поверхности разрыва Σ = 0 таким образом, чтобы движение в скользящем режиме обладало желаемым качеством. На втором этапе строится управление, гарантирующее возникновение и существование полного скользящего режима в системе. Двухэтапный подход реализуется введением наряду с основной целью управления lim X ( t ) = 0, вспомогаt →∞
тельной цели lim Σ ( X ) = 0. t →∞
Доказательство, что управление (4.110) гарантирует возникновение скользящего режима, как правило, проводится методом Ляпунова с использованием квадратичной формы вектора функции Σ ( X ) , играющей роль функции отклонения траектории от поверхности скольжения. Аналогичность первого этапа синтеза СПС выбору структуры основного контура в адаптивных системах, а второго этапа — синтезу алгоритма адаптации, позволяет осуществлять синтез СПС на основе схемы скоростного градиента. Продемонстрируем применение схемы скоростного градиента на примере синтеза СПС для линейного стационарного объекта [9] & (t ) = A X (t ) + B u (t ) , (4.111) X где X ( t ) ∈ R n , u ( t ) ∈ R1. Цель управления lim X ( t ) = 0, и требуется обеспечить скользящий режим по t →∞
плоскости σ ( X ) = Θ X = 0 . Предполагается, что первый этап синтеза, состоящий в выборе поверхности скольжения σ = 0, обеспечивающий системе & = AX ( t ) + B u ( t ) ; ⎧⎪ X ⎨ T ⎪⎩Θ X ( t ) = 0 в скользящем режиме достижение ЦУ X ( t ) → 0 при t → ∞ с заданным качеством, выполнен. Детально этот этап синтеза будет разобран ниже в примере 4.5. Выберем локальный целевой функционал вида q ( σ ) = 0,5σ T σ и вспомогательную T
ЦУ lim σ = 0. t→∞
Вычисляя последовательно & ( σ ) = ω ( X, u , t ) = σ Θ T AX + Θ T B u ; Θ
(
)
∇ u ω ( X, u, t ) = Θ T B σ ( X )
и выбирая АСГ в конечной форме (4.52), Ψ ( X, u , t ) = sign ∇u ω ( X, u, t ) , получаем алгоритм управления вида (4.112) u = −γ sign Θ T Bσ ( X ) .
(
)
Глава 4. Адаптивные системы
429
Для обоснования работоспособности воспользуемся теоремой 4.4. Условие сильной псевдоградиентности выполнено при δ = 1. Условие разрешимости выполнено, так как Ψ ( X, u , t ) = Θ T B σ ( X ) не зависит от u ( t ) . Условие выпуклости выполнено в силу линейности ОУ по входу. Условие достижимости выполнено −1 при u∗ ( t ) = − ⎡⎢ Θ T B Θ T A + Θ T ⎤⎥ X ( t ) , так как при этом ⎣ ⎦ −1 1 ω ( X, u∗ , t ) = σ ⎛⎜ Θ T AX − Θ T B Θ T B Θ T AX ⎞⎟ − σ Θ T B σ ≤ −α 0 σ T σ. 2 ⎝ ⎠
(
)
(
)
(
)
Заметим, что предполагается выполнение условия Θ T B > 0, 0 < α 0 ≤ Θ T B. Таким образом, на основании теоремы 4.4 приходим к заключению, что в системе (4.111), (4.112) достигается ЦУ: Θ ( σ ) → 0 при t → ∞, если γ = γ 0 X , γ 0 ≥ Θ T B − 1Θ T A + Θ T ρ , ρ > 0 .
Если измерению доступен не весь вектор состояния ОУ, а лишь вектор выходов X в ( t ) = LT X ( t ) ∈ R l , то, выбирая уравнение плоскости скольжения в форме σ = ΘT Xв = 0
(Θ ∈ R ), l
а целевую функцию вида q ( X ) = 0,5X T H X, H = H T > 0,
действуя по схеме скоростного градиента, приходим к алгоритму АСГ в конечной форме u = −γ sign σ, σ = Θ T X в , X в = LT X. (4.113) Все условия теоремы 4.4 выполнены, а для выполнения условия достижимости требуется существование H = H T > 0 и вектора Θ∗ , удовлетворяющих неравенству (4.87) H A* + A*T H < 0,
при HB = L Θ, A ∗ = A + B Θ ∗T LT . −1
Согласно теореме 4.6, последнее выполняется, если W ( λ ) = Θ T ( λ I − A ) B — строго минимально-фазовая передаточная функция, что обеспечивается соответствующим выбором вектора Θ. Таким образом, если W ( λ ) — строго минимально-фазовая передаточная функция, то в системе (4.111), (4.113) ЦУ X ( t ) → ∞ при t → ∞ достигается. Пример 4.5. Рассмотрим систему второго порядка, заданную моделью в пространстве состояний ⎧ x&1 = a11 x1 + a12 x2 ; (4.114) ⎨ ⎩ x& 2 = a21 x1 + a2 2 x2 + b u , где aij , b — параметры ОУ. На первом этапе синтеза выберем уравнение отклонения траектории ОУ от плоскости скольжения в виде (4.115) σ = θx1 + x2 , где θ — параметр, определяющий тангенс угла наклона прямой x2 = −θx1 , являющейся поверхностью скольжения. В скользящем режиме ( σ = 0 ) система (4.114) описывается уравнениями x&1 = ( a11 − θa12 ) x1; (4.116) x2 = −θx1 , которые не зависят от параметров a21 , a22 , b, что позволяет говорить об инвариантности системы, находящейся в скользящем режиме по параметрам исходного объекта, точнее, от части параметров. Выберем значение параметра θ = θ∗ из уравнения
a11 − θ∗a12 = −ρ.
(4.117)
430
Методы современной теории автоматического управления
При этом решение системы (4.114) имеет вид x1 ( t ) = x1 ( 0 ) e −ρt ; x2 ( t ) = −θ∗ x1 ( 0 ) e −ρt . Очевидно, что при ρ > 0 система (4.116) экспоненциально устойчива ( x1 → 0, x2 → 0 при t → ∞). Более того, желаемое качество системы (скорость сходимости) может быть обеспечено соответствующим выбором значений ρ.
x2 x2 = −θx1
α
x1
tg α = −θ На втором этапе выбираем управление вида (4.112) u = −γ sign {θ∗b σ} = −γ sign {θ∗b ( θ∗ x1 + x2 )} ,
(4.118)
которое гарантирует возникновение скользящего режима в системе (4.114), (4.118). Так как в рассматриваемом примере b — скалярная величина, а значение θ∗ выбрано на первом этапе синтеза, то, предполагая известным значение χ = sign θ∗b, получаем управление (4.118) в виде u = −γ sign σ ( x1 , x2 ) = −γ sign ( θ∗ x1 + x2 ) ,
(4.119)
где γ = χγ 0 ( x1 + x2 ) , γ 0 ≥ sup θ∗2b −1A + θ∗I ρ , aij ,b
a ⎞ ⎛a A = ⎜ 11 12 ⎟ , I — единичная ( 2 × 2)-матрица. ⎝ a21 a22 ⎠ Задаваясь допустимой областью начальных условий ( x1 (0), x2 (0)), можно использовать алгоритм (4.119) с постоянным коэффициентом усиления
(
)
γ > γ 0 x1 ( 0 ) + x2 ( 0 ) . Заметим, что при разбросе параметров a11 , a12 ОУ следует выбирать θ∗ из уравнения (4.117), рассчитывая на наихудший вариант значений a11 , a12 , таким образом, чтобы выполнялось неравенство
a11 − θ∗a12 ≤ −ρ ∀ a11 , a12 . В этих условиях гарантируется, что в скользящем режиме система будет иметь запас устойчивости не ниже ρ, т.е. x1 ( t ) ≤ x1 ( 0 ) e −ρt ; x2 ( t ) ≤ −θ∗ x1 ( 0 ) e −ρt . Результаты моделирования системы (4.114), (4.119) при параметрах ОУ 1 ≤ a11 ≤ 3,
−1 ≤ a12 ≤ 1,
a21 = 1, a22 = 2, b = 1, начальных условиях x1 ( 0 ) = 1, x2 ( 0 ) = 2, при выбранном ρ = +1, при постоянном и переменном коэффициенте усиления ( γ ( t ) ) релейного элемента приведены на рис. 4.18–4.20. Графики на рис. 4.18 ( θ = −0,5) иллюстрируют возникновение неустойчивого скользящего процесса.
Приведенный алгоритм управления (4.112) обеспечивает высокое быстродействие, простую реализацию, возможность сохранения стабильных динамических свойств при быстроменяющихся параметрических возмущениях. К недостаткам следует отнести возможную потерю работоспособности системы при изменении параметрических возмущений в широких пределах и большой инерционности исполнительных элементов.
Глава 4. Адаптивные системы
431
x 2 (t )
x1 ( t )
t
t
σ(t )
t
(
Рис. 4.18. Результаты моделирования при θ = −0, 5, γ ( t ) = 2 θ+1 x1 + 3 x2
x1 ( t )
)
x 2 (t )
t
t σ(t )
t
(
Рис. 4.19. Результаты моделирования при θ = 2, γ ( t ) = 2 θ+1 x1 + 3 x2
)
432
Методы современной теории автоматического управления x1 ( t )
x2 (t)
1,2 1 0,8
t
0,6 0,4 0,2
t 0
0,2
0,4
0,6
0,8
1
1,2
1,4
σ(t )
t Рис. 4.20. Результаты моделирования при θ = 2, γ = 47
Первый, из указанных недостатков СПС связан с тем, что задача формирования поверхности разрыва σ = 0, обеспечивающая требуемое качество системы в скользящем режиме, тесно связана с точностью априорной информации о параметрах ОУ. В частности, в предыдущем примере было указано на необходимость выбора параметров поверхности скольжения θ∗ исходя из наихудшего набора возможных параметров ОУ. Это позволяет решить задачу обеспечения качества системы в скользящем режиме не хуже заданного. Однако при большом разбросе параметров это ведет к увеличению коэффициента усиления γ 0 и, следовательно, к большому значению управляющего воздействия. На практике такое увеличение управления часто бывает неприемлемо, так как задача решается в условиях ограниченной энергии управления. Кроме того, желание упростить реализацию алгоритма управления за счет выбора постоянного, но достаточно большого коэффициента усиления γ приведет к большим амплитудным колебаниям системы в реальном скользящем режиме. Для расширения границ применения алгоритмов СПС можно использовать рассмотренные выше сигнально-параметрические алгоритмы скоростного градиента с явной или неявной эталонной моделью. Параметрическая обратная связь вводится для дополнительной стабилизации ОУ. При этом в системе достигается ЦУ при широком изменении параметров ОУ и возможно возникновение скользящего режима при меньших значениях коэффициента усиления γ . Более того, если параметрическая обратная связь строится на основе явной эталонной модели, то появляется возможность выбора поверхности скольжения исходя из параметров эталонной модели. В этом случае независимо от параметров ОУ при возникновении скользящего режима система будет иметь заданную скорость сходимости (быстродействие). Функциональная схема системы с явной эталонной моделью представлена на рис. 4.21.
Глава 4. Адаптивные системы
433 u
X
ОУ
Параметрическая ОС
Адаптер
Xэ
E
ЭМ
σ(X) Рис. 4.21. Функциональная схема сигнально-параметрического алгоритма адаптивного управления
Перераспределяя энергетические ресурсы между релейным (сигнальным) и параметрическим управлением можно добиться желаемого качества замкнутой системы. Ниже рассмотрим иной путь синтеза, основанный на настройке поверхности скольжения [144]. 4.5.3.2. СИСТЕМА С ПЕРЕМЕННОЙ СТРУКТУРОЙ И НАСТРАИВАЕМОЙ ПОВЕРХНОСТЬЮ СКОЛЬЖЕНИЯ
Процедура синтеза. Процедура синтеза систем с настраиваемой поверхностью скольжения осуществляется в три этапа. На первом этапе в условиях полной априорной информации о параметрах объекта управления (ОУ) выбираем «идеальное» уравнение поверхностей разрыва σ ( Θ* , X ) = 0, ( Θ∗ = Θ(ξ) — матрица идеальных параметров уравнения разрыва) таким образом, чтобы движение в скользящем режиме обладало желаемыми свойствами. На втором этапе синтезируется алгоритм настройки параметров уравнения разрыва, обеспечивающий желаемое качество при отсутствии априорной информации о параметрах объекта управления ( ξ ∈ Ξ, Ξ — выпуклое множество). На третьем этапе строится управление, гарантирующее возникновение и существование полного скользящего режима. Опишем идею синтеза на примере стабилизации линейного стационарного ОУ, описываемого в виде & = A X + BU, X ( 0 ) = X , X (4.120) 0 где X ∈ R n — вектор состояния; U ∈ R m — управление; A = A ( ξ ) , B = B ( ξ ) — постоянные ( n × n )- и ( m × m )-матрицы соответственно, причем rank B = m; ξ ∈ Ξ — неизвестные параметры ОУ. Предполагается, что система управляема при любом ξ ∈ Ξ. С помощью неособого преобразования приведем систему (4.120) к регулярной форме
434
Методы современной теории автоматического управления
& =A X +A X , ⎧⎪ X 1 11 1 12 2 (4.121) ⎨& X A X A = + ⎪⎩ 2 21 1 22 X 2 + B 2 U, X 1 ( 0 ) = X 10 , X 2 ( 0 ) = X 2 0 , где A ij ( ξ ) (i, j = 1, 2), B 2 ( ξ ) — постоянные матрицы соответствующих размеров, X1 — ( n − m )-мерный вектор, X 2 — m-мерный вектор, det B 2 ≠ 0. Задача стабилизации. Базовый алгоритм адаптивного управления. П ерв ы й э та п синт еза . Поверхности разрыва выбираем в виде (4.122) Σ ( Θ ∗ , X ) = Θ ∗ X1 + X 2 = 0,
где Θ ∗ = Θ ( ξ ) — ( m × (n − m))-матрица, Σ ( Θ* , X ) ∈ R m. В идеальном скользящем режиме система описывается уравнениями & = (A − A Θ )X ; ⎧⎪ X 1 11 12 ∗ 1 (4.123) ⎨ Σ Θ X X 0, X = + = ⎪⎩ 2 1 ( 0 ) = X1 0 . ∗ 1 Желаемое поведение системы в скользящем режиме зададим эталонной моделью & = А X , X (0) = X (4.124) X э1 ∗ э1 э1 э1 . 0 , где A * — гурвицева матрица с заданным расположением собственных чисел, Xэ1 ∈ R n−m. Идеальные параметры Θ* выбираем из условия А11 − А12Θ* = A* , так что Θ∗ = А1+2 ( A11 − A* ) , A1+2 — псевдообратная матрица.
Матрица Θ* существует, так как объект управляем. Определением Θ* заканчивается первый этап синтеза. Второ й э тап синтеза . Целью второго этапа является синтез алгоритма адаптации. Так как A ij = A ij ( ξ ) , заменим идеальные параметры Θ* настраиваемыми параметрами Θ ( t ) . Синтез проведем методом функции Ляпунова. Рассмотрим квадратичную скалярную функцию вида 1 1 T (4.125) V1 ( E, Θ ) = ET HE + tr ⎡( Θ − Θ∗ ) Г −1 ( Θ − Θ∗ ) ⎤ , ⎦ 2 2 ⎣ где E = X1 − X э1 , Н = Н Т > 0, Г = Г Т > 0 . Определим производную от функции V1 ( E, Θ ) в силу уравнений (4.123), (4.124)
T &⎤= V&1 ( E, Θ ) = ET HA∗E + ET H ( A11 − A12Θ − A∗ ) X1 + tr ⎡( Θ − Θ* ) Γ −1Θ ⎣ ⎦ T T Т T −1 & ⎤ ⎡ = E HА∗E + tr ( Θ − Θ* ) − А12 HEX1 + Γ Θ . ⎣ ⎦ Выберем алгоритм управления в виде & = Г А Т Н E XТ . Θ 12 1
(
)
T
(4.126)
С учетом существования матрицы H = H > 0, удовлетворяющей уравнению Ляпунова (4.127) H A * + A *T Н = −G , G = G T > 0, получаем 1 (4.128) V&1 ≤ − ρ E T H E, 2 где λ (G ) ρ = min > 0, λ max ( H )
Глава 4. Адаптивные системы
435
λ min ( G ) , λ max ( H ) — соответственно минимальное и максимальное собственные
числа матриц G и H. Таким образом, все траекторий системы (4.123), (4.126) ограничены. Далее, учи∞
тывая конечность интеграла
∫ E ( τ ) H E ( τ ) d τ,
линейность системы (4.123), (4.124),
0
выполнение условий роста V1 ( E, Θ ) → ∞ при X1 → ∞ в силу гурвицевости A* , доказывается стандартным образом (см., например, лемму П.1.1 [232]) ограниченность всех траекторий системы (4.123), (4.124), (4.127) и E ( t ) → 0 при t → ∞. Тр е тий э тап синтеза . Задача третьего этапа заключается в выборе разрывного управления, при котором на многообразии Σ = 0 возникает и поддерживается скользящий режим. С этой целью на основе исходных уравнений системы вычислим производную по времени функции Σ ( Θ, X ) & = R ( X ) + B U, Σ (4.129) 2
где
(
)
& X + ( ΘA + A ) X . R ( X ) = ΘA11 + A 21 + Θ 1 12 22 2
Для синтеза разрывного управления выберем квадратичную форму T 1 V2 ( Σ ) = Σ T B 2− 1 B 2− 1Σ 2 и вычислим ее производную: T T T 1 & = Σ T B − 1 B − 1R ( X) + Σ T B − 1 U. V&2 ( Σ ) = Σ T B −2 1 B −2 1Σ 2 2 2 2 Выбирая разрывное управление в виде U ( t ) = −γ sign B 2−1Σ,
( )
( )
( )
(4.130)
( )
(4.131)
получаем
(
V&2 = B 2− 1Σ
) {B T
≤ B −2 1Σ B −2 1
−1 2 Θ
−1 −1 & ( A11X1 + A12 X2 ) + B −2 1ΘX 1 + B 2 ( A 21X1 + A 22 X 2 )} − γ B 2 Σ ≤
{Θ ( A
n
}
& X − γ B − 1Σ . X1 + A12 X 2 ) + A 21 X1 + A 22 X 2 + Θ 1 2
Для того чтобы при ∀ Σ ≠ 0 выполнялось V&2 < 0, достаточно потребовать γ > γ = γ0
{( γ
X1
X1 + γ X 2 X 2
) Θ + γ% X
1
}
& X , X1 + γ% X 2 X 2 + Θ 1
(4.132)
& ≤ γ E ⋅ X , γ ≥ ΓA T H , γ ≥ B − 1 , γ ≥ A , γ ≥ A , γ% ≥ A , где Θ X1 X2 0 2 11 12 X1 21 Θ Θ 1 12 γ% X 2 ≥ A 22 ∀ξ ∈ Ξ и введено обозначение z = ∑ zi . i
Таким образом, получен следующий релейный алгоритм управления с настраиваемой поверхностью скольжения: U = −γ sign B −2 1Σ; Σ = ΘX1 + X 2 ; 0 при Σ ≠ 0; & = ⎧⎪⎨ Θ Т Т ⎪⎩ГА12 НEX1 при Σ = 0,
где Г = Г Т > 0, γ = γ ( t ) удовлетворяет условию (4.132); E = X1 − X э1.
436
Методы современной теории автоматического управления
З ам еч а ния : 1. В алгоритм (4.126) входит неизвестная матрица А12 = А12 ( ξ ) , ξ ∈ Ξ. Для исклю% = const, свячения А из алгоритма адаптации следует подобрать матрицу A 12
12
занную с А12 зависимостью % A T ( ξ ) = P ( ξ ) , где P ( ξ ) = P ( ξ ) T > 0 ∀ξ ∈ Ξ. A 12 12 При этом выполняется условие псевдоградиентности: Ψ T ( E ) ∇ ΘV&1 ( E, Θ ) > 0, где % T H E XT , ∇ ΘV& ( ⋅) = A T21H E X1T , Ψ ( E ) = A 21 1 и настройка коэффициентов матрицы Θ будет осуществляться в направлении псевдоградиентности. В этом случае соответственно корректируется уравнение (4.132). 2. Недостатком рассмотренного алгоритма является возможность настройки поверхности разрыва лишь при возникновении скользящего режима. Кроме того, следует заметить, что в реальном скользящем режиме моменты времени, при которых Σ ( t ) = 0, будут изолированы. Задача стабилизации. Модифицированный алгоритм адаптивного управления. Для преодоления указанного недостатка рассмотрим возможность непрерывной настройки поверхности скольжения. Для этого вернемся к исходному описанию ОУ в форме (4.121) с учетом уравнения Σ ( X, Θ ) = Θ X1 + X 2 , которое при выполнении условия Σ = 0 является уравнением поверхности разрыва. Вычисляя из последнего уравнения X 2 и подставляя его в первое уравнение системы (4.121), получаем описание системы в виде & = ( А − А Θ ) X + А Σ; ⎧X 1 11 12 1 12 ⎪ & = А X + А X + B u; ⎪X 2 21 1 22 2 2 (4.133) ⎨ ⎪ Σ = Θ X1 + X 2 ; ⎪ X ( 0 ) = X , X (0) = X . 10 2 20 ⎩ 1 Желаемое поведение объекта по координатам X1 зададим уравнением эталонной модели & = A X + B Σ, X ( 0 ) = X (4.134) X э1 * э1 э э1 э1.0 , где A* — гурвицева матрица. Введем вспомогательную цель управления X 1 − X э1 → 0 при t → ∞, Σ ( t ) ≡ 0 при t ≥ t∗ , выполнение которой при ограниченном Θ обеспечивает достижение цели X1 ( t ) → 0, X 2 ( t ) → 0 при t → ∞.
(4.135)
Очевидно, что при известных параметрах ξ ОУ цель управления (4.135) достигается, если существуют такие Θ = Θ* ( ξ ) , В э = В э* ( ξ ) , что выполнены условия А11 ( ξ ) − А12 ( ξ ) Θ ∗ = А * , В э* = А12 ( ξ )
(4.136)
и управление имеет вид
U* = −γ∗ ( X ) sign B −21Σ, где γ ∗ ( X ) выбирается из условия V&2 ( Σ ) < 0 . В условиях неизвестных параметров ξ ∈ Ξ, считая Θ ( t ) , B э ( t ) , U ( t ) настраиваемыми переменными, проведем синтез алгоритма адаптивного управления, используя сепарабельную квадратичную форму
Глава 4. Адаптивные системы
437
1 1 V3 ( E, Θ, B э ) = E T H E + tr Θ − Θ∗ 2 2 где E = X1 − X э1 и введены обозначения:
2 Г1− 1
1 + t r В э − В∗ 2
2 Г −2 1
+ f (Σ),
= ( С − С* ) Г − 1 ( С − С* ) , T 1 f ( Σ ) = Σ T B 2− 1 B −2 1Σ. 2 Вычислим V&3 ( ⋅) вдоль траектории системы (4.133), (4.134) с учетом (4.136) С − С*
2 Г−1
T
( )
V&3 = ET H {( A11 − A12Θ ) X1 + A12 Σ − A∗ X э1 − В э Σ} +
{
} {
}
T & + tr ( В − В )T Г −1В& + f& ( Σ ) = + tr ( Θ − Θ* ) Г1−1Θ э э* 2 э
= ET HA∗E + ET H {− A12 ( Θ − Θ∗ ) X1 + ( B э* − В э ) Σ} +
{
} {
}
T & + tr ( В − В )T Г −1B& + f& ( Σ ) . + tr ( Θ − Θ∗ ) Г1−1Θ э э* 2 э
Выбирая алгоритмы настройки в виде & = Г A T H EX T ; ⎧⎪Θ 1 12 1 ⎨ T & ⎪⎩B э = Г 2 Н EΣ
(4.137)
и учитывая существование матрицы H = HT > 0, удовлетворяющей уравнению (4.127), а также равенство (4.129), получаем T 1 & = V&3 ≤ − ρ E T H E + Σ T B 2− 1 B −2 1Σ 2 T T 1 & ) X + ( Θ A + A ) X + B − 1Σ U. = − ρ E T H E + B 2− 1Σ B −2 1 ( Θ A11 + A 21 + Θ 1 12 22 2 2 2 Выбрав разрывное управление в форме (4.131), окончательно получаем: 1 V&3 ≤ − ρ E T H E + B −2 1Σ ⋅ B −2 1 ⋅ Θ ( A11 ⋅ X1 + A12 ⋅ X 2 ) + 2 & ⋅ X − γ B − 1Σ . + A 21 ⋅ X1 + A 22 ⋅ X 2 + Θ 1 2
( ) ( ) {
} (
{
)
}
Для того чтобы при ∀ Σ ≠ 0 функция V&3 < 0, достаточно потребовать, чтобы γ удовлетворяла условию (4.132). Далее стандартным способом доказывается ограниченность всех траекторий системы (4.133), (4.137), (4.131) и достижение цели для уравнения (4.134). З ам еч а ние. Можно отказаться от настройки параметров B э ( t ) , исключив из функции V3 ( ⋅) слагаемое tr ace B э − В э*
2 Г −21
и увеличив коэффициент усиления γ
релейного управления на величину В T2 ( А1 2 − В* ) Н E . Более того, можно исклюT
чить из уравнения эталонной модели слагаемое A*Σ. Пример 4.6. Пусть объект управления описывается системой уравнений ⎪⎧ x&1 = a11 x1 + a12 x2 ; ⎨ ⎪⎩ x&2 = a21 x + a22 x + b2u, x1 ( 0 ) = 1, x2 ( 0 ) = 2, где a ij (i, j = 1,2), b2 — неизвестные параметры ОУ, но известно, что sign ( b2 ) > 0. Желаемое поведение системы в соответствии с (4.134) зададим уравнением x&1э = −3 x1э + bэ ( t ) σ ( t ) , x1э ( 0 ) = 2, где σ ( t ) = θ ( t ) x1 ( t ) + x 2 ( t ) .
438
Методы современной теории автоматического управления
Алгоритм адаптивного управления с учетом (4.136), (4.137) и sign ( b2 ) > 0 имеет следующий вид: u ( t ) = −γ ( t ) sign σ ( t ) ; θ& ( t ) = 6e ( t ) x1 ( t ) ; b&э ( t ) = e ( t ) σ ( t ) ,
(
)
где e ( t ) = x1 ( t ) − x1э ( t ) ; γ ( t ) = 2 ⋅ x1 ( θ + 2 e + 1) + x 2 ( 2 θ + 3) . Результаты моделирования при начальных условиях θ ( 0) = −0,5; bэ ( 0) = 0,1; x1 ( 0) = 1; x 2 ( 0) = 2; x1э ( 0) = 2 и параметрах объекта управления a11 = 1; a12 = 2; a 21 = 1; a 22 = 3; b2 = 1 приведены на рис. 4.22.
Заметим, что при выбранном начальном условии на параметр плоскости скольжения θ ( 0 ) = −0,5 без
контура адаптации система в скользящем режиме неустойчива по координатам x1 , x2 . x1 ( t )
u (t ) 2
150 100
1.5
x1 50
1
0
0.5 −50
0
−100 −150
x1м
t 0
0,2
0,4
0,6
0,8
1
1,2
2
1,4
1,6
1,8
2
0.4
0.6
0.8
-0.5 0
0.2
0.4
0.6
0.8
1
t 1.2
1.4
1.6
1.8
2
x2 (t )
1 0 -1 -2 -3 -4 -5 -6 -7 0
t 0.2
1
1.2
1.4
1.6
1.8
2
Рис. 4.22. Результаты моделирования системы стабилизации с базовым алгоритмом
Задача слежения [145]: базовый алгоритм адаптивного управления. Распространим описанный выше метод синтеза систем с настраиваемой поверхностью скольжения на задачу слежения. Вновь рассмотрим линейный стационарный ОУ (4.120), приведенный к регулярной форме (4.121). П ерв ы й э тап синт ез а. Поверхности разрыва выберем в виде Σ ( Θ* , D* , X ) = Θ*X1 − D*G + X 2 = 0, (4.138) где Θ* = Θ ( ξ ) — ( m × (n − m))-матрица; D* = D ( ξ ) — ( m × m)-матрица; G ∈ R m — вектор-функция задающих воздействий. В идеальном скользящем режиме система описывается уравнениями & = ( A − A Θ ) X + A D G; ⎪⎧ X 1 11 12 * 1 12 * ⎨ ⎪⎩ Σ = 0.
(4.139)
Глава 4. Адаптивные системы
439
Желаемое поведение системы в скользящем режиме зададим эталонной моделью & = A X + B G , X ( 0 ) = X0 , X (4.140) э1 * э1 * э1 э1 где A* — гурвицева матрица. Идеальные параметры Θ* , D* выбираем из условий A11 − A12Θ* = A* , A12 D* = B* , + так что Θ* = A12 ( A11 − A* ) , D* = A12+ B*.
Очевидно, что при выбранных идеальных параметрах, гурвицевости матрицы A* и ограниченности задающих воздействий
(G
< CG < ∞ ) достигается цель управле-
ния X1 → X э1 при t → ∞ и все траектории системы (4.139), (4.140) ограничены
(X
< ∞).
Второ й э тап синтеза . Синтез алгоритма адаптации проведем методом функции Ляпунова, выбрав скалярную квадратичную форму в виде T V1 ( E, Θ, D ) = 0,5ET HE + 0,5 trace ⎡( Θ − Θ* ) Г1−1 ( Θ − Θ* ) ⎤ + ⎣ ⎦ (4.141) T −1 ⎡ ⎤ +0,5 trace ( D − D* ) Г 2 ( D − D* ) , ⎣ ⎦ где E = X1 − X э1 , Гi = ГiT > 0, i = 1, 2; D = D ( t ) , Θ = Θ ( t ) — настраиваемые параметры. Вычислим производную V1 ( E, Θ ) в силу уравнений (4.139), (4.140) V&1 ( E, Θ, D ) = ET HA*E − ET HA12 ( Θ − Θ* ) X1 + ET HA12 ( D − D* ) G +
{
}
& + ( D − D ) Г −1D & = + trace ( Θ − Θ* ) Г1−1Θ * 2 T
T
{
= ET HA*E + trace ( Θ − Θ* ) + ( D − D* )
T
(A
T T 12 HEG1
T
( −A &) . D }
T T 12 HEX1
)
& + + Г1−1Θ
+ Г −21
Выбирая алгоритм настройки параметров T & = ⎪⎨⎧Г1Λ ( t ) ⋅ X1 ( t ) Θ ⎪⎩ 0 T & = ⎪⎧⎨− Г 2 Λ ( t ) ⋅ G ( t ) D ⎪⎩ 0
D и Θ в виде при Σ = 0, при Σ ≠ 0, при Σ = 0, при Σ ≠ 0,
(4.142)
T Λ ( t ) = A12 HE ( t ) ,
получаем
V&1 ( E ) = ET HA*E ≤ −ρET HE,
где
ρ=
λ min ( G )
λ max ( H )
> 0,
матрица H = H T > 0 удовлетворяет уравнению Ляпунова H A* + A*T Н = −G , G = G T > 0 .
Далее из ограниченности G ( t ) и гурвицевости матрицы A* стандартным спосо-
бом доказывается ограниченность траекторий системы (4.139), (4.140), (4.142) и достижение ЦУ E ( t ) → 0 при t → ∞.
440
Методы современной теории автоматического управления
Тр етий э тап синтеза . Выберем разрывное управление, при котором на многообразии Σ ( Θ, D, X ) = 0 возникает и поддерживается скользящий режим. С этой целью на основе исходных уравнений системы вычислим производную Σ ( Θ, D, X ) : & ( Θ, D, X ) = R ( X, G ) + B U, (4.143) Σ
(
2
)
& X + ( ΘA + A ) X − DG & − DG & . где R ( X, G ) = ΘA11 + A12 + Θ 1 12 22 2
Используя для синтеза разрывного управления квадратичную форму (4.130)
( )
T
V2 ( Σ ) = 0,5Σ T B 2−1
B −21Σ,
вычисляя ее производную в силу (4.143)
( )
V&2 ( Σ ) = Σ T B 2−1
T
( )
T
B −2 1R ( X, G ) + Σ T B −2 1
U
и выбирая разрывное управление U = −γ sign B −2 1Σ, получаем
( )
V&2 ( Σ ) = R ( X, G ) B −21
T
(4.144)
B −21Σ − γ B −2 1Σ .
Для того чтобы V&2 < −ρ B −2 1Σ при некотором значении ρ > 0, достаточно потребовать γ > γ = R ( X, G ) γ > γ = γ0
T
(B )
{( γ
−1 T 2
. Последнее условие выполняется, например, если
X1 + γ X2 X 2
X1
) Θ + γ% X
1
X1 + γ% X2 X 2 +
}
& , + Λ ( γ Θ X1 + γ D G ) + D G
(4.145)
где γ 0 ≥ B −21 , γ X1 ≥ A11 , γ X2 ≥ A12 , γ% X1 ≥ A 21 , γ% X2 ≥ A 22 , Λ ≤ A 21HE , γ Θ ≥ Γ1 , γ D ≥ Г 2 .
Замечание. Для обеспечения ограниченности управления (см. (4.145)) необходимо потребовать ограниченности вектор-функции задающих воздействий и ее производной ( G (t ) — ограниченная, гладкая вектор-функция). Наконец, первые два замечания остаются справедливыми и для задачи слежения. Задача слежения [145]: модифицированный алгоритм адаптивного управления. Для синтеза модифицированного алгоритма вновь вернемся к описанию системы в форме (4.121) с учетом уравнения Σ ( Θ, D, X ) = ΘX1 − DG + X 2 : & = ( A − A Θ ) X + A Σ + A DG; ⎧X 1 11 12 1 12 12 ⎪& ⎨ X 2 = A 21X1 + A 22 X 2 + B 2 U; ⎪ Σ = ΘX − DG + X , X ( 0 ) = X , X (0) = X . 1 2 1 10 2 20 ⎩ Желаемое поведение объекта по координатам X1 зададим уравнением & = A X + B Σ + B G , X ( 0 ) = X0 , X э1
*
э1
э
*
э1
э1
(4.146)
(4.147)
где A* — гурвицева матрица; G ( t ) — гладкая, ограниченная вектор-функция. Введем вспомогательную ЦУ (4.135) X1 − X э1 → 0 при t → ∞, Σ ( t ) ≡ 0 при t ≥ t* ,
Глава 4. Адаптивные системы
441
выполнение которой при ограниченности Θ ( t ) , D ( t ) , G ( t ) гарантирует заданную динамику системы по переменным X1 и ограниченность всех траекторий адаптивной системы управления. Синтез алгоритма адаптивного управления проводится методом функций Ляпунова на основе сепарабельной формы V3 ( E, Σ, Θ, D, B э ) = V1 ( E, Θ, D ) + V2 ( Σ ) +
{(
+0,5trace B э − B*э где B*э = A12 ( ξ ) .
)
T
(
)}
Γ3−1 B э − B*э ,
Вычисляя производную V3 (⋅) по времени в силу уравнений (4.146), (4.147) и выбирая алгоритм адаптивного управления в виде ⎧U = −γ sign B 2−1Σ ( t ) ; ⎪ & = Г Λ ( t ) X ( t )T ; ⎪⎪Θ 1 1 (4.148) ⎨ & = − Г Λ ( t ) G ( t )T ; ⎪D 2 ⎪ T ⎪⎩B& э = Г3 HE ( t ) Σ ( t ) , T HE ( t ) , γ — удовлетворяет условию (4.145), и учитывая, что матрица где Λ ( t ) = A12 H = H T > 0 удовлетворяет в силу гурвицевости A* уравнению Ляпунова (4.127), получаем V&3 ( E, Σ ) ≤ −ρ1ET HE − ρ2 B 2−1Σ , ρ1 > 0, ρ2 > 0.
Далее стандартным образом доказывается ограниченность всех траекторий системы (4.146)−(4.148) и достижение ЦУ (4.135). З ам еч а ние. Можно показать, что при переменной вектор-функции G ( t ) задающих воздействий в реальном скользящем режиме алгоритм (4.148) приобретает идентифицирующие свойства по настраиваемым параметрам, а именно Θ ( t ) → Θ* , D ( t ) → D* , B э ( t ) → A12 при t → ∞. Аналогично задаче стабилизации сохраняется возможность отказаться от настройки матрицы B э за счет увеличения коэффициента γ. Заключение. Предлагаемая процедура синтеза, основанная на настройке поверхности скольжения, в отличие от ранее предложенных процедур синтеза задает желаемое поведение ОУ лишь по части переменных состояния, что позволяет в общем случае уменьшить общее количество настраиваемых параметров. К недостаткам полученных алгоритмов следует отнести некоторое увеличение релейного управле& , необходимой для поддержания ния за счет составляющей пропорциональной Θ
скользящего режима при повороте плоскости скольжения. Пример 4.7. Пусть объект управления описывается уравнением ⎪⎧ x&1 = a11 x1 + a12 x2 ; ⎨ ⎪⎩ x&2 = a21 x1 + a22 x2 + b2u, x1 ( 0 ) = 1, x2 ( 0 ) = 2, где a ij (i, j = 1, 2), b2 — параметры ОУ ( b2 > 0, a12 > 0 ). Синтез базового алгоритма. Желаемое поведение системы в соответствии с (4.140) зададим уравнением x&1э = −3x1э + 3 y ( t ) , x1э ( 0 ) = 2,
где y ( t ) = sin ( πt 3) — задающее воздействие.
442
Методы современной теории автоматического управления
Алгоритм адаптивного управления в соответствии с (4.142), (4.144) с учетом знаков b2 , a12 имеет следующий вид: u ( t ) = −γ ( t ) sign σ ( t ) ; ⎪⎧0, θ& ( t ) = ⎨ ⎪⎩ γ 1ex1 , ⎪⎧ 0, d& ( t ) = ⎨ ⎪⎩−γ 2 ey, где
σ > δ; σ ≤ δ; σ > δ; σ ≤ δ,
σ ( t ) = θ ( t ) x1 ( t ) + x 2 ( t ) − d ( t ) y ( t ) ; e ( t ) = x1 ( t ) − x1э ( t ) ,
(
)
γ ( t ) = 3 ⋅ x1 + ( θ + e + 1) + x 2 ( 2 θ + 3) + e + π d ,
δ = δ ( h ) — положительная величина введенная для обеспечения работоспособности алгоритма при дискретизации с шагом h. На рис. 4.23 приведены результаты моделирования системы с базовым алгоритмом адаптивного управления при начальных условиях θ ( 0 ) = −0,5; d ( 0 ) = 0,1, параметрах объекта управления a11 = 1; a12 = 2; a21 = 1; a22 = 3; b2 = 1, параметрах адаптера h = 0,01, δ = 0,01, γ1 = 6, γ 2 = 2, γ 0 = 3.
Синтез модифицированного алгоритма управления. Желаемое поведение системы в соответствии с (4.147) зададим уравнением x&1э = −3x1э + 3 y ( t ) + bэ ( t ) σ ( t ) , x1э ( 0 ) = 2, где y ( t ) = sin ( πt 3) — задающее воздействие. x1 (t )
3,5
x2
2
3
1
2,5
yy
xx11
2 1,5
0 −1
xx11м м
1 0,5
−2
0
−3
−0,5 −1 −1,5
t 0
2
4
6
8
10
12
14
16
18
20
−4
t
−5 0
4
2
6
8
10
12
14
16
18
14
16
18
20
θ
2 1,5
D
1,6
θ*
1,4
D*
1,2
1
1 0,8
0,5
0,6
0
0,4 0,2
−0,5 −1
t 0
2
4
6
8
10
12
14
16
18
20
0 −0,2
t 0
2
4
6
8
10
12
Рис. 4.23. Результаты моделирования системы слежения с настраиваемой поверхностью скольжения (базовый алгоритм)
20
Глава 4. Адаптивные системы
443
Модифицированный алгоритм адаптивного управления в соответствии с (4.148) и условием задачи имеет вид u ( t ) = −γ ( t ) sign σ ( t ) ; θ& ( t ) = γ1e ( t ) x1 ( t ) ; d& ( t ) = −γ 2e ( t ) y ( t ) ; b&э = γ 3e ( t ) σ ( t ) ,
где
σ ( t ) = θ ( t ) x1 ( t ) + x2 ( t ) − d ( t ) g ( t ) ; e ( t ) = x1 ( t ) − x1э ( t ) ,
(
)
γ ( t ) = 3 ⋅ x1 + ( θ + e + 1) + x 2 ( 2 θ + 3) + e + π d . На рис. 4.24 приведены результаты моделирования системы с базовым алгоритмом адаптивного управления при начальных условиях θ ( 0 ) = −0,5; d ( 0 ) = 0,1, параметрах объекта управления a11 = 1;
a12 = 2; a 21 = 1; a 22 = 3; b2 = 1, параметрах адаптера γ 1 = 12, γ 2 = 2, γ 0 = 60. Заметим, что при выбранном начальном условии на параметр плоскости скольжения θ ( 0 ) = −0,5 без контура адаптации система в скользящем режиме неустойчива по координатам x1 , x2 . x1 ( t )
1,5
1
y
0
x1м ( t )
1
x1 ( t )
0,5
−1
0
−2
−0,5
−3
−1 −1,5
t 0
5
10
15
20
25
30
θ
3,5
x 2 (t )
2
2
−4 −5
t
3
10
15
20
D (t )
1,6
25
30
D*
1,4
θ*
2,5
1,2
2
1
1,5
0,8
1
0,6
0,5
0,4
0
0,2 0
−0,5 −1
5
0
t 0
5
10
15
20
25
30
−0,2
t 0
5
10
15
20
5
10
15
20
25
30
u (t )
Bэ 2
150
1 0
100
A 12
−1 −2
50
−3 −4
0
−5 −6
−50
−7 −8
t 0
5
10
15
20
25
30
−100
t 0
Рис. 4.24. Результаты моделирования системы слежения с настраиваемой поверхностью скольжения (модифицированный алгоритм)
25
30
444
Методы современной теории автоматического управления
4.5.4.
АДАПТИВНЫЕ СИСТЕМЫ УПРАВЛЕНИЯ ЛИНЕЙНЫМИ ОБЪЕКТАМИ БЕЗ ИЗМЕРЕНИЯ ПРОИЗВОДНЫХ ОТ ВЫХОДА
Выше рассмотрены методы синтеза алгоритмов адаптивного управления при полном измерении вектора состояния объекта управления. В терминах систем со скалярным входом и выходом это означает измеримость выхода объекта и его старших производных. На практике далеко не всегда подобное измерение физически осуществимо или оно требует использования достаточно дорогостоящих датчиков. Поэтому, начиная с 70-х годов ХХ века, большое число исследований посвящено вопросам синтеза адаптивных систем без измерения производных от выхода объекта. В классической теории управления задача синтеза регулятора при неполном измерении вектора состояния объекта, как правило, осуществляется на основе использования устройств асимптотической оценки (наблюдателей состояния) или методом динамической компенсации. Однако эти подходы к синтезу нуждаются в полной информации о структуре и параметрах объекта. При адаптивной постановке задача существенно усложняется из-за наличия дополнительного нелинейного контура адаптивной настройки. Это, в свою очередь, приводит к проблемам обеспечения устойчивости замкнутой системы и реализуемости алгоритмов управления. 4.5.4.1. ПОСТАНОВКА ЗАДАЧИ СИНТЕЗА Задача состоит в управлении линейным стационарным объектом, заданным моделью в форме пространства состояния: & = AX + Bu, x = LT X, X ( 0 ) = X , X (4.149) в 0 где X ∈ R n , u ∈ R1 , xв ∈ R1 — состояние, вход и выход объекта; A, B — ( n × n )- и ( n × 1 )-матрицы неизвестных параметров. Предполагается выполнение следующих условий: 1) объект минимально-фазовый ( β( s ) — гурвицевый многочлен), −1
W ( s ) = LT ( sI − A ) B =
β(s)
α (s)
2) известны степени многочленов α ( s ) и β ( s )
;
( deg α ( s ) = n, deg β ( s ) = m )
и
соответственно известна относительная степень ν = n − m ≥ 1; 3) измерению доступны только сигналы u ∈ R1 и xв ∈ R1. Желаемое поведение системы задается эталонной моделью & = A X + B y, x = LT X , X ( 0 ) = X , X м м м м в.м м м м0 n
1
(4.150)
1
где Xм ∈ R , y ∈ R , xв.м ∈ R — состояние, задающее воздействие и выход. Предпо-
лагается, что y ( t ) — ограниченная и кусочно-непрерывная функция; измеряемыми сигналами являются xв.м ( t ) и y ( t ) ; A м — гурвицева матрица.
Требуется найти такой закон управления u ( t ) , не содержащий операций дифференцирования, чтобы при любых начальных условиях все сигналы в замкнутой системе были ограниченными функциями времени и дополнительно выполнялось условие lim e1 ( t ) = 0, (4.151) t →∞
где e1 ( t ) = xв ( t ) − xв.м ( t ) — ошибка слежения. На языке теории устойчивости такая постановка задачи соответствует требованию асимптотической устойчивости по выходу.
Глава 4. Адаптивные системы
445
4.5.4.2. ОБЩАЯ МЕТОДИКА СИНТЕЗА Аналогично алгоритмам скоростного градиента с неявной эталонной моделью в основе решения задачи синтеза лежит лемма Якубовича–Калмана. Нам понадобятся несколько определений и ряд специальных версий этой леммы [147, 293]. Определение 4.1. Дробно-рациональная функция W ( s ) комплексной переменной s = σ + jω является положительно-вещественной, если:
1) W ( s ) является вещественной для вещественных s; 2) Re W ( s ) > 0 для всех σ > 0 и Re W ( s ) ≥ 0 для σ = 0. Определение 4.2. Дробно-рациональная функция W ( s ) является положительновещественной, если: 1) W ( s ) является вещественной для вещественных s; 2) W ( s ) не имеет полюсов в области Re s > 0; 3) полюса W ( s ) , лежащие на оси jω, являются простыми, а соответствующие им вычеты неотрицательны; 4) для любых вещественных ω, для которых jω не является полюсом функции W ( s ) , имеет место неравенство Re W ( jω) ≥ 0. Определение 4.1 задает класс положительно-вещественных функций в терминах комплексной переменной s, а определение 4.2 — в частотной области. Определение 4.3. Дробно-рациональная функция W ( s ) является строго положи-
тельно-вещественной (СПФ), если W ( s − ε ) является положительно-вещественной при некотором ε > 0. З ам еч а ния : 1. В частности, к классу положительно-вещественных функций ( ε = 0) относятся передаточные функции полных сопротивлений пассивных двухполюсников, т.е. систем, не содержащих источников энергии. К классу строго положительновещественных функций (ε > 0) относятся передаточные функции пассивных двухполюсников с потерями. Поэтому в литературе вместо терминов «положительновещественная» и «строго положительно-вещественная» иногда используются термины «пассивная» и «строго пассивная» функции. 2. Примером строгой положительно-вещественной передаточной функции является дробно-рациональная функция вида W ( s ) = β ( s ) α ( s ) , где α ( s ) — устойчивый многочлен n-й степени с различными вещественными корнями λ i , i = 0, n, n
а β ( s ) = ∑ μi α ( s ) ( s − λi ), где μi ( s ) ≥ 0 и хотя бы одно μ k ≠ 0. i =1
Следующая теорема устанавливает класс динамических моделей, для которых возможно построение устойчивых схем адаптивного управления и идентификации. Теорема 4.8. Пусть динамическая система представима полностью управляемой и
{
}
наблюдаемой тройкой LT , A* , B* , где A* — устойчивая матрица, L, B* — векторы. Пусть даны симметричная положительно-определенная матрица Γ = Γ T > 0 и вектор-функция W ( t ) , элементы которой являются ограниченными и кусочно-непрерывными функциями времени. Тогда положение равновесия ( E, Δ ) = ( 0, 0 ) следующей системы дифференциальных уравнений:
446
Методы современной теории автоматического управления E& = A*E + B*ΔT ( t ) W ( t ) , e1 = LT E ( t ) ,
(4.152)
Δ& = −Γe1 ( t ) W ( t ) ,
(4.153)
где E, Δ — векторы соответствующих размерностей, ΔT ( t ) W ( t ) ∈ R1, при любых ограниченных начальных условиях E ( 0 ) , Δ ( 0 ) является устойчивым по Ляпунову и, кроме того, e1 ( t ) → 0 и Δ& ( t ) → 0 при t → ∞, если передаточная функция −1
W* ( s ) = LT ( sI − A* ) B* является строго положительно-вещественной. Более того, если компоненты вектора W ( t ) являются гармоническими сигналами с различными частотами, то система (4.152), (4.153) асимптотически устойчивая. Следствие 4.1. Теорема остается справедливой, если W ( t ) = T ( p ) z ( t ) , где z ( t ) — произвольная ограниченная кусочно-непрерывная функция времени; p = d dt — оператор дифференцирования; T ( s ) — вектор устойчивых передаточных функций.
{
}
Следствие 4.2. Дана полностью управляемая и наблюдаемая тройка LT , A* , B* , где A* — устойчивая (n × n )-матрица, L, B* — (m × n )- и (n × n )-матрицы. Тогда система n ( m + 1) дифференциальных уравнений
% = LT E, E& = A*E + B*Δ ( t ) W ( t ) , E
(4.154)
% T ( t ) , Δ — (m × n )-матрица, Δ& ( t ) = −ΓEW
(4.155)
−1
устойчива, если Γ = ΓT > 0, W* ( s ) = LT ( sI − A* ) B* — положительно-вещественная матрица, W∞ = 0, W ( t ) — ограниченная вектор-функция. Более того, если B* — матрица полного ранга, а компоненты вектора W ( t ) — гармонические функции с разными частотами, то система (4.154), (4.155) асимптотически устойчивая при любых начальных условиях. З ам еч а ния : 1. Теорема 4.8 определяет класс динамических объектов, устойчивая адаптация настройки которых возможна без измерения производных выходного сигнала. 2. Наиболее существенными условиями теоремы 4.8 следует считать требование строгой положительной вещественности передаточной функции модели ошибки W* ( s ) и обеспечение ограниченности вектора W ( t ) (вектора регрессии). 3. Уравнения (4.153), (4.155) описывают алгоритм адаптации. Δ ( t ) = Θ ( t ) − Θ* — вектор (матрица) отклонений настраиваемых параметров от идеальных. Предпола& ( t ) = 0 и при этом Δ& ( t ) = Θ & ( t ) . Используя целевую функцию гается, что Θ * q ( E ) = 0,5ET HE и уравнения состояния (4.152), (4.154), легко показать, что алго-
ритмы адаптации (4.153), (4.155) принадлежат классу АСГ в дифференциальной форме. Однако, в отличие от рассмотренных выше приложений метода скоростного градиента, в данном случае измеримыми являются вход и выход объекта и полученные на их основе компоненты вектора W ( t ) . Система уравнений (4.152), (4.154) соответственно для случая «скалярный вход– выход» и «векторный вход–выход» (размерности входа и выхода совпадают) представляет уравнение обобщенного настраиваемого объекта (ОНО), в состав которого, в зависимости от задачи, входят уравнения: исходного объекта, эталонной модели,
Глава 4. Адаптивные системы
447
регулятора, наблюдателя состояния (фильтров состояния) и генераторов дополнительных сигналов (необходимость и роль последних будут описаны ниже). Таким образом, рассмотренный в теореме класс адаптивных систем предполагает следующий алгоритм (схему) синтеза: 1) приведение модели ошибки системы к виду (4.152) или (4.154); 2) выбор алгоритма адаптации в форме (4.153) или (4.155). В зависимости от постановки задачи вектор E ( t ) представляет собой рассогласование между состояниями объекта управления и наблюдателя или объекта и эталонной модели. Поскольку, согласно теореме 4.8, динамическая система ошибки представлена тройкой
{L , A , B } T
*
с заданными свойствами, то возникает вопрос: как
*
перейти от исходного описания объекта к форме (4.152) или (4.154), т.е. выбрать матрицы A* , B* , и как сформировать вектор W ( t ) в условиях, когда сигналы E ( t ) & (t ) ? и Δ ( t ) неизмеримы, а доступными являются лишь сигналы u ( t ) , e ( t ) и Δ& ( t ) = Θ 1
На практике при переходе от минимальной реализации модели объекта управления в форме (4.149) к модели ошибки, в общем случае, вместо необходимой формы описания (4.152) уравнение ошибки имеет вид E& = A*E + Δ z , e1 = LT E, (4.156) где e1 — ошибка; z — некоторый доступный измерению сигнал. В связи с этим возникает дополнительная задача: как перейти от соотношения (4.156) к форме (4.152)? Эта задача может быть решена путем введения в систему (4.156) вектора дополнительных сигналов V ( t ) . При этом система (4.156) преобразуется к виду & (4.157) E€ = A*E€ + Δ z + V , e€1 = LT E€, € где E — вектор «расширенной» ошибки, полученный путем введения в правую часть дифференциального уравнения (4.156) аддитивного сигнала V ( t ) . Существо-
вание, возможные формы выбора вектора дополнительного сигнала V ( t ) и соответствующие представления вектора регрессии W ( t ) , при которых уравнения (4.157) и (4.152) оказываются эквивалентными с точки зрения соотношения «вход z –выход e1 », содержатся в утверждении 4.1. Утверждение 4.1. Пусть z ( t ) — произвольная ограниченная функция времени,
(
)
пара LT , A* — полностью наблюдаема. Тогда существуют вектор-функции
(
)
W ( t ) = T ( p ) z ( t ) , V ( t ) = V Δ& , W ,
где T ( s ) — вектор устойчивых передаточных функций, что системы (4.152), (4.157) эквивалентны с точки зрения соотношения «вход z –выход e1 ( e€1 )». З ам еч а ния : 1. Доказательство утверждения основано на представлении ошибки ε ( t ) = e€1 ( t ) − e ( t ) между выходами систем (4.152) и (4.157) в виде −1 ε ( t ) = LT ( p I − A* ) Δ z + V − B*ΔT W .
{
}
Вектор-функции V ( t ) и W (t ) выбираются из условия ε ( t ) = 0, которое с учетом гурвицевости матрицы A* можно записать в форме
{
}
D ( p ) Δz + V − B*ΔT W = 0,
448
Методы современной теории автоматического управления −1
где D ( p ) = LT ( pI − A* ) det ( pI − A* ) — вектор-строка многочленов оператора дифференцирования p. Очевидно, что компоненты вектора D ( p ) зависят от формы пред-
{
}
ставления матриц LT , A* , поэтому выбор вектор-функций V ( t ) , W ( t ) и вектора B∗ неоднозначен. Более того, для синтеза V ( t ) , W ( t ) можно использовать уравнение
{
}
W ( p ) D ( p ) Δz + V − B*ΔT W = 0,
где W ( p ) — передаточная функция, которая, согласно теореме 4.8, должна удов−1
летворять условию: W ( p ) LT ( pI − A* ) B* — строго положительно-вещественная функция. За счет выбора специальных форм представления матриц LT , A* удается упро-
{
}
стить выражения для векторов V и W. 2. Эквивалентность систем (4.152), (4.157) не означает ε ( t ) ≡ 0, так как помимо вынужденных движений, вызванных входным воздействием z ( t ) , присутствуют собственные движения, вызванные ненулевыми начальными условиями. Тождество ε ( t ) ≡ 0 достигается, если начальные условия согласованы, т.е. E ( t ) = E€ ( t ) , X ( t ) = 0, 0
0
T
0
где XT ( t0 ) — начальные условия фильтров состояния, заданных вектором передаточных функций T ( p ) . 4.5.4.3. СХЕМЫ ПОСТРОЕНИЯ АДАПТИВНЫХ НАБЛЮДАТЕЛЕЙ СОСТОЯНИЯ Задача синтеза адаптивного наблюдателя для объекта управления (4.149) состоит в оценивании вектора состояния объекта управления и идентификации его параметров тройки LT , A, B при измерении только входного u ( t ) и выходного xв ( t )
(
{
})
{
} наблюдаема, а выбор форм представления матриц {L , A } обеспечивает разнообра-
сигналов. При этом, согласно теореме 4.8, тройка LT , A, B полностью управляема и T
*
зие схем адаптивных наблюдателей. Синтез адаптивного наблюдателя производится в три этапа: 1) выбор канонической формы представления модели объекта и наблюдателя; 2) приведение модели ошибки к форме (4.152) или (4.157); 3) выбор алгоритма адаптации и сигналов обратной связи V ( t ) , гарантирующих устойчивость адаптивного наблюдателя. В табл. 4.3 приведены три схемы адаптивных наблюдателей состояния. Схемы отличаются формой представления объекта управления и соответственно уравнениями наблюдателя, фильтрами, формирующими векторы регрессии, и условиями сходимости. В схеме 1 при синтезе адаптивного наблюдателя используется наблюдаемая каноническая форма представления модели объекта, а векторы регрессии и дополнительных сигналов формируются с помощью устойчивых фильтров состояния n − 1 порядка. Это обеспечивает приведение модели ошибки к форме (4.152) со строго положительновещественной передаточной функцией W* ( s ) n-го порядка. Основной недостаток схемы — высокий порядок передаточных функций фильтров Ti ( p ) . Поэтому для формирования вектора регрессии W ( t ) можно использовать «фильтры состояния» вида
Глава 4. Адаптивные системы
449
% % & = ΛW % & = ΛW % W W 1 1 + Lu , W1 ( 0 ) = 0; 2 2 + Lx, W2 ( 0 ) = 0, n T % — сопровождающая матрица многочлена где W1 , W2 ∈ R ; L% = ( 0 K 0 1) ; Λ
p n −1 + b2* p n − 2 + K + bn* :
⎛ 0 ⎞ ⎜ ⎟ M I ⎟. % =⎜ Λ ⎜ 0 ⎟ ⎜ * ⎟ ⎜ −b L −b* ⎟ 2⎠ ⎝ n Для упрощения схемы наблюдателя и передаточных функций фильтров в схеме 2 используется специальная каноническая форма представления модели объекта. Это обеспечивает возможность использования фильтров состояния 1-го порядка, упрощает процедуру формирования векторов дополнительных сигналов (передаточная функция W* ( s ) — 1-го порядка). Следует обратить внимание на требование к выбору
параметров λi . Первое условие (λi > 0 ) обеспечивает устойчивость фильтров состояния и строгую положительно-вещественность W* ( s ) . Второе условие (λi ≠ λ j при ∀ i ≠ j ) обеспечивает необходимое разнообразие сигналов на выходах фильтров, а матрица A* является гурвицевой с различными вещественными собственными числами. Таблица 4.3 Схемы адаптивных наблюдателей состояния № схемы 1
Форма представления объекта управления. Наблюдатель состояния 2 & = AX + Bu , X ( 0 ) = X , X 0
xв = x1 = LT X;
Алгоритм адаптации. Условия сходимости и результат
3
4 &€ & A = Γ1e1W1; B€ = − Γ 2e1W2 ;
w1i = Тi ( p ) x1, w2i = Тi ( p ) u, i = 1,n; p n−i Тi ( p ) = n−1 * n−2 ; p + b2 p + K + bn*
X ∈ R , u ∈ R , L = (1 0 K 0) , 1
n
Векторы регрессии и дополнительных сигналов
T
I⎞ ⎛ А = ⎜ −A ⎟. 0⎠ ⎝
W1 = ( w11 L w1n ) ; T
Γi = ΓiT > 0; e1 = x1 − x€1. Условия сходимости и результат:
{L , A, B} — управляема и наT
W2 = ( w21 L w2n ) ; T
1
Наблюдатель состояния:
(
)
( = (0
€ &T €& = A X € € X * + A* − A x1 + Bu + V1 + V2 , V1 = 0 Δ1 R 2 W1 € ( 0) = X € ; X 0
V2
€, x€в = x€1 = L X I⎞ ⎛ A * = ⎜ − A* ⎟, 0⎠ ⎝ T
(
A* = − a1* K − an*
Δ& T2 R 2 W2
блюдаема, A* — гурвицева, € € L Δ& 1T R n W1 ; E = X − X → 0, Δ1 = A − A → 0, Δ = B€ − B → 0 при t → ∞; T
) ); T
L
Δ& T2 R n W2
&€ & & Δ& 1 = − A , Δ 2 = B€, где R i —
)
T
матрицы*, составленные из коэффициентов bi*
⎛ 0 −bm* −bm* +1 L L L 0 L L 0 ⎞ −bn* ⎜ ⎟ * * * ⎜0 0 0 ⎟ −bm L L L −bn −1 −bn 0 L ⎜ ⎟ M M M O M M M M O M ⎟ ⎜M ⎜0 0 * * ⎟ 0 0 −bm L L L L L −bn ⎟ ⎜ * Rm = * * ⎜0 1 b2 0 0 L 0 ⎟ L L L bm −1 ⎜ ⎟ * * * ⎜0 0 1 b2 L L bm − 2 bm −1 0 L 0 ⎟ ⎜ ⎟ M M O M L M M M O M ⎟ ⎜M ⎜ ⎟ 0 L 0 1 −b2* −b3* L L −bm* −1 ⎠ ⎝0 0 14444442444444 3 1444 424444 3 n − m +1
m−2
2
−1
W* ( s ) = LT ( sI − A* ) B* = =
s n −1 + b2*s n − 2 + K + bn* −− СПФ, s n + a1*s n −1 + K + an*
(
где B* = 1 b2* K bn*
⎫ ⎪ ⎪ ⎬m −1 ⎪ ⎪⎭ ⎫ ⎪ ⎪ ⎬n − m +1 ⎪ ⎪⎭
)
450
Методы современной теории автоматического управления Продолжение табл. 4.3
1
2 & = AX + Bu , X ( 0 ) = X , X 0
3
4
xв = x1 = LT X;
&€ & A = Γ1e1W1; B€ = − Γ 2e1W2 ;
X ∈ Rn, u ∈ R1,
w1i = Т i ( p ) x1 , w2i = Т i ( p ) u,
LT = (1 0 K 0) ,
Тi ( p ) =
⎛ LT ⎞ А = ⎜⎜ − A ⎟, Λ ⎟⎠ ⎝
L (( n−1)×1) = (1 1 L 1) , T
2
Λ = diag {−λ 2 , − λ 3 , K, − λ n }. Наблюдатель состояния: &€ € x +B €+ A −A €u + V + V , X = A*X * 1 1 2 € € X ( 0) = X0 ;
(
)
€, x€в = x€1 = L X T
1 , i = 2, n; p + λi
Условия сходимости и результат:
{L , A, B} — управляема и наT
W1 = ( x w12 L w1n ) ; T
блюдаема, λ i > 0 — задаваемые
W2 = ( u w22 L w2 n ) ; T
( V2 = ( 0
) T δ& 2 n w2 n ) ; T
V1 = 0 δ&12 w12 L δ&1n w1n ; δ& 22 w22 L
δ& ij — j-я компонента Δ& i ,
Γi = ΓiT > 0; e1 = x1 − x€1.
константы, λ i ≠ λ j ∀ i, j ∈ {1, 2,K, n} ; € → 0, € − X → 0, Δ = A − A E=X 1 Δ = B€ − B → 0 при t → ∞; 2
−1
W* ( s ) = LT ( sI − A* ) B* =
€& , Δ& = B€& Δ& 1 = − A 2
⎛ LT ⎞ A* = ⎜⎜ − A* ⎟, Λ ⎟⎠ ⎝
=
1 −− СПФ, s + λ1
где B* = L
A* = ( λ1 0 L 0 )
T
Δ& 1 = −Γ1e1W1; Δ& 2 = Γ 2e1W2 ; Γi = ΓiT > 0;
(
)
T ⎛ €& €& ⎞ & & T Δ& 1 = a€%n a€% T ; Δ& 2 = ⎜ b%n b% T ⎟ . ⎝ ⎠
x&1 ( t ) = a%n x1 ( t ) + a% T X1 ( t ) +
Условия сходимости и результат:
+b% T X 2 ( t ) + b%nu ( t ) ;
{L , A, B} — управляема и на-
& t = ΛX t + Lx t ; X 1( ) 1( ) 1( ) & X t = ΛX t + Lu t ;
блюдаема, где LT = (1 0 L 0) ,
2
()
2
()
T
()
Λ = diag {−λ 2 , − λ 3 ,K, −λ n } , L (( n −1)×1) = (1 1 L 1) , T
x1 ( 0 ) = x10 , X1 ( 0 ) = 0, X 2 ( 0 ) = X 20 .
3
Наблюдатель состояния: € + b%€T X € + x&€ = a%€ x€ + a%€T X 1
n 1
1
2
€ +b%nu − λ1 ( x€1 − x1 ) ; &€ € X 1 = ΛX1 + Lx1 ; &€ € X 2 = ΛX 2 + Lu; € € 0 =0 x€1 ( 0 ) = 0, X1 ( 0 ) = X 2( )
( W = (e
W1 = x1 2
1
) € ; X ) T
€T ; X 1 T 2
(
)
(
)
AT = −a%n − a% T , BT = b%n b% T ;
T
λi > 0 — задаваемые констанT ⎞T
⎛ Δ1T = ⎜ a%€n − a%n ⎝
(a€% − a% )
⎛€ ΔT2 = ⎜ b%n − b%n ⎝
( ) ⎟⎠ € b% − b%
⎛ LT ⎞ А = ⎜⎜ − A ⎟, Λ ⎟⎠ ⎝
⎟ ; ⎠
T ⎞T
ты, λi ≠ λ j ∀ i, j ∈ {1, 2,K, n} ;
x€1 ( t ) − x1 ( t ) → 0, € t − X t → 0, X 2( ) 2( ) € t ≡ X t , Δ → 0, X 1( ) 1( ) 1 Δ 2 → 0 при t → ∞; −1
W* ( s ) = LT ( sI − A* ) B* = 1 = −− СПФ, s + λ1 где B* = L, ⎛ LT ⎞ A* = ⎜⎜ − A* ⎟, Λ ⎟⎠ ⎝ A* = ( λ1 0 L 0 )
T
Глава 4. Адаптивные системы
451
Схема 3 представляет собой модификацию схемы 2 и является неминимальной реализацией исходной n-мерной системы, в которую введены две системы «фильтров состояния» ( Xi ) порядков n − 1. Такое представление модели объекта позволяет упростить реализацию наблюдателя состояния. При этом накладываются дополнительные ограничения на выбор начальных условий наблюдателя и фильтров со€ . стояния X
( ) i
З ам еч а ния : 1. При использовании схем адаптивных наблюдателей нет необходимости приводить исходное описание системы к той или иной форме представления объекта, так как в уравнения наблюдателей и в алгоритм адаптации входят лишь вход u ( t ) и выход x1 ( t ) объекта управления. Необходимо лишь знать, что указанное представление возможно. Более того, если исходная модель объекта представлена в виде передаточной функции, то отпадает необходимость проверки условий управляемости и наблюдаемости. Тем не менее, алгоритм перехода от исходного описания системы к требуемой форме представления необходим для интерпретации идентифицируемых параметров и оценок состояния в терминах исходной системы (параметров, вектора состояния). Переход к канонической наблюдаемой форме (схема 1) хорошо известен. Для определения векторов A и B, используемых в специальной канонической форме (схема 2), можно, задавшись значениями матрицы Λ, перейти от модели в пространстве состояния к передаточной функции, что позволит связать элементы искомых векторов с коэффициентами многочленов передаточной функции. Переход от передаточной функции (специальной канонической формы) к неминимальной реализации системы рассмотрен ниже.
(
)
2. Вместо пары матриц LT , Λ в уравнении наблюдателя можно использовать лю-
(
)
бую полностью наблюдаемую пару R T , P [81]. 3. Алгоритмы адаптации обладают идентифицирующими свойствами при достаточно богатом входном сигнале u. 4. Полюса W* ( s ) определяют скорость сходимости к нулю ошибки выхода e1 ( t ) , а собственные числа матрицы Λ — динамику оценивания вектора состояния. Алгоритм перехода к неминимальной реализации системы. Пусть объект описывается передаточной функцией или в специальной канонической форме β(s) −1 W ( s ) = LT ( sI − A ) B = , α (s) где ⎛ LT ⎞ A = ⎜⎜ − A ⎟ , Λ = diag {−λ 2 ,K , − λ n } ; Λ ⎟⎠ ⎝ β ( s ) , α ( s ) — многочлены степени m и n соответственно ( m < n ).
Сформируем многочлен n
γ ( s ) = ∏ ( s + λi ) i =2
и разделим на него числитель и знаменатель передаточной функции. Получаем
452
Методы современной теории автоматического управления n
β(s) γ (s)
W (s) =
α (s) γ (s)
=
b%
∑ s +i −λ1 i=2 n
i
+ b%n
a% s − ∑ i −1 − a%n i =2 s + λi
,
где a%i , b%i , i = 1, n связаны с параметрами объекта соотношениями A T = ( −a%n
(
B = b%n T
− a%1
− a%2 L − a%n −1 ) ;
)
b%1 b%2 L b%n −1 .
При этом справедливо равенство n ⎛ n b% ⎞ ⎛ ⎞ a%i −1 − a%n ⎟ ⋅ x1 ( s ) = ⎜ ∑ i −1 + b%n ⎟ ⋅ u ( s ) , ⎜s−∑ ⎝ i =2 s + λi ⎠ ⎝ i = 2 s + λi ⎠ или специальная каноническая форма: s ⋅ x1 ( s ) = a%n ⋅ x1 ( s ) + a% T X1 ( s ) + b% T X 2 ( s ) + b%n ⋅ u ( s ) ; s ⋅ X1 ( s ) = Λ ⋅ X1 ( s ) + L ⋅ x1 ( s ) ; s ⋅ X2 ( s ) = Λ ⋅ X2 ( s ) + L ⋅ u ( s ) ,
(
)
где a% T = ( a%1 ,K, a%n−1 ) , b% T = b%1 ,K, b%n−1 , LT = (1, 1,K, 1) ; X1 ( s ) , X 2 ( s ) — вектор-функции размерности ( n − 1) × 1 комплексной переменной s, элементы которых задаются соотношениями 1 1 x1 ( s ) , x2i ( s ) = u ( s ) , i = 1, n − 1. s + λ i +1 s + λ i +1 Для того чтобы исходная система и полученная форма представления были эквивалентны, необходимо согласовать начальные условия % , x ( 0 ) = x , X ( 0 ) = 0, X ( 0 ) = X x1i ( s ) =
где X
T
( 0 ) = ( x10
1
% X
T
( 0))
10
1
2
0
— вектор начальных условий исходной системы.
Пример 4.8. Пусть задан управляемый и наблюдаемый объект 2-го порядка с неизвестными параметрами. Построим наблюдатель состояния по схеме 2: ⎛ b€1 ⎞ 1 ⎞ € ⎛ λ1 − a€1 ⎞ &€ ⎛ λ1 X =⎜ ⎟ X + ⎜ € ⎟ x1 + ⎜⎜ € ⎟⎟ u + V1 + V2 , ⎝ 0 −λ 2 ⎠ ⎝ − a2 ⎠ ⎝ b2 ⎠ € € ( 0 ) = ⎛⎜ x10 ⎞⎟ , x€в = x€1 , X ⎝ x€20 ⎠ где λ i > 0 — выбираемые константы. Элементы векторов регрессии запишем в форме 0 w11 = x1 , w&12 = − λ 2 w12 + x1 , w12 ( 0 ) = w12 , 0 w21 = u , w& 22 = − λ 2 w212 + x1 , w22 ( 0 ) = w22 .
В соответствии со схемой алгоритм адаптации имеет вид & a&€1 = γ1e1w11 , b€1 = γ1e1w21 , & a&€2 = γ 2e1w12 , b€2 = γ2e1w22 , γ i > 0, а вектор-функции дополнительных сигналов
γi > 0,
(
)
T T & V1 = 0 − a&€2 w12 , V2 = 0 −b€2 w22 .
(
)
Глава 4. Адаптивные системы
453
Условия применимости схемы выполнены, оценивается вектор состояния, а при достаточном спектральном богатстве входа (спектр u ( t ) содержит не менее двух гармоник) и параметры объекта в терминах специальной канонической формы 1 ⎞ ⎛ x10 ⎞ ⎛ b1 ⎞ & = ⎛⎜ − a1 X ⎟ X + ⎜ ⎟ u, xв = x1 , X ( 0 ) = ⎜ ⎟. − − a λ b ⎝ 2 ⎝ 2⎠ 2⎠ ⎝ x20 ⎠ Пример 4.9. Рассмотрим объект управления из примера 4.8. Проведем синтез наблюдателя по схеме 3. В соответствии с этой формой представления зададим наблюдатель состояния в виде € € x&€1 = a%€2 x€1 + a%€1 x€1 + b%1 x€2 + b%2 u − λ 1 ( x€1 − x1 ) , x€1 ( 0 ) = x€10 , & x€1 = λ 2 x€1 + x1 , x€1 ( 0 ) = x€2 ( 0 ) = 0, & x€2 = λ 2 x€2 + u , где λ i > 0. Алгоритм адаптации описывается уравнениями & €& € € a€%2 = − γ1e1 x1 , a€%2 ( 0 ) = a€%20 , b%2 = γ1e1u , b%2 ( 0 ) = b%20 , & €& € € a€%1 = − γ 2 e1 x€1 , a€%1 ( 0 ) = a€%10 , b%1 = γ2e1 x€2 , b%1 ( 0 ) = b%10 ,
γi > 0, γi > 0. Интерпретация результатов работы адаптивного наблюдателя проводится в форме модели неминимальной реализации x&1 = a% 2 x1 + a%1 x1 + b%1 x2 + b%2u , x1 ( 0 ) = x10 , x&1 = λ 2 x1 + x1 , x1 ( 0 ) = 0, x2 ( 0 ) = x20 , x& 2 = λ 2 x2 + u, где a% = a , a% = a , b% = b , b% = b . 2
1
1
2
2
1
1
2
Описанные выше схемы построения адаптивных наблюдателей позволяют на основе идентифицируемых параметров и оценок состояния решать задачи адаптивного управления. 4.5.4.4. ПРЯМОЕ АДАПТИВНОЕ УПРАВЛЕНИЕ С ЯВНОЙ ЭТАЛОННОЙ МОДЕЛЬЮ В отличие от рассмотренного выше идентификационного (непрямого) подхода к задаче синтеза алгоритмов адаптивного управления для объектов с одним входом и выходом, который основывался на построении адаптивного наблюдателя состояния, обеспечивающего идентификацию параметров объекта и возможность построения алгоритма управления по оценкам состояния, при прямом подходе решаются следующие задачи [141, 147]: 1) синтез регулятора, не использующего производных входного и выходного сигналов и обеспечивающего при известных параметрах объекта управления заданное размещение нулей и полюсов замкнутой системы, а при неизвестных параметрах — модель ошибки слежения, линейную по вектору параметрических рассогласований; 2) модификация модели ошибки, позволяющая использовать алгоритмы адаптации без измерения производных ошибки слежения и независящих от неизвестных параметров объекта. При синтезе адаптивной системы управления по-прежнему важным остается вопрос об устойчивости замкнутой системы. В основу изложения методов решения поставленных задач синтеза положим обзор [141, 147]. Постановка задачи. Рассмотрим класс линейных стационарных объектов со скалярным входом и выходом. Сформулируем исходную постановку задачи синтеза адаптивной системы (п. 4.5.4.1) в терминах передаточных функций. Пусть объект управления описывается в форме передаточных функций β( p) p m + βm −1 p m −1 + K + β0 x (t ) = W ( p ) u (t ) = k u (t ) = k n u (t ) , (4.158) α ( p) p + α n −1 p n −1 + K + α 0
454
Методы современной теории автоматического управления
где βi , i = 0, m − 1, α j , j = 0, n − 1, k — неизвестные параметры; p = d dt — оператор дифференцирования. Желаемое поведение объекта по выходу задается эталонной моделью β ( p) p m + βмm −1 p m −1 + K + β0м xм ( t ) = kмWм ( p ) y ( t ) = kм м y ( t ) = kм n y (t ) , αм ( p ) p + α мn −1 p n −1 + K + α м0
(4.159)
где Wм ( p ) — устойчивая передаточная функция; y ( t ) — задающее воздействие. Предполагаются выполненными условия: 1) объект минимально-фазовый (многочлен β( s ) — устойчивый); 2) известны степени многочленов deg β ( p ) = m, deg α ( p ) = n и, следовательно, известна относительная степень μ = n − m; 3) известен знак коэффициента k . Требуется синтезировать закон управления u ( t ) , содержащий только измеряемые сигналы x ( t ) , xм ( t ) , y ( t ) , но не их производные, обеспечивающий ограниченность всех траекторий замкнутой системы и выполнение дополнительной цели управления (4.160) lim e1 ( t ) → 0, t →∞
где e1 ( t ) = x ( t ) − xм ( t ) — ошибка слежения. Подобно ранее рассмотренным методам синтеза адаптивных наблюдателей, в основе решения поставленной задачи лежит теорема, требующая строгой положительной вещественности передаточной функции по ошибке слежения e1 ( t ) . В связи с этим необходимо решить следующие задачи. Построить модель ошибки слежения и синтезировать алгоритм основного контура управления таким образом, чтобы, с одной стороны, модель ошибки с учетом алгоритма основного контура была строго положительно-вещественной функцией, с другой стороны, алгоритм управления содержал только измеряемые сигналы x ( t ) , xм ( t ) , y ( t ) , но не их производные. Наконец, требуется выбрать алгоритм адаптации в форме (4.153), при этом важно доказать ограниченность вектора регрессии W ( t ) . Заметим, что теорема легко формулируется в терминах передаточной функции, поэтому нет необходимости перехода от моделей (4.158), (4.159) к форме пространства состояний. Модель ошибки слежения. При построении адаптивных наблюдателей использовалась каноническая модель, являющаяся неминимальной формой представления исходного объекта. Этот же прием распространяется на рассматриваемую задачу построения модели ошибки. Каноническая форма наиболее общего вида была получена Фейером и Морзе [262]. Ее структура определяется следующим утверждением. Утверждение 4.2. Для любых трех гурвицевых полиномов a ( p ) , b ( p ) и γ ( p ) с единичными коэффициентами при старших степенях и удовлетворяющих условиям: 1) a ( p ) , b ( p ) относительно неприводимы (не имеют одинаковых корней) и deg a ( p ) − deg b ( p ) = μ = n − m;
2) b ( p ) является делителем полинома γ ( p ) ;
3) deg γ ( p ) = l ≥ n − 1, существуют такие полиномы δ ( p ) = δl −1 pl −1 + δl − 2 p l − 2 + K + δ0 , ϕ ( p ) = ϕl p l + ϕl −1 p l −1 + K + ϕ0
Глава 4. Адаптивные системы
455
степени l − 1 и l соответственно, что объект управления с передаточной функцией (4.158) может быть описан уравнением вида ⎤ b( p) ⎡ δ( p) ϕ( p) x (t ) = k u (t ) − x ( t )⎥ + σ ( t ) , (4.161) ⎢u ( t ) − a ( p ) ⎢⎣ γ ( p) γ ( p) ⎥⎦ где σ ( t ) — экспоненциально затухающая функция, порожденная ненулевыми начальными условиями (в дальнейших выкладках ею пренебрегают). З ам еч а ния : 1. Коэффициенты полиномов δ ( p ) и ϕ ( p ) зависят от параметров объекта и поэтому в рамках адаптивной постановки задачи считаются неизвестными. 2. При решении задачи синтеза нет необходимости приведения описания объекта к канонической форме (4.161). Важен лишь факт, что такое приведение возможно. 3. В дальнейшем полагаем l = n − 1, что гарантирует минимальное число настраиваемых параметров. Вычитая из канонической формы описания объекта модель эталонного процесса (4.159), получаем модель ошибки ⎤ δ( p) ϕ( p) b( p) ⎡ 1 a ( p) e1 ( t ) = x ( t ) − xм ( t ) = k u (t ) − x (t ) − Wм ( p ) y ( t ) ⎥ . ⎢u ( t ) − γ ( p) γ ( p) a ( p ) ⎣⎢ k b( p) ⎦⎥ Введя обозначения для вектора регрессии ⎛ 1 p p n−2 1 p W ( t ) = ⎜⎜ u (t ) ; u ( t ) ;K ; u (t ) ; x (t ) ; x (t ) ; x ( t ) ;K γ ( p) γ ( p) γ ( p) γ ( p) ⎝ γ ( p) (4.162) T ⎞ p n−2 K x ( t ) ; G ( p ) y ( t ) ⎟⎟ γ ( p) ⎠ и вектора неизвестных постоянных коэффициентов T
1⎞ ⎛ Θ∗ = ⎜ δ0 ; δ1 ,K , δn − 2 ; ϕn −1 ; ( ϕ0 − ϕn −1γ 0 ) ; ( ϕ1 − ϕn −1γ1 ) ;K ; ( ϕn − 2 − ϕn −1γ n − 2 ) ; ⎟ , (4.163) k⎠ ⎝ получаем модель ошибки в виде e1 ( t ) = k ⋅ W* ( p ) ⎡⎣u ( t ) − W T ( t ) Θ* ⎤⎦ , (4.164) b( p) a ( p) где W* ( p ) = ; G ( p) = ⋅ Wм ( p ) . a ( p) b( p) З ам еч а ния : 1. Для формирования вектора регрессии W ( t ) можно использовать «фильтры состояния» вида & = ΛV + Lu, V ( 0 ) = 0, V 1 1 1 & V = ΛV + Lx, V ( 0 ) = 0, 2
где V1 , V2 ∈ R
n −1
2
2
; L = ( 0 K 0 1) ; Λ — сопровождающая матрица многоT
члена γ ( p ) . При этом вектор регрессии имеет вид
(
)
T
W ( t ) = V1T ( t ) ; x ( t ) ; V2T ( t ) ; G ( p ) y ( t ) .
2. Если выбраны многочлены a ( p ) , b ( p ) , γ ( p ) , то модель ошибки определена с точностью до неизвестного вектора Θ* . Наиболее часто полиномы a ( p ) , b ( p )
456
Методы современной теории автоматического управления
выбираются в виде a ( p ) = αм ( p ) , b ( p ) = βм ( p ) , и, следовательно, W* ( p ) = Wм ( p ) и G ( p ) = kм . 3. Независимо от выбора многочленов a ( p ) , b ( p ) , γ ( p ) модель ошибки слежения (4.164) обладает следующими важными свойствами: 1) относительная степень динамической модели ошибки слежения равна относительной степени модели объекта; 2) коэффициент усиления модели ошибки пропорционален коэффициенту k объекта управления и потому неизвестен. Выбор алгоритма основного контура управления. Выше подчеркивалось, что выбор модели ошибки и алгоритма управления неразрывно связан с выполнением условий теоремы 4.8, которая определяет класс моделей со строго положительновещественной передаточной функцией, устойчивая адаптивная настройка которых возможна без измерения производных ошибки слежения. Рассмотрим частный класс объектов управления, у которых относительная степень полиномов передаточной функции μ = 1 (т.е. m = n − 1). В этом случае W* ( p ) = b ( p ) a ( p ) — строго положительно-вещественная функция. При этом, вы-
бирая закон управления в форме u (t ) = WT (t ) Θ (t ) ,
(4.165)
где Θ ( t ) — вектор настраиваемых параметров, приходим к модели ошибки слежения e1 ( t ) = k ⋅ W* ( p ) ⎡⎣Θ ( t ) − Θ* ⎤⎦ ,
(4.166)
которая удовлетворяет основным условиям теоремы 4.8, и алгоритм адаптации выбирается в форме & = − ΓW T ( t ) e ( t ) , Θ ( 0 ) = Θ , Γ = Γ T > 0. Θ (4.167) 1 0 В общем случае (при μ ≥ 2 ) W * ( p ) не является строго положительно-вещественной функцией, следовательно, условия теоремы 4.8 не выполняются и алгоритм (4.167) не применим. Для того чтобы избежать использования производных сигнала e1 ( t ) , необходимо опять получить строго положительно-вещественную передаточную функцию, связанную с некоторым измеримым модифицированным сигналом e€1 ( t ) . Этого удается добиться, если модифицировать закон управления (4.166). Впервые такая модификация была предложена Р. Монополи в работе [290] и получила название «Adaptive control with an augmented error signal». В русскоязычной литературе такая схема называется адаптивным управлением с расширенной ошибкой [147]. Схемы расширения сигнала ошибки. Рассмотрим общий случай схемы расширения сигналов ошибки, когда коэффициент усиления k объекта управления (4.158) неизвестен. В этом случае расширенная ошибка с учетом модели ошибки слежения (4.166) имеет вид e€1 ( t ) = e ( t ) + η ( t ) = kW* ( p ) ( Θ ( t ) − Θ* ) W ( t ) + η ( t ) , T
(4.168)
где η ( t ) — дополнительный сигнал. Пусть H ( p ) — такая устойчивая передаточная функция, что W* ( p ) H ( p ) — строго положительно-вещественная передаточная функция. Тогда, учитывая, что Θ* — вектор с постоянными коэффициентами, и выбирая дополнительный сигнал η ( t ) в виде
Глава 4. Адаптивные системы
457
η ( t ) = W* ( p ) H ( p ) z ( t ) k€( t ) ,
(4.169)
где k€( t ) — настраиваемый параметр (оценка неизвестного коэффициента k ), имеем
(
)
e€1 ( t ) = W* ( p ) H ( p ) ⎡ H −1 ( p ) kΘT ( t ) W (t ) − kΘ*T H −1 ( p ) W ( t ) + kz ( t ) + k€( t ) − k z ( t ) ⎤ . ⎣ ⎦ Для получения модели ошибки, линейной по вектору параметрических рассогласований, выберем сигнал z ( t ) в виде z ( t ) = ΘT ( t ) H −1 ( p ) W ( t ) − H −1 ( p ) ΘT ( t ) W ( t ) .
Имеем
(
(4.170)
)
T e€1 ( t ) = W* ( p ) H ( p ) ⎡( Θ ( t ) − Θ* ) kH −1 ( p ) W ( t ) + k€( t ) − k z ( t ) ⎤ , ⎣⎢ ⎦⎥
или
% (t ) , e€1 ( t ) = W* ( p ) H ( p ) Δ% T ( t ) Ψ
где
(
(
))
(
(4.171)
)
% T ( t ) = kΨ T ( t ) ; z ( t ) ; Ψ ( t ) = H −1 ( p ) W ( t ) . Δ% T ( t ) = ΔT ( t ) ; k€( t ) − k ; Ψ
Заметим, что если по условию задачи коэффициент k известен, то, заменяя в генераторе дополнительного сигнала (4.169) настраиваемый параметр k€( t ) на известный коэффициент k , вновь приходим к уравнению расширенной ошибки вида (4.171). % T ( t ) = kΨ T ( t ) . При этом изменяются вектора Δ% T ( t ) = ΔT ( t ) и Ψ
(
)
(
)
Таким образом, генератор дополнительного сигнала вида (4.169), (4.170) обеспечивает представление расширенной ошибки слежения в форме (4.171) с СПФ W* ( p ) H ( p ) и, следовательно, возможность использования теоремы 4.8 для синтеза алгоритма адаптации и проверки условий сходимости. В дальнейшем ограничимся рассмотрением случая, когда коэффициент k неизвестен, и конкретизируем выбор устойчивой передаточной функции H ( p ) . Схема расширения Нарендры и Валавани. В этом случае H ( p ) = l ( p ) , где l ( p ) — такой полином степени μ − 1, что W%* ( p ) = W* ( p ) l ( p ) — строгая положительновещественная функция. При этом уравнение расширенной ошибки (4.171) и генератор дополнительного сигнала (4.169), (4.170) приобретают вид % (t ) ; e€ = W% ( p ) Δ% T ( t ) Ψ 1
*
η ( t ) = W%* ( p ) k€( t ) z ( t ) ;
(4.171′)
⎡ ⎤ 1 1 1 z ( t ) = ⎢Θ T ( t ) − ΘT ( t )⎥ W ( t ) = ΘT ( t ) Ψ ( t ) − ΘT ( t ) W ( t ) , l p l p l p ( ) ( ) ( ) ⎣⎢ ⎦⎥
где
(
(
))
(
)
1 % T ( t ) = kΨT ( t ) ; z ( t ) . W ( t ) , u = ΘT ( t ) W ( t ) , Δ% T ( t ) = ΔT ( t ) ; k€( t ) − k , Ψ l ( p) Схема расширения Фойера и Морза. В этом случае H ( p ) = W% ( p ) W ( p ) , где
Ψ (t ) =
*
*
W%* ( p ) — такая строго положительно-вещественная передаточная функция, что T ( p ) = H −1 ( p ) = W* ( p ) W%* ( p ) — устойчивая передаточная функция. При этом уравнение ошибки и генератора дополнительного сигнала имеют вид
458
Методы современной теории автоматического управления % (t ) ; e€1 = W%* ( p ) Δ% T ( t ) Ψ η ( t ) = W%* ( p ) k€( t ) z ( t ) ; z ( t ) = ⎡⎣Θ
T
(4.172)
( t ) T ( p ) − T ( p ) Θ ( t )⎤⎦ W ( t ) = Θ ( t ) Ψ ( t ) − T ( p ) Θ ( t ) W ( t ) , T
T
T
где % T ( t ) = kΨT ( t ) ; z ( t ) . Ψ ( t ) = T ( p ) W ( t ) , u = ΘT ( t ) W ( t ) , Δ% T ( t ) = ΔT ( t ) ; k€( t ) − k , Ψ
(
(
))
(
)
Схема расширения Нарендры и Лина. В этом случае H ( p ) = W*−1 ( p ) и, следовательно, % (t ) , e€ ( t ) = Δ% T ( t ) Ψ 1
η ( t ) = k€( t ) z ( t ) ;
(4.173)
z ( t ) = ⎡⎣ΘT ( t ) W* ( p ) − W* ( p ) Θ T ( t ) ⎤⎦ W ( t ) = Θ T ( t ) Ψ ( t ) − W* ( p ) ΘT ( t ) W ( t ) ,
где % T ( t ) = kΨT ( t ) ; z ( t ) . Ψ ( t ) = W* ( p ) W ( t ) , u = ΘT ( t ) W ( t ) , Δ% T ( t ) = ΔT ( t ) ; k€( t ) − k , Ψ
(
(
))
(
)
Важно отметить, что в этом случае модель ошибки носит не динамический, а статический характер, что может рассматриваться как предельный случай модели со строго положительно-вещественной передаточной функцией. Алгоритмы адаптации. Во всех рассмотренных схемах расширения основной контур управления имел вид линейной обратной связи (4.165), где вектор регрессии W ( t ) представляет собой совокупность выхода объекта, задающего воздействия и выходов «фильтров состояния». Настройке подлежит вектор Θ ( t ) и скаляр k€( t ) . Синтез алгоритмов адаптации должен осуществляться из условий устойчивости замкнутой системы. Условия теоремы 4.8 будут выполнены, если Ψ ( t ) — ограниченная & вектор-функция. В этом случае e€1 ( t ) → 0, Δ% → 0, следовательно, z ( t ) → 0, η ( t ) → 0 и e ( t ) → 0. Таким образом, все траектории замкнутой системы ограничены и достигается цель управления (4.160). Однако доказательство ограниченности Ψ ( t ) является нетривиальной задачей, которая на протяжении ряда лет не находила удовлетворительного решения. Не вдаваясь в детали доказательства устойчивости адаптивных схем с расширенной ошибкой слежения (с ними можно познакомиться по работам [290, 291] или обратиться к обзору [147]), остановимся лишь на констатации следующих фактов: 1) при использовании динамической расширенной ошибки (4.171) или (4.172) асимптотическая устойчивость по ошибке слежения e1 ( t ) установлена для традиционных алгоритмов адаптации & = − ΓΨ ( t ) e€ ( t ) , Γ = Γ T > 0, Θ 1 (4.174) & € k = −γz ( t ) e€ ( t ) , γ > 0 1
и модифицированного дополнительного сигнала (4.175) η ( t ) = WA ( p ) H ( p ) ⎡ k€( t ) z ( t ) − e€1 ( t ) Ψ T ( t ) Ψ ( t ) ⎤ , ⎣ ⎦ T где дополнительная обратная связь e€1 ( t ) Ψ ( t ) Ψ ( t ) играет стабилизирующую роль; 2) при использовании статической модели ошибки (4.173) асимптотическая устойчивость по ошибке слежения e1 ( t ) доказана при использовании модифицированных (нормализованных) алгоритмов адаптации вида
Глава 4. Адаптивные системы
459
€ & = −Γ Ψ ( t ) ⋅ e1 ( t ) , Γ = Γ T > 0; Θ T 1 + Ψ (t ) Ψ (t ) & k€ = −γ
z ( t ) e€1 ( t )
1 + ΨT (t ) Ψ (t )
, γ > 0;
3) для ограниченности Ψ ( t ) достаточно потребовать, чтобы задающее воздействие y ( t ) принадлежало пространству L∞ . З ам еч а ние. По условию теоремы 4.8 в правую часть алгоритма адаптации (4.173) % T ( t ) = kΨ T ( t ) ; z ( t ) . Коэффициент k (предполагается k > 0) должен входить вектор Ψ
(
)
входит сомножителем в матрицу усиления Γ. Пример 4.10. Рассмотрим объект управления, описываемый передаточной функцией β1 p + β0 ; W ( p) = k 3 p + α 2 p 2 + α1 p + α 0
x (t ) = W ( p ) u (t ) ,
где k , α 2 , α1 , α 0 , β1 , β0 — неизвестные параметры. Желаемое поведение объекта по выходу зададим эталонной моделью с передаточной функцией p+3 ; Wм ( p ) = kм 3 p + 8p 2 + 17p + 10 xм ( t ) = kмWм ( p ) y ( t ) ,
где kм = 1, 6. Управление в соответствии с (4.165) имеет вид u ( t ) = θ1 ( t ) v1(2) ( t ) + θ 2 ( t ) v2(2) ( t ) + θ3 ( t ) x ( t ) +
+ θ 4 ( t ) v1(1) ( t ) + θ5 ( t ) v2(1) ( t ) + θ 6 ( t ) kм y ( t ) = W ( t ) Θ T ( t ) , где Θ ( t ) — вектор настраиваемых параметров; W ( t ) — вектор сенсоров: v&1(1) = v2(1) , v&2(1) = −12v1(1) − 7v2(1) + y, v1(1) ( 0 ) = v2(1) = 0, v&1(2 ) = v2(2) , v&2(2) = −12v1(2) − 7v2(2) + u , v1(2) ( 0 ) = v2(2) = 0.
Будем использовать схему расширения ошибки Нарендры и Валавани, т.е. e€1 ( t ) = e ( t ) + η ( t ) ; e ( t ) = x ( t ) − xм ( t ) ; η ( t ) = Wм ( p ) L ( p ) ⎡⎣ k€( t ) z ( t ) − e€1ξT ( t ) ξ ( t ) ⎤⎦ ; z ( t ) = ΘT ( t )
1 1 ⎡ T W (t ) − Θ ( t ) W ( t ) ⎤⎦ , L ( p) L ( p) ⎣
где L ( p ) = p + 1, ξ& i ( t ) = −ξi ( t ) + wi ( t ) , i = 1, 6 и алгоритм адаптации в форме (4.174). На рис. 4.25 представлены результаты моделирования адаптивной системы при параметрах объекта управления: k = 1, α 2 = 6, α1 = 3, α 0 = 0, β1 = 1, β 0 = 2; коэффициентах усиления алгоритма адаптации Γ = 10 ⋅ I 6×6 , γ = 0,1 и начальных условиях x ( 0 ) = 4, xм ( 0 ) = 0, η ( 0 ) = z ( 0 ) = 0,
Θ ( 0 ) = (1 2 3 2 3 2 ) , k€( 0 ) = 1,1, ξi ( 0 ) = 0, i = 1, 6.
Общим недостатком схем адаптивного управления с расширенной ошибкой является значительная сложность их структуры и, как следствие, слабые робастные свойства. Робастные свойства могут быть повышены огрублением алгоритмов адаптации путем введения параметрических обратных связей и зоны нечувствительности, подобно тому, как это было рассмотрено в п. 4.2 для алгоритмов скоростного градиента. В связи с ограниченными возможностями практической реализации указанных схем адаптивного управления представляет интерес синтез адаптивных систем на основе упрощенной (редуцированной) модели.
460
Методы современной теории автоматического управления e
x, xM
6
6
4
4
xM
2
2
0
0
-2
-2
x
-4 -6 0
10
20
-4
30
40
50
60
t
70
-6 0
t 10
20
30
10
20
30
40
50
60
70
80
u 40
e€1 6
20 4
0 2
-20 0
-40 -2
-60 -4
-80
t
-6 0
10
20
30
40
50
60
70
80
k€
-100 0
t 40
50
60
70
80
50
60
70
80
w3 , w5
2
5
1.5
w5
0
1 -5
0.5 -10
0
-1 0
w3
-15
-0.5
t 10
20
30
40
50
60
70
80
-20 0
10
20
30
40
t
Рис. 4.25. Результаты моделирования
4.5.5.
ДЕКОМПОЗИЦИЯ АДАПТИВНЫХ СИСТЕМ НА ОСНОВЕ РАЗДЕЛЕНИЯ ДВИЖЕНИЙ
Методы разделения движений [141, 232, 236]. Трудности решения практических задач анализа и синтеза адаптивных систем управления (АдСУ) зачастую связаны со сложностью математической модели объекта управления: нелинейностью, стохастичностью, высоким порядком. Методы декомпозиции состоят в разделении исходной задачи на ряд более простых, решаемых независимо. Декомпозиция при анализе и синтезе АдСУ может состоять в замене исходной задачи соответствующей задачей для упрощенной модели ОУ. В обоих случаях необходимо: 1) разработать процедуры построения упрощенных моделей; 2) установить условия возможности замены исходной модели упрощенной моделью и оценить точность получаемых результатов анализа и синтеза на основе упрощенной модели.
Глава 4. Адаптивные системы
461
Наибольшее применение находят методы, основанные на выделении «сильных» и отбрасывании «слабых» факторов, определяющих динамику системы. В качестве слабых выступают факторы, порождающие быстро затухающие, быстро колеблющиеся, случайные центрированные составляющие процессов в системе. Упрощенная модель, получаемая отбрасыванием быстрых составляющих, описывает медленные процессы в системе. Правомерность такого подхода к декомпозиции определяется возможностью выделения разнотемповых движений в системе. Разнотемповость, в свою очередь, может порождаться как внутренними особенностями системы (наличием малоинерционных звеньев), так и вводиться искусственно — включением в систему звеньев с большими коэффициентами усиления, разрывными характеристиками и т.п. В обоих случаях можно говорить о выделении в фазовом пространстве системы некоторых множеств, так что при попадании в них траекторий системы последние удовлетворяют упрощенному описанию системы. Траектории системы быстро приближаются к выделенным множествам, а последующее медленное движение обеспечивает приемлемое свойство системы в целом. При синтезе АдСУ разделение движений играет важную роль. Адаптация возможна лишь при условии медленного изменения настраиваемых параметров по сравнению с переменными состояния объекта управления и возмущениями (см. гипотезу о квазистационарности). Первая схема разделения. Первая схема разделения используется для анализа АдСУ. Пусть динамика АдСУ описывается уравнениями & = F ( X, Θ , t ) , (4.176) X & = εΨ ( X,Θ, t ) , X ( 0 ) = X , Θ ( 0 ) = Θ , Θ 0 0
(4.177)
где X ∈ R n , Θ ∈ R m — векторы состояний обобщенного настраиваемого объекта и настраиваемых параметров; ε > 0 — параметр. При малом ε в системе возникает эффект разделения движений и для построения упрощенной системы можно применить метод усреднения. Полагая в (4.177) ε = 0, из Ψ ( X, Θ, t ) = 0, Θ = const находим X ( Θ,t ) и подставляем в (4.176)
& = F X Θ, t , Θ, t , Θ = const, X Θ,0 = X 0 . X ( ) ( ) ( ( ) )
Усредняя (4.177), получаем & =Ψ Θ , Θ 0 =Θ 0 , Θ ( ) ( ) ( )
(4.178) (4.179)
где T
1 Ψ ( X ( Θ, t ) , Θ, t ) dt , T →∞ T ∫ 0
Ψ ( Θ ) = lim
(4.180)
предполагая существование предела и независимость его от X ( 0 ) . Основанием применимости метода усреднения (замены (4.176), (4.177) на (4.178), (4.179)) являются теоремы Н.Н. Боголюбова. Эти теоремы утверждают, что при достаточно малом ε обеспечивается близость решений исходной (4.176), (4.177) и редуцированной системы (4.179) на конечном интервале времени, если F ( X ( Θ, t ) , Θ, t ) и Ψ ( X ( Θ, t ) , Θ, t ) — гладкие, ограниченные вектор-функции в областях, содержащих
решения системы (4.178), (4.179), предел (4.180) равномерен по Θ и имеет достаточно большую скорость сходимости (порядка 1 T ). Если дополнительно выполняется условие равномерной асимптотической сходимости системы (4.179), то решения близки на бесконечном промежутке времени.
462
Методы современной теории автоматического управления
Метод усреднения распространим на различные классы систем, в том числе и стохастические. При этом правая часть (4.179) определяется из соотношения
{
}
Ψ ( Θ ) = lim M Ψ ( X ( Θ, t ) , Θ, t ) , t →∞
а близость Θ ( t ) и Θ ( t ) имеет место в среднеквадратическом смысле. Другой способ упрощения системы основан на методе сингулярно возмущенных систем. В этом случае АдСУ представляется в форме & = F ( X, Θ , t ) , εX (4.181) алгоритм адаптации & = Ψ ( X,Θ, t ) . Θ (4.182) А вырожденная система (при ε = 0 ) приводится к виду 0 = F ( X, Θ, t ) ; (4.183) & Θ = Ψ ( X, Θ, t ) , (4.184) которая по сравнению с (4.181), (4.182) имеет пониженный порядок, что позволяет назвать систему (4.181), (4.182) сингулярно возмущенной по отношению к (4.183), (4.184). Решая (4.183) относительно X = X ( Θ,t ) и подставляя результат в (4.184), получаем уравнение редуцированной модели: & = Ψ X Θ, t , Θ , t , Θ 0 = Θ 0 . Θ ( ) ( ) ( )
(
)
(4.185)
Условия близости Θ ( t ) и Θ ( t ) даются теоремой А.Н. Тихонова. Основное усло-
вие состоит в том, что X ( Θ,t ) — устойчивое изолированное состояние равновесия «присоединенной» системы
dX (4.186) = F ( X, Θ, t ) , dτ где Θ, t — фиксированы, τ = t ε . Приведенные подходы к разделению движений относятся к асимптотике решений исходной системы и упрощенной системы (при ε → 0 ). В конкретных случаях ε всегда конечна и выбор метода разделения зависит в первую очередь от частоты изменения внешних воздействий. Если темп изменения внешних воздействий меньше темпа переходных процессов в ОНО, то быстрые движения успевают приблизиться к квазистатическим движениям X ( Θ,t ) и можно использовать метод сингулярных возмущений. В противном случае следует использовать метод усреднений. И в том и в другом случае требуется устойчивость ОНО при ∀ Θ ∈ Ξ и более низкий темп адаптации по сравнению с темпом в ОНО. Вторая схема разделения. Вторая схема разделения относится к случаю, когда быстрые и медленные процессы выделяются в движении ОНО. Вторая схема применяется, прежде всего, в задачах синтеза регулятора по упрощенной модели. В таких задачах усреднение по времени нежелательно, поскольку изменение внешних воздействий происходит в темпе основных (медленных) процессов в объекте. Поэтому целесообразнее пользоваться методом сингулярных возмущений. В пользу такого выбора говорит и то обстоятельство, что формально процедура метода сингулярных возмущений применима к разомкнутым системам. При описании системы применительно к АдСУ будем считать для определенности, что алгоритм адаптации относится к классу алгоритмов скоростного градиента (см. п. 4.5.2). Пусть ОНО описывается уравнениями
Глава 4. Адаптивные системы
463
& = F ( X , X , Θ, t ) ; X 1 1 1 2 & εX 2 = F2 ( X1 , X 2 , Θ, t ) , n1
n2
(4.187а) (4.187б)
m
где X1 ∈ R , X 2 ∈ R , Θ ∈ R .
Пусть цель управления задана с помощью гладкой целевой функции q ( X, t ) , где
X = col ( X1 , X 2 ) , и имеет вид q ( X, t ) ≤ Δ ∀ t ≥ t k .
(4.188)
Процедура синтеза состоит в следующем. Система (4.187) заменяется упрощенной (редуцированной), для построения которой полагается ε = 0. Редуцированная модель имеет вид & = F ( X , Θ, t ) ; X 1 1 1 (4.189) X 2 = H ( X1 , Θ, t ) , где H ( X1 , Θ,t ) — решение уравнения F2 ( X1 , X 2 , Θ, t ) = 0 (будем считать, что оно существует и единственно); F ( X1 , Θ, t ) = F ( X1 , H ( X1 , Θ, t ) , t ) . Целевую функцию также следует редуцировать, положив q ( X1 , t ) = q ( X1 , H ( X1 , Θ, t ) , t ) . Будем считать, что q ( X1 , H ( X1 , Θ, t ) , t ) не зависит от Θ, так как в противном случае выбор Θ был бы тривиален: Θ ( t ) = arg min q ( X1 , H ( X1 , Θ, t ) , t ) . Θ
Это предположение выполнено, например, если q ( X1 , H ( X1 , Θ, t ) , t ) не зависит от X 2 («слабая наблюдаемость быстрых движений»). АСГ для редуцированной модели имеет вид & = − Г∇ ω ( X , Θ, t ) , Θ Θ 1
(4.190)
где ∂q T + ( ∇ X q ) F ( X1 , Θ, t ) . ∂t Для выполнения условий теоремы 4.1 (метода скоростного градиента) требуется: 1) q — непрерывно дифференцируемая функция, удовлетворяет условию роста; Г = ГТ > 0; ω ( X1 , Θ, t ) =
2) ∃ Θ = Θ∗ : ω ( X1 , Θ∗ , t ) ≤ −α ⋅ q (α > 0); 3) ω ( X1 , Θ,t ) выпукла по Θ. При этом в системе (4.189), (4.190) достигается ЦУ lim q ( X, t ) = 0. Однако, неt →∞
смотря на выполнение ЦУ в редуцированной системе, в исходной сингулярно возмущенной системе (4.187), (4.190) ЦУ может нарушаться вплоть до возникновения неустойчивости. Поэтому для применения описанного метода синтеза необходимо выполнение дополнительных условий. Доказано, что если быстрая подсистема (4.187б) экспоненциально устойчива в целом, редуцированная модель (4.189) экспоненциально устойчива по X1 при некотором Θ = Θ∗ , правые части ОНО (4.187)
( вектор-функции F1 ( X1, H ( X1, Θ, t ) , t ) , F2 ( X1, H ( X1, Θ, t ) , t ) ) , а также целевая функция
464
Методы современной теории автоматического управления
q ( X1 , H ( X1 , Θ, t ) , t ) не зависят от времени, то алгоритм адаптации (4.190) обеспечивает при достаточно малом ε > 0 стабилизацию ОНО (4.187) по X1 , X 2 . Поясним смысл приведенных условий. Экспоненциальная устойчивость подсистемы (4.187б) гарантирует монотонность и быстрое (при достаточно малом ε > 0 ) & = 0. Экспоненциальная устойчивость по стремление подсистемы к многообразию X 2 X1 при Θ = Θ∗ редуцированной модели (4.189) соответствует условию достижимости теоремы 4.1 метода скоростного градиента при ρ ( q ) = α ⋅ q ( X1 , H ( X1 , Θ, t ) , t ) при α > 0. Независимость от времени F1 ( X1 , H ( X1 , Θ, t ) , t ) , F2 ( X1 , H ( X1 , Θ, t ) , t ) , в частности, означает постоянство входных (внешних) возмущений. При нарушении этого условия, например при воздействии на систему сколь угодно малых адаптивных возмущений, замкнутая система может терять устойчивость. Для ослабления этого условия алгоритм адаптации (4.190) регуляризуют введением отрицательной связи и зоны нечувствительности (см п. 4.5.2). При этом система (4.187) с регуляризованным алгоритмом (4.190) оказывается работоспособной при воздействии на подсистему (4.187а) ограниченных аддитивных возмущений Ф ( t ) (т.е. достигается ЦУ (4.188) при
(
Δ = Δ Ф (t )
)) ,
если выполнены приведенные выше условия и функция F1 ( X1 , X 2 , Θ,t ) локально липшицева по X 2 , равномерна по t ≥ 0, функции F ( X1 , Θ, t ) , H ( X1 , Θ,t ) локально липшицевы по X1 , Θ, функции F ( X1 , Θ, t ) , H ( X1 , Θ, t ) , H ( X1 , Θ,t ) локально ограничены, а целевая функция удовлетворяет условию 1−σ
α1 ⋅ X1 − X1∗ ( t ) ≤ q ( X, t )
≤ α 2 ⋅ X1 − X1∗ ( t ) ;
здесь T
⎛ ∂H ( X1 , Θ, t ) ⎞ H ( X1 , Θ, t ) = ⎜ ⎟ ⎡⎣F1 ( X1 , H ( X1 , Θ, t ) , Θ ) − Г∇Θ ω ( X1 , Θ ) ⎤⎦ ∂Z ⎝ ⎠
(
)
— производная в силу редуцированной модели по Z T = X1T , Θ T ; α1 > 0, α 2 > 0, 0 ≤ σ < 1 — некоторые константы; X1∗ ( t ) — желаемая траектория системы по X1
(X
* 1
)
≤ CX .
Более подробно с условиями применимости разделения движений при синтезе алгоритмов адаптивного управления и оценками малости величины ε можно познакомиться в [232, теоремы 5.1–5.4].
Глава 5. Интеллектуальные системы
ГЛАВА 5.
465
ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ
Научное и практическое направление исследований и разработки интеллектуальных систем было сформировано в конце 1989 г. и нашло свое отражение в виде научно-технической программы фундаментальных и прикладных исследований «Интеллектуальные системы», утвержденной приказом Государственного Комитета СССР по народному образованию 30 августа 1989 г. №701. В соответствии с этой программой впервые в мире было дано определение интеллектуальной системы как объединенной информационным процессом совокупности технических средств и программного обеспечения, работающего во взаимосвязи с человеком (коллективом людей) или автономно, способную на основе использования сведений и знаний при наличии мотивации вырабатывать решение о действии и находить рациональные способы его реализации. Целью этой программы являлось создание научных основ и разработка опытных образцов интеллектуальных систем на базе достижений нейрофизиологии, теории управления, информационных технологий, мехатроники и микропроцессорных вычислительных средств. В разработке программы принимали участие научные коллективы практически всех крупных университетов и институтов страны. Научным руководителем программы был определен автор настоящей главы. Срок выполнения программы был ограничен 1989–1991 гг. В процессе разработки программы были получены оригинальные и весьма полезные результаты в связи, в том числе, с новизной поставленной проблемы. В основу концепции и структуры интеллектуальной системы были положены результаты, полученные академиком П.К. Анохиным по исследованию приспособительной деятельности живого организма при достижении цели. Несмотря на крупные политические изменения, произошедшие в нашей стране, исследования по проблеме «Интеллектуальные системы» были продолжены в рамках научно-технической программы с тем же названием, но уже в соответствии с федеральной программой «Университеты России» в период с 1992 по 1998 гг., работы продолжаются и в настоящее время по программе «Университеты России — фундаментальные исследования». В процессе исследований были получены крупные научные результаты. Они нашли отражение в различных публикациях в виде монографий, статей в научных журналах. В зарубежных изданиях практически нет данных по разработке интеллектуальных систем в той постановке, как это показано в данном учебнике. В монографии М.М. Гупты и Н.К. Синха, носящей название «Интеллектуальные системы управления» (Intelligent Control System, IEEE, Press, 1996) рассматриваются лишь традиционные задачи адаптации и обучаемости и другие проблемы теории систем. Материал данной главы составлен на основе публикаций материалов в различных изданиях, полученных разработчиками научно-технической программы «Интеллектуальные системы». Материал данной главы не претендует на полный охват и анализ полученных результатов, а лишь отмечает важные фрагменты в теории и практике систем нового поколения — интеллектуальных и вводит студентов в новую область знаний. Достижения в области нейрофизиологии, микроэлектроники, информационной технологии, теории и техники обработки информации и управления привели к возможности создания нового поколения систем — интеллектуальных. В основу концепции таких систем положена теория функциональной системы, описывающая системную приспособительную реакцию живого организма.
466
Методы современной теории автоматического управления
Исторические предпосылки. В 1935 г. П.К. Анохин изложил разработанный им системный подход к изучению и пониманию функций живого организма на основе предложенной им же оригинальной теории функциональной системы [11]. Используя тончайшие методы аналитического исследования нервной системы, П.К. Анохин находит место любому микрофизиологическому процессу в архитектуре целостной приспособительной реакции организма. В этой работе функциональная система впервые была определена как замкнутое физиологическое образование с наличием обратной информации о результатах действия. Каждая функциональная система, обеспечивающая тот или иной приспособительный эффект, имеет многочисленные каналы, по которым информация с периферии достигает соответствующих нервных центров. Полезный приспособительный эффект является определяющим в любой функциональной системе, поскольку способствует достижению цели, которая выступает в том числе как системообразующий фактор. Отличительная черта любого, даже самого маленького результата, способствующего достижению цели, — то, что он непременно получается на основе принципа саморегуляции и независимо от уровня и сложности обладает одними и теми же узловыми механизмами, такими, как афферентный синтез цели; принятие решения к действию; эфферентная программа действия; акцептор действия, предсказывающий параметры результата; обратная афферентация о параметрах результата и, наконец, сличение параметров полученного результата с параметрами, предсказанными или прогнозированными акцептором действия. Афферентный синтез является исходным для построения любой целенаправленной деятельности. Четыре ведущих его компонента — исходная доминирующая мотивация, обстановочная и пусковая афферентация и, наконец, память — позволяют представить механизм афферентного синтеза следующим образом: на основе исходной доминирующей мотивации, возникающей в результате той или иной внутренней потребности организма и памяти, организм, стимулируемый различными пусковыми сигналами, активно оценивает раздражители внешней среды, вырабатывает цель и принимает соответствующее решение к действию. В соответствии с целью все компоненты системы взаимодействуют так, чтобы выполнялась эфферентная программа действия. Аппарат акцептора результатов действия, формирующийся на основе определенной потребности, памяти, обстановки и специальных сигналов, заключает в себе все свойства будущего результата и поэтому служит для сопоставления предсказанного и реально полученного результатов. Обратная афферентация о параметрах результата есть не что иное, как обратная связь. Поэтому функциональная система Анохина является фундаментальным результатом, наиболее полно и просто объясняющим характер происходящих процессов. Норберт Винер в 1960 г. признал, что рассмотренный в плоскости физиологической кибернетики этот результат намного опередил рождение кибернетического направления в целом, а Гордон Паск в 1963 г. отметил, что, вероятно, наиболее ценная кибернетическая модель предложена П.К. Анохиным. Структурная схема функциональной системы приведена на рис. 5.1. В реализации поведенческого акта, если действия достигают результата, параметры которого соответствуют свойствам акцептора действия, приспособительный акт заканчивается. В противном случае за счет ориентировочной реакции перестраивается афферентный синтез, реорганизуется программа действия и, таким образом, действие происходит до тех пор, пока результаты не будут соответствовать ранее сформированным параметрам акцептора действия. Механизм сопоставления интегрированных признаков акцептора действия с реально полученной сигнализацией о параметрах достигнутых результатов дополнен еще одним важным звеном — эмоциональным компонентом удовлетворяемости или неудовлетворяемости. Этот фактор является дополнительным стимулом к поиску новых программ, обеспечивающих удовлетворение поставленной цели. Как правило, полное совпадение свойств акцептора действия с информацией, идущей по цепи обратной афферентации о результате действия,
Глава 5. Интеллектуальные системы
467
всегда сопровождается положительными, приятными эмоциями, санкционирующими успех совершенного действия. Наоборот, любое «рассогласование» — источник неприятных, биологически отрицательных эмоций, способствующих быстрейшему удовлетворению возникших потребностей.
Обстановочная афферентация Программа действия
Память Цель
Решение к действию
Мотивация Обстановочная афферентация Афферентный синтез
Акцептор действия
Копия команды
Пусковая афферентация
Афферентные возбуждения
Действие Результаты действия Параметры результата
Обратная афферентация
Рис. 5.1. Структурная схема функциональной системы
В семидесятые годы нашего столетия наметилась тенденция развития технической кибернетики на основе системных взглядов Берталанфи, Богданова, Винера, Эшби, Месаровича и других ученых. Были получены полезные результаты по теории систем [152]. Однако слабое развитие информационной технологии и техники не смогли вызвать к жизни фундаментальные результаты П.К. Анохина по системной организации функций живого организма. Поэтому системы управления в этот период строились в основном с использованием априорных сведений об окружающей среде, понятие цели вырождалось в решение задачи отработки некоторого программного сигнала системой и лишь иногда вводились некоторые элементы адаптации систем к тем или иным изменяющимся условиям. Практически всю интеллектуальную часть работы выполнял человек, сводя функционирование системы управления к реализации фиксированных алгоритмов, выработанных им. Реальная ситуация требует других подходов к созданию систем. В действительности изменяется окружающая среда, изменяются характеристики собственного состояния системы. Учесть эти изменения априори практически невозможно. Поэтому хотелось бы построить такие системы, которые при наличии мотивации, учитывая предшествующий опыт, на основе текущих сведений об окружающей среде и собственном состоянии могли бы решать задачу достижения цели при взаимодействии всех компонентов. Концепция и определение понятия интеллектуальной системы. Появление микропроцессоров высокой производительности и с большой емкостью памяти, возможность организации мультитранспьютерных сетей для реализации параллельных вычислений, с одной стороны, и необходимость обработки значительных массивов информации, применения базы знаний для формирования целенаправленной деятельности — с другой, привели к созданию интеллектуальных систем. Под интеллектуальной системой будем понимать объединенную информационным процессом совокупность технических средств и программного обеспечения, работающую во взаимосвязи с человеком (коллективом людей) или автономно, способную на основе све-
468
Методы современной теории автоматического управления
дений и знаний при наличии мотивации синтезировать цель, вырабатывать решение о действии и находить рациональные способы достижения цели. Рассмотрим структуру интеллектуальной системы (рис. 5.2). На основании сведений об окружающей среде и собственном состоянии системы при наличии памяти и мотивации синтезируется цель, которая наряду с другими данными воспринимается динамической экспертной системой. Последняя с использованием базы знаний производит экспертную оценку, на основании которой принимается решение о действии и прогнозируются результаты действия (акцептор действия). В соответствии с принятым решением вырабатывается управление, т.е. синтезируется тот или иной алгоритм или закон управления, который реализуется с помощью различных исполнительных органов и воздействует непосредственно на объект управления. Результаты этого воздействия сравниваются с прогнозируемыми (механизм обратной связи, акцептор действия). При несоответствии результатов на базе новой экспертной оценки принимается решение, вырабатывается и реализуется управление, устраняющее это несоответствие. При соответствии результатов подкрепляется предшествующее управление. Если соответствие недостижимо, то уточняется цель. Данная структура инвариантна к объекту управления и носит универсальный характер. Проблемы теории и практики. Решение задачи синтеза цели требует разработки методов и средств получения информации об окружающей среде и эффективной идентификации собственного состояния как объекта управления, так и самой системы. При формировании цели возникает проблема достаточности базы знаний, а следовательно, и памяти, возможности их реализации как на содержательном, так и на конструктивном уровне. Динамическая экспертная система выполняет расчет, оптимизацию, прогноз и моделирование результатов, поэтому должна обладать высоким быстродействием. Потенциал, накопленный при разработке алгоритмов принятия решений и выработки управления, может успешно использоваться в интеллектуальных системах, однако потребуется распараллеливание алгоритмов и их мультитранспьютерная реализация и, конечно, не исключается синтез новых, эффективных параллельных алгоритмов. Источником возмущающего воздействия для интеллектуальной системы является окружающая среда, а функционирование системы должно обеспечить в конечном итоге компенсацию этого воздействия при достижении цели. И.П. Павлов писал: «Вся жизнь — от простейших до сложнейших организмов, включая, конечно, и человека, есть длинный ряд все усложняющихся до высочайшей степени уравновешиваний внешней среды. Придет время, пусть отдаленное, когда математический анализ, опираясь на естественнонаучный, осветит величественными формулами уравнений все эти уравновешивания, включая в них и самого себя» (И.П. Павлов. Полн. собр. соч. Т.3. С.124–125). Поэтому одной из фундаментальных проблем теории интеллектуальных систем является разработка адекватных живой природе математических моделей. Представляет значительный интерес построение модели афферентного синтеза цели. Действительно, такие компоненты, как мотивация, обстановочная и пусковая афферентация, память, находясь во взаимодействии, приводят к появлению цели и принятию решения к действию. Каков механизм этого взаимодействия, каков критический потенциал этой совокупности компонентов, при котором синтезируется цель? Этот вопрос требует глубокого анализа, положенного в основу разработки моделей. Принятие решения к действию сопровождается формированием программы действия с одновременным прогнозом результата (акцептор действия). Это — важнейший феномен, связанный с функционированием интеллектуальной системы, — когда в конце процесса получается результат, который уже в начале этого процесса имелся в ее представлении. Каким образом построить модели программы действия и акцептора действия, чтобы использовать их в интеллектуальных системах? Вероятно, необходимо разрабатывать теорию целенаправленных систем, способную описать эти механизмы на уровне понятий.
Собственное состояние
Мотивация
Память
Окружающая среда
Синтез цели
Цель
Прогноз результатов действия
Динамическая экспертная система
База знаний
Принятие решения
Результат действия
Объект управления
Копия команды
Экспертная оценка
Исполнение управления
Выработка управления
Глава 5. Интеллектуальные системы 469
Рис. 5.2. Структурная схема интеллектуальной системы
470
Методы современной теории автоматического управления
Цель в интеллектуальных системах выступает и как цель, и как системообразующий фактор, обеспечивающий взаимодействие отдельных элементов системы таким образом, чтобы достигалась цель. При этом результаты действия сравниваются с прогнозируемыми, т.е. имеет место обратная связь. В традиционном смысле, мы здесь соприкасаемся с проблемами структурного синтеза систем, обеспечения устойчивого функционирования за счет выбора рационального управления. В значительной мере для построения моделей интеллектуальных систем могут быть использованы элементы теории управления, теории информационных процессов. При наличии трех составляющих: цели, окружающей среды и внутреннего состояния — для построения моделей интеллектуальных систем может быть развита теория робастного управления. 5.1. 5.1.1.
МОДЕЛИ И АЛГОРИТМЫ ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМ ДИФФЕРЕНЦИАЛЬНО-МОДЕЛЬНАЯ КОНЦЕПЦИЯ В СИСТЕМАТИКЕ БАЗЫ МАКРОФИЗИЧЕСКИХ ЗНАНИЙ ДЛЯ ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМ
Дифференциальные модели повсеместно и привычно используются в современной науке и технике для представления динамических систем. Естественен интерес к построению и применению этих моделей при разработке и создании перспективных интеллектуальных систем автоматизированного проектирования, управления и обучения. Здесь целью является изложение тех далеко идущих фундаментальных результатов в области систематики базы макрофизических знаний, которые проистекают из исследования проблемы алгоритмизации построения дифференциальных моделей [127]. С точки зрения гносеологии, физика является наукой о познании физических сущностей материальных объектов и систем. В макрофизике познание ведется без привлечения сведений о строении вещества, начиная с молекулярно-кинетического уровня, а физическая сущность отождествляется с дифференциальной моделью, т.е. познание физической сущности заключается в построении соответствующей дифференциальной модели. Подобная интерпретация приводит к выделению дифференциальной макрофизики — совокупности макрофизических наук, достигших, по классификации А. Ампера, наивысшего дифференциального уровня развития. Дифференциальную макрофизику образуют: механика (линейная и угловая), гидравлика (для жидкостей и газов), электрика (включая электромеханику) и термодинамика. К сожалению, упомянутая и подчеркнутая дифференциально-модельная концепция в познании является единственным, что их объединяет. Все остальное — традиции, терминология, переменные, законы природы, принципы и т.д. — специфично для каждой из наук и не способствует восприятию дифференциальной макрофизики как единого систематизированного и интегрированного целого. В каждой науке занимаются одним и тем же — познают физическую сущность, т.е. строят дифференциальные модели, но своим узкоспециализированным путем. Это многоязычие физиков не смущает. Они считают свою задачу выполненной. А многочисленная армия не физиков, занимающаяся построением и применением дифференциальных моделей, вынужденно мирится с возникающими непростыми междисциплинарными трудностями. Особенно остро это проявляется при обучении студентов, прежде всего, в областях автоматизированного проектирования, управления и технической кибернетики. Таким образом, интересующая нас проблема алгоритмизации построения дифференциальных моделей до некоторой степени оказывается на «ничейной» междисциплинарной полосе. И один из путей ее решения — внимательный анализ базы макрофизических знаний с позиций дифференциально-модельной концепции, единственно общей для всех макрофизических наук. Прежде всего, обратимся к единой процедуре построения дифференциальных моделей, включающей следующие этапы:
Глава 5. Интеллектуальные системы
471
1) выбор учитываемых в модели физических эффектов и соответствующего им перечня используемых законов природы; 2) определение физического смысла причинных и следственных переменных; 3) причинно-следственная интерпретация в используемых законах природы; 4) применение принципа композиции; 5) построение искомой дифференциальной модели с учетом причинно-следственной интерпретации законов природы. Специфика каждой макрофизической науки проявляется во всех четырех этапах. Однако внимательный анализ используемых в различных науках принципов композиции (четвертый этап) приводит к однозначному выводу о целесообразности признания принципа Лагранжа–Рэлея в качестве универсального для дифференциальной макрофизики в целом. Это закономерное следствие из уже доказанной его применимости для линейной и угловой механик (Ж. Лагранж), для электрики и электромеханики (Дж. Максвелл). Исследование принятой структуры записи принципа композиции Лагранжа–Рэлея приводит к получению важной информации по второму и третьему этапам означенной выше процедуры. Во-первых, принцип подразумевает необходимость использования четырех типов переменных: причинных — координаты p и скорости p& , следственных — координаты q и скорости q&. Во-вторых, принцип представляет собой уравнение баланса внешней (входной) K
p& вх и внутренних p& вн1 , p& вн12 ,K , p& вн1k причинных скоростей p& вх = ∑ p& внш , где k опi =1
ределяется количеством учитываемых в дифференциальной модели физических эффектов. Задание физического смысла p& вх , т.е. вида идеального ее источника, дает возможность определить физический смысл остальных переменных с учетом, что произведение причинной и следственной скоростей всегда есть мощность N = p& ⋅ q&. В-третьих, принцип устанавливает существование и форму записи трех видов причинно-следственно интерпретированных законов природы: • кинетического: ∂Э p& = A ⋅ q& = к ; ∂q& • потенциального: ∂Э p& = C ⋅ q = п ; ∂q • диссипативного: ∂Ф р , p& = B ⋅ q& = ∂q& где А, В, С — соответствующего названия коэффициенты для линейного варианта законов. Названия законов связаны с определяемыми ими кинетической Эк и потенциальной Эп энергиями, а также с диссипативной функцией Рэлея Ф р . Законы представлены в нормальной форме записи, которая для кинетического вида отлична от естественной, общепринятой формы. Для диссипативных законов возможны нелинейные варианты, при формировании которых следует учитывать положительность диссипативной функции Ф р ≥ 0. Опуская дальнейшую детализацию, все представленное позволяет наполнить процедуру-алгоритм построения дифференциальных моделей систематизированным
472
Методы современной теории автоматического управления
междисциплинарным звучанием с позиций дифференциальной макрофизики в целом. Каждая макрофизическая наука лишь упорядоченно конкретизирует этот алгоритм физическим смыслом переменных и законов природы. Причем появляется возможность очень компактного представления подобной конкретизации с помощью соответствующих частных диаграмм (рис. 5.3). q
p
B
C
q&
p&
B Рис. 5.3. Частная диаграмма
Крайне важна и интересна, с науковедческой точки зрения, появляющаяся возможность нахождения способа соотнесения частных диаграмм между собой. Ведь это, с одной стороны, просто иная и более конкретная постановка задачи преодоления разобщенности макрофизических наук, а с другой — продолжение на более высоком уровне систематики базы макрофизических знаний. Ясно, что при подобном общем рассмотрении соотносить можно только размерности переменных и коэффициентов. Переход к частным диаграммам размерностей очевиден. Единственной проблемой является выбор подходящей для междисциплинарных исследований системы размерностей. По этому признаку система СИ не подходит, поскольку отражает многоязычие разобщенных физических наук. Полностью свободной от этого недостатка является лишь кинематическая система размерностей, позволяющая соотносить переменные и коэффициенты любой физической природы, на что обратил внимание Р.О. Ди Бартини. В случае применения кинематической системы частные диаграммы порождают обобщенную диаграмму размерностей. Каждая из частных диаграмм связана с четырьмя соседними порождающими правилами (рис. 5.4).
[ p& n +1,n ] LT −1
[ p& n ,n −1 ]
LT
0
[ p& n ,n ]
LT 0
[ p& n ,n +1 ]
LT −1
[ p& n −1,n ] Рис. 5.4. Кинематическая система размерностей
В результате обобщенная диаграмма размерностей приобретает вид, показанный на рис. 5.5. Не обсуждая в деталях все интереснейшие особенности обобщенной диаграммы, отметим лишь главное: • благодаря формальным порождающим правилам она не только включает в себя все известные частные диаграммы, но и обладает ярко выраженными прогнозирующими свойствами, предлагая «информацию для размышления» о множестве ранее не рассматриваемых частных диаграмм, т.е. о совершенно новой точке зрения на дифференциальную макрофизику в целом с открывающимися новыми возможностями систематики и развития базы макрофизических знаний для перспективных интеллектуальных систем;
Глава 5. Интеллектуальные системы
473
• существенно новые возможности возникают в области алгоритмизации построения дифференциальных моделей; • стимулируется развитие новой прогнозирующей ветви теории размерностей.
L2T
L3T−4
LT
L4T−4
L0T
L5T−4
L−1T
L6T−4
L−2T
L7T−4
L2T0
L3T −5
L T0
L4T −5
L0T0
L5T−5
L−1T0
L6T−5
L−2T0
L7 T −5
L3T0
L2T −3
L2T0
L3T−3
L T0
L4T−3
L0T0
L5T−3
L−1T0
L6T−3
L3T −1
L2T −4
L2T−1
L3T−4
L T −1
L4T−4
L0T−1
L5T−4
L−1T−1
L6T−4
L4T−1
L T −2
L3T −1
L2T −2
L2T−1
L3T−2
L T −1
L4T−2
L0T−1
L5T−2
L4T−2
L T −3
L3T−2
L2T −3
L2T−2
L3T−3
L T −2
L4T−3
L0T−2
L5T−3
L5T−2
L0T−1
L4T −2
L T −1
L3T−2
L2T −1
L2T −2
L3T−1
L T −2
L4T −1
L5T−3
L0T−2
L4T−2
L T −2
L3T−3
L2T −2
L2T−3
L3T −2
LT −3
L4T −2
L6T−3
L−1T0
L5T−3
L0T0
L4T −3
L T0
L3T −3
L2T0
L2T −3
L3T−0
L6T−4
L−1T −1
L5T−4
L0T−1
L4T −4
L T −1
L3T −4
L2T −1
L2T −4
L3T −1
L7T −4
L−2T
L6T−4
L−1T
L5T −4
L0T
L4T −4
LT
L3T −4
L2T
L7T −5
L−2T0
L6T−5
L−1T0
L5T −5
L0T0
L4T −5
LT0
L3T −5
L2T0
Рис. 5.5. Обобщенная диаграмма размерностей
5.1.2. ДИНАМИЧЕСКИЕ ЭКСПЕРТНЫЕ СИСТЕМЫ В УПРАВЛЕНИИ Новое поколение систем — интеллектуальные системы (ИС) — вызвало к жизни другие принципы организации компонентов систем: появились иные понятия, термины, блоки, не встречавшиеся ранее в разработках и, следовательно, в научной литературе. Интеллектуальные системы способны синтезировать цель, принимать решение к действию, обеспечивать действие для достижения цели, прогнозировать значения параметров результата действия и сопоставлять их с реальными, образуя обратную связь, корректировать цель или управление [174, 175]. На рис. 5.6 приведена структурная схема ИС, где выделены два крупных блока системы: синтез цели и ее реализация. В первом блоке на основе активного оценивания информации, полученной от системы датчиков, при наличии мотивации и знаний синтезируется цель и принимается решение к действию. Активное оценивание информации осуществляется под воздействием пусковых сигналов. Изменчивость окружающей среды и собственного состояния системы может приводить к потребности в чем-либо (мотивации), а при наличии знаний может быть синтезирована цель. Под целью понимается идеальное, мысленное предвосхи-
474
Методы современной теории автоматического управления
Внешнее воздействие (окружающая среда)
Преобразующие устройства
Исполнительные устройства Объект управления
ДЭС
Результат управления
Знания
Решение к действию
Мотивация
Цель
Система датчиков
Блок I — синтез цели
Параметры результата управления
Обратная связь 2
Внутреннее воздействие (собственное состояние объекта управления и системы)
Интерпретация результата по отношению к цели
Система датчиков
Обратная связь 1
Пусковой сигнал
щение результата деятельности. Продолжая активно оценивать информацию об окружающей среде и собственном состоянии системы, в том числе объекта управления, при сопоставлении вариантов достижения цели можно принять решение к действию. Далее, во втором блоке динамическая экспертная система (ДЭС) на основании текущих сведений об окружающей среде и собственном состоянии ИС при наличии цели и знаний осуществляет экспертную оценку, принимает решение об управлении, прогнозирует результаты действия и вырабатывает управление. Представленное в кодированном виде управление преобразуется в физический сигнал и поступает на исполнительные устройства. Объект управления, получая сигнал от исполнительных устройств, осуществляет то или иное действие, результаты которого, представленные в виде параметров, по цепи обратной связи 2 поступают в ДЭС, где сравниваются с прогнозированными. Одновременно параметры результата действия, интерпретированные в соответствии со свойствами цели и поступающие в блок I, могут использоваться для эмоциональной оценки достигнутого результата: например, цель достигнута, но результат не нравится. Если цель достигается по всем параметрам, то управление подкрепляется. В противном случае происходит коррекция управления. Когда же цель недостижима, то корректируется цель. Следует заметить, что при внезапных изменениях состояния окружающей среды, или объекта управления, или системы в целом возможен синтез новой цели и организация ее достижения. Структура ИС наряду с новыми содержит традиционные элементы и связи, центральное место в ней занимает динамическая экспертная система.
Блок II — реализация цели
Рис. 5.6. Структурная схема ИС
Глава 5. Интеллектуальные системы
475
Динамические экспертные системы и база знаний. Формально ИС описывается следующими шестью выражениями: α1 T × X × S ⎯⎯ → M ×T; α2 T × M × S ⎯⎯→ C ×T; α
3 → R ×T; C × T × X × S ⎯⎯ & T × X = {A × T } X × T + {B × T }U × T ;
T × Y = {D × T } X × T ; α4 T × R × Y ⎯⎯→ C ×T , где T — множество моментов времени; X , S , M , C , R и Y — множества состояний системы, окружающей среды, мотивации, цели, прогнозируемого и реального результата; A, B и D — матрицы параметров; α i , i = 1, 4 — интеллектуальные операторы преобразования, использующие знания. В этом описании сочетаются представления объектов системы в виде множества значений, либо множества высказываний, либо каких-то других форм. Динамические свойства ИС могут быть описаны в пространстве состояний. Интеллектуальные операторы, реализующие восприятие, представление, формирование понятия, суждения и умозаключения в процессе познания, являются формальным средством обработки сведений и знаний, а также принятия решения. Все эти аспекты должны быть положены в основу построения ДЭС, функционирующих в реальном времени и реальном мире. Динамическая экспертная система есть некоторое комплексное образование, способное оценивать состояние системы и среды, сопоставлять параметры желаемого и реального результатов действия, принимать решение и вырабатывать управление, способствующее достижению цели. Для этого ДЭС должна обладать запасом знаний и располагать методами решения задач. Знания, передаваемые экспертной системе, можно разделить на три категории [174]. Концептуальное (на уровне понятий) знание — это знание, воплощенное в словах человеческой речи или, конкретнее, — в научно-технических терминах и, естественно, в стоящих за этими терминами классах и свойствах объектов окружающей среды. Сюда же входят связи, отношения и зависимости между понятиями и их свойствами, причем связи абстрактные, также выраженные словами и терминами. Концептуальное знание — это сфера, главным образом, фундаментальных наук, если учитывать, что понятие есть высший продукт высшего продукта материи — мозга. Фактуальное, предметное знание — это совокупность сведений о качественных и количественных характеристиках конкретных объектов. Именно с этой категорией знания связываются термины «информация» и «данные», хотя такое употребление этих терминов несколько принижает их значение. Любое знание несет информацию и может быть представлено в виде данных; фактуальное знание — это то, с чем всегда имели дело вычислительные машины и с чем они больше всего имеют дело до сих пор. Современную форму накопления данных принято называть базами данных. Конечно, для организации баз данных, для поиска в них нужной информации надо опираться на концептуальное знание. Алгоритмическое, процедурное знание — это то, что принято называть словами «умение», «технология» и др. В вычислительном деле алгоритмическое знание реализуется в виде алгоритмов, программ и подпрограмм, но не всяких, а таких, которые могут передаваться из рук в руки и использоваться без участия авторов. Такая реализация алгоритмического знания называется программным продуктом. Наиболее рас-
476
Методы современной теории автоматического управления
пространенные формы программного продукта — пакеты прикладных программ, программные системы и другие, ориентированные на конкретную область применения ДЭС. Организация и использование пакетов прикладных программ базируется на концептуальном знании. Ясно, что концептуальное знание является более высокой, определяющей категорией знания, хотя, с точки зрения практики, другие категории могут казаться более важными. Именно поэтому, вероятно, концептуальное знание редко воплощается в форме, доступной для обработки на вычислительных машинах. А если воплощается, то чаще всего неполно и односторонне. Носителем концептуального знания остается в большинстве случаев человек. Это тормозит автоматизацию многих процессов. Представления концептуального знания, а точнее, системы, реализующие все три категории знания, но выделяющие концептуальное знание на первый план и работающие на основе его интенсивного использования, называются базами знаний. Создание и широкое применение баз знаний в ИС — одна из актуальнейших задач. Концептуальную часть базы знаний будем называть моделью предметной области, алгоритмическую часть — программной системой, а фактуальную часть — базой данных. Следующая функция ДЭС — решение задач. Задача может быть решена машиной только в том случае, если она формально поставлена — если для нее написана формальная спецификация. Последняя должна опираться на некоторую базу знаний. Модель предметной области описывает общую обстановку, в которой возникла задача, а спецификация — содержание задачи. В совокупности они позволяют установить, какие абстрактные связи и зависимости, в каких сочетаниях и в какой последовательности должны быть использованы для решения задачи. Прикладные программы представляют собой конкретные средства, стоящие за этими зависимостями, а также содержат алгоритмы для решения возникающих при этом уравнений. Наконец, база данных поставляет все исходные данные или часть их для выполнения этих алгоритмов, недостающие данные должны содержаться в спецификации. Этим трем частям баз знаний соответствуют три этапа решения задачи: 1) построение абстрактной программы решения (включая возникновение задачи, ее постановку и спецификацию); 2) перевод задачи на подходящий машинный язык; 3) трансляция и выполнение программы. Построение абстрактной программы связано с представлением и обработкой концептуального знания в ИС и по определению является достоянием искусственного интеллекта. Искусственный интеллект связывают с обработкой текстов, устных сообщений на естественном языке, с анализом и обработкой информации (распознавание всех видов изображений, доказательство теорем, логический вывод и т.д.). Функциями ДЭС являются также оценка результатов решения задачи, формирование параметров будущего результата действия, принятие решения об управлении, выработка управления и сличение параметров желаемого и реального результатов. Здесь предусматривается моделирование процессов для оценки возможных последствий и корректности решения задачи. Отметим, что в реальных случаях существует проблема описания исследуемых объектов. Такое описание неправомерно считать частью спецификации задачи, поскольку относительно одного объекта ставится, как правило, много задач, что, естественно, требуется учитывать при формировании базы знаний. Кроме того, может оказаться, что возникшую задачу не решить до конца автоматически, например, из-за неполноты спецификации или описания объекта. Поэтому в ИС целесообразен на определенных стадиях интерактивный режим работы с ДЭС. Надо помнить, что модель предметной области описывает общую обстановку (знание), а спецификация — содержание задачи.
Глава 5. Интеллектуальные системы
477
Очень важными проблемами являются создание единой программной среды и синтез алгоритмов непосредственно по постановке задачи. В зависимости от цели, которая стоит перед ИС, база знаний, алгоритмы решения задачи, принятия решения, выработки управления могут, естественно, иметь различное представление, зависящее, в свою очередь, от характера решения задач. Соответственно этому можно видеть три типа ДЭС. Структура ДЭС первого типа приведена на рис. 5.7. Знания в области интеллектуальных систем
Собственное состояние системы Окружающая среда Цель
База знаний 1. 2. 3.
Решение задачи
Концептуальное знание; Фактуальное знание (база данных); Алгоритмическое знание
1. 2. 3. 4. 5.
Модель объекта, системы; Постановка задачи; Содержание задачи (спецификация); Решение; Анализ
Экспертная оценка Принятие решения Выработка управления
Имитационная модель системы
Объект управления
Рис. 5.7. Структура ДЭС первого типа
Здесь предполагается, что концептуальные и фактуальные знания точно отражают процессы и сведения, относящиеся к некоторой предметной области. Тогда решение задачи, возникающей в этой области, будет получено на основе строгих математических методов, в соответствии с постановкой и спецификацией. Результаты исследования решения и прогноз используются для получения экспертной оценки и принятия решения о необходимости управления. Затем на основе подходящего алгоритма управления, имеющегося в базе знаний, формируется управляющее воздействие.
478
Методы современной теории автоматического управления
Эффективность и непротиворечивость этого воздействия, прежде чем оно поступит на объект управления, оценивается с помощью имитационной математической модели. Оценка должна выполняться быстрее реальных процессов в ИС. Однако ДЭС, реализующие принятие решения, представляют собой сложные программные комплексы, предназначенные для автоматического принятия решения или для помощи лицам, принимающим решения, и при оперативном управлении сложными системами и процессами, как правило, работают в условиях жестких временных ограничений. В отличие от ДЭС первого типа, предназначенных для поиска оптимального решения и базирующихся на строгих математических методах и моделях оптимизации, ДЭС второго типа в основном ориентированы на решение трудно формализуемых задач в отсутствие полной и достоверной информации. Здесь используются экспертные модели, построенные на основе знаний экспертов — специалистов в данной проблемной области, и эвристические методы поиска решения. Одной из основных проблем при проектировании ДЭС второго типа является выбор формального аппарата для описания процессов принятия решений и построение на его основе модели принятия решений, адекватной проблемной области (семантически корректной). В качестве такого аппарата обычно используют продукционные системы. Однако основные исследования ведутся в контексте алгоритмической (детерминированной) трактовки продукционной системы с присущей ей последовательной схемой поиска решения. Получающиеся в результате модели зачастую неадекватны реальным проблемным областям, характеризующимся недетерминизмом процесса поиска решения (рис. 5.8). Выход из такого положения — параллелизм при поиске. Реально следует ориентироваться на объединение ДЭС первого и второго типа в расчетно-логическую ДЭС третьего типа, где база знаний сочетает описание в виде строгих математических формул с информацией экспертов, а также соответственно — математические методы поиска решения с нестрогими эвристическими методами, причем вес того или другого компонента определяется возможностью адекватного описания предметной области и способом отыскания решения (рис. 5.9). При разработке ДЭС возникают следующие проблемы: • определение состава базы знаний и ее формирование; • разработка новых и использование известных теорий и методов для описания информационных процессов в ИС; • разработка способов представления и организации использования знаний; • разработка алгоритмов и программного обеспечения с распараллеливанием и использованием «гибкой логики»; • отыскание подходящих вычислительных сред для реализации параллельных алгоритмов при формировании ДЭС. Наряду с изложенным важно отметить, что ДЭС должны обладать свойством адаптации к динамической проблемной области, способностью ввода новых элементов и связей в описание ситуаций, изменения правил и стратегии функционирования объектов в процессе принятия решения и выработки управления, работы с неполной, нечеткой и противоречивой информацией и т.д. Требования к ДЭС. Динамические экспертные системы функционируют в составе ИС, имеющих обратные связи, и поэтому важно обеспечить устойчивую работу таких ИС. С традиционных позиций можно считать, что длительность реакции ДЭС на входные воздействия, т.е. время, затрачиваемое на обработку входной информации и выработку управляющего воздействия, есть чистое запаздывание. На основе частотного анализа можно оценить изменение фазовых свойств системы и тем самым определить запас устойчивости. При необходимости можно произвести коррекцию системы посредством фильтров.
Глава 5. Интеллектуальные системы
479
Однако с точки зрения классической теории управления ИС являются многообъектными многосвязными системами, анализ устойчивости которых обычными способами весьма затруднителен. Знания в области интеллектуальных систем Собственное состояние системы Окружающая среда
Цель
1. 2. 3. 4.
База знаний Концептуальное знание; Фактуальное знание (база данных); Алгоритмическое знание; Сетевая и логическая продукция
1. 2. 3.
4. 5. 6.
Решение задачи Экспертные модели на основе знаний специалистов-экспертов; Эвристические методы поиска решения; Композиция математических и эвристических методов (расчетно-логические методы); «Гибкая логика»; Продукционные системы; Параллелизм в обработке продукций
Экспертная оценка
Принятие решения
Выработка управления
Объект управления
Рис. 5.8. Структура ДЭС второго типа
Имитационная модель системы
480
Методы современной теории автоматического управления
Знания в области интеллектуальных систем Собственное состояние системы Окружающая среда
Цель
1. 2. 3. 4.
База знаний Знания специалистов-экспертов; Фактуальное знание (база данных); Алгоритмическое знание; Сетевая и логическая продукция
1. 2. 3. 4. 5. 6.
Решение задачи Экспертные модели на основе знаний специалистов-экспертов; Эвристические методы поиска решения; «Гибкая логика»; Продукционные системы; Параллелизм в обработке продукций; Прогноз
Экспертная оценка
Принятие решения
Выработка управления
Имитационная модель системы
Объект управления
Рис. 5.9. Структура ДЭС третьего типа
5.1.3.
КОМБИНИРОВАНИЕ РОБАСТНОГО И АДАПТИВНОГО УПРАВЛЕНИЯ С ПОМОЩЬЮ ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМ
В настоящее время теория робастного управления ( H ∞ -теория управления, H ∞ -управление) является одной из интенсивно развивающихся ветвей теории управления [122].
Глава 5. Интеллектуальные системы
481
Сравнительно молодая (первые работы появились в начале 80-х гг.), она возникла из насущных практических проблем синтеза многомерных линейных систем управления, функционирующих в условиях различного рода возмущений и изменения параметров. Бурно развиваются такие новые направления, как нелинейная и нестационарная H ∞ -теории управления, задачи которой рассматриваются как задачи теории игр. Растет число публикаций — зарубежных и отечественных. На Европейской конференции по управлению (ЕСС′93) в Гронингене значительная часть докладов так или иначе касалась теории робастного управления. Несколько лет назад наиболее популярной ветвью теории управления была теория адаптивного управления. Она развивалась как для детерминированной, так и для вероятностной постановки задачи. Существует громадная библиография в этой области. Однако в последние годы ее объем стал заметно уменьшаться. Причина этого не только в сложности развитой теории, но и в сложности реализации предлагаемых алгоритмов. Алгоритмы адаптивного управления (прямого и непрямого) оказались негрубыми к неучтенным внешним и параметрическим возмущениям, причем алгоритмы беспоисковой самонастройки ляпуновского типа — особенно чувствительными. В восьмидесятые годы предприняты попытки строить грубые адаптивные регуляторы; однако эти алгоритмы были сложны в реализации и, по сути, являлись «подправленными» алгоритмами ляпуновского типа. Можно подойти к проблеме проектирования управления реальным сложным объектом, функционирующим в условиях неопределенности, другим образом: не пытаться использовать один тип управления — адаптивный или робастный. Очевидно, следует выбирать тот тип, который соответствует состоянию окружающей среды и системы, определенному по имеющейся в распоряжении системы информации. Если же в процессе функционирования системы можно организовать получение информации, целесообразно использовать ее в процессе управления. Но реализация такого комбинированного управления до недавнего времени наталкивалась на непреодолимые трудности при определении алгоритма выбора типа управления. Достигнутые в разработке проблем искусственного интеллекта успехи делают возможным синтез такого алгоритма. Действительно, поставим задачу: спроектировать систему, использующую адаптивное и робастное управление и осуществляющую выбор типа управления на основе методов искусственного интеллекта. Для этого рассмотрим особенности обоих типов и, учитывая их специфические качества, определим, как можно построить систему комбинированного управления. Особенности робастного управления. Одним из основных понятий в теории робастного управления является понятие неопределенности. Неопределенность объекта отражает неточность модели объекта, причем как параметрическую, так и структурную. Рассмотрим подробнее формы задания неопределенности в робастной теории управления с помощью простой системы — с одним входом и одним выходом (рис. 5.10). Сигналы имеют следующую интерпретацию: r — задающий входной сигнал; u — входной сигнал (вход) объекта; d — внешнее возмущение; y — выходной сигнал (выход) объекта, измеряемый. d r
y
u
C
P
Рис. 5.10. Система с одним входом и одним выходом
482
Методы современной теории автоматического управления
В H ∞ -теории управления неопределенность удобно задавать в частотной области. Предположим, что передаточная функция нормального объекта P, и рассмотрим возмущенный объект, передаточная функция которого, например, P% = (1 + ΔW ) P. Здесь W — фиксированная передаточная функция (весовая функция), а Δ — произвольная устойчивая передаточная функция, удовлетворяющая неравенству Δ ∞ ≤ 1. Такое возмущение Δ будем называть допустимым. Ниже приведем некоторые варианты моделей неопределенности: (1 + ΔW ) P; P + ΔW ; P (1 + ΔWP ) ; P (1 + ΔW ) . Соответствующие предположения должны быть сделаны для величин Δ и W в каждом случае. Неопределенность входных сигналов d отражает различную природу внешних возмущений, действующих на объект и регулятор. Неопределенный объект, таким образом, может рассматриваться как некое множество объектов. Выберем некую характеристику систем с обратной связью, например устойчивость. Регулятор С является робастным относительно этой характеристики, если ею обладает любой из множества объектов, задаваемых неопределенностью. Таким образом, понятие робастности подразумевает наличие регулятора, множества объектов и фиксацию определенной характеристики системы. В этой работе мы не будем затрагивать всего множества задач, решаемых в рамках H ∞ -теории управления. Коснемся лишь задачи минимальной чувствительности: построения такого регулятора С, который стабилизирует замкнутую систему и минимизирует влияние внешних возмущений на выход y, иначе говоря, минимизирует H ∞ -норму матрицы передаточных функций от внешних возмущений к выходу y. Одной из особенностей решения этой, да и всего множества задач робастного управления является тот факт, что мы заранее в процессе проектирования регулятора закладываем ограничения на входные воздействия и неопределенность объекта в виде неравенств Δ ∞ ≤ 1, d 2 ≤ c1.
В процессе функционирования робастной системы информация о неопределенностях в системе не используется для управления. Естественно, это приводит к тому, что робастные системы консервативны и качество переходных процессов порой не удовлетворяет разработчиков этих систем. Особенности адаптивных систем управления. Подобно робастной адаптивная система управления строится для объектов, информация о которых или о воздействиях на которые недоступна в начале функционирования системы. Чаще всего свойство адаптации достигается посредством формирования в явном или неявном виде математической модели объекта или входного воздействия. Этим отличается как поисковое адаптивное управление, в основе которого поиск и удержание экстремума показателя качества управления, так и беспоисковое, в основе которого компенсация отклонения фактических изменений управляемых координат от желаемых изменений, соответствующих требуемому уровню показателя качества. Далее по уточненной модели происходит подстройка адаптивного регулятора. Таким образом, основная особенность адаптивных систем управления — возможность получения информации в процессе функционирования и использования этой информации для управления. Более того, в адаптивных системах всегда используется априорная информация о неопределенности в системе. Это принципиальное отличие адаптивного подхода от робастного. Рассмотрим простейшую адаптивную систему управления, обеспечивающую отслеживания входного сигнала в присутствии помехи на входе объекта (рис. 5.11).
Глава 5. Интеллектуальные системы
483
Алгоритмы построения такой системы управления широко известны и описаны, например, в работе [122]. d u
r
C
y
P
A
Рис. 5.11. Адаптивная система управления
Формальное отличие от схемы на рис. 5.10 — блок адаптации A, который на основании выходного сигнала объекта и сигнала, характеризующего заданное качество, вырабатывает сигнал подстройки коэффициентов адаптивного регулятора. Имея в виду недостатки каждого из регуляторов, целесообразно попытаться использовать их достоинства, предложив комбинированную схему управления объектом. Адаптивная система при помощи блока адаптации вырабатывает некоторую информацию о состоянии внешней среды. В частности, в рассматриваемом случае можно получить информацию о внешнем возмущении d . Алгоритм управления Ca соответствует текущему состоянию внешней среды согласно заложенному в блоке адаптации критерию. Но адаптивная система требует, чтобы входной сигнал r имел достаточно широкий частотный диапазон, и накладывает жесткие ограничения на значение и частотный спектр сигнала внешнего возмущения d . Поэтому адаптивные системы могут работать только в узких диапазонах входного сигнала r и внешнего возмущения d . Вне этих диапазонов адаптивная система имеет низкое качество управления и может даже потерять устойчивость. Рассмотренные выше свойства робастного и адаптивного управления приводят к заключению, что в процессе функционирования системы в одних случаях выгодно использовать робастное управление, в других — адаптивное, т.е. иметь возможность комбинировать управление в зависимости от состояния внешней среды. Комбинированное управление. Основной вопрос при проектировании систем комбинированного управления заключается в том, каким образом, на основании каких знаний (информации) осуществлять выбор того или иного типа управления. Наиболее широкие возможности для этого представляют методы искусственного интеллекта [122]. Их преимущество по сравнению с простыми переключающими алгоритмами состоит в использовании широкого спектра данных и знаний для формирования алгоритма выбора типа управления. Если формально объединить схемы, приведенные на рис. 5.10, 5.11, то получим схему комбинированного управления (рис. 5.12). Как видно из рисунка, сигнал управления u должен переключаться с робастного регулятора на адаптивный и наоборот — по мере изменения окружающей среды в процессе функционирования системы. Используя методы теории интеллектуальных систем, можно обеспечить переход с одного типа управления на другой в зависимости от условий работы системы. Рассмотрим сначала, какую информацию можно использовать для работы интеллектуального блока системы. Как известно, системы с одним входом и одним выходом хорошо описываются в частотной области. Поэтому естественно использовать
484
Методы современной теории автоматического управления
частотные характеристики для организации процесса принятия решений при выборе типа управления. Как указывалось выше, частотная характеристика системы с робастным управлением соответствует наихудшему сочетанию параметров в области неопределенности. Поэтому робастное управление можно принять за одну из границ выбираемого управления. Другая граница определяется возможностями исследуемой системы (быстродействие привода, энерговооруженность и т.д.). Между этими двумя границами находится область, где разумно использовать адаптивное управление.
Сr
d u
r
Cа
y
P
A
Рис. 5.12. Схема комбинированного управления
Так как адаптивный алгоритм чувствителен к начальному этапу функционирования системы, то на этом этапе целесообразно использовать робастное управление, которое достаточно нечувствительно к скорости изменения внешней помехи. Но его недостатком является большая длительность переходных процессов и большие допустимые значения выходной координаты при действии помехи. По истечении некоторого времени робастное управление имеет смысл переключить на адаптивное. Адаптивное управление позволяет более точно отследить входной сигнал при наличии информации о помехе. Адаптивное управление требовательно к богатству спектра входного сигнала, и, например, при медленно меняющихся сигналах возможны срывы процессов адаптации или сильное их замедление. В такой ситуации необходимо снова переходить на робастное управление, гарантирующее устойчивость работы системы. Из вышеизложенного следует, что для функционирования системы необходимо иметь информацию о частотном спектре полезного сигнала помехи и об отношении сигнал/шум. Кроме того, требуется предварительная информация о частотном спектре, на котором работает адаптивная система, и о частных характеристиках объекта управления на границах области неопределенности. Из этой информации можно сформировать базу данных, в которую информация, индивидуальная для каждого класса объектов, заносится заранее. Информация о частотном спектре полезного сигнала, помех и об отношении сигнал/шум поступает в базу данных по мере функционирования системы и постоянно обновляется. Содержимое базы данных может быть использовано в базе знаний, которая формируется в виде правил. В зависимости от конкретных свойств системы можно установить переключения двух типов управления. Требуемые правила формируются в одной из логических систем, подходящей для рассматриваемого случая. Имея базы данных и знаний, можно разработать механизм принятия решений, который будет обеспечивать правильный выбор типа управления в зависимости от условий функционирования системы.
Глава 5. Интеллектуальные системы
485
БПОИ
БД
БПР
БЗ
Сr
d u
Cа
P
A
Рис. 5.13. Структурная схема системы с интеллектуальным блоком (ИБ)
Интеллектуальная часть системы работает дискретно, на заданных интервалах времени. На рис. 5.13 приведена структурная схема системы с интеллектуальным блоком ИБ, обеспечивающим выбор типа управления. На вход блока поступают сигнал r и измеряемый, выходной сигнал объекта y. В блоке предварительной обработки информации БПОИ по временным характеристикам сигналов r ( t ) , y ( t ) определяются частотные характеристики входного сигнала r ( w ) и внешнего возмущения d ( w ) , взаимное расположение спектров r ( w ) и d ( w ) и характерные значения отношения сигнал/шум r ( w ) d ( w ) . Вся эта информация поступает в базу данных БД. Блок принятия решения БПР, используя сформированную базу знаний БЗ и данные БД, вырабатывает решение, в соответствии с которым включается один из типов управления. На следующем интервале процесс повторяется с использованием новых данных. 5.2. 5.2.1.
ПАРАЛЛЕЛЬНЫЕ АЛГОРИТМЫ ОБРАБОТКИ ИНФОРМАЦИИ И УПРАВЛЕНИЯ СИНТЕЗ ПАРАЛЛЕЛЬНЫХ АЛГОРИТМОВ ОБРАБОТКИ ИНФОРМАЦИИ В ИНТЕЛЛЕКТУАЛЬНЫХ ДИНАМИЧЕСКИХ СИСТЕМАХ ПРИ ВНЕЗАПНЫХ ВОЗМУЩЕНИЯХ
В настоящее время бурное развитие средств вычислительной техники, внедрение современных компьютерных технологий открывает широкие возможности для достижения качественного скачка в уровне эффективности информационно-управляющих систем в аэрокосмической технике, на производстве, транспорте, в экономике, экологии, медицине и других областях на основе использования принципов искусственного интеллекта, методов самоорганизации и адаптации к изменяющимся условиям и целям функционирования, характеристикам системы и внешней среды, неконтролируемой обстановке.
486
Методы современной теории автоматического управления
Реализация этих принципов в динамических задачах требует создания адекватного теоретического аппарата, достаточно развитых и апробированных методов анализа и синтеза интеллектуальных динамических систем. Создаваемый аппарат должен включать эффективные методы обнаружения и распознавания внезапных изменений, структурно-параметрической идентификации и адаптивной фильтрации, которые пригодны для использования в реальном времени и обеспечивают извлечение из доступных наблюдений всей апостериорной информации, необходимой для принятия достоверных решений и выработки эффективных управляющих воздействий в условиях неопределенности. При этом необходимо получить алгоритмы параллельного типа, поскольку сложность решаемых с их помощью задач приводит к необходимости выполнения больших объемов вычислений в реальном времени. Следует выделить два направления теоретических исследований, связанных с построением параллельных алгоритмов обработки информации. Первое направление заключается в разработке специальных методов синтеза, ориентированных на получение параллельных структур. Второе — состоит в разработке специальных алгоритмов выполнения операций с матрицами, содержащих цепочки не связанных друг с другом расчетов. В рамках первого направления предлагается принцип минимальной сложности алгоритмов распознавания-оценивания, позволяющий корректно синтезировать алгоритмы, ориентированные на реализацию в реальном времени на транспьютерах, для широкого класса интеллектуальных динамических систем с внезапными возмущающими факторами. Постановка задачи. Решение проблемы создания высокоэффективных методов обработки информации в интеллектуальных динамических системах непосредственно связано с разработкой математических моделей, которые отражают специфику сложных условий функционирования системы, таких, как неопределенность и изменение характеристик внешней среды, появление аномальных ситуаций, отказов источников информации, каналов связи, устройств, реализующих формирование управляющих команд другого оборудования, а также влияние возмущений и помех. Проведенные исследования показали, что формализация рассматриваемого класса задач может быть естественным образом осуществлена с использованием математического языка гибридных стохастических моделей, представляющих собой композицию случайных процессов и цепей. Такая модель может быть представлена в виде следующих стохастических уравнений x ( k + 1) = Ф k ⎡⎣ m ( k ) , γ ( k ) , m ( k + 1) , γ ( k + 1) , u ( k ) ⎤⎦ ⋅ x ( k ) + + Г k ⎡⎣ m ( k ) , γ ( k ) , m ( k + 1) , γ ( k + 1) , u ( k ) ⎤⎦ ⋅ w ( k ) ; z ( k + 1) = H k +1 ⎡⎣ m ( k + 1) , γ ( k + 1) ⎤⎦ + G k +1 ⎡⎣ m ( k + 1) , γ ( k + 1) ⎤⎦ ⋅ v ( k ) ,
(5.1)
где x ( k ) — расширенный вектор состояния обобщенного объекта управления (ООУ) и модели окружающей среды (ОКС); u ( k ) — вектор управляющих воздействий; z ( k + 1) — вектор доступных наблюдений; w ( k ) и v ( k ) — некоррелированные
между собой чисто случайные последовательности векторов (дискретные белые шумы); Ф k [⋅] , Г k [⋅] , H k +1 [⋅] и G k +1 [⋅] — матричные функции соответствующих размерностей. Специфика рассматриваемой задачи заключается в том, что вследствие возникновения аномальных явлений и ситуаций в ОКС, а также отказов в ООУ такие характеристики, как ООУ и ОКС, подвержены разнородным случайным внезапным изменениям (ВИ), для описания которых используются совместно марковские и полумар-
Глава 5. Интеллектуальные системы
487
ковские цепи. В уравнениях (5.1) m ( k ) — совокупность моментов последних изменений характеристик ООУ и ОКС, описываемых полумарковскими моделями, причем m ( k + 1) = {m1 ( k ) , m2 ( k ) ,K , mN ( k )} , (5.2) где mi ( k ) — момент последнего, предшествующего текущему моменту k , ВИ i-го типа в ООУ (или ОКС): ⎧k + 1 при возникновении ВИ ⎪ i -го типа в момент k + 1; ⎪ mi (k + 1) = ⎨ ⎪mi ( k ) при возникновении ⎪ такого ВИ. ⎩ В начальный момент k = 0 формально принимается, что
(5.3)
mi ( 0 ) = 0, i = 1, N .
Внезапные изменения характеристик ООУ и ОКС отражаются в изменении совокупностей переменных переключения (ПП) γ ( k ) , которые, в свою очередь, состоят из двух наборов величин
γ ( k ) = {γ ′ ( k ) , γ ′′ ( k )}.
(5.4)
Переменные переключения, входящие в состав этих совокупностей, принимают значения на конечных множествах. При этом γ ′ ( k ) изменяется в соответствии с полумарковскими моделями Pr {m ( k + 1) = mk +1 , γ ′ ( k + 1) = γ k +1 m ( k ) = mk , γ ( k ) = γ k } = = pk′ +1 ( mk +1 , γ ′k +1 mk , γ k ) ,
(5.5)
а γ ′′ ( k ) — согласно марковским моделям Pr {γ ′′ ( k + 1) = γ ′′k +1 γ ′′ ( k ) = γ ′′k , m ( k + 1) = mk +1 , γ ′ ( k + 1) = γ ′k +1 } = = pk′′+1 ( γ ′′k +1 γ ′′k , mk +1 , γ ′k +1 ) ,
(5.6)
где Pr { A B} обозначает условную вероятность события A при фиксированном условии B; γ k — конкретное значение совокупности γ ( k ) в момент k . Для совокупности ПП γ ( k ) задано также начальное распределение в момент k = 0 Pr {γ ( 0 ) = γ 0 } = p0 ( γ 0 ) .
(5.7)
Условные априорные плотности вероятности начального состояния ООУ и ОКС, а также шумов w ( k ) и v ( k ) при фиксированных значениях ПП аппроксимируется гауссовскими распределениями в заданном виде f x (0) { x γ ( 0 ) = γ 0 } = N { x x0 γ ( 0 ) , P0 ( γ 0 )} ; f w( k ) {w m ( k ) = mk , γ ( k ) = γ k , m ( k + 1) = mk +1 , γ ( k + 1) = γ k +1} = = N {w wk ( mk , γ k , mk +1 , γ k +1 ) , Qk ( mk , γ k , mk +1 , γ k +1 )} ;
(5.8)
f v ( k +1) {v m ( k + 1) = mk +1 , γ ( k + 1) = γ k +1 } = = N {v vk +1 ( mk +1 , γ k +1 ) , Rk +1 ( mk +1 , γ k +1 )} ,
где N { x x , P} обозначает гауссовскую плотность распределения в точке x с математическим ожиданием (МО) x и ковариацией P.
488
Методы современной теории автоматического управления
Задача обработки информации в интеллектуальной самоорганизующейся системе ставится как задача определения условных апостериорных оценок вектора состояния и переменных переключения: ) x ( k ) = M x ( k ) Z k , m ( k ) = mk , γ ( k ) = γ k ; (5.9) ) y ( k ) = arg max ⎡ Pr m ( k ) = mk , γ ( k ) = γ k Z k ⎤ , ⎣ ⎦ m ,γ
{
}
{
k
}
k
где Z k = { z (1) , z ( 2 ) ,K , z ( k )} — измерительная информация, поступившая к момен⋅ — математическое ожидание (МО). ту k ; M {} Принцип минимальной сложности байесовских алгоритмов обработки информации в переключающейся среде. Решение поставленной задачи представляет собой теоретическую проблему, сложность которой обусловлена случайными переключениями матриц в уравнениях ООУ и ОКС (5.1) под влиянием разнородных внезапных возмущающих факторов. Для преодоления этой проблемы предлагается подход, базирующийся на развитии идей и концепций [89] применительно к задачам динамического искусственного интеллекта, в основе которого лежат специальные процедуры «ветвления-свертки» гипотез о внезапных изменениях в системе, реализуемой в реальном времени в процессе обработки информации. В принципе, существует множество вариантов «ветвления-свертки» гипотез на различных этапах процесса оценивания (перед прогнозированием состояния ООУ и ОКС, перед обработкой текущих изменений и т.д.). Каждый из этих вариантов различается алгоритмом трансформации множества гипотез при их размножении и при объединении нескольких гипотез в одну. Для каждой из тестируемых гипотез вычисляются условные (парциальные) оценки расширенного вектора состояния ООУ и ОКС. Поэтому вычислительная сложность синтезируемого алгоритма обработки информации возрастает пропорционально количеству гипотез о ВИ. Следовательно, для получения наиболее простого в вычислительном отношении алгоритма следует стремиться уменьшать число рассматриваемых гипотез на каждом этапе процесса оценивания. С другой стороны, такое уменьшение, как правило, влечет за собой снижение точности вычисляемых оценок и достоверности решений, принимаемых при распознавании случайных событий. Существует принципиальный вопрос об ограничениях снизу на число рассматриваемых гипотез, накладываемых исходной постановкой задачи (математической моделью изменения ПП). Эти ограничения сформулированы ниже в виде совокупности условий, составляющих существо установленного принципа минимальной вычислительной сложности алгоритмов распознавания-оценивания. Условие 5.1. После завершения обработки информации на каждом текущем шаге должна быть сформирована совокупность статистик, достаточных для прогнозирования состояния ООУ и ОКС, а также значений переменных переключения в будущие моменты времени с учетом математической модели обобщенного объекта и используемой аппроксимации парциальных апостериорных плотностей вероятности вектора состояния. Условие 5.2. Перед парциальным прогнозированием вектора состояния с k-го на ( k + 1)-й шаг совокупность фиксируемых в гипотезах значений ПП должна обеспечивать независимость значения вектора x ( k + 1) в момент ( k + 1) от ВИ в случае, когда
его значение x ( k ) на предыдущем k-м шаге фиксировано. Условие 5.3. Вычисление парциальных апостериорных оценок вектора состояния должно производиться для совокупности гипотез, в которых значения ПП зафиксированы таким образом, чтобы при заданном значении вектора состояния x ( k + 1) вектор измерений z ( k + 1) не зависел от ВИ.
Глава 5. Интеллектуальные системы
489
Условие 5.4. Перед обработкой текущих измерений набор парциальных прогнозируемых оценок вектора состояния должен обеспечивать возможность вычисления функций правдоподобия любой из тестируемых в этот момент гипотез. Выполнение всех перечисленных условий гарантирует корректность процесса обработки информации и, напротив, нарушение любого из них делает такой процесс некорректным. Адаптивная обработка информации в интеллектуальных динамических системах. Применим сформулированный принцип минимальной сложности при построении алгоритма распознавания−оценивания для рассматриваемой задачи (5.1)–(5.9). Достаточные статистики при гауссовской аппроксимации парциальных апостериорных плотностей вероятности расширенного вектора состояния x ( k ) включают в себя апостериорные вероятности
{
qk ( mk , γ k ) = Pr U k ( mk , γ k ) Z k
}
(5.10)
гипотез U k ( mk , γ k ) = {m ( k ) = mk , γ ( k ) = γ k } и совокупность первых двух моментов апостериорных парциальных плотностей вероятности ) x k ( mk , γ k ) = M x ( k ) Z k , U k ( mk , γ k ) ,
{
}
{
(5.11)
}
) T Pk ( mk , γ k ) = M ⎡⎣ x ( k ) − x k ( mk , γ k ) ⎤⎦ ⋅ [⋅] Z k , U k ( mk , γ k ) . Здесь и далее для краткости обозначено
[ x] ⋅ [⋅]T = [ x] ⋅ [ x]T . Совокупность статистик (5.10) и (5.11) должна быть вычислена на каждом k-м шаге процесса обработки информации. Пусть на шаге k-м они определены. Рассмотрим поэтапно процедуру их вычисления на ( k + 1)-м шаге. Этап 1. «Ветвление» гипотез с учетом полумарковских и марковских ВИ в ООУ и ОКС подразумевает вычисление вероятностей qk +1 k ( mk , γ k , mk +1 , γ k +1 ) = Pr {U k ( mk , γ k ) , U k +1 ( mk +1 , γ k +1 )} = = qk ( mk , γ k ) ⋅ pk′ +1 ( mk +1 , γ k +1 mk , γ k ) ⋅ pk′′+1 ( γ ′′k +1 γ k , mk +1 , γ ′k +1 ) . Этап 2. Парциальное прогнозирование при фиксированных «разветвленных» гипотезах U k ( mk , γ k ) , U k +1 ( mk +1 , γ k +1 ) заключается в определении условных парциальных МО и ковариаций ) x k +1 k ( mk , γ k , mk +1 , γ k +1 ) = M x ( k + 1) Z k , U k ( mk , γ k ) , U k +1 ( mk +1 , γ k +1 ) ;
{
{
}
) Pk +1 k ( mk , γ k ) = M ⎡⎣ x ( k + 1) − x k +1 k ( mk , γ k , mk +1 , γ k +1 ) ⎤⎦ × × [⋅]
T
}
Z k , U k ( mk , γ k ) , U k +1 ( mk +1 , γ k +1 )
с помощью стандартных соотношений прогнозирования фильтра Калмана, составленных по уравнению состояния (5.1) при фиксированных значениях m ( k ) , γ ( k ) , m ( k + 1) , γ ( k + 1) .
Этап 3. «Свертка» гипотез по переменным mk и γ k означает вычисление вероятностей
{
}
qk +1 k ( mk +1 , γ k +1 ) = Pr U k +1 ( mk +1 , γ k +1 ) Z k = =
∑
mk , γ k
qk +1 k ( mk , γ k , mk +1 , γ k +1 );
(5.12)
490
Методы современной теории автоматического управления
{
}
qk ( mk , γ k mk +1 , γ k +1 ) = Pr U k ( mk , γ k ) Z k , U k +1 ( mk +1 , γ k +1 ) = = qk +1 k ( mk , γ k , mk +1 , γ k +1 ) qk +1 k ( mk +1 , γ k +1 ) .
(5.13)
Этап 4. «Свертка» парциальных прогнозируемых оценок и ковариаций по mk и γ k осуществляется по формулам ) xk +1 k ( mk +1, γ k +1 ) = M x ( k + 1) Z k , U k +1 ( mk +1, γ k +1 ) = ) = ∑ qk ( mk , γ k mk +1 , γ k +1 ) ⋅ xk +1 k ( mk , γ k , mk +1, γ k +1 ) ⋅ Pk +1 k ( mk , γ k mk +1 , γ k +1 ) =
{
}
mk , γ k
=
∑ qk ( mk , γk
mk , γ k
mk +1 , γ k +1 ) ⎡⎣ Pk +1 k ( mk , γ k mk +1 , γ k +1 ) +
) ) + ⎡⎣xk +1 k ( mk +1, γ k +1 ) − xk +1 k ( mk , γ k , mk +1, γ k +1 ) ⎤⎦ ⋅ [⋅]T ⎤⎦ .
Этап 5. Парциальное оценивание расширенного вектора состояния в момент ( k + 1) с учетом текущего измерения z ( k + 1) производится в соответствии со стандартным алгоритмом фильтра Калмана для каждой из фиксированных гипотез U k +1 ( mk +1 , γ k +1 ) . В результате вычисляются искомые апостериорные парциальные оценки и ковариации вида (5.11), но уже для текущего момента ( k + 1 ). Этап 6. Процесс обработки информации завершается тестированием гипотез U k +1 ( mk +1 , γ k +1 ) , которое означает вычисление апостериорных вероятностей qk +1 k ( mk +1 , γ k +1 ) вида (5.10) по формуле Байеса.
При этом в качестве «априорных» выступают вероятности (5.13), а функциями правдоподобия гипотез являются гауссовские плотности Π k +1 ( mk +1 , γ k +1 ) = N {Δzk +1 ( mk +1 , γ k +1 ) 0, Dk +1 ( mk +1 , γ k +1 )} , где Δzk +1 ( mk +1 , γ k +1 ) — невязка измерений, а Dk +1 ( mk +1 , γ k +1 ) — ее ковариация, вычисленные для каждой пары значений mk +1 и γ k +1 на предыдущем этапе в процессе реализации процедуры калмановской фильтрации. Наконец, согласно (5.9) вычисляется искомая оценка значений совокупности ПП в виде ) y ( k + 1) = arg max ⎡⎣ q ( mk +1, γ k +1 ) ⎤⎦ . m ,γ k +1
k +1
Синтезированный алгоритм адаптивной обработки информации на каждом из рассмотренных этапов имеет ярко выраженную параллельную структуру, так как определение всех парциальных оценок и вероятностей гипотез должно быть произведено для всех комбинаций значений ПП и моментов последних изменений m. Поэтому он идеально приспособлен для реализации на параллельных вычислительных структурах. В представленном виде количество вычислений растет в этом алгоритме линейно во времени. Однако, используя отбрасывание маловероятных гипотез на границе скользящего окна [89], можно ограничить объем вычислений заранее заданной конечной величиной. Проведенные исследования показали, что предлагаемый принцип минимальной вычислительной сложности алгоритмов обработки информации в интеллектуальных динамических системах, функционирующих в условиях влияния внезапных возмущающих факторов, позволяет эффективно решить широкий спектр важных практических задач, в которых такие факторы имеют различную физическую природу и могут действовать как поочередно, так и одновременно.
Глава 5. Интеллектуальные системы 5.2.2.
491
ДИНАМИЧЕСКАЯ НЕЙРОННАЯ СЕТЬ ДЛЯ РАСПОЗНАВАНИЯ РЕЧЕВЫХ СИГНАЛОВ
Трудности применения нейронных сетей к распознаванию речи обусловлены спецификой динамической природы речевого сигнала и выражаются в том, что в процессе классификации сигнал должен быть нелинейно деформирован по шкале времени с целью нормализации длительностей различных его участков [272]. Ввиду этого возможности применения стационарных нейронных сетей (многослойных персептронов) ограничены либо распознаванием фонем, соответствующих коротким участкам сигнала, на которых не требуется нормализация длительности; либо распознаванием слов в небольших словарях, где оказывается возможным вообще не учитывать порядок следования участков сигнала во времени, а для распознавания достаточно просто набора признаков, выделенных на всей длине слова. Попытки достичь нормализации длительности сигнала при использовании стационарных нейронных сетей требуют нелинейной деформации пространства входов сети, которая может быть осуществлена за счет введения в нейроподобные элементы дополнительных входов, организующих временные задержки информации во всех слоях. Такое усложнение сети ведет к значительному увеличению времени обучения. Применение традиционных рекуррентных сетей аналогично введению в сеть механизма задержек за счет обратных связей. Кроме того, представления эталонов оказываются скрытыми в весах сети и не допускают наглядной интерпретации, что является важным на этапе отладки системы распознавания и выбора параметров первичной обработки сигнала. Предлагаемая динамическая нейронная сеть позволяет решить указанные проблемы и формирует хорошо интерпретируемые многоуровневые иерархические представления эталонов речевых событий, а также отличается быстротой обучения. В основе нейронной сети, называемой динамическим ассоциативным запоминающим устройством (ДАЗУ), лежит идея отображения входных последовательностей в траектории-трубки многомерного сигнального пространства с сохранением топологии пространства перцептивных признаков. Этот принцип, предложенный А.Н. Радченко для интерпретации работы реального нейрона и развитый впоследствии в [272], позволяет построить нейронную сеть, способную к распознаванию речевых образов на основе последовательностей векторов параметров первичного описания сигнала. ДАЗУ позволяет сформировать эталон речевого образа в форме графа, порожденного объединением трубок, соответствующих отображениям конкретных акустических реализаций из обучающего множества в сигнальное пространство. Форма эталона в ДАЗУ соответствует принятому в распознавании речи представлению эталонов речевых событий в виде сетей состояний и переходов. В такой сети состояния описывают относительно короткие участки сигнала, а переходы между ними выражают отношения следования во времени. Каждой реализации речевого образа в сети соответствует (является наиболее близкой) определенная последовательность состояний и связывающих их переходов-траекторий. Распознавание осуществляется как выбор эталона, содержащего траекторию, наиболее близкую к той, в которую отображается входной сигнал. Формирование эталона в ДАЗУ. Структура ДАЗУ. ДАЗУ представляет собой набор нейроподобных элементов (НЭ) с общим входом и общим выходом, каждый из которых моделирует точку сигнального пространства (СП) или гиперсферу с центром в этой точке. Выход ДАЗУ замыкается на общий вход всех НЭ через механизм управления, называемый механизмом внимания (МВ), что реализует обратную связь (рис. 5.14). € = w€1 ,K , w€n , интерпретируемый НЭ содержит адресную часть — вектор весов w
(
)
как координаты точки в СП. Общим входом всех НЭ является регистр сдвига (РС), моделирующий задержку при прохождении сигнала по дендритному дереву реального
492
Методы современной теории автоматического управления
нейрона. На каждом такте работы сети содержимое РС сдвигается и в освободившиеся позиции добавляется очередной входной вектор параметров (ВП) первичного описания сигнала. Преобразование, осуществляемое РС, разбивает последовательность ВП на последовательность n-грамм, сдвинутых одна относительно другой на один ВП.
wn−1 y2
y1 wˆ 1 wˆ 2 wˆ 1
y1 wˆ n
wˆ 1 wˆ 2
wˆ n wˆ 2
wˆ n
wˆ 1 wˆ 2 wˆ 1
at −n at−n+1
at , at +1 , K
at −1
Рис. 5.14. Структура ДАЗУ
Обозначив последовательность ВП как A = ( at ) , можно записать преобразование, осуществляемое РС как отображение F , A€ = F ( A ) : F ( A ) = F (K , at −1 , at ,K) =
(
)
= K , ( at − n , at − n +1 ,K , at −1 )t −1 , ( at − n +1 , at − n +1 ,K , at )t ,K = n
n
(5.14)
= (K , a€t −1 , a€t ,K) = ( a€t ) = A€,
где A€ — последовательность точек сигнального пространства; a€t — координаты точек. Кроме того, НЭ содержит арифметическо-логическое устройство (АЛУ) и пороговый элемент. АЛУ вычисляет расстояние от текущей n-граммы a€t , находящейся в окне РС, до адреса НЭ w€i по метрике D :
{
(
)
}
D = Dn [ a€t , w€i ] = max d j : d j = d a€tj − w€ij , j = 1, n , j
j
где a€ и w€ — j-е компоненты соответствующих n-грамм, представляющие отдельные ВП. Конкретный вид метрики d определяется особенностью используемых параметров описания речевого сигнала. Вычисленное значение D сравнивается с радиусом расфокусировки r и в случае D ≤ r НЭ срабатывает — на выход ДАЗУ поступает сигнал yi ≠ 0. Уравнение D [ x€, w€i ] = r описывает в СП некоторую область — псевдогиперсферу с центром в точке с координатами w€i и с радиусом, определяемым r. Топология сигнального пространства ДАЗУ. Рассмотрим, что представляет собой образ A€ некоторой последовательности ВП сигнала A, формируемый в РС на основании (5.14). Представляя значения ВП сигнала как приращения ВП в предшествующий момент at +1 = at + Δat +1 , координаты последовательных n-грамм в СП можно записать так: a€t = ( at , at + Δat +1 ,K , at + Δat +1 + K + Δat + n −1 ) , a€t +1 = ( at + Δat +1 , at + Δat +1 + Δat + 2 ,K , at + Δat +1 + K + Δat + n −1 + Δat + n ) .
Глава 5. Интеллектуальные системы
493
Отсюда видно, что представляет собой вектор приращения координаты точки в СП на t1 такте: Δa€t +1 = ( Δat +1 , Δat + 2 ,K , Δat + n ) .
Ввиду того, что параметры речевого сигнала изменяются относительно плавно, т.е. при Δt → 0 Δat → 0, а шаг извлечения параметров Δt на практике выбирается малым, соседние точки a€t и a€t +1 в СП оказываются близкими и при некотором r их r-окрестности перекрываются. Это означает, что при рассмотрении n-грамм a€t в качестве центров гиперсфер a€( r )t с радиусом r образ входной последовательности в СП представляет собой непрерывную область, образованную внутренностью перекрывающихся гиперсфер. На более стационарных участках образа Δat будет меньше, чем на переходных, где сигнал изменяется быстрее, и центры гиперсфер будут располагаться более плотно (рис. 5.15). Отображение F сохраняет отношение связанности между точками образа в СП — последние и первые ( n − 1 ) координат центров гиперсфер a€t и a€t +1 совпадают, что видно из рис. 5.14. Такие точки будем называть автоассоциативно связанными. Ввиду наличия связанности последовательность A€ будем называть траекторией. Область в СП, образованную внутренностью гиперсфер, описанных вокруг точек траектории при r > 0, будем называть трубкой траекторий A€( r ) . Отображение F в трубку СП автоматически нормализует длительность сигнала — сигналы с различными длительностями своих участков будут отображаться в одну трубку (рис. 5.15). Кроме того, в траекториях трубки оказывается представлено множество близких сигналов.
Рис. 5.15. Трубка СП
Отображение F в СП сохраняет топологию пространства перцептивных признаков — более близкие участки сигнала отображаются в более близкие траектории A. При использовании радиуса гиперсфер, равного r , участки сигнала с расстоянием D < r могут быть отображены в один участок гипертрубки, а более далекие участки сигнала отобразятся в разные гипертрубки. Это свойство отображения F позволяет представить все множество реализаций речевого образа { Ai } в виде графа, образованного объединением гипертрубок в СП, где каждая гипертрубка соответствует множеству близких реализаций образа, а близкие участки реализаций представляются одним участком трубки (рис. 5.16). Обучение ДАЗУ. В процессе обучения ДАЗУ происходит покрытие гиперсферами областей СП, в которые отображаются реализации речевых образов из обучающего множества.
494
Методы современной теории автоматического управления
Рис. 5.16. Граф, образованный объединением гипертрубок в СП
При обучении ДАЗУ запоминает образ A€ эталонной последовательности в СП. Это реализуется запоминанием n-грамм a€t в соответствующих НЭ: w€i = a€t . Для обеспечения компактности представления эталона близкие точки образа a€t , лежащие на расстоянии D ≤ r , отображаются в одну гиперсферу и запоминаются в одном НЭ: w€m +1 = a€t , если ∃i : Dn [ w€i , a€t ] < r , i = 1, m, (5.15) где m — число НЭ, уже задействованных к моменту t. Таким образом, НЭ выделяются динамически. При отсутствии сигнала yi в уже обученных НЭ текущая n-грамма в окне РС является новой для сети и запоминается — в одном из свободных НЭ значение адреса принимает значение n-граммы: w€m +1 = a€t . При наличии сигнала в некотором НЭ yi ≠ 0 текущая n-грамма считается уже представленной в этом НЭ (отличается не более, чем на r от его адреса) и запоминания не происходит. Точки образа ( a€t ), формируемого РС на основании (5.14), ассоциативно связаны между собой. Для точек — центров гиперсфер запомненного в ДАЗУ на основе (5.15) образа W€(r ) = w€(r )i такая связь нарушается ввиду «проглатывания» некоторых n-грамм,
{
}
оказавшихся близкими к уже запомненным. Однако для двух последовательных точек W€( r ) оказывается справедливо следующее свойство: расстояние между последней ( n − 1)-граммой первой точки и первой ( n − 1 )-граммой последующей точки по метрике Dn −1 не превышает r. Ввиду этого под ассоциативно связанными в дальнейшем будем понимать именно такие точки. Можно говорить, что на множестве НЭ W€ (r )
определена функция автоассоциации: (5.16) Fас ( w€( r )i ) = w€( r ) j : Dn −1 ⎡ w€i2 ,K , w€in , w€1j ,K , w€nj −1 ⎤ ≤ r . ⎣ ⎦ Если на вход обучающегося ДАЗУ подается пара последовательностей A1 и A2 , представляющих различные реализации одного образа, то их близкие участки отобразятся в один участок трубки-траектории. Запомненный в ДАЗУ образ W€( r ) = W€( r )1 ∪ W€( r )2 будет представлять в СП две трубки, сходящиеся в одну на близ-
{
(
)(
)
}
ких участках (рис. 5.16). Отображая все обучающее множество последовательностей { Ai } в СП и запоминая его в ДАЗУ с динамическим выделением НЭ при некотором r, мы получаем образ-эталон в виде графа SG€ , представленного объединением (r )
трубок, соответствующих отдельным реализациям Ai : SG€ = ∪ F ( A ) = ∪ W€ ii . (r )
(r )
i
(r )
Вершинам такого графа соответствуют отдельные гиперсферы w€( r ) j , представленные в соответствующих НЭ, а направленным переходам между вершинами —
Глава 5. Интеллектуальные системы
495
ассоциативные связи между ними. При этом каждой реализации речевого образа Ai
из обучающей выборки { Ai } соответствует последовательность связанных вершин такого графа — траектория. При достаточной полноте обучающего множества в траекториях на графе SG€( r ) оказываются представлены все возможные реализации ре-
чевого образа, причем такое представление компактно, так как их близкие участки отображаются в одни участки траекторий. Увеличение радиуса расфокусировки при обучении позволяет отобразить более далекие участки обучающих реализаций в одну трубку и, таким образом, уменьшить число НЭ, требуемых для представления эталона SG€( r ) . Поскольку значение r также определяет автоассоциативно связанные НЭ (5.16), то увеличение r после обучения означает не только расширение трубок эталона, но и увеличение числа ассоциативных связей между гиперсферами, т.е. увеличение числа переходов из одних трубок в другие. Отметим также, что увеличение длины n-грамм n ведет к увеличению размерности СП и повышению разделимости различных реализаций, т.е. увеличивает число вершин графа SG€( r ) и уменьшает число связей между ними. Все эти свойства позволяют варьировать форму и детальность представления эталона. Оптимальным расположением центров гипертрубок являются точки СП, соответствующие максимумам плотности распределения точек образов обучающих реализаций a€t , что, при достаточной полноте обучающего множества, дает гарантию наиболее полного покрытия трубками тех областей СП, в которые может отобразиться произвольная реализация. Такой топологии расположения трубок позволяет достичь применение к обучению ДАЗУ алгоритма самоорганизующихся карт Кохонена [272]. В этом случае на каждом такте обучения t при наличии сигнала на выходе ДАЗУ выбирается НЭ, оказавшийся ближайшим к входной n-грамме по метрике D, и его адрес модифицируется по правилу: w€i ( t + 1) = w€i ( t ) + ε ( a€t , w€i ( t ) ) для такого i, что
Dn [ a€t , w€i ] = min Dn ⎡⎣ a€t , w€ j ⎤⎦ , где ε
1,
что означает сдвиг (притяжение) координат центра гиперсферы w€i в СП по направ-
лению входной n-грамы a€t на расстояние, пропорциональное величине ( a€t , w€i ( t ) ) .
Алгоритм повторяется некоторое число итераций, постепенно сдвигая оси трубок к максимумам распределения точек a€t в своей r-окрестности — центрам притяжения. Применение алгоритма Кохонена модификации весов НЭ к ДАЗУ, работающему в режиме распознавания, делает его адаптивным — способным подстраивать координаты осей трубок к изменяющимся условиям функционирования (например, к изменению произнесения диктора). Распознавание в динамическом ассоциативном запоминающем устройстве под управлением механизма внимания. Распознавание в ДАЗУ осуществляется как вложение траектории A€, соответствующей входной последовательности ВП A, в траекторию эталона — область одной из трубок графа SG€ . Попаданию образа A€, (r )
формируемого РС ДАЗУ, в трубку W€( r )i соответствует наличие непрерывной последовательности откликов соответствующих НЭ ( yt ), т.е. сигнала на выходе ДАЗУ, что и является критерием распознавания.
496
Методы современной теории автоматического управления
При распознавании каждое ДАЗУ хранит свой эталон, а все ДАЗУ работают как единое сигнальное пространство. Ввиду сложной топологии СП с возможностью перекрытия близких гиперсфер и отображением входного сигнала в несколько гипертрубок, как в разных ДАЗУ, так и в одном, для управления ДАЗУ в режиме распознавания используется механизм, реализующий функции, подобные локализации и генерализации внимания, и потому называемый механизмом внимания (МВ). Работа МВ основана на использовании ранее распознанной информации для предсказания следующей и подстройки радиусов расфокусировки НЭ под наилучшее распознавание ожидаемой. Управление вниманием в отдельном ДАЗУ в общем случае может быть описано функцией R% зависимости радиусов расфокусировок R ( t ) = {ri ( t )} всех НЭ W€ от предыдущего состояния {Y ( t ) , R ( t )} , которое характеризуется наличием/отсутствием распознающего НЭ w€p : y p ( t ) ≠ 0 и парой параметров Rac ( t ) и Rобщ ( t ) , задающих
( ) и W€общ = W€ W€ас :
радиусы расфокусировки на множествах НЭ W€ac = Fac w€p
⎧⎪ Rac ( t + 1) , если ∃ w€p : y p ( t ) ≠ 0 и w€i ⊂ W€ac ; ri ( t + 1) = R% (Y ( t ) , R ( t ) , i ) = ⎨ ⎪⎩ Rобщ ( t + 1) в противном случае, где ⎧⎪ Rac ( t ) + ΔR ( Δt ) , если ∃ w€p : y p ( t ) ≠ 0 и w€p ⊂ W€ac ; Rac ( t + 1) = ⎨ ⎪⎩ Rобщ ( t + 1) в противном случае, ⎧⎪ Rобщ ( t ) − ΔR ( Δt ) , если ∃ w€p : y p ( t ) ≠ 0 и w€p ⊂ W€ac , Rобщ ( t + 1) = ⎨ ⎪⎩ Rобщ ( t ) + ΔR ( Δt ) в противном случае; Y ( 0 ) = 0, W€общ = W€, W€ac = ∅, R ( 0 ) = Rобщ ( 0 ) = R0 — нулевые начальные условия. Здесь ΔR — положительная функция времени, монотонно убывающая до нуля, Δt = t − t0 , а t0 есть последний такт времени, на котором происходила генерализация внимания (отсутствие распознавания) или его переключение скачком на другую траекторию, т.е. w€p ⊄ w€q .
{ }ас
Таким образом, при наличии распознавания в одном из НЭ МВ увеличивает радиусы расфокусировки на ассоциативно связанных с ним НЭ и уменьшает на остальных, увеличивая вероятность вложения в ожидаемые продолжения траектории в случае искажения входной информации, что соответствует локализации внимания. При отсутствии распознавания во всех НЭ МВ увеличивает все радиусы, помогая вложиться в ближайший участок траектории, что соответствует генерализации внимания. Понимая под установившимся процессом непрерывное распознавание, сопровождаемое вложением образа входной последовательности в одну траекторию ДАЗУ, а под его устойчивостью — нечувствительность к отклонениям входной последовательности ВП от эталонных, качественно описать динамику процесса распознавания в ДАЗУ под управлением МВ можно следующим образом. При незначительном искажении начального участка входной последовательности переходный процесс отсутствует и локализация внимания плавно переходит по ассоциативно связанным НЭ в ДАЗУ, что соответствует установившемуся распознаванию, запас устойчивости которого зависит от Rас ( Δt ) и Rобщ ( Δt ) и потому возрастает с течением времени до некоторого предельного значения, определяемого функцией ΔR ( Δt ) . В случае сильного искажения входной последовательности начало распознавания может сопровождаться длительным переходным процессом, в ходе
Глава 5. Интеллектуальные системы
497
которого внимание то переключается скачком от одних участков траекторий к другим, то вообще генерализуется — ДАЗУ ищет участок адекватной трубкитраектории, соответствующей достаточно длительному слабо искаженному участку на входе, захватив который, можно локализовать внимание на правильной траектории в течение длительного интервала времени Δt , после чего возросший Rас ( Δt ) и уменьшившийся Rобщ ( Δt ) позволят устойчиво распознавать далее при значительном искажении следующих участков последовательности на входе. Эксперименты. Модель ДАЗУ была реализована и экспериментально исследована на ПЭВМ. Речевой сигнал, получаемый с выхода 16-разрядного АЦП с частотой квантования 8 кГц, преобразовывался в последовательность векторов из шести параметров, вычисляемых на временном окне длинной 32 мс, сканирующем сигнал с шагом 12 мс. В качестве метода первичной обработки сигнала для получения вектора параметров был использован метод перцептивного линейного предсказания, учитывающий основные особенности психоакустического восприятия и порождения речи, описывающий анализируемый сегмент сигнала пятью параметрами. В качестве шестого параметра использовался регрессионный коэффициент энергии, позволяющий подчеркнуть особенности динамики спектра. В ходе предварительных экспериментов была определена оптимальная длина РС (n-грамм) ДАЗУ, равная трем векторам параметров ( n = 3 ). Эксперименты по исследованию параметров ДАЗУ проводились на обучающем множестве, состоящем из акустических реализаций 30 первых ударных слогов из частотного словаря [272], произносимых изолированно одним диктором. 7 и 10 различных реализаций на каждый слог было использовано при обучении и распознавании соответственно. В ходе экспериментов было выяснено, что, при оптимальном радиусе расфокусировки, составившем около 5% от максимально возможного расстояния в СП, среднее число НЭ на слог равно 22. 5.2.3. НЕЙРОСЕТЕВЫЕ ТЕХНОЛОГИИ ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМ Программные технологии, применяемые в системах управления, могут быть подразделены на традиционные, использующие обычные вычислительные процедуры, и подпадающие под определение «систем искусственного интеллекта», или интеллектуальных систем [41]. Типичными примерами последних являются экспертные системы и нейронные сети. В общем случае вопрос выбора типа программного обеспечения (ПО) зависит непосредственно от требований предметной области и от стоимости разработки ПО опосредованно. Так, например, система G-2, использующая весь спектр современных информационных технологий, позволяет решать достаточно широкий круг задач управления, но ее применение становится проблематичным при решении задач прикладного характера не столько по причине высокой стоимости системы, сколько из-за высоких требований к вычислительным ресурсам. Широко известная система СИАМ, использующая традиционные вычислительные процедуры, к сожалению, позволяет решать только задачи моделирования в достаточно узких пределах, что ограничивает возможности ее применение в основном рамками учебного процесса. Более мощная система моделирования Matlab + Simulink дает возможность работать с широким классом объектов и методологических подходов, в том числе с использованием элементов искусственного интеллекта (Neural Network Toolbox, Fuzzy Logic Toolbox). Трудности, связанные с сопряжением системы с реальными объектами и отдельными программными модулями, ограничивают область применения системы задачами моделирования. Помимо вышеназванных, создан ряд компактных программно-аппаратных комплексов, использующих как традиционные методы, так и элементы искусственного интеллекта для решения прикладных задач управления.
498
Методы современной теории автоматического управления
Однако существует ряд задач управления, в которых информация об объекте может быть неполной, неточной или нечеткой, когда применение традиционных вычислительных алгоритмов становится проблематичным и не дает желаемого результата. Кроме того, связь между входными и выходными параметрами может быть настолько сложна, что моделирование в традиционном смысле становится мало эффективным, а порой просто невозможным. В таких ситуациях желаемый результат может принести применение нейросетевых технологий. Наибольший эффект использование нейросетевых технологий дает в таких областях, как распознавание образов, анализ данных, моделирование и управление. Перечень типичных задач, решаемых с помощью нейросетей, приведен в табл. 5.1. Таблица 5.1
Применение нейронных сетей Описание системы Системы распознавания текста
Основные задачи Распознавание печатных или рукописных букв и цифр
Автопилот автомобиля
Автоматическое управление автомобилем
NETtalk
Синтез речи
Нейронная система управления технологическим процессом сварки
Предсказание качества сварного соединения на основе анализа параметров сварки Многофункциональная система разработки нейроконтроллеров
NNET
Входы системы Сканируемое изображение Расстояние между задним бампером и машиной, идущей сзади; скорость впереди идущей машины, изгиб дороги, место расположения машины Коды символов алфавита
Выходы системы ASCII-коды символов Команды изменения скорости, смены ряда, команда углового поворота руля Команды генерации фонем
Сварочные параметры (напряжение, ток, скорость перемещения электрода)
Протокол качества сварного соединения
Произвольные
Произвольные
Парадигмы нейросетевой технологии. Искусственные нейронные сети индуцированы биологией, так как они состоят из элементов, функциональные возможности которых аналогичны большинству элементарных функций биологического нейрона. Эти элементы затем организуются по способу, который может соответствовать (или не соответствовать) анатомии мозга. Несмотря на такое поверхностное сходство, искусственные нейронные сети демонстрируют удивительное число свойств, присущих мозгу. Например, они обучаются на основе опыта, обобщают предыдущие прецеденты на новые случаи и извлекают существенные свойства из поступающей информации, содержащей излишние данные. Свойства нейронных сетей. Обучение. Искусственные нейронные сети могут менять свое поведение в зависимости от внешней среды. Этот фактор в большей степени, чем какой-либо другой, ответствен за интерес, который они вызывают. После предъявления входных сигналов (возможно с соответствующими выходами), нейронные сети самонастраиваются, чтобы обеспечить требуемую реакцию. Обобщение. Отклик сети после обучения может быть до некоторой степени нечувствителен к небольшим изменениям входных сигналов. Эта внутренне присущая способность видеть образ сквозь шум и искажения позволяет преодолеть требования строгой точности, предъявляемое обычным компьютерам. Важно отметить, что нейронная сеть делает обобщения автоматически благодаря своей структуре, а не с помощью «человеческого интеллекта», представленного в форме специально написанных компьютерных программ. Абстрагирование. Некоторые из нейронных сетей обладают способностью извлекать сущность из входных сигналов, т.е. оперировать с данными, которые не возникали в процессе обучения.
Глава 5. Интеллектуальные системы
499
Нейронные сети и другие виды программного обеспечения. Традиционные программы выполняют точно установленные инструкции в определенный момент времени. Например, выполняя вычисления, программа производит шаг за шагом последовательность действий, пока не будет получен некоторый результат. Прохождение данных по нейронной сети, напротив, не может быть заранее определено по причине иерархической структуры сети и распределенности по связям весовых коэффициентов. Кроме того, входные данные могут быть недоопределены или определены нечетко, что в традиционных программах не представляется возможным. Поставленная задача может быть решена нейросетью, даже если входная информация не рассматривалась ранее при обучении, при условии, что данные не выходят за предъявляемые к ним ограничения. Нейронные сети занимают небольшой объем памяти, так как сохраняется лишь структура нейронной сети. Нейронные сети идеально подходят для решения задач управления, так как обеспечивают благодаря параллельной структуре чрезвычайно высокую скорость выполнения операций. Для решения таких прикладных задач, как прогнозирование и выдача рекомендаций (управление) на основе анализа данных, могут быть использованы как экспертные системы, так и нейронные сети. Но основное преимущество нейронных сетей заключается в возможности избежать традиционной процедуры программирования и сбора информации или знаний при помощи экспертов или конечных пользователей. При создании экспертных систем, наоборот, требуется проводить «интервью» с экспертами для получения «правил» поведения системы или объекта при определенных условиях, что требует значительного времени и материальных вложений и порой не приносит желаемого эффекта, так как нет гарантии, что все необходимые правила будут получены и что экспертная система будет работать в различных условиях. Дополнительное преимущество нейронных сетей состоит в способности выделять общие принципы (обобщение) при предъявлении некоторого набора обучающих векторов с неполным набором данных (абстрагирование). Также стоит выделить способность получать желаемый выход в случае неполного или нечеткого набора данных, когда работа множества традиционных компьютерных программ завершается ошибкой. Способность нейронных сетей выделять взаимосвязи в экспериментальных данных и достигать желаемого результата, к сожалению, связана с невозможностью проследить, каким образом этот результат достигнут. То есть нейронная сеть представляет собой если не «черный ящик», то, по крайней мере, ящик с полупрозрачными стенками. Однако при сравнении входных данных и откликов нейронной сети, некоторые тенденции могут быть прослежены и получено объяснение того или иного поведения нейросети. Не следует недооценивать трудоемкости процедуры обучения нейронной сети. Набор обучающих векторов должен быть составлен таким образом, чтобы точно описать задачу и граничные условия обучения нейросети. Так же как и при обучении человека, именно качество примеров, на которых производится обучение, определяет дальнейшую работоспособность системы. Процедура обратного распространения. Наиболее часто применяются 12–15 различных нейросетевых архитектур, представляющих собой вариации 6 основных парадигм [272]. Самой популярной из них является «back propagation»-архитектура сети с обратным распространением ошибки. Сети этого типа могут работать как с двоичными, так и с десятичными данными и могут быть использованы для решения более широкого, чем у других сетей, круга задач. Процесс разработки нейронной сети можно разделить на следующие этапы: создание архитектуры сети; генерирование и предварительная обработка данных; обучение; тестирование. Архитектура сети. На рис. 5.17 представлена схема искусственного нейрона, используемого в качестве основного строительного блока в сетях обратного распространения.
500
Методы современной теории автоматического управления
o1 W1 o2 on
W2
Σ
F
OUT
Wn NET Рис. 5.17. Схема искусственного нейрона
На нейрон подается множество сигналов ( o1 ,K , on ), идущих либо извне, либо от предшествующего слоя. Каждый из них умножается на вес ( wi ), и произведения суммируются. Сумма NET, вычисляемая для каждого нейрона сети, модифицируется с помощью активационной функции F (NET), давая таким образом сигнал OUT. Активационная функция, используемая для обратного распространения, имеет вид (рис. 5.18)
(
)
OUT = 1 1 + e − NET .
(5.17)
Сигмоид, который называют также логистической или сжимающей функцией, сжимает диапазон изменения NET так, что значение OUT лежит между нулем и единицей. Для алгоритма обратного распространения необходимо, чтобы активационная функция была дифференцируема. Сигмоид удовлетворяет этим требованиям. Кроме того, он обеспечивает автоматический контроль усиления. OUT
0,5
0
NET
Рис. 5.18. Активационная функция
Входной слой i
Выходной Скрытый слой k слой j W 11 OUT1 W12 Ошибка 1 OUT2
Желаемый сигнал 1
Желаемый сигнал 2
Ошибка 2
W31 W3m
OUTn Ошибка n
Рис. 5.19. Многослойная сеть
Желаемый сигнал n
Глава 5. Интеллектуальные системы
501
На рис. 5.19 изображена многослойная сеть, которая может обучаться при помощи процедуры обратного распространения. При проектировании архитектуры нейронной сети необходимо определить число слоев нейронов и количество нейронов в каждом слое. Процедура обратного распространения применима к сетям с любым числом слоев, но традиционно рассматриваются сети, содержащие входной, выходной и скрытый слой. Число нейронов в выходном и входном слоях определяется соответственно количеством выходов и входов системы. В общем случае, чем меньше нейронов в выходном слое, тем быстрее сеть обучается. Число нейронов в скрытом слое и число скрытых слоев определяется прикладной задачей, но чаще всего подбирается методом проб и ошибок. Чем сложнее связь между входными и выходными переменными, тем большее число нейронов в скрытом слое необходимо предусмотреть. Возмущения
ТОУ
Оператор (пользователь)
Физический объект управления
Датчики Измеряемые техно логические параметры Технологическое оборудование
Установка параметров управления
Устройства сопряжения
ЭВМ
Интерфейс пользователя
Реляционная база данных (РБД)
Управляю щая нейросетевая модель Прогнозирующая нейросетевая модель
Рис. 5.20. Функциональная схема аппаратно-программного комплекса АСУ ТП
Обзор обучения. Целью обучения сети является подстройка ее весов таким образом, чтобы приложения некоторого множества входных векторов приводило к тре-
502
Методы современной теории автоматического управления
буемому множеству выходов. При обучении предполагается, что каждому вектору входа соответствует целевой вектор выхода. Перед началом обучения весам должны быть присвоены небольшие начальные значения, выбранные случайным образом. Обучение сети обратного распространения требует выполнения следующих действий: 1) выбрать очередную обучающую пару из обучающего множества, подать входной вектор на вход сети; 2) вычислить выход сети; 3) вычислить разность между выходом сети и требуемым выходом (целевым вектором обучающей пары); 4) подкорректировать веса сети так, чтобы минимизировать ошибку; 5) повторять шаги 1–4 для каждого вектора обучающего множества до тех пор, пока ошибка на всем множестве не достигнет приемлемого уровня. Подробное описание процедуры обратного распространения приведено в [272]. Применение нейросетей в системах управления. Наиболее типичным прикладным применением нейронных сетей является распознавание образов, т.е. анализ визуальных изображений, речи и других сигналов. Помимо этого, нейронные сети могут быть использованы для моделирования и управления различными системами и процессами. Функциональная схема аппаратно-программного комплекса АСУ ТП приведена на рис. 5.20. 5.2.4. СИСТЕМЫ УПРАВЛЕНИЯ С НЕЧЕТКОЙ ЛОГИКОЙ В последнее десятилетие развитие систем управления с нечеткой логикой (СНЛ) возобновилось с новой силой. Наиболее активными и плодотворными были исследования в области теории нечетких множеств, нечеткой логики и нечетких рассуждений. Диапазон применения таких систем на практике простирается от промышленных систем управления до систем постановки диагноза и безопасности компьютерных систем. Большое количество промышленных и потребительских систем, использующих эту технологию, было создано в Японии, где развитие СНЛ достигло значительных успехов. В отличие от простых электронных систем управления применение СНЛ наиболее эффективно в сложных трудно формализуемых и плохо структурированных процессах, которые могут управляться квалифицированными операторами без использования специфических знаний, лежащих в основе динамики функционирования этих процессов. Основная идея, используемая в СНЛ, заключается во введении «опыта эксперта» (человека-оператора; лица, принимающего решение (ЛПР)) в разработку схемы, управляющей некоторым динамическим процессом. По утверждению создателя нечеткой логики Л. Заде, c ростом сложности системы постепенно падает способность человека делать точные и в то же время значащие утверждения относительно ее поведения, пока не будет достигнут порог, за которым точность и релевантность становятся взаимоисключающими характеристиками. В СНЛ сложные отношения между входом и выходом сложных динамических процессов описываются набором правил нечеткой логики (IF–THEN правил), подразумевающих использование лингвистических переменных вместо усложненной динамической модели. Применение лингвистических переменных, правил и законов нечеткой логики, а также приближенных рассуждений позволяет вносить опыт эксперта в разрабатываемую схему управления. В данном параграфе будут рассмотрены архитектура и основные характеристики систем управления с нечеткой логикой. 5.2.4.1. ЛИНГВИСТИЧЕСКИЕ ПЕРЕМЕННЫЕ И ИХ ИСПОЛЬЗОВАНИЕ Лингвистической называется переменная, значением которой являются нечеткие подмножества, выраженные в форме слов или предложений на естественном или искусственном языке. Формально лингвистическая переменная задается набором { X , T ( X ) , U , G, M } ,
Глава 5. Интеллектуальные системы
503
где X — название этой переменной; T ( X ) — терм-множество переменной X , т.е. множество ее значений; U — универсальное множество; G — синтаксическое правило, порождающее названия значений переменной X ; M — семантическое правило, которое ставит в соответствие каждому значению лингвистической переменной ее смысл. В отличие от классической теории множеств, оперирующей понятием принадлежности и непринадлежности элемента множеству, теория нечетких множеств допускает различную степень принадлежности к ним, определяемую функцией принадлежности элемента, значения которой изменяются в интервале [ 0, 1]. При этом границы интервала характеризуют соответственно полную непринадлежность (0) или полную принадлежность (1) элемента нечеткому множеству. Могут использоваться и другие интервалы — [1, 100] , [1, 5] и т.д. Таким образом, смысл лингвистического значения Х характеризуется некоторой функцией принадлежности μ : U → [ 0, 1] , которая каждому элементу u ∈ U ставит в соответствие число из интервала [ 0, 1]. Пример 5.1. Пусть X — это пользователи одноранговой локальной сети (количество пользователей в таких сетях обычно не превышает 10). Тогда терм-множество лингвистической переменной «пользователи» может включать следующие нечеткие подмножества: Т (пользователи) = {мало; не очень мало; не мало и не много; не очень много; много}. Для лингвистической переменной «пользователи» числовая переменная «пользователи», принимающая значение 1÷10, является базовой переменной.
Процедура преобразования значений базовой переменной в нечеткую (лингвистическую) переменную, характеризующуюся функцией принадлежности, называется фаззификацией. Каждому значению лингвистической переменной, например «мало», «средне», «много», соответствует свой диапазон изменения базовой переменной X . Нечеткое ограничение на значение базовой переменной характеризуется функцией принадлежности μ, которая каждому значению базовой переменной ставит в соответствие число из интервала [ 0, 1]. В практике использования нечеткой логики для решения реальных задач наиболее часто используются треугольные, трапецеидальные и «колоколообразные» функции принадлежности (рис. 5.21). Например, функция принадлежности колоколообразной формы может быть определена следующим образом: 2 − x −m μ xi ( x ) = e ( i )
σi2
,
где mi и σi — задают среднее положение и среднеквадратичное отклонение функции принадлежности от максимального значения соответственно.
Рис. 5.21. Виды функций принадлежности: а — треугольная; б — трапецеидальная; в — «колоколообразная»; x0 , xк — начальное и конечное значение диапазона, соответствующего некоторому значению лингвистической переменной; xс — значение базовой переменной, при котором достигается наибольшее значение функции принадлежности
504
Методы современной теории автоматического управления
На рис. 5.21, в представлены в виде графиков функции принадлежности для следующих значений лингвистической переменной: «мало», «средне», «много». Такое представление показывает, что использование лингвистических значений позволяет осуществлять «сжатие» данных, когда одним значением охватывается целый интервал допустимых значений базовой переменной. Функция принадлежности первичных термов, входящих в терм-множество, может быть записана в виде μ ( X ) = ∑ μi ( xi ) xi , X ∈ [ 0, 1] , μ ( x ) ∈ [ 0, 1] , где
∑
i
обозначает объединение элементов, а μi — степень принадлежности xi неко-
торому подмножеству, например μi = μ A ( xi ) > 0, где A — нечеткое подмножество. Для примера 5.1 с пользователями одноранговой сети, если количество пользователей равно «мало», запись функции принадлежности «мало» может быть представлена как: μ ( «мало» ) = 1 1 + 0,98 2 + 0,9 3 + 0,8 4 + 0,5 5 + 0,3 6 + (5.18) + 0,15 7 + 0,1 8 + 0,08 9 + 0 10. Так, например, 0,9 3 означает μ ( 3) = 0,9: для числа пользователей сети, равного 3, степень принадлежности нечеткому подмножеству «мало» равна 0,9. Функция принадлежности (5.18) запоминается в базе данных и может затем использоваться для оперирования понятием «мало». Формулу (5.18) можно запомнить как информацию в одномерном массиве, индексы в котором соответствуют возможному числу пользователей, т.е. в рассматриваемом примере элементам 1÷10. Аналогично можно представить функции принадлежности для других значений лингвистической переменной, например «средне», «много» и т.д., при этом для представления функций принадлежности мы рассматриваем только те элементы универсального множества, которые имеют ненулевую степень принадлежности нечеткому множеству. Пример 5.2. Пусть все возможные оценки на экзамене есть U = {10, 20,K, 100}. Рассмотрим три нечетких подмножества: A ≡ «высокие оценки», B ≡ «средние оценки» и C ≡ «низкие оценки», функции принадлежности которых приведены в табл. 5.2. Таблица 5.2
Нечеткие множества в примере 5.2 Числовые оценки 10 20 30 40 50 60 70 80 90 100
«Высокие оценки» (A) 0 0 0 0 0,1 0,3 0,5 0,8 1,0 1,0
«Средние оценки» (B) 0 0 0,1 0,5 0,8 1,0 0,8 0,5 0 0
«Низкие оценки» (С) 1,0 1,0 0,9 0,7 0,5 0,3 0,1 0 0 0
В этом примере терм-множество лингвистической переменной «оценки» включает три нечетких пересекающихся подмножества A, B и C :
T (оценки) = {«высокие оценки»; «средние оценки»; «низкие оценки»}.
Таким образом, в отличие от способа квантования значений переменных по интервалам, каждое значение лингвистической переменной представляется в виде нечеткого подмножества, которое может пересекаться с другими нечеткими подмножествами.
Глава 5. Интеллектуальные системы
505
Для представления нечеткого множества может быть использовано понятие «носителя нечеткого множества». Носителем S нечеткого множества A является четкое множество всех таких x, что μ A ( x ) > 0, т.е. S ( A) = { x ∈ U μ A ( x ) > 0}.
Для примера 5.2 носители нечетких множеств могут быть представлены в следующем виде: S («высокие оценки») = {50, 60, 70, 80, 90, 100}; S («средние оценки») = {30, 40, 50, 60, 70, 80}; S («низкие оценки») = {10, 20, 30, 40, 50, 60, 70}. Ядро нечеткого множества A содержит элемент со степенью принадлежности, равной 1, т.е. Ker ( A ) = { x μ A ( x ) = 1}. Элемент x ∈ U , для которого μ A ( x ) = 0,5, называется точкой перехода. Высота нечеткого множества A — это верхняя граница μ A ( x ) на U . Таким образом, высота (A) = sup μ A ( x ) . x
Нечеткое множество нормализовано, когда его высота равна единице (высота (A) = 1), в противном случае оно субнормально. Три нечетких множества из примера 5.2 являются нормализованными. Непустое нечеткое множество A всегда можно нормализовать делением μ A ( x ) на высоту A. Представление нечеткого множества может быть выражено в терминах носителя нечеткого множества. Для дискретного универсального множества (некоторой предметной области) U = { x1 , x2 ,K , xn } нечеткое множество A можно представить в виде множества упорядоченных пар: A=
{( x1, μ A ( x1 ) ) , ( x2 , μ A ( x2 ) ) ,K, ( xn , μ A ( xn ) )}.
В примере 5.2 нечеткое подмножество B («средние оценки») представляется следующим образом: B = {(10; 0 ) , ( 20; 0 ) , ( 30; 0,1) , ( 40; 0,5 ) , ( 50; 0,8 ) ,
( 60;1) , ( 70; 0,8) , (80; 0,5) , ( 90; 0 ) , (100; 0 )}. Используя понятие носителя нечеткого множества, можно упростить представление нечеткого множества, т.е. для записи функций принадлежности рассматриваются только те элементы универсального множества, которые имеют ненулевую степень принадлежности нечеткому множеству. Например, функция принадлежности нечеткого множества B из примера 5.2 представляется в виде B = 0,1 30 + 0,5 40 + 0,8 50 + 1 60 + 0,8 70 + 0,5 80. Необходимо также учитывать, что сумма степеней принадлежности нечеткого n
множества
∑ μ A ( xi ), где n
— число элементов множества A, не обязательно равна 1.
i =1
В пустом нечетком множестве эта сумма равна 0, т.е. функция принадлежности назначает 0 всем элементам универсального множества U . Если в нечетком множестве A имеется единственная точка в U с μ A ( x ) = 1, то это множество называется нечетким одноэлементным (одноточечным) множеством, или нечетким синглетоном.
506
Методы современной теории автоматического управления
Одним из наиболее важных понятий нечетких множеств, связанных с их практическим применением в интеллектуальных системах и системах управления, является понятие α -срезов (или множеств α -уровня). α -срез (или множество α -уровня) нечеткого множества A — это четкое множество Aα , содержащее все элементы универсального множества U , имеющие большую или равную α степень принадлежности в A. Таким образом, Aα = { x ∈ U μ A ( x ) ≥ α} , α ∈ ( 0,1]. (5.19) В соответствии c (5.19) функция принадлежности нечеткого множества A может быть выражена в терминах характеристических функций ее α -срезов следующим образом: μ A ( x ) = sup ⎡⎣α ∧ μ Aα ( x ) ⎤⎦ ∀ x ∈ U ,
где « ∧ » означает операцию взятия минимума, а μ Aα ( x ) является характеристической
функцией четкого множества Aα : ⎧1, если и только если x ∈ Aα ; μ Aα ( x ) = ⎨ ⎩0 в противном случае. Если через αAα обозначить нечеткое множество с функцией принадлежности
μα Aα ( x ) = ⎡⎣α ∧ μα ( x ) ⎤⎦ ∀ x ∈ U ,
то нечеткое множество A может быть выражено в форме A = U αAα , где ∧ A = {α μ A ( x ) = α ∃ x ∈ U } . α∈∧ A
С одной стороны, введение понятия α -срезов позволяет нечеткое множество A разложить на αAα , α ∈ ( 0, 1] , а с другой — A можно восстановить как объединение его αAα , т.е., иными словами, нечеткое множество можно выразить в терминах его α -срезов, не прибегая к функции принадлежности (рис. 5.22).
μA ( x)
α1
α1 Aα1
α2
α 2 Aα 2
Aα1 Aα2 Рис. 5.22. Разложение нечеткого множества Пример 5.3. Пусть A0,1 = {1, 2, 3, 4, 5} ; A0,4 = {2, 3, 5} ; A0,8 = {2, 3} ; A1 = {3}.
Нечеткое множество A в этом случае может быть представлено следующим образом: A = U αAα = U αAα = 0,1(1 1 + 1 2 + 1 3 + 1 4 + 1 5) + α∈∧ A α∈[ 0,1; 0,4; 0,8;1]
+0, 4 (1 2 + 1 3 + 1 5 ) + 0,8 (1 2 + 1 3) + 1(1 3) = 0,1 1 + 0,8 2 + 1 3 + 0,1 4 + 0, 4 5.
Глава 5. Интеллектуальные системы
507
Математическая теория нечетких множеств позволяет при построении нечетких систем оперировать нечеткими понятиями и знаниями, делать нечеткие заключения и выводы. Их использование представляется особенно полезным в тех случаях, когда исходные знания об исследуемом процессе или объекте являются приближенными, неточными, а в ряде случаев и недостоверными. Рассмотрим основные операции, которые можно выполнять над нечеткими множествами при организации нечеткого вывода. 5.2.4.2. ОПЕРАЦИИ НАД НЕЧЕТКИМИ МНОЖЕСТВАМИ Можно рассматривать различные операции над нечеткими множествами по аналогии с четкими. Наиболее распространенными являются отношения вложения, дополнительного нечеткого множества, пересечения и объединения нечетких множеств, которые записываются в следующем виде: А ⊂ В → μ A ( x ) ≤ μB ( x ) ∀ x ∈ X ; μ A` ( x ) = 1 − μ A ( x ) ∀ x ∈ X ;
(5.20)
μ A∩ B ( x ) = μ A ( x ) ∧ μ B ( x ) ∀ x ∈ X ;
μ A∪ B ( x ) = μ A ( x ) ∨ μ B ( x ) ∀ x ∈ X . Графически с помощью «колоколообразной» функции принадлежности эти отношения представлены на рис. 5.23.
μ A` ( x )
μB ( x ) μA ( x)
μA ( x)
μA ( x)
μB ( x ) μ A∩B ( x )
μ A∪B ( x )
μA ( x)
μB ( x )
Рис. 5.23. Основные операции над нечеткими множествами: а — отношение вложения ( A ⊂ B ); б — дополнительное нечеткое множество ( A` ); в — пересечение нечетких множеств ( A ∩ B ); г — объединение нечетких множеств ( A ∪ B )
Если обозначить через R ( x ) совокупность всех нечетких множеств в X , то система { R ( x ) , ⊂, `, ∪, ∩} образует булеву алгебру, при этом для операции ⊂ справедливы свойства рефлексивности, антисимметричности и транзитивности. Выполняются также законы идемпотентности, коммутативности, ассоциативности, двойного отрицания и законы де Моргана.
508
Методы современной теории автоматического управления
Пусть имеются нечеткие подмножества A, B, C в множестве X . Тогда для них будут справедливы следующие соотношения, представленные в табл. 5.3. Но закон комплементарности для этих множеств не выполняется, т.е. в случае нечеткого множества имеет место выполнение следующего соотношения: А ∩ А`⊃ 0, А ∪ А`⊂ X , причем равенство не удовлетворяется, что видно из рис. 5.24. μ( x)
μ( x)
μX ( x)
μ A∪ A` ( x )
μA ( x)
A1 2 A μ A` ( x )
μ A∩ A` ( x )
A2
μ0 ( x ) Рис. 5.25. Степень α нечеткого множества ( α = 2, 1/2)
Рис. 5.24. Невыполнение закона комплементарности
Таблица 5.3
Операции над нечеткими множествами и их свойства Операции над нечеткими множествами
Свойства операций
A∪ B = B ∩ A A∪ B = B ∪ A ( A ∩ B) ∩ C = A ∩ ( B ∩ C )
Коммутативность Ассоциативность
( A ∪ B) ∪ C = A ∪ ( B ∪ C ) A∪ A = A A∩ A = A A ∩ ( B ∩ C ) = ( A ∩ B) ∪ ( A ∩ C )
Идемпотентность
A ∪ ( B ∪ C ) = ( A ∪ B) ∩ ( A ∪ C )
Дистрибутивность
¬ ( ¬A ) = A
Двойное отрицание
¬ ( A ∪ B ) = ¬A ∩ ¬B
Теоремы де Моргана для нечетких множеств
¬ ( A ∩ B ) = ¬A ∪ ¬B
Кроме указанных выше операций, можно определить (неограниченно) много операций над нечеткими множествами. С практической точки зрения можно выделить наиболее важные операции. Так, унарная операция степени нечетного множества A (показатель степени α — положительный параметр) может быть определена следующим образом: μα ( x ) = {μ A ( x )}
α
∀x∈ X.
(5.21)
Если представить графически наиболее часто используемые степени порядка 2 и 1 2, то получим представление функции принадлежности на рис. 5.25. Когда с помощью нечеткого множества A представляют некоторую нечеткую информацию, то A2 это «бо-
Глава 5. Интеллектуальные системы
509
лее чем» A, а A1 2 — это «почти что» A. Аналогично степени 4 и 1 4 часто используют, интерпретируя их так: A4 = «более чем» «более чем» A, т.е. A4 = «более чем» 2 A и т.д. Рассмотрим бинарные операции. Наиболее часто используются алгебраическое произведение A и B, обозначаемое как A ∗ B, и алгебраическая сумма. Алгебраическое произведение определяется следующим образом: μ A∗B ( x ) = μ A ( x ) ∗μ B ( x ) ∀ x ∈ X . Алгебраическая сумма A и B обозначается как A + B и определяется в виде μ A+ B ( x ) = μ A ( x ) + μ B ( x ) − μ A ( x ) ∗μ B ( x ) ∀ x ∈ X . Для алгебраической суммы и произведения справедливы свойства коммутативности и ассоциативности, выполняются также правила де Моргана, не выполняются свойства идемпотентности и дистрибутивности. 5.2.4.3. ОСНОВНЫЕ ОПЕРАЦИИ НЕЧЕТКОЙ ЛОГИКИ Так же как в основе теории четких множеств лежит четкая логика, в случае нечетких множеств существует нечеткая логика — основа для операций над нечеткими множествами. Причем в случае нечеткой логики можно создать неограниченное число операций, но на практике используют лишь наиболее важные из них. Рассмотрим расширения четких логических операций НЕ, И, ИЛИ до нечетких операций; эти расширения называются соответственно нечетким отрицанием, t-нормой и s-нормой (или t-конормой). В нечетком пространстве число состояний неограниченно велико, поэтому невозможно описать эти операции с помощью таблицы истинности, как в случае двузначной логики. Нечеткое отрицание — аналог четкой операции НЕ — представляет собой бинарную операцию отрицания в нечетком смысле оценки [ 0, 1] , дающую в ответе
оценку [1, 0]. Типичная операция нечеткого отрицания — «вычитание из 1»: х% = 1 − х ∀ х ∈ [ 0, 1]. С точки зрения нечетких множеств это соответствует понятию дополнительного нечеткого множества. Операция нечеткого отрицания (обозначим ее N 0 ) удовлетворяет следующим условиям: 1) N 0 : [ 0, 1] → [ 0, 1] ; 2) N 0 ( 0 ) = 1, N 0 (1) = 0 — граничные условия;
(
)
3) N 0 N 0 ( x ) = x ∀ x ∈ [ 0, 1] — двойное отрицание; 4) x1 < x2 → N 0 ( x1 ) > N 0 ( x2 ) — инвертирование оценок. При x = 0,5 N 0 ( x ) = 0,5, т.е. неизменно, в этом смысле 0,5 является центральным значением, и обычно x и N 0 ( x ) принимают симметричные значения относительно 0,5. Нечетким расширением И является t-норма. Это действительная функция двух переменных, принимающая значение в интервале [ 0, 1] : T : [ 0,1] × [ 0,1] → [ 0,1] ,
удовлетворяющая следующим условиям:
510
Методы современной теории автоматического управления
1) xT 1 = x, xT 0 = 0 ∀ x ∈ [ 0, 1] — граничные условия; 2) x1Tx2 = x2Tx1 — коммутативность;
3) x1T ( x2Tx3 ) = ( x1Tx2 ) Tx3 — ассоциативность;
4) x1 ≤ x2 → x1Tx3 ≤ x2T3 — упорядоченность. Типичной операцией t-нормы является операция min или логическое произведение: x1Tx2 = min ( x1 , x2 ) = x1 ∧ x2 . Нечеткое расширение ИЛИ — s-норма (называется также t-конормой). Среди условий, которым должна удовлетворять s-норма, только граничные условия отличаются от случая t-нормы, остальные — те же: 1) S : [ 0,1] × [ 0,1] → [ 0,1]; 2) xS1 = 1, xS 0 = x ∀х ∈ [0,1] — граничные условия; 3) x1Sx2 = x2 Sx1 — коммутативность; 4) x1S ( x2 Sx3 ) = ( x1Sx2 ) Sx3 — ассоциативность; 5) x1 ≤ x2 → x1Sx3 ≤ x2 Sx3 — упорядоченность. Типичной s-нормой является логическая сумма, определяемая с помощью операции max: x1Sx2 = max ( x1 , x2 ) = x1 ∨ x2 . Отметим, что в четкой логике закон противоречия (некоторое свойство и отрицание этого свойства одновременно несправедливы) и закон исключенного третьего (некоторое свойство и отрицание этого свойства охватывают все состояния, никакого промежуточного состояния нет) оперируют только с двузначными оценками. В нечеткой логике, которая допускает также некоторые промежуточные оценки, можно считать вполне естественным то, что эти законы несправедливы, т.е. не выполняется закон комплементарности: x ∧ (1 − x ) ≥ 0, x ∨ (1 − x ) ≤ 1, а все другие свойства, справедливые в четкой логике, справедливы. В связи с этим на практике чаще всего используются приведенные выше стандартные нечеткие логические операции, а другие возможные операции — в специальных случаях. 5.2.4.4. ОСНОВНАЯ СТРУКТУРА И ПРИНЦИП РАБОТЫ СИСТЕМЫ НЕЧЕТКОЙ ЛОГИКИ Типовая структура СНЛ, представленная на рис. 5.26, состоит из четырех главных компонент: входной преобразователь четкой переменной в нечеткую (другое название блок фаззификации, от слова fuzzy — нечеткий), база правил нечеткой логики, блок нечеткого логического вывода и выходной преобразователь из нечеткой переменной в четкую (блок дефаззификации). Если выходной сигнал блока дефаззификации не является управляющим сигналом для объекта, то СНЛ будет являться системой принятия решения на базе нечеткой логики.
x
μ( x)
μ( y)
Рис. 5.26. Структура СНЛ
y
x
Глава 5. Интеллектуальные системы
511
Блок фаззификации осуществляет преобразование измеренных реальных данных (например, скорости, температуры, давления и т.д.) в подходящие для этого значения лингвистических переменных. Нечеткая база правил содержит опытные данные о процессе управления и знания экспертов в данной области. Блок вывода, являющийся ядром СНЛ, моделирует процедуру принятия решения человеком. Организация вывода основана на проведении нечетких рассуждений в целях достижения необходимой стратегии управления. Блок дефаззификации применяется для выработки четкого решения или управляющего воздействия в ответ на результаты, полученные в блоке вывода. Более детально работа этих компонент описывается в следующих разделах. В процессе функционирования СНЛ вычисляются значения управляющих переменных (или переменных воздействия) на основе данных, получаемых при наблюдении или измерении переменных состояния управляемого процесса, для достижения желаемой цели управления. Следовательно, правильный выбор переменных состояния управляемого процесса, а также управляющих переменных объекта управления очень важен для характеристики работы СНЛ и оказывает основное влияние на ее производительность. Опыт эксперта и инженерные знания играют очень большую роль на этапе выбора переменных состояния и управляющих переменных. Обычно входными сигналами для СНЛ являются состояние объекта, ошибка вычисления состояния, производная по ошибке, интеграл от ошибки и т.п. Следуя правилам задания лингвистических переменных, входной вектор X и вектор выходного состояния Y, который содержит возможные состояния (или управляющие сигналы) объекта управления, могут быть определены соответственно как: ⎧ ⎫ (5.22) X = ⎨ xi , U i , Tx1i , Tx2i ,K , Txki , μ1xi , μ 2xi ,K , μ kxi ⎬; i i i =1, n ⎭ ⎩ ⎧ ⎫ (5.23) Y = ⎨ yi ,Vi , Ty1i , Ty2i ,K, Tyki , μ1yi , μ 2yi ,K, μ kyi ⎬, i i = 1, i m ⎩ ⎭ где входные лингвистические переменные xi образуют нечеткое множество — пространство входов U = U1 × U 2 × K × U n , а выходные лингвистические переменные yi образуют нечеткое множество — пространство выходов V = V1 × V2 × K × Vm . Из уравнений (5.22) и (5.23) следует, что входная лингвистическая переменная xi в
( (
{
}{
})
{
}{
})
{
}
{
}
предметной области U i характеризуется T ( xi ) = Tx1i , Tx2i ,K, Txki и μ ( xi ) = μ1xi , μ2xi ,K, μkxi , i
i
где T ( xi ) — множество термов для xi , т.е. множество имен значений лингвистической переменной xi , связанных с каждым из значений. Например, если xi означает
{
скорость, то T ( xi ) = Tx1i , Tx2i ,K, Txki i
} может означать {«очень медленно», «медленно»,
«средне», «быстро» и т.д.}. Аналогично, выходная лингвистическая переменная yi
{
связана с множеством T ( yi ) = Ty1i , Ty2i ,K , Tyki i
} и μ ( y ) = {μ i
ki 1 2 yi , μ yi ,K , μ yi
}.
Размер (или мощность) множества термов T ( xi ) = ki определяет число нечетких разбиений входного пространства на подмножества в соответствии с выбранной степенью детализации описания объекта управления. На рис. 5.27, a изображены три нечетких подмножества на интервале [ −1, + 1]. Случай семи нечетких пересекающихся подмножеств представлен на рис. 5.27, б. Количество разбиений входного нечеткого множества при решении определенной задачи управления определяет максимальное число правил нечеткой логики. Например, в случае СНЛ с двумя входами и двумя выходами,
512
Методы современной теории автоматического управления
если T ( x1 ) = 3, а T ( x2 ) = 7, то максимальное число правил нечеткой логики будет равно T ( x1 ) × T ( x2 ) = 21. Входные функции принадлежности μ kxi , k = 1, ki и выходные функции принадлежности μlyi , l = 1, li , используемые в СНЛ, обычно являются такими параметрическими функциями, как, например, треугольные, трапециидальные и функции в форме колокола. Правильный выбор нечеткой декомпозиции входного и выходного пространств, а также правильный выбор функций принадлежности играют основную роль в процессе достижения успешного результата при проектировании СНЛ. К сожалению, эти задачи не являются детерминированными и не имеют универсального решения. Обычно для поиска оптимальной нечеткой декомпозиции входного и выходного пространства используется эвристический метод проб и ошибок, при этом выбор входных и выходных функций принадлежности основан на субъективных критериях. Перспективный подход к автоматизации и ускорению процедуры выбора функций принадлежности связан с использованием нейронных сетей, обеспечивающих возможность обучения на примерах входных и выходных функций принадлежности, применяемых в заданной предметной области.
−1
+1
−1
+1
Рис. 5.27. Графическое представление нечеткой декомпозиции: a — грубая нечеткая декомпозиция с тремя нечеткими подмножествами: N — отрицательный, Z — ноль, P — положительный; б — более детальная нечеткая декомпозиция с семью компонентами: NB — отрицательный большой, NM — отрицательный средний, NS — отрицательный маленький, ZE — ноль, PS — положительный маленький, PM — положительный средний, PB — положительный большой
Фаззификация. Блок фаззификации выполняет функцию преобразования четких значений входных переменных в нечеткие. Такое преобразование фактически является своего рода нормированием, необходимым для перевода измеренных данных в субъективные оценки. Следовательно, оно может быть определено как отображение наблюдаемых значений входных переменных в соответствующие нечеткие. В реальных СНЛ наблюдаемые данные обычно являются четкими (хотя они могут быть зашумлены). Естественный и простой метод входного преобразования заключается в том, чтобы преобразовать четкое значение x0 в нечеткий синглетон (singleton) A. Это означает, что функция принадлежности μ A ( x ) будет равна 1 в точке x0 и нулю
во всех остальных точках. В данном случае всякое конкретное значение xi ( t ) в момент времени t отображается на нечеткое множество Tx1i со значением μ1xi ( xi ( t ) ) , а
на нечеткое множество Tx2i со значением μ 2xi ( xi ( t ) ) и т.д. Этот метод широко приме-
няется в реальных СНЛ потому, что он существенно облегчает процесс построения нечетких рассуждений. В более сложных случаях, когда наблюдаемые данные идут вперемешку со случайными шумами, блок фаззификации должен преобразовывать вероятностные данные в нечеткие числа. Для этого должно быть определено взаимнооднозначное преобразование, которое преобразует вероятностное значение в возможностное за счет использования концепции степени необходимости.
Глава 5. Интеллектуальные системы
513
База правил нечеткой логики. Правила нечеткой логики представляются набором нечетких «IF–THEN» конструкций, в которых предпосылки и заключения подразумевают использование лингвистических переменных. Этот набор управляющих правил нечеткой логики (или нечетких управляющих утверждений) характеризует связь входа системы с ее выходом. Общая форма представления правил нечеткой логики для случая СНЛ с множеством входов и одним выходом (MISO — «multiinput–single-output») такова: R i : IF x is Ai ,K, AND y is Bi THEN z = Ci , i = 1, n, (5.24) где x,K , y и z — лингвистические переменные, представляющие переменные состояния некоторого управляемого процесса и управляющие переменные соответственно, а Ai ,K, Bi и Ci — лингвистические значения переменных x,K , y и z в предметных областях U ,K, V и W соответственно. Вариант другой формы представления правил нечеткой логики подразумевает, что заключение представляется как функция переменных состояния управляемого процесса x,K , y, т.е. R i : IF x is Ai ,K, AND y is Bi THEN z = fi ( x,K , y ) , i = 1, n,
(5.25)
где fi ( x,K , y ) — функция переменных x,K, y состояния управляемого процесса. Нечеткие правила в уравнениях (5.24) и (5.25) вычисляют состояние процесса (ошибку определения состояния, интегральную ошибку состояния и т.д.) в момент времени t и затем рассчитывают и принимают решение об управляющих воздействиях, реализуемых в виде функции переменных состояния процесса ( x,K , y ). Необходимо отметить, что в обоих видах правил нечеткой логики входные переменные имеют лингвистические значения, а выходные имеют либо лингвистические значения (как в уравнении (5.24)), либо точные значения (как в уравнении (5.25)). Блок вывода. Блок вывода представляет собой ядро СНЛ, используемое для моделирования приближенных рассуждений и процесса принятия решений человеком в сложных ситуациях. Нечеткие выводы, нечеткие или приближенные рассуждения — это наиболее важные моменты при использовании средств нечеткой логики в управлении сложными объектами. Для организации нечетких выводов необходимо определить понятие отношения. Предположим, что знание эксперта A → B отражает нечеткое причинное отношение предпосылки и заключения, которое называется нечетким R : R = A → B. Почти все реально работающие прикладные системы, использующие промежуточные нечеткие оценки, это системы, основанные на нечетких продукционных правилах. При выполнении нечетких выводов используются нечеткие отношения R, заданные между одной областью (множество X ) и другой областью (множество Y ) в виде нечетного подмножества прямого произведения X × Y , определяемого по следующей формуле: n
m
{(
(
R = ∑∑ μ R xi , y j i =1 j =1
) ( xi , y j ) )} ,
где X = { x1 , x2 ,K , xn } — область посылок; Y = { y1 , y2 ,K , ym } — область заключе-
(
ний; μ R xi , y j
(
)
)
— функция принадлежности
R : μ R xi , y j ∈ [ 0, 1] , а знак
∑
( xi , y j )
нечеткому отношению
означает совокупность (объединение) множеств.
514
Методы современной теории автоматического управления
Для продукционных правил типа «IF A THEN B », использующих нечеткие множества A ( A ⊂ X ) и B ( B ⊂ X ) , один из способов построения нечеткого соответствия R состоит в следующем: n
m
{(
( ) ( xi , y j ) )},
R = А × В = ∑∑ μ A ( xi ) ∧ μ B y j i =1 j =1
или
μ R ( x, y ) = μ A ( x ) ∧ μ B ( y ) = min ( μ A ( x ) , μ B ( y ) ) ,
(5.26)
где μ A ( x ) , μ B ( y ) — функции принадлежности элементов x, y соответственно множествам A и B. Пример 5.4. Пусть X и Y — области натуральных чисел от 1 до 4. Определим следующим образом нечеткие множества: A — «маленькие», B — «большие». X = Y = {1, 2, 3, 4} ,
т.е. для примера взят частный случай соответствия — отношение на множестве {1, 2, 3, 4} :
{
( xi )} = {(1|1) , ( 0,6 | 2 ) , ( 0,1| 3) , ( 0 | 4 )};
А = μ A ( xi )
{ ( ) ( y )} = {( 0 |1) , ( 0,1| 2) , ( 0,6 | 3) , (1| 4)}.
В = μB y j
j
Для примера «если x маленькое, то y большое» (или A → B, где → означает операцию нечеткой имликации) можно построить нечеткое отношение R следующим образом. В качестве элементов матрицы R (табл. 5.4) записываются значения μ, вычисленные по формуле (5.26).
Таблица 5.4 Значения матриц R и S
R=
x1 x2 x3 x4
y1 0 0 0 0
y2 0,1 0,1 0,1 0
y3 0,6 0,6 0,1 0
y4 1,0 0,6 0,1 0
y1 y2 y3 y4
S=
v1 0 0 0 0
v2 0 0 0 0
v3 0 0,4 0,5 0,5
v4 0 0,4 0,9 1,0
Для свертки (композиции) нечетких отношений чаще выбирается свертка max-min (максминная композиция). Пусть R — нечеткое отношение множества X и множества Y , а S — нечеткое отношение множества Y и множества V . Тогда нечеткое отношение между X и V определяется как свертка (композиция) R o S , где n
l
∨ ( μ R ( xi , y j ) ∧ μ S ( y j , vk ) ) ( xi , vk ) ,
R o S = ∑∑
i =1 k =1 y j ∈Y
или
( (
)
(
R o S = max min μ R xi , y j , μ S y j , vk y j ∈Y
Пример 5.5. Пусть V = {1, 2, 3, 4}
) ) ( xi , vk ).
и заданы нечеткие множества
(5.27)
A ( A ⊂ Y ) = «не маленькие»,
H ( H ⊂ V ) = «очень большие», где
А = {( 0 |1) , ( 0, 4 | 2 ) , ( 0,9 | 3) , (1| 4 )} ; Н=
{( 0 |1) , ( 0 | 2 ) , ( 0,5 | 3) , (1| 4 )}.
Тогда для правил «если y не маленькое, то v очень большое» (или A → H ), в соответствии с формулой (5.27), нечеткое отношение S определяется табл. 5.4. Если теперь по формуле (5.27) вычислить свертку max-min с нечетким отношением R, полученным в примере 5.4, то из двух соотношений: «если x маленькое, то y большое», «если y не маленькое, то v очень большое» — можно построить нечеткое отношение из X в V (табл. 5.5):
RoS = ∨
y j ∈Y
( μ R ( x, y ) , μ S ( y , v ) ) . {(μ R ( x, y ) & μ S ( y, v ) )} = maxy ∈min Y j
Глава 5. Интеллектуальные системы
515 Таблица 5.5
Нечеткое отношение
x1 x2 x3 x4
y1 0 0 0 0
y2 0,1 0,1 0,1 0
y3 0,6 0,6 0,1 0
y4 1,0 0,6 0,1 0
o
y1 y2 y3 y4
v1 0 0 0 0
v2 0 0 0 0
из X в
v3 0 0,4 0,5 0,5
v4 0 0,4 0,9 1,0
V
=
x1 x2 x3 x4
v1 0 0 0 0
v2 0 0 0 0
v3 0,5 0,5 0,1 0
v4 1,0 0,6 0,1 0
R можно рассматривать как нечеткое множество на декартовом произведении X × Y полного пространства предпосылок X и полного пространства заключений Y . Таким образом, процесс получения (нечеткого) результата вывода B′ с использованием данных наблюдений A′ и знания A → B можно представить в виде формул B′ = A′ o R = A′ o ( A → B ) .
Для применения в нечетких рассуждениях в СНЛ обобщенное умозаключение может быть записано следующим образом: Условие 1: IF x is A THEN y is B; (5.28) Условие 2: x is A′; Вывод: y is B′, где A, A′, B, B′ — нечеткие предикаты (нечеткие множества или отношения) в универсальных множествах U , U , V , V соответственно. В общем, управляющее правило нечеткой логики (т.е. условие 1 в уравнении (5.28)) является нечетким отношением, которое записано в виде нечеткой импликации R = A → B. В соответствии с композиционным правилом вывода из уравнения (5.28) вывод B′ может быть получен при взятии нечеткой композиции нечеткого множества A′ и нечеткого отношения (в данном случае это нечеткое отношение является нечеткой импликацией) A → B : (5.29) B′ = A′ o R = A′ o ( A → B ) . Кроме нечеткой композиции и нечеткой импликации существуют другие типы композиционных операторов, которые могут быть использованы в композиционном правиле вывода. К этим операторам относятся операторы, связанные с t-нормами: операция минимума Заде, операция произведения Кауфмана, операция граничного произведения и др. В применяемых на практике СНЛ композиционные операторы минимума и произведения используются наиболее широко из-за их вычислительной простоты и эффективности. Если обозначить через «∗ » любой из возможных композиционных операторов, уравнение (5.29) примет вид: B′ = A′ ∗ R = A′ ∗ ( A → B ) , μ B′ ( v ) = sup {μ A′ ( u ) ∗μ A→B ( u, v )} ,
(5.30)
u
где «*» означает такие операции t-нормирования, как операции минимума, произведения, ограниченного произведения и радикального произведения. Что касается нечеткой импликации A → B, то существует около 40 разных функций нечеткой импликации, описанных в соответствующей литературе. В табл. 5.6 представлен список некоторых правил нечеткой импликации, часто применяемых в СНЛ. Можно заметить, что правила нечеткой импликации, определенные в табл. 5.6, являются обобщениями нечеткой конъюнкции, нечеткой дизъюнкции или нечеткой импликации, произведенными за счет применения различных t-норм. Так, первые 4 нечеткие импликации, приведенные в табл. 5.6, являются t-нормами. Например, нечеткая импликация минимума Мамдани получается, если в нечеткой конъюнкции использовать оператор пересечения, а операция произведения Ларсена получается,
516
Методы современной теории автоматического управления
если в нечеткой конъюнкции использовать алгебраическое произведение. Арифметическое правило Заде получается при использовании оператора ограниченной суммы, а правило минимума Заде — операторов пересечения и объединения. Остальные правила нечеткой импликации из табл. 5.6 могут быть получены за счет применения различных определений нечетких импликаций. Таблица 5.6
Правила нечеткой импликации Правило нечеткой импликации
Формула импликации
Нечеткая импликация μ А→ B ( u , v )
Правило min (Мамдани)
x→ y = x∧ y
μ A (u ) ∧ μB (v )
Логическое произведение (Ларсен)
x → y = x⋅ y
μ A (u ) ⋅ μ B ( v )
Граничное произведение
x → y = 0 ∨ ( x + y − 1)
0 ∨ ⎡⎣μ A ( u ) + μ B ( v ) − 1⎤⎦
Драстическое произведение
⎧ x, если y = 1; ⎪ x → y = ⎨ у, если x = 1; ⎪0, если x, y < 1 ⎩
⎧μ A ( u ) , μ B ( v ) = 1; ⎪ ⎨μ B ( v ) , μ A ( u ) = 1; ⎪ ⎩0, μ A ( u ) , μ B ( v ) < 1
Арифметическое правило Заде
x → y = 1 ∧ (1 − x + y )
1 ∧ (1 − μ A ( u ) + μ B ( v ) )
Max-min правило Заде
x → y = ( x ∧ y ) ∨ (1 − x )
μ A ( u ) ∧ μ B ( v ) ∨ (1 − μ A ( u ) )
Правило Шарпа
⎧1, если x ≤ y; x→ y=⎨ ⎩0, если x > y
⎧⎪1, μ A ( u ) ≤ μ B ( v ) ; ⎨ ⎪⎩0, μ A ( u ) > μ B ( v )
Правило Буля
x → y = (1 − x ) ∨ y
(1 − μ A ( u ) ) ∨ μ B ( v )
Правило Геделя
⎧1, если x ≤ y; x→ y=⎨ ⎩ y, если x > y
⎪⎧1, μ A ( u ) ≤ μ B ( v ) ; ⎨ ⎪⎩μ B ( v ) , μ A ( u ) > μ B ( v )
Правило Гогена
⎧1, если x ≤ y; x→ y=⎨ ⎩ y / x, если x > y
⎧1, μ A ( u ) ≤ μ B ( v ) ; ⎪ ⎨ μ B (v ) ⎪ μ (u ) , μ A ( u ) > μ B ( v ) ⎩ A
5.2.4.5. НЕЧЕТКИЙ ВЫВОД НА ОСНОВЕ ПРАВИЛА КОМПОЗИЦИИ Модель принятия решений на основе композиционного правила вывода описывает связь всех возможных состояний сложной системы с управляющими решениями. Формально модель задается в виде тройки ( X , R, Y ) , где X = { x1, x2 ,K, xn } , Y = { y1, y2 ,K, ym }
— базовые множества, на которых заданы входы Ai и выходы Bi системы; R — нечеткое соответствие «вход–выход». Соответствие R строится на основе словесной качественной информации, предоставляемой специалистами (экспертами) путем непосредственной формализации их нечетких стратегий. Эксперт описывает особенности принятия решений при функционировании сложной системы в виде ряда высказываний типа IF A1 THEN B1 , ELSE IF A2 THEN B2 , K , ELSE IF AN THEN BN ; здесь A1 , A2 ,K, AN — нечеткие подмножества, определенные на базовом множестве X , а B1 , B2 ,K, BN — нечеткие подмножества из базового множества Y . Все эти нечеткие подмножества задаются функциями принадлежности μ Аi ( x ) и μ Bi ( y ) .
Правило « IF Ai THEN Bi » определяется функцией принадлежности μ R = A→ B ( x, y ) , получаемой по формуле (5.26). Связка «иначе» между правилами понимается как ИЛИ-связка, поскольку общее нечеткое отношение состоит из правило 1, ИЛИ правило 2, ИЛИ …, ИЛИ правило N.
Глава 5. Интеллектуальные системы
517
Поэтому общее отношение R формально определяется следующим образом: R = U Ri = max ⎡ min μ Аi ( x ) , μ Bi ( y ) ⎤ , i = 1, N . ⎢ i ⎦⎥ i ⎣ i
(
)
Если предположить, что мы имеем нечеткое событие A`, т.е. входную ситуацию, представленную нечетким подмножеством, и известно общее отношение R, тогда результирующее действие выводится по композиционному правилу вывода: B`= A`o R. Значение функции принадлежности для B` вычисляется посредством максминной операции: μ B ` ( y ) = ∨ ( μ A` ( x ) ∧ μ R ( x, y ) ) = ∨ μ A` ( x ) ∧ ( μ A ( x ) ∧ μ B ( y ) ) = x∈X
x∈X
(
)
⎛ ⎞ (5.31) = ⎜ ∨ ( μ A` ( x ) ∧ μ A ( x ) ) ⎟ ∧ μ B ( y ) = ∨ μ A`∩ A ( x ) ∧ μ B ( y ) = x∈X ⎝ x∈X ⎠ = α ∧ μ x ( y ) = μ αY ∩ B ( y ) . Уравнения (5.31) наиболее часто используются в нечетких системах вывода, поскольку на основе этих уравнений при известных функциях принадлежности конечные результаты вычисляются довольно просто. Кроме того, обеспечивается графическая интерпретация механизма нечеткого вывода. Рассмотрим наиболее важные модификации нечеткого вывода. Для простоты положим, что в базе данных имеется два правила, представленные в виде R1 : IF x is A1 AND y is B1 THEN z is C1 , R2 : IF x is A2 AND y is B2 THEN z is C2 , где x, y — имена входных переменных; z — имя выходной переменной; A1 , A2 , B1 , B2 , C1 , C2 — определенные функции принадлежности. Необходимо найти четкое значение переменной z0 на основе задаваемых значений x0 , y0 . Уровень истинности для первого ( R1) и второго ( R2 ) правила может быть выражен как α1 = μ A1 ( x0 ) ∧ μ B1 ( y0 ) и α 2 = μ A2 ( x0 ) ∧ μ B2 ( y0 ) , (5.32)
где μ A1 ( x0 ) и μ B1 ( y0 ) определяют степень соответствия между пользовательскими
требованиями и данными, задаваемыми в правиле. Нечеткий вывод по Мамдани. В этом варианте нечеткого вывода используется операция взятия минимума в качестве нечеткой импликации (рис. 5.28). Тогда каждое i-е нечеткое правило приводит к следующему решению: μCi ` ( z ) = α i ∧ μCi ( z ) . На следующем этапе производится объединение получаемых нечетких подмножеств (5.32) с использованием операции взятия максимума, в результате чего получаем итоговое заключение (рис. 5.29): μC ( z ) = μC1 ` ∨ μC2 ` = ⎡⎣α1 ∧ μC1 ( z ) ⎤⎦ ∨ ⎡⎣α 2 ∧ μC2 ( z ) ⎤⎦ .
Нечеткий вывод по Ларсену. В качестве операции нечеткой импликации в этом варианте нечеткого вывода используется операция умножения (рис. 5.30). В этом случае получаем следующее решение: μCi ` ( z ) = αi ⋅μCi ( z ) . На заключительном этапе функция принадлежности μC определяется путем объединения нечетких подмножеств (рис. 5.31): μC ( z ) = μC1 ` ∨ μC2 ` = ⎡⎣α1 ∧ μC1 ( z ) ⎤⎦ ∨ ⎡⎣α 2 ∧ μC2 ( z ) ⎤⎦ .
518
Методы современной теории автоматического управления µ
µ
µ
1,0
1,0
1,0
A1
0
X
µ 1,0
0
B1
0
0
Y
µ
x0
X
Z
µ
1,0
A2
C1
1,0
B2
0
y0
Y min
0
C2
Z
Рис. 5.28. Диаграмма нечеткого вывода по Мамдани µ 1,0 C
0
Z
Рис. 5.29. Иллюстрация получения итогового результата нечеткого вывода по Мамдани
Рис. 5.30. Диаграмма нечеткого вывода по Ларсену
Глава 5. Интеллектуальные системы
519
Рис. 5.31. Иллюстрация получения итогового результата нечеткого вывода по Ларсену
Нечеткий вывод по Цукамото. Это упрощенный нечеткий вывод, базирующийся на классическом композиционном выводе, но требующий монотонности функций Ci . В этом случае μCi должна быть такой монотонной функцией, что существует обратная ей функция μC−1i . Результаты вывода из первого и второго правила (рис. 5.32) представляются как
z1 = μC−11 ( α1 ) и z2 = μC−12 ( α 2 ) .
Рис. 5.32. Диаграмма процедуры нечеткого вывода по Цукамото
Соответственно четкое значение выходной переменной получается как взвешенная комбинация: α z + α 2 z2 z0 = 1 1 . α1 + α 2
520
Методы современной теории автоматического управления
5.2.4.6. ДЕФАЗЗИФИКАЦИЯ Под дефаззификацией понимается процедура преобразования нечетких величин, получаемых в результате нечеткого вывода, в четкие. Эта процедура является необходимой в тех случаях, где требуется интерпретация нечетких выводов конкретными четкими величинами, т.е. когда на основе функции принадлежности μC ( z ) возника-
ет потребность определить для каждой точки в Z числовые значения. В настоящее время отсутствует систематическая процедура выбора стратегии дефаззификации. На практике часто используют два наиболее общих метода: метод центра тяжести (ЦТ — центроидный), метод максимума (ММ). Для дискретных пространств в центроидном методе формула для вычисления четкого значения выходной переменной представляется в следующем виде: n
∑ μC ( z j ) z j zцт =
j =1 n
∑ μC ( z j )
;
j =1
в общем случае zцт =
∫ μC ( z ) z dz z
μC ( z ) dz
.
(5.33)
Стратегия дефаззификации ММ предусматривает подсчет всех тех z , чьи функции принадлежности достигли максимального значения. В этом случае (для дискретного варианта) получим m z j zмм = ∑ , m j =1 где z j — выходная переменная, для которой функция принадлежности достигла максимума; m — число таких величин. Из этих двух наиболее часто используемых стратегий дефаззификации, стратегия ММ дает лучшие результаты для переходного режима, а ЦТ — в установившемся режиме из-за меньшей среднеквадратической ошибки. 5.2.4.7. ПРИМЕР ИСПОЛЬЗОВАНИЯ СНЛ Рассмотрим основные моменты нечеткого вывода по Мамдани на примере, приведенном в [280]. Пусть дана система управления нечеткой логики с двумя правилами нечеткого управления: Правило 1: IF x is A1 AND y is B1 THEN z is C1 ; Правило 2: IF x is A2 AND y is B2 THEN z is C2 . Предположим, что величины x0 и y0 , считываемые датчиком, являются четкими входными величинами для лингвистических переменных x и y и что заданы сле-
дующие функции принадлежности для нечетких подмножеств A1 , A2 , B1 , B2 , C1 , C2 этих переменных: ⎧x−2 ⎧x−3 ⎪⎪ 3 , 2 ≤ x ≤ 5; ⎪⎪ 3 , 3 ≤ x ≤ 6; μ A1 ( x ) = ⎨ μ A2 ( x ) = ⎨ ⎪ 8 − x , 5 < x ≤ 8; ⎪ 9 − x , 6 < x ≤ 9; ⎪⎩ 3 ⎪⎩ 3
Глава 5. Интеллектуальные системы
521
⎧ y −5 ⎧y−4 ⎪⎪ 3 , 5 ≤ y ≤ 8; ⎪⎪ 3 , 4 ≤ y ≤ 7; μ B1 ( y ) = ⎨ μ B2 ( y ) = ⎨ ⎪11 − y , 8 < y ≤ 11; ⎪10 − y , 7 < y ≤ 10; ⎩⎪ 3 ⎩⎪ 3 z − 1 ⎧ ⎧z −3 ⎪⎪ 3 , 1 ≤ z ≤ 4; ⎪⎪ 3 , 3 ≤ z ≤ 6; μС1 ( z ) = ⎨ μ С2 ( z ) = ⎨ ⎪ 7 − z , 4 < z ≤ 7; ⎪ 9 − z , 6 < z ≤ 9. ⎪⎩ 3 ⎪⎩ 3 Предположим, что в момент времени t1 были считаны значения датчиков x0 ( t1 ) = 4
и y0 ( t1 ) = 8. Проиллюстрируем, как при этом будет вычисляться величина выходного сигнала. Вначале находим α -срезы для первого и второго правила на основе заданных функций принадлежности и с учетом значений x0 и y0 . С этой целью вычисляем величины функций принадлежности в заданных точках для первого и второго правил: μ A1 ( x0 = 4 ) = 2 3 и μ B1 ( y0 = 8 ) = 1; μ A2 ( x0 = 4 ) = 1 3 и μ B2 ( y0 = 8 ) = 2 3.
Затем в соответствии с правилом вывода по Мамдани (выбор минимального значения функций принадлежности) определяем:
( ) α 2 = min ( μ A ( x0 ), μ B ( y0 ) ) = min (1 3, 2 3) = 1 3. α1 = min μ A1 ( x0 ) , μ B1 ( y0 ) = min ( 2 3, 1) = 2 3; 2
2
Результат применения вычисленных значений α1 и α 2 к консеквентам правила 1 (для C1 ) и правила 2 (для C2 ) показан на рис. 5.33. Окончательный результат получается путем объединения полученных функций принадлежности с использованием оператора максимума (с учетом стратегии вывода по Мамдани). Результирующая функция принадлежности представлена на рис. 5.33. μC
* zцт
Рис. 5.33. Иллюстрация нечеткого вывода по Мамдани в рассматриваемом примере
522
Методы современной теории автоматического управления
Для вычисления искомой выходной величины z проводим дефаззификацию нечеткой величины μC . По методу центра тяжести получаем * zцт =
2 (1 3) + 3 ( 2 3) + 4 ( 2 3) + 5 ( 2 3) + 6 (1 3) + 7 (1 3) + 8 (1 3) = 4,7. (1 3) + ( 2 3) + ( 2 3) + ( 2 3) + (1 3) + (1 3) + (1 3)
При использовании метода максимума подсчитаем число значений z , при которых было достигнуто максимальное значение функций принадлежности μC . Их три — 3, 4 и 5 (со значением функции принадлежности 2 3 ). Таким образом, * zмм = ( 3 + 4 + 5 ) 3 = 4,0.
5.3. 5.3.1.
СОЗДАНИЕ БАЗ ЗНАНИЙ ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМ ПРЕДСТАВЛЕНИЕ БАЗЫ ЗНАНИЙ В СОВРЕМЕННЫХ ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМАХ
Интеллектуальные системы (ИС) работают не с реальными объектами, а с их формальным представлением, которое заложено в виде моделей, правил и фактов. Принятая выше концепция базы знаний, как совокупности модели предметной области, алгоритма и базы данных, позволяет реализовать основные требования, выдвигаемые перед системой, основанной на знаниях [168]: 1. Все единицы информации должны обладать гибкой структурой, т.е. на разных уровнях восприятия используется разный уровень детализации. Кроме того, необходимо поддерживать механизм связывания отдельных информационных единиц отношениями типа «часть–целое», «элемент–класс». 2. В базе знаний необходимо обеспечить объединение отдельных элементов через отношения «причина–следствие», темпоральные отношения, отношения «быть рядом» или другие подобные связи. 3. Среди всего поля известных фактов и/или правил полезно выделять актуальное в текущий момент подмножество. Это подмножество объединяет семантическая близость, или релевантность, рассматриваемой ситуации, т.е. соответствие данной типовой обстановке. 4. Интеллектуальная система отличается от алгоритмических программ тем, что ее функционированием управляют данные, а не команды. Появление в базе новых фактов или правил изменит характер производимых действий. Это требует активности базы знаний при взаимодействии с внешним миром, т.е. БЗ должна адекватно обслуживать ИС в течение всего периода ее существования. Итак, база знаний должна приобретать, хранить, обрабатывать и организовывать информационные единицы. Пока система оперирует только фактами или экстенсиональной формой представления информации, она не может реализовать связи между своими элементами. Если система хранит только общие закономерности — интенсиональную часть знания, то она не может реагировать на изменение внешних условий, которое осуществляется за счет поступления новой фактуальной информации. В свою очередь вывод нового знания основан на алгоритмах обработки информации, что обеспечивает активность ИС и актуальность БЗ. Наиболее сложной составляющей, как отмечено в разделе 5.1.2, является создание модели предметной области, так как эта часть системы в значительной мере основана на субъективных взглядах эксперта. Современные интеллектуальные системы используют несколько основных способов представления знаний о предметной области: продукционные модели, семантические сети, фреймы и формальные логические системы [49].
Глава 5. Интеллектуальные системы
523
Продукционная модель основана на правилах типа «Если условие, то действие». Под «условием» понимают некоторый образец, по которому осуществляется поиск в базе знаний, а под «действием» — действия, выполняемые при успешном исходе поиска. Термин «продукция» принадлежит Э. Посту, который показал, что продукционная система является логической системой, эквивалентной машине Тьюринга [169, 196], т.е. она универсальна и любая формальная система, оперирующая символами, может быть реализована в виде одной из продукционных систем. Определение 5.1. Продукция обычно представлена в следующем виде: I :Q : P : A ⇒ B : N, (5.34) где I — имя продукции; Q — сфера применения продукции, которая служит для определения специфических областей влияния текущей продукции; P — предусловие продукции, которое определяет условие применения ядра продукции; A ⇒ B — ядро продукции, где ⇒ — обобщенная секвенция, которая может быть логическим следованием или описанием связи условия A и действия B; N — постусловие, которое описывает действия и процедуры, необходимые после реализации ядра продукции. Определение 5.2. Совокупность продукций образует систему продукций. Правильное решение может быть принято в системе продукций при соблюдении ее непротиворечивости, т.е. в любой текущей ситуации не должны возникать правила «Из A следует B » и «Из A следует отрицание B ». Подавляющую часть знаний эксперта можно представить в виде системы продукций. Однако проверка непротиворечивости продукционной системы тем сложнее, чем больше в нее введено правил. Кроме того, в каждый момент активизируется (т.е. предусловие выполнено, а область действия совпадает с текущей) множество продукций. Это требует организации системы управления продукциями или задание метаправила выбора продукции. Считается, что устойчиво работать могут только системы продукций, содержащие не более тысячи правил. Расширение системы влечет практически непреодолимые трудности при проверке корректности функционирования ИС. Продукционная модель применяется в целом ряде промышленных баз знаний. Среди них можно выделить классическую интеллектуальную систему MYCIN (и ее клоны ONCOCIN, EMYCIN) [169] (медицинская диагностика), которая позволяет образовать продукционную систему из нескольких сотен правил. Одной из популярных современных инструментальных сред для генерации продукционных систем является система G2 [196], которая позволяет реализовать следующие цели: • организация БЗ динамической ЭС реального времени; • модульность БЗ; • объектная ориентация процесса разработки БЗ; • клиент/сервер взаимодействия на уровне объектов (CORBA), данных (DDE) и приложений (Telewindows); • распределенная обработка задач; • системы G2 имеют развитый набор средств для моделирования внешней среды, через которые осуществляется расширение базы знаний. Широкое распространение продукционной модели БЗ обусловлено ее ориентацией на способ изложения знаний эксперта как справочника, модульностью построения БЗ, естественным параллелизмом. Недостаток моделей этого класса — требование непротиворечивости и связанное с ним ограничение размера системы. Логические модели представления знаний имеют большие преимущества перед другими формами за счет строгой системы организации знания, которая одновременно достаточно близка к естественной форме выражения правил экспертом. Этот класс моделей основан на представлении информации в логических языках. Примерами могут служить логика предикатов первого порядка, k-значные логики, темпоральные логики и т.д. Основой логики предикатов является понятие предикат [196].
524
Методы современной теории автоматического управления
Определение 5.3. Предикат — логическая функция, областью определения которой является множество значений некоторых сущностей — сортов, а область значений принадлежит множеству {истина, ложь}: P ( x1 , x2 ,K, xn ) ( xi ∈ {a1 , a2 ,K , ak } ) = r ( r ∈ {истина, ложь} ) .
Система предикатов позволяет определить практически любую предметную область. Причем в формальных логиках установлены правила добавления новых единиц знания как в момент наполнения БЗ, так и при выводе формул среди существующего поля известных базе элементов описания предметной области. В логических системах можно реализовать вывод новых конкретных фактов или собрать введенные факты в более общей формуле, т.е. автоматически создать новое правило. Вывод фактов базируется на основном правиле логического следования, которое состоит в следующем [196]. Определение 5.4. Если формула « A » является истиной и формула «Из A следует B » является истиной, то и « B » является истиной. Проблема логического следования для систем логики является наиболее существенной. Основная задача любой такой системы — представить алгоритм или метод, позволяющий для произвольных формул « A » и « B » установить факт следования (или его отсутствие). Такой механизм существует для простых систем класса логики исчисления высказываний, но уже логика предикатов не имеет универсальной процедуры установления факта следования. На основе логических моделей создано несколько языков представления знаний. Наиболее известный пример — язык Пролог и его модификации [196]. Логические модели, построенные с применением языков логического программирования, широко применяются в базах знаний интеллектуальных систем. Дополнительным преимуществом этого класса моделей является их ориентация на объектное представление информации. Предикатные модели достаточно легко воспринимает человек-эксперт и охотно выражает свои знания в такой форме. Проблема логических моделей в том, что необходимо использовать квалифицированного эксперта при наполнении БЗ, т.е. существует длинный период разработки базы для каждой предметной области. Сетевые модели или семантические сети (СС). Этот класс моделей был предложен Квилианом (M.R. Quillian) в 60-е годы ХХ века. Определение 5.5. Семантические сети представляют собой ориентированный граф, вершины которого — понятия, а дуги — отношения между ними [49]. Современные сетевые модели предусматривают выполнение следующих принципов: • блочная организация СС, когда уровень детализации позволяет скрыть или показать содержание некоторой части сети и установить отношения типа «часть– целое»; • наследование, когда между блоками может быть установлено отношение «объект–класс»; • локальность представления информации, т.е. каждый блок или вершина наполняются информацией независимо; • внесение дополнительной смысловой нагрузки за счет использования семантических падежей при описании элементов сети (вершина является «объектом действий», вершина является «субъектом действия» и т.п.). Примером семантической сети является структура классов объектных языков программирования. Она демонстрирует наследование от классов «предков» к «потомкам», блочную организацию при описании свойств и методов и локальное определение экземпляров класса. Пример на рис. 5.34 демонстрирует структуру наследования классов в Delphi 5.0, где выделена одна цепь «потомков», связанных типичным для сетевой модели представления отношением установления иерархии — отношением «потомок/предок».
Глава 5. Интеллектуальные системы
525 ТObject
Exception
ТStream
ТPersistent
ТGraphicsObject ТGraphic ТComponent ТTimer
ТScreen
ТMenulten
ТMenu
ТControl
ТGraphicsControl
ТPrinter
ТList
ТCanvas
ТPicture
ТCommonDialog
ТStrings
ТGlobalComponent
ТWinControl
ТApplication
ТCustomComboBox
ТButtonControl
ТCustomControl
TScrollBar
ТCustomEdit
TScrollingWinControl
ТCustomListBox
TForm
Рис. 5.34. Иерархия классов Delphi 5.0
Сетевые представления позволяют реализовать широкий спектр связей между элементами знания, но они в основном ориентированы на работу человека в процессе создания БЗ. Эксперт определяет вид и характер связей для каждой единицы информации, т.е. непрерывно участвует в формировании семантической сети данной предметной области. Очевидно, что динамичное обновление базы знаний в таких условиях не всегда возможно. Развитием сетевых моделей представления знаний являются фреймы. Фрейм — структура данных, предназначенная для представления некоторой стандартной ситуации [КЛАССМАСТЕР//www.tvp.ru]. В рамках фреймовых представлений выделяют два основных понятия. Определение 5.6. Протофрейм — абстрактная иерархическая структура данных, где определена жесткая система слотов (имен признаков для описания объектов) и закреплены их связи. Определение 5.7. Экземпляр фрейма — представляет собой конкретизацию протофрейма, где фиксированы значения слотов (не обязательно всех). Возвращаясь к примеру из рис. 5.34, можно сказать, что объектные языки программирования состоят из протофреймов (классов), для которых определены экземпляры (экземпляр класса). Структурная часть информационного поля программы (классы или записи — record) не несет знания до тех пор, пока нет экземпляров, т.е. реальных данных (см. рис. 5.35).
Рис. 5.35. Протофрейм и экземпляр фрейма
Фреймовые представления знаний обладают развитым набором средств реализации различных ситуаций. Слоты фрейма могут принимать следующие значения:
526
Методы современной теории автоматического управления
• другие слоты, т.е. иерархия вложений; • по умолчанию, т.е. исходное значение будет заменено на более подходящее, если это необходимо; • функции, которые обрабатывают ситуации, т.е. фрейм может иметь собственную активность; • непрерывные и дискретные числовые характеристики, символьные сущности, графические объекты; • другие фреймы, что позволяет организовать систему фреймов. Определение 5.8. Фрейм, где нет вложенных слотов или фреймов, называется нормализованным, или простым. Фреймовые модели реализованы в таких языках представления знаний, как KRL, FRL, K-NET [КЛАССМАСТЕР//www.tvp.ru]. Эти языки позволяют создавать протофреймы и наполнять экземпляры фрейма конкретной информацией. Они обеспечивают связь отдельных фреймов в систему фреймов, представляющую описание некоторой предметной области. Достоинством этого типа описаний является большая по сравнению с СС простота создания баз знаний и их сопровождения. Однако семантическая нагрузка, поддерживаемая такими БЗ, несколько ниже. Кроме перечисленных методов представления знаний, следует отметить широкий спектр нечетких представлений, которые могут модифицировать модель предметной области. Этот класс представлений был описан в п. 5.2.4. Нечеткие модели позволяют значительно расширить возможности представления сложных понятий, которые интуитивно воспринимает человек (много, мало, очень мало и т.п.). Нечеткие базы знаний получили широкое распространение в последние годы как в виде самостоятельных моделей, так и в форме гибридных интеллектуальных систем. Признаковое представление предметной области. К сожалению, семантические модели представления информации не самый простой метод организации реальной базы знаний. Преимущества смысловой ориентации системы нивелируются ее высокой сложностью. Чаще всего в технических системах исходная информация имеет вид числовой таблицы (матрицы), состоящей из m строк признаков объектов и n столбцов информации о конкретных объектах или ситуациях. Эта схема соответствует простому (нормализованному) фрейму. Однако использование подобной таблицы без ее обработки также не может удовлетворить ИС. Выше было сказано, что база знаний это совокупность фактов и более общих правил из данной предметной области. Соответственно простая форма представления фактов влечет за собой необходимость ввести развитую подсистему извлечения общих закономерностей (алгоритмическая часть БЗ) и подсистему поддержания концептуальных представлений о предметной области (алгоритмическая составляющая концептуальной части базы знаний). В подобной постановке представление фактуальной составляющей базы знаний основано на описании предметной области в следующем виде: D N = { x1 , x2 ,K, xN } , X = a1 , a2 ,K, a N ,
где D N — пространство признаков { x1 , x2 ,K , xN } для представления объекта X в
виде набора значений признаков a1 , a2 ,K , aN ; N — число признаков; ai — значение признака xi для объекта X . Такую форму представления знаний принято называть признаковым представлением. В рамках рассмотренной организации БЗ можно определить несколько основных вопросов, связанных с процедурой наполнения базы знаний: 1. Какой объем информации необходимо и достаточно сохранять для адекватной работы базы знаний? 2. Какие технологии обработки информации следует использовать для создания концептуальных правил данной предметной области?
Глава 5. Интеллектуальные системы
527
3. Какие составляющие входной информации следует учитывать при создании модели предметной области? Рассмотрим современные подходы к решению поставленных задач. Объем информации, которая использована для создания базы знаний ИС, может быть как очень большим, так и незначительной мощности. Решение о числе принятых к рассмотрению единиц информации зависит от объема решаемой задачи, ее сложности, качества поступающих сведений, повторяемости единиц информации и других характеристик. Все это можно объединить понятием представительность выборки. Определение 5.9. Выборка A считается представительной в заданном пространстве признаков для заданного класса решающих функций, если позволяет построить правило распознавания новых объектов ( Q ) с ошибкой, не превышающей заданной величины [86]. Идеальный процесс обучения не всегда реализуем. Например, выборка Q обычно не доступна в процессе обучения. Так что проверить, обучена ли система, невозможно. Поэтому приходится привлекать дополнительные эмпирические гипотезы о структуре предметной области. Предположение 5.1. Закономерная связь описывающих признаков X с целевым признаком z на множестве обучающих ( A ) и контрольных ( Q ) объектов одна и та же [86]. Прямые доказательства этого предположения в условиях реальной конкретной задачи получить нельзя. Однако чем больше объем множества A при условии его независимости, тем больше вероятность того, что построенная на A закономерность справедлива и для Q. Ключевым словом в данном случае является термин «независимость выборки». Доказать, что выборка А «независима» практически невозможно, так как информация об источнике не содержит описания характера отобранных объектов (за исключением случаев, когда известны все объекты). Реальные процедуры обучения не могут гарантировать, что выборка А была представительной, но можно применять косвенные оценки. Пример такой оценки — технологии с предварительным обучением, когда на первой стадии происходит обработка выборки А и проверка результата в Q, а на втором шаге выборка А расширяется за счет ошибок из выборки Q. Таким образом, процедура формирования правила носит циклический характер, что резко увеличивает время обучения. Поиск закономерности в предметной области опирается на второе эмпирическое предположение, которое определяет характер размещения объектов в пространстве признаков. Предположение 5.2. Гипотеза компактности состоит в том, что реализации одного и того же образа обычно отражаются в признаковом пространстве в геометрически близкие точки, образуя компактные сгустки [75, 86]. Это предположение соблюдается для большинства предметных областей, в описании которых минимальное количество неинформативных (несущественных для данной задачи) признаков. Это приводит к вопросу: что является необходимой составляющей описания, а что нет? 5.3.2. ИНФОРМАТИВНОСТЬ ОПИСАНИЯ ПРЕДМЕТНОЙ ОБЛАСТИ Информативность описания ПО во многом зависит от того, насколько удачно подобрана система признаков и их значений. Очевидно, что признак «цвет корпуса» играет важную роль при работе в пространстве «выбор автомобиля» и значительно меньшую в ПО «выбор трактора». Общая информативность системы признаков скла-
528
Методы современной теории автоматического управления
дывается из индивидуальной информативности признаков и их взаимосвязи. Рассмотрим подробнее вопросы информативности отдельных признаков и их совокупности. В задачах распознавания образов решающим критерием выбора набора признаков является величина потерь от ошибок [86]. Однако это связано с большими затратами машинного времени. Поэтому большой интерес представляют алгоритмы, устанавливающие набор информативных признаков без столь внушительных затрат машинного времени. Вычисление информативности признака. Один из методов применяется в рамках алгоритма ID3 (Induction Decision Tree) [33]. Информативность определяется в терминах энтропии H , которая определяет меру трудности распознавания образов. Пусть объекты распределены на шкале x, которая содержит t значений. Вероятность попадания i-го объекта в j-е значение равна P ( j i ) . Для всех объектов i по j-му значеV
нию x получим Pj = ∑ P ( j i ) , где V — число объектов. Вклад i-го объекта в эту i =1
сумму ri = P ( j i ) Pj , так что энтропия j-го значения по Шеннону выражается следующим значением [51]: H j = − ( r1 log r1 + r2 log r2 + K + ri log ri + K + rk log rk ) .
(5.35)
Общая неопределенность по признаку x имеет вид t
H x = ∑ H j Pj .
(5.36)
j =1
Недостаток этого подхода связан с тем, что при обучении известна лишь небольшая часть пространства и сделать оценку параметров информативности признака для всего пространства затруднительно. Оценку информативности признака можно получить и непосредственно в процессе построения правила в виде дерева дихотомических делений выборки по отдельным признакам [86]. При этом предполагается, что значения признака x можно разделить на две градации — x ≤ l и x > l. Неоднородность состава этой градации можно оценить величиной
R1 =
k
∑ mil mul ,
i =1 u =i +1
где mil — число реализаций объектов i-го класса, обнаруженных в первой градации; mul — число реализаций объектов u-го класса, обнаруженных в первой градации; k — число объектов. Аналогично вычисляется R2 . Величина Rl = R1 + R2 характеризует информативность признака x при пороге деления на две градации ( x = l ). Меняя положение l , можно найти такое, что Rl достигнет минимального значения R′. Если R′ = 0, то информативность признака максимальна (см. рис. 5.36 при l1 R1 = 12, при l 2 R1 = 0 исходная неопределенность составляет mi mu = 24, где mi — число черных объектов, а mu — число белых). x
l1
l2
Рис. 5.36. Дихотомия признака x
Глава 5. Интеллектуальные системы
529
Если признак признан неинформативным, то он может быть удален из системы признаков. К сожалению, представленные методы работают только в пространствах независимых признаков. В случаях, когда можно гарантировать, что нет взаимного влияния, можно применять все рассмотренные подходы. Информативность системы признаков. Системы независимых признаков в реальных задачах наблюдаются достаточно редко, но и в этих случаях желательно сокращать размер описания. Решение, очевидно, лежит в поиске комбинаций, удовлетворяющих условию, которое описано в разделе определения 5.9. Перебор пар, а тем более троек и т.д. комбинаций является практически нереальной задачей. Разработаны эвристические алгоритмы направленного перебора, среди которых можно выделить метод последовательного сокращения (алгоритм Del) и последовательного добавления (алгоритм Add) [КЛАССМАСТЕР//www.tvp.ru]. Смысл алгоритмов заключается в последовательном исключении для Del или добавлении для Add признаков и вычислении ошибки. На шаге i cохраняется система признаков, которая дает наименьшую ошибку. Кроме них применяют метод случайного поиска с адаптацией, таксономический поиск признаков и т.п. или эвристики, связанные с конкретным алгоритмом разделения объектов, как это показано для одного класса функций в [75]. Помимо рассмотренных подходов, применяют и целый ряд иных методов. Например, отбор данных на основе показателей значимости [109], генетических алгоритмов [109], методов понижения размерности [51] и других технологий. Кроме прямого удаления неинформационного признака можно использовать дополнительные методы обработки признаков с целью повысить качество описания предметной области. Среди них можно отметить следующие: • изменение числа значений дискретных признаков (например, с помощью автоматической таксономии в поле известных объектов [86, 110]); • заполнение пробелов (например, на основе методов вычисления оценки максимального правдоподобия [86]); • проверка входной информации (контроль при пополнении объема фактов и правил на согласованность [78, 86, 93]). Методы оценки информативности признака используют не только интеллектуальные системы. Целый ряд формальных методов для установления зависимостей и причинных связей также нуждается в снижении числа значений и признаков модели. Примером может служить регрессионный анализ, где размерность модели значительно влияет на используемые ресурсы [51]. Поэтому, хотя характер решаемых ИС задач существенно отличается, иногда возможно применять для отбора информативных признаков подходы, разработанные для формальных систем анализа данных. 5.3.3. ТЕХНОЛОГИИ ДЛЯ СОЗДАНИЯ ПРАВИЛ БАЗЫ ЗНАНИЙ В английском языке существует два термина, переводимые как ИАД, — Knowledge Discovery in Databases (KDD) и Data Mining (DM). В большинстве работ они используются как синонимы, хотя иногда KDD рассматривают как научное направление, образовавшееся «на пересечении искусственного интеллекта, статистики и теории баз данных» и обеспечивающее процесс извлечения информации из данных и ее использования, а DM — как совокупность обобщающих методов этого процесса [248]. В нашем случае будем говорить о синонимичных определениях интеллектуальной обработки элементарных единиц информации. Среди методов KDD над объектами — носителями некоторого знания — можно выделить два разных класса действий: • получение частных фактов на основе использования общих правил — дедукция; • получение общих правил на основе множества частных фактов — индукция.
530
Методы современной теории автоматического управления
В процессе функционирования БЗ большую роль играет первый тип действий, так как необходимо получать решения, которые основаны на известных системе правилах, исходя из состояния внешней среды и учитывая внутренние параметры объекта. Процедуры создания баз знаний предусматривают либо получение информации от эксперта, либо генерацию правил на основании входного набора примеров ситуаций или объектов. Передача знаний экспертом исследована в ряде работ Т.А. Гавриловой (например, [49]), где рассмотрены вопросы взаимодействия эксперта, инженера по знаниям и интеллектуальной системы как с точки зрения психологии, так и с точки зрения инженерии знаний. На современном этапе существования интеллектуальных систем большое внимание уделяется автоматическому наполнению баз знаний. Вопросы организации подобных систем рассмотрены в трудах национальных конференций по искусственному интеллекту [5, 38, 47, 68, 78, 93, 110, 111 и др.], а также в рамках зарубежных конференций последних 20–25 лет. Опубликован ряд работ, посвященных применению нейронных сетей для организации БЗ [38, 109, 196]. Целый ряд научных школ занят разработкой алгоритмов и методов, направленных на переход от отдельных фактов к общим правилам [33, 86, 93]. Широко освещен этот вопрос в периодических изданиях и Internet* [6 и др.]. Все это свидетельствует о глубоком интересе специалистов в области искусственного интеллекта к вопросу автоматической обработки накопленного объема фактов и в связи с этим к проблемам обобщения или индукции на множестве объектов-примеров. Рассмотрим особенности некоторых типов алгоритмов, направленных на обобщение известных элементарных фактов. Общая постановка задачи обобщения по [32] выглядит следующим образом. Определение 5.10. Пусть есть пространство D, где существует V объектов и выделено подмножество O = {o1 , o2 ,…, om } , O ⊆ V , которое поделено на два подмножества: K + — примеров и K − — контрпримеров. Причем K + ∪ K − = O, K + ∩ K − = ∅. Тогда правило P называют результатом обобщения в пространстве D, если оно позволяет отличить oi ∈ K + от o j ∈ K − и для любого другого объекта X ∈ V , X ∉ O способно вынести предположение о том, что X относится к объектам из K + или K −. Такая схема обобщения предусматривает обработку структурной формы представления объектов и более простые варианты описания фактов предметной области, например в виде простых фреймов или признаковых представлений, о которых говорилось выше. Для признаковых представлений, к которым можно относить таблицы баз данных, табличные результаты экспериментов, биржевые потоки котировок и многие другие формы входной информации, используют несколько типов алгоритмов обобщения. Рассмотрим некоторые из них. Нейронные сети. Искусственные нейронные сети как средство обработки информации моделировались по аналогии с известными принципами функционирования биологических нейронных сетей. Их структура базируется на следующих допущениях [109]: • обработка информации осуществляется во множестве простых элементов — нейронов; • сигналы между нейронами передаются по связям от выходов ко входам; • каждая связь характеризуется весом, на который умножается передаваемый по ней сигнал; • каждый нейрон имеет активационную функцию (как правило, нелинейную), аргумент которой рассчитывается как сумма взвешенных входных сигналов, а результат считается выходным сигналом. *
КЛАССМАСТЕР//www.tvp.ru; NeuroPro//www.bmstu.ru/facult/iu/iu4/rus/stat/book4.
Глава 5. Интеллектуальные системы
531
Таким образом, нейронные сети представляют собой наборы соединенных узлов, каждый из которых имеет вход, выход и активационную функцию (как правило, нелинейную). Они обладают способностью обучаться на известном наборе примеров обучающего множества. Обученная нейронная сеть представляет собой «черный ящик» (сложно трактуемую прогностическую модель, которая может быть применена в задачах классификации, кластеризации и прогнозирования). Более подробно способы организации нейронных сетей рассмотрены в соответствующем разделе (см. главу 6). С точки зрения вывода закономерностей большим недостатком нейронных сетей является проблема интерпретации решения, что осложняет процесс объяснения системой своих действий. Алгоритмы на основе грубых множеств (rough sets theory) [33] применяют для областей с неточными и даже противоречивыми данными. Пусть Tx ⊆ D N — некоторое подмножество признаков, описывающих ПО. Определим отношение эквивалентности R (Tx ) следующим образом:
∀o1 , o2 ∈ O : o1R (Tx ) o2 ↔ ∀ xi ∈ Tx ⎡⎣ f ( o1 , xi ) = f ( o2 , xi ) ⎤⎦ ,
где f ( X , xi ) — функция, определяющая значение xi для заданного объекта X . Итак, два объекта принадлежат одному классу эквивалентности, если они не могут быть различены с использованием данного подмножества признаков. Все множество классов эквивалентности R* (Tx ) = {e1 , e2 ,K , en }. Отношение R позволяет аппроксимировать подмножество C (класс) множества O, т.е. строить описания этого класса, где Lower ( C ) = U ei , Upper ( C ) = U ei ei ⊂C
ei ∩C =∅
— нижнее и верхнее приближение соответственно. Пара Lower ( C ) , Upper ( C ) составляет грубое множество. Пусть Pos ( C ) = Lower ( C ) — положительная область, Neg ( C ) = O \ Lower ( C ) — отрицательная область и Bnd ( C ) = Upper ( C ) \ Lower ( C ) .
Можно сформировать правила: Описание Pos ( С ) → C ;
Описание Neg ( С ) → ¬C ;
Описание Bnd ( С ) → возможно C.
Сформированные правила позволяют строить продукционную систему для базы знаний. Главный недостаток заключается в высокой вычислительной сложности алгоритма генерации правил. ДСМ-метод [229], или JSM. Этот тип методов порождения новых правил использует идеи Д.С. Милля и его подход к подтверждению/опровержению гипотез через последовательность поступающих в систему свидетельств, подтверждающих или опровергающих рассматриваемую гипотезу. Современный вариант подобных алгоритмов развивался в нашей стране в научной школе В.К. Финна. Общая структура метода такова: • гипотезы о причинах и антипричинах явлений порождаются на основании правил логической индукции; • гипотезы подвергаются проверке («фальсификации»), например, через проверку, не входит ли гипотеза причины в какой-либо контрпример. Последовательность циклов генерации гипотез и их отклонения позволяет определять довольно сложные закономерности предметной области (предсказание свойств сложных химических соединений, социального поведения и др.). Основное достоин-
532
Методы современной теории автоматического управления
ство метода состоит в том, что известные примеры позволяют построить множество гипотез о причинах рассматриваемого явления. Алгоритм ID3 [33] ориентирован на дискретные признаки и реализует традиционный для этого класса методов анализ информативности признака (как информационной энтропии H (см. выше)). Информативность признака позволяет выбрать направление наращивания решающего дерева для порождения дерева минимальной высоты. На каждом этапе синтеза дерева исследуется взвешенная текущей вершиной дерева выборка объектов O. По этой выборке вычисляется m
H ( xi ) = −∑ p j log 2 p j , j =1
где P = ( p1 , p2 ,K , pm ) — дискретное распределение вероятностей разбиения множества O на непересекающиеся классы C1 , C2 ,K, Cm . Разбив множество примеров на основе значений атрибута xi на подмножества O1 , O2 ,K, Om , мы можем вычислить Info ( O ) = H ( P ) как взвешенное среднее информации, необходимой для идентификации класса примера в каждом подмножестве: m O j Info ( xi , O ) = ∑ Info O j . O j =1
( )
Величина Gian ( xi , O ) = Info ( O ) − Info ( xi , O ) показывает количество информации,
которое получаем благодаря атрибуту xi . Алгоритм ID3 содержит следующие шаги: 1. Выбираем атрибут корневого узла и формируем ветви по каждому из его значений. 2. Взвешиваем ветви классифицированными по значениям атрибута xi подмножествами O. Если все объекты выделенного в узле подмножества относятся к одному классу, то это лист. 3. Проверяем, есть ли на текущем уровне узлы не листья. Если да, то принимаем эти узлы за корневые и переходим к построению следующего уровня дерева, пометив узел именем очередного атрибута. В противном случае алгоритм заканчивает работу. Алгоритмы типа ID3 хорошо зарекомендовали себя в широком спектре приложений. Они обеспечивают высокое качество классификации и позволяют работать в зашумленных данных. Однако решение, принимаемое по правилу, порождаемому ID3, носит жесткий, качественный характер. Кроме того, выдвигается требование обязательно точного разделения примеров на удачи и неудачи, что не всегда возможно в реальных задачах. Алгоритм на основе генерации гиперповерхности в дискретном пространстве признаков. Подобные алгоритмы основаны на проведении исследования примеров базы фактов, попыток построить оболочку или поверхность по результатам исследований, отделяющую один класс объектов от другого. Примером методов данного класса может служить алгоритм ИС «Аргонавт». Этот алгоритм разработан в МЭИ [75] и организован так, что функция, описывающая гиперповерхность в пространстве дискретных признаков, расположена так, чтобы расстояние от гиперповерхности в сторону примеров было тем больше, чем больше объект соответствует искомому классу объектов. Общая схема алгоритма основана на получении функции выбора (ФВ) по множеству T , которое содержит примеры удачных объектов, и множеству F , содержащему примеры неудачных объектов: y( X ) =
N
ki
∑∑ xij Cij + C0 + hZ , i =1 j =1
Глава 5. Интеллектуальные системы
533
где xij — j-е значение i-й координаты пространства признаков D N ; N — число координат (признаков); Cij — весовой коэффициент при j-м значении i-го признака; C0 — порог функции выбора; h — множество {h1 , h2 ,K , hk } весовых коэффициентов
нелинейных компонент из множества Z ; k — число нелинейных компонент; Z — множество { z1 , z2 ,K, zk } нелинейных компонент вида zm = xad & xgr & K & xst , где xgr — r-е значение признака xg , а длина zm не менее 2 и не более N .
Значения Cij определяют при решении системы уравнений, образованной из условий разделения
y ( X ) ≥ 0 при X ∈ T ;
y ( X ) < 0 при X ∈ F . Порядок вычисления нелинейных компонент определен в [75] и основан на покрытии линейно неразделимой части D N формируемыми нелинейными компонентами до соблюдения условий разделения 1 и 2. Цикл обучения замыкается процессом выдвижения гипотез, которые эксперт должен оценить на качественном уровне. Гипотезы отбирают среди вариантов, расположенных на границе разделения y [u ] ( X ) = 0, где u — номер цикла обучения.
Гипотезы, определенные человеком как положительные примеры, дополняют множество T , а отрицательные гипотезы дополняют множество F . Недостатком алгоритма «Аргонавт» можно считать рост времени обобщения и требуемых ресурсов при увеличении размерности D N и росте мощности множеств T и F . Другая его проблема — падение качества обобщения при большом числе нелинейностей в пространстве признаков. Однако активное обучение на основе выдвижения гипотез-вопросов позволяет решать довольно сложные задачи в рамках небольших вычислительных систем. Алгоритм построения шарообразных областей RealWeight [111]. Предлагаемый алгоритм направлен на работу с информацией, описание которой содержит большое количество непрерывных характеристик и имеет нечеткое определение целей. Алгоритм напоминает таксономические алгоритмы FOREL и KOLAPS [86], но имеет возможность выделить несколько подвидов примеров, а не только фон и объекты. Каждая задача Si в пространстве D N должна содержать факты, полностью удовлетворяющие целям ti и полностью не удовлетворяющие целям ti−1. Однако существуют примеры, которые нельзя точно отнести ни к ti , ни к ti−1. Это — неопределенные примеры tiн. Большинство алгоритмов обобщения требует однозначного отнесения факта к ti−1 или ti , что снижает качество разделения объектов в D N . В алгоритме RealWeight определено правило разделения объектов в пространстве D N следующего вида: ⎧ 1 ≥ yi ( X ) > 0, X ∈ ti ; ⎪⎪ yi ( X ) = ⎨ yi ( X ) = 0, X ∈ tiн ; ⎪ −1 ⎪⎩−1 ≤ yi ( X ) < 0, X ∈ ti , где X — факт, описанный через множество признаков { x1 , x2 ,K, xn } ; yi ( X ) — правило, построенное для задачи Si .
534
Методы современной теории автоматического управления
(
)
При определении yi ( X ) для каждого множества ti , ti−1 , tiн определяем
{
}
P ( ti ) = p1 ( ti ) , p2 ( ti ) ,K , pq ( ti )
( аналогично для P (t ) и P (t )) области в D i
−1
i
н
N
, покрытые такими сферами радиу-
са r j для p j , что все известные объекты из множества ti (или ti−1 или tiн ) покрыты, а известные объекты других типов не покрыты. По каждой области p j множества
(
)
ti ti −1 , ti н вычисляем yi′ ( X ) [ti ] = расстояние от Х до cntr j
( rj × (1 − mod a ) + max_ rj × mod a ) ,
где mod a ∈ [ 0, 1] — коэффициент, определяющий способность модели к обобщению. При mod a = 1 имеем самое сильное обобщение и меньшую точность, а при mod a = 0 имеем самую высокую точность представления уже известной части пространства; r j — радиус области p j (т.е. расстояние в D N до последнего объекта, принадлежащего p j ); max r j — максимальный радиус p j (т.е. расстояние в D N до первого объекта, не принадлежащего p j ); расстояние от Х до cntr j — расстояние в D N от рассматриваемого объекта до центра p j .
(
)
Для каждого множества ti ti −1 , ti н определяем максимальное значение yi′ ( X ) [ti ] , yi′ ( X ) ⎡⎣ti −1 ⎤⎦ и yi′ ( X ) ⎡⎣ti н ⎤⎦ и эти значения сравниваем между собой. Значение yi ( X )
будет соответствовать максимальному из них. Причем если максимально yi′ ( X ) [ti ] , то yi ( X ) = yi′ ( X ) [ti ]. Если максимум в yi′ ( X ) ⎡⎣ti −1 ⎤⎦ , то yi ( X ) = − yi′ ( X ) ⎡⎣ti −1 ⎤⎦ , а если максимум в yi′ ( X ) ⎡⎣ti н ⎤⎦ , то yi ( X ) = 0.
(
Факты, лежащие на границах областей ti ti −1 , ti н
)
и не входящие в базу извест-
ных объектов, могут использоваться в качестве вопросов к эксперту на этапе дополнительного обучения системы. На рис. 5.37 серым тоном отмечены области искомого класса, на схеме а черными точками помечены известные объекты, а на схемах б и в приведены результаты обработки известных объектов при различных значениях mode.
а
б
в
Рис. 5.37. Модель пространства D 2 (а) и его разделения при mod a = 0,5 (б), mod a = 1 (в)
Глава 5. Интеллектуальные системы
535
Основным недостатком данного алгоритма является резкий рост объема поискового пространства при использовании большого числа дискретных признаков, так как каждый из них рассматривается как множество непрерывных признаков в интервалах [0, 1] по каждому из значений. Все рассмотренные подходы к обобщению известной части описания предметной области для различения неизвестных объектов из этого же пространства зависят от соответствия алгоритма характеру входной информации. Причем если достаточно легко определить: дискретный будет поток данных или непрерывный, то, как локализация искомых объектов в пространстве D N скажется на качестве работы алгоритма, сказать довольно трудно. 5.3.4. ИССЛЕДОВАНИЕ КАЧЕСТВА РАБОТЫ АЛГОРИТМОВ Качество работы любого алгоритма интеллектуальной обработки информации необходимо проверять. Причем, желательно иметь большое число тестовых объектов, которые не входят в множество примеров и для которых известно их целевое свойство (или класс) или существует количественная мера соответствия требованиям ситуации. К сожалению, процесс обучения, как правило, поглощает все известные эксперту объекты. Скользящий контроль качества. Традиционно для проверки свойств правила, созданного некоторым алгоритмом, применяют «скользящий контроль качества» [86]. Часть ( t ) объектов изымается из обучающей выборки, проводится обучение на оставшихся объектах, а изъятые объекты предъявляются для распознавания. Фиксируется число ошибок. Затем «контрольные» объекты возвращаются в выборку, а из нее изымаются другие t объектов и процедура повторяется до тех пор, пока все объекты не побывают в роли контрольных. Если сумма полученных ошибок не превышает заданной величины, то считается, что система обучена хорошо. Работа любого алгоритма во многом зависит от конкретных свойств предложенного пространства признаков. Например, наборы данных lymphography, solar, zoo и т.п. из UCI [http://www.ics.uci.edu/~mlearn/] показывают разброс оценки качества работы одного и того же алгоритма от 48% до 85% [68]. При этом, даже получив высокую оценку качества, мы не можем гарантировать, что любое пространство будет обработано столь же хорошо. Исследование средних показателей алгоритма. Подход, который может преодолеть подобное ограничение, предусматривает исследование апостериорных распределений ошибок работы исследуемого алгоритма на большом массиве случайным образом сгенерированных областей примеров и контрпримеров [85]. Вся процедура исследования алгоритма Alg состоит из многократного повторения цикла: • формирование описания задачи; • решение алгоритмом задачи; • тестирование результата решения и сохранение его для дальнейшей обработки. После исполнения всей схемы экспериментов накопленные данные об ошибках подвергаются статистической обработке. Рассмотрим основные этапы исследования алгоритма. Первый этап состоит в формировании модельного пространства и модели знаний эксперта. Модель пространства описания предметной области. Модель пространства содержит N признаков, у каждого из которых k x значений. Это позволяет определить
пространство D N объемом k xN объектов. Каждый объект X является вектором значений признаков X = x1 , x2 ,K, xn , где xi — значение i-го признака. В D N опреде-
536
Методы современной теории автоматического управления
лено S центров данных и соответствующих им множеств Tполi , которые строят на основании следующего условия:
(
)
X положительный объект и X ∈ ∪Tполi , если ∃ Ras X , Tполi < ri ,
где i = 1, S — номер положительной области; ri — радиус множества Tполi ;
(
)
∃ Ras X , Tполi — расстояние от центра i-й положительной области до объекта X .
Областей, принадлежащих к классу положительных примеров, может быть несколько: Tпол1 ,Tпол 2 ,K ,Tпол S , где S — число положительных областей (рис. 5.38). Множества Tполi могут пересекаться. Часть пространства, не входящая в множества Tполi , считается областью отрицательных объектов Fпол. На рис. 5.38 положительные области обозначены серым цветом. В рамках этой модели можно регулировать число областей Tполi , их объем и расстояние между ними в пространстве D N . Fпол
DN Tпол
2
K2
K1 c1 _ c 2
Tпол1
r1 _ r s
c1 _ r s Tпол S K
m
Рис. 5.38. Схема модельного пространства
Модель информации, известной эксперту. Принята модель нормального распределения информации эксперта вокруг некоторых центров K i (на рис. 5.38 модель информации эксперта изображена полем черных точек). Это означает, что объекты, известные эксперту, размещены вокруг центра K i как нормально распределенные точки, где i = 1, m, m — число центров информации. Совокупность объектов из
множеств K 1 , K 2 ,K, K m разделяется на множество T (примеров) и F (контрпримеров) модельного пространства, где для объекта X ∈ ∪ K i . Если X ∈ ∪Tполi , то X ∈ T , иначе X ∈ F . В рамках модели можно регулировать число областей K i, их объем, расстояние между ними в пространстве D N и расстояние между множествами Tпол и ∪ K i. Второй этап — построение правила разделения объектов X на основе «информации, известной эксперту». Это решение алгоритмом Alg задачи, сформированной на первом этапе. Третий этап — процедура тестирования Alg, состоящая в многократной проверке решений, принятых алгоритмом о принадлежности объекта X множеству Тпол, и действительного положения вещей в сформированной модельной предметной области.
Глава 5. Интеллектуальные системы
537
Первый вопрос: как должны располагаться проверочные объекты? Первоначальное предположение о равномерном характере теста было отвергнуто, так как объем ошибок сильно зависит от протяженности в пространстве множества примеров Tпол (или множеств Tпол, Fпол ). Это обосновало расположение тестов на границах множеств T и F так, как показано на рис. 5.39. Большая часть проверочных примеров
(
)
должна располагаться на расстоянии rmin < Ras X ,Tполi < rmax . Fпол
DN Тест rmin
rmax
Tпол
Рис. 5.39. Размещение тестовых объектов
Процесс анализа необходимо начинать с определения характеристик тестовых выборок примеров. Первой исследуемой характеристикой является объем тестовой выборки. Определить, какой процент ошибочных решений возникает для каждого конкретного алгоритма Alg и пространства D N , можно за счет полной проверки всех вариантов. Это, скорее всего, невозможно с точки зрения требуемых объемов ресурсов или времени. При частичной проверке пространства необходимо гарантировать устойчивость полученной оценки ошибок. Следовательно, первый шаг — поиск минимального объема тестовой выборки в пространствах заданного класса. Таким образом, базовой характеристикой является число объектов в тесте для пространства заданного объема (т.е. фиксированный набор признаков X = x1 , x2 ,K, xn и значений xi = {ai1 , ai 2 ,K, ai ki } при случайном определении множества примеров T и контрпримеров F ). Для исследуемого алгоритма в неполном тесте из P объектов величина ошибки не должна отклоняться от реальной ошибки более чем на 5%. Условие выбора значения P — соблюдение следующего правила [51]:
(
)
Er ( P ) = Er ( Poi ) − Er ( P ) Er ( Poi ) ⋅100% ≤ 5%,
а
Er ( P + b ) > 5%,
для всех i-х пространств, где b > 1 — шаг изменения P; Poi — число объектов в текущем i-м пространстве без примеров и контрпримеров, i = 1, N p — индекс проверочного пространства, а P — число объектов в тесте; Er ( P ) — объем ошибок. Повторяя проверки для всего набора N p пространств, можно построить зависимость разброса ошибок от объема тестового множества. Остальные тесты связаны с ρi параметрами D N , которые определяют локализацию областей известной и искомой информации. Результаты тестов фиксируем как
538
Методы современной теории автоматического управления
Er max i ( ρi ) — среднюю ошибку от параметра ρi и di ( ρi ) — среднее отклонение
от математического ожидания Er max i ( ρi ) . Рассмотрим направления ρi исследования алгоритма: 1. Исследование зависимости величины ошибки от объема известных примеров. Массив случайным образом построенных пространств D N с фиксированной мощностью множества фактов-примеров V = T + F обрабатываем через Alg и осуществляем тестирование.
(
2. Исследование влияния расстояния между центрами искомых областей ri , r j
)
на
положение наиболее частой эмпирической ошибки. 3. Исследование изменения характера ошибки от расстояния между центрами из-
(
)
вестной и искомой области ci , r j . 4. Построение зависимости положения наиболее частой ошибки от размера кластеров известной области. 5. Построение зависимости положения наиболее частой ошибки от размера искомого кластера Тпол. 6. Исследование изменения характера ошибки от S — числа кластеров искомой информации. 7. Исследование изменения характера ошибки от m — числа кластеров известной информации, где m = 1, N m . 8. Исследование влияния числа значений признака. Некоторые алгоритмы хорошо обрабатывают многозначные признаки, но у других более качественные решения получаются для пространств из бинарных признаков. Цель этого этапа тестов — определить к какому классу алгоритмов относится текущий Alg. Тесты производим для пространств сравнимого объема (т.е. чем меньше признаков, тем больше значений, и наоборот). Примеры результатов тестирования алгоритмов приведены на рис. 5.40. ID3 70
Er_max3
60
Аргонавт
RealWeght 30 d3 25
%
50
20
40
15
30
10
20
5
10
r/N
0 0
0,2
0,4
0,6
0,8
r/N
0 0
0,2
0,4
0,6
0,8
1
Рис. 5.40. Результаты исследования качества работы алгоритмов ID3, «Аргонавт» и RealWeght в зависимости от изменения размера искомого кластера
Примеры нечетких множеств, построенных на результатах исследования работы алгоритмов, приведены на рис. 5.41. Они связывают качество разделения предметной области с относительным размером искомой области. Каждое из множеств образовано при совмещении через операцию «нечеткое И» множества средних ошибок и множества средних отклонений.
Глава 5. Интеллектуальные системы 1
539
μ3
0,8 0,6 0,4 0,2
r/N
0 0
0,2
0,4
0,6
0,8
1
Рис. 5.41. Нечеткие множества, характеризующие качество разделения объектов алгоритмами «Аргонавт» и ID3 в D N
Полученное нечеткое множество можно использовать при принятии решения о соответствии некоторого алгоритма Alg заданной предметной области. На основе принятого решения можно реализовать следующие варианты действий: • организовать процедуры преобразования текущего описания пространства признаков; • расширить существующее множество примеров за счет дополнительных вопросов эксперту; • выбрать другой алгоритм для формирования правил БЗ. Второй вариант действий соответствует активной системе формирования базы знаний, которая не просто выводит закономерности на множестве представленных объектов, но и направляет действия эксперта при представлении базы фактов. 5.3.5. ОРГАНИЗАЦИЯ СИСТЕМ ДЛЯ ПОДДЕРЖКИ И НАПОЛНЕНИЯ БЗ Существующие методы интеллектуальной обработки информации достаточно уверенно работают в небольших предметных областях. Однако реальные задачи зачастую имеют исключительно большую размерность. В таких пространствах обработка входного потока информации становится достаточно затруднительным делом. Представление больших и сложных предметных областей требует применения особых архитектурных решений при организации баз знаний. Рассмотрим примеры организации БЗ интеллектуальных систем, а также подходы, которые они реализуют, для поддержки работы в больших потоках информации. Разбиение общей задачи представления информации и формирования закономерностей на подзадачи. Разделим большую задачу на подзадачи меньшего объема, которые можно решать последовательно (или параллельно в многопроцессорных системах). Подход к решению этой проблемы был предложен в [170] в виде схемы «слоеного пирога». Процесс обобщения разделен на уровни. На каждом уровне решается несколько небольших подзадач, которые на следующем уровне объединяются в подзадачи следующего слоя. Одновременно выстраивается иерархия знаний и уровней их детализации. Реализация такой схемы обобщений стала возможна вследствие развития технологий программирования (распределенные вычисления в COM, DCOM, CORBA, технологии многоагентных систем [49] и т.д.). Попытки построить подобные системы предпринимались и предпринимаются. Причина в том, что это позволяет перейти от создания ИС для супермашин, что достаточно сложно, к построению постепенно наращиваемой интеллектуальной системы, распределенной в среде недорогих ЭВМ. Рассмотрим несколько примеров:
540
Методы современной теории автоматического управления
1. Онтологические базы знаний. Среди них можно отметить Ontolingua (логическая модель), OntoEdit (фреймовая модель), OilEd (логическая модель) и др. Метод получения понятий для перечисленных систем основан на сложной иерархической таксономии. Примером отечественных вариантов подобных систем является Web-DESO (объектная модель представлений знаний, разработка ИИА РАН, Санкт-Петербург), который организован на архитектуре клиент/сервер и моделирует понятия одного уровня на основе таксономии и ассоциативных отношений. Отдельные онтологические БЗ в Web-DESO можно соединять в онтологию более высокого уровня [185]. Достоинства онтологических представлений знаний в том, что они основаны на принципах иерархичности и модульности. 2. G2 поддерживает модульную организацию базы знаний, где отдельные модули можно объединять в большие системы или использовать отдельно [196]. 3. Гибридные нейронные сети. В работе [38] приведена модель, где одно правило соответствует одному комплексу двухслойного персептрона. После обучения отдельные правила объединяют в единую сеть и обучают совместно. 4. Stacked generalization (SG) использует метаклассификацию, т.е. два уровня обучения, где результаты работы классификаторов нижнего уровня оценивает и «арбитр» по метаданным [65].
Φ s , (1 − Φ s )
Φ s −1 , (1 − Φ s −1 )
P, X , Φ
Определение целей C1 , C2 ,K , Cs
Сервер «Алгоритм таксономии Cs »
Сервер «Алгоритм таксономии Cs −1 » Сервер «Алгоритм таксономии C1 » Φ1 , (1 − Φ1 )
Рис. 5.42. Архитектура AID
Глава 5. Интеллектуальные системы
541
5. Многоуровневая схема обработки информации для интеллектуальной обработки данных системы AID (Artificial Intelligent Designer) [110, 111]. Основные архитектурные принципы системы AID: модульность и масштабируемость на всех уровнях представления решаемых задач. По своей сути AID является конструктором, который имеет набор шлюзов для приема информации и набор алгоритмов для ее обработки (см. рис. 5.42). Система AID ориентирована на работу со структурированной информацией различных видов за счет разделения процессов представления информации через шлюзы и ее обработки в «серверах обобщения». Определение многоуровневой структуры обобщения примеров. В случае, когда сохранилось в качестве существенных большое число параметров, следует проводить процесс дополнительной семантической обработки пространства параметров. Цель этой обработки — выделить группы признаков, объединенные общим смыслом. Решение этой задачи возможно на основании использования различных подходов. Например, с помощью эксперта, когда специалист выделит подгруппы признаков предметной области. Однако это требует больших затрат человеко-часов. Альтернативный путь лежит в предварительном исследовании пространства признаков для выделения связей признаков. Эту связь можно рассматривать как статистическую корреляцию ρ xi , x j на множестве примеров. Причем характер связи не является
(
)
важным. Существенно наличие или отсутствие связи признаков xi , x j . После выделения уровней и таксонов признаков на уровнях осуществляется процесс обобщения внутри каждого таксона для построения многоуровневой функции выбора [110] (см. рис. 5.43). Сформированное правило может быть представлено следующей формальной формой
( ( (
( ) ( )) K, y1j ( y10 ( xi ,K xk ) , y 0j ( xg ,K xb ) ,K , ys0 ( x jr ,K x1 ) ) ) ,K) ,
y ( X ) = y p K y12 K y11 y10 ( xi ,K xk ) , y 0j xg ,K xb ,K, ys0 x jr ,K x1 ,K
(5.37)
где xi — координаты исходного пространства D N ; yqu — промежуточная q-я функция выбора на уровне u (эта функция является q-й координатой общего пространства на уровне u + 1). x1 xr
y10 ( X ) y11 ( X )
xr +1
xk
y02 ( X )
xi
xm xn − 2
. . .
y1p −1 ( X )
. . .
. . .
y1d ( X )
ymp −1 ( X )
y0k ( X )
xn −1 xn
Рис. 5.43. Структура многоуровневого правила
yp (X )
542
Методы современной теории автоматического управления
Множества входных переменных правил каждого уровня должны удовлетворять нескольким требованиям: 1) каждой yqu соответствует некоторое пространство Dqn [u ] из n координат; 2) ∪ Dqn [ 0] = D N , q = 1, N ;
{ }
3) ∪ Dzn [u + 1] = yqu , u > 0, z = 1, Z , q = 1, Q, Z — число таксонов на уровне u + 1, Q — число таксонов на уровне u;
4) Dqn [u ] ∩ Dzn [u ] ⊇ ∅. Решение задачи, т.е. проверка качества поступившего объекта, осуществляется за счет последовательного преодоления уровней обобщения сформированного правила. Кроме того, в ряде случаев можно ограничиваться «низкоуровневыми» обобщениями, если задача позволяет принимать частичные решения. Автоматическое выделение целей и классов информации. Сокращение занятости эксперта в процессе наполнения БЗ возможно за счет автоматизации выделения базы фактов. Набор примеров, которые определяют классы, можно выделить за счет анализа положения известных объектов в поле критериев. Наиболее известные подходы к решению этой задач связаны с таксономией по целям [51, 86, 111]. Примером подобных баз знаний может служить система организации слабо структурированного текстового потока информации INTELLEDGER [78]. Система поддерживает процедуру реструктуризации произвольного набора взаимосвязанных объектов на основе построения матрицы связности объектов и вычисления сходства/различия для любой пары. Это позволяет решить вопрос выделения классов информационных единиц (при участии эксперта, но в меньшей, чем ранее, степени). Другой пример, система SIMER [49], где реализована стратегия разбиения знаний о предметной области на ступени для получения таксонометрической структуры событий предметной области. В рамках системы AID [111] разработан сервер, который выделяет подзадачи за счет анализа внешних критериев. Критерии, описывающие цели, составляют множество P = { f1 , f 2 , K, f k }. Факты располагаются и группируются в пространстве критериев D k, где координатами является множество P. Процесс разделения базы фактов на подмножества и соответственно выделение целей C1 , C2 ,K, Cn реализован с помощью проведения процедуры таксономии [33] в пространстве критериев D k , определяющих качество решения. Результат проведения процесса таксономии порождает для каждой i-й цели подмножество фактов Φ i = {φ1 , φ2 , K, φm }. Множество Φ i является подмножеством K i+ (множество примеров i-го понятия), а все остальные примеры из базы фактов можно относить к подмножеству K i− (контр-
примеров i-го понятия). Полное множество целей {C1 , K, Cs } , где s — число целей, является набором понятий, представленных в экстенсиональной форме исходной базой фактов. Немонотонное обучение. В процессе жизни ИС часть информации из базы фактов может устареть и даже приобрести негативный смысл. Наиболее полно процесс модернизации БЗ можно реализовать за счет использования изменяемой модели мира. Однако только достаточно дорогие системы в полной мере реализуют процедуры моделирования и вывода на знаниях одновременно. Пример подобных систем — инструментальная оболочка G2 и построенные на ее основе ИС [196]. Для разрешения подобных ситуаций в системе AID предусмотрен механизм исключения фактов (сервер «Очистка»). В качестве потенциально устаревших фактов
Глава 5. Интеллектуальные системы
543
выступают факты, принадлежащие базе фактов, но обладающие значениями функции выбора, близкими к границе между множеством удачных и неудачных примеров. Отобранные варианты проверяет эксперт или набор формальных критериев, определенных на данном уровне существования системы. Примеры интеллектуальных систем для наполнения и ведения БЗ. Проблемы организации БЗ составляют основные направления исследования специалистов в области искусственного интеллекта в России и за рубежом. Широкое распространение Internet способствует росту объемов информации, которую необходимо быстро и эффективно превращать в БЗ, так как разрозненные факты остаются данными, а не знанием. Специфика интеллектуальных систем управления требует развития технологий автоматического построения БЗ из потоков информации в режиме реального времени с поддержкой немонотонного характера правил. Рассмотренные подходы к порождению закономерностей позволяют решать значительную часть поставленных в начале раздела вопросов. Однако на настоящее время нет универсального средства или стандарта обработки информации при создании БЗ. Рассмотрим несколько примеров разного уровня инструментальных систем для организации баз знаний интеллектуальных систем. G2 [196] — инструментальный комплекс для создания ИС реального времени. База знаний сохраняется в виде ASCII, что обеспечивает кроссплатформенную поддержку созданной системы. Все знания представлены в объектной форме. Основа представления информации: класс, подкласс, экземпляр класса. БЗ может состоять из нескольких модулей. Сущности, задаваемые в G2, можно разделить на объекты (объекты реального мира, приложения) и связи (классы для изображения путей между объектами, например связи компьютеров в сети). Основу исполняемых утверждений БЗ составляют правила и процедуры. Правила имеют вид «Если А, то В». Однако условие и заключение правил может иметь достаточно сложную форму. Процедуры используют для записи в БЗ жестких последовательностей действий. G2 обладает развитыми средствами моделирования, что позволяет реализовать динамичное изменение БЗ. Другие особенности и свойства G2 были рассмотрены выше в разделе 5.3.1. Кроме того, необходимо отметить, что система G2 обладает богатой историей решения реальных задач в области организации интеллектуальных систем высокой сложности. АТ-Технология — разрабатывается в МИФИ [93]. Предусматривает наполнение базы знаний через интервьюирование эксперта и извлечение закономерностей, скрытых в информации, хранимой в БД. Автоматическое извлечение правил осуществляется на основе технологий обобщения (варианты алгоритма ID3). Существует webверсия пакета. В рамках данной системы организован ряд ИС для медицинской диагностики. SIMER+ — составная часть инструментального средства для организации интеллектуальных систем [49]. Способ представления знаний — неоднородная семантическая сеть. Система SIMER+ предназначена для прямого приобретения знаний от эксперта. Моделирование рассуждений осуществляется модулем MIR. Система SIMER+MIR позволила решить ряд сложных задач, таких как предсказание лавинной опасности. Система ориентирована на области с неясной структурой объектов, с неполным описанием множества свойств объектов и богатым набором связей разной природы. Система AID [111] позволяет решать довольно большие задачи с порождением сложных правил (объемом пространства до нескольких десятков признаков), но не имеет сервиса по организации правил по стандарту коммерческих БЗ. AID подразумевает встраивание сервера, поддерживающего правило, в систему, его использующую. Пример, рассмотренный ниже, показывает, как управлять деятельностью искусственного существа (хищника) в виртуальной экосистеме. Объект «Хищник» перемещается в поисках пищи и партнеров или отдыхает, когда нет ни того, ни другого. Структура взаимосвязи объекта с сервером правил системы AID приведена на рис. 5.44.
544
Методы современной теории автоматического управления
Рис. 5.44. «Хищник» в виртуальной экосистеме
Траектория движения «Хищника» носит целенаправленный характер и зависит от внешней для него среды. Серверы правил поддерживают режим решения задачи для сформированных AID правил. При создании «Хищника» использованы мнения эксперта о том, как следует действовать в конкретных ситуациях, и алгоритм «Аргонавт», а значит, ответ сервера имеет количественный характер. Решение принимается по результатам сравнения ответов для правил «идти», «размножаться» и «стоять». Действие, которое имеет самую высокую оценку, будет выполнено объектом «Хищник». Существование «Хищников» в экосистеме зависит от качества порожденных правил. В наиболее удачных вариантах будет реализована зависимость числа «Хищников» от времени, подобная приведенной на рис. 5.44. В заключение следует сказать, что за последние 30–40 лет произошел переход от решения ИС модельных задач к работе с объектами реального мира. Дальнейшее развитие систем для организации баз знаний, очевидно, будет связано с использованием распределенной обработки информации, разработкой стандартов представления знаний, унификацией моделей диалога с человеком и другими источниками знаний и данных. Кроме этого, необходимо отметить, что проблемой на данный момент является взаимодействие человека и интеллектуальной базы знаний. Существующие модели взаимодействия предусматривают или использование специальных языков, или применение урезанных версий естественного языка (пока еще очень редко). Однако современное состояние систем поддержки баз знаний позволяет строить описание сложных предметных областей для решения задач реального уровня сложности. 5.4. 5.4.1.
ИНСТРУМЕНТАЛЬНЫЕ СРЕДСТВА И РЕАЛИЗАЦИЯ ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМ ОТОБРАЖЕНИЕ ИНТЕЛЛЕКТУАЛЬНОЙ СИСТЕМЫ УПРАВЛЕНИЯ НА АРХИТЕКТУРУ МНОГОПРОЦЕССОРНОЙ ВЫЧИСЛИТЕЛЬНОЙ СЕТИ
Интеллектуальные системы управления (ИСУ) с разветвленной структурой характеризуются большим объемом перерабатываемой информации и высокой сложностью используемых алгоритмов обработки информации и принятия решений. Наряду
Глава 5. Интеллектуальные системы
545
с этим предъявляются жесткие требования к надежности ИСУ. Указанные характеристики ИСУ могут быть обеспечены только за счет использования многопроцессорных вычислительных сетей (МВС), например транспьютерных систем [83]. Здесь рассматривается задача оптимального отображения структуры ИСУ на архитектуру МВС, заключающаяся в таком распределении программ, реализующих подсистемы ИСУ, по процессорам МВС, которое минимизирует заданный критерий эффективности отображения. Широко известным приближенным методом решения задач отображения является метод балансировки загрузки. При этом программы назначают процессорам таким образом, чтобы вычислительная загрузка последних была максимально одинаковой. Предлагается формализация задачи оптимального отображения структуры ИСУ на архитектуру МВС в виде задачи глобальной балансировки загрузки. Подход, основанный на математическом программировании, позволяет свести задачу балансировки к задаче булева линейного программирования. Основной целью работы является исследование эффективности метода решения задачи оптимального отображения структуры ИСУ на архитектуру МВС, в котором указанная задача булева линейного программирования решается приближенно методом релаксации. Идея заключается в решении этой задачи как задачи нецелочисленного линейного программирования (симплекс-методом) и в последующем булевом округлении результата. Целесообразность такого подхода основана на том, что задача булева линейного программирования является NP-сложной, а задача нецелочисленного линейного программирования — Р-сложной. Заметим, что симплексметод в большинстве случаев практически также обеспечивает полиномиальное время решения. Постановка задачи. Пусть { Pi , i ∈ [1, n ]} — множество подсистем ИСУ; pi — вычислительная сложность (количество арифметических операций) программы, реализующей подсистему Pi ; C = ci , j , ci ,i = 0, i, j ∈ [1, n ] — коммуникационная мат-
{
}
рица ИСУ, где ci , j — количество информации, в байтах, которое подсистема Pi передает подсистеме Pi .
Пусть {Qν , ν ∈ [1, N ]} — множество процессоров МВС; qv — производительность
процессора Qν ; D = {dν,μ , dν,ν = 0, ν, μ∈[1, N ]} — коммуникационная матрица МВС, где dν ,μ — минимальное время передачи байта данных от процессора Qν процессору Qμ . Отображение подсистем ИСУ на процессоры МВС зададим отображающей ( N × n )матрицей X = { xν ,i , ν ∈ [1, N ] , i ∈ [1, n ]} ∈ X, где ⎧1, если подсистема Pi выполняется на процессоре Qν , xv ,i = ⎨ ⎩0 в противном случае; X — множество допустимых отображений. Имеют место очевидные ограничения: (5.38) xν,1 + xν ,2 + K + xν , n ≤ n, x1, i + x2, i + K + xN , i = 1. Критерий эффективности построим на основе вычислительной и коммуникационной загрузок процессоров. Вычислительная загрузка WL (Work Load) процессора {Qν, ν∈[1, N]} определяется суммарным временем выполнения назначенных ему
программ n
WLν = qν ∑ xν ,i pi . i =1
(5.39)
546
Методы современной теории автоматического управления
Коммуникационная загрузка CL (Communication Load) процессора Qv — это суммарное время обменов, которые должны выполнить программы, назначенные этому процессору: N
n
n
CLν ( X ) = ∑∑∑ xμ, j xν ,i dν ,μ ci , j .
(5.40)
μ=1 i =1 j =1
В качестве критерия эффективности отображения используем максимальную из суммарных загрузок процессоров МВС (5.41) E ( X ) = max Eν ( X ) = max (WLν ( X ) + CLν ( X ) ) . ν∈[1, N ]
ν∈[1, N ]
Ставится задача поиска отображающей матрицы X = X*, доставляющей минимум критерию эффективности (5.41) (5.42) E* = E X* = min E ( X ) .
( )
X∈X
Заметим, что модель (5.38)–(5.42) не учитывает коммуникационную загрузку процессоров МВС, обусловленную транзитными обменами; возможные задержки обменов из-за перегрузки каналов обмена; дополнительное время на организацию обменов. Последнюю составляющую, которая в транспьютерных сетях, например, может быть весьма существенной, легко учесть, если положить dν ,μ ci , j = lν ,μ tst + ci , j tcom , где lν ,μ — «расстояние» между процессорами Qν , Qμ ; tst — стартовое время; tcom — время передачи байта данных между соседними процессорами МВС. Точное решение задачи. Входящая в соотношение (5.42) составляющая (5.39) линейна, а составляющая (5.40) нелинейна относительно компонентов отображающей % , компоматрицы X. Введем вспомогательную отображающую ( N 2× n 2 )-матрицу X ненты которой представляют собой произведение компонентов матрицы X. С ис% выражение запишется в виде пользованием матрицы X
( )
N
n
n
% = ∑∑∑ x% d c , CLν X νμ ,ij ν ,μ i , j μ=1 i =1 j =1
% , находящийся в строке, соответствующей ν, μ, и где x% νμ , ij — элемент матрицы X
столбце, соответствующем i, j. Вычислительная загрузка (5.39) выражается через матрицу X в виде
( )
% =q WLν X ν
где p% = ( p1 0K 0
0 p2 0K 0
K
n2
∑ x%νν,ij p% ij ,
i , j =1
0 0K pn ) — ( n 2 × 1) -вектор. T
( )
% Таким образом, критерий эффективности согласования Eν X
оказывается ли-
%. нейным относительно матрицы X Стандартным приемом с помощью вспомогательных переменных σ, Y = { y0 , y1,K, yN }
% =X % *, доставляющей минимум критерию задача поиска отображающей матрицы X % (см. формулы (5.41), (5.42)), сводится к задаче смешанного эффективности E X
( )
булева линейного программирования % = σ* min σ X
( )
%,σ X
(5.43)
Глава 5. Интеллектуальные системы
547
с ограничениями
( )
% − σ + y = 0, σ + y0 = 0, Eν X ν
n2
∑ x%νμ,ij = 1
i , j =1
и ограничениями σ ≤ 0, x%νμ, ij = 0, 1; ν, μ ∈ ⎡⎣1, N 2 ⎤⎦ , i, j ∈ ⎡⎣1, n 2 ⎤⎦ .
(
)
(
)
Задача содержит n 2 N 2 + N + 1 переменных и n 2 + N 2 + N + 2 ограничений.
Теорема 5.1. Задача оптимального отображения структуры ИСУ на архитектуру МВС является NP-сложной. Справедливость теоремы следует из того факта, что задача булева линейного программирования (5.43) является NP-сложной. Точное решение задачи отображения реализовано в последовательном фортрановском GOMORY-отображателе, использующем программу НО2ВАF решения задачи целочисленного линейного программирования (5.43) известным методом Гомори из библиотеки численного анализа NAG (National Algorithmic Group). Проиллюстрированная далее эффективность GOMORY-отображателя может быть значительно повышена за счет использования параллельных алгоритмов метода Гомори. Приближенное решение задачи на основе метода релаксации. Обозначим алгоритм решения задачи линейного программирования (5.43) с помощью симплекс-метода (SIMPLEX), а соответствующие значения отображающей матрицы (нецелочисленной) и критерия эффективности X s , Es . Введем алгоритмы ROUND, UNIFORM1, UNIFORM2, COMBI. Алгоритм ROUND заменяет величину ( xs )ν ,i ее целочисленным значением ( xr )ν ,i по формуле ⎧1, если ν = ν 0 ; ⎩0 в противном случае,
( xr )ν,i = ⎨
где ν 0 определяется из условия
max ( xs )ν , i = ( xs )ν ν
0 ,i
, ν ∈ [1, N ] , i ∈ [1, n ] .
(5.44)
(5.45)
При этом выполнение ограничений (5.38) обеспечивается автоматически. Алгоритм UNIFORM1 каждому процессору (кроме Q1 или QN ) назначает n1 = [ n N ] программ независимо от их вычислительной сложности. Здесь [ n N ] — ближайшее целое, меньшее n N . Алгоритм UNIFORM2 каждому процессору назначает такое количество программ со смежными номерами, чтобы вычислительная загрузка этого процессора не превышала средней: n
p = ∑ pi N . i =1
Алгоритм COMBI является комбинацией алгоритмов ROUND, UNIFORM1 и UNIFORM2. Выбирается лучший из них по критерию (5.42). Эффективность рассматриваемых приближенных алгоритмов решения задачи отображения исследована с помощью статистического моделирования. Приведем результаты исследования для МВС с архитектурой типа «линейка», в которой Host-процессор Q1 и процессоры Q2 ,K , QN одинаковы. Положим, что вы-
548
Методы современной теории автоматического управления
числительная сложность p1 , p2 ,K , pn программ определяется случайными величинами, равномерно распределенными в интервале [ 0, pmax ]. При этом обмены проис-
ходят только с программой, выполняемой на Host-процессоре, и параметры этих обменов одинаковы. На рис. 5.45, 5.46 представлены результаты исследования при следующих данных: количество процессоров N = 8, количество программ n = 20, при одинаковых значениях параметров обменов c = 1 количество статистических испытаний равно 300. На рис. 5.45 проиллюстрирован случай, когда средняя вычислительная сложность программ p превышает сложность коммуникаций в 5 раз; на рис. 5.46 — в 50 раз. Символом E обозначена оценка математического ожидания критерия эффективности отображения, кривым 1–5 соответствуют алгоритмы GOMORY, COMBI, ROUND, UNIFORM1, UNIFORM2. Эффективность
5 4 3 2 1
0
0,2
0,4
0,6
0,8
1,0
E Es
Рис. 5.45. Результаты исследования для МВС с архитектурой типа «линейка»
Эффективность 5 4 3 2 1
0
0,2
0,4
0,6
0,8
1,0
E Es
Рис. 5.46. Результаты исследования для МВС с архитектурой типа «линейка»
Автором были проведены подобные исследования и с другими количествами программ, процессоров и pmax . Во всех случаях результаты были близки к представленным на рис. 5.45, 5.46, что дает основание сделать следующие выводы. При приближенном решении задачи отображения алгоритм релаксации ROUND целесообразно комбинировать с простейшими алгоритмами равномерного распределения UNIFORM1, UNIFORM2, т.е. использовать комбинированный алгоритм COMBI. При этом средняя эффективность отображения повышается на 5÷10% (в зависимости от соотношения средней вычислительной сложности программ и стоимости коммуникаций).
Глава 5. Интеллектуальные системы
549
При некоторых наборах исходных данных стандартные программы, использующие симплекс-метод, могут не давать решения (из-за погрешностей вычислений и представления данных). Алгоритм COMBI обеспечивает решение задачи во всех случаях. Алгоритм COMBI обеспечивает среднюю эффективность отображения лишь на 5% худшую, чем точный алгоритм целочисленного линейного программирования GOMORY. Были также рассмотрены более сложные, чем ROUND, алгоритмы округления и более сложные, чем UNIFORM1 и UNIFORM2, алгоритмы равномерного распределения. Так, при округлении компонентов отображающей матрицы X наряду с алгоритмом (5.44) использовалась величина max ( xs )ν ,i ; ν≠ν 0
для равномерного распределения был использован алгоритм, близкий к «жадному алгоритму упаковки в контейнеры». Заметного повышения эффективности алгоритма COMBI эти усложнения не дали. Приближенное решение задачи отображения с помощью метода релаксации было реализовано в последовательном фортрановском COMBI-отображателе. Алгоритм SIMPLEX в COMBI-отображателе реализован на основе одной из библиотечных программ симплекс-метода. 5.4.2.
СТОХАСТИЧЕСКИЕ МЕТОДЫ РЕШЕНИЯ ЗАДАЧИ ОТОБРАЖЕНИЯ АЛГОРИТМОВ И ПРОГРАММ НА МУЛЬТИТРАНСПЬЮТЕРНЫЕ СИСТЕМЫ
Графовое представление алгоритмов. Вычислительные алгоритмы представляются взвешенными ориентированными ациклическими графами [83] (рис. 5.47). Вершины таких графов соответствуют некоторым частям алгоритма, в дальнейшем называемыми операциями. Дуги графа, соединяющие вершины, означают наличие информационной зависимости между соответствующими операциями алгоритма — результат выполнения одной операции является аргументом для другой. Веса вершин пропорциональны времени выполнения соответствующих операций — будем измерять их числом некоторых элементарных операций, содержащихся в соответствующей данной вершине операции. Под элементарной операцией можно понимать, например, арифметическую операцию (сложения/умножения) или один такт процессора. Дуги графа алгоритма также являются взвешенными, и их вес равен объему (например, в байтах) передаваемой по этой дуге информации. Будем задавать введенный граф алгоритма, как ГА = n, c, S , где n — число
{
}
вершин в графе; cl = cl , l = 1, n — вектор весов вершин; S — взвешенная матрица смежности графа. Это ( n × n )-матрица, элементы sij которой равны 0, если i-я и j-я вершины не связаны дугой, и весу связывающей их дуги — в противном случае. Каждую дугу графа будем представлять в виде упорядоченной пары номеров вершин ( i, j ) , которые эта дуга соединяет. За U A обозначим число элементарных операций алгоритма n
U A = ∑ cl . l =1
Назовем степенью параллелизма графа алгоритма максимальное число попарно независимых вершин в графе. Степень параллелизма графа определяет максимально возможное число процессоров ВС для эффективного распараллеливания алгоритма
550
Методы современной теории автоматического управления
при заданной агрегации операций алгоритма в вершины графа. При числе процессоров, большем степени параллелизма, в любой момент времени часть их обязательно будет простаивать. program EXAMPLE parameter N=100 real A(N,N),B(N) real X(N) h=1/N do 1 i=1,N 1 B(i)=i*h do 2 i=1,N do 2 j=1,N 2 A(i,j)=0.1*(i+j) do 3 i=1,N 3 x(i)=x(i)+A(i,j)*B(j) stop end
1
3
1
2
2 4
h=3
n = 4; U A = 22101; c = [1, 100, 11000, 11000] ; ⎡0 ⎢0 S=⎢ ⎢0 ⎢ ⎢⎣ 0
1 0 0 0
0 0 ⎤ ⎡1 0 1 0 ⎤ 0 100 ⎥⎥ ; H = ⎢⎢ 0 1 0 0 ⎥⎥ . ⎥ 0 10000 ⎢⎣ 0 0 0 1⎥⎦ ⎥ 0 0 ⎥⎦
Рис. 5.47. Пример графового представления алгоритма
Ациклические орграфы допускают поярусное разложение. На первый ярус помещаются вершины, которые не имеют входных дуг. На каждый последующий ярус помещаются те вершины, которые не имеют предшественников, за исключением уже распределенных на предыдущие ярусы. Обозначим число таких ярусов за h. А само поярусное распределение буем представлять в виде ( h × n )-матрицы H, элементы H kj которой равны 1, если j-я вершина принадлежит k-му ярусу, и 0 — в противном случае. Смысл такого поярусного распределения состоит в том, что операции алгоритма, соответствующие вершинам одного уровня, могут выполняться параллельно. Средней степенью параллелизма назовем отношение h n , которое для последовательных ( h = n ) алгоритмов равно 1, а для полностью параллельных ( h = 1) алгоритмов — n. Графовое представление мультитранспьютерных систем. Под мультитранспьютерной системой (ВС) будем понимать набор, состоящий из n транспьютеров, объединенных некоторой системой связи. Такие ВС будем представлять в виде взвешенных ориентированных графов, вершины которых соответствуют процессорам ВС и их число равно p. Каждая вершина является взвешенной, и ее вес равен производительности (оп/с) соответствующего процессора ВС. Если два процессора в ВС связаны ориентированным каналом передачи информации (т.е. информация может быть передана от первого процессора второму процессору), то соответствующие вершины в графе ВС связываются дугой, направленной в вершину, соответствующую второму процессору. Каждая дуга в графе является взвешенной, и ее вес равен скорости передачи информации (Бт/с) по соответствующему физическому каналу. Предполагается, что в графе ВС для любых двух его вершин существует ориентированный путь, ведущий из первой вершины во вторую, что означает возможность обмена информацией между любыми процессорами ВС.
Глава 5. Интеллектуальные системы
551
Таким образом, в рассмотрение вводится граф ВС, который будем представлять в
{
}
виде ГС = p, π, μ , где π = πi , i = 1, p — есть вектор производительностей процес-
{
}
соров, μ = μij , i, j = 1, p — взвешенная матрица смежности графа ГС, элементы которой равны 0, если i-я и j-я вершины не связаны дугой, и весу этой дуги — в противном случае. За π0 обозначим производительность самого мощного процессора в ВС. На рис. 5.48 приведен пример параллельной ВС и ее графовое представление. Принята следующая схема обмена информацией во введенной модели ВС. Пусть процессор с номером 1 должен передать некоторую информацию объема V процессору с номером 2. Пусть обмен начинается в момент времени t. Возможны следующие варианты: 1. Процессоры 1 и 2 связаны каналом со скоростью передачи информации m. Тогда на время обмена [t , t + V m ] оба процессора считаются занятыми только этим обменом и не могут выполнять вычисления или другие обмены. 2. В графе ВС существует ориентированный путь из вершины 1 в вершину 2. В этом случае весь путь разбивается на последовательность дуг, каждая из которых соединяет по два процессора. Тогда процесс передачи информации распадается на последовательность обменов первого типа. 1
2
4
3
Параллельный процессор FPS
T/20 (минимальная конфигурация) 5
6
7 8 P = 8; Π = 12Ч10 Ч[1 1 1 1 1 1 1 1] ; π 0 =12Ч106 ; 6
⎡0 ⎢1 ⎢ ⎢0 ⎢ 1 M = 5Ч105Ч⎢ ⎢1 ⎢ ⎢0 ⎢0 ⎢ ⎢⎣ 0
1 0 1 0
0 1 0 1
1 0 1 0
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 0 1 0 1 0 0 1 0 1 0 1 0 0 1 0 0 0 1 1 0 1
0⎤ ⎡0 ⎢1 0⎥ ⎥ ⎢ 0⎥ ⎢2 ⎥ ⎢ 1⎥ 1 ; Λ = 2Ч10−6 Ч⎢ ⎢1 1⎥ ⎥ ⎢ 0⎥ ⎢2 ⎥ ⎢3 1 ⎥ ⎢ 0⎥⎦ ⎢⎣ 2
1 0 1 2
2 1 0 1
1 2 1 0
1 2 3 2
2 1 2 3
3 2 1 2
2 3 2 0 1 2 1 2 3 1 0 1 2 1 2 2 1 0 3 2 1 1 2 1
2⎤ 3⎥ ⎥ 2⎥ ⎥ 1⎥ . 1⎥ ⎥ 2⎥ 1⎥ ⎥ 0 ⎥⎦
Рис. 5.48. Параллельная вычислительная система и ее графовое представление
Существенным ограничением введенной модели ВС является то, что каждый процессор в каждый момент времени может либо выполнять вычисления, либо обмениваться с одним другим процессором, так как во многих параллельных ВС выполнение этих операций может совмещаться по времени. Однако некоторые режимы совмещения счета и обменов могут быть промоделированы в рамках построенной модели. Основная идея заключается в том, что для каждого процессора с «нестандарт-
552
Методы современной теории автоматического управления
ным» режимом работы вводится несколько дополнительных процессоров, имеющих нулевую производительность и связанных с основным процессором бесконечно быстрыми каналами. На рис. 5.49 приведены графовые представления ВС с различными режимами работы 1-го процессора. Рис. 5.49, а изображает ВС со стандартным режимом 1-го процессора. На остальных рисунках показаны системы, в которых процессор 1 может совмещать выполнение вычислений и обменов. На рис. 5.49, б процессор 1 выполняет обмены по всем каналам последовательно. Для этого вводится дополнительный процессор 6. Все каналы, связывающие 1-й процессор с другими устройствами, предназначаются на процессор 6. Если процессору 1 надо передать информацию процессору 2, то он передает ее за нулевое время процессору 6 и может продолжать вычисления, а процессор 6 уже в нормальном режиме передает информацию дальше. Таким образом, вычисления и обмены для процессора 1 могут совмещаться по времени. На рис. 5.49, в показана система, в которой процессор 1 может выполнять обмены по всем каналам параллельно. Для этого в модель добавлено 4 дополнительных процессора. На рис. 5.49, г показана система, в которой все каналы 1-го процессора разбиты на 2 группы и все обмены в каждой группе выполняются последовательно, а обмены по каналам из разных групп могут выполняться параллельно. 2
2
3
3
1
1
6
4
4
5
5 б
а
6
2
2 6
7
3
1
3 1
8
4
4 7
9
5 в
5 г
Рис. 5.49. Моделирование некоторых режимов совмещения счета и обменов для процессора 1 (дуги, помеченные «х», имеют бесконечно большой вес)
Глава 5. Интеллектуальные системы
553
Постановка задачи распараллеливания вычислений. Под распараллеливанием вычислительных алгоритмов будем понимать распределение операций этого алгоритма по процессорам, а в графовых представлениях — вершин графа ГА по подграфам, общее число которых равно p и каждому из которых соответствует один из процессоров (одна из вершин ГС). Такое распределение будем представлять в виде ( p × n )-матрицы разрезания R, элементы r которой равны 1 — если l-я вершина принадлежит i-му подграфу, и 0 — в противном случае (рис. 5.50). Так как операции, соответствующие вершинам одного яруса в ГА, способны выполняться параллельно, то степень параллелизма будет оцениваться поярусно. С этой целью вводится в рассмотрение ( h × p )-матрица вычислительной нагрузки G, в которой n
g k i ( R ) = ∑ hkl ri l cl . l =1
Элементы такой матрицы определяют суммарный вес вершин, принадлежащих i-му подграфу и k-му ярусу в ГА. Время на выполнение межпроцессорных обменов информацией будет определяться объемом дуг, соединяющих вершины, принадлежащие разным подграфам. Для вычисления этого объема вводится ( p × p )-матрица коммуникационной нагрузки Ф, элементы которой определяют связность двух подграфов n
n
Фij = ∑ ∑ ril r jm Slm . l =1 m =1
1
2
3
9
4
5
10
6
7
11
13
8
12
14
15
⎡1 ⎢0 R=⎢ ⎢0 ⎢ ⎣⎢ 0
1 1 0 0 0 0 0 1 0 0 0 0 0 0⎤ 0 0 1 1 1 1 0 0 0 1 0 0 0 0 ⎥⎥ ; 0 0 0 0 0 0 1 0 0 0 1 0 1 1⎥ ⎥ 0 0 0 0 0 0 0 0 1 0 0 1 0 0 ⎦⎥ ⎡3 ⎢1 G=⎢ ⎢0 ⎢ ⎣⎢ 0
4 1 0⎤ 1 1 1 ⎥⎥ ; 0 1 1⎥ ⎥ 0 1 0 ⎦⎥
⎡0 ⎢0 Ф=⎢ ⎢0 ⎢ ⎣⎢ 2
0 0 2⎤ 0 2 1 ⎥⎥ . 2 0 1⎥ ⎥ 1 1 0 ⎦⎥
Рис. 5.50. Отображение графа алгоритма на граф ВС
1
2
4
3
554
Методы современной теории автоматического управления
Основываясь на графовых представлениях алгоритмов и ВС, а также на введенных матрицах G и Ф, напишем функционал J ( R ) , который будем называть приведенным временем выполнения алгоритма на ВС при заданном отображении R : ⎞ ⎛ g ⎞ p −1 p π ⎛ h J ( R ) = 0 ⎜ ∑ max ⎜ ki ⎟ + ∑ ∑ Фij Λ ij ⎟ . ⎟ U A ⎜⎝ k =1 i =[1, p ] ⎝ πi ⎠ i =1 j =i +1 ⎠ Первое слагаемое функционала отражает время, затрачиваемое на выполнение вычислений, второе — время на выполнение межпроцессорных обменов информацией (накладные расходы на организацию параллельных вычислений). Множитель π0 U A введен в функционал для его нормировки, так как U A π0 есть время выполнения алгоритма на самом быстром процессоре данной ВС. Записанный функционал, в некоторой степени, можно рассматривать как величину, обратную ускорению, достигаемому при выполнении алгоритма на ВС при заданном распараллеливании R. Оптимизационную задачу распараллеливания вычислений сформулируем следующим образом: пусть заданы ГА = n, c, S и ГС = p, π, μ . Найти матрицу разрезания R графа ГА на p подграфов, дающую минимум функционалу J ( R ) .
Свойства функционала J ( R ) и поставленной задачи. Относительно поставленной задачи отображения графов алгоритмов на архитектуры многопроцессорных ВС известно, что она является NP-сложной. По этой причине для ее решения малопригодны точные (переборные) методы, типа метода ветвей и границ. Некоторое представление о характере функционала J ( R ) дает рис. 5.51. На этом рисунке построены две функции распределения относительной ошибки E = ( J ( R ) − J min ) J ( R ) , где за J min обозначено минимальное значение функционала для задачи отображения двоичного дерева с числом вершин на верхнем уровне 40 на ВС, содержащую 8 процессоров. f 1 20 15 2 10 5 0,5
0,6
0,7
0,8
E
Рис. 5.51. Функция распределения относительной ошибки E = ( J ( R ) − J min ) J ( R ) : 1 — при случайном выборе разрезания R; 2 — случайном выборе локального минимума J ( R )
Кривая 1 соответствует функции распределения данной ошибки при случайном выборе разрезания R. Видно, что наиболее вероятным является выбор разрезания со значением ошибки 0,8 < E < 0,85. Кривая 2 соответствует функции распределения относительной ошибки при случайном выборе локального минимум функционала J ( R ) . Для получения этой кривой случайным образом выбиралось разрезание R, а затем искался ближайший к этому R минимум (алгоритм такого поиска описывается ни-
Глава 5. Интеллектуальные системы
555
же). Видно, что функционал J ( R ) содержит большое количество локальных минимумов, что подавляющее большинство локальных минимумов сосредоточено в области 0,5 < E < 0, 6 и что вероятность случайного выбора хорошего решения ( E < 0,1) практически равна нулю. 5.4.3. СТОХАСТИЧЕСКИЙ МЕТОД ПОПАРНОЙ ОПТИМИЗАЦИИ ПОДГРАФОВ Описание метода. Для приближенного решения задачи минимизации функционала J ( R ) был разработан эвристический рандомизированный алгоритм. Общая схема метода следующая. Алгоритм А1: 1. Выбираем случайное начальное разрезание R, вычисляем J = J ( R ) .
2. Выбираем пару подграфов с номерами i, j с вероятностью пропорциональной связности этих подграфов (чем больше связность двух подграфов, тем больше вероятность выбора этой пары). 3. Случайно выбираем пару вершин l и m в этих подграфах (т.о. перебираются все пары вершин в этих подграфах); меняем местами эти вершины, получаем новое разрезание R ′, вычисляем J ′ = J ( R ′ ) . 4. Если J ′ > J , т.е. произошло увеличение функционала, то переходим к 3, иначе за R обозначаем R ′ и переходим к 3. 5. Если зафиксирован выход функционала J ( R ) на стационарное решение, то конец алгоритма, иначе переходим на 2. Описанный алгоритм является итерационным. Внешние итерации связаны с попарным просмотром подграфов, а внутренние — с просмотром вершин в этих подграфах. Переход от разрезания к разрезанию происходит, если выполняется условие перехода 5. Численное исследование алгоритма. На основе метода А1 была написана программа, с помощью которой было проведено численное исследование метода А1. В качестве графов алгоритма исследовались, в основном, двоичные деревья с числом вершин на верхнем уровне N . В качестве ВС — полносвязные графы, имеющие p вершин. На рис. 5.52 построена зависимость времени работы программы T (в секундах) от N при p = N , т.е. при одновременном увеличении и размерности графа N , и числа подграфов разрезания. Полученные зависимости позволяют сделать вывод, что
(
)
сложность алгоритма А1 есть 0 pN 2 . T, c 1
2,0 1,5 1,0 0,5
2
0 4
5
6
7
8
9
10
N
Рис. 5.52. Зависимость времени работы алгоритмов А1 (1) и А3 (2) от размеров графа сдваивания N при p = N
556
Методы современной теории автоматического управления
Исследование на точность метода проводилось для алгоритмов сдваивания с N = 8 при разрезании их на p = 4,8 подграфов. Было проведено по 70 опытов для каждого случая. На рис. 5.53 изображена функция распределения f относительной погрешности для этих двух случаев. f 2
0,3 0,2
1
0,1 0 0
20
40
60
80
100 δ, %
Рис. 5.53. Функция распределения f относительной погрешности δ алгоритма А1 при разрезании графа сдваивания с n = 15 на p = 4 (1) и p = 8 (2) подграфов
Проведенное исследование позволяет сделать следующие выводы. Как минимум кубическая (по n и p ) сложность метода не позволяет использовать его при больших графах ГА и большом числе подграфов разрезания. Сходимость метода к решению не является плохой (плоской), однако очень неудовлетворительной является точность получаемых решений. Этот недостаток, однако, может быть в некоторой степени сглажен за счет специального выбора начального разрезания. Метод выбора начального разрезания. Метод использует локальные характеристики графа ГА — связность каждой вершины и ее вес. Общая схема метода такова. Алгоритм А2: 1. Выбираем равновероятно вершину с номером 1.
{
}
2. Составляем вектор g = gi , i = 1, p
связанности данной вершины со всеми под-
графами. 3. Выбираем подграфы, связность которых с 1 равна. 4. Вершину 1 заносим в тот из выбранных подграфов, который имеет наименьший вес, и переходим на 1. Алгоритм заканчивает работу, когда все вершины распределены по подграфам. Было проведено аналогичное исследование алгоритма А3 (метод А1 с выбором начального разрезания А2) на сложность, сходимость и точность. Результаты исследования представлены на рис. 5.52–5.54. Выигрыш по сравнению с А1 очевиден. Уменьшилась сложность алгоритма. Улучшилась точность метода. Зато оказалась очень плоской зависимость функционала J по итерациям. Это объясняется тем, что алгоритм А2 в большинстве случаев сразу приводит к локальному минимуму. Хотя метод А3 и дает вполне удовлетворительные решения задачи распараллеливания для относительно небольших значений n и p, его применение для отображения графов алгоритмов большой размерности на большое число процессоров проблематично в силу значительного возрастания времени работы метода и ухудшения точности получаемых решений.
Глава 5. Интеллектуальные системы
557
f 0,8 0,6 0,4
2
0,2
1
0 0
5
10 15 20 25 30 35 δ, %
Рис. 5.54. Функция распределения f относительной ошибки δ алгоритма А3 при разрезании графа сдваивания с n = 15 на p = 4 (1) и p = 8 (2) подграфов
5.4.4. СТОХАСТИЧЕСКИЙ МЕТОД МОНТЕ-КАРЛО Аналоговое решение оптимизационной задачи распараллеливания вычислений. Для эффективного решения поставленной оптимизационной задачи для больших размерностей графов алгоритма и ВС в данном параграфе разрабатывается стохастический метод Монте-Карло. В сформулированной задаче каждому варианту R разрезания графа алгоритма на подграфы соответствует функционал времени счета J ( R ) .
Требуется определить такое разрезание R, которое доставляет минимум функционалу J . Заметим, что эквивалентом варианта разрезания является определенное расположение вершин графа ГА в подграфах, а R соответствует их «координатам». Аналоговое решение оптимизационной задачи строится следующим образом. Вершины графа ГА будем моделировать частицами, совершающими вязкое движение в потенциальном силовом поле. В качестве потенциала взаимодействия частиц выберем функционал времени счета J ( R ) . Тогда координаты частиц меняются со временем согласно уравнению ∂J ( R ) ∂R (5.46) = −γ . ∂t ∂R Под действием поля частицы-вершины графа будут стремиться расположиться по подграфам так, чтобы доставить минимум функционалу J . Однако расчет координат по детерминистическому уравнению (5.46) может привести к попаданию частиц в один из локальных минимумов, из которого они не в состоянии выбраться. Поэтому в систему вводятся дополнительные стохастические силы, приводящие к тепловым флуктуациям частиц, которые помогают им выбраться из локальных минимумов. Тогда процесс поиска оптимального расположения частиц в подграфах будем моделировать процессом случайного блуждания в потенциальном силовом поле J ( R ) . Пусть вероятность P ( R , t ) обнаружить частицу в момент t в точке с координатами R подчиняется уравнению Фоккера–Планка ∂P ∂ ⎛ ∂J ⎞ ∂2P (5.47) P⎟ + D 2 . = ⎜γ ∂t ∂R ⎝ ∂R ⎠ ∂R Стационарное распределение вероятностей для уравнения (5.47) запишется следующим образом: γ 1 − J (R) . Ps ( R ) = e D (5.48) z
558
Методы современной теории автоматического управления
Максимум вероятности (5.48) соответствует такому расположению частиц по подграфам, которое доставляет минимум функционалу J . Соотношение Эйнштейна D = γθ связывает подвижность γ и коэффициент диффузии θ, характеризующий тепловые флуктуации. Распределение (5.48) является распределением Больцмана с температурой θ. Тепловые флуктуации ведут к перебросам частиц между минимумами потенциала J ( R ) . Если два минимума разделены потенциальным барьером J , то среднее время перехода между ними оценивается как te J J . Характерное время установления равновесного распределения вероятностей при температуре J тем больше, чем выше потенциальные барьеры и ниже температура J . Если в область абсолютного минимума попадают другие локальные минимумы, отделенные от него потенциальным барьером ΔJ ≈ θ, то при наличии флуктуаций динамическая система не может отличить их от абсолютного минимума. Чтобы избежать этого, используют имитацию «отжига» системы [83], постепенно понижая температуру J и устремляя ее к нулю. Чтобы длительность отжига, гарантирующего правильное отыскание глобального минимума J , не была экспоненциально велика, его нужно начинать с температуры J = J max . Описание метода Монте-Карло. Стационарное решение (5.48) моделируется методом Монте-Карло. Общая схема метода такова: 1. Полагаем начальную температуру равной θ0 . 2. Выбираем равновероятно начальное расположение вершин R и вычисляем его эффективность J = J ( R ) . 3. На каждой итерации t случайным образом перебираем все частицы-вершины. Для каждой из вершин случайно выбираем новый подграф и определяем приращение функционала Δ J при переносе в него данной вершины. Если Δ J < 0, то вершина переносится в новый подграф, иначе она переносится в него с вероятностью exp ( −ΔJ θ ) . 4. Понижаем температуру по закону θ = θ0 t . 5. Если зафиксирован выход части системы на стационарное значение функционала J , то конец алгоритма, иначе переход на 3. Результаты численного тестирования. С помощью программы, реализующей метод Монте-Карло, было проведено исследование данного метода. В качестве графов алгоритмов исследовались графы, состоящие из P двоичных деревьев, имеющих N вершин на верхнем ярусе, для которых аналитически вычисляется значение J min . Будем обозначать такие графы за B ( N , P ) . На рис. 5.55 изображена зависимость точности от номера итерации для графа алгоритма В(10, 10). Граф вычислительной системы содержит 10 вершин, связанных каждая с каждой. Кривые соответствуют четырем значениям θ0 = –0,1; 0,2; 0,5 и 5. Полученные зависимости позволяют сделать следующий вывод. Чем меньше θ0 , тем более быстрой является сходимость метода. Однако при достаточно малых θ0 метод начинает застревать в локальных минимумах. Предельным случаем является θ0 = 0, когда метод быстро сходится к некоторому ближайшему от R локальному минимуму.
Глава 5. Интеллектуальные системы
559
E 0,6
1 2
0,4
3
0,2
4
0 500
1000
1500
τ
2000
Рис. 5.55. Сходимость ошибки Е в методе Монте-Карло для различных значений начальной температуры J 0 : 1 — J 0 = 0,1; 2 — J 0 = 0, 2; 3 — J 0 = 0,5; 4 — J 0 = 2
На рис. 5.56 построена зависимость E ( t ) , которая демонстрирует способность метода выходить из локальных минимумов функционала J(R). В этом случае ГА = В(100, 1), p = 10. В момент t = 0 − θ0 = 0, поэтому алгоритм достаточно быстро приводит систему в локальный минимум. В момент t = 50 полагается θ50 = J 50 , после чего наблюдается выход из локального минимума. E 0,8 0,6 0,4 0,2 0
60
120
180
τ
Рис. 5.56. Сходимость ошибки Е, показывающая способность метода Монте-Карло выходить из локальных минимумов функционала J T, c 1
60 40
2
20 0 2
4
6
8
10
12
14 p
Рис. 5.57. Время достижения одинаковой точности алгоритмов А3 (1) и Монте-Карло (2) в зависимости от p при n = 16 p − 1
560
Методы современной теории автоматического управления
Были проведены расчеты по определению сложности метода, которые показали,
( )
что время достижения методом заданной точности E имеет порядок 0 pn 2 . На рис. 5.57 отражены результаты сравнительного анализа предложенного алгоритма и алгоритма попарной оптимизации подграфов А3. Изображена зависимость времени работы алгоритмов от p при ГА = В(8p, 1). Кривая 1 соответствует времени работы алгоритма попарной оптимизации, а кривая 2 — времени работы алгоритма Монте-Карло по достижении точности, достигнутой при реализации метода А3. Видно преимущество подхода, основанного на методе Монте-Карло, при решении больших задач распараллеливания. 5.4.5.
СТОХАСТИЧЕСКИЙ МЕТОД НАИСКОРЕЙШЕГО СПУСКА
Описание метода. Хотя метод Монте-Карло, описанный в предыдущем пункте, и оказался пригодным к решению больших задач отображения алгоритмов на мультитранспьютерные ВС, его слабым местом является достаточно медленная сходимость. Попытки увеличить скорость сходимости за счет увеличения начальной температуры приводят к ухудшению стационарного решения. В силу этого был разработан новый стохастический алгоритм наискорейшего спуска. В этом методе, так же как и в методе Монте-Карло, используется процедура имитации отжига, чтобы гарантировать сходимость метода. Общая схема метода такова: 1. Полагаем начальную температуру равной θ = a. 2. Выбираем равновероятно начальное расположение вершин R и вычисляем его эффективность J = J ( R ) . 3. На каждой итерации t случайным образом перебираем все частицы-вершины. Для каждой из вершин определяем вектор значений функционала J i при переносе данной вершины во все подграфы. Случайным образом перемещаем вершину в другой подграф, при этом вероятность переноса вершины в i-й подграф равна exp (1 J i )
n
∑ exp (1 J j ) . j =1
4. Понижаем температуру по закону θ = 1 ( a + t b ) . 5. Если зафиксирован выход системы части на стационарное значение функционала J , то конец алгоритма, иначе переход на 3. При больших значениях температуры все переходы в системе частиц−вершин являются равновероятными. При уменьшении же температуры системы увеличивается вероятность перехода в подграф с максимальным уменьшением функционала J ( R ) . При достаточно низких значениях температуры вероятность только одного перехода становится равной 1. Этот механизм гарантирует сходимость метода. Параметры a и b позволяют регулировать скорость сходимости метода (подобно значению начальной температуры в методе Монте-Карло). Реализация метода. На основе метода была создана программа, с помощью которой было проведено численное исследование метода. Это исследование показало более высокую скорость сходимости, чем в методе Монте-Карло. На рис. 5.58 построены графики зависимости функционала J по итерациям алгоритма Монте-Карло и стохастического алгоритма наискорейшего спуска. Кривая 1 соответствует наиболее методу Монте-Карло в случае наиболее быстрого получения оптимального решения. Кривые 2 и 3 соответствуют методу наискорейшего спуска для различных значений a и b — кривая 2 — a = 10, b = 10; кривая 3 — a = 20, b = 2.
Глава 5. Интеллектуальные системы
561
JJ(R) (R) 0,7 0,6 0,5 3
0,4
2
1 t
0,3 0
50
100
150
200
Рис. 5.58. Сходимость функционала в методе Монте-Карло (1) и методе наискорейшего спуска (2, 3) при решении задачи с n = 27 и p = 8
Применение стохастических методов к распараллеливанию базовых алгоритмов линейной алгебры. Общая характеристика исследования. Было проведено тестирование разработанных стохастических методов на распараллеливании некоторых базовых алгоритмов линейной алгебры. Все исследованные алгоритмы определялись двумя параметрами, которые задают некоторое разбиение на блоки матриц и векторов, участвующих в алгоритме. Пусть N обозначает размер задачи, т.е. все матрицы имеют размер N × N , а вектора имеют длину N. Первый параметр nb определяет блочный размер ( nb × nb ) матриц и число векторных блоков в разбиении векторов. Второй параметр mb = N nb определяет размер самих блоков. Таким образом mb — это либо размер квадратных блоков ( mb × mb ) в разбиении матриц, либо длина векторных блоков. Исследовались графы следующих алгоритмов: • блочный алгоритм скалярного умножения векторов; • блочный алгоритм умножения матрицы на вектор; • LU-разложение блочной матрицы; • решение системы линейных уравнений с блочно-треугольной матрицей; • метод декомпозиции области решения трехдиагональной системы линейных уравнений. Первые 4 метода являются блочными вариантами обычных методов, а в последнем методе производится специальное (несколько отличное от блочного) разбиение векторов и матриц, приводящее к системе уравнений со стреловидной матрицей, метод решения которой обладает достаточно большим параллелизмом. В качестве графов ВС, на которые производилось распараллеливание этих методов, были выбраны однородные полносвязные графы с весами вершин, равными 1. Эти графы также определяются двумя параметрами: числом процессоров p и временем передачи единицы информации τ. Анализ зависимости распараллеливания алгоритмов линейной алгебры от параметров ВС. В настоящем пункте описываются результаты численного исследования отображения графов алгоритмов линейной алгебры на полносвязные однород-
562
Методы современной теории автоматического управления
ные графы ВС в зависимости от числа транспьютеров и скорости работы каналов мультитранспьютерной ВС. Для всех вышеуказанных методов зафиксированы следующие параметры — nb = 0 и mb = 100. Результаты проведенного исследования отражены на рис. 5.56, 5.57. На рис. 5.59 построены графики зависимости ускорения S от числа процессоров p при τ = 1. Пять изображенных кривых соответствуют перечисленным выше пяти методам. Прямая линия соответствует максимально возможному ускорению S ( p ) = p. Следует отметить, что поведение этих кривых — линейный рост, выход на плоский максимум и затем некоторое снижение ускорения — совпадает с поведением экспериментально полученных зависимостей, описанным в ряде работ [174]. Наилучшим ускорением обладает алгоритм умножения матрицы на вектор, что объясняется тем, что, вопервых, граф данного метода состоит из 10 (в данном случае) независимых подграфов, во-вторых, этот граф имеет наименьшее число дуг в расчете на одну вершину. Последним свойством обладает и граф скалярного умножения векторов, однако он имеет в десять раз меньше вершин, что приводит к более плохой балансировке загрузки процессоров и, следовательно, к снижению ускорения. Наихудшим ускорением обладает метод решения блочно-треугольной системы линейных уравнений, так как граф этого метода имеет наименьшую среднюю степень параллелизма, что опять же приводит к очень плохой балансировке загрузки процессоров. S 16
2
11
3 1 5
6 4
1
6
11
16
21 p
Рис. 5.59. Зависимость ускорения S от числа процессоров p для различных алгоритмов линейной алгебры
S 6
2
4
1 5
2
4 3
20
40
60
80
τ
Рис. 5.60. Зависимость ускорения S от времени передачи единицы информации по каналам в ВС при распараллеливании некоторых алгоритмов линейной алгебры
Глава 5. Интеллектуальные системы
563
На рис. 5.60 построены графики зависимости ускорения S от времени τ передачи единицы информации по каналам связи в ВС при p = 8. Вполне естественно, что с ростом τ ускорение стремится к 1, так как в общем времени выполнения алгоритма возрастает доля обменов по сравнению со временем вычислений. Вместе с тем для разных методов ускорение падает по-разному. Наилучший результат, опять же, наблюдается для метода умножения матрицы на вектор. Наиболее чувствительны к этому параметру оказались методы LU-разложения и декомпозиции области решения трехдиагональных систем. Величина ускорения S при τ → 0 обусловлена только балансировкой вычислительной нагрузки процессоров, так как соответствует ситуации, когда время на выполнение обменов стремится к 0. Зависимость распараллеливания алгоритмов линейной алгебры от параметров самих алгоритмов. В данном пункте описываются результаты численного анализа распараллеливания пяти алгоритмов линейной алгебры, описанных в предыдущем пункте, при изменении параметров самих алгоритмов — блочной размерности nb и размера блоков mb . На рис. 5.61 изображены зависимости ускорения S от блочной размерности nb при mb = 100, p = 6, τ = 1, достигнутые при распараллеливании алгоритмов. Видно, что ускорение S в среднем возрастает при увеличении nb , так как при этом увеличивается число вершин в графе алгоритма и его степень параллелизма, что при фиксированном p = 4 ведет к лучшей балансировке процессоров. Хотя при увеличении nb растет и число обменов, однако, как следует из рисунка, этот рост в меньшей степени влияет на ускорение, чем увеличение числа вершин. Немонотонность S ( nb ) для некоторых методов объясняется небольшим количеством вершин в соответствующих графах. S
2
5
1 5
4
4
3 2
3
5
9
13
17 nb
Рис. 5.61. Зависимость ускорения S от числа блоков nb для некоторых алгоритмов линейной алгебры
На рис. 5.62 построены графики зависимости ускорения S от размеров блоков mb при nb = 8, p = 8, τ = 1. В данном случае рост ускорения при увеличении mb объясняется уже уменьшением относительной доли времени обменов по сравнению со временем счета. Например, для LU-разложения максимальный вес вершин есть
( )
( )
0 mb3 , в то время как максимальный вес дуг — 0 mb2 . Следовательно, при увели-
чении mb доля обменов в общем времени стремится к нулю.
564
Методы современной теории автоматического управления S 2 1
5
6 4 4 3 2
100
200
300
400
mb
Рис. 5.62. Зависимость ускорения S от блочной размерности mb для некоторых алгоритмов линейной алгебры
Распараллеливание метода обратной итерации поиска собственных функций. При решении некоторых задач в линейной алгебре возникает задача определения собственных чисел и соответствующих им собственных функций, операторов с блочно-трехдиагональной матрицей L. Сложность задачи определяется, как правило, плохой обусловленностью матрицы, когда максимальное и минимальное собственные числа отличаются на несколько порядков. Для решения этой задачи используется метод обратной итерации. Итерационный процесс строится следующим образом: % − Yt Y % + (1 − σ ) LYt , Yt +1 = Y % Y % . (5.49) = σLY τ Известно, что при t → ∞ Yt стремится к собственной функции, отвечающей собственному значению, наиболее близкому к величине 2 τ . Приведем (5.49) к виду % = FYt , где Q = 1 I − σL, F = 1 I + (1 − σ ) L. (5.50) QY τ τ Видно, что матрицы Q и F являются блочно-трехдиагональными. Формулу (5.50) % = AYt , где матрица A является решением матричного можно привести к виду Y
уравнения QA = F. Это уравнение может быть решено с помощью метода четнонечетной редукции [41]. Таким образом, общая схема алгоритма поиска одной собственной функции (при фиксированном параметре τ) выглядит следующим образом: • составление матриц Q и F по формулам (5.50); • решение матричного уравнения QA = F методом четно-нечетной редукции; t = 0, выбор начального приближения Y 0 ; % = AYt ; • умножение матрицы A на вектор Yt : Y % ; • нахождение нормы Y
•
% Y % ; • определение вектора Yt +1 = Y
• если Yt +1 − Yt > ε, то t = t + 1 и переход на 4, иначе конец алгоритма. Для проведения исследования параметры метода — блочная размерность nb матрицы L и размер ее блоков mb — были зафиксированы следующими: nb = 10 и mb = 30.
Глава 5. Интеллектуальные системы
565
Исследовалось распараллеливание алгоритма на следующие топологии многопроцессорных ВС: • полносвязная топология; • гиперкуб; • двухмерный тор; • двухмерная квадратная решетка; • кольцо; • линейный массив процессоров.
S
1
2
9
3 4
7
5 6
5
7
3 1
5
10 15
20
25
30
p
Рис. 5.63. Зависимость ускорения S от числа процессоров p при распараллеливании метода обратной итерации поиска собственных функций на различные топологии многопроцессорных ВС
Результаты проведенного исследования отражены на рис. 5.63, на котором построена зависимость ускорения S от числа процессоров p для перечисленных выше топологий. Прямая S ( p ) = p показывает максимально возможное ускорение. В общем, изображенные на рисунке кривые соответствуют общепринятой иерархии рассмотренных топологий [41]. Наилучшим ускорением обладает архитектура с полносвязной топологией, так как при одинаковом p все остальные топологии являются ее некоторыми подмножествами. Однако на практике ВС с подобной топологией практически не используются, так как соединение большого числа процессоров каждый с каждым сопряжено с большими техническими трудностями. Из реально используемых в современных ВС топологий наилучшее ускорение для анализируемой задачи соответствует гиперкубическая топология. Затем идут двухмерный тор и решетка, причем последняя проигрывает тору за счет наличия у того дополнительных связей, замыкающих границы решетки и делающих максимальное расстояние между двумя процессорами в два раза меньшим. Замыкают список кольцевой и линейный массивы. Последняя топология характерна тем, что имеет максимальную среди всех анализируемых топологий длину ( p − 1) пути между самыми удаленными процессорами, что и делает ее наименее подходящей для выполнения анализируемого алгоритма. 5.4.6.
РАСПАРАЛЛЕЛИВАНИЕ ЯВНОГО МЕТОДА РЕШЕНИЯ НЕЛИНЕЙНОЙ ДИНАМИЧЕСКОЙ СИСТЕМЫ
Общая схема метода. Рассмотрим систему трехмерных уравнений магнитной гидродинамики, описывающих течение жидкости, способной проводить электрический ток [152]. Система имеет следующий вид:
566
Методы современной теории автоматического управления
{
⎧ ∂u ⎪ + div ( F ) = 0; ⎨ ∂t ⎪ u ( x,0 ) = ϕ ( x ) ; ⎩
здесь u = ρ, ρVx , ρVy , ρVz , Bx , By , Bz
}
(5.51)
— вектор решения; тензор системы F, опре-
деляющий плотности потоков, имеет вид ρVx ρV y ρVz ⎡ ⎤ ⎢ ⎥ 1 ⎢ρVx2 + ρ − Bx2 + B 2 ρVxV y − Bx By ρVxVz − Bx Bz ⎥ ⎢ ⎥ 2 ⎢ ⎥ 1 2 2 2 ⎢ ρVxV y − Bx B y ρV y + ρ − B y + B ρVyVz − By Bz ⎥ 2 ⎥ ⎢ F=⎢ 1 2 ⎥. 2 2 ρVyVz − By Bz ρVz + ρ − Bz + B ⎥ ⎢ ρVxVz − Bx Bz 2 ⎥ ⎢ Vx By − V y Bx Vx Bz − Vz Bx 0 ⎥ ⎢ ⎥ ⎢ − (V y Bz − Vz By ) ⎥ 0 ⎢ − (Vx B y − Vy Bx ) ⎥ ⎢ − (Vy Bz − Vz By ) 0 ⎢⎣ − (Vx Bz − Vz Bx ) ⎦⎥ Из 21 элемента этого тензора только 12 являются различными. Явная разностная схема для выписанной системы имеет вид ⎡ Pi +1, j ,k − Pi −1, j ,k Qi , j +1, k − Qi , j −1, k Ri , j , k +1 − Ri , j , k −1 ⎤ (5.52) ui , j , k = ui , j ,k + τ ⎢ + + ⎥, 2 Δx 2 Δx 2 Δx ⎣ ⎦ где P, Q, R — столбцы тензора F. На рис. 5.64 изображен граф такой вычислительной модели на одном временном шаге. Он имеет 26 вершин, распределенных по трем ярусам. Первый ярус составляют вершины, имеющие нулевой вес и определяющие рассылку компонентов вектора u с предыдущего временного шага. На втором ярусе располагаются вершины, соответствующие операциям по подсчету элементов тензора F. Данные вершины имеют веса N 3 , N 3 , N 3 , 5 N 3 , 3N 3 , 3N 3 , 5 N 3 , 3N 3 , 5 N 3 , 2 N 3 , 2N 3 , 2N 3 , где N — число
(
)
узлов сетки по каждому направлению. На третьем уровне находятся вершины, соответствующие операциям по пересчету вектора u по формулам (5.52). Их веса равны
( 3N
3
)
, 3N 3 , 3 N 3 , 3N 3 , 2 N 3 , 2 N 3 , 2 N 3 . Каждая из дуг графа обозначает пересылку
одного трехмерного массива, поэтому вес всех дуг равен N слов, и если положить, что 1 слово = 4 байтам, то вес дуг равен 64 N Бт.
Рис. 5.64. Граф явного метода решения нелинейной динамической системы
Глава 5. Интеллектуальные системы
567
Распараллеливание метода. Видно, что функционал J ( R ) для данной модели от N не зависит, так как веса всех вершин и дуг есть величины одного порядка
( )
0 N 3 . Следовательно, можно сделать вывод, что задачу поиска оптимального рас-
параллеливания модели можно решать только при одном N (например, при N = 1), и это решение будет справедливо для всех N 1. С помощью системы PARALLAX было проведено исследование зависимости ускорения S от числа процессоров p и времени передачи единицы информации t для вышеописанного явного метода. Результаты этого исследования отражены на рис. 5.65. Из представленных на нем графиков видно, что ускорение может быть достигнуто только при достаточно большой, по сравнению с производительностью процессоров, производительности каналов связи. Так, для вычислительных систем, в которых выполняется условие, ускорение ведет себя практически линейно по числу процессоров для p = 7. Дальнейшее увеличение числа процессоров на ускорение практически не влияет, хотя степень параллелизма анализируемого графа и больше 7. S p=7 5 p=6 4
p=5
3 2 1
p=4
p=3 p=2 0,005
0,010
0,015
τ
Рис. 5.65. Зависимость ускорения S , достигаемого при распараллеливании явного метода решения нелинейной динамической системы, от времени t передачи единицы информации по каналам ВС для разного числа процессоров p
В результате проведенных исследований были получены следующие основные результаты. Поставлена задача отображения алгоритмов, представленных взвешенными графами большой размерности, на архитектуры мультитранспьютерных вычислительных систем, содержащих большое число транспьютерных элементов. Проведено теоретическое и численное исследование поставленной задачи. Исследование показало, что функционал, подлежащий минимизации, обладает ярко выраженной овражной структурой и содержит большое число локальных минимумов, что затрудняет и даже делает невозможным применение большинства методов решения подобных задач — различных эвристических методов, методов безусловного спуска, методов наискорейшего спуска и т.п. Единственной возможной альтернативой этим методам является использование стохастических алгоритмов. Разработан ряд стохастических методов решения поставленной оптимизационной задачи распараллеливания вычислений. В первом методе — стохастическом методе попарной оптимизации подграфов — поиск оптимального решения осуществляется за счет взаимного (стохастического) переноса вершин между различными парами подграфов графа алгоритма. Второй метод — метод Монте-Карло случай-
568
Методы современной теории автоматического управления
ного блуждания вершин графа алгоритма по подграфам — основан на отождествлении вершин графа алгоритма с некоторыми частицами, совершающими случайные блуждания по областям-подграфам в потенциальном силовом поле, роль потенциала которого играет минимизируемый функционал. Наиболее вероятное состояние подобной системы частиц соответствует минимуму потенциала — и, следовательно, является искомым решением. Поиск такого состояния осуществляется методом Монте-Карло с использованием специальной процедуры «имитации отжига». Третий метод — стохастический метод наискорейшего спуска — основан на использовании дискретного аналога градиента минимизируемого функционала. Все разработанные методы реализованы программно и являются частью системы программ PARALLAX. Проведено тестирование созданных программ и сравнение их работы на простейших примерах. С помощью программной системы PARALLAX было проведено численное исследование распараллеливания ряда наиболее распространенных алгоритмов линейной алгебры на различные архитектуры мультитранспьютерных вычислительных систем. Исследована зависимость эффективности выполнения нескольких блочных алгоритмов линейной алгебры на полносвязных топологиях ВС от параметров ВС и параметров алгоритмов. Показано, что поведение полученных численно кривых S ( p ) (где за S обозначено достигаемое при распараллеливании ускорение) совпадает с поведением ускорения, полученного из расчетов на реальных многопроцессорных ВС — сначала линейный рост, затем выход на плоский максимум и, наконец, постепенное уменьшение ускорения, что обусловлено возрастающими временными затратами на организацию обменов данными при увеличении числа процессоров. Проведен численный анализ зависимости ускорения, достигаемого при распараллеливании явного метода решения системы нелинейных динамических систем от параметров ВС — числа процессоров и скорости работы каналов обмена данными. Библиотека Библиотека Параллельных параллельных Алгоритмов алгоритмов
d
Программа преобразования блоков и подстановки
occ pgrn
Средства Средства параллельного Параллельного программирования Программирования
b8h btl
Информация о сети
trm Диаграмма времен
Начальное распределение
Алгоритм балансировки
Конечное распределение
База данных времен блоков
Рис. 5.66. Структурная схема функционирования программно-аппаратного комплекса
Глава 5. Интеллектуальные системы
569
Однако отчетливо просматривается путь, позволяющий выполнить сквозное проектирование некоторого алгоритма обработки, предназначенного для параллельной работы. Это — создание программно-аппаратного комплекса, в составе которого возможно выполнить предварительный синтез и тщательное исследование алгоритма обработки (закона управления), используя для этого универсальные математические алгоритмы (УМА), и выполнить генерацию обработанного математического описания в программную реализацию на языке параллельного программирования. В настоящий момент существуют соответствующие программно-аппаратные средства, которые принципиально позволяют создать указанный комплекс. В данной главе для класса описания в обыкновенных алгебраических дифференциальных и разностных уравнениях показана осуществимость подобного комплекса, т.е. практически показаны все особенности его создания. Работа комплекса проверена на ряде задач моделирования систем управления. Предполагается дальнейшее развитие исследований и разработок в данном направлении. Структурная схема функционирования комплекса изображена на рис. 5.66. 5.4.7.
ЛОГИКО-ДИНАМИЧЕСКИЕ МОДЕЛИ И ПРОГРАММНО-ТЕХНИЧЕСКИЕ СРЕДСТВА ИНТЕЛЛЕКТУАЛЬНОЙ СИСТЕМЫ УПРАВЛЕНИЯ ДИСКРЕТНЫМИ ПРОИЗВОДСТВЕННЫМИ ПРОЦЕССАМИ
Современные автоматизированные производства являются примером сложных комплексов дискретных распределенных объектов управления, включающих основное обрабатывающее и вспомогательное технологическое оборудование, средства транспортировки и складирования, а также рабочие места персонала. Все эти объекты связаны между собой и функционируют последовательно-параллельно во времени. В совокупности они образуют сложную распределенную дискретно-непрерывную техническую и программно-информационную среду, требующую от системы управления решения достаточно большого набора разнообразных логико-вычислительных задач, связанных со сбором и обработкой значительного объема информации, ее классификацией, принятием решений с использованием сложноструктурированных данных и планированием действий в многокомпонентной среде. В этих условиях одним из многообещающих путей развития устройств управления для производственных сред является построение их как интеллектуальных систем, позволяющих наиболее рационально реализовать необходимые функции обработки сложной информации на основе моделей знаний и логических методов. Проблемная среда интеллектуальных систем управления. Основные предпосылки целесообразности построения систем управления дискретными автоматизированными производствами как интеллектуальных систем состоят в следующем: • условия функционирования систем характеризуются многообразием данных и качественных характеристик; • область функционирования систем, как правило, плохо формализуема; • компоненты распределенных объектов, с которыми работает система, требуют для описания своего состава, структуры и состояния создания сложноорганизованной информационной модели; • данные о текущем состоянии объектов влияют на процесс выработки реакций системы; • процессы рассматриваемого класса имеют скорее логический, нежели вычислительный характер; • логическая структура алгоритмов работы с внешними объектами сложна и в основном представляется моделями, базирующимися на правилах и законах логической обработки неоднородно интерпретируемых данных.
570
Методы современной теории автоматического управления
В рассматриваемой проблемной среде для интеллектуальных систем могут быть выделены следующие классы прикладных задач: мониторинга, контроля, диагностики, принятия решений, управления. Рассмотрим более подробно каждый из этих классов. Задачи мониторинга. Имеется комплекс распределенных производственных объектов, взаимодействующих друг с другом и воспроизводящих определенный процесс. Требуется создать систему, собирающую в реальном времени необходимые данные о процессе и отображающую их в наглядной и удобной для пользователя форме. При нормальном ходе процесса необходимо следить только за основными параметрами, но при выполнении определенных условий или возникновении непредвиденных ситуаций система должна сигнализировать о них персоналу, а также формировать специальные дополнительные отчетно-справочные данные, или запрашивать у объектов дополнительную информацию, или тестировать объекты. Формальная схема работы такой системы может быть задана следующими правилами: (5.53) Qi ( S ) → Z i ( Si ) ; F j ( S ) → Pj ( S ) ,
(5.54)
где S — динамическая информационная модель состояния наблюдаемых объектов; Qi ( S ) , F j ( S ) — описания состояний информационной модели S ; Si ⊆ S — подмножество информационных элементов модели S ; Z i ( Si ) — функция означивания (присвоения знаков) информационных элементов Si в S ; Pj ( S ) — функция преобразования состояния модели S . Из формулы (5.53) следует, что в состоянии, удовлетворяющем логическому выражению Qi ( S ) , должны быть дополнительно означены определенные информационные элементы Si модели S . Считаем, что для каждого элемента q ∈ S известна
функция U ( q ) , возвращающая в S значение q. Эта функция может содержать любые необходимые операции над S , операции вывода команд, а также запросы или тесты, обеспечивающие получение необходимых данных для означивания q. Из формулы (5.54), в свою очередь, следует, что в состоянии, удовлетворяющем F j ( S ) , можно выполнить преобразование Pj содержимого S , отражающее определенное логическое заключение о ходе наблюдаемого процесса. Задачи контроля. Имеется система мониторинга, собирающая данные о состоянии комплекса дискретных распределенных объектов. Задана целевая траектория T * наблюдаемого комплекса объектов в пространстве состояний. В ходе работы комплекс воспроизводит определенную фактическую траекторию T , которая может отличаться от целевой. Требуется построить систему, обеспечивающую обнаружение отклонений фактической траектории T от идеальной целевой T * с передачей данных об этих отклонениях оператору или группе операторов. Эта задача может быть сведена к решению более простых подзадач, когда траектория T * представляется единственной вершиной, описывающей определенную область в пространстве состояний. В общем случае такое описание может иметь вид предикатной формулы G ( x ) , где x — набор определенных предметных переменных. Тогда обнаружение отклонения от заданной области заключается в опровержении формулы для текущих наблюдаемых значений x. Вместе с тем допустима инвертированная постановка: в пространстве состояний задается совокупность областей C , фактическая траектория системы в которых
Глава 5. Интеллектуальные системы
571
должна отсутствовать. Здесь C описывается набором неблагоприятных для системы ситуаций. Если область функционирования системы обширна и набор выделенных ситуаций велик и многообразен, то описывающую их модель в ряде случаев можно представить как модель знаний, а для сопоставления использовать какую-либо процедуру, характерную для искусственного интеллекта. Задачи диагностики. Имеется система контроля некоторого процесса, воспроизводимого комплексом распределенных объектов. Известно, что наблюдаемые отклонения от процесса являются следствием определенных причин или первичных событий в объектах. Требуется создать систему контроля отклонений, определяющих их истинные первопричины. Эта задача относится к классу типичных приложений экспертных систем реального времени. Функции контроля и диагностики могут сочетаться с формированием рекомендаций по выводу процесса на нормальный режим функционирования. Задачи поддержки принятия решений при планировании производственной деятельности. Задача диспетчерского планирования производственных процессов трудно разрешима, так как строгому решению препятствует ряд плохо формализуемых факторов, учитываемых планово-диспетчерскими службами при формировании планов. В связи с этим в данной задаче перспективным представляется сочетание моделей оптимизации (в особенности — многокритериальной) с моделями представления в ЭВМ, а также использование эвристических знаний диспетчеровплановиков. Задачи управления комплексами дискретных распределенных объектов в реальном времени. Эти задачи являются наиболее функционально емкими и включают в себя задачи мониторинга, контроля и принятия решений. Наиболее простым развитием рассмотренных выше систем контроля, в том числе интеллектуальных, является управление компенсацией выявленных нежелательных отклонений от заданной идеальной целевой траектории системы в пространстве состояний. Необходимым дополнительным элементом здесь становится модель, описывающая структуру комплекса объектов, их свойства и среду функционирования, а также динамику их поведения. Такие модели должны содержать сложно структурированный декларированный компонент, а описания процессов будут иметь вид логико-динамических моделей. В связи с этим процедуры обработки целесообразно строить как решающие процедуры определенных интеллектуальных систем. В более полном варианте задача предполагает выработку воздействий, обеспечивающих их заданную целевую траекторию в пространстве состояний. В общем случае такая траектория имеет вид сети, каждая вершина которой сопоставляется с определенным логическим выражением, описывающим требуемое состояние объектов управления и/или объектов производства, с которыми работает система. Выработка закона управления реализуется как процесс принятия решения в сложной среде, а при планировании многошаговых цепочек достижения целевых состояний задача имеет непосредственный логический вывод. Логическая структура интеллектуальной системы управления дискретными производственными процессами. Представленные выше задачи имеют ряд общих особенностей, позволяющих эффективно объединить средства их решения в единой оболочке интегрированной интеллектуальной системы управления, структура которой приведена на рис. 5.67. Центральным звеном комплекса является управляющая система, состоящая из динамической базы оперативных состояний и совокупности процедур выработки закона управления. Действия этих процедур определяются содержимым баз знаний Б31–Б33
572
Методы современной теории автоматического управления
и моделью, описывающей заданную целевую траекторию управляемого комплекса объектов в пространстве состояний. Центральный компонент интегрированной системы (подробно рассмотренный далее) в настоящее время реализован и опробован в ряде производственных приложений.
Рис. 5.67. Структура интегрированной интеллектуальной системы управления
Модель, описывающая целевую траекторию, в общем виде может быть представлена сетью, где каждой вершине соответствует определенное требуемое состояние. Целью управляющей системы в любой фиксированный момент времени является перевод подчиненных объектов в целевое состояние, описываемое некоторым подмножеством вершин сети, задающей целевую траекторию. В производственных системах целевая траектория строится, как определенное детализированное представление технологического маршрута, и математически может быть описана, например, сетью переходов или сетью Петри. База Б31 содержит сведения о структуре и постоянных свойствах объектов и среды, с которыми взаимодействует система, и имеет преимущественно декларативный характер. В системе ПРОДУС, рассматриваемой далее, эта база знаний является компонентом базы оперативных состояний (что, как показывает опыт, не всегда удобно) и строится как совокупность объектов, объединяемых в подмножество/классы произвольного состава и иерархии. Каждый из объектов характеризуется набором параметров/свойств и определенным протоколом информационного взаимодействия с системой и/или другими объектами. База знаний Б32 представляет собой совокупность логико-динамических моделей, описывающих поведение во времени подчиненных системе дискретных объектов с учетом допустимых управляющих воздействий. Для объектов, воспроизводящих
Глава 5. Интеллектуальные системы
573
функции переключательного или автоматного типа, такие модели могут быть представлены, например, правилами преобразования состояния предметной области во времени. Особенность данной модели заключается в том, что для записи результатов действия операторов в общем случае удобно пользоваться логикой времени (логикой временных соотношений). База знаний Б33, являющаяся логико-динамической моделью процесса управления, реализуемого интеллектуальной системой, представляет собой совокупность правил, законов и алгоритмов генерации реакции системы на поступающую входную информацию. Обрабатывающее исполнительное ядро управляющей системы в заданной схеме можно рассматривать как интерпретатор модели процесса управления. Эта модель руководит работой исполнительного ядра и задает логику выполняемых им действий. В таком виде программное обеспечение управляющей системы может быть построено как инвариантное, т.е. настраиваемое на задачу путем изменения описания модели требуемого процесса. Структура и организация динамической базы оперативных состояний управляющей системы тесно связана с языком и формой представления модели процесса управления, хранящейся в Б33, с моделями из Б32, Б31 и с математической моделью описания целевой траектории системы. В частности, для этого база управляющей системы должна хранить предысторию временных состояний наблюдаемых объектов. Таким образом, можно считать, что понятие состояния отображается в интеллектуальной управляющей системе в виде определенной динамической информационной модели. База оперативных состояний управляющей системы реального времени должна быть оснащена программным монитором асинхронного ввода данных от объектов управления и/или внешних информационных систем (ИС), собирающих также сведения о состоянии внешней среды. Для обеспечения интерактивного режима работы с операторами аналогичным образом должен обеспечиваться ввод в базу поступающих от них команд, запросов и сообщений. То же самое относится к внешним программным комплексам. Функциональные возможности и уровень интеллектуализации системы управления в целом могут быть довольно существенно расширены и развиты за счет организации взаимодействия интеллектуальной управляющей системы с входящими в состав базы знаний Б34 внешними экспертными системами (ЭС) и специализированными процедурами оптимального выбора и принятия решений. В рамках имеющейся логико-динамической модели процесса управления система самостоятельно принимает решения по компенсации обнаруживаемых отклонений от целевой траектории и формирует управляющие воздействия, переводящие объекты в очередные целевые состояния. При возникновении сложных аномальных явлений и ситуаций или невозможности достижения целевых состояний собственными средствами управляющая система обращается к внешней дедуктивной ЭС с требованием разобраться в ситуации и выдать диагноз или рекомендовать соответствующие меры по нормализации состояния предметной области. В результате ЭС либо выдает диагностические оценки ситуаций и решений, либо обнаруживает, что имеющихся данных недостаточно для заключения и формирует команду с требованием получения недостающей информации. С этого момента управляющая система начинает работать под управлением ЭС. В ходе их совместной работы могут возникнуть ситуации, в которых будет существовать целое множество допустимых альтернативных решений. Например, в производственных системах это могут быть решения о перераспределении партий деталей между оборудованием и восстановлении хода производства, а также другие решения, связанные альтернативным использованием распределяемых ресурсов, что в итоге обусловливает необходимость поиска оптимального варианта управления. С этой целью в состав интеллектуальной системы управления включены
574
Методы современной теории автоматического управления
специализированные процедуры оптимального выбора и принятия решений. Особо рациональным представляется здесь использование процедур поиска оптимальных решений по Парето в условиях многокритериальных задач с обращением к лицу, принимающему решения (ЛПР). Базовые инвариантные программно-информационные средства интеллектуальной системы управления. В качестве базовой программной платформы рассмотренной интеллектуальной управляющей системы используется динамическая продукционная управляющая система реального времени ПРОДУС-85 [80]. Инвариантность системы подтверждается следующими свойствами: • дает возможность изменять состав, структуру и состояние объектов; • позволяет расширять правила, законы, алгоритмы управления, контроля, мониторинга для заданного комплекса дискретных распределенных объектов; • позволяет дополнять, развивать и модифицировать прикладные функции управления, контроля, мониторинга в процессе эксплуатации без перепрограммирования. Внутренняя организация системы и технология создания в ее среде конкретных прикладных систем основана на использовании методологии и моделей искусственного интеллекта. Базовой моделью является продукционная система с прямым выводом, которая была развита, расширена и переработана для описания и реализации процессов управления комплексами дискретных распределенных объектов в реальном времени. Настраиваемая база продукционной системы реального времени предназначена для хранения данных о динамике изменения состояний объектов и имеет прямой асинхронный информационный вход от внешних объектов и подсистем. Алгоритмы принятия решения и управления описываются на языке правилпродукций высокого уровня, допускающем квантификацию по объектам. Результатом продукционного логического вывода являются заключения о состоянии и ходе контролируемого процесса либо управляющие воздействия (команды) и сообщения, выдаваемые системой объектам по соответствующим каналам связи. Методы и внутренние формальные модели, положенные в основу реализации продукционной управляющей системы реального времени, демонстрируют следующие ключевые характеристики и особенности. Наличие динамической информационной базы с хранением предыстории состояния объектов (в привязке ко времени) на заданную пользователем глубину. Работа с правилами, использующими сложную квантифицированную предикатную логику времени в условиях применимости продукций и расширенный операционный базис действий. Язык позволяет описывать рассуждения о подмножествах объектов, а также о времени как в терминах точечных, так и интервальных событий с фиксацией их частичного порядка и относительного положения на шкале времени. Функционирование интерпретатора продукций базируется на расширенном толковании логических выражений. Значениями в используемой логике являются не только «ложь» и «истина», а также подмножество объектов базы и моментов времени (или интервала), для которых утверждение истинно. Эти данные используются в ходе работы интерпретатора и передаются в операционную часть продукций для выполнения действий с объектами базы и выработки реакций. Механизм разрешения конфликтов носит множественный характер и оставляет на каждом шаге работы системы в списке применимых несколько не конфликтующих продукций, поддерживающих процесс взаимодействия с различными внешними объектами. В результате обеспечивается псевдопараллельная работа системы с распределенными объектами и реализация параллельных цепочек логических выводов по различным аспектам наблюдаемого процесса.
Глава 5. Интеллектуальные системы
575
Система располагает средствами динамической фокусировки и переключения внимания при изменении внешней обстановки и возникновении особых ситуаций. Эти функции поддерживаются механизмами активации продукций и экстренного вызова. Экстренным может быть объявлено любое правило, и тогда при удовлетворении его условий прерывается процесс интерпретации и логического вывода. Эти действия могут активировать другие правила и вызвать тем самым лавинообразный процесс концентрации внимания системы на определенном фрагменте проблемной области. Несколько экстренных продукций, записанных подряд и активирующих друг друга, обеспечивают сверхбыстрое реагирование и логический вывод по особо важным событиям. Такие цепочки правил обеспечивают прерывание всех процессов, выполняемых интерпретирующей системой в текущий момент. Основные компоненты оболочки продукционной управляющей системы представлены на рис. 5.68. Продукционная система моделирования PS Конструктор CONST
Исходные файлы настройки системы
Оператор
Отладчик OTLAD ОУ
Компилятор GENER
Загрузочные файлы настройки системы
Данные о состоянии
Управление Инвариантное исполнительное ядро продукционной системы PS
Рис. 5.68. Основные компоненты оболочки продукционной управляющей системы
Программа-конструктор CONST, предназначенная для диалогового конструирования прикладных продукционных систем в оболочке ПРОДУС, выполняет следующие основные функции: • внешнюю спецификацию прикладной системы; • построение базы фактов и базы правил продукционной системы; • описание продукционного алгоритма управления, контроля или мониторинга для прикладной системы. Конструктор может создавать либо непосредственно файлы настройки системы, либо файлы настройки на языке компилятора GENER с последующим их переводом компилятором во внутренний код системы. Для удобства работы конструктор поддерживает облегченный стандартизированный интерфейс пользователя, включающий структурные элементы типа интерфейса программы-оболочки Norton Commander и современных Turbosystems фирмы Borland. Компилятор GENER компилирует тексты продукций из исходных файлов настройки системы (языка пользователя), извлекает из них атрибуты и параметры описания состояний объектов, строит внутреннее представление базы, кодирует условия правил с помощью ролевых фреймов, транслирует операционные части правил, кон-
576
Методы современной теории автоматического управления
тролирует синтаксис языка, обнаруживая ошибки, и анализирует семантику алгоритма, выявляя конфликтные правила. В результате создаются верифицированные загрузочные файлы системы, конфигурирующие и настраивающие ее на прикладную задачу управления, контроля и мониторинга. Исполнительное инвариантное ядро PS продукционной управляющей системы реального времени считывает загрузочные файлы настройки, в которых описаны: структура и состав информационной базы прикладной системы; продукции управления, контроля, мониторинга, принятия решений и диалога; правила разрешения конфликтов; данные, необходимые для активации продукций, а также спецификации форматов входных и выходных сообщений и команд, которыми система обменивается с внешними объектами. Эти данные управляют действиями системы в заданном прикладном применении. Внутренняя структура исполнительного ядра системы описана в работах [152]. Его основные функции состоят в проверке условий и выполнении действий правил, разрешении конфликтов между ними, выполнении преобразований базы, формировании и выводе команд и сообщений внешним объектам, а также в активации правил. Ядро обеспечивает высокое быстродействие интерпретации продукций с чрезвычайно избирательной их активацией в зависимости от наблюдаемой ситуации и текущего состоянии процесса логического вывода. Взаимодействие с внешними объектами организовано по асинхронному принципу и поддерживается вход-выходным программным монитором системы. Обеспечена также устойчивость системы к сбоям ЭВМ, на которой она устанавливается, и возможность выполнения рестартов после аварий. Отладчик OTLAD поддерживает работу системы в режиме отладки построенного прикладного варианта базы факторов и правил. В этом режиме разработчику предоставляется возможность наблюдать и оперативно вмешиваться в ход процесса управления. На любом шаге интерпретации набора продукций разработчик может вызвать функции, позволяющие создать, удалить или модифицировать любой элемент базы системы. В частности, для базы факторов можно оценить и изменить значение любого параметра выбранного объекта базы или выбранной команды, значение любого элемента рабочей памяти и т.д. При отладке базы правил можно редактировать состав условий и/или действий выбранной продукции, значение любого слова выбранной операции, правила разрешения конфликтов и правила активации. При необходимости можно создать или удалить связи между объектами базы, сами эти объекты и их параметры, продукции и их условия, правила разрешения конфликтов, правила активации, команды объектов и их параметры. Все внесенные изменения сохраняются в файлах настройки, которые используются ядром на следующем шаге интерпретации набора продукций. Это позволяет осуществлять модификации в отлаживаемой системе непосредственно в ходе ее работы. Продукционная система моделирования PSM является инструментом отладки прикладных систем реального времени и средством оценки их эффективности. Система моделирования реализуется на базе инвариантного ядра ПРОДУС с использованием всех методов, средств и компонентов оболочки продукционной управляющей системы. Продукционная система моделирования предназначена для обработки команд, поступающих от исполнительной системы управления, передачи ей сообщений о состоянии моделируемых объектов, визуализации процессов функционирования моделируемых объектов управления в реальном или модельном времени. Физически PSM и исполнительная система расположены в разных ЭВМ, связь между которыми реализована непосредственно через последовательные порты ввода-вывода RS-232. Это значительно упрощает требования как к используемым при моделировании техническим средствам ЭВМ, так и к линии связи. Реализованный интерфейс PSM с ис-
Глава 5. Интеллектуальные системы
577
полнительной системой основан на реальном протоколе связи, что позволяет сочетать в процессе функционирования комплекса реальные физические объекты управления с моделями объектов, т.е. использовать возможности методов и средств полунатурного моделирования. Новыми элементами продукционного языка описания процессов реального времени, поддерживаемого конструктором и системой в целом, являются иерархия системы правил и макроопределения, операторы динамической подкачки/выгрузки дополнительных источников знаний в систему, а также операторы фокусировки внимания системы на определенных фрагментах базы правил в процессе работы. Язык макроопределений позволяет проектировать иерархические базы правил с использованием модульного принципа, что существенно упрощает процесс их синтеза и способствует рациональной структуризации прикладных продукционных систем. Правила языка макроопределений имеют вид M : если U , то Q, где M — наименование функции данного макроправила; U — условие, предъявляемое к состоянию процесса, при котором действует данное макроправило; Q — последовательность операций или функций, выполняемых после состояния U . Здесь U задает переход к определенному режиму управления и принятия решений или к определенной функционально замкнутой совокупности операций Q. Эти операции могут быть либо условными, либо безусловными. Условные операции детализируются в виде макроправил следующего более низкого уровня или в виде традиционных продукций. В результате макроправила образуют иерархическое описание продукционного алгоритма по методике «сверху вниз», где на самом низком уровне располагаются обычные продукции. Пример 5.6. Макрос М4. Отработка требования на перевозку: Если требование на перевозку установлено, то 1) вызов Спутника (продукция Р7); 2) перегрузка кассеты на Спутник (продукция Р8); 3) отправка Спутника (продукция Р9); 4) разгрузка прибывшего Спутника (макрос М5); 5) фиксация отработки требования (продукция P12). Макрос М5. Разгрузка прибывшего Спутника: Если Спутник прибыл к Приемнику, то 1) выдача Приемнику команды разгрузки (продукция Р10); 2) фиксация доставки кассеты (продукция Р11). Здесь макроправило М4 описывает режим отработки требования на перевозку, включающий функции 1–5, которые выполняются только при определенных условиях. Условия и действия функций 1–3 и 5 задаются продукциями, а функция 4 — макросом М5 более низкого уровня иерархии. В свою очередь, функции этого макроса определяются продукциями Р10 и Р11. Подобные описания более наглядны, чем простой линейный набор правил, и точнее характеризуют логическую структуру знаний для сложных процессов управления, контроля и мониторинга.
В язык продукций и макросов введены операторы extend и extendReturn динамической подкачки и выгрузки дополнительных источников знаний, а также оператор focus. Оператор extend Pi ,K , Pj может быть включен в операционную часть любого
{
}
{
}
правила. Он обеспечивает загрузку в систему подмножества правил Pi ,K , Pj , которые подключаются к анализу базы на очередном шаге интерпретации вместе с использованными ранее правилами. В результате к управлению логико-вычислительным процессом будут привлечены дополнительные знания, представленные в Pi ,K , Pj ,
{
}
т.е. система как бы расширит свое понимание. Оператор extendReturn обеспечивает возврат к использованию первоначального набора правил.
578
Методы современной теории автоматического управления
Оператор focus { Pk ,K , Pm } сосредоточивает систему на фрагменте модели знаний,
описываемом правилами Q = { Pk ,K , Pm } . Если такой оператор встречается в операционной части какой-либо применимой продукции из подмножества правил R, то процесс интерпретации правил R и функционирования продукции Pi прерывается и происходит рекурсивное обращение к подпроцессу интерпретации правил Q, указанных в операторе focus. Система начинает функционировать только под управлением правил { Pk ,K , Pm } ∈ Q, т.е. концентрирует внимание на свойствах и ситуациях предметной области, описанных в этих правилах. Оператор focusReturn обеспечивает рекурсивный возврат к прерванному ранее процессу интерпретации правил из подмножества R. При этом невыполненные операции продукции Pj ∈ R, указанные после оператора focus { Pk ,K , Pm } , довыполняются. Транспьютерная реализация инвариантного ядра системы. Повысить эффективность управляющей системы можно при распараллеливании процесса обработки информации несколькими процессорами, объединенными в единую вычислительную структуру. Такая мультипроцессорная система может быть построена на основе транспьютеров — специальных программируемых СБИС, предназначенных как для автономного использования, так и в качестве элемента мультипроцессорной системы [127, 152]. Реально доступными являются дополнительные платы к IBM PC, содержащие 1, 2 или 4 транспьютера. При этом процессор самой IBM PC также включается в состав системы и применяется для подготовки программного обеспечения для транспьютеров, загрузки кодов программ и данных, для связи с сетью транспьютеров через специальную программу AFSERVER. Для программирования транспьютеров используются языки OCCAM, Parallel C и др. Для реализации ядра рассматриваемой системы предлагается программа, состоящая из задач двух типов — PRO и TASK, представленных на рис. 5.69. Задача PRO загружается в корневой транспьютер и поддерживает связь с загрузочным процессором для осуществления ввода-вывода данных (клавиатуры, экран, файлы, технологическое оборудование). Эта задача используется для передачи данных другим транспьютерам и задачам, а также для обобщения результатов работы задач второго типа. Задачи TASK загружаются во все транспьютеры и параллельно выполняются необходимые действия по обновлению базы, активации продукций и их применимости.
AFSERVER
PRO
T0 Вход
Вход TASK 1 T1
TASK 2 T2 Выход
Вход
Вход
TASK 3
TASK 4
T3 Выход
Рис. 5.69. Структура программы реализации ядра
T4 Выход
Глава 5. Интеллектуальные системы
579
Программы PRO и TASK, учитывая наличие в транспьютерах локальной памяти, осуществляют связь друг с другом через корневой транспьютер. Для распараллеливания процессов обработки информации в интеллектуальной продукционной управляющей системе используются два основных способа: разделение на отдельные фрагменты списка продукций (правил) и разделение на фрагменты базы (т.е. базы фактов). Первый способ. Список продукций разделяется на 4 фрагмента, которые загружаются в память транспьютеров T1 −T4 . При этом в транспьютеры загружаются только необходимые для работы продукций подмножества базы фактов. Инициировать обновление базы и дублирование ее в транспьютеры на каждом цикле работы системы можно из программы-диспетчера PRO. Структура программ PRO и TASK представлена на рис. 5.70. Здесь штриховыми линиями показаны моменты синхронизации программ и обмена данными.
Рис. 5.70. Структура программ PRO и TASK
580
Методы современной теории автоматического управления
Этап обновления базы в начале каждого цикла работы системы проводится под управлением программы PRO и заключается в рассылке по каналам связи изменившихся параметров базы. В дальнейшем каждый транспьютер работает автономно как небольшая продукционная система. Необходимость в синхронизации и обобщении результатов возникает только при наличии конфликтов продукций, хранящихся в разных транспьютерах. При отсутствии конфликтов между группами правил, расположенных на разных транспьютерах, каждый из транспьютеров продолжает автономно выполнять работу вплоть до этапа изменения содержимого базы. Этот этап контролируется программой PRO, которая определяет наличие изменений в базе после выполнения продукций и дублирует эти изменения в других транспьютерах. Второй способ распараллеливания работы управляющей системы предусматривает разделение базы на 4 непересекающихся подмножества и загрузку их в транспьютеры вместе с полным списком продукций. Особенностью способа является необходимость обобщения результатов работы транспьютеров после частичной обработки продукций в разных транспьютерах. При этом увеличивается количество пересылок данных и моментов синхронизации. В остальном алгоритм работы системы сходен с алгоритмом для первого способа распараллеливания. 5.4.8.
О НЕКОТОРЫХ ЗАДАЧАХ ТЕОРИИ И ТЕХНИКИ ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМ
Развитие информационных технологий в двадцать первом столетии будет сопряжено с разработкой и созданием интеллектуальных систем обработки информации и управления в различных средах обитания и деятельности человека. Сегодня вычислительные средства (различного рода компьютеры) значительно превзошли человека в таких хорошо определенных областях, как вычисления, обработка текстов, а в последнее время — даже в области логического вывода. Тем не менее им еще не достает гибкости и они отстают от человека во многих областях, например, в распознавании образов, решении задач при неполной информации, в способности к обучению, прогнозе результатов предполагаемого действия и выработки управления с учетом динамики протекания процессов в реальном времени. Такая работа с информацией, свойственная человеку, характеризуется понятием «гибкой» обработки информации, в отличие от традиционной «жесткой» обработки информации и выработки управления вычислительной системой, которая предполагает наличие полностью заданной информации в «априори» оговоренном мире или проблемной области. Этот подход к обработке информации, который можно назвать ассоциативным или «интуитивным» в противовес «логическому», еще совсем не развит в существующей ныне информационной технологии. Здесь уместно отметить, что развитие информационных технологий происходило во взаимосвязи с эволюцией вычислительных систем. Если такие системы первых поколений позволяли осуществлять цифровую обработку данных и текстов, создавать и использовать базы данных, то вычислительные системы пятого поколения уже дают возможность обрабатывать знания, осуществлять логический вывод и тем самым создают начала их интеллектуализации. Такие вычислительные системы представляли собой некоторые самостоятельные образования — инструмент, не входящий органически в «состав» естественных и общественных процессов, а лишь предназначались для выполнения некоторых весьма важных вычислительных операций, отображающих эти процессы. Взаимодействие же человека или коллектива людей с вычислительной системой состояло в необходимости разработки программы вычислений, ее отладки и представлении результатов в удобной для понимания человеком форме и т.п. Однако ясно, что получение информации для обработки ее в вычислительных системах сопряжено с проведением различного рода измерений
Глава 5. Интеллектуальные системы
581
тех или иных характеристик окружающей среды, а результаты обработки данных должны использоваться для принятия решения о том или ином действии, в соответствии с управлением, выработанным вычислительной системой, с последующим контролем результатов управления. Возможно, поэтому в конце восьмидесятых годов текущего века была выдвинута новая парадигма систем обработки информации и управления — концепция «Интеллектуальные системы» [175]. Несколько позже, в начале 90-х годов в Японии, как продолжение программы «Вычислительные системы пятого поколения» выдвигается программа «Вычислительные системы реального мира» (Real-World Computing — RWC), при мотивировке ее появления прогнозируемыми требованиями к потребностям в информации общества XXI века. Сутью этой программы является поиск алгоритмов, обеспечивающих интеграцию новых базисных функций при поддержке следующих областей знаний: • распознавание и понимание, вплоть до восприятия жестов или движения пальцев; • понимание устной речи; • логический вывод и решение задач; • разработка информационных баз для конкретных областей знания и алгоритмов принятия решений на основе статистических данных при тех или иных ограничениях; • методы самоорганизации сложных информационных баз; • решение задач моделирования и организация пользовательского интерфейса; • распознавание намерений человека и работа с широкополосными каналами связи, которые он использует для передачи информации (с помощью жестов, звуков, рисунков); • автономный и совокупный контроль, одной из задач которого служит выявление принципиальной методологии интеграции восприятия и осознания, планирования и действия в реальном мире с точки зрения адаптации и познания. Дальнейшие исследования, ориентированные на приложения, будут направлены на реализацию автономных информационных интегральных систем и информационных систем об окружающей среде. По сути предполагается создание вычислительных систем реального мира, в которых новые функции будут интегрироваться с другими, снова образуя новые функции, не нарушая при этом жизненности и открытости системы. Тем не менее вычислительные системы реального мира все-таки остаются в рамках автономных вычислительных систем, хотя и предусматривающих в своем составе функции контроля, планирования и действия в реальном мире. В концепции интеллектуальных систем принципиально предполагается ее взаимодействие с окружающей средой, наличие мотивации, использование знаний для синтеза цели, оценки, принятия решения и выработки управления, контроль реальных результатов управления и сопоставление их с прогнозированными динамической экспертной системой результатами действия [174]. Поэтому исследование и создание интеллектуальных систем потребовало разработки новых информационных технологий. Частично, особенно в области алгоритмов «мягкой» логики, в настоящее время они коррелируются с программой RWC. Информационная технология, развиваемая в интеллектуальных системах и поддерживаемая вычислительной техникой и технической связью, порождает перемены в обществе. Эти перемены проникают не только в промышленную сферу, такую как система рационального распределения и производства новых товаров и услуг, но также вызывают качественное улучшение образа жизни, стимулируют развитие регионов, а также образования и культуры. Так, в сфере информационных сетей результатом будет значительный рост не только количества, но и качества и разнообразия информации, требующей обработки. Поэтому для такого связанного в информа-
582
Методы современной теории автоматического управления
ционную сеть общества потребуется новая технологическая база, которая каждому даст возможность легко и эффективно пользоваться различными информационными ресурсами сети. В связи с этим в различных прикладных системах обработки информации и управления информационные среды вычислительных систем должны отражать интеллектуальную деятельность и быть способными к сотрудничеству с людьми в обстановке реального мира. Поскольку под интеллектуальной системой понимается объединенная информационным процессом совокупность технических средств и программного обеспечения, работающая автономно или во взаимосвязи с человеком (коллективом людей), способная на основе сведений и знаний при наличии мотивации синтезировать цель, вырабатывать решения о действии и находить рациональные способы достижения цели, то в технологическом аспекте вычислительные части интеллектуальных систем должны уметь гибко обрабатывать информацию о реальном мире, как это делает человек, поскольку многие задачи этого мира плохо определены и их трудно представить в виде алгоритма [175]. Для разработки интеллектуальных систем важно, прежде всего, изучить интуитивный (ассоциативный) аспект обработки информации человеком и воплотить его в виде новой информационной технологии. В связи с этим, координируя логический и интуитивный аспекты обработки информации, интеллектуальные системы, выступая как новая парадигма информационной технологии, будут включать также новые функции: • синтез цели на основании мотивации, сведений об окружающей среде и собственном состоянии системы; • интеграции разнообразной, сложной, с перекрестными связями информации, содержащей неопределенности, и получение подходящего (приближенного) решения в разумное время; • активного овладения необходимой информацией и знаниями и приобретения знаний индуктивно; • адаптации самой системы к потребителю и меняющейся обстановке; • выработка и исполнение управления для достижения цели. Поскольку человек способен гибко обрабатывать информацию потому, что мозг соединяет распределенное представление информации, высокопараллельную обработку, способность к обучению и самоорганизации, а также способность интегрировать информацию, то в технической реализации этих характеристик естественных интеллектуальных систем можно указать два аспекта: • функциональный аспект, для которого характерны допустимость и интеграция неопределенной и сомнительной информации и способность к адаптации и обучению; • вычислительный аспект, для которого характерна высокопараллельная и распределенная обработка многомодульной, многомерной, с большим количеством связей информации. По сути, обработка информации — это функция, способность, которую приобретали люди в процессе эволюции, приспосабливаясь к меняющейся обстановке и воздействиям окружающей среды. Эта функция хотя и многогранна, в ней, как отмечалось, можно выделить аспекты логической и интуитивной обработки информации. В этой связи полезно рассмотреть, каким образом эти два аспекта обработки информации развиваются и интегрируются в вычислительной части интеллектуальной системы по отношению к обработке информации и выработке управления человеком. Имеется некоторая разность ε между результатами обработки информации человеческим мозгом и с помощью алгоритмов, реализованных в той или иной вычислительной среде.
Глава 5. Интеллектуальные системы
583
Эта разность должна быть минимизирована, принимая во внимание, что способность к «гибкой» обработке информации пока все-таки принадлежит человеку. Кроме того, должно быть синтезировано такое управление, которое способствовало бы достижению цели, выбранной в интеллектуальной системе. Технология обработки информации должна дополнить или заменить человеческую функцию ее обработки путем автоматизации и интеграции логического и интуитивного подходов. Однако, исторически, механизмы автоматизации развивались теоретически и технологически применительно к логической обработке в традиционных цифровых компьютерах и в связи с этим последовательная обработка утвердилась сегодня как господствующая парадигма. Однако интуитивная обработка информации изучалась в таких областях, как распознавание образов и обучение, алгоритмы которых реализуются на базе нейронных вычислительных сетей, на которых может быть реализована параллельная и распределенная обработка информация. Тем не менее интуитивная обработка информации остается еще слабо развитой областью информационной технологии. Отсюда вытекают новые проблемы в разработке и создании интеллектуальных систем. Эти системы должны поддерживать различные аспекты человеческой деятельности, накапливая в базе знаний информацию о реальном мире и используя ее для принятия решений и выработки управления для достижения прогнозируемых результатов действия всей системы. Такая информация чрезвычайно обширна и по самой природе ей свойственна модальность, неопределенность и неполнота. Поэтому интеллектуальные системы требуют реализации новых функций с разной гибкостью, которая впитывает в себя такие понятия, как устойчивость функционирования, качество протекаемых процессов в реальном времени, открытость. Новизна функций должна строиться на основе новых теоретических подходов или алгоритмов, пригодных для интеллектуальных систем, включающих такие гибкие функции, как интеграция символов и образов, обучение и самоорганизацию. Поскольку гибкая обработка информации и управления выходят за пределы традиционных подходов, то можно указать некоторые области исследования функций, выходящие за эти пределы, а именно: • распознавание и понимание разного рода информации типа рисунков, звуков речи и символьной информации, присущей естественным языкам; • вывод и решение задач с помощью баз знаний, которые допускают прямую обработку информации и обладают способностью к обучению и самоорганизации; • интерфейс и моделирование взаимодействия человека с реальным миром; • управление и автоматическое управление в интеллектуальных системах, функционирующих в реальной среде. В связи с этим можно указать два направления развития интеллектуальных систем. Это — автоматические интеллектуальные системы, адаптированные к реальной окружающей среде, и диалоговые системы, в которых интегрируются функции автоматических систем и человека в их взаимодействии. Первое направление означает объединение интеллектуальных систем с реальным миром. При этом системы должны быть способными автономно понимать и контролировать среду путем активного и адаптивного взаимодействия с реальным миром и способны взять на себя часть деятельности человека в этом мире. Таким системам необходимо справляться с неполнотой, неопределенностью и изменчивостью информации, характерными для реального мира. К новым функциям таких систем можно отнести понимание воздействий окружающей среды, моделирование реального мира, планирование последовательности действий, оптимальное управление с целью достижения желаемого результата, элементы адаптации и самоорганизации.
584
Методы современной теории автоматического управления
Второе направление означает «объединение» системы с человеком. Это должны быть гибкие системы, поддерживающие и повышающие интеллектуальную деятельность людей в таких областях, как решение задач и получение информации за счет расширения каналов связи между людьми и системами. Чтобы помочь людям в решении задач и получении новой информации, потребуется гибко воспринимать и интегрирование различной информации. Здесь новые функции в системе: это вопрос и ответ, высказанные на естественном языке, понимание намерений на базе различной информации, поступающей от людей, реализация интеллектуальной поддержки для нахождения и представления полезной информации в огромном количестве данных, хранящихся в базах данных, и прогнозирования изменений в реальном мире, методы интеграции для обеспечения взаимодействия человека и системы, вычислительная модель реального мира и т.д. Для интеллектуальных систем эти новые функции необходимо оценить с точки зрения обеспечения таких важных характеристик интеллектуальных систем, как устойчивость, открытость и работа в реальном времени. Кроме того, интеллектуальные системы XXI века будут базироваться не на одной, а на разных ключевых информационных технологиях, таких как технологии для высокопараллельных вычислительных сетей (транспьютероподобных), оптических вычислительных систем, нейросистем и логических вычислительных систем. Эти технологии должны интегрироваться в интеллектуальных системах, чтобы справляться с задачами реального мира.
Глава 6. Применение нейрокомпьютеров в системах управления
ГЛАВА 6.
585
ПРИМЕНЕНИЕ НЕЙРОКОМПЬЮТЕРОВ В СИСТЕМАХ УПРАВЛЕНИЯ
Данная глава посвящена одному из бурно развивающихся сейчас направлению в вычислительной технике — нейрокомпьютерам. Рассматриваются их принцип работы, архитектурные особенности, разновидности, теоретические основы решения различных задач на этих компьютерах, некоторые методы их проектирования, примеры решения конкретных задач. 6.1.
СИСТЕМА УПРАВЛЕНИЯ С ЭВМ В КОНТУРЕ: СТРУКТУРА, ОСОБЕННОСТИ РАБОТЫ
В классической теории управления техническими объектами рассматривают различные варианты схем систем управления с ЦВМ в контуре [22, 23, 121, 137]. Однако для более лучшего понимания принципа построения нейрокомпьютеров рассмотрим несколько отличную от привычных схему (рис. 6.1). F(t)
Задатчик программного движения
σ(t)
Yпр(t)
X(t)
U(t) Исполнительные механизмы
Объект управления
Yвыч(t)
ЦАП
УЦВМ
АЦП
Датчики
Xизм(t)
Рис. 6.1. Структурная схема системы управления с ЦВМ в контуре: ЦАП — цифро-аналоговый преобразователь, АЦП — аналого-цифровой преобразователь, УЦВМ — управляющая ЦВМ
На этой схеме обозначены: X ( t ) — вектор состояния системы, Xизм ( t ) — вектор измеряемых параметров состояния объекта, Yвыч ( t ) — вектор вычисленных параметров, Yпр ( t ) — вектор программного входного воздействия, σ ( t ) — сигнал ошибки, U ( t ) — управляющее воздействие, F ( t ) — возмущение. Нетрудно заметить, что применяя к данной схеме известные в теории управления правила преобразования структурных схем можно получить классическую схему системы управления с ЦВМ в контуре. Система на рис. 6.1 работает следующим образом. Под действием управления U ( t ) объект движется в заданном направлении. Однако случайные, неуправляемые
возмущения F ( t ) отклоняют его движение от заданного. Отдельные компоненты вектора состояния объекта измеряются датчиками, квантуются по амплитуде на аналого-цифровых преобразователях (АЦП) и передаются в управляющую ЦВМ (УЦВМ), которая, преобразовав измеренную входную информацию по заданному алгоритму, подает на узел сравнения вектор вычисленного воздействия Yвыч ( t ) , со-
586
Методы современной теории автоматического управления
ответствующего состоянию объекта на момент измерения. Узел сравнения вырабатывает сигнал ошибки σ ( t ) и передает его исполнительному механизму. Последний вырабатывает такое управление U ( t ) , которое, воздействуя на объект, возвращает его на программную траекторию. Очевидно, что ЦВМ, включенная в контур рассмотренной системы управления, должна удовлетворять следующим требованиям: осуществлять возложенные на нее вычисления с точностью, позволяющей системе нормально выполнять свои функции; производить обработку входной информации в темпе работы системы. Иначе говоря, управляющая ЦВМ должна выдавать результаты с требуемой точностью и работать в реальном масштабе времени. Современный уровень развития элементной базы вычислительной техники позволяет выполнять задатчик программного движения и узел сравнения в виде программных модулей, размещаемых в памяти той же УЦВМ, что и основной алгоритм обработки входной информации. В этом случае УЦВМ будет вырабатывать непосредственно сигнал ошибки и, очевидно, будет иметь большую вычислительную нагрузку. Значительное повышение качества работы системы дает применение адаптируемых (интеллектуальных) задатчиков программного движения. Если программные модули УЦВМ оценивают характер влияния окружающей среды на движение объекта, вырабатывают тактику поведения объекта в новых условиях, корректируют программную траекторию, рассчитывают управляющие воздействия под новую программную траекторию, то такая система приобретает элементы интеллекта. Понятно, что вычислительная нагрузка УЦВМ таких систем значительно больше, чем в обычной системе. Удовлетворить требованию работы в реальном времени УЦВМ, построенной по классической фоннеймановской архитектуре, с каждым новым проектом становится все сложнее. Однопроцессорная архитектура фон Неймана имеет физический предел, определяемый скоростью распространения электрических сигналов по линиям связи структурных модулей ЭВМ. Очевидно, что выход может быть найден в параллельной организации работы УЦВМ, когда данные и алгоритмы распределяются между несколькими, а может быть и очень многими, процессорами. В настоящее время специалистами предложено несколько классов вычислительных систем с параллельной организацией работы. Одним из наиболее развиваемых сегодня является класс нейрокомпьютеров. Этому классу вычислительных машин посвящены последующие разделы настоящей главы. 6.2.
НЕЙРОКОМПЬЮТЕРЫ — ЭВМ НОВОГО ПОКОЛЕНИЯ
С момента появления первых реально работающих ЭВМ (приблизительно середина 40-х годов нынешнего столетия) до сегодняшнего дня принято разделять развитие ЭВМ на пять поколений, в соответствии с используемой для них элементной базой. Сейчас можно говорить о развитии нового, шестого поколения ЭВМ, принципиально отличающегося от предыдущих. Речь идет не о смене элементной базы, а об изменении принципа и архитектуры, а также области применения новых ЭВМ, в некоторой степени моделирующих работу человеческого мозга. На пороге третьего тысячелетия появился новый класс ЭВМ — нейрокомпьютеры. Основные отличия нейрокомпьютеров от традиционной ЭВМ с архитектурой фон Неймана заключаются в следующем: • большое число параллельно работающих элементов — нейронов (от нескольких десятков до 106÷108), что обеспечивает колоссальный скачок в быстродействии; • вместо программирования используется обучение (воспитание) — машина учится решать задачи, изменяя параметры нейронов и связи между ними.
Глава 6. Применение нейрокомпьютеров в системах управления
587
Попытки создания ЭВМ, моделирующих работу мозга, предпринимались еще с 40-х годов специалистами по нейрокибернетике. Они стремились разработать самоорганизующиеся системы, способные обучаться интеллектуальному поведению в процессе взаимодействия с окружающим миром, причем компонентами их систем обычно являлись модели нервных клеток. Однако зарождавшаяся в это же время вычислительная техника и связанные с нею науки, особенно математическая логика и теория автоматов, оказали сильное влияние на области исследования, связанные с мозгом. К концу 50-х годов сформировался логико-символьный подход к моделированию интеллекта. Развитие этого подхода породило такие направления, как эвристическое программирование и машинный интеллект, и способствовало угасанию интереса к нейронным сетям [300]. Неблагоприятным моментом, затормозившим развитие нейросетевой тематики более чем на два десятилетия, явилось опубликование тезиса, выдвинутого авторитетнейшими учеными 60-х годов М. Минским и С. Пейпертом о невозможности воспроизведения произвольной функции нейронной сетью. Таким образом, в течение длительного времени основным направлением в развитии искусственного интеллекта являлся логико-символьный подход, который может быть реализован на обычных компьютерах. Было получено решение многих «интеллектуальных» задач из определенных предметных областей. Однако самое сложное программное обеспечение, способное решать трудные задачи в специализированной области, отказывает, как только проблема выходит за рамки, определенные разработчиками при создании системы. К концу 70-х годов созрели условия для возрождения интереса к нейросетевым моделям. Это было связано с накоплением новых данных при экспериментальных исследованиях мозга. Кроме того, развитие микроэлектроники и компьютерной техники, создав техническую базу для моделирования сложных нейронных систем, привело к пониманию того, что радикально увеличить производительность можно лишь за счет параллельной обработки данных, которая органически присуща нейронным сетям головного мозга. На сегодняшний момент сотни фирм и лабораторий занимаются исследованиями в области нейросетевых технологий. Разработаны ряд нейрокомпьютеров и нейромодулей, которые могут работать под управлением обычных ЭВМ и самостоятельно с существенно более высоким быстродействием. Создание высокоэффективных нейрокомпьютеров требует изучения трех видов моделей нейронных сетей: физических, математических, технологических. Львиную долю публикаций по вопросам создания нейросетевых моделей составляют работы по реализации различных видов нейропроцессоров на основе СБИС, оптической, ПЛИС и т.д. технологий (технологические модели нейронных сетей). Однако подавляющее большинство аппаратных реализаций нейрокомпьютеров использует фоннеймановский процессор (универсальный или специализированный), который не может обеспечить «истинного» параллелизма, свойственного биологическим нейронным сетям. Работы по исследованию физических моделей нейронных сетей, в которых отображаются физические принципы функционирования головного мозга, привели к созданию проекта Кремниевой Мозговой Коры (SCX — Silicon Cortex), возглавляемого немецким биологом М. Маховальдом. Тем не менее, несмотря на значительные достижения в разработке физических моделей мозга, пока не создано такой модели, которая адекватно отображала бы работу мозга и позволяла бы генерировать новое знание. Более того, главная проблема — моделирование зрения, внимания, координированного управления поведением — не имеет удовлетворительного решения в рамках нейросетевой технологии. С этих позиций наиболее важными представляются работы по созданию математических моделей нейросетевых вычислений, которые позволяют отрабатывать и
588
Методы современной теории автоматического управления
создавать новые принципы организации параллельной работы многих вычислительных элементов — формальных нейронов. Идея коннекционизма. Большое влияние на разработку теории искусственных нейронных сетей оказал коннекционизм. Это — раздел искусственного интеллекта, связанный с созданием, исследованием и развитием моделей мозга (мышления) человека. С точки зрения коннекционизма (connection — «связь»), основу концепции построения нейронных сетей составляет идея о том, что нейроны можно моделировать довольно простыми автоматами, а вся сложность мозга, гибкость его функционирования и другие важнейшие качества определяются связями между нейронами. Каждая связь представляется как простой элемент, служащий для передачи сигнала. При таком подходе для нейросетевой модели характерно следующее: • однородность системы (элементы нейронной сети одинаковы и простые, все определяется структурой связи); • надежность системы, построенной из ненадежных элементов, за счет избыточного числа связей; • «голографичность», предопределяющая, что при разрушении части система сохраняет свои свойства. Предполагается, что широкие возможности систем связи: демаскирование старых связей и добавление новых — компенсируют бедность набора элементов, из которых строится модель, их ненадежность, а также возможные разрушения части связей. На первых этапах развития нейросетевых математических моделей коннекционизм сыграл исключительно важную роль, поскольку были поняты основные механизмы индуктивного вывода, осуществляемого нейронной сетью, позволившие решить большое количество прикладных задач. Однако для создания математических нейросетевых моделей, адекватных реальным задачам, требуются более глубокие исследования биологических принципов функционирования головного мозга. 6.3.
БИОЛОГИЧЕСКАЯ ПАРАЛЛЕЛЬ НЕЙРОКОМПЬЮТЕРАМ
Основатель кибернетики Норберт Винер назвал свой главный труд «Кибернетика, или управление и связь в животном и машине» [40]. Этим определением Винер показал, что законы управления являются общими для живой и неживой природы, тем самым предопределил фундаментальность кибернетики. Рассмотрим в общем виде функции сенсорных систем человека с точки зрения кибернетики. Информацию об окружающем мире и о внутренней среде организма человек получает с помощью сенсорных систем, названных Павловым анализаторами. С точки зрения современной нейрофизиологии под сенсорными системами понимаются специализированные части нервной системы, состоящей из периферических рецепторов (органы чувств), отходящие от них нервные волокна (проводящие пути) и клетки центральной нервной системы, сгруппированные вместе в так называемые сенсорные центры. В сенсорных органах происходит преобразование энергии стимула в нервный сигнал (рецепторный потенциал), который трансформируется в импульсную активность нервных клеток (потенциалы действия). По проводящим путям эти потенциалы достигают сенсорных центров, на клетках которых происходит переключение нервных волокон и преобразование нервного сигнала (перекодировка). На всех уровнях сенсорной системы одновременно с кодирование и анализом стимулов осуществляется декодирование сигналов (считывание сенсорного кода). Декодирование осуществляется на основе связей сенсорных центров с двигательными и ассоциативными отделами мозга. Нервные импульсы клеток двигательных систем вызывают возбуждение или торможение. Результатом этих процессов является движение или остановка (действие и бездействие). Следует подчеркнуть, что природа носителя информации в
Глава 6. Применение нейрокомпьютеров в системах управления
589
сенсорных системах является электрической. Таким образом, основными функциями сенсорных систем являются: рецепция сигнала; преобразование рецепторного потенциала в импульсную активность проводящих путей; передача первичной активности в сенсорные центры; преобразование первичной активности в сенсорных центрах; анализ свойств сигналов; идентификация свойств сигналов; принятие решения [36]. Нетрудно заметить, что приведенное в предыдущем абзаце описание восприятие человеком влияния внешней среды есть описание работы системы управления с ЦВМ в контуре по рис. 6.1 в терминах физиологии. Роль датчиков системы управления играют рецепторы, роль управляющей ЦВМ — головной мозг человека, роль исполнительных механизмов — двигательная система человека (его мышцы), роль задатчика программного движения — головной мозг. Очевидно, центральным звеном в биологических системах управления является мозг, состоящий из более 100 млрд нервных клеток — нейронов, каждая из которых имеет в среднем 10 000 связей. Нейрон имеет тело (сому), дерево входов — дендритов, и выход — аксон (рис. 6.2). Длина дендритов может достигать 1 мм, длина аксона — сотен миллиметров. На соме и дендритах располагаются окончания других нервных клеток. Каждое такое окончание называется синапсом. Проходя через синапс, электрический сигнал меняет свою амплитуду: увеличивает или уменьшает. Это можно интерпретировать как умножение амплитуды сигнала на весовой (синаптический) коэффициент. Взвешенные в дендритном дереве входные сигналы суммируются в соме и затем на аксонном выходе генерируется выходной импульс (спайк) или пачка импульсов. Выходной сигнал проходит по ветви аксона и достигает синапсов, которые соединяют аксон с дендритными деревьями других нейронов. Через синапсы сигнал трансформируется в новый входной сигнал для смежных нейронов. Этот сигнал может быть положительным или отрицательным (возбуждающим или тормозящим), в зависимости от вида синапса. Величина сигнала, генерируемого на выходе синапса, может быть различной даже при одинаковой величине сигнала на входе синапса. Эти различия определяются синаптическим коэффициентом (весом синапса), который может меняться в процессе функционирования синапса [146]. Дендриты
Аксон Тело нейрона (сома)
Рис. 6.2. Биологический нейрон
В настоящее время нейроны разделяют на три большие группы: рецепторные, промежуточные и эффекторные [146]. Рецепторные нейроны предназначены для ввода сенсорной информации в мозг. Они преобразуют воздействие окружающей среды на органы чувств (свет на сетчатку глаза, звук на ушную улитку) в электрические
590
Методы современной теории автоматического управления
импульсы на выходе своих аксонов. Эффекторные нейроны передают приходящие на них электрические сигналы исполнительным органам, например мышцам, также через специальные синапсы своих аксонов. Промежуточные нейроны образуют центральную нервную систему и предназначены для обработки информации, полученной от рецепторов и передачи управляющих воздействий на эффекторы. Головной мозг человека и высших животных состоит из серого и белого вещества. Серое вещество есть скопление дендритов, аксонов и нейронов. Белое вещество образовано волокнами, соединяющие различные области мозга друг с другом, с органами чувств, мускулами. Волокна покрыты специальной миэлинированной оболочкой, играющей роль электрического изолятора. В мозге существуют структурно обособленные отделы, такие как кора, гиппокамп, таламус, мозжечок, миндалина и т.п. (рис. 6.3). Каждый из отделов имеет сложное модульное строение. Особое место в мозге занимает церебральная кора, которая является его новейшей частью. В настоящее время принято считать, что именно в коре происходят важнейшие процессы ассоциативной переработки информации [146]. Молекулярный слой Наружный зернистый слой Слой пиромидных клеток Внутренний зернистый слой Ганглионарный слой Слой полиморфных клеток Белое вещество Рис. 6.3. Схема слоев коры больших полушарий (по [244])
Связи между сенсорными областями и корой, между различными участками коры физически параллельны. Один слой клеток проецируется на другой, причем проекции состоят из множества разветвляющихся и сливающихся волокон (проекции дивергируют и конвергируют). В настоящее время наиболее изучен ввод в мозг зрительной информации [146]. Возбуждение от сетчатки достигает коры топографически упорядоченным образом, т.е. ближайшие точки сетчатки активируют ближайшие точки коры. По реакции на зрительные стимулы различной сложности различают простые, сложные и гиперсложные нейроны. Имеется тенденция к усложнению рецепторных свойств нейронов по мере удаления от входных областей коры. Можно предположить, что функциональная роль нейронных структур, примыкающих к органам чувств, включая сенсорные области коры, заключается в преобразовании сенсорной информации путем выделения все более сложных и информативных признаков входных сигналов. Ассоциативная обработка получающихся при этом совокупностей сенсорных признаков осуществляется в ассоциативных зонах коры, куда поступают и другие сенсорные образы [146]. Приведенное весьма поверхностное описание принципа обработки информации в живой природе позволяет сделать вывод, что техническая кибернетика вплотную подошла к решению задачи управления в реальном времени методами, отшлифованными за миллионы лет «Создателем». Поэтому будет вполне резонным появление в настоящее время термина «нейроуправление», под которым понимается «область
Глава 6. Применение нейрокомпьютеров в системах управления
591
теории управления, занимающаяся вопросами применения нейронных сетей для решения задач управления динамическими объектами…» [56]. Дадим определение нейрокомпьютера: нейрокомпьютером называют ЭВМ (аналоговую или цифровую), основной операционный блок (центральный процессор) которой построен на основе нейронной сети и реализует нейросетевые алгоритмы. 6.4.
ЗАДАЧИ, РЕШАЕМЫЕ НЕЙРОКОМПЬЮТЕРАМИ
Весь класс задач, которые решают с помощью средств вычислительной техники, удобно разделить на три класса [55]: формализуемые, трудноформализуемые, неформализуемые. Формализуемая задача имеет четко сформулированный алгоритм решения. Причем, как правило, этот алгоритм учитывает класс машин, на котором будет решаться задача. Примером таких задач может быть интегрирование кинематических уравнений в бесплатформенных системах инерциальной навигации, вычисление элементарных функций, представленных рядами и т.п. Трудноформализуемая задача имеет алгоритм решения, качество которого трудно оценить или трудно оценить достижимость решения. Этот класс задач возникает из-за большой размерности моделируемых в этой задаче систем (известное выражение «проклятия размерности»). К таким задачам можно отнести моделирование сложных электронных устройств в системах автоматизированного проектирования, задачи интегрированной подготовки производства и т.д. Неформализуемая задача имеет в своей постановке неявно заданные функции и параметры. К этому классу относят задачи распознавания образов, кластеризации, идентификации информативных признаков и т.п. Необходимость решения таких задач породила появление реальных нейронных ЭВМ в бывшем СССР еще 30 лет назад [55]. 6.5.
СХЕМА АБСТРАКТНОГО НЕЙРОКОМПЬЮТЕРА
На рис. 6.4 представлена структурная схема абстрактного нейрокомпьютера. Такую схему можно назвать обобщенной потому, что она поясняет принцип работы любого НК независимо от его конкретного конструктивного исполнения. Схема на рис. 6.4 напоминает классическую схему однопроцессорной машины Джона фон Неймана, предложенную им еще в 1945 году. Однако нейрокомпьютер в принципе отличается от этих машин. Запоминающее устройство
Устройство ввода
Нейронная сеть
Устройство вывода
Блок обучения
Устройство управления
Рис. 6.4. Структурная схема абстрактного нейрокомпьютера
Основным операционным блоком НК, его процессором, является искусственная нейронная сеть. В первом, грубом, приближении сеть представляет совокупность про-
592
Методы современной теории автоматического управления
стейших модулей, называемых формальными нейронами, которые соединены между собой каналами передачи информации. Количественная характеристика каждого канала определяется решаемой задачей. Нейронная сеть не производит вычислений, как это делает арифметико-логическое устройство фоннеймановских машин. Она трансформирует входной сигнал (входной образ) в выходной в соответствии со своей топологией и значениями коэффициентов межнейронной связи. В запоминающем устройстве НК хранится не программа решения задачи, как это имеет место в машинах фон Неймана, а программа изменения коэффициентов связи между нейронами. Устройства ввода и вывода информации в принципе выполняют те же функции, что и в машине фон Неймана. Устройство управления служит для синхронизации работы всех структурных блоков НК при решении конкретной задачи. В работе абстрактного нейрокомпьютера различают два главных режима работы НК: режим обучения и рабочий режим. Для того чтобы НК решал требуемую задачу его нейронная сеть должна пройти обучение на эту задачу. Суть режима обучения заключается в настройке коэффициентов межнейронных связей на совокупность входных образов этой задачи. Установка коэффициентов осуществляется на примерах, сгруппированных в обучающие множества. Такое множество состоит из обучающих пар, в которых каждому эталонному значению входного образа соответствует желаемое (эталонное) значение выходного образа. При первой подаче очередного эталонного входного образа выходной сигнал отличается от желаемого. Блок обучения оценивает величину ошибки и корректирует коэффициенты межнейронных связей с целью ее уменьшения. При второй и последующих подачах этого же эталонного входного образа величина ошибки продолжает уменьшаться. Процесс продолжается до тех пор, пока ошибка не достигнет требуемого значения. С математической точки зрения процесс обучения является решением задачи оптимизации. Целью оптимизации является минимизация функции ошибки (или невязки) на данном множестве примеров путем выборки коэффициентов межнейронных связей. Рассмотренный пример обучения называют контролируемым обучением, или обучением с учителем. В рабочем режиме блок обучения, как правило, отключен. На вход НК подаются сигналы, требующие распознавания (отнесения к тому или иному классу). На эти сигналы (входные образы), как правило, наложен шум. Обученная нейронная сеть фильтрует шум и относит образ к нужному классу. Сравнение нейрокомпьютера с машиной фон Неймана. Структура ЭВМ, получившая имя Джона фон Неймана, была описана им в «Первом наброске отчета по ЭДВАКу» (First Draft jf a Report on the EDVAC, 1945 г.). В отчете приводится, ставшее впоследствии классическим, деление компьютера на арифметическое устройство, устройство управления и память. Здесь же высказана идея программы, хранимой в памяти. Отделяя теорию от инженерной реализации, Джон фон Нейман берет за основу не электромеханические реле, электронные лампы или линии задержки, представлявшие тогда элементную базу, а теоретические нейроны в том виде, в каком они были введены У. Мак-Каллаком и У. Питтсом в «Логическом исчислении идей, имманентных нервной активности» [288]. Существенным недостатком машин фон Неймана является принципиально низкая производительность, обусловленная последовательным характером организации вычислительного процесса. Наличие одного процессора обусловливает и другой недостаток этих машин — низкую эффективность использования памяти. В самом деле, память однопроцессорных ЭВМ можно представить как длинную последовательность ячеек. Центральный процессор выбирает содержимое одной из них, дешифрирует, исполняет команду и, при необходимости, возвращает результат памяти в заранее обу-
Глава 6. Применение нейрокомпьютеров в системах управления
593
словленную ячейку. Затем обращается к очередной ячейке для считывания следующей команды и процесс повторяется до тех пор, пока не будет выбрана последняя команда исполняемой программы. Нетрудно заметить, что подавляющее большинство ячеек памяти бездействует. Если ввести понятие коэффициента использования аппаратуры как отношение числа одновременно работающих элементов ЭВМ к общему числу этих элементов, то для машин фон Неймана этот коэффициент будет очень маленьким. Машины фон Неймана и нейрокомпьютеры различаются также по принципу взаимодействия структуры машины и решаемой задачи. Для однопроцессорных машин с их «жесткой» структурой разработчику приходится подстраивать алгоритм решения задачи под структуру машины. При использовании нейрокомпьютеров разработчик подстраивает структуру машины под решаемую задачу. 6.6.
МОДЕЛИ ФОРМАЛЬНЫХ НЕЙРОНОВ
В дальнейшем изложении будем говорить о нейронах, нейронных сетях, понимая под этим искусственно созданные технические объекты, принцип работы которых сравним с работой одноименных биологических объектов. Приведем несколько определений. Нейронной сетью (НС) называется динамическая система, состоящая из совокупности связанных между собой по типу узлов направленного графа элементарных процессоров, называемых формальными нейронами, и способная генерировать выходную информацию в ответ на входное воздействие. Нейронная сеть является основной операционной частью нейронных ЭВМ, реализующей алгоритм решения задачи. Формальным нейроном называется элементарный процессор, используемый в узлах нейронной сети. Математическая модель формального нейрона может быть представлена в следующем виде: (6.1) y = ϕ ( ∑ ai xi + x0 ) ,
где y — выходной сигнал нейрона; xi — i-й входной сигнал; ai — вес i-го входа; x0 — начальное состояние нейрона; i = 1, n — номер входа нейрона; n — число входов; ϕ — функция выходного блока нейрона (функция активации). Суммирование в (6.1) идет по параметру i. Выражению (6.1) может быть поставлена в соответствие следующая структурная схема формального нейрона (рис. 6.5). 1 x1
. . .
xn
а0 а1
. . .
аn
а0 x1a1
Σ
g
y f(g)
xnan Ne
Рис. 6.5. Структурная схема формального нейрона
Как видно из рисунка, на блоке Σ осуществляется взвешенное суммирование входных сигналов. Эта сумма подается на блок функционального преобразования
594
Методы современной теории автоматического управления
ϕ ( x ) . Функция, которую реализует этот блок, получила название функции актива-
ции (или функция возбуждения, или переходная функция). Функция активации может быть линейной с насыщением, релейной (пороговой), релейной с зоной нечувствительности, квадратичной, сигмоидальной и т.п. Параметры функций активаций могут быть как фиксированными, так и настраиваемые. Графики некоторых функций активации приведены на рис. 6.6. f(g)
a
б
1
f(g) 1
−2
−1
0
1
2
g −2
−1
в
г
f(g)
−5
−1
0
1
0,5
0,5
5
g
2
g
f(g)
1
0
1
−1
0
−0,5
−0,5
−1
−1
1
g
Рис. 6.6. Виды функции активации: а — пороговая симметричная; б — пороговая смещенная; в — сигмоидальная симметричная; г — линейная с насыщением
Вид функции активации во многом определяет вычислительные возможности нейронной сети, состоящей из формальных нейронов. Основной недостаток модели с пороговым элементом — отсутствие достаточной гибкости при обучении и настройке нейронной сети на заданную задачу. Если значение вычисляемого скалярного произведения xi ⋅ ai даже незначительно не достигает заданного порога, то выходной сигнал не формируется, и нейрон «не срабатывает». Это значит, что теряется интенсивность выходного сигнала (аксона) данного нейрона и, следовательно, формируется невысокое значение уровня на взвешенных входах в следующем слое нейронов. Этого недостатка в большей степени лишена линейная (в общем случае кусочнолинейная) функция активации, реализация которой обеспечивает невысокую вычислительную сложность. Сигмоидальная функция является некоторым компромиссом между линейной и ступенчатой функцией и сохраняет достоинства обеих. По аналогии со ступенчатой функцией, она нелинейна, и это дает возможность выделять в поисковом пространстве исследуемых объектов области сложной формы, в том числе невыпуклые и несвязные. С другой стороны, в отличие от ступенчатой функции, она позволяет переходить от одного значения входного сигнала к другому без разрывов, как это происходит в линейной функции. Однако любую из преобразующих функций активации (возбуждения) необходимо рассматривать как приближенную. Учитывая сложность архитектуры нейросети и трудность настройки ее параметров на решение определен-
Глава 6. Применение нейрокомпьютеров в системах управления
595
ной задачи, необходимо переходить к более гибким произвольным нелинейным функциям. Для повышения эффективности работы нейронной сети разработан класс моделей нейронов, реализующих различные функции активации, которые можно подстраивать под соответствующие задачи. Для реализации произвольной функции активации разработан оригинальный алгоритм обучения в нейронной сети, основанный на генетическом поиске. Описанный вычислительный элемент — формальный нейрон — можно считать упрощенной математической моделью биологических нейронов. Во многих практических задачах входы, веса и смещения могут принимать лишь некоторые фиксированные значения. Синаптические связи с положительными весами называют возбуждающими, с отрицательными весами — тормозящими. Фактически формальный нейрон представляет собой процессор с очень ограниченной специальной системой команд (в литературе принято называть нейросетевой базис). По способу представления информации формальные нейроны могут быть аналоговыми и цифровыми. Они выполняют единообразные вычислительные действия и не требуют внешнего управления. Большое число параллельно работающих вычислительных элементов обеспечивают высокое быстродействие. 6.7.
РАЗНОВИДНОСТИ ТОПОЛОГИЙ НЕЙРОННЫХ СЕТЕЙ
В основу искусственных НС положены следующие особенности биологических нейронных сетей: • простой обрабатывающий элемент — нейрон; • очень большое число нейронов участвует в обработке информации; • один нейрон связан с большим числом других нейронов; • изменяющиеся веса связей между нейронами; • параллельная обработка информации. Графическую иллюстрацию соединения нейронов между собой в сети принято называть топологией. По виду топологии различают однослойные и многослойные сети. В однослойных сетях нейроны могут соединятся либо по принципу каждый с каждым, либо регулярно. В многослойных сетях нейроны группируются по слоям. Классическим является связь нейрона одного слоя с каждым нейроном другого слоя. Внутри слоя нейроны между собой связей не имеют. Два внешних слоя многослойной сети принято называть входным и выходным слоями. Внутренние слои принято называть скрытыми слоями. Число скрытых слоев неограниченно. Известна практика применения также двухслойных сетей, у которых только входной и выходной слои. Работает сеть следующим образом. На нейроны входного слоя подаются входные сигналы (входной вектор ( x1 , x2 ,K , xn ) ), кодирующее входное воздействие или образ внешней среды путем активации нейронов этого слоя. Выходы нейронов выходного слоя являются выходами сети. Множество выходных сигналов y1,K, yk называют вектором выходной активности или паттерном активности нейронной сети. Веса связей нейронов сети удобно представлять в виде матрицы A, где aij — вес связи между i-м и j-м нейронами. В процессе функционирования (эволюции состояний) сети осуществляется преобразование входного вектора в выходной. Конкретный вид выполняемого сетью преобразования информации обуславливается не только характеристиками нейронов, но и особенностями ее архитектуры, т.е. той или иной топологией межнейронных связей, выбором определенных подмножеств входных и выходных нейронов и т.д. На рис. 6.7÷6.11 представлены некоторые варианты топологий нейронных сетей.
596
Методы современной теории автоматического управления
Рис. 6.7. Однослойная ортогональная сеть
Входной слой
Выходной слой
Рис. 6.8. Двухслойная сеть с прямыми связями
Входной слой
Скрытый слой
Выходной слой
Рис. 6.9. Трехслойная сеть с прямыми связями
Рис. 6.10. Нейронная сеть с перекрестными связями [55]
Глава 6. Применение нейрокомпьютеров в системах управления
597
Рис. 6.11. Нейронная сеть с обратными связями
На рис. 6.7 представлена однослойная сеть с ортогональными связями между нейронами. В этой сети любой из нейронов может быть входным и любой может быть выходным. На рис. 6.8 представлена сеть с прямыми связями. Характерной особенностью такой сети является равенство числа входов, выходов и нейронов в каждом из двух слоев сети, а также наличие так называемых латеральных связей между нейронами 1-го и 2-го слоев [55]. На рис. 6.9 показана многослойная, в частности трехслойная сеть. Число скрытых слоев в общем случае может быть несколько. В многослойных сетях, как правило, нейроны одного слоя имеют функцию активации одного типа. На рис. 6.10 представлена нейронная сеть с перекрестными связями. Число связей может быть и больше, чем показано на рисунке. Топологию сети с обратными связями иллюстрирует рис. 6.11. Обратные связи могут быть как с выходного слоя на входной, так и с внутренних (скрытых) слоев на входной. Нетрудно отметить, что при конструировании сети разработчик имеет в качестве исходных данных: • размерность вектора входного сигнала(ов); • размерность вектора выходного сигнала(ов); • формулировку решаемой задачи; • точность решения задачи. При этом разработчик должен выбрать: • тип топологии сети; • общее число нейронов в сети и число нейронов по слоям; • функции активации нейронов; • способ задания коэффициентов синаптической связи; • метод доказательства работоспособности новой сети. В работе А.И. Галушкина [54] разработана методология синтеза многослойных НС, как адаптивных систем определенного вида. Общая задача синтеза топологии многослойных НС в настоящее время не решена. Предлагаются некоторые частные методики. В обычной практике построения нейронных сетей следуют следующим рекомендациям [54]: • число слоев в выходном слое равно числу классов; • все входные сигналы подаются всем нейронам;
598
Методы современной теории автоматического управления
• вариант топологии сети определяется на основе априорных знаний о задаче; • для улучшения характеристик сети используются комбинированные многослойные сети, каждый слой которой представляется различной топологией и обучается по определенному алгоритму. 6.8.
КЛАССИФИКАЦИЯ НЕЙРОННЫХ СЕТЕЙ
Классификация сложных систем, а нейронные сети являются таковыми, всегда проводится по определенному признаку. В предыдущем пункте была приведена классификация нейронных сетей по топологии. Еще ранее (см. п. 6.3) было упомянуто, что нейрокомпьютеры, а следовательно и нейронные сети, могут быть аналоговыми и цифровыми. Кроме этого, нейронные сети классифицируют по способу решения задач. С точки зрения этого признака сети делят на формируемые, сети с формируемой матрицей связи и обучаемые. Формируемые сети. Сети этого класса проектируются для формализуемых задач, имеющих четко сформулированный в нейросетевом базисе алгоритм решения конкретной задачи. Сети с формируемой матрицей связей. Сети этого класса применяются для трудноформализуемых задач. Как правило, эти сети имеют одинаковую структуру и различаются лишь матрицей связи. Примером таких сетей является сеть Хопфилда. Достоинством таких сетей является их наглядность в работе [58]. Обучаемые сети. Этот класс сетей используют для решения неформализуемых задач. В процессе обучения сети автоматически изменяются такие ее параметры, как коэффициенты синаптической связи, а в некоторых случаях и топология. Серьезным препятствием в широком применении нейрокомпьютеров все еще остается большое время обучения сети. Поэтому выбор или разработка алгоритма обучения является ключевой задачей разработчика нейронных систем. Для сетей с формируемой матрицей связи и обучаемых характерным является процедура обучения. Рассмотрим принцип этой процедуры. Обучение нейронных сетей. В процессе функционирования нейронная сеть формирует выходной сигнал Y в соответствии с входным сигналом X, реализуя некоторую функцию g : Y = g ( X ) . Если архитектура сети задана, то вид функции g определяется значениями весов связей (синаптических весов) между нейронами wij и смещений нейронов в сети ( b ). Обозначим буквой G множество всех возможных функций g , соответствующих заданной архитектуре сети. Пусть решение некоторой задачи — функция F : Y = F ( X ) , заданная парами входных и выходных данных
( x1 , y1 ) , ( x2 , y2 ) ,K , ( xm , ym ) ,
( )
для которых y j = F x j , j = 1, m, и пусть E — функ-
ция ошибки, показывающая для каждой из функций g степень близости к F . Решить поставленную задачу с помощью нейронной сети заданной архитектуры — это значит построить (синтезировать) функцию, подобрав параметры нейронов (синаптические веса и смещения) таким образом, чтобы функционал качества являлся оптимальным для всех пар ( xm , ym ) . Задача обучения определяется совокупностью пяти элементов: < X, Y, G, F , E >, где X и Y — вход и выход нейронной сети соответственно; F — функция, определяющая желаемый результат обучения (в задаче обучения по примерам функция F задается парами входных и выходных данных: ( x1 , y1 ) , ( x2 , y2 ) ,K , ( xm , ym ) , для ко-
( )
торых y j = F x j , j = 1, m, при этом архитектура связей нейронной сети считается
Глава 6. Применение нейрокомпьютеров в системах управления
599
заданной до начала обучения и определяет множество функций G ); E — функция ошибки, показывающая для каждого входного вектора степень близости реализуемой функции к F . Обучение состоит в поиске (синтезе) функции F , оптимальной по E. Обучение — это итерационная процедура, причем на каждой итерации происходит уменьшение значения функции ошибки E до заранее заданной величины. В общем случае такая задача при ограниченном наборе входных данных имеет бесконечное множество решений. Таким образом, результатом обучения нейронной сети должно явиться отображение F : X → Y, (6.2) которое на каждый возможный входной сигнал формирует правильный выходной сигнал Y; если используется единственный выход сети, то Y является скаляром. Отображение задается конечным набором пар «вход–известный выход». Число таких пар (обучающих примеров) существенно меньше общего числа возможных сочетаний значений входных и выходных сигналов. Совокупность всех обучающих примеров носит название обучающей выборки. В результате построения отображения необходимо добиться того, чтобы: 1) обеспечивалось формирование правильных выходных сигналов в соответствии со всеми примерами обучающей выборки; 2) обеспечивалось формирование правильных выходных сигналов в соответствии со всеми возможными входными сигналами, которые не вошли в обучающую выборку. Второе требование связано с необходимостью реализации процедуры предсказания значения выхода в зависимости от входного сигнала. Иными словами, необходимо построить такое отображение (6.2), реализуемое нейронной сетью, которое при подаче входного вектора X на выходе сети определяло бы значение одного или нескольких правильных выходных сигналов. Решение этой задачи в значительной степени зависит от качества обучающей выборки. Формализация процедуры формирования обучающей выборки в общем виде в настоящее время не решена [55] и требует дальнейшей проработки. Задача построения отображения (6.2) опирается на известную теорему А.Н. Колмогорова [105] о представлении непрерывных функций нескольких переменных в виде суперпозиции непрерывных функций одного переменного и операции сложения, обобщенную затем Хехт–Нильсеном [268] применительно к нейронным сетям. Основной результат этого обобщения — возможность реализации произвольной функции f ( x1, x2 ,K, xn ) нейронной сетью. В монографии [268] показано, что для любого множества пар
(X
k
)
, yk , где yk — скаляр, существует двухслойная однородная
(с одинаковыми функциями активации каждого нейрона) нейронная сеть первого порядка с последовательными связями и с конечным числом нейронов, которая выполняет отображение X → Y, выдавая на каждый входной сигнал X k правильный выходной сигнал yk . Таким образом, уже с помощью даже двухслойной нейронной сети отображение (6.2) может быть построено. Однако теорема Хехт–Нильсена не конструктивна, это лишь теорема существования, в ней не заложена методика определения числа нейронов в сети для некоторой конкретной обучающей выборки. Для первоначальной оценки числа нейронов в скрытых слоях однородных нейронных сетей часто используется формула для оценки необходимого числа синаптических весов Nw в многослойной сети, выведенная в [300]: NyNp ⎛ Np ⎞ ≤ Nw ≤ N y ⎜ + 1⎟ ( N x + N y + 1) + N y , 1 + log 2 ( N p ) ⎝ Nx ⎠
600
Методы современной теории автоматического управления
где N y — размерность выходного сигнала; N p — число элементов обучающей выборки; N x — размерность входного сигнала. Оценив N w , можно рассчитать число нейронов в скрытых слоях. 6.9.
СИНТЕЗ ФОРМИРУЕМЫХ СЕТЕЙ
Как уже отмечалось, формируемые сети эффективны при решении тех задач, для которых имеется хорошо сформулированный в нейросетевом базисе алгоритм решения. Вычислительная математика специализируется на разработке таких методов решения задач, которые могут быть реализованы на ЭВМ. Базисными командами практически для любого класса ЦВМ являются арифметические команды: сложение, вычитание, умножение, деление. Поскольку нейросетевой базис представляет собой операцию нелинейного преобразования взвешенной суммы, то естественно предположить об эффективности реализации методов вычислительной математики при решении задач управления динамическими объектами. В теории и практике систем управления для повышения качества проектируемых технических устройств широко используются блоки аппаратного и/или программного интегрирования и дифференцирования сигналов, блоки аппаратной и/или программной аппроксимации функций, блоки решения систем алгебраических линейных или нелинейных уравнений. Так, например, в системах бесплатформенной инерциальной навигации и ориентации принципиально необходимо интегрировать кинематические уравнения по данным, получаемым с датчиков угловой скорости и датчиков линейного ускорения (акселерометров). Это интегрирование ложится на бортовую УЦВМ. Кроме того, в таких системах УЦВМ должна решать задачу преобразования координат, а эта задача всегда связана с вычислением тригонометрических и обратных тригонометрических функций. Таким образом, общая размерность решаемой УЦВМ системы уравнений для обеспечения качественного управления полетом доходит в отдельных случаях до 100÷120. Следует особо выделить тот факт, что в настоящее время специалисты по системам управления разрабатывают новые методы анализа, синтеза систем, ориентированные на программно-аппаратную реализацию на ЦВМ. К таким методам можно отнести спектральные методы [137]. Реализация этих методов в общем случае предполагает применение операций над матрицами, которые, в свою очередь, сводятся к арифметическим. Размерность матриц при описании современных систем управления, как правило, очень большая. Это открывает широкий фронт для исследования возможности реализации спектральных методов в нейросетевом базисе. Далее рассматриваются методы синтеза нейронных сетей для решения нормальных систем дифференциальных уравнений и аппроксимации элементарных функций. Синтез нейронной сети для решения нормальной системы дифференциальных уравнений. В соответствии с выражением (6.1) нейросетевой базис представляет собой операцию взвешенного суммирования нескольких входных сигналов с последующим преобразованием этой суммы посредством функцией активации формального нейрона, которая может быть как линейной, так и нелинейной. Рассмотрим, в какой мере численные методы решения дифференциальных уравнений могут удовлетворять нейросетевому базису, какую при этом необходимо иметь функцию активации, какова будет топология нейронной сети. Не уменьшая общности рассуждений, с целью упрощения выкладок, рассмотрим вначале случай стационарной системы, а затем распространим полученные результаты на случай нестационарных систем. Пусть задана нормальная система n дифференциальных уравнений первого порядка (6.3) Y ′ ( t ) = AY ( t ) ,
Глава 6. Применение нейрокомпьютеров в системах управления
601
где A — квадратная ( n × n )-матрица постоянных коэффициентов; Y — n -мерный вектор искомой функции аргумента t. Хорошо известны различные варианты аналитического решения системы (6.3), определяемые видом корней характеристического уравнения. Именно наличие вариантов и затрудняет разработку единого метода решения произвольной системы. Поэтому реализацию аналитических решений системы (6.3) в нейросетевом базисе пока рассматривать не будем. Обобщенное решение системы (6.3) численными методами Рунге–Кутта можно представить в следующем виде [138]: Yi +1 = exp ( hA ) Yi , (6.4) где h — шаг интегрирования, а i — его номер. Элементы матричной экспоненты exp ( hA ) суть постоянные коэффициенты. Произведение вектора Yi на разложение этой экспоненты в степенной ряд есть не что иное, как взвешенное суммирование. Поэтому итерационный процесс (6.4) полностью удовлетворяет требованиям нейросетевого базиса. Удерживая в разложении экспоненты два, три, четыре и более членов (включая единицу), можно получить нейросетевую реализацию решения системы (6.3) методами Рунге–Кутта первого, второго, третьего и более порядков аппроксимации. Реализация процесса численного интегрирования (6.4) будет возможна в том случае, если нейронная сеть будет синхронной, а функции активации нейронов — ли-
(
)
нейными. Элементы матрицы A a jk , j , k = 1, n определяют связь между компонентами вектора Y ( y1, y2 , y3 , y4 ) в прямом направлении (от y1 к y2 — a12 , от y1 к y3 — a13 и т.д.), в обратном (от y2 к y1 — a21 и т.д.) и самого компонента на себя (элементы главной диагонали матрицы A ). Поэтому для нейросетевой реализации необходимо, чтобы нейроны в слое, реализующем интегрирование по формуле (6.4), соединялись бы между собой по принципу «каждый с каждым», включая связь с выхода нейрона на свой же вход. Далее, поскольку размерность вектора искомой функции Y не зависит от используемого численного метода, то число нейронов, необходимых для интегрирования системы (6.3), в соответствии с выражением (6.4), определяется размерностью вектора Y (в нашем случае — n ). Рассмотрим конкретные примеры. Решение системы (6.3) методом прямоугольников (метод Рунге–Кутта 1-го порядка аппроксимации) представляется в виде [181] Yi +1 = Yi + hAYi . Представим последнее равенство в следующем виде: Yi +1 = ( E + hA ) Yi = B1Yi , (6.5) где E — единичная ( n × n )-матрица. Элементы матрицы B1 = E + Ah — первые два члена разложения матричной экс-
поненты exp ( hA ) в степенной ряд. Для системы двух уравнений выражение (6.5) принимает вид
y1i +1 = b11 y1i + b12 y2i = y1i (1 + ha11 ) + ha12 y2i ;
(6.6) y2i +1 = b21 y1i + b22 y2i = y1i ha21 + (1 + ha22 ) y2i . Уравнения (6.6) содержат лишь операции взвешенного суммирования. На рис. 6.12 представлена схема соединения нейронов, реализующая алгоритм (6.6). На этом рисунке Ne1, Ne2 — нейроны, участвующие в операции интегрирования. Для системы трех уравнений ( n = 3 ) выражение (6.5) принимает вид
602
Методы современной теории автоматического управления y1i +1 = b11 y1i + b12 y2i + b13 y3i = (1 + ha11 ) y1i + ha12 y2i + ha13 y3i ; y2i +1 = b21 y1i + b22 y2i + b23 y3i = ha21 y1i + (1 + ha22 ) y2i + ha23 y3i ;
(6.7)
y3i +1 = b31 y1i + b32 y2i + b33 y3i = ha31 y1i + ha32 y2i + (1 + ha33 ) y3i .
Как и в случае системы двух уравнений, в алгоритме (6.7) присутствуют лишь операции взвешенного суммирования, следовательно и он тоже удовлетворяет нейросетевому базису. На рис. 6.13 показана схема соединения нейронов для решения системы трех уравнений методом прямоугольников. Очевидно, что выражения, подобные (6.6) и (6.7), можно получить для системы с любым числом уравнений. Нетрудно заметить, что при нулевых a31 , a32 , a33 , a23 , a13 выражение (6.7) переходит в выражение (6.6), а следовательно, и схема на рис. 6.13 переходит в схему на рис. 6.12.
Рис. 6.12. Схема решения системы двух Рис. 6.13. Схема соединения нейронов для дифференциальных уравнений общего вида решения системы трех дифференциальных методом прямоугольников уравнений общего вида методом прямоугольников
Рассмотрим решение системы (6.3) численным методом Рунге–Кутта 2-го порядка аппроксимации (метод трапеции). В этом случае общее решение имеет вид [181] Yi +1 = Yi + 0,5h ( K1 + K2 ) ; (6.8) K1 = AYi ; K2 = A ( Yi + hK1) . Подставим выражения для K1 и K2 в первое уравнение (6.8) и после несложных преобразований получим
(
)
Yi +1 = B 2 Yi = E + hA + 0,5h 2 A 2 Yi .
(
)
(6.9)
Элементы матрицы B 2 = E + hA + 0,5h 2 A 2 , как и элементы матрицы B1 , удовлетворяют нейросетевому базису, а сама матрица определяет топологию нейронной сети для решения системы (6.3) рассматриваемым методом. Так, например, схема соедине-
Глава 6. Применение нейрокомпьютеров в системах управления
603
ния нейронов для решения систем двух уравнений методом Рунге–Кутта 2-го порядка аппроксимации будет точно такой же, как и схема, приведенная на рис. 6.12. Изменятся лишь коэффициенты синаптических связей. Например, коэффициент 1 + ha11 в случае метода прямоугольников (рис. 6.12) изменится на 1 + ha11 + 0,5 ( ha11 ) + 0,5h 2 a12 a21 в 2
случае применения метода второго порядка. Аналогичным образом изменятся и другие коэффициенты. Нетрудно заметить, что число нейронов, необходимых для решения конкретной системы, и в этом случае будет равно размерности этой системы. Решение системы (6.3) методом Рунге–Кутта 3-го порядка аппроксимации в общем случае будет иметь вид [181]: Yi +1 = Yi + 1 6 ( K1 + 4K2 + K3 ) ; (6.10) K1 = AYi ; K2 = A ( Yi + 0,5hK1) ; K3 = A ( Yi − hK1 + 2hK2 ) . После подстановки выражений K1, K2, K3 в первое уравнение (6.10) и соответствующих преобразований получим
(
)
Yi +1 = B3 Yi = E + hA + 0,5h 2 A 2 + 1 6 h3 A3 Yi .
(6.11)
Аналогичные рассуждения и преобразования для метода Рунге–Кутта 4-го порядка аппроксимации дают следующий результат: 1 1 1 ⎛ ⎞ (6.12) Yi +1 = B 4 Yi = ⎜ E + hA + h 2 A 2 + h3 A3 + h 4 A 4 ⎟ Yi . 2 6 24 ⎝ ⎠ Очевидно, что в выражениях (6.5), (6.9), (6.11), (6.12) матрицы B1 , B2 , B3 и B 4 представляют собой ряд разложения матричной экспоненты аргумента hA, ограниченный до 2-х, 3-х, 4-х и 5-ти членов соответственно. Следовательно, решение системы (6.3) методом Рунге–Кутта в общем виде можно представить как Yi +1 = exp ( hA ) Yi ≈ B k Yi , (6.13) где k — порядок метода интегрирования. Как и для методов первого и второго порядков, элементы матриц B3 и B 4 полностью удовлетворяют нейросетевому базису и определяют схему решения системы (6.4). Выражение (6.13) делает возможным построения нейросетей, интегрирующих систему (6.3) с любой, наперед заданной, точностью. Анализируя особенности матриц B k в выражениях (6.5), (6.9), (6.10), (6.12), можно сделать вывод, что точность решения системы (6.3) в нейронных сетях будет определяться точностью установки коэффициентов синаптической связи, а не числом используемых нейронов. В случае нестационарных систем элементы матрицы A являются в общем случае произвольными функциями аргумента t и не существуют аналитические выражения решений таких систем. Однако богатейшая практика моделирования и разработки различных сложных объектов, процессов, систем управления показывает, что решение нестационарных систем численными методами, в том числе и методами Рунге–Кутта, дает вполне приемлемые результаты. При разработке алгоритмов решения таких систем предполагают, что элементы матрицы A не меняют своего значения в пределах шага интегрирования. Следовательно, можно применять формулы (6.5), (6.9), (6.10), (6.12) и в случае нестационарных систем. Высокая точность решения будет достигаться, если скорость изменения элементов матрицы A будет хотя бы на порядок ниже скорости изменения искомой функции Y (требования гладкости компонентов матрицы A и удовлетворения условию Липшица [138]). Применение степенных рядов для синтеза формируемых нейронных сетей. Степенные ряды имеют огромное значение при конструировании алгоритмов УЦВМ. Воспроизведение элементарных функций, аналитических нелинейностей произво-
604
Методы современной теории автоматического управления
дится в вычислительной технике с помощью степенных рядов. Поэтому актуальность постановки задачи о реализации вычислительных алгоритмов на базе степенных рядов в нейронных сетях несомненна. Рассмотрим, в какой мере степенные ряды могут удовлетворять требованиям нейросетевого базиса. Попытаемся также дать ответы на вопросы: какие функции активации должны иметь нейроны для успешной реализации алгоритмов, основанных на степенных рядах; какова должна быть топология сети, реализующей эти алгоритмы. По определению степенным рядом называется функциональный ряд вида [44]: a0 + a1 ( x − c ) + a2 ( x − c ) + a3 ( x − c ) + K + an −1 ( x − c ) 2
3
n −1
+ an ( x − c ) + K , n
(6.14)
где коэффициенты ряда ai ( i = 0,1, 2, 3,K) и c суть некоторые постоянные числа. Частичная сумма ряда (6.14), определенная для n его членов с заранее известным методом задания коэффициентов ai , применяется для приближенного вычисления аналитически нелинейных функций. Тому примеры — ряды Тейлора и Маклорена. Хорошо известна методология применения этих рядов для приближения функций. Существенным ограничением на класс функций, приближенное значение которых определяется с помощью рядов Тейлора или Маклорена, является требование непрерывности производных этих функций до n + 1 порядка. Это ограничение не уменьшает значимости решения поставленной задачи. Не снижая общности рассуждений, а лишь экономя место, рассмотрим разложение функции f ( x ) в ряд Маклорена: x 2 f ′′ ( 0 ) xn f ( ) ( 0) +K+ +K. (6.15) 2! n! Задаваясь требуемой точностью вычисления f ( x ) , ограничивают ряд (6.15) коf ( x ) = f ( 0) + x f ′( 0) +
n
нечным числом членов n. На практике для многих известных элементарных функций высокая точность достигается уже при n = 5 ÷ 7. Выражение (6.15) является основой для получения ответов на поставленные выше вопросы. Покажем это на примере. Пусть для конкретности n = 5. Введем обозначения: a0 = f ( 0 ) , a1 = f ′ ( 0 ) , a2 = f ′′ ( 0 ) , a3 = f ′′′ ( 0 ) , a4 = f IV ( 0 ) , a5 = f V ( 0 ) . В этом случае можно записать f ( x ) ≈ a0 + a1 x + a2 x 2 + a3 x3 + a4 x 4 + a5 x5 . (6.16) Нетрудно заметить, что приближенное равенство (6.16) есть взвешенная сумма степеней аргумента искомой функции. Следовательно, в идеальном случае для реализации этого выражения на нейронной сети необходимы нейроны с линейной, квадратичной, кубичной и т.д. функциями активации. В этом (идеальном) случае топология нейронной сети может быть определена как однослойная, двухслойная, трехслойная и т.д. Рассмотрим для конкретности случай двухслойной сети. Тогда аргумент искомой функции должен подаваться на пять нейронов входного слоя. Функции активации этих нейронов являются соответственно линейной, квадратичной, кубичной, параболами 4-й и 5-й степеней. Выходные сигналы нейронов первого слоя через коэффициенты синаптической связи, равные a1 , a2 , a3 , a4 , a5 , поступают на единственный нейрон выходного слоя. На сумматор этого нейрона поступает также сигнал, эквивалентный 1. Сигнал с сумматора нейрона выходного слоя и есть искомое значение f ( x ) . Для того чтобы это значение не претерпело дальнейших искажений, функция активации нейрона выходного слоя должна быть линейной.
Глава 6. Применение нейрокомпьютеров в системах управления
605
Уравнение такой сети может быть записано в виде f ( x ) = ϕ12 ( a0 + ∑ ai ϕi1 ( x ) ) ,
(
(6.17)
)
где суммирование ведется по i i = 1,5 , а ϕ11 — линейная функция активации нейрона, ϕ21 — квадратичная, ϕ31 — кубичная и т.д. Вторая цифра индекса при ϕ указывает на номер слоя. На рис. 6.14 представлена идеальная нейронная сеть, реализующая степенной ряд Маклорена, имеющего шесть членов (включая a0 ), и описываемая уравнением (6.17).
Рис. 6.14. Идеальная нейронная сеть ряда Маклорена, содержащего 6 членов
Однако на сегодня разработчик ограничен в выборе функций активаций нейронов. В лучшем случае он имеет возможность применять линейную, квадратичную и кубичную функции. Покажем, что и в этом случае возможно решение поставленных задач. Пусть мы имеем возможность использовать лишь линейную и квадратичную функции активации. Перепишем (6.16) в виде f ( x ) ≈ a0 + a1 x + a2 x 2 + a3
(( x ) ( x )) + a ( x ) 2
4
2 2
+ a5
((( x ) ( x )) ( x )). 2
2
(6.18)
606
Методы современной теории автоматического управления
В последнем выражении введена следующая условность: члены взвешенного суммирования, не имеющие скобок, реализуются в одном слое на нейронах, имеющих линейную или квадратичную функции активации; члены, имеющие скобки, реализуются через операцию умножения переменных по нейросетевому алгоритму. Как видно из выражения (6.18), для реализации x 5 необходимо дважды применить операцию нейросетевого умножения. Нейросетевой алгоритм операции умножения двух переменных рассмотрен в [70]. Идея метода может быть пояснена следующим выражением:
(
)
z = x ⋅ y = 0, 25 ( x + y ) − ( x − y ) , 2
2
(6.19)
здесь x, y — переменные-сомножители, а z — их произведение. Применяя принятые выше обозначения, запишем уравнение двухслойной сети, реализующей выражение (6.19) z = ϕ121 ( ϕ211 ( 0,5 x + 0,5 y ) − ϕ212 ( 0,5 x − 0,5 y ) ) ; здесь три цифры индекса при ϕ означают: вид функции, номер слоя, номер нейрона в слое соответственно. В соответствии с этим выражением два нейрона первого слоя имеют квадратичную функцию активации, а один нейрон второго слоя — линейную. Коэффициенты синаптических связей нейронов первого слоя равны 0,5; 0,5; 0,5; –0,5 соответственно для первого и второго нейронов, а нейрона второго слоя 1 и –1. На рис. 6.15 приведена схема соединения нейронов для реализации операции умножения двух переменных. Рассмотрим реализацию в нейросетевом базисе получения третьей, четвертой и пятой степеней аргумента (четвертый, пятый и шестой слагаемые в (6.18)). Уравнение возведения аргумента в третью степень в нейросетевом базисе имеет вид 2 2 x3 = x 2 ( x ) = ϕ1 ⎛⎜1 ⋅ 0,5 x 2 + 0,5 x − 1 ⋅ 0,5 x 2 − 0,5 x ⎞⎟ . ⎝ ⎠
( )
X
Y
(
0.5
)
(
)
Ne211
Ne121
0.5
ϕ2 Ne212
1 Z -1
0.5
ϕ
- 0.5
ϕ2 1-й слой
2-й слой
Рис. 6.15. Топология нейронной сети для реализации операции умножения двух переменных
Глава 6. Применение нейрокомпьютеров в системах управления
607
Преобразуем в нейросетевой базис внутренние скобки последнего выражения и введем индексацию для функций активации нейронов тройными индексами. После преобразований получим
(
(
)
(
x3 = ϕ131 1 ⋅ ϕ221 0,5 x 2 + 0,5 x − 1 ⋅ ϕ222 0,5 x 2 − 0,5 x
(
(
)) =
)
= ϕ131 1 ⋅ ϕ221 0,5 ⋅ ϕ211 (1 ⋅ ( x ) ) + 0,5 ⋅ ϕ112 (1 ⋅ ( x ) ) −
))
(
(6.20)
−1 ⋅ ϕ222 0,5 ⋅ ϕ211 (1 ⋅ ( x ) ) − 0,5 ⋅ ϕ112 (1 ⋅ ( x ) ) .
В выражении (6.20) принята следующая индексация при обозначении функции активации нейронов: первая цифра индекса означает тип функции (1 — линейная, 2 — квадратичная), вторая цифра означает номер слоя, в котором находится нейрон с этой функцией, третья цифра — порядковый номер нейрона в слое. Таким образом, для получения куба аргумента необходима трехслойная сеть, у которой в первом слое будут два нейрона с функциями активации ϕ1 и ϕ2 , во втором слое будут два нейрона с функциями ϕ2 , в третьем — один нейрон с функцией ϕ1. Коэффициенты синаптической связи у нейронов первого слоя будут равны 1, у нейронов второго слоя 0,5 и 0,5 для первого нейрона, 0,5 и –0,5 для второго, у нейрона третьего слоя 1 и –1. На рис. 6.16 приведена схема соединения нейронов для возведения аргумента в куб. Если разработчик имеет возможность применять сеть, которая позволяет вводить входные данные и в первый, и во второй слои, то схему на рис. 6.16 можно упростить, исключив в первом слое нейрон Ne112 с функцией активации ϕ1.
Рис. 6.16. Топология нейронной сети для возведения аргумента в куб
Получим выражение и синтезируем по нему схему соединения нейронов для вычисления четвертой степени аргумента (пятый член в (6.18))
( )
x4 = x2
2
( ( )) = ϕ
= ϕ22 1 ⋅ x 2
22
(1⋅ ϕ21 ( x ) ).
(6.21)
Для реализации этого выражения необходима двухслойная сеть, в каждом из которых будет по одному нейрону с функцией активации типа ϕ2 . На рис. 6.17 приведена схема соединения нейронов, реализующая (6.21). Выражение для возведения аргумента в пятую степень в нейросетевом базисе может быть записано в следующем виде (шестой член в правой части равенства (6.19)): x5 = ( x ) ( x ) = 3
2
(( x ) ( x )) ( x ) = ϕ (1⋅ ϕ ( 0,5x 2
2
1
2
3
)
(
))
+ 0,5 x 2 − 1⋅ ϕ2 0,5 x3 − 0,5 x 2 .
608
Методы современной теории автоматического управления
Рис. 6.17. Топология нейронной сети для возведения аргумента в четвертую степень
Раскрывая внутренние скобки последнего равенства в нейросетевом базисе и вводя трехзначные индексы, получим
(
(
(
(
)
))
(
)
x5 = ϕ151 1⋅ϕ241 0,5 ⋅ ϕ131 1⋅ ϕ221 0,5x2 + 0,5x − 1⋅ ϕ222 0,5x2 − 0,5x − 0,5 ⋅ ϕ232 ( x ) −
(
(
(
)
))
))
(
−1⋅ ϕ242 0,5 ⋅ ϕ131 1⋅ ϕ221 0,5x2 + 0,5x − 1⋅ϕ222 0,5x2 − 0,5x − 0,5 ⋅ ϕ232 ( x ) =
(
(
(
= ϕ151 1⋅ϕ241 0,5 ⋅ ϕ131 1⋅ϕ221 ( 0,5 ⋅ϕ211 ( x ) + 0,5 ⋅ϕ112 ( x ) ) −
(6.22)
)
−1⋅ ϕ222 ( 0,5 ⋅ ϕ211 ( x ) − 0,5 ⋅ ϕ112 ( x ) ) + 0,5 ⋅ ϕ232 ( x ) −
(
(
− 1⋅ ϕ242 0,5 ⋅ϕ131 1⋅ϕ221 ( 0,5 ⋅ ϕ211 ( x ) + 0,5 ⋅ϕ112 ( x ) ) −
))
−1⋅ ϕ222 ( 0,5 ⋅ ϕ211 ( x ) − 0,5 ⋅ ϕ112 ( x ) ) + 0,5 ⋅ϕ232 ( x ) .
Этому выражению соответствует схема соединения нейронов, приведенная на рис. 6.18. Как видно из (6.22) и рисунка, для возведения аргумента в пятую степень необходима пятислойная сеть. В схему на рис. 6.18 искусственно введен нейрон Ne123. Это сделано в предположении, что разработчик имеет возможность осуществлять связь нейронов первого слоя с нейронами третьего, минуя второй. Если такую связь осуществлять представляется возможным, то схему можно упростить, исключив не только нейрон Ne123, но и Ne232. X
Ne211
2
Ne221 0.5
X 1
ϕ2
0.5
Ne112
0.5
ϕ2 Ne222
Ne131 1 -1
X
3
0.5
ϕ1
1
ϕ1
-0.5
0.5
ϕ2
Ne241
ϕ2 1
0.5 Ne123 X
1
-0.5
1
ϕ1 11-й - й слой слой
Ne232
22-й - й слой слой
ϕ2 3-й слой слой 3-й
X
Ne242
-1
Ne151 X
5
ϕ1
ϕ2
2
слой 4-й4-й слой
5-й 5-йслой слой
Рис. 6.18. Топология нейронной сети для возведения аргумента в пятую степень
Итак, синтезированы схемы для составляющих уравнения (6.18), степень при аргументе x которых превышает 2. Что же касается второго и третьего членов уравне-
Глава 6. Применение нейрокомпьютеров в системах управления
609
ния (6.18), то для их реализации необходимо по одному нейрону с функциями активации ϕ1 и ϕ2 соответственно. Постоянный коэффициент a0 можно учесть в нейроне последнего слоя в виде коэффициента синаптической связи входа, на который подают сигнал, равный 1. Таким образом, вся подготовительная работа по синтезу схемы по уравнению (6.18) проведена. Полная схема нейронной сети, реализующей ряд Маклорена, может быть получена объединением схем 6.15÷6.17 с добавлением к ним двух нейронов для реализации второго и третьего слагаемых (6.18). Выходы x, x 2 , x3 , x 4 , x5 , а также постоянный сигнал «1» необходимо подать на входы нейрона шестого слоя с коэффициентами синаптической связи a1 , a2 , a3 , a4 , a5 , a0 соответственно. Полная схема нейронной сети для реализации ряда Маклорена на шесть членов представлена на рис. 6.19. X
Ne1
0.5
ϕ1
0.5
Ne3
1
Ne2
0.5
ϕ2 Ne4
1
Ne6
0.5 0.5
-1
ϕ
Ne7
ϕ2
1
Ne9
1
1
ϕ
-0.5 2
ϕ
0.5
Ne8
2
-0.5
-1
ϕ1
ϕ2
X
X4
Ne5 1
X3
ϕ2
X X 1
1-йслой слой 1-й
2-й слой 2-й слой
5
3-й 3-й слой слой
4-й слой слой 4-й
5-й слой слой 5-й
2
a5
Ne10
a4 a3
Y
a2 a1 a 0 ϕ1
6-й слой слой 6-й
Рис. 6.19. Топология нейронной сети для реализации ряда Маклорена на шесть членов
Предложенная сеть является в некотором роде универсальной, так как может применяться для вычисления любой функции, разложенной в ряд Маклорена до шести членов. С различием функций меняются лишь коэффициенты синаптической связи ai . Легко видеть, что предлагаемая топология сети не является единственной. Можно рассматривать сеть и с большим числом слоев, и с иным числом нейронов в слоях. Все будет определяться опытом разработчика и его реальными условиями. Пример 6.1. Схема, приведенная на рис. 6.19, была испытана на функциях sin и cos на имитаторе нейронных сетей NeuroIterator, разработанном в КФ МГТУ им. Н.Э. Баумана [243]. Коэффициенты синаптической связи в этом случае имеют следующие значения: • для функции sin — a0 = 0; a1 = 1; a2 = 0; a3 = − 0,16667; a4 = 0; a5 = 0,00833; •
для функции cos — a0 = 1; a1 = 0; a2 = − 0,5; a3 = 0; a4 = 0,04667; a5 = 0.
Диапазон изменения аргумента был взят от –1,8 до +1,8 рад. Для этого диапазона была получена точность в 1,1%. Следует подчеркнуть, что на практике используют разложение функций sin и cos в ряд Тейлора для диапазона от − π 4 до + π 4. В этом случае ряд имеет хорошую скорость сходимости. Если же практический диапазон изменения аргумента превышает ±1 рад, то для повышения точности при минимальных аппаратных (или программных) затратах необходимо привести представляемый угол к диапазону ± π 4, а затем уже вычислять тригонометрические функции. На практике очень часто приходится учитывать ортогональную связь функций sin и cos: sin 2 ( x ) + cos2 ( x ) = 1.
Нетрудно заметить, что в этом случае резко возрастает нагрузка на УЦВМ.
610
Методы современной теории автоматического управления
Итак, применение степенных рядов для проектирования нейросетевых алгоритмов вычисления простейших функций встречает такие же трудности, как и при реализации этих функций на машинах с фоннеймановской архитектурой. 6.10. СЕТЬ ХОПФИЛДА
В сетях с формируемой матрицей связей весовые коэффициенты рассчитываются только однажды перед началом функционирования сети на основе информации об обрабатываемых данных, и все обучение сети сводится именно к этому расчету. Из сетей с подобной логикой работы наиболее известны сеть Хопфилда, вероятностная сеть (машина Больцмана), которые обычно используются для организации ассоциативной памяти. Далее речь пойдет именно о них. Структурная схема сети Хопфилда приведена на рис. 6.20. Она состоит из единственного слоя нейронов, число которых является одновременно числом входов и выходов сети. Каждый нейрон связан со всеми остальными нейронами, а также имеет один вход, через который осуществляется ввод сигнала. Выходы
…
n1
n2
…
nN
Входы
Рис. 6.20. Сеть Хопфилда
В сети Хопфилда нейроны принимают решения асинхронно, связь между нейронами осуществляется мгновенно, все связи симметричны, т.е. wij = w ji . При этих ограничениях все возможные состояния сети образуют некое подобие холмистой поверхности, а текущее состояние сети аналогично поведению тяжелого шарика, пущенного на эту поверхность: он движется вниз по склону в ближайший «локальный минимум». Каждая точка поверхности соответствует некоторому сочетанию активностей нейронов в сети, а высота подъема поверхности в данной точке характеризует «энергию» этого сочетания. Энергия может быть представлена следующим образом: (6.23) E = − ∑ wij xi x j = min i≠ j
и интерпретируется как некоторая обобщенная энергия [62]. Если связь между какими-то нейронами имеет большой положительный вес, то сочетания, в которых эти нейроны активны, характеризуются низким уровнем энергии — именно к таким сочетаниям будет стремиться вся сеть. И наоборот, нейроны с отрицательной связью при активизации добавляют к энергии сети большую величину, поэтому сеть стремится избегать подобных состояний. Такая интерпретация берет начало от известной модели Изинга, в которой совокупность взаимодействующих магнитных диполей (спинов) стремится занять такое положение, в котором суммарная энергия будет минимальна. Модель Хопфилда обобщает модель Изинга в двух отношениях:
Глава 6. Применение нейрокомпьютеров в системах управления
611
• коэффициенты связей могут принимать любые значения, как положительные, так и отрицательные; • эти значения не являются фиксированными и могут изменяться в процессе обучения. Чтобы обучить сеть, необходимо сформировать соответствующий профиль энергетической поверхности (рис. 6.21), т.е. выбрать веса таким образом, чтобы при фиксировании каждого входного вектора сеть приходила к энергетическому минимуму, соответствующему нужному выходному вектору. Важнейшее свойство такой сети состоит в том, что одна и та же сеть с одними и теми же весами связей может хранить и воспроизводить несколько различных эталонов. Каждый эталон является аттрактором [62], вокруг которого существует область притяжения. Любая система с несколькими аттракторами, к которым она тяготеет, может рассматриваться как содержательно адресуемая память, т.е. как ассоциативная память. Если системе задается некоторое начальное состояние, отличное от эталонного, то это равносильно заданию частичной информации об эталоне. Если начальное состояние близко к эталону и попадает в область его притяжения, то система начинает двигаться к этому эталону — «вспоминает» его. Это можно представить как процесс восстановления неверно заданных или отсутствующих признаков эталонного образа, восстановление полной информации о нем. Если одним из признаков, предъявлявшихся при обучении, является имя класса, то его восстановление будет равносильно отнесению образа к определенному классу, т.е. распознаванию. Алгоритм обучения сети Хопфилда основывается на правиле Хебба. Для сети Хопфилда, представляемой в виде ассоциативной памяти, задача обучения формулируется следующим образом. Известен некоторый набор двоичных сигналов (изображений, оцифровки звука, данных, описывающих некоторые объекты или характеристики процессов), которые считаются образцовыми. Сеть должна уметь из произвольного неидеального сигнала, поданного на ее вход, выделить («вспомнить» по частичной информации) соответствующий образец (если такой есть) или «дать заключение» о том, что входные данные не соответствуют ни одному из образ-
{
}
цов. В общем случае любой сигнал может быть описан вектором X = xi : i = 0, n − 1 , где n — число нейронов в сети и соответственно размерность входных и выходных векторов. Каждый элемент xi равен либо +1, либо –1. Энергетическая функция сети Начальное состояние
y +1 x
−1 Эталон 1 Эталон 2
Эталон 3
Рис. 6.21. Состояние сети
Рис. 6.22. Функция активации нейронов сети Хопфилда
612
Методы современной теории автоматического управления
Обозначим вектор, описывающий k-й образец, через X k , а его компоненты соответственно — xik , k = 0, m − 1, где m — число образцов. Когда сеть распознает (или «вспомнит») какой-либо образец на основе предъявленных ей данных, ее выходы бу-
{
}
дут содержать Y = X k , где Y — вектор выходных значений сети: Y = yi : i = 0, n − 1 . В противном случае выходной вектор не совпадет ни с одним образцом. Алгоритм обучения сети Хопфилда основывается на правиле Хебба и включает следующие шаги: 1. Начальная установка значений выходов: yi ( 0 ) = xi , i = 0, n − 1. 2. Рассчитывается новое состояние нейронов; t — номер текущей итерации: n −1
s j ( t + 1) = ∑ wij yi ( t ),
j = 0, n − 1
i =0
и новые значения выхода y j ( t + 1) = f ⎡⎣ s j ( t + 1) ⎤⎦ , где f — функция активации (рис. 6.22). 3. Проверка изменения выходного сигнала. Если да — переход к шагу 2, иначе (если выходной сигнал находится в зоне притяжения определенного аттрактора и не меняется) — конец. При этом выходной вектор представляет собой образец, наилучшим образом сочетающийся с входными данными. Машина Больцмана (вероятностная сеть). Одним из основных недостатков сети Хопфилда является тенденция «стабилизации» выходного сигнала в локальном, а не в глобальном минимуме. Желательно, чтобы сеть находила глубокие минимумы чаще, чем мелкие, и чтобы относительная вероятность перехода сети в один из двух различных минимумов зависела только от соотношения их глубин. Это позволило бы управлять вероятностями получения конкретных выходных векторов путем изменения профиля энергетической поверхности системы за счет модификации весов связей. Мысль об использовании «теплового шума» для выхода из локальных минимумов и для повышения вероятности попадания в более глубокие минимумы принадлежит С. Кирпатрику [273]. Он показал, что при решении сложных задач, когда финансовые затраты на решение задачи оптимизации аналогичны энергии шарика, перемещающегося по поверхности, поиск более дешевых решений разумно начинать в ситуации с высоким уровнем теплового шума, в дальнейшем постепенно уменьшая его; этот процесс Кирпатрик назвал «имитацией отжига». Введем некоторый параметр t — аналог уровня теплового шума. Тогда вероятность активности некоторого нейрона k определяется на основе вероятностной функции Больцмана: 1 pk = (6.24) , 1 + exp ( −ΔEk t ) где t — уровень теплового шума в сети; ΔE — сумма весов связей k-го нейрона со всеми активными в данный момент нейронами. Кривая изменения вероятности активности k-го нейрона показана на рис. 6.23. При уменьшении t колебания активности нейрона уменьшаются: при t = 0 кривая становится пороговой. Сформулируем задачу обучения вероятностной сети (машины Больцмана), в которой вероятность активности нейрона вычисляется по формуле (6.24). Пусть для каждого набора возможных входных векторов требуется получить с определенной вероятностью все допустимые выходные вектора. В большинстве случаев эта вероятность близка к нулю.
Глава 6. Применение нейрокомпьютеров в системах управления
pk
613
t = 0, 25
1,0
t =1 0,5
ΔE k –6
–4
–2
0
2
4
6
Рис. 6.23. Изменения вероятности активности нейрона в зависимости от параметра t
Процедура обучения машины Больцмана сводится к выполнению двух чередующихся шагов: 1) подать на вход сети входной вектор и зафиксировать выходной (как в процедуре обучения с учителем). Предоставить сети возможность приблизиться к состоянию теплового равновесия: а) приписать состоянию каждого нейрона с вероятностью pk (6.24) значение 1 (активный нейрон), а с вероятностью 1 − pk — нуль (не активный нейрон); б) уменьшить параметр t ; перейти к пункту a; в соответствии с правилом Хебба увеличить вес связи между активными нейронами на величину δ. Эти действия повторить для всех пар векторов обучающей выборки; 2) подать на вход сети входной вектор без фиксации выходного вектора. Повторить пункты а, б. Уменьшить вес связи между активными нейронами на величину δ. Результирующее изменение веса связи между двумя произвольно взятыми нейронами на определенном шаге обучения будет пропорционально разности между вероятностями активности этих нейронов на шаге 1 и шаге 2. При повторении шагов 1 и 2 эта разность стремится к нулю. Ассоциативность памяти нейронной сети Хопфилда и различных ее модификаций не является единственным ее достоинством, которое используется на практике. С помощью данной сети могут решаться такие традиционные задачи, как дифференциальные уравнения в вариационной постановке; задачи линейной алгебры и системы нелинейных алгебраических уравнений, где решение ищется в форме минимизации невязки, и др. 6.11. ПОСТАНОВКА ЗАДАЧИ ОПТИМИЗАЦИИ ПРИ ОБУЧЕНИИ МНОГОСЛОЙНОЙ НЕЙРОННОЙ СЕТИ БЕЗ ОБРАТНЫХ СВЯЗЕЙ
Пусть нейронная сеть имеет n входов и m выходов. Каждому входу НС соответствует входной сигнал xi , i = 1, n, а каждому выходу — выходной сигнал y j , j = 1, m. Тогда входу нейронной сети соответствует вектор X с координатами ( x1 , x2 ,K , xn ), выходу — вектор Y с координатами ( y1 , y2 ,K , ym ). Основным функциональным назначением искусственной нейронной сети является преобразование входных сиг-
614
Методы современной теории автоматического управления
налов (некоторой разрозненной информации о внешней среде) в выходные сигналы (понятия о внешней среде). Нейронная сеть в этом случае представляется как некоторая многомерная функция F : X → Y. Если множество весовых коэффициентов wi входных сигналов нейронов сети не упорядочено, то функция F, реализуемая сетью, является произвольной. Совокупности всех весовых коэффициентов всех нейронов соответствует вектор W. Множество векторов W образует пространство состояний нейронной сети. Начальному состоянию сети поставим в соответствие некоторый произвольный вектор W 0. Тогда обученной нейронной сети соответствует W*, т.е. такое состояние, при котором реализуется однозначное отображение F : X → Y. В этом случае задача построения функции F , заданной в неявном виде (задача обучения НС), формально сводится к задаче перехода от некоторого начального состояния сети, соответствующего W 0, к конечному состоянию, соответствующему W*. Пусть имеется обучающая выборка, состоящая из k пар векторов (при стратегии обучения с учителем):
(X , Y ), i
i
i = 1, k .
Ошибка сети E , появляющаяся в некотором состоянии W j , может быть представлена как среднеквадратичная ошибка, усредненная по выборке 2 1 E ( W ) = ∑∑ ⎡ F j X i , W − Y ji ⎤ , ⎣ ⎦ k i j
(
)
(6.25)
где k — число примеров в обучающей выборке. Если при этом сеть не делает ошибки, то E = 0. Значит, необходимо стремиться к тому, чтобы в обученном состоянии сети E → min. Таким образом, задача обучения нейронной сети является задачей поиска минимума функции ошибки (6.25) в пространстве состояний W, и для ее решения могут быть использованы стандартные методы теории оптимизации. Особенности задач оптимизации при обучении нейронной сети. Алгоритм обучения нейронной сети задается набором обучающих правил. Обучающие правила определяют, каким образом изменяются межнейронные связи в ответ на входное воздействие. В настоящее время существует множество различных правил обучения многослойных НС: обратного распространения ошибки, квазиньютоновские методы, различные градиентные методы и т.д. Простейший способ обучения нейронной сети — по очереди менять каждый весовой коэффициент сети (далее просто — вес связи) таким образом, чтобы оптимизировался какой-либо критерий качества работы сети (обычно — среднеквадратичное отклонение). Этот способ является малоэффективным, целесообразнее вычислить совокупность производных ошибки сети по весовым коэффициентам — градиент ошибки по весам связей — и изменить все веса сразу на величину, пропорциональную соответствующей производной. Один из возможных методов, позволяющих вычислить градиент ошибки, — алгоритм обратного распространения, являющийся наиболее известным в процедурах обучения НС. Специфические ограничения при решении задачи обучения. По сравнению с традиционными задачами оптимизации при обучении НС существует ряд специфических ограничений. Они связаны, в первую очередь, с большой размерностью задачи (даже в простейших нейроимитаторах, реализованных на ПК, количество параметров 103÷104). Это определяет требования, предъявляемые к алгоритмам оптимизации:
Глава 6. Применение нейрокомпьютеров в системах управления
615
1) ограничения по памяти; если производится оптимизация по n переменным, а алгоритм требует затрат порядка 2n , то он не может быть применен для обучения НС, желательнее линейная зависимость объема памяти от числа оптимизируемых переменных, т.е. v = cn, где v — объем памяти, c — некоторый коэффициент; 2) организация нейронной сети предопределяет возможность параллельного выполнения вычислительных операций по каждой связи «вход–выход»; организация параллельных или, в лучшем случае, мультиагентных вычислений может значительно снизить время обучения НС. Кроме того, необходимо также учитывать следующие обстоятельства. Согласно теореме Геделя о неполноте [90], никакая система не может быть логически замкнутой: всегда можно найти такую теорему, для доказательства которой потребуется внешнее дополнение. Поэтому критерии выбора модели сложных объектов необходимо разделять на внутренние и внешние. Внутренние критерии вычисляются на основе результатов экспериментирования с моделью объекта. При обучении НС на основе примеров из обучающего множества вычисляется среднеквадратичная ошибка обучения E по формуле (6.25), которая является внутренним критерием. В этом случае ошибка E называется ошибкой обучения. Для получения ошибки обобщения необходима проверка НС по тестовой выборке, тогда вычисляемая ошибка E — внешний критерий. Основная цель обучения НС — создание модели объекта, обладающей свойством непротиворечивости, т.е. такой, в которой ошибка обобщения сохраняется на приемлемом уровне при исследовании всего поискового пространства и даже за его пределами. Таким образом, если ставится задача оптимизации НС, то для получения объективного результата производится разделение базы исходных данных на две части, называемые обучающей и тестовой выборкой. Критерием выбора решающего правила, синтезируемого по примерам из обучающей выборки, является среднеквадратичная ошибка обобщения, вычисленная по тестовой выборке. Так создается первое внешнее дополнение. Если ставится задача оптимизации разделения данных на обучающую и проверочную части, то требуется еще одно внешнее дополнение. База данных в этом случае разбивается на три части: обучающее, тестовое, подтверждающее множество. Следовательно, ошибка обобщения является «критерием регулярности» выбора соответствующего языка описаний решающих правил, разделяющих выходы НС. При конструировании решающего правила задача обучения НС является многокритериальной задачей оптимизации, поскольку необходимо найти общую точку минимума большого числа функций. Для обучения НС необходимо принятие гипотезы о существовании общего минимума, т.е. такой точки в поисковом пространстве, в которой значение всех оценочных функций по каждой связи «вход–выход» мало отличаются от минимальных. Опыт, накопленный при решении практических задач на НС, показывает, что такие точки существуют [64]. Многокритериальность и сложность зависимости функции оценки E от параметров нейросети приводит к тому, что адаптивный рельеф (график функции оценки) может содержать много локальных минимумов, извилистых оврагов. Таким образом, при поиске минимальной ошибки E необходимо использовать глобальные методы оптимизации. Кроме того, к исследуемым методам оптимизации добавляют еще следующие требования. Во время процедуры обучения необходимо, чтобы НС могла обретать новые навыки без потери старых. Более слабое требование: приобретение новых навыков может сопровождаться потерей точности старых, но эта потеря не должна быть существенной (ошибка обобщения должна оставаться на приемлемом уровне), а качественные изменения должны быть исключены. Это означает, что в достаточно большой окрест-
616
Методы современной теории автоматического управления
ности существования точки общего минимума значения функции оценки E не должны существенно отличаться от минимума. Иными словами, точка общего минимума должна лежать в достаточно широкой низменности изменения функций оценки. Таким образом, можно выделить четыре специальных ограничения, выделяющих обучение НС из общих задач оптимизации: • большое число параметров нейросети; • необходимость обеспечения параллельности вычисления; • многокритериальность задачи оптимизации; • необходимость нахождения достаточно широкой области, в которой значение всех минимальных функций → min . Для решения этих задач в наибольшей степени подходят методы нелокальной оптимизации. Еще больший эффект достигается при использовании глобально-локальных алгоритмов, когда для выхода в зону поиска применяется подходящий глобальный метод оптимизации, а для более точного нахождения минимума — локальный метод. Учет ограничений при обучении. Для параметров сети (вектора весовых коэффициентов W ) возможны ограничения простейшего вида: wi max > wi > wi min . Учет ограничений при оптимизации осуществляется двумя способами: 1) методом штрафных функций; 2) методом проекций. В методе 1 в оценку добавляется штраф за выход параметров из области ограничений. Это не требует никаких дополнительных изменений структуры сети, а в градиент E вводят производные штрафных функций. Метод 2 предполагает, что если в сети необходимо произвести изменение весовых коэффициентов, и они выходят за установленные ограничения, то необходимо положить: если wi max ≥ wi ≥ wi min ; ⎧ wi , ⎪ w = ⎨ wi max , если wi ≥ wi max ; ⎪ w , если wi < wi min . ⎩ i min Анализ алгоритма обратного распространения ошибки (Back Propagation — BP). Рассмотрим наиболее известный алгоритм обучения многослойной НС и определим условия повышения эффективности процедуры обучения. BP — это итеративный градиентный алгоритм обучения многослойных НС без обратных связей (рис. 6.24). x1
y1
x2
y2 M
xn входной слой − слой 1 (n-нейронов)
M
скрытый слой − слой 2 (l-нейронов)
M
M
yp
выходной слой − слой k (p-нейронов)
Рис. 6.24. Многослойная нейронная сеть
В такой сети на каждый нейрон первого слоя подаются все компоненты входного вектора. Все выходы скрытого слоя m подаются на слой m + 1 и т.д., т.е. сеть являет-
Глава 6. Применение нейрокомпьютеров в системах управления
617
ся полносвязной. При обучении ставится задача минимизации ошибки нейронной сети, которая находится по методу наименьших квадратов: 1 p E ( W) = ∑ y j − d j , 2 j =1
(
)
где y j — значение j-го выхода нейронной сети; d j — известное значение j-го выхода; p — число нейронов в выходном слое. Обучение НС производится методом градиентного спуска, т.е. на каждой итерации изменение веса производится по формуле ∂E Δwij = −h , ∂wij где h — параметр, определяющий скорость обучения; ∂E ∂E ∂y j ∂S j = , ∂wij ∂y j ∂S j ∂wij
(6.26)
где y j — значение выхода j-го нейрона; S j — взвешенная сумма входных сигналов. При этом множитель ∂S j ∂wij = xi , где xi — значение i-го выхода нейрона. Определим первый множитель формулы (6.26): ∂E ∂E dyk ∂Sk ∂E dyk ( n +1) =∑ =∑ w , ∂y j ∂ y dS ∂ y ∂ yk dSk jk k k j k k где k — число нейронов в слое n + 1. Введем вспомогательную переменную δ(jn ) =
∂E dy j . Тогда возможно опреде∂y j dS j
лить рекурсивную формулу для определения δ(jn ) n-го слоя, если известно δ(jn +1) следующего ( n + 1 )-го слоя: ⎡ ⎤ dy j (6.27) . δ(jn ) = ⎢ ∑ δ(jn +1) w(jkn +1) ⎥ ⎣k ⎦ dS j Нахождение δ(jn ) для последнего слоя НС не представляет трудностей, так как априори известен вектор тех значений, который должна выдавать сеть при заданном входном векторе: dyi (6.28) δ(jn ) = yin − di . dSi В результате получим следующее выражение: Δwij = − hδ(jn ) xin . (6.29)
(
)
Таким образом, можно сформулировать полный алгоритм обучения НС: 1. Подать на вход нейронной сети очередной входной вектор из обучающей выборки и определить значения выходов нейронов в выходном слое. 2. Рассчитать δ p по формуле (6.28) и Δwij( p) по формуле (6.29) для выходного слоя НС. 3. Рассчитать δn и Δwij( n ) по формулам (6.27) и (6.29) для остальных слоев НС. 4. Скорректировать все веса НС: wij( n ) ( t ) = wij( n ) ( t − 1) + Δwij( n ) ( t ) , где t — номер текущей итерации. 5. Если ошибка существенна, то вернуться к шагу 1, в противном случае — конец.
618
Методы современной теории автоматического управления
Рассмотрим некоторые трудности, связанные с применением данного алгоритма в процедуре обучения НС. Блокировка сети. Данный алгоритм не эффективен в случае, когда производные по различным весам сильно отличаются. Это соответствует ситуации, когда значения функций S для некоторых нейронов близки по модулю к 1 или когда модуль некоторых весов много больше 1. В этом случае для придания процессу коррекции весов некоторой инерционности, сглаживающей резкие скачки при перемещении по поверхности целевой функции, (6.29) вводится некоторый коэффициент инерционности μ, позволяющий корректировать приращение веса на предыдущей итерации: Δwijn ( t ) = −hδ(jn ) xin + μΔwijn ( t − 1) . Дополнительным преимуществом от введения инерционности является способность алгоритма преодолевать мелкие локальные минимумы. Медленная сходимость процесса обучения. Сходимость строго доказана для дифференциальных уравнений, т.е. для бесконечно малых шагов в пространстве весов. Но бесконечно малые шаги означают бесконечно большое время обучения. Следовательно при конечных шагах сходимость не гарантируется. Переобучение. Необходимо отметить, что высокая точность, получаемая на обучающей выборке, может привести к неустойчивости результатов на тестовой выборке. Чем лучше сеть адаптирована к конкретным условиям (к обучающей выборке), тем меньше она способна к обобщению и экстраполяции. Этот эффект называется эффектом «бабушкиного воспитания»: в этом случае сеть моделирует не функцию, а шум, присутствующий в обучающей выборке. Кардинальное средство борьбы с этим недостатком — использование подтверждающей выборки примеров. «Ловушки», создаваемые локальными минимумами. Детерминированный алгоритм обучения типа BP не всегда может обнаружить глобальный минимум или выти из локального минимума. Одним из способов, позволяющих обходить «ловушки», является расширение размерности пространства весов за счет увеличения скрытых слоев и числа нейронов скрытого слоя. Другой способ — использование эвристических алгоритмов оптимизации, один из которых — генетический алгоритм — рассматривается в следующем параграфе. Выбор стратегии обучения нейронной сети. Можно выделить три основных направления, которые влияют на выбор наилучшей стратегии обучения [64]: 1) формирование последовательности подачи входных векторов из обучающей выборки; 2) выбор шага обучения; 3) выбор направления обучения. Различают следующие способы обучения, в зависимости от последовательности подачи примеров из обучающей выборки: обучение по примерам, по страницам, по всему задачнику. В стандартном алгоритме ВР коррекция весов происходит сразу после подачи очередного примера — это обучение по примерам; если веса модифицируются после просчета всего обучающего множества, то это обучение по всему задачнику. Процесс обучения по задачнику (на всех примерах из обучающего множества) сходится быстрее, но требует больше памяти (для хранения промежуточных значений вычисляемых в ВР величин). Компромиссом является обучение по страницам задачника (обучение на пакетах). В этом случае обучающее множество разбивается на подмножества (страницы) и задается последовательность прохождения страниц. Коррекция весов осуществляется после прохождения страницы (пакета). Если при обучении вначале брать небольшие пакеты, а затем увеличивать их объем вплоть до общего количества примеров в обучающем множестве, время обучения будет уменьшаться.
Глава 6. Применение нейрокомпьютеров в системах управления
619
Выбор шага обучения. Выбор величины шага имеет ключевое значение для успешной работы обучающего алгоритма, так как от значения шага h зависит скорость сходимости алгоритма. Так как к моменту выбора шага для следующей итерации градиент ошибки в методе ВР уже вычислен, то можно интерпретировать функцию ошибки E (Y ) как функцию шага E ( h ) . Тогда, учитывая, что значение E ( h ) вычислено на предыдущем шаге, можно записать следующий алгоритм (А1): 1) сделать пробный шаг h, полученный на предыдущем шаге обучения, и вычислить E ( h ) ; 2) если E ( h ) > E ( h0 ) , то h := h 4 («наказание»); переход к пункту 1; 3) если E ( h ) < E ( h0 ) , то h := 2h («поощрение»). Приведенный алгоритм А1, как показано в [64], является оптимальным для позадачной стратегии. Для улучшения стратегии алгоритма А1 при обучении по задачнику и по страницам используется следующий алгоритм А2: 1) как пункт 1 в А1; 2) если E ( h ) > E ( h0 ) , то 2.1 h1 := h 2; если E ( h1 ) > E ( h0 ) , то 2.2 h := h1 , переход к 2.1; 2.3 если E ( h1 ) < E ( h0 ) , то переход к пункту 4; 3) если E ( h ) < E ( h0 ) , то 3.1 h1 := h, h := 2h1; 3.2 если E ( h ) < E ( h1 ) , то переход к 3.1; 3.3 если E ( h ) > E ( h1 ) , то переход к 4; 4) по значениям h, h1 , E ( h0 ) , E ( h ) , E ( h1 ) строим параболу и находим ее вершину h p (из-за выбора точек h1 и h парабола всегда будет выпуклой вниз);
( )
5) если E h p < E ( h1 ) , то искомый шаг — h1 , иначе — h p . Экспериментальные исследования алгоритма А2 при работе нейросетевой экспертной системы ЛОКНЕС [108] показали, что предлагаемый алгоритм позволяет повысить скорость обучения в 2÷3 раза на стандартных решаемых задачах, однако при его использовании возникают сложности с выводом сети из локальных минимумов. Выбор направления обучения. Примером более быстрых стратегий являются так называемые ParTan-методы [64]. В общем случае ParTan-стратегия состоит из следующих этапов: 1) запоминание первоначального распределения весов (вектор W1 ); 2) проведение одного или нескольких шагов вдоль антиградиента: получаем распределение весов W2 ; 3) шаг обучения с использованием вектора ( W1 − W2 ) вместо антиградиента. Рассмотрим одну из реализаций ParTan-стратегии: алгоритм kParTan. Схема kParTan-стратегии в точности совпадает с вышеописанной схемой, где на втором этапе выполняется ровно k шагов обучения (при k = 2 получается классическая схема сопряженных градиентов). Для реализации данной стратегии необходим объем памяти для хранения одного распределения весов. Другой способ реализации ParTan-стратегии — mParTan-стратегия требует дополнительный объем памяти для хранения двух последних распределений весов в сети. Алгоритм метода: 1) запоминание первоначального распределения весов ( W1 ); 2) шаг обучения вдоль антиградиента; 3) запоминание распределения W2 ; 4) шаг обучения вдоль антиградиента;
620
Методы современной теории автоматического управления
5) запоминание распределения W3 ; 6) шаг обучения с использованием вектора ( W3 − W1 ) вместо антиградиента; 7) W1 : = W2 ; W2 : = W3 ; переход к пункту 4. Хотя стратегия mParTan требует больше памяти, чем kParTan, при длительном функционировании необходимо только одно вычисление градиента на два шага обучения, тогда как в kParTan-стратегии требуется k вычислений градиента на k + 1 шагов обучения. Хотя этот метод и не дает заметного выигрыша в числе необходимых шагов, в реальности он дает выигрыш в 2÷10 раз [108]. Для улучшения процесса обучения можно использовать информацию о производных второго порядка от функции ошибки E. Соответствующие методы оптимизации называются квадратичными (квазиньютоновский метод, метод сопряженных градиентов). Невозможность применения этих алгоритмов для сетей большой размерности объясняется тем, что при их реализации, кроме основной сети, нужно иметь одну или несколько дополнительных взаимосвязанных сетей и для вычисления градиента требуется большой объем вычислительных операций. Выбор эффективного обучающего алгоритма всегда включает в себя компромисс между сложностью решаемой задачи и техническими ограничениями (быстродействие, время, цена, объем памяти) инструментальной ЭВМ, на которой реализуются данные алгоритмы. Поэтому необходимо исследовать новые алгоритмы обучения НС, позволяющие добиваться лучшей эффективности. 6.12. ЭВРИСТИЧЕСКИЙ АЛГОРИТМ ОПТИМИЗАЦИИ НА ОСНОВЕ ГЕНЕТИЧЕСКОГО АЛГОРИТМА В ПРОЦЕДУРЕ ОБУЧЕНИЯ НЕЙРОННОЙ СЕТИ
Суть генетического алгоритма. Рассмотрим возможность использования в процедуре обучения многослойной нейронной сети одного из методов эвристической оптимизации — генетического алгоритма, моделирующего процессы природной эволюции и относящегося к так называемым эволюционным методам поиска. При практической реализации данных алгоритмов на каждом шаге используются стандартные операции, изменяющие решение. С помощью генетического алгоритма (ГА) можно получить решение, соответствующее глобальному оптимуму или близкое к нему, при этом на каждом шаге производятся некоторые стандартные операции одновременно над множеством решений (популяций), что позволяет значительно увеличить скорость приближения к экстремуму. Отметим основные отличия ГА от стандартных локальных (например, градиентных) и глобальных (например, случайных) алгоритмов оптимизации: • поиск субоптимального решения основан на оптимизации случайно заданного множества решений, а не одного решения, что позволяет одновременно анализировать несколько путей приближения к экстремуму; оценка таких решений на каждом шаге позволяет синтезировать новые решения на основе старых, т.е. происходит эволюционное развитие оптимальных решений; • решения рассматриваются как некоторые закодированные структуры (символьные модели), а не как совокупность параметров, что позволяет в некоторых случаях значительно уменьшить время преобразования данных, т.е. увеличить скорость поиска оптимальных решений; • для оценки «пригодности» решения для последующего эволюционного развития наряду с использованием целевой функции дополнительно моделируются «правила выживания», которые повышают разнообразие множества решений и определяют эволюционное развитие;
Глава 6. Применение нейрокомпьютеров в системах управления
621
• при инициализации, преобразовании и других видах операций с решениями используются вероятностные, а не детерминированные правила, которые вносят в направленность генетического поиска элементы случайности; тем самым решается проблема выхода из локальных оптимумов; • отсутствует необходимость расчета производных от целевой функции (как в градиентных методах) или матрицы производных второго порядка (как в квазиньютоновских); • некритичность к количеству компонентов вектора допустимого решения. Процесс получения оптимального решения с помощью ГА представлен на рис. 6.25. Далее общая схема уточняется, в зависимости от применяемых генетических операторов. Формирование начальной популяции
Новые хромосомы
Текущая популяция Генетические операторы
Условие остановки
Остановка эволюции Оптимальное решение Рис. 6.25. Схема простого генетического алгоритма
Генетическим алгоритмом называется следующий объект: ГА ( P°, r , l , sl , Fit , cr , m, ot ) , где ГА — генетический алгоритм; Р° — исходная популяция; r — количество элементов популяции; l — длина битовой строки, кодирующей решение; sl — оператор селекции; Fit — функция фитнесса (функция полезности), определяющая «пригодность» решения; cr — оператор кроссинговера, определяющий возможность получения нового решения; m — оператор мутации; ot — оператор отбора. Согласно [20], среди принципов создания символьной модели (кодирования потенциального решения) основным является принцип минимальной избыточности: каждое решение должно быть представлено минимальным количеством хромосом (в идеале одной), чтобы сохранить размер области поиска. Необходимо отметить, что выбор символьной модели оптимизационной задачи во многом определяет эффективность и качество применяемых ГА. Будем считать, что область поиска решения D задачи однокритериального выбора является конечным множеством решений, в котором каждое допустимое решение x ∈ D является n-мерным вектором x = ( x1 , x2 ,K , xn ) . Каждая компонента xi , i = 1, n вектора x ∈ D кодируется с помощью целого неотрицательного числа [148] zi ∈ [0, Ki ], i = 1, n, где Ki +1 — число возможных дискретных значений i-й переменной в области
622
Методы современной теории автоматического управления
поиска D. Это позволяет поставить во взаимно-однозначное соответствие каждому вектору x ∈ D вектор z с целочисленными компонентами ( x1, x2 ,K, xn ) ↔ ( z1 , z2 ,K, zn ) , где для каждой компоненты zi , i = 1, n областью возможных значений являются целые числа от 0 до Ki .
Введем алфавит A 2 , содержащий два символа 0 и 1: А 2 = {0,1}. Для представле-
ния целочисленного вектора z = ( z1 , z2 ,K, zn ) в алфавите A 2 необходимо определить максимальное число двоичных символов α, которое достаточно для представления в двоичном коде любого значения zi из области его допустимых значений [0, K i ]. Параметр символьной модели α должен удовлетворять неравенству k < 2α , где k = max ( K i ) . Символьная запись целочисленного кода zi фиксированного значения 1≤i≤ n
переменной xi в двоичном коде запишется в виде следующей битовой комбинации: hα ( zi )
g1
g 2 L gα , α
где gi — двоичный символ 0 или 1, i = 1, n; hα ( zi ) — символьное описание компоненты xi . Для представления допустимого решения x ∈ D в алфавите A 2 объединим символьные записи кодовых комбинаций, описывающих все n компонент вектора x, в виде линейной последовательности битовых строк из двоичных символов: hα ( z1 ) g11
g 12
... g α1
hα ( z 2 ) g 12
g 22
... g α2 .... g1n
hα ( z n ) g 2n
... g αn
n×α
Таким образом, в соответствии с [20], символьная модель экстремальной задачи переборного типа может быть представлена в виде битовой строки, с помощью которой задается множество допустимых решений xi , принадлежащих области поиска D. Наименьшей неделимой единицей биологического вида, подверженной действию факторов эволюции, является особь H kt , где k — номер особи, t — момент времени эволюционного процесса. В качестве аналога особи в задаче оптимизации принимается произвольное допустимое решение x ∈ D, которому присвоено имя H kt . Действительно, вектор x — это наименьшая неделимая единица, характеризующая в экстремальной задаче внутренние параметры объекта оптимизации на каждом t-м шаге поиска оптимального решения, которые изменяют свои значения в процессе минимизации некоторого критерия оптимальности J ( x ) . Качественные признаки особи H kt определяются из символьной модели как соответствующие точке x с именем H kt (битовой строке). Интерпретация этих признаков проводится в терминах хромосомной наследственности [266]. В качестве гена (единицы наследственного материала, ответственного за формирование альтернативных признаков особи) принимается бинарная комбинация hα ( zi ) , которая определяет фиксированное значение целочисленного кода zi параметра xi в двоичном коде. Некоторая особь H kt будет характеризоваться n генами, каждый из которых отвечает
Глава 6. Применение нейрокомпьютеров в системах управления
623
за формирование целочисленного кода соответствующей переменной. Тогда структуру битовой строки можно интерпретировать хромосомой, содержащей n сцепленных между собой генов. Местоположение i-го гена в хромосоме — локус, значение — аллель hα ( zi ) . H kt
ген 1
ген 2
ген n
hα ( z1 ) hα ( z2 ) hα ( zn ) хромосома
Хромосома, содержащая в своих локусах конкретные значения аллелей, называется генотипом (генетическим кодом), который содержит всю наследственную генетическую информацию об особи H kt . Конечное множество всех допустимых генотипов — генофонд. При взаимодействии особи с внешней средой ее генотип H kt порождает фенотип
( )
F H kt , который может быть оценен количественно с помощью функции приспо-
собленности (функции фитнесса) к внешней среде.
( )
Фитнесс Fit H kt
каждой особи H kt представляет собой численное значение
функции J ( x ) , вычисленное для допустимого решения x ∈ D с именем H kt . Чем больше значение функции финтесса при решении задачи нахождения max J ( x ) , тем лучше особь приспособлена к внешней среде. Формирование популяции. Совокупность особей ( H1t ,K, H rt ) образует популяцию P t. Число r — численность популяции. Эволюция популяции P t рассматривается как чередование поколений (рис. 6.26).
Рис. 6.26. Формирование популяции
Номер поколения отождествляется с моментом времени t = 0,1,K , T , где T — жизненный цикл популяции, определяющий период ее эволюции. Совокупность генотипов всех особей H kt образует хромосомный набор, который полностью содержит в себе генетическую информацию. Цель эволюции популяции. Цель эволюции популяции заключается в основной тенденции развития популяции — росте среднего значения функции фитнесса по популяции в целом
624
Методы современной теории автоматического управления
⎛1 r ⎞ max max Fit t = ( ) ⎜ ∑ Fitcp ⎟ cp t t P P ⎝ r i =1 ⎠ с одновременным уменьшением генетического разнообразия хромосомного набора 2 популяции с помощью генетической вариансы σcp (t ) :
(
)
2⎞ ⎛ 1 r 2 ⎡ Fit H it − Fcp ( t ) ⎤ ⎟ . min σcp ( t ) = min ⎜ ∑ t ⎣ ⎦ P ⎝ x − 1 i =1 ⎠ 2 Свертывание введенных частных критериев Fitcp ( t ) и σ ( t ) с помощью мульти-
(
)
пликативной функции f ( t ) = Fitcp ( t ) ⋅
( )
1
позволяет сформулировать цель эволюσ (t ) ции популяции как обеспечение максимального значения обобщенного критерия в течение ее жизненного цикла. Оценка генетического разнообразия популяции. Совокупность из r особей H kt 2
популяции P t образует хромосомный набор. Наличие изменчивости хромосомного набора от поколения к поколению является необходимым условием эволюции популяции P t , т.е. ее развития в смысле увеличения значения функции приспособленности особей популяции. Изменчивость и разнообразие генофонда влияют на качество получаемого решения, так как позволяют выходить из локальных оптимумов. Оценку генетического разнообразия популяции по всем n локусам будем производить в соответствии с [20] по формуле 1 n Var = ∑Var ( i ), n i =1 где 2 r2 ⎛ 1 ⎞ − Var ( i ) = 1 − max p h k , i ; ( ) ( ) α ⎜ ⎟ ⎠ (1 − r )2 ⎝ r 1≤k ≤bi r — численность популяции Pt ; p ( hα ( k ) , i ) = ri r — частота встречаемости ал-
лельной формы в i-м локусе; ri — число генотипов в хромосомном наборе популяции Pt, в котором i-й локус содержит аллельную форму hα ( k ) ; bi — число форм аллелей в i-м локусе. Var = 0, когда все r генотипов имеют в i-м локусе одну и ту же аллельную форму; Var = 1, если все аллельные формы в i-м локусе всех генотипов хромосомного набора отличаются между собой. Чем выше генетическое разнообразие популяции, тем эффективнее ГА будет выходить из локальных экстремумов, но на этапе сходимости высокое значение Var может привести к потере оптимального решения. В связи с этим необходимо разработать динамическую стратегию поиска оптимума, позволяющую на первых этапах эволюции иметь высокое генетическое разнообразие, а на заключительных этапах, при сходимости алгоритма, оно должно быть сведено к минимуму. Способы создания начальной популяции P 0. В настоящее время наиболее известными являются три стратегии создания стартового множества решений [148]: 1) формирование полной популяции; 2) генерация случайного множества решений, достаточно большого, но не исчерпывающего все возможные варианты; 3) генерация множества решений, включающего разновидности одного решения.
Глава 6. Применение нейрокомпьютеров в системах управления
625
Первая стратегия реализует полный набор всевозможных решений, что невозможно из-за чрезмерных вычислительных затрат и большой области поиска для задач высокой размерности, которые мы и рассматриваем. Стартовая популяция, созданная на основе данной стратегии, не может развиваться, т.е. в ней уже содержатся все решения, в том числе и оптимальные. Третья стратегия применяется в тех случаях, когда есть предположение, что некоторое решение является разновидностью известного. В этом случае происходит выход сразу в область существования экстремума и время поиска оптимума значительно сокращается. Для большинства задач проектирования неприемлемы первая стратегия (вследствие проблематичности полного перебора) и третья (из-за сужения области поиска и большой вероятности попадания в локальный экстремум). Наиболее приемлемой является вторая стратегия, так как она создает возможность перехода из одной подобласти области поиска D в другую в результате эволюции популяции и имеет сравнительно небольшую размерность оптимизационной задачи. Эффективность ГА, качество получаемого решения и успех дальнейшего развития эволюции во многом определяются структурой и качеством начальной популяции. Наиболее целесообразным представляется подход, основанный на комбинировании второй и третьей стратегии: путем предварительного анализа решаемой задачи выявляются подобласти в области поиска D, в которых могут находиться оптимальные решения, т.е. определяются особи с высоким значением фитнесса, а затем случайным образом формируются стартовые решения в этих подобластях. Классификация генетических операторов. Выделим два основных способа генерации новых решений: 1) путем перекомпоновки (скрещивания) двух родительских решений (оператор скрещивания или кроссинговер cr ); 2) путем случайной перестройки отдельных решений (оператор мутации m ). Кроссинговер cr производит структурированный и рандомизированный обмен информацией внутри родительской пары, т.е. между двумя хромосомами, формируя новые решения. Задача состоит в создании такой комбинации участков хромосом, которая давала бы наилучшее решение. Таким образом, основная цель скрещивания заключается в накоплении всех лучших функциональных признаков, характеризующих отдельные участки хромосом, копируемых в конечном решении. Одноточечный оператор кроссинговера Холланда [266] реализуется следующим образом. Сначала случайным образом определяется точка скрещивания. Затем цепочка генов, ограниченная точкой скрещивания, одной хромосомы меняется местами с аналогичной частью генов второй хромосомы (рис. 6.27), т.е. путем перекомпоновки двух родительских решений генерируются два качественно новых решения (потомки). Помимо одноточечного, применяются и многоточечные кроссинговеры. В результате применения cr могут появиться повторяющиеся кодовые комбинации хромосом. Поэтому для использования генетического алгоритма в задачах оптимизации необходимо разработать новые типы операторов cr. Использование оператора мутации m в процессе биологической эволюции предотвращает потерю важного генетического материала; в генетических алгоритмах m применяется для выхода из локальных экстремумов. В практике использования ГА для решения задач оптимизации встречаются классические операторы генной мутации: изменение величины случайно выбранного гена (рис. 6.28). Для улучшения технологии генетического поиска оптимальных решений целесообразно применять операторы хромосомной мутации, предложенные в данной работе. Значительное улучшение качества и скорости сходимости ГА дает комбинирование ГА с классическими детерминированными методами оптимизации, разработка
626
Методы современной теории автоматического управления
модифицированных операторов кроссинговера и мутации, основанных на знании решаемой задачи. Хромосома А
⎡ a1 ⎤ ⎢a ⎥ ⎢ 2⎥ ⎢ a3 ⎥ ⎢ ⎥ ⎢a 4 ⎥ ⎢⎣ a5 ⎥⎦ Потомок А
⎡ a1 ⎤ ⎢a ⎥ ⎢ 2⎥ ⎢ a3 ⎥ ⎢ ⎥ ⎢ b4 ⎥ ⎢⎣ b5 ⎥⎦
Хромосома B
⎡ b1 ⎤ ⎢b ⎥ ⎢ 2⎥ ⎢ b3 ⎥ ⎢ ⎥ ⎢b4 ⎥ ⎢⎣ b5 ⎥⎦
Мутация потомка А
Результат мутации
⎡ a1 ⎤ ⎢ ⎥ Мутация ⎢a2 ⎥ ⎢ a3 ⎥ ⎢ ⎥ ⎢ b4 ⎥ ⎢⎣ b5 ⎥⎦
Потомок B
⎡ b1 ⎤ ⎢b ⎥ ⎢ 2⎥ ⎢ b3 ⎥ ⎢ ⎥ ⎢a 4 ⎥ ⎢⎣ a5 ⎥⎦
⎡ a1 ⎤ ⎢a * ⎥ ⎢ 2⎥ ⎢ a3 ⎥ ⎢ ⎥ ⎢ b4 ⎥ ⎢⎣ b5 ⎥⎦ a2 ≠ a2*
Рис. 6.27. Одноточечный кроссинговер
Рис. 6.28. Оператор мутации
Селекция решений. Качество поколений потомков во многом зависит от выбора операторов селекции sl родительской пары. Поэтому для аккумуляции всех лучших функциональных признаков, имеющихся в популяции, используется подбор хромосом для скрещивания. Наиболее часто в ГА используются следующие типы операторов селекции sl : панмиксия (случайный выбор пар); ассортативный (предпочтительный выбор на основе функции фитнесса). При панмиксии частота k образования родительской пары не зависит от «качества» хромосом Н kt и полностью определяет-
ся численностью популяции r : k = 1 r ( r − 1) . Таким образом, реализации sl в виде
панмиксии соответствует случайный выбор Н kt . Второй способ реализации sl связан с использованием функции фитнесса Fit , при этом реализуются два типа выбора: положительный ассоциативный и отрицательный ассоциативный. В первом случае предпочтение отдается парам хромосом с близкими и высокими значениями Fit , но отличающимися по структуре. Во втором случае предпочтение отдается хромосомам, характеризующимися функциями Fit , сильно различающимися между собой. Для реализации первой стратегии случайным образом с вероятностью r
( ) ∑ Fit ( H ) ,
pk = Fit H kt
i =1
t i
k = 1, r
(
)
выбираются две разных хромосомы Н kt , Н kt +1 ∈ Pt H kt ≠ H kt +1 . Вторая стратегия реализуется следующим образом: одна из хромосом образом, а вторая
Н kt +1 ∈ P t
Н kt
t
∈ P выбирается случайным
— с вероятностью r
( ) ∑1 Fit ( H ) ,
pk = 1 Fit H kt
i =1
t i
k = 1, r .
Частным случаем положительного ассортативного выбора является введение
( )
уровня «отсечки»: если Fit H kt < Fitотсечки , то в целях улучшения качества популя-
Глава 6. Применение нейрокомпьютеров в системах управления
627
ции Н kt временно устраняется из процедуры скрещивания; например, можно поло-
жить Fitотсечки = Fitср ( t ) .
С помощью оператора селекции sl моделируется естественный отбор в популяции. Панмиксия и отрицательный ассортативный выбор способствуют повышению генетического разнообразия в популяции, что, в свою очередь, повышает скорость сходимости ГА на начальном этапе оптимизации и позволяет выходить из локальных экстремумов. На конечном этапе поиска целесообразно применять положительный ассортативный выбор, т.е. искать решение только среди лучших Н kt . Для реализации этих стратегий необходимо разработать процедуру, допускающую смену типа оператора sl в процессе эволюционного развития популяции. Способы отбора решений в популяцию. Необходимой составляющей естественного отбора является устранение неудачных решений. Основная проблема устранения — нахождение компромисса между разнообразием генетического материала и качеством решений. Схема отбора включает два этапа: • формирование репродукционной группы из всех решений, образовавшихся в популяции Pt ; • естественный отбор решений в следующую Pt +1 популяцию. Если в этой схеме в репродукционную группу входят все решения, полученные в t-м поколении, то численность новой популяции Pt +1 вычисляется по формуле R t +1 = r + rcrt + rmt , где r — численность популяции Pt ; rcrt — «потомки», полученные в результате применения оператора скрещивания cr ; rmt — «мутанты», полученные в результате применения оператора мутации m. Для учета информации о степени приспособленности особей к внешней среде Fit и сокращения численности репродукционной группы популяции Pt +1 используются следующие схемы. 1. Элитарная схема ( otэ ). В репродукционную группу включаются все Н kt +1 ∈ P t и только те потомки и мутанты, для которых выполняются следующие условия:
( ( ) ( )) , ( Fit ( H ) > Fit ( H )).
∀H kt ∈ pt , k = 1, r ∃ H k cr Fit H k cr > Fit H kt ∀H kt ∈ p t , k = 1, r ∃ H k m
km
t k
2. Селекционная схема ( ots ). Осуществляется упорядочение по убыванию функций Fit для всей репродукционной группы. Задается численность r0 популяции. В следующую популяцию Pt +1 включаются только первые из r0 хромосом, т.е. те, для которых в упорядоченном ря-
( )
де ранг k H kt ≤ r 0. Данная схема может быть модифицирована следующим образом. Определяется средняя Fitср для всех решений, полученных в популяции Pt : t Fitср t
1 = t R
Rt
∑ Fit ( Rt ), i =1
где R — численность репродукционной группы популяции Pt ; R t = r + rcrt + rmt .
628
Методы современной теории автоматического управления
В следующую популяцию включаются хромосомы, у которых функция Fit выше t или равна средней Fitср , т.е.
{
}
( )
t R t +1 = H kt Fit H kt ≥ Fitср , k = 1, R t .
При использовании селекционной схемы часть полученных на t-м шаге решений устраняется из дальнейшего анализа в процессе естественного отбора. 3. Схема пропорционального отбора ( ot p ). В соответствии с ot p r решений популяции P t +1 выбираются из R t случайным образом с вероятностью p
Rt
( ) = Fit ( ) ∑ Fit ( H ), H kt
H kt
В этом случае каждое решение
i =1
H kt
t i
k = 1, R t .
∈ R t может потенциально войти в состав попу-
ляции Pt +1 в виде одной или нескольких копий с одним и тем же генотипом. 4. Схема на основе линейно упорядоченного отбора ( ot1 ). Согласно [148], ot1 выбирает хромосомы из репродукционной группы R t с вероятностью 1 ⎛ k −1 ⎞ t p H kt = t ⎜ a − ( a − b ) t ⎟ , k = 1, R , R ⎝ R −1⎠ где a — параметр, выбираемый случайным образом с равной вероятностью из интервала [22, 23]; b = 2 − a. Частный случай линейного упорядочения при a = 1 — равновероятный отбор ( otr ) 1 p H kt = t , k = 1, R t . R При использовании otr все решения H kt ∈ R t имеют одинаковую вероятность
( )
( )
быть выбранными в следующую популяцию P t +1. Рассмотренные операторы отбора otэ , ots , ot p , ot1 , otr производят выбор Hkt , k = 1, Rt
(
)
до тех пор, пока в популяцию P t +1 не будет включено r решений H1t +1 , H 2t +1 ,K, H rt +1 . Затем процесс развития популяции повторяется для следующего t + 1 поколения. Анализ операторов отбора показывает, что случайный отбор приводит к высокому генетическому разнообразию, однако многие качественные решения могут быть потеряны. Элитный отбор сохраняет качество решения, но после смены нескольких поколений хромосомы становятся сходными. Таким образом, на начальных этапах оптимизации с помощью ГА otэ дает значительное ускорение роста качества решения, оцениваемое по Fit в сравнении с ots , однако дальнейшее повышение качества становится проблематичным из-за скудного генетического разнообразия. Поэтому необходимо разработать динамический otd , использующий преимущества каждого ot в соответствующий момент эволюции. Повышения эффективности ГА. Предлагается один из таких способов, связанный с параллельным развитием нескольких популяций и применением генетических операторов к хромосомам из разных популяций. Такой подход позволяет повысить генетическое разнообразие наследственного материала и приводит к улучшению окончательного решения. Мотивом создания этого подхода является известный из
Глава 6. Применение нейрокомпьютеров в системах управления
629
генетики факт: из аллелей формируются генотипы особей, из особей популяции, из популяций биоценозы, являющиеся итогом прогрессивного развития нескольких популяций [12]. В соответствии с вышесказанным, ГА, в котором генетические операторы применяются к хромосомам разных популяций, будем называть многопопуляционным (биоценозным). В предложенном многопопуляционном ГА одновременно создается N начальных популяций P10 , P20 ,K , PN0 , которые развиваются независимо друг от друга до определенного момента tv (начало периода взаимодействия), после которого популяции обмениваются хромосомами, затем снова развиваются независимо. Норму взаимодействия (количество обменных хромосом) можно регулировать с тем, чтобы каждая из популяций могла также создать «свои» уникальные хромосомы. Главные проблемы реализации биоценозного алгоритма ГА: 1) определение момента tv ; 2) выбор принципа отбора обменных хромосом. Первая проблема решается следующим образом. Вводится условие наступления события tv : если сумма отклонений Fitmax в текущих поколениях от предыдущих за последние l поколений не превосходит некоторого заданного положительного числа δ, то развитие популяции не приводит к появлению лучших решений и наступает период взаимодействия. Пусть l — количество поколений, за которое производится оценка развития популяции; δ — уровень улучшения решений, определяется как t t −1 разность Fitmax − Fitmax ; тогда процесс определения момента tv может быть описан
следующим образом: 1) установление значений l и δ; t −1 = 0; максимальное значение Fit в предыдущем поколении; 2) Fitmax 3) t = 1; счетчик номера поколения; t t −1 4) S = 0; сумма отклонений Fitmax − Fitmax ;
5) k = 1; счетчик числа поколений; 6) если k < 1, то переход к 7, иначе — к 12;
( )
t = max Fit H kt ; определение max Fit в текущем поколении; 7) Fitmax
8) S = S +
t Fitmax
t −1 − Fitmax ;
t −1 t = Fitmax ; 9) Fitmax
10) k = k + 1; t = t + 1; 11) переход к 6; 12) если S > δ, то переход к 4, иначе — к 13; 13) конец. Если условие наступления события tv выполняется хотя бы для одной популяции, то происходит обмен хромосомами между этой популяцией и другой, выбранной случайным или детерминированным способом. Для решения второй проблемы после наступления момента tv происходит ранжирование всех хромосом по функции Fit по возрастанию в обменивающихся популяциях. Из каждой популяции удаляется q ⋅ r худших хромосом ( q — процент исключения; 0 < q < 1; r — количество хромосом в популяции), и на их место включается
630
Методы современной теории автоматического управления
q ⋅ r лучших хромосом из другой популяции. Выбор обменных хромосом из каждой популяции осуществляется с вероятностью
pi =
( ) . ∑ Fit ( H ) Fit H itv
r − q⋅r j =1
tv j
Условие останова многопопуляционного алгоритма ГА: разность функций фитнесса разных популяций, участвующих в обмене за несколько последних популяций, меньше δ. Так, если развиваются только две популяции, то условие останова за последние l поколений Ι ΙΙ − Fitmax ∑ Fitmax
< δ.
Исследование ГА для решения задачи обучения НС. Круг практических задач, решаемых с помощью нейронных сетей НС, постоянно расширяется, но, несмотря на этот фактор, вопросам обучения НС в литературе уделяется недостаточное внимание. А между тем качество обучения напрямую влияет на предсказательные возможности нейронной сети и, следовательно, на точность решаемых задач классификации, распознавания образов, принятия решений и т.д. В классической постановке, как было показано, задача обучения нейронной сети рассматривается как задача поиска минимума ошибки обучения, зависящей от параметров сети. В связи с этим для реализации алгоритмов обучения нейронной сети используются всесторонне исследованные стандартные методы оптимизации, которые в большинстве случаев позволяют найти локальный, а не глобальный экстремум. С целью повышения достоверности принимаемых на основе нейронной сети решений необходимо исследовать альтернативные алгоритмы оптимизации, позволяющие находить глобальный экстремум, но не нашедшие пока широкого распространения на практике. Наиболее перспективными в этом плане и являются рассмотренные генетические алгоритмы оптимизации. Для выполнения процедуры оптимизации с использованием генетического алгоритма необходимо: 1) подобрать представление оптимизационных параметров в виде определенного формата данных: строки, вектора, таблицы, массива и т.д.; 2) разработать или выбрать из набора генетических операторов такие, которые наилучшим образом учитывают особенности поискового пространства; 3) определить размер начальной популяции; 4) разработать методику использования генетических операторов; 5) задать функцию фитнесса или приспособленности (целевую функцию, по которой производится отбор вариантов в популяцию); 6) разработать методику отбора вариантов в новую популяцию; 7) задать критерий останова эволюционного процесса. Для минимизации ошибки обучения НС на основе генетического алгоритма каждому варианту вектора весовых коэффициентов будем ставить в соответствие некоторую хромосому, представленную в виде битовой строки. Как оказалось в дальнейшем, использование классических операторов селекции (например, панмиксии или ассортативного скрещивания) является не всегда эффективным, необходимо было разработать новые операторы выбора хромосом для скрещивания — операторы рекомбинации (рис. 6.29), которые позволяют уменьшить число переборов и, соответственно, время сходимости алгоритма оптимизации. Введение операторов рекомбинации связано с тем обстоятельством, что в реальном биологическом пространстве существования генотипов имеет место неравномерность их распределения по классам, наличие видов, семейств, родов. Поэтому в
Глава 6. Применение нейрокомпьютеров в системах управления
631
целях исследования «дальнего родства» целесообразно производить скрещивание хромосом, находящихся на самом далеком расстоянии друг от друга.
H11 H12 H 21 H 22
x
A R1
B
Rm
y
⎡ a1 ⎤ ⎢a2 ⎥ ⎢a ⎥ ⎢ 3⎥ ⎢a4 ⎥ ⎢⎣ a5 ⎥⎦
⎡ b1 ⎤ ⎢b2 ⎥ ⎢b ⎥ ⎢ 3⎥ ⎢b4 ⎥ ⎢⎣b5 ⎥⎦
⎡ c1 ⎤ ⎢c 2 ⎥ ⎢c ⎥ ⎢ 3⎥ ⎢c 4 ⎥ ⎢⎣c5 ⎥⎦
⎡ d1 ⎤ ⎢d 2 ⎥ ⎢d ⎥ ⎢ 3⎥ ⎢d 4 ⎥ ⎢⎣ d 5 ⎥⎦
⎡ a1 ⎤ ⎢a ⎥ ⎢ 2⎥ ⎢ c1 ⎥ ⎢ ⎥ ⎢ c2 ⎥ ⎢⎣ c3 ⎥⎦
⎡ c1 ⎤ ⎢c ⎥ ⎢ 2⎥ ⎢ b1 ⎥ ⎢ ⎥ ⎢b2 ⎥ ⎢⎣ b3 ⎥⎦
⎡ a1 ⎤ ⎢a ⎥ ⎢ 2⎥ ⎢ a3 ⎥ ⎢ ⎥ ⎢ d1 ⎥ ⎢⎣d2 ⎥⎦
⎡ d1 ⎤ ⎢d ⎥ ⎢ 2⎥ ⎢ d3 ⎥ ⎢ ⎥ ⎢ b1 ⎥ ⎢⎣ b2 ⎥⎦
H3
H4
H5
H6
Рис. 6.29. Оператор рекомбинации
В результате применения операторов рекомбинации «дальнего родства» к различным классам генотипов ( A и B — классы двумерных хромосом на рис. 6.29) происходит переход в другие области поискового пространства. Выбор хромосом, относящихся к различным классам для выполнения операции рекомбинации, осуществляется по вычисляемой между хромосомами мере различия («радиусу скрещивания») R; в рекомбинации участвуют хромосомы, мера различия которых является наибольшей. Если хромосомы рассматривать как точки метрического пространства, например, как n-мерные векторы H = (h1 , h2 ,K, hn ), координатами которых являются значения генов, то в качестве меры различия двух хромосом можно принять евклидово расстояние между ними. При входе в область существования экстремума для повышения скорости сходимости алгоритма скрещивание осуществляется между хромосомами, расстояние между которыми является наименьшим («близкое родство»). Оператор рекомбинации имеет естественный аналог [12], при этом в операции скрещивания участвуют две пары хромосом. В соответствии с этим правилом из популяции выбираются две пары хромосом H11 , H12 и H 21 , H 22 , каждая пара соответствует своему классу. Между двумя хромосомами первой пары и двумя хромосомами второй пары выполняется оператор скрещивания. В результате получается четыре новых решения H 3 , H 4 , H 5 , H 6 . Применение предлагаемых операторов скрещивания позволяет во многих случаях переходить из одной локальной области пространства решений в другую, а в пределах одной области осуществлять поиск лучших решений. Процент хромосом, подвергающихся мутации, задается коэффициентом мутации, который определяется экспериментально. Эффективным (с точки зрения выхода из локального экстремума) является использование, кроме генной мутации (изменение одного гена в хромосоме), хромосомной мутации (хромосомной перестройки). В генетике рассматриваются типы хромосомной мутации, изменяющие структуру целой
632
Методы современной теории автоматического управления
хромосомы, — делеция (потеря участка хромосомы), дефишенси (концевые нехватки хромосом), дупликация (удвоение участков хромосом), инверсия (перестройка части генов в обратном порядке) — рис. 6.30, а; транслокация, т.е. перенос части генов в той же хромосоме на новое место — образование изохромосомы — рис. 6.30, б. ⎡a1 ⎤ ⎢a ⎥ ⎢ 2⎥ ⎢a 3 ⎥ ⎢ ⎥ ⎢a 4 ⎥ ⎢a ⎥ ⎢ 5⎥ ⎢a6 ⎥ ⎢a ⎥ ⎣ 7⎦
⎡ a1 ⎤ ⎢a ⎥ ⎢ 2⎥ ⎢ a6 ⎥ ⎢ ⎥ ⎢a5 ⎥ ⎢a ⎥ ⎢ 4⎥ ⎢a3 ⎥ ⎢a ⎥ ⎣ 7⎦
а
⎡a 5 ⎤ ⎢a ⎥ ⎢ 6⎥ ⎢a7 ⎥ ⎢ ⎥ ⎢ a1 ⎥ ⎢a ⎥ ⎢ 2⎥ ⎢a 3 ⎥ ⎢a ⎥ ⎣ 4⎦
⎡a1 ⎤ ⎢a ⎥ ⎢ 2⎥ ⎢a 3 ⎥ ⎢ ⎥ ⎢a 4 ⎥ ⎢a ⎥ ⎢ 5⎥ ⎢a6 ⎥ ⎢a ⎥ ⎣ 7⎦
б
Рис. 6.30. Оператор инверсии (а) и транслокации (б)
Данные типы перестроек играют очень важную роль в естественной эволюции организмов, позволяя переходить к другим видам [12]. Построение операторов мутации генетического алгоритма на их основе, как показали эксперименты, позволяет обходить локальные экстремумы. В процессе отбора производится направленный поиск хромосом, которые являются ценными в смысле некоторой заданной целевой функции (функции фитнесса), в качестве которой в процедуре обучения НС используется функция ошибки E. Каждой i-й реализации ( i = 1, k ) вектора весовых коэффициентов ставится в соответствие некоторая хромосома H i , начальная популяция формируется из k таких хромосом. Для определения E каждый i-й вектор весовых коэффициентов Wi (фенотип), закодированный в хромосоме H i (генотип), обучается на «своей» нейронной сети. Тогда ошибка обучения i-й нейронной сети E i может быть вычислена по результатам ее обучения E i = НСi ( Wi ) , (6.30) где НСi — нейронная сеть для обучения вектора Wi . Ошибка E i и будет являться функцией фитнесса Fit для хромосомы, кодирующей вектор Wi . Само понятие обучения нейронной сети при использовании для этих целей генетического алгоритма, в отличие от традиционных методов обучения, имеет несколько иной смысл: обучение здесь заключается в применении генетических операторов к генотипу вектора Wi , т.е. к хромосоме H i , а обучающая выборка служит для вычисления ошибки обучения E i нейронной сети НСi с конкретными значениями Wi . При отборе хромосом в новую популяцию используется следующее правило: чем меньше целевая функция для данной хромосомы H i , тем выше вероятность ее выбора для репродукции. При определении лучшего варианта используется: 1) лучшая H i в текущей популяции (элитная хромосома); 2) лучшая H i в нескольких популяциях (в этом случае функция фитнесса Fit может быть вычислена на текущей либо на последних n популяциях).
Глава 6. Применение нейрокомпьютеров в системах управления
633
Сравнение вариантов в текущей популяции производится на основе нормализованного Fitnorm . Оценочная функция такого вида показывает вес данного варианта во всей популяции. Вычисление Fitnorm производится по формуле Fitnorm ( H i ) = Fit ( H i )
k
∑ Fit ( H i ) ,
(6.31)
i =1
где H i — i-я хромосома (i-й вариант реализации W ); k — количество вариантов в популяции. На основе (6.31) на следующем шаге работы алгоритма осуществляется отбор хромосом (вариантов W ) для репродукции новых поколений. Размер текущей популяции в этом случае обычно уменьшается до размера начальной популяции с помощью соответствующих алгоритмов. Для экспериментов использовался ot p — оператор пропорционального отбора и его модификации (рис. 6.31).
a
b
b
c
d
d
e
f
e
g
g
Исходная популяция
h
Новая популяция
Рис. 6.31. Схема отбора хромосом в новую популяцию: a, b, c, d, e, f, g, h — хромосомы текущей популяции; b, d, e, g — хромосомы новой популяции
Таким образом, процедура оптимизации с помощью генетического алгоритма является итерационной и включает два повторяющихся этапа: 1) синтез новых хромосом (скрещивание и мутация); 2) отбор хромосом в новую популяцию. Процесс продолжается до тех пор, пока не будет получено: а — оптимальное решение; б — заданное число поколений. При этом каждая последующая популяция должна быть лучше предыдущей. Решению задачи соответствует хромосома с минимальным значением фитнесс-функции, определяющая оптимальный вектор весовых коэффициентов W, при этом ошибка обучения E i становится меньше заданной величины δ. Если условие останова обучения по а не может быть выполнено, то происходит завершение процедуры обучения по б с выбором элитной хромосомы в одном или нескольких поколениях. В зависимости от вида используемых генетических операторов и схемы отбора, могут быть сконструированы различные генетические алгоритмы, каждый из которых будет эффективным с точки зрения скорости сходимости и наилучшего приближения к экстремуму при решении реальных задач. Экспериментальное исследование алгоритма. Обычно для оценки эффективности разрабатываемых алгоритмов оптимизации используются тестовые функции, экстремум которых известен. Исследование генетического алгоритма и отдельных генетических операторов производилось с использованием двух, часто применяемых на практике, следующих тестовых функций [178]: 1) функции Жилинскаса F ( x1 , x2 ) = x12 + x22 − cos18 x1 − cos18 x2 ;
634
Методы современной теории автоматического управления ограничения: 0 ≤ x1 ≤ 2π, i = 1, 2; минимум: F ( x *) = −2, x * = [ 0,0] ; T
2) функции Вуда
(
F ( x1 , x2 , x3 , x4 ) = 100 x2 − x12
)
2
(
)
+ (1 − x1 ) + 90 x4 − x32 + (1 − x3 ) + 2
3
+ 10,1( x2 − 1) + ( x4 − 1) + 19,8 ( x2 − 1)( x4 − 1) ; 2
2
ограничения: −10 ≤ xi ≤ 10, i = 1, 4; минимум: F ( x *) = 0, x * = [1, 1, 1, 1] . T
Варианты генетического алгоритма: 1. Оператор скрещивания — «дальнее родство» на генотипе; процент генной мутации — 0,1, хромосомная мутация — транслокация; отбор хромосом в популяцию — элитный (с лучшей функцией фитнесса). 2. Оператор скрещивания — многоточечный или одноточечный кроссинговер; процент генной мутации — 0,001; отбор — элитный. 3. Оператор скрещивания — «дальнее родство» на генотипе; процент генной мутации — 0,1, хромосомная мутация — инверсия; отбор — элитный, причем допускается повторение не более 10 одинаковых хромосом в новой популяции. 4. Оператор скрещивания — «ближнее родство» (первая хромосома выбирается случайным образом, а вторая наиболее близко расположенная к ней — по значению функции фитнесса); процент генной мутации — 0,1, хромосомная мутация — транслокация; отбор, как в алгоритме 3. Процент 60 найденных 50 точных экстремумов 40
1 2
30
3
20
4
Ч
10 0 10
20
50
100
Число популяций Рис. 6.32. Вероятность нахождения точного значения экстремумов тестовых функций при заданном числе популяций
Для каждого из алгоритмов на рис. 6.32 представлены усредненные по двум тестовым функциям результаты, показывающие зависимость процента нахождения точного значения экстремума от числа запусков ГА (от числа популяций). Полученные результаты свидетельствуют о низком проценте экспериментов, в которых было получено точное значение минимума, в зависимости от общего числа запусков ГА. Однако, как показано на рис. 6.33, наблюдается хорошее приближение найденных минимумов к точному значению минимума. Действительно, из диаграммы на рис. 6.33 видно, что величина m, равная усредненному по тестовым функциям значениям экстремума, находится в пределах 0,9÷0,95: x * − xГА m = 1− , x*
Глава 6. Применение нейрокомпьютеров в системах управления
635
где x * — точное значение экстремума; xГА — найденное значение экстремума с помощью генетического алгоритма. Другой важный результат, следующий из экспериментов: скорость приближения к экстремуму в ГА является очень высокой, для нахождения минимума во всех экспериментах достаточное число запусков 20÷30; увеличение числа запусков ГА практически не сказывается на точности приближения к экстремуму. Причиной этого является возможность быстрой локализации области глобального минимума за счет накопления информации о пространстве поиска в целом, например, путем применения оператора скрещивания «дальнее родство», увеличения вероятности генной мутации, использования новых операторов хромосомной мутации. Вероятность мутации оказывает существенное влияние на результаты поиска. Низкий процент генной мутации в варианте 2 генетического алгоритма практически не позволил найти экстремум функции, несмотря на увеличение числа запусков ГА. 1
m
0,8
1
0,6
2
0,4
3
0,2
4
0 10
20
50
100
число популяций Число популяций
Рис. 6.33. Отношение m найденных значений экстремумов функций к точным значениям при заданном числе популяций
Учитывая особенности постановки задачи оптимизации при обучении нейронной сети и основываясь на полученных экспериментальных результатах, можно предположить, что генетический алгоритм будет наиболее эффективной процедурой на первоначальном этапе поиска минимума ошибки обучения нейронной сети, на котором определяется область существования глобального экстремума. Второй этап процедуры обучения НС, связанный с уточнением значения E i в формуле (6.30), должен осуществляться с использованием локального алгоритма оптимизации. Преимущества генетического алгоритма оптимизации в процедуре обучения нейронной сети перед другими альтернативными методами иллюстрируются рис. 6.34: здесь представлены результаты распознавания структуры памяти в распределенной многопроцессорной системе с помощью нейронной сети, обученной с помощью двухэтапного алгоритма на основе генетического поиска (первый этап — рассмотренная выше процедура ГА; второй этап — авторский алгоритм оптимизации, всесторонне исследованный в [107]) и метода обратного распространения ошибки (Back ProPagation). Процент распознавания в ГА больше на 15÷20%. Возможность нахождения глобального экстремума ошибки обучения с помощью генетического алгоритма повышает процент распознавания, что позволяет говорить о перспективности его использования в задачах проектирования сложных технических систем. Метод оптимизации на основе генетического поиска, используемый в процедуре обучения нейронной сети, дает возможность повышать достоверность принимаемых проектных решений при одновременном сокращении времени исследования.
Методы современной теории автоматического управления
% распознавания
636
примеры
Рис. 6.34. Сравнение возможностей распознавания генетического алгоритма и алгоритма Back ProPagation (BP)
Кроме того, необходимо также отметить, что при использовании ГА в процедуре поиска минимума E активационная функция нейронного элемента не должна быть обязательно дифференцируемой, что позволяет адаптировать нейросетевую модель к реальной решаемой задаче. Генетический алгоритм допускает высокую степень параллельности при его реализации на распределенных вычислительных системах, что может значительно уменьшить время обучения нейронной сети. Простота выполняемых генетических операторов при обучении НС открывает перспективы для разработки высокоэффективных нейропроцессоров на основе RISC-модели. 6.13. НАСТРОЙКА НЕЙРОННОЙ СЕТИ НА РЕШЕНИЕ ЗАДАЧ КЛАССИФИКАЦИИ И РАСПОЗНАВАНИЯ
Для практического использования нейронной сети при решении реальных задач необходимо следующее: 1) обучение нейронной сети на известных примерах (на обучающей выборке); 2) работа обученной нейронной сети. Предварительная обработка входных данных Выбор архитектуры нейронной сети (НС) Выбор алгоритма обучения Выбор способа интерпретации ответов НС
Х Обучение (процесс формирования решающего правила)
Порождение гипотез (распознавание)
Выбор функции активации нейрона
Рис. 6.35. Схема настройки нейронной сети на решение задач классификации и распознавания
Y
Глава 6. Применение нейрокомпьютеров в системах управления
637
Реализация этих действий связана с выполнением следующих пунктов (рис. 6.35): 1) выполнить предобработку входных данных для корректного построения обучающей выборки (предобработчик данных); 2) определить способ интерпретации ответов сети; 3) выбрать критерий оценки работы сети; 4) провести собственно процедуру обучения сети; 5) обеспечить работу сети в режиме классификации и предсказания. Предобработчик входных данных. Для обучения нейронной сети необходимо наличие обучающей выборки. Обычно при обучении на вход сети примеры образцов приходится подавать многократно (как правило, 100÷1000 примеров [64, 210]). Поэтому скорость обработки обучающей выборки может существенно влиять на скорость обучения нейронной сети. При работе с обучающей выборкой удобно использовать привычный для пользователя формат данных. В мощных иностранных универсальных нейропакетах, таких как NeuroSolutions — фирмы NeuroDimension Inc., NeuralWorks Professional II/Plus — фирмы NeuralWare, поддерживаются основные типы представления данных: текстовые данные в формате ASCII, изображения в формате .bmp и т.д. С целью удобства работы производят нормирование и центрирование данных, для того чтобы каждая компонента вектора данных лежала на отрезке [0, 1] или [ −1, 1]. Стандартные преобразования для каждого элемента исходной выборки X могут быть выполнены следующим образом: x − M ( xi ) xi − M ( xi ) xi := i , или xi := , σ ( xi ) max xi − M ( xi ) N
где xi — i-я координата входного вектора; M ( xi ) — выборочная оценка математического ожидания xi (среднее значение): M ( xi ) =
1 N ∑ xi ; выборочная оценка средN i =1 12
⎛1 N 2⎞ него квадратичного отклонения σ ( xi ) : σ ( xi ) = ⎜ ∑ ( xi − M ( xi ) ) ⎟ . ⎝ N i =1 ⎠ Если эти преобразования не делать, то необходимо было бы выбирать пределы изменения параметров нейрона в зависимости от данных. При кодировании параметров исследуемых объектов целесообразно учитывать специфику их представления: например, при определении характеристик памяти в ЭВМ более информативным является параметр отношения времени выборки информации из памяти к стоимости, чем оба эти показателя в отдельности, что позволяет уменьшить размерность нейронной сети. Интерпретатор ответов сети. Стандартные («обезразмеренные») нейронные сети формируются таким образом, чтобы их выходные сигналы лежали в интервалах [ 0, 1]
или [ −1, 1]. Если необходимо получить выход в интервале [ a, b ] , то производится масштабирование выходного сигнала для попадания в нужный диапазон ответов. Для a+b b−a + y. В другом варианте инвыходного сигнала y в этом случае имеем y = 2 2 терпретации весь отрезок значений [ a, b ] , в котором должен лежать выходной сигнал нейронной сети, разбивается на m частей ( m выбирается довольно большим, так, чтобы ( b − a ) m было величиной порядка требуемой точности). Этим m интервалам ставится в соответствие m нейронов. Выходные сигналы нейронов обрабатываются по правилу «победитель забирает все»: если сигнал, принятый с i-го нейрона,
638
Методы современной теории автоматического управления
больше, чем другие, то делается вывод, что искомая величина лежит в i-й части отрезка [ a, b ] , этому интервалу можно поставить в соответствие 1, а всем остальным — 0. Большинство других известных вариантов масштабирования носит гибридный характер: за каждым нейроном закрепляется его область на отрезке [ a, b ] , а выходные сигналы нейронов позволяют более точно локализовать точку в этой области. Наиболее полный обзор наиболее известных методов интерпретации ответов нейронной сети можно найти в [64]. В задачах классификации наиболее распространено правило интерпретации «победитель забирает все»: число выходных нейронов равно числу распознаваемых классов, номер нейрона с максимальным сигналом интерпретируется как номер класса. Однако, если классов много, для реализации метода требуется много выходных нейронов. Знаковая интерпретация требует log 2 M нейронов ( M — число классов). Допустим, что y1 , y2 ,K , ym — совокупность выходных сигналов нейронов. Заменим в этой последовательности положительные числа единицами, а отрицательные — нулями. Полученная последовательность нулей и единиц рассматривается как номер класса в двоичной записи. Порядковая интерпретация определяет возможность для M выходных нейронов описать принадлежность к M ! классам (а в знаковой 2m ). Если провести сортировку выходные сигналов нейронов y1 , y2 ,K , ym и обозначить ni — номер i-го сигнала после сортировки (1 соответствует самому маленькому сигналу, M — самому большому), то перестановку 1 2 3K M n1 n2 n3 K nM можно рассматривать как слово, кодирующее номер класса. Всего возможно M ! перестановок. Для использования этого интерпретатора необходимо, чтобы характерная ошибка выходного сигнала была меньше 1 M . Даже при числе нейронов M = 10 требование к точности ε < 0,1, а число возможных классифицируемых объектов — 10! Для улучшения качества распознавания (более точного проведения разделяющей поверхности) используют «2-на-2» кодирование. В этом случае для распознавания М классов необходимо иметь M ( M − 1) 2 нейронов, каждый из которых реагирует только на два класса. Окончательное присваивание элементу i-го номера класса осуществляется с помощью булевой функции; на вход элемента, реализующего эту функцию, подают выходы с этих нейронов. Рисунок 6.36 иллюстрирует проблему кодирования выхода на примере двухмерной задачи с тремя классами. С помощью «2-на-2» кодирования задача классификации решается просто, тогда как в методе «победитель забирает все» необходимо строить нелинейные разделяющие границы. Нечеткая интерпретация для классификаторов также основывается на правиле «победитель забирает все». Выходные сигналы нейронов (после масштабирования — приведения значений в отрезок [ 0, 1] ) могут рассматриваться как функции принадлежности к соответствующим классам. В этом случае возможны следующие способы интерпретации: 1) выбирается класс, у которого значение выхода является максимальным; достоверность распознавания определяется как разность максимального сигнала и следующего за ним по величине; 2) значения выходов нейронов (классов) интерпретируются как меры уверенности принадлежности к тому или иному классу с указанием наилучшего приближения к какому-то классу.
Глава 6. Применение нейрокомпьютеров в системах управления
2
1
− + 2/1−3
+ − 1/2−3
1/2 + −
− 3/1−2 +
3
639
2
1
+
− 1/3
3
−
+ 2/3
1/все
2/все
3/все
1/2
1/3
2/3
x1
x2
x3
x1
x2
x3
a
б Рис. 6.36. Кодирование выхода:
а — «победитель забирает все»; б — «2-на-2» кодирование
Перечень приведенных способов интерпретации ответов НС не является полным. Для каждой предметной области при решении конкретных задач необходимо их экспериментальное исследование. В нашей практике применения нейронных сетей для исследования вычислительных систем наиболее часто использовалась интерпретация, основывающаяся на правиле «победитель забирает все» и нечеткая интерпретация. Оценка качества работы нейронной сети. Поскольку обучение основывается на минимизации значения некоторой функции, показывающей отклонение результатов, которые выдает сеть на данном обучающем множестве, от идеальных требуемых, то необходимо выбирать соответствующую оценку. Обычно в качестве такой оценки берется средняя квадратичная ошибка (MSE), которая определяется как сумма квадратов разностей между желаемой величиной выхода di и реально полученными на сети значениями yi для каждого примера i : 1 P 2 ∑ ( di − yi ) , P i =1 иногда берется корень квадратный из нее (RMSE). Оценка MSE используется в тех случаях, когда выходные сигналы сети должны с заданной и одинаковой для всех сигналов точностью ε совпадать с известными векторами, где ε определяется как уровень надежности [64]. Для учета уровня надежности обучения обычно используется модифицированный MSE: E=
2
1 P ⎛ di − yi ⎞ (6.32) ∑⎜ ⎟ , P i =1 ⎝ ε ⎠ где ε имеет различный диапазон изменения для используемых способов интерпретации: 0 < ε ≤ 1 — для знаковой интерпретации; 0 < ε ≤ 2 — для правила «победитель E=
640
Методы современной теории автоматического управления
забирает все»; 0 < ε ≤ 2 ( N − 1) — для порядковой интерпретации, где N — размерность вектора входных сигналов [64]. Уровень надежности обучения вводится с целью обеспечения устойчивой работы сети. Критерий устойчивости формулируется следующим образом: работа сети считается устойчивой, если при изменении выходных сигналов сети на величину, меньшую ε, интерпретация ответов сети не меняется. Этот факт можно использовать для обеспечения ускоренного обучения сети: целесообразно при вычислении оценки по формуле (6.32) использовать только такие выходные сигналы (множество правильных ответов), интерпретация которых не меняется при изменении их значений на величину, меньшую ε. Оценку MSE можно обобщить, если использовать суммирование квадратов разностей ( di − yi ) с соответствующими весами: 2
1 P 2 (6.33) ∑ Ki ( di − yi ) , P i =1 где K i — вес i-го примера в обучающей выборке. Использование оценки (6.33) позволяет выделить наиболее важные примеры из обучающей выборки, устанавливая для этого соответствующий вес. Кроме того, эту оценку целесообразно использовать для уравновешивания различных групп примеров в задачах классификации. С этой целью необходимо назначать веса K i так, чтобы суммарный вес обучающих примеров в каждом классе не зависел от класса (например, можно назначить для любого примера Wi = 1 m , где i — номер класса, m — число примеров в классе). В случае нечеткой экспертной оценки «учителя» отдельных вариантов примеров при формировании обучающей выборки также целесообразно увеличить вес этих вариантов, чтобы они могли влиять на процесс обучения сети. Наряду с оценкой MSE можно использовать и другие оценки, например, расстояние Кульбака–Лейблера, связанное с критерием максимума правдоподобия [31]: M d 1 − di E = ∑ di log i + (1 − di ) log . yi 1 − yi i =1 Более простыми являются оценки, часто используемые при аппаратной реализации нейронных сетей (например, ZISC Accelerator cards для IBM Compatible PC) и в нейроимитаторах: E=
M
E = ∑ yi − di ; i =1
E = max yi − di ; M
где M — число выходов сети. Процедура классификации на основе нейронной сети. Обучение многослойной нейронной сети производится в два этапа: 1) предъявление нейронной сети обучающего множества примеров до тех пор, пока не будет выполнено условие останова обучения: а) вычисляемая ошибка сети E становится меньше заданной или перестает изменяться в течение определенного числа итераций («эпох»); б) по истечении заданного числа итераций; 2) проверка правильности работы сети на тестовом множестве; если ошибка обобщения Eобобщ > δ, где δ — заданная ошибка обобщения, производится увеличение числа итераций либо число обучающих примеров, либо происходит модификация архитектуры нейронной сети. Задача классификации с помощью обученных нейронных сетей понимается как задача отнесения некоторого примера к одному из нескольких попарно не пересе-
Глава 6. Применение нейрокомпьютеров в системах управления
641
кающихся множеств объектов. В реальных ситуациях при классификации объектов выделяют три уровня сложности (рис. 6.37): 1) классы можно разделить прямыми линиями (или гиперплоскостями, если пространство параметров более двух): линейная отделимость; 2) классы можно разделить несколькими гиперплоскостями: нелинейная отделимость; 3) классы пересекаются, поэтому их разделение можно трактовать только в вероятностном смысле.
а
б
в
г
Рис. 6.37. Различные степени сложности в разделении классов (в данном случае двух классов): а — линейно отделимые; б, в — нелинейно отделимые; г — неразделимые
Нейронная сеть может осуществлять классификацию на всех трех уровнях сложности с заданной ошибкой обобщения. Решение задачи классификации с помощью нейронной сети сводится к предъявлению обученной сети набора входных векторов, не включенных в обучающую выборку. Нейронная сеть должна каждый из этих векторов отнести к определенному классу. Используемое при этом решающее правило зависит от выбранного метода интерпретации ответов сети. Так, если выбран метод «победитель забирает все», то сеть относит предъявляемый ей входной вектор только к одному из классов. Если же выбран метод нечеткой классификации, то сеть выдает последовательность чисел, например в интервале [ 0, 1] , каждое из которых определяет вероятность отнесения входного вектора к тому или иному классу. В такой постановке решение задачи классификации будет идентично решению задачи распознавания. В этом случае на вход сети подается вектор с неизвестными ранее значениями параметров, сеть относит входной образ к определенному классу. Алгоритмы классификации в нейронных сетях основаны на использовании мер близости между объектами (рис. 6.38).
Рис. 6.38. Определение расстояния между классами и внутри класса
642
Методы современной теории автоматического управления
Простейшая мера близости объектов — квадрат евклидова расстояния между векторами значений параметров, характеризующих объект (чем меньше расстояние между векторами значений их параметров, тем ближе объекты). Другая мера близости, обычно возникающая при обработке с помощью нейронной сети сигналов, изображений и т.п., — квадрат коэффициента корреляции (чем он больше, тем ближе объекты). В качестве многомерного критерия часто используется расстояние Махаланобиса [31]:
(
distM = μ Ki − μ K j
)
Т
(
)
Σ −1 μ Ki − μ K j ,
где Σ — общая ковариационная матрица классов K i и K j . Этот критерий можно интерпретировать как евклидово расстояние между классами, взятое с весами, определенными дисперсией разности μ Ki − μ K j . Для всех этих мер близости для каждого класса обычно выбирают типичный объект, вектор значений параметров которого получается путем усреднения по всему классу. Для минимизации ошибки распознавания с помощью нейронной сети необходимо определить степень близости между объектами, принадлежащими к одному классу, и степень удаленности объектов, относящихся к разным классам. В качестве оценки близости между объектами будем использовать усредненное расстояние между объектами i-го класса, вычисленное в соответствии с выбранной метрикой: 1 ki −1 ki Ri = ∑ ∑ d xi , x j , N i i =1 j =1
(
)
где N i = ( ki ⋅ ki − 1) 2 — количество связей между объектами в классе K i . Оценка близости образов, принадлежащих двум разным классам: k 1 ki j Qi , j = ∑∑ d xi , x j , Nij i =1 j =1
(
)
где Nij — количество связей между объектами классов K i и K j . Интегральные оценки, вычисленные в результате усреднения по всем классам, представляются как m −1 m 1 1 R = ∑ Ri ; Q = ∑ ∑ Qij , m m(m − 1) / 2 i =1 j =1 где m — количество классов. В идеальном случае, когда R → 0 и Q → ∞, минимизация ошибки сети E при обучении на любом подмножестве обучающей выборки обеспечит минимизацию ошибки распознавания. Если при этом Q < R , то можно предположить несколько гипотез, объясняющих этот факт: 1) имеются ошибки при определении соответствия между объектами и заданными классами; 2) выбранные примеры образцов в обучающем множестве не являются достаточно информативными; 3) используемый способ предобработки данных неадекватен решаемой задаче. Первые два предположения связаны в основном с общей организацией работ по синтезу нейронной сети для решения задач распознавания. Последняя гипотеза имеет непосредственное отношение к проблеме обучения нейронных сетей. Поэтому для повышения достоверности распознавания необходимо иметь генератор обучающих примеров (один из способов рассмотрен в следующем пункте). Если после процедуры обучения сети Q < R , необходимо производить коррекцию выбранной нейронной сети или изменить способ представления входного вектора.
Глава 6. Применение нейрокомпьютеров в системах управления
643
6.14. НЕЙРОЧИПЫ 6.14.1. КЛАССИФИКАЦИЯ НЕЙРОЧИПОВ Нейрочипом принято называть специализированную сверхбольшую интегральную схему (СБИС-нейрочип), ориентированную на реализацию нейросетевых алгоритмов. Разработкой нейрочипов занимаются многие фирмы в различных странах. Значительный рост выпуска СБИС-нейрочипов наметился с середины 90-х годов прошлого века. По принципу построения, по назначению и характеристикам они сильно отличаются друг от друга. На рис. 6.39 приведена схема классификации СБИС-нейрочипов [109]. Нейрочипы
Аналоговые
Цифровые
Гибридные
С битовыми весовыми коэффициентами
С жесткой структурой
С аналоговыми весовыми коэффициентами и цифровой логикой
С фиксированными весовыми коэффициентами
С переменной структурой
С частотно-импульсной модуляцией
Клеточные
Клеточные
С цифровыми весовыми коэффициентами и аналоговой логикой
Клеточные С многоразрядными весовыми коэффициентами С битовыми весовыми коэффициентами С встроенными фотоэлементами
Рис. 6.39. Схема классификации нейрочипов
По виду информационного носителя нейрочипы делятся на аналоговые, цифровые и гибридные. Аналоговая элементная база характеризуется большим быстродействием и низкой стоимостью, что в значительной мере способствует ее производству. Самыми простыми являются СБИС с битовыми весовыми коэффициентами, которые, как правило, являются настраиваемыми, и с фиксированными весовыми коэффициентами и полными последовательными связями. В аналоговой технике широко используется такой вид модуляции, как частотно-импульсная модуляция. Аппаратура, использующая эту модуляцию, характеризуется низким энергопотреблением, высокой надежностью. Отметим, что в биологических нейронных сетях сигналы представляются
644
Методы современной теории автоматического управления
именно частотно-импульсной модуляцией. Очевидно, что эти факторы и способствовали появлению на рынке аналоговых СБИС-чипов с такой модуляцией сигнала. По способу реализации нейроалгоритмов различают нейрочипы с полностью аппаратной и с программно-аппаратной реализацией (когда нейроалгоритмы хранятся в программируемом запоминающем устройстве). Как видно из схемы классификации (рис. 6.39) нейрочипы могут быть как с жесткой, так и с переменной структурой. К отдельному классу относятся нейросигнальные процессоры. Ядро этих СБИС представляет сигнальный процессор, а реализованные на кристалле специальные дополнительные модули обеспечивают выполнение нейросетевых алгоритмов. Таким дополнительным модулем, например, может быть векторный процессор. Возможности микроэлектроники и запросы потребителей привели к созданию проблемно-ориентированного направления выпуска нейрочипов. Можно выделить следующие области их проблемной ориентации [53]: • обработка, сжатие и сегментация изображения; • обработка стереоизображений; • выделение движущихся целей на изображении; • обработка сигналов; • ассоциативная память. Особое место в проблемной ориентации нейрочипов занимает ориентация на клеточную структуру. На такой структуре строятся резистивные решетки, нейрочипы с внутрикристаллической реализацией слоя фоторецепторов, так называемые ретины. Ретины используют в робототехнике, в медицине для вживления в глаз слепого человека. В настоящее время значительно возрос выпуск нейрочипов, структурные особенности которых определены совместной работой биолога и схемотехника-электронщика. Такие чипы и вычислительные устройства на их основе достигают решения конкретных технических задач путем моделирования на аппаратном уровне функционирования тех или иных подсистем живых организмов. 6.14.2. НЕЙРОПРОЦЕССОР Л1879ВМ1 [246] Нейропроцессор Л1879ВМ1 разработан в научно-техническом центре «Модуль» (Россия, Москва). Он представляет собой высокопроизводительный микропроцессор со статической суперскалярной архитектурой. Одним из назначений Л1879ВМ1 является аппаратная эмуляция разнообразных типов нейронных сетей. Л1879ВМ1 предназначен для обработки 32-разрядных скалярных данных и данных программируемой разрядности, упакованных в 64-разрядные слова, которые в дальнейшем будут называться векторами упакованных данных. Структурная схема микропроцессора Л1879ВМ1 приведена на рис. 6.40. Основой нейрочипа является центральный процессор RISC CORE. Он предназначен для выполнения арифметико-логических операций и операций сдвига над 32-разрядными скалярными данными, формирования 32-разрядных адресов команд и данных при обращении к внешней памяти, а также для выполнения всех основных функций по управлению работой нейропроцессора. VCP — векторный сопроцессор. Он предназначен для выполнения арифметических и логических операций над 64-разрядными векторами данных программируемой разрядности. LMI и GMI — два одинаковых блока программируемого интерфейса с локальной и глобальной 64-разрядными внешними шинами. К каждой из шин может быть подключена внешняя память, содержащая 231 32-разрядных ячеек. Обмен данными с внешней памятью может осуществляться как 32-разрядными, так и 64-разрядными словами. В последнем случае нейропроцессор одновременно выбирает две соседние
Глава 6. Применение нейрокомпьютеров в системах управления
645
ячейки памяти. Адресация внешней памяти осуществляется страничным способом, при котором на одну и ту же внешнюю 15-разрядную адресную шину в режиме разделения времени выдаются как младшие, так и старшие разряды адреса, причем старшие разряды адреса выдаются только при переходе к выборке новой страницы памяти. Каждый блок программируемого интерфейса обеспечивает эффективную работу нейропроцессора с двумя банками внешней памяти различного объема, различного типа и различного быстродействия без использования дополнительного оборудования. В данных блоках предусмотрена аппаратная поддержка разделяемой памяти для различных мультипроцессорных конфигураций внешних шин.
СР0
VCP
СР1
Локальная шина адреса Глобальная шина адреса
G M I
1-я шина ввода
L M I
2-я шина ввода Шина вывода данных
RISC CORE
Рис. 6.40. Структурная схема нейропроцессора Л1879ВМ1
СР0, СР1 — два идентичных коммуникационных порта, каждый из которых обеспечивает обмен информацией по двунаправленному байтовому линку между нейропроцессором и его абонентом. Порты полностью совместимы с коммуникационным портом ЦПС TMS320C4x фирмы Texas Instruments, что дает возможность проектировать высокопроизводительные мультипроцессорные системы. Каждый порт имеет встроенный контроллер прямого доступа к памяти, позволяющий обмениваться 64-разрядными данными с внешней памятью, подключенной к локальной и/или глобальной внешним шинам. Л1879ВМ1 имеет пять внутренних шин, через которые осуществляется обмен информацией между его основными структурными блоками. Локальная и глобальная адресные шины (LOCAL ADDRESS BUS, GLOBAL ADDRESS BUS) служат для пересылки адресов команд, сформированных RISCядром, и адресов данных, сформированных RISC-ядром в программном режиме или коммуникационными портами в режиме прямого доступа к памяти, в соответствующие блоки программируемого интерфейса при обращении к внешней памяти. Выходная шина данных (OUTPUT DATA BUS) служит для пересылки данных, подлежащих записи в локальную или глобальную внешние памяти, из RISC-ядра век-
646
Методы современной теории автоматического управления
торного процессора и коммуникационного порта в блоки программируемого интерфейса. 1-я и 2-я шины ввода (INPUT BUS #1, INPUT BUS #2) предназначены для пересылки данных и команд, считанных из локальной или глобальной внешней памяти, из блоков программируемого интерфейса в любой из основных узлов нейропроцессора. Причем в программном режиме работы нейропроцессора пересылка скалярных данных осуществляется только по INPUT BUS #2, а пересылка векторных данных — по INPUT BUS #1. Пересылка данных в режиме прямого доступа к памяти и пересылка команд могут осуществляться по любой из этих внутренних шин. Межрегистровые пересылки скалярных данных и пересылки констант из регистра команд в программно доступные регистры осуществляется через блоки программируемого интерфейса с использованием внутренних шин OUTPUT DATA BUS и INPUT BUS #2. 64-разрядные шины INPUT BUS #1, INPUT BUS #2 и OUTPUT DATA BUS позволяют за один такт пересылать как 32-разрядные, так и 64-разрядные данные. Поэтому с целью уменьшения числа выполняемых операций пересылок типа «регистр– регистр» и «память–регистр» большинство 32-разрядных регистров нейропроцессора могут программно объединяться в регистровые пары при выполнении этих операций. Кроме того, нейропроцессор содержит несколько 64-разрядных управляющих регистров, что также позволяет говорить о выполнении пересылок над 64-разрядными скалярными данными. Выборка команд из внешней памяти осуществляется 64-разрядными словами, каждое из которых представляет собой одну 64- или две 32-разрядных команды. Нейропроцессор использует 32-разрядный вычисляемый адрес при обращении к внешней памяти. Доступное адресное пространство нейропроцессора равно 16 Гб. Оно делится на две равные части — локальное и глобальное. На рис. 6.41 показано распределение адресного пространства нейропроцессора. Разряды 63
32 31
0 00000000h
00000001h Локальная память 7FFFFFFEh
7FFFFFFFh 80000000h
80000001h
Адрес
Глобальная память FFFFFFFEh
FFFFFFFFh
Рис. 6.41. Распределение адресного пространства нейропроцессора Л1879ВМ1
Если старший разряд адреса равен нулю, то идет обращение к локальной памяти, если единице — к глобальной. Младший разряд вычисляемого адреса используется при доступе к 32-разрядным данным. Если он равен нулю, то используется младшая часть памяти (разряды 31÷0). При обращении к 64-разрядным данным или при выборке команд он игнорируется.
Глава 7. Методы полиэдрального программирования
ГЛАВА 7.
647
МЕТОДЫ ПОЛИЭДРАЛЬНОГО ПРОГРАММИРОВАНИЯ В ДИСКРЕТНЫХ ЗАДАЧАХ УПРАВЛЕНИЯ И НАБЛЮДЕНИЯ*
В современной теории управления, следуя лозунгу «Оптимизировать все, что оптимизируется, а что не оптимизируется, сделать оптимизируемым», на первый план выдвинуты задачи оптимизации цели управления при соблюдении множества ограничений. При этом большая часть данных задач не поддается аналитическому решению и требует применения численных методов. Интенсивные работы по созданию численных методов решения задач оптимального управления начались практически одновременно с чисто теоретическими исследованиями в конце пятидесятых годов прошлого столетия. Первые результаты здесь связаны с работами Д.Е. Охоцимского и Э.Т. Энеева, Л.И. Шатровского, Н.Н. Красовского, И.А. Крылова и Ф.Л. Черноусько, Н.Н. Моисеева, Б.Н. Пшеничного, В.Ф. Демьянова, Р.П. Федоренко, А. Брайсона (A.E. Bryson) и В. Денхема (W.F. Denham), Г. Келли (H.J. Kelley), А. Балакришнана (A.V. Balakrishnan) и Л. Нейштадта (L.W. Neustadt), Дж. Итона (J.H. Eaton). Несмотря на большое многообразие, численные методы, в зависимости от непосредственного использования или неиспользования в них необходимых и (или) достаточных условий экстремума для исходной задачи, принято условно разделять на «непрямые» и «прямые» соответственно. Среди последних особое место при решении задач оптимального управления занимают методы, основанные на применении математического программирования (МП) — мощного аппарата решения задач оптимизации [139]. Данные методы уже прочно вошли в золотой фонд теории управления и нашли развитие в известных книгах Н.Н. Моисеева, Ю.М. Ермольева, В.П. Гуленко и Т.И. Царенко, Н.Е. Кирина, А.И. Пропоя, В.Г. Болтянского, Б.Д. Мордуховича, Ю.Г. Евтушенко, Р.П. Федоренко, Д. Табака (D. Tabak) и Б. Куо (B.C. Kuo), Э. Полака (E. Polak), Ф. Кларка (F.H. Clarke) и др. Дело в том, что МП является универсальным средством получения численных решений задач оптимального управления. Более того, как справедливо отмечают Д. Табак и Б. Куо, «…для большого класса задач оптимального управления МП является наиболее эффективным подходом, а в ряде случаев и единственным, фактически применимым на практике». МП как область математики, разрабатывающая теорию и численные методы решения экстремальных задач, состоит из нескольких разделов, рассматривающих частные типы экстремальных задач, учитывающих специфику их постановки — вид целевой и ограничивающих функций [140]. Вследствие закономерного расширения сферы применения МП возникли и успешно развиваются линейное, выпуклое, квадратичное, гиперболическое, полиномиальное, дробно-линейное, однородное, сепарабельное и другие типы программирования. Особое место в прикладных оптимизационных задачах отводится методам линейного программирования (ЛП) [200], как наиболее зрелого и развитого раздела МП, занимающегося изучением экстремальных задач с линейными целевыми и ограничивающими функциями. Методы ЛП основательно проработаны алгоритмически и обеспечены эффективным арсеналом программных средств, что обусловило их широкое применение в различных областях науки и техники, включая теорию и практику управления динамическими объектами. Впервые ЛП было применено к задачам управления в начале * Поскольку в данном томе представлены перспективные методы, развиваемые в последнее время, то некоторые положения настоящей главы могут служить предметом дискуссий и обсуждений.
648
Методы современной теории автоматического управления
60-х годов прошлого столетия в работах: А. Манне (A.S. Manne), А. Мааса (A. Maas), Л. Заде (L.A. Zadeh) и Б. Уалена (B.H. Whalen), Х. Торнга (H.C. Torng), К. Фигли (K. Fegley) и М. Хзу (M.I. Hsu), А.И. Пропоя, Л.С. Гноенского и С.М. Мовшовича. К настоящему времени насчитывается значительное число публикаций, посвященных использованию методов ЛП для оптимизации процессов управления (см., например, [48, 207, 254, 260]). Во всех этих работах исходная задача оптимального управления, так или иначе, переформулируется и сводится к некоторой задаче МП, а затем используется тот или иной прием сведения последней к задачам ЛП. Однако, несмотря на большую популярность ЛП в научных и инженерных разработках, линейная структура задач ЛП, т.е. линейность целевых и ограничивающих функций, значительно сужает область его применения. Именно это обстоятельство привело к необходимости разработки полиэдрального программирования (ПП) [219, 220] — специального раздела МП, рассматривающего класс экстремальных задач с полиэдральной структурой — с полиэдральными целевыми и ограничивающими функциями (функциями, надграфик которых является выпуклым полиэдром). Оказывается, многие возникающие на практике оптимизационные задачи являются задачами ПП или могут быть различными способами аппроксимированы ими. Целевая функция в данных задачах либо a priori является полиэдральной функцией, либо представляет собой результат аппроксимации ею (для выпуклых функций — сколь угодно точной). В терминах ПП может быть формализован широкий класс прикладных задач оптимизации экономических, технических и технологических процессов. Следует отметить, что ПП занимает «промежуточное» место между линейным и выпуклым программированием, являясь обобщением первого и частным случаем второго. Более точно ПП можно рассматривать как новую, современную трактовку так называемого кусочно-линейного программирования (КЛП) [184], в котором целевая и ограничивающие функции являются выпуклыми кусочно-линейными функциями. Основы теории и методы КЛП были заложены еще в 60-х годах прошлого столетия в известных книгах Е.Г. Гольштейна, Д.Б. Юдина и С.И. Зуховицкого, Л.И. Авдеевой. Однако в современной учебной и монографической литературе данный раздел МП практически отсутствует. Более того, термин «кусочно-линейное программирование» в отечественной литературе так и не стал общепринятым, а в зарубежной литературе он просто не используется. В связи с этим введение термина «полиэдральное программирование» является принципиальным и вполне оправданным: он более адекватно отражает существо рассматриваемых задач, позволяет избежать терминологической путаницы и привнести необходимую строгость в общую классификацию разделов МП. Следует заметить, что в отечественной литературе термин «полиэдральное программирование», а точнее — «сепарабельное полиэдральное выпуклое программирование» впервые встречается в монографии А.Д. Гвишиани и В.А. Гурвича (1992 г.). В основе ПП лежат три «кита»: полиэдры, линейные и полиэдральные неравенства, а также ЛП, представляющие три разные грани — геометрическую, алгебраическую и оптимизационную — одной и той же проблемной области. Здесь ключевыми являются такие конструкции, как полиэдральное множество, полиэдральная функция, полиэдральная норма и полиэдральная метрика, которые открывают новые возможности с точки зрения формализации постановки и содержательной интерпретации прикладных задач в терминах ПП. Фундаментальная особенность ПП, характеризующая его перспективность, состоит в возможности сведения решаемых оптимизационных задач к задачам ЛП. В настоящей главе приводятся основные положения и обсуждаются особенности применения ПП к задачам управления линейными дискретными динамическими объектами. При этом принципиальное значение имеет обращение к широкому кругу нелинейных задач управления, учитывающих такие существенно нелинейные факторы, как ресурсные и фазовые ограничения, т.е. ограничения на управление и переменные
Глава 7. Методы полиэдрального программирования
649
состояния объекта. ПП дает единую методологическую базу для решения таких задач с использованием всего имеющегося арсенала алгоритмических средств ЛП. Посредством введения полиэдральных критериев качества процесса управления, а также полиэдральных фазовых и ресурсных ограничений, удается решить многие как классические, так и современные задачи оптимизации дискретных процессов управления [224]. Универсальность применяемого математического формализма и алгоритмического обеспечения делают ПП весьма привлекательным. Следует подчеркнуть, что материал главы ограничен рассмотрением лишь класса дискретных задач терминального управления. Однако данные задачи имеют в теории и практике управления не менее важное значение, чем непрерывные задачи управления на полуинтервале, поскольку, как утверждал Н.Н. Моисеев: «…мир в принципе не только дискретен, но и конечен». Задачи дискретного управления возникают в двух случаях: когда процесс управления по своей сути является дискретным и когда для управления непрерывным процессом используется дискретное управляющее устройство, например ЭВМ. Действительно, все процессы управления социально-экономическими системами, а также многие процессы управления техническими объектами по своей природе являются дискретными: в них контроль состояния объекта и управление им осуществляется в дискретные моменты времени. Особенно важное значение данные процессы приобрели в связи с внедрением в практику управления средств вычислительной техники. Кроме этого, задачи дискретного управления часто являются дискретной формой исходной непрерывной задачи оптимального управления. Как подчеркивает К. Негойцэ (C.V. Negoita): «Вычисляя стратегии управления для реальных непрерывных систем, мы в некотором смысле вынуждены обращаться с ними как с дискретными системами, поскольку можем произвести лишь конечное число измерений значений выходного сигнала в любом интервале времени». В связи с этим уместно привести точку зрения ведущего ученого в области численных методов оптимального управления Э. Полака: «Во многих случаях формулировка задачи оптимального управления в дискретном виде предпочтительнее, чем в непрерывном», поскольку «…любой численный метод решения задач непрерывного оптимального управления предполагает ту или иную форму дискретизации задачи». По мнению К. Негойцэ: «Часто результаты, полученные для дискретных систем, гораздо проще понять. На них основывается и наша интуиция, помогающая выявить детали, необходимые при доказательстве соответствующих свойств в непрерывных системах». Аналогичной точки зрения придерживался и Н.Н. Моисеев, отмечая, что «…в ряде случаев конечномерные задачи бывает удобно интерпретировать как конечномерные аналоги динамических задач оптимального управления». 7.1.
ОСНОВНЫЕ ПОЛОЖЕНИЯ ТЕОРИИ ПОЛИЭДРАЛЬНОГО ПРОГРАММИРОВАНИЯ
Приведем общие положения теории ПП, лежащей в основе технологии формализации постановки и решения задач полиэдральной оптимизации процессов управления. Сначала дадим обзор основных понятий, конструкций и результатов полиэдрального анализа [126, 130], а затем рассмотрим постановки и методы решения основных задач ПП [219, 220]. 7.1.1.
ЭЛЕМЕНТЫ ПОЛИЭДРАЛЬНОГО АНАЛИЗА
Полиэдральные множества. Пусть R n — n-мерное вещественное линейное пространство, а E — евклидово пространство со скалярным произведением x, x′ двух векторов
650
Методы современной теории автоматического управления x = ( x1 , x2 ,K , xn ) , x′ = ( x1′ , x2′ ,K , xn′ ) ∈ E ,
причем n
x, x′ = ∑ xi xi′, x, x′ ∈ E = R n . i =1
Полиэдральным множеством, или выпуклым полиэдром P ⊂ E , будем называть непустое множество, образованное пересечением конечного числа замкнутых полупространств в E , причем пустое множество ∅ будем считать полиэдральным множеством по определению. Множество Ω ⊂ E будем называть выпуклым телом, если оно выпукло и содержит хотя бы одну внутреннюю точку, т.е. int Ω ≠ ∅. Полиэдральные функции. Будем рассматривать непрерывные вещественные функции на X = R n . С каждой функцией f : X → R свяжем следующие множества: • надграфик (или эпиграф): epi f ≡ {( x, μ ) ∈ X × R : μ ≥ f ( x )};
• множество уровня ( α ∈ R ): Cα ( f ) = {x ∈ X : f ( x ) ≤ α}. Предложение 7.1. Всякая функция определяется своим надграфиком: f ( x ) = inf {μ : ( x, μ ) ∈ epi f }. Функцию f будем называть выпуклой (на X ), если для произвольных x0 , x1 ∈ X
и λ ∈ [ 0,1] выполняется неравенство Иенсена
f ( (1 − λ ) x0 + λx1 ) ≤ (1 − λ ) f ( x0 ) + λf ( x1 ) , и строго выпуклой, если оно выполняется строго при x0 ≠ x1 и 0 < λ < 1. Отметим следующие свойства выпуклых функций: 1) если f выпукла, то при любом α ∈ R множество Cα ( f ) либо пусто, либо выпукло; 2) f выпукла тогда и только тогда, когда множество epi f выпукло; 3) сумма выпуклых функций с неотрицательными коэффициентами есть выпуклая функция. На классе непрерывных функций f1 ( x ) , f 2 ( x ) ,K, f m ( x ) определим операцию поточечного максимума [99]:
∨ f (x) = ( f ∨ f m
i =1
i
1
2
∨ K ∨ f m )( x ) = max { f1 ( x ) , f 2 ( x ) ,K , f m ( x )} .
Геометрический смысл данной операции поясняет следующее предложение. Предложение 7.2. Если f1 ( x ) , f 2 ( x ) ,K, f m ( x ) — непрерывные функции на X , то f (x) =
∨ f (x) m
i =1
i
тогда и только тогда, когда m
epi f = I epi fi . i =1
Рассмотрим конечную систему линейных функций ϕi : X → R : ϕi ( x ) = γ i + di , x ,
где γ i ∈ R, di ∈ X , i = 1, m. Всякую линейную функцию ϕ : X → R можно представить в виде
Глава 7. Методы полиэдрального программирования
651
ϕ ( x ) = γ + d, x ,
где γ = ϕ ( 0 ) и d = grad ϕ ( x ) . Надграфиком данной линейной функции является полупространство P = epi ϕ . Функцию будем называть полиэдральной [179], если ее надграфик является выпуклым полиэдром. Предложение 7.3. Для любого α ∈ R множество уровня Cα ( f ) полиэдральной функции f является выпуклым полиэдром. Предложение 7.4. Если f : R k → R — полиэдральная функция, то для любой матрицы G ∈ R k ×n сложная функция g : R n → R, определяемая равенством g ( x ) = f ( Gx ) , также является полиэдральной. Теорема 7.1. Пусть f : X → R является выпуклой функцией, и положим, что пространство X можно разбить на конечное число замкнутых выпуклых тел Ω1 , Ω 2 ,K , Ω m : X = Ω1 U Ω 2 UKU Ω m , внутренности которых не пересекаются, причем функция f является линейной в каждой открытой области int Ωi , i = 1, m. Тогда f — полиэдральная функция.
Теорема 7.2. Функция f ( x ) является полиэдральной тогда и только тогда, когда она является функцией максимума конечного числа некоторых линейных функций ϕ1 ( x ) , ϕ2 ( x ) ,K, ϕm ( x ) :
f (x) =
∨ ϕ ( x ). m
i =1
i
(7.1)
Представление полиэдральной функции в виде (7.1) будем называть ее дизъюнктивным разложением. Теорема 7.3. Если f1 ( x ) , f 2 ( x ) ,K, f m ( x ) — полиэдральные функции, а f ( x ) — функция максимума
f ( x) =
∨ f ( x), m
i =1
i
то f — полиэдральная функция. Таким образом, класс полиэдральных функций совпадает с классом выпуклых кусочно-линейных функций. Приведенные выше свойства полиэдральных функций указывают на возможность построения новых полиэдральных функций из имеющихся посредством трех операций: умножения на положительный скаляр, сложения и поточечного максимума, а также посредством линейного преобразования аргумента исходной полиэдральной функции. В качестве примера приведем следующие полиэдральные функции: 1) n = 1; f1 ( x ) = x = max {− x, x} ; 2) n = 2; f 2 ( x ) = max {− x1 , − x2 , x1 + x2 } ;
3) n = 3; f3 ( x ) = max { x1 , x2 , x3 } ; f 4 ( x ) = x1 + x2 + x3 . Заметим, что множество уровня Cα данных функций при α > 0 является непустым,
причем для функций f2 ( x ) , f3 ( x ) и f 4 ( x ) это соответственно треугольник, куб, октаэдр.
652
Методы современной теории автоматического управления
Полиэдральные неравенства. Неравенства вида g ( x ) ≤ C,
(7.2)
где g ( x ) — некоторая полиэдральная функция, а C = const, будем называть полиэдральными неравенствами. Согласно предложению 7.3 множество решений неравенства (7.2) является выпуклым полиэдром. Важное методологические значение имеет следующее предложение. Предложение 7.5. Всякую конечную систему полиэдральных неравенств g k ( x ) ≤ 0, k = 1, r можно представить единственным полиэдральным неравенством g ( x ) ≤ 0, где g (x) =
∨ g ( x ). r
k
k =1
Таким образом, всякую совокупность полиэдральных ограничений можно представить в агрегированном виде (7.2). Следующие два предложения раскрывают технику сведения полиэдральных неравенств к системе линейных неравенств. Предложение 7.6. Пусть g (x) =
∨ψ q
j =1
j
(x),
где ψ j ( x ) — линейные функции. Тогда полиэдральное неравенство (7.2) можно разложить в эквивалентную систему линейных неравенств ψ j ( x ) ≤ C , j = 1, q.
Предложение 7.7. Пусть g ( x ) = g1 ( x ) + g 2 ( x ) + K + g m ( x ) , где x = ( x1 , x2 ,K, xn ) ∈ X = R n , а g1 ( x ) , g 2 ( x ) ,K , g m ( x ) — полиэдральные функции. Тогда полиэдральное неравенство (7.2) разлагается в следующую систему неравенств: (7.3) xn+1 + xn + 2 + K + xn + m ≤ C ,
gi ( x ) ≤ xn+i , i = 1, m. (7.4) Заметим, что переход от неравенства (7.2) к системе неравенств (7.3), (7.4) выполняется путем введения m дополнительных переменных xn+1 , xn+ 2 ,K, xn+ m , являю-
щихся мажорантами полиэдральных слагаемых g1 ( x ) , g 2 ( x ) ,K, g m ( x ) . При этом множество решений исходного неравенства расширяется и совпадает с R n+ m. Полиэдральные нормы и метрики. Норму, являющуюся полиэдральной функцией координат, будем называть полиэдральной. Широкое распространение находят следующие полиэдральные нормы: n
x 1 = ∑ xi , x i =1
∞
= max xi , 1≤i ≤n
известные как октаэдрическая и кубическая (или чебышевская) нормы соответственно. Данные полиэдральные нормы порождают следующие две полиэдральные метрики: • расстояние Минковского: dist1 ( x, x′ ) = x − x′ 1 ; • расстояние Чебышева: dist ∞ ( x, x′ ) = x − x′ ∞ .
Глава 7. Методы полиэдрального программирования
653
Рассмотрим линейные формы ϕi ( x ) = di , x ,
(7.5)
где di ∈ X , i = 1, m, а также функцию их максимума h ( x) =
{
∨ ϕ ( x ). m
i =1
(7.6)
i
}
Совокупность векторов di , i = 1, m будем называть всесторонней, если для любого x ≠ 0, x ∈ X , найдется такой индекс j = {1, 2,K, m} , что ϕ j ( x ) > 0. С полиэдральной функцией h ( x ) свяжем многозначное отображение I + ( x ) : X → {1, 2,K , m} , значениями которого являются множества индексов: I + ( x ) = {i ∈ {1, 2,K, m} : ϕi ( x ) = h ( x )}.
Теорема 7.4. Полиэдральная функция h ( x ) удовлетворяет аксиомам нормы тогда и только тогда, когда она является функцией максимума (7.6) некоторых линейных
{
}
форм (7.5), у которых совокупность векторов di , i = 1, m является всесторонней. Остановимся на вопросе построения и сравнения полиэдральных норм. Как известно, надграфик epi f полиэдральной функции f ( x ) является конечно-порожденным выпуклым множеством, т.е. выпуклой оболочкой своих крайних (экстремальных) элементов — экстремальных точек и лучей. Предложение 7.8. Всякая полиэдральной норма f ( x ) однозначно определяется своими значениями f ( h1 ) , f ( h 2 ) ,K , f ( h L ) на системе направляющих векторов h1 , h 2 ,K, h L экстремальных лучей надграфика этой нормы epi f . Введем в рассмотрение калибровочную функцию Минковского поглощающего множества M (или, просто, калибр множества) [179]: γ ( x M ) = inf {λ ≥ 0 : x ∈ λM }.
Заметим, что калибровочная функция является нормой в случае, если M — симметричное компактное выпуклое множество. Обсудим конструктивные особенности калибровочных функций применительно к полиэдральным множествам. Пусть P ⊂ X — полиэдральная бочка, т.е. выпуклое, поглощающее и замкнутое подмножество в X . Поставим ей в соответствие полиэдральную функцию как калибр данного полиэдра: (7.7) f ( x) = γ ( x P ). Алгоритм вычисления калибровочных функций полиэдральных множеств определяется следующим предложением. Предложение 7.9. Пусть P = {p1 , p 2 ,K , p L } — множество крайних точек полиэдральной бочки P. Тогда значение полиэдральной функции (7.7) в любой точке x можно найти как оптимальное значение следующей задачи ЛП: L L ⎪⎧ ⎪⎫ f ( x ) = min ⎨λ : ∑ αi pi = x, ∑ αi ≤ λ, αi ≥ 0 i = 1, L ⎬ . ⎪⎩ ⎪⎭ i =1 i =1 Неотрицательная (конечная) вещественная функция p ( x ) , определенная на X ,
(
)
называется преднормой, если она удовлетворяет следующим условиям:
654
Методы современной теории автоматического управления
1) p ( x ) ≥ 0 ∀ x ∈ X (неотрицательность); 2) p ( λx ) = λ p ( x ) ∀λ ∈ R (положительная однородность); 3) p ( x + y ) ≤ p ( x ) + p ( y ) ∀ x, y ∈ X (выпуклость), и нормой, если она удовлетворяет также и условию: p ( x ) > 0 ∀ x ≠ 0. Для функции ϕ : X → R множества уровня levC ϕ высоты C определяются соотношением levC ϕ = {x ∈ X : ϕ ( x ) ≤ C}. Следующие теоремы позволяют сравнивать полиэдральные функции, удовлетворяющие аксиомам преднормы и нормы. Теорема 7.5. Пусть f ( x ) — полиэдральная норма, а g ( x ) — полиэдральная преднорма. Тогда функция f ( x ) мажорирует функцию g ( x ) : g ( x ) ≤ f ( x ) ∀ x,
(7.8)
тогда и только тогда, когда для множеств уровня сравниваемых функций некоторой высоты C ≥ 0 справедливо включение levC f ⊆ levC g . (7.9) Заметим, что включение (7.9) означает импликацию: f ( x ) = C ⇒ g ( x ) ≤ f ( x ). Теорема 7.6. Пусть f ( x ) — полиэдральная норма и векторы h1 , h 2 ,K , h L ∈ X являются направляющими векторами экстремальных лучей ее надграфика epi f . Функция f ( x ) является мажорантой для полиэдральной преднормы g ( x ) , т.е. функциональное неравенство (7.8) справедливо тогда и только тогда, когда выполняются числовые неравенства g ( hi ) ≤ f ( hi ) , i = 1, L, т.е. значения первой функции не меньше значений второй функции на конечном множестве векторов H = {h1 , h 2 ,K, h L } ⊂ X . Отсюда вытекает следующий критерий выполнимости полиэдрального неравенства (7.8). Предложение 7.10. Если f ( x ) — полиэдральная норма, g ( x ) — полиэдральная преднорма, а H ⊂ X — конечное множество точек, включающее все крайние точки некоторого непустого множества уровня функции f ( x ) , то имеет место импликация g (x) ≤ f (x) ∀ x ∈ H ⇒ g (x) ≤ f (x) ∀ x ∈ X .
Сформулированные результаты дают аппроксимационную схему конструирования наибольшей полиэдральной нормы f ( x ) , значения которой на заданной системе векторов H = {h1 , h 2 ,K , h M } ⊂ X удовлетворяют ограничениям f ( hi ) ≤ Ci , i = 1, M ,
(7.10)
где Ci — заданные положительные числа. Сначала неравенства (7.10) благодаря положительной однородности конструируемой функции нормируются: f ( pi ) ≤ 1,
Глава 7. Методы полиэдрального программирования
655
где hi , i = 1, M . (7.11) Ci Далее строится полиэдральная бочка — выпуклая оболочка системы векторов, включающей наряду с векторами (7.11) и противоположные им векторы: P = conv {p1 , p 2 ,K, p M , − p1 , − p 2 ,K, −p M }. pi =
Наконец, определяется искомая полиэдральная функция f ( x ) как калибр (7.7)
множества P. 7.1.2. ЗАДАЧИ ПОЛИЭДРАЛЬНОГО ПРОГРАММИРОВАНИЯ Под задачами ПП будем понимать класс задач МП с полиэдральной структурой, т.е. с полиэдральными целевой и ограничивающими функциями:
{
}
extr f ( x ) : gi ( x ) ≤ 0, i = 1, r ,
(7.12)
где x ∈ X , а f ( x ) , g1 ( x ) , g 2 ( x ) ,K , g r ( x ) — полиэдральные функции. Важно подчеркнуть, что в постановке задач ПП полиэдральные ограничения, без ограничения общности, можно формализовать одной ограничивающей функцией в виде следующего полиэдрального неравенства: g ( x ) ≤ 0. (7.13) Множество всех решений неравенства (7.13), являющееся полиэдральным множеством, определяет область допустимых решений D задачи (7.12). Задачу (7.12) будем называть разрешимой, если D ≠ ∅ и экстремум существует, причем число f * = extr { f ( x ) : x ∈ D } будем называть оптимальным значением целевой функции, а множество
{
D * = x ∈ D : f (x) = f *
}
— оптимальным множеством решений. Задачи ПП на максимум и минимум [220]. Под задачами ПП на максимум будем понимать задачи вида З0 : max { f ( x ) : g ( x ) ≤ 0} , где x ∈ X ; f ( x ) , g ( x ) : X → R — полиэдральные функции. Отметим, что областью допустимых решений D задачи З0 является множество всех решений полиэдрального неравенства (7.13). Пусть полиэдральные функции f ( x ) и g ( x ) представлены своими дизъюнктивными разложениями: f (x) =
∨ ϕ (x), p
i =1
i
g (x) =
∨ψ q
j =1
j
(x),
(7.14)
где ϕi ( x ) , i = 1, p и ψ j ( x ) , j = 1, q — линейные функции. Рассмотрим также семейство следующих оптимизационных задач:
{
}
Зi : max ϕi ( x ) : ψ j ( x ) ≤ 0, j = 1, q , i = 1, p.
Задачу З 0 будем называть исходной, а задачи З1 , З 2 ,K , З p , являющиеся задачами ЛП, — вспомогательными. Заметим, что допустимые области вспомогательных оптимизационных задач совпадают с D .
656
Методы современной теории автоматического управления
Теорема 7.7. Исходная задача З0 разрешима тогда и только тогда, когда разрешима каждая из p вспомогательных задач З1 , З 2 ,K, З p .
Допустим, что задача З0 разрешима, и положим, что f *, ϕ1* , ϕ*2 ,K, ϕ*p — оптимальные значения целевых функций рассматриваемых задач, причем ϕ* = max ϕ1* , ϕ*2 ,K, ϕ*p .
{
}
Тогда: 1) f * = ϕ* ; 2) если для некоторого k ∈ {1, 2,K, p} выполняется равенство ϕ*k = ϕ*, то оптимальное решение вспомогательной задачи З k является также оптимальным решением исходной задачи З0 . Таким образом, метод решения исходной задачи З0 , т.е. задачи ПП на максимум, сводится к следующему: • решается семейство задач ЛП З1 , З 2 ,K , З p ; • определяется наибольшее значение из всех оптимальных значений целевых функций решенных задач; • найденное оптимальное решение, обеспечивающее наибольшее значение целевой функции, принимается за оптимум исходной задачи З0 . Под задачами ПП на минимум будем понимать задачи вида З0 : min { f ( x ) : g ( x ) ≤ 0} , где x ∈ X ; f ( x ) , g ( x ) : X → R — полиэдральные функции. Областью допустимых решений D задачи З 0 является множество всех решений полиэдрального неравенства (7.13). Поставим рассматриваемой исходной задаче З0 в соответствие вспомогательную
оптимизационную задачу З0 в расширенном пространстве X = X × R : З0 : f ( x ) = xn +1 → min,
g1 ( x ) = f ( x1 , x2 ,K , xn ) − xn +1 ≤ 0,
g 2 ( x ) = g ( x1 , x2 ,K , xn ) ≤ 0,
где x = ( x1 , x2 ,K , xn , xn+1 ) ∈ X . Данная задача является ( n + 1 )-мерной, причем целевая
( f ) и ограничивающие ( g1 , g 2 ) функции являются полиэдральными.
Очевидно, что в силу представления полиэдральных функций f ( x ) и g ( x ) своими дизъюнктивными разложениями (7.14) и определения операции поточечного максимума можно вспомогательную оптимизационную задачу З0 записать в виде общей задачи ЛП: f ( x1 , x2 ,K , xn , xn +1 ) = xn +1 → min; З1 : ϕi ( x1 , x2 ,K , xn ) − xn +1 ≤ 0, i = 1, p;
ψ j ( x1 , x2 ,K , xn ) ≤ 0, j = 1, q,
Теорема 7.8. Исходная З 0 и вспомогательная З0 задачи являются эквивалентными: 1) каждая из них разрешима только тогда, когда разрешима другая; 2) оптимальные значения целевых функций обеих задач совпадают: f * = f * ;
Глава 7. Методы полиэдрального программирования
657
(
3) если x* ∈ X — оптимальное решение исходной задачи, то x* = x*, f *
)
явля-
ется оптимальным решением вспомогательной задачи, и наоборот. Таким образом, метод решения исходной задачи З 0 , т.е. задачи ПП на минимум, сводится к следующему: • вводится дополнительная переменная xn+1 — мажоранта целевой функции задачи З 0 ; • исходная задача преобразуется в расширенную задачу З0 с линейной целевой функцией xn+1; • задача З0 посредством разбиения ее полиэдральных ограничений на линейные преобразуется к задаче ЛП З1; • найденное оптимальное решение последней задачи дает решение исходной задачи. Минимаксные и максиминные задачи ПП [219]. Пусть P , Q ⊂ X = R n — выпуклые полиэдры, являющиеся выпуклыми оболочками заданных конечных множеств точек P0 , Q0 ⊂ X : P = conv P0 , P0 = {p1 , p 2 ,K , p L } , pi ∈ X , i = 1, L; Q = conv Q 0 , Q 0 = {q1 , q 2 ,K, q M } , q j ∈ X , j = 1, M .
Рассмотрим задачу ПП с полиэдральной целевой функцией F : X → R и полиэдральной областью допустимых решений Q :
F * = max F ( x ) .
(7.15)
x∈Q
Теорема 7.9. Решение задачи на максимум (7.15) всегда существует, причем ее оптимальное значение достигается в одной из крайних точек области допустимых решений. Заметим, что множество крайних точек полиэдра Q является подмножеством множества Q 0 , так что
( )
F * = max F ( x ) = max F ( q ) ≡ max F q j . x∈Q
j∈[1, M ]
q∈Q 0
Введем в рассмотрение векторную полиэдральную функцию f : X → R, являющуюся строго выпуклой положительно однородной функцией, и используем ее в качестве полиэдральной нормы: x P ≡ f ( x ). Определим расстояние dist ( y , z ) между точками y , z ∈ X как полиэдральную метрику:
dist ( y, z ) = y − z
P
= f ( y − z ).
Под минимаксной задачей ПП будем понимать задачу вида f I* = min max f ( y − z ) . y∈P z∈Q
Введем вспомогательную функцию ϕ ( y ) = max f ( y − z ) . z∈Q
Предложение 7.11. Функция ϕ ( y ) является полиэдральной.
(7.16)
658
Методы современной теории автоматического управления
Для построения функции ϕ ( y ) можно использовать следующие равенства:
(
)
ϕ ( y ) = max f ( y − q ) = max f y − q j . j∈[1: M ]
q∈Q 0
Таким образом, исходная минимаксная задача (7.16) сводится к следующей задаче ПП на минимум: f I* = min ϕ ( y ) . y∈P
Под максиминной задачей ПП будем понимать задачу вида f II* = max min f ( y − z ) . z∈Q y∈P
(7.17)
Введем вспомогательную функцию ψ ( z ) = min f ( y − z ) . y∈P
Предложение 7.12. Функция ψ ( z ) является выпуклой, причем ее множества уровня являются выпуклыми полиэдрами. Итак, функция ψ ( z ) , вообще говоря, не являясь полиэдральной, обладает свойствами, близкими к свойствам полиэдральных функций. Следовательно, исходная максиминная задача (7.17) равносильна следующей задаче ПП на максимум: f II* = max ψ ( z ) . (7.18) z∈Q
Предложение 7.13. Оптимальное значение задачи (7.18) достигается в крайней точке множества Q. Таким образом, экстремальная задача (7.18) сводится к поиску максимума функции ψ ( z ) на конечном множестве точек Q 0 :
( )
f II* = max ψ ( q ) = max ψ q j , j∈[1: M ]
q∈Q 0
причем значения функции в этих точках являются значениями задачи ПП на минимум: ψ q j = min f y − q j .
( )
y∈P
(
)
Следует отметить, что для значений рассматриваемых минимаксных (7.16) и максиминных (7.17) задач ПП справедливо общее соотношение: f I* ≥ f II* , причем данное неравенство, как правило, является строгим. В заключение обзора задач ПП следует подчеркнуть их принципиальную особенность — сводимость к задачам ЛП, методы и программные средства решения которых хорошо известны. Именно благодаря этой особенности задачи ПП обладают большими прикладными возможностями. Замечания к предыстории полиэдрального программирования. Исторически первой оптимизационной задачей, использующей полиэдральную норму, по-видимому, следует считать задачу наилучшего приближения функций, поставленную около полутора веков назад П.Л. Чебышевым и являющуюся в наше время классическим объектом применения многих методов МП. К числу первых отечественных работ, в которых решались оптимизационные задачи с полиэдральной нормой методами МП, относятся работы Г.Ш. Рубинштейна и С.И. Зуховицкого начала 50-х годов прошлого столетия, связанные с решением именно задачи чебышевского приближения. Исследования ряда авторов специально ориентированы на кусочно-линейную структуру решаемых задач. Развиваемые ими методы представляют собой естественное обобщение соответствующих конечных и итерационных методов ЛП: здесь все
Глава 7. Методы полиэдрального программирования
659
основные понятия и свойства задач ЛП обобщаются на задачи выпуклого КЛП. Так, например, в известной книге Е.Г. Гольштейна и Д.Б. Юдина, посвященной новым направлениям в ЛП, разработана методика решения задач КЛП на основе метода последовательного улучшения плана Л.В. Канторовича: метод сводится к серии последовательных элементарных преобразований одного опорного плана задачи в другой, более близкий к решению задачи. Вместе с тем, во многих работах используется идея сведения решаемых оптимизационных задач к ЛП посредством введения дополнительной переменной, мажорирующей целевую функцию. Впервые такой прием был реализован Г.Ш. Рубинштейном еще в 1955 г. применительно к задаче о наилучшем чебышевском приближении. Возможность же более широкого применения данной идеи была высказана позднее в работах У. Агхара (W.G. Aghar), Т. Уэйлеса (T.D. Walace) и В.И. Мудрова. Следует заметить, что прием введения мажорирующей переменной в целях сведения исходной оптимизационной задачи к ЛП получил широкое распространение в МП. Так, например, он прямо используется в методе отсекающей гиперплоскости Дж. Келли (J.E. Kelley) для решения задач минимизации недифференцируемых функций; в модификации метода возможных направлений Зойтендейка, предложенной Д. Топкисом (D.M. Topkis) и А. Вейноттом (A.F. Veinott) для выбора направления спуска; в методе центров П. Гуарда (P. Huard), являющемся разновидностью метода внутренних штрафов для решения нелинейных оптимизационных задач. Более того, в известном обзоре Б.Т. Поляка [163] данная идея представлена как один из методов эквивалентных преобразований задач МП, позволяющий свести задачу оптимизации с нелинейной целевой функцией к задаче оптимизации с линейной целевой функцией. Заметим также, что этот метод преобразования задачи МП часто используется в работах по недифференцируемой оптимизации при решении различных максиминных и минимаксных задач. Некоторое методологическое оформление данная идея получила в известных книгах Р.П. Федоренко, С.И. Зуховицкого и Л.И. Авдеевой, а также В.Ф. Демьянова и В.Н. Малоземова. 7.2.
ЛИНЕЙНО-ПОЛИЭДРАЛЬНЫЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ДИСКРЕТНЫМИ ОБЪЕКТАМИ
Оптимизация процессов управления занимает центральное место в современной теории управления. Действительно, в общем случае задача управления заключается в формировании управляющего воздействия, обеспечивающего выполнение поставленной цели управления объектом, отвечающей его функциональному назначению. Требование оптимальности направлено на обеспечение наилучшего процесса управления, количественной мерой эффективности которого служит выбранный критерий качества. В результате оптимальное управление объектом означает достижение предельного (экстремального) значения критерия качества процесса управления. 7.2.1. ОБЩАЯ ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ Обратимся к классу детерминированных задач оптимального управления дискретным динамическим объектом. При этом будем рассматривать процесс управления объектом как целенаправленное изменение его состояния в условиях полной информации о векторе состояния. Пусть динамика дискретного объекта управления описывается в переменных состояния векторным линейным разностным уравнением с переменными коэффициентами вида x ( t + 1) = A ( t ) x ( t ) + B ( t ) u ( t ) , (7.19)
где t — дискретное время, t ∈ ℑ, ℑ = [ 0, T − 1] ⊂ Z + — интервал управления; T ≥ 1 — конечный (терминальный) момент времени; x = ( x1 , x2 ,K , xn ) ∈ X = R n — вектор пе-
660
Методы современной теории автоматического управления
ременных состояния или фазовых переменных; u = ( u1 , u2 ,K , ur ) ∈ R r — вектор управляющих переменных; X — пространство состояний; A : ℑ → R n×n и B : ℑ → R n×r — функциональные матрицы; Z + — множество неотрицательных целых чисел. Полагаем, что объект является вполне управляемым. Пусть целью управления является перевод состояния объекта за время T в некоторое целевое множество состояний X * ∈ X с учетом заданных фазовых и ресурсных ограничений: x ( t ) ∈ Ω x , t ∈ ℑ+ ; (7.20а) u ( t ) ∈ Ωu , t ∈ ℑ,
(7.20б)
где ℑ = [1, T ] — интервал управляемого движения объекта; Ω x ⊂ R и Ωu ⊂ R — до+
n
r
пустимые множества значений вектора состояния и вектора управления, определяемые конструктивно-технологическими особенностями объекта, условиями его нормальной эксплуатации, а также ресурсными возможностями органов управления. Соответствующие значения вектора состояния и вектора управления будем называть допустимыми. Дискретное управление объектом может рассматриваться как многошаговый процесс, характеризующийся на каждом шаге управляющим воздействием и соответствующим состоянием. При этом для заданного начального состояния x ( 0 ) каждому выбранному каким-либо образом допустимому управляющему воздействию u ( t ) отвечает единственная траектория управляемого движения объекта или фазовая траектория x ( t ) , определяемая равенством (дискретной формулой Коши): t −1
x ( t ) = Ф ( t ,0 ) x ( 0 ) + ∑ Ф ( t , θ + 1) B ( θ ) u ( θ );
(7.21)
θ=0
здесь Ф ( t , θ ) ∈ R n×n — переходная матрица состояний системы (7.19), определяемая выражением
⎪⎧ A ( t − 1) A ( t − 2 )K A ( θ ) , t > θ; (7.22) Ф (t, θ) = ⎨ E, t = θ, ⎪⎩ где E ∈ R n×n — единичная матрица. Процесс управления представляет собой совокупность реализаций управляющего воздействия — программы управления, которую будем обозначать через U = {u ( t ) , t ∈ ℑ} , и порожденной им фазовой траектории движения объекта, кото-
{
}
рую будем обозначать через X = x ( t ) , t ∈ ℑ+ . Положим, что эффективность процесса управления оценивается некоторым скалярным критерием качества (7.23) F = F ( X , U ). Тогда в общем виде задача оптимального управления объектом (7.19) заключается в нахождении управляющего воздействия U , при котором процесс управления удовлетворяет ограничениям (7.20) и обеспечивает экстремальное (минимальное или максимальное) значение критерию качества (7.23): F → extr. Ключевыми элементами в поставке задачи оптимального управления являются: цель управления, ограничения и критерий качества. Остановимся на особенностях формализации данных элементов в терминах ПП.
Глава 7. Методы полиэдрального программирования
661
7.2.2.
ПРОБЛЕМА ВЫБОРА КРИТЕРИЯ КАЧЕСТВА И ЛИНЕЙНО-КВАДРАТИЧНАЯ ЗАДАЧА УПРАВЛЕНИЯ Важнейшим этапом формализации задачи оптимального управления является выбор критерия качества, определяемый как функциональным назначением объекта управления, так и возможностями используемого математического аппарата. Выбор критерия качества — весьма сложная, неоднозначная и, часто, противоречивая задача. Как отмечал Я.З. Цыпкин, «вопрос «Что такое оптимальность?» может вызвать грустные размышления и пессимизм», причем, по мнению одного из основоположников современной теории оптимального управления Р. Беллмана (R.E. Bellman), «для многих задач вопросы оптимальности совсем не существенны. Это просто математический инструмент, который помогает нам формализовать слово «можно». Проблема разумного выбора критерия качества, несмотря на свою актуальность, до сих пор остается открытой. Приведем лишь некоторые авторитетные мнения из более чем полувековой полемики по данной проблеме. «Выбор всегда представляет собой компромисс между стремлением приблизиться к реальности и стремлением к математической простоте» (Д. Миддлтон). «Выбор функции критерия обычно требует некоторого компромисса между наиболее точной оценкой физического процесса и формулировкой, наиболее удобной для решения математической задачи» (Р. Беллман). «Невозможно, да и не следует, избегать строгого определения показателя качества, так как сила математического мышления проявляется полностью только в случае, когда задача четко сформулирована» (Р. Калман). «В каждом конкретном случае выбор критерия следует производить на основании опыта. Однако если этот выбор сделан, при математическом решении задачи критерий можно рассматривать как постулат» (А.М. Летов). Общих рекомендаций по назначению критерия качества процесса управления не существует. Для дискретных процессов управления в общем случае критерий качества задается следующим соотношением [195, с.312]: T −1
F = N ( x (T ) ) + ∑ L ( t , x ( t ) , u ( t ) ),
(7.24)
t =0
где N и L — заданные скалярные функции, характеризующие процесс управления соответственно в конечный момент времени t = T и на всем интервале управления t ∈ ℑ. Поскольку оптимизация процесса управления по критерию общего вида (7.24) сопряжена с большими трудностями, то, как правило, используют частные его виды. Так, наибольшую популярность получил квадратичный критерий качества (дискретный аналог критерия Летова–Калмана) [195, с.324], который для задач стабилизации целевого состояния x* = 0 имеет вид T −1
T −1
t =1
t =0
F = xT (T ) P (T ) x (T ) + ∑ xT ( t ) P ( t ) x ( t ) + ∑ u T ( t ) Q ( t ) u ( t ),
(7.25)
где P ( t ) ∈ R n×n и Q ( t ) ∈ R r×r — матрицы весовых коэффициентов — симметричные, неотрицательно либо положительно определенные функциональные матрицы. Задача оптимизации процесса управления по данному критерию получила название линейно-квадратичной задачи оптимального управления или, сокращенно, ЛК-задачи. Разработаны эффективные аналитические и вычислительные процедуры ее решения, основанные на методах классического вариационного исчисления, принципе максимума Понтрягина, методе динамического программирования Беллмана и их комбинациях. Следует заметить, что в современной автоматике интегральный квадратичный критерий (7.25) положен в основу большинства методов оптимизации процессов управления и, в частности, является исходным в классическом методе аналитического конструирования оптимальных регуляторов (АКОР) Калмана–Летова. Значительные
662
Методы современной теории автоматического управления
результаты в данной области достигнуты в известных работах Р. Калмана, А.М. Летова, А.А. Красовского, В.И. Зубова и др. Наряду с этим, ведущие отечественные и зарубежные специалисты неоднократно высказывались по поводу отсутствия должной обоснованности такого выбора критерия качества процессов управления. Так, например, Н.Н. Моисеев подчеркивал: «Я думаю, что основные аргументы для подобного выбора лежали вне сферы содержательного анализа». По этому поводу А.А. Первозванский метко заметил, что при выборе критерия качества весьма распространенной является ситуация, когда «выбирается не тот показатель, который наиболее соответствует смыслу дела, а тот, который входит в условия строго доказанных математических утверждений, например стандартный интегральный квадратичный показатель». Р. Беллман считал, что в некоторых случаях «квадратичный критерий, как мера потерь мощности или рассеяния энергии, имеет глубокий физический смысл. Вообще же его введение — вопрос математического удобства и часто диктуется желанием применить для решения задачи аналитические методы и получить решение в явном виде». Еще А.А. Харкевич подчеркивал, что квадратичный критерий «применяется особенно часто потому, что при пользовании им получаются, как правило, сравнительно простые выкладки». Аналогичную точку зрения высказывает и У. Уонэм (W.M. Wonham), комментируя ЛК-задачу: «Широкое распространение методов квадратичной оптимизации объясняется именно этими тремя причинами [линейность обратной связи, простота ее расчета и удовлетворительное качество процессов управления — Н.Ф.], а не какой-либо возможной интерпретацией квадратичного критерия качества». Более того, обсуждая ЛК-задачу, Р. Беллман отмечал, что данной «менее важной задачей» часто заменяют исходную «более реалистичную задачу» оптимизации, и при этом подчеркивал: «Это напоминает историю об одном человеке, который, потеряв кольцо посреди улицы, искал его под фонарем, потому что там светлее». Кстати, еще А.М. Ляпунов (в период создания своего первого метода исследования устойчивости), комментируя В.А. Стеклову историю данного анекдотичного чудака и подвергая критике сложившуюся в математике и механике необоснованную практику искусственного упрощения исходных уравнений движения системы, заметил следующее: «Под фонарем, конечно, искать способнее. Только кольцо осталось в той непроглядной темноте, которая показалась слишком затруднительной для поисков». А.М. Летов, не соглашаясь с позицией Р. Беллмана, утверждал, что «человек, ищущий кольцо под фонарем, отлично понимает, что в данных условиях его действия дают ему единственный шанс достигнуть цели. Этот шанс, несомненно, может быть реализован, если оброненное кольцо докатилось до освещенного места. И только убедившись в том, что кольца здесь нет, стоит приниматься за новые, иные попытки найти кольцо». Обсуждая проблему выбора критериев качества процессов управления, приведем мнение последовательного сторонника ЛК-задач — В.Н. Букова — представителя научной школы основоположника современной теории АКОР А.А. Красовского [28, с.57]: «С инженерных позиций представляется естественным построение критериев оптимальности, непосредственно учитывающих частные прямые показатели качества процесса управления. Эти показатели (установившиеся ошибки, время регулирования, перерегулирование, величина колебательности, период колебаний и т.д.) физически наиболее ясны и имеют четкие границы допустимых значений, основанные на богатом опыте конструирования систем. Однако более широкое распространение в методах проектирования систем управления получили косвенные показатели качества, которые, как правило, проще вычисляются и более удобны в аналитических исследованиях». Укажем также на справедливое замечание ответственного редактора трехтомной монографии по современной прикладной теории управления А.А. Колесникова [186, с.131]: «то обстоятельство, что в теории АКОР непосредственно не рассматриваются общепринятые в инженерной практике прямые показатели качества синтезируемых систем, ставит под сомнение «оптимальность» получаемых при этом
Глава 7. Методы полиэдрального программирования
663
решений. Это и послужило поводом для критики методов АКОР, основанных на постулировании квадратичных критериев качества и чрезмерной математической формализации процедур синтеза, что в определенной мере даже подорвало интерес инженеров, занимающихся проектированием разного рода систем управления». По-видимому, можно согласиться с данной критикой квадратичного критерия качества и признать, что основные конструктивные результаты теории оптимального управления связаны именно с ЛК-задачей, поскольку для ее решения развит мощный аналитический аппарат и существуют соответствующие эффективные численные методы. Действительно, как известно, решением данной задачи является линейный закон управления, который в замкнутой аналитической форме выражается через параметры объекта управления и весовые коэффициенты интегрального квадратичного критерия качества. Однако несмотря на видимые достоинства ЛК-задачи (алгоритмическую простоту и законченность решения) на пути ее внедрения в практику управления стоит открытая проблема обоснованного выбора самого критерия качества вида (7.25), т.е. обоснованного выбора весовых матриц P ( t ) и Q ( t ) критерия на основании требований к прямым показателям качества процессов управления [194]. Вопросы выбора критерия качества в ЛК-задаче, как правило, не обсуждаются. Такой выбор обычно произволен, субъективен и, как выразился К. Негойцэ, «может вообще являться лишь делом вкуса», т.е. фактически, фигурирует как постулат. Разумеется постулирование — это тоже выбор, но, как выразился Б. Рассел (B. Russel), «метод постулирования имеет много преимуществ, совпадающих с теми, которые присущи воровству по сравнению с честным трудом». Соглашаясь с этим, А.М. Летов писал: «…неизбежно возникает вопрос: не представляет ли постулирование попытку скрыть за пленительным словом «оптимальность» практическую бесполезность предлагаемых решений? Спрашивается, нельзя ли сделать так, чтобы проектирование любой технической системы носило бы более регулярный характер и не зависело бы от случайностей, вносимых методом постулирования». В связи с этим в 1964 г. Р. Калман высказал идею о необходимости решения обратной задачи оптимизации — задачи обращения (известной также как обратная задача АКОР), в которой при заданной структуре закона управления требуется найти все критерии качества, если такие существуют, для которых это управление является оптимальным. В результате в работах Р. Калмана, а также Р. Беллмана и Р. Калабы (R.E. Kalaba) была выдвинута проблема связи между весовыми коэффициентами интегрального квадратичного критерия оптимальности и динамическими свойствами оптимизируемой системы. В отечественных исследованиях на актуальность данной проблемы впервые указали И.В. Остославский и Г.Г. Абдрашитов. В течение последних четырех десятилетий были предприняты многочисленные попытки разрешить проблему выбора интегрального квадратичного критерия качества. Здесь можно выделить работы ведущих отечественных и зарубежных ученых: А.М. Летова, К. Мерриэма (C.W. Merriam III), А. МакФарлэйна (A.G.J. MacFarlane), А. Джеймсона (A. Jameson), Е. Крейндлера (E. Kreindler), Ю.Б. Попова, Ю.П. Плотникова, А.Г. Александрова, В.Н. Романенко, Ч.П. Даса, Р.Т. Янушевского, В.И. Толокнова, В.А. Подчукаева, В.В. Григорьева, В.Д. Фурасова, В.В. Сахарова, Л.И. Кожинской, Е.Е. Александрова, Н.В. Кухаренко, В.М. Фишмана, В.И. Жилякова и др. Фактическая бесплодность данных попыток объясняется следующим обстоятельством. Данным критерием пытаются оценить одновременно качество переходных процессов и энергозатраты на управление. Однако это в принципе невозможно, поскольку одному и тому же значению критерия отвечают переходные процессы, резко отличающиеся локальными свойствами (например, такими как монотонность, апериодичность, колебательность и т.п.). Более того, уже в работах основоположника метода АКОР А.М. Летова, по-существу, дан отрицательный ответ на содержательный смысл критерия (7.25): показано, что любая асимптотически устойчивая система управления (даже со сколь
664
Методы современной теории автоматического управления
угодно неудовлетворительным качеством переходных процессов) является оптимальной в смысле некоторого критерия данного типа. 7.2.3. ПОЛИЭДРАЛЬНЫЕ КРИТЕРИИ КАЧЕСТВА ПРОЦЕССА УПРАВЛЕНИЯ Выбор критерия оптимальности, характеризующего качество процессов управления, представляет собой неформальную задачу. Он входит в принципиально неизбежную эвристическую «засыпку в жернова математики» и должен основываться на прецедентах. При этом доверять можно лишь тем критериям оптимальности, которые уже не раз оправдывали себя в практике. Как отмечал А.А. Первозванский, «критерии оптимальности, как правило, носят условный характер: инженер должен придумать тот или иной сводный показатель качества работы системы, ориентируясь как на интуитивное представление о том «что такое хорошо, и что такое плохо», так и на известный ему набор образцовых типичных формулировок» [154, с.582]. Новые широкие возможности для теории и практики оптимального управления открывают полиэдральные критерии качества. Обсудим методологию построения полиэдральных критериев качества процессов управления для задач управления с заданным целевым состоянием объекта x* , т.е. в случае, когда X * = x* .
{ }
В структуре критерия качества должны быть отражены требования к динамической структуре траекторий движения управляемого объекта, а также к ресурсам (стоимости) управляющих воздействий, необходимых для реализации данного движения. Введем в рассмотрение величины ε ( t ) , Δx ( t ) и Δu ( t ) : ε ( t ) = x ( t ) − x* ; Δx ( t ) = x ( t + 1) − x ( t ) ; Δu ( t ) = u ( t + 1) − u ( t ) , характеризующие отклонение состояния объекта от целевого состояния, фазовую скорость объекта и интенсивность управляющего воздействия в текущий момент времени. Выберем некоторые полиэдральные нормы: Hε : X → R; HΔx : X → R; Hu : U → R; HΔu : U → R. Тогда качество процесса управления в текущий момент времени можно характеризовать показателями точности управления и затрат на управление, имеющими полиэдральную структуру и представляющими собой комбинацию величин Hε ( ε ( t ) ) , HΔx ( Δx ( t ) ) , Hu ( u ( t ) ) и HΔu ( Δu ( t ) ) . Приведем следующие возможные варианты
данных показателей: 1) полиэдральные показатели точности управления: P ( t ) = λ ε ( t ) Hε ( ε ( t ) ) + λ Δx ( t ) HΔx ( Δx ( t ) ) ,
{
}
P ( t ) = max λ ε ( t ) Hε ( ε ( t ) ) , λ Δx ( t ) HΔx ( Δx ( t ) ) ;
2) полиэдральные показатели затрат на управление: E ( t ) = λu ( t ) Hu ( u ( t ) ) + λ Δu ( t ) HΔu ( Δu ( t ) ) ,
{
}
E ( t ) = max λu ( t ) Hu ( u ( t ) ) , λ Δu ( t ) HΔu ( Δu ( t ) ) .
Здесь λ ε ( t ) ≥ 0, λ Δx ( t ) ≥ 0, λ u ( t ) ≥ 0, λ Δu ( t ) ≥ 0 — весовые коэффициенты, которые, в частности, могут иметь вид степенных функций: Cvt v , v ∈ Z + , Cv = const.
Следует подчеркнуть, что приведенные полиэдральные показатели P ( t ) и E ( t ) привязаны к моменту времени t и в этом смысле являются точечными показателями. Далее, из введенных точностных и ресурсных показателей можно формировать различные полиэдральные критерии качества процесса управления, например, следующего вида:
Глава 7. Методы полиэдрального программирования
665
1) полиэдральный критерий качества майеровского типа (терминальный критерий): (7.26) FM = P (T ) ; 2) полиэдральные критерии качества лагранжевого типа (интегральные критерии): T
T −1
t =1
t =0
FL = ∑ P ( t ) + ∑ E ( t );
{
}
(7.27)
FL = max P ( t ) , t ∈ ℑ+ + max {E ( t ) , t ∈ ℑ} ; t
({
t
)
}
FL = max P ( t ) , t ∈ ℑ+ U {E ( t ) , t ∈ ℑ} ; t
(7.28) (7.29)
3) полиэдральные критерии качества больцевского типа (смешанные критерии): FB = FM + FL . (7.30)
Фигурирующие в данных критериях величины x (T + 1) и u (T ) , не входящие в математическую модель объекта управления (7.19), формально можно определить следующим образом: x (T + 1) = x (T ) ; u (T ) = u (T − 1) . 7.2.4.
ЧЕБЫШЕВСКИЙ КРИТЕРИЙ КАЧЕСТВА ПРОЦЕССОВ УПРАВЛЕНИЯ
Остановимся на одном из весьма перспективных для задач оптимальной стабилизации критериев качества полиэдрального типа. Положим, что целью управления является стабилизация равновесного состояния объекта: x* = 0. Для формализации требования к качеству процесса стабилизации введем чебышевскую норму Hx : X → R в виде функции поточечного максимума: Hx ( x ( t ) ) = x ( t )
∞
= max xi ( t ) . i∈[1, n ]
Тогда за меру возмущения равновесного состояния объекта выберем полиэдральный показатель P ( t ) = Hx ( x ( t ) ) , а за критерий качества процесса стабилизации — наибольшее его значение на интервале функционирования: F = max {P ( t )} = max+ x ( t ) ∞ = max+ max xi ( t ) . t
t∈ℑ
t∈ℑ
i∈[1, n ]
(7.31)
Критерий (7.31) имеет смысл максимальной динамической ошибки системы стабилизации и именуется в литературе критерием равномерного приближения, максимального уклонения или критерием Чебышева. В особо ответственных системах стабилизации, где требуется гарантия, что переменные состояния не превысят заданных пределов, данный критерий является наиболее объективной характеристикой качества системы [134, с.21]. Идея характеризовать качество движения системы с точки зрения критерия типа (7.31) восходит к оригинальным исследованиям П.Л. Чебышева, который в 1854 г. использовал его для решения кинематических задач, связанных с управлением шатуном паровой машины Уатта. В 40-х годах прошлого столетия данный критерий был предложен Б.В. Булгаковым для постановки и решения широко известной задачи о накоплении возмущений, предвосхитившей появление первых оптимизационных постановок задач управления. В автоматике данный критерий был выдвинут в 1953 г. в качестве универсального показателя качества (динамической точности) систем стабилизации независимо В.В. Солодовниковым («критерий максимального перерегулирования») [187] и А.А. Фельдбаумом («критерий максимального отклонения») [217].
666
Методы современной теории автоматического управления
Впервые применение критерия качества (7.31) к задачам оптимального управления было рассмотрено в 1956 г. в работе Р. Беллмана, И. Гликсберга (I. Glicksburg) и О. Гросса (O. Gross) [253]. Впоследствии особую важность его для прикладных задач управления неоднократно подчеркивали: Р. Беллман, К. Джонсон (C.D. Johnson), Дж. Варга (J. Warga), Р. Куликовский (R. Kulikowski), Л. Нейштадт, Е.А. Барбашин, Н.Н. Красовский, Н.Н. Моисеев, Ф.Л. Черноусько, А.Б. Куржанский, Ю.С. Осипов, Я.З. Цыпкин, А.Я. Дубовицкий и А.А. Милютин, Г.М. Уланов, Р. Габасов и Ф.М. Кириллова, Р.П. Федоренко, К.А. Лурье, В.А. Троицкий, А.И. Субботин и А.Г. Ченцов, В.М. Кейн, А.Е. Барабанов, В.А. Бесекерский, А.А. Колесников, А.А. Первозванский и др. (см., например, [154, с.475]). Однако, несмотря на естественность, практическую значимость и давнюю историю, критерий качества (7.31) так и не получил широкого применения в автоматике из-за отсутствия конструктивных методов его использования в задачах синтеза и оптимизации автоматических систем: «…задачи такого рода являются наиболее сложными в вычислительном отношении» [154, с.478], причем Д. Сю (J.C. Hsu) и А. Мейер (A.U. Meyer), относя их к неклассическим оптимизационным задачам, особо подчеркивали, что «все имеющиеся до сих пор в нашем распоряжении средства решения не позволяют даже подойти к нахождению оптимального управления». В результате данный критерий был надолго вытеснен квадратичными критериями качества и лишь в последние годы наблюдается его возрождение в теории и практике оптимального управления. 7.2.5. ПОЛИЭДРАЛЬНЫЕ ФАЗОВЫЕ И РЕСУРСНЫЕ ОГРАНИЧЕНИЯ Важным этапом формализации задачи оптимального управления является задание фазовых и ресурсных ограничений на процесс управления. Они могут быть сформулированы в виде полиэдральных либо линейных неравенств и/или равенств. Так, например, фазовые и ресурсные ограничения могут быть выражены следующими полиэдральными неравенствами: P ( x ( t ) ) = Hx ( x ( t ) ) ≤ p ( t ) , t ∈ ℑ+ ; (7.32)
E ( u ( t ) ) = Hu ( u ( t ) ) ≤ q ( t ) , t ∈ ℑ,
(7.33)
где Hx : X → R и Hu : U → R — некоторые полиэдральные функции; p ( t ) > 0 и q ( t ) > 0 — неотрицательные функции дискретного аргумента.
Используя те или иные полиэдральные функции Hx ( x ( t ) ) и Hu ( u ( t ) ) , можно полиэдральные фазовые и ресурсные ограничения вида (7.32), (7.33) выразить линейными неравенствами. Так, например, при использовании чебышевских норм Hx ( x ( t ) ) = max xi ( t ) ; Hu ( u ( t ) ) = max u j ( t ) i∈[1, n ]
j∈[1, r ]
ограничения (7.32), (7.33) эквивалентны следующим системам линейных неравенств: xi ( t ) ≤ p ( t ) , i = 1, n, t ∈ ℑ+ ; u j ( t ) ≤ q ( t ) , j = 1, r , t ∈ ℑ. Частным случаем полиэдральных фазовых и ресурсных ограничений являются естественные прямые двусторонние ограничения вида xi ≤ xi ≤ xi , i = 1, n; u j ≤ u j ≤ u j , j = 1, r ,
где xi , xi и u j , u j — минимально и максимально допустимые значения переменных состояния xi и управления u j соответственно.
Глава 7. Методы полиэдрального программирования
667
7.2.6. ТЕРМИНАЛЬНЫЕ ЦЕЛИ УПРАВЛЕНИЯ ПОЛИЭДРАЛЬНОЙ СТРУКТУРЫ Обсудим возможности применения полиэдральной методологии для формализации терминальных требований к процессу управления. Пусть целевое множество X * имеет полиэдральную структуру. Тогда его можно описать в форме полиэдрального неравенства:
{
}
X * = x : H ( x ( T ) ) ≤ p* ,
где H : X → R — некоторая полиэдральная функция; p* = const. В задачах терминального управления возможны два варианта формализации терминальной цели управления в терминах ПП, выражающих два различных подхода к формализации терминальных условий: жесткие критериальные ограничения либо требование критериальной оптимизации. В первом случае цель управления требует точного попадания терминального состояния объекта в целевое множество: x (T ) ∈ X *. Данное терминальное требование может быть записано в виде соответствующего терминального условия полиэдральной структуры: P ( x (T ) ) = H ( x (T ) ) ≤ p*. Во втором случае цель управления не связана с точным попаданием терминального состояния управляемого объекта в целевое множество. Здесь можно ввести полиэдральный критерий «промаха» вида
(
)
P (T ) = dist x (T ) , X * ,
где dist — расстояние от точки до целевого множества: 0 при x ∈ X ∗ ; ⎪⎧ dist x, X * = ⎨ ∗ ∗ ⎪⎩ H ( x ) − p при x ∉ X . В итоге в этом случае терминальное требование может быть формализовано в виде следующей экстремальной задачи: P (T ) → min.
(
)
7.2.7. ОБЩАЯ ЛИНЕЙНО-ПОЛИЭДРАЛЬНАЯ ЗАДАЧА УПРАВЛЕНИЯ На базе введенных выше полиэдральных конструкций общую задачу оптимального управления можно формулировать следующим образом: для объекта (7.19) требуется найти управляющее воздействие u ( t ) , обеспечивающее достижение цели управления F = F ( X , U ) → extr,
с учетом критериальных, фазовых и ресурсных ограничений: Fi ( X , U ) ≤ gi , i = 1, mg ;
(7.34) (7.35)
Pj ( x ( t ) ) ≤ p j , j = 1, m p , t ∈ ℑ+ ;
(7.36)
Ek ( u ( t ) ) ≤ qk , k = 1, mq , t ∈ ℑ.
(7.37)
Задачу (7.34)–(7.37) будем именовать общей линейно-полиэдральной задачей оптимального управления или, сокращенно, ЛП-задачей. В зависимости от принятого типа полиэдрального критерия качества (7.26)–(7.30) ЛП-задачу управления будем рассматривать как полиэдральный аналог задач Майера, Лагранжа или Больца.
668
Методы современной теории автоматического управления
Важным является то обстоятельство, что сформулированная задача в силу полиэдральности структуры (критериев качества, фазовых и ресурсных ограничений) относится к классу задач ПП. Многие классические и современные по содержанию дискретные задачи управления могут быть формализованы как ЛП-задачи управления. Перейдем к рассмотрению ряда таких типовых, на наш взгляд, задач управления, которые весьма эффективно решаются посредством методологии ПП. 7.3.
ЛИНЕЙНО-ПОЛИЭДРАЛЬНЫЕ ЗАДАЧИ ПРЕДЕЛЬНОГО БЫСТРОДЕЙСТВИЯ
Поскольку все объекты «существуют» в реальном времени, то естественным и часто используемым критерием качества процессов управления является критерий быстродействия, требующий минимизации времени достижения целевого состояния. Оптимальные по быстродействию системы управления, или просто системы предельного быстродействия, обладают, наряду с минимальным временем переходных процессов, целым рядом важных достоинств, включая: высокую точность управления, квазиоптимальность по интегральным квадратичным критериям качества, максимальные размеры областей управляемости и достижимости системы, максимальную чувствительность к задающим и максимальную грубость к возмущающим воздействиям, безопасное поведение системы вблизи границы допустимой области функционирования и т.п. [101]. Неудивительно, что задачи о быстродействии стали предметом большого числа исследований и положили начало разработки современной теории оптимального управления. Первые исследования задачи предельного быстродействия связаны с работами А.А. Фельдбаума, А.Я. Лернера, Л.С. Понтрягина, Р.В. Гамкрелидзе, В.Г. Болтянского, Н.Н. Красовского, А.А. Павлова, Л.Е. Канарева, Ю.Г. Антомонова, Л. Нейштадта, Дж. Итона, Дж. Ла Салля (J.P. La Salle), Р. Куликовского и др. Дискретный вариант задачи предельного быстродействия впервые рассматривался в работах Н.Н. Красовского, Ч. Дезоэра (C.A. Desoer) и Д. Уинга (J. Wing), Б.Н. Пшеничного, А.И. Мороза. Несмотря на достигнутые значительные результаты, задача предельного быстродействия продолжает занимать исключительное место в теории оптимального управления и «является, — как выразился Н.Е. Кирин, — своеобразным пробным камнем, по которому создаются и совершенствуются методы этой теории». При этом один из основоположников теории предельного быстродействия А.А. Фельдбаум подчеркивал: «Задача построения системы, оптимальной по быстродействию, весьма сложна даже в простейших случаях». 7.3.1. ОПТИМАЛЬНЫЕ ПО БЫСТРОДЕЙСТВИЮ ПРОЦЕССЫ УПРАВЛЕНИЯ Все большую актуальность в современной теории и практике управления приобретают задачи управления конечным состоянием объекта, в которых цель управления заключается в переводе его состояния за конечное время в целевое множество X * ⊂ X с учетом заданных ресурсных и фазовых ограничений на процесс управления. Область применения систем управления конечным состоянием достаточно широка — от задач автоматизации программно-управляемого производственно-технологического оборудования до задач управления движущимися объектами авиаракетнокосмической техники. Рассмотрим следующую задачу оптимального по быстродействию управления конечным состоянием [225]: требуется объект (7.19) в условиях заданных фазовых и ресурсных ограничений (7.20) перевести из заданного начального состояния x ( 0 ) = x0
(x
0
)
∉ X * в заданное целевое множество X * за кратчайшее время:
Глава 7. Методы полиэдрального программирования
669
З : x (T ) ∈ X * , T → min. Предположим, что множества Ω x и Ωu в (7.20) являются полиэдральными и определяются полиэдральными неравенствами вида Ω x : P ( x ( t ) ) ≤ p ( t ) , 1 ≤ t ≤ T − 1; (7.38)
Ωu : E ( u ( t ) ) ≤ q ( t ) , 0 ≤ t ≤ T − 1,
(7.39)
где P : X → R и E : U → R — полиэдральные функции; p ( t ) , q ( t ) — скалярные функции. В общем случае полиэдральные функции P и E могут быть представлены следующими дизъюнктивными разложениями:
∨ η (x); E (u ) = ∨ μ (u ) , P (x) =
mp
i =1 mq
i
(7.40)
j
(7.41)
j =1
где ηi , μ j — заданные линейные функции. Допустим также, что целевое множество X * ⊂ X является непустым полиэдральным множеством и определяется полиэдральным неравенством X * : G( x (T ) ) ≤ g ; здесь g = const; G: X → R — некоторая полиэдральная функция, представленная в дизъюнктивной форме: G( x ) =
∨γ mg
k =1
k
( x),
(7.42)
где γ k — заданные линейные функции. Для решения рассматриваемой задачи З воспользуемся основополагающим для метода динамического программирования принципом инвариантного погружения многошагового процесса, согласно которому исходная задача оптимизации погружается в семейство аналогичных задач: последовательно решается вспомогательная задача управления с фиксированными финальными моментами времени t f = T , T = 1, 2, 3,K до тех пор, пока не будет достигнута цель управления. Данный прием, первоначально возникший как обобщение принципов инвариантности, введенных В.А. Амбарцумяном и С. Чандрасекхаром (S. Chandrasekhar), получил идейное оформление в работах Р. Беллмана. Обратимся к следующей вспомогательной задаче терминального управления с фиксированным финальным моментом времени t f = T : ЗT : G ( x (T ) ) → min.
Ясно, что, решая семейство вспомогательных задач ЗT , T = 1, 2,K , можно найти оптимальное время управления объектом T * как наименьшее из чисел T , удовлетворяющих условию
{
}
T * = min T : G( x (T ) ) ≤ g ,
причем решение соответствующей вспомогательной задачи ЗT * даст решение исходной задачи З.
670
Методы современной теории автоматического управления
Данный прием поиска решения задачи оптимального быстродействия на основании решений семейства вспомогательных задач терминального управления впервые был использован в работе Н.Н. Красовского, а затем в работах Л.С. Гноенского и С.М. Мовшовича, Р. Габасова и Ф.М. Кириловой, Ф.П. Васильева и др. Перейдем к решению вспомогательной оптимизационной задачи ЗT . Согласно (7.21) терминальное состояние объекта x (T ) определяется формулой T −1
x (T ) = Ф (T , 0 ) x ( 0 ) + ∑ Ф (T , θ + 1) B ( θ ) u ( θ ). θ= 0
Поскольку терминальный критерий качества G ( x (T ) ) является полиэдральным функционалом программы управления u ( ⋅) , то, в силу полиэдральности ограничений (7.38) и (7.39), оптимизационная задача ЗT является задачей ПП на минимум.
Обозначим N = ( n + r ) T + 1 и введем вспомогательные переменные согласно равенствам z t = x ( t ) при 1 ≤ t ≤ T ; zT + t +1 = u ( t ) при 0 ≤ t ≤ T − 1;
z N = G ( x (T ) ) . Тогда с учетом (7.21) и дизъюнктивных разложений (7.40)–(7.42) оптимизационная задача ЗT сводится к следующей задаче ЛП: ЗT :
t −1
z N → min;
z t − ∑ Ф ( t , θ + 1) B ( θ ) zT +θ+1 = Ф ( t , 0 ) x ( 0 ) , 1 ≤ t ≤ T ; θ= 0
ηi ( z t ) ≤ p ( t ) , 1 ≤ t ≤ T − 1, i = 1, m p ;
μ j ( zT +t +1 ) ≤ q ( t ) , 0 ≤ t ≤ T − 1, j = 1, mq ; γ k ( zT ) − z N ≤ 0, k = 1, mg .
Здесь искомыми являются переменные z t ∈ R n , t = 1, T ; zT +t +1 ∈ R r , t = 0, T − 1; z N ∈ R, так что размерность пространства решений равна N . Экстремальное решение данной задачи — кортеж Z = z1 , z 2 ,K , zT ,K , z 2T , z N — определяет искомую оптимальную программу терминального управления {u ( t ) , t ∈ ℑ}, оптимальное терминальное состояние объекта x (T ) и значение опти-
мального критерия качества G ( x (T ) ) : u ( t ) = zT +t +1 , t ∈ ℑ;
x ( T ) = zT ;
G ( x (T ) ) = z N . Задача ЗT является базовой для исходной оптимизационной задачи З и поиск решения последней можно рассматривать как многошаговый процесс: на каждом шаге T = 1, 2,K решается базовая задача ЗT и если z N > g , то терминальный момент времени T увеличивается на единицу: T := T + 1. В итоге, первое решение базовой задачи ЗT , удовлетворяющее неравенству z N ≤ g , будет соответствовать первому попаданию
Глава 7. Методы полиэдрального программирования
671
состояния управляемого объекта x (T ) в целевое множество X *. Данное решение как раз и определит искомое кратчайшее время управления объектом T *, а соответствую-
{
}
щая программа управления u* ( t ) , t ∈ ℑ даст искомое решение исходной ЛП-задачи З. Итак, использование аппарата ПП позволяет свести решение исходной задачи предельного быстродействия к решению семейства задач ЛП. Обратимся теперь к двухточечной задаче предельного быстродействия, полагая
{ }
заданным целевое состояние x*, т.е. X * = x* . Выберем в X некоторую полиэдральную метрику dist ( x, x′ ) , x, x′ ∈ X и будем оценивать удаленность текущего состояния объекта x от его целевого состояния x*
(
)
посредством этой метрики. Если полиэдральную метрику dist x, x* взять в качестве целевой функции:
(
)
G ( x ) = dist x, x* ,
то двухточечную задачу управления можно рассматривать как оптимизационную задачу вида G ( x (T ) ) → min. Решение данной задачи основано на приведенной выше схеме решения задачи оптимального быстродействия: вводится в рассмотрение вспомогательная задача терминального управления ЗT с критерием оптимальности
(
)
G ( x (T ) ) = dist x (T ) , x* ,
которая является задачей ПП на минимум и, следовательно, сводится к семейству соответствующих задач ЛП ЗT , причем итерационная процедура решения последних продолжается до выполнения условия
(
)
dist x (T ) , x* = 0.
Заметим, что в случае равновесного целевого состояния объекта x* = 0 данная задача является задачей стабилизации и заключается в формировании стратегии управления, обеспечивающей демпфирование возмущенного движения объекта за кратчайшее время. 7.3.2. ПРИМЕР РЕШЕНИЯ ЗАДАЧИ ПРЕДЕЛЬНОГО БЫСТРОДЕЙСТВИЯ Рассмотрим задачу оптимального по быстродействию дискретного управления линейным стационарным объектом второго порядка с передаточной функцией по каналу «вход–выход» 1 W (s) = . s ( s + 1)
Положим, что осуществляется импульсное управление объектом с периодом дискретизации равным 1 с, причем в канале управления используется фиксатор нулевого порядка. Тогда, выбирая в качестве переменных состояния объекта выход и скорость его изменения, дискретную модель объекта можно представить векторным разностным уравнением вида (7.19), где x = ( x1 , x2 ) — двухмерный вектор состояния, u — скалярный управляющий вход, а A и B — числовые матрицы вида ⎡1 1 − e −1 ⎤ ⎡ e −1 ⎤ B A=⎢ = , ⎢ ⎥. ⎥ e −1 ⎦⎥ ⎢⎣1 − e −1 ⎦⎥ ⎣⎢0
672
Методы современной теории автоматического управления
Ставится задача оптимального быстродействия З, заключающаяся в переводе
(
объекта из нулевого начального состояния x ( 0 ) = 0 в целевое состояние x* = x1* , x2* с координатами
x1*
= 5,
x2*
)
= 0 за наименьшее число шагов:
x (T ) = x* , T → min при следующих фазовых и ресурсных ограничениях: x2 ≤ 1, u ≤ 2.
Выберем в качестве целевой функции, характеризующей удаленность текущего состояния объекта x от целевого x*, полиэдральную метрику в виде расстояния Минковского:
(
)
G ( x ) = dist1 x, x* = x − x* = x1 − x1* + x2 − x2* . 1
Тогда вспомогательная задача терминального управления ЗT заключается в переводе объекта к терминальному моменту времени t = T в терминальное состояние x (T ) с критерием оптимальности
{
}
G ( x (T ) ) = x1 (T ) − x1* + x2 (T ) − x2* → min.
Введем обозначения:
zt = u ( t − 1) , 1 ≤ t ≤ T ;
zT +1 = x1 (T ) − x1* , zT + 2 = x2 (T ) − x2* .
Тогда базовая задача ЗT для исходной задачи З может быть представлена в виде следующей задачи интервального ЛП с пространством решений размерности N = T + 2: ( zT +1 + zT +2 ) → min; T ⎤ ⎡ x* ⎤ ⎡ z ⎤ ⎡z ⎤ ⎡ − ⎢ T +1 ⎥ ≤ ⎢ AT x ( 0 ) + ∑ AT −t Bzt ⎥ − ⎢ 1 ⎥ ≤ ⎢ T +1 ⎥ ; * ⎣ zT + 2 ⎦ ⎣ t =1 ⎦ ⎢⎣ x2 ⎥⎦ ⎣ zT + 2 ⎦ τ ⎡ ⎤ −1 ≤ [ 0 1] ⎢ A τ x ( 0 ) + ∑ A τ−t Bzt ⎥ ≤ 1, τ = 1, T − 1; t =1 ⎣ ⎦ −2 ≤ zt ≤ 2, t = 1, T ,
относительно переменных zi , i = 1, T + 2.
Решение z = ( z1 , z2 ,K , zT + 2 ) данной задачи ЛП для некоторого T ∈ Z + определяет оптимальную T-шаговую программу терминального управления и соответствующее ей значение критерия качества: u ( t ) = zt +1 , 0 ≤ t ≤ T − 1; G ( x (T ) ) = zT +1 + zT + 2 .
Минимальное число шагов T * = T , обеспечивающее выполнение терминального условия G ( x (T ) ) = 0, определяет кратчайшее время достижения объектом целевого состояния x*.
Глава 7. Методы полиэдрального программирования
673
Таким образом, решением исходной задачи З является T * -шаговая программа
{
}
управления u* ( t ) , t = 0, T * − 1 , определяемая решением z = ( z1 , z2 ,K, zT + 2 ) приведенной задачи ЛП для T * = min {T ∈ Z + : zT +1 = 0; zT + 2 = 0} . Для рассматриваемой задачи T * = 6. Фазовые траектории управляемого объекта, полученные в результате последовательного решения задачи ЛП для T = 1,6, представлены на рис. 7.1.
Рис. 7.1. Фазовые траектории управляемого объекта
Приведем соответствующие решения базовых задач ЛП: • T = 1: u ( 0 ) = 0, G ( x (1) ) = 5; •
T = 2 : u ( 0 ) = 1,582, u (1) = −0,582, G ( x ( 2 ) ) = 4;
•
T = 3 : u ( 0 ) = 1,582, u (1) = 1, u ( 2 ) = −0,582, G ( x ( 3) ) = 3;
•
T = 4 : u ( 0 ) = 1,582, u (1) = 1, u ( 2 ) = 1, u ( 3) = −0,582, G ( x ( 4 ) ) = 2;
•
T = 5 : u ( 0 ) = 1,582, u (1) = 1, u ( 2 ) = 1, u ( 3) = 1, u ( 4 ) = −0,582, G( x ( 5) ) = 1;
•
T = 6 : u ( 0) = 1,582, u (1) = 1, u ( 2) = 1, u ( 3) = 1, u ( 4) = 1, u ( 5) = −0,582, G( x ( 6) ) = 0.
Оптимальные программа управления и траектория движения управляемого объекта представлены на рис. 7.2. При использовании в качестве целевой функции чебышевской полиэдральной метрики
(
)
γ ( x ) = dist ∞ x, x* = x − x*
∞
{
= max x1 − x1* , x2 − x2*
}
вспомогательная задача терминального управления ЗT становится минимаксной:
{
}
γ ( x (T ) ) = max x1 (T ) − x1* , x2 (T ) − x2* → min.
В этом случае базовая задача ЗT аналогичным образом приводится к задаче ЛП с пространством решений размерности N = T + 1. Здесь фазовые траектории управляемого объекта, полученные в результате последовательного решения задачи ЛП для T = 1,6, представлены на рис. 7.3. Несмотря на то, что они несколько отличаются от фазовых траекторий, полученных в предыдущем случае (см. рис. 7.1), оптимальные
674
Методы современной теории автоматического управления
программа управления и траектория движения управляемого объекта в обоих случаях полностью совпадают (см. рис. 7.2).
а
б
Рис. 7.2. Оптимальная программа управления (а) и оптимальная траектория движения управляемого объекта (б)
Рис. 7.3. Фазовые траектории управляемого объекта
7.4.
ЛИНЕЙНО-ПОЛИЭДРАЛЬНАЯ ЗАДАЧА УПРЕЖДАЮЩЕГО УПРАВЛЕНИЯ
Еще в период становления современной теории управления Р. Ли (R.С.K. Lee) утверждал: «Закон управления должен быть рассчитан так, чтобы выход в будущем как можно точнее соответствовал «нашим желаниям». Как выразился К. Негойцэ: «Для программирования развития требуется способность предвосхищать последствия действия и создавать планы, которые по сути своей являются скорее «упреждающими», чем «исправляющими». Однако классические парадигмы управления, как правило, исходят из принципа «пусть будет хорошо сейчас, немедленно». В противоположность этому современная парадигма управления отвечает принципу управления с прогнозом, который можно сформулировать словами автора критерия «свободы выбора решений», лауреата Нобелевской премии Д. Габора (D. Gabor): «Управлять в данный момент времени нужно так, чтобы оставалась свобода выбора решений в последующий момент времени, когда будет приниматься следующее решение… пусть будет хорошо в будущем», или известным изречением Бонапарта Наполеона «Управлять — значит предвидеть».
Глава 7. Методы полиэдрального программирования 7.4.1.
675
МЕТАФОРА ИНТЕЛЛЕКТУАЛЬНОГО АКТОГЕНЕЗА И СОВРЕМЕННАЯ ПАРАДИГМА УПРАВЛЕНИЯ
Обоснованием современной парадигмы управления может служить метафора интеллектуального актогенеза, рассматривающая принципы функционирования технических объектов с позиций механизмов организации целенаправленного поведенческого акта живого организма. Согласно теории функциональных систем Анохина– Судакова [199], лежащей в основе данной метафоры, в физиологической архитектонике интеллектуального актогенеза — процесса развития целенаправленного поведенческого акта организма от начала (исходная потребность) до окончания (получаемый в итоге полезный результат и его оценка) — ключевыми являются такие антропоморфные понятия, как цель, предсказание, ошибка, программа действий и результат. «Только благодаря наличию аппарата предвидения, — подчеркивает В.Г. Афанасьев, — располагающего постоянной информацией о возможных результатах действия еще до того, как это действие имело место, организм способен сохраняться и развиваться как целое в условиях подвижной среды, корректировать свои функции при отсутствии полезного эффекта». Здесь коррекция осуществляется посредством организации движения с упреждением, т.е. «заглядывания в будущее», сличения текущего действия со «свежими следами» этого же действия, определения разности с заданными параметрами, которая и служит сигналом для корректировки. Гончая, преследующая зверя, устремляется не к видимому положению жертвы в данный момент, а наперерез, к предвосхищаемой (экстраполируемой) точке пересечения траекторий ее бега и бега преследуемого зверя. Здесь уместно обратиться к теории экстраполяции Л.В. Крушинского [18], согласно которой животное способно прогнозировать развитие событий в окружающей среде во времени и пространстве и на основе прогноза коррегировать свое поведение, чтобы решить ту или иную задачу. Здесь экстраполяция (движение с упреждением), являясь результатом проб, прощупываний, относящихся к классу ориентировочных реакций, не укладывается в рамки безусловно-рефлекторной и условно-рефлекторной деятельности животных. Это в определенном смысле как бы элементарная форма рассудочной деятельности, обеспечивающей целесообразное управление поведением животного в условиях постоянно изменяющейся среды. Для организации управления состоянием технических объектов на основе простейших бионических аналогий принципиальными являются следующие два положения теории функциональных систем: 1) весь континуум актогенеза организма «квантуется» на отдельные отрезки — дискретные «кванты» поведения (по К.В. Судакову), каждый из которых заканчивается различной степенью удовлетворения промежуточного и конечного результата и включает постоянную его оценку за счет обратной афферентации (принцип прерывистости непрерывного по П.К. Анохину); 2) актогенез организма в основе своей является прогностическим, включая экстраполяцию конечного результата («модель потребного будущего» по Н.А. Бернштейну), формируемую акцептором результата действия в виде ориентировочно-исследовательской реакции «интеллектуального» характера, направленной на оценку возможных результатов предстоящего действия (принцип предварения фактических результатов по И.П. Павлову). В результате в каждом «кванте» актогенеза организма соответствующая функциональная система осуществляет «проигрывание» нескольких возможных вариантов действия с экстраполяцией их результатов, а затем на основе их сравнительного анализа производит выбор действия с его последующей реализацией и оценкой результата (опережающее программирование по К.В. Судакову). Таким образом, дискретность управления и прогноз являются неотъемлемыми свойствами простейшего «интеллекта» автоматических систем.
676
Методы современной теории автоматического управления
7.4.2. РЕТРОСПЕКТИВА ИДЕИ УПРЕЖДАЮЩЕГО УПРАВЛЕНИЯ Управление с прогнозом — это способ управления, в котором на основании информации о динамике объекта предвосхищается его будущее поведение. В отечественной литературе системы управления с прогнозом сначала именовались «двушкальными системами», а соответствующий метод управления — методом упреждающей коррекции. Затем стали использоваться такие термины, как «прогнозирующие системы» и «метод управления с прогнозом» (или «управление методом прогнозирующей модели»). В зарубежной литературе данное направление в теории управления именуется как «Predictive Control» или «Model-Based Predictive Control». Следуя общепринятой зарубежной терминологии, управление с прогнозом будем именовать просто упреждающим управлением. Изложим вкратце ретроспективу идеи упреждающего управления. Впервые идея прогноза в задачах управления была выдвинута в 50-х годах прошлого столетия в работах Дж. Коулса (J.F. Coales) и А. Нотона (A.R.M. Noton), Г. Зибольца (H. Ziebolz) и Х. Пейнтера (H.M. Paynter). Здесь предложено управляющее воздействие формировать на основании предсказания будущего поведения объекта с использованием прогнозирующего устройства в виде аналоговой модели процесса управления, работающей в ускоренном масштабе времени. Становление данного направления связано, прежде всего, с работами зарубежных авторов: C.R. Keeley, H. Chestnut, W.E. Sollecito, P.H. Troutman, D.P. Eckman, I. Lefkowitz, R. Eisenhard, I.B. Williams, F. Fallside, N. Thedchanamoorthy, H. Kufman, P.M. De Russo, D.E. Lupfer, M.L. Johnson, H. Nicholson, W.G. Rae. Первыми отечественными исследованиями в области управления с прогнозом с использованием быстродействующей модели объекта являются работы Ф.Б. Гулько и Б.Я. Когана, С.В. Егорова, И.М. Борзенко и Л.А. Сапожникова, опубликованные в 1964 г. Развитие данных исследований связано с работами известных научных школ Ф.Б. Гулько, Н.М. Александровского, А.А. Красовского, А.Г. Ивахненко, В.Н. Козлова. Начиная с середины 70-х годов в отечественной литературе большую популярность получила идея использования прогнозирующей модели в задачах АКОР, предложенная В.С. Шендриком. Разработаны различные варианты соответствующих алгоритмов управления с прогнозирующей моделью: алгоритм с численным дифференцированием (В.С. Шендрик), модифицированный алгоритм (А.А. Красовский, Ю.А. Кочетков), алгоритм с матрицей чувствительности (А.С. Федосеев, В.Н. Буков), алгоритм с аналитическим решением (В.Г. Чудинова, В.Н. Буков, А.А. Красовский), алгоритм с синхронным детектированием и др. Особо следует выделить цикл работ научных школ Д.Е. Охоцимского (Г.И. Бельчанский, А.П. Бухаркина, Ю.Ф. Голубев и др.) и Б.Н. Петрова (А.Я. Андриенко, В.П. Иванов, Ю.П. Портнов-Соколов, В.В. Бек, Ю.С. Вишняков, А.Р. Махлин и др.), связанных с использованием прогнозирования в задачах управления терминальными маневрами летательных аппаратов. Среди зарубежных исследований в области упреждающего управления наиболее значительными за последнее десятилетие являются работы следующих авторов: R. Soeterboek, D.W. Clarke, E. Mosca, M. Mahfouf, D.A. Linkens, E.F. Camacho, C. Bordons, M. Morari, J.H. Lee, D.Q. Mayne, J.B. Rawlings, C.V. Rao, P.O.M. Scokaert, B. Kouvaritakis, J.A. Rossiter, J. Schuurmans, A. Allgöwer, A. Zheng, J.M. Maciejowski и др. (см., например, [251, 274, 282, 286]). Отличительной особенностью современных методов упреждающего управления является использование прогнозирующих моделей, которые предназначены для воспроизведения «возможного будущего» движения управляемого объекта при фиксированных управляющих и возмущающих воздействиях. При этом управляющее воздействие формируется с учетом прогнозируемых состояний объекта, соответствую-
Глава 7. Методы полиэдрального программирования
677
щих его текущему состоянию. Поскольку любой прогноз достоверен на ограниченном интервале времени, то для формирования управления, как правило, используется управление с оптимизацией на скользящем интервале. Формально такое управление состоит в том, что на каждом такте движения объекта решается задача нахождения оптимальной программы управления на некотором конечном интервале, но реализуется лишь одно — первое значение управления из всей найденной последовательности управлений. В следующий такт управления расчетная процедура повторяется с учетом скорректированного прогноза движения объекта и с сохранением длины интервала прогноза. В результате интервал оптимизации совпадает с интервалом прогноза и в процессе управления «скользит» по временной оси. Несмотря на обилие отечественных работ в области упреждающего управления, наибольший интерес представляют работы С.В. Егорова (см. [4, гл. 7]), А.Г. Ивахненко, В.А. Толокняненко и А.Г. Яременко (см. [91, гл. 5]), В.Н. Козлова (см. [103, гл. 3]). Однако все эти работы либо не учитывают ограничений на управляющие воздействия, либо оптимизация критерия качества процесса управления проводится в конце интервала прогноза, что, вообще говоря, не гарантирует достижимости исходной цели управления. 7.4.3.
СТРАТЕГИЯ УПРЕЖДАЮЩЕГО УПРАВЛЕНИЯ
Перейдем к обсуждению методологии дискретного упреждающего управления динамическими объектами с многошаговым прогнозом, впервые предложенной в работе [218] и получившей развитие в работах автора [221, 227, 263, 265]. Следует заметить, что к данной методологии идейно примыкает метод дискретного оптимального управления Д. Мэйна (D.Q. Mayne) и У. Шредера (W.R. Schroeder) [287]. Обратимся к классу линейных дискретных нестационарных объектов управления: x ( t + 1) = A ( t ) x ( t ) + B ( t ) u ( t ) , (7.43) x ( 0 ) = x0 , n
(7.44)
r
где t ∈ Z + ; x ∈ X = R — состояние; u ∈ R — управление. Пусть область допустимых управлений объекта U является r-мерным параллелепипедом:
{
}
U = u = ( u1 , u2 ,K , ur ) | ui ≤ ui ≤ ui , i = 1, r ,
(7.45)
где ui , ui = const — заданные постоянные, определяющие ресурсы (нижние и верхние граничные значения) управления. Будем рассматривать дискретное управление объектом, согласно которому управляющее устройство на основании поступающей в дискретные моменты времени информации о текущем состоянии объекта вырабатывает кусочно-постоянные управляющие воздействия. Без ограничения общности обратимся к задаче управления объектом (7.43), заключающейся в стабилизации целевого состояния x* = 0, причем будем полагать, что существует область стабилизируемости объекта G ⊂ X , включающая начало координат. В дальнейшем способ формирования управлений будем именовать стратегией управления. Весьма перспективной применительно к задачам дискретного управления динамическими объектами с учетом ресурсных ограничений оказывается идея объединения метода функций Ляпунова и методологии математического программирования. Так, в работе [218] предложено интерпретировать функцию Ляпунова в терминах математического программирования как целевую унимодальную функцию с точкой
678
Методы современной теории автоматического управления
минимума x*, а выбор управляющего воздействия на объект — как реализацию соответствующего одношагового метода спуска для минимизации этой функции. Естественным развитием этой идеи явилась стратегия дискретного управления объектом на основе многошаговой экстраполяции его динамики. Положим, что управление объектом (7.43) осуществляется посредством экстраполяции его движения, т.е. является прогностическим, причем в силу ограниченности «вычислительных» ресурсов управляющего устройства будем считать, что прогноз динамики объекта осуществляется лишь на некоторый конечный период времени T ∈ Z + , T > 0, именуемый далее горизонтом прогноза, и по его результатам вырабатывается управляющее воздействие. Если x ( t ) = x — текущее состояние объекта, то, согласно (7.21), возможные его управляемые движения ξ ( t ) в последующие T периодов можно описать линейными уравнениями: τ−1
ξ ( t + τ ) = Ф τ ( t ) x + ∑ Ф τ−θ−1 ( t ) B ( t ) ν ( t + θ ), τ = 1, T ,
(7.46)
θ=1
где ν ∈ U , а Ф τ ( t ) : X → X — функция перехода состояний управляемого объекта за τ шагов: x ( t + τ ) = Ф τ ( t ) x.
Обозначим через x [t , x0 ] траекторию движения объекта, удовлетворяющую начальному условию (7.44), а через Ω ( x,T ) — область достижимости управляемых движений объекта из состояния x за T шагов, причем точки данной области будем называть T-достижимыми из x. Положим, что удаленность текущего состояния x объекта от целевого состояния * x оценивается некоторой выпуклой положительно определенной функцией Q ( x ) : Q ( 0 ) = 0; Q ( x ) > 0, x ≠ 0,
которая может служить мерой возмущенного состояния объекта. В рассматриваемой задаче стабилизации назначение управляющего устройства заключается в демпфировании возмущенного движения объекта. Следовательно, функцию Q ( x ) правомерно рассматривать двояко: во-первых, как целевую функцию для системы управления с точкой экстремума x* = 0, во-вторых, как критерий качества локальных управляемых движений объекта: последние должны быть целенаправленными, т.е. обеспечивать уменьшение Q в процессе управления. Суть стратегии дискретного упреждающего управления с многошаговым прогнозом сводится к следующему. В каждый текущий момент времени t моделируется движение объекта по траектории, ведущей к T-достижимому состоянию с минимальным значением критерия Q, т.е. решается задача условной оптимизации V ( x ) = min Q ( ξ ) = min min Q ( ξ ( t + τ ) ) , (7.47) ξ∈Ω( x ,T )
{
ν[t , t +T −1] τ∈[1, T ]
}
где ν [t , t + T − 1] = ν ( t + θ ) ∈ U | θ = 0, T − 1 — отрезок управляющего воздействия. ) Затем определяется точка прицеливания x, лежащая на экстремальной траектории такая, что
Глава 7. Методы полиэдрального программирования ) Q ( x ) = V ( x ) при V ( x ) > 0; ) x = 0 при V ( x ) = 0.
679
Искомое движение объекта на очередном такте управления направляется по экс) тремальной траектории, ведущей в точку прицеливания x : u (t ) = ν (t ) , причем если решение задачи не единственно, то среди альтернативных экстремальных траекторий выбирается кратчайшая, т.е. быстрее других выводящая объект в эту точку. 7.4.4.
ОБОСНОВАНИЕ СТРАТЕГИИ УПРЕЖДЕНИЯ
Обозначим через Dc ( c ≥ 0 ) множество уровней функции V ( x ) : Dc = {x ∈ X | V ( x ) ≤ c}.
Теоретическим обоснованием работоспособности описанной стратегии упреждающего управления служит следующая теорема. Теорема 7.10. Пусть управление объектом осуществляется согласно стратегии (7.47), причем T ≥ 2 и существуют вложенные множества Dh ⊂ DH ⊂ X , 0 ≤ h ≤ H , удовлетворяющие условиям sup (V ( x ) − Q ( x ) ) < 0, (7.48) x∈DH \ D0
а все исходящие из Dh траектории за T шагов не покидают DH : Ф τ ( t ) Dh ⊂ DH , τ = 1, T .
Тогда для управляемых движений объекта, начинающихся в Dh : x ( 0 ) ∈ Dh ,
справедливы следующие утверждения: a) движения локализованы в Dh :
x ( t ) ∈ Dh при t > 0,
(7.49)
причем функция V ( x ) вдоль траекторий движения не возрастает: V ( x ( t ) ) ≤ V ( x ( t − 1) ) ;
(7.50)
б) при движении в DH \ D0 значение функции V ( x ) уменьшается не более чем
за T шагов: V ( x ( t ) ) < V ( x ( t − T ) ) при t ≥ T и x ( t ) ∈ DH \ D0 .
(7.51)
Приведем здесь доказательство данной теоремы, поскольку оно содержится лишь в зарубежных публикациях автора [263, 265]. До каз ат ельство . Докажем сначала утверждение a) теоремы. Согласно (7.47) справедливо равенство ) Q ( x ) = min Q ( ξ ) = V ( x ) , ξ∈Ω ( x ,T )
причем по условию теоремы имеем ) V ( x ) = Q ( x ) < Q ( x ) при x ∈ DH \ D0 . Поскольку
V ( x ) = 0 при x ∈ D0
680
Методы современной теории автоматического управления
и Q ( x ) ≥ 0, то V ( x ) ≤ Q ( x ) при x ∈ DH .
(7.52)
Зафиксируем произвольный момент времени t = t0 и пусть x ( t0 ) ∈ Dh . Возможны два случая движения объекта, начиная с момента времени t = t0 . Первый случай. Пусть на следующем шаге t = t0 + 1 объект попадает в точку прицеливания: ) (7.53) x ( t0 + 1) = x ( t0 ) .
Тогда в силу стратегии управления (7.47) имеем ) V ( x ( t0 ) ) = Q ( x ( t0 ) ) = Q ( x ( t0 + 1) ) . Согласно (7.52)
(7.54)
V ( x ( t0 + 1) ) ≤ Q ( x ( t0 + 1) ) .
Отсюда и из (7.54) следует: V ( x ( t0 + 1) ) ≤ V ( x ( t0 ) ) ≤ h.
(7.55)
Второй случай. На шаге t = t0 + 1 объект не попадает в точку прицеливания, т.е. ) x ( t0 + 1) ≠ x ( t0 ) . (7.56) ) Однако при этом движение объекта направлено к x ( t ) , причем точка x ( t0 + 1) ) лежит на траектории, ведущей к x ( t0 ) . Но тогда из точки x ( t0 + 1) объект может по) пасть в точку x ( t0 ) . Следовательно, ) x ( t0 ) ∈ Ω ( x ( t0 + 1) , T )
и
V ( x ( t0 + 1) ) =
min
x∈Ω( x( t0 +1),T )
) Q ( x ) ≤ Q ( x ( t0 ) ) .
Отсюда, учитывая равенство ) V ( x ( t0 ) ) = Q ( x ( t0 ) ) , снова получаем (7.55), т.е.
x ( t0 + 1) ∈ Dh .
Таким образом, для всех моментов времени t ≥ 0 V ( x ( t ) ) ≤ h, т.е. x ( t ) ∈ Dh и при этом выполняется неравенство (7.50). Утверждение a) теоремы доказано. Докажем теперь утверждение б) теоремы. Учтем свойство (7.49). Выберем некоторый момент времени t1 ≥ T и положим
x ( t1 ) ∉ D0 . Тогда в силу (7.50) x ( t ) ∉ D0 при t = t0 , t0 + 1,K, t1 , где t0 = t1 − T .
Здесь также возможны два случая движения объекта, начиная с момента времени t = t0 . Первый случай. На следующем шаге t = t0 + 1 объект попадает в точку прицеливания, т.е. выполняется (7.53). С учетом (7.53) и (7.48) V ( x ( t0 + 1) ) − V ( x ( t0 ) ) = V ( x ( t0 + 1) ) − Q ( x ( t0 + 1) ) < 0.
Глава 7. Методы полиэдрального программирования
681
Но, согласно (7.50), V ( x ( t1 ) ) ≤ V ( x ( t1 − 1) ) ≤ K ≤ V ( x ( t0 + 1) ) , следовательно,
V ( x ( t1 ) ) < V ( x ( t0 ) ) .
(7.57)
Заменяя здесь t1 на t , приходим к (7.51). Второй случай. Пусть на шаге t = t0 + 1 точка прицеливания не достигается, т.е. выполняется условие (7.56). Здесь возможны две ситуации. Первая ситуация. Экстремальное значение целевой функции не меняется в течение T − 1 шагов: V ( x ( t ) ) = V ( x ( t0 ) ) при t = t0 + 1,K, t0 + T − 1.
Тогда в момент времени t1 = t0 + T объект попадает в точку прицеливания, т.е. реализуется первый случай и, следовательно, выполняется неравенство (7.57). Вторая ситуация. В момент времени t = t0 + τ + 1, где τ ∈ [ 0,K, T − 1] , значение целевой функции в точке прицеливания улучшается: V ( x ( t0 + τ + 1) ) < V ( x ( t0 ) ) .
(7.58)
Но, согласно (7.50), V ( x ( t1 ) ) ≤ V ( x ( t1 − 1) ) ≤ K ≤ V ( x ( t0 + τ + 1) ) . Отсюда и из (7.58) получаем (7.57). Снова заменяя t1 на t , приходим к (7.51). Утверждение б) теоремы доказано. Следовательно, теорема доказана. 7.4.5. ОСОБЕННОСТИ СТРАТЕГИИ УПРЕЖДАЮЩЕГО УПРАВЛЕНИЯ Прежде всего заметим, что согласно изложенной стратегии упреждающего управления в системе управления формируется движение к минимальному значению целевой функции в пределах горизонта прогноза, и, следовательно, данная стратегия, по существу, реализует известный в численных методах оптимизации метод наискорейшего спуска. Поскольку V ( x ( t ) ) — монотонно убывающая функция, то вне множества
D0 = {x ∈ X | V ( x ) ≤ 0} при любом выборе целевой функции Q ( x ) она играет роль функции Ляпунова для управляемого движения объекта. В случае попадания объекта в область D0 : x ( t ) ∈ D0 точка прицеливания будет ) совпадать с целевой точкой: x = x* = 0. Ясно, что в этом случае на каждом такте движения длина соответствующей направляющей траектории будет сокращаться на единицу, так что в итоге объект не более чем за T шагов попадет в x*. Поскольку множество D0 включает все те состояния объекта, которые могут быть переведены в
целевое состояние x* не более чем за T шагов, то при x ∈ D0 описанная стратегия управления является оптимальной по быстродействию. Можно показать, что если объект стабилизируем, то при любом выборе целевой функции Q и любом горизонте прогноза T ≥ n условия теоремы будут выполняться. Более того, при достаточно большом T область устойчивости системы будет близка к G. Итак, работоспособность описанной стратегии упреждающего управления с многошаговым прогнозом гарантируется, по крайней мере, при T ≥ n, причем требуемая
682
Методы современной теории автоматического управления
эффективность процесса управления обеспечивается надлежащим выбором горизонта прогноза T . Следует иметь в виду, что для каждой задачи управления в зависимости от специфики объекта существует свой «достаточный период прогноза», так что при дальнейшем его увеличении найденное упреждающее управление практически не изменяется («асимптотический закон» А.Г. Ивахненко). Основываясь на известном принципе Н.Н. Красовского о локальной эквивалентности программного и позиционного управлений, можно констатировать, что изложенная стратегия упреждающего управления является позиционной, формирующей управление по принципу обратной связи. Здесь речь идет об обратной связи, заданной алгоритмически, т.е. об алгоритме управления, который представляет собой последовательность логико-вычислительных операций, реализуемых вычислительным устройством и позволяющих на каждом такте управления по текущим значениям переменных состояния объекта апостериорно формировать управляющее воздействие. Фактически, следуя терминологии К.У. Мерриэма, используется «нарастающая» вычислительная процедура, при которой решение задачи оптимизации для конкретного состояния управляемого объекта включается в решение задачи оптимизации для всех возможных его состояний. В результате в процессе управления осуществляется циклическое обновление программы управления объектом: сформированная программа управления исполняется до очередного такта, на котором обновляется информация о фактически реализующейся позиции (состоянии объекта), после чего программа управления формируется заново. Следует заметить, что данное позиционное управление отличается от управления с обратной связью дополнительным учетом убывающего времени, располагаемого на достижение цели управления. Рассмотренная стратегия дискретного упреждающего управления имеет широкую область применения. Так, например, в работе [221] обсуждается ее использование в задаче барьерного регулирования, связанной с приданием защитных функций объекту регулирования при его попадании в аварийную область функционирования, а в работе [261] она используется в задаче управления линейными дискретными объектами с параметрической неопределенностью. 7.4.6. АЛГОРИТМИЗАЦИЯ ЗАДАЧИ УПРЕЖДАЮЩЕГО УПРАВЛЕНИЯ Изложенный подход к дискретному управлению динамическими объектами сводится к расчету на каждом такте управления экстремальных в пределах горизонта прогноза фазовых траекторий объекта, причем искомое управление определяется первым шагом найденной экстремальной траектории. При этом прогноз повторяется на каждом такте с сохранением длины интервала прогноза, т.е. реализуется «управление со скользящим интервалом прогноза». Обсудим алгоритмическую реализацию стратегии дискретного упреждающего управления. Прежде всего укажем на важное преимущество алгоритмической реализации описанной стратегии упреждающего управления: при выборе полиэдральной целевой функции Q ( x ) и задании области управления U в виде r-мерного параллелепипеда
решаемая на каждом шаге управления оптимизационная задача относится к классу задач ПП и сводится к задачам ЛП. Действительно, выберем в качестве целевой некоторую полиэдральную функцию Q ( x ) = max {ϕi ( x )} , (7.59) i∈[1, I ]
построенную из I базисных линейных функций ϕi : X → R вида ϕi ( x ) = d (i ) , x , d (i ) ∈ X , i = 1, I .
(7.60)
Глава 7. Методы полиэдрального программирования
683
Если представить требование экстремальности стратегии управления (7.59) в виде min Q ( ξ ( t + τ ) ) ≤ q;
τ∈[1, T ]
(7.61)
q → min, (7.62) то полученную оптимизационную задачу (7.45), (7.46), (7.59)–(7.62) удается свести к решению ряда задач ЛП. С этой целью, наряду с горизонтом прогноза ( t + T ), введем в рассмотрение про-
межуточные горизонты ( t + τ ), где τ = 1, T . Тогда определение управления u ( t ) на
каждом текущем такте t сводится к решению T задач ЛП ( τ = 1,T ): τ−1
ξ ( t + τ ) = Ф τ ( t ) x + ∑ Ф τ−θ−1 ( t ) B ( t ) ν ( t + θ ); θ=0
ϕi ( ξ ( t + τ ) ) ≤ qτ , i = 1, T ; qτ → min
с учетом линейных ограничений ui ≤ νi ≤ ui , i = 1, r
на координаты вектора ν = ( v1 , v2 ,K, vr ) . Для каждой τ-й задачи ЛП имеем n уравнений и I + 2r неравенств, причем в результате решения данных задач в числе прочих находятся также и переменные ν ( t ) , ν ( t + 1) ,K , ν ( t + τ − 1) , так что размерность решаемых задач растет по мере приближения τ к T . Итак, в процессе решения T задач ЛП построен пучок из T экстраполированных траекторий движения объекта, отвечающих промежуточным горизонтам прогноза ( t + τ ) , τ = 1, T , причем на концах траекторий критерий Q ( x ) принимает соответственно значения q1 , q2 ,K , qT . Можно показать, что экстремальное значение критерия в (7.47) равно V ( x ) = q ≡ min qτ , τ∈[1, T ]
и соответствующая экстремальная траектория пучка дает решение задачи (7.47). Учтем, что таким экстремальным свойством может обладать несколько траекторий пучка, различающихся временем движения к поверхности уровня Q ( x ) = q. Среди данных альтернативных траекторий выберем кратчайшую, т.е. являющуюся решением задачи ЛП с τ = μ, где μ = min { τ | 1 ≤ τ ≤ T , qτ = q }.
Именно она и будет играть роль направляющей на очередном периоде управляемого движения объекта. Таким образом, решение задачи ЛП, соответствующей τ = μ, определяет искомое значение управления u (t ) = ν (t ). (7.63) Уточним структуру алгоритма вблизи целевого состояния объекта x*, когда его движение локализовано в области D0 .
684
Методы современной теории автоматического управления
Допустим, что при некотором τ = μ прогнозируемая фазовая траектория объекта ξ ( t + τ ) , τ ∈ [1, μ ] попадает в начало координат ξ ( t + μ ) = 0, так что V ( x ) = Q ( ξ ( t + μ ) ) = qμ = 0.
В этом случае последующие промежуточные горизонты ( τ > μ ) не рассматриваются, а решение задачи ЛП определяет управление (7.63). Важно подчеркнуть, что линейная структура данной оптимизационной задачи сохраняется при введении полиэдральных фазовых ограничений, т.е. ограничений на траектории управляемого движения объекта, обусловленных требованиями к качеству процессов управления. 7.5.
ЛИНЕЙНО-ПОЛИЭДРАЛЬНАЯ ЗАДАЧА УПРАВЛЕНИЯ В УСЛОВИЯХ НЕОПРЕДЕЛЕННОСТИ: ЭКСТРЕМАЛЬНЫЕ ВОЗМУЩАЮЩИЕ ФАКТОРЫ И ГАРАНТИРОВАННАЯ ПОЗИЦИОННАЯ СТРАТЕГИЯ УПРАВЛЕНИЯ
Уже в конце 80-х годов К. Негойцэ отмечал, что «наука управления приближается к той границе, за которой существенную роль начинают играть способы учета неопределенностей». Действительно, в реальных условиях функционирования объекта достижению цели управления препятствуют различные возмущающие факторы: внешняя среда, внутренние шумы, неучтенные динамические компоненты объекта, нестабильность его технических и технологических характеристик, погрешности изготовления и монтажа исполнительных органов, неточность работы системы управления и др. Наличие указанных возмущающих факторов, информация о которых заранее неизвестна (текущие значения неконтролируемы, а будущие непредсказуемы), принято называть условиями неопределенности [123]. Теория управления динамическими объектами в условиях неопределенности находится в стадии активного развития и рассматривает различные виды неконтролируемых возмущающих факторов, порождающих неопределенность, в зависимости от степени информированности о них разработчика системы управления [211]. Ограничимся рассмотрением возмущающих факторов, порождающих «природную» (по терминологии Ю.Б. Гермейера и Н.Н. Моисеева) неопределенность, отражающую неполноту знаний, их недостоверность, а также нечеткость и неточность, относящихся к их содержанию. При этом будем рассматривать лишь регулярные возмущающие факторы, которые (в отличие от сингулярных возмущающих факторов) не приводят к изменению структуры модели объекта управления. Особенностью рассматриваемых возмущающих факторов является их аддитивная природа: согласно известному утверждению, каков бы ни был характер неопределенности, она всегда может быть приведена к аддитивной форме. Очевидно, что преодолеть в задаче управления «природную» неопределенность формальными методами невозможно. Как заметил К. Негойцэ: «Искусство разрешать, а в некоторых случаях просто «терпеть» неопределенности требует новых методов исследования». Здесь необходим неформальный акт, связанный с привлечением тех или иных гипотез поведения возмущающих факторов, порождающих неопределенность. В современной теории управления известны различные конкурирующие гипотезы, опираясь на которые удается «устранить» неопределенность и придать задаче управления количественную определенность. Несмотря на разнообразие данных гипотез, существующие подходы к построению гипотетической модели неопределенности могут быть классифицированы на детерминистские и стохастические.
Глава 7. Методы полиэдрального программирования 7.5.1.
685
ДЕТЕРМИНИСТСКАЯ ИЛИ СТОХАСТИЧЕСКАЯ ПАРАДИГМА НЕОПРЕДЕЛЕННОСТИ? Среди различных способов формализации неопределенности наибольшее распространение получил стохастический (вероятностно-статистический) подход, позволяющий в терминах случайности моделировать многие аспекты неопределенности. Однако на пути обоснования правомочности такой стохастической модели неопределенности часто возникают серьезные затруднения научно-методического характера и, отчасти, просто заблуждения, вызванные неосторожным либо неправомерным использованием на практике методологии теории вероятностей и математической статистики. Неизбежные при этом ошибочные, а иногда совершенно абсурдные результаты дали повод к появлению довольно злой шутки, приведенной Р. Мизесом (R. Mises): «Существуют три вида лжи — просто ложь, наглая ложь и статистика». Предостережением от возможных негативных последствий практического использования теории вероятностей и математической статистики является известное высказывание Е.С. Вентцель: «…никогда не надо забывать, что отсутствие информации — беда, а не преимущество исследователя, хотя именно в условиях отсутствия информации он имеет случай щегольнуть наиболее изысканными методами». Вопрос о правомерности применения вероятностно-статистических методов до сих пор остается дискуссионным и дебатируется видными как отечественными, так и зарубежными учеными (Ю.И. Алимов, Е.С. Вентцель, В.В. Волгин, В.Н. Тутубалин, Я.И. Хургин, П.Е. Эльясберг, Ю.А. Кравцов, В.М. Резников, А.К. Левин и Л.А. Звонкин, И.Б. Челпанов и Р.В. Яралошвили, Г.И. Ломако, В.П. Леонов и П.В. Ижевский, Дж. Литтлвуд, Д. Гилис (D.A. Gillies), И. Хемельрийк (J. Hemelrijk), П. Оттестед (P. Ottestad), Дж. Смит (J.M. Smith), Р. Калман и др.). Не вдаваясь в данную полемику, отметим лишь, что данные методы довольно плохо защищены от самых разнообразных возражений и затруднений, часто сопряженных с парадоксами и «ловушками». Здесь уместно процитировать Я.И. Хургина: «Теоретические науки, к сожалению, «защитой от дурака» не обеспечены, и аппарат математической статистики и теории вероятностей неквалифицированно используется довольно часто», а также Е.С. Вентцель, которая, касаясь практического использования теории вероятностей, подчеркивала: «Ее положения и правила часто применяются формально, без подлинного понимания их смысла и духа», причем «злоупотребление формальной стороной теории вероятностей в ущерб здравому смыслу — беда многих псевдоприкладных работ, где математический аппарат — не средство, а цель». В результате, как замечает В.Н. Тутубалин, «в теории вероятностей в настоящее время сложилось ненормальное положение, связанное с переоценкой практических возможностей этой науки». Действительно, современная аксиоматизированная теория вероятностей, как отмечает В.Н. Тутубалин, «совершенно оставляет в стороне вопрос, каким явлениям действительности аксиоматическая модель соответствует хорошо, каким похуже, а каким и вовсе не соответствует», поскольку в рамках принятой аксиоматики Колмогорова «ничего не говорится о том, как узнать, приложима ли вероятностная модель к данному конкретному явлению». Здесь, как подчеркивает В.В. Налимов, «понятия теории вероятностей — это некоторые абстрактно построенные конструкты, а отнюдь не зеркальное отображение того, что на самом деле есть в реальном мире. И совсем не просто показать, как эти конструкты соотносятся с тем, что мы наблюдаем в реальном мире». Кстати, необычность теории вероятностей, в отличие от других математических дисциплин, заключается именно в трудностях интерпретации ее основных понятий и, прежде всего, понятия «вероятность». При этом существенным, незримо присутствующим элементом такой интерпретации является система трудно формализуемых гипотез, соглашений и домысливаний, традиционно привязанных к формальному аппарату теории вероятностей. Так, например, в реальном мире поня-
686
Методы современной теории автоматического управления
тию «генеральная совокупность» просто ничего не соотносится (это понятие — продукт глубокой абстракции), а понятию «вероятность» может быть соотнесена частота, если число наблюдений большое, а что это значит — не ясно. Заметим, что даже в вопросе о том, что же называть случайным имеется несколько соглашений: теоретико-множественный подход относит к случайным величины, снабженные вероятностной мерой; прикладная теория вероятностей выделяет класс случайных величин по признаку устойчивости статистических характеристик; алгоритмическая теория вероятностей отождествляет случайность с алгоритмической сложностью и, наконец, теория частично-детерминированных процессов трактует случайность просто как непредсказуемость. Ведущий специалист в области системного анализа Дж. Касти (J. Casti) пишет: «Конечно, можно утверждать, что теория вероятности и статистика являются удобными инструментами для описания ситуаций, для которых характерна большая степень неопределенности. Однако нет априорных математических оснований полагать, что механизм, порождающий неопределенность, по своей природе непременно стохастичен». По этому поводу, обсуждая особенности применения теоретико-вероятностных методов в экономике, лауреат Нобелевской премии В. Леонтьев писал: «сила статистических приемов зависит от принятия определенных удобных допущений. Эти допущения относятся к вероятностным свойствам тех явлений, для объяснения которых предназначены данные модели, и редко поддаются проверке. Большинство их идет на свалку без какого-либо практического применения или сразу же после поверхностной апробации». Как известно, область применения аппарата теории вероятностей и математической статистики ограничена непредсказуемыми явлениями, которым присуща массовость, повторяемость и статистическая устойчивость (статистическая однородность). При этом следует особо подчеркнуть, что статистическая устойчивость — феномен редкий и тонкий, причем, по мнению ведущих специалистов, «проверка статистической устойчивости трудна и всегда неполна», «наличие ее редко можно вполне гарантировать» и «часто она дает отрицательный вывод». Именно в связи с этим Н.Н. Моисеев писал, что статистические методы в практике автоматического управления «основываются на некоторых гипотезах, априорная проверка которых крайне затруднительна». Кстати, несмотря на наличие ряда процедур проверки непараметрических гипотез о статистической устойчивости (критерий Смирнова для проверки статистической устойчивости оценок одномерных функций распределения, критерий Фишера–Питмена для проверки статистической устойчивости оценок математических ожиданий и др.) универсального способа решения вопроса о наличии статистического ансамбля не существует. В основе стохастической парадигмы неопределенности в задачах управления лежит предположение о стохастической природе возмущающих факторов, порождающих неопределенность. Очевидно, что обращение в этом случае к вероятностным гипотезам поведения возмущающих факторов продиктовано наличием информации о массовом явлении, к элементам которого как раз и относится рассматриваемый в задаче процесс управления с конкретной реализацией неопределенности. Однако поскольку возмущающие факторы часто не относятся к классу повторяемых и, что самое главное, возможно, не обладают свойством статистической устойчивости, то нельзя их считать «случайными» и бессмысленно говорить о них в вероятностных терминах. Возможность применения вероятностных гипотез к данного рода неопределенностям является сомнительной, а использование аппарата теории вероятностей и математической статистики для формализации их модели представляется некорректным. По этому поводу В.Н. Тутубалин заметил, что «имеется хорошо понятное желание применить теорию вероятностей в случаях, когда результаты экспериментов имеют неопределенность, но нельзя говорить о статистическом однородном ансамбле. Такие применения пока что относятся не к области науки, а к области магии».
Глава 7. Методы полиэдрального программирования
687
Вообще следует заметить, что искушение часто бывает настолько сильным, что аппарат теории вероятностей и математической статистики применяется во всех случаях жизни, и даже тогда, когда современная наука отвергает такую возможность, например, когда статистического ансамбля либо явно нет, либо его наличие сомнительно, либо о нем просто бессмысленно говорить. Так, при разработке систем управления летательными аппаратами, как правило, удается провести лишь небольшое число экспериментальных запусков аппарата, так что наиболее важные для разработчиков записи и осциллограммы не составляют сколько-нибудь значительного ансамбля. Более того, во многих задачах управления разработчик располагает вообще единственной реализацией. Тем не менее, во всех этих случаях часто домысливается большой ансамбль, и на его основе строятся вычислительные процедуры, которым приписывают научный характер. В связи с этим Ю.И. Алимов даже охарактеризовал главную особенность методологии теории вероятностей и математической статистики, как «домысливание ансамбля испытаний, случайных величин или случайных процессов там, где на самом деле есть только одно испытание, одна случайная величина или один случайный процесс». В работах Ю.И. Алимова, В.Н. Тутубалина, И.Б. Челпанова, Р.В. Яралошвили, П.Е. Эльясберга и др. приводятся примеры недоразумений, вызываемых таким домысливанием ансамбля там, где его нет, а также дается резкая критика ансамблевых моделей безансамблевых ситуаций. В качестве примера можно привести Н. Винера, который предлагал применить теорию экстраполяции случайных процессов для прогноза траектории полета самолета в связи с зенитной стрельбой, что абсолютно бессмысленно, поскольку, как выразился В.Н. Тутубалин, «траектория самолета — не случайный процесс, по крайней мере, не такой случайный процесс, для которого существует теория экстраполяции». Кстати, следует заметить, что в своих работах по прогнозу случайных процессов А.Н. Колмогоров не делает ни малейшего намека на возможность их практических применений. В теории вероятностей не существует методов, которые не нуждались бы в ансамбле, причем, как подчеркивает В.Н. Тутубалин, «выводы, полученные путем применения теории вероятностей в ситуации, где нет статистического ансамбля экспериментов, не обладают научной достоверностью». Однако несмотря на это все чаще предпринимаются попытки спасти концепцию статистической однородности и найти менее строгие, косвенные пути обеспечения репрезентативности выборки и, в результате, все большее внимание уделяется проблеме построения доверительного интервала при малом числе опытов. В связи с этим следует напомнить, что еще в середине XIX века О. Курно (A.A. Cournot) призывал строго различать объективную и субъективную вероятности. При этом он подчеркивал, что если первая соответствует большому числу одинаково случайных испытаний и может быть найдена только эмпирически, то вторая соответствует малому числу таких испытаний и ее нахождение теряет смысл: «В тех случаях, когда число испытаний менее значительно, формулы, обычно применяемые для вычисления вероятностей a posteriori, становятся иллюзорными: они показывают лишь вероятности субъективные, пригодные только для установления пари, но не применимые там, где речь идет о ряде естественных событий». Через столетие Н. Винер (N. Wiener) по этому поводу отмечал, что часто «мы имеем дело с короткими статистическими рядами и не можем быть уверены, что значительная часть наблюдаемого нами не создана нами самими». Здесь, по-видимому, можно согласиться с мнениями Ю.И. Алимова: «Едва ли допустимо «расцвечивать» скудный экспериментальный результат с помощью далеко не простого аппарата так называемой теории малых выборок» и Е.С. Вентцель: «Мало опытов — значит мало информации, и дело наше плохо… Здесь налицо явное несоответствие между грубостью постановки задачи, малой ценностью выводов и тонкостью аппарата».
688
Методы современной теории автоматического управления
Вообще следует констатировать, что стохастический подход далеко не универсален даже в условиях его правомерности. Вероятностные характеристики процессов во многих случаях не могут служить эффективными показателями качества процесса управления, поскольку статистические характеристики — это результаты осреднений по большому (теоретически — бесконечно большому) числу опытов. В связи с этим, они принципиально не могут гарантировать определенный исход одного конкретного опыта, что как раз и требуется во многих реальных задачах. Более того, использование методологии, ориентированной на синтез систем управления в «среднем», при стечении определенных обстоятельств не только не обеспечивает заданные показатели качества, но может привести к аварийным ситуациям. Действительно, пилота, управляющего самолетом при посадке, нисколько не волнует, каким будет среднеквадратическое отклонение самолета от оси взлетно-посадочной полосы в момент приземления, найденное по результатам какого-либо большого числа посадок. Ему необходимо, чтобы именно в данный момент отклонение не превысило ширины полосы. То же касается и других случаев управления техническими объектами и технологическими процессами, когда редкие отклонения управляемых параметров сверх допустимых пределов могут привести к непоправимым последствиям. Несмотря на вышеуказанные особенности применения аппарата теории вероятностей и математической статистики, популярность стохастического подхода к построению математических моделей неопределенности не ослабевает, и все еще часто возобладает взгляд на статистику «как науку принятия решений перед лицом неопределенности». Сторонники постулирования существования вероятностных характеристик неопределенности часто ссылаются на бесспорность вероятностной природы нашего не очень предсказуемого мира. Здесь провозглашается взгляд родоначальников стохастического естествознания Л. Больцмана (L. Boltzman) и Дж. У. Гиббса (W. Gibbs), лаконично сформулированный сначала О. Курно, а затем А. Реньи (A. Renyi): «Миром правит случай», и выраженный унификаторским тезисом системологии Б.С. Флейшмана: «Мы живем в вероятном мире». Следует заметить, что если в начале прошлого столетия, по словам известного философа П.Н. Федорова, была «общепризнанна ограниченность классического (лапласовского) детерминизма», то уже к середине столетия вероятностная концепция становится доминирующей во многих областях естествознания, включая кибернетику. Как выразились Л.А. Растригин и П.С. Граве, провозгласившие гимн случайному миру: «Романтическая дымка надуманного регулярного мира сменяется яркими красками нашего живого и трижды случайного мира». К сожалению, даже «отец кибернетики» Н. Винер не смог избежать односторонности мировозрения, против которой он так энергично выступал: поддавшись торжествующему буйству случая, он предложил подходить ко всем процессам управления с единой меркой — со статистическим подходом, утверждая, что «проблема автоматизации — это, по существу, проблема статистическая». По поводу практической ценности того или иного математического аппарата Л. де Бройль (L. de Broglie) писал, что «он не может дать в своих выводах ничего более того, что содержится неявно в исходных гипотезах». Данную точку зрения хорошо выражает известная мысль Т. Гексли (T.H. Huxley), сравнивающая математику с жерновами, перемалывающими то, что в них засыпают. При использовании аппарата теории вероятностей и математической статистики, полученные выводы верны не более, чем его исходные посылки — засыпка в «жернова» математики, которые всегда являются интуитивными, эмпирическими, плохо поддающимися формализации. По утверждению В.Н. Тутубалина, «в огромном большинстве случаев возможность статистического описания хотя бы какой-нибудь одной стороны изучаемого явления достоверно не установлена». С этой точкой зрения перекликается и мнение одного из ведущих специалистов в области управления в условиях неопределенности К. Негойцэ: «Необходимость знания точных распределений значений случайных величин —
Глава 7. Методы полиэдрального программирования
689
весьма жесткое ограничение. В реальной жизни оно выполняется крайне редко (если это вообще возможно)». Более того, даже такой последовательный казуалист, как Н. Винер, не скрывая своего недоверия к вероятностным гипотезам, признавал, что «никакое количество чисто объективных и отдельных наблюдений не может показать, что вероятность является обоснованной идеей». Детализируя высказывание Т. Гексли, уместно подчеркнуть: с физической точки зрения математику не всегда удается рассматривать как готовые «жернова», автоматически дающие на выходе доброкачественный результат, если входные данные были достаточно точными. Математические «жернова» требуют эвристической «засыпки» извне, которая включает выбор не только исходных данных, но и самих математических «жерновов». При этом наибольшие трудности часто возникают именно с выбором «жерновов», т.е. адекватного математического аппарата, поскольку при плохих «жерновах» продукт «математического перемалывания» вряд ли получится хорошим. По-видимому, во все большей оторванности от реалий и кроется одна из причин весьма скептического отношения к практическим возможностям вероятностно-статистических методов. В качестве иллюстрации приведем некоторые выдержки из критических высказываний выдающихся математиков-прикладников современности [94]: • «Со статистикой что-то не в порядке» (А.Н. Колмогоров); • «Статистика — опасная парадоксами наука (и часто большая ложь)» (В.И. Арнольд); • «Математики не верят в вероятность» (Л.С. Понтрягин); • «Я весьма счастлив разделить точку зрения Понтрягина и заниматься математикой, не связывая себя верой (т.е. априорной гипотезой), касающейся вероятности» (Р.Е. Калман). На наш взгляд, основное заблуждение сторонников стохастического подхода к построению математической модели неопределенности связано с тем, что теорию вероятностей применяют для исследования полностью неопределенных явлений, к которым она не имеет никакого отношения. Получается, что теория вероятностей оказывается, как выразился В.Н. Тутубалин, «совершенно особой наукой, в которой из полного незнания можно сделать некие содержательные выводы». На нее часто смотрят, по мнению Е.С. Вентцель, «как на своего рода волшебную палочку, позволяющую получать информацию из полного незнания», в то время как данная теория только «средство преобразования одной информации в другую». Это дало основание Н.Н. Моисееву утверждать [142, с.28]: «Стохастические задачи, т.е. задачи, содержащие случайные величины или функции, мы не относим к числу задач, содержащих неопределенные факторы», поскольку «случайность и неопределенность — имеют совершенно различный смысл и требуют для своего изучения различного аппарата». С этим утверждением перекликается высказывание Р. Калмана: «Мы должны отрицать, что классические вероятностные структуры классической теории вероятностей, на самом деле, имеют научное отношение к описанию неопределенности» [94, с.39]. На самом деле, вероятностная гипотеза является всего лишь предположением волевого порядка и объективно устранить неопределенность исходной математической модели не может. Так, например, Н. Винер подчеркивал, что «приписывать неопределенным по самой своей сути величинам какую-то особую точность бесполезно, и, каков бы ни был предлог, применение точных формул к этим слишком вольно определяемым величинам есть не что иное, как обман и пустая трата времени». Данную точку зрения отражают следующие высказывания известных специалистов в области приложений вероятностно-статистических методов: • «Классический (колмогоровский) вероятностный подход не может работать в реальных задачах с недостоверными данными. Для того чтобы моделировать неопределенность при помощи вероятностного механизма, необходимо иметь
690
Методы современной теории автоматического управления
чересчур много информации, которая не может быть извлечена из доступных данных в большой массе практических задач» (Р. Калман); • «Из негодного или неинформативного статистического материала нельзя извлечь много пользы, а порой и вообще вместо ценной информации можно приобрести лишь ложную, создающую ошибочные представления и предрассудки» (Я.И. Хургин). Именно в связи с этим теоретико-вероятностные методы оказались неэффективными при моделировании широкого класса процессов и явлений, в которых решающую роль играет неопределенность. В результате в последние десятилетия в ряде областей естествознания наметилась тенденция к «драматической смене парадигм»: стохастическая картина мира сменяется его детерминистской картиной. Р. Калман, комментируя известное высказывание А. Эйнштейна (A. Einstein): «Бог не играет в кости» и не отвергая при этом случайность в общем механизме Вселенной, выдвинул следующий тезис: «Природа устроена не в соответствии с правилами игры в кости, рулетки или карточной игры, иными словами, Природа не подчиняется правилам традиционной вероятности». Более того, выдающийся ученый современности Р. Пенроуз (R. Penrose) выдвинул концепцию жесткого детерминизма, согласно которой вся история вселенной оказывается раз и навсегда определенной в соответствии с некоторой точной математической схемой, в которой физический мир отождествляется застывшим навеки миром Платона с его однозначной определенностью. Следуя тенденции коренного поворота к новой картине мира, все чаще подвергается сомнению традиционная точка зрения, согласно которой «стохастические модели реальных ситуаций всегда являются более совершенными и предпочтительными, чем детерминированные», и все более убедительной становится рекомендация известных специалистов в области управления и моделирования Б.Р. Андриевского и А.Л. Фрадкова: «Если возникает дилемма: выбрать математическую модель детерминированную или стохастическую, то предпочтение следует отдать детерминированной математической модели». Усиление роли детерминистской парадигмы неопределенности породило различного рода нестохастические модели неопределенности: субъективную вероятность Севеджа (L.J. Savage), верхнюю и нижнюю вероятности Демпстера (A.P. Dempster), емкость Шоке (G. Choquet), правдоподобие и доверие Шеффера (G. Shafer), возможности Заде (L.A. Zadeh) и Шейкла (G.L.S. Shackle), безразличную неопределенность В.И. Иваненко и В.А. Лабковского, возможность и правдоподобие Ю.П. Пытьева, нестохастический шум А.Е. Барабанова, а также различные интервальные модели и модели детерминированного хаоса. Проблема соотношения необходимости и случайности, детерминизма и вероятности — одна из сложнейших в естествознании. Являясь предметом многочисленных обсуждений, она недавно вызвала горячий спор между основоположником теории катастроф Р. Томом (R. Thom) и создателем новой теории системодинамики И. Пригожиным (I. Prigogine). Безусловно, что все реальные объекты и явления имеют черты как детерминированного, так и индетерминированного, т.е. случайного, которые могут проявляться в большей или меньшей степени. Как писал знаменитый представитель Кельнской школы Николай Кузанский: «Природа — это синтез абсолютной необходимости, из которой она происходит, и случайности, без которой она не существует». В связи с этим вопрос «Каким является мир на самом деле?» в принципе не допускает однозначного ответа. На наш взгляд, уместнее все же говорить не о вероятностном мире, а о мире разнообразных «неопределенностей», для которых априорно оценить степень статистической устойчивости невозможно. Интенсивное развитие системных исследований в последние десятилетия ведет к очередной смене стиля научного мышления, очередной смене научной парадигмы. Современный этап развития науки все больше связывают с так называемым синерге-
Глава 7. Методы полиэдрального программирования
691
тическим стилем мышления [173]. Согласно мнению одного из «отцов» синергетики И. Пригожина, наш мир — это мир открытых нелинейных систем, переходящих в процессе самоорганизации в стационарное неравновесное состояние с «наименьшей диссипацией». При этом синергетика как способ видения мира и стиль мышления выросла на почве предыдущих стилей мышления — детерминистского и вероятностного — и представляет собой некоторого рода синтез позитивных элементов детерминистской и стохастической картин мира. Здесь детерминистичность и стохастичность рассматриваются как характеристики двух разных уровней развития и организации сложных систем, причем детерминистичность — фундаментальное качество системы, относящееся к уровню ее развития как целого, а стохастичность — фундаментальное качество системы, относящееся к уровню ее элементного строения. 7.5.2. КОНЦЕПЦИЯ ГАРАНТИРОВАННОГО РЕЗУЛЬТАТА В широком круге задач управления в условиях неопределенности отсутствует какое-либо адекватное статистическое описание «природы» возмущающих факторов, вследствие чего невозможно применение положений теории вероятностей и математической статистики. В данных случаях естественно следовать детерминистской парадигме неопределенности, в рамках которой весьма продуктивной является концепция или принцип гарантированного результата. Как подчеркивают В.И. Иваненко и В.А. Лабковский: «…из существующих в настоящее время подходов только принцип гарантированного результата имеет шанс быть адекватно примененным в рассматриваемой ситуации». В наиболее общем виде данная концепция сформулирована Ю.Б. Гермейером и получила развитие в работах Н.Н. Красовского, А.Б. Куржанского, Ф.Л. Черноусько, А.И. Субботина и А.Г. Ченцова, В.М. Кунцевича и М.М. Лычака, Н.Ф. Кириченко, В.М. Кейна, Е.Е. Александрова, В.Ф. Бирюкова и др. (см., например, [98, 123, 198]). Согласно концепции гарантированного результата математическая модель неопределенности строится исходя из гипотезы «наихудшего» поведения возмущающих факторов. Суть данной гипотезы, преодолевающей неопределенность в задаче управления, состоит в интерпретации неконтролируемых возмущающих факторов как некоторого гипотетического детерминированного возмущения, о котором известны лишь диапазоны его изменения. Это возмущение вводится в модель динамики объекта управления с предположением о его самом неблагоприятном (экстремальном) воздействии на процесс управления. Иначе говоря, считается, что в a priori заданном диапазоне изменения возмущения реализуются те его значения, при которых обеспечивается самое низкое качество процесса управления. Следует заметить, что введенное в рассмотрение возмущение допускает весьма широкую трактовку и выступает не как физическое, а как абстрактное математическое понятие, символизирующее влияние возмущающих факторов. Так, к нему могут быть отнесены не только собственно «внешние» возмущения, приложенные к объекту со стороны окружающей среды, но и всевозможные «внутренние» возмущения (например, шумы и ошибки измерения). Сюда же можно отнести также и неопределенные факторы, связанные с неточностью математического описания объекта: неизвестные параметры объекта, неучтенные инерционные и нелинейные звенья, погрешности линеаризации и дискретизации модели объекта и т.д. Детерминированная модель неопределенности, в которой информация о неконтролируемых возмущающих факторах задается лишь ограниченным множеством без введения на них каких-либо вероятностных мер, адекватна математическому аппарату, используемому в современной теории экстремальных задач. Поскольку знания о возмущении являются неполными и нельзя однозначно предсказать реакцию объекта управления на управляющее воздействие, то в этих услови-
692
Методы современной теории автоматического управления
ях оправданным является формирование такой стратегии управления, которая гарантирует желаемый результат даже при самом неблагоприятном допустимом возмущении. В основе такой стратегии управления лежит следующая позиция «наименьшего благоприятствования» или «крайнего пессимизма»: принимая решение в условиях неопределенности, надо всегда рассчитывать на худшее стечение обстоятельств и принимать то решение, которое дает в этих обстоятельствах максимальный эффект. Анализируя данную позицию, Н.Н. Моисеев подчеркивал: «Выбор гарантирующей стратегии поведения — это рациональный способ принятия решений. В результате использования этой стратегии мы гарантируем себя от всяких случайностей» [94, c.42]. Подход к управлению в условиях неопределенности, связанный с оптимизацией «самых плохих» из возможных процессов управления, соответствующих экстремальным возмущающим факторам, получил название гарантирующего или минимаксного. Следует заметить, что данный подход позволяет задачу управления в условиях неопределенности интерпретировать как антагонистическую игру двух игроков — субъекта (разработчика алгоритма управления), определяющего стратегию управления, который персонифицируется как игрок-союзник, и природы, генерирующей возмущающее воздействие, которая персонифицируется как игрок-противник. При этом предполагается, что характер изменения возмущающих воздействий является неопределенным: они заранее неизвестны, механизм их генерации может быть произвольным, а доступная информация ограничивается лишь априорным заданием допустимых областей их изменения. Данная теоретико-игровая трактовка позволяет дать четкую постановку задачи управления и привлечь к ее решению корректные методы минимаксной оптимизации. Основной недостаток концепции гарантированного результата заключается в том, что соответствующая ему стратегия управления, как правило, оказывается слишком осторожной, излишне «перестраховочной», пессимистической, а значение получаемого при этом гарантированного результата в смысле оценки качества процесса управления является слишком завышенным. Несмотря на то, что данная концепция не является универсальной, так как предполагает намеренное максимальное противодействие природы, распоряжающейся выбором реализаций возмущающих факторов, она позволяет определить предельные возможности (границы поведения) управляемого объекта в условиях неопределенности. Обратимся к следующим двум задачам дискретного управления линейными нестационарными динамическими объектами в условиях неопределенности: задаче определения экстремальных возмущающих факторов и задаче формирования гарантированной позиционной стратегии управления. В основу постановки и решения данных задач положены концепция гарантированного результата и методы ПП. 7.5.3. ЭКСТРЕМАЛЬНЫЕ ВОЗМУЩАЮЩИЕ ФАКТОРЫ Пусть дискретный объект управления в условиях действия возмущающих факторов описывается линейным разностным уравнением (7.64) x ( t + 1) = A ( t ) x ( t ) + B ( t ) u ( t ) + H ( t ) ψ ( t ) , где t ∈ ℑ = [ 0, T − 1] ⊂ Z + — интервал управления; T ≥ 1 — конечный (терминальный) момент времени; x ∈ X = R n — состояние; u ∈ R n — управление; ψ ∈ R q — возмущение; A ( t ) ∈ R n×n , B ( t ) ∈ R n×r , H ( t ) ∈ R n×q . Считаем, что целевым является равновесное состояние объекта x = 0, соответствующее его невозмущенному движению, а целью управления — терминальная стабилизация, т.е. демпфирование возмущенного движения объекта (приближение к целевому состоянию и удержание вблизи него).
Глава 7. Методы полиэдрального программирования
693
Пусть алгоритм стабилизации объекта (7.64) формирует управление u в виде линейной обратной связи по состоянию: u ( t ) = −K ( t ) x ( t ) , (7.65) где K ( t ) ∈ R r×n — матрица обратной связи. Тогда динамика замкнутой системы стабилизации (7.64)–(7.65) описывается разностным уравнением x ( t + 1) = G ( t ) x ( t ) + H ( t ) ψ ( t ) , t ∈ ℑ, (7.66) где G ( t ) ∈ R n×n — матрица замкнутой системы: G (t ) = A (t ) − B (t ) K (t ). Полагаем, что управление объектом осуществляется в условиях неопределенности, порождаемой неконтролируемыми возмущающими факторами. При этом действие возмущающих факторов проявляется в виде начальных и текущих возмущений, для которых отсутствует какое-либо адекватное статистическое описание, а известны лишь области их возможных значений. Пусть начальное состояние x ( 0 ) и возму-
щающее воздействие ψ ( t ) , t ∈ ℑ удовлетворяют следующим ограничениям: x ( 0 ) ∈ X0 , t ∈ ℑ;
(7.67)
ψ ( t ) ∈ Ψ, t ∈ ℑ;
(7.68)
здесь X0 и Ψ — области допустимых значений соответственно начального состояния и возмущения, имеющие форму параллелепипеда:
{
}
X0 = x = ( x1 , x2 ,K, xn ) | xi ≤ xi ≤ xi , i = 1, n ;
{ (
)
(7.69)
}
Ψ = ψ = ψ1 , ψ 2 ,K, ψ q | ψ j ≤ ψ j ≤ ψ j , j = 1, q ,
(7.70)
где xi , xi , ψ j , ψ j = const — заданные постоянные, определяющие ресурсы (нижние и верхние граничные значения) соответствующих возмущающих факторов. Возмущающие факторы, удовлетворяющие условиям (7.67)–(7.70), будем называть допустимыми (допустимыми к рассмотрению). Определим для каждого τ ∈ [1, T ] кортеж η ( τ ) :
η ( τ ) = ( ψ ( 0 ) , ψ (1) ,K, ψ ( τ − 1) ) , определенный на множестве Ψ τ (декартова степень множества Ψ ). Ясно, что кортеж η (T ) ∈ ΨT описывает реализацию (отрезок) допустимого возмущающего воздействия на интервале управления ℑ. При выбранном алгоритме стабилизации (7.65) каждой реализовавшейся паре возмущающих факторов x ( 0 ) , η (T ) соответствует единственная траектория движения стабилизируемого объекта x ( t ) , t ∈ [ 0, T ] , определяемая равенством t −1
x ( t ) = Ф ( t ,0 ) x ( 0 ) + ∑ Ф ( t , θ + 1) H ( θ ) ψ ( θ ),
(7.71)
θ=0
где Ф ( t , θ ) ∈ R n×n — переходная матрица состояний системы (7.66). Сформулируем требования к качеству процесса стабилизации. Для этого введем в X в качестве полиэдральной чебышевскую норму x = max xi i∈[1, n ]
694
Методы современной теории автоматического управления
и примем за меру возмущения равновесного состояния x = 0 системы (7.66) полиэдральный критерий в виде максимальной динамической ошибки системы: E = max x ( t ) = max max xi ( t ) . (7.72) t∈[1, T ]
t∈[1, T ] i∈[1, n ]
Поскольку возмущающие факторы x ( 0 ) и ψ ( t ) , t ∈ ℑ, находятся в распоряжении «природы», то, следуя концепции гарантированного результата, примем гипотезу ее наихудшего поведения и рассмотрим задачу нахождения экстремальных возмущающих факторов, влияющих на процесс стабилизации системы наиболее неблагоприятно в смысле критерия (7.72) [223]. Частный случай (возмущение успокоенной стационарной системы). Положим, что система стабилизации является стационарной, т.е. для всех t ∈ [ 0, T ] A ( t ) = A = const; B ( t ) = B = const; H ( t ) = H = const; K ( t ) = K = const,
причем вначале она находится в равновесном состоянии ( x ( 0 ) = 0 ) и возмущающим фактором является лишь возмущающее воздействие ψ ( t ) , t ∈ ℑ. В этом случае траектория движения x ( t ) , t ∈ [ 0, T ] стабилизируемого объекта определяется следующим равенством: t −1
x ( t ) = ∑ G t −θ−1Hψ ( θ ),
(7.73)
θ=0
где G = A − BK. Обратимся к следующей частной постановке задачи нахождения наиболее неблагоприятных возмущающих факторов З η ( E , T ) : требуется найти допустимое возмущающее воздействие, «наихудшее» для процесса стабилизации, т.е. доставляющее наибольшее возможное значение максимальной динамической ошибке E : З η ( E , T ) : E = E ( η (T ) ) → max T . η(T )∈Ψ
Следует отметить, что сформулированная задача З η ( E , T ) является обобщением дискретного аналога классической задачи Булгакова о максимальном отклонении. Ее физический смысл состоит в нахождении ограниченного по значению возмущающего воздействия, способного максимально «раскачать» процесс стабилизации. Исследование задачи Булгакова для дискретных и нестационарных динамических систем содержится в работах Б. Бича и Р. Джексона (B.T. Birch & R. Jackson), Я.Н. Ройтенберга, Л.С. Гноенского, А.Х. Гелига, В.Г. Трейваса и др. (см. обзоры [3, 61]). Решение задачи З η ( E , T ) , т.е. реализацию допустимого возмущающего воздействия η* (T ) :
η* (T ) = arg max T E ( η (T ) ) , η(T )∈Ψ
и порождаемый им переходный процесс x* ( t ) , t ∈ [ 0, T ] будем называть наихудшими. При этом экстремальное значение критерия качества
(
E * = E η* (T )
)
есть наибольшее возможное значение максимального отклонения движения системы от начала координат на всем интервале ее функционирования при всех возможных допустимых возмущающих воздействиях η (T ) ∈ ΨT .
Глава 7. Методы полиэдрального программирования
695
Следует заметить, что нахождение наихудшего возмущающего воздействия и определение максимальной динамической ошибки системы — взаимосвязанные задачи, которые должны решаться совместно. Перейдем теперь к решению задачи З η ( E , T ) . Нетрудно убедиться, что максимум по t критерия (7.72) достигается в терминальный момент времени t = T : E = max T max x ( t ) = x (T ) = max xi (T ) . η(T )∈Ψ t∈[1, T ]
i∈[1, n]
Действительно, предположим, что максимальное значение критерия E , т.е. наибольшее отклонение от начала координат, система стабилизации достигает внутри интервала функционирования системы [ 0, T ] в некоторый момент времени t * < T :
( )
E = x t* ,
вследствие возмущающего воздействия ψ* ( t ) , t ∈ ℑ. Тогда, очевидно, это же значение критерия E может быть достигнуто и при возмущающем воздействии ⎧ 0 при 0 ≤ t < T − t * ; ⎪ * % ψ (t ) = ⎨ * * * ⎪⎩ψ t − T + t при T − t ≤ t ≤ T , но уже в терминальный момент времени t = T . Итак, поставленная задача З η ( E , T ) эквивалентна следующей оптимизационной
(
задаче:
)
ET = ET ( η (T ) ) → max T
(7.74)
ET = x (T ) = max xi (T ) ,
(7.75)
η(T )∈Ψ
с критерием качества
i∈[1, n ]
имеющим смысл терминальной динамической ошибки системы стабилизации. При этом экстремальное значение критерия ET* представляет собой максимально возможную динамическую ошибку, которая может «накопиться» в системе к терминальному моменту времени. Следует заметить, что, в отличие от интервального критерия качества E вида (7.72), критерий качества ET вида (7.75) является точечным. Согласно (7.73) критерий (7.75) является полиэдральным функционалом возмущения η (T ) и поэтому, в силу полиэдральности ограничивающего множества ΨT , оптимизационная задача (7.74)–(7.75) относится к классу задач ПП на максимум. Учитывая равенство z = max { z , − z} , сведем задачу (7.74)–(7.75) к следующему семейству из 2n вспомогательных терминальных экстремальных задач: З η ( Fk , T ) : Fk → max T , k = 1, 2n, η(T )∈Ψ
где ⎧⎪ xk (T ) , k = 1, n; Fk = ⎨ ⎪⎩− xk −n (T ) , k = n + 1, 2n.
(7.76)
Здесь компоненты xi (T ) , i = 1, n вектора состояния x (T ) системы стабилизации определяются из выражений (7.73) при t = T .
696
Методы современной теории автоматического управления
Поскольку целевые функции Fk вида (7.76) являются линейными и ограничение на возмущающее воздействие задается линейными неравенствами, то вспомогательные задачи З η ( Fk , T ) являются задачами ЛП. Положим, что решения всех вспомогательных задач З η ( Fk , T ) найдены и им отвечают экстремальные значения соответствующих целевых функций, равные Ц ( Fk , T ) , k = 1, 2n. Пусть Ц* — наибольшее из этих значений: max Ц ( Fk , T ) = Ц*,
k∈[1, 2 n ]
причем оно достигается на решении η* (T ) задачи З η ( Fk , T ) . Тогда данное решение
(
η* (T ) = ψ* ( 0 ) , ψ* (1) ,K, ψ* (T − 1)
)
является искомым решением исходной задачи З η ( E , T ) . Таким образом, решение задачи З η ( E , T ) сводится к решению семейства 2n вспомогательных задач ЛП с числом переменных qT и числом ограничений в форме неравенств 2qT . Общий случай (возмущение нестационарной системы). Положим, что нестационарная система стабилизации выведена из равновесного состоянии, т.е. x ( 0 ) ≠ 0, и неконтролируемые возмущающие факторы в процессе управления проявляются как в виде возмущающего воздействия ψ ( t ) , t ∈ ℑ, так и начального состояния x ( 0 ) . Определим для каждого τ ∈ [1, T ] кортеж ν ( τ ) : ν ( τ) = ( x ( 0) , η( τ)) ,
определенный на множестве Vτ = X0 × Ψ τ.
Ясно, что кортеж ν (T ) ∈ VT описывает возмущающие факторы, действующие на объект на интервале управления ℑ. Обратимся к следующей общей постановке задачи нахождения наиболее неблагоприятных возмущающих факторов З ν ( E , T ) : требуется найти допустимые возмущающие факторы, «наихудшие» для процесса стабилизации: З ν ( E , T ) : E = E ( ν (T ) ) → max . ν(T )∈VT
Данная задача, являющаяся расширением классической задачи Булгакова о максимальном отклонении, впервые поставлена А.Б. Куржанским [123, с.145]. Решение задачи З ν ( E , T ) в виде кортежа ν* (T ) : ν* (T ) = arg max E ( ν (T ) ) , ν(T )∈VT
т.е. его компоненты — начальное состояние x* ( 0 ) и возмущающее воздействие ψ* ( t ) , t ∈ ℑ, а также порождаемый ими переходный процесс x* ( t ) , t ∈ [ 0, T ] , будем называть наихудшими. При этом экстремальное значение критерия качества E * = E ν* ( T )
(
)
является наибольшим возможным значением максимального отклонения движения системы от начала координат на всем интервале ее функционирования при действии всех возможных допустимых возмущающих факторов ν (T ) ∈ VT .
Глава 7. Методы полиэдрального программирования
697
Ясно, что решение задачи З ν ( E , T ) существенно усложняется по сравнению с рассмотренной выше задачей З η ( E , T ) , поскольку в общем случае максимальное отклонение состояния системы от начала координат может достигаться внутри интервала ее функционирования [ 0, T ]. Оптимизационная задача З ν ( E , T ) в силу полиэдральности критерия E ( ν (T ) ) и ограничивающего множества VT является задачей ПП на максимум и, аналогично рассмотренной выше задаче (7.74)–(7.75), может быть сведена к следующему семейству из 2n × T вспомогательных терминальных экстремальных задач: З ν ( Fk , τ ) : Fk → max , k = 1, 2n, τ ∈ [1, T ] . ν (T )∈VT
Здесь
⎧⎪ xk ( τ ) , k = 1, n; (7.77) Fk = ⎨ ⎪⎩− xk − n ( τ ) , k = n + 1, 2n, где компоненты xi ( τ ) , i = 1, n вектора состояния x ( τ ) определяются из выражения (7.71) при t = τ. Отметим, что вспомогательные задачи З ν ( Fk , τ ) образуются редукцией исходной
задачи З ν ( E , T ) путем ее погружения в более общую многоточечную краевую задачу, составляющего основу классического метода инвариантного погружения. Поскольку целевые функции Fk вида (7.77) являются линейными и ограничивающее множество Vτ , согласно (7.69), (7.70), задается линейными неравенствами, то вспомогательные задачи З ν ( Fk , τ ) являются задачами ЛП.
Положим, что решения всех вспомогательных задач З ν ( Fk , τ ) найдены и определены экстремальные значения соответствующих целевых функций Ц ( Fk , τ ) , k = 1, 2n, τ ∈ [1, T ] . Тогда если Ц* — наибольшее из этих 2n × T значений, которое достигает-
( ) ν ( τ ) = ( x ( 0 ) , ψ ( 0 ) , ψ (1) ,K, ψ ( τ − 1) )
ся на решении ν* τ* : *
(
)
*
*
*
*
*
*
задачи З ν Fk , τ* : max max Ц ( Fk , τ ) = Ц*,
k∈[1, 2 n ] τ∈[1, T ]
то данное решение является также и решением исходной задачи З ν ( E , T ) :
(
)
ν* (T ) = x* ( 0 ) , ψ* ( 0 ) , ψ* (1) ,K , ψ * (T − 1) ,
причем здесь ψ ( θ ) , τ ≤ θ ≤ T − 1 — произвольные возмущающие воздействия, удовлетворяющие ограничениям (7.68), (7.70). Итак, для решения задачи З ν ( E , T ) необходимо решать семейство 2n × T вспомогательных задач ЛП с общим числом переменных и числом ограничений в форме неравенств ( n + q ) τ, τ ∈ [1, T ]. Численные иллюстративные примеры подтверждают полученные ранее в многочисленных исследованиях результаты: наихудшее возмущение носит релейный характер, т.е. принимает только свои максимально возможные по модулю значения. *
*
698
Методы современной теории автоматического управления
Замечания : 1. С точки зрения приложений необходимо ориентироваться на плавные возмущения, поскольку скорость изменения реальных возмущений ограничена. В связи с этим естественным является сужение класса допустимых возмущающих воздействий путем введения ограничений не только на величину, но и на скорость их изменения. Постановка задачи о накоплении возмущений в линейных системах с ограниченными по значению и по скорости возмущающими воздействиями впервые дана Л.С. Гноенским. Для учета данных ограничений достаточно включить в постановку рассмотренной задачи дополнительные ограничения вида Δψ j ≤ Δψ j ≤ Δψ j , j = 1, q, где Δψ j = ψ j ( t + 1) − ψ j ( t ) , а Δψ j , Δψ j −− const. 2. Описанный метод решения рассмотренной задачи позволяет учитывать фазовые ограничения на допустимые траектории управляемого движения системы стабилизации: для этого необходимо представить эти ограничения в виде линейных неравенств и включить их в постановку задачи. Очевидно, что такая модификация исходной задачи приведет к увеличению размерности соответствующих вспомогательных задач ЛП. 3. Результаты решения рассмотренной задачи определения экстремального возмущения могут быть использованы для тестирования, т.е. для оценки эффективности и сравнительного анализа дискретных алгоритмов стабилизации в условиях неопределенности [223]. Действительно, тестирование алгоритмов управления динамическими объектами, как правило, связано с имитацией управляемого движения объекта при тестовых возмущающих воздействиях, отвечающих возможным реализациям неопределенных возмущающих факторов. При этом в тестовых экспериментах обычно ограничиваются двумя типами стандартных возмущающих воздействий: либо детерминированными стандартными возмущениями (импульсными, ступенчатыми, линейно возрастающими, синусоидальными и т.д.), либо стохастическими возмущениями (возмущениями типа «белого шума», волновой структуры и т.д.). Ясно, что указанные типы воздействий не исчерпывают всего многообразия возмущений, ожидаемых в реальных условиях функционирования объекта. Поскольку всевозможные варианты действия «природы» предусмотреть нельзя, то целесообразно помимо традиционных стандартных возмущающих воздействий использовать также и возмущения, характерные для экстремальных условий и отвечающие максимальному противодействию со стороны «природы» процессу управления. В связи с этим в практике тестирования систем управления все большее применение находит «третий тип» возмущающих воздействий, открытый Б.В. Булгаковым и составляющий класс наиболее неблагоприятных (экстремальных) возмущающих воздействий. Следует заметить, что идея тестирования алгоритмов стабилизации с использованием экстремальных тестовых воздействий «булгаковского типа» впервые предложена в работах В.В. Александрова и получила название метода гарантированного тестирования (см., например, [2, гл. VII]). Данный вид тестирования осуществляется согласно концепции гарантированного результата и реализует изопериметрический (по терминологии Л.А. Мироновского) режим функционирования системы стабилизации, целью которого является максимальное «возбуждение» системы с помощью ограниченного возмущения. Для систем стабилизации данный режим соответствует максимальной их «раскачке», при которой максимизируется максимальное отклонение реального движения управляемого объекта от его программного движения. «Практическая завышенность» условий тестирования является платой за гарантированность
Глава 7. Методы полиэдрального программирования
699
получаемых результатов, поскольку потери в эффективности тестирования из-за низкой достоверности модели возмущений превышают возможный выигрыш от более точной настройки алгоритма стабилизации на какой-либо определенный (первый или второй) тип возмущений. 7.5.4. ГАРАНТИРОВАННАЯ ПОЗИЦИОННАЯ СТРАТЕГИЯ УПРАВЛЕНИЯ Рассмотрим дискретный объект управления (7.64) в условиях отсутствия текущего возмущения ( ψ ( t ) ≡ 0 ) : x ( t + 1) = A ( t ) x ( t ) + B ( t ) u ( t ) ,
(7.78)
где t ∈ ℑ = [ 0, T − 1] ⊂ Z + , x ∈ X = R , u ∈ R . n
r
Пусть целью управления является перевод состояния объекта в начало координат в терминальный момент времени: x (T ) = 0. Положим, что управляющее воздействие формируется в виде позиционной стратегии [123], т.е. в виде линейной обратной связи (7.65) на основе текущей информации о позиции (состоянии) объекта. В общей традиционной постановке задача синтеза оптимальной позиционной стратегии управления (7.65) для объекта (7.78) заключается в выборе кортежа K = ( K ( 0 ) , K (1) ,K, K (T − 1) ) , оптимального по некоторому критерию J ( K ) : K * = arg min J ( K ) .
(7.79)
Рассмотрим случай, когда начальное состояние объекта x ( 0 ) = x0 a priori неизвестно и удовлетворяет ограничениям (7.67), (7.69). Очевидно, что данный случай отвечает управлению объектом в условиях неопределенности, порождаемой начальным возмущением (начальным состоянием объекта x0 ≠ 0 ). При этом для начальных возмущений известна лишь область их возможных значений X0 ⊂ X , представляющая собой полиэдральное множество (полиэдр). Рассматривая теперь задачу управления в условиях начальной неопределенности, естественно воспользоваться концепцией гарантированного результата и поставить задачу синтеза оптимальной стратегии управления для самого неблагоприятного начального состояния объекта. Обозначим через u ( t ) = u [t , x0 , K ] и x ( t ) = x [t , x0 , K ] соответственно текущие значения управления и состояния в замкнутой системе (7.78), (7.65) при ее движении из начального состояния x0 , а через Δu ( t ) и Δx ( t ) — соответственно скорости их изменения:
Δu ( t ) = u ( t + 1) − u ( t ) ; Δx ( t ) = x ( t + 1) − x ( t ) .
Качество процесса управления объектом определяется качеством управляющих воздействий и качеством реакций его выхода. Для оценки качества процесса управления объектом (7.78) можно использовать полиэдральные критерии качества в виде следующих функционалов потерь, учитывающих динамическую структуру фазовых траекторий и управляющих воздействий [225]: T −1
J ( x0 , K ) = ∑ Q ( x ( t ) , Δx ( t ) , u ( t ) , Δu ( t ) );
(7.80)
J ( x0 , K ) = max Q ( x ( t ) , Δx ( t ) , u ( t ) , Δu ( t ) ) .
(7.81)
t =0
0≤t ≤T −1
700
Методы современной теории автоматического управления
Здесь Q ( x ( t ) , Δx ( t ) , u ( t ) , Δu ( t ) ) — целевая полиэдральная функция вида Q ( x ( t ) , Δx ( t ) , u ( t ) , Δu ( t ) ) = λ1 ( t ) q1 ( x ( t ) ) + λ 2 ( t ) q2 ( Δx ( t ) ) + +λ3 ( t ) q3 ( u ( t ) ) + λ 4 ( t ) q4 ( Δu ( t ) ) ,
n
n
r
где q1 : R → R, q2 : R → R, q3 : R → R и q4 : R r → R — некоторые положительно однородные полиэдральные функции; λi ( t ) ≥ 0, t = 0, T − 1, i = 1, 4 — весовые коэффициенты, причем λ1 ( t ) + λ 2 ( t ) + λ 3 ( t ) + λ 4 ( t ) > 0, t = 0, T − 1. В частности, можно положить q1 ( x ) = x1 + x2 + K + xn ; q2 ( Δx ) = 0; q3 ( u ) = u1 + u2 + K + ur ; q4 ( Δu ) = 0;
λ1 ( t ) = t ν ,
где ν ∈ Z + , λ 3 ( t ) = 1. Тогда качество синтезируемой системы (7.78), (7.65) можно оценивать функционалами потерь (7.80), (7.81), определенными на семействе ее переходных процессов x ( t ) = x [t , x0 , K ] , x0 ∈ X0 : J ( K ) = max J ( x0 , K ) . x0∈X0
(7.82)
При этом начальное состояние x∗0 , на котором достигается максимум данных функционалов, и соответствующий переходный процесс в замкнутой системе управления будем называть наихудшими. В результате исходную оптимизационную задачу (7.79) можно поставить как задачу параметрической оптимизации системы в смысле минимакса: (7.83) J K * = min max J ( x0 , K ) .
( )
K
x0∈X0
Данная минимаксная задача определяет стратегию управления (7.65) объектом (7.78) в условиях полиэдральной начальной неопределенности, отвечающую концепции гарантированного результата. Изложим достаточно простой и эффективный метод решения минимаксной задачи (7.83), который идейно перекликается с предложенным в работе [193] методом решения ЛК-задачи управления в условиях начальной неопределенности, характеризуемой принадлежностью начального состояния объекта гиперсфере. Обозначим через [ X0 ] множество вершин полиэдра X0 , характеризующего неопределенность начального состояния объекта x0 . Теорема 7.11. Для любой стратегии управления в виде обратной связи (7.65) наихудшее в смысле критерия (7.83) начальное состояние объекта (7.78) совпадает с одной из вершин полиэдра X0 : x*0 ∈ [ X0 ] . До каз ат е льс тво . Обозначим через Ф переходную матрицу замкнутой системы (7.78), (7.65). Тогда, очевидно, (7.84) x ( t ) = Ф ( t ,0 ) x0 , и, согласно (7.65), (7.85) u ( t ) = −K ( t ) Ф ( t ,0 ) x 0 . Подстановка данных выражений в критерий (7.80) дает полиэдральную целевую функцию относительно x0 . Нетрудно убедиться, что этот же результат имеет место и
Глава 7. Методы полиэдрального программирования
701
для критерия (7.81) в силу свойства выпуклости функции поточечного максимума конечного числа полиэдральных функций. Можно показать, что при фиксированном K экстремальная задача ПП на максимум: max J ( x0 , K ) x0∈X0
сводится к задаче ЛП, поэтому если она разрешима, то экстремум достигается в некоторой вершине полиэдра X0 . Итак, согласно теореме 7.11, полиэдральные целевые функции (7.80) и (7.81) достигают своих максимальных значений на одной из вершин полиэдра X0 . Данный результат позволяет упростить задачу оптимизации (7.83): заменить континуальное множество (полиэдр) X0 на конечное множество его крайних точек (вершин полиэдра) [ X0 ] , т.е. свести ее к более простой задаче на минимакс:
( )
J K * = min max J ( x0 , K ) . K
x0 ∈[ X0 ]
(7.86)
Для решения минимаксной задачи (7.86) запишем решение уравнения (7.78) в форме t −1
x ( t ) = ФO ( t , 0 ) x0 + ∑ ΩO ( t , θ ) u ( θ ),
(7.87)
θ= 0
где ФO и ΩO — соответственно переходная и импульсная переходная матрицы объекта. Представим оптимальное управление в виде программы, линейно параметризованной начальным состоянием объекта x0 : u ( t ) = P ( t ) x0 ,
(7.88)
где P ( t ) , t = 0, T − 1 — неизвестные матрицы. Введем в рассмотрение кортеж P = ( P ( 0 ) , P (1) ,K, P (T − 1) ) . Тогда подстановка (7.88) в (7.87) дает (7.84), где t −1
Ф ( t , 0 ) = ФO ( t , 0 ) + ∑ ΩO ( t , θ ) P ( θ ).
(7.89)
θ= 0
Соотношения (7.88), (7.84) и (7.89) позволяют представить рассматриваемые критерии качества (7.80), (7.81) как полиэдральные функционалы относительно функциональной матрицы P ( t ) : J ( x0 , K ) = J% ( x0 , P ) ,
в результате чего вместо экстремальной задачи (7.86) получаем следующую задачу на минимакс: J% P * = min max J% ( x0 , P ) . (7.90)
( )
P
x0∈[ X0 ]
Данная задача является задачей ПП на минимум и, следовательно, может быть сведена к семейству эквивалентных общих задач ЛП. Ключевую роль для формирования вектора решения задачи здесь играет введение мажорант целевой и ограничивающих полиэдральных функций. Так, например, задача (7.90) эквивалентна следующей задаче условной оптимизации: Г → min; J% ( x0 , P ) ≤ Г, x0 ∈ [ X0 ] . (7.91) Здесь ограничение (7.91) применительно к критериям (7.80) или (7.81) можно представить в форме соответствующих подчиненных неравенств:
702
Методы современной теории автоматического управления λ i ( t ) qi ≤ μi ( t ) , t = 0, T − 1, i = 1, 4; T −1
∑ μi (t ) ≤ Г,
(7.92)
i = 1, 4,
t =0
или
μi ( t ) ≤ Г, i = 1, 4,
причем (7.92) представимо соответствующей системой линейных неравенств. В итоге приходим к общей задаче ЛП с неизвестными P ( t ) и μi ( t ) , i = 1, 4, t = 0, T − 1. Допустим, что в результате решения данной задачи ЛП определены матрицы P ( t ) , t = 0, T − 1. Тогда, вычисляя Ф ( t ,0 ) по формуле (7.89) и сравнивая (7.85) и
(7.88), находим искомые параметры K ( 0 ) , K (1) ,K , K (T − 1) оптимальной позиционной стратегии управления (7.65): K ( t ) = −P ( t ) Ф −1 ( t ,0 ) , t = 0, T − 1. Итак, общей особенностью рассмотренных задач управления в условиях неопределенности является, во-первых, использование полиэдральных критериев качества процесса управления и, во-вторых, их сведение к общей задаче ЛП. 7.6.
ЛИНЕЙНО-ПОЛИЭДРАЛЬНЫЕ ЗАДАЧИ УПРАВЛЕНИЯ В УСЛОВИЯХ КОНФЛИКТА: ПОЛИЭДРАЛЬНЫЕ МНОГОШАГОВЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ
Специальный класс задач управления в условиях неопределенности составляют конфликтные задачи управления, в которых имеются, по крайней мере, два противоборствующих (с диаметрально противоположными целями управления) объекта — союзник и «разумный» противник, стратегия управления которого выступает в качестве неопределенного неконтролируемого фактора. Задача управления в конфликтной ситуации, т.е. в условиях целенаправленного противодействия противника, заключается в выборе стратегии управления союзником, обеспечивающей наиболее благоприятное его поведение в расчете на самые неблагоприятные действия противника. Математическим инструментом решения такого рода задач является теория игр [158], методы и модели которой находят разнообразные теоретические и практические приложения в различных сферах человеческой деятельности, включая технические, социальные и экономические задачи. В теории игр наиболее интересными и важными для практических приложений являются динамические игры [183, 252], в которых поведение участников конфликта, т.е. игроков, описывается динамическими процессами. Характерной особенностью динамических игр является то, что они динамичны по характеру протекающих процессов, причем время развития игры может быть как непрерывным (дифференциальные игры), так и дискретным (дискретные, или многошаговые игры). Первые работы в области динамических игр появились полвека назад и были посвящены дифференциальным играм. Как заметил автор первой монографии в этой области Р. Айзекс (R. Isaacs): «теория дифференциальных игр появилась в качестве обобщения теории управления», причем «обе эти теории дополняют друг друга: задачи оптимального управления можно превратить в дифференциальные игры, если ввести еще одного участника», а методы теории дифференциальных игр «можно применить к задачам управления, рассматривая их как игры одного игрока». Эту же точку зрения высказывают известные специалисты в области управления В.Ф. Кротов и В.И. Гурман: «Теория
Глава 7. Методы полиэдрального программирования
703
дифференциальных игр может рассматриваться, с одной стороны, как обобщение классической теории игр на процессы с дифференциальными связями, а с другой — как обобщение теории оптимальных процессов на проблемы управления в условиях неопределенности». К настоящему времени теория динамических игр сформировалась во вполне завершенную математическую теорию, в которой рассматриваются детерминированные и стохастические динамические игры при различных предположениях о виде стратегии и числе игроков, о структуре пространства, в котором происходит игра, о целях игроков и т.д. Однако, цитируя известного специалиста в области дифференциальных игр М.С. Никольского, следует констатировать, что «пока существует значительный разрыв между достижениями теории дифференциальных игр и ее практическим применением». Действительно, в теории динамических игр наиболее существенные результаты получены в общетеоретическом плане: для многих игровых задач установлены принципы оптимального поведения игроков, доказаны теоремы существования и изучена структура решений, а также разработаны общие подходы к их построению. Однако все эти результаты имеют настолько общий характер, что использовать их в реальных задачах управления динамическими объектами, чаще всего, не представляется возможным. В случаях когда удается построить оптимальную стратегию управления, она часто оказывается чрезмерно сложной и не может быть непосредственно реализована по техническим или экономическим соображениям. По-видимому, одной из причин этого является то, что, как справедливо отметил В.М. Кейн, теория динамических игр «обязана своим развитием математикам, стремящимся прежде всего исследовать наиболее общие свойства обсуждаемых задач» и, как следствие, «может подсказать лишь идеологию и общее направление решения». В связи с этим часто даются несколько пессимистические оценки современному состоянию теории и практики динамических игр. Так, например, по мнению Е.С. Вентцель, «игровые модели, за которые вначале с азартом ухватились многие, оказались сравнительно бедны реальными приложениями». Это связано, прежде всего, с отсутствием достаточно простых и эффективных алгоритмов решения игровых задач. Подтверждением этому служит высказывание одного из ведущих специалистов в области дифференциальных игр Б.Н. Пшеничного: «Обычно решение дифференциальной игры представляет собой сложную задачу. В настоящее время не существует каких-либо общих численных методов, позволяющих находить решение, если число координат управляемой системы больше трех». Несмотря на это мы склонны разделять оптимистическую точку зрения Л.С. Понтрягина: «Дифференциальные игры открывают новую интересную тематику для исследований и в перспективе своего дальнейшего развития приведут к решению актуальных технических задач». Обсудим возможности применения аппарата ПП для решения широкого класса детерминированных динамических парных игр с дискретным временем — линейных полиэдральных многошаговых игр преследования. 7.6.1.
КЛАСС ЛИНЕЙНЫХ ПОЛИЭДРАЛЬНЫХ МНОГОШАГОВЫХ ИГР ПРЕСЛЕДОВАНИЯ
Типичный пример динамической парной игры составляет ситуация преследования одного управляемого объекта другим [117]. Проблемы, рассматриваемые в теории динамических игр преследования, имеют своим источником многие прикладные задачи управления, включая приведение управляемого объекта в заданное состояние при неизвестных заранее возмущающих факторах, управление объектом при неполной информации о его текущем состоянии и др. По мнению Н.Н. Красовского, «задачи встречи двух управляемых объектов составляют важный раздел современной тео-
704
Методы современной теории автоматического управления
рии управляемых систем», причем, как заметил Я.З. Цыпкин: «Именно в этих задачах теория управления обогатилась многими важными и красивыми результатами». В отечественной литературе задача преследования (программное преследование при условии максимина времени встречи) была впервые поставлена и изучена Д.Л. Келенджеридзе в 1961 г. Основополагающие результаты в области динамических игр преследования получены в работах Р. Айзекса, А. Брайсона, У. Флеминга (W.H. Fleming), А. Фридмана (A. Friedman), научных школ Н.Н. Красовского (Ю.С. Осипов, А.Б. Куржанский, А.И. Субботин, В.Е. Третьяков, А.Г. Ченцов), Л.С. Понтрягина (Е.Ф. Мищенко, М.С. Никольский), Ф.Л. Черноусько (А.А. Меликян), Б.Н. Пшеничного (В.В. Остапенко, А.А. Чикрий), Л.А. Петросяна (О.А. Малафеев, Г.В. Томский), а также М.И. Зеликиным, Э.Н. Симаковой, Э.М. Вайсбордом, В.И. Жуковским, В.М. Кейном и др. (см., например, библиографию в [198]). Обратимся к одному классу динамических игр преследования с дискретным временем. Положим, что две противоборствующие стороны — игроки — являются движущимися объектами. Рассмотрим многошаговую игру перехвата, в которой первый игрок P (pursuer) преследует второго игрока E (evader), причем процесс игры описывается линейным векторным разностным уравнением вида x ( t + 1) = Ax ( t ) + u ( t ) + v ( t ) , (7.93) где t ∈ ℑ — дискретное время, в котором развертывается игра; ℑ ⊂ Z + — интервал времени игрового процесса; x ∈ X — позиция игры, являющаяся n-мерным вектором относительных координат игрока P в системе, связанной с игроком E ; X = R n — пространство игры; u ∈ U и v ∈ V — n-мерные управляющие векторы (управления) игроков P и E соответственно; U , V ⊂ X — области управления игроков; A : X → X — линейный оператор. При формализации игры оговариваются допустимые действия (стратегии) и степень информированности каждого из игроков. Предположим, что области управления обоих игроков U и V являются полиэдральными и оба игрока располагают полной информацией о текущей позиции игры — векторе x. Стратегии игроков P и E обозначим соответственно через ξ и η : ξ = u ( ⋅) ∈ U ; η = v ( ⋅ ) ∈ V ,
где U и V — соответствующие множества допустимых стратегий:
{
}
{
}
U = u ( ⋅) u ( t ) ∈ U , t ∈ ℑ ; V = v ( ⋅) v ( t ) ∈ V , t ∈ ℑ .
Считаем, что рассматриваемая многошаговая игра преследования начинается в момент времени t = 0 из начальной позиции x0 : x ( 0 ) = x 0 . Цель игрока P заключается в том, чтобы захватить игрока E , т.е. встретиться с ним, а цель игрока E — избежать захвата, т.е. уклониться от встречи с игроком P. Игра рассматривается как игра качества (с исходом типа «да/нет»), в которой преследование прекращается в случае захвата первым игроком второго. При этом захват считается осуществившимся, если расстояние между игроками уменьшилось до некоторого наперед заданного расстояния ρ > 0. Заметим, что данное условие окончания игры соответствует концепции Р. Айзекса, отмечавшего: «Я стараюсь избегать таких постановок задач в играх преследования, когда захватом называется совпадение точек». Введем в рассмотрение целевое терминальное множество G ⊂ X , определяющее условие захвата, т.е. окончания игры, как достижение точкой x этого множества. Будем считать, что определен момент захвата (момент встречи) t *, и положим, что множество G является полиэдральным:
Глава 7. Методы полиэдрального программирования
{
G= x x
где x
P
P
705
}
≤ρ ,
— некоторая полиэдральная норма вектора x ∈ X .
В качестве показателя близости хода игры перехвата к завершению примем расстояние текущей позиции x до начала координат, определяемое в той же полиэдральной метрике: γ (x) = x P . (7.94) Игровая задача перехвата заключается в определении плана (стратегии) игры, т.е. способа формирования игроками управлений u и v, обеспечивающего для первого игрока P приближение (минимизацию значения промаха), а для второго игрока E — удаление от момента встречи (максимизацию значения промаха). Заметим, что время захвата t * также имеет большое значение в прикладных задачах и должно учитываться при сравнении различных способов решения задачи. Далее, на абстрактном уровне игру преследования можно попытаться формализовать как игру степени, принимая за плату игры время захвата, однако это приводит к чрезмерному усложнению задачи. Описанный класс линейных многошаговых динамических игр преследования имеет полиэдральную структуру и поэтому назван полиэдральными [264], или политопическими (по зарубежной терминологии [258]) играми. В схему сформулированной многошаговой динамической игры преследования укладываются многие практические задачи, связанные с техногенными, социальноэкономическими и экологическими конфликтными ситуациями. В частности, сформулированную многошаговую динамическую игру преследования можно трактовать как задачу управления объектом в условиях неопределенности. Действительно, обратимся, например, к задаче стабилизации равновесного состояния объекта (7.93). С точки зрения теории игр работу системы стабилизации можно рассматривать как задачу с конфликтной ситуацией между двумя противодействующими сторонами-игроками — регулятором и средой (природой), под которой понимается абстрактная модель совокупности всех неконтролируемых неопределенных возмущающих факторов. Здесь одна из сторон — регулятор — вырабатывает управляющее воздействие u в соответствии с определенными правилами и ограничениями, не получая информации о поведении v другой противодействующей стороны — среды (именуемой в зарубежной литературе «антирегулятором»). Цель регулятора состоит в выборе такого управляющего воздействия (из класса допустимых), которое обеспечивает минимизацию функции потерь в виде критерия качества процесса стабилизации γ ( x ) независимо от поведения среды в предположении, что последняя выбирает возмущающее воздействие (из класса допустимых), являющееся наименее благоприятным для регулятора. В результате выработка оптимальной стратегии регулятора в условиях антагонизма среды приводит к необходимости использования теоретико-игрового подхода и формализации задачи стабилизации как динамической игры преследования. Многошаговые аналоги непрерывных игр, а также вопросы аппроксимации непрерывных игр многошаговыми впервые рассмотрены в работе Дж. Мыселского (J. Mysielski). Б.Н. Пшеничный один из первых предложил рассматривать динамические игры как многошаговый процесс с конечной длительностью каждого шага. Среди исследований многошаговых динамических игр следует выделить работы А.И. Пропоя, Ю.П. Иванилова и Б.М. Мухамедиева, Ф.М. Кирилловой и Р. Габасова, Н.М. Слобожанина и др.
706
Методы современной теории автоматического управления
7.6.2. ЧИСТЫЕ МИНИМАКСНЫЕ СТРАТЕГИИ С момента своего возникновения вся теория игр занимается поиском ответов на следующие два фундаментальных вопроса: что такое оптимальное решение и существуют ли оптимальные решения в данном классе игр? Дело в том, что теория игр рассматривает произвольные действия участников игры и вырабатывает оптимальное поведение последних в результате сравнения всех возможных последствий поведения игроков с точки зрения отношения предпочтения их интересов. При этом понятие оптимальных решений должно отражать естественные черты, которые интуитивно приписываются оптимальности, разумности, справедливости. Данное, несущественное с точки зрения математического формализма, соображение становится важным при построении игровой модели конфликтной ситуации и приложении к ней результатов теории игр. Теория игр сформировала свой собственный язык. Так, неслучайный выбор стратегий ξ и η обеими сторонами игры получил название «чистых стратегий», а веро-
ятностные законы FP ( ξ ) и FE ( η ) , по которым осуществляется рандомизация этих стратегий, называются «смешанными стратегиями». Ясно, что управляющие устройства, вырабатывающие оптимальные стратегии обоих игроков, могут быть либо стохастическими устройствами, реализующими смешанные стратегии FP ( ξ ) и FE ( η ) , либо детерминированными устройствами, реализующими чистые стратегии ξ и η. На практике рандомизированные устройства управления вряд ли являются пригодными и поэтому естественно, чтобы они представляли собой детерминированные (а не стохастические) устройства. Однако следует заметить, что в задаче оптимального управления в условиях неопределенности, рассматриваемой как игра с природой, имеет место контраст между двумя противодействующими сторонами в выборе своего воздействия. Здесь на воздействия со стороны природы накладываются иные условия, нежели на воздействия, осуществляемые управляющим устройством: сигнал возмущения v, «вырабатываемый» природой, — это все же не разумный противник, обладающий способностью накапливать информацию и менять свою стратегию со временем. Безусловно, что природе вполне позволительно иметь возможность рандомизировать свои действия и пользоваться смешанными стратегиями. Причина подобной асимметрии в предположениях о стратегиях управляющего устройства и природы заключается в существе задачи автоматического управления. Разработчик системы управления в расчетах на «наихудший случай» весьма оправданно может предположить, что природа способна действовать наименее благоприятным для системы управления образом. Столь же оправданно предположить, что природа не настолько активна, чтобы радикально изменить свое поведение в процессе игры (по мере развертывания процесса управления). Несмотря на принципиальную возможность рассмотрения модели смешанных стратегий поведения природы, для многих теоретических задач это не приемлемо из-за отсутствия адекватной стохастической модели внешней среды. В силу этого приходится постулировать детерминистскую парадигму «природной» неопределенности, выражаемой в рассмотрении лишь чистых стратегий поведения природы. Важным условием для решения задачи выработки оптимального решения игры является декларирование принципа оптимальности, который представляет собой математическую формализацию интуитивного представления о рациональном поведении участников игры в процессе конфликта. Проблема принципов оптимальности в теории игр остается открытой: несмотря на наличие широкого семейства принципов оптимальности, универсального принципа, пригодного для конфликтных управляемых процессов различной природы, не существует. При этом практика теории игр показывает, что выработанные до сих пор принципы оптимальности прямо или косвенно отражают идею устойчивости ситуаций, удовлетворяющих этим принципам.
Глава 7. Методы полиэдрального программирования
707
Возникает естественный вопрос: что же понимать под решением игры и какому принципу оптимальности следовать при решении сформулированной динамической многошаговой задачи преследования? В большинстве работ, посвященных динамическим парным антагонистическим играм, принято придерживаться понимания решения игры, которое исходит из теоретико-игровых представлений, выработанных основоположниками теории игр Дж. фон Нейманом (J. von Neumann) и О. Моргенштерном (O. Morgenstern). Здесь исследователь выступает в роли объективного наблюдателя стратегий обоих игроков и под решением игры понимается ситуация, обладающая седловой точкой платежной функции γ ( ξ, η ) , т.е. пара стратегий игроков ξ* и η*, удовлетворяющих условию
(
)
γ ξ* , η* = min max γ ( ξ, η ) = max min γ ( ξ, η ) . ξ∈U η∈V
η∈V ξ∈U
Таким образом, стратегия, наилучшая для одного из игроков, является одновременно наихудшей для другого игрока. Это так называемый принцип седловой точки, который отвечает условию равновесия: минимальный гарантированный проигрыш первого игрока равен максимальному гарантированному выигрышу второго, так что ни один из игроков не заинтересован в изменении оптимальной стратегии поведения. Поскольку решение игры в такой форме далеко не всегда существует, то на первый план выдвигается проблема существования решения игры, т.е. наличие в игре седловой точки. Принцип седловой точки является наиболее известным, а в ряде случаев и наиболее разумным. Однако в последние десятилетия все большее распространение и признание находит другое понимание решения динамической игры, выработанное Ю.Б. Гермейером [57] на основе теории оптимального управления и исследования операций. Здесь исследователь выступает не в роли объективного наблюдателя стратегий обоих игроков, а отождествляет себя с одним из них — игроком-союзником, выбирая для него оптимальную стратегии. В результате под решением игры понимается пара стратегий игроков ξ* и η*, удовлетворяющих условию
(
)
γ ξ* , η* = min max γ ( ξ, η ) . ξ∈U η∈V
Следовательно, стратегия игрока-союзника реализует наилучший результат при наихудшей для него же стратегии игрока-противника. Это так называемый принцип минимакса, или принцип гарантированного результата. Здесь стратегия игрокапротивника интересует исследователя лишь постольку, поскольку она определяет стратегию игрока-союзника. Решение, понимаемое в данном смысле, логично с точки зрения теории управления, так как задает оптимальную стратегию, которой разработчик системы управления может распоряжаться, не связываясь со стратегией неподвластной ему природы. Такая постановка задачи выглядит достаточно естественно и с математической точки зрения, снимая проблему существования решения: здесь решение, при непустом множестве допустимых стратегий, существует всегда. Следует отметить, что в задачах управления в условиях неопределенности, рассматриваемых как антагонистическая игра с природой, применение принципа седловой точки нелепо, а принципа гарантированного результата — вполне естественно. Действительно, пусть разработчик системы управления стремится минимизировать критерий качества процесса управления γ ( ξ, η ) . Положим, что он, не зная стратегию природы η, выбрал свою стратегию ξ. Тогда самое худшее, что может произойти — это выбор природой такой стратегии η = η′ ( ξ ) , что γ ( ξ, η ) максимизируется и становится равным γ ( ξ, η′ ( ξ ) ) = max γ ( ξ, η ) . η
708
Методы современной теории автоматического управления
Если разработчик решит минимизировать самое худшее из того, что может случиться по вине природы, то он должен выбрать стратегию ξ = ξ′ так, чтобы выполнялось условие γ′ = γ ( ξ ′, η′ ( ξ′ ) ) = min max γ ( ξ, η ) . ξ
η
При таком выборе стратегии ξ потери разработчика никогда не превзойдут γ′ (но могут быть и равны γ′ ): γ ( ξ′, η ) ≤ max γ ( ξ′, η ) = γ ( ξ′, η′ ( ξ′ ) ) = γ ′. η
Насколько можно видеть, в изложенном сценарии игры разработчика с природой, вопрос о том, удовлетворяется ли когда-нибудь равенство (т.е. условие наличия седловой точки) в справедливом соотношении min max γ ( ξ, η) ≥ max min γ ( ξ, η ) , ξ
η
η
ξ
у разработчика не поднимался. Итак, минимаксная стратегия предполагает, что природа противодействует выбору разработчика, и поэтому последний действует так, чтобы минимизировать самое худшее, что может случиться. Обратная, т.е. максиминная, стратегия предполагает, что разработчик предвидит действие природы, а она активно сопротивляется его желанию минимизировать критерий качества управления, формируя такую стратегию, чтобы его минимальная величина была как можно больше. Равенство минимакса и максимина означает, что разработчик не может улучшить свои знания о стратегии природы (если она действует как разумный субъект). Но так как разработчик не знает выбора природы, то и нет нужды рассматривать эту ситуацию. Резюмируем: при рассмотрении динамической многошаговой игры преследования будем полагать, что допустимым является выбор обеими сторонами игры только лишь чистых стратегий, причем решение игры будем строить на основе принципа гарантированного результата. 7.6.3.
ПРИНЦИП ГАРАНТИРОВАННОГО ПРОГНОЗИРУЕМОГО ПРОМАХА В ПОЛИЭДРАЛЬНОЙ ИГРЕ ПРЕСЛЕДОВАНИЯ
Перейдем к обсуждению линейных полиэдральных многошаговых игр преследования [219, 264]. В основу управления процессом преследования положена идея организации многошагового прогноза (с заданной глубиной) будущего развития игры с последующей оценкой прогнозируемой платы — терминального промаха. На каждом шаге игры преследователь по информации о текущей позиции игры формирует некоторый план преследования в виде жесткой программы на основе прогностической кинематической модели игры. При этом он ориентируется на наибольшее противостояние со стороны преследуемого и в результате строит стратегию управления с ориентацией на наихудший исход игры — максимальный прогнозируемый терминальный промах. Ключевыми в предложенном решении рассматриваемого класса задач преследования являются следующие положения: 1. Выбор управлений игроками на каждом шаге игры основывается на T-шаговом планировании (прогнозе) ее будущего развития ( T ≥ 1 ). Для каждого текущего момента времени t будущий момент времени th = t + T будем называть горизонтом планирования (прогнозирования), величину T — глубиной прогноза, а интервал времени [t , th ] — интервалом планирования (прогнозирования). Далее x€( t + T t ) — прогнозируемая позиция игры. Соответствующее значение показателя (7.94)
Глава 7. Методы полиэдрального программирования γ€ = x€ ( t + T t )
709 (7.95)
P
условимся называть прогнозируемым промахом. 2. Эффективность выбранных обоими игроками управлений оценивается прогнозируемым значением промаха (7.95). 3. Первый игрок P на каждом шаге по информации о текущей позиции игры x ( t ) на основе прогностической модели игры формирует некоторый план преследования (стратегию управления) второго игрока E в виде жесткой программы. 4. В процессе игры каждый игрок ориентируется на наилучшую игру своего противника в будущем и в соответствии с этим придерживается принципа гарантированного результата (по Ю.Б. Гермейеру) для прогнозируемого промаха. Данный принцип согласуется с более общим принципом неухудшения позиции (по Н.Н. Красовскому) по показателю (7.95), требующему, чтобы в последующий момент времени он был не хуже, чем в предыдущий. В основе метода решения задачи преследования лежит описываемая ниже терминальная прогностическая конструкция, «пристраиваемая в процессе игры к реализующейся позиции x ( t ) ». Рассмотрим вспомогательную терминальную игру перехвата: 1) процесс преследования игроком P игрока E описывается уравнением x€( θ + 1 t ) = Ax€( θ t ) + u€ ( θ t ) + v€ ( θ t ) ,
(7.96)
где θ ∈ [t , t + T − 1] ⊂ Z + — текущее время; θ = t — момент начала, а θ = t + T — момент окончания игры; 2) задана начальная позиция:
x€( t t ) = x;
3) определена плата игры как расстояние терминальной позиции x от начала координат, определяемое выбранной полиэдральной нормой: γ ( t ) = x€( t + T t ) , P
которую будем называть терминальным промахом; 4) игроки информированы лишь о начальной позиции игры x; 5) допустимые стратегии обоих игроков стеснены классами программных управлений (жестких программ): u€ ( ⋅) ∈ U , v€ ( ⋅) ∈ V , где U = U T , V = V T (декартовы степени множеств U и V ). Из (7.96) находим x€( t + T t ) = AT x +
t +T −1
∑ θ=t
At +T −1−θu€ ( θ t ) +
t +T −1
∑ θ= t
At +T −1−θ v€ ( θ t ).
(7.97)
Введем в рассмотрение множества T −1
P = AT x + ∑ AT −1−θU ; θ=0 T −1 T −1−θ
Q = −∑ A θ=0
V.
(7.98) (7.99)
Поставим в соответствие программным управлениям u€ ( ⋅) , v€ ( ⋅) векторы y ∈ P и z ∈ Q:
710
Методы современной теории автоматического управления y = AT x + z=−
t +T −1
∑
θ=t t +T −1
∑ θ= t
At +T −1−θ u€ ( θ t );
At +T −1−θ v€ ( θ t ).
Тогда выражение (7.97) можно переписать в виде x€( t + T t ) = y − z. Отсюда следует, что множества (7.98), (7.99) можно интерпретировать как области достижимости игроков P и E в пространстве игры X . Кроме того, для платы игры с учетом обозначения (7.94) можно записать γ = y − z P = f ( y − z ). Итак, к моменту времени th = t + T игрок P стремится подвести точку x€ как можно ближе к началу координат, а игрок E — как можно дальше отвести ее от начала координат. Данной цели отвечают следующие стратегии игроков: • минимаксная стратегия для игрока P, которой соответствует ожидаемый гарантированный промах f P∗ — значение следующей задачи ПП на минимакс: f P∗ = min max f ( y − z ) ; y∈P z∈Q
(7.100)
• максиминная стратегия для игрока E , которой соответствует ожидаемый гарантированный промах f E∗ — значение следующей задачи ПП на максимин: f E∗ = max min f ( y − z ) . z∈Q y∈P
(7.101)
При этом справедливо неравенство f P∗ ≥ f E∗ . В результате решением вспомогательной игровой задачи являются оптимальные управляющие программы для обеих сторон — u€* [ θ; t , x ] и v€* [ θ; t , x ] ( t ≤ θ ≤ t + T − 1 ). Следует отметить, что данная задача относится к игровым программным задачам управления. Вернемся к исходной задаче перехвата с уравнением процесса игры (7.93), причем примем сторону догоняющего игрока P, рассматривая его как игрока-союзника, а убегающего игрока E — как игрока-противника. Из сделанных допущений следует, что на каждом шаге игры игрок P знает текущую позиции игры x ( t ) и на этой основе формирует некоторый план преследования игрока E. Предлагаемая идея решения задачи преследования заключается в том, что для планирования хода игры перехватчику необходимо использовать описанную выше вспомогательную терминальную игру преследования (посредством прогностической модели (7.96), где переменная θ играет роль воображаемого времени), ориентируясь на наиболее упорное сопротивление противника на интервале планирования. Таким образом, игрок P должен решать задачу о минимаксе ожидаемого (гипотетического) промаха. На основе полученного решения он формирует управление на текущем шаге — оно совпадает с первой дискретой вычисленной оптимальной программы управления u€* [ θ; t , x ] ( t ≤ θ ≤ t + T − 1 ) с учетом реализовавшейся позиции x = x ( t ) : u [t ] = u€* [t; t, x]. На следующем шаге решается новая задача планирования раз-
вития игрового процесса и т.д., т.е. план преследования на каждом шаге корректируется. Таким способом реализуется закон управления u ( x ) , т.е. позиционное управление.
Глава 7. Методы полиэдрального программирования
711
Предложенное правило построения рациональной стратегии управления для первого игрока P будем называть принципом гарантированного прогнозируемого промаха. Данный принцип означает формирование движения преследующего объекта в целях планируемого сокращения расстояния до преследуемого объекта с учетом неопределенности будущих движений последнего. Подчеркнем его отличие от известного принципа экстремального прицеливания [117], сформулированного в 1963 г. Н.Н. Красовским. Действительно, конструкция экстремального прицеливания предназначена для нацеливания планируемого движения преследующего объекта на наихудшее, с его точки зрения, будущее положение преследуемого объекта. Оба принципа являются эвристическими. Однако, на наш взгляд, изложенный принцип гарантированного прогнозируемого промаха лучше согласуется с логикой и практикой задач преследования. Заметим, что увеличение глубины прогноза неизбежно сопровождается увеличением неопределенности в планируемом развитии игрового процесса и, к тому же, алгоритмически усложняет расчет оптимальных стратегий, поэтому целесообразно выбирать интервал планирования адекватным фактической позиции игры. В частности, если для некоторого горизонта планирования обеспечивается досягаемость положений убегающего объекта ( Q ⊂ P ), то дальнейшее его увеличение нежелательно. Следовательно, по мере сближения объектов интервал планирования следует сокращать. Итак, формирование стратегий управления обоими игроками, согласно изложенному принципу гарантированного прогнозируемого промаха, сводится к решению оптимизационных задач (7.100) и (7.101), которые, в свою очередь, относятся к классу минимаксных и максиминных задач ПП. В силу этого соответствующее алгоритмическое обеспечение базируется на методах ЛП. 7.7.
ЛИНЕЙНО-ПОЛИЭДРАЛЬНЫЕ ЗАДАЧИ НАБЛЮДЕНИЯ
Важнейшими в теории и практике автоматических систем являются задачи наблюдения (оценивания) состояния системы по априорной (структура и параметры системы) и апостериорной (данные измерения) информации [195]. Так, например, задача наилучшей оценки состояния объекта наблюдения по косвенным измерениям является ключевой в таких областях современной автоматики, как контроль и диагностика технических объектов, где оценка состояния объекта необходима для организации ее нормальных эксплуатационных режимов функционирования, а также синтез автоматических систем, в которых для реализации эффективных алгоритмов управления необходима информация о текущем состоянии управляемого объекта. Поскольку реальные объекты всегда подвержены неконтролируемым возмущающим воздействиям внешней среды, то большой практический интерес представляет также задача оценивания возмущений на основании данных измерения. В частности, информация о возмущающих воздействиях используется в практике управления для компенсации их негативного влияния на процессы управления. Рассмотрим достаточно общую постановку задачи оценивания для класса линейных стационарных объектов с дискретным временем функционирования в условиях действия неконтролируемых возмущающих факторов. В рамках гипотезы об аддитивном возмущающем действии внешней среды на динамику объекта процесс наблюдения будем описывать уравнениями вида (7.102) x ( t + 1) = Ax(t ) + Gψ ( t ) , y ( t ) = Cx ( t ) ,
(7.103)
z (t ) = y (t ) + η(t ) ,
где t ∈ Z + = {0, 1, 2,K} — дискретное время; x ∈ R n — вектор переменных состояния; y ∈ R — выходная (доступная измерению) переменная и z ∈ R — измеряемая пере-
712
Методы современной теории автоматического управления
менная объекта; ψ ∈ R — внешнее возмущение (помеха), приложенное к объекту; η∈ R — шум измерения; A ∈ R n×n , G ∈ R n×1 и C ∈ R1×n — коэффициентные матрицы объекта. Относительно характера возмущающих факторов сделаем следующие априорные предположения: • шум измерения η имеет флюктуационную структуру с нейтральным характером действия на канал измерения. В частности, на отдельных интервалах наблюдения его можно моделировать случайным центрированным (с нулевым средним) сигналом с неизвестными характеристиками; • помеху ψ считаем сигналом нестохастической природы. Она представляется некоторой функцией времени (сигнальная модель), либо как решение некоторого линейного разностного уравнения (динамическая модель). Задача наблюдения состоит в оценке вектора состояния x ( t ) объекта и помехи ψ ( t ) по измерительной информации z ( t ) .
7.7.1.
СТОХАСТИЧЕСКИЙ И ДЕТЕРМИНИСТСКИЙ ПОДХОДЫ В ЗАДАЧАХ НАБЛЮДЕНИЯ
Наблюдение состояния динамических систем составляет одну из проблем теории идентификации — важнейшего раздела современной теории и практики управления, возникшего в начале 60-х годов прошлого столетия. Идентификация «в узком смысле» (по терминологии Н.С. Райбмана) или параметрическая идентификация (именуемая в зарубежной литературе параметрическим оцениванием) связана с определением или уточнением параметров математической модели системы по априорной и экспериментальной информации. При выборе метода и построении алгоритма оценивания обычно руководствуются требованиями работоспособности, точности, допустимого уровня необходимой априорной информации, а также простоты реализации. Существует обширная литература, посвященная методам и алгоритмам оценки состояния дискретных динамических систем, которые исходят из различных допущений о процессе наблюдения: отсутствие и наличие возмущений, а также природы возмущающих факторов. Так, при отсутствии возмущений используется метод непосредственного вычисления (апериодический наблюдатель), либо метод асимптотического оценивания (наблюдатель Люенбергера) вектора состояния системы [153], а при самых общих предположениях о характере возмущений наибольшее распространение получил метод наименьших квадратов (МНК) [154] и многочисленные его обобщения. Несмотря на большое разнообразие методов оценивания параметров и, в частности, состояния динамических объектов, современная теория идентификации опирается преимущественно на стохастический подход. В рамках данного подхода оценки строятся в предположении, что априори известны необходимые статистические характеристики измерений. Однако практика показывает, что надежды получения экспериментальным путем необходимых статистических данных часто далеки от реальности. Более того, статистические методы используют операцию осреднения по ансамблю реализаций или, при выполнении свойства эргодичности процессов, операцию осреднения по времени. В реальных задачах оценивания, как правило, приходится иметь дело лишь с единственной выборкой измерений выхода системы весьма ограниченного объема. При этом, как отмечают Е.Д. Теряев и Б.М. Шамриков [203, с.228], «устойчивость статистических характеристик не проявляется в полной мере, а решающие правила, использующие асимптотические свойства оценок могут вводить в заблуждение». В связи с этим стохастический подход в задачах идентификации и, в частности, в задачах оценивания все чаще подвергается критике. Даже такой ярый
Глава 7. Методы полиэдрального программирования
713
сторонник вероятностной трактовки задач идентификации и параметрического оценивания, как Л. Льюнг (L. Ljung), замечает, что «стохастическое описание возмущений не свободно от проблем», и подчеркивает [128, с.172]: «…всегда существует вопрос, применимы ли вероятностный подход и абстрактные принципы, поскольку мы наблюдаем только конкретную последовательность данных, а подход основан на предположении, что эксперимент, порождающий этот набор данных, может быть повторен бесконечно много раз при «одинаковых» условиях». Проблеме корректного использования вероятностно-статистических методов в задачах оценивания посвящены работы Р. Калмана, Ю.И. Алимова, Ю.А. Кравцова, В.Н. Тутубалина, П.Е. Эльясберга, М.Л. Лидова, И.К. Бажинова и В.Н. Почукаева, А.А. Первозванского, Б.М. Шамрикова, В.А. Фурсова, Г.И. Ломако, А.А. Ершова, В.М. Резникова и др. Остановимся на некоторых принципиальных аспектах данной проблемы. Теория оценивания как математическая наука берет начало с работ Лежандра (1806 г.) и Гаусса (1809 г.), предложивших свои версии МНК, а ее современное состояние заложено Р.А. Фишером в 20-х годах прошлого столетия. При этом со дня своего зарождения теория оценивания поглощена статистикой. В настоящее время для нужд теории оценивания развит широкий спектр статистических методов: метод фильтрации Калмана, метод волновых процессов, регрессионный анализ на основе МНК, метод марковских оценок, метод байесовских оценок, метод максимума апостериорной вероятности, метод максимума правдоподобия, метод стохастической аппроксимации и др. [128]. Все эти методы предполагают стохастическую природу шумов измерения с известными вероятностными характеристиками (чаще всего — математическим ожиданием, дисперсией и коэффициентами корреляции; реже — функциями и плотностями распределения). В рамках теории оценивания основным является вопрос о состоятельности, эффективности и асимптотической эффективности оценок. В математической статистике показывается, что оптимальным с точки зрения достижения максимальной точности является использование алгоритмов оценивания, базирующихся на методе максимального правдоподобия, простейшим из которых является алгоритм оценивания по МНК. Несмотря на то, что использование МНК в теории идентификации динамических систем статистически не обосновано, он чаще всего используется при решении большинства прикладных задач. При этом теоретические исследования приписывают данному методу ряд замечательных свойств и, в частности, свойство состоятельности получаемой оценки: точность результатов возрастает с увеличением числа используемых измерений. Однако практики часто относятся к этим свойствам некритически, не учитывая, что они справедливы лишь при соответствующих, достаточно жестких, допущениях. Действительно, при отклонениях от принятых допущений основные свойства МНК нарушаются. Как подчеркивал известный специалист в области обработки измерительной информации П.Е. Эльясберг [249, с.13]: «опыт решения прикладных задач показывает, что в действительности эти свойства никогда не осуществляются на практике». По его мнению, широко рекламируемое свойство состоятельности в практическом плане является иллюзорным, бессмысленным и по образному выражению — одним из «мифов XX века». Более того, в его работах отстаивалась мысль, что мифичны вообще все вероятностно-статистические подходы к обработке информации, опирающиеся на домысливание ансамбля там, где его нет и не ожидается. В результате существует явное расхождение между выводами статистической теории оценивания и результатами ее практического применения. Некритическое использование МНК часто не согласуется с практикой и приводит к грубым ошибкам при решении важных прикладных задач. Это обусловлено главным образом тем, что предпосылки, принимаемые в отношении исходной измерительной информации, не
714
Методы современной теории автоматического управления
соответствуют действительности. Даже при неизбежных малых отклонениях принятых вероятностных характеристик ошибок исходных данных от действительных, получаемые оценки оказываются неэффективными, смещенными, а порой и неустойчивыми: ухудшение точности оценивания может стать сколь угодно большим. Здесь уместно процитировать Л. Льюнга: «В прикладных задачах идентификации вопрос о качестве данных играет самую важную роль», и Р. Калмана: «…научные результаты должны быть получены из объективного рассмотрения данных, а не самонадеянной игры с моделями по своему вкусу». В качестве иллюстрации сложившегося положения с применением стохастического подхода в теории идентификации и, в частности, теории оценивания приведем некоторые выдержки из высказываний одного из основоположников современной теории управления Р. Калмана [94]. Прежде всего, Р. Калман подчеркивает, что «априорная гипотеза является постоянной проблемой во всех современных методах идентификации», причем «предположение (априорная гипотеза) о вероятностных структурах для описания неопределенности в задаче идентификации совершенно бесполезно, поскольку такие структуры не могут быть идентифицированы из данных». Далее, касаясь стандартной статистической априорной гипотезы, согласно которой вся неопределенность порождается фиксированным абстрактным вероятностным механизмом, Р. Калман дает следующую оценку позиции ярого сторонника данной гипотезы, «величайшему мировому авторитету в области статистики малых выборок» Р.А. Фишеру: «Фишеровская «выборочная модель», быть может, справедлива для некоторых статистических задач, но она совершенно не приемлема для огромного большинства исследований… Было бы большой неправдой утверждать, что все данные являются выборкой, а вся неопределенность возникает в силу механизма статистического выбора». При этом он отмечает, что «классический (колмогоровский) вероятностный подход не может работать в реальных задачах с недостоверными данными. Для того чтобы моделировать неопределенность при помощи вероятностного механизма, необходимо иметь чересчур много информации, которая не может быть извлечена из доступных данных в большой массе практических задач… Случайность представляет собой интересное поле деятельности для изучения ее самой, но является плохим научным инструментом для работы с зашумленными данными». И, наконец, относительно наиболее популярного метода теории идентификации — МНК — Р. Калман заключает: «Идея Гаусса расправиться с шумом при помощи метода наименьших квадратов в большинстве случаев не годится, поскольку она опирается на жесткую априорную гипотезу… Попытка улучшить его идею путем вложения метода наименьших квадратов в некоторые вероятностные модели вызывает еще большие возражения, поскольку при этом априорные гипотезы становятся еще суровее». Подытоживая анализ проблемы идентификации в условиях шума, Р. Калман резюмирует: «Проблема шума, безусловно, является центральной проблемой всей прикладной математики. Она должна быть разрешена при помощи математики, а не априорной гипотезы». Положение в теории оценивания резко изменилось при использовании результатов решения задач оценивания в процессе управления различными объектами. Так, уже в процессе определения орбит первых космических аппаратов и управления их движением начали выявляться недостатки классического стохастического подхода, что и послужило толчком к разработке новых подходов к задачам оценивания. В результате в последние годы в теории оценивания интенсивно развиваются и находят все большее распространение в инженерной практике детерминистские подходы, основанные на реальной априорной информации и непосредственном анализе поступающих в обработку данных. Так, например, в условиях, когда возмущающие факторы
Глава 7. Методы полиэдрального программирования
715
априори не неизвестны и не имеют стохастической природы, весьма перспективными, но, безусловно, трудоемкими являются игровые (минимаксные) методы гарантированной оценки состояния системы в условиях экстремальных (самых неблагоприятных) возмущений [123]. Среди работ, связанных с исследованием чисто детерминированного гарантирующего подхода в задачах оценивания, следует выделить работы Н.Н. Красовского, А.Б. Куржанского, Н.Ф. Кириченко, Ф.Л. Черноусько, В.М. Кейна и др. Возникает естественный вопрос: какому же подходу отдать предпочтение, стохастическому или детерминистскому? По мнению А.Б. Куржанского: «в зависимости от информационных условий задачи более адекватным может оказаться либо первый, либо второй из этих подходов, либо их комбинация. Постановка задачи должна диктовать средства, а не наоборот». Далее, для решения сформулированной задачи оценивания состояния системы и внешней среды в условиях заданного характера возмущающих факторов принят детерминистский подход. При этом, развивая замечание А.А. Красовского: «К задачам оценивания вплотную примыкает приближение функций», обсуждается решение данной задачи в терминах задачи дискретного равномерного приближения функций с использованием метода ПП [222]. 7.7.2. ЗАДАЧА ДИСКРЕТНОГО ЧЕБЫШЕВСКОГО ПРИБЛИЖЕНИЯ Проиллюстрируем возможность сведения одной из центральных задач вычислительной математики — задачи приближения функций [181] — к задаче ПП. Следует заметить, что исторически первыми и простейшими объектами, которые были подвергнуты процедуре идентификации, были статические объекты, описываемые в переменных «вход–выход» регулярными функциями. Это обстоятельство и породило первый подход в теории идентификации, который появился в математическом анализе как теория приближения функций многочленами и ведет свое начало от работ П.Л. Чебышева. Пусть некоторая решетчатая функция f задана на отрезке ℑ = {τ ∈ Z + : t0 ≤ τ ≤ t N }
своими дискретами f ( ti ) , i = 0, N . Рассмотрим задачу наилучшего дискретного при-
ближения функции f обобщенным полиномом ϕ вида
{
}
ϕ ( τ ) = c1ϕ1 ( τ ) + c2ϕ2 ( τ ) + K + cL ϕ L ( τ ) ,
(7.104)
где ϕ j , j = 1, L — заданная система базисных функций, а c1 , c2 ,K, cL — неизвестные числовые коэффициенты. Это так называемая задача дискретного линейного полиномиального приближения. Погрешность приближения (невязку) в момент времени τ ∈ ℑ определим разностью ε ( τ) = f ( τ ) − ϕ ( τ). (7.105) Если теперь в качестве критерия точности приближения выбрать некоторую норму вектора погрешностей E = ( ε ( t0 ) , ε ( t1 ) ,K , ε ( t N ) ) , то приходим к задаче нахождения коэффициентов c1 , c2 ,K , cL аппроксимирующего полинома ϕ, минимизирующих норму E . Для рассматриваемой задачи дискретного приближения двух функций воспользуемся равномерным приближением, или приближением в смысле Чебышева. Как отмечается известными математиками-прикладниками Л. Коллатцом (L. Collatz) и В. Крабсом (W. Krabs): «среди приложений различных способов приближения чебышевские приближения по значению, по-видимому, далеко превосходят другие виды приближения».
716
Методы современной теории автоматического управления
В задаче о наилучшем равномерном приближении выбирается максимум-норма E ∞ = max ε ( τ ) = max f ( τ ) − ϕ ( τ ) (7.106) τ∈ℑ
τ∈ℑ
и решается задача оптимизации вида E ∞ → min. Поскольку здесь критерий E
∞
(7.107)
является полиэдральной функцией искомых ко-
эффициентов c1 , c2 ,K , cL , то, вводя некоторые дополнительные полиэдральные ограничения на эти коэффициенты, приходим к задаче ПП на минимум. 7.7.3. НАБЛЮДЕНИЕ СОСТОЯНИЯ СВОБОДНОЙ СИСТЕМЫ В качестве иллюстрации использования методологии равномерного приближения в задачах наблюдения обратимся к задаче оценки состояния x свободной (в условиях отсутствия внешних возмущений — ψ = 0 ) системы (7.102), (7.103) на основании
данных измерения { z ( τ ) , τ ∈ ℑ}. Следуя Р. Калману, будем различать две разновидности данной задачи: • задачу наблюдения, связанную с определением оценки x€( t ) текущего состояния системы x ( t ) по результатам последующих измерений { z ( τ ) , τ ∈ ℑ, τ ≥ t}; • задачу восстановления, связанную с определением оценки x€( t ) текущего состояния системы x ( t ) по результатам прошлых измерений { z ( τ ) , τ ∈ ℑ, τ ≤ t}. Рассмотрим вторую задачу идентификации состояния, представляющую больший практический интерес для задач управления: требуется определить текущее состояние системы x ( t ) по имеющимся измерениям z ( t0 ) , z ( t1 ) ,K, z ( t ) , т.е. на основе апостери-
орной информации о всей предыстории системы на отрезке функционирования ℑ= [t0 , t ].
Поскольку измерению доступна лишь выходная переменная системы y, то степень близости оценки состояния x€ ( t ) к его истинному значению x ( t ) можно характеризовать степенью близости оценки выходной переменной системы y€ к результату ее измерения z. Из уравнений (7.102), (7.103), с учетом ψ = 0, прямо следуют выражения для состояния и выхода свободной системы в момент времени τ ∈ ℑ : x ( τ ) = А τ−t0 x ( t0 ) ;
y ( τ ) = CА τ−t0 x ( t0 ) ,
где x ( t0 ) — начальное состояние системы. Отсюда получаем следующее выражение для оценки y€( τ ) выходной переменной системы y ( τ ) :
y€( τ ) = CА τ−t0 x€( t0 ) , где x€( t0 ) — оценка начального состояния системы. Обозначая i-й столбец матрицы CА τ−t0 через ωi ( τ ) : CА τ−t0 = ⎣⎡ω1 ( τ ) , ω2 ( τ ) ,K , ωn ( τ ) ⎦⎤ ,
равенство (7.108) можно представить в следующем виде:
(7.108)
Глава 7. Методы полиэдрального программирования
717
y€( τ ) = ω1 ( τ ) x€1 ( t0 ) + ω2 ( τ ) x€2 ( t0 ) + K + ωn ( τ ) x€n ( t0 ) ,
(7.109)
где x€i ( t0 ) — i-я компонента вектора x€ ( t0 ) . Таким образом, рассматриваемую задачу восстановления состояния системы можно трактовать как задачу наилучшего дискретного приближения функции z ( τ ) линейным полиномом (7.109). При этом если положить: ℑ = [t0 , t ] ; L = n; ci = x€i ( t0 ) ; ϕi = ωi ; f = z; ϕ = y€, то она прямо сводится к рассмотренной выше задаче дискретного чебышевского приближения (7.107), (7.106), (7.105), (7.104). Поскольку в данной задаче невязка ε ( τ ) = z ( τ ) − y€( τ ) ( τ ∈ ℑ ) характеризует мгновенную ошибку оценивания выхода системы y€( τ ) и в силу (7.108) она определяется построенной оценкой вектора начальных состояний системы x€( t0 ) , то максимум-норма E
∞
вектора невязок E = ( ε ( t0 ) , ε ( t1 ) ,K , ε ( t ) ) служит критери-
ем качества данного процесса оценивания. Заметим, что идея использования в задачах наблюдения в качестве критерия точности оценки полиэдрального критерия чебышевского типа (критерия равномерного приближения) для класса непрерывных систем упоминается в работе [132, п. 1.4]. Положим, что возможные начальные состояния системы (7.102), (7.103) стеснены некоторыми полиэдральными ограничениями, составляющими, например, ее «жизненное пространство», т.е. это ограничения эксплуатационного характера, определяющие рабочую область нормального функционирования системы. Ясно, что данные ограничения необходимо ввести в условия рассматриваемой задачи в виде ограничений на оценку вектора начального состояния системы, например, в виде (7.110) x€i ( t0 ) ≤ xiм xiм = const, i = 1, n .
(
)
Тогда полученная задача дискретного чебышевского приближения становится задачей ПП на минимум. Решение последней даст оценку вектора начального состояния системы x€ ( t0 ) , которая, согласно (7.110), однозначно определяет искомое решение исходной задачи: x€( t ) = At −t0 x€( t0 ) . 7.7.4.
СОВМЕСТНОЕ ОЦЕНИВАНИЕ СОСТОЯНИЯ СИСТЕМЫ И ВНЕШНЕГО ВОЗМУЩЕНИЯ
Обратимся к задаче одновременного оценивания текущего состояния системы x ( t ) и внешнего возмущающего воздействия ψ ( t ) . Сигнальная модель возмущений. Пусть возмущение ψ задано сигнальной моделью,
{
}
т.е. в виде разложения в ряд по некоторой системе базисных функций ωi , i = 1, p : p
ψ ( t ) = ∑ ai ωi ( t ),
(7.111)
i =1
где неопределенные коэффициенты разложения ai могут быть стеснены модульными ограничениями вида (7.112) ai ≤ aiм aiм = const, i = 1, p .
(
)
Положим, что имеется априорная информация о предыстории системы в виде измерения ее выходной переменной y на отрезке времени ℑ = [t0 , t ].
718
Методы современной теории автоматического управления
Из уравнений (7.102), (7.103) с учетом (7.111) нетрудно получить следующие выражения для выхода системы в момент времени τ > t0 : τ−1
p
τ−1
θ=t0
i =0
θ=t0
y ( τ ) = CАτ−t0 x ( t0 ) + C ∑ Aτ−1−θGψ ( θ) = CАτ−t0 x ( t0 ) + C∑ ai ∑ Aτ−1−θGωi ( θ). Вводя обозначения
ϕi ( τ ) = ωi ( τ ) , i = 1, n;
⎧0 при τ = t0 , ⎪ j = 1, p ϕn + j ( τ ) = ⎨ τ−1 τ−1−θ Gωi ( τ ) при τ > t0 , ⎪C ∑ A ⎩ θ=t0 и учитывая принятое выше обозначение (7.109), оценку y€( τ ) можно представить в
следующем виде: n
p
i =1
j =1
y€( τ ) = ∑ ϕi ( τ ) x€i ( t0 ) + ∑ ϕn + j ( τ ) a€j ,
(7.113)
где a€i , i = 1, p — оценка i-го параметра ai возмущения (7.111). Таким образом, рассматриваемая задача оценивания сводится к задаче наилучшего дискретного приближения функции z ( τ ) линейным полиномом вида (7.113). Если положить: ℑ = [t0 , t ] ; L = n + p; ci = x€i ( t0 ) , i = 1, n; cn + j = a€j , j = 1, p;
f = z; ϕ = y€,
то приходим к изложенной выше задаче дискретного чебышевского приближения (7.107), (7.106), (7.105), (7.104). Здесь невязка ε характеризует ошибку оценивания вектора начальных состояний системы x€ ( t0 ) и параметров возмущения a€i , i = 1, p, а максимум-норма E ∞ вектора невязок E = ( ε ( t0 ) , ε ( t1 ) ,K, ε ( t ) ) является критерием качества процесса оценивания.
Вводя в условия полученной задачи чебышевского приближения дополнительные полиэдральные ограничения на возможные начальные состояния системы вида (7.110) и на параметры возмущения (7.112), мы приходим к задаче ПП на минимум. Решение последней дает оценку вектора начального состояния системы x€( t0 ) и оценку параметров возмущения a€i , i = 1, p.
Искомые оценки текущего вектора состояния x€( t ) и возмущения ψ€ находятся по формулам p
τ−1
i =0
θ= t0
x€( t ) = А τ−t0 x€( t0 ) + ∑ a€i ∑ A τ−1−θ Gωi ( θ ); p
ψ€ ( τ ) = ∑ a€i ωi ( τ ), τ ∈ ℑ. i =0
Динамическая модель возмущений. Положим теперь, что возмущение ψ ( t ) задано динамической моделью, т.е. генерируется некоторой автономной динамической системой (экзогенная система, модель «внешней среды»): γ ( t + 1) = Гγ ( t ) ; (7.114) ψ ( t ) = Ψγ ( t ) ,
(7.115)
Глава 7. Методы полиэдрального программирования
719
где γ ∈ R p — вектор состояния внешней среды, а Г ∈ R p× p , Ψ ∈ R1× p — коэффициентные матрицы, причем на возможные начальные состояния γ ( t0 ) = γ1 ( t0 ) , γ 2 ( t0 ) ,K , γ p ( t0 )
(
)
могут быть наложены ограничения вида γ i ( t0 ) ≤ γ iм
(γ
м i
)
= const, i = 1, p .
(7.116)
Воспользуемся методом расширения состояния системы и введем в рассмотрение вектор x ∈ R n+ p : ⎡γ ⎤ x = ⎢ ⎥. ⎣x⎦ Тогда динамика исходной системы (7.102), (7.103), подверженной действию внешней среды (7.114), (7.115), может быть преобразована к виду x ( t + 1) = Ax ( t ) ; (7.117) y ( t ) = Cx ( t ) ,
(7.118)
где матрицы A и C имеют вид 0⎤ ⎡ Γ A=⎢ ⎥ ; C = [ 0 C]. ⎣GΨ A ⎦ В результате исходная задача идентификации сводится к рассмотренной выше задаче идентификации состояния x расширенной системы (7.117), (7.118) с учетом ограничений вида (7.110), (7.116). З ам еч а ния . Сделаем некоторые замечания, касающиеся вопросов обобщения изложенного метода оценки состояния объекта и внешней среды: 1. Нетрудно охватить случай низкочастотного дрейфа, искажающего результаты измерения выхода объекта, а также наличие в измерительном шуме систематической составляющей. Действительно, детерминированную модель низкочастотного дрейфа или систематической составляющей измерительного шума можно представить в виде экзогенной подсистемы «внешней среды». 2. В рассмотренных задачах оценивания можно выбрать скользящий отрезок обрабатываемых данных измерения длительностью T , для чего формально следует положить: t0 = t − T и ℑ = [t − T , t ]. 3. Сущность метода не изменяется при рассмотрении объектов с векторными выходом и возмущающим воздействием. Так, например, если измеряемый выход m-мерный: y = ( y1 , y2 ,K , ym ) ∈ R m и z = ( z1 , z2 ,K , zm ) ∈ R m , то имеем невязки εi ( τ ) = zi ( τ ) − y€i ( τ ) , i = 1, m, τ ∈ ℑ, и можно принять следующий критерий точности оценивания: E ∞ = max max εi ( τ ) . τ∈ℑ 1≤i≤ m
4. Метод легко обобщается на класс дискретных нестационарных динамических систем. 5. Для формализации сигнальной модели возмущающего воздействия целесообразным может оказаться использование системы базисных функций Уолша. 7.8.
ЗАКЛЮЧЕНИЕ
Рассуждая о перспективах развития методов оптимизации, А.Н. Тихонов и Д.П. Костомаров подчеркивали, что «конкретизация задачи, выделение определенных классов
720
Методы современной теории автоматического управления
функций и областей позволяют провести более глубокое исследование и разработать специальные методы, которые решают задачу исчерпывающим образом». Это замечание в полной мере относится к классу полиэдральных функций и областей, закономерно порождающих соответствующий раздел МП — полиэдральное программирование (ПП). Вне всяких сомнений, идеи ПП так или иначе должны были проявиться в исследованиях, связанных с МП. Однако, как выразился известный кибернетик Г. Клаус: «когда уже известные факты и связи можно заново сформулировать в рамках новой более общей теории, то почти всегда получается нечто существенно большее, чем простое повторение старого в новом обличье». В материале главы изложены основные положения ПП и показана возможность его применения к дискретным задачам управления и наблюдения. Для численных методов оптимального управления и наблюдения, по мнению Ф.Л. Черноусько, «важны такие свойства метода, как его универсальность (т.е. возможность охватить широкий класс задач), а также простота программирования и возможность стандартизации для ЭВМ». Разумеется, при всем желании невозможно обсудить все перспективные направления применения ПП в задачах управления и наблюдения. В силу этого изложенный материал охватывает ограниченный спектр таких задач. Показано, что введение полиэдральных критериев качества, фазовых и ресурсных ограничений на процессы управления и наблюдения позволяет решать широкий класс дискретных задач управления и наблюдения, включая задачи предельного быстродействия, упреждающего терминального управления, управления в условиях неопределенности и конфликта, а также оценивания состояния системы и внешней среды. Выделим особенности применения формализма ПП в рассмотренных задачах: • общность математического формализма, обусловленная использованием полиэдральных норм и метрик в постановке и содержательной интерпретации широкого класса задач управления и наблюдения; • структурные свойства полиэдральных функций, проявляющиеся в возможности их дизъюнктивного разложения, т.е. представления в виде функции поточечного максимума конечного числа линейных функций; • аппроксимативные аспекты применения полиэдральных функций, связанные с возможностью приближения любых выпуклых функций и множеств соответственно полиэдральными функциями и множествами; • ясный инженерный смысл полиэдральных критериев оптимальности; • естественность, а также простота оперирования полиэдральными фазовыми и ресурсными ограничениями; • сводимость задач ПП к задачам ЛП и, как следствие, простота компьютерной реализации и возможность использования стандартного программного обеспечения. Все эти особенности характеризуют ПП как инженерный инструмент решения широкого круга теоретико-прикладных задач. Мы ограничились рассмотрением лишь линейно-полиэдральных задач управления и наблюдения. Тем не менее конструктивные результаты можно получить и для нелинейно-полиэдральных задач. Так, например, в случае нелинейного объекта управления, полиэдральных критериев (в том числе векторных) оптимальности и полиэдральных ограничений весьма эффективным оказывается применение эволюционных алгоритмов оптимизации, в частности генетических алгоритмов [226]. В завершение процитируем величайшего математика, классика науки Д. Гильберта (D. Hilbert): «Всякая научная область жизнеспособна, пока в ней имеется избыток новых проблем; отсутствие проблем предвещает отмирание или прекращение самостоятельного развития». В методологии ПП остается много нерешенных проблем. Однако перспективы ее использования в задачах управления и наблюдения являются многообещающими.
Приложение 1. Алгоритм «дифференциальной эволюции»
ПРИЛОЖЕНИЕ 1.
721
АЛГОРИТМ «ДИФФЕРЕНЦИАЛЬНОЙ ЭВОЛЮЦИИ» ДЛЯ ЗАДАЧ ТЕХНИЧЕСКОГО ПРОЕКТИРОВАНИЯ
В данном приложении рассматриваются проблемы нелинейной оптимизации при техническом проектировании, когда переменные принимают одновременно целочисленные, дискретные и непрерывные значения. Дифференциальная эволюция (ДЭ) кажется одним из наиболее перспективных методов нелинейной оптимизации смешанных переменных. Несмотря на то что в каноническом варианте ДЭ — это метод непрерывной оптимизации, было продемонстрировано, как при небольших модификациях он легко справляется и с целыми, и с дискретными переменными. Предлагается оригинальный подход обработки ограничений, при котором больше нет необходимости усложнять целевую функцию штрафами. Показана быстрая сходимость и робастность метода. При всем при этом метод не сложен в реализации и прост в использовании. П.1.1. ВВЕДЕНИЕ В большинстве случаев, когда речь идет о нелинейном программировании, предполагается, что переменные целевой функции непрерывны. Однако в реальных условиях при техническом проектировании очень часто встречаются случаи, когда переменные принимают как дискретные, так и целочисленные значения. В основном это обычно дискретные значения, что связано с введением стандартизации при проектировании. Например, толщина стальной пластины, диаметр медной трубки, размер шайбы, модуль зубчатой передачи и т.д. часто ограничены набором стандартных доступных размеров. Что качается целых величин, то они часто выражают количество используемых при проектировании единиц. К примеру, число зубьев зубчатой передачи, количество болтов или заклепок, необходимых для фиксации конструкции, количество приводных ремней, используемых для трансмиссии, количество витых пружин и т.д. Очевидно, что большое внимание при техническом проектировании уделяется проблемам нелинейной оптимизации, где переменные принимают целые–дискретные– непрерывные значения. Несмотря на то что в современной литературе очень много внимания уделяется проблемам непрерывной оптимизации, на практике мы часто сталкиваемся с проблемами, содержащими как дискретные, так и целые значения переменных. Как правило, в таких случаях решают задачу непрерывной оптимизации (релаксация переменных), а затем округляют полученные значения до ближайшего целого или дискретного, конечно же, с учетом ограничений. При таком подходе конечный результат часто бывает далек от оптимального. Другими словами, можно сказать, что к настоящему времени не существует удовлетворительного универсального метода, который бы удачно и легко справлялся одновременно и с целыми, и с непрерывными переменными, оставаясь при этом эффективным, надежным и простым в использовании. Последнее десятилетие было предложено много интересных методов, заслуживающих внимания, которые решали проблему нелинейной оптимизации со смешанными переменными. Некоторые из них приведены в табл. П.1.1. Однако до сих пор все-таки не существует единого подхода, который бы смог полностью удовлетворить все аспекты смешанного нелинейного программирования. Не указывая на конкрет-
722
Методы современной теории автоматического управления
ные методы, подчеркнем, что большинство современных методов страдают, по крайней мере, от одного из следующих недостатков: сложность реализации и использования, отсутствие гибкости, высокие вычислительные затраты, низкая надежность, скудные возможности оптимизации с ограничениями, невозможность нахождения «высококачественного» допустимого решения. Таблица П.1.1 Некоторые предложенные методы решения проблемы смешанной целой–дискретной–непрерывной нелинейной оптимизации в области технического проектирования Предложено Sandren Fu, Fenton, Gleghorn Loh, Papalambros Zhang, Wang Chen, Tsao Li, Chow Wu, Chow Lin, Zhang, Wang Thierauf, Cai Cao, Wu Lampinen, Zelinka
Метод решения Метод «Ветвей и границ», использующий последовательное квадратичное программирование Целое–дискретное–непрерывное нелинейное программирование Алгоритм последовательной линеаризации Метод имитации отжига Генетические алгоритмы Нелинейное смешанное–дискретное программирование Метагенетические алгоритмы Модифицированные генетические алгоритмы Двухуровневые параллельные эволюционные стратегии Эволюционное программирование Дифференциальная эволюция
Год 1990 1991 1991 1993 1993 1994 1995 1995 1997 1997 1999
Для того чтобы ответить по возможности всем практическим требованиям технического проектирования, в работе [276] был предложен оригинальный подход к решению смешанной целой–дискретной–непрерывной нелинейной оптимизации для проблем проектирования. Данный метод был основан на недавно изобретенном алгоритме дифференциальной эволюции [296]. В данном разделе мы подробно остановимся на проблеме технического проектирования. На примере витой пружины, взятом из работы [277], мы покажем возможности данного подхода. Кроме того, базируясь на работе [275], продемонстрируем оригинальный, естественный и простой алгоритмы обработки нелинейных ограничений и в заключение приведем сравнительные характеристики методов. П.1.2. ФОРМУЛИРОВКА ПРОБЛЕМЫ В качестве проектируемого элемента выбрана спиральная пружина на сжатие (рис. П.1.1). Цель оптимизации — минимизировать объем стального провода (массу), необходимый для изготовления одной пружины с заданными характеристиками. К конструктивным параметрам пружины относятся: • N — число витков пружины; • D — внешний диаметр пружины; • d — диаметр стальной проволоки. Число витков пружины — это переменная, принимающая целые значения. Внешний диаметр может быть любым, следовательно, используется непрерывная переменная. Диаметр стальной проволоки строго стандартизирован, и, следовательно, переменная d является дискретной. Согласно [275] проблема формулируется следующим образом: отыскать (П.1.1) X = ( x1 , x2 , x3 ) = ( N , D, d ) , минимизировав π2 x2 x32 ( x1 + 2 ) f (X ) = 4 с учетом ограничений
Приложение 1. Алгоритм «дифференциальной эволюции»
g1 ( X ) =
8C f Fmax x2 πx33
− S ≤ 0; g 2 ( X ) = l f − lmax ≤ 0; g3 ( X ) = d min − x3 ≤ 0;
g 4 ( X ) = x2 − Dmax ≤ 0; g5 ( X ) = 3,0 − g7 ( X ) = σ p +
Fmax − Fp
где Cf =
723
K
x2 ≤ 0; g 6 ( X ) = σ p − σ pm ≤ 0; x3
+ 1,05 ( x1 + 2 ) x3 − l f ≤ 0; g8 ( X ) = σ w −
Fmax − Fp K
≤ 0,
Fp 4 ( x2 x3 ) − 1 0,615 x3 Gx34 + ≤ 0; K = ; σp = ; 3 4 ( x2 x3 ) − 4 x2 K 8 x1 x2 F l f = max + 1, 05 ( x1 + 2 ) x3 . K
D
сжатие
свободная длина
d
Рис. П.1.1. Спиральная пружина на сжатие
Целевая функция f ( X ) вычисляет объем пружины как функцию конструкционных переменных. При этом учитываются следующие проектировочные параметры и ограничения: 1) максимальная рабочая нагрузка Fmax = 4448, 222 Н; 2) максимально допустимое напряжение при сдвиге S = 27, 41213006 Па ( g1); 3) максимальная свободная длина lmax = 355, 6 мм ( g 2); 4) минимальный диаметр проволоки d min = 5, 0 мм ( g3 ); 5) максимальный внешний диаметр пружины Dmax = 76, 2 мм ( g 4); 6) предварительная нагрузка сжатия Fp = 1334, 4666 Н; 7) максимально допустимое отклонение под предварительной нагрузкой σ pm =
= 152, 4 мм ( g6 );
724
Методы современной теории автоматического управления 8) общее отклонение должно быть согласовано с длиной пружины, т.е. при максимальной нагрузке соседние кольца не должны касаться друг друга ( g 7 );
9) модуль сдвига материала G = 11,5 ⋅106 ; 10) ограничения на продольный изгиб игнорируются; 11) внешний диаметр пружины D должен быть, по крайней мере, в три раза больше, чем диаметр стальной проволоки d , чтобы избежать ущербных витков ( g5 ). П.1.3. ДИФФЕРЕНЦИАЛЬНАЯ ЭВОЛЮЦИЯ
Впервые алгоритм дифференциальной эволюции (ДЭ) появился в 1995 году благодаря усилиям таких ученых, как Price и Storn [296]. Дифференциальная эволюция может быть классифицирована как эволюционный алгоритм оптимизации с плавающей точкой [276]. К настоящему времени разработано несколько стратегий дифференциальной эволюции. В данном приложении остановимся на DE/rand/l/bin схеме. Эта схема будет изложена достаточно кратко, поскольку более детальное описание можно найти в [296]. Так как первоначально алгоритм ДЭ был спроектирован для работы с непрерывными переменными, то в первую очередь рассмотрим непрерывную оптимизацию, а обработку целых и дискретных переменных оставим на потом. Пусть критерий оптимальности f принимает форму (П.1.2) f ( X ) : R n → R. Цель оптимизации — минимизировать целевую функцию f ( X ) f ( X ) → min X
(П.1.3)
посредством оптимизации значений ее параметров X = ( x1 ,K, xn ) ∈ R n. (П.1.4) Обычно параметры целевой функции ограничены своими предельными значениями L и H : (П.1.5) l j ≤ x j ≤ h j , j = 1, n. Как и все эволюционные алгоритмы оптимизации, ДЭ работает с популяцией решений. Популяция P поколения G содержит NP векторов решений, так называемых индивидуумов популяции. Каждый такой вектор представляет собой потенциальное решение проблемы оптимизации: P (G ) = X i(G ) , i = 1, NP, G = 1, g max . (П.1.6) Каждый из NP индивидуумов популяции P содержит n параметров (хромосом индивидуума): (П.1.7) P (G ) = X i(G ) = xi(,Gj ) , i = 1, NP, j = 1, n. Для инициализации популяции используется довольно натуральный способ случайного разброса при заданных предельных значениях: P (0) = xi(0) (П.1.8) , j = rand i , j ⋅ h j − l j + l j , i = 1, NP, j = 1, n,
(
)
где rand — это функция, генерирующая случайные значения, равномерно распределенные на интервале [ 0, 1]. Схема репродуцирования популяции в ДЭ отличается от остальных эволюционных алгоритмов. Начиная с первого поколения P (1), последующие поколения популяции P (G +1) воспроизводят себя на основании предыдущих P (G ), но сначала фор-
мируется промежуточное поколение P′(G +1) = U i(G +1) = ui(,Gj +1) :
Приложение 1. Алгоритм «дифференциальной эволюции» ui(,Gj +1)
где
(
)
725
( randi, j ≤ Cr ) ∨ ( j = Di ) ,
⎧ x (G ) + F ⋅ x (G ) − x (G ) , если Ai , j Bi , j ⎪ C ,j =⎨ i ⎪⎩ xi(,Gj ) иначе,
(П.1.9)
A, B, C = rand [1, NP ] , Ai ≠ Bi ≠ Ci ≠ i; D = rand [1, n ] ; i = 1, NP, j = 1, n; Cr ∈ [ 0, 1] ⊂ R; F ∈ [ 0, 2] ∈ R;
A, B, C — три случайно выбранных отличных друг от друга индекса, т.е. три случайно выбранных индивидуума популяции. Они также отличны от индекса текущего индивидуума, подлежащего изменениям. D — указывает на случайно выбранную хромосому у каждого индивидуума и, таким образом, заверяет, что индивидуум следующего поколения будет отличаться хотя бы на одну хромосому от индивидуума предыдущего поколения. Cr и F — управляющие параметры, оба значения остаются неизменными в процессе поиска, так же как и NP — размер популяции. F — параметр, управляющий усилением дифференциальных вариаций. Cr — параметр, управляющий вероятностью выбора мутированного значения. Оба параметра влияют на скорость сходимости и робастность процесса поиска. Их оптимальные значения зависят от целевой функции, ограничений и размера популяции. В большинстве случаев эти параметры находятся методом проб и ошибок. Практические советы по выбору этих параметров могут быть найдены в работе [296]. В классической схеме выбора ДЭ популяция следующего поколения выбирается так: ⎧U i(G +1) , если f U i(G +1) ≤ f X i(G ) , ⎪ X i(G +1) = ⎨ (П.1.10) ⎪⎩ X i(G ) иначе. Таким образом, каждый индивидуум временной популяции сравнивается со своим двойником из текущей популяции. И тот, кто больше отвечает условиям оптимальности, переходит в следующее поколение. Заметим, что индивидуумы следующего поколения либо остаются такими же хорошими, либо становятся лучше по сравнению с их дубликатами в предыдущем поколении. Следует также отметить, что в схеме выбора ДЭ промежуточный (пробный) индивидуум не сравнивается со всеми индивидуумами текущей популяции, а только противопоставляется своему дубликату.
(
) (
)
П.1.4. ОГРАНИЧЕНИЯ П.1.4.1. ГРАНИЧНЫЕ ЗНАЧЕНИЯ
Под граничными значениями понимаются ограничения на переменные вида L ≤ X ≤ H. (П.1.11) Важно, чтобы после репродуцирования новые значения переменных не выходили за допустимые пределы. Для этого переменные, нарушившие граничные условия, случайным образом возвращаются в свои пределы: ⎧rand [ 0,1] ⋅ h j − l j + l j , если ui(,Gj +1) < l j ∨ ui(,Gj +1) > l j , ⎪ (G +1) (П.1.12) ui , j = ⎨ ⎪⎩ui(,Gj +1) иначе,
(
)
(
) (
)
i = 1, NP, j = 1, n. Существуют и другие, менее эффективные способы, например генерирование уравнения (П.1.9) до тех пор, пока оно не будет удовлетворять граничным значениям.
726
Методы современной теории автоматического управления
П.1.4.2. ФУНКЦИИ ОГРАНИЧЕНИЙ В работе [277] для борьбы с ограничениями используется метод штрафных функций. В отличие от жестких методов работы с ограничениями, где отсеиваются недопустимые решения, в методе штрафных функций ограничения вводят штрафы за удаление от допустимой области непосредственно в целевую функцию: m
f p ( X ) = ⎣⎡ f ( X ) + a ⎦⎤ ⋅ ∏ cibi , i =1
⎧⎪1 + si ⋅ gi ( X ) , если gi ( X ) > 0, (П.1.13) ci = ⎨ ⎪⎩1 иначе, si ≥ 1, bi ≥ 1, min f ( X ) + a > 0. С помощью константы a добиваются, чтобы целевая функция принимала только неотрицательные значения. Даже если константа a принимает слишком большие значения, это не влияет на процесс поиска. Константа s масштабирует значения ограничительной функции. Степень b модифицирует форму поверхности оптимизации. Когда величина функции при выходе за допустимую область незначительна, то следует увеличивать значения констант s и b. Обычно удовлетворительные результаты достигаются при значениях констант s = 1 и b = 1. Видно, что данный метод требует введения дополнительных управляющих параметров, и, следовательно, необходимы дополнительные усилия, чтобы подобрать значения таких параметров, при которых поиск происходит более эффективно. Обычно это реализуется методом проб и ошибок, т.е. алгоритм оптимизации запускается повторно несколько раз при различных значениях параметров. Очевидно, что такой подход не отличается эффективностью. В работе [275] был предложен оригинальный подход для решения проблемы ограничений. А именно, предложена модификация правила выбора (П.1.10), в которой нет необходимости использовать штрафные функции:
X i(G+1)
⎧ ⎪ ⎪ ⎪⎪Ui(G+1) , если =⎨ ⎪ ⎪ ⎪ (G ) иначе. ⎪⎩ X i
( ( (
(
)
(
) ) ( ( (
⎧⎡ ∀j ∈{1,K, m} : g U (G+1) ≤ 0 ∧ g X (G) ≤ 0 ∧ j i j i ⎪⎢⎣ ⎪⎪ (G +1) ≤ f X i(G) ⎤⎥ ∨ ∃j ∈ {1,K, m} : g j Ui(G+1) > 0 ∧ ⎨∧ f U i (П.1.14) ⎦ ⎪ ⎪∧ ∀j ∈ {1,K, m} : max g U (G +1) ,0 ≤ max g X (G) ,0 j i j i ⎪⎩
(
) (
)) ( ( ( ) )
) ) ) ))
Таким образом, пробный вектор U i(G +1) будет выбран, если: 1) он удовлетворяет всем ограничениям и обеспечивает меньшее значение целевой функции или 2) он обеспечивает меньшее или равное значение, чем X i(G ) для всех функций ограничений. Отметим, что в случае недопустимого решения значения целевой функции не вычисляются. Такой принцип обеспечивает быструю сходимость, что продемонстрировано на примерах в работе [275]. Выбор лучшего индивидуума базируется на следующих принципах: 1) если оба решения X i(G ) и U i(G +1) допустимы, то предпочтение отдается решению с меньшей целевой функцией; 2) допустимое решение всегда лучше недопустимого; 3) если оба решения недопустимы, то предпочтение отдается менее недопустимому решению.
Приложение 1. Алгоритм «дифференциальной эволюции»
727
Чтобы избежать явления стагнации [278], при одинаковых характеристиках пробного и целевого векторов предпочтение отдается пробному вектору. П.1.5. ЦЕЛЫЕ И ДИСКРЕТНЫЕ ПЕРЕМЕННЫЕ
В канонической форме дифференциальная эволюция — это метод оптимизации непрерывных переменных [296]. Однако в работе [276] показана модификация ДЭ для целых и дискретных переменных. Рассмотрим оптимизацию целых переменных. Во-первых, несмотря на то что ДЭ на внутреннем уровне продолжает работать с непрерывными значениями, для вычисления целевой функции используются целые переменные. Таким образом, f = f ( yi ) , i = 1, n, (П.1.15) ⎧⎪ xi для непрерывных переменных, xi ∈ X . где yi = ⎨ ⎪⎩INT ( xi ) для целых переменных, Функция INT ( ⋅) преобразует непрерывные значения в целые отбрасыванием дробной части. Данная операция используется только при вычислении целевой функции, а сам алгоритм продолжает работать с непрерывными значениями. Такой подход обеспечивает большее разнообразие популяции и робастность алгоритма. Во-вторых, в случае работы с целыми переменными инициализация популяции происходит согласно соотношению (П.1.16) P (0) = xi(0) , j = rand i , j ⋅ h j − l j + 1 + l j , i = 1, NP, j = 1, n.
(
)
Кроме того, вместо (П.1.12) используется выражение, расширенное для целых переменных: ⎧rand ⋅ h − l + 1 + l , если INT u (G +1) < l ∨ INT u (G +1) > h , j j j j i, j j i, j j ⎪ ui(,Gj +1) = ⎨ (G +1) (П.1.17) ⎪⎩ui , j иначе,
(
)
( (
) ) (
(
)
)
i = 1, NP, j = 1, n. Так же легко могут быть обработаны и дискретные переменные. Предположим, что множество дискретных переменных X ( d ) содержит l элементов: X ( d ) = xi( d ) , xi( d ) < xi(+d1) , i = 1, l. (П.1.18) Вместо дискретных значений xi( d ) в алгоритме используются их собственные индексы i. Теперь дискретные значения могут быть обработаны как целые переменные с граничным условием i ∈ [1, l ] . Для вычисления целевой функции используется непосредственно само дискретное значение вместо его индекса. Другими словами, задача оптимизации дискретных переменных сводится к задаче оптимизации целых переменных, а дискретные значения используются только для вычисления целевой функции. П.1.6. РЕЗУЛЬТАТЫ
Для управляющих переменных выбраны значения NP = 40, F = 0,90 и Cr = 0,90. Хотя сама постановка задачи не определяет граничных значений конструкционных переменных, часть из ограничений целесообразно представить именно в таком виде (табл. П.1.2). Оставшиеся же ограничения будут представлены как штрафы в целевой функции f p ( X ) (П.1.13). Проблема решена четырьмя различными методами; данные сведены в табл. П.1.3.
728
Методы современной теории автоматического управления Таблица П.1.2
Г р а н и ч н ы е з н а ч е н и я , и с п о л ь з у е м ы е д л я п р о е к т и р о в а н и я в и т о й п ру ж и н ы Нижняя граница Необходим по крайней мере один виток, чтобы сформировать пружину Ограничения g3 и g5 вместе
Ограничение
3d min ≤ x2 ≤ Dmax
Верхняя граница Верхняя и нижняя поверхности ненагруженной пружины касаются друг друга Ограничение g 4
Ограничение g3
d min ≤ x3 ≤ Dmax 3
Ограничения g 4 и g5 вместе
1 ≤ x1 ≤ lmax d min
Таблица П.1.3 Оптимальные решения проектирования витой пружины 1*
Оптимальное решение 2* 3*
Тип переменной
4*
x1 ( N ) [ед.]
10
9
9
9
целая
x2 ( D ) [мм]
29,9898054
31,20898
31,1762394
31,0652414
непрерывная
x3 ( D ) [мм]
7,1882
7,1882
7,1882
7,1882
дискретная
− g1 ( X ) [Па]
7,876853817
0,060331198
0,079914771
0,146315711
—
− g 2 ( X ) [мм]
223,99498
226,58578
226,73056
227,219256
— —
− g3 ( X ) [мм]
2,107692
2,1082
2,1082
2,1082
− g 4 ( X ) [мм]
46,21022
44,99102
45,02404
45,134784
—
− g5 ( X ) [ед.]
1,1723
1,3417
1,3371
1,32170
—
− g 6 ( X ) [мм]
5,4643
5,4568
5,4585
5,46429
—
− g 7 ( X ) [мм]
0,0
0,0
0,0
6,79656 ⋅10−15
—
−14
—
—
− g8 ( X ) [мм]
0,0
0,44196
0,34036
f ( X ) [inch 3 ]
359536,1515
312229,5723
311248,6371
307921,8791
100,0%
86,84%
86,57%
85,64%
1,28909 ⋅10
* П р и м е ч а н и е . 1 — метод «Ветвей и границ», использующий последовательное квадратичное программирование, Sandgren, 1990; 2 — генетические алгоритмы, Chen and Tsao, 1993; 3 — метагенетические алгоритмы, Wu and Chow, 1995; 4 — дифференциальная эволюция, Lampinen and Zelinka, 1999.
П.1.7. ЗАКЛЮЧЕНИЕ
Когда речь идет о сравнении различных алгоритмов оптимизации, основными критериями принято считать: 1) точность найденного решения и его оптимальность; 2) время, затраченное на поиск этого решения. Эти два критерия в простой форме описывают такие важные характеристики алгоритма, как его сходимость и сложность. В задачах технического проектирования временной критерий маловажен, поэтому мы его опускаем. Тем не менее следует отметить, что алгоритм ДЭ требует лишь нескольких минут вычислений, в то время как для генетических алгоритмов (2, 3) и метода перебора (1) требуются часы. Что касается точности, то из анализа табл. П.1.3 следует, что наилучшие результаты получены именно ДЭ-методом. В заключение следует подчеркнуть, что к настоящему времени дифференциальная эволюция является одним из перспективнейших эвристических методов оптимизации среди эволюционных алгоритмов. Не уступая по скорости быстрым методам имитации отжига, он превосходит по точности генетические алгоритмы, оставаясь при этом несложным в реализации и практичным в использовании.
Приложение 2. Параметрические модели и конфлюэнтный анализ
ПРИЛОЖЕНИЕ 2.
729
ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ И КОНФЛЮЭНТНЫЙ АНАЛИЗ
Во многих случаях статистические алгоритмы не учитывают погрешности всей исходной информации. Это можно преодолеть, используя методы не регрессионного, а конфлюэнтного анализа (от англ. confluence — слияние), когда в минимизируемый функционал вводятся все случайные величины. Рассмотрим ряд конкретных примеров, чтобы показать те трудности, с которыми приходится сталкиваться при решении этих задач. Для примера возьмем задачи идентификации системы и идентификации входа. Блок-схема задачи идентификации системы приведена на рис. П.2.1, а, а блок-схема задачи идентификации входа (обратная задача системного анализа) — на рис. П.2.1, б. Рис. П.2.1 иллюстрирует случай, когда известны параметрические модели системы A ( t , θ1 ) и исследуемого сигнала B ( t , θ2 ) , т.е. когда задача идентификации системы и обратная задача системного анализа сводятся соответственно к оценке параметров θ1 и θ и их дисперсий D θ€ и D θ€ при наличии помех ε ( t ) и υ ( t ) в задаче иден-
( )
2
( )
1
2
1
( )
тификации системы и помех ε 2 ( t ) и D θ€1
в задаче идентификации входа. Здесь
ξ ( t ) — входное воздействие, η ( t ) — отклик системы, ε ( t ) и υ ( t ) — помехи, X ( t ) ,
()
Y ( t ) — измеренные значения входного воздействия и отклика системы, D θ€ —
дисперсии оценок θ. В задаче идентификации системы исходная информация не содержит детерминированных величин — на блок обработки 1 (см. рис. П.2.1, а) поступают случайные значения X ( t ) и Y ( t ) . Та же ситуация и в обратной задаче системного анализа: значения Y ( t ) и θ€ случайны. 2
1
a Блок зондирующих сигналов
υ(t )
+ δ (t )
ξ (t )
+
ε1 ( t )
Динамическая η1 ( t ) система A ( t , θ1 )
( )
D θ€1 Блок обработки 1
( )
D θ€1
θ€1
ε2 ( t )
B ( t , θ2 ) θ2 = ?
θ€1
X1 ( t )
б Блок исследуемых сигналов
+
y1 ( t )
Динамическая η2 ( t ) система A ( t , θ1 )
+
y2 ( t )
( )
D θ€2 Блок обработки 2
Рис. П.2.1. Блок-схемы задач идентификации: а — идентификация системы; б — идентификация входа
θ€2
730
Методы современной теории автоматического управления
В общем случае можно говорить о задачах оценивания свободных параметров функции известного вида, причисляя к ним системы алгебраических уравнений и интегральные уравнения, когда и аргумент (матрицы, ядра), и значения функции случайны, т.е. исходные данные не содержат детерминированных величин. Назовем примеры подобных задач из других областей знания: 1. При создании импульсных источников ионизирующего излучения важное значение имеет форма получающегося импульса или его отдельные параметры, если априори форма импульса известна. Импульсы излучения достаточно коротки, и для их регистрации применяют либо быструю осциллографическую технику, либо скоростные цифровые регистраторы, в которых точности отсчетов по амплитуде и по времени соизмеримы. При аппроксимации формы импульса излучения должны учитывать погрешности в значениях как функции, так и аргумента. 2. При исследовании поведения материалов под действием ионизирующих излучений допускаются погрешности как в процессе измерения эффекта, вызванного излучением, так и при измерении характеристик излучения (флюэнсов, интенсивности и т.д.). Причем соотношение погрешностей и их влияние в различных экспериментальных точках различно и, описывая аналитически поведение объекта под излучением, должны учитываться обе составляющие погрешности. 3. Аппаратурный спектр источников ионизирующего излучения — количество импульсов как функция энергии излучения (в частности, гамма-спектрометров) — описывается интегральным уравнением Фредгольма 1-го рода. Истинный спектр излучения связан с приборным спектром через ядро интегрального уравнения — функцию чувствительности спектрометра. Эту функцию получают в калибровочных измерениях, и она известна с некоторой ошибкой; число импульсов в каналах амплитудного анализатора спектра есть величина случайная в силу статистической природы излучения. И в этом примере при определении истинного спектра излучателя необходимо учитывать погрешности, допущенные при определении приборного спектра излучателя и погрешности в функции чувствительности спектрометра. Подобные же проблемы возникают при обработке неразрешенных линий в других спектральных исследованиях. 4. В экспресс-методах хроматографии газов требуется оценить состав газовой смеси, не доводя процесс до полного выделения каждой фракции. При этом, используя законы прохождения компонент смеси через хроматограф, составляются уравнения, связывающие концентрации отдельных компонент смеси в каждый момент времени. Для разделения компонент аналитически необходимо иметь функции, аналогичные функциям чувствительности спектрометра предыдущей задачи. И решение задачи об оценке концентрации различных компонент в смеси сводится к решению интегрального уравнения Фредгольма 1-го рода или к его дискретному аналогу — системе линейных алгебраических уравнений, где и элементы матрицы системы (ядро интегрального уравнения), и элементы правой части получают из эксперимента, т.е. с погрешностью. 5. В физико-технических задачах, например в задачах теплопроводности, часто требуется получить оценку граничных условий по проведенным измерениям температуры или теплового потока в некоторой фиксированной точке как функции времени. Связь граничного условия с полученными в эксперименте величинами в ряде случаев может быть записана в виде интегрального уравнения типа свертки, ядро которого получают как решение некоторой прямой задачи. Обычно предположения, сделанные в процессе получения ядра интеграла свертки, не всегда строго выполняются, но можно указать пределы изменения ядра интегрального уравнения вследствие этих допущений. Процесс оценки граничного условия в задачах теплопроводности сводится к решению интегрального уравнения типа свертки, когда ядро интегрального уравнения и его правая часть известны неточно.
Приложение 2. Параметрические модели и конфлюэнтный анализ
731
6. В задачах статистической обработки траекторных измерений движения летательных аппаратов измеряемые параметры и текущие параметры движения объекта связаны между собой функциями влияния, в силу чего для фиксированного момента времени можно получить связь между измеряемыми и текущими параметрами в виде плохо обусловленной системы линейных алгебраических уравнений, где значения функций влияния и измеряемые параметры входят с соизмеримыми ошибками. Определение оценок текущих параметров движения летательного аппарата должно проводиться с учетом этих погрешностей. 7. В электросвязи при проектировании неполнодоступных схем для нахождения вектора стационарных вероятностей решается однородная система линейных алгебраических уравнений, матрица системы — матрица интенсивности переходов, элементы которой определяются через интенсивность поступающего потока и интенсивность отказов. В реальных условиях значения интенсивностей поступающего потока и потока отказов измеряются с невысокой степенью точности. Поэтому интервальные оценки вектора стационарных вероятностей должны быть получены с учетом неопределенности элементов матрицы системы. 8. В экономических задачах, в процессе разработки перспективных планов развития хозяйства (отрасли, подотрасли, предприятия и т.д.) на длительные промежутки времени требуется знать связь различных показателей (факторов, нормативов) хозяйственной деятельности между собой не в базовом, а в планируемом периоде, в котором сами показатели и факторы получены в результате прогноза, т.е. в виде случайных величин. Очевидно, более адекватная связь может быть получена только в том случае, если будут учтены неопределенности всех связываемых величин. Особенностью всех перечисленных задач является стохастичность воздействий, откликов и самой системы. Из приведенного перечня задач, затрагивающих различные области знания, можно сделать следующее заключение: 1. В силу различных причин (случайные величины по своей природе, аппаратурные погрешности, использование прогнозов) реальные задачи содержат не одну, а несколько статистических величин с соизмеримыми дисперсиями, которые необходимо учитывать в процессе обработки исходной информации. Причем во всех задачах необходимо найти интервальные оценки решения, чтобы можно было оценить качество полученного решения и сделать выводы о том, достаточно ли исходной информации для получения надежного решения, удовлетворяет ли поставленным требованиям математический алгоритм решения или требуется повысить точность исходных данных, улучшить статистику либо искать другие способы решения задачи. 2. Круг задач, где требуется учитывать погрешности всех исходных данных, широк. Это задачи идентификации, обратные задачи системного анализа и задачи оценивания параметров. Сюда же входят задачи аппроксимации элементарными функциями и обратные задачи, сводящиеся к решению систем линейных алгебраических уравнений, интегральных уравнений Фредгольма и интегральных уравнений Вольтерра, интегральных уравнений типа свертки, задачи синтеза систем, когда применяется аппарат математического программирования, использующий реальные (стохастические) данные. 3. В основном встречающиеся в практике названные задачи некорректны в том смысле, что бесконечно малым приращениям в исходных данных могут отвечать сколь угодно большие изменения в решении. В настоящее время при анализе и синтезе реальных динамических систем применяются в основном приближенные методы, в которых неопределенность множества факторов сводится к неопределенности одного фактора.
732
Методы современной теории автоматического управления
П.2.1. МАТЕМАТИЧЕСКАЯ ПОСТАНОВКА ЗАДАЧИ ОЦЕНИВАНИЯ ПАРАМЕТРОВ С ПОГРЕШНОСТЯМИ В ИСХОДНЫХ ДАННЫХ Сформулируем общую математическую постановку задачи оценивания параметров. Пусть задано статистическое описание входа ξ и выхода η некоторой системы (в общем случае нелинейной) и задана структура системы в виде параметрической модели — операторного уравнения η = A ( θ ) ξ, (П.2.1) где оператор A ( θ ) ставит в соответствие каждому элементу ξ класса R n элемент η, определенный на R m. Входное воздействие ξ и отклик η — нестационарные случайные процессы. Оператор A ( θ ) может быть алгебраическим, интегральным или дифференциальным. Из-за присутствия помехи в пассивном эксперименте не наблюдаются точные значения η и ξ, но наблюдаются соответственно случайные величины Y и X, которые связаны с векторами η и ξ и аддитивными помехами ε и δ следующим образом: X = ξ + δ; Y = η + ε. (П.2.2) В активном эксперименте значение X задается. Тогда ξ = X + δ; Y = η + ε. (П.2.3) Во многих случаях задачи (П.2.1), (П.2.2) или (П.2.1), (П.2.3) сводятся к нахождению оценок и матрицы рассеяния параметров θ функции известного вида η = f ( ξ, θ ) , (П.2.4)
устанавливающей связь между точными значениями ξ и η. Если помеха аддитивна, то функциональное соотношение (П.2.4) порождает структурные соотношения в различных схемах эксперимента: 1) в пассивной (П.2.5) Y = f ( X − δ, θ ) + ε; 2) в активной (П.2.6) Y = f ( X + δ, θ ) + ε. Из структурных соотношений получают оценки θ. Постановка этой же задачи может быть записана в несимметричной форме η = f ( ξ, θ ) + ε1 , где ε1 — ошибка в уравнении. Условия (П.2.2) или (П.2.3) остаются прежними. Соответствующее структурное соотношение будет иметь вид Y = f ( X m δ, θ ) + ε + ε1. При известных законах распределения ошибки уравнения ε1 и ошибки наблюдения ε несложно заменить одной случайной величиной и перейти к симметричной форме (П.2.1)–(П.2.3). В процессе определения оценок θ возникают следующие проблемы: 1. Как учесть погрешности всех исходных данных, т.е. как объединить их в одном функционале. Эта процедура может быть выполнена, например, с помощью метода максимума правдоподобия или формулы Байеса. Получается функционал, из которого хотелось бы получить искомые оценки. Но этого нельзя сделать, поскольку в функционале присутствуют неизвестные «истинные» значения аргументов (факторов) модели ξ.
Приложение 2. Параметрические модели и конфлюэнтный анализ
733
2. Появляется вторая проблема — как найти оценки неизвестных «истинных» значений аргументов. Она может быть решена путем доопределения задачи. 3. После того как в функционал «подставили» выражения для оценок «истинных» значений факторов, оказывается, что он приобрел сложную форму. И возникает проблема, как найти «нужный» экстремум; будет ли сходиться процесс к «нужным» оценкам, будет ли решение единственно и т.д. 4. Затем возникает вопрос о корректности задачи по Адамару. 5. Как найти интервальные оценки искомых параметров? Чтобы получить оценки параметров θ, а тем более матрицы рассеяния оценки, будем полагать, что нам известны законы распределения погрешностей δ и ε и числовые характеристики этих законов распределения. В задачах (П.2.1), (П.2.2) предполагается также, что величины ξ и η — детерминированные. Если мы не имеем априорной информации о случайных величинах δ и ε, то нельзя даже получить оценки всех искомых параметров. Тем более, в принципе, нельзя говорить об интервальных оценках, если нам неизвестен вид распределения исходной информации. Постулирование закона распределения исходной информации и ее числовых характеристик не является принципиально новым в задачах анализа и синтеза систем: исследователь всегда имеет возможность оценить погрешность получаемых результатов, то ли отталкиваясь от метрологических характеристик применяемой аппаратуры, то ли проводя многократные измерения или привлекая информацию о физической сущности явления. Более того, постулирование знания закона распределения исходных данных позволяет: 1) четко разграничить задачи получения экспериментальной информации и ее статистических характеристик и задачу последующей обработки; 2) подчеркнуть важность влияния статистических свойств исходной информации на процедуру получения оценок и на свойства оценок. Особенно важно обращать на это внимание при использовании алгоритмов в социологии и экономике; 3) можно было бы алгоритмы получения необходимых статистических свойств экспериментальной информации включить в алгоритмы определения оценок искомых параметров, но это могло бы завуалировать роль статистики исходных данных и дать более широкие доверительные интервалы за счет увеличения числа математических операций. Ограничение на то, что надо знать величину исходных погрешностей, также широко применяется. Так, в методе регуляризации А.Н. Тихонова и других методах требуется знать погрешности измеренных величин. Без этого нельзя вычислить параметр регуляризации и получить само решение (точечную оценку). Если ξi и ηi сами являются случайными величинами и, как прежде, выполнены предположения (П.2.1)–(П.2.3), то, чтобы в этом случае опять получить задачу, аналогичную (П.2.1)–(П.2.3), необходимо сделать дополнительные предположения о попарной некоррелированности погрешностей измерений всех случайных величин. При этом предполагаются также известными законы распределения случайных величин ξ и η или X и η и их числовые характеристики. В итоге заменяем функциональное соотношение (П.2.1) между математическими переменными уже структурным соотношением η = f ( ξ , θ ) , выражающим точную связь между двумя ненаблюдаемыми случайными величинами ξ и η. Как и прежде, соотношения (П.2.5), (П.2.6) между наблюдаемыми переменными X и Y является структурным, но, кроме этого, имеем структурное соотношение, так сказать, внутри самой модели. Задача (П.2.1), (П.2.2) является частным случаем такой постановки, когда ξ и η вырождаются в постоян-
734
Методы современной теории автоматического управления
ные величины. В дальнейшем будем предполагать, что ξ и η в пассивной схеме или X и η в активной схеме являются детерминированными величинами. Известно, что в подобных случаях нельзя применять методы регрессионного анализа [66, 67]. Поэтому эти задачи решают методами так называемого конфлюэнтного анализа. Методы конфлюэнтного анализа позволяют учитывать как ошибки в значениях функции, так и ошибки в значениях переменных. С учетом погрешности в аргументе оценивание свободных параметров функций и определение их доверительных интервалов существенно осложняется. Согласно литературным источникам обработка данных с учетом погрешностей по всем осям координат может проводиться с позицию принципа максимума правдоподобия, методом смешанных семиинвариантов Гири, путем разбиения экспериментальных данных на группы и определения «центра тяжести» каждой группы, пользуясь разложением функций в ряд Тейлора. Причем метод оценивания свободных параметров функции с помощью семиинвариантов совершенно не пригоден в случае, когда экспериментальные данные имеют совместное нормальное распределение, т.е. в наиболее важном для практики случае. При разбиении экспериментальных данных на группы в каждой группе определяются координаты центра тяжести, по которым затем и проводится исследуемая функция. Этот метод применим для определения свободных параметров прямой линии, да и то для общего случая не определено оптимальное число групп, на которые следует разбить экспериментальные данные. Однако в работах [66, 67] показана необходимость учета погрешности в аргументе функции и продемонстрированы некоторые трудности задачи. Показано, что неучет погрешности аргумента приводит не только к неверной (заниженной) дисперсии оценок определяемых параметров, но и к смещенным и даже несостоятельным оценкам самих параметров, а как следствие, — к неверным выводам. В настоящее время различают две принципиально разные задачи конфлюэнтного анализа: обработка данных активного и пассивного экспериментов [67]. Обе задачи можно свести к регрессионным моделям разложением функций в ряд Тейлора. Вычислительные эксперименты показывают, что при таком подходе при обработке данных пассивного эксперимента значительно увеличиваются дисперсии оценок. Для общего случая оценки свободных параметров линейных и нелинейных функций результатов практически нет. Достаточно общие результаты в задаче учета погрешности в аргументе функции могут быть получены с позиций принципа максимума правдоподобия. Рассмотрим выборку из наблюдений X . Функция плотности вероятностей каждого наблюдения предполагается известной. Совместная функция плотности вероятности (ФПВ) для всех X равна L ( X θ ) . Если L ( X θ ) рассматривается как функция θ при X фиксированных и равных тем, которые зарегистрированы в эксперименте, то она называется функцией правдоподобия. Совместная ФПВ L ( X θ ) содержит как все экспериментальные данные, так и вид функциональной зависимости, т.е. содержит и искомые параметры. Тогда если экспериментальные данные имеют известные (желательно унимодальные) функции плотности вероятности с конечными дисперсиями, то в качестве вектора оценок свободных параметров θ функции η = f ( ξ, θ ) следует выбирать такие значения θ, при которых функция правдоподобия L будет максимальной. Если нет ограничений на значения θ, то точечные оценки θ можно получить из условия ∂ ln L ∂θ j
= 0, j = 1, m. θ j =θ€ j
Приложение 2. Параметрические модели и конфлюэнтный анализ
735
В противном случае следует исследовать поведение функции правдоподобия на границе. Для нас в дальнейшем важное значение будут иметь свойства оценок, получающихся из условия ∂ ln L ∂θ j
= 0. θ j =θ€ j
В том числе нам важно будет иметь методы нахождения интервальных оценок θ. Другую возможность в решении поставленной задачи нам дает байесовский подход. П.2.2. БАЙЕСОВСКАЯ ПРОЦЕДУРА ОЦЕНИВАНИЯ
Существенным моментом байесовской процедуры оценивания является определение апостериорной плотности условного распределения вероятностей P ( θ Y ) параметров θ относительно наблюдений Y : P (θ Y ) =
где
P ( Y, θ ) P ( Y θ ) q ( θ ) , = P (Y) P(Y)
P(Y) =
m +1 ∫ P ( Y, θ ) d θ.
m +1
Здесь P ( Y θ ) — плотность вероятности измерений Y; q ( θ ) — плотность распределения вероятностей параметров θ;
∫
— обозначает ( m + 1)-кратный инте-
m+1
грал; d m+1θ обозначает d θ0 , d θ1 ,K, d θm . Определив P ( θ Y ) , можно выбрать ту оценку, которую исследователь считает наилучшей, опираясь на выбор функции штрафа или потерь. Часто выбирают оценку, минимизирующую средний риск. Условный риск выбора оценки β€( Y ) при истинном значении вектора параметров θ может быть записан как математическое ожидание функции потерь по наблюдениям Y : M Y θ ⎡⎣C ( β1 , θ ) ⎤⎦ = ∫ C ( β, θ ) P ( Y θ ) d k Y, k
где C ( β, θ ) — известная функция потерь, связанная с числовой величиной оценки β при истинном значении вектора параметров θ. Средний риск R ( β ) — математическое ожидание условного риска по распределению значений параметра объекта θ :
∫ ∫ C (β, θ ) P ( Y θ ) q ( θ ) d
R (β ) =
k
Yd m+1θ,
m +1 k
или R (β ) = ∫ P ( Y ) d k Y k
m +1 ∫ C (β, θ ) P ( θ Y ) d θ.
m +1
Так как P ( Y ) ≥ 0, то средний риск можно минимизировать при Y = C путем min β
m +1 ∫ C (β, θ ) P ( θ C ) d θ.
m +1
Необходимое условие этого минимума
736
Методы современной теории автоматического управления ∂ C ( β, θ ) P ( θ C ) d m +1θ ∂β m∫+1
=0 β=β€
определяет байесовскую оценку. В методе Байеса θ — случайная величина. Если θ — не случайная величина, а неизвестный постоянный параметр, то q ( θ ) = const и max P ( θ Y ) = const max P ( Y, θ ) . P( Y )
θ
θ
Оценка θ находится из условия max P ( Y, θ ) . Получаем процедуру оценки в меθ
тоде максимума правдоподобия. В дальнейшем в основном будем пользоваться оценками, вытекающими из доопределенной функции правдоподобия. П.2.3. МАТЕМАТИЧЕСКАЯ ПОСТАНОВКА ЗАДАЧИ СИНТЕЗА
Задача синтеза заключается в таком выборе параметров оператора системы, который обеспечивал бы наилучшие значения показателя качества системы при соблюдении других требований к системе, гарантировал необходимые динамические и эксплуатационные свойства. В общем виде подобные задачи формулируются как задачи математического программирования, в которых указаны целевые функции (показатели качества) ϕ ( θ ) и условия-ограничения, определяющие необходимые свойства системы, записываемые в виде ограничений-неравенств g ( θ ) ≥ 0 и равенств h ( θ ) = 0. Математическая постановка задачи синтеза систем в терминах задачи математического программирования формируется следующим образом. Пусть R n — n-мерное пространство векторов θ = ( θ1 , θ2 ,K , θn ) ; g ( θ ) и h ( θ ) — заданные вектор-функции, определенные на R n и характеризующие систему: g ( θ ) = g1 ( θ ) , g 2 ( θ ) ,K , g p ( θ ) ;
{
{
}
}
h ( θ ) = h p +1 ( θ ) , h p + 2 ( θ ) ,K , hm ( θ ) , p < m,
где gi ( θ ) и h j ( θ ) — скалярные функции.
Обозначим через G множество векторов θ пространства R n, для которых
g ( θ ) ≥ 0 и h ( θ ) = 0 , т.е. G ≡ {θ; g ( θ ) ≥ 0; h ( θ ) = 0} . Пусть ϕ ( θ ) — заданная скаляр-
ная функция, характеризующая качество системы (целевая функция). Рассматриваемая в нашем случае задача синтеза состоит в отыскании вектора θ из R n, минимизирующего (максимизирующего) функцию ϕ ( θ ) на множестве G, т.е. такого θ€, что
()
ϕ θ€ = min ϕ ( θ ) . Причем функции ϕ ( θ ) , g ( θ ) и h ( θ ) известны из других наблюдений θ∈G
с погрешностью и, следовательно, вместо ϕ ( θ ) , g ( θ ) и h ( θ ) могут быть в процессе расчета выбраны ϕδ ( θ ) , g δ ( θ ) и hδ ( θ ) , отличающиеся на величину δ = {δ1 , δ 2 , δ3} от истинных функций. Таким образом, синтез систем проводится решением приближенной задачи min ϕδ1 ( θ ) , где множество Gδ ≡ θ; gδ2 ( θ ) ≥ 0; hδ3 ( θ ) = 0 — случайно выбранное θ∈Gδ
{
}
из класса приближенных задач, определяемых условием Qδ ( ϕ, g , h ) ≡ {( ϕδ , g δ , hδ ) ; ϕδ − ϕ ≤ δ1 ; gδ − g ≤ δ2 ;
hδ − h ≤ δ3 } .
Приложение 2. Параметрические модели и конфлюэнтный анализ
737
В поставленной задаче необходимо найти вектор точечных оценок θ и интервальные оценки параметров θ при условии, что законы распределения погрешностей δ1 , δ2 , δ3 и числовые характеристики этих законов распределения известны. П.2.4. ОЦЕНКИ В КОНФЛЮЭНТНОМ АНАЛИЗЕ
В конфлюэнтном анализе свойства оценок максимума правдоподобия могут быть несколько иными. В большинстве случаев оценки искомых параметров в конфлюэнтном анализе получают с использованием итерационных процессов, поэтому записать в явном виде формулы для нахождения оценок и исследовать по ним статистические свойства оценок не всегда удается. Остается свойства оценок получать методом статистических испытаний или привлекать уже имеющуюся информацию о свойствах оценок. В конфлюэнтном анализе различают два вида оцениваемых параметров: структурные — общие для всех наблюдений θ и несущественные — связанные с отдельными наблюдениями ξij , а в общем случае еще дисперсии σ2 xij ,
( )
σ2 yij
( )
и математические ожидания ошибок измерений. С каждым новым наблюде-
нием добавляются новые несущественные параметры. Оценки по методу максимума правдоподобия не обязательно состоятельны, если в задаче имеются несущественные параметры. Несостоятельность проявляется при определении оценок средних квадратичных отклонений σ ( x ) и σ ( y ) . Привлечение дополнительной информации о величине отношений σ ( x ) σ ( y ) делало оценки структурных параметров состоятельными, хотя оценки среднеквадратических отклонений были смещены. Если несущественные параметры являются независимыми и одинаково распределенными случайными величинами, а структурные параметры идентифицируемы, то в условиях регулярности оценки структурных параметров по методу максимума правдоподобия состоятельны. В случаях, вызывающих сомнения в состоятельности оценок структурных параметров, применяют метод статистических испытаний. Для функций линейных по параметрам θ и переменным X свойства оценок в ряде случаев можно исследовать аналитически. П.2.5. ОЦЕНИВАНИЕ ПАРАМЕТРОВ ФУНКЦИИ ИЗВЕСТНОГО ВИДА В ПАССИВНОМ ЭКСПЕРИМЕНТЕ
Пассивный эксперимент наиболее часто встречается в процессах получения оценок параметров моделей динамических систем во многих отраслях науки и техники. Требуется найти интервальную оценку параметра θ функции η = f ( ξ, θ ) , когда точные значения η и ξ мы наблюдать не можем, но можем наблюдать значения случайных величин Y и X, определяемые следующим образом: xi = ξi + δi ; yi = ηi + εi , i = 1, n, (П.2.7) где δi и εi — соответственно ошибки значений переменных и функции (случайные величины). Пусть имеем статистический ряд экспериментальных значений X = { xi } ∈ X и со-
ответствующий им ряд значений функций Y = { yi } ∈ Y, i = 1, n, n ≥ m, где m — число оцениваемых параметров θ. Будем считать, что переменные xi и yi не детерминированы, но являются выборками из генеральных совокупностей X и Y с известными плотностями функции вероятностей. Переменные xi = ξi + δi и yi = ηi + εi мо-
738
Методы современной теории автоматического управления
гут быть статистически как зависимы, так и независимы; могут быть как коррелированы, так и не коррелированы. В основном будем иметь дело с выборками из n независимых наблюдений из одного и того же распределения. Пусть f1 ( xi θ ) и f 2 ( yi θ ) — соответственно плотности вероятности случайной величины xi и случайной величины yi , если xi и yi непрерывны, либо соответственно вероятность значений xi и yi , если распределения xi и yi дискретны; xi , yi и соответственно распределения f1 ( xi θ ) и f 2 ( yi θ )
могут быть как одномерными, так и многомерными. Найдем выражение для совместной плотности вероятности экспериментальных данных при условии, что значения εi и ηi связаны функциональной зависимостью, но их погрешности δi и εi являются независимыми при переходе от одной точки
( xi , yi )
к другой. Тогда совместная плотность вероятности получить одновременно
значения xi и yi будет
Pi = f1 ( xi θ ) ⋅ f 2 ( yi θ ) .
(П.2.8)
Совместная плотность вероятности получить n статистически независимых точек x , ( i yi ) равна n
n
i =1
i =1
L ( x, y θ ) = ∏ Pi =∏ f1 ( xi θ ) ⋅ f 2 ( yi θ ).
(П.2.9)
Аналогично можно получить формулы совместной плотности вероятности для зависимых или коррелированных экспериментальных точек. Эти формулы могут быть взяты из книг по теории вероятностей. Для нас важен тот факт, что в выражения для совместной плотности вероятности входят математические ожидания экспериментальных данных, экспериментальные значения и оцениваемые параметры, так как f1 ( xi θ ) — функция математического ожидания ξi экспериментальных значений xi и параметров θ; f 2 ( yi θ ) — функция математического ожидания ηi экспериментальных значений yi , xi и параметров θ. Кроме того, нам известно функциональное соотношение ηi = f ( ξi , θ ) , (П.2.10) которое порождает структурное соотношение между наблюдаемыми случайными величинами xi и yi yi = ψ ( xi , θ, δi , εi )
или
(П.2.11)
yi = f ( xi − δi , θ ) + εi
при аддитивных помехах δi , εi . Таким образом, в поставленной задаче следует отметить две проблемы: 1. Каким образом ввести в рассмотрение погрешность в аргументе? 2. Как найти глобальный минимум построенного функционала? Дело здесь в том, что функционалы, которые требуется минимизировать при отыскании оценок параметров после введения в них оценок аргументов или выражений для них, имеют сложную форму и соответствующие системы уравнений для определения оценок искомых параметров нелинейны. Известно, что каждая нелинейная система для своего решения требует особого рассмотрения.
Приложение 2. Параметрические модели и конфлюэнтный анализ
739
Наиболее часто в практике физических измерений встречаются распределения Пуассона и Гаусса. Найдем (в качестве примера) для них вид функционалов, из которых затем могут быть получены оценки искомых параметров. Для других функций распределений экспериментальных данных процедура получения минимизируемого функционала будет аналогичной. Пусть экспериментальные значения xi и yi — случайные величины, каждая из которых имеет функцию плотности вероятности (ФПВ), описываемую функцией Гаусса с математическими ожиданиями ξi и ηi , дисперсиями σ2 ( xi ) и σ2 ( yi ) и коэффициентом корреляции ρi = ρ ( xi , yi ) . Тогда плотность вероятности получить точку с координатами ( xi , yi ) равна Pi =
1 2πσ ( xi ) σ ( yi )
где u1i =
⎡ 2 ⎤ u − 2ρi u1i u2i + u22i ⎥ exp ⎢ − 1i , ⎢ ⎥ 2 1 − ρi2 1 − ρi2 ⎣ ⎦
(
)
(П.2.12)
xi − ξi y − ηi ; u2i = i . σ ( xi ) σ ( yi )
Совместная плотность вероятности получить n независимых точек тогда n
L = ∏ Pi i =1
и 2 ( xi − ξi )( yi − ηi ) + ( yi − ηi )2 ⎤⎥ 1 + const. (П.2.13) 1 n ⎡ ( xi − ξi ) ⎢ − ρ 2 ∑ i σ ( xi ) σ ( yi ) 2 i =1 ⎢ σ2 ( xi ) σ2 ( yi ) ⎥⎦ 1 − ρi2 ⎣ Оценки искомых параметров θ находятся из условия минимума функционала 2 ( x − ξ )( yi − ηi ) + ( yi − ηi )2 ⎤⎥. 1 n ⎡( x − ξ ) (П.2.14) F = ∑ ⎢ i 2 i − 2ρi i i 2 2 i =1 ⎢ σ ( xi ) σ ( xi ) σ ( yi ) y σ ( ) ⎥ i ⎣ ⎦ Для важного частного случая, когда погрешности δi и εi некоррелированы, выражение (П.2.14) примет вид 2 ( y − η )2 ⎤ 1 n ⎡( x − ξ ) F = ∑ ⎢ i 2 i + i 2 i ⎥. (П.2.15) 2 i =1 ⎢ σ ( xi ) y σ ( ) ⎥ i ⎣ ⎦ Получили явный вид одного из тех функционалов, которые по определению вводятся в методе обобщенной невязки. Когда все экспериментальные данные статистически независимы и каждое экспериментальное значение имеет функцию вероятности, подчиняющуюся закону Пуассона, получим n ξ xi η yi (П.2.16) L = ∏ i ⋅ i e −ξi −ηi i =1 xi ! yi ! и
ln L = −
n
F = ∑ ( −ξi − ηi + xi ln ξi + yi ln ηi ).
(П.2.17)
i =1
Аналогично получают вид минимизируемого функционала при других законах распределения исходных данных. Переход в выражениях (П.2.12)–(П.2.17) к случаю, когда переменные являются детерминированными, очевиден.
740
Методы современной теории автоматического управления
Рассмотрим задачу отыскания минимума функционалов типа (П.2.14)–(П.2.17) по параметрам θ при условии (П.2.10). В отличие от регрессионного анализа нам неизвестны истинные значения абсцисс экспериментальных точек, а известны только их доверительные области. Причем случайная величина X коррелирована с обобщенной ошибкой функции η (например, для прямой линии η = θ1 + θ2ξ обобщенная ошибка функции η равна ε − θ2δ ). Перед тем как приступить к определению точки минимума функционалов (П.2.14), (П.2.15), (П.2.17) по θ, требуется каким-то образом определить ξi , а только затем, подставив выражения для ξi и ηi в функционал, приступить к отысканию минимума получившейся функции нескольких переменных. Выход системы Y содержит информацию не только о параметрах модели θ, но и о действительных значениях входного воздействия ξ. Тогда искомые значения ξi и оценки θ определяются из условия ∂F ∂ξi
= 0, i = 1, n;
(П.2.18)
ξi =ξ€i
∂F ∂η ⋅ ∂η ∂θ j
= 0, j = 1, m.
(П.2.19)
θ j =θ€ j
Очевидно, что получаемые оценки значений ξi должны принадлежать области неопределенности Di измеренных величин xi , т.е. ξ€i ∈ Di . Когда известен закон распределения погрешности измерения xi , это условие может быть выражено в более конкретной форме: при нормальном законе распределения случайной величины xi — xi − ξi ≤ k σ ( xi ) , где значение коэффициента k определяется выбранным уровнем доверия. Таким образом, например, решение задачи минимизации функционала (П.2.15) при условии (П.2.10) эквивалентно решению системы уравнений n y − η ∂f (П.2.20) ∑ σi2 ( y i) ⋅ ∂θ = 0, j = 1, m, i = 1, n, n ≥ m j i =1 i при
xi − ξi yi − ηi ∂f + ⋅ = 0. (П.2.21) σ2 ( xi ) σ 2 ( yi ) ∂ξi Для функций, линейных по параметрам θ, система уравнений (П.2.20) — это система линейных алгебраических уравнений. Система (П.2.21) для линейных по ξ функций представляет n не связанных между собой систем из m линейных уравнений. Замена нормального закона распределения другим, например законом Пуассона или Лапласа и др., приводит к системе нелинейных уравнений (П.2.20). Учет корреляции погрешностей xi и yi не имеет принципиальных трудностей, а
лишь усложняет формулы; учет корреляции погрешности значений xi1 и xi 2 в разных точках не позволяет разбить систему из m ⋅ n уравнений на n независимых; в этом случае придется решать систему линейных уравнений в n раз большей размерности, чем при независимых переменных xi1 и xi 2 . Во всех случаях учет корреляции погрешностей всегда ухудшает обусловленность системы уравнений (П.2.20).
Приложение 2. Параметрические модели и конфлюэнтный анализ
741
Условие (П.2.21) для нелинейных функций η = f ( ξ, θ ) дает соответственно n независимых систем из m нелинейных уравнений, которые можно решать методом линеаризации. Сходимость итерационного процесса при этом обеспечивается малостью допустимых интервалов для ξ. П.2.6. ОЦЕНКА ПАРАМЕТРОВ ЛИНЕЙНЫХ ФУНКЦИЙ И РЕШЕНИЕ СИСТЕМЫ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ
Рассмотрим применение описанного подхода к задаче определения оценок параметров линейной модели n
η = f ( ξ, θ ) = ∑ θi ξi , i =1
или то же самое к решению систем линейных алгебраических уравнений с погрешностями в матрице системы и в правой части при условии, что все ошибки измерений суть независимые нормально распределенные случайные величины с нулевыми средними и известными дисперсиями σ2 xij и σ2 y j . В этом случае функционал
( )
( )
(П.2.15) будет иметь вид
) ( ( )
( )) ( )
2 ⎫ 2 ⎧ ⎡ y j − f ξ j , θ ⎤⎥ ⎪ 1 m ⎪ n ⎢ xij − ξij F = ∑ ⎨∑ ⎢ 2 + ⎥ ⎬, 2 j =1 ⎪ i =1 σ xij σ2 y j ⎪ ⎦⎥ ⎭ ⎩ ⎣⎢ а ограничение ξi ∈ Di можно записать следующим образом:
(
( )
xij − ξij ≤ 3σ xij .
(П.2.22)
(П.2.23)
Здесь ошибки измерений считаются статистически независимыми для упрощения вида функционала F (П.2.22). Задачу минимизации по θ функционала (П.2.22) при фиксированных значениях ξ можно рассматривать как обычную задачу регрессионного анализа. Другим способом является непосредственная минимизация функционала (П.2.22). Исследования на ЭВМ показали, что для обеспечения минимального времени счета и точности лучше всего на первом шаге решать систему линейных уравнений, определяемую из метода наименьших квадратов при ξij = xij методом Гаусса с выбором максимального элемента. А в дальнейшем непосредственно минимизировать по θ функционал (П.2.22) при помощи метода сопряженных градиентов. Учитывая вид функционала (П.2.22), задачу минимизации по θ легко свести к задаче поиска минимума квадратичной формы: 1 G ( θ ) = θT Aθ + aT θ, 2 которая и решалась методом сопряженных градиентов. Здесь θ — вектор искомых оценок параметров; A — матрица квадратичной формы, элементы которой вычисляются по формуле m 1 Arp = ∑ 2 xrj x pj , r = 1, n, p = 1, n, σ yj j =1
( )
где xij — значение i-й переменной, полученное в j-м измерении; a — вектор, компоненты которого m
1 xrj , r = 1, n. yj j =1 σ
ar = −∑
2
( )
742
Методы современной теории автоматического управления
Пересчет точных значений ξ на основании условий (П.2.21) сводится к решению m несвязанных между собой систем из n линейных уравнений вида n θ θ ξ x θ y ∑ σ2 r yp ξrj + σ2 pjx = σ2 pjx + σ2 p y j , p = 1, n, j = 1, m. r =1 j pj pj j
( )
( )
( )
( )
Полученные новые значения ξij должны удовлетворять условию (П.2.23). Если это не так, то те ξij , которые выходят за указанные границы, заменяются на значение ближайшей граничной точки. В связи с этим в некоторых случаях можно ожидать увеличение функционала (П.2.22) на новых точных значениях переменных по сравнению с предыдущим шагом итерационного процесса, что привело бы к снижению скорости сходимости процесса и даже могло бы привести к возникновению колебаний. Для устранений этих нежелательных последствий после пересчета ξ те наборы ξ j , на которых произошло увеличение соответствующих слагаемых функционала
(
2 ) + ( y j − f (ξ j ,θ)) σ2 ( y j ) ( )
1 n xij − ξij F= ∑ 2 2 i =1 σ xij
2
по сравнению с предыдущей итерацией, заменялись значениями с предыдущего шага. Применение описанного приема позволило в большинстве случаев резко увеличить скорость сходимости процесса (примеры, для решения которых не хватало 30 итераций, сходились за 7÷10 итераций), а в тех случаях, когда первоначальный процесс не сходился (возникали колебания), решение достигалось за 12÷17 итераций. Элементы дисперсионной матрицы ошибок (матрицы рассеивания) для оценок искомых параметров подсчитываются как элементы матрицы, обратной матрице M : M ij = −
∂2 F ∂θi ∂θ j
, θ =θ€
где θ€ — полученные оценки параметров θ. Описанную задачу можно интерпретировать как задачу решения переопределенной системы из m линейных уравнений с n переменными, у которой m > n : X T θ = Y, где Y = ( y1 ,K , ym ) — столбец значений функций; X — ( m × n )-матрица, элементы T
которой xij суть значение i-й переменной в j-м измерении; θ = ( θ1 ,K, θn )
T
— стол-
бец неизвестных (искомых) параметров. П.2.7. ОПТИМАЛЬНАЯ ОЦЕНКА ВЕКТОРА СОСТОЯНИЯ ЛИНЕЙНОЙ ДИНАМИЧЕСКОЙ СИСТЕМЫ СО СТОХАСТИЧЕСКИМИ МАТРИЦАМИ СИСТЕМЫ И ИЗМЕРЕНИЙ € ( k + 1) вектора состояния x€( k + 1) линейДля нахождения оптимальной оценки X ной динамической системы (дискретный вариант) (П.2.24) x ( k + 1) = A ( k ) x ( k ) + v ( k ) с линейным измерением (П.2.25) y (k ) = C(k ) x(k ) + w (k ) широко используется разработанная Калманом рекуррентная процедура, получившая название фильтра Калмана. Здесь x ( k ) — недоступный непосредственному наблю-
дению n -мерный вектор состояния; y ( k ) — m-мерный вектор измерения; v ( k ) —
Приложение 2. Параметрические модели и конфлюэнтный анализ
743
случайное возмущение; w ( k ) — случайная помеха измерения; A ( k ) , C ( k ) — матрица системы и измерителя соответствующей размерности. Предполагается следующее: 1) v ( k ) , w ( k ) — гауссовские белые взаимно некоррелированные последовательности с известными средними значениями и ковариационными матрицами M ⎡⎣ v ( k ) v T ( j ) ⎤⎦ = Q ( k ) δ jk ; M ⎡⎣ w ( k ) w T ( j ) ⎤⎦ = R ( k ) δ jk (П.2.26) соответственно, где M — символ математического ожидания (знак «T» обозначает операцию транспонирования); δ jk — символ Кронекера; Q ( k ) , R ( k ) — положительно определенные матрицы; 2) начальное состояние x ( 0 ) — гауссовский случайный n-мерный вектор с нулевым математическим ожиданием и неотрицательно определенной ковариационной матрицей, не коррелированной ни с Q ( k ) , ни с R ( k ) : M ⎡⎣ x ( 0 ) xT ( 0 ) ⎤⎦ = P ( k0 ) ;
(П.2.27)
3) матрицы A ( k ) , C ( k ) заданы. В случае неточного задания требуемой информации о воздействиях, об измерителе ( матрица C ( k ) ) и особенно о системе ( матрица A ( k ) ) качество оценок ухудшается вплоть до их расходимости. В связи с чем рядом авторов, например, предложено целое семейство различных модификаций алгоритма Калмана, нацеленных на сохранение его работоспособности в этих условиях. Однако в полной мере данную задачу пока решить не удалось. Повысить качество алгоритма обработки результатов измерений можно за счет использования дополнительной априорной информации об ошибках в задании модели. В данной работе предполагается, что вместо точных значений матриц A ( k ) , C ( k ) , необходимых для модели (П.2.24), (П.2.25), известны только реализации A ( k ) и C ( k ) стохастических матриц A Δ ( k ) , CΔ ( k ) , связанных с точными значениями A ( k ) , C ( k ) следующим образом: A Δ ( k ) = A ( k ) + ΔA ( k ) ; C Δ ( k ) = C ( k ) + ΔC ( k ) , (П.2.28) где ΔA ( k ) , ΔC ( k ) — матрицы из случайных белых последовательностей с известными законами распределения, имеющими нулевые математические ожидания и ковариационные матрицы M ( k ) , N ( k ) : M ⎡⎣ ΔA ( k ) ⊗ ΔA ( k ) ⎤⎦ = M ( k ) ; M ⎡⎣ ΔC ( k ) ⊗ ΔC ( k ) ⎤⎦ = N ( k ) . (П.2.29) Здесь ⊗ — символ кронекеровского прямого или внешнего произведения матриц. При такой информации о неточности задания матриц A ( k ) , C ( k ) решить задачу
оптимальной оценки вектора состояния можно с помощью рассматриваемого здесь аппарата конфлюэнтного анализа. Полученный в результате алгоритм обработки: 1) устойчив не только по отношению к неточностям в задании параметров известного вида законов распределения ошибок матрицы ΔA ( k ) и ΔC ( k ) , но и по классу законов, определяемых двумя моментами в случае близости значений этих моментов; 2) сохраняет рекуррентный характер; 3) дает не только хорошую точечную оценку x€ ( k + 1) вектора x ( k + 1) — несмещенную, состоятельную, часто эффективную, но и интервальную его оценку.
744
Методы современной теории автоматического управления
Задача имеет следующую постановку. Пусть задана стохастическая линейная (или линеаризованная) система с дискретным временем (П.2.24). Последовательность наблюдений y ( k0 ) ,K, y ( k ) определяется соотношением (П.2.25). Имеют место предположения 1, 2. В отличие от традиционной постановки, когда известны точно зна% (k ) и C % (k ) чения A ( k ) и C ( k ) , предполагаем, что известны только реализации A матриц A Δ ( k ) , CΔ ( k ) с математическими ожиданиями A ( k ) и C ( k ) и с ковариационными ( nn × nn )- и ( mn × mn)-матрицами M ( k ) и N ( k ) . Для определенности в дальнейшем считаем, что элементы матриц A Δ ( k ) , CΔ ( k ) и векторов v ( k ) , w ( k ) подчиняются нормальному закону распределения и что элементы A Δ ( k ) , CΔ ( k ) , v ( k ) , w ( k ) попарно некоррелированы. Требуется определить оптимальную оценку x€( k + 1) вектора состояния x ( k + 1) на основе имеющейся последовательности результатов измерений y ( k ) = { y ( k0 ) , y ( k0 + 1) ,K , y ( k )} , y ( k + 1) и значений реализаций A ( k + 1) , C ( k + 1) . € ( k + 1) и Вместо A ( k + 1) и C ( k + 1) в расчетах будут фигурировать их оценки A € ( k + 1) , в качестве которых выберем такие значения A ( k + 1) и C ( k + 1) , что вместе C
с x€ ( k + 1) обращают в максимум функцию правдоподобия. Дополнительно учитывается естественное требование, чтобы оценки A ( k + 1) и C ( k + 1) принадлежали области % ( k + 1) и C % ( k + 1) . Использование оценок неопределенности заданных значений A A ( k + 1) и C ( k + 1) делает алгоритм получения оценки x€a ( k + 1) адаптивным, но в то
же время задача оценивания x ( k + 1) становится нелинейной. Поэтому важным в процессе решения задачи является правильный выбор нулевого приближения. Итерационный процесс нахождения оценки x€a ( k + 1) начинается с регрессионного решения % ( k + 1) = A € ( k + 1) x€ ( k + 1) (оценка x€ ( k + 1) определяется при условии, что A ( k + 1) = A p
p
% ( k + 1) = C € ( k + 1) , с помощью алгоритма Калмана), сходится к x€ ( k + 1) и и C ( k + 1) = C позволяет получить единственную и состоятельную оценку. Следуя методу максимума правдоподобия при гауссовских распределениях исходных данных, получаем 2 ⎡ 1 x ( k + 1) − A ( k + 1) x% ( k ) Q −1 ( k + 1) + f ( A, C, v, w ) = const exp ⎢ − ⎣ 2
{
2 % ( k + 1) − A ( k + 1) 2 M −1 ( k + 1) + + y ( k + 1) − C ( k + 1) x ( k + 1) R −1 ( k + 1) + A
}
% ( k + 1) − C ( k + 1) 2 N −1 ( k + 1) ⎤ . + C ⎦ € € € Оценки x ( k + 1) , A ( k + 1) , C ( k + 1) найдем из условий: ∂ ln f ( A, C, v, w ) ∂xi
= 0, l = 1, n;
∂ ln f ( A, C, v, w ) ∂Alj
(П.2.30)
xl ( k +1) = x€l ( k +1)
= 0, l , j = 1, n; Alj = A€lj
(П.2.31)
Приложение 2. Параметрические модели и конфлюэнтный анализ ∂ ln f ( A, C, v, w ) ∂Cij
= 0, i = 1, n, j = 1, m;
745 (П.2.32)
Cij =C€ij
Q ( k + 1) = A ( k ) P ( k ) A T ( k ) + Q ( k ) .
Принадлежность оценок истинных значений Alj и Cij областям неопределенности заданных значений A%lj и C%ij запишем в виде A€lj − A%lj ≤ 3 M lj ,lj ;
C€ij − C%ij ≤ 3 Nij ,ij .
Из условия (П.2.30) получим € ( k + 1) x€( k ) + Q ( k + 1) C €T ( k + 1) × ⎡C € €T x€( k + 1) = A ⎣ ( k + 1) Q ( k + 1) C ( k + 1) + (П.2.33) −1 € ( k + 1) A € ( k + 1) x€( k ) ⎤ . +R ( k + 1) ⎦⎤ ⎡⎣y ( k + 1) − C ⎦ Из условия (П.2.31) € ( k ) x€ ( k ) ⎤ + N −1 ( k ) ⎡C % € ⎤ x€T ( k + 1) R −1 ( k ) ⎡⎣ y ( k ) − C (П.2.34) ⎦ ⎣ ( k ) − C ( k ) ⎦ = 0; из условия (П.2.32) € ( k + 1) x€( k ) ⎤ + M−1 ( k + 1) ⎡ A % € ⎤ x€T ( k ) Q−1 ( k + 1) ⎣⎡x ( k + 1) − A ⎦ ⎣ ( k + 1) − A ( k + 1) ⎦ = 0. (П.2.35) Ковариационная матрица оценки x€ ( k + 1) вычисляется по известным формулам переноса ошибок на основании выражения (П.2.33). Формулы (П.2.33)–(П.2.35) образуют рекуррентный алгоритм решения поставленной задачи, в котором оценки x ( k + 1) и элементов матриц A ( k + 1) и C ( k + 1) получают итерационным процессом соответственно по зависимостям (П.2.33)–(П.2.35). Расчет оценок значений элементов матриц A ( k + 1) и C ( k + 1) на основании (П.2.34) и (П.2.35) сводится к решению в каждом случае системы линейных алгебраических уравнений, распадающихся в свою очередь на m несвязанных между собой подсистем. Алгоритм получения оценок состоит в следующем: % ( k + 1) = A ( k + 1) и C % ( k + 1) = C ( k + 1) определяется оценка x€ ( k + 1) со1) при A p
гласно условию (П.2.33) — традиционный способ получения оценки x ( k + 1) ; € ( k + 1) и C € ( k + 1) по 2) при найденных оценках x€ p ( k + 1) находятся оценки A условиям (П.2.34) и (П.2.35) с учетом ограничения на разность оценок и за% и C %; данных значений элементов матриц A € ( k + 1) и C € ( k + 1) определяется оценка x€( k + 1) по 3) при найденных оценках A условию (П.2.33); 4) шаги 2 и 3 повторяются до тех пор, пока не будут выполнены условия прекращения итерационного процесса. Полученная при этом оценка x€( k + 1) и является искомой. Затем находится интервальная оценка x ( k + 1) , рассчитывается ковариационная матрица x€( k + 1) . В самом простейшем случае для одномерной задачи получим систему для получения оценок: % % Ax€k + Cyk +1 € yk +1 xk +1 + C € = xk +1 x€k + A . ; A x€k +1 = ; C= 2 2 2 1 + xk +1 1 + x€k 1+ C Строго говоря, этот алгоритм дает оценку произведения матриц A и C.
746
Методы современной теории автоматического управления
Рассмотрим несколько примеров. Во всех примерах задавалась последовательность значений x ( k ) , определялись значения A ( k ) x ( k ) , на которые с помощью датчика случайных чисел накладывалось возмущение v ( k + 1) , затем на вычисленные значения C ( k + 1) x ( k + 1) накладывалась случайная помеха w ( k + 1) . Полученные значения y ( k + 1) являлись основой для определения оценок x ( k + 1) , A ( k ) , C ( k + 1) . Оценки находились при двух условиях: 1) значения A ( k ) и C ( k + 1) известны точно, получим регрессионную оценку; 2) элементы матриц A ( k ) и C ( k + 1) — случайные величины, получим конфлюэнтную оценку. В качестве меры отличия оценок x ( k + 1) вычислялись сумма по k квадратов отклонений полученных регрессионных и конфлюэнтных оценок от заданных истинных значений. Для всех примеров x ( 0 ) = 3; σ ( x0 ) = 3. Пример П.2.1. Задана стационарная динамическая скалярная система x ( k + 1) = 0,9 x ( k ) + v ( k + 1) со стационарным измерителем y ( k + 1) = x ( k + 1) + w ( k + 1) .
При отсутствии возмущения система функционирует следующим образом: x ( k ) = 2,7; 2, 43; 2,19; 1,97; 1,77; 1,59; 1, 43; 1,29; 1,16; 1,06. Среднеквадратические отклонения v ( k + 1) , w ( k + 1) , A ( k ) , C ( k + 1) одинаковы и равны 0,05. Для всех шагов вместо значения A = 0,9 бралось A = 0,99, а вместо C = 1,0 бралось C = 1,05. В процессе расчетов найдено, что отношение меры отклонения конфлюэнтных оценок от истинных значений к мере отклонения регрессионных оценок от истинных для x ( k + 1) составляет 0,67. Среднее значение A = 0,909; сред-
нее значение C = 1,02; интервальная ошибка в оценке x ( k + 1) колебалась от 3 до 5%. Пример П.2.2. Рассмотрим нестационарную динамическую скалярную систему x ( k + 1) = A ( k ) x ( k ) + v ( k + 1)
со стационарным измерителем y ( k + 1) = x ( k + 1) + w ( k + 1) . Для k = 1, 10 значения A ( k ) изменились по линейному закону равномерно с A (1) = 0,5 до A (10 ) = 0,9; x ( k ) = {1,5; 0,75; 0,375; 0,188; 0,094; 0,047; 0,023; 0,012; 0,006; 0,003}. Остальные условия те же, что и в первом примере. При расчете значения A ( k ) брались на 0,05 больше истинных. Полученные в процессе расчетов оценки A и C отличались от истинных значений на 0,1÷0,2 (вместо 0,5); мера отклонения конфлюэнтных оценок от истинных значений в 1,6 раза меньше меры отклонения регрессионных. Интервальная оценка x ( k + 1) изменилась от 5 до 30% от точечной. Пример П.2.3. Рассматривается стохастическая система (П.2.24), (П.2.25); среднеквадратические отклонения v ( k + 1) , w ( k + 1) , A ( k ) и C ( k + 1) равны 1. Значения A ( k ) и C ( k + 1) для модели каждый раз разыгрываются с помощью датчика случайных чисел в окрестности 0,9 и 1,0. Необходимые значения A ( k ) и C ( k + 1) расчетной модели еще раз разыгрываются по тем же параметрам. Для этого варианта
отношение мер близости конфлюэнтных и регрессионных оценок x ( k + 1) составляло 0,85: оценки A и C находились в области между истинными их значениями и заданными с центром тяжести этого распределения, смещенным к истинным значениям.
П.2.8. О СТАТИСТИЧЕСКОЙ ЛИНЕАРИЗАЦИИ НЕЛИНЕЙНОСТИ С ПОМОЩЬЮ КОНФЛЮЭНТНОГО АНАЛИЗА
При приближенных расчетах в теории автоматического регулирования нелинейное звено с характеристикой ϕ (Y ) заменяют эквивалентным линейным звеном, преобразующим входной случайный сигнал Y ( t ) = my ( t ) + Y 0 ( t )
Приложение 2. Параметрические модели и конфлюэнтный анализ
747
в случайный сигнал X 1 ( t ) по формуле
X1 ( t ) = k0 m y ( t ) + k1Y 0 ( t ) . Здесь m y ( t ) — математическое ожидание входного сигнала; Y 0 ( t ) — случайная составляющая входного сигнала; k0 — статистический коэффициент передачи нелинейного звена по математическому ожиданию; k1 — статистический коэффициент передачи нелинейного звена по случайной составляющей. Таким образом, вместо реального случайного сигнала X ( t ) = ϕ ⎡⎣Y ( t ) ⎤⎦ рассматривается его приближение X 1 ( t ) . Коэффициент k0 и k1 выбирают таким образом, что-
бы случайный сигнал X 1 ( t ) был в некотором смысле близок функции X ( t ) . В литературе коэффициенты k0 и k1 вычисляют либо из равенства математических ожида-
ний и дисперсий сигналов X ( t ) и X 1 ( t ) , либо из условия минимума дисперсии разности между процессами X ( t ) и X 1 ( t ) :
{
M ⎡⎣ X ( t ) − k0 m y ( t ) − k1Y 0 ( t ) ⎤⎦
2
В обоих случаях k0 = mx ( t ) m y ( t ) .
}
→ min.
(П.2.36)
k0 , k1
Коэффициенты k1 по первому и второму методам соответственно равны ( 2)
(1)
k1 = σ x σ y ; k1
=
M ⎡⎣ X ( t ) , Y 0 ( t ) ⎤⎦ σ2y
,
где mx ( t ) — математическое ожидание выходного сигнала X ( t ) ; σ2y , σ2x — дисперсии входного и выходного сигналов; M [⋅] — знак операции вычисления математического ожидания. В практических приложениях вычисляют оба коэффициента. Опираясь далее на тот
1 факт, что k1( ) соответствует случайному процессу X 1 ( t ) , у которого R ( X 1 ) > R ( X ) , а
2 k1( ) случайному процессу X 1 ( t ) , у которого R ( X 1 ) < R ( X ) (здесь символом R ( ⋅)
обозначены соответствующие корреляционные функции), из k1( ) и k1( ) комбинируют новый, более удачный в этом смысле коэффициент k1. Тем самым признается, что обе постановки позволили решить задачу, не совсем адекватную желаемой. Корректировка решений при этом выполняется, исходя из эмпирических соображений, приближенно. Здесь рассматривается другой метод вычисления коэффициента k1 , позволяющий аналитически приблизиться к желаемому решению. Дело в том, что формулы для 1
2
1 2 k1( ) и k1( ) получены с помощью математических преобразований, в которых не уч-
тено, что Y 0 ( t ) — случайный (недетерминированный) аргумент функции X1 ( t ) .
Поскольку Y 0 ( t ) — случайный аргумент, то, как уже показано, множество значений,
(
)
которые может принимать пара Y 0 ( t ) , X ( t ) с заданной вероятностью β, представляет собой не отрезок cd :
∫ p ( X ) dX = β, а некоторую область γ : ∫ p (Y
cd
γ
0
)
, X dY 0 dX = β, и
оценку коэффициента k1 следует вычислять, максимизируя совместную плотность
748
Методы современной теории автоматического управления
(
)
вероятности двумерной случайной величины Y 0 ( t ) , X ( t ) , которая могла бы быть построена по известной плотности вероятности входного сигнала f y (Y ) и расчетной плотности вероятности выходного сигнала f x ( X ) (в общем случае как произведение плотности вероятности одного из них на условную плотность вероятности другого). Допустим, что f y (Y ) подчиняется нормальному закону распределения. Плотность вероятности f x ( X ) на выходе нелинейного элемента не подчиняется нормальному закону, но поскольку затем проводится линеаризация нелинейного элемента, то фактически осуществляется переход от f x ( X ) к некоторому нормальному закону
(
f x1 ( X 1 ) = N mx , ax2
)
с математическим ожиданием mx и со среднеквадратическим от-
клонением ax ≠ σx . Равенство ax2 = σ2x имеет место только для линейной функции ϕ (Y ) . При совместном нормальном законе распределения минимизируемый функционал должен иметь вид
(
)
2
0 1 n X i − k0 m yi − k1Yi F= ∑ 2 + n ln ax + const, 2 i =1 ax + k12 σ2y − 2ρax σ y k1
(П.2.37)
где ρ — коэффициент корреляции случайных величин X i и Yi0 ; n — число точек наблюдения. Таким образом, оценки k0 и k1 следует определять не из условия (П.2.36), а из условия ⎡ ⎡ X t − k m t − k Y 0 t ⎤2 ⎤ 1 ⎣ ( ) 0 y ( ) 1 ( )⎦ ⎢ + n ln a x ⎥⎥ → min . M⎢ k0 , k1 , a x 2 ax2 + k12 σ 2y − 2ρax σ y k1 ⎢⎣ ⎥⎦ В выражении (П.2.37) кроме искомых неизвестных k0 и k1 неизвестно значение ax2 .
Дифференцируя (П.2.37) по k0 , k1 и ax2 и приравнивая их производные нулю,
получим систему уравнений для оценок k0 , k1 и ax2 . В ряде случаев оценка a x2 может быть получена независимо, аппроксимируя расчет-
ную плотность вероятности f x ( X ) нормальным законом распределения, и тогда рассматриваются только уравнения для k0 и k1. Для оценки k0 получим прежнюю формулу k0 = m x ( t ) m y ( t ) .
Производная по k1 приводит к квадратному уравнению
(
)
(
)
k12σ2y M ⎡⎣ X ( t ) Y 0 ( t ) ⎤⎦ − σ y ax ρ + k1σ 2y ax2 − σ 2x − −ax2 M ⎡⎣ X ( t ) Y 0 ( t ) ⎤⎦ + ax σ y σ2xρ = 0.
(П.2.38)
При ax2 = σ2x — случай линейной функции X = ϕ (Y ) или близкой к ней — из (П.2.38) получим 1 2 k1( ) = σ x σ y = k1( ).
Формула (П.2.38) определяет коэффициент усиления k1 нелинейного звена по случайной составляющей и показывает, что для некоторых нелинейных объектов этот
Приложение 2. Параметрические модели и конфлюэнтный анализ
749
1 2 коэффициент может значительно отличаться от оценок k1( ) и k1( ). Очевидно, коэф-
фициент k1( ) получается в процессе минимизации функционала (П.2.37) без учета его знаменателя, т.е. при неучете случайности аргумента. Дифференцируя (П.2.37) по a x2 , получаем квадратное уравнение для нахождения 2
оценки ax2 : 2⎫ ⎧1 M ⎨ ⎣⎡ X ( t ) − k0 m y ( t ) − k1Y 0 ( t ) ⎦⎤ ⎬ 2 ax − ρσ y k1 n ⎩2 ⎭ (П.2.39) − = 0, 2 ax ⎡ ax2 + k12σ2y − 2ρax σ y k1 ⎤ ⎣ ⎦ откуда при n → ∞ и ρ = 1 получим ax = k1σ y . Следует иметь в виду, что оценка a x2
(
— смещенная, несмещенной будет оценка
)
n 2 ax . n−2
Пример П.2.4. Вычислим коэффициенты k0 и k1 для безынерционного нелинейного звена с нели-
нейностью X = Y 3, если на вход этого звена подан случайный нормально распределенный сигнал с математическим ожиданием m y и дисперсией a 2y . 3
В этом случае X ( t ) = ⎡⎣Y ( t ) ⎤⎦ . Плотность вероятности f x ( X ) для X ( t ) имеет вид
(
f x ( X ) = f y ϕ−1 ( X ) где ϕ−1 ( X ) = 3 X ;
) d ϕdX( X ) , −1
d ϕ−1 ( X ) 1 . Отсюда = dX 3X 2 3 fx ( X ) =
(
⎧ X23 −m y 1 ⎪ exp ⎨− 3 2 π X 2 3σ y 2σ2y ⎪ ⎩
)
2
⎫ ⎪ ⎬. ⎪ ⎭
Вычислим необходимые для расчета значения mx , σ 2x и M ⎡⎣ X ( t ) , Y 0 ( t ) ⎤⎦ :
(
)
⎧ Y −m 2⎫ y ⎪ ⎪ 2 3 ∫ Y exp ⎨⎪− 2σ2y ⎬⎪ dY = 3σ y my + my ; −∞ ⎩ ⎭ 2⎫ ⎧ ∞ 2 1 ⎪ Y − my ⎪ 3 6 4 2 2 4 σ 2x = ∫ ⎡⎣Y − mx ⎤⎦ exp ⎨⎪− 2σ2y ⎬⎪ dY = 15σ y + 36σ y my + 9σ y my ; 2πσ y −∞ ⎩ ⎭ ⎧ Y −m 2⎫ ∞ 1 y ⎪ ⎪ 3 4 2 2 M ⎡⎣ X ( t ) , Y 0 ( t ) ⎤⎦ = ∫ Y Y − my exp ⎨⎪− 2σ2y ⎬⎪ dY = 3σ y + 3σ y my . 2πσ y −∞ ⎩ ⎭ 1 mx = 2πσ y
∞
3
(
(
)
(
)
)
Для рассматриваемого примера традиционные методы дают 2 2 ⎡ k (1) ⎤ = σ x = 15σ4 + 36σ 2 m 2 + 3m 4 ; y y y y 2 ⎣⎢ 1 ⎦⎥ σy
M ⎡ X ( t ) , Y 0 ( t ) ⎤⎦ 2 k1( ) = ⎣ = 3 σ2y + m 2y . σ2y
(
)
Возьмем для нашего случая a x2 = l σ2x и ρ = 0. Тогда k1 =
(1 − l ) σ2x σ y ± σ x (1 − l )2 σ2x σ2y + 4lM 2 ⎡⎣ X ( t ) , Y 0 ( t ) ⎤⎦ . 2σ y M ⎡⎣ X ( t ) , Y 0 ( t ) ⎤⎦
2 Введем условия, при которых оценка k1 может перейти в k1( ).
750
Методы современной теории автоматического управления
При (1 − l ) σ 2x σ2y
4lM 2 ⎡⎣ X ( t ) , Y 0 ( t ) ⎤⎦
2
k%1 ≈
(1 − l ) σ2x . M ⎡⎣ X ( t ) , Y 0 ( t ) ⎤⎦
Отсюда можно найти такое l , когда
(1 − l ) (15σ y + 36σ y my + 3m y ) (1 − l ) σ2x = 0 ⎡ ⎤ M ⎣ X (t ) , Y ( t )⎦ 3 ( σ2y + m 2y ) 4
2
2
4
(
)
2
будет иметь приближенно в числителе квадрат знаменателя — ⎡3 σ2y + m 2y ⎤ , т.е. ⎣ ⎦ k%1 =
(1 − l ) σ2x 2 ≈ 3 ( σ 2y + m 2y ) ≡ k1( ). M ⎡⎣ X ( t ) , Y 0 ( t ) ⎤⎦
Для нашего случая l ≈ 0, 4.
На основании теории конфлюэнтного анализа получен новый оптимальный коэффициент усиления по случайной составляющей k1 в методе статистической линеаризации, из которого как некоторые частные случаи получаются ранее известные коэф2 1 фициенты k1( ) и k1( ). Для практических приложений необходимо располагать зави-
(
)
симостями k1 = k1 m y , σ y , которые для каждой конкретной нелинейности выводятся из соотношений (П.2.38) и (П.2.39). П.2.9. ОЦЕНКИ ПАРАМЕТРОВ В АКТИВНОМ ЭКСПЕРИМЕНТЕ
Пусть проводится эксперимент, ставящий своей целью определение свободных параметров модели (функции) η = f ( ξ, θ ) , описывающей поведение системы. Причем мы можем заставить X принимать любые заданные значения и затем измерить соответствующие значения Y, которые можно рассматривать как результат влияния случайной ошибки ε на истинное значение η : Y = η + ε. (П.2.40) Однако и на значения X тоже может накладываться ошибка δ : ξ = X + δ, (П.2.41) где X называется контролируемой переменной, т.е. значение фиксировано заранее, тогда как неизвестное истинное значение ξ случайно колеблется. Пусть ошибки δ имеют нулевое среднее. Тогда среднее значение ξi будет равно xi , коэффициент корреляции между ξi и δi равен (+1), и Y = f ( X + δ; θ ) + ε.
(П.2.42)
Поскольку X теперь уже не является случайной величиной, то ни ε, ни δ не коррелированы с X. Таким образом, выражение (П.2.42) представляет собой обычное уравнение регрессии, к которому без всяких изменений можно применять методы регрессионного анализа, например метод наименьших квадратов. Закон распределения случайной величины f ( X + δ; θ ) в выражении (П.2.42) может быть определен по формулам переноса ошибок: функция плотности вероятностей строго возрастающей или строго убывающей случайной величины v = f ( u ) с аргументом u , функция плотности вероятности которого есть P ( u ) , имеет вид g ( v ) = P ⎣⎡ψ ( v ) ⎦⎤ ψ ′ ( v ) ,
Приложение 2. Параметрические модели и конфлюэнтный анализ
751
где ψ ( v ) — функция, определяющая значения аргумента u по значениям функции v; u = f −1 ( v ) ≡ ψ ( v ) . В общем случае плотность распределения случайной величины v
находится из выражения P ( u ) du = g ( v ) dv. Затем в соответствии с полученным законом распределения случайной величины выражения (П.2.42) методом максимума правдоподобия может быть составлен функционал, координаты точки минимума которого будут определять оценки искомых параметров θ. Если случайная величина в выражении (П.2.42) подчиняется нормальному закону распределения, то для оценки параметров θ получим функционал метода наименьших квадратов, но дисперсия случайной величины обязательно будет зависеть от значений θ, т.е. соответствующие уравнения для определения оценок θ будут нелинейными. Если значения, в которых контролируются X, сами являются случайными величинами (т.е. определяются с помощью некоторого процесса случайного выбора), полученные выше выводы остаются в силе, когда δ и ε не коррелированы с X. Предположение относительно ε обычно выполнено, но относительно δ дело обстоит сложнее. Например, требование некоррелированности δ и X в данном случае означает, что с большими значениями X не должна быть связана тенденция к большим или меньшим ошибкам в определении истинного X по сравнению с малыми X. Выполнение этого условия может быть проверено только эмпирическим путем. Заметим, что при неизвестной дисперсии σ 2 ( δ ) или ее оценке в активной схеме эксперимента не идентифицируемы даже свободные параметры кубической параболы. Рассмотрим задачу оценки свободных параметров в уравнении прямой линии η = θ1 + θ2ξ. При выполнении условий (П.2.40) и (П.2.41) получим yi = θ1 + θ2 xi + θ2δi + εi . Пусть независимые случайные величины δ и ε подчиняются нормальному закону распределения с нулевыми математическими ожиданиями и известными дисперсиями D ( xi ) и D ( yi ) . Функции плотности вероятностей случайных величин ( θ2δ + ε ) будут иметь следующие числовые характеристики: M ( θ2δi + εi ) = 0; D ( θ2δi + εi ) = θ22 D ( xi ) + D ( yi ) . Функционал метода наименьших квадратов, точка минимума которого определяет оценки параметров θ, имеет вид
( yi − θ1 − θ2 xi )2 . 2 i =1 D ( yi ) + θ 2 D ( xi ) n
F =∑
(П.2.43)
Рассуждая аналогично, получим функционал метода наименьших квадратов для оценки параметров θ линейных функций: m
m
m
j=1
j =1
j =1
η = θ0 + ∑ θ j ξ j ; yi = θ0 + ∑ θ j x ji + ∑ θ j δ ji + εi ; m ⎡m ⎤ ⎡m ⎤ M ⎢ ∑ θ j δ ji + εi ⎥ = 0; D ⎢ ∑ θ j δ ji + εi ⎥ = D ( yi ) + ∑ θ2j D x ji ; ⎢⎣ j =1 j =1 ⎦⎥ ⎣⎢ j =1 ⎦⎥ 2 m ⎛ ⎞ ⎜ yi − θ0 − ∑ θ j x ji ⎟ ⎟ n ⎜ j =1 ⎠ . F = ∑⎝ m i =1 D ( yi ) + ∑ θ2j D ( x ji )
( )
j =1
(П.2.44)
752
Методы современной теории автоматического управления
Функционалы (П.2.43) и (П.2.44) те же, что и в пассивной схеме эксперимента. Рассмотрим функцию m
η = θ0 + ∑ θ j ϕ j ( ξ ), j=1
которая порождает структурное соотношение m
yi = θ0 + ∑ θ j ϕ j ( xi + δi ) + εi .
(П.2.45)
j =1
В этом случае не всегда можно выделить случайную компоненту, присутствующую в ϕ j ( xi + δi ) . Метод максимума правдоподобия (ММП) позволяет получить функционал, точка минимума которого дает оценки искомых параметров θ. Вид функционала ММП и способ получения оценок θ определяется конкретным видом функций ϕ ( X ) . Чтобы упростить задачу получения оценок функции (П.2.45), функции ϕ j ( ξ ) раскладываются в ряд в окрестности точки xi : 3 M ( yi ) = θT ψ ( xi ) + O ⎡θ2 ( xi ) ⎤ ; ⎣ ⎦
∂ ϕ j ( x, θ ) 1 ; ψ j ( xi ) = ϕ j ( xi ) + σ2 ( xi ) tr 2 ∂X∂XT tr A — след матрицы A, равный сумме ее диагональных элементов; дисперсия зна2
чений ϕ j ( ξ ) принималась равной 2 M ⎡( yi − M ( yi ) ) ⎤ = λ −1 ( xi , θ ) + O ⎡⎣σ3 ( xi ) ⎤⎦ ; ⎢⎣ ⎥⎦ ∂ϕ ∂ϕ θ. λ −1 ( xi , θ ) = σ2 ( yi ) + σ 2 ( xi ) θT ∂XT ∂X Задача свелась к классической регрессионной задаче: n ∂ 2ϕ ( X ) 1 j . ψ j ( X ) = ϕ j ( X ) + σ2 ( X ) ∑ 2 2 x ∂ i =1 i Оценки θ€ находятся по методу наименьших квадратов методом итераций при условии yi = ⎣⎡θT ψ ( X ) ⎦⎤ + μi ; M ( μi ) = 0; M μi2 = λ −1 ( xi , θ ) . i При нелинейной параметризации применяется также метод наименьших квадратов с заменой ∂ 2η ( X, θ ) 1 ; η ( X + δ, θ ) ≅ η ( X, θ ) + σ 2 ( X ) tr 2 ∂X∂XT ∂η ( X, θ ) ∂η ( X, θ ) D ( η ( xi , θ ) ) = σ2 ( yi ) + σ 2 ( xi ) . ∂X ∂XT Оценки θ находятся методом итераций. Для линейных функций получим функционал метода наименьших квадратов (П.2.44) — тот же, что и в пассивной схеме эксперимента. Для нелинейных функций отличие оценок, полученных при обработке одних и тех же данных различными методами, будет заметным (очевидно, что экспериментальные данные должны обрабатываться одним методом, тем, который следует из условий проведения эксперимента).
( )
Тема 1. Дифференциально-геометрические методы
753
ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ ТЕМА 1. ДИФФЕРЕНЦИАЛЬНО-ГЕОМЕТРИЧЕСКИЕ МЕТОДЫ 1. Рассмотрите движение равностороннего треугольника, который может вращаться в своей плоскости вокруг оси, проходящей через его центр. Пусть элементами группы движений будет вращение этого треугольника, а в качестве групповой операции используется их суперпозиция, или «последовательное» выполнение. Пусть g — элемент этой группы движений G, который переводит треугольник из произвольного выбранного начального положения в такое положение, когда он совмещается с исходным (меняются только номера вершин). Найдите все элементы этой группы, в том числе обратный и единичный элементы. 2. Пусть P — множество положительных действительных чисел и L — множество их логарифмов. Доказать, что каждое из множеств является группой: P — группа, где групповой операцией является обычное умножение, L — группа с групповой операцией — сложение. Найдите их единичные и обратные элементы. Докажите, что отображение f : P → L, определенное формулой f ( x ) = log x, является изоморфизмом P а)
L, т.е.
f ( xy ) = f ( x ) f ( y ) ∀ x, y ∈ P;
б) отображение f — взаимнооднозначно. 3. Пусть G — группа и r — некоторый ее фиксированный элемент. Если x — любой элемент группы G, то и r −1 xr — элемент этой группы. Определим отображение f : G → G формулой f : x → r −1 xr , или f ( x ) = r −1 xr. Докажите, что f — изоморфизм группы на себя. Указание : воспользуйтесь аксиомами группы. 4. Рассмотрите группу кватернионов (открыта Гамильтоном). Кватернион q есть комбинация четырех единиц 1, i, j , k , т.е. комбинация вида q = α + iβ + j γ + k δ, где α, β, γ, δ — действительные числа. Эти гиперкомплексные числа 1, i, j , k представ-
ляют вращение в трехмерном пространстве. По определению i2 = j2 = k 2 = ijk = −1. Найдите все элементы группы, в том числе единичный и обратный элемент. Является ли эта группа коммутативной? 5. Для проективной группы на плоскости αx + βy + γ x′ = , εx + ξy + θ δx + λy + μ y′ = εx + ξy + θ при ⎛α β γ ⎞ ⎜ ⎟ det ⎜ δ λ μ ⎟ ≠ 0 ⎜ ε ξ θ⎟ ⎝ ⎠
754
Задания для самостоятельной работы
найти инфинитезимальные операторы (напомним, что ( x ′, y ′ ) – это точка, получаемая преобразованиями проективной группы точки ( x, y )). 6. Пользуясь рядами Ли, восстановите группу вращений x1′ = x1 cos t + x2 sin t , x2′ = − x1 sin t + x2 cos t по ее инфинитезимальному оператору ∂ ∂ X = x2 . − x1 ∂x1 ∂x2 7. Пусть X 1 и X 2 — инфинитезимальные операторы двух однопараметрических групп диффеоморфизмов. Доказать, что равенство etX1 etX 2 = e ( тогда и только тогда, когда [ X 1 , X 2 ] = 0.
t X1 + X 2 )
имеет место
8. Рассмотрите систему управления ⎧⎪ x1′ = x23 , u ≤ 1. ⎨ ⎪⎩ x2′ = − x1 + u , Покажите, что область управляемости Ω = R 2.
(
Указание : постройте алгебру Ли для векторных полей X ( x ) = x23 , − x1
)
T
и
Y ( x ) = ( 0,1) в окрестности точки p = ( 0, 0 ) . T
T
9. Пусть u ∈ U = R, x ∈ M = R, y ∈ R 2 , x ( 0 ) = 0 и x′ = u, y1 = cos x, y2 = sin x. Покажите, что данная система управления слабо локально наблюдаема, но не наблюдаема. 10. Дайте определение дифференцируемого многообразия. Объясните, как вводятся координаты на произвольном топологическом пространстве. Приведите примеры гладких многообразий. 11. Что такое бинарная операция на множестве? Дайте определение понятия «группа», назовите аксиомы группы. Приведите примеры групп. 12. Что такое непрерывная группа преобразований? Что такое действие группы на множестве? 13. Дайте определение понятию «группа Ли». Как связаны группы Ли с решением дифференциальных уравнений? 14. Дайте определение инфинитезимального оператора группы. Покажите связь оператора с его группой непрерывных преобразований. 15. Пусть задана группа винтов в R 3 : x1′ = x1 + τ, x2′ = x2 cos τ + x3 sin τ, x3′ = − x2 sin τ + x3 cos τ. Найдите ее инфинитезимальный оператор, инвариант. 16. Дайте определение однопараметрической группы преобразований. Покажите связь инфинитезимального оператора группы с системой обыкновенных дифференциальных уравнений.
Тема 1. Дифференциально-геометрические методы
755
17. Даны: 1. Группа сдвигов в направлении вектора ( α, β, γ ) : x1′ = x1 + αt , x2′ = x2 + βt , x3′ = x3 + γt. 2. Группа вращений вокруг оси x3 : x1′ = x1 cos t − x2 sin t , x2′ = x1 sin t + x2 cos t , x3′ = x3 . Найдите: а) инфинитезимальные операторы обеих групп; б) коммутатор (скобку Ли) этих операторов; в) общий инвариант обеих групп. 18. Дайте определение линейной связности (несвязности) вектор-функций. В чем отличие линейной связности (несвязности) от линейной зависимости (независимости) вектор-функций? 19. Что такое полная система инфинитезимальных операторов? Как производится пополнение неполной системы? 20. Заданы три инфинитезимальных оператора в R × R 3 : ∂ ∂ ∂ X 1 = + x2 x32 ; + x2 ∂t ∂x1 ∂x3 ∂ ∂ ∂ X 2 = + x1 x2 ; + x1 ∂t ∂x1 ∂x2 ∂ ∂ ∂ X 3 = − x1 x2 . − x1 ∂t ∂x1 ∂x2 Предполагая, что рассматривается область, где x1 x2 ≠ 0, определите связность операторов X 1 ,K , X 3 , полноту этой системы и найдите инварианты этой системы операторов. 21. Как производится восстановление группы по ее инфинитезимальному оператору? Что такое ряд Ли? 22. Назовите аксиомы алгебры Ли. Приведите примеры алгебр Ли. Как вы понимаете тождество Якоби? 23. Выведите уравнение Лиувилля. Что данное уравнение характеризует? 24. Что такое канонические координаты группы? Как они связаны с инвариантами и инвариантным семейством группы? 25. Дайте определение группы симметрий. Покажите связь группы симметрий с решением дифференциальных уравнений. 26. Выведите формулу Хаусдорфа. Что характеризует данная формула? 27. Покажите, при каких условиях справедлив принцип суперпозиции для нелинейных систем. Объясните, как вы понимаете коммутативность фазовых потоков? 28. Назовите условия, которые определяют отношение эквивалентности на множестве элементов. 29. Дайте определение дифференциального распределения на многообразии M n. Как связана инволютивность распределения с интегрируемостью? 30. Сформулируйте теорему Фробениуса. Дайте определение алгебраического критерия слабой локальной управляемости для нелинейных систем управления в терминах алгебры Ли.
756
Задания для самостоятельной работы
31. Сформулируйте достаточное условие управляемости для линейных нестационарных систем в терминах алгебры Ли. 32. Дайте определение производной Ли векторного поля Y ( x ) , гладкой функции Z ( x ) , дифференциальной 1-формы ω ( x ) вдоль векторного поля X ( x ) .
33. Докажите теорему о слабой локальной наблюдаемости для нелинейных аффинных систем. 34. Математическая модель, описывающая процессы в синхронном генераторе, имеет вид x1′ = x2 ; 1 x2′ = B1 − A1 x2 − A2 sin x1 ⋅ x3 − B2 sin ( 2 x1 ) ; 2 x3′ = −C1 x3 + C2 cos x1 + u ,
где B1 , A1 , A2 , B2 , C1 , C2 — некоторые константы. Найдите линейный эквивалент для данной нелинейной модели и синтезируйте регулятор в окрестности некоторой равновесной точки xl = ( x10l , 0, x3l ) , x10l > 0, x3l > 0. T
Тема 2. Адаптивные системы
757
ТЕМА 2. АДАПТИВНЫЕ СИСТЕМЫ 1. Дайте определение адаптивной системы управления. В чем отличие в постановке задач управления при адаптивном и неадаптивном подходах? 2. Чем отличаются самонастраивающиеся системы от самоорганизующихся? 3. Каковы особенности в построении поисковых и беспоисковых самонастраивающихся систем? 4. Объясните различие между прямым и непрямым адаптивным подходом, явной и неявной эталонной моделью. 5. Дайте определение квазистационарного процесса. Чем объясняется необходимость выполнения гипотезы квазистационарности неизвестных параметров объекта? Каким приемом задача может быть сведена к квазистационарной? 6. Что такое обобщенный настраиваемый объект? Какие подсистемы он в себя включает? 7. Перечислите основные методы синтеза алгоритмов основного контура управления и адаптации. 8. Сформулируйте основную идею и условия применения метода синхронного детектирования. 9. Методом синхронного детектирования синтезируйте алгоритм идентификации 1 ⎞ ⎛ 0 ⎛0⎞ ⎛0⎞ & =⎜ параметров системы X X + ⎜ ⎟ u + ⎜ ⎟ f , где X ∈ R2 , u ∈ R1, f ∈ R1 — ⎜ α α ⎟⎟ ⎝1⎠ ⎝1⎠ 1⎠ ⎝ 0 состояние, управление, возмущение (u = sin ( πt 3) , f = 0). Считайте, что параметры
α j , j = 1, 2 принадлежат интервалам −3 ≤ α1 ≤ −1, −5 ≤ α 2 ≤ −1, а эталонная мо& = ⎛⎜ 0 1 ⎞⎟ X + ⎛ 0 ⎞ u , где θ , θ — настраиваемые параметры. дель имеет вид X 0 1 э э ⎜ ⎟ ⎝1⎠ ⎝ θ0 θ1 ⎠ Поисковые сигналы выберите двумя способами: в классе периодических сигналов с разными частотами, функций Уолша. Проведите математическое моделирование, оцените качество идентификации параметров при воздействии на систему неизмеряемого возмущения, заданного в виде стационарного случайного процесса с нулевым математическим ожиданием
(
)
и спектральной плотностью S f ( ω) = 1 ω2 + 4 . 10. Для объекта, рассмотренного в примере 4.2 главы 4, считая алгоритм основного контура заданным в виде u ( t ) = K X ( t ) X ( t ) + k y ( t ) Y ( t ) , где K X ( t ) = ( k1 (t ), k2 (t ) ) ,
k y ( t ) — настраиваемые параметры, проведите синтез алгоритма адаптации методом функций Ляпунова. В качестве функции Ляпунова возьмите квадратичную сепарабельную форму (4.32), считая параметр β известным с точностью до знака ( sign ( β ) > 0 ) .
Проведите настройку контура адаптации, получите результаты моделирования для двух-трех вариантов параметров объекта, проверьте наличие идентифицирующих свойств при задающем воздействии меандрового типа с периодом 6 с. Сравните полученный при синтезе алгоритм адаптивного управления с алгоритмом параметрической адаптации, приведенном в примере 4.3 главы 4. 11. Перечислите этапы синтеза алгоритмов адаптивного управления методом функции Ляпунова. Какую роль при синтезе играет условие согласованности объекта
758
Задания для самостоятельной работы
управления и эталонной модели? При каких условиях алгоритм адаптации приобретает идентифицирующие свойства? 12. Дайте определение алгоритма скоростного градиента. Укажите геометрическую интерпретацию условия псевдоградиентности и примеры функций, для которых это условие выполняется. 13. Перечислите условия применимости алгоритмов скоростного градиента в конечно-дифференциальной форме для локального функционала качества, укажите наиболее существенные условия и возможность ослабления этих условий. 14. Перечислите условия применимости алгоритмов скоростного градиента в конечно-дифференциальной форме для интегрального функционала качества, укажите наиболее существенные условия и возможность ослабления этих условий. 15. Перечислите условия применимости алгоритмов скоростного градиента в конечной форме для локального и интегрального функционалов качества, дайте геометрическую интерпретацию усиленному условию псевдоградиентности, укажите функции, удовлетворяющие этому условию. 16. Укажите подходы, обеспечивающие робастность алгоритмов скоростного градиента в дифференциальной и конечно-дифференциальной формах. За счет чего достигается робастность алгоритмов в конечной форме? 17. Перечислите этапы синтеза алгоритмов адаптивного управления методом скоростного градиента. 18. Дайте определение степени сглаживания задачи адаптивного управления. При какой степени сглаживания задачи возможно непосредственное применение схемы скоростного градиента? Какими приемами можно повысить, понизить степень сглаживания задачи? 19. Проведите сравнительный анализ систем с параметрической, сигнальной и сигнально-параметрической адаптацией. 20. Используя целевую функцию q = ET HE и теорему 4.2, докажите работоспособность ранее синтезированного методом Ляпунова (см. п. 4.6.1) алгоритма адаптивного управления (4.26), (4.40). 21. В условиях задачи примера 4.2, считая выбранным алгоритм основного контура в виде u ( t ) = k y ( t ) ⎡⎣ k1 ( t ) x1 ( t ) + k2 ( t ) x2 ( t ) + y ( t ) ⎤⎦ , синтезируйте АСГ в дифференциальной и конечно-дифференциальной форме. Убедитесь, что АСГ в дифференциальной форме совпадает с алгоритмом адаптации, приведенным в примере 4.2 главы 4. Проведите математическое моделирование системы с АСГ в конечно-дифференциальной форме. Сравните результаты моделирования АСГ в дифференциальной форме (рис. 4.8) и АСГ в конечно-дифференциальной форме. Сохранились ли идентифицирующие свойства у АСГ в конечно-дифференциальной форме? 22. Для объекта управления, заданного апериодическим звеном третьего порядка с передаточной функцией k , W (s) = (T1 s + 1)(T2 s + 1)(T3 s + 1) где k , Ti , i = 1,3 — постоянные коэффициенты, проведите синтез алгоритмов параметрической, сигнальной и сигнально-параметрической адаптации методом скоростного градиента. В качестве эталонной модели выберите передаточную функцию вида Wэ ( s ) = kэ
((T s + 1) ) , где k 3
э
э
= 1; Tэ = 0,5 с, а в качестве основного
контура адаптивного управления выберите линейную обратную связь, считая доступными измерению выход объекта, его первую и вторую производные. Считать, что объект управления может функционировать в двух режимах с соответствующим набором параметров (см. табл. Т.2.1).
Тема 2. Адаптивные системы
759 Таблица Т.2.1
Режим
k
T1
T2
T3
1 2
1 1
1 2
0,1 0,4
0,01 0,04
Проведите моделирование, выбрав в качестве задающего воздействия сигнал y = sign ( sin πt 1,5 ) . Сравните качество синтезированных алгоритмов адаптивного управления между собой и неадаптивной линейной обратной связью, рассчитанной на наихудший режим работы объекта таким образом, чтобы обеспечить степень устойчивости замкнутой системы не менее 2 c −1. 23. Методом скоростного градиента синтезируйте алгоритмы параметрической, сигнальной, сигнально-параметрической адаптации по редуцированной (T3 = 0) модели объекта (см. задание 22), соответственно понизив порядок эталонной модели до n = 2. Проведите моделирование, сравните качество синтезированных алгоритмов управления. Проверьте работоспособность алгоритмов адаптивного управления на исходной модели объекта. 24. Укажите отличия между системами адаптивного управления с явной и неявной эталонной моделью. 25. Дайте определение строгой минимально-фазовой системы. 26. Укажите признаки строгой минимально-фазовости систем со скалярным входом, выходом. & ∈ L ( 0, ∞ ) для систем с неявной эталонной моделью? 27. С чем связано требование Y 2 К чему приводит нарушение этого требования? Обладают ли системы с неявной эталонной моделью идентифицирующими свойствами? 28. Для объекта управления, заданного дифференциальным уравнением вида d 2 x (t ) dx ( t ) + a1 + a0 x ( t ) = by ( t ) + ϕ ( t ) , 2 dt dt где ϕ ( t ) — возмущение, a0 = 1, −2 ≤ a1 ≤ 2, 0 < b < 2 — неизвестные параметры ОУ, синтезируйте алгоритм адаптивного управления, обеспечивающий решение задачи слежения с заданной динамикой при ϕ ≡ 0. Считать измеряемыми выход ОУ, его производную и задающее воздействие. Задачу решить в классе параметрических АСГ в дифференциальной форме при явно и неявно заданной эталонной модели. Явную эталонную модель считать заданной в форме дифференциального уравнения вида d 2 xэ ( t ) dx ( t ) + aэ1 + aэ0 xэ ( t ) = bэ r ( t ) , 2 dt dt где r ( t ) = sign ( sin 2t ) — задающее воздействие, aэ1 , aэ0 , bэ — параметры. Параметры эталонной модели выберите из условий: время переходного процесса не более 3 с, перерегулирование не более 5%, статический коэффициент усиления равен 1. Структуру основного контура выберите в классе линейной обратной связи. Проведите настройку контура адаптации, математическое моделирование систем адаптивного управления с явной и неявной эталонной моделью для трех вариантов параметров ОУ a1 = −2; 0; 2 и b = 1. Сравните результаты моделирования систем с явной и неявной эталонной моделью. Проведите огрубление алгоритмов адаптации и проверьте робастность синтезированных систем по отношению к возмущению ϕ ( t ) . Считать ϕ ( t ) — центрированным цветным шумом с заданной
(
)
спектральной плотностью Sϕ ( ω) = 4 ω2 + 9 .
760
Задания для самостоятельной работы
З ам еч а ние : система с АСГ и неявно заданной эталонной моделью при дискретизации может потерять устойчивость, поэтому целесообразно «огрубить» АСГ введением отрицательной обратной связи. 29. Дайте определение систем с переменной структурой. Почему системы с переменной структурой относятся к классу систем с бесконечным коэффициентом усиления? 30. На примере линейных объектов укажите этапы синтеза скользящих режимов. Какая цель управления характерна для каждого этапа? 31. Пусть объект управления задан линейной моделью в форме пространства состоя& = AX + Bu + B f , где X ∈ R 3 ; u ∈ R1 , f ∈ R1 — неизмерямое возмущение, ния X f 1 0 ⎞ ⎛ 0 ⎛ 0⎞ ⎛ 0⎞ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ A = ⎜ a12 a22 a23 ⎟ ; B = ⎜ 0 ⎟ ; B f = ⎜ 0 ⎟ . ⎜a ⎟ ⎜b⎟ ⎜1⎟ ⎝ 31 0 a33 ⎠ ⎝ ⎠ ⎝ ⎠ Параметры объекта в зависимости от режима функционирования приведены в табл. Т.2.2. Таблица Т.2.2 Режим 1 2 3
a12 1 2 3
a22 0 −2 −1
a23 1,0 1,3 1,5
a31 −2 −1 3
a33 2 1 2
b 2,0 2,5 3,0
На основе скользящих режимов при f ≡ 0 обеспечьте решение задачи слежения за задающим воздействием y ( t ) = 2 cos 2t с динамикой по вектору & = A X + B y, где хуже, чем у эталонной модели X э э э э
( x1 x2 )T
не
⎛0 1⎞ ⎛0⎞ Т X э = ( x1э x2э ) , A э = ⎜ , Bэ = ⎜ ⎟ ⎟ ⎝ −1 −2 ⎠ ⎝1⎠ и ограниченность фазовой переменной x3 . В качестве поверхности скольжения выберите гиперплоскость, заданную уравнением Σ = ΘT X1 + x3 ,
где X1 = ( x1 x2 ) , Θ ∈ R 2 — постоянные параметры. Проведите математическое моделирование синтезированной системы для всех режимов функционирования при постоянном и переменном коэффициенте усиления релейного элемента. Исследуйте влияние шага дискретизации алгоритма управления на качество работы замкнутой системы. Подайте на вход объекта возмущение f ( t ) , представляющее центрированный случайный процесс, распределенный по нормальному закону с дисперсией D f = 2. За счет повышения коэффициента усиления релейного элеменT
та добейтесь работоспособности системы в условиях аддитивного возмущения. 32. С какой целью вводится настройка параметров поверхности скольжения? 33. Укажите этапы синтеза систем с настраиваемой поверхностью скольжения. Каковы цели каждого этапа и за счет чего они достигаются? 34. Чем отличаются базовый и модифицированный алгоритм адаптивного управления с настраиваемой поверхностью скольжения? 35. Решите задачу п. 31 на основе скользящих режимов с настраиваемой поверхностью разрыва. Сравните результаты моделирования системы с базовым и модифицированным алгоритмом адаптации параметров поверхности разрыва между собой и результатами, полученными в п. 31.
Предметный указатель
761
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ А Адаптивная система управления ....................379 – самонастраивающаяся ..................................379 – самоорганизующаяся ....................................379 Адаптивный наблюдатель ...............................448 Алгебра Ли ..........................................................24 Алгоритм – адаптивного управления...............................381 – генетический ..................................................620 − Д. Мазера........................................................313 − скоростного градиента..................................398 Атлас многообразия ...........................................21 Аттрактор Лоренца ..........................................325
Б База данных.......................................................485 База знаний........................................................522 Бинарная операция .............................................24 Бифуркация .......................................................279
В Векторное поле ...................................................31 Винеровский процесс.......................................365
Г Гладкое многообразие .......................................22 Гомоморфизм......................................................25 Графовое представление .................................551 Группа Ли............................................................24
Д Дефаззификация ...............................................520 Деформация функции ......................................314 Диаграмма Ламерея..........................................334 Дифференциальная эволюция.........................721
З Задача − максиминная ..................................................658 − минимаксная ..................................................657 − наблюдения ....................................................716 − неформализуемая ..........................................591 − обращения ......................................................663 − слежения.........................................................420 − стабилизации .................................................416 − трудноформализуемая ..................................591 − формализуемая ..............................................591 Знание − концептуальное .............................................474 − предметное .....................................................475 – процедурное ...................................................475
И Инвариант группы..............................................44 Инволютивность.................................................84 Инфинитезимальный оператор .........................29 Искусственный интеллект...............................476
К Калибр множества ............................................653 Канонические координаты ................................48 Катастрофы многообразие ..............................304 Квазистационарность.......................................381 Ковер Серпинского ..........................................349 Коммутатор .........................................................29 Конфлюэнтный анализ ....................................729 Кривая Паккарда–Такенса...............................353 Критерий Рюэля–Такенса................................338 Критическая точка............................................286 Круги Гершгорина............................................164
Л Линия уровня ......................................................40 Логистическое уравнение................................331
М Мера близости ..................................................642 Метод Монте-Карло.........................................558 Метрика Хаусдорфа .........................................359 Механизм внимания ............................................ 496 Множество − бифуркационное ............................................304 − Жюлиа ............................................................371 − Мандельброта ................................................375 – нечеткое .........................................................505 − особое .............................................................304 − уровня .............................................................650
Н Нейрокомпьютер ..............................................591 Нейрон ...............................................................589 – промежуточный .............................................590 – рецепторный ..................................................589 – формальный ...................................................590 – эффекторный..................................................593 Нейронная сеть .................................................593 – многослойная .................................................616 Нейроподобный элемент .................................491 Нейрочип ...........................................................643 Нечеткий вывод ................................................516
О Область достижимости ....................................710 Обобщенный настраиваемый объект .............382
762
Методы современной теории автоматического управления
Ограничения – квадратичные .................................................200 – фазовые...........................................................209 Оператор – кроссинговера ................................................626 – мутации...........................................................626 – отбора..............................................................627 – рекомбинации ................................................631 – селекции .........................................................627 Орбита точки.....................................................308 Отношение эквивалентности ............................73 Оценка экспертная ...........................................468
П Полиэдральная норма ......................................652 Полиэдральное множество..............................650 Полиэдральное программирование................648 Полиэдральные критерии качества ................664 Популяция .........................................................623 Преобразования Хатчинсона...........................361 Принцип седловой точки.................................707 Принятие решения............................................478 Пыль Кантора ...................................................350
Р Размерность − многообразия ...................................................22 − фрактальная ...................................................347 − Хаусдорфа−Безиковича ................................346 Робастность .......................................................402 Росток функции ................................................301 − устойчивый ....................................................302 − эквивалентный...............................................302 Ряд Ли ..................................................................43 Ряд Тейлора.......................................................280
С Семантическая сеть..........................................524 Сильвестра критерий .......................................220 Система − адаптивная......................................................382 − инволютивная ..................................................53 − инволюционная ...............................................53 − интеллектуальная ..........................................473 − локально наблюдаемая ...................................73 − локально управляемая ....................................62 – многомерная...................................................151 – мультитранспьютерная .................................550 – робастная ........................................................241 – с нечеткой логикой........................................502 – с переменной структурой .............................427 − слабо управляемая...........................................63 − экспертная ......................................................573 Скобка Ли............................................................29 Снежинка Кох ...................................................348 Спектральная плотность..................................369 Стабилизируемости критерий.........................178 Статистические коэффициенты ......................747 Степень робастности........................................262 Стратегия – максиминная ..................................................710 – минимаксная ..................................................710
Т Теорема − Гершгорина ....................................................164 − Ли ......................................................................50 − Сарда...............................................................305 − Фробениуса ......................................................66 Теория катастроф .............................................279 Тертл-графика...................................................356 Топология Уитни..............................................307 Точка Мирберга–Фейгенбаума .......................378 Точка прицеливания.........................................679 Трансверсальность ...........................................302
У Управление − адаптивное .....................................................379 − робастное..........................................................93 − упреждающее.................................................676 Условие – рефлективности ...............................................61 – симметричности ..............................................61 – транзитивности ................................................61
Ф Фаззификация ...................................................503 Фрактал..............................................................344 − «кристалл» .....................................................362 − «лист» .............................................................362 Фрейм.................................................................525 Функция − активации .......................................................594 − близости ...........................................................94 − Больцмана ......................................................612 − выпуклая.........................................................650 − катастрофы.....................................................293 − Ляпунова ........................................................393 – морсовская .....................................................286 – плотности вероятности .................................734 − полиэдральная ...............................................651 – принадлежности ............................................503 − фитнесса .........................................................621
Х Хаос....................................................................324 Хаусдорфа формула ...........................................50 Хопфилда сеть ..................................................610
Ц Цель управления...............................................382
Ч Число Фейгенбаума..........................................337 Чистые стратегии .............................................706
Э Эквивалентные функции .................................284 Эффективность отображения..........................546
Список литературы
763
СПИСОК ЛИТЕРАТУРЫ 1. Александров А.Г. Оптимальные и адаптивные системы: Учеб. пособие для вузов по спец. «Автоматика и управление в техн. системах». — М.: Высшая школа, 1989. — 264 с. 2. Александров В.В., Болтянский В.Г., Лемак C.C. и др. Оптимизация динамики управляемых систем / Под ред. В.В. Александрова. — М.: Изд-во МГУ, 2000. 3. Александров В.В., Формальский А.М. Задача Булгакова о максимальном отклонении, некоторые ее обобщения и приложения / Труды конф. по теории колебаний и управлению: Сб. трудов конф., посвященной 100-летию со дня рождения чл.-корр. АН СССР В.Б. Булгакова. — М.: Механ.-матем. фак-т МГУ, 2000. 4. Александровский Н.М., Егоров С.В., Кузин Р.Е. Адаптивные системы автоматического управления сложными технологическими процессами. — М.: Энергия, 1973. 5. Алиев Т.А., Ализаде Т.А., Нусратов О.К. Робастная технология формирования статистических баз знаний промышленных систем. Интеллектуальные системы: Труды 4-го Международного симпозиума (Москва, 28 июня–1 июля 2000 г.) / Под ред. К.А. Пупкова. — М.: РУСАКИ, 2000. — С.14–16. 6. Аналитические технологии для прогнозирования и анализа данных // www. neuroproject.ru. 7. Андреев Ю.Н. Дифференциально-геометрические методы в теории управления // Автоматика и телемеханика. — 1982. — №10. — С.5–46. 8. Андреев Ю.Н. Управление конечномерными линейными объектами. — М.: Наука, 1976. — 424 с. 9. Андриевский Б.Р., Стоцкий А.А., Фрадков А.Л. Алгоритмы скоростного градиента в задачах управления и адаптации // Автоматика и телемеханика. — 1988. — №12. — С.3–39. 10. Андронов А.А., Понтрягин А.С. Грубые системы // ДАН. — 1937. — Т.14. — №5. 11. Анохин П.К. Проблемы центра и периферии в физиологии нервной деятельности. — Горький, 1935. 12. Антонов А.С. Мы похожи, но насколько: новое в молекулярной биологии (геносистематика). — М.: Знание, 1975. — 42 с. 13. Арнольд В.И. Математические основы классической механики. — М.: Наука, 1979. — 432 с. 14. Арнольд В.И. Обыкновенные дифференциальные уравнения. — М.: Наука, 1984. — 272 с. 15. Арнольд В.И. Теория катастроф. — М.: Наука, 1990. — 126 с. 16. Арнольд В.И., Верченко А.Н., Гусейн-заде С.М. Особенности дифференцируемых отображений. Т.1. — М.: Наука, 1982. — 304 с. 17. Астапов Ю.М., Медведев В.С. Статистическая теория систем автоматического регулирования и управления. — М.: Наука, 1982. — 304 с. 18. Афанасьев В.Г. Мир живого: системность, эволюция и управление. — М.: Политиздат, 1986. 19. Батенко А.П. Системы терминального управления. — М.: Радио и связь, 1984. — 160 с. 20. Батищев Д.И. Генетические алгоритмы решения экстремальных задач: Учебное пособие / Под ред. Я.Е. Львовича. — Воронеж: ВГТУ, 1995. 21. Беккенбах Э., Беллман Р. Неравенства. — М.: Мир, 1965. — 276 с. 22. Бесекерский В.А. Цифровые автоматические системы. — М.: Наука, 1976. — 576 с. 23. Бесекерский В.А., Попов Е.П. Теория систем автоматического регулирования. — М.: Наука, 1975. — 768 с. 24. Бирюков В.Ф., Пилишкин В.Н. Исследование разрешимости и решения задачи синтеза управляющего устройства для линейного нестационарного объекта при ограничениях вдоль траектории // Известия вузов. Серия приборостроение. — 1992. — №9. — С.49–55. 25. Бирюков В.Ф., Пилишкин В.Н. Согласование ограничений вдоль траектории при синтезе управляющего устройства для линейного нестационарного объекта // Межвуз. сб. науч-
764
26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38.
39. 40. 41. 42. 43. 44. 45. 46.
47.
48.
49. 50.
Методы современной теории автоматического управления ных трудов: Обработка и преобразование информации в задачах управления. — Рязань, 1984. — С.103–107. Борецкий И.Ф. К определению одного класса симметрий нелинейных управляемых систем // Автоматика и телемеханика. — 1981. — №12. — С.171–173. Борцов Ю.А., Юнгер Н.Б. Автоматические системы с разрывным управлением. — Л.: Энергоатомиздат. Ленинградское отд., 1986. — 168 с. Буков В.Н. Адаптивные прогнозирующие системы управления полетом. — М.: Наука, 1987. Бутковский А.Г. К геометрической теории управления системами с распределенными параметрами // Теория и системы уравнений. — 1995. — №4. — С.137–179. Бутковский А.Г. Кибернетика и структуры // Проблемы управления и информатика. — 1996. — №1–2. — С.8–20. Бэстэнс Д., Ванденберг В., Вуд Д. Нейронные сети и финансовые рынки. — М.: ТВП, Научное издательство, 1997. — 236 с. Вагин В.Н. Дедукция и обобщение в системах принятия решений. — М.: Физматлит, 1988. — 384 с. Вагин В.Н., Федотов А.А., Фомина М.В. Методы извлечения и обобщения информации в больших базах данных // Известия РАН. Теория и системы управления. — 1999. — №5. Валеев К.Г., Финин Г.С. Построение функций Ляпунова. — Киев: Наукова думка, 1981. — 412 с. Ван-дер-Поль Б. Нелинейная теория электрический колебаний. — М.: Связьиздат, 1935. Вартанян И.А. Физиология сенсорных систем: Руководство / Серия «Мир медицины». — СПб.: Изд-во Лань, 1999. — 224 с. Введение в топологию: Учебное пособие для вузов / Ю.Г. Борисович, Н.М. Белизняков, Л.А. Израилевич и др. — М.: Высшая школа, 1980. — 296 с. Вельямисов А.П. Использование нечетких нейронных сетей для интеллектуального анализа в возможностных базах данных // КИИ2002: Труды 8-й национальной конференции по искусственному интеллекту. — М.: Физматлит, 2002. — С.87–93. Венгеров А.А., Щаренский В.А. Прикладные вопросы оптимальной линейной фильтрации. — М.: Энергоатомиздат, 1982. — 192 с. Винер Н. Кибернетика, или управление и связь в животном и машине; 2-е изд. — М.: Наука, 1983. — 344 с. Воеводин В.В. Математические основы параллельных вычислений. — М.: Изд-во МГУ, 1991. Воеводин В.В., Кузнецов Ю.Д. Матрицы и вычисления. — М.: Наука, 1984. — 320 с. Вопросы теории и элементы программного обеспечения минимаксных задач / Под. ред. В.Ф. Демьянова, В.Н. Малоземова. — Л.: Изд-во ЛГУ, 1977. — 192 с. Воробьев Н.Н. Теория рядов. — М.: Наука, 1975. — 368 с. Воронов А.А. Введение в динамику сложных управляемых систем. — М.: Наука, 1985. — 352 с. Воронов А.А., Рутковский В.Ю. Современное состояние и перспективы развития адаптивных систем // Вопросы кибернетики. Проблемы теории и практики адаптивного управления. — М.: Научный совет по кибернетике АН СССР, 1985. — С.5–48. Воронов Е.М. Предельное целевое качество интеллектуальных систем на основе стабильно-эффективных решений. Интеллектуальные системы: Труды 4-го Международного симпозиума (Москва, 28 июня–1 июля 2000 г.) / Под ред. К.А. Пупкова. — М.: РУСАКИ, 2000. — С.48–50. Габасов Р., Кириллова Ф.М. Методы оптимального управления и классические проблемы теории автоматического регулирования // Междунар. конф. по проблемам управления: Сб. пленарн. докл. — М.: Фонд «Проблемы управления», 1999. — С.42–60. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. — СПб.: Питер, 2000. — 384 с. Гавурин М.К., Малоземов В.Н. Экстремальные задачи с линейными ограничениями. — Л.: Изд-во ЛГУ, 1984. — 176 с.
Список литературы
765
51. Гайдышев И. Анализ и обработка данных: Специальный справочник. — СПб.: Питер, 2001. — 752 с. 52. Галиуллин А.С. и др. Построение систем программного движения. — М.: Наука, 1971. — 352 с. 53. Галушкин А.И. Нейрокомпьютеры. Кн. 3 / Общая ред. А.И. Галушкина. — М.: ИПРРЖР, 2000. — 528 с. 54. Галушкин А.И. Синтез многослойных систем распознавания образов. — М.: Энергия, 1974. — 368 с. 55. Галушкин А.И. Теория нейронных сетей. Кн. 1: Учебное пособие для вузов / Общая ред. А.И. Галушкина. — М.: ИПРРЖР, 2000. — 416 с. 56. Галушкин А.И., Логовский А.С. Нейроуправление: основные принципы и направления применения нейрокомпьютеров для решения задач управления динамическими объектами // Нейрокомпьютеры: разработка и применение. — 1999. — №1. — С.56–66. 57. Гермейер Ю.Б. Введение в теорию исследования операций. — М.: Наука, 1971. 58. Гилева Л.В., Гилев С.Е., Горбань А.Н. и др. Нейропрограммы: Учебное пособие: В 2 ч. Ч.2 / Под ред А.Н. Горбаня. — Красноярск: КГТУ, 1994. — 124 с. 59. Гилмор Р. Прикладная теория катастроф: В 2-х книгах. Кн.1. — М.: Мир, 1984. — 350 с. 60. Гилмор Р. Прикладная теория катастроф: В 2-х книгах. Кн.2. — М.: Мир, 1984. — 286 с. 61. Гноенский Л.С. Задача Булгакова о накоплении возмущений / Под ред. В.В. Александрова // Задача Булгакова о максимальном отклонении и ее применения. — М.: Изд-во МГУ, 1993. 62. Голицын Г.А. Применение нейросетевой технологии в ЭС // Материалы семинара «Экспертные системы реального времени». — М.: РДЗ, 1995. 63. Голубицкий М., Гийемин В. Устойчивые отображения и их особенности. — М.: Мир, 1972. — 290 с. 64. Горбань А.Н., Россиев Д.А. Нейронные сети на персональном компьютере. — Новосибирск: Наука. Сибирская издательская фирма РАН, 1996. — 276 с. 65. Городецкий В.И., Карасаев О.В., Самойлов В.В. Обучение и объединение решений в задаче слияния данных // КИИ2002: 8-я национальная конференция по искусственному интеллекту с международным участием: Труды конференции. Т1. — М.: Физматлит, 2002. — С.102–111. 66. Грешилов А.А. Анализ и синтез стохастических систем. Параметрические модели и конфлюэнтный анализ. — М.: Радио и связь, 1990. — 320 с. 67. Грешилов А.А. Некорректные задачи цифровой обработки информации и сигналов. — М.: Радио и связь, 1984. — 161 с. 68. Григорьев П.А., Евтушенко С.А. ДСМ-рассуждения как средство интеллектуального анализа данных. Результаты тестирования на наборах данных UCI // КИИ2002: Труды 8-й национальной конференции по искусственному интеллекту. — М.: Физматлит, 2002. — С.112–122. 69. Гроссман П., Магнус В. Группы и их графы. — М.: Мир, 1971. — 246 с. 70. Губайдулин Г.Г., Зозуля Ю.И., Арутюнов Э.С. Синтез нейросетевых обратных динамических моделей роботов // Сб. докладов на V-ой Всероссийской конференции «Нейрокомпьютеры и их применение». — Москва, 1999. — С.136–139. 71. Данскин Дж.М. Теория максимина. — М.: Сов. радио, 1970. — 200 с. 72. Демьянов В.Ф. Минимакс: дифференцируемость по направлениям. — Л.: Изд-во ЛГУ, 1974. — 112 с. 73. Деревицкий Д.П., Фрадков А.Л. Прикладная теория дискретных адаптивных систем управления. — М.: Наука, 1981. — 216 с. 74. Джури Э. Инноры и устойчивость динамических систем. — М.: Наука, 1979. — 300 с. 75. Дзегеленок И.И., Корлякова М.О. Подход к повышению содержательной емкости систем 2-го поколения.// Вопросы радиоэлектроники. Серия «Электронная вычислительная техника». Вып. 1. — Москва, 1999. — С.52–59. 76. Динамика нестационарных линейных систем / Ф.А. Михайлов, Е.Д. Теряев, В.П. Булеков и др. — М.: Наука, 1967. — 368 с.
766
Методы современной теории автоматического управления
77. Дорф Р., Бишоп Р. Современные системы управления. — М.: Лаборатория Базовых Знаний, Юнимедиастайл, 2002. — 831 с. 78. Дулина Н.Г., Киселев И.А. Метод построения согласованной базы знаний эксперта на основе управляемой реструктуризации поступающей информации // КИИ2000: 7-я национальная конференция по искусственному интеллекту с международным участием: Труды конференции. Т1. — М.: Физматлит, 2000. — С.112–119. 79. Евланов Л.Г. Самонастраивающиеся системы с поиском градиента методом вспомогательного оператора // АН СССР. Техническая кибернетика. — 1963. — №1. — С.47–51. 80. Евсеев О.В., Кравченко В.А. Применение ЭВМ в управлении технологическими процессами: Автоматизация и интеллектуализация производств. — М.: Росвузнаука, 1992. 81. Емельянов С.В. Системы автоматического управления с переменной структурой. — М.: Наука, 1967. 82. Емельянов С.В., Уткин В.И., Таран В.А. и др. Теория систем с переменной структурой. — М.: Наука, 1970. 83. Ершов Н.М., Попова Н.Н. Компьютерный анализ распараллеливания вычислений для моделей сплошной среды. В сб.: Программно-аппаратные средства и математическое обеспечение вычислительных систем. — М.: Изд-во МГУ, 1995. 84. Журавлёв В.Ф., Копылов Д.М. Прикладные методы в теории колебаний. — М.: Наука, 1988. — 288 с. 85. Загоровский И.М. Выбор алгоритма обучения в системах приобретения знаний из данных // КИИ2000: 7-я национальная конференция по искусственному интеллекту с международным участием: Труды конференции, Т1. — М.: Физматлит, 2000. — С.231–235. 86. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. — Новосибирск: Изд-во ин-та математики, 1999. — 270 с. 87. Земляков С.Д., Рутковский В.Ю. Синтез алгоритмов изменения перестраиваемых коэффициентов в самонастраивающихся системах управления с эталонной моделью // ДАН СССР. — 1967. — Т.174. — №1. — С.47–49. 88. Земляков С.Д., Рутковский В.Ю., Павлов Б.В. Структурный синтез самонастраивающейся системы управления // Автоматика и телемеханика. — 1969. — №8. — С.53–63. 89. Зубов А.Г., Петров А.И. Оценивание в нелинейных стохастических системах при внезапных изменениях структуры и координат состояния // Известия АН СССР. Техническая кибернетика. — 1990. — №4. — С.64–77. 90. Иваненко А.Г. Непрерывность и дискретность. Переборные методы моделирования и кластеризации. — Киев: Наукова думка, 1990. — 296 с. 91. Ивахненко А.Г. Долгосрочное прогнозирование и управление сложными системами. — Киев: Технiка, 1975. 92. Ильин В.А., Позняк Э.Г. Линейная алгебра. — М.: Наука, 1974. — 296 с. 93. Калинина Е.А., Рыбина Г.В. Применение технологии Data Mining для автоматизированного построения баз знаний интегрированных экспертных систем // КИИ2000: 7-я национальная конференция по искусственному интеллекту с международным участием: Труды конференции, Т1. — М.: Физматлит, 2000. — С.119–127. 94. Калман Р.Е. Идентификация систем с умами // Успехи матем. наук. — 1985. — Т.40. — Вып. 4 (244). — С.27–41. 95. Камке Э. Справочник по дифференциальным уравнениям в частных производных первого порядка. — М.: Наука, 1961. — 260 с. 96. Каргополов М.Н., Мерзляков Ю.И. Основы теории групп. — М.: Наука, 1977. — 240 с. 97. Квакернаак Х., Сиван Р. Линейные оптимальные системы управления. — М.: Мир, 1977. — 652 с. 98. Кейн В.М. Оптимизация систем по минимаксному критерию. — М.: Наука, 1985. 99. Кларк Ф. Оптимизация и негладкий анализ. — М.: Наука, 1988. 100. Климушев А.И., Красовский Н.Н. Равномерная асимптотическая устойчивость системы дифференциальных уравнений с малыми параметрами при производных // Прикладная математика и механика. — 1961. — Т.25. — №4. — С.680–694.
Список литературы
767
101. Клюев А.С., Колесников А.А. Оптимизация автоматических систем управления по быстродействию. — М.: Энергоиздат, 1982. 102. Кобаяси Ш., Номидзу К. Основы дифференциальной геометрии. Т.1. — М.: Наука, 1981. — 344 с. 103. Козлов В.Н., Куприянов В.Е., Заборовский В.С. Вычислительные методы синтеза систем автоматического управления. — Л.: Изд-во ЛГУ, 1989. 104. Козлов Ю.М., Юсупов Р.М. Беспоисковые самонастраивающиеся системы. — М.: Наука, 1969. — 456 с. 105. Колмогоров А.Н. О представлении непрерывных функций нескольких переменных в виде суперпозиций непрерывных функций одного переменного и сложения // Докл. АН СССР. — 1957. — Т.114. — №5. — С.953–956. 106. Колмогоров А.Н., Фомин С.В. Элементы теории функций и функционального анализа. — М.: Наука, 1981. — 544 с. 107. Комарцова Л.Г. Исследование методов оптимизации имитационных моделей вычислительных систем // Вестник МГТУ. Серия приборостроение. — 1999. — №2. — С.121–130. 108. Комарцова Л.Г., Бобков А.В. Нейросетевая экспертная система для выбора параметров локальной вычислительной сети // Сб. докладов на V-й Всероссийской конференции «Нейрокомпьютеры и их применение». — Москва, 1999. — С.248–252. 109. Комарцова Л.Г., Максимов А.В. Нейрокомпьютеры: Учеб. пособие для вузов. — М.: Издво МГТУ им. Н.Э. Баумана, 2002. — 320 с. 110. Корлякова М.О. Интеллектуальная среда «ТРЕЙД» для обработки информации о проектах технических систем // Труды МГТУ №580: Методы исследования и проектирования сложных технических систем. — М.: Изд-во МГТУ им. Н.Э. Баумана, 2001. — С.102–113. 111. Корлякова М.О. Подход к организации системы анализа потоков данных // КИИ2002: 8-я национальная конференция по искусственному интеллекту с международным участием. Труды конференции. Т1. — М.: Физматлит, 2002. — С.138–147. 112. Кострикин А.И. Введение в алгебру. — М.: Наука, 1977. — 496 с. 113. Краснощёченко В.И. Синтез регуляторов для нелинейных систем, приводимых к канонической форме Бруновского // Труды МГТУ. — 1997. — №569. — C.28–33. 114. Краснощёченко В.И., Мышляев Ю.И. Синтез регулятора для задачи стабилизации вращения спутника: нелинейная модель, векторное управление, фазовые ограничения // Труды МГТУ. — 1999. — №573. — C.3–15. 115. Красовский А.А. Оптимальные алгоритмы в задачах идентификации с адаптивной моделью // Автоматика и телемеханика. — 1976. — №12. — С.75–82. 116. Красовский А.А., Буков В.Н., Шендрик В.С. Универсальные алгоритмы оптимального управления непрерывными процессами. — М.: Наука, 1977. — 272 с. 117. Красовский Н.Н. Игровые задачи о встрече движений. — М.: Наука, 1970. 118. Крищенко А.П. Исследование управляемости и множеств достижимости нелинейных систем управления // Автоматика и телемеханика. — 1984. — №6. — С.30–36. 119. Кроновер А.Б. Фракталы и хаос в динамических системах. Основы теории. — М.: Постмаркет, 2000. — 352 с. 120. Крылов Н.М., Боголюбов Н.Н. Введение в нелинейную механику. — К.: Изд-во АН УССР, 1937. 121. Куо Б. Теория и проектирование цифровых систем управления: Пер. с англ. — М.: Машиностроение, 1986. — 448 с. 122. Курдюков А.П., Тимин В.Н. Синтез робастной системы управления на режиме посадки самолета в условиях сдвига ветра // Известия АН СССР. Техническая кибернетика. — 1993. — №6. — С.200–208. 123. Куржанский А.Б. Управление и наблюдение в условиях неопределенности. — М.: Наука, 1977. 124. Курош А.Г. Курс высшей алгебры. — М.: Наука, 1965. — 412 с. 125. Ланкастер Л. Теория матриц: Пер. с англ. — М.: Наука, 1982. — 272 с. 126. Лейхтвейс К. Выпуклые множества. — М. Наука, 1985.
768
Методы современной теории автоматического управления
127. Лобачев В.И. Дифференциально-модельная концепция в систематике базы макрофизических знаний для интеллектуальных систем. В сб.: Машиностроение, приборостроение, энергетика. — М.: Изд-во МГУ, 1995. — С.230–234. 128. Льюнг Л. Идентификация систем. Теория для пользователей. — М.: Наука, 1991. 129. Люблинский Б.С., Фрадков А.Л. Адаптивная стабилизация нелинейных объектов с неявно заданной статической характеристикой // Автоматика и телемеханика. — 1983. — №4. — С.126–136. 130. Магарил-Ильяев Г.Г., Тихомиров В.М. Выпуклый анализ и его приложения. — М.: Эдиториал УРСС, 2000. 131. Малоземов В.Н. Линейная алгебра без определителей. Квадратичная функция. — СПб.: С.-ПГУ, 1997. — 78 с. 132. Математические модели систем управления / Под ред. В.Ф. Демьянова. — СПб.: Изд-во С.-Петерб. ун-та, 2000. 133. Математические основы теории автоматического регулирования. Т.2 / Под ред. Б.К. Чемоданова. — М.: Высшая школа, 1977. — 456 с. 134. Машиностроение. Энциклопедия в 40 тт. Т.1–4. Автоматическое управление. Теория / Е.А. Федосов, А.А. Красовский, Е.П. Попов и др.; Под общ. ред. Е.А. Федосова. — М.: Машиностроение, 2000. 135. Мееров М.В. Синтез структур систем автоматического регулирования высокой точности. — М.: Наука, 1967. — 424 с. 136. Метод векторных функций Ляпунова в теории устойчивости / Под ред. А.А. Воронова, В.М. Матросова. — М.: Наука, 1987. — 312 с. 137. Методы анализа, синтеза и оптимизации нестационарных систем автоматического управления: Учебное пособие / Под ред. Н.Д. Егупова. — М.: Изд-во МГТУ им. Н.Э. Баумана, 1999. — 684 с. 138. Методы вычислений на ЭВМ: Справочное пособие / В.В. Иванов. — Киев: Наукова думка, 1986. — 584 с. 139. Методы классической и современной теории автоматического управления: Учебник в 5-и тт. Т.4: Теория оптимизации систем автоматического управления / Под ред. К.А. Пупкова, Н.Д. Егупова. — М.: Изд-во МГТУ им. Н.Э. Баумана, 2004. 140. Мину М. Математическое программирование. Теория и алгоритмы. — М.: Наука, 1990. 141. Мирошник И.В., Никифоров В.О., Фрадков А.Л. Нелинейное и адаптивное управление сложными динамическими системами. — СПб.: Наука, 2000. — 548 с. 142. Моисеев Н.Н. Математические задачи системного анализа. — М.: Наука, 1981. — 488 с. 143. Мун Ф. Хаотические колебания. — М.: Мир, 1990. — 312 с. 144. Мышляев Ю.И. Об одном подходе к синтезу систем с переменной структурой в условиях параметрической неопределенности // Труды МГТУ им. Н.Э. Баумана. — 1999. — №575. — С.68–73. 145. Мышляев Ю.И., Мышляева С.В. Синтез систем управления с настраиваемой плоскостью скольжения; задача слежения, линейные объекты // Труды МГТУ им. Н.Э. Баумана. — 2000. — №577. — С.129–133. 146. Нейрокомпьютеры и интеллектуальные роботы / Под ред. Н.М. Амосова. АН УССР. Ин-т кибернетики. — Киев: Наукова думка, 1991. — 272 с. 147. Никифоров В.О., Фрадков А.Л. Схемы адаптивного управления с расширенной ошибкой // Автоматика и телемеханика. — 1994. — №9. — С.3–22. 148. Норенков И.П. Эвристики и их комбинирование в генетических методах дискретной оптимизации // Информационные технологии. — 1999. — №1. — С.2–7. 149. Овсянников Д.А. Математические методы управления пучками. — Л.: Изд-во ЛГУ, 1986. — 226 с. 150. Овсянников Л.В. Групповой анализ дифференциальных уравнений. — М.: Наука, 1978. — 320 с. 151. Олвер П. Применения групп Ли к дифференциальным уравнениям. — М.: Мир, 1989. — 636 с.
Список литературы 152. 153. 154. 155. 156. 157. 158. 159. 160. 161. 162. 163. 164. 165. 166. 167. 168. 169. 170. 171. 172. 173. 174. 175. 176. 177. 178. 179. 180.
769
Основы кибернетики / Под ред. К.А. Пупкова. — М.: Высшая школа, 1976. Острем К., Виттенмарк Б. Системы управления с ЭВМ. — М.: Мир, 1987. Первозванский А.А. Курс теории автоматического управления. — М.: Наука, 1986. — 616 с. Петров А.С., Рутковский В.Ю., Земляков С.Д. Адаптивное координатно-параметрическое управление нестационарными объектами. — М.: Наука, 1980. — 234 с. Петров Б.Н., Рутковский В.Ю., Крутова И.Н., Земляков С.Д. Принципы построения и проектирования самонастраивающихся систем управления. — М.: Машиностроение, 1972. — 260 с. Петров Н.Н. О локальной управляемости // Дифференциальные уравнения. — 1976. — Т.12. — №12. — С.2214–2222. Петросян Л.А., Зенкевич Н.А., Семина Е.А. Теория игр. — М.: Высшая школа. Книжный дом «Университет», 1998. Пилишкин В.Н. Алгоритмы робастного управления в интеллектуальных системах // Вестник МГТУ. Серия приборостроение. — 1998. — №1. — С.23–34. Пилишкин В.Н. Робастное управление в интеллектуальных системах на основе формирования фазовых ограничений. В кн.: Машиностроение, приборостроение, энергетика. — М.: Изд-во МГУ, 1996. — С.239–248. Пилишкин В.Н. Управление в интеллектуальных системах на основе концепции функционально-множественной принадлежности // Вопросы радиоэлектроники. Серия АСУПР. — 1995. — №3. — С.23–28. Поляк Б.Т. Введение в оптимизацию. — М.: Наука, 1983. — 384 с. Поляк Б.Т. Методы минимизации при наличии ограничений // Итоги науки и техники. Сер. Матем. анализ. Т.12. — М.: ВИНИТИ АН СССР, 1974. — С.147–197. Понтрягин Л.С. Непрерывные группы. — М.: Наука, 1984. — 520 с. Понтрягин Л.С. Обыкновенные дифференциальные уравнения. — М.: Наука, 1970. — 332 с. Понтрягин Л.С., Родыгин Л.В. Асимптотическое поведение решений систем с малым параметром при высших производных // ДАН СССР. — 1960. — Т.131. — №2. — С.255–258. Попов А.М., Фрадков А.Л. Адаптивное управление сингулярно-возмущенными объектами // Труды XI Всесоюзного совещания по проблемам управления. — Ереван, 1983. — С.166–178. Поспелов Д.А. Данные и знания. Искусственный интеллект: В 3-х кн. Кн. 2. Модели и методы: Справочник / Под ред. Д.А. Поспелова. — М.: Радио и связь, 1990. — С.7–13. Поспелов Д.А. Продукционные модели. Искусственный интеллект: В 3-х кн. Кн. 2. Модели и методы: Справочник / Под ред. Д.А. Поспелова. — М.: Радио и связь, 1990. — С.49–56. Поспелов Д.А. Ситуационное управление: теория и практика. — М.: Физматлит, 1986. — 288 с. Постников М.М. Введение в теорию Морса. — М.: Наука, 1971. — 568 с. Постон Т., Стюарт И. Теория катастроф и ее приложения. — М.: Мир, 1981. Пригожин И.Р. Человек перед лицом неопределенности / Под ред. И. Пригожина. — М.Ижевск: Ин-т компьютерных исследований, 2003. Пупков К.А. Динамические экспертные системы в управлении // Изв. вузов. Приборостроение. — 1996. — №8–9. — С.39–50. Пупков К.А. Интеллектуальные системы: проблемы теории и практики // Изв. вузов. Приборостроение. — 1994. — Т.37. — №9–10. — С.5–7. Пупков К.А., Коньков В.Г. Мировоззрение управленца. — М.: Биоинформ, 1997. — 80 c. Пупков К.А., Фалдин Н.В., Егупов Н.Д. Методы синтеза оптимальных систем автоматического управления. — М.: Изд-во МГТУ им. Н.Э. Баумана, 2000. — 512 с. Реклейтис А., Рейвиндран А. и др. Оптимизация в технике: В 2-х кн. — М.: Мир, 1988. — 668 с. Рокафеллар Р. Выпуклый анализ. — М.: Мир, 1973. Рохлин В.А., Фукс Д.Б. Начальный курс топологии. Геометрические главы. — М.: Наука, 1972. — 488 с.
770
Методы современной теории автоматического управления
181. Самарский А.А., Гулин А.В. Численные методы. — М.: Наука, 1989. — 432 с. 182. Самонастраивающиеся системы: Справочник / Под ред. П.Н. Чинаева. − Киев, 1959. — 528 с. 183. Слобожанин Н.М. Информация и управление в динамических играх. — СПб.: Изд-во С.-Петерб. ун-та, 2002. 184. Словарь по кибернетике / Под ред. В.С. Михалевича. — Киев: Гл. ред. УСЭ им. М.П. Бажана, 1989. 185. Смирнов А.В., Пашкин М.П., Шилов Н.Г., Левашова Т.В. Онтологии в системах искусственного интеллекта: способы построения и организации. Новости искусственного интеллекта. — 2002. — №1–2. 186. Современная прикладная теория управления. Ч. I. Оптимизационный подход в теории управления / Под ред. А.А. Колесникова. — Таганрог: Изд-во ТРТУ, 2000. 187. Солодовников В.В. Проблемы качества и динамической точности в теории автоматического регулирования // Труды Второго Всесоюзн. совещ. по ТАР. Т.II. Проблема качества и динамической точности в ТАР. — М.-Л.: Изд-во АН СССР, 1955. — С.7–37. 188. Солодовников В.В. Статистическая динамика линейных систем автоматического управления. — М.: Физматлит, 1960. — 656 с. 189. Солодовников В.В., Бирюков В.Ф., Пилишкин В.Н. Синтез регулятора для многомерного объекта по ограничениям на вектор состояния // Труды МВТУ. Системы автом. управ. — 1979. — №314. — Вып.7. — С.42–59. 190. Солодовников В.В., Бирюков В.Ф., Тумаркин В.И. Принцип сложности в теории управления. — М.: Наука, 1977. — 342 с. 191. Солодовников В.В., Матвеев П.С. Расчет оптимальных САУ при наличии помех. — М.: Машиностроение, 1973. — 240 с. 192. Солодовников В.В., Тумаркин В.И. Теория сложности и проектирования систем управления. — М.: Наука, 1990. — 166 с. 193. Солодовников В.В., Филимонов А.Б., Филимонов Н.Б. Игровые критерии качества систем регулирования и проблема аналитического конструирования регуляторов // Изв. вузов. Приборостроение. — 1976. — №12. — С.26–31. 194. Солодовников В.В., Филимонов Н.Б. Динамическое качество систем автоматического регулирования. — М.: МВТУ им. Н.Э. Баумана, 1987. 195. Справочник по теории автоматического управления / Под ред. А.А. Красовского. — М.: Наука, 1987. — 712 с. 196. Статические и динамические экспертные системы: Учеб. пособие / Э.В. Попов, И.Б. Фоминых, Е.Б. Кисель, М.Д. Шапот. — М.: Финансы и статистика, 1996. — 320 с. 197. Стоцкий А.А. Сигнально-параметрические алгоритмы адаптивного управления с неявной эталонной моделью // Микропроцессорные системы автоматизации технологических процессов. Тез. Всесоюз. конф. — Новосибирск: НЭТИ, 1987. — С.78–79. 198. Субботин А.И., Ченцов А.Г. Оптимизация гарантии в задачах управления. — М.: Наука, 1981. 199. Судаков К.В. Теория функциональных систем: истоки, этапы развития, экспериментальные доказательства, общие постулаты. — М., 1996. 200. Схрейвер А. Теория линейного и целочисленного программирования. В 2-х тт. Т.1. — М.: Мир, 1991. 201. Сю Д., Мейер А. Современная теория автоматического управления и ее применение. — М.: Машиностроение, 1972. — 552 с. 202. Татевский В.М., Колтев Г.С. Элементарная теория линейных неравенств и их приложения. — М.: Изд-во МГУ, 1973. — 160 с. 203. Теряев Е.Д., Шамриков Б.М. Цифровые системы и поэтапное адаптивное управление. — М.: Наука. 1999. 204. Тихонов А.Н. Системы дифференциальных уравнений, содержащих малые параметры при производных // Математический сборник. — 1952. — Т.31. — №3. — С.575–585. 205. Топчеев Ю.И., Потемкин В.Г., Иваненко В.Г. Системы стабилизации. — М.: Машиностроение, 1974. — 248 с.
Список литературы
771
206. Трикоми Ф. Дифференциальные уравнения. — М.: Изд-во ИЛ, 1962. — 352 с. 207. Тятюшкин А.И. Численные методы и программные средства оптимизации управляемых систем. — Новосибирск: Наука, 1992. 208. Уонэм М. Линейные многомерные системы управления. — М.: Наука, 1980. — 376 с. 209. Уорнер Ф. Основы теории гладких многообразий и групп Ли. — М.: Мир, 1987. — 302 с. 210. Уоссермен Ф. Нейрокомпьютерная техника. Теория и практика: Пер. с англ. / Под ред. А.И. Галушкина — М.: Мир, 1992. — 238 с. 211. Управление динамическими системами в условиях неопределенности / С.Т. Кусимов, Б.Г. Ильясов, В.И. Васильев и др. — М.: Наука, 1998. 212. Уткин В.И. Скользящие режимы в задачах оптимизации и управления. — М.: Наука, 1981. — 368 с. 213. Уткин В.И. Скользящие режимы и их применение в системах с переменной структурой. — М.: Наука, 1974. — 272 с. 214. Федер Е. Фракталы. — М.: Мир, 1991. — 254 с. 215. Федоров В.В. Численные методы максимина. — М.: Наука, 1979. — 280 с. 216. Федосов Е.А., Инсаров В.В., Селивохин О.С. Системы управления конечным положением в условиях противодействия среды. — М.: Наука, 1989. — 270 с. 217. Фельдбаум А.А. К вопросу о синтезе оптимальных систем автоматического регулирования // Труды Второго Всесоюзн. совещ. по ТАР. Т. II. Проблема качества и динамической точности в ТАР. — М.-Л.: Изд-во АН СССР, 1955. — С.325–360. 218. Филимонов А.Б., Филимонов Н.Б. Дискретное регулирование линейных объектов методом наискорейшего спуска // Труды Междунар. науч.-техн. семин. «Современные технологии в задачах управления, автоматики и обработки информации». — М.: Изд-во МАИ, 1997. — С.96–98. 219. Филимонов А.Б., Филимонов Н.Б. О минимаксных и максиминных задачах полиэдрального программирования // Информационные технологии. — 2000. — №12. — С.2–9. 220. Филимонов А.Б., Филимонов Н.Б. Полиэдральное программирование: элементы теории и приложения // Информационные технологии. — 1999. — №11. — С.2–12. 221. Филимонов Н.Б. Барьерное регулирование динамических систем // Вестник МГТУ им. Н.Э. Баумана. Сер. приборостроение. — 1998. — №1. — С.53–66. 222. Филимонов Н.Б. Идентификация состояния и внешней среды дискретных динамических объектов методом полиэдрального программирования // Мехатроника, автоматизация, управление. — 2003. — №2. — С.11–15. 223. Филимонов Н.Б. Наихудшие возмущающие факторы и гарантированные стратегии управления в задачах дискретной стабилизации динамических объектов // Доклады академии военных наук. Поволжское отд. — 2003. — №9. — С.123–133. 224. Филимонов Н.Б. Оптимизация дискретных процессов управления и наблюдения методами полиэдрального программирования // VI Междунар. семин. «Устойчивость и колебания нелинейных систем управления»: Тезисы докл. — М.: ИПУ, 2000. — С.102. 225. Филимонов Н.Б. Оптимизация дискретных процессов управления с полиэдральными критериями качества // Вестник МГТУ им. Н.Э. Баумана. Сер. приборостроение. — 2000. — №1. — С.20–38. 226. Филимонов Н.Б., Белоусов И.В. Применение генетических алгоритмов в задачах оптимизации терминального управления динамическими объектами // Доклады РАЕН. Поволжское межрегион. отд. — 2002. — №3. — С.68–80. 227. Филимонов Н.Б., Деменков М.Н., Кишалов П.А. Дискретное регулирование технических объектов методом прогнозируемого наискорейшего спуска // Приборы и системы управления. — 1998. — №3. — С.10–12. 228. Фиников С.Л. Метод внешних форм Картана в дифференциальной геометрии. — М.–Л.: Гостехиздат, 1948. — 510 с. 229. Финн В.К. О машинно-ориентированной формализации правдоподобных рассуждений в стиле Ф. Бекона–Д.С. Милля // Семиотика и информатика. Вып. 20. — 1983. 230. Фомин В.Н., Фрадков А.Л., Якубович В.А. Адаптивное управление динамическими объектами. — М.: Наука, 1981. — 448 с.
772
Методы современной теории автоматического управления
231. Фрадков А.Л. Адаптивная стабилизация минимально-фазовых объектов с векторным входом без изменения производных от выхода // ДАН РАН. — 1994. — Т.337. — №5. — С.592–594. 232. Фрадков А.Л. Адаптивное управление в сложных системах. — М.: Наука, 1990. — 292 с. 233. Фрадков А.Л. Алгоритмы скоростного градиента в задачах адаптации и управления нелинейными системами // Проблемы динамики неоднородных систем. — М.: ВНИИСИ, 1985. — С.46–58. 234. Фрадков А.Л. Интегро-дифференцирующие алгоритмы скоростного градиента // ДАН АН СССР. — 1977. — Т.288. — №4. — С.832–835. 235. Фрадков А.Л. Метод синтеза алгоритмов стабилизации линейного многосвязанного динамического объекта // Вопросы кибернетики. Адаптивные системы. — М.: Научный совет по кибернетике АН СССР, 1976. — С.82–85. 236. Фрадков А.Л. Разделение движений в адаптивных системах управления // Вопросы кибернетики. Теория и практика адаптивного управления. — М.: Научный совет по кибернетике АН СССР, 1985. — С.71–82. 237. Фрадков А.Л. Синтез адаптивных систем управления нелинейными сингулярно-возмущенными объектами // Автоматика и телемеханика. — 1987. — №6. — С.100–110. 238. Фрадков А.Л. Схема скоростного градиента и ее применение в задачах адаптивного управления // Автоматика и телемеханика. — 1979. — №9. — С.90–101. 239. Фролов К.В. Машиностроение: Энциклопедия. — М.: Машиностроение, 2000. — 688 с. 240. Хасанов М.Н. Фрактальные характеристики динамики объектов управления // Автоматика и телемеханика. — 1994. — №2. — С.59–67. 241. Хорн Р., Джонеон Ч. Матричный анализ. — М.: Мир, 1989. — 656 с. 242. Хорькова Н.Г., Четвериков В.Н. Элементы дифференциальной геометрии и топологии. Векторные поля на многообразиях. — М.: Изд-во МГТУ им. Н.Э. Баумана, 1996. — 48 с. 243. ХХ лет кафедре П2-КФ: В 16-ти книгах / Под ред. А.В. Максимова. Кн. 4: Программная система NeuroIterator / И.В. Винокуров. — Калуга: Изд-во Н.Ф. Бочкаревой, 1997. — 20 с. 244. Хэм А., Кормак Д. Гистология: Пер. с англ. В 3-х томах. Т.3. — М.: Мир, 1983. — 294 с. 245. Цыкунов А.М. Алгоритмы скоростного градиента для систем с запаздыванием // Автоматика и телемеханика. — 1987. — №3. — С.97–106. 246. Шевченко П.А., Фомин Д.В., Черников В.М., Виксне П.Е. Архитектура нейропроцессора NeuroMatrix NM6403 // V Всероссийская конференция «Нейрокомпьютеры и их применение». Сборник докладов. — М., 17–19 февраля 1999 г. — С.70–80. 247. Шустер Т.Г. Детерминированный хаос. — М.: Мир, 1988. — 240 с. 248. Щавелёв Л.В. Способы аналитической обработки данных для поддержки принятия решений // СУБД. — 1998. — №4–5. 249. Эльясберг П.Е. Измерительная информация: сколько ее нужно? как ее обрабатывать? — М.: Наука, 1983. 250. Яковенко Г.Н. Траекторный синтез оптимального управления // Автоматика и телемеханика. — 1972. — №6. — С.5–12. 251. Allgöwer А., Zheng A., editors. Nonlinear Model Predictive Control. — Birkhäuser, 2000. 252. Basar T., Olsder G.J. Dynamic Noncooperative Game Theory (2nd ed.). — New-York: Academic Press, 1995. 253. Bellman R.E., Glicksburg I., Gross O. Some Nonclassical Problems in the Calculus of Variations // Proc. Amer. Math. Soc. — 1956. — V.7. — №1. Feb. 254. Blanchini F., Ukovich W. A Linear Programming Approach to the Control of Discrete-Time Periodic System with State and Control Bounds in the Presence of Disturbance // Journal of Optimization Theory and Applications. — September, 1993. — V.73. — №3. — P.523–539. 255. Boothby W.M. A transitivity problem from control theory // J. Diff. Equat. — 1975. — Vol.17. — №3. — P.296–307. 256. Brockett R.W. Feedback invariants for nonlinear systems. — In: Preprints of 7-th World Congress IFAC. — Oxford: Pergamon Press, 1978. — Vol.2. — P.1115–1120.
Список литературы
773
257. Brunovsky P. On classification of linear controllable systems // Kybernetica. — 1970. — Vol.6. — P.173–178. 258. Caravani P., Santis E.De. A Polytopic Game // Automatica. — 2000. — V.36. — P.973–981. 259. Croush P.E. Spacecraft attitude control and stabilization: applications of geometric control theory to rigid body models // IEEE Trans. Aut. Cont. — 1984. — Vol.29. — №4. — P.321–331. 260. Dahleh M.A., Diaz-Bolillo I.J. Control of Uncertain Systems: A Linear Programming Approach. Englewood Cliffs. — NJ: Prentice-Hall, 1995. 261. Demenkov M.N., Filimonov N.B. Variable Horizon Robust Predictive Control via Adjustable Controllability Sets // European Journal of Control. — 2001. — V.7. — №6. — P.596–604. 262. Feuer A., Morse A.S. Adaptive control of single-input, single-output linear systems // IEEE Trans. on Automat. Control. — 1978. — Vol.23. — №4. — P.557–569. 263. Filimonov N.B. Discrete Control by Dynamic Objects with Multistep Prediction // Proc. of the 16th Internat. Conf. on Systems for Automation of Engineering and Research (SAER-2002). — Sofia: Printing House of USB, 2002. — P.53–57. 264. Filimonov N.B. Polyhedral Programming in Linear Multistep Dynamic Pursuit Games // Proc. of the 17th Internat. Conf. on Systems for Automation of Engineering and Research (SAER2003). — Sofia: SAER Forum Group & Publishing House of the TU, 2003. — P.102–105. 265. Filimonov N.B. The Author’ Answer to the Letter to the Editor on the Paper «Variable Horizon Robust Predictive Control via Adjustable Controllability Sets» by M.N. Demenkov and N.B. Filimonov // European Journal of Control. — 2002. — V.8. — №1. — P.90–94. 266. Foundation of generic Algorithms, edited by Laurence Davis, Van Nostrand Reynold. — New York, 1991. 267. Fradkov A.L., Stotsky A.A. Speed gradient adaptive algorithms for mechanical system // International journal of adaptive control and signal processing. — 1992. — Vol.6. — P.211–220. 268. Hecht-Nielsen R. Kolmogorov's Mapping Neural Network Existence Theorem // IEEE First Annual Int. Conf. on Neural Networks. — San Diego, 1987. — Vol.3. — P.11–13. 269. Hermes H. Lie algebrals of vector fields and local approximation sets // SIAM J. Cont. & Opt. — 1978. — Vol.16. — №5. — P.715–727. 270. Hunt L.R. Controllability of general nonlinear systems // Math. Systems Theory. —1979. — №12. — P.361–370. 271. Jucubczyk B., Respondek W. On linearization of control systems // Bull. L’acad Pol. Science. — 1980. — V.XXVIII. — №9–10. — P.517–522. 272. Kharlamov A.A. Attention mechanism usage to form framework structures on a semantic net // Neurocomputers and Attention. Vol.11: Connectionism and neurocomputers. A.V. Holden, V.I. Krynkov, ed. — Manchester, New York: Manchester University Press. 1991. — P.747–756. 273. Kirpatrick S., Gellant C. Optimization by Simulated Annealing // Science. — 1983. — Vol.220. — P.671–680. 274. Kouvaritakis B., Rossiter J.A., Schuurmans J. Efficient Robust Predictive Control // IEEE Trans. on Automat. Control. — 2000. — V.45. — №8. — P.1545–1549. 275. Lampinen J. Solving Problems Subject to Multiple Nonlinear Constraints by the Differential Evolution. In: Radek Matoušek and Pavel Ošmera (eds.) (2001). Proceedings of MENDEL’2001, 7th International Mendel Conference on Soft Computing, June 6–8.2001, Brno, Czech Republic. Brno University of Technology, Faculty of Mechanical Engineering, Institute of Automation and Computer Science, Brno (Czech Republic). — P.50–57. 276. Lampinen J., Zelinka I. Mixed Integer-Discrete-Continuous Optimization By Differential Evolution, Part 1: the optimization method. In: Osmera, Pavel (ed.) (1999) // Proceedings of MENDEL’99, 5th International Mendel Conference on Soft Computing, June 9–12.1999, Brno, Czech Republic. Brno University of Technology, Faculty of Mechanical Engineering, Institute of Automation and Computer Science. — Brno (Czech Republic). — P.71–76. 277. Lampinen J., Zelinka I. Mixed Integer-Discrete-Continuous Optimization By Differential Evolution, Part 2: a practical example. In: Osmera, Pavel (ed.) (1999). Proceedings of MENDEL’99, 5th International Mendel Conference on Soft Computing, June 9.–12.1999, Brno, Czech Republic. Brno University of Technology, Faculty of Mechanical Engineering, Institute of Automation and Computer Science, Brno (Czech Republic). — P.77–81.
774
Методы современной теории автоматического управления
278. Lampinen J., Zelinka I. On Stagnation of the Differential Evolution Algorithm. In: Ošmera, Pavel (ed.) (2001). Proceedings of MENDEL’2000, 6th International Mendel Conference on Soft Computing, June 7–9.2000, Brno, Czech Republic. Brno University of Technology, Faculty of Mechanical Engineering, Institute of Automation and Computer Science. — Brno (Czech Republic). — P.76–83. 279. Landau T.D. Adaptive control system: the Model Reference approach. — N.Y.: Marcel Decker, 1979. — P.406. 280. Lin C.-T., Lee G. Neural Fuzzy Systems to Intelligent Systems // A. Symon and Schuster Company. Upper Saddle River, NJ07458. — 1996 by Prentice Hall. 281. Lobry C. Dynamical polysystems and control theory. In: Geometric methods in system theory. — Boston: Dordrecht, 1973. — P.1–42. 282. Maciejowski J.M. Predictive Control with Constraints. — Prentice Hall, 2002. 283. Mandelbrot B.B. Les object fractals: forme, hazard et dimantion. — Paris: Flamarion, 1975. 284. Mather I.N. Stability of C ∞ Mappins, II: Infinitesimal stability implies stability // Annals of Math. — 1969. — Vol.89. — №2. — P.254–291. 285. Mather I.N. Stability of C ∞ Mappins, III: Finitely determined map germs // Publ. Math. — 1968. — Vol.35. — P.127–156. 286. Mayne D.Q., Rawlings J.B., Rao C.V., Scokaert P.O.M. Constrained Model Predictive Control: Stability and Optimality // Automatica. — 2000. — V.36. — P.789–814. 287. Mayne D.Q., Schroeder W.R. Robust Time-Optimal Control of Constrained Linear Systems // Automatica. — 1997. — V.33. — №12. — P.2103–2118. 288. McCulloc W.S., Pitts W. A logical calculus of the ideas immanent in nervous activity // Bull. Math. Biophysic. — 1943. — P.115–133. 289. Mehra R.K., Kessel W.C., Caroll I.V. Global Stability and Control Analysis of Aircraft of High Angels of Attach. — Cambridge: Scientific Systems, 1977. 290. Monopoli R.V. Model reference adaptive control with an augmented error signal // IEEE Trans. on Automat. Control. — 1974. — V.19. — №5. — P.474–484. 291. Morse A.S. Global stability of parameter-adaptive controller systems // IEEE Trans. on Automat. Control. — 1975. — V.25. — №3. — P.433–439. 292. Narendra K.S., Kudva P. Stable adaptive schemes for system identification and control: Part I, II // IEEE Trans. Automat. Confr. — 1974. — Vol.SMC-4. — №6. — P.542–560. 293. Narendra K.S., Lin Y.-H., Valavani L.S. Stable adaptive controller design. Part II: proof of stability // IEEE Trans. on Automat. Control. — 1980. — V.25. — №3. — P.440–448. 294. Narendra K.S., Valavani L.S. A comparison of Lyapunov’s and hyperstability approaches to adaptive control of continues systems // IEEE Trans. Automat. Confr. — 1980. — Vol.AC-25. — №2. — P.243–247. 295. Newhouse S., Ruelle D., Takens F. Occurrence of Strange Axiom: A Attractors near Quasiperiodie n Flow on T m, m ≤ 3 // Commun. Math. Phys. — 1978. — №64. — P.35.
296. Storn R., Price K. Differential Evolution: A Simple and Efficient Adaptive Scheme for Global Optimization over Continuous Spaces // Technical Report TR-95-012, ICSI, March, 1995. 297. Sussmann H. A sufficient condition for local controllability // SIAM. J.Cont.&Opt. — 1983. — Vol.16. — №5. — P.790–802. 298. Sussmann H. Orbits of families of vector fields and integrability of distributions // Trans. Amer. Math. Soc. — 1973. — Vol.180. — P.171–188. 299. Thom R. Stabilite Structurelle of Morphgenese. — New York: W.A. Benjamin, Inc., 1972. 300. Widrow B., Lehr M.A. 30 years of adaрtive neural networks: perceрtron, madaline and backpropagation // Proceedings of the IEEE. — 1990. — Vol.78. — №9. — P.1415–1442. 301. Young K.K.D. Design of variable structure model following control system // IEEE Trans. Automat. Control. — 1978. — Vol.AC-23. — №6. — P.1079–1085.
Содержание
775
СОДЕРЖАНИЕ ОБЩЕЕ ПРЕДИСЛОВИЕ К УЧЕБНИКУ .........................................................................
5
ВВЕДЕНИЕ К 5-МУ ТОМУ ............................................................................................... 11 СПИСОК ИСПОЛЬЗУЕМЫХ АББРЕВИАТУР ............................................................... 13 СПИСОК ИСПОЛЬЗУЕМЫХ ОБОЗНАЧЕНИЙ .............................................................. 15 ГЛАВА 1. 1.1.
СИНТЕЗ СИСТЕМ АВТОМАТИЧЕСКОГО УПРАВЛЕНИЯ МЕТОДАМИ ДИФФЕРЕНЦИАЛЬНОЙ ГЕОМЕТРИИ ............................. 19 ГЛАДКИЕ МНОГООБРАЗИЯ И ИХ РОЛЬ В ИССЛЕДОВАНИИ НЕЛИНЕЙНЫХ СИСТЕМ УПРАВЛЕНИЯ ................................................................ ГРУППЫ И АЛГЕБРЫ ЛИ ..................................................................................
19 23 Определение группы ........................................................................ 23 Группы Ли .......................................................................................... 25 Инфинитезимальный оператор непрерывной группы преобразований ................................................................................. 28 1.2.4. Алгебры Ли ........................................................................................ 29 1.3. ГРУППОВОЙ АНАЛИЗ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ. ОДНОПАРАМЕТРИЧЕСКИЕ ГРУППЫ ПРЕОБРАЗОВАНИЙ ....................................... 31 1.4. ВЕКТОРНЫЕ ПОЛЯ НА МНОГООБРАЗИЯХ. ПОЛНЫЕ ВЕКТОРНЫЕ ПОЛЯ ................. 36 1.5. СВЯЗЬ СИСТЕМЫ ОБЫКНОВЕННЫХ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ И ЛИНЕЙНОГО УРАВНЕНИЯ В ЧАСТНЫХ ПРОИЗВОДНЫХ ПЕРВОГО ПОРЯДКА. МЕТОД ХАРАКТЕРИСТИК ................................................................................. 39 1.5.1. Метод характеристик решения дифференциальных уравнений в частных производных ................................................. 39 1.6. ВОССТАНОВЛЕНИЕ ГРУППЫ ПО ЕЕ ИНФИНИТЕЗИМАЛЬНОМУ ОПЕРАТОРУ. РЯД ЛИ. ИНВАРИАНТЫ ГРУППЫ ....................................................................... 42 1.7. КАНОНИЧЕСКИЕ КООРДИНАТЫ ......................................................................... 47 1.8. ФОРМУЛА ХАУСДОРФА. ГРУППЫ СИММЕТРИЙ. ТЕОРЕМА ЛИ .............................. 48 1.9. КОММУТАТИВНОСТЬ ОДНОПАРАМЕТРИЧЕСКИХ ГРУПП И РАЗДЕЛЕНИЕ ДВИЖЕНИЙ В НЕЛИНЕЙНЫХ СИСТЕМАХ ............................................................. 57 1.10. УПРАВЛЯЕМОСТЬ НЕЛИНЕЙНЫХ СИСТЕМ ......................................................... 60 1.11. НАБЛЮДАЕМОСТЬ В НЕЛИНЕЙНЫХ СИСТЕМАХ .................................................. 72 1.12. ЛИНЕЙНЫЕ ЭКВИВАЛЕНТЫ НЕЛИНЕЙНЫХ СИСТЕМ. СИНТЕЗ НЕЛИНЕЙНЫХ РЕГУЛЯТОРОВ ............................................................... 81 1.13. ПРОВЕРКА ИНВОЛЮТИВНОСТИ РАСПРЕДЕЛЕНИЯ ВЕКТОРНЫХ ПОЛЕЙ ................. 87 1.2. 1.2.1. 1.2.2. 1.2.3.
ГЛАВА 2.
СИНТЕЗ РОБАСТНЫХ СИСТЕМ АВТОМАТИЧЕСКОГО УПРАВЛЕНИЯ В ПРОСТРАНСТВЕ СОСТОЯНИЙ ................................. 93
2.1. КОНЦЕПЦИЯ ФУНКЦИОНАЛЬНО-МНОЖЕСТВЕННОЙ ПРИНАДЛЕЖНОСТИ ................ 93 2.1.1. Понятие окрестности множества и функции или меры близости ........................................................................... 93 2.1.2. Модели рассматриваемых объектов управления в пространстве состояний ............................................................. 96 2.1.3. Величины в уравнениях состояния объекта, описание, допущения и ограничения ............................................... 97 2.1.4. Формирование цели управления ...................................................... 99 2.1.5. Формирование концепции функционально-множественной принадлежности (ФМП) на элементах пространства состояний ..........................................................................................101
776
Методы современной теории автоматического управления 2.2. 2.2.1.
РЕАЛИЗАЦИЯ КОНЦЕПЦИИ ФУНКЦИОНАЛЬНО-МНОЖЕСТВЕННОЙ ПРИНАДЛЕЖНОСТИ В ПРОСТРАНСТВЕ СОСТОЯНИЙ НА ОСНОВЕ МЕТОДА ОБОБЩЕННЫХ ФАЗОВЫХ ОГРАНИЧЕНИЙ ..............................................104
Постановка задачи по формированию структуры системы и алгоритмов управления на основе концепции функционально-множественной принадлежности .......................104 2.2.2. О методе фазовых ограничений и его обобщении .......................105 2.2.3. Формирование эквивалентных соотношений в виде максминных и минимаксных неравенств ............................107 2.2.4. Смешанные неравенства при структурных ограничениях на управление ....................................................................................110 2.2.5. О разрешимости при ограничениях на часть компонент вектора состояния ..........................................................................112 2.2.6. Условия разрешимости при наличии возмущений ........................113 2.2.7. Прямой синтез управления по фазовым ограничениям ...............114 2.3. РАСШИРЕНИЕ МЕТОДА ФАЗОВЫХ ОГРАНИЧЕНИЙ НА ε-ОКРЕСТНОСТЯХ МНОЖЕСТВ В ПРОСТРАНСТВЕ СОСТОЯНИЙ .......................................................120 2.3.1. Постановка задачи и предположения метода с учетом ε-окрестностей ................................................................................120 2.3.2. Метод фазовых ограничений на ε-окрестностях множества Q .....122 2.3.3. Метод фазовых ограничений при отображении ε-окрестностей на заданное множество ......................................124 2.3.4. Метод фазовых ограничений при отображении на нестационарные ε-окрестности ...............................................126 2.3.5. О проекционном подходе в задаче обеспечения фазовых ограничений .......................................................................130 2.3.6. Синтез управления при вариации нечетких фазовых ограничений, формируемых на основе функции близости ..........137 2.3.7. Построение законов управления методом «растяжения» границ фазовой области по энергетическим функциям .............144 2.4. ПОСТРОЕНИЕ РОБАСТНЫХ СИСТЕМ УПРАВЛЕНИЯ ПРИ МОДУЛЬНЫХ ОГРАНИЧЕНИЯХ .............................................................................................151 2.4.1. Постановка задачи синтеза линейной МСАУ при модульных фазовых ограничениях ...........................................151 2.4.2. Геометрические условия обеспечения фазовых ограничений .........154 2.4.3. Определение достаточных условий на параметры регулятора. Частный случай экспоненциальных ограничений .......155 2.4.4. Анализ разрешимости достаточных условий обеспечения фазовых ограничений .......................................................................158 2.4.5. Синтез МСАУ при ограничениях на качество регулирования .......159 2.4.6. О деформации фазовых ограничений для обеспечения разрешимости достаточных условий ...........................................162 2.4.7. Использование кругов Гершгорина для анализа разрешимости достаточных условий ...........................................164 2.4.8. О связи управляемости системы с расположением кругов Гершгорина. Оценка степени робастности системы .................168 2.4.9. Входные-выходные матрицы и их связь с разрешимостью достаточных условий ......................................................................171 2.4.10. О задании разрешимых фазовых ограничений ..............................172 2.4.11. Построение допустимых фазовых ограничений на основе разложения по элементам собственного вектора .........176 2.4.12. Критерий стабилизируемости системы управления ..................178 2.4.13. Процедура синтеза системы управления на основе управления максимальным собственным значением входной-выходной матрицы ............................................................180 2.4.14. Синтез регуляторов на основе непрерывной деформации фазовых многогранников ...........................................187
Содержание 2.5.
777 ПОСТРОЕНИЕ РОБАСТНЫХ СИСТЕМ УПРАВЛЕНИЯ ПРИ КВАДРАТИЧНЫХ ОГРАНИЧЕНИЯХ .............................................................................................199
2.5.1. 2.5.2. 2.5.3.
Постановка задачи синтеза при квадратичных ограничениях .......199 Получение достаточных условий на управление .........................202 Построение закона управления на основе достаточных условий ...............................................................................................205 2.5.4. Условия выполнения фазовых ограничений на классах синтезируемых законов управления ...............................................208 2.5.5. Анализ спектральных ограничений по значениям характеристического многочлена .................................................211 2.5.6. Оценка робастности системы при квадратичных ограничениях .....................................................................................213 2.5.7. Разрешимость задачи синтеза в классе линейных законов управления ...........................................................................215 2.5.8. О формировании двухуровневой системы управления при решении обобщенного матричного неравенства .................220 2.6. СИНТЕЗ РОБАСТНЫХ (η-РОБАСТНЫХ) СИСТЕМ УПРАВЛЕНИЯ ПО НЕПОЛНОМУ ВЕКТОРУ СОСТОЯНИЯ .............................................................225 2.6.1. Разрешимость задачи синтеза при несимметричных квадратичных ограничениях ...........................................................241 2.7. ПОСТРОЕНИЕ НЕЛИНЕЙНЫХ РОБАСТНЫХ СИСТЕМ ПРИ СТРУКТУРНО-ПАРАМЕТРИЧЕСКИХ НЕОПРЕДЕЛЕННОСТЯХ ................................254 2.7.1. Оценка робастности системы с помощью кругов Гершгорина ......260 2.8. СИНТЕЗ СИСТЕМ УПРАВЛЕНИЯ НА ОСНОВЕ ВАРИАЦИИ ВСПОМОГАТЕЛЬНЫХ ИНТЕГРАЛЬНЫХ ПОВЕРХНОСТЕЙ .......................................264 2.8.1. Решение задачи синтеза на основе метода ВИП для однородных динамических систем ...........................................270 2.8.2. Необходимые и достаточные условия обеспечения фазовых ограничений для однородных систем .............................276 ГЛАВА 3.
ТЕОРИЯ КАТАСТРОФ. ДЕТЕРМИНИРОВАННЫЙ ХАОС. ФРАКТАЛЫ ...............................................................................................279
3.1. ТЕОРИЯ КАТАСТРОФ .......................................................................................279 3.1.1. Введение ............................................................................................279 3.1.2. От аналитичности к гладкости. K-струи и ростки функций ......280 3.1.3. Регулярные и критические невырожденные точки гладких функций ................................................................................283 3.1.4. Неморсовские функции. Лемма расщепления. Функции катастроф .........................................................................292 3.1.5. Возмущение морсовских и неморсовских функций. Элементарные катастрофы ..........................................................293 3.1.6. Устойчивость. Качественные изменения в системе ..................298 3.1.7. Трансверсальность и устойчивость .............................................302 3.1.8. Многообразия катастрофы и бифуркационные множества .........303 3.1.9. Топология Уитни. Эквивалентность (устойчивость) функций с точки зрения теории непрерывных групп ...................306 3.1.10. Инфинитезимальная устойчивость. Алгоритм Д. Мазера ..........309 3.1.11. Деформация (универсальные возмущения) функции ....................314 3.1.12. Росток функции катастрофы ........................................................316 3.1.13 Пример исследования бифуркационного поведения летательного аппарата .................................................................319 3.2. ДЕТЕРМИНИРОВАННЫЙ ХАОС ..........................................................................324 3.2.1. Бифуркации и хаос ............................................................................324 3.2.2. Парадигмы хаоса: странный аттрактор Лоренца и логистическое уравнение .............................................................325 3.2.3. Бифуркация Хопфа и хаос. Критерий Рюэля–Такенса .................338 3.2.4. Качественные и количественные признаки хаоса ........................342
778
Методы современной теории автоматического управления 3.3. ФРАКТАЛЫ .....................................................................................................344 3.3.1. Понятие о фракталах .....................................................................344 3.3.2. Размерность Хаусдорфа–Безиковича ............................................344 3.3.3. Принцип самоподобия. Самоподобные фракталы ........................346 3.3.4. Классические фракталы ..................................................................348 3.3.5. Фрактальная размерность аттракторов. Применение теории фракталов в некоторых задачах управления .................351 3.3.6. L-системы. Тертл-графика .............................................................356 3.3.7. Аффинные преобразования .............................................................357 3.3.8. Метрика Хаусдорфа .........................................................................359 3.3.9. Система итерированных функций .................................................361 3.3.10. Случайные фракталы ......................................................................363 3.3.11. Множества Жюлиа ...........................................................................370 3.3.12. Множества Мандельброта .............................................................375
ГЛАВА 4.
АДАПТИВНЫЕ СИСТЕМЫ ......................................................................379
ОПРЕДЕЛЕНИЕ И КЛАССИФИКАЦИЯ АДАПТИВНЫХ СИСТЕМ .................................379 ПОСТАНОВКА ЗАДАЧИ СИНТЕЗА АДАПТИВНОЙ СИСТЕМЫ УПРАВЛЕНИЯ. ГИПОТЕЗА О КВАЗИСТАЦИОНАРНОСТИ ........................................380 4.3. МЕТОДЫ СИНТЕЗА АЛГОРИТМОВ АДАПТАЦИИ ...................................................383 4.4. ПОИСКОВЫЕ АДАПТИВНЫЕ СИСТЕМЫ ..............................................................384 4.4.1. Системы экстремального регулирования ....................................384 4.4.2. Поисковые алгоритмы непрямого адаптивного управления с настраиваемой моделью ..........................................385 4.5. БЕСПОИСКОВЫЕ АДАПТИВНЫЕ СИСТЕМЫ УПРАВЛЕНИЯ .....................................390 4.5.1. Синтез адаптивной системы методом функций Ляпунова ..........390 4.5.2. Схема скоростного градиента .......................................................397 4.5.3. Алгоритмы систем с переменной структурой ............................427 4.5.4. Адаптивные системы управления линейными объектами без измерения производных от выхода ..........................................444 4.5.5. Декомпозиция адаптивных систем на основе разделения движений ............................................................................................460 4.1. 4.2.
ГЛАВА 5.
ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ ........................................................465
5.1. МОДЕЛИ И АЛГОРИТМЫ ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМ .......................................470 5.1.1. Дифференциально-модельная концепция в систематике базы макрофизических знаний для интеллектуальных систем ..........470 5.1.2. Динамические экспертные системы в управлении ......................473 5.1.3. Комбинирование робастного и адаптивного управления с помощью интеллектуальных систем .........................................480 5.2. ПАРАЛЛЕЛЬНЫЕ АЛГОРИТМЫ ОБРАБОТКИ ИНФОРМАЦИИ И УПРАВЛЕНИЯ .............485 5.2.1. Синтез параллельных алгоритмов обработки информации в интеллектуальных динамических системах при внезапных возмущениях ..........................................485 5.2.2. Динамическая нейронная сеть для распознавания речевых сигналов ..............................................................................491 5.2.3. Нейросетевые технологии интеллектуальных систем ............497 5.2.4. Системы управления с нечеткой логикой .....................................502 5.3. СОЗДАНИЕ БАЗ ЗНАНИЙ ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМ ......................................522 5.3.1. Представление базы знаний в современных интеллектуальных системах .........................................................522 5.3.2. Информативность описания предметной области ....................527 5.3.3. Технологии для создания правил базы знаний ...............................529 5.3.4. Исследование качества работы алгоритмов ...............................535 5.3.5. Организация систем для поддержки и наполнения БЗ .................539 5.4. ИНСТРУМЕНТАЛЬНЫЕ СРЕДСТВА И РЕАЛИЗАЦИЯ ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМ .....544 5.4.1. Отображение интеллектуальной системы управления на архитектуру многопроцессорной вычислительной сети ........544
Содержание
779
5.4.2.
Стохастические методы решения задачи отображения алгоритмов и программ на мультитранспьютерные системы .....549 Стохастический метод попарной оптимизации подграфов ........555 Стохастический метод Монте-Карло ..........................................557 Стохастический метод наискорейшего спуска ...........................560 Распараллеливание явного метода решения нелинейной динамической системы ....................................................................565 Логико-динамические модели и программно-технические средства интеллектуальной системы управления дискретными производственными процессами ............................569 О некоторых задачах теории и техники интеллектуальных систем .............................................................580
5.4.3. 5.4.4. 5.4.5. 5.4.6. 5.4.7. 5.4.8. ГЛАВА 6.
ПРИМЕНЕНИЕ НЕЙРОКОМПЬЮТЕРОВ В СИСТЕМАХ УПРАВЛЕНИЯ ...........................................................................................585 6.1. СИСТЕМА УПРАВЛЕНИЯ С ЭВМ В КОНТУРЕ: СТРУКТУРА, ОСОБЕННОСТИ РАБОТЫ ..................................................................................585 6.2. НЕЙРОКОМПЬЮТЕРЫ — ЭВМ НОВОГО ПОКОЛЕНИЯ .........................................586 6.3. БИОЛОГИЧЕСКАЯ ПАРАЛЛЕЛЬ НЕЙРОКОМПЬЮТЕРАМ .........................................588 6.4. ЗАДАЧИ, РЕШАЕМЫЕ НЕЙРОКОМПЬЮТЕРАМИ ...................................................591 6.5. СХЕМА АБСТРАКТНОГО НЕЙРОКОМПЬЮТЕРА ....................................................591 6.6. МОДЕЛИ ФОРМАЛЬНЫХ НЕЙРОНОВ ..................................................................593 6.7. РАЗНОВИДНОСТИ ТОПОЛОГИЙ НЕЙРОННЫХ СЕТЕЙ ...........................................595 6.8. КЛАССИФИКАЦИЯ НЕЙРОННЫХ СЕТЕЙ ..............................................................598 6.9. СИНТЕЗ ФОРМИРУЕМЫХ СЕТЕЙ .......................................................................600 6.10. СЕТЬ ХОПФИЛДА ...........................................................................................610 6.11. ПОСТАНОВКА ЗАДАЧИ ОПТИМИЗАЦИИ ПРИ ОБУЧЕНИИ МНОГОСЛОЙНОЙ НЕЙРОННОЙ СЕТИ БЕЗ ОБРАТНЫХ СВЯЗЕЙ ..............................613 6.12. ЭВРИСТИЧЕСКИЙ АЛГОРИТМ ОПТИМИЗАЦИИ НА ОСНОВЕ ГЕНЕТИЧЕСКОГО АЛГОРИТМА В ПРОЦЕДУРЕ ОБУЧЕНИЯ НЕЙРОННОЙ СЕТИ .............620 6.13. НАСТРОЙКА НЕЙРОННОЙ СЕТИ НА РЕШЕНИЕ ЗАДАЧ КЛАССИФИКАЦИИ И РАСПОЗНАВАНИЯ ........................................................................................636 6.14. НЕЙРОЧИПЫ .................................................................................................643 6.14.1. Классификация нейрочипов .............................................................643 6.14.2. Нейропроцессор Л1879ВМ1 .............................................................644
ГЛАВА 7.
МЕТОДЫ ПОЛИЭДРАЛЬНОГО ПРОГРАММИРОВАНИЯ В ДИСКРЕТНЫХ ЗАДАЧАХ УПРАВЛЕНИЯ И НАБЛЮДЕНИЯ ............647 7.1. ОСНОВНЫЕ ПОЛОЖЕНИЯ ТЕОРИИ ПОЛИЭДРАЛЬНОГО ПРОГРАММИРОВАНИЯ ..........649 7.1.1. Элементы полиэдрального анализа ...............................................649 7.1.2. Задачи полиэдрального программирования ...................................655 7.2. ЛИНЕЙНО-ПОЛИЭДРАЛЬНЫЕ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ДИСКРЕТНЫМИ ОБЪЕКТАМИ ............................................................................659 7.2.1. Общая задача оптимального управления ......................................659 7.2.2. Проблема выбора критерия качества и линейно-квадратичная задача управления .................................661 7.2.3. Полиэдральные критерии качества процесса управления ............664 7.2.4. Чебышевский критерий качества процессов управления .............665 7.2.5. Полиэдральные фазовые и ресурсные ограничения .....................666 7.2.6. Терминальные цели управления полиэдральной структуры ...........667 7.2.7. Общая линейно-полиэдральная задача управления ......................667 7.3. ЛИНЕЙНО-ПОЛИЭДРАЛЬНЫЕ ЗАДАЧИ ПРЕДЕЛЬНОГО БЫСТРОДЕЙСТВИЯ ..............668 7.3.1. Оптимальные по быстродействию процессы управления ...........668 7.3.2. Пример решения задачи предельного быстродействия ..............671 7.4. ЛИНЕЙНО-ПОЛИЭДРАЛЬНАЯ ЗАДАЧА УПРЕЖДАЮЩЕГО УПРАВЛЕНИЯ ...................674 7.4.1. Метафора интеллектуального актогенеза и современная парадигма управления ............................................675 7.4.2. Ретроспектива идеи упреждающего управления .........................676 7.4.3. Стратегия упреждающего управления .........................................677
780
Методы современной теории автоматического управления 7.4.4. Обоснование стратегии упреждения ............................................679 7.4.5. Особенности стратегии упреждающего управления ..................681 7.4.6. Алгоритмизация задачи упреждающего управления ....................682 7.5. ЛИНЕЙНО-ПОЛИЭДРАЛЬНАЯ ЗАДАЧА УПРАВЛЕНИЯ В УСЛОВИЯХ НЕОПРЕДЕЛЕННОСТИ: ЭКСТРЕМАЛЬНЫЕ ВОЗМУЩАЮЩИЕ ФАКТОРЫ И ГАРАНТИРОВАННАЯ ПОЗИЦИОННАЯ СТРАТЕГИЯ УПРАВЛЕНИЯ .........................684 7.5.1. Детерминистская или стохастическая парадигма неопределенности? ..........................................................................685 7.5.2. Концепция гарантированного результата ...................................691 7.5.3. Экстремальные возмущающие факторы ......................................692 7.5.4. Гарантированная позиционная стратегия управления ...............699 7.6. ЛИНЕЙНО-ПОЛИЭДРАЛЬНЫЕ ЗАДАЧИ УПРАВЛЕНИЯ В УСЛОВИЯХ КОНФЛИКТА: ПОЛИЭДРАЛЬНЫЕ МНОГОШАГОВЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ ...............................702 7.6.1. Класс линейных полиэдральных многошаговых игр преследования ............................................................................703 7.6.2. Чистые минимаксные стратегии ..................................................706 7.6.3. Принцип гарантированного прогнозируемого промаха в полиэдральной игре преследования .............................................708 7.7. ЛИНЕЙНО-ПОЛИЭДРАЛЬНЫЕ ЗАДАЧИ НАБЛЮДЕНИЯ ..........................................711 7.7.1. Стохастический и детерминистский подходы в задачах наблюдения .......................................................................712 7.7.2. Задача дискретного чебышевского приближения ........................715 7.7.3. Наблюдение состояния свободной системы .................................716 7.7.4. Совместное оценивание состояния системы и внешнего возмущения ...................................................................717 7.8. ЗАКЛЮЧЕНИЕ ................................................................................................719
ПРИЛОЖЕНИЕ 1. АЛГОРИТМ «ДИФФЕРЕНЦИАЛЬНОЙ ЭВОЛЮЦИИ» ДЛЯ ЗАДАЧ ТЕХНИЧЕСКОГО ПРОЕКТИРОВАНИЯ .............................721 П.1.1. ВВЕДЕНИЕ .....................................................................................................721 П.1.2. ФОРМУЛИРОВКА ПРОБЛЕМЫ ...........................................................................722 П.1.3. ДИФФЕРЕНЦИАЛЬНАЯ ЭВОЛЮЦИЯ ...................................................................724 П.1.4. ОГРАНИЧЕНИЯ ...............................................................................................725 П.1.5. ЦЕЛЫЕ И ДИСКРЕТНЫЕ ПЕРЕМЕННЫЕ ..............................................................727 П.1.6. РЕЗУЛЬТАТЫ .................................................................................................727 П.1.7. ЗАКЛЮЧЕНИЕ ................................................................................................728 ПРИЛОЖЕНИЕ 2. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ И КОНФЛЮЭНТНЫЙ АНАЛИЗ .....729 П.2.1. МАТЕМАТИЧЕСКАЯ ПОСТАНОВКА ЗАДАЧИ ОЦЕНИВАНИЯ ПАРАМЕТРОВ С ПОГРЕШНОСТЯМИ В ИСХОДНЫХ ДАННЫХ .......................................................732 П.2.2. БАЙЕСОВСКАЯ ПРОЦЕДУРА ОЦЕНИВАНИЯ ........................................................735 П.2.3. МАТЕМАТИЧЕСКАЯ ПОСТАНОВКА ЗАДАЧИ СИНТЕЗА ...........................................736 П.2.4. ОЦЕНКИ В КОНФЛЮЭНТНОМ АНАЛИЗЕ ..............................................................737 П.2.5. ОЦЕНИВАНИЕ ПАРАМЕТРОВ ФУНКЦИИ ИЗВЕСТНОГО ВИДА В ПАССИВНОМ ЭКСПЕРИМЕНТЕ ........................................................................737 П.2.6. ОЦЕНКА ПАРАМЕТРОВ ЛИНЕЙНЫХ ФУНКЦИЙ И РЕШЕНИЕ СИСТЕМЫ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ ........................................................741 П.2.7. ОПТИМАЛЬНАЯ ОЦЕНКА ВЕКТОРА СОСТОЯНИЯ ЛИНЕЙНОЙ ДИНАМИЧЕСКОЙ СИСТЕМЫ СО СТОХАСТИЧЕСКИМИ МАТРИЦАМИ СИСТЕМЫ И ИЗМЕРЕНИЙ ............742 П.2.8. О СТАТИСТИЧЕСКОЙ ЛИНЕАРИЗАЦИИ НЕЛИНЕЙНОСТИ С ПОМОЩЬЮ КОНФЛЮЭНТНОГО АНАЛИЗА ............................................................................746 П.2.9. ОЦЕНКИ ПАРАМЕТРОВ В АКТИВНОМ ЭКСПЕРИМЕНТЕ .........................................750 ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ ........................................................753 ТЕМА 1.
ДИФФЕРЕНЦИАЛЬНО-ГЕОМЕТРИЧЕСКИЕ МЕТОДЫ ........................753
ТЕМА 2.
АДАПТИВНЫЕ СИСТЕМЫ ......................................................................757
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ ..........................................................................................761 СПИСОК ЛИТЕРАТУРЫ .................................................................................................763
781
TEXTBOOK ANNOTATION The textbook “Methods of Classic and Modern Control Theory” includes five volumes: Volume I — “Description and Analysis of Automatic Control Systems” Volume II — “Stochastic Dynamics of Automatic Control Systems” Volume III — “Controllers Design” Volume IV — “Automatic Control Systems Optimization Theory” Volume V — “Methods of Modern Control Theory” I. Characteristic features of the textbook 1. This textbook is addressed to the wide range of readers: a) The beginning control theory students. It should be mentioned that this subject may be both an obligatory one evaluating the level of engineer’s proficiency and an optional one. b) Students and specialists resuming studies in the field of control theory because of expanding range of problems concerned with automation processes. c) Students and specialists who want to refresh their knowledge by studying a part of the textbook that has not been included into engineering specialities curriculum. The readers are to choose the material according to a particular tasks a), b), c) and to general curriculum opportunities. Taking into consideration the purpose of the textbook it should be noted that it presents sufficient material to make a proper choice. 2. Material introduction methods The textbook attempts to provide readers with knowledge of control theory methods from fundamental concepts of control theory (control aims and concepts, control systems analysis, systems classification, analysis and synthesis of the main tasks and others) to its state-of-the-art issues. Getting a deep insight into the problems of control theory is impossible within the framework of current syllabus, that’s why the subject matter of some trends has not been included into this textbook. 3. The level of readers’ mathematical background The authors have tried to set out the material in a simple and readily available form. A scope of knowledge of higher mathematics necessary for understanding the contents corresponds to the syllabus for earlier stages of tuition at higher technical educational institutions. The textbook implements concepts of functional analysis. The necessary information is given in corresponding section of the textbook. Owing to language application and the results of functional analysis bring about the more thorough discussion of the essence of each method, the opportunity of obtaining in-depth theoretical information as well as correlation of methods that seem entirely different at first sight. 4. Technical trend of the textbook The subject matter of the textbook is given from the engineering point of view. The author stresses the main ideas of forming basis of methods but does not always adduce strict methodological proofs. The textbook is supposed to find simpler methods for solving practical tasks. Besides, the presentation of the materials is intended to help students realize the practicality of described methods. In most cases the methods are reduced to computing algorithms. Tables and other additional materials are available to facilitate their application. The main merit of the textbook is the outline of the use of particular control systems in the atomic industry for thermotechnical processes control: • The textbook presents principal, functional and structural circuits of the system. • It illustrates the calculations using particular algorithms. • It gives the analysis of the results, etc. It is impossible to study control theory without mastering the engineering aspect. That is why the engineering aspect of formulating and solving practical tasks is emphasized throughout the course. 5. “Computing colouring” of the material The contents of the book is characterized by a certain “computing colouring” because present-day computers make it possible to reduce greatly automatic control systems designing time, stressing thus the significance of numerical methods in automatic control theory.
782 The author of the textbook has tried to take into account that the computer-aided control system design depends on many factors: • The adequacy degree of system mathematical model. • The efficiency degree of numerical methods used in algorithmic support. • The availability of high-quality software. • The extent of using the creative ability of the researcher-designer. II. The contents 1. Mathematical models of automatic control systems The problems of mathematical description of singular and nonsingular linear and nonlinear control systems, systems with distributed constants, continuous discrete systems are considered in the textbook in detail. Much attention is paid to the state space method in linear systems which gives basically new possibilities of the system analysis and control laws synthesis. The description by Volterra series is described in nonlinear system class. 2. Deterministic analysis of automatic control systems The system theory methods has been studied to solve the following problems: a). The investigation of the steady-state singular, nonstationary and nonlinear systems: – the criteria of stability are considered in detail; – much attention is paid to nonlinear system class; (The original material concerning the problems of stability is given in the corresponding chapter.) b). The analysis of system performance in unstable mode and creation of output processes. c). The investigation of performance accuracy in stable mode. 3. Statistic analysis of automatic control systems The textbook deals with technical methods of the broad class ACS statistic research, including nonlinear and stochastically disturbed systems. 4. Filtration and control systems statistical synthesis This chapter includes the following methods: a). Optimal filter synthesis on basis of Kolmogorov–Wienner’s theory as well as R. Calman and R. Busy. b). Synthesis of optimal observers. c). Synthesis of optimal analytical and nonlinear filters, described by Volterra series, etc. 5. Numerical methods of complex control system analysis under deterministic and stochastic inputs Matrix operator method forms the basis for computer-aided control system investigation useful for algorithmization and programming. 6. Control objects identification Formulation of identification problem for linear and nonlinear objects classes, its main aspects and engineering approach to its solution are outlined in this textbook. 7. Control system synthesis based on quality (controller synthesis) Alongside with traditional methods of controller synthesis (frequency, modal control, dynamic compensation methods etc.), great attention is devoted to the application of mathematical programming due to the fact, that it determines general approach to optimization problems solution and is computer-aided. 8. Synthesis of optimal automatic control systems The following problems were analysed: a). Basis principles of calculus of variations; b). Pontryagin’s maximal principle including the problem of state variables; c). Dynamic programming; d). Linear-quadratic problems; e). Method of moments; f). Mathematical programming as applied to optimal program controls development. 9. Methods of up-to-date CAD theory Methods include rough control systems synthesis, H-control theory and robust methods as well as the problems of multi-object and multi-criteria systems optimization as well as application of effective compromises, calculation tasks and design of adaptive and intellectual control systems, differential geometry methods application for control theory, etc.
Учебное издание Константин Александрович Пупков Николай Дмитриевич Егупов Александр Иванович Баркин Александр Владимирович Зайцев Сергей Владимирович Канушкин Людмила Георгиевна Комарцова Мария Олеговна Корлякова Юрий Петрович Корнюшин Владимир Иванович Краснощеченко Александр Петрович Курдюков Александр Викторович Максимов Дмитрий Владимирович Мельников Юрий Игоревич Мышляев Владимир Николаевич Пилишкин Виктор Михайлович Рыбин Геннадий Федорович Утробин Николай Васильевич Фалдин Николай Борисович Филимонов
МЕТОДЫ КЛАССИЧЕСКОЙ И СОВРЕМЕННОЙ ТЕОРИИ АВТОМАТИЧЕСКОГО УПРАВЛЕНИЯ В пяти томах Том 5 МЕТОДЫ СОВРЕМЕННОЙ ТЕОРИИ АВТОМАТИЧЕСКОГО УПРАВЛЕНИЯ Редакторы C.Н. Капранов, К.Ю. Савинченко Корректоры Н.Г. Варварская, Т.В. Тимофеева Компьютерная верстка А.Л. Репкин, М.Р. Фишер Изд. лиц. №020523 от 25.04.97. Подписано в печать 10.09.2004. Формат 70×100 1/16. Печ. л. 49. Усл. печ. л. 63,7. Бумага офсетная. Печать офсетная. Тираж 2500 экз. Заказ №193 Издательство МГТУ им. Н.Э. Баумана 107005, Москва, 2-я Бауманская, 5 Оригинал-макет подготовлен редакционно-издательским отделом филиала МГТУ им. Н.Э. Баумана в г. Калуге совместно с Издательским Домом «Манускрипт» Отпечатано с готового оригинал-макета в ГП «Облиздат» 248640, г. Калуга, пл. Старый Торг, 5 Налоговая льгота — общероссийский классификатор продукции ОК–005–93, том 2; 953000 — книги, брошюры I SBN 5 - 7 0 3 8 - 2 1 9 3 - 2
9 785703 821930