Kontrolltheorie I Wintersemester 2002/2003 Fritz Colonius Institut f¨ ur Mathematik Universit¨at Augsburg
[email protected] April 11, 2003
i u ¨
ii
Contents 1 Einleitung
1
2 Lineare Differentialgleichungen 2.1 Grundlegende Definitionen . . . . . 2.2 Die Matrixexponentialfunktion . . . 2.3 Darstellung der L¨osungen . . . . . 2.4 Stabilit¨at . . . . . . . . . . . . . . 2.5 Stabilit¨at und St¨orung . . . . . . . 2.6 Quadratische Lyapunov Funktionen 2.7 Linearisierung . . . . . . . . . . . .
. . . . . . .
11 11 13 18 23 30 34 40
3 Lineare Kontrollsysteme 3.1 Kontrollierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Beobachtbarkeit und Dualit¨at . . . . . . . . . . . . . . . . . . 3.3 Lineare Systeme mit beschr¨ankten Kontrollen . . . . . . . . .
47 47 56 62
4 Feedback und Stabilisierung 4.1 Linearisierung von Kontrollsystemen . . . . . . . . . . 4.2 Stabilisierende Feedbacks . . . . . . . . . . . . . . . . . 4.3 St¨orungsentkopplung . . . . . . . . . . . . . . . . . . . 4.4 Stabilisierbarkeit und Asymptotische Kontrollierbarkeit 4.5 Dynamische Beobachter und Stabilisatoren . . . . . . .
69 69 71 78 81 83
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . .
. . . . . . .
. . . . .
. . . . . . .
. . . . .
. . . . .
5 Optimale Steuerung 91 5.1 Lineare Zeitoptimale Steuerung . . . . . . . . . . . . . . . . . 91 5.2 Dynamische Optimierung und Hamilton-Jacobi-Gleichung . . 104 5.3 Das Linear-Quadratische Problem . . . . . . . . . . . . . . . . 110 iii
iv
CONTENTS
6 Stabilisierung Nichtlinearer Systeme 121 6.1 Brocketts Notwendige Bedingung . . . . . . . . . . . . . . . . 121
CONTENTS
v
Vorbemerkung Diese Vorlesung gibt eine Einf¨ uhrung in die Kontrolltheorie. Dabei werden die im Literaturverzeichnis angegebenen Quellen - auch ohne besonderen Hinweis im Text - intensiv benutzt. In diesem Skript sind eine Reihe von Irrt¨ umern und Schreibfehlern korrigiert. Dank vor allem an Stefan Rothbauer f¨ ur seine vielen Hinweise! Augsburg, den 10.4.2003. Fritz Colonius
Chapter 1 Einleitung Diese Vorlesung gibt eine Einf¨ uhrung in die Kontrolltheorie. Genauer handelt es sich um Probleme der Kontrolle von Systemen, die durch gew¨ohnliche Differentialgleichungen beschrieben werden. Eine Standardreferenz hierf¨ ur ist das Buch von Eduardo Sontag [9]; f¨ ur nichtlineare Kontrollsysteme sind auch insbesondere die B¨ ucher Nijmeijer/Van der Schaft [8] und Isidori [7] zu nennen. Zun¨achst werden wir ein einfaches und klassisches Beispiel aus der Mechanik diskutieren, das mathematische Pendel oder, moderner interpretiert, die Bewegung eines Roboterarms. Dabei treten bereits eine Reihe typischer Probleme und Konzepte der Kontrolltheorie auf. Eine sch¨one Herleitung der Differentialgleichung f¨ ur das Pendel findet man in Aulbach [3, Beispiel 1.3.3], vergleiche auch Sontag [9, Chapter 1]. Wir betrachten ein Pendel, das aus einer masselosen starren Stange und einem daran befestigten Massepunkt besteht. Das Pendel soll sich unter dem Einfluss der senkrecht nach unten wirkenden Schwerkraft befinden. Wir bezeichnen die Winkelposition des Pendels mit ϕ ∈ [0, 2π), so dass ϕ(t) ˙ die Winkelgeschwindigkeit und ϕ ¨ (t) die Winkelbeschleunigung zum Zeitpunkt t bezeichnet. Die Lage, Geschwindigkeit und Beschleunigung des Punktes M des sich auf dem Kreis mit Radius l bewegenden Punktes erh¨alt man einfach durch Multiplikation von ϕ(t), ϕ(t) ˙ und ϕ ¨ (t) mit l. Zur Herleitung einer Differentialgleichung f¨ ur ϕ benutzen wir das Newtonsche Kraftgesetz: Kraft = Masse mal Beschleunigung zu jedem Zeitpunkt t. Hier ist Masse mal Beschleunigung gegeben durch mlϕ ¨ (t). 1
2
CHAPTER 1. EINLEITUNG
Die zur Zeit t wirkende Kraft ist die tangentiale Komponente der (nach unten gerichteten) Schwerkraft −mg, also −mg sin ϕ(t). Dar¨ uberhinaus ber¨ ucksichtigen wir eine Reibungskraft, die der momentanen Geschwindigkeit proportional und entgegengesetzt ist, also −k ϕ(t) ˙ mit einer Proportionalit¨atskonstanten k (dies ist eine stark vereinfachende Annahme! Die Modellierung von Reibungskr¨aften ist sehr schwierig). Wir erhalten nach Newton also −mg sin ϕ(t) − k ϕ(t) ˙ = ml¨ ϕ(t) oder
g k ϕ˙ − sin ϕ. lm l Wir nehmen jetzt zus¨atzlich an, dass ein Motor am Drehpunkt angebracht ist, der eine Kraft (oder ein Drehmoment) u(t) auf den Roboterarm aus¨ ubt. Dann modifiziert sich die Gleichung zu ϕ ¨ (t) = −
ϕ ¨ (t) = −
k g ϕ˙ − sin ϕ + u(t). m l
In dieser Gleichung entspricht ϕ = 0 dem senkrecht nach unten h¨angenden Roboterarm und ϕ = π dem senkrecht nach oben stehenden Roboterarm. Wir interessieren uns f¨ ur die Position ϕ = π. Der Einfachheit halber normieren wir die Konstanten m = g = l = 1, so dass ϕ ¨ (t) = −k ϕ˙ − sin ϕ + u(t). Setzen wir ϑ = ϕ − π, so ¨andern sich die Gleichungen zu ¨ = −k ϑ(t) ˙ − sin[ϑ(t) + π] + u(t). ϑ(t) Die Ruhelage in der senkrechten Position ϑ(t) ≡ 0 mit Geschwindigkeit ϑ˙ ≡ 0 ist offenbar eine L¨osung dieser Differentialgleichung f¨ ur u(t) ≡ 0. Aus offensichtlichen physikalischen Gr¨ unden ist diese Ruhelage bei u = 0 “instabil”. Unser Kontrollproblem (Steuerungs- oder Regelungsproblem) besteht darin,
3 kleine Abweichungen aus dieser Ruhelage durch geeignete Wahl von u zu korrigieren. Der Sinus-Term ist nichtlinear; wir k¨onnen aber ein lineares System herleiten, indem wir f¨ ur “kleine” Abweichungen ϕ ≈ 0 die Approximation sin ϕ ≈ ϕ benutzen, oder f¨ ur ϑ nahe 0 sin[ϑ + π] ≈ −ϑ. Man erh¨alt ¨ + k ϑ(t) ˙ − ϑ(t) = u(t). ϑ(t) Schreiben wir ˙ x1 (t) = ϑ(t) und x2 (t) = ϑ(t) so erh¨alt man x˙ 1 = x2 x˙ 2 = −kx2 + x1 + u(t) oder
µ
x˙ 1 x˙ 2
¶
=
µ
0 1 1 −k
¶µ
x1 x2
¶
+
µ
0 1
¶
u(t).
Wir erwarten nat¨ urlich, dass diese Gleichung das Verhalten des Ausgangsystems in der N¨ahe der (oberen) Ruhelage ann¨ahernd beschreibt. Dieses Vorgehen (Linearisierung des Systems) werden wir sp¨ater mathematisch analysieren. Jetzt beschr¨anken wir uns auf die Analyse der linearisierten Gleichung. Unser Ziel ist es, das System durch geeignete Wahl von u f¨ ur (x1 , x2 ) 6= (0, 0) m¨oglichst schnell und mit m¨oglichst wenig Oszillationen wieder nach (0, 0) zu bringen. Ansatz: u = −αx1 mit α > 0. Dies nennt man ein proportionales Feedback mit dem “Feedback-Gain” α. Einsetzen liefert µ ¶ µ ¶µ ¶ µ ¶ x˙ 1 0 1 x1 0 = + (−αx1 ) x˙ 2 1 −k x2 1 oder
µ
x˙ 1 x˙ 2
¶
=
µ
0 1 1 − α −k
¶µ
x1 x2
¶
.
4
CHAPTER 1. EINLEITUNG
Zur Vereinfachung nehmen wir jetzt an, dass k = 0 gilt. Dann ¶ µ ¶µ ¶ µ 0 1 x1 x˙ 1 = x˙ 2 1−α 0 x2 oder ¨ = (1 − α)ϑ. ϑ µ ¶ 0 1 Die Eigenwerte von sind die L¨osungen von 1−α 0 z 2 + α − 1 = 0, f¨ ur α > 1 also
√ z1,2 = ±i α − 1.
Daher sind f¨ ur α > 1 die L¨osungen Ellipsen. F¨ ur α < 1 gehen alle L¨osungen betragsm¨aßig gegen ∞, außer denen mit √ x2 (0) = −x1 (0) 1 − α. F¨ ur α = 1 sind alle Anfangswerte mit x2 (0) = 0 Ruhelagen (also ϕ(0) ˙ =0 liefert ϕ(t) ˙ = 0 f¨ ur alle t). Wir sehen also, dass proportionales Feedback hier nicht funktioniert. Wir werden einen “D¨ampfungsterm” hinzuf¨ ugen: Ansatz: u(t) = −αx1 (t) − βx2 (t) mit α > 1 und β > 1. Dies ist ein PD-Feedback (proportional-derivative). Man beachte, dass zur Implementierung dieses Feedbacks nicht nur der momentane Zustand x1 (t) = ϑ(t), sondern auch seine Geschwindigkeit x2 (t) = ˙ ϑ(t) gemessen werden muss. Einsetzen liefert ¨ + β ϑ˙ + (α − 1)ϑ = 0 ϑ oder
µ
x˙ 1 x˙ 2
¶
=
µ
Die zugeh¨origen Eigenwerte sind z1,2 = −
0 1 1 − α −β
β 1 ± 2 2
q
¶µ
x1 x2
β 2 − 4(α − 1).
¶
5 Ist β 2 − 4(α − 1) ≤ 0, so ist der Realteil der Eigenwerte gleich − β2 < 0, die L¨osungen konvergieren dann f¨ ur t → ∞ gegen 0. Will man auch Oszillationen um den Nullpunkt vermeiden, so muss β 2 − 4(α − 1) > 0 gew¨ahlt werden; auch dann haben beide Eigenwerte negativen Realteil. Das PD-Feedback stabilisiert also das linearisierte System; wir werden sp¨ater sehen, dass es in einer Umgebung der Ruhelage auch f¨ ur das nichtlineare Systeme funktioniert. Dies ist ein Beispiel eines allgemeinen Linearisierungsprinzips in der Kontrolltheorie:
Designs, die auf Linearisierung beruhen, funktionieren lokal f¨ ur das nichtlineare System.
Dieses Prinzip, das jeweils unter entsprechenden Voraussetzungen zu pr¨azisieren ist, liefert die Rechtfertigung f¨ ur das intensive Studium linearer Kontrollsysteme. Unser obige PD-Kontrolle hat die Form eines Feedbacks, ist also vom augenblicklichen Zustand x des Systems abh¨angig. Eine Alternative sind zeitabh¨angige Kontrollen u, die nur von t abh¨angen, nicht von x. Die fol¨ gende Uberlegung demonstriert, warum man bei Stabilisierungsproblemen Feedback verwenden muss. Betrachte das linearisierte System (mit k = 0) ¨ − ϑ(t) = u(t). ϑ(t) mit festem Anfangswert ˙ ϑ(0) = 1, ϑ(0) = −2. Die Steuerung u(t) = 3 e−2t liefert die L¨osung ϑ(t) = e−2t , wie man durch Einsetzen nachpr¨ uft: ¨ = 4e−2t ϑ˙ = −2e−2t , ϑ
6
CHAPTER 1. EINLEITUNG
also ˙ ¨ − ϑ(t) = 4e−2t − e−2t = 3e−2t = u(t). ϑ(0) = 1, ϑ(0) = −2, ϑ(t) Die L¨osung konvergiert dann f¨ ur t → ∞ gegen (0, 0)T . Ist der Anfangswert jedoch ˙ ϑ(0) = 1, ϑ(0) = −2 + ε, mit ε 6= 0, . so f¨ uhrt Anwendung derselben Steuerung zu unbeschr¨ankten L¨osungen. ¨ (Ubungsaufgabe! Hinweis: Beachte, dass d d sinh t = cosh t und cosh t = sinh t.) dt dt ¨ Kleine Anderungen oder Ungenauigkeiten in den Startwerten f¨ uhren also dazu, dass die (vorab berechnete) Steuerung wertlos f¨ ur Stabilisierung wird. Bei der PD-Regelung tritt dieses Problem, wie oben gesehen, nicht auf. Das linearisierte Kontrollsystem l¨asst sich in der Form x(t) ˙ = Ax(t) + Bu(t) mit x=
µ
x1 x2
¶
, A=
µ
0 1 1 0
¶
, B=
µ
0 1
¶
schreiben. Kontrollsysteme dieser Form mit konstanten Matrizen A ∈ Rd×d und B ∈ Rd×m heißen lineare autonome (oder zeitinvariante) Kontrollsysteme von endlicher Dimension in stetiger Zeit (dies bedeutet implizit, das es auch nichtlineare und nichtautonome Kontrollsysteme und solche von unendlicher Dimension und solche in diskreter Zeit gibt). In dieser Vorlesung werden wir uns mit linearen und nichtlinearen Kontrollsystemen der Form x(t) ˙ = f (x(t), u(t)) von endlicher Dimension besch¨aftigen. F¨ ur das obige lineare Kontrollsystem haben wir ein Feedback der Form µ ¶ ¡ ¢ x1 u = F x = −α −β x2
konstruiert. Einsetzen in das open loop system x˙ = Ax+Bu ergibt das closed loop oder Feedback-System x˙ = (A + BF )x.
7 Bei geeigneter Wahl von F haben alle Eigenwerte, also die Nullstellen des charakteristischen Polynoms χA+BF (z) = det[zI − (A + BF )], negative Realteile. Dies garantiert, dass alle L¨osungen f¨ ur t → ∞ gegen 0 laufen. Dies f¨ uhrt auf das allgemeine Problem: Gegeben seien Matrizen A ∈ Rd×d und B ∈ Rd×m ; charakterisiere die m¨oglichen Mengen von Eigenwerten, wenn F alle Matrizen in Rm×d durchl¨auft.
Der f¨ ur die lineare Systemtheorie zentrale Polverschiebungsatz, den wir sp¨ater beweisen werden, l¨ost dieses Problem vollst¨andig. H¨aufig ist nicht der gesamte Zustand des Systems einer Messung zug¨anglich und damit f¨ ur ein Feedback verwendbar. W¨ahrend das PD-Feedback f¨ ur das ˙ invertierte Pendel zum Beispiel den gesamten Zustand x = (x1 , x2 ) = (ϑ, ϑ) des Systems verwendet, benutzt das P -Feedback nur x1 = ϑ. Definiert man hier µ ¶ ¡ ¢ x1 2 C : R → R, 7→ x1 , also in Matrizendarstellung C = 1 0 , x2 so erh¨alt man ein lineares System mit Output
x˙ = Ax + Bu, y = Cx. Eine lineares Feedback der Form u = Ky = KCx mit einer Matrix K der entsprechenden Dimension, wird als statisches Output-Feedback bezeichnet. Feedbacks dieser Form sind meist nicht geeignet (wie oben gesehen), das Stabilisierungsproblem zu l¨osen. Stattdessen f¨ uhrt jedoch h¨aufig ein dynamisches Output-Feedback zum Erfolg: Man benutzt eine Differentialgleichung (einen dynamischen Beobachter ), um aus dem Output den Zustand zu sch¨atzen, und verwendet dann diese Sch¨atzung im Feedback. Diese Konstruktion ist sogar n¨ utzlich, wenn alle Zustandsvariablen im Feedback zur Verf¨ ugung stehen, jedoch St¨orungen auf das System
8
CHAPTER 1. EINLEITUNG
wirken. Als Illustration soll wieder das linearisierte invertierte Pendel dienen, auf das eine konstante additive St¨orung (zum Beispiel Wind) d(t) ≡ e ∈ R wirkt: ¨ − ϑ(t) = u(t) + e. ϑ(t) Eine PD-Kontrolle ˙ α, β > 0, u = −αϑ − β ϑ, stabilisiert das System f¨ ur e = 0. Ist jedoch e 6= 0, so gilt f¨ ur keine L¨osung des Feedback-Systems ¨ − ϑ(t) + αϑ(t) + β ϑ(t) ˙ ϑ(t) = e, dass ϑ(t) → 0 f¨ ur t → ∞. Dies liest man aus der L¨osungsformel f¨ ur diese T T ˙ Gleichung ab: Mit x = (x1 , x2 ) = (ϑ, ϑ) ist x˙ 1 (t) = x2 (t) x˙ 2 (t) = (1 − α)x1 − βx2 , das heisst
µ
x˙ 1 x˙ 2
¶
=
µ
0 1 1 − α −β
¶µ
x1 x2
¶
+
µ
e 0
¶
oder x˙ = Gx + e¯ mit G=
µ
0 1 1 − α −β
¶
, e¯ =
µ
0 e
¶
.
Die Variation-der-Parameter-Formel liefert Z t Gt x(t) = e x(0) + eG(t−s) e¯ ds. 0
Da das obige PF-Feedback das homogene System stabilisiert, gilt eGt x(0) → 0 f¨ ur t → ∞. Rt Weil aber die zweite Komponente von 0 eG(t−s) ds f¨ ur t → ∞ nicht gegen 0 geht (warum?), konvergiert auch x(t) nicht gegen 0. Zur Konstruktion eines Feedbacks, das die St¨orung e kompensiert, fassen wir e als eine zus¨atzliche
9 (nicht messbare) Zustandsvariable auf, die durch die triviale Differentialgleichung e˙ = 0 beschrieben wird. Das open-loop-System hat also die Form e(t) ˙ = 0, x˙ 1 (t) = x2 (t), x˙ 2 (t) = x1 (t) + e(t) + u(t). Nach den obigen Bemerkungen liegt es dann nahe, ein dynamisches Zustandsfeedback zu verwenden. W¨ahle mit α, β, µ ∈ R als Feedback u = −αx1 − βx2 − µx0 , wobei x0 eine L¨osung von x˙ 0 = x1 ist. In der Tat gibt es Zahlen α, β, µ ∈ R, so dass f¨ ur alle e ∈ R die L¨osungen von x˙ 0 (t) = x1 (t), x˙ 1 (t) = x2 (t), x˙ 2 (t) = −µx0 (t) + (1 − α)x1 (t) − βx2 (t) + e f¨ ur t → ∞ gegen ( µe , 0, 0) konvergieren. Die Komponenten x1 = ϑ und x2 = ϑ˙ konvergieren, wie gew¨ unscht, f¨ ur t → ∞ also gegen 0. In den urspr¨ unglichen Variablen ist die Kontrolle gegeben durch Z t ˙ ϑ(s) ds u(t) = −αϑ − β ϑ − µ 0
Dies ist auch als PID-Regler (proportional-integral-derivative) bekannt, der in Anwendungen von Ingenieuren am h¨aufigsten verwendete Regler. Teil dieses Reglers ist die Differentialgleichung x˙ 0 = x1 .
10
CHAPTER 1. EINLEITUNG
Chapter 2 Lineare Differentialgleichungen In diesem Kapitel werden wir - in aller K¨ urze - lineare autonome Differentialgleichungen diskutieren. Dies wird in den folgenden Kapiteln zun¨achst ausreichen. Wir werden aber die Definitionen f¨ ur allgemeine Differentialgleichungen geben, weil dies sp¨ater ben¨otigt wird, und wir so Schreibarbeit sparen. Ausf¨ uhrlichere Informationen geben zum Beispiel Aulbach [3] oder Amann [2].
2.1
Grundlegende Definitionen
Eine gew¨ohnliche Differentialgleichung setzt die Ableitung einer Funktion x : R → Rn nach ihrem (eindimensionalen) Argument mit der Funktion selbst in Beziehung. Formal beschreibt dies die folgende Definition. 2.1.1. Definition. Eine gew¨ohnliche Differentialgleichung (DGL) im Rn ist gegeben durch die Gleichung d x(t) = f (t, x(t)), dt
(2.1.1)
wobei f : R ⊂ Rn → Rn eine stetige Funktion ist und Vektorfeld genannt wird. Eine L¨osung von (2.1.1) ist eine stetig differenzierbare Funktion x : R → Rn die (2.1.1) erf¨ ullt. Ist f (x) = Ax
(2.1.2)
mit einer Matrix A ∈ Rn×n , so handelt es sich um eine autonome lineare Differentialgleichung. 11
12
CHAPTER 2. LINEARE DIFFERENTIALGLEICHUNGEN Einige Anmerkungen zur Notation bzw. Sprechweise: • Die unabh¨angige Variable t werden wir u ¨blicherweise als Zeit interpretieren, obwohl (abh¨angig vom modellierten Sachverhalt) gelegentlich auch andere Interpretationen m¨oglich sind. • Statt
d x(t) dt
schreiben wir oft kurz x(t). ˙
• Die L¨osungsfunktion x(t) nennen wir auch L¨osungskurve oder Trajektorie. H¨aufig ist sie nicht auf ganz R, sondern nur auf einem Teilintervall definiert. • Man spricht auch von einem Differentialgleichungssystem, falls n > 1. Das folgende Lemma beschreibt L¨osungsfunktionen f¨ ur die einfachste Differentialgleichung. 2.1.2. Lemma. Es sei λ ∈ R. F¨ ur jede Konstante C ∈ R l¨ost die Funktion x(t) = Ceλt , t ∈ R, die Differentialgleichung x˙ = λx. Beweis: Es gilt f¨ ur jedes t ∈ R d d x(t) = Ceλt = Cλeλt = λx(t). dt dt Dieses Lemma zeigt, dass es unendlich viele L¨osungen gibt, die durch die reelle Konstante C parametrisiert sind. Um eindeutige L¨osungen zu erhalten, m¨ ussen wir eine weitere Bedingung festlegen. Dies geschieht in der folgenden Definition, die wir wieder f¨ ur allgemeine Differentialgleichungen formulieren. 2.1.3. Definition. Ein Anfangswertproblem f¨ ur die gew¨ohnliche Differentialgleichung (2.1.1) besteht darin, zu gegebenem t0 ∈ R und x0 ∈ Rn eine L¨osungsfunktion x(·) zu finden, die (2.1.1) erf¨ ullt und f¨ ur die dar¨ uberhinaus die Gleichung x(t0 ) = x0 gilt. Diese L¨osung schreiben wir x(·; t0 , x0 ) und im Spezialfall t0 = 0 schreiben wir kurz x(·; x0 ). Die Zeit t0 ∈ R bezeichnen wir als Anfangszeit, den Wert x0 ∈ Rn als Anfangswert. Das Paar (t0 , x0 ) ∈ R × Rn nennen wir Anfangsbedingung.
2.2. DIE MATRIXEXPONENTIALFUNKTION
2.2
13
Die Matrixexponentialfunktion
Zur L¨osungstheorie von (2.1.2) ben¨otigen wir die Matrix-Exponentialfunktion. Zun¨achst wiederholen wir einige grundlegende Begriffe. F¨ ur eine komplexe Zahl c = a + ib ∈ C, a, b ∈ R, definieren wir die konjugiert komplexe Zahl √ c¯ = a − ib und den Betrag als |c| = c c¯. F¨ ur einen (Spalten—) Vektor x = (x1 , . . . , xn )T ∈ Cn bezeichnen wir mit v u n uX kxk = t |xk |2 k=1
die euklidische Norm. F¨ ur eine Matrix α1,1 · · · α1,n .. ∈ Cn×n ... A = ... . α1,n · · · αn,n verwenden wir die zugeh¨orige induzierte Matrixnorm kAk =
kAxk = sup kAxk. x∈Cn \{0} kxk kxk=1 sup
Beachte, dass |ai,j | ≤ kAk f¨ ur i, j = 1, . . . , n und kAk k ≤ kAkk f¨ ur alle k k ∈ N gilt, wobei A die k—fache Matrixmultiplikation von A mit sich selbst bezeichnet. Mit “Id” bezeichnen wir die Einheitsmatrix in Rn×n bzw. Cn×n und wir verwenden die Konvention A0 = Id. Eine Matrix A ∈ Cn×n heißt Blockdiagonalmatrix, falls quadratische Matrizen A1 , . . . , Ad existieren, so dass A1 0 ... A = diag(A1 , . . . , Ad ) := 0 Ad gilt. Wir erinnern an die Definition der Matrixexponentialfunktion. F¨ ur eine n×n und eine reelle Zahl t ∈ R definieren wir Matrix A ∈ C eAt =
X∞ tk Ak . k=0 k!
14
CHAPTER 2. LINEARE DIFFERENTIALGLEICHUNGEN
Diese Reihe ist konvergent (sogar absolut konvergent) f¨ ur alle t ∈ R und gleichm¨aßig konvergent auf jedem Intervall [−T, T ] f¨ ur T ∈ R. Deswegen k¨onnen wir diese Reihe gliedweise differenzieren, multiplizieren etc.. Dies nutzen wir im Folgenden aus, um einige wesentliche Eigenschaften der Matrixexponentialfunktion zu beweisen. Das folgende Lemma fasst einige weitere Eigenschaften von eAt zusammen. 2.2.1. Lemma. F¨ ur jede Matrix A ∈ Cn×n gilt: (i) eA0 = Id (ii) eA(t+s) = eAt eAs f¨ ur alle t, s ∈ R (iii) die Matrix eAt ist invertierbar mit (eAt )−1 = e−At (iv) f¨ ur jede invertierbare Matrix C ∈ Cn×n gilt e(C
−1 AC)t
= C −1 eAt C
(v) f¨ ur Blockdiagonalmatrizen gilt ediag(A1 ,...,Ad )t = diag(eA1 t , . . . , eAd t ). Beweis: (i) Dies folgt direkt aus der Reihendarstellung wegen A0 = Id. (ii) Sei k ∈ N fest. Dann ergeben f¨ ur j = 0, . . . , k die Produkte der Sumur j und eAs f¨ ur k − j gerade manden aus den Reihendarstellungen von eAt f¨ At As die Summanden der Produktreihe von e e f¨ ur k. Mit dem binomischen Lehrsatz ergibt sich nun k X tj j=0
k
X tj sk−j sk−j (t + s)k A Ak−j = Ak = Ak , j! (k − j)! j! (k − j)! k! j=0 j
also der Summand f¨ ur Ak in der Reihe f¨ ur eA(t+s) . Damit folgt die Behauptung. (Die Umordnung der Summanden ist erlaubt wegen der absoluten Konvergenz: Cauchy-Produkt von Reihen). (iii) Aus (ii) und (i) folgt f¨ ur s = −t die Gleichung eAt e−At = eA0 = Id und daraus die Behauptung. (iv) Diese Gleichung folgt durch gliedweises Multiplizieren der Reihe aus der Gleichung (C −1 AC)k = C −1 Ak C.
2.2. DIE MATRIXEXPONENTIALFUNKTION
15
(v) Diese Eigenschaft folgt aus der Gleichung [diag(A1 , . . . , Ad )]k = diag(Ak1 , . . . , Akd ). 2.2.2. Proposition. F¨ ur jede Matrix A ∈ Cn×n ist die Matrix—Exponential funktion eAt stetig differenzierbar in t und es gilt d At e = AeAt = eAt A. dt Ist umgekehrt F : R → Cn×n eine stetig differenzierbare Funktion mit d F (t) = AF (t) und F (0) = id, dt so folgt F (t) = eAt f¨ ur alle t ∈ R. Beweis: Wie oben beobachtet, d¨ urfen wir die Reihe gliedweise multiplizieren und differenzieren. Durch gliedweise Multiplikation mit A sieht man sofort, dass A eAt = eAt A gilt. Es bleibt also die erste Gleichung zu zeigen. Durch gliedweises Differenzieren folgt ∞ ∞ ∞ k X d At X tk−1 k X tk−1 t k k e = k A = A =A A = AeAt . dt k! (k − 1)! k! k=0 k=1 k=0
F¨ ur die Eindeutigkeit betrachte d −At [e F (t)] = −Ae−At F (t) + eAt AF (t) = 0. dt Also ist e−At F (t) konstant, also gleich e−A0 F (0) = Id. Die Jordansche Normalform aus der Linearen Algebra wird uns die entscheidenden Informationen u ¨ ber das Verhalten von eAt liefern. Bekanntlich definiert eine invertierbare Matrix C mittels y = C −1 x eine Koordinatentransformation im Rn bzw. Cn , wobei die Spalten von C gerade die neuen Basisvektoren dargestellt in der alten Basis sind, oder, ¨aquivalent dazu, die Spalten von C −1 gerade die alten Basisvektoren dargestellt in der neuen Basis sind. Eine lineare Abbildung, die in der alten Basis durch eine Matrix A repr¨asentiert wird, wird dann in der neuen Basis durch die Matrix B = C −1 AC dargestellt. Die Eigenschaft (v) aus Lemma 2.2.1 zeigt mit anderen Worten, dass man den Koordinatenwechsel und die Auswertung von eAt vertauschen kann.
16
CHAPTER 2. LINEARE DIFFERENTIALGLEICHUNGEN
Wir werden dies ausnutzen, um eAt leicht berechnen zu k¨onnen. Nehmen wir an, dass C einen Koordinatenwechsel beschreibt, so dass B = C −1 AC in den neuen Koordinaten eine “sch¨one” Gestalt annimmt, in der eBt leicht zu berechnen ist. Mittels eAt = CeBt C −1 k¨onnen wir dann die gew¨ unschte Matrixexponentialfunktion leichter bestimmen. Dieses Verfahren l¨asst sich auch anwenden, wenn die gegebene Matrix nicht diagonalisierbar ist. Wir erinnern dazu an den folgenden Satz aus der linearen Algebra u ¨ber die Jordansche Normalform. 2.2.3. Theorem. Sei A ∈ Rn×n eine reelle Matrix. Dann gibt es eine (m¨oglicherweise komplexe) Koordinatentransformationsmatrix C ∈ Cn×n , so dass C −1 AC = diag(J1 , ...Jd ) gilt, wobei die Matrizen Jl , l = 1, ..., d, sogenannte Jordan—Bl¨ocke der Form
Jl =
λl
1
0
0 .. . .. . 0
λl ... ...
0 ... ...
··· ···
0 .. . ... 0 λl 1 0 λl
··· ...
(2.2.1)
sind. Die Werte λl sind dabei die Eigenwerte der Matrix A. Aus Lemma 2.2.1(iv) und (v) erhalten wir somit leicht das folgende Resultat. 2.2.4. Proposition. F¨ ur jede Matrix A ∈ Rn×n gilt eAt = Cdiag(eJ1 t , ..., eJd t )C −1 f¨ ur die Jordandarstellung von A aus Satz 2.2.3. Um dies zur Berechnung von eAt auszunutzen, m¨ ussen wir nur noch Jl t kl¨aren, wie e aussieht. Dies zeigt die folgende Proposition.
2.2. DIE MATRIXEXPONENTIALFUNKTION 2.2.5. Proposition. F¨ ur einen gilt 1 0 Jl t λl t . e = e .. . ..
17
Jordan—Block Jl ∈ Cm×m der Form (2.2.1) t
t2 2!
1 ... ...
t ... ...
··· ...
tm−1 (m−1)!
...
t2 2!
1 0
t 1
0 ··· ···
.. .
Beweis: Wegen Proposition 2.2.2 1 0 λl t . F (t) = e .. . ..
.
reicht es nachzupr¨ ufen, dass f¨ ur t2 tm−1 t · · · (m−1)! 2! .. ... 1 t . 2 ... ... ... t 2! ... ... 1 t 0 ··· ··· 0 1
die Beziehung
d F (t) = Jl F (t) dt gilt. Wegen
d tk dt k!
=
tk−1 (k−1)!
folgt mit der Produktregel
d λl t F (t) = λl F (t) + e dt
=
λl
1
0
0 λl 0 .. . . . .. . . .. . . . ... . 0 ··· ··· = Jl F (t),
was zu zeigen war.
0
1
t
··· ...
tm−2 (m−2)!
.. 0 0 1 . .. . . . . . . . . . . t .. . . . . . . 0 . 1 0 ··· ··· 0 0 ··· 0 0 . . . .. 0 . . ... .. F (t) + 0 . .. λl 1 0 λl 0
··· 0 . . . .. 0 1 . ... ... ... 0 F (t) ... ... 0 1 ··· ··· 0 0 1
0
18
CHAPTER 2. LINEARE DIFFERENTIALGLEICHUNGEN
Die Darstellung von eAt mittels der Jordanschen Normalform ist nicht nur zur Berechnung der Matrix—Exponentialfunktion n¨ utzlich. Wie wir sp¨ater sehen werden, ist sie auch ein wesentliches Hilfsmittel, um die Stabilit¨at der L¨osungen linearer Differentialgleichungen zu untersuchen.
2.3
Darstellung der L¨ osungen
Wir werden f¨ ur homogene und f¨ ur inhomogene Gleichungen eine L¨osungsformel herleiten und einige elementare Eigenschaften beweisen. Als unmittelbare Folgerung aus den Eigenschaften der Matrixexponentialfunktion erhalten wir den folgenden Existenz- und Eindeutigkeitssatz f¨ ur homogene Gleichungen der Form x(t) ˙ = Ax(t), t ∈ R, x(t0 ) = x0
(2.3.1)
mit A ∈ Rn×n und Anfangswerten t0 ∈ R, x0 ∈ Rn . 2.3.1. Theorem. Betrachte die gew¨ohnliche Differentialgleichung (2.3.1). Dann gibt es f¨ ur jede Anfangswertbedingung (t0 , x0 ) ∈ R × Rn genau eine L¨osung x(·, t0 , x0 ) und sie ist gegeben durch x(t, t0 , x0 ) = eA(t−t0 ) x0 . Beweis: Aus Proposition 2.2.2 erhalten wir d d x(t; t0 , x0 ) = e−At0 eAt x0 = Ae−At0 eAt x0 = Ax(t; t0 , x0 ). dt dt Aus Lemma 2.2.1(iv) folgt außerdem x(t0 ; t0 , x0 ) = e−At0 eAt0 x0 = Id x0 = x0 , also ist x(t; t0 , x0 ) tats¨achlich eine L¨osung des Anfangswertproblems. Zum Beweis der Eindeutigkeit sei y(t) eine beliebige L¨osung des Anfangswertproblems mit Anfangsbedingung (t0 , x0 ). Aus der Produktregel ergibt sich d −A(t−t0 ) e y(t) = −e−A(t−t0 ) Ay(t) + e−A(t−t0 ) Ay(t) = 0. dt
¨ 2.3. DARSTELLUNG DER LOSUNGEN
19
Demnach ist e−A(t−t0 ) y(t) konstant in t, und wegen e−A(t0 −t0 ) y(t0 ) = x0 folgt also e−A(t−t0 ) y(t) = x0 . Multiplikation von links mit eA(t−t0 ) liefert dann y(t) = eA(t−t0 ) x0 = x(t; t0 , x0 ) und damit die Behauptung. Bemerkung. Die Matrix Φ(t) = eAt wird auch Fundamentalmatrix der Gleichung x˙ = Ax genannt, da sich aus ihr mittels x(t; t0 , x0 ) = Φ(−t0 )Φ(t)x0 alle L¨osungen berechnen lassen. Wir wissen auch, dass Φ(t) die eindeutige L¨osung des matrixwertigen Anfangswertproblems ˙ X(t) = AX(t), X(0) = Id, ist. Da es f¨ ur sp¨atere Anwendungen n¨ utzlich sein wird, wollen wir die Klasse von Differentialgleichungen etwas verallgemeinern. F¨ ur eine Matrix A ∈ n×n n R und eine stetige Funktion g : R → R ist eine inhomogene lineare gew¨ohnliche Differentialgleichung gegeben durch x(t) ˙ = Ax(t) + g(t).
(2.3.2)
Der folgende Satz beschreibt, wie die L¨osungen eines zugeh¨origen Anfangswertproblems aussehen. 2.3.2. Theorem. Betrachte die gew¨ ohnliche Differentialgleichung (2.3.2) f¨ ur eine Matrix A ∈ Rn×n und eine stetige Funktion g : R → Rn . Dann gibt es f¨ ur jede Anfangsbedingung (t0 , x0 ) ∈ R × Rn genau eine L¨osung x(·, t0 , x0 ). Diese ist gegeben durch Z t A(t−t0 ) x(t, t0 , x0 ) = e x0 + eA(t−s) g(s) ds. t0
Beweis: Beachte, dass f¨ ur eine beliebige stetige und im ersten Argument stetig differenzierbare Funktion h : R × R → Rn die Ableitungsregel Z Z t d t d h(t, s)ds = h(t, t) + h(t, s)ds. dt t0 t0 dt
20
CHAPTER 2. LINEARE DIFFERENTIALGLEICHUNGEN
gilt. Mit h(t, s) = eA(t−s) g(s) folgt also d d −At0 At d x(t, t0 , x0 ) = e e x0 + dt dt dt
Z
t
eA(t−s) g(s) ds t0 Z t d A(t−s) −At0 At A(t−t) e x0 + e g(t) + g(s) ds = Ae e t0 dt Z t −At0 At = Ae e x0 + g(t) + AeA(t−s) g(s) ds t0 Z t eA(t−s) g(s) ds) + g(t) = A(e−At0 eAt x0 + t0
= ax(t, t0 , x0 ) + g(t).
Dies zeigt, dass x(t, t0 , x0 ) also die Differentialgleichung erf¨ ullt. Wegen Z t0 −At0 At0 e e x0 = x0 und eA(t−s) g(s) ds = 0 t0
ist offenbar auch die Anfangsbedingung erf¨ ullt. Es bleibt die Eindeutigkeit zu zeigen. Seien dazu y1 (t) und y2 (t) zwei L¨osungen zur Anfangsbedingung (t0 , x0 ). Dann gilt d (y1 (t) − y2 (t)) = Ay1 (t) + g(t) − Ay2 (t) − g(t) = A(y1 (t) − y2 (t)). dt Die Funktion z(t) = y1 (t) − y2 (t) l¨ost also das Anfangswertproblem z(t) ˙ = Az(t),
z(t0 ) = y1 (t0 ) − y2 (t0 ) = x0 − x0 = 0,
dessen eindeutige L¨osung gerade durch z(t) = e−At0 eAt 0 = 0 gegeben ist. Es gilt also y1 (t) − y2 (t) = 0 f¨ ur alle t ∈ R und damit y1 (t) = y2 (t), womit die Eindeutigkeit gezeigt ist. Wir werden jetzt einige weitere Eigenschaften der L¨osung studieren. Das folgende Lemma ist eine Konsequenz aus dem Existenz— und Eindeutigkeitssatz, Theorem 2.3.2. 2.3.3. Lemma. F¨ ur eine Anfangsbedingung (t0 , x0 ) und beliebige Zeiten 1 2 t , t ∈ R gilt x(t2 ; t0 , x0 ) = x(t2 ; t1 , x(t1 ; t0 , x0 )). (2.3.3)
¨ 2.3. DARSTELLUNG DER LOSUNGEN
21
Beweis: Offenbar ist x(t; t0 , x0 ) eine L¨osung des Anfangswertproblems mit Anfangsbedingung (t1 , x(t1 ; t0 , x0 )). Die Funktion x(t; t1 , x(t1 ; t0 , x0 )) l¨ost aber gerade dieses Anfangswertproblem, also m¨ ussen, wegen der Eindeutigkeit der L¨osung, x(t; t1 , x(t1 ; t0 , x0 )) und x(t; t0 , x0 ) f¨ ur alle t ∈ R u ¨bereinstimmen, 2 insbesondere also f¨ ur t = t . Bemerkung. Diese Eigenschaft der L¨osungsfunktionen wird oft als Kozykluseigenschaft bezeichnet. Wir wollen nun die Abh¨angigkeit der L¨osungsfunktionen x(·; t0 , x0 ) von ihren Parametern betrachten. Wir beginnen mit einem vorbereitenden Lemma. 2.3.4. Lemma. F¨ ur die Matrix—Exponentialfunktion eAt gilt die Absch¨atzung keAt k ≤ ekAk |t| .
(2.3.4)
Beweis: Dies folgt durch Absch¨atzen der einzelnen Glieder der definierenden Reihe mittels °∞ ° ° ∞ ° k ∞ X tk ° X ° t k° X ° At ° ° |t|k ° k° °e ° = ° ° ° A °≤ A kAkk = ekAk |t| . ≤ ° k! ° ° k! ° k! k=0
k=0
k=0
Zun¨achst beweisen wir eine Schranke f¨ ur kx(t; t0 , x0 )k im homogenen Fall.
2.3.5. Lemma. Die L¨osungsfunktion x(t; t0 , x0 ) des homogenen Anfangswertproblems erf¨ ullt die Absch¨atzungen e−kAk|t−t0 | kx0 k ≤ kx(t; t0 , x0 )k ≤ ekAk|t−t0 | kx0 k. Beweis: Die zweite Ungleichung folgt direkt aus der Darstellung der L¨osung als x(t; t0 , x0 ) = eA(t−t0 ) x0 (2.3.5) unter Verwendung von Lemma 2.3.4. Die erste folgt, indem man diese Gleichung von links mit e−A(t−t0 ) multipliziert und dann Lemma 2.3.4 auf die so entstehende Gleichung x0 = e−A(t−t0 ) x(t; t0 , x0 ) anwendet, was kx0 k ≤ ekAk |t−t0 | kx(t; t0 , x0 )k
ergibt. Das folgende Lemma beschreibt die Abh¨angigkeit von x(t; t0 , x0 ) im inhomogenen Fall von den Parametern.
22
CHAPTER 2. LINEARE DIFFERENTIALGLEICHUNGEN
2.3.6. Lemma. Die L¨osungsfunktion x(t; t0 , x0 ) des inhomogenen Anfangswertproblems ist stetig differenzierbar in all ihren Parametern. Dabei gilt d x(t; t0 , x0 ) = Ax(t; t0 , x0 ) + g(t), dt d x(t; t0 , x0 ) = −AeA(t−t0 ) x0 − eA(t−t0 ) g(t0 ) dt0 und
d x(t; t0 , x0 ) = eA(t−t0 ) . dx0 Dar¨ uberhinaus ist die Funktion f¨ ur alle t, t0 ∈ R global Lipschitz stetig in x0 ; genauer gilt f¨ ur beliebige x0 , x1 ∈ Rn die Absch¨atzung kx(t; t0 , x0 ) − x(t; t0 , x1 )k ≤ ekAk |t−t0 | kx0 − x1 k.
(2.3.6)
Beweis: Die Ableitung nach t ist klar, die Ableitungen nach Anfangszeit t0 und Anfangswert x0 erh¨alt man direkt durch Differenzieren der allgemeinen L¨osung aus Theorem 2.3.2. Zum Beweis der Absch¨atzung verwenden wir, dass wegen der Linearit¨ at x(t; t0 , x0 ) − x(t; t0 , x1 ) = eA(t−t0 ) (x0 − x1 ), also kx(t; t0 , x0 ) − x(t; t0 , x1 )k ≤ keA(t−t0 ) k kx0 − x1 k, woraus sich die gew¨ unschte Absch¨ atzung mit Lemma 2.3.4 ergibt. Bemerkung. Die Absch¨atzung (2.3.6) zeigt insbesondere, dass f¨ ur jedes T > 0 und f¨ ur jede Folge xn → x0 f¨ ur n → ∞ die Konvergenzeigenschaft ° ° lim sup kx(t, t0 , xn ) − x(t, t0 , x0 )k ≤ lim °ekAk(T −t0 ) ° kxn − x0 k = 0 n→∞ t∈[0,T ]
n→∞
In Allgemeinen gilt dies aber nicht f¨ ur unendliche Zeitintervalle: Z.B. gilt bereits im eindimensionalen Fall f¨ ur die L¨osungen x(t0 ) = et x0 der Gleichung x˙ = x die Absch¨atzung |x(t; x0 ) − x(t; x1 )| = et |x0 − x1 |. F¨ ur eine Folge xn → x0 mit xn 6= x0 f¨ ur alle n ∈ N gilt also lim sup kx(t, xn ) − x(t, x0 )k = ∞,
n→∞ t∈[0,∞)
¨ 2.4. STABILITAT
23
d.h., ”im Unendlichen” gilt die Stetigkeit im Allgemeinen nicht. Die Konzepte der ”Stabilit¨at” und der ”asymptotischen Stabilit¨at”, die wir im n¨achsten Kapitel einf¨ uhren werden, k¨onnen als Stetigkeitsbedingungen ”im Unendlichen”, bzw. auf unendlichen Zeitintervallen aufgefasst werden, und wir werden einfache algebraische Kriterien f¨ ur die Matrix A kennenlernen, unter denen diese Bedingungen erf¨ ullt sind.
2.4
Stabilit¨ at
In diesem Abschnitt wollen wir damit beginnen, uns mit dem Hauptthema dieser Vorlesung zu besch¨aftigen. Stabilit¨at kann man f¨ ur viele verschiedene L¨osungstrajektorien und sogar f¨ ur Mengen von L¨osungskurven definieren. Wir wollen hier nur den einfachsten (aber trotzdem f¨ ur viele Anwendungen interessanten) Fall behandeln, bei dem wir die Stabilit¨at von Gleichgewichtsl¨o sungen betrachten. Wir werden uns dabei auf L¨osungen zur Anfangszeit t0 = 0 beschr¨anken. ¨ Eine Punkt x∗ ∈ Rn heißt Gleichgewicht (auch Ruhelage oder Aquilibrium) einer gew¨ohnlichen Differentialgleichung x˙ = f (x), falls f¨ ur die zugeh¨orige ∗ ∗ L¨osung x(t; x ) = x f¨ ur all t ∈ R gilt. Es ist leicht zu sehen, dass ein Punkt genau dann ein Gleichgewicht ist, wenn f (x∗ ) = 0 gilt. Insbesondere ist f¨ ur ∗ die homogene lineare Gleichung der Punkt x = 0 immer ein Gleichgewicht. Bei dem in der Einleitung diskutierten Pendel ϕ(t) ˙ = v(t) v(t) ˙ = −kv(t) − sin ϕ(t) sind offenbar die Punkte (ϕ∗ , v∗ ) = (0, 0) und (ϕ∗ , v ∗ ) = (π, 0) Gleichgewichte (die untere und die obere Ruhelage). Physikalisch ist die untere ”stabil”, die obere ”instabil”. Im Folgenden geben wir mathematische Pr¨azisierungen dieser Begriffe. Wir werden sp¨ater zeigen, dass einige der verschiedenen Definitionen f¨ ur lineare Systeme ¨aquivalent sind. 2.4.1. Definition. Sei x∗ ein Gleichgewicht einer gew¨ohnlichen Differentialgleichung x˙ = f (x).
24
CHAPTER 2. LINEARE DIFFERENTIALGLEICHUNGEN
ur jedes ε > 0 ein δ > 0 existiert, (i) Das Gleichgewicht x∗ heißt stabil, falls f¨ so dass |x(t, x0 ) − x∗ | ≤ ε f¨ ur alle t ≥ 0
f¨ ur alle Anfangswerte x0 ∈ Rn mit kx0 − x∗ k < δ. (ii) Das Gleichgewicht x∗ heisst lokal asymptotisch stabil, falls es stabil ist und es dar¨ uberhinaus eine Umgebung U von x∗ gibt, so dass gilt: F¨ ur jedes ε > 0 gibt es ein T > 0, so dass f¨ ur alle x0 ∈ U gilt |x(t, x0 ) − x∗ | ≤ ε f¨ ur alle t ≥ T f¨ ur alle Anfangswerte x0 ∈ U. Das Gleichgewicht heisst global asymptotisch stabil, falls dies f¨ ur jede beschr¨ankte Menge gilt. (iii) Das Gleichgewicht x∗ heißt lokal bzw. global exponentiell stabil, falls Konstanten c, σ > 0 existieren, so dass |x(t, x0 ) − x∗ | ≤ c e−σt |x0 − x∗ | f¨ ur alle x0 aus einer Umgebung U von x∗ (mit U = Rn im globalen Fall) erf¨ ullt ist. Bei lokaler asymptotischer Stabilit¨at wird also eine gleichm¨aßige Konvergenz der Trajektorien gegen x∗ gefordert. Die Stabilit¨at aus (i) wird auch ”Stabilit¨at im Sinne von Lyapunov” {Stabilit¨at!im Sinne von Lyapunov}genannt, da dieses Konzept Ende des 19. Jahrhunderts vom russischen Mathematiker Alexander M. Lyapunov eingef¨ uhrt wurde. Beachte, dass aus den Definitionen die Implikationen lokal exponentiell stabil ⇒ lokal asymptotisch stabil ⇒ stabil folgen (analog f¨ ur die globalen Eigeschaften). Die zweite Implikation ergibt sich direkt aus der Definition. Dass aus exponentieller Stabilit¨at die asymptotische Stabilit¨at folgt, sieht man folgendermaßen: F¨ ur ein gegebenes ε > 0 folgt (i) mit δ = ε/c, denn es ist f¨ ur x0 in U mit kx0 − x∗ k ≤ δ kx(t, x0 ) − x∗ k ≤ c e−σt kx0 − x∗ k ≤ ε. Zum Beweis von (ii) betrachte eine ε0 -Kugel um x0 , die in U enthalten ist. Dann setzen wir f¨ ur ε > 0 die Zeit T = − σ1 log cεε0 , also c e−σT ≤ ε/ε0 . F¨ ur 0 ∗ t > T und x0 in der Umgebung U = U ∩ {x0 , kx0 − x k ≤ ε0 } folgt kx(t, x0 ) − x∗ k ≤ c e−σt kx0 − x∗ k ≤ c e−σT kx0 − x∗ k ≤ ε/ε0 ε0 = ε.
¨ 2.4. STABILITAT
25
Analog argumentiert man f¨ ur die globale asymptotische Stabilit¨at. Ein Gleichgewicht, das nicht stabil ist, nennen wir instabil. Das Gleur jedes ichgewicht x∗ ist daher instabil, falls ein ε > 0 existiert, so dass f¨ δ > 0 ein x0 ∈ Rn mit kx − x0 k < δ ein T > 0 existiert, so dass kx(T, x0 ) − x∗ k ≥ ε. Wir werden jetzt ein einfaches Kriterium f¨ ur die asymptotische Stabilit¨at des ∗ Gleichgewichts x = 0 einer linearen homogenen Differentialgleichung x(t) ˙ = Ax(t),
A ∈ Rn×n ,
herleiten. F¨ ur eine Gleichung dieser Form h¨angt das Stabilit¨atsverhalten offenbar nur von der Matrix A ab. Wir werden daher auch von Stabilit¨at, exponentieller Stabilit¨at bzw. Instabilit¨at der Matrix A sprechen. Das folgende Lemma zeigt, dass die Stabilit¨at des Gleichgewichts x∗ = 0 nicht von der gew¨ahlten Basis abh¨angt. Mit anderen Worten zeigen wir, dass sich die Stabilit¨atseigenschaften unter Koordinatentransformationen nicht ver¨ andern. n Man beachte, dass die transformierte Gleichung in C betrachtet wird; da wir uns hier nicht prim¨ar f¨ ur Differentialgleichungen im Komplexen interessieren, betrachten wir auch diese Differentialgleichung nur mit Anfangsbedingungen in Rn . Der Fall von Anfangsbedingungen in Cn l¨asst sich analog behandeln. 2.4.2. Lemma. Sei A ∈ Rn×n eine Matrix und sei C ∈ Cn×n eine invertierbare Matrix. Dann gilt: Das Gleichgewicht x∗ = 0 der Gleichung x(t) ˙ = Ax(t) hat die gleichen Stabilit¨ atseigenschaften wie das Gleichgewicht ˙ = [C −1 AC]y(t) y ∗ = 0 der Gleichung y(t) Beweis: Offenbar sind die Stabilit¨atseigenschaften unabh¨angig vom gew¨ahlten Koordinatensystem (was man leicht durch Nachrechnen sieht). Man beachte, dass bei der exponentiellen Stabilit¨at die Rate σ erhalten bleibt, der Faktor c jedoch ver¨andert sich in c¯ = kCk kC −1 k c. Wir k¨onnen die Stabilit¨at also bestimmen, indem wir uns die Matrix A mittels einer geeigneten Koordinatentransformation in eine ”sch¨one” Form bringen, womit wir das folgende Theorem beweisen k¨onnen. 2.4.3. Theorem. Betrachte die homogene lineare Differentialgleichung x˙ = Ax f¨ ur eine Matrix A ∈ Rn×n mit den Eigenwerten λ1 , ..., λd ∈ C, λl = al + ibl ; die Eigenwerte seien hier so angeordnet seien, dass jedem Eigenwert
26
CHAPTER 2. LINEARE DIFFERENTIALGLEICHUNGEN
λl ein Jordan—Block Jl in der Jordanschen Normalform entspricht. Dann gilt: (i) Das Gleichgewicht x∗ = 0 ist stabil genau dann, wenn alle Eigenwerte λl nichtpositiven Realteil al besitzen und f¨ ur alle Eigenwerte mit Realteil al = 0 der entsprechende Jordan—Block Jl eindimensional ist. (ii) Das Gleichgewicht x∗ = 0 ist genau dann lokal asymptotisch stabil, wenn alle Eigenwerte λl negativen Realteil al < 0 besitzen. Beweis: Wegen Lemma 2.4.2 k¨onnen wir annehmen, dass A in Jordanscher Normalform ist. Zuerst eine kurze Vor¨ uberlegung. In der Standardbasis ek , k = 1, . . . , n, l¨asst sich jeder Vektor x ∈ Rn schreiben als T
x = (x1 , . . . , xn ) =
n X
xk ek .
k=1
F¨ ur jede Matrix B ∈ Rn×n ist Bej gerade die j—te Spalte von B, also T
Bej = (b1j , . . . , bnj ) =
n X
bkj ek .
k=1
F¨ ur die Norm gilt die Absch¨atzung à n ! n X X √ kBxk ≤ |xk |kBek k ≤ |xk | max kBek k ≤ nkxk max kBek k. k=1
k=1
k=1,...,n
k=1,...,n
(i) Gelte zun¨achst die Bedingung an die Eigenstruktur. Aus der Darstellung der L¨osung aus Satz 2.3.2 und der Form von eAt f¨ ur Jordan—Matrizen aus ¨ Proposition 2.2.5 folgt mit den obigen Uberlegungen µ ¶ tmk −1 At λl t ek−mk +1 , e ek = e ek + tek−1 + . . . + (mk − 1)! wobei mk ≤ m f¨ ur die Dimension m des zu λl geh¨origen Jordan—Blocks Jl steht, vgl. Satz 2.2.5. Falls λl = al + ibl mit al = 0 gilt, ist der zugeh¨ orige Jordan—Block nach Annahme eindimensional, es gilt also mk = m = 1 und damit eAt ek = eλl t ek woraus keAt ek k = eal t kek k = e0 1 = 1
¨ 2.4. STABILITAT
27
folgt. In diesem Fall setzen wir ck = 1. Im Fall al < 0 erhalten wir s s 2(mk −1 ) t t2(mk −1 ) al t 2 + ... + keAt ek k ≤ |eλl t | 1 + t2 + . . . + = e 1 + t . (mk − 1)!2 (mk − 1)!2 ur t → ∞, F¨ ur jedes negative a < 0 und jedes k ∈ N gilt nun aber eat tk → 0 f¨ also gibt es eine Konstante ck > 0, so dass die Absch¨atzung s t2(mk −1 ) keAt ek k ≤ eal t 1 + t2 + . . . + ≤ ck (mk − 1)!2 f¨ ur alle t ≥ 0 gilt. Damit folgt f¨ ur beliebige Anfangswerte x0 ∈ Rn die Absch¨atzung kx(t; x0 )k = keAt x0 k ≤
√ √ nkx0 k max keAt ek k ≤ nkxk max ck f¨ ur alle t ≥ 0. k=1,...,n
k=1,...,n
Also folgt f¨ ur ε > 0 die Ungleichung der Stabilit¨ atseigenschaft (i) mit √ δ = ε/( n max ck ). k=1,...,n
F¨ ur die Umkehrung betrachte zuerst einen Eigenwert λl = al + ibl mit ak > 0. Dann gibt es einen Vektor ek mit eAt ek = eλl t ek , und damit gilt f¨ ur jedes ε > 0 keAt (ε ek )k = |eλl t | ε = eal t ε → ∞ f¨ ur t → ∞, woraus die Instabilit¨at folgt, denn kε ek k = ε. Gibt es einen Eigenwerts λl mit Realteil al = 0 und mindestens 2 × 2—dimensionalem Jordan—Block so finden wir einen Basisvektor ek mit eAt ek = eλl t (ek−1 + tek ), woraus f¨ ur jedes ε > 0 folgt √ √ keAt (ε ek )k = |eλl t | ε 1 + t2 = ε 1 + t2 → ∞ f¨ ur t → ∞, womit wiederum die Instabilit¨ at folgt. Es bleibt (ii) zu zeigen. Sei dazu x∗ lokal asymptotisch stabil. Wir nehmen an, es gebe einen Eigenwert λl mit al ≥ 0. Dann gibt es einen
28
CHAPTER 2. LINEARE DIFFERENTIALGLEICHUNGEN
ur alle ε > 0 die GleBasisvektor ek mit eAt ek = eλl tek und damit folgt f¨ ichung keAt (ε ek )k = |eλl t | ε ≥ ε f¨ ur alle t ≥ 0,
d.h. f¨ ur beliebig kleine Anfangswerte εek , ε > 0, finden wir L¨osungen, die nicht gegen 0 konvergieren. Dies widerspricht der asymptotischen Stabilit¨at. Sei umgekehrt die Eigenwertbedingung aus (ii) erf¨ ullt. Wie im Fall (i) ur jeden Basisvektor ek die Absch¨atzung f¨ ur al < 0 erhalten wir f¨ s s 2(mk −1 ) t t2(mk −1 ) al t 2 + ... + keAt ek k ≤ |eλl t | 1 + t2 + . . . + = e 1 + t . (mk − 1)!2 (mk − 1)!2 W¨ahlen wir nun ein beliebiges η ∈ (0, 1), so existiert ein ck > 0, so dass s t2(m−1 ) e(1−η)al t 1 + t2 + . . . + ≤ ck f¨ ur alle t ≥ 0 (m − 1)!2 gilt. Damit erhalten wir s eal t
1 + t2 + . . . +
und somit f¨ ur alle t ≥ 0 kx(t; x0 )k = keAt xk ≤
t2(m−1 ) ≤ eηal t ck (m − 1)!2
√ √ nkxk max keAt ek k ≤ nkxk k e−σt max ck k=1,...,n
k=1,...,n
f¨ ur σ = −η maxl=1,...,d al > 0. Dies zeigt globale exponentielle Stabilit¨at, also insbesondere globale asymptotische Stabilit¨at und damit auch lokale asymptotische Stabilit¨at. Der Beweis von (ii) zeigt tats¨achlich globale exponentielle Stabilit¨at f¨ ur jedes σ < − maxl al . Dies formulieren wir explizit in dem folgenden Theorem. 2.4.4. Theorem. F¨ ur die Differentialgleichung x˙ = Ax, A ∈ Rn×n, sind die folgenden drei Eigenschaften a¨quivalent. (i) Alle Eigenwerte besitzen negativen Realteil. (ii) Das Gleichgewicht x∗ = 0 ist lokal asymptotisch stabil. (iii) Das Gleichgewicht x∗ = 0 ist global exponentiell stabil, wobei die Konstante σ beliebig mit 0 < σ < − max Re λl i=1,...,d
gew¨ahlt werden kann und λl die Eigenwerte von A bezeichnen.
¨ 2.4. STABILITAT
29
Wir wollen noch zwei einfache Folgerungen aus den bewiesenen S¨atzen ziehen. Zun¨achst erhalten wir eine obere Schranke f¨ ur die Matrix—Norm der Matrix—Exponentialfunktion einer stabilen bzw. exponentiell stabilen Matrix. 2.4.5. Lemma. (i) Sei A ∈ Rn×n eine stabile Matrix. Dann gibt es eine Konstante c > 0, so dass keAt k ≤ c f¨ ur alle t ≥ 0. (ii) Sei A ∈ Rn×n eine exponentiell stabile Matrix mit c, σ > 0. Dann gilt keAt k ≤ ce−σt f¨ ur alle t ≥ 0. Beweis: (i) Nehmen wir an, die Konstante c existiere nicht. Dann gibt es eine Folge von Werten ck → ∞ und eine Folge von Zeiten tk > 0, so dass keAtk k > ck . Aus der Definition der Matrix—Norm folgt dann die Existenz von Anfangswerten xk ∈ Rn , so dass kx(tk ; xk )k > ck kxk k. Indem wir xk √ durch xk /( ck kxk k) ersetzen k¨ onnen wir o.B.d.A. annehmen, dass kxk k → 0 aber ck kxk k → ∞. Damit gibt es also f¨ ur beliebige ε > 0 und δ > 0 einen Punkt xk mit kxk k ≤ δ und eine Zeit tk > 0 mit kx(tk ; xk )k > ε. Dies ist aber ein Widerspruch zur Stabilit¨at von x∗ = 0. (ii) Dies folgt sofort aus der Definition von exponentieller Stabilit¨ at und der Definition der Matrix—Exponentialfunktion. Das folgende Lemma zeigt, dass man der Norm der Matrix—Exponential funktion die exponentielle Stabilit¨at ansehen kann. 2.4.6. Lemma. Sei A ∈ Rn×n . Falls ein T > 0 existiert mit keAT k < 1, so ist A exponentiell stabil. ° ° ° ° ° ° Beweis: Sei σ := − log(°eAT °)/T , also °eAT ° = e−σT . Wegen °eAT ° < 1 folgt σ > 0. Wir behaupten nun, dass f¨ ur alle t ≥ 0 die Absch¨atzung ° AT ° °e ° ≤ ekAkT eσT e−σt (2.4.1)
gilt. Dann folgt die exponentielle Stabilit¨at mit der Konstanten c := ekAkT eσT . Zum Nachweis von (2.4.1) sei t > 0 und k ≥ 0 die gr¨oßte ganze Zahl mit kT ≤ t. Dann gilt 0 ≤ t − kT ≤ T und kT ≥ t − T , also ¡ ¢k keAt k ≤ keA(t−kT ) eAkT k ≤ keA(t−kT ) k keAkT k ≤ ekAk(t−kT ) k eAT k ¡ ¢k ≤ ekAk(t−kT ) keAT kk ≤ ekAkT e−σT = ekAkT e−σkT ≤ ekAkT e−σ(t−T ) = ekAkT eσT e−σt ,
30
CHAPTER 2. LINEARE DIFFERENTIALGLEICHUNGEN
also (2.4.1). Daraus folgt die exponentielle Stabilit¨at: ° ° ° ° kx(t; x0 )k = °eAt x0 ° ≤ °eAt ° kx0 k ≤ ce−σt kx0 k .
Bemerkung. Einen k¨ urzeren Beweis kann man geben, indem man zeigt, dass alle Eigenwerte λ von A negativen Realteil haben. Offenbar ist ¯ λT ¯ ¯e ¯ < 1 a¨quivalent zu Re λ < 0. Daraus folgt die Behauptung, weil f¨ ur einen zu λ geh¨orenden Eigenvektor v mit kvk = 1 gilt: keAT k =
sup keAT xk ≥ keAT vk
kxk=1
= k
2.5
X∞ T i X∞ T i Ai vk = k λi vk = eλT kvk = eλT . i=0 i! i=0 i!
Stabilit¨ at und St¨ orung
Die obigen Konzepte der Stabilit¨at ber¨ ucksichtigen St¨orungen nur als ge¨anderte Anfangswerte. Realistischer ist es, anzunehmen, dass eine St¨orung permanent auf das System wirkt. Eine M¨oglichkeit, dies zu modellieren, besteht darin, die zu einer gegebenen homogenen Gleichung x(t) ˙ = Ax(t) geh¨orige inhomogene Gleichung x(t) ˙ = Ax(t) + g(t)
(2.5.1)
zu betrachten, und die Funktion g als St¨orung aufzufassen. Wir werden nun untersuchen, wie sich die L¨osungen dieser Gleichung unter Stabilit¨atsannahmen an A verhalten. Wir wollen dies zun¨achst f¨ ur stabile Matrizen A ∈ Rn×n durchf¨ uhren. Wir erinnern daran, dass nach Lemma 2.4.5(i) f¨ ur stabile MaAt trizen der Wert supt≥0 ke k < ∞ ist. 2.5.1. Proposition. Sei A ∈ Rn×n °eine° stabile Matrix und g : R → Rn eine stetige Funktion. Sei c := supt≥0 °eAt °. Dann gilt f¨ ur die L¨osungen der inhomogenen linearen Differentialgleichung (2.5.1) die Absch¨ atzung Z t kx(t, x0 )k ≤ c(kx0 k + kg(s)k ds). 0
¨ UND STORUNG ¨ 2.5. STABILITAT
31
Insbesondere osungen auf dem Zeitintervall [0, ∞) beschr¨ankt R ∞folgt, dass alle L¨ sind, falls 0 kg(s)k ds < ∞. Beweis: Aus der allgemeinen Form der L¨osung aus Satz 2.3.2 folgt ° ° Z t ° At ° A(t−s) ° e g(s) ds° kx(t, x0 )k ≤ °e x0 + ° 0 Z t° ° ° ° °eA(t−s) ° kg(s)k ds ≤ °eAt ° kx0 k + ≤ c kx0 k + c
Z
0
t
0
kg(s)k ds.
Wir k¨onnen also die Beschr¨anktheit der L¨osung nur dann garantieren, wenn das Integral von 0 bis ∞ u ¨ber g existiert. Ein einfaches Beispiel daf¨ ur, dass man die L¨osungen einer stabilen homogenen linearen Differentialgleichung tats¨achlich mit beliebig kleinen St¨orungen unbeschr¨ankt wachsen lassen kann, liefert die offensichtlich stabile Gleichung x(t) ˙ =0 mit Inhomogenit¨at Hier erh¨alt man die L¨osungen
g(t) ≡ ε > 0.
x(t; x0 ) = x0 + εt, die offenbar f¨ ur beliebig kleine ε > 0 und beliebige Anfangswerte x0 gegen Unendlich streben. Unter der Annahme asymptotischer (d.h. f¨ ur unsere linearen Systeme also exponentieller) Stabilit¨at k¨onnen wir deutlich st¨arkere Aussagen machen. 2.5.2. Proposition. Sei A ∈ Rn×n eine exponentiell stabile Matrix mit Konstanten c, σ > 0 und sei g : R → Rn eine stetige Funktion. (i) Falls kg(t)k ≤ M f¨ ur ein M > 0 und alle t ≥ 0, so gilt f¨ ur die L¨osungen der inhomogenen linearen Differentialgleichung (2.5.1) die Absch¨ atzung cM . σ ur die L¨osungen von (2.5.1) (ii) Falls limt→∞ kg(t)k = 0 ist, so gilt f¨ kx(t, x0 )k ≤ c e−σt kx0 k + lim kx(t, x0 )k = 0.
t→∞
32
CHAPTER 2. LINEARE DIFFERENTIALGLEICHUNGEN
Beweis: (i) Analog zur Absch¨atzung im Beweis von Proposition 2.5.1 erhalten wir Z t ° At ° ° A(t−s) ° ° ° °e ° kg(s)k ds. kx0 k + (2.5.2) kx(t, x0 )k ≤ e 0
Wegen
Z
t −σ(t−s)
e
ds =
0
Z
t −σs
e
0
ds ≤
Z
∞
e−σs ds =
0
1 σ
erhalten wir die gew¨ unschte Schranke. (ii) Wegen (2.5.2) gen¨ ugt es, zu zeigen, dass aus kg(t)k → 0 f¨ ur t → ∞ die Konvergenz Z t e−σ(t−s) kg(s)kds → 0 0
f¨ ur t → ∞ folgt. Sei dazu ε > 0 beliebig. Wir w¨ahlen T > 0 so groß, dass kg(t)k ≤ σε/2 f¨ ur alle t ≥ T ist. Damit folgt f¨ ur hinreichend große t ≥ T Z
0
t −σ(t−s)
e
kg(s)k ds =
Z
T −σ(t−s)
0
e Z
kg(s)k ds +
T
eσs kg(s)k ds + 0 Z ∞ σε −σt e−σs ds ≤ e b+ 2 T ε = e−σt b + < ε; 2 ≤ e−σt
Z
Z
t
e−σ(t−s) kg(s)k ds
T
T
t
e−σ(t−s)
σε ds 2
RT hierbei ist b := 0 eσs kg(s)k ds und t so groß, dass e−σt b < ε/2 gilt. Bemerkung. Ein weiterer Aspekt im Fall (i) von Proposition 2.5.2 ist, wie stark die St¨orung g die L¨osung im Vergleich mit der zugeh¨origen homogenen L¨osung ver¨andert. Aus der Darstellung der allgemeinen L¨osung und der Absch¨atzung des Integrals in (2.5.2) folgt, dass diese Differenz durch den Term cM/σ abgesch¨atzt werden kann, die Norm M der St¨orung wird also durch den Faktor c/σ verst¨arkt. Will man also eine Matrix A konstruieren, f¨ ur die der Einfluss von g auf die L¨osung m¨oglichst klein ist, so ist es im Allgemeinen nicht ratsam, nur auf m¨oglichst schnelles exponentielles Abklingen zu achten (d.h., auf m¨oglichst großes σ). Stattdessen sollte die Matrix A so konstruiert werden, dass der Quotient c/σ klein wird.
¨ UND STORUNG ¨ 2.5. STABILITAT
33
Im Fall (i) von Proposition 2.5.2 k¨onnen wir im Allgemeinen nicht annehmen, dass die L¨osungen gegen 0 konvergieren. Wir k¨onnen aber zumindest zeigen, dass das Limesverhalten nicht vom Anfangswert x0 abh¨angt, d.h., dass alle L¨osungen f¨ ur t → ∞ gegeneinander konvergieren, auch wenn g unbeschr¨ankt ist. Ist g periodisch, so gibt es sogar eine eindeutige periodische Limes—Kurve. 2.5.3. Proposition. Sei A ∈ Rn×n eine exponentiell stabile Matrix mit Konstanten c, σ > 0 und sei g : R → Rn eine stetige Funktion. (i) F¨ ur alle Anfangswerte x1 , x2 ∈ Rn und t ≥ 0 erf¨ ullen die L¨osungen der inhomogenen linearen Differentialgleichung (2.5.1) die Absch¨atzung kx(t, x1 ) − x(t, x2 )k ≤ c e−σt kx1 − x2 k . (ii) Falls f¨ ur ein T > 0 die Funktion g T -periodisch ist, d.h., g(t + T ) = g(t) f¨ ur alle t ∈ R, so ist Z t eA(t−s) g(s) ds, t ∈ R, G(t) = −∞
ebenfalls T -periodisch und es gilt kx(t, x0 ) − G(t)k ≤ c e−σt kx0 − G(0)k . Beweis: (i) Die Eigenschaft folgt sofort aus der Tatsache, dass die Funktion z(t) = x(t; x1 ) − x(t; x2 ) die L¨osung der homogenen Gleichung z(t) ˙ = Az(t) zum Anfangswert z(0) = x1 − x2 ist. (ii) Da die Funktion g stetig und periodisch ist, ist sie insbesondere beschr¨ankt, d.h. es gibt M > 0 mit kg(t)k ≤ M f¨ ur alle t ∈ R. Also folgt °Z t ° Z t ° ° cM A(t−s) ° °≤ e g(s)ds ce−σ(t−s) M ds ≤ , ° ° σ −∞ −∞ weswegen das Integral in der Definition von G(t) existiert. Aus G(t + T ) =
Z
t+T
−∞
A(t+T −s)
e
g(s) ds =
Z
t
−∞
eA(t−s) g(s) ds = G(t)
34
CHAPTER 2. LINEARE DIFFERENTIALGLEICHUNGEN
folgt, dass G T -periodisch ist. Wegen Z t eA(t−s) g(s) ds G(t) = −∞ Z 0 Z t At A(t−s) = e e g(s) ds + eA(t−s) g(s) ds −∞ 0 Z t = eAt G(0) + eA(t−s) g(s) ds 0
ist G die allgemeine L¨osung der inhomogenen Gleichung zur Anfangsbedingung (t0 , x0 ) = (0, G(0)). Also folgt die Konvergenz aus (i).
2.6
Quadratische Lyapunov Funktionen
In diesem Abschnitt werden wir ein wichtiges Hilfsmittel zur Untersuchung asymptotisch stabiler Differentialgleichungen die sogenannten Lyapunov-Funktionen behandeln. Asymptotische (und auch exponentielle) Stabilit¨at verlangt nur, dass die Norm kx(t)k einer L¨osung f¨ ur t → ∞ abnimmt. F¨ ur viele Anwendungen w¨are es aber viel einfacher, wenn die Norm streng monoton in t fallen w¨ urde. Dies ist nat¨ urlich im Allgemeinen nicht zu erwarten. Wir k¨onnen die strenge Monotonie aber erhalten, wenn wir die euklidische Norm kx(t)k durch eine allgemeinere Funktion, n¨amlich gerade die Lyapunov-Funktion, ersetzen. (Wir benutzen hier insbesondere die Vorlesungsausarbeitung Gr¨ une [5]). F¨ ur lineare Systeme k¨onnen wir uns auf sogenannte quadratische LyapunovFunktionen beschr¨anken, wie sie durch die folgende Definition gegeben sind. 2.6.1. Definition. Sei A ∈ Rn×n und x(t; x0 ) die L¨osungen des zugeh¨origen homogenen Anfangswertproblems. Eine stetig differenzierbare Funktion V : Rn → R heißt quadratische Lyapunov-Funktion, falls positive reelle Konstanten c1 , c2 , c3 > 0 existieren, so dass die Ungleichungen c1 kxk2 ≤ V (x) ≤ c2 kxk2 f¨ ur alle x ∈ Rn und
d V (x(t; x0 ) ≤ −c3 kx(t; x0 )k2 f¨ ur alle x0 ∈ Rn und alle t ≥ 0, dt gelten.
Das folgende Theorem zeigt, dass die Existenz einer Lyapunov-Funktion exponentielle Stabilit¨at der zugeh¨origen Differentialgleichung impliziert.
2.6. QUADRATISCHE LYAPUNOV FUNKTIONEN
35
2.6.2. Theorem. F¨ ur A ∈ Rn×n seien x(t; x0 ), t ∈ R, die L¨osungen der zugeh¨origen Anfangswertprobleme. Existiert eine quadratische LyapunovFunktion mit Konstanten c1 , c2 , c3 > 0, so erf¨ ullen alle L¨osungen die Absch¨atzung kx(t; x0 )k ≤ c e−σt kxo k , t ≥ 0, p mit σ = c3 /2c2 und c = c2 /c1 , die Matrix ist also exponentiell stabil. Beweis: Wegen −kxk2 ≤ −V (x)/c2 folgt f¨ ur λ = c3 /c2 die Ungleichung d V (x(t; x0 )) ≤ −λV (x(t; x0 )). dt
(2.6.1)
¨ Hieraus folgt (Ubungsaufgabe!) die Ungleichung V (x(t; x0 )) ≤ e−λt V (x0 ).
(2.6.2)
Mit den Absch¨atzungen f¨ ur V (x) erhalten wir daraus kx(t; x0 )k2 ≤
1 −λt c2 e V (x0 ) ≤ e−λt kx0 k2 c1 c1
und damit durch Ziehen der Quadratwurzel auf beiden Seiten die gew¨ unschte Ungleichung kx(t; x0 )k ≤ ce−σt kx0 k p f¨ ur c = c2 /c1 und σ = λ/2. Wir wollen uns nun mit einer speziellen Klasse von Lyapunov-Funktionen besch¨aftigen, bei denen V durch eine Bilinearform der Form xT Bx dargestellt wird, wobei B ∈ Rn×n . Wir erinnern daran, dass solch eine Matrix positiv definit heißt, falls xT Bx > 0 ist f¨ ur alle x ∈ Rn mit x 6= 0. Das folgende Lemma fasst zwei Eigenschaften bilinearer Abbildungen zusammen. 2.6.3. Lemma. F¨ ur B ∈ Rn×n gilt: (i) Es existiert eine Konstante c2 > 0, so dass −c2 kxk2 ≤ xT Bx ≤ c2 kxk2 f¨ ur alle x ∈ Rn . (ii) B ist positiv definit genau dann, wenn eine Konstante c1 > 0 existiert mit c1 kxk2 ≤ xT Bx f¨ ur alle x ∈ Rn .
36
CHAPTER 2. LINEARE DIFFERENTIALGLEICHUNGEN
Beweis: Aus der Bilinearit¨at folgt f¨ ur alle x ∈ Rn mit x 6= 0 und y = x/kxk die Gleichung xT Bx = kxk2 y T By. Da y T By eine stetige Abbildung in y ∈ Rn ist, nimmt sie auf der kompakten Menge {y ∈ Rn | kyk = 1} ein Maximum cmax und ein Minimum cmin an. Die Ungleichung (i) folgt nun urlich die mit c2 = max{cmax , −cmin }. Die Ungleichung in (ii) impliziert nat¨ positive Definitheit. Ist umgekehrt B positiv definit, so ist cmin > 0, und (ii) folgt mit c1 = cmin . Als sofortige Folgerung aus Lemma 2.6.3 erhalten wir die folgende Aussage. 2.6.4. Lemma. Seien A, B ∈ Rn×n und c3 > 0 so, dass die Funktion V (x) = xT Bx f¨ ur alle L¨osungen x(t; x0 ), t ∈ R, der homogenen Gleichung x˙ = Ax die Bedingung d V (x(t; x0 )) ≤ −c3 kx(t, x0 )k2 dt f¨ ur alle t ≥ 0 erf¨ ullt. Ist B positiv definit, so ist V eine quadratische Lyapunov-Funktion. Insbesondere ist A exponentiell stabil. Das folgende Lemma zeigt, dass, falls die Ableitungsbedingung erf¨ ullt ist, die positive Definitheit von B sogar a¨quivalent zur exponentiellen Stabilit¨at von A ist. 2.6.5. Lemma. Seien A, B ∈ Rn×n und c3 > 0 so, dass die Funktion V (x) = xT Bx f¨ ur die L¨osungen der homogenen Gleichung x˙ = Ax die Bedingung d V (x(t; x0 )) ≤ −c3 kx(t, x0 )k2 dt f¨ ur alle x0 ∈ Rn und alle t ≥ 0 erf¨ ullt. Dann gilt: B ist positiv definit genau dann, wenn A exponentiell stabil ist. Beweis: Sei B positiv definit. Dann folgt die exponentielle Stabilit¨at von A sofort aus Lemma 2.6.4. Sei nun B nicht positiv definit. Dann gibt es ein x0 ∈ Rn mit x0 6= 0 und V (x0 ) ≤ 0. Aus der Ableitungsbedingung folgt (da die L¨ osung x(t; x0 ) mit x0 6= 0 nach Lemma 2.3.5 niemals 0 werden kann), dass V (x(t; x0 )) streng monoton f¨allt. Insbesondere gibt es also ein c > 0, so dass V (x(t; x0 )) ≤ −c f¨ ur alle t ≥ 1. Mit der ersten Absch¨atzung aus Lemma 2.6.3(i) folgt dann ur alle t ≥ 1. kx(t; x0 )k2 ≥ c/c2 > 0 f¨
2.6. QUADRATISCHE LYAPUNOV FUNKTIONEN
37
Also ist A nicht exponentiell stabil. Wir k¨onnen das Ableitungskriterium vereinfachen, indem wir die explizite Verwendung der L¨osungen vermeiden. Das folgende Lemma gibt solche Kriterien. 2.6.6. Lemma. Sei V : Rn → R eine stetig differenzierbare Funktion und A ∈ Rn×n eine Matrix. Seien x(t; x0 ) die L¨osungen der zu A geh¨origen homogenen linearen Differentialgleichung x˙ = Ax. Dann sind die folgenden Bedingungen a¨quivalent: (i) dtd V (x(t; x0 )) ≤ −c3 kx(t, x0 )k2 f¨ ur alle x0 ∈ Rn , alle t ≥ 0 und eine Konstante c3 > 0 (ii) DV (x)Ax ≤ −c3 kxk2 f¨ ur alle x ∈ Rn und eine Konstante c3 > 0, wobei DV (x) ∈ Rn die Ableitung von V (geschrieben als Zeilenvektor) nach x bezeichnet. Ist V von der Form V (x) = xT Bx f¨ ur eine Matrix B ∈ Rn×n , so sind (i) und (ii) auch a¨quivalent zu (iii) Die Matrix C = −AT B − BA ist positiv definit. Beweis: Wir zeigen zun¨achst, dass (i) a¨quivalent ist zu ¯ d¯ (i’) dt t=0 V (x(t; x0 )) ≤ −c3 kx(0, x0 )k2 f¨ ur alle x0 ∈ Rn und eine Konstante c3 > 0. Offenbar folgt (i’) sofort aus (i). Zur Umkehrung betrachte eine L¨osung ¨ x(t; x0 ) zu beliebigem t > 0 und x0 ∈ Rn . Durch Uberpr¨ ufung der Differentialgleichung sieht man leicht, dass dann auch y(τ ) = x(τ +t; x0 ) eine L¨osung der Differentialgleichung ist (mit τ statt t), und zwar zur Anfangsbedingung y(0) = x(t; x0 ), also y(τ ) = x(τ ; x(t; x0 )). Aus (i’) folgt nun ¯ d d ¯¯ V (x(t; x0 )) = V (x(τ ; x(t; x0 )) ≤ −c3 kx(0; x(t; x0 ))k2 = −c3 kx(t, x0 )k2 , dt dτ ¯τ =0
also (i). ¨ Wir beweisen nun die behaupteten Aquivalenzen und schreiben dazu kurz ¨ x(t) = x(t; x0 ). Die Aquivalenz (i’) ⇔ (ii) folgt dann durch Verwendung der Kettenregel und Ausnutzung der Differentialgleichung x˙ = Ax, nach welcher gilt d d V (x(t)) = DV (x(t)) x(t) = DV (x(t))Ax(t). dt dt
38
CHAPTER 2. LINEARE DIFFERENTIALGLEICHUNGEN
¨ Zum Beweis der Aquivalenz (i’) ⇔ (iii) erhalten wir mit der Produktregel d d V (x(t)) = (x(t)T Bx(t)) dt dt = x(t) ˙ T Bx(t)) + x(t)T B x(t)) ˙ T T = x(t) [A B + BA]x(t) = −x(t)T Cx(t). Bedingung (i’) ist also a¨quivalent zu xT Cx ≥ c3 kxk2 f¨ ur alle x ∈ Rn . Wegen Lemma 2.6.3 ist diese Bedingung genau dann f¨ ur ein c3 > 0 erf¨ ullt, wenn C positiv definit ist. Die Gleichung in Lemma 2.6.6 (iii) wird auch Lyapunov Gleichung genannt. Es liegt nun nahe, diese Gleichung zur Konstruktion von Lyapunov-Funktionen zu verwenden. Die Frage ist: wann kann man zu einer gegebenen Matrix A und einer gegebenen positiv definiten Matrix C eine positiv definite Matrix B finden, so dass AT B + BA = −C gilt? 2.6.7. Theorem. F¨ ur eine Matrix A ∈ Rn×n und eine positiv definite Man×n trix C ∈ R hat die Lyapunov Gleichung AT B + BA = −C
(2.6.3)
genau dann eine (sogar eindeutige) positiv definite L¨osung B ∈ Rn×n , wenn A exponentiell stabil ist, d.h., falls die Realteile aller Eigenwerte λi von A negativ sind. Beweis: Falls eine positiv definite L¨osung B von (2.6.3) existiert, erf¨ ullt die Funktion V (x) = xT Bx wegen Lemma 2.6.6 die Ableitungsbedingung aus Lemma 2.6.6 (i). Nach Lemma 2.6.4 ist V damit eine quadratische Lyapunov-Funktion und A exponentiell stabil. Sei umgekehrt A exponentiell stabil und C positiv definit. Wir zeigen zun¨ achst, dass (2.6.3) l¨osbar ist. O.B.d.A. k¨onnen wir annehmen, dass A e = P −1 AP sieht man leicht, in Jordanscher Normalform vorliegt, denn f¨ ur A −1 T b dass B (2.6.3) genau dann l¨ost, wenn B = (P ) BP −1 die Gleichung b+B bA e = −(P −1 )T CP −1 eT B A
2.6. QUADRATISCHE LYAPUNOV FUNKTIONEN l¨ost. Wir k¨onnen also annehmen, dass A α1 β 1 0 0 α2 β 2 . . .. ... A= .. . . .. ... .. 0
···
von der Form ··· 0 .. ... . ... 0 αn−1 β n−1 ··· 0 αn
39
(2.6.4)
ist, wobei die αi gerade Eigenwerte von A sind und die β i entweder 0 oder 1 sind. Schreibt man die Spalten von B untereinander in einen Spaltenvektor 2 b ∈ Rn , und macht das gleiche f¨ ur die Matrix C und einen Vektor c, so ist (2.6.3) a¨quivalent zu einem Gleichungssystem Ab = c 2
2
mit einer geeigneten Matrix A ∈ Rn ×n . Falls A in der Form (2.6.4) ist, sieht man durch Nachrechnen der Koeffizienten, dass A eine untere Dreiecksmatrix ist, d.h. 0 ··· 0 α ¯1 0 .. ... ∗ α ¯2 0 . . . . . .. .. .. A = .. 0 , . . .. ... α .. ¯ n−1 0 ∗ ··· ··· ∗ α ¯n
¯ i = λj + λk wobei ∗ beliebige Werte bezeichnet, und die α ¯ i von der Form α f¨ ur Eigenwerte der Matrix A sind. Offenbar ist eine Dreiecksmatrix genau dann invertierbar ist, wenn alle Diagonalelemente (dies sind dann u ¨brigens die Eigenwerte) ungleich Null sind. Da alle λi negativen Realteil haben, sind alle a ¯i ungleich Null, also ist die Matrix A invertierbar. Demnach gibt es genau eine L¨osung des Gleichungssystems Ab = c und damit genau eine L¨ osung B der Lyapunov Gleichung (2.6.3). Es bleibt zu zeigen, dass diese L¨osung B positiv definit ist. Dies k¨onnte man auf algebraische Weise zeigen, k¨ urzer und eleganter geht es allerdings mit Lemma 2.6.5: Wegen Lemma 2.6.6 erf¨ ullt B alle Voraussetzungen dieses Lemmas. Da A zudem exponentiell stabil ist, muss B also positiv definit sein. Der folgende Satz fasst das Hauptresultat dieses Kapitels zusammen.
40
CHAPTER 2. LINEARE DIFFERENTIALGLEICHUNGEN
2.6.8. Theorem. Eine quadratische Lyapunov-Funktion f¨ ur die homogene n×n Differentialgleichung x˙ = Ax, A ∈ R , existiert genau dann, wenn die Matrix A exponentiell stabil ist. Beweis: Sei eine quadratische Lyapunov-Funktion V gegeben. Dann ist A nach Theorem 2.6.2 exponentiell stabil. Ist A umgekehrt exponentiell stabil, so existiert nach Lemma 2.6.7 eine positiv definite Matrix B, die die Lyapunov Gleichung (2.6.3) f¨ ur eine positiv definite Matrix C l¨ost. Wegen Lemma 2.6.6 und Lemma 2.6.4 ist V (x) = xT Bx dann eine quadratische Lyapunov-Funktion. Die Existenz einer quadratischen Lyapunov-Funktion ist also eine notwendige und hinreichende Bedingung f¨ ur die exponentielle Stabilit¨at von A und liefert damit eine Charakterisierung, die a¨quivalent zu der Eigenwertbedingung aus Satz 2.4.4 ist.
2.7
Linearisierung
Im einleitenden Kapitel haben wir zun¨achst eine nichtlineare Differentialgleichung f¨ ur das Pendelmodell hergeleitet und dann mit heuristischen Argumenten lineare Modelle abgeleitet, f¨ ur die wir dann die Stabilit¨at untersucht haben. In diesem Kapitel werden wir dieses Verfahren mathematisch begr¨ unden. Wir betrachten eine allgemeine autonome nichtlineare Differentialgleichung der Form y(t) ˙ = f (y(t)), (2.7.1) wobei f : Rn → Rn eine Lipschitz-stetige Abbildung ist. Aus der Theorie der gew¨ohnlichen Differentialgleichungen ist bekannt, dass f¨ ur jeden Anfangswert y0 ∈ Rn eine eindeutige L¨osung y(t; y0 ) existiert, die die Anfangsbedingung y(0; y0 ) = y0 erf¨ ullt. Der Einfachheit halber nehmen wir an, dass die L¨osungen f¨ ur alle Zeiten t ∈ R existieren; im Allgemeinen hat man nur die Existenz einer lokalen L¨osung (siehe z.B. Aulbach [3, Abschnitt 2.4]). Sei nun y ∗ ∈ Rn ein Gleichgewichtspunkt der Gleichung (2.7.1), also f(y ∗ ) = 0. Zur Vereinfachung nehmen wir an, dass y ∗ = 0 gilt, andernfalls k¨onnen wir die rechte Seite f (y) durch f (y + y ∗ ) ersetzen (die L¨osungskurven werden dadurch nur “verschoben”).
2.7. LINEARISIERUNG
41
Falls f nun in y ∗ = 0 differenzierbar ist, so existiert nach Definition eine lineare Abbildung A : Rn → Rn und eine Umgebung N von y ∗ = 0 mit ϕ(y) → 0. y→0 |y|
f(y) = Ay + ϕ(y) und lim
Die Abbildung A fassen wir im Folgenden stets als Matrix A ∈ Rn×n auf, womit die Gleichung x(t) ˙ = Ax(t) (2.7.2) eine lineare autonome Differentialgleichung ist. Die Matrix A ist die Jacobi∂fi Matrix ( ∂x )i,j und die Gleichung (2.7.2) wird als Linearisierung von (2.7.1) j im Punkt y ∗ = 0 bezeichnet. Im Folgenden nehmen wir an, dass f stetig differenzierbar, also eine C 1 -Funktion ist. Dann folgt die Lipschitz-Stetigkeit. Unser Ziel ist es nun zu zeigen, dass die L¨osungen x(t; y0 ) von (2.7.2) die L¨osungen y(t; y0 ) von (2.7.1) in einer Umgebung von y ∗ = 0 approximieren. Zun¨achst betrachten wir L¨osungen auf endlichen Zeitintervallen. 2.7.1. Theorem. Betrachte f¨ ur eine C 1 -Funktion f : Rn → Rn mit f (0) = 0 die nichtlineare Differentialgleichung (2.7.1) und ihre Linearisierung (2.7.2). Bezeichne die zugeh¨origen L¨osungen mit y(t; y0 ) und x(t; y0 ), t ∈ R. Seien ε > 0 und T > 0. Dann gibt es ein δ > 0, so dass f¨ ur jeden Anfangswert y0 ∈ Rn mit |y0 | ≤ δ die Absch¨atzung |y(t; y0 ) − x(t; y0 )| ≤ ε |y0 | f¨ ur alle t ∈ [0, T ] gilt. Beweis: Wir zeigen zun¨achst die folgende Behauptung: F¨ ur jedes T > 0 existieren ein δ > 0 und ein α > 0, so dass |y0 | ≤ δ =⇒ |y(t; y0 )| ≤ α |y0 | . Zum Beweis dieser Behauptung beachte, dass wegen der Lipschitz-Stetigkeit von f eine Konstante γ > 0 existiert mit |y| ≤ γ =⇒ |f (y)| ≤ L |y|
(2.7.3)
Zu dem gegebenen T > 0 setzen wir nun δ = e−LT γ und betrachten ky0 k ≤ δ. Sei t0 > 0 die minimale Zeit mit |y(t0 ; y0 )| ≥ γ. Wir zeigen zun¨achst, dass t0 ≥ T . Wegen ¯ ¯ ¯d ¯ ¯ y(t; y0 )¯ = |f(y(t; y0 ))| ≤ L |y(t; y0 )| , f¨ ur t ∈ [0, t0 ] ¯ dt ¯
42
CHAPTER 2. LINEARE DIFFERENTIALGLEICHUNGEN
und |xT y| ≤ |x| |y| folgt d |y(t; y0 )|2 = 2y(t; y0 )T f (y(t; y0 )) ≤ 2L |y(t; y0 )|2 . dt ¨ Analog zum Beweis von Ubungsaufgabe 1, Blatt 2 folgt damit |y(t; y0 )| ≤ eLt |y0 | , t ∈ [0, t0 ]
(2.7.4)
und daraus nach Wahl von t0 γ ≤ |y(t0 ; y0 )| ≤ eLt0 |y0 | ≤ eLt0 δ ≤ eLt0 e−LT γ = eL(t0 −T ) γ. Aus dieser Ungleichung folgt eL(t0 −T ) ≥ 1, und da L > 0 ist, muss t0 ≥ T sein, was zu zeigen war. Die Behauptung folgt nun sofort aus (2.7.4) mit α = eLT . Wir beweisen nun die Aussage des Satzes und w¨ ahlen dazu ε > 0 und T > 0. Sei M = maxt∈[0,T ] keAt k und seien δ > 0 und α > 0 mit ur alle t ∈ [0, T ]. |y0 | ≤ δ =⇒ |y(t; y0 )| ≤ α |y0 | f¨ Aus der Definition von ϕ folgt, dass ein ˜δ > 0 existiert mit |y| ≤ ˜δ =⇒ |ϕ(y)| ≤
ε |y| . MTα
Wir k¨onnen annehmen, dass δ ≤ ˜δ und δ ≤ ˜δ/α. Wir w¨ahlen nun einen Anfangswert y0 ∈ Rn mit |y0 | ≤ δ. Setzen wir g(t) = ϕ(y(t; y0 )), so erf¨ ullt die zugeh¨orige L¨osung y(t; y0 ) f¨ ur t ∈ [0, T ] offenbar die nichtautonome lineare Differentialgleichung y(t) ˙ = Ay(t) + g(t). Mit der allgemeinen Form der L¨osung dieser Gleichung gilt At
y(t; y0 ) = e y0 +
Z
t A(t−s)
e 0
g(s) ds = x(t; y0 ) +
Z
t
eA(t−s) ϕ(y(s; y0 )) ds. 0
2.7. LINEARISIERUNG
43
Also folgt f¨ ur alle |y0 | ≤ δ und t ∈ [0, T ] ¯Z t ¯ ¯ ¯ A(t−s) ¯ |x(t; y0 ) − y(t; y0 )| ≤ ¯ e ϕ(y(s; y0 )) ds¯¯ 0 Z t ° A(t−s) ° °e ° |ϕ(y(s; y0 ))| ds ≤ 0
≤ T M sup |ϕ(y(s; y0 ))| s∈[0,T ]
ε sup |y(s; y0 )| M T α s∈[0,T ] ε ≤ TM α |y0 | = ε |y0 | , MTα
≤ TM
was zu beweisen war. Leider liefert Satz 2.7.1 keine M¨oglichkeit, direkt Stabilit¨atseigenschaften zu untersuchen, da die Menge der Anfangswerte, f¨ ur die er gilt, von der gew¨ahlten Zeit T abh¨angt. F¨ ur eine Stabilit¨atsaussage, also eine Aussage f¨ ur T → ∞ , verwenden wir wiederum das Konzept der Lyapunov—Funktion. 2.7.2. Definition. Sei f : Rn → Rn (2.7.1) eine Lipschitz-stetige Funktion mit f (0) = 0. Eine stetig differenzierbare Funktion V : Rn → [0, ∞) heißt lokale quadratische Lyapunov- Funktion, falls positive reelle Konstanten γ, c1 , c2 , c3 > 0 existieren, so dass die Ungleichungen c1 |x|2 ≤ V (x) ≤ c2 |x|2 f¨ ur alle x ∈ Rn und d V (y(t; y0 )) ≤ −c3 |y(t, y0 )|2 dt f¨ ur alle y0 ∈ Rn und alle t ≥ 0 mit V (y(t, y0 )) ≤ γ gelten. Analog zum linearen Fall k¨onnen wir zeigen, dass die Existenz einer lokalen quadratischen Lyapunov Funktion lokale exponentielle Stabilit¨at impliziert. 2.7.3. Theorem. Seien f : Rn → Rn eine Lipschitz-stetige Funktion mit f (0) = 0 und y(t; x0 ), t ∈ R, die L¨osungen des zugeh¨origen nichtlinearen
44
CHAPTER 2. LINEARE DIFFERENTIALGLEICHUNGEN
Anfangswertproblems (2.7.1). Dann gilt: Falls eine lokale quadratische Lyaullen die punov Funktion mit Konstanten γ, c1 , c2 , c3 > 0 existiert, so erf¨ L¨osungen zu Anfangswerten y0 mit V (y0 ) ≤ γ die Absch¨atzung ky(t; y0 )k ≤ c e−σt ky0 k , t ≥ 0, f¨ ur σ = c3 /2c2 und c = exponentiell stabil.
p c2 /c1 , d.h. das Gleichgewicht y ∗ = 0 ist lokal
Beweis: Wir zeigen zun¨achst, dass alle Trajektorien zu Anfangswerten y0 mit V (y0 ) ≤ γ die Bedingung V (y(t; y0 )) ≤ γ, t ≥ 0, erf¨ ullen. Wir nehmen an, dass es eine Zeit T gibt, so dass V (y(T ; y0 )) > γ ist. Dann gibt es eine Zeit t0 ≥ 0 mit V (y(t0 ; y0 )) = γ und V (y(t; y0 )) > γ f¨ ur alle t ∈ (t0 , T ]. Also folgt ¯ d ¯¯ V (y(t0 + h; y0 )) − V (y(t0 ; y0 )) ≥ 0, V (y(t; y0 )) = lim ¯ h→0,h>0 dt t=t0 h was aber der Bedingung an die Lyapunov Funktion widerspricht. F¨ ur alle y0 mit V (y0 ) ≤ γ erhalten wir somit f¨ ur λ = c3 /c2 die Ungleichung d V (y(t; y0 )) ≤ −λV (y(t; y0 )) dt
und die exponentielle Stabilit¨ at ergibt sich genau wie im Beweis von Satz 2.6.2. ¨ Der folgende Satz zeigt die Aquivalenz der exponentiellen Stabilit¨at der nichtlinearen Gleichung (2.7.1) und ihrer Linearisierung (2.7.2). 2.7.4. Theorem. Betrachte f¨ ur eine C 1 -Funktion f : Rn → Rn mit f(0) = 0 die nichtlineare Differentialgleichung (2.7.1) und ihre Linearisierung (2.7.2). Das Gleichgewicht y ∗ = 0 ist lokal exponentiell stabil f¨ ur Gleichung (2.7.1) genau dann, wenn es global exponentiell stabil f¨ ur (2.7.2) ist. Beweis: Sei Gleichung (2.7.2) exponentiell stabil. Aus Satz 2.6.8 folgt dann die Existenz einer bilinearen Lyapunov-Funktion V (x) = xT Bx. Wir zeigen, dass V eine lokale Lyapunov-Funktion f¨ ur (2.7.1) ist, was die exponentielle Stabilit¨ at impliziert. Sei also y(·; y0 ) eine L¨osung der nichtlinearen Gleichung
2.7. LINEARISIERUNG
45
(2.7.1). Dann gilt d V (y(t; y0 )) = y(t; y0 )T Bf(y(t; y0 )) + f (y(t; y0 ))T By(t; y0 ) dt = y(t; y0 )T BAy(t; y0 ) + y(t; y0 )T AT By(t; y0 ) +y(t; y0 )T Bϕ(y(t; y0 )) + ϕ(y(t; y0 ))T By(t; y0 ) ¤ £ = y(t; y0 )T BA + AT B y(t; y0 ) ≤ −c3 |y(t; y0 )|2 + c4 |ϕ(y(t; y0 ))| |y(t; y0 )|
f¨ ur ein c4 > 0 (denn BA+AT B < 0). Aus der Differenzierbarkeitseigenschaft folgt |ϕ(y)| ≤ 2cc34 |y| f¨ ur alle hinreichend kleinen y, etwa f¨ ur |y| ≤ σ. F¨ ur alle |y(t; y0 )| ≤ σ gilt also d c3 V (y(t; y0 )) ≤ − |y(t; y0 )|2 . dt 2
(2.7.5)
Es gibt c1 > 0 mit c1 |x|2 ≤ V (x). Mit γ = c1 σ 2 folgt: p V (x) ≤ γ impliziert |x| ≤ V (x)/c1 ≤ σ
und damit gilt (2.7.5). Somit ist V auch eine lokale Lyapunov-Funktion f¨ ur die nichtlineare Gleichung und die exponentielle Stabilit¨at von (2.7.1) folgt. Sei umgekehrt Gleichung (2.7.1) exponentiell stabil. Dann gibt es insbesondere ein T > 0 und ein δ > 0, so dass f¨ ur alle |y0 | ≤ δ die Ungleichung |y(T ; y0 )| ≤
1 |y0 | 2
gilt. Aus Satz 2.7.1 angewendet mit ε = 1/4 folgt nun, dass ein δ > 0 existiert, so dass die L¨osungen der linearen Gleichung f¨ ur alle Anfangswerte y0 mit |y0 | ≤ δ die Absch¨atzung |x(T ; y0 )| ≤
3 |y0 | 4
erf¨ ullen. Also folgt 3 keAt xk ≤ . δ 4 kxk=δ
keAt k = sup
Nach Lemma 2.4.6 impliziert dies die exponentielle Stabilit¨at der linearen Gleichung.
46
CHAPTER 2. LINEARE DIFFERENTIALGLEICHUNGEN
F¨ ur lineare Systeme wissen wir, dass exponentielle und asymptotische Stabilit¨at a¨quivalent sind. F¨ ur nichtlineare Systeme ist das nicht der Fall. Insbesondere gilt Satz 2.7.4 nicht, falls wir f¨ ur das nichtlineare System nur asymptotische Stabilit¨at voraussetzen. Dies zeigt das folgende Beispiel. Beispiel. Betrachte die nichtlineare eindimensionale Differentialgleichung y(t) ˙ = −y(t)3 . Durch Nachrechnen sieht man leicht, dass die L¨osungen dieser Gleichung gegeben sind durch 0 falls y0 = 0 2 −1/2 falls y0 > 0 . y(t; y0 ) = (2t + 1/y0 ) 2 −1/2 − (2t + 1/y0 ) falls y0 < 0 Man sieht leicht, dass das Gleichgewicht y ∗ = 0 tats¨achlich asymptotisch stabil ist (sogar global asymptotisch stabil). Die Linearisierung dieser Gleichung im Gleichgewicht ist gegeben durch x(t) ˙ =0 und offenbar ist diese Gleichung zwar stabil, jedoch nicht asymptotisch stabil. Im allgemeinen kann man nur von Eigenschaften der linearisierten Gleichung auf lokale Eigenschaften der nichtlinearen Gleichung schließen, nicht umgekehrt.
Chapter 3 Lineare Kontrollsysteme In diesem Kapitel werden Kontrollierbarkeitseigenschaften f¨ ur die einfachste Klasse von Kontrollsystemen, lineare Kontrollsysteme ohne Beschr¨ankungen an die Kontrollfunktionen fordern. Daher werden wir mit Hilfsmitteln der linearen Algebra auskommen. Lineare Kontrolltheorie ist ein riesiges mathematisches Gebiet mit hoher Anwendungsrelevanz in den Ingenieurwissenschaften. Im Folgenden wird nur ein erster Einblick gegeben.
3.1
Kontrollierbarkeit
Die einfachsten Kontrollsysteme sind lineare Systeme. Sie haben die Form x(t) ˙ = Ax(t) + Bu(t)
(3.1.1)
mit Matrizen A ∈ Rn×n , B ∈ Rn×m ; die Funktionen u : R → Rm heißen Kontroll- oder Steuerfunktionen, und k¨onnen frei in einer Menge U zul¨assiger Kontrollfunktionen gew¨ahlt werden. Von Interesse ist zun¨achst das Verhalten des Systems unter beliebigen Kontrollfunktionen. Die Punkte x ∈ Rn werden als Zust¨ande des Systems bezeichnet. Nat¨ urlich kann man A und B auch als lineare Abbildungen auf Rn bzw. von Rm nach Rn auffassen. Die L¨osungen ϕ(t, t0 , x0 , u) von (3.1.1) zum Anfangswert x(t0 ) = x0 ∈ Rn sind (nach der Variation der Konstanten-Formel oder wie man leicht nachrechnet) gegeben durch A(t−t0 )
ϕ(t, t0 , x0 , u) = e
x0 +
Z
t
t0
eA(t−s) Bu(s) ds, t ∈ R.
47
(3.1.2)
48
CHAPTER 3. LINEARE KONTROLLSYSTEME
Dieses Integral ist nat¨ urlich nicht f¨ ur alle Funktionen u : R → Rm wohldefiniert. Offenbar reicht es, dass sie Lebesgue-integrierbar auf jedem Intervall [0, t] sind. Dann ist auch das Produkt mit der beschr¨ankten, stetigen Funktion eA(t−s) B, s ∈ [0, t], Lebesgue-integrierbar. Manchmal verlangt man auch mehr Regularit¨at, zum Beispiel, dass sie stetig, st¨ uckweise stetig, st¨ uckweise konstant, oder unendlich oft differenzierbar sind. Standardvoraussetzungen an die Kontrollfunktionen sind, dass U einer der folgenden Funktionenr¨aume ist: L1,loc (R, Rm ) L∞ (R, Rm ) L∞,loc (R, Rm ) Css (R, Rm )
= = = =
{u : R → Rm , {u : R → Rm , {u : R → Rm , {u : R → Rm ,
auf jedem kompakten Intervall integrierbar}, essentiell beschr¨ankt}, auf jedem komp. Intervall ess. beschr¨ankt}, u ist st¨ uckweise stetig}.
Die Funktionen in L1,loc (R, Rm ) nennt man auch lokal integrierbar. Man beachte, dass die Wahl von U = L1 (R, Rm } sehr einschr¨ankend (bez¨ uglich des Verhaltens f¨ ur |t| → ∞) ist. Ferner ist L∞(R, Rm ) ein Banachraum mit der Norm kuk∞ = ess sup |u(t)| := inf sup |u(t)| , t∈R
λ(N)=0 t∈R\N
wobei das Infimum u ¨ber all Teilmengen N ⊂ R mit Lebesgue-Maß λ(N ) = 0 genommen wird. Nat¨ urlich kann man auch weitere Anforderungen an die Kontrollfunktionen stellen, zum Beispiel, dass ihre Werte in einer vorgegebenen Menge U ⊂ Rm liegen, also u(t) ∈ U f¨ ur fast alle t ∈ R (zum Beispiel |u(t)| ≤ 1). Wir werden diese Situation sp¨ater diskutieren. Dies f¨ uhrt jedoch schon u ¨ber den Bereich der linearen Kontrolltheorie hinaus, die zun¨achst nur eine Theorie f¨ ur Matrizenpaare (A, B) ist. Wir werden in diesem Kapitel, soweit nichts anderes gesagt wird U = Css (R, Rm ) w¨ahlen. Ist in (3.1.2) die Anfangszeit t0 = 0, so bezeichnen wir die L¨osung (oder Trajektorie) auch h¨aufig mit ϕ(t, x0 , u), t ∈ R. Eine grundlegende Frage an Kontrollsysteme sind Kontrollierbarkeitsoder Erreichbarkeitsfragen: Gegeben ein Startpunkt x0 , welche Punkte x1 ∈ Rn kann man mit zul¨assigen Kontrollfunktionen erreichen?
3.1. KONTROLLIERBARKEIT
49
3.1.1. Definition. Ein Zustand x0 ∈ Rn heißt kontrollierbar (oder steuerbar) nach x1 ∈ Rn zur Zeit T ≥ 0, falls eine Kontrolle u ∈ U existiert mit ϕ(T, x0 , u) = x1 . Der Zustand x1 heißt dann auch erreichbar von x0 zur Zeit T. Wir definieren die Menge der Punkte, die von x0 in der Zeit T erreichbar sind, als OT+ (x0 ) = {x1 ∈ Rn , es gibt u ∈ U mit x1 = ϕ(t, x0 , u)}, und die Menge der Punkte, die in der Zeit T nach x1 gesteuert (oder kontrolliert) werden k¨onnen, als OT− (x1 ) = {x0 ∈ Rn , es gibt u ∈ U mit x1 = ϕ(t, x0 , u)}. Speziell schreiben wir auch R(T ) = OT+ (0) und R = C(T ) = OT− (0) und C =
[
T ≥0
[
T ≥0
R(T );
C(T ).
Von besonderem Interesse sind Systeme, bei denen jeder Punkt erreichbar oder kontrollierbar ist. Diese werden wir jetzt charakterisieren. Zun¨achst zeigen wir das folgende einfache Lemma. 3.1.2. Lemma. Sei S > T > 0. Dann gilt: (i) R(T ¡ ) ⊂ R(S); ¢ ¡ ¢ (ii) R(S) = R(T ) ⇒ R(T ) = R(t) f¨ ur alle t ≥ T (iii) R(T ) und R sind Unterr¨aume. Beweis: (i) F¨ ur y ∈ R(T ) existiert u ∈ U mit y = ϕ(T, 0, u). Definiere v ∈ U durch ½ 0 f¨ ur t ∈ [0, S − T ) v(t) = u(t − S + T ) f¨ ur t ∈ [S − T, S] Dann ist y = ϕ(S, 0, v) ∈ R(S). (Man bleibt im Nullpunkt so lange wie n¨ otig sitzen.)
50
CHAPTER 3. LINEARE KONTROLLSYSTEME
(iii) Seien y1 , y2 ∈ R(T ). Dann existieren Kontrollen u1 , u2 ∈ U mit Z T eA(T −s) Bui (s) ds f¨ ur i = 1, 2 yi = ϕ(T, 0, u) = 0
und damit (wegen der Linearit¨ at in u) Z T y1 + y2 = eA(T −s) B [u1 (s) + u2 (s)] ds = ϕ(t, 0, u1 + u2 ). 0
Wegen der Linearit¨ at in u gilt f¨ ur λ ∈ R, dass λy1 = ϕ(T, y1 , λu) ∈ R(T ). Daher ist R(T ) ein Untervektorraum. Seien nun y1 , y2 ∈ R. Mit (i) k¨onnen wir annehmen, dass y1 , y2 ∈ R(T ) f¨ ur ein T > 0, also y1 + y2 ∈ R(T ) ⊂ R. (ii) Es gelte R(S) = R(T ). F¨ ur x ∈ R(2S − T ) existiert u ∈ U mit Z 2S−T x = ϕ(2S − T, 0, u) = eA(2S−T −s) Bu(s) ds. 0
Weil ϕ(S, 0, u) ∈ R(S) = R(T ), existiert v ∈ U mit Z T ϕ(S, 0, u) = ϕ(T, 0, v) = eA(T −s) Bv(s) ds. 0
(Wir sparen die Zeit S − T ein.) Definiere w ∈ U durch ½ v(t) f¨ ur t ∈ [0, T ) w(t) = . u(t − T + S) f¨ ur t ∈ [T, S] Dann ist wegen der Zeitinvarianz Z T Z S A(S−s) ϕ(S, 0, w) = e Bw(s) ds + eA(S−s) Bw(s) ds 0 T Z T Z S A(S−T ) A(T −s) = e e Bv(s) ds + eA(S−s) Bu(s − T + S) ds 0 T Z S Z 2S−T eA(S−s) Bu(s) ds + eA(2S−T −s) Bu(s) ds = eA(S−T ) 0 S Z T Z 2S−T A(2S−T −s) = e Bu(s) ds + eA(2S−T −s) Bu(s) ds 0
= ϕ(2S − T, 0, u) = x;
S
3.1. KONTROLLIERBARKEIT
51
hier haben wir ϕ(S, 0, u) = ϕ(T, 0, v) und die Transformation s0 = s − T + S verwendet. Daher ist x ∈ R(S) und es folgt R(2S − T ) = R(S). Durch Induktion erh¨ alt man R(nS − T ) = R(S) f¨ ur alle n ∈ N. Mit (i) folgt R(t) = R(S) f¨ ur alle t ≥ S. Damit ist das Lemma bewiesen. Eine einfache Folgerung aus der Linearit¨at von R(T ) und (i), (iii) in dieser Proposition ist, dass R(t) = R ist f¨ ur alle t > 0. Ferner ist R = Rn genau dann wenn f¨ ur alle x0 , x1 ∈ Rn und alle t > 0 eine Kontrolle u ∈ U existiert mit x1 = ϕ(t, x0 , u). In der Tat: Betrachte x1 − ϕ(t, x0 , 0) ∈ Rn = R(t). Dann existiert u ∈ U mit x1 − ϕ(t, x0 , 0) = ϕ(t, 0, u), also x1 = ϕ(t, x0 , 0) + ϕ(t, 0, u) = ϕ(t, x0 , u).
(3.1.3)
Wir haben damit insbesondere gezeigt, dass hier Rn = Ot+ (x0 ) f¨ ur ein x0 ∈ Rn , t > 0, genau dann gilt, wenn es f¨ ur alle x0 ∈ Rn und alle t > 0 gilt. Analoge Aussage gelten f¨ ur C(T ) und C sowie Ot− (x0 ). Wir werden jetzt R(t) charakterisieren. 3.1.3. Lemma. Sei V ⊂ Rn ein linearer Unterraum und A eine lineare Abbildung auf Rn . Dann ist der kleinste A-invariante Unterraum, der V enth¨alt, gegeben durch hA | V i = V + AV + ... + An−1 V . Beweis: Die Menge der A-invarianten Unterr¨aume, die V enthalten, ist nicht leer (Rn ist solch ein Unterraum) und der Durchschnitt von solchen Unterr¨aumen ist wieder von diesem Typ, also existiert der kleinste Unterraum von diesem Typ. Wegen der A-Invarianz folgt Ak V ⊂ hA | V i f¨ ur alle ˙ F¨ k ∈ N , und daher gilt “ ⊃ ”. ur die Umkehrung ist nur zu zeigen, dass V + AV + ... + An−1 V A-invariant ist. Das charakteristische Polynom χA ist χA (z) = det(zI − A) = z n + an−1 z n−1 + ... + a1 z + a0
52
CHAPTER 3. LINEARE KONTROLLSYSTEME
mit Koeffizienten ai ∈ R. Nach dem Satz von Cayley-Hamilton (siehe zum Beispiel Fischer [?], Satz 5.2.5 und Satz 5.5.1).ist χA (A) = An + an−1 An−1 + ... + a1 A + a0 I = 0, und daher An = −an−1 An−1 − ... − a1 A − a0 I.
Daraus folgt die A-Invarianz von V + AV + ... + An−1 V , was zu zeigen war. Definiere f¨ ur t > 0 eine Matrix in Rn×n durch Z t T Wt = eAτ BB T eA τ dτ 0
(hierbei bedeutet T Transposition einer Matrix). Diese Abbildung ist symmetrisch und positiv semidefinit, weil f¨ ur x ∈ Rn Z t Z t¯ ¯ ¯ T AT τ ¯2 T T Aτ T AT τ x Wt x = x e BB e x dτ = ¯B e x¯ dτ , 0
0
wobei |·| die euklidische Norm bezeichnet.
3.1.4. Lemma. F¨ ur alle t > 0 ist hA | Im Bi = Im Wt . Beweis: Wegen der Linearit¨at reicht es, dies f¨ ur die orthogonalen Komplemente zu zeigen: hA | Im Bi⊥ = [Im Wt ]⊥ . ,,⊂“: Sei x ∈ hA | Im Bi⊥ . Dann ist xT Ak B = 0 f¨ ur alle k = 0, 1, ... und daher ∞ X 1 T k T At x A B = 0 f¨ x e B= ur alle t ≥ 0. k! k=0 Dann folgt xT Wt = 0, also x ∈ [Im Wt ]⊥ . ,,⊃“: Sei x ∈ [Im Wt ]⊥ f¨ ur ein t > 0. Dann ist Z t¯ ¯ ¯ T AT τ ¯2 T 0 = x Wt x = ¯B e x¯ dτ , 0
und daher
xT eAτ B = 0 f¨ ur alle τ ≥ 0.
Insbesondere ist f¨ ur τ = 0 xT B = 0.
(3.1.4)
3.1. KONTROLLIERBARKEIT
53
Sukzessives Differenzieren in (3.1.4) und Auswerten in τ = 0 liefert xT AB = 0 xT A2 B = 0 ... T n−1 x A B = 0. Insgesamt folgt, dass x senkrecht steht auf Im B + A Im B + ... + An−1 Im B = hA | Im Bi . Der n¨achste Satz charakterisiert die Erreichbarkeitsmenge vom Ursprung. 3.1.5. Theorem. F¨ ur das System (3.1.1) gilt R = C = Im[B AB ... An−1 B] = hA | Im Bi . Beweis: Die zweite Gleichung folgt aus Lemma 3.1.3. Wir zeigen nur R(t) = hA | Im Bi, die Behauptung f¨ ur C folgt analog. ,,⊂“: F¨ ur x ∈ R gibt es u ∈ U und t > 0 mit x = ϕ(t, 0, u). F¨ ur alle τ ∈ [0, t] ist A(T −τ )
e
∞ X 1 k A Bu(τ ) ∈ hA | Im Bi , Bu(τ ) = k! k=0
also auch (beachte die Definition des Integrals!) x=
Z
t 0
eA(T −τ ) Bu(τ ) dτ ∈ hA | Im Bi ,
,,⊃“: Sei x ∈ hA | Im Bi. Nach Lemma 3.1.4 existiert z ∈ Rn mit x = Wt z =
Z
t
T
eAτ BB T eA τ z dτ .
0
F¨ ur eine Kontrolle u ∈ U mit T
ur τ ∈ [0, t], u(τ ) = B T eA τ z f¨
54
CHAPTER 3. LINEARE KONTROLLSYSTEME
ist dann x ∈ R(t), weil ϕ(t, 0, u) = =
Z
t Aτ
e Bu(τ ) dτ =
Z0 t
Z
t
T
eAτ BB T eA τ z dτ
0
Tτ
eAτ BB T eA
dτ z = x.
0
Das folgende Korollar charakterisiert vollst¨andige Kontrollierbarkeit direkt mit Hilfe der Matrizen A und B. 3.1.6. Corollary (Kalman-Kriterium). F¨ ur das System (3.1.1) gilt R = n R genau dann, wenn der Rang der Erreichbarkeitsmatrix [B AB ... An−1 B] gleich n ist. Das System (und auch das Matrizenpaar (A, B)) heißt dann vollst¨ andig kontrollierbar. Beispiel. Die Gleichung des linearisierten Pendels mit D¨ampfung δ ≥ 0 ist ϕ ¨ (t) − δ ϕ(t) ˙ − ϕ(t) = u(t) oder mit x1 = ϕ, x2 = ϕ˙ µ ¶ µ ¶µ ¶ µ ¶ x˙ 1 0 1 x1 0 = + u(t). x˙ 2 1 δ x2 1 Die Erreichbarkeitsmatrix mit n = 2, [B AB ] =
µ
0 1 1 δ
¶
,
hat den Rang 2, das System ist also vollst¨andig kontrollierbar. Bemerkung. Die vorangegangenen Beweise lassen sich genauso f¨ uhren, wenn an Stelle von st¨ uckweise stetigen Kontrollfunktionen lokal integrierbare Kontrollfunktionen erlaubt sind. Insbesondere bleibt die Charakterisierung von Erreichbarkeitsmengen in Theorem 3.1.5 g¨ ultig. Als Folgerung ergibt sich eine einfache Form f¨ ur nichtkontrollierbare Systeme: Jedes lineare Kontrollsystem kann nach Koordinatentransformation (in Rn ) in der Form y˙ 1 = A1 y1 + A2 y2 + B1 u A3 y2 y˙ 2 =
(3.1.5)
3.1. KONTROLLIERBARKEIT
55
geschrieben werden, wobei (A1 , B1 ) kontrollierbar ist: W¨ahle eine Basis im Erreichbarkeitsunterraum und erg¨anze sie zu einer Basis von Rn . Wir werden jetzt eine alternative Charakterisierung von Kontrollierbarkeit herleiten mit Hilfe der Eigenr¨aume der Matrix A. Das charakteristische Polynom χA ist durch die von A definierte lineare Abbildung bestimmt, a¨ndert sich also nicht bei Koordinatentransformation (wie man auch leicht nachrech¨ net). Daher gilt, beim Ubergang zu (3.1.5) mit µ ¶ A A 1 2 A˜ = 0 A3 ˜ = det(zI − A1 ) det(zI − A3 ). χA (z) = χA˜(z) = det(zI − A) 3.1.7. Definition. Mit der obigen Notation heißen χcA (z) = det(zI − A1 ) und χuA (z) = det(zI − A3 ) der kontrollierbare bzw. der unkontrollierbare Teil des charakteristischen Polynoms von A. 3.1.8. Theorem. (Hautus-Kriterium) F¨ ur das Kontrollsystem (3.1.1) sind a¨quivalent: (i) Das Paar (A, B) ist kontrollierbar; (ii) rang(λI − A |B ) = n f¨ ur alle λ ∈ C; (iii) rang(λI − A |B ) = n f¨ ur alle Eigenwerte λ von A. ¨ Beweis: Die Aquivalenz von (ii) und (iii) gilt, weil schon λI − A den Rang n hat, falls λ kein Eigenwert von A ist. Ferner ist bleibt Bedingung (iii) ¨ richtig bei Koordinatentransformationen in Rn . Zur Aquivalenz von (i) und (iii) beachte, dass rang(λI − A |B ) < n f¨ ur ein λ ∈ C genau dann gilt, wenn es ein 0 6= p ∈ Cn gibt, das senkrecht auf dem Bild von (λI − A |B ) steht, d.h. pT (λI −A |B ) = 0 oder pT A = λpT (d.h. pT ist Linkseigenvektor von A) und pT B = 0. Dies impliziert pT Ak B = λk pT B = 0 f¨ ur alle k = 0, 1, .... Dies bedeutet, dass p senkrecht auf dem Bild der Erreichbarkeitsmatrix steht, also das Kalman-Kriterium verletzt ist. Ist umgekehrt das System nicht kontrollierbar, so k¨onnen wir ohne Beschr¨ankung der Allgemeinheit annehmen, dass A die obige Block-Dreiecksform hat. Betrachte einen Eigenwert λ von A3 . Dies ist auch ein Eigenwert von AT und damit steht der zugeh¨ orige Eigenvektor senkrecht auf dem Erreichbarkeitsraum hA |Im B i. Es gilt dann also
56
CHAPTER 3. LINEARE KONTROLLSYSTEME
ur k = 0, 1, ... und pT AT = λpT . Damit ist rang(λI − A |B ) < pT Ak B = 0 f¨ n. Wir beenden die Analyse der Kontrollierbarkeit mit einer Diskussion der Frage, wie typisch Kontrollierbarkeit im Raum aller Matrizenpaare (A, B) ist. Wir zeigen die folgende Generizit¨atseigenschaft. 3.1.9. Proposition. Die Menge der kontrollierbaren Matrizenpaare (A, B) 2 offen und dicht in Rn×n × Rn×m (identifiziert mit Rn +nm ). Beweis: Das Komplement M der Menge der kontrollierbaren Paare ist 2 eine algebraische Teilmenge von Rn +nm , d.h., es ist die Menge der gemeinsamen Nullstellen von endlich vielen Polynomen. In der Tat ist (A, B) nicht kontrollierbar genau dann, wenn alle m¨oglichen Unterdeterminanten der Gr¨oße n der Erreichbarkeitsmatrix verschwinden. Diese lassen sich als Polynome P1 , ..., Pr in n2 + nm Variablen schreiben. Offenbar ist M eine echte, abgeschlossene Teilmenge. Schließlich hat M keine inneren Punkte, weil ein Polynom, das auf einer offenen Menge verschwindet, schon identisch null ist. Dieses Resultat zeigt, dass man Kontrollierbarkeit erwarten kann, falls alle Eintr¨age von A und B durch Messungen bestimmt sind. Die Relevanz dieses Resultats ist jedoch recht eingeschr¨ankt: Zum Einen k¨onnen gewisse Eintr¨age von A und B strukturell bestimmt sind (in der Pendelgleichung etwa die 1 und die 0); zum Anderen sind Systeme, die nahe an einem unkontrollierbaren System sind, praktisch unkontrollierbar (vgl. Sontag [9], pp.95). Man kann auch u ¨ber anderen K¨orpern als R Kontrollierbarkeit studieren. So bleibt das obige Resultat auch u ¨ber C richtig. Kontrollierbarkeit u ¨ber endlichen K¨orpern spielt in der Theorie der Signal¨ ubertragung eine Rolle.
3.2
Beobachtbarkeit und Dualit¨ at
In diesem Abschnitt betrachten wir Kontrollsysteme mit Output der Form x˙ = Ax + Bu, y = Cx,
(3.2.1)
mit A ∈ Rn×n , B ∈ Rn×m , und C ∈ Rk×n . Das Problem der Beobachtbarkeit ist, aus dem Verlauf des Output y(t), t > 0, auf den Zustand x zu schließen. Pr¨aziser definieren wir zun¨achst:
¨ 3.2. BEOBACHTBARKEIT UND DUALITAT
57
3.2.1. Definition. Zwei Zust¨ande x1 , x2 ∈ Rn des Systems (3.2.1) heißen ununterscheidbar, falls f¨ ur alle u ∈ U gilt ur alle t ≥ 0. Cϕ(t, x1 , u) = Cϕ(t, x2 , u) f¨
(3.2.2)
Das System (3.2.1) heißt beobachtbar, falls alle x1 6= x2 unterscheidbar sind, d.h., aus (3.2.2) folgt x1 = x2 . Wegen der Linearit¨at sieht man sofort, dass Cϕ(t, x1 , u) − Cϕ(t, x2 , u) = Cϕ(t, x1 − x2 , 0), also ist Ununterscheidbarkeit bez¨ uglich irgendeiner Kontrolle ¨aquivalent zu Ununterscheidbarkeit bez¨ uglich der Kontrolle u = 0. Insbesondere k¨onnen wir bei der Analyse der Beobachtbarkeit den Input Bu zun¨achst weglassen. Wir nennen einen Zustand x ∈ Rn unbeobachtbar, falls Cϕ(t, x, 0) = 0 f¨ ur alle t ≥ 0, und definieren die Menge der unbeobachtbaren Zust¨ande auf [0, t] als N (t) = {x ∈ Rn , Cϕ(s, x, 0) = 0 f¨ ur alle s ∈ [0, t]}, \ N = N (t). t>0
3.2.2. Proposition. F¨ ur das System (3.2.1) und t > 0 gilt \n N = N (t) = ker(CAi−1 ). i=1
Beweis: Offenbar ist x ∈ Rn genau dann auf [0, t] unbeobachtbar, wenn f¨ ur alle s ∈ [0, t] 0 = Cϕ(s, x, 0) = CesA x. Dies ist a¨quivalent zu CAk x = 0 f¨ ur alle k = 0, 1, ..., denn dies erh¨alt man durch sukzessives Differenzieren in s = 0; die Umkehrung folgt aus der Definition der Matrixexponentialfunktion. Nach dem Satz von Cayley-Hamilton reicht es, k = 0, 1, ..., n − 1 zu betrachten. In (3.1.5) haben wir den kontrollierbaren Teil eines Systems identifiziert. Analog werden wir jetzt auch einen unbeobachtbaren Teil identifizieren. Dazu
58
CHAPTER 3. LINEARE KONTROLLSYSTEME
betrachten wir das ”Quotientensystem, das durch das folgende Diagramm beschrieben wird: B
Rm → ¯ B
&
Rn ↓
A
→ ¯ A
Rn ↓
Rn /N → Rn /N
C
→ Rk ¯ C
%
Hierbei bezeichnen die vertikalen Pfeile die kanonische Projektion P x = x + ¯ A, ¯ und C¯ sind die eindeutigen linearen Abbildungen, f¨ N und B, ur die das Diagramm kommutiert, f¨ ur die also gilt ¯ P A = A¯ P, C¯ P = C. P B = B, Die Abbildung A¯ existiert, weil N A-invariant ist. Das Quotientenystem ¯ + Bu, ¯ y = Cz, ¯ z˙ = Az haben wir erhalten, indem wir ununterscheidbare Zust¨ande miteinander identifiziert haben. Wir k¨onnen also erwarten, dass das Quotientensystem beobachtbar ist. F¨ ur den Nachweis setze eine Basis b1 , ..., bl von N zu einer Basis b1 , ..., bn von Rn fort. Bez¨ uglich dieser Basis hat das System (B, A, C) dann die Darstellung ¶ µ ¶ µ ¡ ¢ B1 A1 A2 x+ u(t), y = 0 C2 x, x˙ = 0 A3 B2 weil N A-invariant ist mit N ⊂ ker C. Ferner ist Rn /N isomorph zu jedem komplement¨aren Unterraum zu N in Rn . Also ist (B2 , A3 , C2 ) eine Matrix¯ A, ¯ C). ¯ Darstellung von (B,
3.2.3. Proposition. Das Quotientensystem zu (B, A, C) faktorisiert nach dem unbeobachtbaren Teilraum N ist beobachtbar. ¯ A, ¯ C) ¯ so gilt f¨ Beweis: Ist x¯ = P x ∈ Rn /N unbeobachtbar f¨ ur (B, ur alle k∈N ¯x = C¯ A¯k−1 AP ¯ x 0 = C¯ A¯k x¯ = C¯ A¯k−1 A¯ k−1 = C¯ A¯ P Ax = ... ¯ Ak x = CAk x, = CP
¨ 3.2. BEOBACHTBARKEIT UND DUALITAT
59
was a¨quivalent zu x ∈ N ist. Also ist x¯ = 0, was zu zeigen war. Die Beweise f¨ ur die Charakterisierung von Kontrollierbarkeit und Beobachtbarkeit sind sehr ¨ahnlich. Dahinter steht eine Dualit¨atsbeziehung zwischen Beobachtbarkeit und Kontrollierbarkeit, die wir jetzt pr¨azisieren. 3.2.4. Definition. Das zu (3.2.1) duale System ist x˙ = AT x + C T u, y = B T x.
(3.2.3)
Wir erhalten also das duale System, indem wir Input und Output vertauschen, und die Matrizen transponieren. Offenbar ist das Originalsystem dual zu dem dualen System. 3.2.5. Theorem. F¨ ur ein System (B, A, C) und das duale System (C T , AT , B T ) seien \n−1 R = h A| Im Bi , N = ker(CAi ), i=0 \n−1 ¯ ® ¡ ¢i ker(B T AT ) RT = AT ¯ Im C T , N T = i=0
die zugeh¨origen Erreichbarkeits- und Unbeobachtbarkeitsunterr¨aume. Dann gilt mit den orthogonalen Komplementen RT = N ⊥ und N T = R⊥ . Beweis: F¨ ur die lineare Abbildung C CA . M = . . CAn−1
: Rn → Rnk
ist die duale Abbildung gegeben durch ³ ¡ T ¢n−1 T ´ T T T T M = C A C . . . A . C
60
CHAPTER 3. LINEARE KONTROLLSYSTEME
Daher kann M T mit der Erreichbarkeitsmatrix des dualen Systems identifiziert werden. Mit der Dualit¨ at aus der linearen Algebra folgt, dass RT = Im M T = (ker M)⊥ = N ⊥ . Analog folgt die zweite Beziehung. Wir erhalten sofort zwei wichtige Folgerungen: 3.2.6. Corollary. (i) Ein System ist genau dann kontrollierbar, wenn das duale System beobachtbar ist. (ii) Ein System (B, A, C) ist genau dann beobachtbar, wenn die Beobachtbarkeitsmatrix ¡ T ¢ C , AT C T , ..., (AT )n−1 C T vollen Rang hat. Ferner ist Beobachtbarkeit eine generische Eigenschaft.
Zum Schluß dieses Abschnitts werden wir eine Zerlegung des Zustandsraums in Hinblick auf Beobachtbarkeits- und Kontrollierbarkeitseigenschaften konstruieren. Definiere dazu die folgenden Unterr¨aume von Rn: Der Unterraum der kontrollierbaren und unbeobachtbaren Zust¨ande: \n−1 ker(CAi ); X1 = R ∩ N = h A| Im Bi ∩ i=0
ein komplement¨arer Unterraum X2 von X1 in R, d.h., R = X1 ⊕ X2 ;
ein komplement¨arer Unterraum X3 von X1 in N , d.h., N = X1 ⊕ X3 ; ein komplement¨arer Unterraum X4 von X1 ⊕ X2 ⊕ X3 = R + N in Rn , d.h., Rn = (R + N ) ⊕ X4 = X1 ⊕ X2 ⊕ X3 ⊕ X4 . Wir bemerken, dass X4 zum Beispiel als der AT -invariante Unterraum der unbeobachtbaren und kontrollierbaren Zust¨ande des dualen Systems gew¨ahlt werden kann: X4 = RT ∩ N T = N ⊥ ∩ R⊥ = (N + R)⊥ . Es seien Pi : Rn → Xi die kanonischen Projektionen, f¨ ur die gilt Pi2 = Pi und Pi | Xi = Id.
¨ 3.2. BEOBACHTBARKEIT UND DUALITAT
61
3.2.7. Theorem (Kalman-Dekomposition).F¨ ur das System (B, A, C) ur i = 1, ..., 4, wie oben definiert. Dann hat das System seien Xi und Pi f¨ bez¨ uglich dieser Dekomposition die folgende Darstellung: x˙ 1 A11 A12 A13 A14 x1 B1 x˙ 2 0 A22 0 A24 x2 B2 u + x˙ 3 = 0 0 A33 A34 x3 0 0 x˙ 4 0 0 0 A44 x4 x1 ¡ ¢ x2 y = 0 C2 0 C4 x3 x4 ur i, j = 1, ..., 4. mit xi = Pi x, Aij = Pi A |Xj , Bi = Pi B, Cj = C |Xj , f¨ Dabei ist das Untersystem x˙ 2 = A22 x2 + B2 u, y2 = C2 x2
(3.2.4)
kontrollierbar und beobachtbar, und es gilt CeAt B = C2 eA22 t B2 f¨ ur t ≥ 0. Beweis: Die linearen Abbildungen A31 , A32 , A41 , A42 verschwinden wegen der A-Invarianz von X1 ⊕X2 = R. Ferner verschwinden A21 , A23 , A41 , A43 wegen der A-Invarianz von X1 ⊕ X3 = N . Außerdem ist Im B ⊂ X1 ⊕ X2 , so dass B3 und B4 verschwinden; ebenso verschwinden C1 und C3 wegen X1 ⊕ X3 ⊂ ker C. Es bleibt das Untersystem (3.2.4) zu analysieren. F¨ ur alle k ∈ N gilt k A11 ∗ ∗ ∗ 0 Ak22 0 ∗ Ak = k 0 0 A33 ∗ 0 0 0 Ak44 und daher
∗ Ak22 ¡ ¢ k k Ak B = 0 und CA = 0 C2 A22 0 ∗ , 0
62 also
CHAPTER 3. LINEARE KONTROLLSYSTEME ¯ P2 Ak B = Ak22 B2 , P4 Ak B = 0, CAk ¯X2 = C2 Ak22 .
Kontrollierbarkeit von (B2 , A22, C2 ) folgt jetzt aus hA22 |Im B2 i =
X∞
= P2
Ak22 Im B2 =
k=0 X ∞
k=0
X∞
k=0
P2 Ak Im B
Ak Im B = P2 hA |Im B i = X2 .
Beobachtbarkeit folgt aus \∞ \∞ ker(C2 Ak22 ) = ker(CAk ) ∩ X2 = 0 k=0
k=0
nach Definition von X2 . Schließlich folgt aus C = C2 P2 + C4 P4 f¨ ur alle k≥0 CAk B = C2 P2 Ak B + C4 P4 Ak B = C2 Ak22 B2
und damit C2 eA22 t B2 = CeAt B, wie behauptet. Eine einfache Folgerung aus diesem Resultat ist, dass das Input-OutputVerhalten eines beliebigen Systems (B, A, C) schon durch das Verhalten eines beobachtbaren und kontrollierbaren Teilsystems beschrieben werden kann: Ist das System zur Zeit t = 0 in x = 0, so gilt f¨ ur beliebige Kontrollfunktionen u∈U Z t Z t A(t−s) Ce Bu(s) ds = C2 eA22 (t−s) B2 u(s) ds. Cϕ(t, 0, u) = 0
0
Man sagt auch, dass es eine beobachtbare und kontrollierbare Realisierung gibt.
3.3
Lineare Systeme mit beschr¨ ankten Kontrollen
In diesem Abschnitt analysieren wir Kontrollierbarkeitseigenschaften von linearen Systemen mit Kontrollbeschr¨ankungen von folgendem Typ: x˙ = Ax + Bu(t) in Rn , u ∈ U = {u : R → U, lokal integrierbar},
(3.3.1)
¨ 3.3. LINEARE SYSTEME MIT BESCHRANKTEN KONTROLLEN
63
wobei U ⊂ Rm konvex und kompakt ist mit 0 ∈ int U und A und B wie in (3.1.1) sind. Die Bezeichnungen f¨ ur Erreichbarkeitsmengen etc. aus dem letzten Abschnitt u ¨bernehmen wir entsprechend f¨ ur dieses System. Wir nehmen in diesem ganzen Abschnitt an, dass (A, B) kontrollierbar ist, das heißt, die ¨berzeugt uns Kalman-Bedingung rg [B, AB, ...An−1 B] = n gilt. Beispiel 3.3 u rasch, dass wir hier im allgemeinen keine vollst¨andige Kontrollierbarkeit erwarten k¨onnen. Stattdessen betrachten wir die folgendermaßen definierten Teilmengen vollst¨andiger (approximativer) Kontrollierbarkeit. 3.3.1. Definition. Eine Teilmenge D des Zustandsraums Rn heißt Kontrollmenge, falls gilt: (i) f¨ ur alle x ∈ D gibt es u ∈ U mit ϕ(t, x, u) ∈ D f¨ ur alle t ≥ 0; + (ii) f¨ ur alle x ∈ D ist D ⊂ clO (x); und D ist maximal mit diesen Eigenschaften. Eine Kontrollmenge C heißt invariant, falls C = clO+ (x) f¨ ur alle x ∈ C. Die Maximalit¨atsbedingung bedeutet, dass jede Menge D0 mit D ⊂ D0 , die die Eigenschaften (i) und (ii) erf¨ ullt, mit D u ¨ bereinstimmt. Beispiel: Betrachte das zwei-dimensionale lineare Kontrollsystem µ ¶ µ ¶µ ¶ µ ¶ x˙ 1 0 x 1 = + u(t), u(t) ∈ U = [−1, 1]. y˙ 0 −1 y 1 Die L¨osungen sind µ t−s ¶ µ ¶ µ t ¶ Z t e x(t) e x0 u(s) = + ds. y(t) e−t y0 es−t 0 Man sieht leicht (siehe Figur 3.1), dass hier eine eindeutige Kontrollmenge D existiert, und dass sie durch D = (−1, 1) × [−1, 1] gegeben ist. Wir diskutieren zun¨achst die folgende grundlegende Eigenschaft von Erreichbarkeitsmengen. ur 3.3.2. Definition. Das System (3.3.1) heißt lokal akzessibel in x0 , falls f¨ alle T > 0 gilt: + − intO≤T (x0 ) 6= ∅ und intO≤T (x0 ) 6= ∅. ullt, so heißt das System lokal akzessibel. Ist dies f¨ ur alle x0 ∈ Rn erf¨
64
CHAPTER 3. LINEARE KONTROLLSYSTEME
Figure 3.1: Phasenportr¨ats f¨ ur u = +1 und u = −1. Die folgende Proposition zeigt, dass lokale Akzessibilit¨at schon durch die Matrizen A und B bestimmt ist. 6 ∅ f¨ ur ein 3.3.3. Proposition. F¨ ur das System (3.3.1) gilt intOT+ (x) = T > 0 und ein x ∈ Rn (und dann f¨ ur alle) genau dann, wenn die Kalman¨ Bedingung gilt. Aquivalent dazu ist die lokale Akzessibilit¨ at. Beweis. Es gelte die Kalman-Bedingung. Betrachte f¨ ur T > 0 die stetige lineare Abbildung zwischen Banachr¨aumen, L : L∞ ([0, T ], Rm ) → Rn : u 7−→ ϕ(T, 0, u). Die Linearit¨at ist klar, und die Stetigkeit folgt aus ¯Z T ¯ ¯ ¯ A(T −s) |ϕ(T, 0, u)| = ¯¯ e Bu(s) ds¯¯ 0 Z T ¯ A(T −s) ¯ ¯e ≤ Bu(s)¯ ds 0 ° ° ≤ sup °eAt ° kBk T kuk∞ . t∈[0,T ]
Diese Abbildung ist nach Theorem 3.1.5 surjektiv. Der Satz u ¨ber die offene Abbildung (Open-Mapping-Theorem: siehe zum Beispiel Alt [1]) besagt, dass
¨ 3.3. LINEARE SYSTEME MIT BESCHRANKTEN KONTROLLEN
65
solch eine Abbildung offene Mengen auf offene Mengen abbildet. Weil intU 6= ur fast alle t ∈ [0, T ]} ∅, hat U[0,T ] := {u ∈ L∞ ([0, T ], Rm ), u(t) ∈ U f¨ nichtleeres Inneres. Nun ist wegen der Linearit¨at (vgl. (3.1.3)) ur ein u ∈ U} OT+ (x0 ) = {x ∈ Rn , x = ϕ(T, x0 , u) f¨ n = {x ∈ R , x = ϕ(T, x0 , 0) + ϕ(T, 0, u) f¨ ur ein u ∈ U} = ϕ(T, x0 , 0) + {L(u), u ∈ U}. ur OT− (x0 ). Also hat OT+ (x0 ) nichtleeres Inneres. Analog argumentiert man f¨ Gilt lokale Akzessibilit¨ at, so hat die Erreichbarkeitsmenge vom Ursprung nichtleeres Inneres. Daraus folgt die Kalman-Bedingung. Bei lokaler Akzessibilit¨at gilt sogar exakte Kontrollierbarkeit im Innern von Kontrollmengen: 3.3.4. Proposition. Das System (3.3.1) sei lokal akzessibel, und D sei eine Kontrollmenge mit nichtleerem Innern. Dann gilt intD ⊂ O+ (x) f¨ ur alle x ∈ D. Beweis. Sei x ∈ D. Wegen der lokalen Akzessibilit¨ at von y ∈ int D und − (y) ⊂ int D. der Beschr¨anktheit von U findet man t > 0 so dass ∅ 6= int O≤t − + W¨ahle z ∈ int O≤t (y) . Wegen z ∈ cl O (x), findet man einen Punkt z1 ∈ − O≤t (y) ∩ O+ (x). Daher gibt es S, T > 0 und Kontrollen u, v ∈ U mit ϕ(S, x, u) = z1 und ϕ(T, z1 , v) = y. Die Verkn¨ upfung ½ u(t) f¨ ur t ∈ [0, S] w(t) = v(t − S) f¨ ur t ∈ (S, T + S] liefert ϕ(S + T, x, w) = y, also y ∈ O+ (x). Wir bemerken auch die folgende Eigenschaft. 3.3.5. Proposition. Das System (3.3.1) sei lokal akzessibel, und D sei eine Kontrollmenge mit nichtleerem Innern. Dann ist D = cl O+ (x) ∩ O − (x) f¨ ur jedes x ∈ intD. Beweis. Die Inklusion D ⊂ cl O+ (x)∩O− (x) nach Definition von Kontrollmengen und wegen der lokalen Akzessibbilit¨at. F¨ ur die umgekehrte Inklusion + − beachte dass cl O (x) ∩ O (x) die Bedingungen (i) und (ii) aus der Definition von Kontrollmengen erf¨ ullt. Nach dem ersten Teil des Beweises folgt dann die Gleichheit, weil D maximal mit diesen Eigenschaften ist.
66
CHAPTER 3. LINEARE KONTROLLSYSTEME
Der n¨achste Satz charakterisiert Kontrollmengen f¨ ur lineare Kontrollsystem mit beschr¨ankten Kontrollen. Der Vollst¨andigkeit halber sind alle vorangegangenen Annahmen noch einmal aufgef¨ uhrt. 3.3.6. Theorem. F¨ ur das System (3.3.1) sei U ⊂ Rm konvex und kompakt mit 0 ∈ int U und (A, B) sei kontrollierbar, das heißt, die Kalman-Bedingung rg [B, AB, ..., An−1 B] = n gilt. Dann gibt es genau eine Kontrollmenge D mit nichtleerem Innern und D = O− (0) ∩ cl O+ (0); die Kontrollmenge D ist invariant falls A asymptotisch stabil ist; in diesem Fall ist D = cl O+ (0), insbesondere ist D also abgeschlossen. Beweis. Die Kalman-Bedingung garantiert, dass zur Zeit T = 1 der positive und der negative Orbit des Systems ohne Kontrollbeschr¨ankung mit Rn u ¨bereinstimmen. Wegen 0 ∈ int U, liefert das Open Mapping Theorem, angewendet auf die lineare Abbildung L∞ ([0, 1], Rm ) → Rn : u 7−→ ϕ(1, 0, u), dass 0 ∈ int O1− (0) ∩ int O1+ (0). Daher ist der Ursprung im Innern einer Kontrollmenge. Nach Proposition 3.3.5 ist die Kontrollmenge D = O− (0) ∩ cl O+ (0). Ist A asymptotisch stabil, so ist O− (0) = Rn , denn L¨osungen mit u = 0 von einem beliebigen Anfangspunkt erreichen f¨ ur t → ∞ jede Umgebung des Ursprungs. Daher ist in diesem Fall D = clO+ (0). Daraus folgt aber D = clO+ (x) f¨ ur alle x ∈ D. In der Tat: Weil D eine Kontrollmenge ist, gilt die Inklusion D ⊂ clO+ (x). F¨ ur die umgekehrte Inklusion ist nur + zu zeigen, dass jedes y ∈ O (x) in D liegt. Es gibt T > 0 und u ∈ U mit ϕ(T, x, u) = y. Weil die Abbildung AT
z 7→ ϕ(T, z, u) = e
z+
Z
T 0
eA(T −s) Bu(s) ds : Rn → Rn
stetig ist, gibt es f¨ ur jede Umgebung Ny von y eine Umgebung Nx von x die durch die Kontrolle u in der Zeit T in Ny gesteuert wird. Wegen x ∈ upfung D = clO+ (0) gibt es v ∈ U und S > 0 mit ϕ(S, 0, v) ∈ Nx . Die Verkn¨ n von u und v liefert eine Kontrolle w, die den Punkt 0 ∈ R in der Zeit T +S in Ny steuert. Weil Ny beliebig ist, folgt, dass y ∈ clO+ (0) = D. Es bleibt zu zeigen, dass die Kontrollmenge eindeutig ist. Sei also D0 eine beliebige Kontrollmenge mit nichtleerem Innern und x ∈ D0 . Betrachte eine Umgebung N ⊂ intD0 von x. Wegen exakter Kontrollierbarkeit im Innern
¨ 3.3. LINEARE SYSTEME MIT BESCHRANKTEN KONTROLLEN
67
von Kontrollmengen gibt es f¨ ur alle y ∈ N Kontrollen u, v ∈ U und Zeiten S, T > 0 mit ϕ(S, x, u) = y und ϕ(T, y, v) = x. F¨ ur 0 < α < 1 ist αN eine Umgebung von αx. Wegen der Linearit¨at gilt f¨ ur alle Punkte αy ∈ αN ϕ(S, αx, αu) = αy und ϕ(T, αy, αv) = αx. Dabei sind αu und αv in U, weil U konvex ist mit 0 ∈ U . Daher sind alle Punkte αx, α ∈ (0, 1), im Innern einer Kontrollmenge. Dann m¨ ussen diese Kontrollmengen mit der Kontrollmenge um den Ursprung u¨bereinstimmen: Das ist sicherlich richtig f¨ ur kleine α > 0. Definiere α0 := sup{α > 0, βx ∈ intD f¨ ur alle 0 ≤ β ≤ α}. Dann ist α0 x im Abschluss von D. Weil α0 x im Innern einer Kontrollmenge liegt, hat diese Kontrollmenge nichtleeren Schnitt mit D, stimmt also mit D u ¨berein. Es folgt α0 = 1. Bemerkung. Wesentlich im Beweis der Eindeutigkeit ist die Konstruktion einer stetigen Familie von Punkten, die jeweils im Innern einer Kontrollmenge liegen. Daraus folgt, dass diese Kontrollmengen schon u ¨bereinstimmen. Schließlich geben wir noch ohne Beweis ein Kriterium f¨ ur vollst¨andige Kontrollierbarkeit an, das heißt, daf¨ ur, wann die eindeutige Kontrollmenge mit Rn u ¨bereinstimmt (dies Resultat folgt aus Sontag [9], Section 3.6, Theorem 6). 3.3.7. Theorem. Unter den Voraussetzungen von Theorem 3.3.6 ist das System (3.3.1) genau dann kontrollierbar, wenn alle Eigenwerte von A verschwindenden Realteil haben.
68
CHAPTER 3. LINEARE KONTROLLSYSTEME
Chapter 4 Feedback und Stabilisierung In diesem Kapitel werden wir analysieren, wann Feedbacks existieren, unter denen ein Gleichgewicht stabil wird. Zun¨achst diskutieren wir Linearisierung an einem Gleichgewicht. Dann konstruieren wir stabilisierende Feedbacks f¨ ur lineare Kontrollsysteme.
4.1
Linearisierung von Kontrollsystemen
Vor der Diskussion des Stabilisierungsproblems werden wir begr¨ unden, warum auch f¨ ur nichtlineare Systeme die Wahl des Feedbacks F : Rn → Rm als lineare Abbildung sinnvoll ist. Wir haben in Theorem 2.7.4 gesehen, dass das Gleichgewicht y ∗ = 0 einer nichtlinearen Differentialgleichung y(t) ˙ = f (x(t)) genau dann lokal exponentiell stabil ist, wenn das Gleichgewicht x∗ = 0 ihrer Linearisierung x(t) ˙ = Ax(t), A = Df(0) global exponentiell stabil ist. Ein allgemeines nichtlineares Kontrollsystem ist gegeben durch die Differentialgleichung y(t) ˙ = f (y(t), u(t))
(4.1.1)
mit f : Rn × Rm → Rn . Wir nehmen an, dass f¨ ur u = 0 der Punkt y ∗ = 0 ein Gleichgewicht ist, d.h., f (0, 0) = 0. Nehmen wir weiterhin an, dass die 69
70
CHAPTER 4. FEEDBACK UND STABILISIERUNG
Abbildung f in (y ∗ , u∗ ) = (0, 0) sowohl nach y als auch nach u differenzierbar ist, so k¨onnen wir die Linearisierung definieren als x(t) ˙ = Ax(t) + Bu(t) mit
¯ ∂ ¯¯ A= f (y, u) ∂y ¯(y,u)=(0,0)
(4.1.2)
¯ ∂ ¯¯ B= f(y, u). ∂u ¯(y,u)=(0,0)
Das folgende Lemma zeigt, wie diese Linearisierungen f¨ur lineares Feedback F zusammenh¨angen. 4.1.1. Lemma. Betrachte ein nichtlineares Kontrollsystem (4.1.1) und seine Linearisierung (4.1.2) im Gleichgewicht (0, 0). Sei F : Rn → Rm eine lineare Abbildung. Dann gilt: Die lineare Differentialgleichung x(t) ˙ = (A + BF )x(t) ist die Linearisierung in y ∗ = 0 der nichtlinearen Differentialgleichung y(t) ˙ = f (y(t), F y(t)). Beweis: Wir m¨ ussen nachweisen, dass ¯ d ¯¯ f (y, F y) = A + BF dy ¯y=0
gilt. Sei dazu G : Rn → Rn × Rm gegeben durch G(y) = (y, F y), wobei wir (y, F y) als (n + m)—dimensionalen Spaltenvektor interpretieren. Dann gilt nach der Kettenregel d d f(y, F y) = f(G(y)) dy dy ¯ ¯ ∂ ¯¯ ∂ ¯¯ = f (y, u) + f (y, u)F. ∂y ¯(y,u)=G(y) ∂u ¯(y,u)=G(y)
Also ist in y = 0 ¯ ¯ ¯ d ¯¯ ∂ ¯¯ ∂ ¯¯ f(y, F y) = f(y, u) + f(y, u)F = A + BF. dy ¯y=0 ∂y ¯(y,u)=(0,0) ∂u ¯(y,u)=(0,0) Damit erhalten wir direkt aus Lemma 4.1.1 und Theorem 2.7.4.
4.2. STABILISIERENDE FEEDBACKS
71
4.1.2. Theorem. Ein nichtlineares Kontrollsystem (4.1.1) ist lokal exponentiell stabilisierbar durch ein lineares Feedback genau dann, wenn seine Linearisierung (4.1.2) global exponentiell stabilisierbar durch ein lineares Feedback ist. Dar¨ uberhinaus ist das Gleichgewicht y ∗ = 0 der Gleichung y˙ = f(y(t), F y(t)) lokal exponentiell stabil f¨ ur jedes lineare Feedback F , das das Stabilisierungsproblem f¨ ur das linearisierte System l¨ ost. Aus der linearen Struktur des Feedbacks F ergibt sich also, dass wir nichtlineare Stabilisierungsprobleme lokal l¨osen k¨onnen, indem wir lineare Stabilisierungsprobleme l¨osen.
4.2
Stabilisierende Feedbacks
In diesem Abschnitt werden wir die Matrizen A und B charakterisieren, f¨ ur die stabilisierende Feedbacks existieren. Die einzelnen Schritte der Herleitung liefern dabei ein konstruktives Verfahren zur Berechnung eines stabilisierenden Feedbacks. Beispiel. Wir betrachten ein (sehr einfaches) Modell f¨ ur eine Heizungsrege lung. Nehmen wir an, dass wir die Temperatur x1 in einem Raum an einem festgelegten Messpunkt regeln wollen. Der Einfachheit halber sei die gew¨ unschte Temperatur auf x1 = 0 normiert. In dem Raum befindet sich ein Heizk¨orper mit Temperatur x2 , auf die wir mit der Kontrolle u Einfluss nehmen k¨onnen. Die Ver¨anderung von x2 sei durch die Differentialgleichung x˙ 2 (t) = u(t) beschrieben, d.h. die Kontrolle u regelt die Zunahme (falls u > 0) bzw. Abnahme (falls u < 0) der Temperatur. F¨ ur die Temperatur x1 im Messpunkt nehmen wir an, dass sie der Differentialgleichung x˙ 1 (t) = −x1 (t) + x2 (t) gen¨ ugt, d.h. f¨ ur konstante Heiztemperatur x2 ergibt sich x1 (t) = e−t x1 (0) + (1 − e−t )x2
72
CHAPTER 4. FEEDBACK UND STABILISIERUNG
Mit anderen Worten, wir nehmen an, dass die Raumtemperatur x1 im Messpunkt exponentiell gegen die Temperatur des Heizk¨orpers konvergiert. Aus diesem Modell erhalten wir das Kontrollsystem µ µ ¶ ¶ −1 1 0 x(t) ˙ = x(t) + u(t). 0 0 1 Eine naheliegende Regelstrategie ergibt sich nun wie folgt: Falls x1 > x∗1 = 0 ist, so vermindern wir die Temperatur in x2 , d.h., wir w¨ahlen u < 0. Im umgekehrten Fall, d.h. falls x1 < x∗1 = 0 ist, erh¨ohen wir die Temperatur und setzen u > 0. Da unser Feedback linear sein soll, l¨asst sich dies durch die Wahl F (x) = −λx1 f¨ ur ein λ > 0 erreichen, oder, in Matrix— Schreibweise, F (x) = (−λ, 0) (hier ist n = 2 und m = 1). Damit erhalten wir das r¨ uckgekoppelte System µ ¶ −1 1 x(t) ˙ = x(t). −λ 0 Berechnet man die Eigenwerte f¨ ur λ > 0, so sieht man, dass alle Realteile negativ sind. Wir haben also das Stabilisierungsproblem gel¨ost und folglich konvergieren x1 (t) und x2 (t) f¨ ur alle Anfangswerte exponentiell schnell gegen 0, insbesondere konvergiert x1 exponentiell schnell gegen die gew¨ unschte Tem∗ peratur x1 = 0. Falls wir die Temperatur x2 am Heizk¨orper messen k¨onnen, so k¨onnen wir auch F (x) = −λx2 , bzw. F = (0, −λ) setzen. Wiederum sieht man durch Betrachtung der Eigenwerte, dass das r¨ uckgekoppelte System f¨ ur alle λ > 0 exponentiell stabil ist. Wir werden zun¨achst zwei n¨ utzliche Koordinatentransformationen f¨ ur Kontrollsysteme betrachten. Beachte, dass f¨ ur eine Transformationsmatrix T ∈ Rn×n das zu x(t) ˙ = Ax(t) + Bu(t) (4.2.1) geh¨orige transformierte System ˜ ˜ x(t) ˙ = Ax(t) + Bu(t)
(4.2.2)
e = T −1 AT und B e = T −1 B gegeben ist. Ein Feedback F f¨ durch A ur e (4.2.1) wird mittels F = F T in eines f¨ ur (4.2.2) transformiert (dies folgt −1 e e e sofort aus T (A + BF )T = A + B F ). Aus der Erreichbarkeitsmatrix e= R = [B, AB, ..., An−1 B] f¨ ur (4.2.1) erh¨alt man die Erreichbarkeitsmatrix R −1 ur (4.2.2). Wir erinnern daran, dass man f¨ ur beliebige Matrix—Paare T R f¨
4.2. STABILISIERENDE FEEDBACKS
73
(A, B) durch eine geeignete Koordinatentransformation erreichen kann, dass das System in einen kontrollierbaren und einen nicht—kontrollierbaren Anteil ”‘zerlegt”’ wird. Wir formulieren dies noch einmal als Lemma. 4.2.1. Lemma. Es sei (A, B) ∈ Rn×n × Rn×m nicht kontrollierbar. Dann gibt es eine Koordinatentransformation T , so dass µ ¶ µ ¶ A1 A2 B1 −1 −1 ˜ ˜ A = T AT = und B = T B = 0 A3 0 mit A1 ∈ Rd×d und B1 ∈ Rd×m ist und (A1 , B1 ) kontrollierbar ist. Beweis: Dies folgt mit Standardargumenten der linearen Algebra, wenn man eine Basis des Erreichbarkeitsunterraums zu einer Basis von Rn erg¨anzt und die Spalten von T als diese Basisvektoren definiert. Die zweite Koordinatentransformation, die wir betrachten wollen, gilt f¨ ur kontrollierbare Systeme, bei denen u eindimensional ist, also m = 1. 4.2.2. Lemma. Ein Paar (A, B) ∈ Rn×n × Rn×1 ist genau dann kontrollierbar, wenn es eine Koordinatentransformation S gibt in die sogenannte Regelungsnormalform: 0 1 . . . 0 0 . . . . . . . . . und B ˜ = S −1 B = . ; A˜ = S −1 AS = . . . . . 0 0 . . . 0 1 α0 α1 . . . αn−1 1 hierbei sind die αi die Koeffizienten des charakteristischen Polynoms von A, d.h., χA (z) = z n − αn−1 z n−1 − ... − α1 z − α0 .
e der angegebenen Form Beweis: Wir zeigen zun¨ achst, dass f¨ ur Matrizen A die αi gerade die Koeffizienten des charakteristischen Polynoms sind. Dies folgt durch Induktion u ¨ber n: F¨ ur n = 1 ist die Behauptung sofort klar. F¨ ur n×n den Induktionsschritt sei An ∈ R von der Form des Satzes und An+1 ∈ n×n R gegeben durch 0 1 ··· 0 0 An+1 = .. . . An α∗
74
CHAPTER 4. FEEDBACK UND STABILISIERUNG
Entwickeln wir nun det(zIdRn+1 −An+1 ) nach der ersten Spalte, so ergibt sich χAn+1 = zχAn (z) − α∗ (−1)n+1 det diag(−1, ..., −1) = zχAn (z) − α∗ = z n − αn−2 z n−1 − · · · − α0 z − α∗ , also nach Umnumerierung der αi gerade der gew¨ unschte Ausdruck. Nehmen wir nun an, dass S existiert. Durch Nachrechnen sieht man leicht, dass 0 ··· 0 1 0 · · · ... ∗ n−1 e e e e e e R = (B AB . . . A B) = (4.2.3) 0 1 ∗ ∗ 1 ∗ ··· ∗
gilt, wobei ∗ beliebige Werte bezeichnet. Diese Matrix hat vollen Rang, denn durch Umordnung der Zeilen erhalten wir eine obere Dreiecksmatrix mit lauter Einsen auf der Diagonalen, welche offenbar invertierbar ist, also e B) e kontrollierbar und da Kontrollierbarkeit vollen Rang besitzt. Daher ist (A, unter Koordinatentransformationen erhalten bleibt, ist auch das Paar (A, B) kontrollierbar. Sei umgekehrt (A, B) kontrollierbar. Dann ist die Erreichbarkeitsmatrix R = [B, AB, . . . , An−1 B] invertierbar. Wir zeigen nun zun¨ achst, dass −1 T T e ˜ R AR = A , d.h., dass AR = RA ist. Dies folgt (unter Verwendung des Satzes von Cayley—Hamilton) aus AR = A[B, AB, ..., An−1 B] = [AB, A2 B, ..., An−1 B, αn−1 An−1 B + ... + α0 B] 0 . . . 0 α0 1 . . . 0 α1 . . . n−1 = RA˜T . = [B, AB, ..., A B] . . . . . . 0 . . . 1 αn−1
˜ = A˜T und damit ˜ aus (4.2.3) folgt mit analoger Rechnung R ˜ −1 A˜R Mit R ˜ A˜T R ˜ −1 = RR ˜ −1 ARR ˜ −1 . A˜ = R
4.2. STABILISIERENDE FEEDBACKS
75
˜ 0, ..., 0)T = B, ˜ also Ferner ist offensichtlich R(1, 0, ..., 0)T = B und R(1, −1 ˜ −1 ˜ ˜ RR B = B. Damit ist S = RR die gesuchte Tranformationsmatrix. Wir werden das Stabilisierungsproblems zun¨achst f¨ ur skalare Kontrolle, also m = 1, l¨osen. Der allgemeine Fall wird dann darauf zur¨ uckgef¨ uhrt. Zun¨achst dr¨ ucken wir das Stabilisierungsproblem mit Hilfe des charakteristischen Polynoms aus. Dies h¨angt eng mit dem Hautus-Kriterium f¨ ur Kontrollierbarkeit zusammen. 4.2.3. Definition. F¨ ur ein Kontrollsystem (4.2.1) heißt ein Polynom χ vorgebbar, falls ein lineares Feedback F existiert, so dass χ das charakteristische Polynom χA+BF von A + BF ist. Offenbar existiert ein stabilisierendes Feedback F genau dann, wenn ein vorgebbares Polynom existiert, dessen Nullstellen alle negativen Realteil haben. Der folgende Satz zeigt, f¨ ur skalare Kontrollen, die Beziehung zwischen Kontrollierbarkeit und der Vorgebbarkeit von Polynomen. 4.2.4. Theorem. Betrachte das Kontrollsystem (4.2.1) mit skalarer Kontrolle, also B ∈ Rn×1 . Dann sind a¨quivalent: (i) Das Paar (A, B) ist kontrollierbar. (ii) Jedes Polynom der Form χ(z) = z n − β n−1 z n−1 − ... − β 1 z − β 0 mit β i ∈ R ist vorgebbar. Beweis: (i) ⇒ (ii): Sei (A, B) kontrollierbar und sei S die Koordinatentransformation aus Lemma 4.2.2. Wir setzen Fe = (β 0 − α0 , β 1 − α1 , . . . , β n−1 − αn−1 ) ∈ R1×n . Dann gilt
e+B e Fe = A
=
0 1 . . . . . . 0 0 β0 β1
0 1 . . . . . . 0 0 α0 α1
. . . 0 . . . . . . . . . 1 . . . αn−1
. . . 0 . . . . . . . . . 1 . . . β n−1
.
+
0 . . . . 1
(β 0 − α0 , β 1 − α1 , . . . , β n−1 − αn−1 )
76
CHAPTER 4. FEEDBACK UND STABILISIERUNG
e+B e Fe Daher ist nach Lemma 4.2.2 das charakteristische Polynom von A gleich χ. (ii) ⇒ (i): Sei (A, B) nicht kontrollierbar und T die Koordinatentransformation aus Lemma 4.2.1. Dann ergibt sich f¨ ur jedes beliebige Feedback e F = (F1 , F2 ) µ ¶ A1 + B1 F1 A2 + B1 F2 e e e A + BF = . 0 A3 Das charakteristische Polynom dieser Matrix ist
χA+ e B e Fe = χA1 +B1 F1 · χA3 ,
daher sind (beachte, dass (A1 , B1 ) kontrollierbar ist) die vorgebbaren Polynome gerade von der Form χ = χc χu , wobei χc ein beliebiges normiertes Polynom vom Grad d ist und χu = χA3 ist. Dies sind sicherlich weniger als die in (ii) angegebenen Polynome, weshalb (ii) nicht gelten kann. Damit ist Theorem 4.2.4 bewiesen. Das Polynom χu = χA3 ist uns schon bei der Diskussion des HautusKriteriums f¨ ur Kontrollierbarkeit begegnet, wo es (in Definition 3.1.7) als unkontrollierbarer Teil des charakteristischen Polynoms von A bezeichnet wurde. Nat¨ urlich ist es zur Stabilisierung nicht notwendig, dass jedes Polynom vorgebbar ist, wir brauchen lediglich eines zu finden, dessen Nullstellen nur negative Realteile haben. Der Beweis von Satz 4.2.4 l¨asst bereits erahnen, wann dies m¨oglich ist. 4.2.5. Theorem. Betrachte das Kontrollsystem (4.2.1) mit skalarer Kontrolle, also B ∈ Rn×1 . Die vorgebbaren Polynome sind diejenigen von der Form χ = χc χu , wobei χc ein beliebiges normiertes Polynom vom Grad d = dim hA |Im B i ist und χu der unkontrollierbare Teil des charakteristischen Polynoms von A ist. Insbesondere existiert ein stabilisierendes Feedback genau dann, wenn alle Nullstellen von χu negativen Realteil haben. Beweis: Die erste Behauptung folgt sofort aus dem zweiten Teil des Beweises von Satz 4.2.4. Die zweite Aussage ist dann klar. Das folgende Lemma, Heymanns Lemma, erlaubt es uns, den allgemeinen Fall auf den Fall m = 1 zur¨ uckzuf¨ uhren. 4.2.6. Lemma. Das Paar (A, B) sei kontrollierbar. Sei v ∈ Rm mit b := Bv 6= 0. Dann existiert F ∈ Rn×m , so dass (A + BF, b) kontrollierbar ist.
4.2. STABILISIERENDE FEEDBACKS
77
Beweis: Mittels einer rekursiven Vorschrift konstruieren wir uns zun¨achst linear unabh¨angige Vektoren x1 , . . . , xn ∈ Rn mit der folgenden Eigenschaft: F¨ ur alle l ∈ {1, . . . , n} gilt Axi ∈ Vl f¨ ur i = 1, . . . , l − 1 mit Vl = hx1 , . . . , xl i.
(4.2.4)
Mit x1 = b ∈ Rn gilt nat¨ urlich (4.2.4). F¨ ur k ∈ 1, . . . , n−1 und gegebene linear unabh¨angige Vektoren x1 , . . . , xk , die (4.2.4) f¨ ur l ∈ {1, . . . , k} erf¨ ullen, konstruieren wir nun einen Vektor xk+1 , so dass x1 , . . . , xk , xk+1 linear unabh¨angig sind und (4.2.4) f¨ ur l ∈ {1, . . . , k + 1} erf¨ ullen: 1. Fall: Axk 6∈ Vk : Setze uk := 0 ∈ Rm und xk+1 := Axk + Buk = Axk . 2. Fall: Axk ∈ Vk : Wegen (4.2.4) folgt dann, dass Vk A-invariant ist. Weil (A, B) kontrollierbar ist, gilt f¨ ur den kleinsten A—invariante Unterraum des Rn, der das Bild von B enth¨alt, dass Rn = hA |Im B i. Ist Vk ein A— invarianter Unterraum mit dim Vk = k < n, kann dieser das Bild von B also nicht enthalten. Daher gibt es ein uk ∈ Rm mit Axk + Buk 6∈ Vk und wir setzen xk+1 = Axk + Buk . Wir konstruieren nun die gesuchte Abbildung F aus x1 , . . . , xn . Da die xi linear unabh¨angig sind, ist die Matrix X = (x1, . . . , xn ) invertierbar, und wir k¨onnen F := U X −1 f¨ ur U = (u1 , . . . , un ) ∈ Rm×n definieren, wobei die ui f¨ ur i = 1, . . . , n − 1 die in der obigen Rekursion verwendeten Kontrollvektoren sind und wir un := 0 ∈ Rm setzen. Damit gilt F xi = ui und deswegen (A + BF )xi = xi+1 f¨ ur i = 1, . . . , n − 1. Wegen b = x1 folgt somit [b, (A + BF )b, . . . , (A + BF )n−1 b] = X, also hat diese Matrix den Rang n und (A + BF, b) ist kontrollierbar. Mit diesem Resultat lassen sich nun die Theoreme 4.2.4 and 4.2.5 leicht auf beliebige Kontrolldimension verallgemeinern. 4.2.7. Theorem. F¨ ur das System (4.2.1) sind a¨quivalent: (i) Das Paar (A, B) ist kontrollierbar. (ii) Jedes Polynom χ vom Grad n ist vorgebbar. Beweis: (i) ⇒ (ii): Sei (A, B) kontrollierbar und χ gegeben. Seien F1 ∈ Rn×m und b = Bv ∈ Rn×1 die in Lemma 4.2.6 konstruierten Matrizen. Dann ist das Paar (A + BF1 , b) kontrollierbar und aus Satz 4.2.4 folgt die Existenz eines Feedbacks F2 ∈ R1×n , so dass χA+BF1 +bF2 = χ
78
CHAPTER 4. FEEDBACK UND STABILISIERUNG
ist. Wegen A + BF1 + bF2 = A + BF1 + BvF2 = A + B(F1 + vF2 ) ist also F = F1 + vF2 das gesuchte Feedback. (ii) ⇒ (i): V¨ollig analog zum Beweis von Satz 4.2.4. 4.2.8. Theorem. F¨ ur das System (4.2.1) sind die vorgebbaren Polynome gerade die Polynome der Form χ = χc χu , wobei χc ein beliebiges normiertes Polynom vom Grad d = hA |Im B i ist und χu der unkontrollierbare Teil des charakteristischen Polynoms von A. Insbesondere ist das Stabilisierungsproblem genau dann l¨ osbar, wenn alle Nullu stellen von χ negativen Realteil haben. Beweis: V¨ollig analog zum Beweis von Satz 4.2.5. Dieses Theorem, das zentral f¨ ur die lineare Kontrolltheorie ist, wird oft als Polverschiebungssatz bezeichnet, da die Nullstellen des charakteristischen Polynoms in der Kontrolltheorie auch als Pole bezeichnet werden (dies hat seine Wurzeln in alternativen Darstellungen linearer Kontrollsystems u ¨ber ¨ sogenannte Ubergangsabbildungen) und der Satz angibt, wie man diese Nullstellen durch geeignete Wahl des Feedbacks verschieben kann.
4.3
St¨ orungsentkopplung
Die Methoden, die wir bisher eingesetzt haben, um Kontrollierbarkeit und Stabilisierung zu diskutieren, erlauben auch die Analyse eines anderen relevanten Problems der Kontrolltheorie: Wie kann man durch Feedback den Einfluss von St¨orungen auf den Output verhindern? Dazu betrachten wir das folgende System x(t) ˙ = Ax(t) + Bu(t) + Ew(t) y(t) = Cx(t);
(4.3.1)
hierbei ist E : Rl → Rn linear und die Funktionen w : R → Rl werden als St¨orungen interpretiert, die auf das System wirken. Wir nehmen im Folgenden an, dass die St¨orungen stetig, aber sonst beliebig sind.
¨ 4.3. STORUNGSENTKOPPLUNG
79
Wir nennen (4.3.1) st¨orungsentkoppelt, falls der Output y(·) nicht von den St¨orungen w(·) abh¨angt. Mit der Variation-der-Konstanten-Formel bedeutet dies, dass f¨ ur alle stetigen w(·) C
Z
t 0
eA(t−s) Ew(s) ds = 0 f¨ ur t ≥ 0.
Wir k¨onnen dies, mit H(t) = CeAt E, auch als Faltung schreiben, (H ∗ w)(t) =
Z
t
0
H(t − s)w(s) ds = 0 f¨ ur t ≥ 0.
4.3.1. Lemma. Das System (4.3.1) ist st¨ orungsentkoppelt genau dann, wenn eine der folgenden ¨aquivalenten Bedingungen erf¨ ullt ist: At (i) Ce E = 0 f¨ ur alle t ≥ 0; (ii) CAk E = 0 f¨ ur alle k = 0, 1, ..., n − 1; (iii) hA |Im E i ⊂ KerC; n−1 T (iv) ImE ⊂ Ker(CAi ). i=o
¨ Beweis: in den Ubungen. Wir wollen St¨orungsentkopplung durch Anwendung von Feedbacks erreichen und betrachten daher das folgende Problem. 4.3.2. Definition. (St¨orungsentkopplungsproblem, Disturbance Decoupling Problem, DDP) Finde f¨ ur das System (4.3.1) eine lineare Abbildung F : n m R → R , so dass hA + BF |Im E i ⊂ KerC.
Nach dem vorangehenden Lemma ist diese Bedingung ¨aquivalent zu Im E ⊂
n−1 T
Ker(C(A + BF )i ).
i=o
Offenbar ist das Problem genau dann l¨osbar, wenn f¨ ur ein passendes F ein (A + BF )-invarianter Unterraum zwischen Im E und KerC existiert.
80
CHAPTER 4. FEEDBACK UND STABILISIERUNG
4.3.3. Definition. Ein linearer Unterraum V von Rn heisst (A, B)-invariant, wenn es ein lineares Feedback F mit (A+BF )V ⊂ V gibt. F¨ ur einen linearen n Unterraum W von R sei J (A, B; W ) die Menge aller (A, B)-invarianten Unterr¨aume, die in W enthalten sind. 4.3.4. Lemma. F¨ ur einen Unterraum V ⊂ Rn sind die folgenden Eigenschaften ¨aquivalent: (i) V ist (A, B)-invariant; (ii)AV ⊂ V + Im B; (iii) F¨ ur alle v ∈ V gibt es eine stetige Kontrollfunktion u, so dass die zugeh¨orige L¨osung von x˙ = Ax + Bu, x(0) = v, f¨ ur alle t ≥ 0 in V bleibt. Beweis: (i) impliziert (iii), wenn man f¨ ur einen Anfangswert v ∈ V die Kontrolle u(t) = F x(t) w¨ahlt, wobei x die L¨osung des Feedbacksystems x˙ = (A + BF )x zum Anfangswert x(0) = v ist. Gilt (iii) und ist v ∈ V , so existiert eine stetige Kontrolle u so dass die zugeh¨orige L¨osung x˙ = Ax + Bu, x(0) = v, f¨ ur alle t ≥ 0 in V bleibt. Also gilt insbesondere V 3 x(0) ˙ = Ax(0) + Bu(0)˙ = Av + Bu(0) Also ist Av ∈ V + Im B. Gilt (ii), so w¨ahlen wir eine Basis v1 , ..., vk von V . Dann existieren u1 , ..., uk ∈ Rm mit Avi + Bui ∈ V f¨ ur alle i. Definiere eine lineare Abbildung F0 : V → Rm durch F0 vi = ui und lineare Fortsetzung auf V . Jede lineare Fortsetzung auf Rn erf¨ ullt dann (i).
4.3.5. Proposition. Jeder Unterraum W von Rn enth¨alt einen eindeutigen gr¨oßten (A, B)-invarianten Unterraum, den wir mit sup J (A, B; W ) bezeichnen. Beweis: Wegen der endlichen Dimension existiert ein Unterraum maximaler Dimension in J (A, B; W ). Aus (ii) in Lemma 4.3.4 folgt, dass die Summe von (A, B)-invarianten Unterr¨aumen in W wieder ein (A, B)invarianter Unterraum in W ist6=. Sind also V und V 0 Unterr¨aume maximaler Dimension, so ist auch V + V 0 ein (A, B)-invarianter Unterraum in W . Dann folgt aber V = V 0 = V + V 0 . Daraus erhalten wir leicht die Charakterisierung der L¨osbarkeit von (DDP ).
4.4. STABILISIERBARKEIT UND ASYMPTOTISCHE KONTROLLIERBARKEIT81 4.3.6. Proposition. Das St¨ orungsentkopplungsproblem ist l¨osbar genau dann, wenn Im E ⊂ sup J (A, B; KerC). Beweis: Sei Im E ⊂ sup J (A, B; KerC) =: V . Dann gibt es ein lineares Feedback F mit (A + BF )V ⊂ V ⊂ KerC und Im E ⊂ V . Weil Im E in V enthalten ist, liegt auch der kleinste (A + BF )-invariante Unterraum, der Im E enth¨alt, in KerC, hA + BF |Im E i ⊂ V ⊂ KerC, das heisst, (DDP) ist l¨osbar. Sei umgekehrt (DDP) l¨osbar. Es gibt dann F so dass V := hA + BF |Im E i ⊂ KerC. Der Unterraum V ist nat¨ urlich (A + BF )-invariant und enth¨alt Im E. Also ist V ein (A, B)-invarianter Unterraum in KerC, und die Behauptung folgt. Dies Proposition reduziert die L¨osung von (DDP) auf die Berechnung von gr¨oßten (A, B)-invarianten Unterr¨aumen in einem gegebenen Unterraum. Daf¨ ur sind gute Algorithmen entwickelt worden; siehe zum Beispiel Wonham(1974), Knobloch/Kwakernaak (1985). Das Konzept der (A, B)-invarianten Unterr¨aume geht auf Basile/Morro (1969) zur¨ uck. Es ist insbesondere von M. Wonham zu einer systematischen geometrischen Kontrolltheorie ausgebaut worden. Man kann zum Beispiel zus¨atzlich fordern, dass das Feedback f¨ ur die St¨orungsentkopplung das System auch stabilisiert.
4.4
Stabilisierbarkeit und Asymptotische Kontrollierbarkeit
In diesem Abschnitt geben wir eine weitere Charakterisierung der Stabilisierbarkeit von linearen Kontrollsystemen. Sie beruht auf einer open-loopEigenschaft, die wir f¨ ur allgemeine Kontrollsysteme formulieren. Wir betrachten ein nichtlineares Kontrollsystem der Form x(t) ˙ = f (x(t), u(t)), t ∈ R, ur alle t ∈ R}. u ∈ U = {u : R → Rm , u(t) ∈ U f¨
(4.4.1)
82
CHAPTER 4. FEEDBACK UND STABILISIERUNG
Dabei sei f : Rn × Rm → Rn und die L¨osungen ϕ(t, x0 , u) sollen zu allen betrachteten Anfangswerten x0 ∈ Rn und Kontrollen u f¨ ur alle t ∈ R existieren. 4.4.1. Definition. F¨ ur eine Teilmenge V ⊂ Rn betrachte x, y ∈ V . Der Punkt x kann asymptotisch in V nach y kontrolliert werden, falls u ∈ U existiert, so dass ur alle t ≥ 0. lim ϕ(t, x, u) = y und ϕ(t, x, u) ∈ V f¨
t→∞
Ist V = Rn , so sagen wir auch, dass x asymptotisch nach y kontrollierbar ist. Sei 0 = f (x0 , u0 ) f¨ ur ein u0 ∈ U. (i) Das System (4.4.1) heisst lokal asymptotisch kontrollierbar nach x0 , falls f¨ ur jede Umgebung V von x0 eine Umgebung W von x0 existiert, so dass jedes x ∈ W in V asymptotisch nach x0 kontrolliert werden kann; (ii) das System (4.4.1) heisst global asymptotisch kontrollierbar nach x0 , wenn es lokal asymptotisch nach x0 kontrollierbar ist und jedes x ∈ Rn asymptotisch nach x0 kontrolliert werden kann. Die folgende Proposition charakterisiert Stabilisierbarkeit linearer Kontrollsysteme durch asymptotische Null-Kontrollierbarkeit. 4.4.2. Proposition. F¨ ur ein lineares Kontrollsystem x˙ = Ax + Bu sind die folgenden Eigenschaften a¨quivalent: (i) globale asymptotische Kontrollierbarkeit nach 0; (ii) lokale asymptotische Kontrollierbarkeit nach 0; (iii) jede Nullstelle des unkontrollierbaren Teils χu des charakteristischen Polynoms von A hat negativen Realteil; (iv) es gibt ein stabilisierendes Feedback F . Beweis: Nach den Definitionen impliziert (i) die Eigenschaften (ii) und (iii). Ferner sind (iii) und (iv) nach dem Polverschiebungssatz a¨quivalent. Um zu zeigen, dass (iv) die Eigenschaft (ii) impliziert, betrachte F , so dass A + BF asymptotisch stabil ist. F¨ ur einen Anfangswert x0 ∈ Rn bezeichne mit x(t, x0 ), t ≥ 0, die L¨osung des Anfangswertproblems x˙ = (A + BF )x, x(0) = x0 . Dann ist dies auch die L¨osung des Anfangswertproblems x˙ = Ax + Bu(t) mit u(t) = F x(t, x0 ). Die asymptotische Stabilit¨ at von x˙ = (A + BF )x impliziert dann die lokale asymptotische Kontrollierbarkeit nach 0.
4.5. DYNAMISCHE BEOBACHTER UND STABILISATOREN
83
Wir zeigen jetzt, dass (ii) die Eigenschaft (i) impliziert. Dies folgt aus der Linearit¨at des Kontrollsystems: Wir m¨ ussen nur zeigen, dass jedes x ∈ Rn asymptotisch nach 0 kontrollierbar ist. Wegen der lokalen asymptotischen Null-Kontrollierbarkeit gibt es δ > 0, so dass alle y mit kyk ≤ δ asymptotisch nach 0 kontrolliert werden k¨onnen. Definiere y := x · δ/ kxk. Dann gibt es also eine Kontrolle u, so dass f¨ ur die zugeh¨orige Trajektorie ϕ(t, y, u) → 0 f¨ ur t → ∞ gilt. F¨ ur v := kxk /δ impliziert die Linearit¨at Z t At eA(t−s) Bv(s) ds ϕ(t, x, v) = e x + ·0 ¸ Z t At A(t−s) = kxk /δ e x + e Bv(s) ds → 0 f¨ ur t → ∞. 0
Es bleibt noch zu zeigen, das (i) die Eigenschaft (iii) impliziert. Es gibt (falls χu nichttrivial ist) eine Koordinatentransformation T mit µ ¶ µ ¶ A1 A2 B1 −1 −1 T AT = und T B = 0 A3 0 und χuµ= χA¶3 . Sei z2 ∈ Rn−d , wobei d das Format von A1 ist, und betrachte 0 x=T . Wegen (i) gibt es eine Kontrolle u mit x(t) = ϕ(t, x, u) → 0 z2 f¨ ur t → ∞, also auch ur t → ∞. T −1 ϕ(t, x, u) → 0 f¨ Mit
gilt dann
µ
z1 (t) z2 (t)
¶
:= T −1 ϕ(t, x, u)
z˙2 (t) = A3 z2 (t), z2 (0) = z2 . Weil z2 beliebig gew¨ahlt war, ist A3 asymptotisch stabil, also hat χA3 = χu nur Nullstellen mit negativem Realteil.
4.5
Dynamische Beobachter und Stabilisatoren
Steht nicht der gesamte Zustand x f¨ ur ein Feedback zur Verf¨ ugung, sondern nur ein Output y = Cx, so k¨onnen die bisherigen Resultate zur Stabilisierung nicht angewendet werden. Stattdessen wird die Stabilisierung in
84
CHAPTER 4. FEEDBACK UND STABILISIERUNG
zwei Schritten durchgef¨ uhrt: Zun¨achst verschafft man sich aus dem Output eine Sch¨atzung des Zustandes x, die man dann an Stelle des wirklichen Zustandes in das stabilisierende Feedback einsetzt. Wir betrachten in diesem Abschnitt Systeme der Form x˙ = Ax + Bu, y = Cx
(4.5.1)
und beginnen mit einem kontrollierbaren und beobachtbaren Beispiel, das zeigt, dass man nicht einfach den Output y f¨ ur die Stabilisierung nutzen kann. Statisches Output-Feedback der Form u = F y = F Cx f¨ uhrt hier also nicht unbedingt zum Erfolg. Beispiel. Betrachte x˙ 1 = x2 , x˙ 2 = u, µ ¶ µ ¶ 0 1 0 Mit A = ,B = und C = 0 0 1 matrix µ 0 [B, AB] = 1
y = x1 (1, 0) haben die Erreichbarkeits1 0
¶
und die Bobachtbarkeitsmatrix T
T
T
[C , A C ] =
µ
1 0 0 1
¶
vollen Rang, das System ist also bobachtbar und kontrollierbar. Wir zeigen, dass kein stabilisierendes stetiges (auch kein nichtlineares) Feedback k : R → R existiert. Wir zeigen also, dass x˙ 1 = x2 x˙ 2 = k(y) = k(x1 ) nicht lokal asymptotisch stabil in 0 wird. In der Tat: F¨ ur ein stabilisierendes Feedback k betrachte Z x1 2 V (x1 , x2 ) = x2 − 2 k(s) ds. 0
4.5. DYNAMISCHE BEOBACHTER UND STABILISATOREN
85
Dann ist V ist konstant l¨angs Trajektorien, weil d V (x1 (t), x2 (t)) = 2x2 x˙ 2 − 2k(x1 )x˙ 1 = 2x˙ 1 x˙ 2 − 2x˙ 2 x˙ 1 = 0. dt Weil nach Annahme alle Trajektorien gegen 0 konvergieren und V stetig ist, muss V (x1 , x2 ) = V (0, 0) = 0 sein. Dies ist ein Widerspruch zu V (0, α) = α2 6= 0 f¨ ur α 6= 0. In dem Abschnitt ist der Begriff der asymptotischen (Null-)Kontrollierbarkeit von x˙ = Ax + Bu, also von Paaren (A, B), eingef¨ uhrt worden. Der folgende Begriff wird sich als dual dazu erweisen. 4.5.1. Definition. Ein Paar (A, C) heisst asymptotisch beobachtbar oder entdeckbar, falls gilt: Ist x(t) ˙ = Ax(t) und Cx(t) = 0 f¨ ur alle t ≥ 0, so ist limt→∞ x(t) = 0. Asymptotische Beobachtbarkeit wird es uns erlauben, den Zustand des Systems aus den Beobachtungen zu sch¨atzen, wie es f¨ ur Stabilisierung n¨otig ist. Zun¨achst m¨ ussen wir diese Eigenschaft genauer analysieren. 4.5.2. Proposition. Die folgenden Aussagen sind a¨quivalent: (i) Das System x˙ = Ax, y = Cx ist asymptotisch beobachtbar; n T (ii) N = (CAi−1 ) ⊂ {x0 ∈ Rn , eAt x0 → 0 f¨ ur t → ∞}. i=1
¨ Der Beweis ist Ubungsaufgabe. Die folgende Proposition liefert die angek¨ undigte Dualit¨atsaussage. 4.5.3. Proposition. Ein Paar (A, C) ist asymptotisch beobachtbar genau dann, wenn (AT , C T ) asymptotisch kontrollierbar ist. Beweis. Nach Koordinatentransformation erh¨ alt man µ ¶ µ ¶µ ¶ ¶ µ x˙ 1 A1 A0 x1 x1 = , y = (0, C2 ) x˙ 2 0 A2 x2 x2 mit beobachtbaren (A2 , C2 ).
86
CHAPTER 4. FEEDBACK UND STABILISIERUNG
Sei zun¨ achst (A, C) asymptotisch beobachtbar. Aus ¶ µ x1 (t) = C2 x2 (t) f¨ ur t ≥ 0, (4.5.2) 0 = Cx(t) = (0, C2 ) x2 (t) µ ¶ x1 (t) folgt dann → 0 f¨ ur t → ∞. Wegen der Beobachtbarkeit von x2 (t) (A2 , C2 ), impliziert (4.5.2), dass x2 (0) = 0 f¨ ur t ≥ 0 und daher x1 (t) = eA1 t x1 (0) → 0 f¨ ur t → ∞;
weil hierbei x1 (0) beliebig ist, muss A1 und daher auch AT1 stabil sein. Die Dualit¨at von Kontrollierbarkeit und Beobachtbarkeit impliziert, dass (AT2 , C2T ) kontrollierbar ist. Nun ist µ µ ¶T µ T ¶ ¶ A1 A0 A1 0 0 T T A = = und C = . C2T 0 A2 AT0 AT2 Daher ist T
T
(A , C ) =
µµ
AT1 0 AT0 AT2
¶ µ ¶¶ 0 , C2T
asymptotisch kontrollierbar. Die Umkehrung folgt genauso. Die folgende Definition beschreibt unser Beobachtbarkeitskonzept. 4.5.4. Definition. Ein System der Form z(t) ˙ = Jz(t) + Ly(t) + Ku(t)
(4.5.3)
im Zustandsraum Rn mit Inputraum Rk ⊕Rm heisst dynamischer Beobachter f¨ ur (4.5.1), falls f¨ ur alle Anfangswerte x0 , z0 ∈ Rn und alle Kontrollen u gilt lim kx(t) − z(t)k = 0
t→∞
f¨ ur die entsprechenden L¨osungen von (4.5.1) und (4.5.3). Dies Konzept ist dynamisch, weil es u ¨ber eine Differentialgleichung konstruiert ist. Es liefert eine asymptotische Aussage f¨ ur t → ∞.
4.5. DYNAMISCHE BEOBACHTER UND STABILISATOREN
87
4.5.5. Proposition. Das System (4.5.1) hat genau dann einen dynamischen Beobachter, wenn es asymptotisch beobachtbar ist. Beweis: Das System (4.5.1) sei asymptotisch beobachtbar. Wir konstruieren einen dynamischen Beobachter der folgenden Form z(t) ˙ = (A + LC)z(t) + Bu(t) − Ly(t)
(4.5.4)
Dann erf¨ ullt der Fehler e(t) = z(t) − x(t) die Differentialgleichung e(t) ˙ = = = =
z(t) ˙ − x(t) ˙ (A + LC)z(t) + Bu(t) − Ly(t) − Ax(t) − Bu(t) (A + LC)z(t) − LCx(t) − Ax(t) (A + LC)e(t).
Ist also L so gew¨ahlt, dass A + LC stabil ist, so folgt e(t) → 0 (f¨ ur alle Anfangswerte von z und x). Nach Voraussetzung ist (A, C) asymptotisch beobachtbar. Nach Proposition 4.5.3 ist daher (AT , C T ) asymptotisch kontrollierbar. Es gibt daher ein Feedback F , so dass AT + C T F , also auch A + F T C stabil ist. Also kann man L = F T w¨ahlen (und J = A + LC). Umgekehrt existiere ein dynamischer Beobachter. F¨ ur den Nachweis der asymptotischen Beobachtbarkeit betrachte x(t), t ≥ 0, mit x(t) ˙ = Ax(t), Cx(t) = 0 f¨ ur t ≥ 0. F¨ ur z0 = 0 und u = 0 ist dann z(t) ˙ = Jz(t) + Ly(t) + Bu(t) = Jz(t) + Cx(t) + Bu(t) = Jz(t) und daher z(t) = 0 f¨ ur t ≥ 0. Also folgt x(t) = x(t) − z(t) = −e(t) → 0 f¨ ur t → ∞. Daher gilt asymptotische Beobachtbarkeit. Wir werden jetzt einen dynamischen Beobachter mit einem (statischen) Feedback koppeln.
88
CHAPTER 4. FEEDBACK UND STABILISIERUNG
4.5.6. Definition. Ein dynamischer Stabilisator f¨ ur (4.5.1) ist ein dynamischer Beobachter der Form (4.5.3) zusammen mit einem Feedback F , so dass das gekoppelte System x˙ = Ax + Bu, y = Cx, z˙ = Jz + Ly + Ku, u = F z, asymptotisch stabil ist. Wir verwenden also an Stelle des Zustandes x(t) die Sch¨atzung z(t) im Feedback, und hoffen, dass f¨ ur t → ∞ Stabilisierung eintritt, weil sich daf¨ ur auch z(t) und x(t) ann¨ahern. 4.5.7. Theorem. Das System (4.5.1) hat genau dann einen dynamischen Stabilisator, wenn es asymptotisch kontrollierbar und asymptotisch beobachtbar ist. Beweis: Das System sei asymptotisch kontrollierbar und asymptotisch beobachtbar. Dann kann man F w¨ahlen, so dass A + BF stabil ist. Nach Proposition 4.5.5 und ihrem Beweis findet man einen dynamischen Beobachter der Form z(t) ˙ = (A + LC)z(t) + Bu(t) − Ly(t), in dem L so gew¨ahlt wird, dass A + LC stabil ist. Mit u = F z erh¨alt man also das gekoppelte System x˙ = Ax + BF z, z˙ = (A + LC)z + BF z − LCx. Wir m¨ ussen zeigen, dass dieses System asymptotisch stabil ist (also J = A + LC und K = B). In der Tat: µ ¶ µ ¶µ ¶ x˙ A BF x = z˙ −LC A + LC + BF z µ ¶ µ ¶ A + BF BF x −1 = T T 0 A + LC z mit T =
µ
I 0 −I I
¶
und T
−1
=
µ
I 0 I I
¶
.
4.5. DYNAMISCHE BEOBACHTER UND STABILISATOREN
89
Dies ist asymptotisch stabil. Existiere umgekehrt ein dynamischer Stabilisator. Dann folgt die asymptotische Kontrollierbarkeit mit u(t) = F z(t) (und beliebigem Anfangswert z(0)). F¨ ur die asymptotische Beobachtbarkeit betrachte x(t) ˙ = Ax(t), mit Cx(t) = 0 f¨ ur t ≥ 0. Definiere z(t) = 0 f¨ ur t ≥ 0. Dann ist (x(t), z(t)) eine L¨osung des gekoppelten Systems und daher folgt(x(t), z(t)) → 0 f¨ ur t → ∞; insbesondere also x(t) → 0 f¨ ur t → ∞, wie gew¨ unscht.
90
CHAPTER 4. FEEDBACK UND STABILISIERUNG
Chapter 5 Optimale Steuerung In diesem Kapitel betrachten wir Probleme, bei denen die Kontrollen so gew¨ahlt werden sollen, dass ein Funktional der Kontrollen und der Trajektorien minimal oder maximal wird.
5.1
Lineare Zeitoptimale Steuerung
Hier soll f¨ ur lineare Kontrollsystem die Kontrolle so gew¨ahlt werden, dass das System in minimaler Zeit von einem gegebenen Anfangspunkt in einen gegebenen Endpunkt u ¨ bergef¨ uhrt wird. Das folgende Beispiel zeigt, dass dabei Kontrollbeschr¨ankungen eine wesentliche Rolle spielen. Beispiel: Ein sehr einfaches Modell eines Wagens, auf den die Kontrolle als Kraft wirkt, hat die Form x¨(t) = u(t) in R. Der Wagen soll aus der Ruhelage in x = 0 in minimaler Zeit in die Ruhelage in x = 1 gesteuert werden. Ist die Kontrolle der Gr¨oße nach durch 1 beschr¨ankt, so ist also ein minimales T mit x(0) = 0 = x(0), ˙ x(T ) = 1, x(T ˙ ) = 0, |u(t)| ≤ 1 f¨ ur alle t gesucht. Die Kontrolle u(t) =
½
1 f¨ ur t ∈ [0, 1] . −1 f¨ ur t ∈ (1, 2] 91
92
CHAPTER 5. OPTIMALE STEUERUNG
steuert das System in der Zeit T = 2 von (0, 0) nach (1, 0). Offenbar ist dies auch zeitminimal (einen Beweis werden wir sp¨ ater f¨ uhren). Es handelt sich um eine sogenannte Bang-Bang-Steuerung, bei der die Kontrollwerte in Extremalpunkten des Kontrollwertebereichs angenommen werden. Ist keine Kontrollbeschr¨ankung vorgegeben, so steuern die folgenden Kontrollfunktionen das System ebenfalls aus diesem Anfangspunkt in den Endpunkt: ½ 2 f¨ ur t ∈ [0, n1 ] n u(t) = . −n2 f¨ ur t ∈ ( n1 , n2 ] Die zugeh¨origen Endzeiten Tn = n2 gehen f¨ ur n → ∞ gegen 0. Das System kann also in beliebig kurzer Zeit in den gew¨ unschten Endpunkt gesteuert werden; es gibt keine minimale Zeit. Wir werden zeitoptimale Probleme f¨ ur lineare nichtautonome Kontrollsysteme behandeln. Dazu ben¨otigen wir einige Vorbereitungen, zun¨achst einige Erg¨anzungen zur Theorie von Differentialgleichungen. Eine lineare nichtautonome Differentialgleichung hat die Form x(t) ˙ = A(t)x(t) + h(t), t ∈ R,
(5.1.1)
mit t 7→ A(t) : R → Rn×n stetig und t 7→ h(t) lokal integrierbar (oder st¨ uckweise stetig). Ist h(t) ≡ 0, so heißt die Gleichung homogen, andernfalls inhomogen. Im Spezialfall A(t) ≡ A liefert die Variation-der-KonstantenFormel die Darstellung der L¨osung zum Anfangswert x(τ ) = x0 Z t A(t−τ ) x(t) = e x0 + eA(t−σ) h(σ) dσ, t ∈ R; τ
hierbei ist die Matrix-Exponentialfunktion eAt die eindeutige L¨osung von ˙ X(t) = AX(t), t ∈ R, zum Anfangswert X(0) = I. Dann erf¨ ullt Φ(t; τ ) = eA(t−τ ) die Differentialgleichung d Φ(t; τ ) = AΦ(t; τ ), t ∈ R, Φ(t; τ ) = I dt und x(t) = Φ(t; τ )x0 +
Z
t
t0
Φ(t; σ) dσ, t ∈ R;
Der folgende Satz liefert eine analoge Formel f¨ ur nichtautonome Differentialgleichungen.
5.1. LINEARE ZEITOPTIMALE STEUERUNG
93
5.1.1. Theorem. (i) F¨ ur alle τ ∈ R hat die Matrix-Differentialgleichung ˙ X(t) = A(t)X(t), X(τ ) = I eine eindeutige L¨osung auf R, die wir mit Φ(t; τ ) bezeichnen. (ii) F¨ ur jeden Anfangswert x0 ∈ R ist die eindeutige L¨osung von (5.1.1) gegeben durch Z t x(t) = Φ(t; τ )x0 + Φ(t; σ)h(σ) dσ, t ∈ R. (5.1.2) τ
Beweis: Durch Nachrechnen. Die Formel (5.1.2) wird ebenfalls als Variation-der-Parameter-Formel bezeichnet. Die Funktion Φ(t; t0 ), t, t0 ∈ R, heisst Fundamentall¨osung von x˙ = A(t)x. Manchmal wird dieser Begriff auch nur f¨ ur die Funktion Φ(t; 0), t ∈ R, verwendet. Im folgenden sind einige Eigenschaften der Funktion Φ aufgelistet. 5.1.2. Proposition. F¨ ur alle σ, τ , µ ∈ R gilt: (i) Φ(τ , τ ) = I; (ii) Φ(τ , σ) = Φ(τ , µ) Φ(µ, σ); (iii) Φ(τ , σ)−1 = Φ(σ, τ ); ∂ (iv) ∂τ Φ(σ, τ ) = −Φ(σ, τ )A(τ ); Rτ traceA(τ ) dτ (v) det Φ(τ , σ) = e σ . ¨ Beweis: Ubungsaufgabe. Wir werden im Folgenden studieren, wie sich Erreichbarkeitsmengen in Abh¨angigkeit von der Zeit a¨ndern. Daf¨ ur ben¨otigen wir den folgenden Abstandsbegriff zwischen kompakten Mengen. F¨ ur die Menge aller kompakten n Teilmengen von R K = {A ⊂ Rn , A 6= ∅ und kompakt}, und x ∈ Rn , A, B ∈ K definiere dist(x, A) = min kx − ak , dist(A, B) = max dist(x, B); a∈A
x∈A
die Hausdorff-Distanz ist d(A, B) = max {dist(A, B), dist(B, A)} .
(5.1.3)
94
CHAPTER 5. OPTIMALE STEUERUNG
5.1.3. Proposition. Die Menge K mit der Hausdorff-Distanz (5.1.3) definiert einen metrischen Raum. ¨ Beweis: Ubungsaufgabe. Bemerkung: Dieser metrische Raum ist vollst¨andig; betrachtet man nur die nichtleeren kompakten Teilmengen einer kompakten Menge K ⊂ Rn , so erh¨alt man sogar einen kompakten metrischen Raum. Nach diesen Vorbereitungen pr¨azisieren wir unser Problem der optimalen Steuerung. Wir betrachten ein lineares nichtautonomes Kontrollsystem der Form x(t) ˙ = A(t)x(t) + B(t)u(t), t ∈ R, u ∈ U = {u : R → Rm , u(t) ∈ U f¨ ur t ∈ R, messbar}, wobei U ⊂ Rm eine nichtleere, kompakte und konvexe Menge ist und A ∈ C(R, Rn×n ), B ∈ C(R, Rn×m ). Die L¨osungen zu einem Anfangswert x0 ∈ Rn werden wieder mit ϕ(t, x0 , u) bezeichnet. Das lineare zeitoptimale Problem: F¨ ur x0 , x1 ∈ Rn minimiere T ≥ 0 u ¨ber u ∈ U unter den Nebenbedingungen x(t) ˙ = A(t)x(t) + B(t)u(t) t ∈ [0, T ], x(0) = x0 , x(T ) = x1 .
(5.1.4)
F¨ ur dieses Problem stellen sich die u ¨ blichen Fragen nach Existenz und Eindeutigkeit einer L¨osung sowie nach notwendigen und nach hinreichenden Optimalit¨atsbedingungen. Aus Kapitel 3 wissen wir, dass die Erreichbarkeitsmengen Ot+ (x0 ) = {y ∈ Rn , es gibt u ∈ U mit ϕ(t, x0 , u) = y} konvex sind. Bemerkung: Ist U eine kompakte, aber nicht notwendigerweise konvexe Menge, so ist die Erreichbarkeitsmenge immer noch konvex, d.h. Z t Φ(t; 0)x0 + { Φ(t, s)u(s) ds, u(s) ∈ U f¨ ur alle s ∈ [0, t], messbar} 0
ist konvex, falls U kompakt ist. Dies ist der Satz von Lyapunov u ¨ber das Bild eines vektorwertigen Integrals; f¨ ur einen Beweis siehe Hermes/LaSalle [6]). Es wird sich herausstellen, dass die Analyse der Erreichbarkeitsmenge R(t) = Ot+ (x0 ) entscheidend f¨ ur das Verst¨andnis des Problems der zeitoptimalen Steuerung ist. Der Beweis des folgenden Theorems wird einen weiteren Ausflug in die Funktionalanalysis erfordern.
5.1. LINEARE ZEITOPTIMALE STEUERUNG
95
5.1.4. Theorem. F¨ ur alle x0 ∈ Rn and t > 0 ist die Erreichbarkeitsmenge R(t) = Ot+ (x0 ) konvex und kompakt. F¨ ur den Beweis m¨ ussen wir nur noch die Kompaktheit zeigen. Der Beweis verl¨auft im Prinzip folgendermaßen: Die Menge der erlaubten Kontrollfunktionen ist kompakt, und die Abbildung u 7→ ϕ(t, x0 , u) : U → Rn ist stetig. Damit ist auch die Erreichbarkeitsmenge als stetiges Bild einer kompakten Menge kompakt. Dabei m¨ ussen wir vor allem die Topologie auf der Menge der Kontrollen spezifizieren. Da sie in einem unendlich-dimensionalen Vektorraum liegen, reicht Abgeschlossenheit und Beschr¨anktheit (in der NormTopologie) nicht f¨ ur die Kompaktheit aus. Stattdessen wird eine andere Topologie, die sogenannten schwache Topologie, eingef¨ uhrt. Der Einfachheit halber werden wir allerdings mit Folgen argumentieren. Erinnerung: Eine Funktion v : [0, T ] → Rm heißt essentiell beschr¨ankt, wenn es c > 0 und eine Menge N mit Lebesgue-Maß λ(N ) = 0 gibt, so dass |v(t)| ≤ c f¨ ur alle t ∈ [0, T ] \ N . Zwei essentiell beschr¨ankte Funktionen v und v0 heißen ¨aquivalent, falls es eine Nullmenge N gibt mit v(t) = v 0 (t) f¨ ur alle t ∈ [0, T ] \ N , ¨ also v(t) = v 0 (t) f¨ ur fast alle t. Dann ist die Menge aller Aquivalenzklassen m [v] ein Banachraum, bezeichnet mit L∞ (0, T ; R ), mit k[v]k∞ = ess sup |v(t)| := inf t∈[0,T ]
sup
λ(N)=0 t∈[0,T ]\N
|v(t)| ;
dies ist wohldefiniert, weil der Ausdruck auf der rechten Seite unabh¨angig ¨ von dem Repr¨asentanten v aus der Aquivalenzklasse [v] ist. Es ist u ¨blich, die Elemente dieses Raums auch einfach mit v zu bezeichnen, und dabei immer zu ber¨ ucksichtigen, dass sie nur bis auf Nullmengen definiert sind. 5.1.5. Definition. Eine Folge (uk ) in L∞ (0, T ; Rm ) konvergiert schwach∗ w∗ gegen u ∈ L∞(0, T ; Rm ), bezeichnet mit uk → u, falls Z T Z T x(s)uk (s) ds → x(s)u(s) ds f¨ ur alle x ∈ L1 (0, T ; Rm ). 0
0
96
CHAPTER 5. OPTIMALE STEUERUNG
Das folgende Beispiel illustriert (ohne Beweis) diese Konvergenzeigenschaft. Beispiel: W¨ahle T > 0 und ein ρ ∈ [0, 1]. Definiere uk : [0, T ] → R durch ½ 1 f¨ ur t ∈ [i Tk , (i + ρ) Tk ] uk (t) = . 0 sonst Dann hat uk den Durchschnittswert ρ. Offenbar konvergiert keine Teilfolge punktweise (auch nicht fast u ¨berall). Es gilt jedoch w∗
uk → ρ. (F¨ ur einen Beweis siehe Sontag [9], Example 10.1.7.) Es gilt (siehe zum Beispiel Sontag [9], Lemma 10.1.2) das folgende Resultat u ¨ber (Folgen-)Kompaktheit. 5.1.6. Theorem. Jede beschr¨ankte Folge in L∞ (0, T ; Rm ) hat eine schwach∗ konvergente Teilfolge. Aus diesem Theorem folgt, dass jede Folge in U eine Teilfolge enth¨alt, die schwach∗ konvergiert gegen ein u ∈ L∞(0, T ; Rm ). Wir werden ben¨otigen, dass auch die Grenzfunktion in U liegt. Daf¨ ur (und auch weiterhin) werden wir Eigenschaften konvexer Mengen ben¨otigen. 5.1.7. Theorem. Es sei C ⊂ Rn eine nichtleere, konvexe und abgeschlossene Teilmenge. Dann gilt: (i) x ∈ / C genau dann, wenn z ∈ Rn existiert mit |z| = 1 und z T y < z T x f¨ ur alle y ∈ C; (ii) x ∈ ∂C genau dann, wenn z ∈ Rn existiert mit |z| = 1 und z T y ≤ z T x f¨ ur alle y ∈ C; die Hyperebene Hz = {y, z T y = ρz } mit ρz = z T x heißt dann St¨ utzhyperebene und z heißt ein Normalenvektor in x an C . T (iii) C = {y ∈ Rn , z T y ≤ ρz }, wobei der Durchschnitt u ¨ber alle St¨ utzhyperebenen z
an C genommen wird.
Wir zeigen zun¨achst das folgende Lemma. 5.1.8. Lemma. Es seien uk ∈ U und u ∈ L∞(0, T ; Rm ), so dass f¨ ur jedes Teilintervall J ⊂ [0, T ] Z Z uk (s) ds → u(s) ds f¨ ur k → ∞. J
Dann ist u ∈ U.
J
5.1. LINEARE ZEITOPTIMALE STEUERUNG
97
Beweis: Ein Lebesgue-Punkt t ist ein Punkt, f¨ ur den gilt Z t+h u(s) ds = u(t). lim h&0
t
Aus der Analysis III ist bekannt, dass die Menge der Lebesgue-Punkte in [0, T ] volles Maß hat, also das Komplement eine Nullmenge ist. Es reicht zu zeigen, dass u(t) ∈ U gilt f¨ ur jeden Lebesgue-Punkt t. W¨ahle h > 0. Aus der Voraussetzung folgt Z Z 1 t+h 1 t+h qk,h = uk (s) ds → u(s) ds f¨ ur k → ∞. h t h t Weil U abgeschlossen ist, reicht es, qk,h ∈ U zu zeigen. Nach Theorem 5.1.7 ist T U = {v ∈ Rm , z T v ≤ ρ},
wobei der Durchschnitt u ¨ber alle St¨ utzhyperebenen Hz genommen wird. F¨ ur alle z gilt nun Z t+h Z Z 1 t+h T 1 t+h T T 1 z qk,h = z uk (s) ds = z uk (s) ds ≤ ρz ds = ρz . h t h t h t Daher ist qk,h ∈ U, und der Beweis ist vollst¨andig. Die n¨achste Proposition liefert die gew¨ unschte Folgenkompaktheit von U. 5.1.9. Proposition. Jede Folge (uk ) in U enth¨alt eine Teilfolge, die schwach∗ in L∞ (0, T ; Rm ) gegen ein Element von U konvergiert. Beweis: Nach Theorem 5.1.6 konvergiert eine Teilfolge von (uk ) schwach ∗ gegen ein Element u ∈ L∞ (0, T ; Rm ). Um zu zeigen, dass u ∈ U gilt, verifizieren wir die Voraussetzungen von Lemma 5.1.8, also Z Z uk,i (s) ds → ui (s) ds J
J
f¨ ur jedes Intervall J und jede Koordinate i. Betrachte die Funktion x(s) = χJ (s)ei , wobei χJ die charakteristische Funktion von J ist und ei der i-te Einheitsvektor. Dann folgt die behauptete Konvergenz, weil Z Z T uk,i (s) ds = x(s)uk (s) ds, J
0
98
CHAPTER 5. OPTIMALE STEUERUNG
und analog f¨ ur u. Wir k¨onnen jetzt leicht den Beweis von Theorem 5.1.4 f¨ uhren. Beweis von Theorem 5.1.4: Die Konvexit¨at folgt, weil die Abbildung, die jeder Kontrolle die L¨osung zur Zeit t zuordnet, affin ist und U konvex ist. F¨ ur die Kompaktheit betrachte eine Folge xk ∈ R(t). Dann gibt es zugeh¨orige Kontrollen uk ∈ U. Nach Proposition 5.1.9 k¨onnen wir annehmen, dass uk schwach ∗ gegen ein Element u ∈ U konvergiert. Wir m¨ ussen die Konvergenz ϕ(t, x0 , uk ) → ϕ(t, x0 , u) zeigen. Offenbar reicht es, zu zeigen, dass Z t Z t Φ(t, s)uk (s) ds → Φ(t, s)u(s) ds. 0
0
Dies folgt aber aus der Schwach ∗ -Konvergenz, weil s 7→ Φ(t, s) ∈ L1 (0, T ; Rm ). Wir zeigen jetzt, dass sich die Erreichbarkeitsmenge stetig mit der Zeit ¨andert. 5.1.10. Proposition. Die Abbildung τ → R(τ ) : [0, ∞) → K ist stetig bez¨ uglich der Hausdorff-Metrik. Beweis: Wir m¨ ussen zeigen, dass f¨ ur alle τ ≥ 0 und ε > 0 ein δ > 0 existiert, so dass |t − τ | < δ impliziert dH (R(t), R(τ )) < ε, und beginnen mit einer Vor¨ uberlegung zur Distanz zweier L¨osungen. F¨ ur τ , t > 0 ist x(t) − x(τ ) = [Φ(t, 0) − Φ(τ , 0)] x0 Z t Z + Φ(t, s)B(s)u(s) ds + τ
0
τ
[Φ(t, s) − Φ(τ , s)] B(s)u(s) ds.
Nach Proposition 5.1.2 (ii) gilt Φ(t, 0) − Φ(τ , 0)x0 = [Φ(t, τ ) − I] Φ(τ , 0)x0 Man sieht leicht, dass Φ Lipschitz stetig ist, also erh¨alt man eine Konstante L > 0 mit kΦ(t, τ ) − Ik = kΦ(t, τ ) − Φ(τ , τ )k ≤ L |t − τ | .
5.1. LINEARE ZEITOPTIMALE STEUERUNG
99
Ferner gibt es c > 0, so dass f¨ ur s ∈ [0, t] kB(s)k ≤ c, kΦ(t, s)k ≤ c und |u(s)| ≤ c. Insgesamt ergibt sich |x(t) − x(τ )| ≤ L |t − τ | c |x0 |+|t − τ | c3 +|t − τ | Lτ c3 ≤ c1 |t − τ | (5.1.5) f¨ ur ein c1 > 0. F¨ ur ε > 0 w¨ahle δ = min{εc−1 1 , 1} und betrachte |t − τ | < δ. Ferner sei x ∈ R(τ ). Setze eine Kontrolle u˜ ∈ U , die x0 in der Zeit τ nach x steuert, auf [0, τ + 1] fort und bezeichne die zugeh¨orige Trajektorie mit x˜. Dann folgt nach (5.1.5) |˜ x(t) − x| = |˜ x(t) − x(τ )| ≤ c1 |t − τ | < ε. Weil nat¨ urlich x˜(t) ∈ R(t), ist dist(x, R(t)) < ε. V¨ollig analog folgt f¨ ur y ∈ R(t), dass dist(y, R(τ )) < ε. Zusammen ergibt sich dH (R(τ ), R(t)) < ε, wie behauptet. Diese Resultate u ¨ber die Abh¨angigkeit der Erreichbarkeitsmenge von der Zeit k¨onnen wir ausnutzen, um die Existenz optimaler L¨osungen zu beweisen. 5.1.11. Theorem. F¨ ur das zeitoptimale Problem gebe es τ > 0 mit x1 ∈ R(τ ). Dann existiert eine minimale Zeit T ≥ 0 mit x1 ∈ R(T ). Beweis: Wir k¨onnen annehmen, das x1 ∈ / R(0) = {x0 } ist. Setze S = {s > 0, x1 ∈ R(s)} 6= ∅. Wir zeigen, dass S abgeschlossen ist. Daraus folgt, dass T = inf S optimal ist. Seien also tn ∈ S mit tn → t. Falls t 6∈ S ist, gilt x1 6∈ R(t). Weil R(t) kompakt ist, folgt dann c := dist(x1 , R(t)) > 0. Wegen x1 ∈ R(tn ) folgt dann dH (R(tn ), R(t)) ≥ c f¨ ur alle n. Dies ist ein Widerspruch zur Stetigkeit von s 7→ R(s). Damit folgt, dass S abgeschlossen ist, wie behauptet. Bei der Charakterisierung optimaler Steuerungen werden wir diese Folgerung aus Proposition 5.1.10 ben¨otigen: 5.1.12. Proposition. Sei x ∈ intR(τ ) f¨ ur ein τ > 0. Dann gibt es eine Umgebung V von x und δ > 0, so dass |t − τ | < δ impliziert V ⊂ intR(t).
100
CHAPTER 5. OPTIMALE STEUERUNG
¨ Beweis: (Ubungsaufgabe). Betracht ein Simplex co{y0 (τ ), y1 (τ ), ..., yn (τ )} ⊂ intR(τ ), das x im Innern enth¨alt. Dann ist x eine echte Konvexkombination der Eckpunkte. Wegen der Hausdorff-Stetigkeit gibt es δ > 0, so dass es f¨ ur alle |t − τ | < δ Punkte y0 (t), y1 (t), ..., yn (t) ∈ Rn gibt, die stetig von t abh¨angen. Dann ist, f¨ ur δ klein genug, x immer noch echte Konvexkombination dieser Punkte, also im Innern dieser Simplices. Weil R(t) konvex ist, folgt die Behauptung. Als unmittelbare Folgerung aus dieser Proposition ergibt sich, dass f¨ ur eine optimale Zeit T > 0 gilt: x1 ∈ ∂R(T ). Denn ist x1 ∈ intR(T ), so existiert t < T mit x1 ∈ R(t), im Widerspruch zur Minimalit¨at von T . Wir werden daher zur Herleitung von Optimalit¨atsbedingungen die Randpunkte von Erreichbarkeitsmengen analysieren. 5.1.13. Definition. Eine Kontrolle u ∈ U heisst extremal (zur Zeit τ > 0), falls ϕ(τ , x0 , u) ∈ ∂R(τ ). Optimale Steuerungen sind also extremal. Wir werden diese geometrische Eigenschaft ausnutzen, um eine notwendige Optimalit¨atsbedingung zu beweisen. Das entscheidende Hilfsmittel wird der Trennungssatz, Theorem 5.1.7, sein. Das folgende Theorem charakterisiert extremale Steuerungen. 5.1.14. Theorem. Betrachte f¨ ur das lineare zeitoptimale Problem eine Kontrolle u ∈ U mit zugeh¨origer Trajektorie x(t) = ϕ(t, x0 , u), t ∈ [0, T ]. Ist u extremal zur Zeit T , also x(T ) ∈ ∂R(T ), so gilt f¨ ur jeden Normalenvektor z in x(T ) an R(T ): Die L¨osung λ der adjungierten Gleichung ˙ λ(t) = −A(t)T λ(t), λ(T ) = z, erf¨ ullt die Maximum-Bedingung ur fast alle t ∈ [0, T ]. λ(t)T B(t)u(t) = max λ(t)T B(t)v f¨ v∈U
Existiert umgekehrt f¨ ur u ∈ U eine nichttriviale L¨osung λ der adjungierten Gleichung, die die Maximum-Bedingung f¨ ur fast alle t ∈ [0, T ] erf¨ ullt, so folgt f¨ ur die zu u geh¨orige Trajektorie x(T ) ∈ ∂R(T ).
5.1. LINEARE ZEITOPTIMALE STEUERUNG
101
Beweis: Beachte zun¨achst, dass eine L¨osung der adjungierten Gleichung, die in einem Punkt t gleich 0 ist, identisch 0 ist. Es sei jetzt z ein Normalenvektor an R(T ) in x(T ), also ur alle x ∈ R(T ). z T (x − x(T )) ≤ 0 f¨ Das heißt, f¨ ur alle Kontrollen v ∈ U gilt Z T T z Φ(T, s)B(s)[v(s) − u(s)] ds ≤ 0.
(5.1.6)
0
Man rechnet nach, dass λ(s) = φ(T, s)T z, s ∈ [0, T ], die L¨osung der adjungierten Gleichung mit λ(T ) = Φ(T, T )T z = z ist, denn mit Proposition 5.1.2(iv) ist ∂ ˙ λ(s) = Φ(T, s)T z = − [Φ(T, s)A(s)]T z = −A(s)T Φ(T, s)T z = −A(s)T λ(s). ∂t Aus (5.1.6) folgt daher f¨ ur die L¨osung der adjungierten Gleichung Z T Z T T z Φ(T, s)B(s)[v(s) − u(s)] ds = λ(s)T B(s)[v(s) − u(s)] ds ≤ 0. 0
0
(5.1.7) Wir m¨ ussen zeigen, dass die Menge J ⊂ [0, T ] der Punkte, f¨ ur die die Maximum-Bedingung nicht gilt, eine Nullmenge ist. W¨ ahle eine abz¨ahlbare dichte Teilmenge U0 von U. Ist J keine Nullmenge, so gibt es wegen der Abz¨ahlbarkeit von U0 ein festes u0 ∈ U0 und eine Teilmenge J0 ⊂ J mit nichtverschwindendem Maß, so dass λ(t)T B(t)u(t) < λ(t)T B(t)u0 f¨ ur alle t ∈ J0 .
(5.1.8)
In der Tat: andernfalls hat {t ∈ J, λ(t)T B(t)u(t) < λ(t)T B(t)u0 } f¨ ur alle u ∈ U0 das Maß 0, und damit auch die abz¨ahlbare Vereinigung u ¨ber alle u0 ∈ U0 . Also ist {t ∈ [0, T ], λ(t)T B(t)u(t) < λ(t)T B(t)u0 f¨ ur alle u0 ∈ U0 } eine Nullmenge. Aus der Stetigkeit von u 7→ λ(t)T B(t)u, und der Dichtheit von U0 folgt dann, im Widerspruch zur Annahme, dass J eine Nullmenge
102
CHAPTER 5. OPTIMALE STEUERUNG
ist; daher gilt (5.1.8). Sei v ∈ U die Kontrolle, die f¨ ur t ∈ J0 gleich u0 ist und sonst mit u(t) u ¨bereinstimmt. Dann ist der Integrand in (5.1.7) nicht negativ, und er ist positiv auf J0 . Dies ist ein Widerspruch. F¨ ur den Beweis der Umkehrung betrachte eine nichttriviale L¨osung λ der adjungierten Gleichung, so dass die Maximum-Bedingung f¨ ur fast alle t gilt. Sei v ∈ U. Dann ist ur fast alle t. λ(t)T B(t)u(t) ≥ λ(t)T B(t)v(t) f¨ Daher folgt wie in (5.1.7) Z T T z Φ(T, s)B(s)[v(s) − u(s)] ds ≤ 0. 0
Weil dies f¨ ur alle Kontrollen v gilt, ist z 6= 0 ein Normalenvektor an R(T ) in x(T ) (wir k¨onnen z auch auf 1 normieren). Der folgende Satz ist ein Spezialfall des Pontryaginschen Maximumprinzips, das fundamental in der Theorie der optimalen Steuerung ist. Es liefert notwendige Optimalit¨atsbedingungen. 5.1.15. Theorem. Es sei T > 0 und u ∈ U mit zugeh¨origer Trajektorie x(·) eine L¨osung des linearen zeitoptimalen Problems. Dann gilt: (i) Die Kontrolle u ist extremal, also x(T ) ∈ ∂R(T ); ˙ (ii) Es gibt eine nichttriviale L¨osung λ der adjungierten Gleichung λ(t) = T −A(t) λ(t) mit λ(t)T B(t)u(t) = max λ(t)T B(t)v f¨ ur fast alle t ∈ [0, T ], und v∈U
λ(T )T y ≤ λ(T )T x(T ). Beweis: (i) Ist x(T ) ∈ intR(T ), so gibt es nach Lemma 5.1.12 eine Umgebung N von x(T ) und δ > 0 so dass f¨ ur |t − T | < δ folgt N ⊂ intR(T ). Also existiert ein t < T mit x1 = x(T ) ∈ N ⊂ R(t), im Widerspruch zur Minimalit¨at von T . Aussage (ii) ist klar nach Theorem 5.1.14. Bemerkung. Die Maximum-Bedingung ist offenbar ¨aquivalent zu λ(t)T f (x(t), u(t)) = max λ(t)T f (x(t), v) f¨ ur fast alle t ∈ [0, T ]; v∈U
hierbei ist f (t, x, u) = A(t)x + B(t)u die rechte Seite der Differentialgleichung. In dieser Form, mit A(t) = fx (t, x(t), u(t)) und B(t) = fu (t, x(t), u(t)), gilt das Maximumprinzip f¨ ur allgemeine zeitoptimale Kontrollprobleme.
5.1. LINEARE ZEITOPTIMALE STEUERUNG
103
Wir schließen diesen Abschnitt mit dem Beweis, dass die angegebene L¨osung des Beispiels in der Einleitung optimal ist. Beispiel. Betrachte das zeitoptimale Problem f¨ ur x¨(t) = u(t) mit x(0) = 0 = x(0), x(T ) = 1, x(T ˙ ) = 0, |u(t)| ≤ 1 f¨ ur alle t. Hier ist also
¶µ ¶ µ ¶ 0 1 x1 0 = + u 0 0 x2 1 ¶ µ ¶ µ ¶ µ ¶ µ x1 (0) 0 x1 (T ) 1 = , = . x2 (0) 0 x2 (T ) 0 µ
¶
x˙ 1 x˙ 2
µ
Weil der Punkt (1, 0)T von (0, 0)T erreichbar ist, existiert eine zeitoptimale L¨osung T > 0 f¨ ur eine Steuerung u ∈ U mit zugeh¨origer Trajektorie x(·). Die Maximum-Bedingung liefert f¨ ur fast alle t λ(t)T Bu(t) = max λ(t)T Bu, u∈[−1,1]
also λ2 (t)u(t) = max λ(t)T u; u∈[−1,1]
hierbei ist
µ
λ˙ 1 λ˙ 2
¶
=−
µ
0 0 1 0
¶µ
λ1 λ2
¶
.
Das heißt λ˙ 1 = 0, λ˙ 2 = −λ1 . F¨ ur gewisse α, β ∈ R gilt also λ1 (t) = −β, λ2 (t) = α + βt. Die Maximum-Bedingung liefert u(t) = sgnλ2 (t) fast u ¨berall. Weil λ2 linear ist, hat es genau eine Nullstelle oder ist identisch Null. Im zweiten Fall ist β = 0 = −λ1 im Widerspruch zur Nichttrivialit¨ at von λ. Also springt u(t) h¨ochstens einmal im Intervall [0, T ]. Um den Endpunkt zu erreichen, muss τ ∈ (0, T ) existieren mit ½ +1 f¨ ur t ∈ [0, τ ) u(t) = . −1 f¨ ur t ∈ [τ , T ]
104
CHAPTER 5. OPTIMALE STEUERUNG
RT Wegen 0 = x2 (T ) = 0 u() ds folgt τ = T2 . Dies liefert die optimale Trajektorie ½ ½ 1 2 t f¨ ur t ∈ [0, T2 ) t f¨ ur t ∈ [0, T2 ) 2 (t) = . x2 (t) = , x 2 1 T − t f¨ ur t ∈ [ T2 , T ] ur t ∈ [ T2 , T ] − T4 + tT − 12 t2 f¨ Wegen 1 = x1 (T ) = angegeben.
5.2
T2 4
folgt T = 2. Die optimale Steuerung ist also wie
Dynamische Optimierung und HamiltonJacobi-Gleichung
In diesem Abschnitt analysieren wir allgemeine nichtlineare Probleme der optimalen Steuerung und beweisen hinreichende Optimalit¨atsbedingungen. Wir diskutieren das folgende Problem (Pt0 ,x0 ): Rt Minimiere J(x, u; t0 , x0 ) = t01 L(t, x(t), u(t)) dt + L1 (x(t1 )) u ¨ber alle t1 , x(·), u(·) mit x(t) ˙ = f (t, x(t), u(t)) f¨ ur t ∈ [t0 , t1 ], x(t0 ) = x0 , ψ(t1 , x(t1 )) = 0, u(t) ∈ U f¨ ur t ∈ [t0 , t1 ]; hierbei sind L : R×Rn ×Rm → R, f : R×Rn ×Rm → Rn und ψ : R×Rn → Rk hinreichend oft differenzierbar und U ⊂ Rm . Ferner ist t0 ∈ R fest, aber t1 > t0 ist frei. Wir setzen voraus, dass alle betrachteten Anfangswertaufgaben eindeutig l¨osbar sind. Wir bezeichnen mit P C(t0 , t1 ; Rm ) die Menge aller st¨ uckweise stetigen und rechtsseitig stetigen Funktionen von m [t0 , t1 ] nach R . 5.2.1. Definition. Eine Kontrolle u ∈ P C(t0 , t1 ; Rm ) heißt zul¨assig f¨ ur (Pt0 ,x0 ), wenn u(t) ∈ U f¨ ur alle t ∈ [t0 , t1 ] gilt und die zugeh¨orige Trajekullt. Die Funktion torie die Nebenbedingung ψ(t1 , x(t1 )) = 0 erf¨ V (t0 , x0 ) = inf{J(x, u; t0 , x0 ), u ist zul¨assig f¨ ur (Pt0 ,x0 )} heißt optimale Wertefunktion. Eine zul¨assige Kontrollfunktion u heißt optimal, falls J(x, u; t0 , x0 ) = V (t0 , x0 ).
5.2. DYNAMISCHE OPTIMIERUNG UND HAMILTON-JACOBI-GLEICHUNG105 Diese Problemformulierung ist sehr flexibel, wie die folgenden Beispiele zeigen. Beispiel (i) F¨ ur L = 1, L1 = 0 ergibt sich J=
Z
t1
t0
1 dt = t1 − t0 ,
also ein zeitoptimales Problem. F¨ ur ψ(t1 , x) = x−x1 erh¨alt man ein Problem mit festem Endpunkt, wie im vorangegangenen Abschnitt. Ein Problem auf festem Zeitintervall [t0 , T ] erh¨alt man durch ψ(t1 , x) = t1 − T . (ii) F¨ ur J=
Z
t1
u(t)2 dt
t0
erh¨alt man ein Problem, bei dem die “Kontrollenergie” minimiert wird. Wird f¨ ur eine gegebene Funktion g : R → Rn Z t1 J= [x(t) − g(t)]2 dt t0
minimiert, so wird die Trajektorie m¨oglichst nahe an g gehalten. Man spricht auch von einem “tracking problem”. (iii) Soll ein Funktional J maximiert werden (in ¨okonomischen Problemen zum Beispiel der Ertrag), so wird einfach −J minimiert. Die obige Problemformulierung deckt aber noch nicht alle relevanten F¨alle ab. Wenn keine Beschr¨ankung des betrachteten Zeitintervalls sinnvoll ist, wird h¨aufig ein unendlicher Zeithorizont erlaubt. Auch bei o¨konomischen Anwendungen ist dies h¨aufig sinnvoll. Typische Funktionale sind hier von der Form Z ∞ J= e−δt g(x(t), u(t)) dt. 0
Wir haben in (Pt0 ,x0 ) die Abh¨angigkeit von (t0 , x0 ) explizit gemacht, weil die grundlegende Idee zur Herleitung von hinreichenden Optimalit¨atsbedingungen auf einer Variation der Anfangswerte (t0 , x0 ) beruht. 5.2.2. Lemma. Es sei u : [t0 , t1 ] → Rm eine zul¨assige Kontrolle f¨ ur (Pt0 ,x0 ) mit zugeh¨origer Trajektorie x.
106
CHAPTER 5. OPTIMALE STEUERUNG
(i) F¨ ur alle τ 1 ≤ τ 2 in [t0 , t1 ] gilt V (τ 1 , x(τ 1 )) ≤ V (τ 2 , x(τ 2 )) +
Z
τ2
L(s, x(s), u(s)) ds.
τ1
(ii) Wenn u optimal ist, so gilt f¨ ur alle τ 1 ≤ τ 2 in [t0 , t1 ] V (τ 1 , x(τ 1 )) = V (τ 2 , x(τ 2 )) +
Z
τ2
L(s, x(s), u(s)) ds. τ1
Beweis: (i) Es sei u2 : [τ 2 , T1 ] → Rm eine zul¨assige Steuerung f¨ ur (Pτ 2 ,x(τ 2 ) ). Dann definiert ½ u(t) f¨ ur t ∈ [τ 1 , τ 2 ) u1 (t) = . u2 (t) f¨ ur t ∈ [τ 2 , T1 ] eine zul¨assige Steuerung f¨ ur (Pτ 1 ,x(τ 1 ) ) mit zugeh¨origer Trajektorie x1 : [τ 1 , T1 ] → Rn . Es folgt V (τ 1 , x(τ 1 )) ≤ J(x1 , u1 ; τ 1 , x1 (τ 1 )) Z T1 = L(τ , x1 (τ ), u1 (τ )) dτ + L1 (T1 , x1 (T1 )) τ1 τ2
= =
Z
L(τ , x1 (τ ), u1 (τ )) dτ +
Zτ 1τ 2
Z
T1
L(τ , x1 (τ ), u1 (τ )) dτ + L1 (T1 , x1 (T1 ))
τ2
L(τ , x1 (τ ), u1 (τ )) dτ + J(x2 , u2 ; τ 2 , x2 (τ 2 )).
τ1
Dies impliziert
V (τ 1 , x(τ 1 )) ≤ =
Z
τ2
Zτ 1τ 2 τ1
L(τ , x1 (τ ), u1 (τ )) dτ +
inf
u2 zul¨ assig
J(x2 , u2 ; τ 2 , x2 (τ 2 ))
L(τ , x1 (τ ), u1 (τ )) dτ + V (τ 2 , x(τ 2 )).
5.2. DYNAMISCHE OPTIMIERUNG UND HAMILTON-JACOBI-GLEICHUNG107 (ii) F¨ ur eine optimale Kontrolle u und τ 1 ≤ τ 2 gilt nach (i) V (t0 , x(t0 )) ≤ V (τ 1 , x(τ 1 )) +
Z
τ1
L(τ , x(τ ), u(τ )) dτ
Zt0τ 2
≤ V (τ 2 , x(τ 2 )) + L(τ , x(τ ), u(τ )) dτ t0 Z τ1 Z τ2 ≤ L(τ , x(τ ), u(τ )) dτ + L(τ , x(τ ), u(τ )) dτ t0
τ2
+L1 (t1 , x(t1 )) = J(x, u; t0 , x0 ) = V (t0 , x(t0 )).
Also gilt u ¨berall die Gleichheit und aus der zweiten Gleichung folgt (ii). Als Folgerung ergibt sich die n¨achste Proposition. Sie zeigt, dass “Endst¨ ucke optimaler L¨osungen optimal sind”. Dies ist das Grundprinzip der dynamischen Optimierung oder Bellmans Optimalit¨atsprinzip. 5.2.3. Proposition. Ist u∗ : [t0 , t1 ] → Rm eine optimale Steuerung f¨ ur das Problem (Pt0 ,x0 ), so ist f¨ ur jedes t ∈ [t0 , t1 ] die Restriktion u|[t,t1 ] eine optimale Steuerung f¨ ur (Pt,x(t) ). Beweis: Aus Proposition 5.2.2 (ii) mit τ 1 = t0 und τ 2 = t folgt Z
t
L(τ , x(τ ), u(τ )) dτ V (t0 , x0 ) = V (t0 , x(t0 ) = V (t, x(t)) + t0 Z t ≤ J(x|[t,t1 ] , u|[t,t1 ] ; t, x(t)) + L(τ , x(τ ), u(τ )) dτ t0 Z t1 = L(τ , x(τ ), u(τ )) dτ + L1 (t1 , x(t1 )) t0
= J(x, u; t0 , x0 ) = V (t0 , x0 ; t, x(t)).
Also gilt u ¨berall die Gleichheit, und damit V (t, x(t)) = J(x|[t,t1 ] , u|[t,t1 ] ; t, x(t)). Die folgende partielle Differentialgleichung (die Hamilton-Jacobi-BellmanGleichung) ist eine infinitesimale Version dieses Prinzips.
108
CHAPTER 5. OPTIMALE STEUERUNG
5.2.4. Theorem. Sei G ⊂ Rn+1 offen und die Optimalwertfunktion V sei endlich auf G. Ist V differenzierbar in einem Punkt (t, x) ∈ G, so gilt
∂V ∂V (t, x) + (t, x) · f(t, x, u) + L(t, x, u) ≥ 0 f¨ ur alle u ∈ U. ∂t ∂x Existiert eine optimale Steuerung u∗ : [t, t1 ] → Rm mit zugeh¨origer Trajektorie x∗ und ist V differenzierbar in (t, x) = (t, x∗ (t)), so gilt ½ ¾ ∂V ∂V (t, x) + min (t, x) · f (t, x, u) + L(t, x, u) = 0. u∈U ∂t ∂x Beweis: F¨ ur einen Kontrollwert u ∈ U und δ > 0 setze u¯(τ ) = u f¨ ur τ ∈ [t, t + δ] zu einer Kontrolle u¯ auf einem Intervall [t, t1 ] fort, so dass f¨ ur die zugeh¨orige Trajektorie x¯ mit Anfangswert x¯(t) = x die Restriktion auf [t+δ, t1 ] zul¨ assig f¨ ur (Pt+δ,¯x(t+δ) ) ist; dies ist f¨ ur δ > 0 klein genug m¨oglich, weil dann (t + δ, x¯(t + δ)) ∈ G ist. Aus Lemma 5.2.2 (i) folgt f¨ ur 0 < h < δ Z 1 t+h 1 [V (t + h, x¯(t + h)) − V (t, x)] ≥ − L(τ , x¯(τ ), u) dτ . h h t Der Grenz¨ ubergang f¨ ur h → 0 liefert
d ∂V ∂V V (t, x¯(t), u) = (t, x¯(t)) + (t, x¯(t)) · f (t, x¯(t), u) dt ∂t ∂x ≥ −L(t, x¯(t), u).
Analog erh¨alt man aus Lemma 5.2.2 (ii) 1 1 [V (t + h, x∗ (t + h)) − V (t, x)] = − h h
Z
t
t+h
L(τ , x∗ (τ ), u∗ (τ )) dτ .
F¨ ur h → 0 liefert dies, wegen der Rechtsstetigkeit von u∗
∂V ∂V (t, x) + (t, x) · f (t, x, u∗ (t)) = −L(t, x, u∗ (t)). ∂t ∂x Mit der ersten Aussage folgt die Behauptung. Die kritische Voraussetzung in diesem Theorem ist die Differenzierbarkeit von V , die oft nur schwer nachpr¨ ufbar ist. Im n¨achsten Abschnitt werden wir eine Klasse von Problemen kennenlernen, bei denen dies m¨oglich ist. Als Folgerung aus diesem Theorem erhalten wir hinreichende Optimalit¨ats bedingungen.
5.2. DYNAMISCHE OPTIMIERUNG UND HAMILTON-JACOBI-GLEICHUNG109 5.2.5. Theorem. Sei G ⊂ Rn+1 offen mit {(t, x) ∈ Rn+1 , ψ(t, x) = 0} ⊂ G. Ferner sei u∗ : [t0 , t1 ] → Rm zul¨assig f¨ ur (Pt0 ,x0 ), so dass f¨ ur die zugeh¨orige Trajektorie (t, x∗ (t)) ∈ G f¨ ur alle t gilt. Es existiere eine C 1 Funktion W : G → R mit ur alle (t, x) mit ψ(t, x) = 0 W (t, x) = L1 (t, x) f¨
(5.2.1)
und ∂W (t, x) + min u∈U ∂t
½
∂W (t, x) · f (t, x, u) + L(t, x, u) ∂x
¾
= 0 f¨ ur alle (t, x) ∈ G.
Das Minimum werde in u = U (t, x) angenommen. Ist dann u∗ (t) := U(t, x∗ (t)), t ∈ [t, t1 ], so folgt W (t, x∗ (t)) = V (t, x∗ (t)), t ∈ [t0 , t1 ], also ist u∗ eine optimale Steuerung und W ist entlang der Trajektorie x∗ die optimale Wertefunktion. Beweis: Es sei u¯ : [t0 , t¯1 ] → Rm zul¨assig f¨ ur (Pt0 ,x0 ). Dann gilt L1 (t¯1 , x(t¯1 )) = W (t¯1 , x¯(t¯1 ))
Z
t¯1
d W (t, x¯(t)) dt t0 dt ¸ Z t¯1 · ∂W ∂W = W (t0 , x0 ) + + f (t, x¯(t), u¯(t)) dt, ∂t ∂x t0
= W (t0 , x0 ) +
also J(¯ x, u¯; t0 , x0 ) Z t¯1 = L(t, x(t), u(t)) dt + L1 (t¯1 , x(t¯1 )) t0
= W (t0 , x0 ) + ≥ W (t0 , x0 ).
Z
t¯1
t0
·
¸ ∂W ∂W + f(t, x¯(t), u¯(t)) + L(t, x¯(t), u¯(t)) dt ∂t ∂x
Mit u∗ (t) = U (t, x∗ (t)) f¨ ur alle t ∈ [t0 , t1 ] gilt sogar J(x∗ , u∗ ; t0 , x0 ) = W (t0 , x0 ).
110
CHAPTER 5. OPTIMALE STEUERUNG
Das Gleiche gilt nach Proposition f¨ ur jede optimale L¨osung. Also ist W (t0 , x0 ) = V (t0 , x0 ). Daraus folgt die Optimalit¨at. Weil nach Proposition 5.2.3 Endst¨ ucke optimaler L¨osungen optimal sind, folgt schließlich V (t, x(t)) = W (t, x(t)) f¨ ur alle t ∈ [t0 , t1 ]. Die potentielle Anwendung dieses Theorems besteht darin, zun¨achst die Funktion W aus der Hamilton-Jacobi-Bellman-Differentialgleichung mit der “Randbedingung” (5.1.14) zu bestimmen; dann liefert die Minimum-Bedingung eine optimale L¨osung. Die L¨osung dieser partiellen Differentialgleichung ist jedoch sehr schwierig. Insbesondere existiert im Allgemeinen keine differenzierbare L¨osung, so dass man zu einem verallgemeinerten L¨osungsbegriff u ¨ bergehen muss (“Viskosit¨atsl¨osungen”). Dann kann man numerische Verfahren zur Approximation der L¨osung einsetzen.
5.3
Das Linear-Quadratische Problem
In diesem Abschnitt benutzen wir die Hamilton-Jacobi-Bellman-Theorie, um Probleme der optimalen Steuerung mit linearer Systemgleichung und quadrati schem Zielfunktional zu l¨osen. Es wird sich zeigen, dass dies auch eine L¨osung des Stabilisierungsproblems f¨ ur lineare Kontrollsysteme liefert. Wir beginnen mit dem folgenden LQ-Problem ohne Kontrollbeschr¨ankungen auf festem Zeitintervall. Minimiere µ ¶µ ¶ Z t1 M (t) R(t) x(t) T J= (x(t), u(t)) dt + x(t1 )T Dx(t1 ) T R(t) N (t) u(t) t0 mit x(t) ˙ = A(t)x(t) + B(t)u(t), t ∈ [t0 , t1 ], x(t0 ) = x0 ∈ Rn , u(t) ∈ Rm , t ∈ [t0 , t1 ]. Hierbei setzen wir voraus: (i) A, B, M, N, R sind stetige, matrixwertige Funktionen; (ii) f¨ ur alle t ist N(t) ∈ Rm×m eine positiv definite Matrix;
5.3. DAS LINEAR-QUADRATISCHE PROBLEM
111
¶ M (t) R(t) sind positiv definit. und (iii) D ∈ R R(t)T N(t) Erinnerung: Eine Matrix A ∈ Rn×n heißt positiv semidefinit (A ≥ 0), falls A = AT und xT Ax ≥ 0 f¨ ur alle x ∈ Rn ; sie heißt positiv definit (A > 0), falls T T A = A und x Ax > 0 f¨ ur alle x 6= 0. Ein wichtiger Spezialfall ist µ
n×n
M (t) = 0, R(t) = 0, N (t) = I, D = I f¨ ur alle t. Dann hat das Zielfunktional J die Form Z t1 J= u(t)2 dt + x(t1 )2 . t0
Es wird also gleichzeitig die Energie der Kontrolle und der Abstand des Endpunktes x(t1 ) zum Nullpunkt minimiert. Wir machen den folgenden Ansatz f¨ ur die optimale Wertefunktion: W (t, x) = xT Q(t)x,
(5.3.1)
wobei Q(t) ∈ Rn×n eine (noch zu bestimmende) symmetrische Matrix ist, die stetig differenzierbar von t abh¨angt. Nach Theorem 5.2.5 m¨ ussen wir zur Berechnung der optimalen Steuerung n+1 f¨ ur (t, x) ∈ G = R g(u) =
∂W (t, x)f (t, x, u) + L(t, x, u) ∂x
u ¨ber u ∈ U = Rm minimieren. Hier ist µ ¶µ ¶ M(t) R(t) x T L(t, x, u) = (x, u) , T R(t) N (t) u wegen Q = QT also g(u) = xT Q(Ax + Bu) + (Ax + Bu)T Qx +xT M x + xT Ru + uT RT x + uT N u = 2xT Q(Ax + Bu) + xT M x + 2xT Ru + uT Nu. Weil g konvex ist, ist jede Nullstelle der Ableitung ∇g ein globales Minimum. Wir berechnen ∇g(u) = 2xT QB + 2xT R + 2uT N = 0,
112
CHAPTER 5. OPTIMALE STEUERUNG
wegen N T = N und QT = Q also N u = −B T Qx − RT x oder
£ ¤ u = −N −1 B T Q + RT x.
Wir haben gezeigt, dass bei dem Ansatz (5.3.1),
£ ¤ U(t, x) = −N −1 B T Q + RT x
die eindeutige L¨osung von ½ ¾ ∂W min (t, x)f(t, x, u) + L(t, x, u) u∈Rm ∂x ist. Damit l¨osen wir jetzt die Hamilton-Jacobi-Bellman-Gleichung:
= = =
=
∂W ∂W (t, x) + (t, x) · f (t, x, U (t, x)) + L(t, x, U (t, x)) ∂t ∂x ˙ + xT Q(Ax + BU) + (Ax + BU )T Qx xT Qx +xT M x + xT RU + U T RT x + U T NU ˙ + xT QAx + xT AT Qx + xT M x + xT QBU + xT RU xT Qx +U T B T Qx + U T RT x + U T N U h i xT Q˙ + QA + AT Q + M x ¤ £ +xT [QB + R] (−N −1 ) B T Q + RT x £ ¤ −xT [QB + R]N −1 B T Q + RT x £ ¤ +xT [QB + R]N −1 NN −1 B T Q + RT x ³ ´ xT Q˙ + QA + AT Q + M − [QB + R]N −1 [B T Q + RT ] x.
Dies ist gleich 0, falls Q eine L¨osung der Differentialgleichung P := Q˙ + QA + AT Q + M − [QB + R]N −1 [B T Q + RT ] = 0 ist. Der folgende Satz beruht auf diesen Vor¨ uberlegungen und charakterisiert die L¨osung des Linear-Quadratischen Problems.
5.3. DAS LINEAR-QUADRATISCHE PROBLEM
113
5.3.1. Theorem. Das obige Linear-Quadratische Problem besitzt f¨ ur alle n (t0 , x0 ) ∈ R × R mit t0 ≤ t1 genau eine L¨osung (x, u), die man folgendermaßen erh¨alt: (1) L¨ose auf (−∞, t1 ] die Matrix-Riccati-Differentialgleichung ˙ Q(t) = −Q(t)A(t)−A(t)T Q(t)−M (t)+[Q(t)B(t)+R(t)]N(t)−1 [B(t)T Q(t)+R(t)T ] zum Endwert Q(t1 ) = D. £ ¤ (2) Setze U(t, x) = −N (t)−1 B(t)T Q(t) + R(t)T x und bestimme die L¨osung von x(t) ˙ = A(t)x(t) + B(t)U (t, x(t)), x(t0 ) = x0 . (5.3.2) (3) Dann ist die optimale Kontrolle u(t) = U (t, x(t)) und die Optimalwertfunktion ist V (t, x(t) = x(t)T Q(t)x(t), t ∈ [t0 , t1 ]. Beweis: Man beachte, dass die Differentialgleichung (5.3.2) die Form £ ¤ x(t) ˙ = A(t)x(t) − B(t)N (t)−1 B(t)T Q(t) + R(t)T x(t)
hat, sie ist also linear und die L¨osung existiert auf R. Nun ist alles bewiesen, bis auf die eindeutige L¨osbarkeit der Matrix-Riccati-Differentialgleichung auf dem Intervall [t0 , t1 ]. Dazu verwenden wir einen allgemeinen Satz aus der Theorie der Differentialgleichungen. Zun¨achst ein Beispiel, das zeigt, dass die L¨osung einer nichtlinearen Differentialgleichung nicht f¨ ur alle Zeiten existieren muss. Beispiel. Betrachte die skalare Differentialgleichung x(t) ˙ = x(t)2 , x(1) = −1 Formales Rechnen (”Trennung der Variablen”) liefert Z Z dx dx 1 2 =x , = dt, − = t, also x(t) = −1/t. 2 dt x x
In der Tat, man rechnet nach, dass diese Funktion die Anfangsbedingung erf¨ ullt, und d d x(t) = (−1/t) = 1/t2 = x(t)2 ; dt dt dies gilt allerdings nur f¨ ur t ∈ (0, ∞), weil x(t) → −∞ f¨ ur t → 0; die L¨osung wird also unbeschr¨ankt. Der folgende Standard-Satz aus der Theorie der Differentialgleichungen zeigt, dass das Existenzintervall einer L¨osung nur dann beschr¨ankt ist, wenn die L¨osung unbeschr¨ankt wird.
114
CHAPTER 5. OPTIMALE STEUERUNG
5.3.2. Theorem. Es sei f : R × Rn → Rn stetig und lokal Lipschitz in x, also f¨ ur alle (t0 , x0 ) ∈ R × Rn existieren ρ > 0 und L > 0, so dass gilt ¯ ¯ ¯ ¯ ¯ ¯ ¯t − t0 ¯ < ρ, ¯x − x0 ¯ < ρ, ¯y − x0 ¯ < ρ =⇒ |f (t, x) − f (t, y)| ≤ L |x − y| .
Dann existiert f¨ ur alle (t0 , x0 ) ∈ R × Rn ein nichtleeres offenes Intervall J ⊂ R und eine L¨osung ξ auf J mit ξ(t0 ) = x0 und der folgenden Eigenschaft: Ist ξ 0 : J 0 → Rn eine andere L¨osung mit ξ 0 (t0 ) = x0 , so ist J 0 ⊂ J und ξ = ξ 0 auf J 0 . Die L¨osung ξ heißt dann maximale L¨osung des Anfangswertproblems und J heißt maximales Existenzintervall. Gibt es dar¨ uberhinaus eine kompakte Menge K ⊂ Rn so dass ξ(t) ∈ K f¨ ur alle t ∈ J, so ist J = R. Einen Beweis eines etwas allgemeineren Theorems findet man zum Beispiel in Sontag [9], Theorem 54 und Proposition C.3.6. Wir m¨ ussen f¨ ur den Beweis von Theorem 5.3.1 also zeigen, dass die L¨osung Q(t) beschr¨ankt bleibt. Es sei J = (t− , t+ ) 3 t1 das maximale Intervall, auf dem die L¨osung existiert. Wir m¨ ussen zeigen, das t− = −∞ ist. Nun gilt ur (t, x) ∈ (t− , t1 ] × Rn . 0 ≤ V (t, x) = xT Q(t)x(t) f¨ Die Kontrollfunktion u¯ = 0 ist zul¨assig und f¨ ur die zugeh¨orige Trajektorie x¯ zum Anfangswert x¯(t0 ) = x gilt 0 ≤ xT Q(t)x ≤ J(¯ x, u¯; t, x) Z t1 = x¯(s)T M x¯(s) ds + x¯(t1 )D¯ x(t1 ) t
≤ |x|2 c(t),
wobei c : (−∞, t1 ] → R eine stetige Funktion bezeichnet, die von M und D und der Fundamentalmatrix abh¨angt. Wegen der Symmetrie von Q, ist kQk = max{xT Qx, |x| = 1}, also folgt kQ(t)k ≤ c(t) f¨ ur alle t ∈ (t− , t1 ]. Ist t− > −∞, so ist kQ(t)k ≤ max{c(t), t ∈ [t− , t1 ]}, also bleibt Q(t) in einer kompakten Menge von Matrizen. Nach Theorem 5.3.2 folgt t− = −∞. Damit ist der Beweis von Theorem 5.3.1 vollst¨andig. Bemerkung. Die optimale Kontrolle ist hier in der Feedback-Form £ ¤ u(t) = −N (t)−1 B(t)T Q(t) + R(t)T x(t)
5.3. DAS LINEAR-QUADRATISCHE PROBLEM
115
gegeben. Wir wenden uns jetzt dem Stabilisierungsproblem zu. Da hier keine ussen wir die folgende Variante des linearObergrenze t1 vorgegeben ist, m¨ quadratischen Problems auf unendlichem Zeitintervall betrachten. Minimiere Z ∞ £ ¤ J∞ (x, u) = u(t)T Nu(t) + x(t)T M x(t) dt 0
u ¨ber
x(t) ˙ = Ax(t) + Bu(t), t ≥ 0, x(0) = x0 ;
hierbei sind M ≥ 0, N > 0. Wir werden eine algebraische Riccati-Matrizengleichung konstruieren, deren L¨osung das optimale Feedback liefert. Betrachte zun¨achst die folgende RiccatiDifferentialgleichung Q˙ = −QA − AT Q − M + QBN −1 B T Q auf (−∞, 0], Q(0) = 0. Wie im obigen Beweis gezeigt, existiert die L¨osung auf (−∞, 0] (w¨ahle in dem dortigen LQ-Problem t0 < t1 = 0 und D = 0). Dann erf¨ ullt Π(s) = Q(−s), s ≥ 0, ˙ = −ΠBN −1 B T Π + ΠA + AT Π + M auf [0, ∞), Π(0) = 0. (5.3.3) Π Weil die Matrizen A, B, M, und N unabh¨angig von t sind, erf¨ ullt Qt (s) = Q(s − t) dieselbe Differentialgleichung mit Qt (t) = Q(0) = 0. Offenbar ist Π(τ ) = Q(−τ ) = Qτ (0). Nach Theorem 5.3.1 folgt, dass f¨ ur jedes x ∈ Rn und jedes τ > 0 xT Π(τ )x = xT Qτ (0)x = Vτ (0, x), wobei Vτ (0, x) die Optimalwert-Funktion f¨ ur das obige Problem auf [0, τ ] statt [0, ∞) ist (wegen der Unabh¨angigkeit von t stimmen die OptimalwertFunktionen der Probleme auf [−τ , 0] und [0, τ ] u ¨berein). Sei jetzt µ > τ ≥ 0 und u optimal auf [0, µ] mit Anfangswert x. Dann ist Z µ £ T ¤ T x Π(µ)x = Vµ (0, x) = u N u + xT M x dt 0 Z τ Z µ £ T ¤ £ T ¤ T = u N u + x M x dt + u Nu + xT Mx dt τ Z0 τ £ T ¤ ≥ u N u + xT M x dt (5.3.4) 0
= xT Π(τ )x.
116
CHAPTER 5. OPTIMALE STEUERUNG
5.3.3. Lemma. Das Paar (A, B) sei kontrollierbar. Dann existiert Π = ullt die algebraische Riccati-Gleichung limµ→∞ Π(µ) und erf¨ ΠBN −1 B T Π − ΠA − AT Π − M = 0,
(5.3.5)
Beweis. Wir zeigen zun¨achst, dass der Limes existiert. Dies folgt aus der (Null-)Kontrollierbarkeit: W¨ahle f¨ ur x ∈ Rn ein u1 : [0, 1] → Rm mit ϕ(1, 0, x, u1 ) = 0. Setze u1 fort zu einer Funktion u2 : [0, ∞) → Rm durch u2 (t) = 0 f¨ ur t > 1. Die zugeh¨orige Trajektorie sei x2 . Dann ist Z 1 £ ¤ J∞ (x2 , u2 ) = u1 (t)T Nu1 (t) + x2 (t)T Mx2 (t) dt < ∞. 0
Es folgt f¨ ur alle τ > 0
xT Π(τ )x = Vτ (0, x) Z τ ≤ [x2 (t)Mx2 (t) + u2 (t)Nu2 (t)] dt (5.3.6) 0 Z ∞ ≤ [x2 (t)M x2 (t) + u2 (t)N u2 (t)] dt = J∞ (x2 , u2 ) 0
Also ist xT Π(τ )x beschr¨ankt f¨ ur τ → ∞ und wir wissen aus (5.3.4), dass T τ 7→ x Π(τ )x nicht fallend ist. Daher existiert f¨ ur jedes x ∈ Rn lim xT Π(τ )x.
τ →∞
Sei lij der Limes f¨ ur x = ei + ej , und li der Limes f¨ ur x = ei , wobei dies die n kanonischen Einheitsvektoren in R bezeichnet. Wegen der Symmetrie von Π(t) folgt f¨ ur alle i, j, dass Π(t)ij = eTi Π(t)ej = f¨ ur t → ∞ gegen
¤ 1£ (ei + ej )T Π(t)(ei + ej ) − eTi Π(t)ei − eTj Π(t)ej 2
1 [lij − li − lj ] 2 konvergiert. Also existiert der Limes Π. Weil Π(t) die Gleichung (5.3.3) erf¨ ullt, folgt, dass f¨ ur jedes x ∈ Rn d T (x Π(t)x) t→∞ dt lim
5.3. DAS LINEAR-QUADRATISCHE PROBLEM
117
existiert. Wegen der Beschr¨anktheit von Π(t) und weil Π(t) monoton steigt, muss dieser Limes also gleich 0 sein. Wir erhalten ¤ £ ur alle x. xT ΠBN −1 B T Π − ΠA − AT Π − M x = 0 f¨
Symmetrie der Matrix in [...] impliziert (5.3.5). Wir beschreiben jetzt die optimale Feedback-L¨osung f¨ ur das Linear-Quadratische Problem auf unendlichem Zeitintervall. 5.3.4. Theorem. F¨ ur das Linear-Quadratische Problem auf unendlichem Zeitintervall gegeben durch A, B, und M ≥ 0, N > 0, sei (A, B) kontrollierbar. Dann existiert f¨ ur jedes x ∈ Rn eine eindeutige optimale Kontrolle, gegeben durch die Feedback-Kontrolle u = −F x zu dem konstanten Feedback F = N −1 B T Π, wobei Π die L¨osung der algebraischen Riccati-Gleichung (5.3.5) ist. Ist ferner M positiv definit, so ist auch Π positiv definit und f¨ ur jede L¨osung des Feedback-Systems ξ˙ = (A − BF )ξ gilt lim ξ(t) = 0.
t→∞
Beweis. Wir zeigen zun¨achst, dass die angegebene Kontrolle optimal ist. Aus (5.3.6) folgt f¨ ur jede Kontrolle xT Πx ≤ J∞ (x, u). Sei ν die Feedback-Kontrolle auf [0, ∞), die zu dem Feedback u = −F x mit F = N −1 B T Π geh¨ort, mit Anfangswert ξ(0) = x. Einsetzen in das Zielfunktional ergibt J∞ (x, ν) =
Z
0
∞
ξ(t)T [ΠBN −1 B T Π + M ]ξ(t) dt.
118
CHAPTER 5. OPTIMALE STEUERUNG
Andererseits ist
= = = = = =
¤ d £ ξ(t)T Πξ(t) dt T ξ˙ Πξ + ξ T P ξ˙ ξ T (A − BF )T Πξ + ξ T Π(A − BF )ξ ξ T [(AT − F T B T )Π + Π(A − BF )]ξ ξ T [AT Π − F T B T Π + ΠA − ΠBF )]ξ ξ T [AT Π + ΠA − 2ΠBN −1 B T Π)]ξ £ ¤ −ξ(t)T ΠBN −1 B T Π + M ξ(t),
weil Π = ΠT die algebraische Riccati-Gleichung (5.3.5) erf¨ ullt. Es folgt, dass J∞ (x, ν) = xT Πx − lim ξ(t)T Πξ(t) ≤ xT Πx ≤ J∞(x, u) t→∞
f¨ ur jede Kontrolle u, insbesondere f¨ ur u = ν. Daher ist • ν optimal; • xT Πx die optimale Wertefunktion; • J∞(x, ν) < ∞; • limt→∞ ξ(t)T Πξ(t). Wir zeigen jetzt, dass ν die eindeutige optimale Kontrolle ist. Sei α(t) = ζ(t)T Πζ(t) f¨ ur eine Trajektorie ζ mit ζ(0) = x zu einer Kontrolle u 6= ν. Man sieht leicht, dass das Minmum von vT N v + 2xT Π[Ax + Bv] nur in v = −N −1 B T Πx angenommen wird. Also gilt f¨ ur alle t £ ¤T £ ¤ uT Nu + α˙ ≥ N −1 B T Πζ N [N −1 B T Πζ] + 2ζ T Π A − BN −1 B T Π ;
5.3. DAS LINEAR-QUADRATISCHE PROBLEM
119
Gleichheit kann nicht fast u ¨berall gelten, weil dann u = −N −1 B T Πζ gelten w¨ urde; dann w¨ are u gleich der Feedback-L¨osung, was wir ausgeschlossen haben. Mit (5.3.5) folgt α(t) ˙ ≥ −u(t)T Nu(t) − ζ(t)T M ζ(t), mit strikter Ungleichung auf einer Menge positiven Maßes. Integration liefert die Existenz eines τ > 0 mit Z τ £ ¤ T x Πx < u(t)T N u(t) + ζ(t)T Mζ(t) dt + ζ(τ )T Πζ(τ ). (5.3.7) 0
Betrachte f¨ ur z := ζ(τ ) und die Kontrolle
u¯(t) = u(t + τ ), t ≥ 0, die zugeh¨orige Trajektorie ¯ζ. Weil z T Πz der optimale Wert in z ist, ist der zweite Summand in (5.3.7) kleiner oder gleich J∞(z, u¯). Wegen der ZeitInvarianz ist Z τ £ ¤ T x Πx < u(t)T Nu(t) + ζ(t)T M ζ(t) dt + J∞ (z, u¯) Z0 τ Z ∞ ¤ ¤ £ £ T T ¯ T M ζ(t) ¯ = dt u(t) Nu(t) + ζ(t) M ζ(t) dt + u¯(t)T N u¯(t) + ζ(t) 0 Z0 ∞ £ ¤ = u(t)T N u(t) + ζ(t)T M ζ(t) dt = J∞ (x, u). 0
Daher kann die Kontrolle u nicht minimal sein, und die Eindeutigkeit folgt. Es bleibt nur noch zu zeigen, dass ξ(t) → 0 f¨ ur t → ∞, falls M > 0. Wegen lim ξ(t)T Πξ(t) = lim ξ(t)T Π(t)ξ(t) = 0, t→∞
t→∞
reicht es zu zeigen, dass Π > 0. Weil Π der wachsende Limes der Π(t) ist, reicht es zu zeigen, dass Π(t) > 0 f¨ ur alle t > 0. W¨ahle x 6= 0 und definiere T β(t) = x Π(t)x. Weil Π(·) L¨osung der Differentialgleichung (5.3.3) mit Π(0) = 0 ist, folgt ˙ ˙ = xT M x > 0 und β(0) = 0. β(0) = xT Π(0)x Daher ist β(t) > 0 f¨ ur kleine t > 0. Weil β nicht fallend ist, folgt β(t) = xT Π(t)x > 0 f¨ ur alle t > 0.
120
CHAPTER 5. OPTIMALE STEUERUNG
Chapter 6 Stabilisierung Nichtlinearer Systeme In diesem kurzen abschließenden Kapitel diskutieren wir das Problem, ein nichtlineares System an einem Gleichgewichtspunkt durch ein glattes Feedback zu stabilisieren. Wir geben eine notwendige Bedingung f¨ ur die Existenz ¨ eines solchen Feedbacks an, die auf topologischen Uberlegungen basiert.
6.1
Brocketts Notwendige Bedingung
Zur Motivation betrachten wir zun¨achst ein System der Form x˙ = f(x, u) in der Dimension n = 1; dabei sei f : R × Rm → R stetig. Sei 0 = f(x0 , u0 ). Existiert ein Feedback u = k(x), so dass f¨ ur x˙ = f (x, k(x)) der Punkt x0 = 0 asymptotisch stabil wird, so muss in einer Umgebung von 0 gelten f (x1 , k(x1 )) > 0 f¨ ur x1 < 0, f (x2 , k(x2 )) < 0 f¨ ur x2 > 0. Die Stetigkeit von f impliziert, dass ein offenes Intervall V 3 0 existiert mit der folgenden Eigenschaft: 121
122
CHAPTER 6. STABILISIERUNG NICHTLINEARER SYSTEME F¨ ur alle p ∈ V existieren x ∈ Rn und u ∈ Rm (n¨amlich u = k(x)) mit f(x, u) = p.
Dies folgt aus dem Zwischenwertsatz der Analysis I. Mit anderen Worten: Das Bild der Abbildung (x, u) 7→ f (x, u) enth¨alt eine Umgebung der 0. F¨ ur lineare Systeme beliebiger Dimension gilt dieselbe Aussage (f¨ ur x0 = 0 0, u = 0). In der Tat: Asymptotische Kontrollierbarkeit (die ¨aquivalent zur Stabilisierbarkeit ist) impliziert nach dem Hautus-Kriterium f¨ ur λ = 0 rang[A, B] = n. Dies bedeutet, dass die Abbildung (x, u) 7→ Ax + Bu surjektiv ist; wegen der Linearit¨at ist dies a¨quivalent dazu, dass ihr Bild eine Umgebung der 0 enth¨alt. Das folgende Theorem ist eine gemeinsame Verallgemeinerung dieser beiden ussagen. Es ist als Brocketts Notwendige Bedingung bekannt. 6.1.1. Theorem. F¨ ur das System x˙ = f (x, u) mit stetig differenzierbarem f : Rn × Rm → Rn sei 0 = f (x0 , u0 ). Existiert ein stetig differenzierbares Feedback k : Rn → Rm , so dass das Gleichgewicht x0 f¨ ur x˙ = f (x, k(x)) asymptotisch stabil wird, so enth¨alt das Bild der Abbildung (x, u) 7→ f (x, u) : Rn × Rm → Rn eine Umgebung von 0. Vor dem Beweis, der auf Hilfsmitteln der Nichtlinearen Analysis beruht, betrachten wir ein Beispiel, das ebenfalls auf Brockett zur¨ uckgeht.
6.1. BROCKETTS NOTWENDIGE BEDINGUNG
123
Beispiel. Betrachte (mit n = 3 und m = 2) das System x˙ 1 = u1 , x˙ 2 = u2 , x˙ 3 = x2 u1 − x1 u2 mit dem Gleichgewicht x0 = 0 zur Kontrolle u = 0. Kein Punkt der Form 0 0 mit ε 6= 0, ε
liegt im Bild von f. Daher existiert kein stabilisierendes stetig differenzierbares Feedback. Wir ben¨otigen das folgende Resultat aus der Nichtlinearen Analysis; es beruht auf Fakten aus der Abbildungsgrad-Theorie, die im Beweis zitiert werden.
¯ ρ (0) = {y ∈ Rn , |y| ≤ ρ}, und Sρ der Rand 6.1.2. Lemma. Es sei B dieser abgeschlossenen Kugel. Es sei ¯ 0) → Rn H : [0, 1] × B(ρ, eine stetige Abbildung, so dass H(1, x) = −x f¨ ur alle x und H(t, x) 6= 0 f¨ ur alle x ∈ Sρ und alle t. Definiere ¯ ρ (0) → Rn : x 7→ H(0, x). F :B Dann existiert ε > 0, so dass das Bild von F die Kugel Bε (0) enth¨alt. Beweis. In der Nichtlinearen Analysis (siehe zum Beispiel Berger [4], Chapter 2) definiert man den Abbildungsgrad deg(G, p) ∈ Z f¨ ur stetige Abbildunn ¯ gen G : Bρ (0) → R und p ∈ Bρ (0) mit G(x) 6= p f¨ ur alle x ∈ Sρ . Ist insbesondere G stetig differenzierbar und det G0 (x) 6= 0 f¨ ur alle x ∈ G−1 (p), so ist P deg(G, p) = sign det G0 (x). x∈G−1 (p)
124
CHAPTER 6. STABILISIERUNG NICHTLINEARER SYSTEME
Der Abbildungsgrad ist invariant unter Homotopien H, d.h. stetigen Abbildungen ¯ 0) → Rn H : [0, 1] × B(ρ, mit H(x, t) 6= p; dann gilt also deg(H(0, ·), p) = deg(H(1, ·), p). Auf die obige Homotopie angewendet liefert dies deg(F, 0) = deg(−x, 0) = det diag(−1, ..., −1) = (−1)n . Weil die stetige Funktion F auf Sρ nicht verschwindet, gibt es ε > 0 mit |F (x)| > ε f¨ ur alle x ∈ Sρ , mit anderen Worten also ¯ ε (0) und x ∈ Sρ . F (x) 6= y f¨ ur alle y ∈ B Der Abbildungsgrad h¨angt stetig von p ab ([4], property 2-8) und hat Werte in Z, also deg(F, y) = deg(F, 0) 6= 0. Aber nichtverschwindender Abbildungsgrad impliziert ([4], property 2-15), dass F (x) = y mindestens eine L¨osung besitzt. Beweis von Theorem 6.1.1: Der Einfachheit halber sei x0 = 0. Betrachten wir das erhaltene Feedback-System, so m¨ ussen wir zeigen, dass, falls x˙ = f (x) definiert auf einer Umgebung von 0, asymptotisch stabil ist, das Bild von x 7→ f (x) ¯ ρ (0) mit ρ > 0, so dass f¨ eine Kugel um 0 enth¨alt. Betrachte B ur alle An¯ fangswerte x ∈ Bρ (0) die L¨osung ϕ(t, x) f¨ ur t → ∞ gegen 0 geht. Mit ¯ anderen Worten: Bρ (0) ist enthalten im Attraktionsbereich von 0, A(0) = {x ∈ Rn , ϕ(t, x) → 0 f¨ ur t → ∞}. Wir wenden Lemma 6.1.2 f¨ ur die folgende ¯ ρ (0) und t ∈ [0, 1}, an: B £ f (x) ¤ 1 t ϕ( , x) − x H(t, x) = 1−t t −x
Homotopie, definiert f¨ ur x ∈ f¨ ur t=0 f¨ ur 0 < t < 1 . f¨ ur t=1
6.1. BROCKETTS NOTWENDIGE BEDINGUNG
125
Beachte, dass H(t, x) 6= 0 f¨ ur alle x 6= 0 und alle t, weil nur das Gleichgewicht x = 0 existiert und es keine (nichttrivialen) periodischen L¨ oungen gibt. Lemma 6.1.2 liefert die Behauptung, wenn wir zeigen k¨onnen, dass H stetig ist. F¨ ur alle (t, x) mit t ∈ (0, 1) ist H das Produkt der stetigen Funktion 1t mit H0 (t, x) − x,
t wobei H0 (t, x) := ϕ( 1−t , x). Diese Funktion ist stetig, weil die L¨ osung einer Differentialgleichung stetig von der Zeit und dem Anfangswert abh¨angt. F¨ ur die Stetigkeit von H in jedem (t, x) = (1, x) ist zu zeigen, dass f¨ ur jede Umgebung W von 0 ein δ > 0 und eine Umgebung Vx von x existieren, mit
H0 (s, y) ∈ W , falls y ∈ Vx und s > 1 − δ.
(6.1.1)
Wegen der Stabilit¨at von 0 gibt es eine Umgebung V0 von 0, so dass alle ¯ ρ (0) ⊂ A(0), gibt es Trajektorien, die in V0 starten, in W bleiben. Weil B T > 0 mit ϕ(T, x) ∈ V0 . Wegen stetiger Abh¨angigkeit vom Anfangswert gibt es eine Umgebung Vx von x mit ϕ(T, y) ∈ V0 f¨ ur alle y ∈ Vx. Daher folgt ϕ(t, y) ∈ W f¨ ur alle t ≥ T und y ∈ Vx . 1 . Daher gilt (6.1.1) mit δ = T +1 Es bleibt die Stetigkeit von H in t = 0 zu zeigen, also: F¨ ur jedes x und ε > 0 gibt es eine Umgebung W von x und ein δ > 0, so dass
|H(t, y) − f (x)| < ε f¨ ur y ∈ W und t < δ. F¨ ur alle s und y gilt 1 1 [ϕ(s, y) − y] = s s
Z
s
f(ϕ(τ , y)) dτ
0
und daher 1+s 1 [ϕ(s, y) − y] − f (x) = s s
Z
0
s
[f (ϕ(τ , y)) − x] dτ +
Z
s
f (ϕ(τ , y)) dτ . 0
Weil (τ , y) 7→ f (ϕ(τ , y)) stetig ist, gibt es eine Umgebung von x und δ > 0, so dass |f (ϕ(τ , y)) − f (x)| < ε/2 f¨ ur y ∈ W und τ ≤ δ.
126
CHAPTER 6. STABILISIERUNG NICHTLINEARER SYSTEME
Sei M > 0 mit |f(ϕ(τ , y))| ≤ M f¨ ur y ∈ W und τ < δ. Dann folgt f¨ ur s < δ mit t =
s 1+s
|H(t, y) − f (x)| ¯ ¯ · ¸ ¯ ¯1 t , y) − y − f (x)¯¯ = ¯¯ ϕ( t 1−t ¯ ¯ ¯1 + s ¯ = ¯¯ [ϕ(s, y) − y] − f (x)¯¯ s t < ε/2 + M 1−t falls y ∈ W . W¨ahlt man jetzt δ so klein, dass aus t < δ folgt, dass s = t δ und M 1−t < ε/2, so ist die Stetigkeit bewiesen.
t 1−t