Skript zur Vorlesung Kontrolltheorie Roland Griesse
gehalten im WS 2005/06 an der Johannes Kepler Universit¨at Linz
D...
313 downloads
1008 Views
1MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Skript zur Vorlesung Kontrolltheorie Roland Griesse
gehalten im WS 2005/06 an der Johannes Kepler Universit¨at Linz
Dieses Vorlesungsskript wurde erstellt unter Benutzung fr¨ uherer Vorlesungen und ¨ Ubungen von PD. Dr. Kurt Chudej, Prof. Dr. Helmut Maurer, Prof. Dr. Hans Josef Pesch und Prof. Dr. Fredi Tr¨oltzsch, denen ich herzlich f¨ ur das Zurverf¨ ugungstellen ihrer Unterlagen danke. Stand: 12. April 2006
Inhaltsverzeichnis Kapitel 1. Einf¨ uhrung und Motivation 1. Beispiele optimaler Steuerprozesse 1.1. Zeitoptimale lineare Steuerprozesse 1.2. Nichtlineare optimale Steuerprozesse 2. Mathematische Formulierung optimaler Steuerprozesse 2.1. Dynamik eines Prozesses 2.2. Randbedingungen 2.3. Steuerbereich 2.4. Zielfunktion
5 5 5 8 12 12 12 13 13
Kapitel 2. Lineare Steuerprozesse 3. R¨ uckblick auf lineare Differentialgleichungen 4. Steuerbarkeit bei linearen autonomen Steuerprozessen 5. Zeitoptimale lineare Steuerprozesse
17 17 19 26
Kapitel 3. Nichtlineare Steuerprozesse 6. Das Pontryaginsche Minimumprinzip 6.1. Formulierung des Minimumprinzips ¨ 6.2. Aquivalente Formulierungen von Steuerprozessen 7. Probleme mit linear auftretender Steuerung: Bang-Bang- und singul¨are Steuerungen 8. Probleme mit regul¨arer Hamiltonfunktion und nichtlinear auftretender Steuerung
37 37 37 40
Kapitel 4. Ausblick 9. Numerische L¨osung optimaler Steuerprozesse 9.1. Indirekte Verfahren 9.2. Direkte Verfahren 10. Optimale Steuerung partieller Differentialgleichungen
63 63 63 65 68
Literaturverzeichnis
71
3
43 54
KAPITEL 1
Einfu ¨ hrung und Motivation 1. Beispiele optimaler Steuerprozesse 1.1. Zeitoptimale lineare Steuerprozesse. Beispiel 1.1 (Zeitoptimale Steuerung eines Wagens):
Problemstellung: Der Wagen soll m¨oglichst schnell zum Nullpunkt gesteuert werden und dort stehenbleiben. Es seien x1 (t) : Position des Wagens (Masse = 1) zur Zeit t x2 (t) : Geschwindigkeit des Wagens u(t) : Beschleunigung des Wagens, Steuerfunktion x1 (t) x(t) = : Zustand des Systems. x2 (t) Die Dynamik des Systems ist gegeben durch x˙ 1 (t) = x2 (t) x˙ 2 (t) = u(t) x(0) = x0 ∈ R2 Anfangsbedingung 0 x(T ) = Endbedingung 0 u(t) ∈ [−1, 1]
Steuerbeschr¨ ankung
(1.1)
Problemstellung: Bestimme eine st¨ uckweise stetige Steuerung u : [0, T ] → R so, dass die Endzeit T minimal wird unter Ber¨ ucksichtigung von (1.1). 5
6
¨ 1. EINFUHRUNG UND MOTIVATION
Γ+ und Γ− sind sogenannte Schaltkurven, auf denen die Schaltpunkte liegen. Die optimale Steuerung ist hier vom sogenannten bang-bang-Typ, d.h., u(t) nimmt nur die Randwerte des zul¨assigen Bereichs an, also hier u(t) ∈ {−1, 1}, und u ist i.A. unstetig, vergleiche Abschnitt 5. Wir bemerken noch, dass die Dynamik in vektorieller Schreibweise als 0 1 0 x˙ = x+ u =: Ax + Bu 0 0 1 0 , u(t) ∈ U := [−1, 1] x(0) = x0 , x(T ) = 0
geschrieben werden kann.
Beispiel 1.2 (Zeitoptimale Steuerung einer Laufkatze):
⋄
1. BEISPIELE OPTIMALER STEUERPROZESSE
7
Es gelten folgende Bezeichnungen: s: d: M: m: u(t) : ϕ: g: L:
horizontale Position der Laufkatze horizontale Position der Last die Masse der Laufkatze die Masse der Last die a¨ußere Kraft, Steuerung der Winkel der Last gegen die Vertikale die Erdbeschleunigung die L¨ange des Seiles
Die Bewegungsgleichungen der Laufkatze lauten f¨ ur kleine Winkel ϕ und der neuen ¨ Variable z = s − d, (siehe Ubung) mg u(t) z+ ML M (m + M) g u(t) z¨(t) = − z+ . M L M s¨(t) = −
Problemstellung: Steuere in minimaler Zeit T die Laufkatze aus dem Stillstand an der Position s = 0 in die Endposition s = E mit ϕ(T ) = ϕ(T ˙ ) = 0. Setzt man zur Abk¨ urzung noch α = m/M > 0 und β = g/L > 0, so gelten f¨ ur den Zustand x = (s, s, ˙ z, z) ˙ ⊤ ∈ R4 die linearen Differentialgleichungen x˙ 1 = x2 , x˙ 3 = x4 ,
x˙ 2 = −αβx3 + u/M
x˙ 4 = −(α + 1)βx3 + u/M
Die Dynamik und Randbedingungen also in vektorieller Schreibweise 0 1 0 0 0 −αβ x˙ = 0 0 0 0 0 −(α + 1)β
(1.2)
f¨ ur den Zustand x = (x1 , x2 , x3 , x4 )⊤ lauten 0 0 0 x + 1/M u =: Ax + Bu 0 1 1/M 0
x(0) = (0, 0, 0, 0)⊤,
x(T ) = (E, 0, 0, 0)⊤
F¨ ur die zeitoptimale Steuerung mit u(t) ∈ [−1, 1] und E > 0 findet man die optimale L¨osung 1, 0 ≤ t ≤ t1 −1, t < t ≤ t 1 2 u(t) = 1, t2 < t ≤ t3 −1, t3 < t ≤ T.
¨ 1. EINFUHRUNG UND MOTIVATION
8 t = 1.3344
t = 1.6984
1
1
0
0
−1
−1
−2
−2
−3
−3
−4
−4
−5
−5 0
0.2
0.4
0.6
0.8
1
0
0.2
0.4
Positionen Laufkatze und Last
1
0.5
0
0.5
1
1.5
2
2.5
3
3.5
0
0
0.5
1
1.5
Steuerung
2
2.5
3
3.5
2.5
3
3.5
Steuerung
1
1
0
0
−1
−1 0
0.5
1
1.5
2
2.5
3
3.5
0
0.5
1
1.5
t = 2.6689
2
t = 3.5787
1
1
0
0
−1
−1
−2
−2
−3
−3
−4
−4
−5
−5 0
0.2
0.4
0.6
0.8
1
0
0.2
0.4
Positionen Laufkatze und Last 1
0.5
0.5
0
0.5
1
1.5
0.6
0.8
1
Positionen Laufkatze und Last
1
0
0.8
1
0.5 0
0.6
Positionen Laufkatze und Last
1
2
2.5
3
3.5
0
0
0.5
1
1.5
Steuerung
2
2.5
3
3.5
2.5
3
3.5
Steuerung
1
1
0
0
−1
−1 0
0.5
1
1.5
2
2.5
3
3.5
0
0.5
1
1.5
2
Aus Symmetriegr¨ unden gilt t2 = T /2,
t3 = T − t1 .
Vergleiche auch Abschnitt 5. ⋄ 1.2. Nichtlineare optimale Steuerprozesse. Beispiel 1.3 (Optimales Fischen): Wir betrachten die Population x(t) etwa einer Fischart, die der Differentialgleichung des logistischen Wachstums unterliegt: x , x(0) = x0 . x(t) ˙ = rx 1 − k Dabei bedeuten die Konstanten r : Wachstumsrate k : nat¨ urliches Gleichgewicht der Population. Die L¨osung der Differentialgleichung kann explizit angegeben werden: x(t) =
k 1 − ae−rt
mit a = 1 −
k . x0
1. BEISPIELE OPTIMALER STEUERPROZESSE
Wir beeinflussen die Dynamik durch die Fang-Intensit¨at u(t): x x(t) ˙ = rx 1 − − u(t), t ∈ [0, T ] k x(0) = x0 x(T ) frei u(t) ∈ [0, umax ].
9
(1.3)
Als zu maximierende Funktion definieren wir den Nettogewinn im Zeitraum [0, T ]: F (x, u) =
Z
0
Dabei sind
T
e−δt p − c(x(t)) u(t) dt.
c(x) : die Fangkosten pro Einheit bei einer Population x, z.B. c(x) = c/x p : der erzielte Preis pro Einheit δ : der Diskontfaktor. Problemstellung: Bestimme eine st¨ uckweise stetige Fangrate u : [0, T ] → R, so dass der Gesamtgewinn F (x, u) unter Ber¨ ucksichtigung von (1.3) maximal wird. Idee zur L¨osung: Der Gleichgewichtspunkt xδ sei L¨osung von p − c(xδ ) =
1 [(p − c(xδ ))w(xδ )]′ δ
x . mit w(x) = rx 1 − k
F¨ ur x0 < xδ und hinreichend großes T hat man folgende Struktur der optimalen L¨osung (Beispiel 7.5):
10
¨ 1. EINFUHRUNG UND MOTIVATION
Bemerkung: Die Steuerung u tritt linear in der Dynamik und im Zielfunktional auf; die optimale Steuerung ist unstetig, vergleiche Abschnitt 7. ⋄ ⋄ Beispiel 1.4 (Das Goddard-Problem der H¨ ohenrakete): Es seien h(t) : H¨ohe der Rakete v(t) : Geschwindigkeit der Rakete m(t) : Masse der Rakete u(t) : Schub, Steuerung D(h, v) : Luftwiderstand g(h) : Gravitation c : spezifischer Impuls pro Einheit Treibstoff Die Endzeit T ist fest oder frei. Es gelte D(h, v) = αv 2 exp(−βh) g(h) = g0 r02 /(r02 + h2 ) wobei r0 der Erdradius ist und g0 die Gravitationskonstante auf der Erde. Die Dynamik des Problems ist gegeben durch ˙ h(t) =v 1 (1.4) cu(t) − D(h, v) − g(h) v(t) ˙ = m(t) m(t) ˙ = −u(t)
mit u(t) ∈ [0, umax ]. Die Randbedingungen lauten h(0) = 0 v(0) = 0 m(0) = m0
m(T ) = mT
Der Treibstoffvorrat hat also die Masse m0 − mT .
(1.5)
1. BEISPIELE OPTIMALER STEUERPROZESSE
11
Problemstellung: Gesucht ist ein st¨ uckweise stetiger Schub u : [0, T ] → R, welcher die H¨ohe h(T ) maximiert unter (1.4)–(1.5). Numerische L¨osung:
Die L¨osung ergibt eine ca. 40%-ige Verbesserung gegen¨ uber dem naheliegenden Ansatz ( umax , 0 ≤ t ≤ t1 u(t) = 0, t1 < t ≤ T, wobei sich t1 als der Zeitpunkt mit m(t1 ) = mT bestimmt. (Dieses w¨are die optimale L¨osung ohne Luftwiderstand.) Bemerkung: Die Steuerung u tritt wie in Beispiel 1.3 linear auf; die optimale Steuerung ist unstetig, vergleiche Abschnitt 7. ⋄ ⋄
¨ 1. EINFUHRUNG UND MOTIVATION
12
2. Mathematische Formulierung optimaler Steuerprozesse Im Folgenden bezeichne x(t) ∈ Rn : den Zustandsvektor eines Systems zur Zeit t
u(t) ∈ Rm : den Steuervektor zur Zeit t t0 : die Anfangszeit des Prozesses T : die Endzeit des Prozesses, T > t0 .
Ohne Einschr¨ankung der Allgemeinheit setzen wir stets t0 = 0. Die Endzeit T kann fest oder frei sein. Im letzteren Fall ist die optimale Zeit T Teil der L¨osung. Ein optimaler Steuerprozess ist durch folgende Daten gegeben: (1) (2) (3) (4)
die Dynamik des Prozesses die Randbedingungen f¨ ur den Zustand bei t = t0 und t = T den zul¨assigen Bereich f¨ ur die Steuerung die zu minimierende Zielfunktion.
2.1. Dynamik eines Prozesses. Im Rahmen dieser Vorlesung ist die zugrundeliegende Dynamik der betrachteten optimalen Steuerprozesse stets durch ein System gew¨ohnlicher Differentialgleichungen gegeben: x(t) ˙ = f (t, x(t), u(t)) f¨ ur t ∈ [0, T ].
(2.1)
Die Steuerung u geht also in die rechte Seite des Systems ein. Es sei f : [0, T ] × Rn × Rm → Rn stetig und bzgl. x und u stetig partiell differenzierbar; die partiellen Ableitungen fx (t, x, u) (eine n×n-Matrix) und fu (t, x, u) (eine n×m-Matrix) haben also stetige Eintr¨age. Ein Funktionenpaar (x, u) mit u : [0, T ] → Rm st¨ uckweise stetig,
x : [0, T ] → Rn stetig und st¨ uckweise C 1
heißt L¨ osung der Differentialgleichung (2.1) in [0, T ], wenn x(t) ˙ = f (t, x(t), u(t)) f¨ ur alle Stetigkeitsstellen t ∈ [0, T ] von u gilt. 2.2. Randbedingungen. Es seien M0 , M1 ⊂ Rn abgeschlossene Mengen. Der Anfangszustand x(0) und der Endzustand x(T ) gen¨ uge den Bedingungen x(0) ∈ M0 ,
x(T ) ∈ M1 .
(2.2)
In den Anwendungen sind M0 und M1 meistens durch Gleichungen gegeben: M0 := {x ∈ Rn : ϕ(x) = 0}
M1 := {x ∈ Rn : ψ(x) = 0}. Dabei sind ϕ : Rn → Rs und ψ : Rn → Rr C 1 -Funktionen und 0 ≤ s, r ≤ n. Die Randbedingungen (2.2) lauten dann also ϕ(x(0)) = 0,
ψ(x(T )) = 0.
2. MATHEMATISCHE FORMULIERUNG OPTIMALER STEUERPROZESSE
13
Der Fall s = 0 bzw. r = 0 bedeutet formal, dass keine Bedingungen f¨ ur x(0) bzw. x(T ) gegeben sind, d.h., dass der Anfangs- bzw. Endzustand frei ist. Als weiteren Spezialfall erh¨alt man die Standard-Randbedingungen x(0) = x0 ,
ψ(x(T )) = 0
mit festem x0 ∈ Rn . 2.3. Steuerbereich. Es sei U ⊂ Rm eine nichtleere, konvexe und abgeschlossene Menge. Der Steuervektor u(t) gen¨ uge der Einschr¨ankung u(t) ∈ U
f¨ ur alle t ∈ [0, T ].
(2.3)
Ein Funktionenpaar (x, u) heißt zul¨ assig zur Endzeit T , falls die Differentialgleichung (2.1) und die Randbedingungen (2.2) erf¨ ullt sind sowie u im Steuerbereich liegt, also (2.3) gilt. Insbesondere muss also u st¨ uckweise stetig sein. 2.4. Zielfunktion. Die zu minimierende Zielfunktion ist gegeben durch Z T F (x, u) := g(x(T )) + f0 (t, x(t), u(t)) dt, (2.4) 0
n
wobei g : R → R stetig differenzierbar und f0 : [0, T ] × Rn × Rm → R stetig und bzgl. x und u stetig partiell differenzierbar sei. Man unterscheidet g = 0, g 6= 0, g 6= 0,
f0 = 6 0 : Lagrange-Problem f0 = 0 : Mayer-Problem f0 6= 0 : Bolza-Problem
Die Probleme k¨onnen jeweils ineinander u uhrt werden, siehe Abschnitt 6.2. ¨berf¨ In kompakter Form erhalten wir damit den folgenden optimalen Steuerprozess: Z T Minimiere F (x, u) = g(x(T )) + f0 (t, x(t), u(t)) dt 0
unter x˙ = f (t, x, u) f¨ ur t ∈ [0, T ] x(0) ∈ M0 , u(t) ∈ U
(2.5)
x(T ) ∈ M1
Zur Pr¨azisierung einer optimalen L¨osung (globale Minimalstelle) von (2.5) treffen wir die Fallunterscheidungen: • Feste Endzeit: Ein zul¨assiges Paar (x∗ , u∗ ) zur Endzeit T heißt optimale L¨ osung von (2.5), wenn F (x∗ , u∗ ) ≤ F (x, u) f¨ ur alle Paare (x, u) gilt, die zur Endzeit T zul¨assig sind. • Freie Endzeit: Ein zul¨assiges Paar (x∗ , u∗) zur Endzeit T ∗ heißt optimale L¨ osung von (2.5), wenn F (x∗ , u∗ ) ≤ F (x, u) f¨ ur alle Paare (x, u) gilt, die zu einer beliebigen Endzeit T zul¨assig sind. In diesem Falle ist also T eine zus¨atzliche Optimierungsvariable. Die Funktion x∗ (·) wird als optimale Trajektorie und u∗ (·) als optimale Steuerung bezeichnet.
14
¨ 1. EINFUHRUNG UND MOTIVATION
Ein zeitoptimaler Steuerprozess ist ein optimaler Steuerprozess mit freier Endzeit und Zielfunktional Z T F (x, u) = T = 1 dt, (2.6) 0
d.h., man w¨ahle in (2.5) g = 0 und f0 = 1. Hat die Dynamik (2.1) die spezielle Form
x˙ = A(t)x + B(t)u,
(2.7)
so sprechen wir von einem linearen Steuerprozess. Dabei sind A : [0, ∞) → Rn×n
B : [0, ∞) → Rn×m
stetige matrixwertige Funktionen.
Ein zeitoptimaler linearer Steuerprozess ist also ein Spezialfall von (2.5) in der Form Minimiere die Endzeit T unter x˙ = A(t)x + B(t)u f¨ ur t ∈ [0, T ] x(0) = x0 ,
u(t) ∈ U
x(T ) ∈ M
(2.8)
Solche Prozesse mit konvexem und kompaktem U ⊂ Rm betrachten wir n¨aher in Abschnitt 5. In den Anwendungen ist h¨aufig M = {x1 } mit fest gew¨ahltem x1 ∈ Rn und U ein Quader U = {u = (u1 , . . . , um ) : ai ≤ ui ≤ bi , i = 1, . . . , m}.
Ein Hauptanliegen der Theorie optimaler Steuerprozesse ist die Herleitung notwendiger Optimalit¨atsbedingungen erster Ordnung, das Pontryaginsche Maximumprinzip (oft auch Minimumprinzip) f¨ ur eine optimale L¨osung x∗ (·), u∗ (·) von (2.5). Hierbei spielt der Begriff der erreichbaren Menge bzgl. der Dynamik (2.1) eine zentrale Rolle. F¨ ur festes x0 ∈ Rn heißt K(t; x0 ) := {x1 ∈ Rn : Es existiert ein zul¨assiges Paar (x, u)
zu (2.1), (2.3) mit x(0) = x0 und x(t) = x1 } (2.9)
die Menge der (von x0 aus) erreichbaren Punkte. x0 heißt steuerbar nach x1 in der Zeit t, falls x1 ∈ K(t; x0 ).
2. MATHEMATISCHE FORMULIERUNG OPTIMALER STEUERPROZESSE
15
Die Herleitung des Pontryaginschen Minimumprinzips beruht auf folgender Idee: • zeitoptimaler linearer Steuerprozess (Abschnitt 5): Sei T ∗ optimal. Die erreichbare Menge K(t; x0 ) ist konvex und kompakt, wenn U konvex und kompakt ist, und es gilt x∗ (t) ∈ ∂K(t; x0 ),
Zudem ist T ∗ charakterisiert durch
t ∈ [0, T ∗ ].
T ∗ = min{t ≥ 0 : K(t; x0 ) ∩ M 6= ∅}.
(2.10)
• allgemeiner Steuerprozess (Abschnitt 6): Man approximiert die erreichbare Menge K(T ; x∗ (0)) im Punkte x∗ (T ) durch den sogenannten konvexen Erreichbarkeitskegel und wendet den Trennungssatz f¨ ur konvexe Mengen an. F¨ ur sp¨ater geben wir noch folgenden Satz an: Satz 2.1 (Trennungssatz fu ¨r konvexe Mengen): Es sei K ⊂ Rn eine konvexe Menge und y ∈ ∂K. Dann existiert v ∈ Rn \ {0}, so dass gilt.
v ⊤ (x − y) ≤ 0 f¨ ur alle x ∈ K
⋄
Proof. Anstatt eines Beweises (f¨ ur Hinweise siehe [MS82, S. 150–152]) veranschaulichen wir die Behauptung:
In jedem Fall ist wie behauptet der Winkel zwischen v und dem Verbindungsvektor von y nach x zwischen 90◦ und 180◦ .
KAPITEL 2
Lineare Steuerprozesse 3. Ru ¨ckblick auf lineare Differentialgleichungen Es seien I = [0, T ] ⊂ R ein kompaktes Intervall und A : I → Rn×n c : I → Rn
st¨ uckweise stetige Funktionen. Zu x0 ∈ Rn gibt es genau eine stetige L¨osung x : I → n R der Anfangswertaufgabe (AWA) x˙ = A(t)x + c(t) x(0) = x0 .
(3.1)
Die Ableitung x(t) ˙ existiert an allen Stetigkeitsstellen t ∈ I von A und c. Die Differentialgleichung x˙ = A(t)x (3.2) heißt homogene Differentialgleichung, und x˙ = −A(t)⊤ x
(3.3)
heißt adjungierte Differentialgleichung. Die Menge der L¨osungen der homogenen Differentialgleichung x˙ = A(t)x ist ein n-dimensionaler Vektorraum. F¨ ur je n linear unabh¨angige L¨osungen x1 (t), . . . , xn (t) heißt die regul¨are n × n-Matrix Φ(t) = (x1 (t), . . . , xn (t)) eine Fundamentalmatrix. Diejenige Fundamentalmatrix mit Φ(0) = I (Einheits¨ matrix) ist eindeutig bestimmt und heißt Ubergangsmatrix. Man sieht leicht, dass n ⊤ −1 ⊤ f¨ ur alle v ∈ R die Funktion (v Φ(t) ) eine L¨osung der adjungierten Differential¨ gleichung x˙ = −A(t)⊤ x ist (siehe Ubungsblatt 2). Die L¨osung der AWA (3.1) kann explizit angegeben werden: Z t −1 x(t) = Φ(t) x0 + Φ(s) c(s) ds
(3.4)
0
¨ mit der Ubergangsmatrix Φ(·). Im Falle einer linearen Differentialgleichung mit kon¨ stanten Koeffizienten A(t) ≡ A besitzt die Differentialgleichung x˙ = Ax die Ubergangsmatrix ∞ X 1 k k At Φ(t) = e = A t . (3.5) k! k=0 17
18
2. LINEARE STEUERPROZESSE
Lemma 3.1 (Darstellung von eAt ): Es sei A ∈ Rn×n . Dann existieren C 1 -Funktionen ϕk : R → R, so dass eAt =
n−1 X
ϕk (t)Ak
k=0
gilt.
⋄
Proof. Nach dem Satz von Cayley-Hamilton ergibt A, eingesetzt in ihr eigenes charakteristisches Polynom, die Nullmatrix. Es gibt also Zahlen αl ∈ R, so dass n
A =
n−1 X
αl Al
(3.6)
l=0
gilt. Wir w¨ahlen im Folgenden die Funktionen ϕk so, dass n−1 X
Φ(t) :=
ϕk (t)Ak
(3.7)
k=0
die Matrix-Anfangswertaufgabe
˙ Φ(t) = AΦ(t)
(3.8)
Φ(0) = I
erf¨ ullt, was dann wie gew¨ unscht Φ(t) = eAt ergibt. Zur Konstruktion der ϕk setzen wir ( 1 k=0 ϕk (0) = (3.9) 0 k = 1, . . . , n − 1, so dass Φ(0) = I gilt. Wir setzen nun (3.7) in (3.8) ein: n−1 X
ϕ˙ k (t)Ak = A
k=0
n−1 X
ϕk (t)Ak =
k=0
(3.6)
=
n−1 X
n−1 X
ϕk−1(t)Ak + ϕn−1 (t)An
k=1
k
ϕk−1 (t)A + ϕn−1 (t)
=
αl Al
l=0
k=1
n−1 X
n−1 X
k
Linearkombination der ϕl (t) A =:
k=0
n−1 X n−1 X
βkl ϕl (t)Ak
k=0 l=0
W¨ahlt man nun also die Funktionen ϕk als die (eindeutige) L¨osung der Anfangswertaufgabe ϕ˙ k =
n−1 X
βkl ϕl ,
ϕk (0) wie in (3.9),
l=0
so erf¨ ullt (3.7) wie gew¨ unscht die Anfangswertaufgabe (3.8).
Nun geben wir noch eine Darstellung des Ausdrucks eAt x0 an: Die Eigenwerte von A seien λj mit Vielfachheiten νj , j = 1, . . . , k. Dann gibt es Vektoren von Polynomen pj (t) vom Grade ≤ νj − 1, so dass At
e x0 =
k X j=1
eλj t pj (t).
(3.10)
4. STEUERBARKEIT BEI LINEAREN AUTONOMEN STEUERPROZESSEN
19
4. Steuerbarkeit bei linearen autonomen Steuerprozessen In diesem Abschnitt sei A eine n×n-Matrix und B eine n×m-Matrix. Wir betrachten lineare Steuerprozesse der Form t ∈ [0, T ].
x˙ = Ax + Bu, m
(4.1)
Der Steuerbereich U ⊂ R sei konvex. Die L¨osung von (4.1) mit Anfangsbedingungen x(0) = x0 lautet gem¨aß (3.4)–(3.5) mit c(t) = Bu(t) Z t At x(t) = e x0 + eA(t−s) Bu(s) ds 0
f¨ ur jede st¨ uckweise stetige Steuerung u : [0, T ] → U. Damit ist die durch (2.9) definierte erreichbare Menge gegeben durch Z t At A(t−s) K(t; x0 ) = e x0 + e Bu(s) ds u : [0, T ] → U st¨ uckweise stetig (4.2) 0 At = e x0 + K(t; 0).
Folgerung: x0 ist nach x1 steuerbar in [0, t] genau dann, wenn 0 nach x1 − eAt x0 steuerbar ist in [0, t]. Es gen¨ ugt daher, die erreichbare Menge K(t) := K(t; 0) zu untersuchen. Das System (4.1) mit U = Rm heißt vollst¨ andig steuerbar, wenn f¨ ur alle x0 , x1 ∈ n R ein t1 > 0 existiert, so dass x1 ∈ K(t1 ; x0 ). Wir werden zeigen, dass die vollst¨andige Steuerbarkeit von (4.1) a¨quivalent ist zu K(t) = Rn
f¨ur alle t > 0.
Lemma 4.1: Die Menge K(t) ist konvex. Ist U = Rm , so ist K(t) ein linearer Unterraum von Rn . ⋄ Proof. Es seien x1 , x2 ∈ K(t). Dann existieren Steuerungen ui : [0, T ] → U, i = 1, 2, so dass Z t xi = eA(t−s) Bui (s) ds 0
gilt. Es sei α ∈ [0, 1]. Wegen der Konvexit¨at von U liegt u := αu1 + (1 − α)u2 im Steuerbereich. Außerdem ist u st¨ uckweise stetig. Wegen der Linearit¨at der obigen Gleichung gilt Z t αx1 + (1 − α)x2 = eA(t−s) Bu(s) ds, 0
also ist αx1 + (1 − α)x2 ∈ K(t) und damit K(t) konvex. Die zweite Aussage beweist man analog.
F¨ ur U = Rm kann der erreichbare Teilraum K(t) mit Hilfe der Matrizen A und B bestimmt werden. Definition 4.2: Die n × nm-Matrix
C := (B, AB, A2 B, . . . , An−1 B)
20
2. LINEARE STEUERPROZESSE
heißt Kalmann-Matrix oder Steuerbarkeitsmatrix der Differentialgleichung x˙ = Ax + Bu. ⋄ Satz 4.3: Es sei U = Rm . F¨ ur alle t > 0 gilt K(t) = Bild (C) =
n−1 nX k=0
k
A Bck : ck ∈ R
m
o
. ⋄
Proof. Wir zeigen zun¨achst K(t) ⊂ Bild (C). F¨ ur x ∈ K(t) gilt mit einer geeigneten Steuerung u : [0, t] → Rm nach Lemma 3.1 Z t Z t n−1 X A(t−s) k x= e Bu(s) ds = A B ϕk (t − s)u(s) ds 0 0 k=0 | {z } =:ck
=
n−1 X k=0
Ak Bck ∈ Bild (C).
Wir zeigen nun die Gleichheit der Mengen mit einem Widerspruchsbeweis. Wir nehmen also K(t) $ Bild (C) an. Nach Lemma 4.1 ist K(t) ein linearer Unterraum von Rn . Daher gibt es v ∈ Bild (C), v 6= 0 und v ⊥ K(t). Es ist also Z t ⊤ eA(t−s) Bu(s) ds = 0 v 0
f¨ ur alle Steuerungen u : [0, t] → Rm . Insbesondere f¨ ur die C ∞ -Steuerung u(s) := (v ⊤ eA(t−s) B)⊤ ,
gilt also
Z
s ∈ [0, t]
t
u(s)⊤ u(s) ds = 0.
0
Da u stetig ist, muss u(s) = 0 gelten f¨ ur alle s ∈ [0, t]. Durch Differentiation erhalten wir dk u(t) = (v ⊤ (−1)k Ak B)⊤ = 0, k = 0, . . . , n − 1. dsk Dies zeigt v ⊥ Bild (C). Wegen v ∈ Bild (C) erhalten wir also v = 0, im Widerspruch zur Annahme v 6= 0. Insbesondere erhalten wir also aus Satz 4.3 K(t) = Rn ,
falls Rang (C) = n und U = Rm .
F¨ ur U 6= Rm bleibt eine Abschw¨achung dieses Ergebnisses richtig: Satz 4.4: Es sei U ⊂ Rm konvex und 0 ∈ int U. F¨ ur alle t > 0 sind ¨aquivalent: (i) 0 ∈ int K(t) (ii) Rang C = n.
⋄
4. STEUERBARKEIT BEI LINEAREN AUTONOMEN STEUERPROZESSEN
21
Proof. (i) ⇒ (ii): Wie im Beweis von Satz 4.3 erh¨alt man K(t) ⊂ Bild C. W¨are Rang C < n, so w¨ urde daraus folgen: 0 6∈ int K(t). (ii) ⇒ (i): Wir nehmen das Gegenteil 0 6∈ int K(t) an. Es gilt aber 0 ∈ K(t) (als L¨osung zur Steuerung u = 0), also muss 0 ∈ ∂K(t) liegen. Weiter ist K(t) konvex (wieder Lemma 4.1). Nach dem Trennungssatz f¨ ur konvexe Mengen Satz 2.1 gibt es n also ein v ∈ R \ {0}, so dass v ⊤ x ≤ 0 f¨ ur alle x ∈ K(t)
gilt.
Damit folgt v
⊤
Z
t 0
eA(t−s) Bu(s) ds ≤ 0
(∗)
f¨ ur alle Steuerungen u : [0, T ] → U. F¨ ur α > 0 hinreichend klein ist wegen 0 ∈ int U die Steuerung u(s)⊤ := ±αv ⊤ eA(t−s) B,
ebenfalls in U. Die Ungleichung (∗) liefert dann v ⊤ eA(t−s) B = 0,
s ∈ [0, t]
s ∈ [0, t].
Wie im Beweis von Satz 4.3 impliziert dies v ⊤ C = 0, im Widerspruch zur Voraussetzung Rang C = n. Korollar 4.5: Der Satz 4.4 bleibt g¨ ultig ohne die Annahme der Konvexit¨at von U. Man w¨ahle U1 ⊂ U als eine (konvexe) Kugel um 0 und bezeichne mit K1 (t) die mit Steuerungen aus U1 erreichbare Menge. Beim Beweis von (ii) ⇒ (i) ist dann u ¨berall U durch U1 und K(t) durch K1 (t) zu ersetzen. Man erh¨alt 0 ∈ int K1 (t) ⊂ int K(t). Der Schluss ¨ (i) ⇒ (ii) bleibt ohne Anderungen richtig. ⋄
Beispiel 4.6:
(a) vergleiche Beispiel 1.1 (Raketenwagen): 0 1 0 x˙ = Ax + Bu, A = , B= 0 0 1 0 1 C = (B, AB) = besitzt Rang 2. 1 0
22
2. LINEARE STEUERPROZESSE
Im Falle (i) U = R erhalten wir K(t) = R2 f¨ ur alle t > 0 (Satz 4.3) (ii) U = [−1, 1] erhalten wir 0 ∈ int K(t) f¨ ur alle t > 0 (Satz 4.4). (b) Differentialgleichung n-ter Ordnung y (n) + an−1 y (n−1) + · · · + a0 y = u(t) ist a¨quivalent dem System erster Ordnung x˙ = Ax + Bu mit y y˙ x= ... ,
y (n−1)
A=
0
1 .. .
−a0 −a1
··· 0 .. .. . . , 0 1 · · · −an−1
0 ... B= 0 . 1
¨ Man kann zeigen (Ubung): Rang C = Rang (B, AB, . . . , An−1 B) = n. Dan mit gilt K(t) = R f¨ ur alle t > 0 im Falle U = R. Spezialfall: Der ged¨ampfte harmonische Oszillator y¨ + 2by˙ + k 2 y = u(t) mit b ≥ 0 l¨asst sich durch Aufbringen einer geeigneten Kraft u(t) zu jedem Zeitpunkt t > 0 in jede gew¨ unschte Konfiguration Ort/Geschwindigkeit bringen. (c) vergleiche Beispiel 1.2 (Laufkatze):
x˙ = Ax + Bu,
0 0 A= 0 0
1 0 0 −αβ 0 0 0 −(α + 1)β
0 0 , 1 0
0 1/M B= 0 1/M
¨ Man kann zeigen (Ubung): Rang C = Rang (B, AB, A2 B, A3 B) = 4. Damit gilt also wieder: (i) K(t) = R4 f¨ ur alle t > 0 im Falle U = R (ii) 0 ∈ int K(t) f¨ ur alle t > 0 im Falle U = [−1, 1]. ⋄ Neben der (von x0 = 0 aus) erreichbaren Menge K(t) betrachten wir nun die nullsteuerbare Menge (bez¨ uglich der Dynamik x˙ = Ax + Bu) N(t) := {x1 ∈ Rn : x1 ist in [0, t] nach 0 steuerbar}.
4. STEUERBARKEIT BEI LINEAREN AUTONOMEN STEUERPROZESSEN
23
Der Zusammenhang zwischen N(t) und K(t) wird hergestellt u ¨ber die Differentialgleichung x˙ = −Ax − Bu. (4.3) Es sei K− (t) := {x1 ∈ Rn : 0 ist nach x1 steuerbar bzgl. der Dynamik (4.3)}
die erreichbare Menge bez¨ uglich (4.3). Ist x1 ∈ K− (t) mit zugeh¨origer Steuerung u e : [0, t] → U und Trajektorie x e, so setzen wir x(s) := x e(t − s),
u(s) := u e(t − s),
s ∈ [0, t].
Dann gen¨ ugt (x, u) der Differentialgleichung x˙ = Ax + Bu, und es gilt x(0) = x e(t) = x1 ,
x(t) = x e(0) = 0,
d.h., es gilt x1 ∈ N(t). Dies zeigt die Beziehung
N(t) = K− (t).
Die Kalmann-Matrix bzgl. (4.3) ist nach Definition 4.2 C− := (−B, AB, . . . , (−1)n An−1 B). Offensichtlich gilt Bild C = Bild C− . Daher erhalten wir mit Satz 4.3: N(t) = K− (t) = K(t) im Falle U = Rm .
(4.4)
Bemerkung 4.7 (Zur Bedeutung von 0 ∈ int K(t)): Es sei 0 ∈ int U und Rang C = n. Nach Satz 4.4 liegt 0 ∈ int K(t), d.h., zu jedem Zeitpunkt t > 0 ist eine ganze Umgebung von 0 erreichbar. Nach Satz 4.4, angewendet auf die Dynamik (4.3), liegt aber auch 0 ∈ int K− (t) f¨ ur alle t > 0, d.h., 0 ∈ int N(t). Das bedeutet, dass man von Anfangswerten nahe 0 (etwa bei kleinen St¨orungen) stets zur¨ uck zur 0 steuern kann. ⋄ F¨ ur U 6= Rm untersuchen wir nun die Mengen [ [ K := K(t) und N := N(t). t>0
t>0
Satz 4.8: Es sei U ⊂ Rm kompakt, und es gelte 0 ∈ int U. Dann ist N = Rn [bzw. K = Rn ] ¨aquivalent zu
24
2. LINEARE STEUERPROZESSE
(a) Rang C = n (b) f¨ ur alle Eigenwerte λj von A gilt: Re λj ≤ 0 [bzw. Re λj ≥ 0].
⋄
Proof. Wir beweisen nur das folgende Teilresultat: Falls Rang C = n gilt und alle Eigenwerte λj von A die Bedingung Re λj < 0 erf¨ ullen, so ist N = Rn : Wir wenden Korollar 4.5 an auf die Dynamik (4.3) unter Beachtung von Rang C = Rang C− = n und erhalten 0 ∈ int K− (t∗ ) = int N(t∗ ) f¨ ur ein beliebiges t∗ > 0. Also enth¨alt N eine Umgebung V von 0, von der aus wir in der Zeit t∗ die 0 erreichen.
Sei nun x0 ∈ Rn beliebig. Mit Steuerung u ≡ 0 gilt nach (3.10) x(t) = eAt x0 =
k X
eλj t pj (t),
j=1
was wegen Re λj < 0 gegen 0 konvergiert. Somit liegt x(t1 ) ∈ V f¨ ur gen¨ ugend großes t1 und ist von dort aus in der zus¨atzlichen Zeit t∗ nach 0 steuerbar. Beispiel 4.9: (a) vergleiche Beispiel 1.1 (Raketenwagen): 0 1 0 A= , B= 0 0 1 Es ist Rang C = 2 und det (A − λI) = λ2 , also λ1 = λ2 = 0. Nach Satz 4.8 gilt also mit U = [−1, 1] (oder anderem kompaktem U mit 0 ∈ int U): N = K = R2 . Jede gew¨ unschte Konfiguration Ort/Geschwindigkeit kann also ab einem gewissen Zeitpunkt vom Stillstand im Koordinatenursprung aus angesteuert werden. Ebenso kann von jeder Anfangskonfiguration aus der Stillstand im Koordinatenursprung ab einem gewissen Zeitpunkt erreicht werden. (b) vergleiche Beispiel 4.6 (harmonischer Oszillator): y¨ + 2by˙ + k 2 y = u(t) mit Steuerbereich U = [−c, c], c > 0. Es ist 0 1 0 0 1 A= , B= , C= . −k 2 −2b 1 1 −2b
4. STEUERBARKEIT BEI LINEAREN AUTONOMEN STEUERPROZESSEN
25
Es ist also Rang C = 2, und A hat die Eigenwerte √ λ1,2 = −b ± b2 − k 2 ,
also gilt Re λj ≤ 0, da die D¨ampfung b ≥ 0 ist. Wir haben also nach Satz 4.8 N = R2 und im Falle ohne D¨ampfung (b = 0) auch K = R2 . (c) vergleiche Beispiel 0 0 A= 0 0
1.2 (Laufkatze): 1 0 0 −αβ 0 0 0 −(α + 1)β
0 0 , 1 0
0 1/M B= 0 1/M
2 2 Es ist Rang C = 4 und det (A − λI) p = (λ + (α + 1)β)λ . Also hat A die Eigenwerte λ1,2 = 0 und λ3,4 = ±i (α + 1)β, so dass Re λj = 0 gilt. Nach Satz 4.8 gilt also N = K = R4 etwa f¨ ur den Steuerbereich U = [−1, 1].
⋄
26
2. LINEARE STEUERPROZESSE
5. Zeitoptimale lineare Steuerprozesse Literatur: [MS82, Ch. III]. In diesem Abschnitt betrachten wir den zeitoptimalen Steuerprozess (2.8): Minimiere die Endzeit T unter x˙ = A(t)x + B(t)u f¨ ur t ∈ [0, T ] x(0) = x0 ,
u(t) ∈ U
x(T ) ∈ M
(5.1)
Hierbei seien A : [0, ∞) → Rn×n und B : [0, ∞) → Rn×m stetig, M ⊂ Rn eine abgeschlossene Menge. U ⊂ Rm sei ein kompaktes, konvexes Polyeder, also durch n lineare Ungleichungen a⊤ i x ≤ bi mit ai ∈ R und bi ∈ R gegeben. ¨ Es sei Φ(t) die Ubergangsmatrix der homogenen Differentialgleichung x˙ = A(t)x, also die Fundamentalmatrix mit Φ(0) = I. Die von x0 aus erreichbare Menge K(t; x0 ) (siehe (2.9)) ist wegen (3.4) gegeben durch Z t n o −1 K(t; x0 ) = Φ(t) x0 + Φ(s) B(s)u(s) ds u : [0, t] → U st¨ uckweise stetig . 0
(5.2)
Im Folgenden setzen wir die Existenz einer optimalen L¨osung T ∗ , (x∗ , u∗ ) von (5.1) voraus. (Existenzaussagen in [MS82, S. 60f.].) Zur Charakterisierung von T ∗ zeigt man: (1) K(t; x0 ) ist konvex und kompakt und stetig bzgl. t in der Hausdorff-Metrik (Satz 5.1) (2) T ∗ = min{t ≥ 0 : K(t; x0 ) ∩ M 6= ∅} (offensichtlich) (3) x∗ (T ∗ ) ∈ ∂K(T ∗ ; x0 ) (Satz 5.3). Definition (Hausdorff-Metrik, Abstand zweier Mengen): Es sei Π = {P ⊂ Rn : P abgeschlossen} d(x, P ) = inf{kx − yk2 : y ∈ P } n
V (P, ε) = {x ∈ R : d(x, P ) < ε}
die Menge der abg. Teilmengen von P , der Abstand von x zur Menge P , die ε-Umgebung von P , ε > 0.
Der Hausdorff-Abstand zweier Mengen P, Q ∈ Π ist definiert durch D(P, Q) = inf{ε > 0 : P ⊂ V (Q, ε) und Q ⊂ V (P, ε)}.
D(·, ·) ist eine Metrik auf Π, die den Wert ∞ annehmen kann. F¨ ur kompakte Mengen ist D(·, ·) jedoch stets endlich, siehe [MS82, S. 153]. ⋄ Satz 5.1: (i) K(t; x0 ) ist konvex und kompakt f¨ ur alle t > 0 (ii) K(· ; x0 ) ist stetig auf [0, ∞) bzgl. der Hausdorff-Metrik.
⋄
Proof. (i): Konvexit¨at von K(t; x0 ) wurde in Lemma 4.1 gezeigt. Die Kompaktheit wird in [MS82, S. 51] bewiesen. Idee: Die Menge der zul¨assigen Kontrollen ist eine schwach kompakte Teilmenge von L2 (0, t)m , und die Abbildung u 7→ x(t) bildet schwach kompakte Mengen auf kompakte Mengen in Rn ab.
5. ZEITOPTIMALE LINEARE STEUERPROZESSE
27
(ii): ε–δ-Beweis unter Verwendung der Kompaktheit von U und der Stetigkeit des Integrals in (5.2) bzgl. t, siehe [MS82, S. 60]. Lemma 5.2: Sei t0 > 0 und x ∈ int K(t0 ; x0 ). Dann gibt es eine Umgebung V von x und δ > 0 mit V ⊂ int K(t; x0 ) f¨ ur alle t > 0 mit |t − t0 | < δ. ⋄ Proof. Wegen x ∈ int K(t0 ; x0 ) enth¨alt K(t0 ; x0 ) ein nichtentartetes Simplex S(t0 ) := konvexe H¨ ulle von {x1 (t0 ), . . . , xn+1 (t0 )}
mit Zentrum x ∈ int S(t0 ) 6= ∅. Dabei sind x1 (·), . . . , xn+1 (·) die Trajektorien geeigneter Steuerungen aus U.
Hinweis: K(t0 ) und K(t) im Bild sollten K(t0 ; x0 ) und K(t; x0 ) sein. Es sei nun V das offene Simplex mit Zentrum x und halber Seitenl¨ange von S(t0 ). Dann ist f¨ ur alle t > 0 mit |t − t0 | < δ mit hinreichend kleinem δ > 0 das Simplex V auch noch im Simplex S(t) := konvexe H¨ ulle von {x1 (t), . . . , xn+1 (t)}
enthalten. Mit der Konvexit¨at von K(t; x0 ) ergibt sich dann V ⊂ S(t) ⊂ K(t; x0 )
f¨ ur |t − t0 | < δ. Da V offen war, gilt V ⊂ int K(t; x0 ).
28
2. LINEARE STEUERPROZESSE
Satz 5.3 (Geometrische Form des Minimumprinzips): Es sei T ∗ und (x∗ , u∗ ) : [0, T ∗ ] → Rn × U eine optimale L¨osung von (5.1). Dann gilt: x∗ (t) ∈ ∂K(t; x0 ) f¨ ur alle t ∈ [0, T ∗ ]. ⋄ Proof. (i): Wir zeigen zun¨achst x∗ (T ∗ ) ∈ ∂K(T ∗ ; x0 ): W¨are x∗ (T ∗ ) ∈ int K(T ∗ ; x0 ), so g¨abe es nach Lemma 5.2 eine Umgebung V von x∗ (T ∗ ) und ein δ > 0, so dass x∗ (T ∗ ) ∈ int K(t; x0 ) f¨ ur alle |t − T ∗ | < δ
⇒ x∗ (T ∗ ) ∈ M ∩ K(t; x0 ) 6= ∅ f¨ ur alle |t − T ∗ | < δ. Dies ist im Widerspruch zu T ∗ = min{t ≥ 0 : K(t; x0 ) ∩ M 6= ∅}. (ii): Wir zeigen nun x∗ (t) ∈ ∂K(t; x0 ) f¨ ur alle t ∈ (0, T ∗). Damit ist alles gezeigt, denn der Fall t = 0 ist wegen K(0; x0 ) = {x0 } trivial. Wir nehmen wieder das ur ein s ∈ (0, T ∗). Dann gibt es eine Umgebung Gegenteil an: x∗ (s) ∈ int K(s; x0 ) f¨ V von x∗ (s) mit V ⊂ K(s; x0 ). Wir bezeichnen im Folgenden mit x(t; s, a) die L¨osung der Anfangswertaufgabe x˙ = A(t)x + B(t)u∗ (t) x(s) = a ∈ V. Aus der Theorie gew¨ohnlicher Differentialgleichungen (stetige Abh¨angigkeit von den Anfangswerten) folgt, dass die Abbildung F : a 7→ x(T ∗ ; s, a) bei festem T ∗ und s ein Hom¨oomorphismus ist, d.h., F : V → F (V ) ist bijektiv und F und F −1 sind stetig, vergleiche [KK74, Kap. III].
Also ist F (V ) ⊂ K(T ∗ ; x0 ) eine offene Menge und damit x∗ (T ∗ ) ∈ int K(T ∗ ; x0 ). Dies ist im Widerspruch zu x∗ (T ∗ ) ∈ ∂K(T ∗ ; x0 ), was bei (i) gezeigt wurde.
Die geometrische Form des Minimumprinzips kann nun mit dem Trennungssatz f¨ ur konvexe Mengen in eine analytische Form u ¨ bersetzt werden.
5. ZEITOPTIMALE LINEARE STEUERPROZESSE
29
Wegen der Beziehungen K(T ∗ ; x0 ) konvex und x∗ (T ∗ ) ∈ ∂K(T ∗ ; x0 )
gibt es nach Trennungssatz 2.1 eine St¨ utzhyperebene an die Menge K(T ∗ ; x0 ) im Punkt x∗ (T ∗ ), d.h., es gibt einen Vektor λ ∈ Rn \ {0}, so dass λ⊤ (x∗ (T ∗ ) − x) ≤ 0 f¨ ur alle x ∈ K(T ∗ ; x0 )
(5.3)
∗
gilt (Achtung: λ zeigt jetzt in die Menge K(T ; x0 ) hinein!). Alle Punkte x ∈ K(T ∗ ; x0 ) sind von x0 aus mit einer st¨ uckweise stetigen Steuerung u : [0, T ∗] → U erreichbar, sie haben also nach (5.2) die Darstellung Z T∗ −1 ∗ Φ(s) B(s)u(s) ds . x = Φ(T ) x0 + 0
Die Ungleichung (5.3) besagt dann gerade Z T∗ Z ⊤ ∗ −1 ∗ λ Φ(T ) Φ(s) B(s) u (s) ds ≤ 0
T∗
λ⊤ Φ(T ∗ ) Φ(s)−1 B(s) u(s) ds
(5.4)
0
f¨ ur alle st¨ uckweise stetigen Steuerungen u : [0, T ∗] → U. Wir definieren nun die adjungierte Variable λ(t)⊤ := λ⊤ Φ(T ∗ ) Φ(t)−1 ∈ Rn ,
t ∈ [0, T ∗ ].
(5.5)
¨ Dann ist λ(·) eine C 1 -Funktion und gen¨ ugt nach Abschnitt 3 bzw. Ubung 2, Aufgabe 5 der adjungierten Differentialgleichung ˙ λ(t) = −A(t)⊤ λ(t) (5.6) λ(T ∗ ) = λ Man beachte, dass wegen λ 6= 0 auch λ(t) 6= 0,
f¨ ur alle t ∈ [0, T ∗ ]
gilt. Die Beziehung (5.4) geht damit u ¨ber in Z T∗ Z ⊤ ∗ λ(s) B(s) u (s) ds ≤ 0
T∗
λ(s)⊤ B(s) u(s) ds
(5.7)
0
Es sei nun t ∈ (0, T ∗ ) ein Stetigkeitspunkt von u∗ (·). F¨ ur ε > 0 hinreichend klein und u ∈ U setzen wir die spezielle Steuerung ( u, s ∈ [t − ε, t] uε (s) := ∗ u (s), sonst
30
2. LINEARE STEUERPROZESSE
in (5.7) ein und erhalten: Z
t
t−ε
Daraus folgt
1 0 ≤ lim εց0 ε
Z
λ(s)⊤ B(s)(u − u∗ (s)) ds ≥ 0.
t
t−ε
λ(s)⊤ B(s)(u − u∗ (s)) ds = λ(t)⊤ B(t)(u − u∗ (t)).
Diese Beziehung l¨asst sich sogar f¨ ur alle t ∈ [0, T ∗ ] zeigen, wenn man f¨ ur u∗ (t) rechtsund linksseitige Werte einsetzt. Damit haben wir das folgende Minimumprinzip gezeigt: λ(t)⊤ B(t) u∗(t) = min λ(t)⊤ B(t) u f¨ ur alle t ∈ [0, T ∗ ].
(5.8)
u∈U
Ferner kann man die beiden folgenden geometrisch plausiblen Aussagen zeigen: (a) λ(T ∗ )⊤ x˙ ∗ (T ∗ ) ≤ 0,
d.h., der Winkel zwischen λ(T ∗ ) = λ und x(T ˙ ∗ ) liegt zwischen 90◦ und 180◦ . Anschaulich: K(t; x0 ) expandiert in t = T ∗ (b) λ(t)⊤ x∗ (t) ≤ λ(t)⊤ x f¨ ur alle t ∈ [0, T ∗ ] und alle x ∈ K(t; x0 ),
d.h., λ(t) ist innere Normale an K(t; x0 ) im Punkt x∗ (t) ∈ ∂K(t; x0 ). Die vorigen Ergebnissen k¨onnen nun mit Hilfe der Hamiltonfunktion umformuliert werden: H(t, x, λ, u) := λ0 + λ⊤ (A(t)x + B(t)u) (5.9) mit λ0 := −λ(T ∗ )⊤ x˙ ∗ (T ∗ ) ≥ 0 nach (a). Satz 5.4 (Analytische Form des Minimumprinzips): Es sei T ∗ und (x∗ , u∗ ) : [0, T ∗] → Rn × U eine optimale L¨osung von (5.1). Dann existieren λ0 ≥ 0 und eine C 1 -Funktion λ : [0, T ∗ ] → Rn mit λ(t) 6= 0, so dass f¨ ur alle t ∈ [0, T ∗] gilt: (i) (ii) (iii) (iv)
˙ ⊤ = −Hx (t, x∗ (t), λ(t), u∗ (t)) = −λ(t)⊤ A(t), λ(t) H(t, x∗ (t), λ(t), u∗(t)) = minu∈U H(t, x∗ (t), λ(t), u), H(T ∗ , x∗ (T ∗ ), λ(T ∗), u∗ (T ∗ )) = 0 H(x∗ (t), λ(t), u∗(t)) ≡ 0 in [0, T ∗ ] f¨ ur einen autonomen Prozess1 x˙ = Ax + Bu ⋄
Proof. Die Aussagen (i)–(iii) folgen direkt aus der Definition der Hamiltonfunktion (5.9). Die Aussage (iv) wird in [LM67, S. 131] bewiesen. ¨ Falls λ0 > 0 gilt, so kann man stets λ0 = 1 w¨ahlen: Beim Ubergang von λ zu λ/λ0 bleiben die Aussagen des vorgigen Satzes unver¨andert. Die Hamiltonfunktion ist dann H(t, x, λ, u) = 1 + λ⊤ (A(t)x + B(t)u). 1In
diesem Fall k¨ onnen wir das erste Argument der Hamiltonfunktion weglassen.
(5.10)
5. ZEITOPTIMALE LINEARE STEUERPROZESSE
31
Wir betrachten ab jetzt den w¨ urfelf¨ormigen Steuerbereich U = Uc = {u ∈ Rm : |ui| ≤ 1, i = 1, . . . , m} und definieren f¨ ur α ∈ R
α 0.
Die Minimum-Bedingung (5.8) lautet mit B(t) = (b1 (t), . . . , bm (t)): m X
λ(t)⊤ bi (t) u∗i (t) = min u∈Uc
i=1
also
u∗i (t) = −sgn (λ(t)⊤ bi (t)),
m X
λ(t)⊤ bi (t) ui ,
i=1
t ∈ [0, T ∗ ], i = 1, . . . , m.
(5.11)
Die Funktionen σi (t) = λ(t)⊤ bi (t),
i = 1, . . . , m
(5.12)
heißen Schaltfunktionen. Die Nullstellen von σi (·) heißen Schaltpunkte von u∗i (·). Definition 5.5: (i) Eine Steuerung u : [0, T ] → Uc heißt bang-bang, falls |ui (t)| = 1 f¨ ur alle t ∈ [0, T ] und alle i = 1, . . . , m gilt. (ii) Das System x˙ = A(t)x+B(t)u heißt normal, wenn f¨ ur alle v ∈ Rn \{0} und ⊤ −1 alle i = 1, . . . , m die Funktion v Φ(t) bi (t) auf keinem Intervall I ⊂ [0, ∞) verschwindet. ⋄ F¨ ur ein normales System ist die optimale Steuerung u∗ (·) bang-bang, denn nach (5.5) und (5.11) gilt: u∗i (t) = −sgn (λ⊤ Φ(T ∗ ) Φ(t)−1 bi (t)),
t ∈ [0, T ∗ ], i = 1, . . . , m.
Satz 5.6: Ein autonomes System x˙ = Ax + Bu,
B = (b1 , . . . , bm )
ist genau dann normal, wenn Rang (bi , Abi , . . . , An−1 bi ) = n f¨ ur alle i = 1, . . . , m gilt.
⋄
Proof. durch analoge Techniken wie beim Beweis der Steuerbarkeitsaussagen in den S¨atzen 4.3 und 4.4. Bemerkung: F¨ ur m = 1, also B = (b1 ), ist die Normalit¨at ¨aquivalent zur vollst¨andigen Steuerbarkeit, vergleiche Definition 4.2. ⋄
32
2. LINEARE STEUERPROZESSE
Beispiel 5.7 (Raketenwagen): vergleiche Beispiel 1.1 und Beispiel 4.6: x˙ 1 (t) = x2 (t), x˙ 2 (t) = u(t),
x(0) = x0 ∈ R2 0 x(T ) = , u(t) ∈ [−1, 1] 0
Das System ist normal, da es nach Beispiel 4.6 vollst¨andig steuerbar ist. Die Hamiltonfunktion ist H(x, λ, u) = 1 + λ1 x2 + λ2 u. Die adjungierten Differentialgleichungen λ˙ 1 = −Hx1 (x∗ , λ, u∗) = 0 λ˙ 2 = −Hx2 (x∗ , λ, u∗) = −λ1 haben die L¨osung λ1 (t) = −c,
λ2 (t) = ct + d
mit Konstanten c, d ∈ R. Die Schaltfunktion σ(t) = λ2 (t) = ct + d hat also h¨ochstens eine Nullstelle. Daher ist die optimale Steuerung u∗ (·) bang-bang in [0, T ] und hat h¨ochstens einen Schaltpunkt. Nach (5.11) gilt u∗ (t) = −sgn σ(t) = −sgn λ2 (t). Vollst¨andige L¨osung des Problems: Die optimale Trajektorie muss den Endpunkt x(T ) = (0, 0)⊤ mit der Steuerung u(t) = 1 oder u(t) = −1 erreichen. • u(t) = 1: Also x˙ 1 = x2 , x˙ 2 = 1 und x(T ) = (0, 0)⊤ liefert: x2 (t) ≤ 0 und also x1 = x22 /2. Wir setzen
dx1 dx2
= x2 ,
1 Γ+ := {(x1 , x2 ) ∈ R2 : x1 = x22 und x2 ≤ 0}. 2 • u(t) = −1: Also x˙ 1 = x2 , x˙ 2 = −1 und x(T ) = (0, 0)⊤ liefert: x2 (t) ≥ 0 und also x1 = −x22 /2. Wir setzen
dx1 dx2
= −x2 ,
1 Γ− := {(x1 , x2 ) ∈ R2 : x1 = − x22 und x2 ≥ 0}. 2 Alle Schaltpunkte liegen auf der Schaltkurve S = Γ− ∪ Γ+ . Wir erhalten die Synthese-Steuerung (Feedback-Steuerung): ( −1, falls (x1 , x2 ) oberhalb S oder auf Γ− , u(x1 , x2 ) = 1, falls (x1 , x2 ) unterhalb S oder auf Γ+ .
5. ZEITOPTIMALE LINEARE STEUERPROZESSE
33
Die optimale Steuerung kann also zu jedem Zeitpunkt direkt aus der Kenntnis des Zustandes bestimmt werden: u(t) = u(x1 (t), x2 (t)). Mit der Struktur der optimalen Steuerung kann man auch den Schaltpunkt t1 und die Endzeit explizit bestimmen: p 2 (i) x0 oberhalb von S: t1 = x20 + xp 10 + x20 /2 und T = 2t1 − x20 (ii) x0 unterhalb von S: t1 = −x20 + −x10 + x220 /2 und T = 2t1 + x20
Mit Hilfe der Transversalit¨atsbedingung (Satz 5.4 (iii)) kann die adjungierte Variable bestimmt werden: H(x(T ), λ(T ), u(T )) = 1 + λ1 (T ) x2 (T ) + λ2 (T ) u(T ) !
= 1 + λ2 (T ) u(T ) = 0 liefert zusammen mit λ2 (t) = ct + d etwa f¨ ur x0 oberhalb von S, also u(T ) = 1: λ2 (t1 ) = ct1 + d = 0 λ2 (T ) = cT + d = −1
mit L¨osung c = −1/(T − t1 ) und d = t1 /(T − t1 ).
Beispiel 5.8 (Unged¨ ampfter harmonischer Oszillator): vergleiche Beispiel 4.6:
Problemstellung: Minimiere die Endzeit T unter x˙ 1 = x2 , x˙ 2 = −x1 + u(t) f¨ ur t ∈ [0, T ] 0 x(0) = x0 , x(T ) = 0 u(t) ∈ [−1, 1].
⋄
34
2. LINEARE STEUERPROZESSE
Das System ist normal, also ist jede optimale Steuerung bang-bang. Die Hamiltonfunktion lautet H(x, λ, u) = 1 + λ1 x2 + λ2 (−x1 + u). Die adjungierten Differentialgleichungen λ˙ 1 = −Hx (x∗ , λ, u∗) = λ2 1
haben die L¨osung
λ˙ 2 = −Hx2 (x∗ , λ, u∗) = −λ1
λ1 (t) = −R cos(t + C),
λ2 (t) = R sin(t + C),
Die Schaltfunktion und die optimale Steuerung sind
R 6= 0.
σ(t) = λ2 (t) = R sin(t + C) u∗ (t) = −sgn σ(t).
Die Schaltpunkte haben daher den Abstand π voneinander. Die optimale Trajektorie x∗ (·) setzt sich st¨ uckweise zusammen aus: • u(t) = 1: Die L¨osungen x(·) von x˙ 1 = x2 und x˙ 2 = −x1 + 1 sind Kreise um (1, 0), denn x1 (t) = r sin(t + a) + 1 x2 (t) = r cos(t + a) erf¨ ullen (x1 − 1)2 + x22 = const. • u(t) = −1: Die L¨osungen x(·) von x˙ 1 = x2 und x˙ 2 = −x1 − 1 sind Kreise um (−1, 0), denn x1 (t) = r sin(t + a) − 1
x2 (t) = r cos(t + a) erf¨ ullen (x1 + 1)2 + x22 = const.
Vollst¨andige L¨osung des Problems (vergleiche vorheriges Beispiel): • u(t) = 1: Γ+ := {(x1 , x2 ) ∈ R2 : (x1 − 1)2 + x22 = 1 und x2 ≤ 0}. • u(t) = −1: Γ− := {(x1 , x2 ) ∈ R2 : (x1 + 1)2 + x22 = 1 und x2 ≥ 0}. Die Schaltpunkte liegen im Abstand π auf der Schaltkurve [ [ S= Translation von Γ− ∪ Translation von Γ+ .
Wir erhalten die Synthese-Steuerung (Feedback-Steuerung): ( −1, falls (x1 , x2 ) oberhalb S oder auf Γ− , u(x1 , x2 ) = 1, falls (x1 , x2 ) unterhalb S oder auf Γ+ .
5. ZEITOPTIMALE LINEARE STEUERPROZESSE
35
Die Berechnung der Konstanten R und C in den adjungierten Variablen erfolgt u ¨ber die Transversalit¨atsbedingung H(x(T ), λ(T ), u(T )) = 1 + λ1 (T ) x2 (T ) + λ2 (T )(−x1 (T ) + u(T )) = 1 + λ2 (T ) u(T ) !
= 1 + R sin(T + C) u(T ) = 0 und die Schaltbedingung !
σ(t1 ) = λ2 (t1 ) = R sin(t1 + C) = 0. Beispiel: x0 = (3, 1)⊤ . Die in der obigen Abbildung gezeigte Vorgehensweise ergibt die optimale Steuerung −1, 0 ≤ t ≤ t1 u(t) = 1, t1 < t ≤ t1 + π −1, t + π < t ≤ t + 3π/2 1 1 mit den folgenden Werten in den Schaltpunkten: x1 (t1 ) = 3, x2 (t1 ) = −1,
x1 (t1 + π) = −1 x2 (t1 + π) = 1.
Im Intervall [0, t1 ] gilt die Darstellung x1 (t) = r sin(t + a) − 1
x2 (t) = r cos(t + a).
36
2. LINEARE STEUERPROZESSE
Die Konstanten r und a erh¨alt man aus x1 (0) = r sin a − 1 = 3
x2 (0) = r cos a = 1 √ zu r = 17 = 4.123 und a = arcsin(4/ 17) = 1.326. Aus x1 (0) = x1 (t1 ) = 3 folgt wie in der Skizze gezeigt π 3 t1 = 2 − a = π − 2a = 0.490, T = t1 + π = 5.202. 2 2 Mit C = −t1 und u(T ) = −1 erhalten wir schließlich R aus R sin(T + C) = 1: 1 R= = 12.172. sin(T − t1 ) ⋄ √
KAPITEL 3
Nichtlineare Steuerprozesse 6. Das Pontryaginsche Minimumprinzip 6.1. Formulierung des Minimumprinzips. Ausgangspunkt in diesem Abschnitt ist der optimale Steuerprozess (2.5) mit den Standard-Randbedingungen, siehe Abschnitt 2.2: Z T Minimiere F (x, u) = g(x(T )) + f0 (t, x(t), u(t)) dt 0
unter x˙ = f (t, x, u) f¨ ur t ∈ [0, T ] x(0) = x0 ,
(6.1)
ψ(x(T )) = 0
u(t) ∈ U Dabei ist ψ : Rn → Rr eine C 1 -Funktionen und 0 ≤ r ≤ n. Die Endzeit T ist fest oder frei. Dem Problem (6.1) wird die Hamiltonfunktion H(t, x, λ, u) := λ0 f0 (t, x, u) + λ⊤ f (t, x, u)
(6.2)
mit λ0 ∈ R und λ ∈ Rn zugeordnet. Dies erweitert die fr¨ uhere Definition (5.9) f¨ ur n lineare zeitoptimale Steuerprozesse. Der Vektor λ ∈ R heißt adjungierte Variable oder Kozustand. Die Zahl λ0 wird u ¨blicherweise nicht im Argument von H mitgef¨ uhrt, da sie nur die Werte 0 und 1 annimmt. Im Normalfall“ gilt λ0 = 1. ” Die folgenden notwendigen Optimalit¨atsbedingungen sind das zentrale Resultat der Theorie optimaler Steuerprozesse. Satz 6.1 (Minimumprinzip von Pontryagin): Es sei (x∗ , u∗ ) : [0, T ] → Rn × U eine optimale L¨osung von (6.1). Dann existieren λ0 ≥ 0 und eine stetige und st¨ uckweise stetig differenzierbare Funktion λ : [0, T ] → Rn und ein Vektor ν ∈ Rr mit (λ0 , λ(t), ν) 6= 0 f¨ ur alle t ∈ [0, T ], so dass die folgenden Aussagen gelten: (i) An allen Stetigkeitsstellen t ∈ [0, T ] von u∗ (·) gilt die Minimumbedingung H(t, x∗ (t), λ(t), u∗(t)) = min H(t, x∗ (t), λ(t), u). u∈U
(ii) An allen Stetigkeitsstellen t ∈ [0, T ] von u∗ (·) gilt die adjungierte Differentialgleichung ˙ ⊤ = −Hx (t, x∗ (t), λ(t), u∗(t)). λ(t) (iii) Im Endzeitpunkt T gilt die Transversalit¨ atsbedingung λ(T )⊤ = λ0 gx (x∗ (T )) + ν ⊤ ψx (x∗ (T )). 37
38
3. NICHTLINEARE STEUERPROZESSE
(iv) Im Falle freier Endzeit gilt f¨ ur die optimale Endzeit T ∗ H(T ∗, x∗ (T ∗ ), λ(T ∗ ), u∗(T ∗ )) = 0. (v) F¨ ur autonome Systeme gilt außerdem1 H(x∗ (t), λ(t), u∗ (t)) = const in [0, T ] Ein Beweis findet sich etwa in [KK74, Kap. VI] und [LM67]. Entlang einer optimalen Trajektorie verwenden wir die Bezeichnungen
⋄
f (t) = f (t, x∗ (t), u∗ (t)) H(t) = H(t, x∗ (t), λ(t), u∗(t)) etc. Die adjungierten Differentialgleichungen lauten dann explizit ˙ ⊤ = −Hx (t) = −λ0 f0,x (t) − λ(t)⊤ fx (t). λ(t) Im Falle λ0 > 0 kann man wieder λ0 = 1 in Satz 6.1 setzen, denn die Aussagen blei¨ ben beim Ubergang von λ zu λ/λ0 unver¨andert. Zum Nachweis von λ0 > 0 ben¨otigt man zus¨atzliche Regularit¨atsannahmen f¨ ur die optimale L¨osung (x∗ , u∗ ). Der ent” artete Fall“ λ0 = 0 kann bei konkreten Anwendungen auch dadurch ausgeschlossen werden, dass man die Annahme λ0 = 0 zum Widerspruch f¨ uhrt. F¨ ur eine wichtige Modellklasse kann dies generell durchgef¨ uhrt werden: Korollar 6.2: Bei freiem Endzustand x(T ), d.h., im Falle ψ ≡ 0, kann ohne Beschr¨ankung der Allgemeinheit λ0 = 1 in Satz 6.1 angenommen werden. ⋄ Proof. Aus der Annahme λ0 = 0 w¨ urde mit ψ ≡ 0 aus den Aussagen (ii) und (iii) folgen: ˙ ⊤ = −λ(t)⊤ fx (t), λ(T ) = 0. λ(t)
Diese Differentialgleichung hat jedoch die eindeutige L¨osung λ ≡ 0. Dies steht im Widerspruch zu der Aussage, dass (λ0 , λ(t)) auf [0, T ] nirgends verschwindet. Zur Erl¨auterung der Transversalit¨atsbedingungen λ(T )⊤ = λ0 gx (x∗ (T )) + ν ⊤ ψx (x∗ (T )) betrachten wir den Tangentialraum der Mannigfaltigkeit ψ(x) = 0 im Punkte x∗ (T ), also T0 := {v ∈ Rn : ψx (x∗ (T )) v = 0}.
1In
diesem Fall lassen wir wieder das erste Argument der Hamiltonfunktion weg.
6. DAS PONTRYAGINSCHE MINIMUMPRINZIP
39
Die Transversalit¨atsbedingung besagt dann λ(T )⊤ − λ0 gx (x∗ (T )) ⊥ T0 . Bei praktischen Problemen liegt oft der folgende Spezialfall f¨ ur die Endbedingungen und das Zielfunktional vor: xi (T ) = ci , also ψ(x) = (x1 − c1 , . . . , xr − cr )⊤ , und
i = 1, . . . , r ≤ n,
g(x) = e g (xr+1 , . . . , xn ).
Dann erh¨alt man aus Satz 6.1 die Endbedingungen λi (T ) = νi ,
i = 1, . . . , r
λi (T ) = λ0 gxi (x∗ (T )),
i = r + 1, . . . , n.
Also ist λi (T ) frei f¨ ur i = 1, . . . , r. Insgesamt erhalten wir daher die Endbedingungen xi (T ) = ci ,
i = 1, . . . , r
λi (T ) = λ0 gxi (x∗ (T )),
i = r + 1, . . . , n.
(6.3)
Es sei nun u∗ (t, x, λ) := arg min H(t, x, λ, u) u∈U
(6.4)
die (nicht notwendig eindeutig bestimmte) Minimalstelle von H(t, x, λ, ·) bzgl. u ∈ U. Gem¨aß der Minimumbedingung (i) in Satz 6.1 gilt dann f¨ ur die optimale Steuerung u∗ (t) = u∗ (t, x∗ (t), λ(t)). Setzt man diese Vorschrift in die Differentialgleichung und adjungierte Differentialgleichung ein, so erh¨alt man ein Randwertproblem f¨ ur (x, λ): x˙ = f (t, x, u∗ ), λ˙ ⊤ = −Hx (t, x, λ, u∗ ) x(0) = x0 ,
Endbedingungen (6.3) f¨ ur (x, λ).
Solche Randwertprobleme bieten die Grundlage f¨ ur die sogenannten indirekten Verfahren zur L¨osung optimaler Steuerprozesse, siehe Abschnitt 9.1. Die notwendigen Optimalit¨atsbedingungen aus Satz 6.1 sind unter zus¨atzlichen (Konvexit¨ats-)annahmen auch hinreichend. Dazu werde auch λ0 = 1 vorausgesetzt, und es sei H 0 (t, x, λ) := min H(t, x, λ, u) (6.5) u∈U
die minimierte Hamiltonfunktion. Satz 6.3: Es sei (x∗ , u∗ ) ein zul¨assiges Paar f¨ ur das Problem (6.1). Es existiere eine Funktion λ : [0, T ] → Rn und ein ν ∈ Rr , so dass die Bedingungen von Satz 6.1 mit λ0 = 1 erf¨ ullt sind. Zus¨atzlich sei (a) ψ(·) affin-linear, (b) g(·) konvex und (c) H 0 (t, x, λ) konvex in x f¨ ur jedes (t, λ(t)).
40
3. NICHTLINEARE STEUERPROZESSE
Dann ist (x∗ , u∗ ) eine optimale L¨osung des Problems (6.1).
⋄
Ein Beweis findet sich in [FH86, § 2.5, § 7.1, Satz 7.1]. ¨ 6.2. Aquivalente Formulierungen von Steuerprozessen. In Abschnitt 2 hatten wir bereits verschiedene Zielfunktionale benannt. Das Problem mit allgemeinem Funktional Z T F (x, u) := g(x(T )) + f0 (t, x(t), u(t)) dt 0
heißt Bolza-Problem. Das Problem mit g ≡ 0, d.h. mit Zielfunktional Z T F (x, u) := f0 (t, x(t), u(t)) dt
(6.6)
0
heißt Lagrange-Problem. Das Problem mit f0 ≡ 0, d.h. mit Zielfunktional F (x, u) := g(x(T ))
heißt Mayer-Problem. F¨ ur den Beweis des Minimumprinzips (den wir nicht f¨ uhren werden) ist es zweckm¨aßig, sich auf eine Form, etwa auf Mayer-Probleme mit fester Endzeit und autonomer Dynamik zu beschr¨anken. Dazu untersuchen wir, (a) wie sich Bolza-Funktionale in Mayer-Form (b) bzw. in Lagrange-Form u uhren lassen, ¨berf¨ (c) wie sich Probleme mit freier Endzeit auf Probleme mit fester Endzeit transformieren lassen und (d) wie sich Probleme mit nicht-autonomer Dynamik als solche mit autonomer Dynamik schreiben lassen. (a): R¨ uckf¨ uhrung von (6.1) auf ein Mayer-Problem: Man definiere eine neue Zustandsvariable x0 (·) durch Z t x0 (t) = f0 (s, x(s), u(s)) ds. 0
x0 gen¨ ugt der Anfangswertaufgabe
x˙ 0 = f0 (t, x, u),
x0 (0) = 0.
(6.7)
Setzt man nun x = (x0 , x1 , . . . , xn )⊤ ∈ Rn+1
f(t, x, u) = (f0 , f1 , . . . , fn )⊤ (t, x, u) 0 x0 = , ψ(x) = ψ(x), x0
so ist (6.1) ¨aquivalent zu dem Mayer-Problem
Minimiere g(x(T )) = g(x(T )) + x0 (T ) unter x˙ = f (t, x, u) f¨ ur t ∈ [0, T ] x(0) = x0 ,
u(t) ∈ U
ψ(x(T )) = 0
(6.8)
6. DAS PONTRYAGINSCHE MINIMUMPRINZIP
41
(b): R¨ uckf¨ uhrung von (6.1) auf ein Lagrange-Problem: Die Endzeit T sei fest, sonst wende man zun¨achst den folgenden Fall (c) an. Definiere eine konstante Funktion x0 (·) durch x˙ 0 = 0,
x0 (T ) = g(x(T ))/T.
Damit wird
Z
(6.9)
T
F (x, u) = g(x(T )) + f0 (t, x(t), u(t)) dt 0 Z T = (x0 (t) + f0 (t, x(t), u(t))) dt. 0
Mit
x = (x0 , x1 , . . . , xn ) ∈ Rn+1
f (t, x, u) = (0, f1 , . . . , fn )⊤ (t, x, u) f 0 (t, x, u) = x0 (·) + f0 (t, x, u) x0 (0) frei, x(0) = x0 ψ(x) ψ(x) = x0 − g(x)/T
geht (6.1) u ¨ber in ein Lagrange-Problem mit dem Zielfunktional Z T F (x, u) = f 0 (t, x, u) dt.
(6.10)
0
(c): R¨ uckf¨ uhrung einer freien Endzeit T auf eine feste Endzeit Te = 1:
Man f¨ uhre eine neue Zeitvariable s ∈ [0, 1] ein durch t = sT,
und definiere
s ∈ [0, 1]
x e(s) = x(sT )
(6.11)
s ∈ [0, 1].
u e(s) = u(sT ),
Bez¨ uglich der Variablen s gilt:
de x dx (s) = T (sT ) = T f (sT, x e(s), u e(s)) ds dt Z T und g(x(T )) + f0 (t, x(t), u(t)) dt 0 Z 1 = g(e x(1)) + T f0 (sT, x e(s), u e(s)) ds. 0
Zus¨atzlich ben¨otigt man die Zustandsvariable x en+1 (s) ≡ T , f¨ ur die gilt: de xn+1 = 0, x en+1 (0) frei, x en+1 (1) frei. ds F¨ ur x e(s) x(s) = ∈ Rn+1 x en+1 (s)
(6.12)
42
3. NICHTLINEARE STEUERPROZESSE
erh¨alt man dann einen Steuerprozess mit fester Endzeit Te = 1 und Randbedingungen x e(0) = x0 ,
x en+1 frei
ψ(x(1)) = ψ(x(T )) = 0. (d): R¨ uckf¨ uhrung von nicht-autonomen auf autonome Systeme: Gem¨aß (c) kann man sich auf eine feste Endzeit T beschr¨anken. Man definiert die neue Zustandsvariable xn+1 (t) = t, also x˙ n+1 = 1,
xn+1 (0) = 0.
(6.13)
F¨ ur x = (x1 , . . . , xn , xn+1 )⊤ ∈ Rn+1
gewinnt man so ein autonomes Problem mit
f 0 (x, u) = f0 (xn+1 , x, u) f (xn+1 , x, u) f(x, u) = , 1 x0 x(0) = , ψ(x) = ψ(x). 0
Die Umformungen (a)–(d) sind nicht nur f¨ ur den Beweis des Minimumprinzips hilfreich, sondern sind auch bedeutsam f¨ ur numerische Verfahren.
7. PROBLEME MIT LINEAR AUFTRETENDER STEUERUNG
43
7. Probleme mit linear auftretender Steuerung: Bang-Bang- und singul¨ are Steuerungen Ausgehend vom Steuerprozess (6.1) betrachten wir nun eine Modellklasse, bei der die Steuerung u linear in der Dynamik und im Zielfunktional auftritt: f (t, x, u) = a(t, x) + b(t, x)u, f0 (t, x, u) = a0 (t, x) + b0 (t, x)u, F¨ ur den Steuerbereich gelte:
a(t, x) ∈ Rn ,
a0 (t, x) ∈ R,
b(t, x) ∈ Rn×m ,
b0 (t, x) ∈ R1×m .
U konvex und kompakt. Diese Modellklasse enth¨alt die in Abschnitt 5 behandelten zeitoptimalen linearen Steuerprozesse als Spezialfall. Im Folgenden sei eine optimale L¨osung mit x(·), u(·) bezeichnet, und es gelte λ0 = 1 im Minimumprinzip Satz 6.1. Die Hamiltonfunktion ist (affin-)linear bzgl. u und hat die Form (vergleiche (6.2)) H(t, x, λ, u) = f0 (t, x, u) + λ⊤ f (t, x, u)
= a0 (t, x) + λ⊤ a(t, x) + b0 (t, x) + λ⊤ b(t, x) u.
(7.1)
Die Schaltfunktion (vergleiche (5.12)) wird definiert durch σ(t, x, λ) := Hu (t, x, λ, u) = b0 (t, x) + λ⊤ b(t, x) und kurz:
(7.2)
σ(t) := σ(t, x(t), λ(t)) = (σ1 (t), . . . , σm (t)). Die Minimierung der Hamiltonfunktion bzgl. u (siehe Minimumprinzip Satz 6.1), also H(t, x(t), λ(t), u(t)) = min H(t, x(t), λ(t), u), u∈U
t ∈ [0, T ]
ist dann ¨aquivalent zu dem linearen Optimierungsproblem σ(t) u(t) = min σ(t) u. u∈U
f¨ ur alle Stetigkeitsstellen t ∈ [0, T ] von u(·).
(7.3)
Typische Beispiele f¨ ur einen konvexen, kompakten Steuerbereich U ⊂ Rm sind: (1) m = 1: U = [a, b] ein Intervall. (2) m ≥ 1: U = {u = (u1 , . . . , um ) : ai ≤ ui ≤ bi , i = 1, . . . , m}. (3) m = 2: U ein Simplex (Dreieck).
44
3. NICHTLINEARE STEUERPROZESSE
Zur Vereinfachung beschr¨anken wir uns nun auf den Fall m = 1, U = [a, b] ein Intervall. Hier reduziert sich (7.3) auf σ(t) u(t) = min σ(t) u, u∈[a,b]
und daher ist die optimale Steuerung gegeben durch σ(t) > 0 a, u(t) = beliebig in U, σ(t) = 0 b, σ(t) < 0.
(7.4)
Definition 7.1: Es sei [t1 , t2 ] ⊂ [0, T ], t1 < t2 .
(i) u(t) heißt bang-bang in [t1 , t2 ], wenn σ(t) in [t1 , t2 ] nur isolierte Nullstellen hat. Das heißt, es gilt u(t) ∈ {a, b} f¨ ur alle t ∈ [t1 , t2 ]. Die Nullstellen von σ(·) heißen Schaltpunkte. (ii) u(t) heißt singul¨ ar in [t1 , t2 ], wenn σ(t) ≡ 0 in [t1 , t2 ] gilt. Die Zeitpunkte t1 und t2 heißen Verbindungspunkte, falls u(·) bang-bang in [t1 − ε, t1 ] und in [t2 , t2 + ε] ist f¨ ur geeignetes ε > 0. ⋄ Bei zeitoptimalen linearen Steuerprozessen garantierte die Normalit¨atsbedingung in Definition 5.5 (ii) bzw. Satz 5.6, dass die optimale L¨osung bang-bang in [0, T ] ist und keine singul¨aren Teilst¨ ucke enth¨alt. Hingegen gibt es bei der vorliegenden allgemeinen Modellklasse kein Kriterium f¨ ur Bang-Bang-Steuerungen. Nur in speziellen F¨allen k¨onnen singul¨are Steuerungen ausgeschlossen werden. Beispiel 7.2 (Maschinenreparatur-Problem): Es bedeuten T : Nutzungsdauer einer Maschine oder Anlage x(t) : Qualit¨at des Produkts oder Zustand der Anlage zur Zeit t; x(t) ∈ [0, 1]
u(t) : δ: g: π:
Reparaturaufwand oder Wartungskosten; u(t) ∈ [0, u] Verschleiß- oder Abnutzungsrate der Maschine oder Anlage Reparatureffektivit¨ats-Koeffizient Produktionsrate der Maschine
Damit lautet das Modell Maximiere F (x, u) =
Z
T
0
πx(t) − u(t) dt
unter x˙ = −δx(t) + gu(t) f¨ ur t ∈ [0, T ] x(0) = 1
Setzt man zus¨atzlich
u(t) ∈ [0, u] gu < δ
7. PROBLEME MIT LINEAR AUFTRETENDER STEUERUNG
45
voraus, so folgt x(t) ∈ [0, 1] f¨ ur t ∈ [0, T ]. Der Endzustand x(T ) ist frei, also kann man nach Korollar 6.2 λ0 = 1 in der Hamiltonfunktion setzen: H(x, λ, u) = −(πx − u) + λ(−δx + gu) = −(π + δλ)x + (1 + gλ)u.
Die adjungierte Differentialgleichung λ˙ ⊤ = −Hx (x, λ, u) = π + δλ
λ(T ) = 0 hat die L¨osung
λ(t) = Die Schaltfunktion
π δ(t−T ) e −1 . δ
σ(t) = Hu (t) = 1 + gλ(t) ist daher streng monoton wachsend in [0, T ] und hat h¨ochstens eine Nullstelle t1 ∈ [0, T ], die Steuerung ist somit bang-bang in [0, T ]. Wegen λ(T ) = 0 und daher σ(T ) = 1 ist die optimale Steuerung zum Endzeitpunkt gleich 0, also ( u, 0 ≤ t ≤ t1 u(t) = 0, t1 < t ≤ T. Die isolierte Nullstelle t1 von σ(·) ergibt sich zu t1 = T + Wir setzen im Folgenden δ < πg
und
δ 1 . ln 1 − δ πg −
1 δ 0 −1, u(t) = beliebig in [−1, 1], λ(t) = 0 1, λ(t) < 0.
Wenn eine singul¨are Steuerung auftritt, so kann sie folgendermaßen berechnet werden: σ(t) = λ(t) ≡ 0 dσ = λ˙ = −x ≡ 0 =⇒ σ˙ := dt dσ˙ =⇒ σ ¨ := = −x˙ = −u ≡ 0. dt Also ist u(t) = 0 die singul¨are Steuerung. Jedoch kann a priori nicht entschieden werden, ob eine singul¨are Steuerung tats¨achlich auftritt. Dies h¨angt entscheidend von der Endzeit T und den Randwerten ab: Im vorliegenden Fall kann man die optimale L¨osung sofort erraten: Im Falle T ≤ 2 erh¨alt man eine Bang-Bang-Steuerung:
F¨ ur T > 2 hat die optimale Steuerung die Struktur bang-singul¨ar-bang:
7. PROBLEME MIT LINEAR AUFTRETENDER STEUERUNG
47
Die L¨osung ist analytisch:
0≤t≤1 1 − t, x(t) = 0, 1≤t≤T −1 t − (T − 1), T − 1 ≤ t ≤ T 1 2 0≤t≤1 2 (t − 1) , λ(t) = 0, 1≤t≤T −1 − 1 (t − T + 1)2 , T − 1 ≤ t ≤ T 2 σ(t) = λ(t),
σ(1) = σ(1) ˙ =0
⋄
Das vorige Beispiel zeigt bereits die prinzipielle Methode zur Berechnung singul¨arer Steuerungen. Die Funktionen f und f0 seien hinreichend oft differenzierbar. Nach Definition 7.1 gilt f¨ ur eine singul¨are Steuerung σ(t) = σ(t, x(t), λ(t)) = 0 in [t1 , t2 ] ⊂ [0, T ].
Man definiert Funktionen
σ (k) , durch:
0≤k≤k
(a) σ (0) (t) := σ(t) = σ(t, x(t), λ(t)) (b) F¨ ur k ≥ 0 sei bereits σ (k) definiert, und σ (k) sei unabh¨angig von u, d.h., ∂σ (k) ≡ 0. ∂u
48
3. NICHTLINEARE STEUERPROZESSE
Dann definieren wir dσ (k) (k) (k) = σt + σx(k) x˙ + σλ λ˙ dt ˙ und setzen f¨ ur x˙ und λ die jeweiligen rechten Seiten ein. σ (k+1) :=
Entweder gilt dann σu(k) ≡ 0 f¨ ur alle k ≥ 0,
(7.5)
oder es gibt einen Index k ≥ 1, so dass
σu(k) ≡ 0 f¨ ur alle k = 0, . . . , k − 1 σu(k) 6≡ 0.
(7.6)
F¨ ur k gilt: σ (k) = A(t, x, λ) + B(t, x, λ)u, da u nur linear im Problem auftritt. Eine singul¨are Steuerung u(·) ist also auf einem singul¨aren Teilst¨ uck charakterisiert durch σ (k) (t, x(t), λ(t)) ≡ 0,
f¨ ur k = 0, . . . , k
(7.7)
Im Falle B(t, x(t), λ(t)) 6= 0 auf dem fraglichen Teilst¨ uck folgt: u(t) = −
A(t, x(t), λ(t)) . B(t, x(t), λ(t))
(7.8)
Satz 7.4: (i) Gilt die Beziehung (7.6), so ist k eine gerade Zahl, also k = 2q. Die Zahl q ≥ 1 heißt die Ordnung der singul¨ aren Steuerung. (ii) F¨ ur eine optimale L¨osung x(·), u(·), λ(·) gilt die verallgemeinerte LegendreClebsch-Bedingung 2q d q q ∂ 0 ≤ (−1) B(t, x(t), λ(t)) = (−1) Hu (t) . ∂u dt2q ⋄ F¨ ur den (schwierigen) Beweis verweisen wir auf [Kno81]. Die Ordnung q h¨angt nicht von der Endzeit T und den Randbedingungen ab. In Beispiel 7.3 hat man σ (0) = σ = λ σ (1) = λ˙ = −x
σ (2) = −x˙ = −u,
also ist k = 2 und q = 1. Weiter ist A(t, x, λ) = 0 B(t, x, λ) = −1,
(−1)q B = 1 > 0.
also u = 0 und
7. PROBLEME MIT LINEAR AUFTRETENDER STEUERUNG
49
Bei speziellen Problemen ist es m¨oglich, aus den Gleichungen (vergleiche (7.7)) σ (k) (t, x(t), λ(t)) ≡ 0,
k = 0, . . . , 2q − 1
eine Gleichung im Zustandsraum der Form S(t, x(t)) = 0
(7.9)
mit S : Rn+1 → R zu bestimmen. Im Falle n = 1 kann man die Gleichung (7.9) auf einfache Weise mit Hilfe des Greenschen Integralsatzes berechnen, vergleiche [FH86, § 3.3]. Die optimale L¨osung besteht dann in einer raschest m¨oglichen Ann¨aherung“ ” dieser singul¨aren Trajektorie. Beispiel 7.5 (Optimales Fischen): vergleiche Beispiel 1.3: Z T Maximiere e−δt (p − c(x(t))) u(t) dt 0
unter x˙ = w(x) − u(t) f¨ ur t ∈ [0, T ] x(0) = x0 ,
x(T ) frei oder x(T ) = xT
u(t) ∈ [0, umax ] mit
Die Hamiltonfunktion ist hier
x w(x) = rx 1 − . k
H(t, x, λ, u) = −e−δt (p − c(x))u + λ(w(x) − u), und die adjungierte Differentialgleichung lautet λ˙ = −Hx = −e−δt c′ (x)u − λw ′ (x). Die Schaltfunktion ist damit σ(t, x, λ) = Hu (t, x, λ, u) = −e−δt (p − c(x)) − λ. Singul¨are Steuerungen treten auf, wenn σ(t) = σ(t, x(t), λ(t)) ≡ 0 f¨ ur t ∈ [t1 , t2 ] gilt. Durch Differentiation und Einsetzen obiger Beziehungen erh¨alt man: σ˙ = δe−δt (p − c(x)) + e−δt c′ (x)x˙ − λ˙
= δe−δt (p − c(x)) + e−δt c′ (x)(w(x) − u) − (−e−δt c′ (x)u − λw ′(x)) = δe−δt (p − c(x)) + e−δt c′ (x)w(x) + λw ′ (x) h i mit σ≡0 −δt = e δ(p − c(x)) + c′ (x)w(x) − (p − c(x))w ′(x) ≡ 0.
Also gilt p − c(x) =
1 δ
′ (p − c(x))w(x) .
50
3. NICHTLINEARE STEUERPROZESSE
Diese Gleichung besitze eine (eindeutige) Gleichgewichtsl¨osung xδ , siehe Beispiel 1.3. Die singul¨are Steuerung ergibt sich wegen x(t) = xδ aus x(t) ˙ = w(xδ ) − u(t) = 0
=⇒ u(t) ≡ w(xδ ).
Die optimale L¨osung besteht nun darin, die Gleichgewichtsl¨osung m¨oglichst schnell zu erreichen. Im Falle eines festen Endwertes x(T ) = xT gilt: F¨ ur xT < xδ und hinreichend großes T erh¨alt man
Die Zeitpunkte t1 und t2 sind aus x(t1 ) = x(t2 ) = xδ durch Vorw¨arts- bzw. R¨ uckw¨artsintegration der Dynamik zu berechnen. Im Falle eines freien Endwertes x(T ) gilt: Die optimale L¨osung hat die gleiche Struktur wie bei festem Endwert. Die Transversalit¨atsbedingung ergibt λ(T ) = 0 und damit d.h.,
σ(T ) = −e−δT (p − c(x(T ))) < 0, u(t) = umax
f¨ ur t ∈ [t2 , T ].
Der Zeitpunkt t2 kann mit σ(t2 ) = 0 und einem geeigneten Randwertproblem f¨ ur (x, λ) in [t2 , T ] bestimmt werden. ⋄ Bei autonomen Problemen mit freier Endzeit gilt zus¨atzlich (siehe Satz 6.1 (iv)–(v) und Gleichungen (7.1)–(7.2)) H(x, λ, u) = a0 (t, x) + λ⊤ a(t, x) + b0 (t, x) + λ⊤ b(t, x) u = a0 (t, x) + λ⊤ a(t, x) + σ(t)u ≡ 0.
F¨ ur eine singul¨are Steuerung folgt dann wegen σ(t) ≡ 0 a0 (t, x) + λ⊤ a(t, x) ≡ 0
auf dem singul¨aren Teilst¨ uck. Zusammen mit σ (k) (t, x(t), λ(t)) ≡ 0,
k = 0, . . . , 2q − 1
7. PROBLEME MIT LINEAR AUFTRETENDER STEUERUNG
51
kann dies zur Berechnung einer singul¨ aren Mannigfaltigkeit S(x(t)) = 0 mit n S : R → R, benutzt werden. Wir zeigen dies an einem Beispiel mit q = 1, n = 3. Beispiel 7.6 (Goddard-Problem): Das in Beispiel 1.4 vorgestellte Problem der H¨ohenrakete (hier mit freier Endzeit T ) lautete: Maximiere h(T ) ˙ unter h(t) =v
h(0) = 0
1 cu(t) − D(h, v) − g(h) m(t) m(t) ˙ = −u(t) v(t) ˙ =
v(0) = 0 m(0) = m0 ,
m(T ) = mT
u(t) ∈ [0, umax ]. Mit λ = (λh , λv , λm )⊤ , x = (h, v, m)⊤ ist die Hamiltonfunktion 1 H(x, λ, u) = λh v + λv (cu − D) − g − λm u m D c = λh v − λv + g + λv − λm u. m m
Die adjungierten Differentialgleichungen lauten (man beachte: D = D(h, v) und g = g(h)) ˙λh = λv 1 Dh + gh m Dv λ˙ v = −λh + λv m cu − D λ˙ m = λv . m2 Es ist mit den Bezeichnungen von (6.1) g(x(T )) = −h(T )
ψ(x(T )) = m(T ) − mT . Daher gelten die Transversalit¨atsbedingungen λh (T ) = −1
λv (T ) = 0
λm (T ) frei. Die Schaltfunktion und deren erste zeitliche Ableitung ist c σ = λv − λm m cm ˙ c σ (1) = λ˙ v − λv 2 − λ˙ m m m −cu cu − D Dv c − λv 2 − λv = − λh + λv m m m m2 c D + cDv = −λh + λv . m m2
52
3. NICHTLINEARE STEUERPROZESSE
Die singul¨are Steuerung in einem Zeitintervall [t1 , t2 ] kann aus σ (2) = A(x, λ) + B(x, λ) u = 0 gem¨aß (7.8) berechnet werden. Es gilt also q = 1 f¨ ur die Ordnung der singul¨aren (2) Steuerung, die sich aus σ als using =
D Dh (c − v) + Dv g + cDvv g − cDvh v + cmgh +m c D + 2cDv + c2 Dvv
ergibt. Dies ist eine Feedback-Steuerung, da u(·) nur aus der Kenntnis von x(·) bestimmt werden kann und die adjungierte Variable nicht vorkommt. Die Bestimmung der singul¨aren Steuerung kann aber auch auf andere Weise erfolgen: Das Problem ist autonom, und die Endzeit T ist frei, also gilt H(t) ≡ 0 f¨ ur t ∈ [0, T ] Daraus folgt
σ(t) ≡ 0 f¨ ur t ∈ [t1 , t2 ].
λh v − λv
D +g m
≡ 0 in [t1 , t2 ].
Zusammen mit σ = σ (1) ≡ 0 auf dem singul¨aren Teilst¨ uck stellen diese drei Gleichungen ein lineares Gleichungssystem f¨ ur die nicht-verschwindende Variable λ dar. Die Determinante der Koeffizientenmatrix von λ muss daher verschwinden. Dies f¨ uhrt auf v S(x) := D + mg − D − vDv = 0. c Die L¨osungen dieser Gleichung stellen eine zweidimensionale Fl¨ache in R3 dar, die singul¨ are Fl¨ ache (Mannigfaltigkeit) des Problems genannt wird. Mittels dS(x(t)) =0 dt gewinnt man den obigen Ausdruck f¨ ur die singul¨are Steuerung zur¨ uck. Weiterhin gilt H(T ) = −v(T ) + σ(T ) u(T ) = 0. Mit der physikalisch plausiblen Bedingung u(T ) = 0 schließt man damit sofort v(T ) = 0. Nun ist wegen v(0) = v(T ) = 0 auch S(x(0)) = m0 g(h0) > 0 S(x(T )) = mT g(h(T )) > 0. Daher kann ein singul¨arer Schub using (·) nur im Inneren des Intervalls [0, T ] auftreten, d.h., es gilt 0 < t1 < t2 < T , wenn ein singul¨arer Schub auftritt. Man kann zeigen, dass die optimale Steuerung die Struktur 0 ≤ t ≤ t1 umax , u(t) = using (t), t1 < t ≤ t2 0, t2 < t ≤ T
hat. Die Zeitpunkte t1 , t2 und die optimale Endzeit T kann man durch Integration der Zustandsgleichung auf folgende Art bestimmen:
7. PROBLEME MIT LINEAR AUFTRETENDER STEUERUNG
53
(a) Zeitpunkt t1 : Integriere mit u(t) = umax vom Anfangszustand aus solange, bis S(x(t1 )) = 0 erf¨ ullt ist. (b) Zeitpunkt t2 : Integriere mit singul¨arem Schub using (t) solange weiter, bis m(t2 ) = mT gilt. (c) Endzeit T : Integriere mit Schub u(t) = 0 weiter, bis v(T ) = 0 erreicht ist.
⋄
54
3. NICHTLINEARE STEUERPROZESSE
8. Probleme mit regul¨ arer Hamiltonfunktion und nichtlinear auftretender Steuerung Ausgangspunkt ist wieder der Steuerprozess (6.1). Alle auftretenden Funktionen seien aus der Klasse C k mit k ≥ 1. F¨ ur eine optimale L¨osung x(·), u(·) sei das Minimumprinzip (Satz 6.1) mit λ0 = 1 und der adjungierten Variablen λ(·) erf¨ ullt. Die Hamilton-Funktion ist demnach H(t, x, λ, u) = f0 (t, x, u) + λ⊤ f (t, x, u). Definition 8.1: Die Hamilton-Funktion H(·) heißt regul¨ ar (bzgl. einer optimalen L¨osung x(·)), wenn es ein ε > 0 gibt, so dass f¨ ur die Menge Dε = {(t, x, λ) : t ∈ [0, T ], kx − x(t)k < ε, kλ − λ(t)k < ε}
gilt: Die Funktion H(t, x, λ, ·) hat eine eindeutig bestimmte Minimalstelle u∗ (t, x, λ) = arg min H(t, x, λ, u) u∈U
f¨ ur alle (t, x, λ) ∈ Dε .
⋄
Im Falle einer regul¨aren Hamilton-Funktion ist dann die optimale Steuerung der eindeutig bestimmte Wert u(t) = u∗ (t, x(t), λ(t)).
(8.1)
Bei den in Abschnitt 7 betrachteten Problemen mit linear auftretender Steuerung ist H(·) i.A. nicht regul¨ar. Zum Beispiel ist f¨ ur n = 1 gem¨aß (7.4) die optimale Steuerung u(·) an den Stellen t ∈ [0, T ] mit σ(t) = 0 nicht eindeutig bestimmt und ist dort unstetig. Im Gegensatz hierzu wollen wir nun zeigen, dass im Falle einer regul¨aren HamiltonFunktion die optimale Steuerung stetig ist und sogar eine C k -Funktion ist im Falle U = Rm . Beispiel 8.2: ¨ vergleiche 4. Ubungsblatt, Aufgabe 12: Z Minimiere
T 0
unter x˙ = u
u2 − x dt 2
x(0) = x0 . Die Hamilton-Funktion lautet (beachte: λ0 = 1 vorausgesetzt) u2 H(x, λ, u) = − x + λu. 2 Wegen U = R folgt aus der Minimumbedingung Hu (x, λ, u) = u + λ = 0, und außerdem gilt Huu (x, λ, u) = 1 > 0. Also ist u∗ (x, λ) = −λ
¨ 8. PROBLEME MIT REGULARER HAMILTONFUNKTION
55
die eindeutig bestimmte Minimalstelle von H(x, λ, ·). u∗ ist hier eine C ∞ -Funktion. Die adjungierte Differentialgleichung λ˙ = −Hx (x, λ, u) = 1, λ(T ) = 0 hat die L¨osung λ(t) = t − T . Insgesamt erhalten wir das Randwertproblem f¨ ur (x, λ) x˙ = u = −λ, λ˙ = 1,
x(0) = x0 λ(T ) = 0
mit der L¨osung (siehe Skizze) t2 . 2 Offenbar sind die hinreichenden Optimalit¨atsbedingungen (Satz 6.3) erf¨ ullt. λ(t) = t − T,
u(t) = T − t,
x(t) = x0 + T t −
Wir f¨ uhren nun im obigen Problem die zus¨atzliche Steuerbeschr¨ ankung u(t) ∈ U = [0, 1] ein. Hier ist 0≤λ 0, ∗ u (x, λ) = arg min H(x, λ, u) = −λ, −1 < λ < 0 u∈[0,1] 1, λ ≤ 1. Die optimale L¨osung lautet f¨ ur T > 1: ( x0 + t, 0≤t≤T −1 x(t) = 1 2 1 2 x0 − 2 (T − 1) + T t − 2 t , T − 1 ≤ t ≤ T ( 1, 0 ≤t≤T −1 u(t) = T − t, T − 1 ≤ t ≤ T.
⋄ Zur genaueren Untersuchung der Differenzierbarkeitseigenschaften der optimalen Steuerung u(·) betrachten wir nun zwei F¨alle: (i) U = Rm (ii) U = 6 Rm , U kompakt
56
3. NICHTLINEARE STEUERPROZESSE
Fall (i): U = Rm : Entlang einer L¨osung x(·), u(·) mit adjungierter Variable λ(·) erhalten wir aus der Minimumbedingung (Satz 6.1 (i)) Hu (t) = 0 Huu (t) ≥ 0
(8.2)
Die positive Semidefinitheit von Huu (·) heißt eine Legendre-Clebsch-Bedingung. Definition 8.3: Die Hamilton-Funktion H(·) heißt C k -regul¨ ar, wenn H(·) regul¨ar ist und die Funktion u∗ (t, x, λ) = arg minm H(t, x, λ, u) u∈R
k
eine C -Funktion ist auf der Menge Dε , vergleiche Definition 8.1.
⋄
Setzt man die strenge Legendre-Clebsch-Bedingung Huu (t) > 0 voraus, so kann u∗ (t, x, λ) berechnet werden aus Hu (t, x, λ, u) = 0 Huu (t, x, λ, u) > 0. Die C k -Regularit¨at hat dann die numerische Konsequenz, dass die Variable u in den Differentialgleichungen gem¨aß x˙ = f (t, x, u∗ (t, x, λ)) =: h1 (t, x, λ) λ˙ = −Hx (t, x, λ, u∗ (t, x, λ)) =: h2 (t, x, λ)
eliminiert werden kann und die Funktion
h1 (t, x, λ) h(t, x, λ) := h2 (t, x, λ)
eine C k -Funktion ist. Falls zus¨atzlich
xi (T ) = ci ,
i = 1, . . . , r
gilt, so erhalten wir mit (6.3) das folgende Randwertproblem: d x = h(t, x, λ) dt λ x(0) = x0
xi (T ) = ci ,
i = 1, . . . , r
λi (T ) = gxi (x(T )), i = r + 1, . . . , n. Beachte: xr+1 (T ), . . . , xn (T ) und λ1 (T ), . . . , λr (T ) sind frei. Wenn die Endzeit T frei ist, so erweitert man (8.3) um dT d x en+1 (s) = = 0, H(T ) = 0, ds ds vergleiche auch die Transformation (6.11)–(6.12).
(8.3)
¨ 8. PROBLEME MIT REGULARER HAMILTONFUNKTION
57
Zur numerischen L¨osung von Randwertproblemen vergleiche man [SB05, § 7.3]. Das Re-entry-Problem in § 7.3.7 stellt ein numerisch anspruchsvolles Anwendungsbeispiel f¨ ur eine regul¨are Hamilton-Funktion dar. Die L¨osungen x(·) und λ(·) des Randwertproblems (8.3) sind C k -Funktionen, also erhalten wir: Korollar 8.4: Ist eine Hamilton-Funktion H(·) C k -regul¨ar, dann hat das Randwertproblem (8.3) eine C k -L¨osung x(·), λ(·), und die optimale Steuerung u(t) = u∗ (t, x(t), λ(t)) ist eine C k -Funktion. Beispiel 8.5: Minimiere
Z
0
1
x2 + u2 dt
unter x˙ = x2 − u x(0) = 1,
x(1) = 1.
Die Minimierung der Hamilton-Funktion (beachte: λ0 = 1 vorausgesetzt) ergibt
H(x, λ, u) = x2 + u2 + λ(x2 − u) Hu (x, λ, u) = 2u − λ = 0,
also u∗ (x, λ) = λ/2. Damit ist das folgende Randwertproblem zu l¨osen: λ 2 λ˙ = −Hx (x, λ, u∗(x, λ)) = −2x(1 + λ) x˙ = x2 −
x(0) = x(1) = 1. ⋄ ¨ Mit den obigen Uberlegungen k¨onnen linear-quadratische Modelle geschlossen behandelt werden. Als Regulator-Problem bezeichnet man die Aufgabe ⊤ 1 Minimiere (x(T ) − xT ST x(T ) − xT 2 Z ⊤ i 1 Th x(t) − x e(t) C(t) x(t) − x e(t) dt + 2 0 Z (8.4) ⊤ i 1 Th + u(t) − u e(t) D(t) u(t) − u e(t) dt 2 0 unter x˙ = A(t)x + B(t)u + z(t) x(0) = x0 ,
x(T ) frei
mit festem T > 0. Dabei seien die Funktionen x e(·), u e(·) und z(·) und alle auftretenn×n den Matrizen stetig. Weiters seien C(t) ∈ R und ST ∈ Rn×n symmetrisch und m×m positiv semidefinit und D(t) ∈ R symmetrisch und positiv definit. Die optimale L¨osung x(·) und u(·) soll also m¨oglichst nahe an der gew¨ unschten Trajektorie x e(·) und u e(·) liegen.
58
3. NICHTLINEARE STEUERPROZESSE
Die zugeh¨orige Hamilton-Funktion ist H(t, x, λ, u) =
Aus berechnet man
⊤ ⊤ 1 1 x−x e(t) C(t) x − x e(t) D(t) u − u e(t) + u − u e(t) 2 2 + λ⊤ A(t)x + B(t)u + z(t) . (8.5) Hu (t, x, λ, u) = u − u e(t)
⊤
D(t) + λ⊤ B(t) = 0
u∗ (t, x, λ) = u e(t) − D(t)−1 B(t)⊤ λ. (8.6) Die adjungierten Differentialgleichungen mit Transversalit¨atsbedingung lauten λ˙ = −C(t) x(t) − x e(t) − A(t)⊤ λ (8.7) λ(T ) = ST x(T ) − xT . Die Differentialgleichungen f¨ ur x(·) und λ(·) sind linear in x und λ. Damit kann man zeigen, dass λ in affin-linearer Weise von x abh¨angt. Dies motiviert den Ansatz λ(t) = S(t)x(t) − γ(t)
(8.8) 1
mit einer stetig differenzierbaren (n × n)-Matrix S(t) und einer C -Funktion γ(·). Die Differentialgleichung f¨ ur x lautet mit (8.6) und (8.8): x˙ = Ax + B(e u − D −1 B ⊤ λ) + z
= Ax + Be u − BD −1 B ⊤ (Sx − γ) + z.
Die Differentiation des Ansatzes (8.8) f¨ ur λ ergibt mit (8.7) ˙ + S x˙ − γ˙ = −C(x − x Sx e) − A⊤ (Sx − γ).
Setzt man den Ausdruck f¨ ur x˙ ein, so erh¨alt man nach Umordnung
(S˙ − SBD −1 B ⊤ S + SA + A⊤ S + C)x
= −SBe u + Cx e − Sz + γ˙ − SBD −1 B ⊤ γ + A⊤ γ. (8.9)
Dies soll f¨ ur alle x gelten, also erh¨alt man die Differentialgleichungen S˙ = SBD −1 B ⊤ S − SA − A⊤ S − C
γ˙ = (SBD −1 B ⊤ − A⊤ ) γ + SBe u + Sz − C x e
(8.10)
Die Differentialgleichung f¨ ur S ist eine Matrix-Riccati-Gleichung, w¨ahrend sich f¨ ur γ eine lineare Differentialgleichung ergibt. Mit (8.7) und (8.8) gewinnt man die Endbedingungen S(T ) = ST ,
γ(T ) = ST xT .
Beispiel 8.6 (Optimale Lagerhaltung): ¨ siehe Ubung 6, Aufgabe 17. Fall (ii): U 6= Rm kompakt:
Ohne Einschr¨ankung sei m = 1 und U = [a, b] ⊂ R. Die optimale Steuerung u(·) setzt sich zusammen aus inneren Teilstu ¨cken [t1 , t2 ] ⊂ [0, T ] mit a < u(t) < b,
t ∈ [t1 , t2 ]
¨ 8. PROBLEME MIT REGULARER HAMILTONFUNKTION
59
und Randstu ¨cken [t1 , t2 ] mit t ∈ [t1 , t2 ],
u(t) = a bzw. u(t) = b,
vergleiche Beispiel 8.2. Ein Zeitpunkt t1 ∈ (0, T ) heißt Eintrittspunkt eines Randst¨ uckes [t1 , t2 ], wenn es ein ε > 0 gibt mit u(t) > a bzw. u(t) < b,
t ∈ [t1 − ε, t1 ).
Entsprechend wird ein Austrittspunkt t2 ∈ (0, T ) definiert.
F¨ ur den Rest dieses Abschnittes machen wir die Voraussetzung: Die HamiltonFunktion H(·) ist C k -regul¨ar mit k ≥ 2, d.h., die durch die unbeschr¨ankte Minimierung definierte Funktion u∗(t, x, λ) = arg min H(t, x, λ, u) u∈R
k
ist eine C -Funktion. Wir erinnern daran, dass die Funktion u∗ (t, x, λ) berechnet werden kann aus Hu (t, x, λ, u) = 0 Huu (t, x, λ, u) > 0. Auf inneren Teilstu ¨cken besteht die Beziehung u(t) = u∗ (t, x(t), λ(t)). Auf Randstu ¨cken hingegen muss wegen u(t) = arg min H(t, x(t), λ(t), u) u∈[a,b]
gelten: u(t) = a ⇒ Hu (t) ≥ 0
u(t) = b ⇒ Hu (t) ≤ 0.
Mittels der Regularit¨at von H(·) zeigt man auf einfache Weise: Lemma 8.7: Die optimale Steuerung u(·) ist stetig in einem Eintritts- bzw. Austrittspunkt. Beispiel 8.8 (Optimale Temperaturverteilung in einem chemischen Rohrreaktor): Eine chemische Fabrik produziert eine Substanz A2 aus einer Substanz A1 nach der Reaktionsgleichung A1 ←→ A2 −→ A3 ;
A3 Abfallprodukt.
60
3. NICHTLINEARE STEUERPROZESSE
Die Umwandlung findet in einem heizbaren Zylinder statt:
Bei diesem Beispiel ist t die auf die Geschwindigkeit v des Massenstroms bezogene L¨angenkoordinate des Reaktors. Die Konzentrationen x1 (·) und x2 (·) der Reaktanden A1 und A2 gen¨ ugen den Differentialgleichungen x˙ 1 = −k1 x1 + k2 x2 ,
x˙ 2 = k1 x1 − (k2 + k3 )x2 ,
x1 (0) = 1 x2 (0) = 0.
(8.11)
Die Geschwindigkeitskonstanten k1 , k2 , k3 h¨angen von der ortsabh¨angigen Temperatur θ(t) im Reaktor ab: α k1 = exp − , α>0 θ(t) (8.12) k2 = k12 , k3 = 2k12 θmin ≤ θ(t) ≤ θmax . Die Temperatur θ(t) ist so zu steuern, dass die Produktausbeute A2 zum Ende des Vorganges, also x2 (1), maximiert wird. Mit der transformierten Steuervariablen u(t) = k1 (t) = exp(−α/θ(t)) erhalten wir aus (8.11)–(8.12) das Optimalsteuerproblem Minimiere g(x(1)) = −x2 (1)
unter x˙ 1 = −ux1 + u2 x2 x˙ 2 = ux1 − 3u2 x2 x1 (0) = 1 x2 (0) = 0 u(t) ∈ [umin , umax ].
Mit der Hamilton-Funktion H(x, λ, u) = λ1 (−ux1 + u2 x2 ) + λ2 (ux1 − 3u2 x2 ) berechnen wir aus Hu (x, λ, u) = (λ2 − λ1 ) + 2u (λ1 − 3λ2 ) x2 = 0 die Funktion u∗ (x, λ) = Hier gilt:
(λ1 − λ2 ) x1 . 2 (λ1 − 3λ2 ) x2
Huu (x, λ, u) = 2 (λ1 − 3λ2 ) x2 ,
und Huu (t) > 0 auf einem inneren Teilst¨ uck.
(8.13)
¨ 8. PROBLEME MIT REGULARER HAMILTONFUNKTION
61
Die adjungierten Differentialgleichungen sind unter Ber¨ ucksichtigung der Endbedingungen (vergleiche (6.3)) λ˙ 1 = (λ1 − λ2 ) u, λ1 (1) = 0 (8.14) λ˙ 2 = (3λ2 − λ1 ) u2, λ2 (1) = −1.
Die Funktion u∗ (x, λ) nimmt f¨ ur den Anfangswert x2 (0) = 0 formal den Wert +∞ an und verletzt daher die Beschr¨ankung u(t) ≤ umax . Wir k¨onnen daher ein Randst¨ uck u(t) = umax f¨ ur t ∈ [0, t1 ] erwarten. F¨ ur umin = 0 wird die untere Schranke u(t) = 0 niemals angenommen. Zur Berechnung der optimalen Steuerung machen wir daher den Ansatz ( umax , 0 ≤ t ≤ t1 u(t) = (8.15) ∗ u (x(t), λ(t)), t1 ≤ t ≤ 1. Lemma 8.7 liefert die zus¨atzliche Stetigkeitsforderung u∗ (x(t1 ), λ(t1 )) = umax .
(8.16)
Insgesamt ist dann das Randwertproblem mit den Differentialgleichungen aus (8.13)– (8.14), wobei u gem¨aß (8.15) eingesetzt wird, und unter Ber¨ ucksichtigung von (8.16) zu l¨osen. W¨ahlt man statt umin = 0 als untere Beschr¨ankung umin = 0.4, so verletzt die Steuerung (8.15) die Beschr¨ankung u(t) ≥ umin . Die optimale Steuerung hat dann die Gestalt 0 ≤ t ≤ t1 umax , ∗ u(t) = u (x(t), λ(t)), t1 ≤ t ≤ t2 (8.17) u , t2 ≤ t ≤ 1. min Die Stetigkeitsbedingung (8.16) wird erg¨anzt durch u∗ (x(t2 ), λ(t2 )) = umin .
(8.18)
Hierbei ist also das Randwertproblem mit den Differentialgleichungen aus (8.13)– (8.14), wobei u gem¨aß (8.17) eingesetzt wird, und unter Ber¨ ucksichtigung von (8.16) und (8.18) zu l¨osen. ⋄
KAPITEL 4
Ausblick 9. Numerische L¨ osung optimaler Steuerprozesse Numerische L¨osungsverfahren f¨ ur optimale Steuerprozesse k¨onnen in direkte und indirekte Verfahren eingeteilt werden. 9.1. Indirekte Verfahren. Bei indirekten Verfahren wird zun¨achst mit Hilfe der notwendigen Bedingungen (Pontryaginsches Minimumprinzip) ein Randwertproblem f¨ ur die Gr¨oße y = (x, λ) ∈ R2n hergeleitet, d.h., die Steuerung u wird eliminiert. Im einfachsten Fall liegt ein (Zweipunkt-)Randwertproblem der Gestalt h1 (y1 , y2 , . . . , y2n , t) h2 (y1 , y2 , . . . , y2n , t) , ψ(y(0), y(T )) = 0 (9.1) y˙ = .. . h2n (y1 , y2, . . . , y2n , t)
vor mit ψ : R2n × R2n → R2n , vergleiche Abschnitt 6, Beispiel 8.2, Gleichung (8.3), ¨ Beispiel 8.5, Beispiel 8.8 sowie die Ubungsaufgaben 10 und 15. Im Falle linear auftretender Steuerungen (Abschnitt 7) sind Eintritts- und Austrittspunkte sowie ggf. singul¨are Teilst¨ ucke zu ber¨ ucksichtigen. Dies f¨ uhrt auf sogenannte Mehrpunktrandwertprobleme, bei denen zus¨atzliche Bedingungen an einzelnen Punkten im Inneren des Intervalls (0, T ) erf¨ ullt werden m¨ ussen. Auch Erweiterungen des Pontryaginschen Minimumprinzips f¨ ur Steuerprozesse mit zus¨atzlichen Beschr¨ankungen an die Steuerung und an den Zustand, die in dieser Vorlesung nicht behandelt wurden, f¨ uhren auf Mehrpunktrandwertprobleme. Wir betrachten hier kurz die wesentlichen Ideen von sogenannten Schießverfahren f¨ ur die numerische L¨osung eines Randwertproblems x˙ = f (x, t),
ψ(x(0), x(T )) = 0
(9.2)
mit x : [0, T ] → Rn und ψ : Rn × Rn → Rn , siehe auch [SB05, Kapitel 7.3].
Schießverfahren f¨ uhren das Randwertproblem (9.2) zur¨ uck auf die Bestimmung geeigneter Anfangswerte. Wir besprechen zun¨achst das Einfachschießverfahren1 und bezeichnen mit x(t; s) den Zustand, der dem Anfangswertproblem x˙ = f (x, t) auf [0, T ] mit x(0) = s n
(9.3)
mit s ∈ R gen¨ ugt. Die Randbedingungen in (9.2) werden genau dann eingehalten, wenn F (s) := ψ(s, x(T ; s)) = 0 (9.4) n n gilt. Es ist also eine Nullstelle der Funktion F : R → R zu bestimmen. Die folgende Abbildung veranschaulicht das Prinzip des Einfachschießverfahrens: 1engl.:
single shooting 63
64
4. AUSBLICK
Die Nullstellenbestimmung erfolgt zum Beispiel mittels (modifizierter) Newtonverfahren. Die Auswertung von F (s) erfordert die Kenntnis von x(T ; s), das man durch L¨osen des Anfangswertproblems (9.3) mittels geeigneter numerischer Integrationsverfahren (z.B. Runge-Kutta-Verfahren) erh¨alt. Die Jacobimatrix F ′ (s) kann durch finite Differenzen approximiert oder mit Hilfe der linearisierten Differentialgleichung (Sensitivit¨atsgleichung) bestimmt werden. Beides erfordert die L¨osung von n weiteren Anfangswertproblemen. In der Praxis h¨angt jedoch oft die L¨osung am Endzeitpunkt x(T ; s) sehr empfindlich vom Anfangswert s ab, da der Fehler bei leicht gest¨orten Anfangswerten exponentiell mit der Zeit w¨achst (siehe Vorlesung u ¨ber gew¨ohnliche Differentialgleichungen), also kx(t; s1 ) − x(t; s2 )k ≤ ks1 − s2 k exp(Lt). Dies kann zu numerischen Schwierigkeiten bei der Bestimmung von s f¨ uhren. Das exponentielle Wachstum liefert die Idee der Aufspaltung des Intervalls [0, T ] in kleinere Intervalle beim sogenannten Mehrfachschießverfahren2. Wir f¨ uhren Zwischenpunkte 0 = t1 < t2 < · · · < tm+1 = T ein und bezeichnen mit x(t; tk , sk ) die L¨osung des Anfangswertproblems x˙ = f (x, t) auf [tk , tk+1] mit x(tk ) = sk .
(9.5)
Die Gr¨oßen sk f¨ ur k = 1, . . . , m, also die Anfangswerte“ an den Zwischenpunk” ten, betrachten wir als neue Unbekannte. An den Zwischenpunkten fordern wir die Stetigkeit der zusammengesetzten Trajektorie sowie weiterhin die Einhaltung der Randbedingung. Dies wird ausgedr¨ uckt durch die Forderung x(t2 ; t1 , s1 ) − s2 x(t3 ; t2 , s2 ) − s3 .. = 0, (9.6) F (s) := . x(t ; t m m−1 , sm−1 ) − sm ψ(s1 , x(tm+1 ; tm , sm )) wobei s = (s1 , . . . , sm )⊤ ∈ Rnm und F : Rnm → Rnm gilt. Die folgende Abbildung veranschaulicht das Mehrfachschießverfahren: 2auch
Mehrzielmethode (engl.: multiple shooting) genannt
¨ 9. NUMERISCHE LOSUNG OPTIMALER STEUERPROZESSE
65
Gleichung (9.6) kann wiederum mit dem (modifizierten) Newton-Verfahren gel¨ost werden. Mehrfachschießverfahren erlauben eine sehr genaue L¨osung des Randwertproblems und damit der Optimalsteueraufgabe. Vor- und Nachteile indirekter Verfahren: (1) Indirekte Verfahren erlauben sehr genaue L¨osungen des Problems, inklusive einer genauen Bestimmung von Eintritts-, Austritts- und Verbindungspunkten. (2) Die Benutzung indirekter Verfahren liefert Einblicke in die Struktur der optimalen L¨osung. (3) Ist das Randwertproblem gel¨ost, k¨onnen die notwendigen Bedingungen des Pontryaginschen Minimumprinzips u uft werden. ¨berpr¨ (4) Kenntnisse der Theorie optimaler Steuerprozesse sind notwendig, um das Randwertproblem aufzustellen. (5) Mit Hilfe der Minimumbedingung muss u als Funktion von (x, λ) ausgedr¨ uckt werden k¨onnen. (6) Das Aufstellen der adjungierten Differentialgleichungen kann bei großen nichtlinearen Differentialgleichungssystemen m¨ uhsam sein. (Hier kann jedoch symbolische oder automatische Differentiation helfen.) (7) F¨ ur die Konvergenz des Verfahrens wird in der Regel eine gute Startsch¨atzung der adjungierten Variablen ben¨otigt. (8) Die Struktur der L¨osung (Randst¨ ucke, singul¨are Teilst¨ ucke, innere Teilst¨ ucke) muss bekannt sein oder gesch¨atzt werden, um das Randwertproblem aufzustellen. 9.2. Direkte Verfahren. Direkte Verfahren orientieren sich nicht an den notwendigen Bedingungen des Minimumprinzips. Stattdessen wird der optimale Steuerprozess (2.5) diskretisiert und in ein nichtlineares endlich-dimensionales Optimierungsproblem u uhrt. Dazu wird zun¨achst das Zeitintervall [0, T ] unterteilt: ¨berf¨ 0 = t1 < t2 < · · · < tm+1 = T.
(9.7)
Auf diesem Zeitgitter werden f¨ ur die diskretisierte Steuerung zum Beispiel st¨ uckweise konstante, st¨ uckweise lineare oder st¨ uckweise kubische Ans¨atze gemacht: u(t) :=
nu X i=1
ui ϕi (t).
(9.8)
66
4. AUSBLICK
Je nachdem, wie nun die Zustandsvariablen behandelt werden, unterscheidet man zwischen voller und rekursiver Diskretisierung. Bei der vollen Diskretisierung3 wird die Differentialgleichung x˙ = f (x, u, t) ebenfalls diskretisiert. Dazu wird entweder dasselbe Zeitgitter wie bei der Diskretisierung der Steuerung herangezogen oder ein feineres Gitter. Zur Demonstration des Prinzips w¨ahlen wir der Einfachheit halber das explizite Euler-Verfahren auf dem Gitter (9.7). Daraus erhalten wir die Bedingungen xi+1 = xi + (ti+1 − ti )f (xi , u(ti), ti ),
i = 1, . . . , m.
(9.9)
Dabei ist u(ti ) gem¨aß (9.8) auszuwerten. Neben dem Eulerverfahren k¨onnen nat¨ urlich alle bekannten expliziten und impliziten Integrationsverfahren f¨ ur gew¨ohnliche Differentialgleichungen verwendet werden. Der Lagrangeterm im Zielfunktional von (2.5) wird in einen Mayerterm umgewandelt oder mittels einer Quadraturformel mit St¨ utzpunkten im Zustandsgitter diskretisiert; einen Mayerterm ersetzt man durch g(xm+1 ). Die Bedingungen x(0) ∈ M0 und x(T ) ∈ M1 f¨ uhren auf Gleichungs- oder Ungleichungsbeschr¨ankungen f¨ ur die Gr¨oßen x1 und xm+1 . Analog f¨ uhren Steuerbeschr¨ankungen u(t) ∈ U auf Gleichungsoder Ungleichungsbeschr¨ankungen f¨ ur die diskretisierten Steuergr¨oßen u1 , . . . , unu . Bei der rekursiven Diskretisierung4 hingegen werden die Zustandsgr¨oßen x(·) mit Hilfe eines numerischen Integrationsverfahrens f¨ ur die Differentialgleichung (z.B. ein Runge-Kutta-Verfahren) aus dem Problem eliminiert. Man stellt also den Zustand als eine Funktion der Steuerung dar: x(t) = Ψ(u1 , . . . , unu )(t),
(9.10)
die u ur ¨ber ein numerisches Verfahren realisiert wird. Setzt man diesen Ausdruck f¨ x(t) nun ins Zielfunktional ein und approximiert den Lagrangeterm wiederum u ber ¨ eine Quadraturformel, so erkennt man, dass das Problem nur noch von den diskretiur x auftreten, sierten Steuergr¨oßen u1, . . . , unu abh¨angt. (Sollten freie Anfangswerte f¨ so ersetzt man diese durch zus¨atzliche Steuergr¨oßen.) Die Bedingungen x(0) ∈ M0 , x(T ) ∈ M1 und u(t) ∈ U f¨ uhren wiederum auf Gleichungs- oder Ungleichungsbeschr¨ankungen f¨ ur die Steuergr¨oßen. In beiden F¨allen (volle bzw. rekursive Diskretisierung) erhalten wir ein nichtlineares Optimierungsproblem der Form Minimiere F (z) unter g(z) = 0
(9.11)
und h(z) ≤ 0. F¨ ur die L¨osung von (9.11) stehen heute leistungsf¨ahige numerische Verfahren zur Verf¨ ugung. Diese Verfahren orientieren sich in der Regel an den notwendigen Bedingungen f¨ ur ein lokales Minimum von (9.11), siehe Vorlesung u ¨ ber Optimierung. Die folgende Tabelle zeigt die wesentlichen Unterschiede zwischen den resultierenden nichtlinearen Optimierungsproblemen im Falle der vollen und rekursiven Diskretisierungen: 3f¨ uhrt
auf sog. all-at-once methods Einfachschießen (engl.: direct single shooting), f¨ uhrt auf sog. black-box methods
4auch: direktes
¨ 9. NUMERISCHE LOSUNG OPTIMALER STEUERPROZESSE
volle Diskretisierung
67
rekursive Diskretisierung
z umfasst diskretisierten Zustand und z umfasst nur die diskretisierte SteueSteuerung. rung. g(z) = 0 enth¨alt die Differentialglei- Die Differentialgleichung ist jederzeit chung in diskretisierter Form; diese n¨aherungsweise (im Sinne des benutzullt. wird nur im optimalen Punkt n¨ahe- ten Integrationsverfahrens) erf¨ rungsweise erf¨ ullt. Der Gradient fz (z) und die Jacobima- Der Gradient fz (z) und die Jacobimatrizen hz (z) und gz (z) sind relativ ein- trizen hz (z) und gz (z) erfordern die Differentiation des Integrationsverfahrens fach zu berechnen. nach den Steuergr¨oßen. Es ist auch eine Relaxierung der rekursiven Diskretisierung m¨oglich, bei der der Zustand nicht auf dem gesamten Intervall [0, T ], sondern jeweils nur auf Teilintervallen gem¨aß (9.7) u ¨ ber ein numerisches Integrationsverfahren als Funktion der Steuerung dargestellt wird. Dazwischen werden sogenannte Mehrzielknoten eingef¨ uhrt, und es werden zus¨atzliche Gleichungsnebenbedingungen gefordert, die f¨ ur einen stetigen ¨ Ubergang sorgen. Diese Verfahren heißen direkte Mehrfachschießverfahren5 , vgl. mit dem Mehrfachschießen bei der indirekten Methode. Vor- und Nachteile direkter Verfahren: (1) Direkte Verfahren k¨onnen ohne Kenntnisse des Minimumprinzips verwendet werden. (2) Die adjungierten Differentialgleichungen m¨ ussen nicht aufgestellt werden. Trotzdem kann aus den sogenannten Lagrange-Multiplikatoren, die ein Optimierungsverfahren zur¨ uckliefert, eine Sch¨atzung der adjungierten Variablen gewonnen werden. (3) Durch Verwendung von Globalisierungstechniken im Optimierungsverfahren sind direkte Verfahren oft nicht auf eine gute Startsch¨atzung der L¨osung angewiesen. Auch die Struktur der L¨osung muss nicht a priori bekannt sein.
5engl.:
direct multiple shooting
68
4. AUSBLICK
10. Optimale Steuerung partieller Differentialgleichungen W¨ahrend sich diese Vorlesung mit Optimalsteueraufgaben f¨ ur gew¨ohnliche Differentialgleichungen (ODE) besch¨aftigt, gewinnen etwa seit den 1990er Jahren Optimalsteueraufgaben f¨ ur partielle Differentialgleichungen (PDE) zunehmend an Bedeutung. Im Unterschied zu ODEs lassen sich PDEs leider nicht in einer einheitlichen Form wie x˙ = f (t, x, u) schreiben. Man unterscheidet vielmehr verschiedene Typen von PDEs, etwa bei Gleichungen zweiter Ordnung zwischen elliptischen, parabolischen und hyperbolischen Gleichungen (siehe Vorlesung u urlich ¨ber PDEs). Daneben k¨onnen nat¨ Systeme von PDEs auftreten, bei denen mehrere Typen gleichzeitig vorkommen. Wir wollen und k¨onnen hier nur eine kurze Einf¨ uhrung in die optimale Steuerung mit partiellen Differentialgleichungen geben und beschr¨anken uns daher auf ein Beispiel mit einer linearen elliptischen PDE zweiter Ordnung. Beispiel 10.1 (Optimale Aufheizung eines Raumes): Wir betrachten einen Raum mit zwei Fenstern, der durch zwei Heizk¨orper (bzw. Felder einer Fußbodenheizung) beheizt werden soll (siehe Abbildung).
Dabei entweicht W¨arme u ¨ber die W¨ande und Fenster. Wir geben nun eine partielle Differentialgleichung an, die die W¨armeverteilung im Raum im station¨aren, also zeitlich unver¨andlichen Fall beschreibt. Wir bezeichnen mit Ω = (−1, 1) × (−1, 1) ⊂ R2 die Grundfl¨ache des Raumes und mit T (~x) die Temperatur am Punkt ~x = (x1 , x2 ) ∈ Ω. Die Verteilung der Temperatur wird beschrieben durch eine station¨are Diffusionsgleichung, die sogenannte Poisson-Gleichung −∆T (~x) = f (~x).
2
2
∂ ∂ x) + ∂x x), Hierbei ist ∆ der Laplace-Operator, definiert durch ∆T (~x) = ∂x 2 T (~ 2 T (~ 1 2 und f (~x) bezeichnet eine ortsabh¨angige W¨armequelle. In unserem Fall w¨are also ( u(~x) auf der beheizten Fl¨ache f (~x) = 0 sonst.
10. OPTIMALE STEUERUNG PARTIELLER DIFFERENTIALGLEICHUNGEN
69
Dabei ist u(~x) die Steuerung, die hier auf einem Teil der Grundfl¨ache Ω definiert ist und deshalb verteilte Steuerung genannt wird, im Gegensatz zur Randsteuerung. Bezeichnen wir die beheizte Fl¨ache mit C ⊂ Ω und die charakteristische Funktion auf C mit χC , so k¨onnen wir f¨ ur die W¨armequelle kurz f (~x) = χC (~x) u(~x) schreiben. ¨ F¨ ur die Festlegung der Randbedingungen stellen wir folgende Uberlegung an: Die W¨armemenge, die u ber die W¨ a nde und Fenster entweicht, wird proportional der ¨ Differenz zwischen den Temperaturen innen und außen sein. Dieses ist auch als Newtonsches Gesetz der W¨armeleitung bekannt. Die Proportionalit¨atszahl α h¨angt von der Isolierf¨ahigkeit des Mauer- bzw. Fenstermaterials ab und wird in unserem Beispiel sinnvollerweise eine Funktion des Ortes sein, da sich W¨ande und Fenster abwechseln. Wir erhalten die folgende Randbedingung auf dem Rand ∂Ω unseres Gebietes Ω: ∂ T (~x) = α(~x) (T∞ − T (~x)). ∂n ∂ T (~x) ist die NormalDabei bezeichnet T∞ die (konstante) Außentemperatur, und ∂n ableitung von T in Richtung des ¨außeren Normalenvektors n. Wir k¨onnen die diesem Beispiel zugrunde liegende elliptische partielle Differentialgleichung also wie folgt zusammenfassen: −∆T = χC u auf Ω (10.1) ∂ T = α (T∞ − T ) auf ∂Ω. ∂n Wie bei Optimalsteueraufgaben mit gew¨ohnlichen Differentialgleichungen nennen wir T den Zustand des Systems, der von der Steuerung u u ¨ ber die Differentialgleichung abh¨angt. Weiters definieren wir wieder ein Zielfunktional, das von Zustand und Steuerung abh¨angen kann. Im Beispiel k¨onnten wir etwa darauf abzielen, dass die Temperatur m¨oglichst wenig von einer gew¨ unschten Temperatur Tg abweicht und Terme wie kT − Tg k in irgendeiner geeigneten Norm (z.B. L2 (Ω) oder L∞ (Ω)) ins Zielfunktional aufnehmen. Man bevorzugt jedoch Terme mit besseren Differentiationseigenschaften und verwendet stattdessen gerne 1 γ F (T, u) = kT − Tg k2L2 (Ω) + kuk2L2 (C) 2Z 2 Z (10.2) 1 γ 2 2 = (T (~x) − Tg (~x)) d~x + u(~x) d~x 2 Ω 2 C als Zielfunktional. Das Analogon dazu f¨ ur ODEs haben wir beim Regulator¨ Problem (8.4) kennengelernt (siehe auch 6. Ubungsblatt, Aufgaben 16 und 17). Der zweite Term in F (T, u) mit γ > 0 kann als Kontrollkosten verstanden werden. Er sichert hier aber auch die L¨osbarkeit der Aufgabe (um die wir uns ja bisher nicht gek¨ ummert haben). Obwohl man andere Methoden als die Formulierung mit der Hamiltonfunktion verwendet, gelangt man auch bei PDE-Optimalsteueraufgaben zu einem System notwendiger Bedingungen f¨ ur ein optimales Paar (T, u), das sich in unserem Beispiel wie folgt schreiben l¨asst (vergleiche Minimumprinzip Satz 6.1): Es sei (T ∗ , u∗) eine optimale L¨osung. Dann existiert eine Funktion λ (adjungierter Zustand), so dass die folgenden Aussagen gelten:
70
4. AUSBLICK
(i) Es gilt die Minimumbedingung fast u ¨berall auf C.
γu − λ = 0
(10.3)
(ii) Es gilt die adjungierte Differentialgleichung −∆λ = −(T − Tg ) auf Ω (10.4) ∂ λ+αλ = 0 auf ∂Ω. ∂n Man beachte, dass hier der entartete Fall“ von vornherein ausgeschlossen ” ist. Transversalit¨atsbedingung, der Fall der freien Endzeit und der autonome Fall (siehe Satz 6.1 (iii)–(v)) entfallen, da unser Problem station¨ar (nicht zeitabh¨angig) ist. Geeignete Funktionenr¨aume im Beispiel sind die Sobolev-R¨aume u ∈ L2 (C),
T ∈ H 1 (Ω),
λ ∈ H 1 (Ω).
Wir betrachten noch die optimale L¨osung unseres Beispiels, wenn wir 0 an den W¨anden α(~x) = 1 am unteren (großen) Fenster 2 am oberen (kleinen) Fenster
sowie f¨ ur die gew¨ unschte Temperatur Tg (~x) ≡ 18, f¨ ur die Außentemperatur T∞ = −2 0 und f¨ ur die Kontrollkosten γ = 10 ansetzen. Die untenstehende Abbildung zeigt die optimale Temperaturverteilung (links), die mit der optimalen Steuerung (rechts) erzeugt wurde. F¨ ur die numerische L¨osung wurde das Problem mit Hilfe der Methode der finiten Elemente (FEM) diskretisiert.
Deutlich ist der W¨armeverlust u ¨ber die Fenster sowie die schlechtere Isolation des oberen Fensters zu erkennen. ⋄
Literaturverzeichnis [BH75] A. Bryson and Y. Ho. Applied Optimal Control—Optimization, Estimation, and Control. Hemisphere Publishing Corporation, New York, 1975. [FH86] G. Feichtinger and R. F. Hartl. Optimale Kontrolle ¨okonomischer Prozesse. Walter de Gruyter & Co., Berlin, 1986. [Heu91] H. Heuser. Gew¨ohnliche Differentialgleichungen. Teubner, Stuttgart, 1991. [IT79] A. D. Ioffe and V. M. Tichomirov. Theorie der Extremalaufgaben. VEB Deutscher Verlag der Wissenschaften, Berlin, 1979. [KK74] H. W. Knobloch and F. Kappel. Gew¨ohnliche Differentialgleichungen. Teubner, Stuttgart, 1974. [Kno81] H. W. Knobloch. Higher Order Necessary Conditions in Optimal Control Theory. Springer, New York, 1981. [LM67] E.B. Lee and L. Markus. Foundations of Optimal Control Theory. Wiley, New York, 1967. [MS82] J. Macki and A. Strauss. Introduction to Optimal Control Theory. Springer, New York, 1982. [SB05] J. Stoer and R. Bulirsch. Numerische Mathematik Band 2. Springer, Berlin, 2005.
71