Mathematische Grundlagen der Informatik Algebra, Graphen, Analysis, Stochastik, Numerik H. Hollatz
2 ¨ Letzte Anderung am 8. Mai 2001 hh (http://horst.hollatz.de;
[email protected]).
3
Anmerkung. Die hier dargelegte Vorlesung halte ih seit dem Jahre 1985, dem Beginn de udiengange Informatik an der damaligen Otto-von-Guericke-Hohshule in Magdeburg. Auf Drängen mehrerer Kollegen au der Informatik (aber ohne ihre gerätetehnishe Hilfe) habe ih im urmherbst de Jahre 1989 mit der Niedershrift begonnen. Im Jahre 1993 entshied ih mih unter dem Druck der neuen Medien, da Manuskript vollständig
zu überarbeiten und ihm die hiermit vorliegende Form
zu geben. Da Manuskript enthält den vollständigen, niht erweiterten, um die eigenen Meinungen und Erlebnisse gekürzten Text der 4stündigen Vorlesung und besteht au den folgenden Teilen: 1. Algebra 2. lineare Algebra, 3. Graphentheorie, 4. Analysi, 5. ohastik, 6. Numerik. Die Teile werden innerhalb von 3 Semestern in der angegebenen Reihenfolge gelesen. Bi
zum Jahre 1999 war die eine 4-semestrige Vorlesung und enthielt auÿerdem Einführungen in die mathematishe Logik und die lineare Optimierung. Seit dem Jahre 2000 gibt e einen Programm-Anhang, der erweitert wird. Die C++-Programme können über meine www-Seite bezogen werden. Da Manuskript ist kein Ersa für die Vorlesung, wa der geneigte Interessent beim Lesen bald merken wird. Neben der Vermittlung von grundlegendem, mathematishem Wissen besteht da Ziel der Einführung niht vorrangig im Beshreiben und Üben mathematisher Tehniken, sondern im Erlernen der mathematishen Denk- und Ausdrucksweise, treu dem Grundsa: Niht da Ziel ist da Leben, sondern der Weg, auh dann, wenn man da Ziel verfehlt. Da Wesen der Mathematik besteht niht in ihren Resultaten, sondern in den Methoden, mit denen sie erreiht wurden. Bei 28 Vorlesungen pro Semester ist e nur mit groÿer Kon
zentration möglih, den offumfang
zu shaffen. Die wird
4
ershwert bzw. unmöglih gemaht, fall durh Feiertage entstehende Ausfalltage während eine Semester niht nahgeholt werden. Von udenten und Kollegen habe ih vielfahe Unterstüung erhalten, wofür ih mih herzlih bedanke. Besonder möhte ih Frau Bianca Truthe hervorheben, die die Zeihnungen angefertigt und da gesamte Manuskript kritish korrigierend studiert hat; fruhtbare reitgesprähe mit ihr haben
zu Veränderungen der Darstellung geführt, die auh al Verbesserungen anzusehen sind. Die Übungsaufgaben wurden wesentlih von Frau Ute Förster
zusammengestellt; sie konnte dabei Sammlungen meiner anderen Übungsleiter verwenden, wie
z. B. von Dr. Peter S
zyler, Dr. Norbert Shieweck und Dr. Mihael Shaper. Ih danke ihnen allen. Mir ist bewuÿt, daÿ die Übungsaufgaben niht den heutigen inhaltlihen Anforderungen, wohl aber der aktuellen Übungsliteratur entsprehen. Shwerpunkte der Übungen sollten insbesondere die warum-maht-man-da-so-Frage, da mathematishe Modellieren, da Finden von Algorithmen für Aufgaben au Mathematik und Informatik, da Entsheiden von Effizienzkriterien bei Algorithmen, da Finden von Ursahen, die
zum Versagen von Algorithmen führen, sein. In diesem Sinne werden die Übungsaufgaben laufend überarbeitet. Desgleihen ermögliht die vorliegende Neversion, Korrekturen, Verbesserungen und Aktualisierungen in kurzen Zeitabständen einzuarbeiten. 1
1
Die hier dargelegte Vorlesung halte ich seit dem Jahre 1985, dem Beginn des Studienganges Informatik an der damaligen Otto-vonGuericke-Hochschule in Magdeburg. Auf Dr¨ angen mehrerer Kollegen aus der Informatik (aber ohne ihre ger¨ atetechnische Hilfe) habe ich im Sturmherbst des Jahres 1989 mit der Niederschrift begonnen. Im Jahre 1993 entschied ich mich unter dem Druck der neuen Medien, das Manuskript vollst¨ andig zu u alt den vollst¨ andigen, nicht erweiterten, ¨ berarbeiten und ihm die hiermit vorliegende Form zu geben. Das Manuskript enth¨ um die eigenen Meinungen und Erlebnisse gek¨ urzten Text der 4-st¨ undigen Vorlesung und besteht aus den Teilen Algebra, lineare Algebra, Graphentheorie, Analysis, Stochastik, Numerik. Die Teile werden innerhalb von 3 Semestern in der angegebenen Reihenfolge gelesen. Bis zum Jahre 1999 war dies eine 4-semestrige Vorlesung und enthielt außerdem Einf¨ uhrungen in die mathematische Logik und die lineare Optimierung. Seit dem Jahre 2000 gibt es einen Programm-Anhang, der erweitert wird. Die C++-Programme k¨ onnen u ¨ ber meine www-Seite bezogen werden. Das Manuskript ist kein Ersatz f¨ ur die Vorlesung, was der geneigte Interessent beim Lesen bald merken wird. Neben der Vermittlung von ¨ grundlegendem, mathematischem Wissen besteht das Ziel der Einf¨ uhrung nicht vorrangig im Beschreiben und Uben mathematischer Techniken, sondern im Erlernen der mathematischen Denk- und Ausdrucksweise, treu dem Grundsatz: Nicht das Ziel ist das Leben, sondern der Weg, auch dann, wenn man das Ziel verfehlt. Das Wesen der Mathematik besteht nicht in ihren Resultaten, sondern in den Methoden, mit denen sie erreicht wurden. Bei 28 Vorlesungen pro Semester ist es nur mit großer Konzentration m¨ oglich, den Stoffumfang zu schaffen. Dies wird erschwert bzw. unm¨ oglich gemacht, falls durch Feiertage entstehende Ausfalltage w¨ ahrend eines Semesters nicht nachgeholt werden. Von Studenten und Kollegen habe ich vielfache Unterst¨ utzung erhalten, wof¨ ur ich mich herzlich bedanke. Besonders m¨ ochte ich Frau Bianca Truthe hervorheben, die die Zeichnungen angefertigt und das gesamte Manuskript kritisch korrigierend studiert hat; fruchtbare Streitgespr¨ ache ¨ mit ihr haben zu Ver¨ anderungen der Darstellung gef¨ uhrt, die auch als Verbesserungen anzusehen sind. Die Ubungsaufgaben wurden wesentlich ¨ von Frau Ute F¨ orster zusammengestellt; sie konnte dabei Sammlungen meiner anderen Ubungsleiter verwenden, wie z. B. von Dr. Peter Szyler, Dr. Norbert Schieweck und Dr. Michael Schaper. Ich danke ihnen allen. ¨ ¨ Mir ist bewußt, daß die Ubungsaufgaben nicht den heutigen inhaltlichen Anforderungen, wohl aber der aktuellen Ubungsliteratur entsprechen. ¨ Schwerpunkte der Ubungen sollten insbesondere die warum-macht-man-das-so-Frage, das mathematische Modellieren, das Finden von Algorithmen f¨ ur Aufgaben aus Mathematik und Informatik, das Entscheiden von Effizienzkriterien bei Algorithmen, das Finden von Ursachen, die ¨ zum Versagen von Algorithmen f¨ uhren, sein. In diesem Sinne werden die Ubungsaufgaben laufend u oglicht die ¨ berarbeitet. Desgleichen erm¨ vorliegende Netzversion, Korrekturen, Verbesserungen und Aktualisierungen in kurzen Zeitabst¨ anden einzuarbeiten.
Inhaltsverzeichnis 1. Algebra 1.1. Mengen . . . . . . . . . . . . . . . 1.2. Relationen und Abbildungen . . . 1.3. Algebraische Strukturen . . . . . . 1.3.1. Homomorphie . . . . . . . . 1.3.2. Halbgruppen und Gruppen 1.3.3. Ringe und K¨ orper . . . . . ¨ 1.4. Ubungen . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
2. Lineare Algebra 2.1. Vektorr¨ aume . . . . . . . . . . . . 2.2. Algorithmen zum Austauschsatz . 2.3. Lineare Abbildungen und Matrizen 2.4. Lineare Gleichungssysteme . . . . . 2.5. Determinanten . . . . . . . . . . . 2.6. Skalarprodukt und Orthogonalit¨at 2.7. Eigenwerte und Eigenvektoren . . ¨ 2.8. Ubungen . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
57 . 57 . 69 . 76 . 81 . 88 . 91 . 99 . 101
3. Graphentheorie 3.1. Gerichtete und ungerichtete Graphen 3.1.1. Isomorphie von Graphen . . . 3.1.2. Zusammenhang . . . . . . . . 3.2. Relationen, Graphen und Automaten ¨ 3.3. Ubungen . . . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
111 111 113 115 120 123
4. Analysis 4.1. Erinnerung und Neues . . . . . . . . . . . . . . . . 4.2. Folgen . . . . . . . . . . . . . . . . . . . . . . . . . 4.3. Unendliche Reihen . . . . . . . . . . . . . . . . . . 4.4. Stetigkeit und Grenzwerte von Funktionen . . . . . 4.5. Folgen und Reihen von Funktionen . . . . . . . . . 4.6. Eindimensionale Differentialrechnung . . . . . . . . 4.6.1. Differenzierbarkeit . . . . . . . . . . . . . . 4.6.2. Eigenschaften differenzierbarer Funktionen 4.6.3. Taylor-Entwicklung . . . . . . . . . . . . . . 4.6.4. Extremwerte . . . . . . . . . . . . . . . . . 4.6.5. Grenzwertbestimmung . . . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
127 127 129 136 143 148 151 151 155 160 162 164
5
7 7 16 29 29 33 45 47
6
INHALTSVERZEICHNIS 4.6.6. Potenzreihen . . . . . . . . 4.7. Integralrechnung . . . . . . . . . . 4.7.1. Das bestimmte Integral . . 4.7.2. Eigenschaften integrierbarer 4.7.3. Integrationsmethoden . . . 4.7.4. Uneigentliche Integrale . . . ¨ 4.8. Ubungen . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . Funktionen . . . . . . . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
166 168 168 170 175 179 181
5. Stochastik 5.1. Wahrscheinlichkeit . . . . . . . . . . . . . . . . 5.1.1. Wahrscheinlichkeit zuf¨ alliger Ereignisse 5.1.2. Zufallsgr¨ oßen und Verteilungsfunktionen 5.1.3. Einige diskrete Verteilungen . . . . . . . 5.1.4. Einige stetige Verteilungen . . . . . . . 5.1.5. Grenzwerts¨ atze . . . . . . . . . . . . . . 5.2. Anwendungen in Simulation und Statistik . . . 5.2.1. Erzeugung von Pseudozufallszahlen . . . 5.2.2. Monte-Carlo-Methoden . . . . . . . . . 5.2.3. Vertrauensintervalle . . . . . . . . . . . 5.2.4. Testen von Hypothesen . . . . . . . . . 5.2.5. Tabellen von Verteilungen . . . . . . . . ¨ 5.3. Ubungen . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
191 191 191 195 202 206 213 215 215 216 217 221 224 229
6. Numerische Mathematik 6.1. Einf¨ uhrung . . . . . . . . . . . . . . . . . 6.2. Rechnerzahlen und Rundung . . . . . . . 6.3. Interpolation . . . . . . . . . . . . . . . . 6.4. Numerische Integration . . . . . . . . . . 6.5. Numerisches Differenzieren . . . . . . . . 6.6. Lineare Gleichungssysteme . . . . . . . . . 6.6.1. Householder-Transformation . . . . 6.6.2. Symmetrische Matrizen . . . . . . 6.6.3. Große, schwach besetzte Matrizen 6.6.4. Ausgleichungsrechnung . . . . . . . 6.7. Nullstellen nichtlinearer Gleichungen . . . ¨ 6.8. Ubungen . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
233 233 238 242 249 252 253 257 260 262 268 270 273
7. Programm-Anhang
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
279
Kapitel 1
Algebra 1.1.
Mengen
Die Mathematik zeichnet sich im Geb¨aude der Wissenschaften durch viele Besonderheiten aus; wohl keine andere Wissenschaft ist f¨ahig, innerhalb ihrer Grenzen, mit ihren spezifischen Untersuchungsmethoden, ihre eigenen wissenschaftlichen Grundlagen zu diskutieren. Mathematische Begriffe und Ergebnisse sind so exakt und unmißverst¨andlich, daß jede andere Wissenschaft sich gezwungen sieht, mathematische Methoden anzuwenden, falls sie eine ¨ahnliche Pr¨azision in ihren Resultaten anstrebt. Es scheint fast so, als ob der Mathematisierungsgrad einer Einzelwissenschaft ein Maßstab f¨ ur ihre Seriosit¨ at ist. Auff¨allig wird wohl f¨ ur jeden der hierarchische Begriffsaufbau in der Mathematik sein. M¨ogliche Sachverhalte, die auf viele Objekte zutreffen, werden in Begriffe gefaßt. Um einen Begriffsinhalt festzulegen, braucht man andere Begriffe, deren Inhalte bereits festgelegt sind. Ein hierarchischer Begriffsaufbau muß verst¨ andlicherweise eine oder mehrere Wurzeln haben; das sind Begriffe, deren Inhalte nicht bzw. nicht durch die Mathematik festzulegen sind. Zu diesen atomaren Begriffen geh¨ort der Mengenbegriff. Nach Georg Cantor (ber¨ uhmter Mathematiker des 19. Jahrhunderts) versteht man unter einer Menge die Zusammenfassung von wohlbestimmten und wohlunterschiedenen Objekten aus der Anschauung oder dem Denken, die man Elemente der Menge nennt, zu einem Ganzen. Dies ist keine Definition f¨ ur eine Menge; vielmehr soll hier eine begriffliche Vorstellung von dem gegeben werden, was wir meinen, wenn wir von einer Menge sprechen. Insbesondere d¨ urfen wir nicht in den Fehler verfallen, eine Menge als k¨orperlich gegeben anzusehen. Cantor spricht von der Zusammenfassung von Objekten, also von dem Ergebnis einer gedanklichen T¨atigkeit. Der Mengenbegriff setzt daher voraus, daß es jemanden gibt, der zusammenfaßt. Ob Objekte wohlunterschieden sind, h¨angt wesentlich von dem ab, der Mengen bildet. Der Unterschied zwischen Objekten der Anschauung wird oft durch Eigenschaften der Objekte bestimmt. Eigenschaften wiederum sind meist durch W¨ orter ausgedr¨ uckt. Die Wortbildung innerhalb nat¨ urlicher, lebender Sprachen ist ein nicht endender Prozeß. Mit diesen Schwierigkeiten haben viele Mathematiker lange gerungen, ehe sie sich entschieden haben, den Mengenbegriff als nicht definierbar anzuerkennen. Oft wird es sehr schwierig und aufwendig sein, von einem Objekt zu entscheiden, ob es zu einer Menge geh¨ ort oder nicht. Mengen sind gedankliche Konstrukte des Menschen, die es ihm erm¨oglichen, mit anderen u ¨ber konkrete Dinge zu sprechen. Wenn wir z. B. den Begriff ’Stuhl’ benutzen, so meinen wir damit ein beliebiges Element aus der Menge aller St¨ uhle bzw. aus der Menge aller St¨ uhle in einem Raum. Wenn wir in der Mathematik von der Existenz einer Menge sprechen, 7
8
KAPITEL 1. ALGEBRA
meinen wir stets die Existenz als gedankliche Konstruktion; ihre reale Existenz dagegen muß man bezweifeln bzw. sch¨ arfer: Mengen gibt es real nicht. Die begriffliche Vorstellung einer Menge l¨aßt sehr beliebige Mengenbildungen zu; so gen¨ ugt es insbesondere, eine oder mehrere Eigenschaften anzugeben, durch die die Elemente der betreffenden Menge charakterisiert werden sollen, um sie so von anderen Objekten zu unterscheiden. Den daf¨ ur verwendbaren Eigenschaften sind keine Bedingungen auferlegt, so daß man sehr merkw¨ urdige Eigenschaften zur Mengenbildung heranziehen darf. Der englische Philosoph B. Russel hat zur Bildung einer Menge (wir wollen sie mit A bezeichnen) eine zugelassene Eigenschaft angegeben. Die Elemente der Menge A seien durch die folgende Eigenschaft charakterisiert: Ein Objekt ist genau dann Element der Menge A, wenn es sich nicht selbst als Element enth¨ alt. Wir fragen nun danach, ob die Menge A selbst Element dieser Menge ist. Sollte sie es sein, w¨are sie ein Objekt, das sich selbst als Element enth¨alt und k¨onnte daher nicht zur Menge geh¨oren. Geh¨ort sie aber nicht zur Menge, so ist sie ein Objekt, das sich nicht selbst als Element enth¨alt und m¨ ußte daher zur Menge geh¨ oren. Kurzum: Wie wir es auch drehen, es entsteht ein logischer Widerspruch, der gel¨ost werden kann, indem man solche Konstruktionen ausschließt. Dies wird noch dadurch unterst¨ utzt, daß solche Mengenbildungen in keinen wirklichen mathematischen Anwendungen vorkommen. Praktische Mengenbildungen gehen von einem stufenf¨ormigen Aufbau aus: Grundbereich - Mengen - Mengensystem - Mengenfamilie - . . ., wobei Teilmengen von Mengen einer Stufe Elemente der n¨achsten sind und niemals der gleichen. F¨ ur die Bildung von Mengensystemen d¨ urfen als Objekte nur Mengen genommen werden. In irgendeiner Menge von L¨ andern der Erde hat z. B. ein einzelner Mensch nichts zu suchen. Wenn man u ¨ber Tierarten spricht, d. h. u ¨ber Teilmengen der Menge aller Tiere, so macht man keine Aussagen u ¨ber einzelne Tiere, sondern stets u ¨ber jene Teilmengen, die man zur Mengenbildung zugelassen hat. Oder anders: Eine Aussage u ¨ber die Menschheit ist etwas prinzipiell anderes als eine Aussage u ¨ber jeden einzelnen Menschen oder jedes Mitglied einer Gruppe von Menschen. Eine Aussage u ¨ber die Menschheit wird nicht dadurch fragw¨ urdig oder gar falsch, daß sie m¨oglicherweise in ihrer Wirkung auf einzelne Menschen unannehmbar ist. Die beiden Aussagen ’Die Medizin ist ein Segen f¨ ur Menschen’ und ’Die Medizin schadet der Menschheit’ sind zwei Aussagen, die sich nicht ausschließen; sie sprechen u ¨ber Objekte aus unterschiedlichen Grundbereichen (wohl bestehen Beziehungen, Relationen zwischen ihnen). Durch den stufenf¨ormigen Aufbau werden Widerspr¨ uche vermieden. Die Mengenerkl¨ arung von Cantor interpretieren wir nun so, daß man zu einer gegebenen Aussage H alle jene Objekte x eines Grundbereiches E , auf die H zutrifft, zu einer Menge zusammenfassen darf, d. h. wir postulieren das Mengenbildungsprinzip. Axiom 1..1 (Mengenbildungsprinzip). Es gibt eine Menge X, die genau die Objekte x enth¨ alt, auf die H zutrifft. In Zweifelsf¨allen, bei denen aus dem Zusammenhang nicht klar hervorgeht, woher die Objekte zu nehmen sind, ist anzugeben, innerhalb welches Grundbereiches E die Betrachtungen verlaufen. In der Informatik nennt man einen solchen Grundbereich gew¨ohnlich auch Universum. Die entstehenden Mengen sind neue, aber abstrakte Objekte. So ist etwa eine Menge von Zahlen etwas anderes als eine Zahl, selbst dann, wenn sie nur ein Element enth¨alt. Es ist daher nicht sinnvoll zu fragen, ob eine Menge von Elementen des Universums Element einer anderen Menge von Elementen des gleichen Universums ist. Jedoch bildet die Gesamtheit aller u ¨ber einem Grundbereich herstellbaren Mengen ein neues Universum, auf das wiederum das Mengenbildungsprinzip angewendet werden darf. Die dabei entstehenden Mengen nennt man Mengensysteme oder Mengen zweiter Stufe.
1.1. MENGEN
9
F¨ ur die Mathematik ist es zweckm¨ aßig, auch die sog. leere Menge zuzulassen; also eine Menge, auf deren Elemente keine Aussage zutrifft und die daher auch kein Element enth¨alt; sie wird mit ∅ bezeichnet. Die Zugeh¨ origkeit eines Objektes x zu einer Menge X schreibt man in der Form x ∈ X“ und spricht: x ist Element von X“. Falls x nicht Element von X ist, schreibt man x ∈ / X. ” ” Mengen kann man durch Auflisten ihrer Elemente oder durch eine Eigenschaft, die allen Elementen der Menge gemeinsam ist, darstellen: X = { x, y, z, . . . } oder X = { x | x hat die Eigenschaft H } . F¨ ur die letztere Form schreibt man auch X = { x | H(x) }. Hier sei auf eine wichtige Tatsache hingewiesen: Mengen sind unsortiert und unnumeriert; jedes Element des Universums tritt in h¨ochstens einem Exemplar in einer Menge auf. Bei der Angabe von Eigenschaften benutzen wir gelegentlich abk¨ urzende Zeichen, die der mathematischen Logik entlehnt sind: ∀ ∃ ⇐⇒ =⇒ ∧ ∨ ¬
f¨ ur alle . . . bzw. f¨ ur jedes . . . oder zu jedem . . . es gibt (mindestens) ein . . . genau dann, wenn . . . daraus folgt, daß . . . und oder (nicht ausschließend) Verneinung (Negation)
Die eine Menge definierende Eigenschaft ist nicht eindeutig bestimmt; also k¨onnen verschiedene Eigenschaften die gleiche Menge definieren. Daher ben¨otigen wir ein Grundprinzip, das uns sagt, wann zwei Mengen aus dem gleichen Universum u ¨bereinstimmen, gleich sind. Die Gleichheit von Mengen wird festgelegt durch das Axiom 1..2 (Extensionalit¨ atsprinzip). Zwei Mengen sind genau dann gleich, wenn sie die gleichen Elemente enthalten. Das Extensionalit¨ atsprinzip k¨ onnen wir auch so ausdr¨ ucken: Zwei Mengen X und Y sind genau dann gleich, wenn f¨ ur jedes x gilt: x ∈ X genau dann, wenn x ∈ Y ; in Zeichen: X = Y ⇐⇒ ∀x(x ∈ X ⇐⇒ x ∈ Y ). Damit ist eine wichtige inhaltliche Vorstellung fixiert, die an den Mengenbegriff gebunden sein soll: Unabh¨ angig davon, durch welche Aussage eine Menge urspr¨ unglich definiert wurde, ist sie durch die in ihr enthaltenen Elemente eindeutig bestimmt. Zu jeder Aussage H u ¨ber Objekte eines gegebenen Universums gibt es genau eine Menge X, die alle und nur die Objekte x als Elemente enth¨alt, auf die die Aussage H zutrifft. Denn aus ∀x(x ∈ X ⇐⇒ H(x)) ∧ ∀x(x ∈ Y ⇐⇒ H(x)) folgt ∀x(x ∈ X ⇐⇒ x ∈ Y ) und nach dem Extensionalit¨atsprinzip ist X = Y . In der Mathematik hat man auch Mengen zu bilden, f¨ ur deren Elemente sich nicht eine gemeinsame Eigenschaft angeben l¨ aßt. Solche Mengenbildungen verwenden das Axiom 1..3 (Auswahlprinzip). Zu jedem nichtleeren Mengensystem mit paarweise elementfremden Mengen gibt es eine Menge, die mit jeder Menge des Systems genau ein Element gemeinsam hat.
10
KAPITEL 1. ALGEBRA
Eine nach dem Auswahlprinzip gebildete Menge nennt man Auswahlmenge. Das Auswahlprinzip besagt, daß man aus jeder Menge eines Mengensystems mit paarweise elementfremden Mengen genau ein Element ausw¨ ahlen und die ausgew¨ahlten Elemente zu einer neuen Menge zusammenfassen darf. Die Auswahl kann nach sehr verschiedenen Vorschriften erfolgen, so daß die Mengenbildung nach dem Auswahlprinzip nicht eindeutig ist. So kann man z. B. aus der Menge aller geraden Zahlen und der Menge aller ungeraden Zahlen beliebige Mengen mit genau zwei Elementen bilden, von denen das eine eine gerade und das andere eine ungerade Zahl ist. Aus der Schule sind bereits wichtige Beispiele f¨ ur Zahlenmengen bekannt: N: N0 : Z: Q: R:
Menge Menge Menge Menge Menge
der der der der der
nat¨ urlichen Zahlen ohne 0, nat¨ urlichen Zahlen mit 0, ganzen Zahlen, rationalen Zahlen, reellen Zahlen.
Die u ¨blichen Rechenregeln in diesen Zahlenmengen nehmen wir als bekannt an. Speziell wissen wir auch, daß jede Menge von nat¨ urlichen Zahlen ein kleinstes Element enth¨alt. Weiter sei an das Prinzip der vollst¨ andigen Induktion erinnert. Dazu sei H eine von einer nat¨ urlichen Zahl n abh¨ angende Aussage. Das Induktionsprinzip lautet dann: • Es gibt eine nat¨ urliche Zahl n0 mit: H(n0 ) ist eine wahre Aussage. • F¨ ur alle n > = n0 gilt: Aus H(n) folgt H(n + 1). • Dann gilt die Aussage H f¨ ur alle n > = n0 . In formalisierter Form lautet dieses Prinzip: > ∃n0 ((H(n0 ) ∧ ∀n((n > = n0 ) ∧ H(n) =⇒ H(n + 1))) =⇒ ∀n(n = n0 =⇒ H(n))).
Die erste genannte Eigenschaft nennt man Induktionsanfang, die zweite heißt Induktionsschluß; die Voraussetzung darin nennt man Induktionsannahme. Den Induktionsschluß kann man gleichwertig durch die folgende Formulierung ersetzen: • F¨ ur alle n > = n0 gilt: Aus H(k) mit k
< =
n folgt H(n + 1).
Das Prinzip der vollst¨ andigen Induktion dient zum Beweisen von Aussagen und zur induktiven Definition bzw. Konstruktion von Objekten unterschiedlichster Art: Man gibt erste Objekte die atomaren Elemente - an und verk¨ undet ein Verfahren, mit dem man aus schon vorhandenen Objekten neue gewinnen kann. Zu jedem Objekt geh¨ort dann eine nat¨ urliche Zahl n, so daß man durch n-malige Anwendung des Verfahrens das Objekt aus den atomaren Elementen gewinnen kann; das Objekt ist damit n-stufig aus den atomaren Elementen ableitbar. Damit ist jedem Objekt eine nat¨ urliche Zahl zugeordnet, u ¨ber die man Aussagen mit vollst¨andiger Induktion beweisen kann. Diese Vorgehensweise wird in der mathematischen Logik und theoretischen Informatik sehr oft angewendet. Wir wollen zwei Beispiele f¨ ur die Anwendung der vollst¨andigen Induktion betrachten. Gegeben sei eine Schokoladentafel, die in einzelne Riegel gebrochen werden soll, wobei u ¨ber einen Bruch nicht gebrochen werden darf. Wie groß ist die minimale Anzahl von Br¨ uchen? Wir behaupten dazu folgendes: Wenn die Tafel n Riegel hat, dann muß unabh¨angig von dem benutzten Bruchverfahren stets (n − 1)-mal gebrochen werden.
1.1. MENGEN
11
Beweis. Den Beweis dieser Aussage f¨ uhren wir durch vollst¨andige Induktion u ¨ber die Anzahl n der Riegel. F¨ ur n = 1 ist die Behauptung offenbar richtig, denn eine Tafel mit genau einem Riegel muß nicht mehr gebrochen werden. Hiermit ist der Induktionsanfang in diesem Falle bereits abgeschlossen; die atomaren Elemente (im Sinne der induktiven Definition von Objekten) sind alle Schokoladentafeln mit genau einem Riegel. F¨ ur den Induktionsschluß haben wir zu zeigen: Wenn alle Tafeln mit m Riegeln, m < ussen, = n, genau (m − 1)-mal gebrochen werden m¨ so wird jede Tafel mit n + 1 Riegeln genau n-mal gebrochen. Nehmen wir also eine beliebige Tafel mit n+1 Riegeln und versuchen, eine raffinierte Bruchmethode anzuwenden. Egal, wie diese Methode auch arbeitet: Nach dem ersten Bruch entstehen stets zwei kleinere Tafeln, von denen die eine etwa m und die andere dann n+1−m Riegel hat; wichtig ist f¨ ur uns, daß jede der beiden h¨ ochstens n Riegel hat. Nun k¨onnen wir auf beide die Induktionsannahme anwenden: Die eine Tafel wird mit m − 1 und die zweite mit n + 1 − m − 1 = n − m Br¨ uchen zerlegt, was zusammen mit dem Anfangsbruch gerade (m − 1) + (n − m) + 1 = n Br¨ uche liefert; dies war aber unsere Induktionsbehauptung. Nach dem Induktionsprinzip gilt damit die eingangs aufgestellte Behauptung Als zweites Beispiel betrachten wir die Frage, wie man den gr¨oßten gemeinsamen Teiler ggT(m, n) urliche Zahl d, zweier nat¨ urlicher Zahlen m, n mit m > = n ermitteln kann. Wir suchen also eine nat¨ die einerseits m und n teilt und andererseits die Eigenschaft hat, daß jeder Teiler von d auch die beiden Zahlen m und n teilt. Setzen wir m0 = m − n, so ist jeder Teiler von m und n auch ein Teiler von m0 ; umgekehrt ist jeder Teiler von m0 auch ein Teiler von m und n. Deshalb gilt ggT(m, n) = ggT(m0 , n),
m0 = m − n.
Damit ist die Suche nach dem gr¨ oßten gemeinsamen Teiler auf einen einfacheren Fall reduziert, sofern nicht m0 = 0 ausf¨ allt. In diesem Falle ist aber m = n und daher ggT(m, n) = m. Aus diesen ¨ Uberlegungen ergibt sich ein Weg, wie man den gr¨oßten gemeinsamen Teiler ermitteln kann: Wir 0 teilen m durch n mit Rest und setzen m = an + m0 mit 0 < = m < n. Danach wiederholen wir diesen 0 Prozeß mit n und m . Sei z. B. n0 = 5725, n1 = 135. Dann folgt 5725 = 42 · 135 + 55, 135 = 2 · 55 + 25, 55 = 2 · 25 + 5, 25 = 5 · 5 + 0, also ggT(5725, 135) = ggT(135, 55) = ggT(55, 25) = ggT(25, 5) = 5. Diese Methode ist als euklidischer Algorithmus bekannt. Satz 1..1 (Euklidischer Algorithmus). Zu je zwei nat¨ urlichen Zahlen n0 Zahlen n2 , . . . , nk+1 mit nj = aj nj+1 + nj+2 ,
> =
n1 > 0 gibt es
0< = nj+1 < nj+1 , j = 0, . . . , k − 1, nk+1 = 0.
Außerdem gilt nk = ggT(n0 , n1 ). Beweis. Wir f¨ uhren den Beweis durch vollst¨andige Induktion u ur den Induktionsanfang ¨ber n0 . F¨ sei n0 = 1. Dann ist n1 = 1 und somit n0 = 1 · n1 + 0, was uns sagt, daß die Zahl 1 der gr¨ oßte gemeinsame Teiler ist. Betrachten wir nun eine beliebige nat¨ urliche Zahl n0 und nehmen als Induktionsvoraussetzung an, daß die Behauptung f¨ ur n0 − 1 gilt. Wir teilen n0 durch n1 : n0 = a0 · n1 + n2 ,
0< = n2 < n 1 .
12
KAPITEL 1. ALGEBRA
Im Falle n2 = 0 gilt die Behauptung. Andernfalls ist n1 < n0 und wir d¨ urfen die Induktionsvoraussetzung auf n1 anwenden, womit wir die gesuchte Folge n1 , n2 , . . . , nk , nk+1 mit nk+1 = 0 gefunden haben. Aus der Gleichung nj = aj nj+1 + nj+2 ergibt sich ggT(nj , nj+1 ) = ggT(nj+1 , nj+2 ) und daraus durch Induktion u ¨ber j: ggT(n0 , n1 ) = ggT(nk , nk+1 ) = ggT(nk , 0) = nk . Im Programm-Anhang befindet sich ein Programm GGT, in dem mittels des euklischen Algorithmus der gr¨oßte gemeinsame Teiler zweier nat¨ urlicher Zahlen ermittelt werden kann. Wichtige Grundbegriffe der Mengenlehre und damit der Mathematik sind u. a. folgende. Unter einer Teilmenge oder Untermenge X einer Menge Y - symbolisch durch X ⊂ = Y ausgedr¨ uckt - versteht man eine Menge, deren s¨amtliche Elemente auch in Y liegen: X
⊂ =
Y ⇐⇒ ∀x(x ∈ X =⇒ x ∈ Y ).
Y heißt Obermenge von X. Die leere Menge ist nat¨ urlich Teilmenge jeder Menge. Eine Teilmenge heißt echte Teilmenge, wenn es in der Obermenge mindestens ein Element gibt, das nicht in der Untermenge liegt; in Zeichen X ⊂ Y . In diesem Falle heißt Y auch echte Obermenge von X. Die Menge aller Teilmengen einer Menge X heißt Potenzmenge und wird mit P(X) bezeichnet. Die Mathematik studiert vor allem Beziehungen zwischen Objekten, die von ihr selbst ’erfunden’ worden sind. Dieses Erfinden geschieht aber nicht im luftleeren Raum, sondern ist auch an die Brauchbarkeit, Anwendbarkeit in anderen Gebieten oder sogar im Leben gebunden. Die Teilmengenbeziehung hat folgende Eigenschaften, die man wohl m¨ uhelos einsieht: 1. Jede Menge ist Untermenge von sich selbst, d. h. f¨ ur jede Menge X gilt: X
⊂ =
X.
2. Ist eine Menge Untermenge einer anderen und diese Untermenge einer dritten, so ist die erste ⊂ auch Untermenge der dritten, d. h. f¨ ur alle Mengen X, Y, Z gilt: Aus X ⊂ = Y und Y = Z folgt ⊂ X = Z. 3. Wenn eine Menge Untermenge einer anderen ist und umgekehrt, so stimmen beide u ¨berein, ⊂ d. h. f¨ ur alle Mengen X, Y gilt: Aus X ⊂ = Y und Y = X folgt X = Y . Viele Beziehungen zwischen Objekten haben solche Eigenschaften. Wir bezeichnen eine Beziehung abstrakt mit R; gew¨ ohnlich wird eine Beziehung auch mit einem Namen belegt. Betrachten wir Objekte x einer Menge X, so nennen wir eine Beziehung R reflexiv, wenn xRx f¨ ur alle x ∈ X gilt (x steht zu sich in der Beziehung R). Die Beziehung R heißt transitiv, wenn aus xRy und yRz stets folgt, daß auch xRz gilt. Schließlich heißt die Beziehung R antisymmetrisch, wenn aus xRy und yRx stets x = y folgt. Formal stellt sich das so dar: reflexiv : ∀x(xRx). transitiv : ∀x∀y∀z(xRy ∧ yRz =⇒ xRz). antisymmetrisch : ∀x∀y(xRy ∧ yRx =⇒ x = y). Eine Beziehung, f¨ ur die man Reflexivit¨ at, Antisymmetrie und Transitivit¨at nachweisen kann, heißt Halbordnung. So ist z. B. die ’ < ’-Beziehung f¨ ur nat¨ urliche Zahlen eine Halbordnung. = Aus gegebenen Mengen kann man auf sehr verschiedene Weise neue bilden. Dieses stellen wir uns mittels Mengenoperationen vor; einige der wichtigsten Mengenoperationen sollen nun eingef¨ uhrt
1.1. MENGEN
13
werden. Dazu seien X, Y beliebige Mengen von Objekten eines Universums. Wir w¨ahlen als definierende Aussage ’x ∈ X und x ∈ Y ’. Nach dem Mengenbildungsprinzip gibt es dann eine Menge Z, die alle und nur die Objekte als Elemente enth¨alt, die sowohl zu X als auch zu Y geh¨oren: x ∈ Z ⇐⇒ x ∈ X und x ∈ Y. Nach dem Extensionalit¨ atsprinzip ist die Menge Z eindeutig bestimmt; man nennt sie den Durchschnitt der beiden Mengen; in Zeichen: Z = X ∩ Y = { x | x ∈ X ∧ x ∈ Y }. Die Aussage ’x ∈ X oder x ∈ Y ’ liefert die Vereinigung der beiden Mengen: X ∪ Y = { x | x ∈ X ∨ x ∈ Y }. Das W¨ ortchen ’oder’ ist in der Mathematik stets nichtausschließend gemeint (entsprechend auch das Symbol ’∨’). Die Vereinigung enth¨alt also genau jene Elemente, die in wenigstens einer der beiden Mengen X, Y enthalten sind einschließlich aller, die zu beiden Mengen geh¨oren. Das ausschließende Oder (entweder oder) liefert die symmetrische Differenz: X 4 Y = { x | entweder x ∈ X oder x ∈ Y } . Schließlich definieren wir die Mengendifferenz X \ Y als Menge all jener Elemente aus der Menge X, die nicht zu Y geh¨ oren: X \Y ={x|x∈X ∧x∈ / Y }. Sollte bei der Mengendifferenz die Menge Y eine Teilmenge von X sein, so nennt man X \ Y das Komplement bzw. die Komplementmenge von Y in X und bezeichnet sie mit CX (Y ): CX (Y ) = { x | x ∈ X ∧ x ∈ / Y }. Meist liegt bei der Komplementbildung die Menge X, bez¨ uglich derer das Komplement zu bilden ist, dadurch fest, daß man das Universum w¨ahlt; dann schreibt man f¨ ur das Komplement von Y einfach Y . W¨ ahlt man z. B. als Universum die Menge der nat¨ urlichen Zahlen und setzt X = { n | n ist gerade } , Y = { n | n ist Vielfaches von 5 } , so erh¨alt man X \ Y = { n | n ist gerade, aber nicht Vielfaches von 5 } , X = { n | n ist ungerade } , X ∩ Y = { n | n hat die Endziffer 0 } , X ∪ Y = { n | n ist gerade oder hat die Endziffer 5 } . F¨ ur die Mengenoperationen der Vereinigung, des Durchschnitts und der Komplementbildung gelten insbesondere die folgenden Regeln. Dazu sei E ein beliebiges Universum; X, Y, Z seien beliebige Untermengen von E. Wir stellen 9 Rechenregeln fest. Satz 1..2. F¨ ur beliebige Untermengen X, Y, Z eines Universums E gelten die folgenden Aussagen 1. (Kommutativit¨ at) Durchschnitt und Vereinigung sind kommutativ: X ∩ Y = Y ∩ X,
X ∪ Y = Y ∪ X.
14
KAPITEL 1. ALGEBRA
2. (Assoziativit¨ at) Durchschnitt und Vereinigung sind assoziativ: (X ∩ Y ) ∩ Z = X ∩ (Y ∩ Z),
(X ∪ Y ) ∪ Z = X ∪ (Y ∪ Z).
3. (Distributivit¨ at) Durchschnitt und Vereinigung sind distributiv: (X ∪ Y ) ∩ Z = (X ∩ Z) ∪ (Y ∩ Z), (X ∩ Y ) ∪ Z = (X ∪ Z) ∩ (Y ∪ Z). 4. (Idempotenz) Die Operationen Durchschnitt und Vereinigung sind idempotent: X ∩ X = X,
X ∪ X = X.
5. (Absorption) Durchschnitt und Vereinigung sind absorptiv: (X ∪ Y ) ∩ X = X,
(X ∩ Y ) ∪ X = X.
6. (Null und Eins) Leere Menge und Universum wirken als Null bzw. Eins: X ∩ ∅ = ∅,
X ∪ ∅ = X,
X ∩ E = X,
X ∪ E = E.
7. (Komplementregeln): X ∩ X = ∅,
X ∪ X = E,
X = X.
8. (Modulregel): F¨ ur alle Untermengen X
⊂ =
Y und jede Menge Z gilt
X ∪ (Y ∩ Z) = (X ∪ Z) ∩ Y. 9. (de Morgansche Regeln): X ∩Y =X ∪Y,
X ∪Y =X ∩Y.
Man nennt eine Menge mit drei Operationen, die die Eigenschaften 1.-7. haben, eine boolesche Algebra. Daher k¨ onnen wir sagen: Die Potenzmenge P(E ) eines beliebigen Universums E bildet mit den Operationen Durchschnitt, Vereinigung und Komplement eine boolesche Algebra. Zur ¨ Ubung sollten die genannten Regeln vom Leser bewiesen werden. Dazu ein Hinweis. Was ist eigentlich zu beweisen? Auf beiden Seiten der obigen Gleichungen stehen Mengen. Also muß man in allen F¨allen beweisen, daß Mengen gleich sind. Nach dem Extensionalit¨atsprinzip sind zwei Mengen genau dann gleich, wenn sie die gleichen Elemente enthalten. Mit der sog. Tabellenmethode kann man die obigen Regeln leicht beweisen. Eine vollst¨andige Charakterisierung der Mengen X ∩ Y, X ∪ Y, X 4 Y, X \ Y liefert die folgende Tabelle: X 1 1 0 0
Y 1 0 1 0
X ∩Y 1 0 0 0
X ∪Y 1 1 1 0
X 4Y 0 1 1 0
X \Y 0 . 1 0 0
Die vier Zeilen entsprechen den vier m¨ oglichen F¨allen, daß n¨amlich ein gegebenes Objekt x entweder der im Kopf angegebenen Menge angeh¨ ort (durch 1 angedeutet) oder nicht (durch 0 angedeutet). So ist z. B. die dritte Zeile wie folgt zu lesen: Wenn x ∈ / X und x ∈ Y , so ist x ∈ / X ∩ Y, x ∈ X ∪ Y , x ∈ X 4 Y und x ∈ / X \ Y . Gleichzeitig beschreibt die Tabelle den genauen Gebrauch
1.1. MENGEN
15
der logischen Konjunktion (’und’), der Alternative (’oder’) und der Antivalenz (’entweder ... oder’). Die Tabellenmethode zum Beweisen der genannten Regeln besteht nun darin, daß man f¨ ur die in den Regeln auftretenden Mengen entsprechende Tabellen aufstellt. Treten zwei gleiche Spalten auf, so stimmen die betreffenden Mengen u ¨berein, andernfalls nicht. Beispielhaft stellen wir die Beweistabelle f¨ ur die erste Distributivregel auf (mit U = (X ∪ Y ) ∩ Z und V = (X ∩ Z) ∪ (Y ∩ Z)): X 0 0 0 0 1 1 1 1
Y 0 0 1 1 0 0 1 1
Z 0 1 0 1 0 1 0 1
X ∪Y 0 0 1 1 1 1 1 1
U 0 0 0 1 0 1 0 1
X ∩Z 0 0 0 0 0 1 0 1
Y ∩Z 0 0 0 1 0 0 0 1
V 0 0 0 1 . 0 1 0 1
In der Tabelle stimmen die Spalten f¨ ur die Mengen (X ∪ Y ) ∩ Z und (X ∩ Z) ∪ (Y ∩ Z) u ¨berein; also sind beide Mengen gleich. F¨ ur besonders interessierte sei erw¨ahnt, daß die Tabellenmethode durch das Haubersche Theorem gerechtfertigt ist, nach welchem gilt: Wenn die Voraussetzungen gegebener S¨ atze alle m¨ oglichen F¨ alle ersch¨opfen und die Behauptungen sich gegenseitig ausschließen, dann gelten auch die Umkehrungen der S¨atze. Wir wollen noch ein in der Informatik wichtiges Beispiel f¨ ur eine Boolesche Algebra angeben. Unter einem Schalter verstehen wir eine Vorrichtung, die genau einen von zwei Zust¨anden annehmen kann; den einen nennen wir ’leitend’ (oder auch ’geschlossen’) und den anderen ’nicht leitend’ (’offen’). F¨ ur den offenen Zustand benutzen wir das Symbol ’0’, f¨ ur den geschlossenen das Symbol ’1’. Diese Gr¨ oßen nennen wir Schaltwerte. Aus Schaltern bauen wir nun Schaltkreise auf. Es ist klar, daß dieses Modell verschiedenste konkrete Realisierungen zul¨aßt. Die Schaltkreise definieren wir induktiv: • Ein Schalter ist ein Schaltkreis mit genau einem Schaltwert 0 oder 1. • Sind x und y Schaltkreise, so auch x ∧ y und x ∨ y, sowie ¬x mit Schaltwerten gem¨aß folgender Tabelle: x 0 0 1 1
y 0 1 0 1
x∧y 0 0 0 1
x∨y 0 1 1 1
¬x 1 . 0
• Weitere Schaltkreise gibt es nicht. Einiges zur Erl¨ auterung: Sind x und y Schalter, so ist x ∧ y offenbar eine Serienschaltung, da sie genau dann leitet, wenn beide Schalter geschlossen sind. Der Schaltkreis x ∨ y ist eine Parallelschaltung, da sie genau dann nicht leitet, wenn beide Schalter offen sind; ¬x hat den zu x entgegengesetzten Zustand. Nach dieser induktiven Definition gibt es zu jedem Schaltkreis eine nat¨ urliche Zahl n, die angibt, daß man durch n-malige Anwendung der Operationen ∧, ∨, ¬ den Schaltkreis aus Schaltern aufbauen kann; man sagt, daß der Schaltkreis n-stufig aus den Schaltern aufbaubar ist. Ferner entnimmt man der Definition von Schaltkreisen, daß das Aufbauen von Schaltkreisen als Ausf¨ uhren von Operationen ∧, ∨, ¬ auf den Schaltwerten 0, 1 gedeutet werden kann. Es ist leicht mit Hilfe der obigen Tabelle zu erkennen, daß die Menge {0,1} mit den durch die Tabelle definierten Operationen ∧,∨,¬ eine Boolesche Algebra bildet.
16
KAPITEL 1. ALGEBRA
F¨ ur die folgenden Abschnitte ben¨ otigen wir insbesondere noch den Begriff der Produktmenge (Kreuzmenge, kartesisches Produkt) X × Y von zwei Mengen X, Y : X × Y = { (x, y) | x ∈ X ∧ y ∈ Y } . Ein Element der Produktmenge heißt geordnetes Paar. Zwei geordnete Paare (x, y), (u, v) sind genau dann gleich, wenn x = u und y = v gilt: (x, y) = (u, v) ⇐⇒ x = u und y = v. So ist z. B. R × R die Menge aller Paare von reellen Zahlen. Ein geordnetes n-Tupel (x1 , . . . , xn ) uhren wir induktiv ein: von Objekten (n > = 2) f¨ (x1 , . . . , xn ) = ((x1 , . . . , xn−1 ), xn ). Das Objekt xi aus einem n-Tupel heißt i-te Komponente (i-tes Glied) des n-Tupels. Aus der Gleichheit von geordneten Paaren folgt, daß zwei n-Tupel genau dann gleich sind, wenn sie komponentenweise u ¨bereinstimmen. Als Produktmenge X1 × X2 × · · · × Xn von n Mengen X1 , . . . , Xn definiert man: X1 × X2 × · · · × Xn = { (x1 , . . . , xn ) | xi ∈ Xi , i = 1, . . . , n } . Im Falle X1 = X2 = · · · = Xn = X schreibt man einfach X n ; speziell ist also Rn die Menge aller n-Tupel von reellen Zahlen. Wenn wir von Paaren bzw. n-Tupeln sprechen, meinen wir stets geordnete Paare bzw. geordnete n-Tupel.
1.2.
Relationen und Abbildungen
Objekte der Realit¨ at und des Denkens stehen in Beziehungen zueinander. Es scheint, daß die Beziehungen zwischen den Objekten f¨ ur den Menschen wichtiger sind als die Objekte selbst. So wissen wir z. B. aus vergleichenden Geschichtsanalysen, daß es kein absolutes Sch¨onheitsidol f¨ ur die Menschen gibt. Wir bezeichnen manche Autos als sch¨on, weil es auch andere gibt, die wir h¨aßlich nennen. Die Beziehungen der Eskimos zu ihrer Natur werden von ihnen in Begriffen erfaßt, die man in keine Weltsprache u ur ¨bersetzen kann; sie haben u ¨ber 100 verschiedene W¨orter f¨ das sie umgebende Weiß. F¨ ur den Menschen wichtige Beziehungen sind einerseits in vielen, leicht differenzierten Begriffen und andererseits durch viele Synonyma in seiner Sprache repr¨asentiert. Denken wir nur an die Liebe oder den Tod. Welche Beziehungen durch wieviele Begriffe beschrieben werden, hat tiefe soziale, materielle Wurzeln; in ihnen widerspiegeln sich ethnische Besonderheiten eines Volkes. Die Mathematik als eine u ¨ber den V¨olkern stehende Wissenschaft versucht nun, typische Eigenschaften von Beziehungen zu modellieren und zu untersuchen. Nat¨ urlich modelliert die Mathematik keine pers¨ onlichen Beziehungen zwischen Menschen, sondern solche, die (m¨oglicherweise) gef¨ uhlsunabh¨ angig sind. So gibt es z. B. Beziehungen zwischen Studenten und Hochschulen, Straßen und Wegen, die St¨ adte verbinden, Punkten im Raum, die auf einer Geraden liegen usw. Mathematisch l¨ aßt sich das dadurch erfassen, daß man die in Beziehung stehenden Objekte, die oft aus verschiedenen Universen stammen d¨ urfen, zu Paaren zusammenfaßt. Gegeben seien zwei Mengen X, Y . Eine Untermenge R der Produktmenge X ×Y nennt man bin¨ are Relation: R ⊂ X × Y . Im Falle X = Y spricht man von einer bin¨ a ren Relation u ber X. Zu einer ¨ = bin¨aren Relation geh¨ ort die Schreibweise: xRy ⇐⇒ (x, y) ∈ R. In einer Relation m¨ ussen nicht alle Elemente der betreffenden Mengen erfaßt sein. Eine Relation kann man sich in folgender Weise gebildet denken: Es sei eine Aussage H(x, y) f¨ ur die Objekte x eines Universums E1 und die Objekte y eines Universums E2 gegeben. Nach dem Mengenbildungsprinzip gibt es dann eine Menge R, die genau alle Paare (x, y) aus dem Universum E1 × E2 enth¨alt,
1.2. RELATIONEN UND ABBILDUNGEN
17
auf die die Aussage H(x, y) zutrifft. Nach dem Extensionalit¨atsprinzip ist die Menge R eindeutig bestimmt: R = { (x, y) | H(x, y) } . Diese Menge R wird nun als Relation u ¨ber E1 × E2 aufgefaßt. In diesem Sinne ist H(x, y) eine definierende Aussage f¨ ur die Relation R. Ausdr¨ ucklich sei darauf hingewiesen, daß im Relationsbegriff nicht der Mengenbildungsprozeß, sondern nur das Ergebnis einer Mengenbildung erfaßt ist. Aus den obigen Beispielen gewinnt man folgende Relationen: R1 = { (P, G) | der Punkt P liegt auf der Geraden G } , R2 = { (S, T ) | S, T sind Studenten der gleichen Hochschule } , R3 = { (k, l) | k, l sind Wegstrecken mit k < l } . F¨ ur die Informatik wichtig sind Darstellungen von bin¨aren Relationen u ¨ber endlichen Mengen. Die geeignete Darstellung einer Relation dient einerseits der guten Veranschaulichung; andererseits soll sie das Ausf¨ uhren von Operationen mit Relationen unterst¨ utzen. Seien also X, Y Mengen mit endlich vielen Elementen; X habe n, Y habe m Elemente und R sei eine beliebige Relation R⊂ oglichkeit f¨ ur R ist die Tabelle. Wir erhalten eine Tabelle = X × Y . Eine erste Darstellungsm¨ der Relation R, indem wir jeder Zeile der Tabelle genau ein Element aus X und jeder Spalte genau ein Element aus Y zuordnen; an den Schnittpunkt der Zeile zu x ∈ X mit der Spalte zu y ∈ Y schreiben wir die Zahl 1, falls (x, y) ∈ R, andernfalls die Zahl 0. Die so entstandene Tabelle beschreibt die Relation R vollst¨ andig. F¨ ur X = { a, b, c, d } , Y = { 1, 2, 3, 4, 5 } , R = { (a, 1), (c, 1), (d, 1), (b, 2), (b, 3), (b, 5), (a, 4)(b, 4) } ergibt sich die folgende Tabelle:
a b c d
1 1 0 1 1
2 0 1 0 0
3 0 1 0 0
4 1 1 0 0
5 0 1 0 0
Wesentliche Nachteile dieser Darstellung sind folgende. Durch die Tabellenform der Relation wird neben den in Relation stehenden Paaren stets eine Anordnung der Elemente mitgeliefert, obwohl diese Anordnung nichts mit der Relation zu tun hat. Damit wird es sehr aufwendig, zwei Relationen ¨ auf Ubereinstimmung zu pr¨ ufen. Die Pr¨ ufungsszeit l¨aßt sich reduzieren, wenn man die Elemente beider Relationen nach den gleichen Prinzipien ordnet. Dies erfordet jedoch das Neuordnen nach ¨ jeder Anderung. Beim Hinzuf¨ ugen von Elementen zu einer Relation m¨ ussen Duplikate entfernt werden. Relationen zwischen Objekten verschiedener Universen sind in großen Datenbanken abgelegt, wobei die Objekte durch W¨ orter repr¨asentiert sind. Dabei richtet sich der zu verwendende Speicherplatz f¨ ur ein Element nach dem schlechtesten Fall, d. h. nach jenem Wort, das den gr¨oßten Speicherplatz ben¨ otigt. Dieser Umstand bedingt, daß selbst Relationen mit relativ wenig Elementen viel Speicherplatz verschwenden k¨onnen. Gegenw¨artig verringern sich die Operationszeiten von Rechnern in einem viel gr¨ oßeren Maße als die Zugriffszeiten auf externe Speichermedien. Darum ist es eine st¨ andige Forschungsaufgabe, die Speicher- und Zugriffsmechanismen zu den Elementen
18
KAPITEL 1. ALGEBRA
einer Relation in Datenbanken so zu optimieren, daß die zu l¨osenden Aufgaben m¨oglichst schnell bearbeitet werden. Eine andere Darstellungsform f¨ ur R ist das Pfeildiagramm (gerichteter Graph). Hier werden die Elemente von X und Y durch Punkte in der Ebene repr¨asentiert und zwei Punkte durch eine gerichtete Strecke (Pfeil) verbunden, falls das zugeordnete Paar zu R geh¨ort. Die obige Relation k¨onnte dann wie folgt aussehen:
a r PP PP
b c d r r r P HP @HH P PP PP @ H P P P P H P P HHPPP @ @ PPPHH PPP PPH PP @ PH PP ? Rr @ j qr ) qr P r r? 1 2 3 4 5
Bei einer bin¨ aren Relation R u ¨ber einer Menge X l¨aßt sich die graphische Darstellung noch vereinfachen: Jedem Element x ∈ X, das als eine Komponente in einem Paar aus R auftritt, wird ein Punkt (Knoten) in der Ebene zugeordnet. Sodann zeichnet man einen Pfeil von x nach y, falls x und y in der Relation R stehen, d. h. falls (x, y) ∈ R gilt. Dabei entsteht ein gerichteter Graph, der im Falle (x, x) ∈ R auch Schlingen enth¨alt:
1 r @ @
2 r @ I @ @ @ @ Rr @ 3
@ @ @ @? r 4
Diese Darstellungsform ist besonders f¨ ur die optische Veranschaulichung von Zusammenh¨angen gut geeignet. Bei der rechnerinternen Abspeicherung kann man verkettete Listen verwenden. Die oben genannten Nachteile bleiben aber prinzipiell bestehen. Zus¨atzlich versch¨arft sich hier das Problem, zwei Relationen auf Gleichheit zu pr¨ ufen. Bin¨are Relationen lassen sich klassifizieren. Eine bin¨are Relation R u ¨ber X heißt reflexiv, falls xRx f¨ ur alle x ∈ X gilt; sollte f¨ ur kein x ∈ X xRx gelten, heißt R irreflexiv. Wir nennen eine bin¨are Relation R symmetrisch, wenn f¨ ur alle x, y ∈ X aus xRy stets yRx geschlossen werden kann. Sollte aus xRy und yRx stets x = y folgen, nennen wir R antisymmetrisch. Im Falle, daß aus xRy mit x 6= y stets folgt, daß yRx nicht gilt, heißt die bin¨are Relation asymmetrisch. Eine bin¨are Relation R soll transitiv heißen, wenn f¨ ur alle x, y, z ∈ X aus xRy und yRz stets folgt, daß auch xRz gilt. Schließlich heißt eine bin¨are Relation R connex, wenn f¨ ur alle x, y ∈ X gilt: xRy oder yRx oder x = y. Eine reflexive, symmetrische und transitive bin¨are Relation nennt man ¨ Aquivalenzrelation auf X, w¨ ahrend eine reflexive, antisymmetrische, transitive bin¨are Relation
1.2. RELATIONEN UND ABBILDUNGEN
19
Halbordnung heißt. Eine irreflexive, transitive und connexe bin¨are Relation soll Ordnung hei¨ ßen. So ist z. B. die obige Studentenmenge eine Aquivalenzrelation auf der Menge aller Studenten, die = e, woraus i − j < = 0 und g = g , also g = l = o(g) folgt. Nach der ¨ ersten Uberlegung muß i − j > = l = o(g) sein, was zusammen i − j = l und damit i = l, j = 0 ergibt. < l·z Nat¨ urlich ist g = ez = e f¨ ur alle z ∈ Z. Hat m die Form m = l · z + i (1 < = i = l − 1), so folgt m i g = g 6= e. ¨ Mit jeder Untergruppe U (·) einer Gruppe G(·) verbinden sich zwei wichtige Aquivalenzrelationen. Zwei Elemente x, y ∈ G heißen links¨ aquivalent bez¨ uglich der Untergruppe U (·), wenn x−1 · y ∈ U ¨ gilt. Wir verifizieren die Eigenschaften einer Aquivalenzrelation. Wegen x−1 · x = e ∈ U ist die Relation reflexiv. Aus x−1 · y ∈ U folgt y −1 · x = (x−1 · y)−1 ∈ U und umgekehrt; also ist die Relation symmetrisch. Aus x−1 · y ∈ U und y −1 · z ∈ U folgt U 3 (x−1 · y) · (y −1 · z) = x−1 · (y · y −1 ) · z = x−1 · z, also ist die Links¨ aquivalenz transitiv. Somit liefert die Links¨aquivalenz bez¨ uglich einer beliebig fixierten Untergruppe eine Zerlegung der Gruppe G(·). Die Restklassen der Zerlegung nennt man Linksnebenklassen der Untergruppe U (·): [x] = { z | z = x · y, y ∈ U } = x · U. Man erh¨alt die Linksnebenklasse [x] des Elementes x, indem man alle Elemente aus U von links mit x multipliziert. Alle diese Produkte sind verschieden. Ist nun die Untergruppe U (·) endlich, dann haben alle Linksnebenklassen gleichviel Elemente: |x · U | = |U | ∀x ∈ G. Ist u ¨berdies auch noch die Gruppe G(·) endlich, so gibt es auch nur endlich viele Linksnebenklassen. Da außerdem jedes Element in genau einer Linksnebenklasse liegt, folgt daraus der Satz von LAGRANGE Satz 1..14. In jeder endlichen Gruppe ist die Ordnung jeder Untergruppe ein Teiler der Gruppenordnung. Insbesondere ist die Ordnung eines Gruppenelementes ein Teiler der Gruppenordnung und somit g |G| = e ∀g ∈ G. Hat G(·) also Primzahlordnung, so kann G(·) keine nichttrivialen, d. h. vom Einselement verschiedenen, Untergruppen haben. Folglich erhalten wir aus dem Satz von Lagrange Satz 1..15. Jede Gruppe von Primzahlordnung ist zyklisch.
1.3. ALGEBRAISCHE STRUKTUREN
41
Analog definiert man die Rechtsnebenklassen von U (·) und erh¨alt sie als Mengen der Form U · x = { y · x | y ∈ U }. Jedes Gruppenelement von G(·) liegt in genau einer Rechtsnebenklasse; im allgemeinen sind aber x · U und U · x verschiedene Mengen; sie stimmen im kommutativen Fall u ¨berein. In jedem Falle gilt aber x · U = y · U ⇐⇒ x−1 · y ∈ U ⇐⇒ U · x−1 = U · y −1 , was uns sagt, daß es gleichviel Links- und Rechtsnebenklassen gibt. Diese Anzahl ist also eine zweite charakteristische Gr¨ oße f¨ ur jede Untergruppe U (·) aus einer Gruppe G(·); man nennt sie Index der Untergruppe U (·). Zusammen mit dem Satz von Lagrange k¨onnen wir daher den folgenden Satz aussprechen. Satz 1..16. Die Ordnung einer endlichen Gruppe ist gleich dem Produkt aus Ordnung und Index einer beliebigen Untergruppe. Nun werden wir die Begriffe Homomorphie und Isomorphie auf algebraische Strukturen mit einer Operation anwenden. Dazu seien H(·) und M (∗) zwei Strukturen und ϕ ein Homomorphismus von H(·) auf M (∗), also eine Abbildung von H auf M mit der Eigenschaft ϕ(x · y) = ϕ(x) ∗ ϕ(y) ∀x, y ∈ H. Ist die Abbildung u ¨berdies noch bijektiv, so ist sie ein Isomorphismus. Wir k¨onnen sofort den Homomorphiesatz f¨ ur Gruppen aussprechen, da wir ihn f¨ ur algebraische Strukturen bewiesen haben. Satz 1..17. Jeder auf einer Gruppe definierte Homomorphismus l¨ aßt sich als Verkettung eines Homomorphismus von der Gruppe auf die Faktorgruppe und eines Isomorphismus von der Faktorgruppe auf die Bildstruktur darstellen. S¨amtliche Faktorgruppen einer Gruppe sind bis auf Isomorphie durch die Homomorphismen auf der Gruppe beschrieben. Satz 1..18. Es sei ϕ ein Homomorphismus von der Halbgruppe H(·) in die Halbgruppe M (∗). Dann gelten die folgende Aussagen. 1. Das homomorphe Bild ϕ(H(·)) ist eine Unterhalbgruppe von M (∗), d. h. ϕ(H)(∗) ist eine Halbgruppe. 2. Das homomorphe Bild einer kommutativen Struktur ist kommutativ. 3. Ist e das neutrale Element in H(·), so ist ϕ(e) das neutrale Element in der Bildstruktur. 4. Ist a−1 invers zu a, so ist ϕ(a−1 ) invers zu ϕ(a) in der Bildstruktur. 5. Das homomorphe Bild ϕ(H(·)) einer Gruppe H(·) ist eine Untergruppe von M (∗). 6. Ein Homomorphismus bildet Unterhalbgruppen (Untergruppen) auf Unterhalbgruppen (Untergruppen) ab. 7. Das Urbild einer Unterhalbgruppe von ϕ(H)(∗) ist eine Unterhalbgruppe von H(·); analog f¨ ur Gruppen. 8. Ist H(·) eine Gruppe, so gilt o(ϕ(a)) < ur alle a ∈ H. Hat a eine endliche Ordnung, so = o(a) f¨ ist o(ϕ(a)) ein Teiler von o(a).
42
KAPITEL 1. ALGEBRA
Die letzte Aussage folgt etwa mittels Aussage 7 und dem Satz von Lagrange. Die Beweise der einzelnen Aussagen sind sehr einfach und sollten vom Leser selbst gefunden werden. Die Umkehrabbildung eines Isomorphismus ist wieder ein Isomorphismus; gibt es also einen Isomorphismus von H(·) auf M (∗), so sagt man, daß beide Strukturen isomorph sind, sich algebraisch nicht unterscheiden. jedoch nicht, daß sie in Wirklichkeit gleich sind. So sind z. B. Das bedeutet die Strukturen 2i i ∈ N (·) und N(+) isomorph; in der letzteren ist das Rechnen f¨ ur den Menschen leichter als in der ersten. Ein Rechner arbeitet aber mit der ersten Struktur. F¨ ur endliche Gruppen gilt der Satz von CAYLEY. Satz 1..19. Jede endliche Gruppe ist zu einer Anordnungsgruppe isomorph. Beweis. Es sei G(·) mit G = { g1 , . . . , gn } eine Gruppe. F¨ ur jeden Index i definieren wir eine Abbildung fi von G auf sich gem¨ aß: fi (g) = gi · g. Jede Abbildung fi ist durch eine Anordnung der Elemente von G charakterisiert. Die Menge S(G) aller Anordnungen der Elemente von G bildet mit der Verkettung als Operation eine Gruppe. Die Abbildung ϕ:
G 7−→ S(G) mit ϕ(gi ) = fi
ist ein Homomorphismus: Mit gi · gj = gk folgt n¨amlich ϕ(gi · gj ) = ϕ(gk ) = fk und ϕ(gi ) ◦ ϕ(gj ) = fi ◦ fj , sowie fi ◦ fj (g) = fi (fj (g)) = fi (gj · g) = gi · gj · g = gk · g = fk (g), also ϕ(gi · gj ) = ϕ(gi ) ◦ ϕ(gj ), was gerade die Operationstreue bedeutet. Wegen |G| = |S(G)| ist ϕ sogar ein Isomorphismus. Der Satz von Cayley hebt die prinzipielle Bedeutung von Anordnungsgruppen hervor: Algebraisch gesehen gen¨ ugt es, Anordnungsgruppen, also Untergruppen einer symmetrischen Gruppe Sn zu studieren, weil man damit bis auf Isomorphie bereits alle endlichen Gruppen erfaßt hat. F¨ ur theoretische Untersuchungen ist diese Vorgehensweise nicht zweckm¨aßig, wohl aber f¨ ur konkrete Berechnungen, insbesondere auf einem Rechner. Nach dem Satz von Cayley ist es erlaubt, Gruppenelemente im Rechner durch Zahlen darzustellen, wodurch z. B. die Typvertr¨aglichkeit von Prozeduren, die mit Gruppenelementen operieren, gesichert ist. Wir kehren zum motivierenden Beispiel vom Anfang dieses Abschnittes zur¨ uck. Es sei B(◦) die Halbgruppe mit den Befehlsfolgen als Tr¨ agermenge B und der Aneinanderreihung als Operation. Bei der Bewegung des Zuges auf den Schienen hat man z. B. folgende Fragen: Welche Wegstrecke wurde nach Ausf¨ uhrung einer Befehlsfolge a1 , a2 , . . . , al zur¨ uckgelegt? Welches ist die relative Endposition? In Stationen gez¨ ahlt ist die Wegstrecke gleich der Summe der Zahlen |ai |, i = 1, . . . , l. Bei der Berechnung der relativen Endposition muß man beachten, daß zwar der Zug nach Ausf¨ uhrung Pl der Befehlsfolge um a Stationen verschoben ist, aber jede Verschiebung um n Stationen i=1 i die P R¨ uckkehr zur P Ausgangsstation bedeutet, also die Endposition durch den nichtnegativen Rest l l rn ( i=1 ai ) von i=1 ai bei Division durch n gegeben ist. Unsere Fragen werden daher durch folgende Abbildungen beantwortet: ϕ:
B 7−→ Z mit ϕ(a1 , . . . , al ) =
l X i=1
|ai |,
1.3. ALGEBRAISCHE STRUKTUREN
ψ:
43
l X B 7−→ Z mit ψ(a1 , . . . , al ) = rn ( ai ), i=1
und ψ ist die Verkettung der beiden Abbildungen σ:
B 7−→ Z mit σ(a1 , . . . , al ) =
l X
ai ,
i=1
rn :
Z 7−→ { 0, 1, . . . , n − 1 } mit rn (i) = k, falls i = l · n + k.
Durch Nachrechnen erkennt man sogleich, daß ϕ und σ Homomorphismen von B(◦) in Z(+) sind. Auf der Menge Zn = { 0, 1, . . . , n − 1 } der nichtnegativen Reste einer ganzen Zahl bei Division durch n f¨ uhren wir eine Addition ein: i ⊕ j = rn (i + j). Man sieht gleich, daß Zn (⊕) einen Modul darstellt und rn ein Homomorphismus vom Modul Z(+) auf Zn (⊕) ist. Offenbar ist rn (i) = rn (j) genau dann, wenn i − j Vielfaches von n ist. Die durch ¨ ¨ rn auf Z induzierte Aquivalenzrelation Rn f¨ uhrt auf Aquivalenzklassen der Form i = { j ∈ Z | j = i + s · n, s ∈ Z } . Die nat¨ urliche Operation (Addition) in Z/Rn wird durch ˜ =i+j i+j ˜ isomorph zu Zn (⊕), die dadefiniert. Nach dem Homomorphiesatz ist die Faktorgruppe Z/Rn (+) her additive Restklassengruppe modulo n genannt und mit Zn bezeichnet wird. Mit diesen zus¨atzlichen Gedanken u ¨berzeugt man sich leicht, daß die obige Abbildung ψ ein Homomorphismus von B(◦) auf Zn ist. ¨ Nach den allgemeinen Uberlegungen zu algebraischen Strukturen wird durch einen Homomorphismus f auf einer Struktur H(·) eine Kongruenzrelation F induziert, und diese ist - zus¨atzlich zu ¨ den Bedingungen f¨ ur eine Aquivalenzrelation - durch die Bedingung xF y und uF v =⇒ x · uF y · v ¨ charakterisiert. Umgekehrt: Jede Aquivalenzrelation F auf H(·), die diese Bedingung erf¨ ullt, induziert einen Homomorphismus f von H(·) auf die Faktorstruktur H(·)/F . Kurzum: Um alle Faktorstrukturen zu erfassen, ben¨ otigt man alle Kongruenzrelationen der betrachteten Struktur. Ehe wir die Verh¨ altnisse bei Gruppen kl¨aren, beweisen wir den folgenden Satz. Satz 1..20. F¨ ur jede Kongruenzklasse [x]F einer Kongruenzrelation F auf einer Gruppe G(·) gilt [x]F = x · [e]F = [e]F · x. Beweis. Es sei f der von der Kongruenzrelation F induzierte Homomorphismus von G(·) in G0 (∗). Die folgende Schlußkette beweist die Behauptung: y ∈ [x]F ⇐⇒ f (y) = f (x) ⇐⇒ y ∈ x · [e]F
= = ⇐⇒ = = = = ⇐⇒
f (x) ∗ f (z) ∀z : f (z) = f (e) f (x · z) ∀z ∈ [e]F f (y) = f (x · z) ∀z ∈ [e]F f (x) ∗ f (z) ∀z ∈ [e]F f (x) ∗ f (e) f (e) ∗ f (x) f (z) ∗ f (x) ∀z : f (z) = f (e) y ∈ [e]F · x.
44
KAPITEL 1. ALGEBRA
Dieser Satz sagt uns, daß alle Kongruenzklassen einer gegebenen Kongruenzrelation durch die Kongruenzklasse [e]F zum neutralen Element vollst¨andig beschrieben sind; die Kongruenzklasse zum Gruppenelement x ∈ G l¨ aßt sich in der Form x · [e]F darstellen, und es gilt außerdem noch x · [e]F = [e]F · x. Jede solche Menge ist Tr¨ agermenge des Urbildes der trivialen Untergruppe (f (e)) in der Bildstruktur; also m¨ ussen dies Untergruppen sein. Sie heißen Normalteiler. Genauer: Eine Untergruppe N (·) von G(·) heißt Normalteiler, wenn x · N = N · x ∀x ∈ G gilt. Die Normalteiler und die Kongruenzrelationen einer Gruppe entsprechen einander umkehrbar eindeutig: Jeder Kongruenz F ist der Normalteiler N (·) mit N = [e]F zugeordnet; verschiedenen Kongruenzen entsprechen verschiedene Normalteiler. Umgekehrt definiert ein Normalteiler N durch xRN y ⇐⇒ x · N = y · N eine Kongruenzrelation RN auf G(·) mit [x]RN = x · N = N · x. Um dies einzusehen, bemerken ¨ wir zun¨achst, daß RN eine Aquivalenzrelation ist und daher nur die zus¨atzliche Bedingung f¨ ur eine Kongruenzrelation nachzuweisen ist. Aus x · N = y · N und u · N = v · N folgt x · u · N = x · N · u = x · N · N · u = y · N · v = y · v · N, also ist RN eine Kongruenzrelation. Insbesondere haben wir damit den folgenden Satz bewiesen. Satz 1..21. Eine Untergruppe N (·) einer Gruppe G(·) ist genau dann Normalteiler, wenn eine Kongruenzrelation F auf G(·) existiert mit N = [e]F . Der Zusammenhang zwischen den Normalteilern und den Kongruenzrelationen einer Gruppe G(·) erlaubt es, von den Faktorgruppen G/N (·) = G/RN (·) nach ihren Normalteilern zu sprechen. Das volle Urbild vom neutralen Element aus der Bildgruppe ist gerade der einen Homomorphismus f definierende Normalteiler N (·) und heißt Kern - in Zeichen ’ker(f )’ - des Homomorphismus: N = ker(f ) = [e]F = { x ∈ G | f (x) = f (e) } . Der Kern eines Homomorphismus ist also gerade die Menge aller jener Elemente, die auf das neutrale Element in der Bildstruktur abgebildet werden. Abschließend sei eine weitere Charakterisierung der Normalteiler gegeben. Satz 1..22. Eine Untergruppe N (·) einer Gruppe G(·) ist genau dann Normalteiler, wenn x · N · x−1 ⊂ ur alle x ∈ G. = N gilt f¨ Beweis. Es gilt offenbar N = x−1 · x · N · x−1 · x. Wenn also die Menge x · N · x−1 eine Untermenge von N ist, so folgt N
⊂ =
x−1 · N · x
und damit N = x · N · x−1 . Also gilt die Schlußkette x · N = N · x ∀x ∈ G ⇐⇒ x · N · x−1 = N ∀x ∈ G ⇐⇒ x · N · x−1 ⊂ ∀x ∈ G. = N
1.3. ALGEBRAISCHE STRUKTUREN
1.3.3.
45
Ringe und K¨ orper
Viele elementare Beispiele f¨ ur eine algebraische Struktur haben nicht nur eine bin¨are Operation, sondern zwei. So kann man z. B. Zahlen addieren, multiplizieren und Mengen schneiden und vereinigen. Wir nennen eine algebraische Struktur R(+, ·) mit zwei Operationen, die wir als Addition ‘+‘ und als Multiplikation ‘·‘ bezeichnen, Ring, wenn R(+) ein Modul, R(·) eine Halbgruppe und die Multiplikation distributiv bez¨ uglich der auf R definierten Addition ist, d. h. f¨ ur alle x, y, z ∈ R gilt: x · (y + z) = x · y + x · z,
(y + z) · x = y · x + z · x.
Aus den definierenden Eigenschaften kann man Rechenregeln ableiten, die uns vom Rechnen mit ganzen oder reellen Zahlen bestens bekannt sind. Wesentlich ist hier, daß wir zum Beweis dieser Rechenregeln nur die definierenden Eigenschaften der Struktur ausnutzen. Wir bezeichnen im Ring mit 0 das neutrale Element bez¨ uglich der Addition. Mit der Distributivit¨at schließt man 0 · a = (0 + 0) · a = 0 · a + 0 · a =⇒ 0 = 0 · a, a · 0 = a · (0 + 0) = a · 0 + a · 0 =⇒ 0 = a · 0, 0 = a · 0 = a · (b + (−b)) = a · b + a · (−b) =⇒ −(a · b) = a · (−b), 0 = 0 · b = (a + (−a)) · b = a · b + (−a) · b =⇒ −(a · b) = (−a) · b. Falls a 6= 0 und kein Nullteiler in R(·) ist, folgt die u urzungsregel ¨bliche K¨ a · x = a · y =⇒ a · x + a · (−y) = a · (x + (−y)) = 0 =⇒ x = y. Einige Beispiele f¨ ur Ringe. 1. Z(+, ·), 2. Q(+, ·), R(+, ·), 3. jeder Modul G(+) mit der Nullmultiplikation auf G: a · b = 0 f¨ ur alle a, b ∈ G (Nullring auf G(+)), 4. Zn (+, ·) (Restklassenring modulo n). In den Beispielen sind Q \ {0}(·) und R \ {0}(·) sogar kommutative Gruppen. Daher spezifizieren wir genauer. Ein Ring R(+, ·) heißt kommutativ, wenn R(·) kommutativ ist. Sollte die Struktur R(·) ein Monoid sein, so nennt man den Ring R(+, ·) Ring mit Einselement. Schließlich heißt ein Ring R(+, ·) K¨ orper, wenn die Struktur R \ {0}(·) eine kommutative Gruppe darstellt. Damit sind Q(+, ·) und R(+, ·) K¨ orper. Die Begriffe Unterring und Unterk¨orper werden sinngem¨aß zu den entsprechenden Begriffen bei Gruppen und Halbgruppen gebildet. Eine nichtleere Untermenge U⊂ agermenge eines Ringes R(+, ·) ist Tr¨agermenge eines Unterringes von R(+, ·), = R der Tr¨ wenn U (+, ·) ein Ring ist, wenn also U (+) ein Modul und U (·) eine Halbgruppe darstellen (Die Distributivgesetze gelten dann automatisch!). Analog ist eine nichtleere Untermenge U ⊂ = K der Tr¨agermenge eines K¨ orpers K(+, ·) Tr¨agermenge eines Unterk¨ orper, falls U (+, ·) ein K¨orper ist. Wann ein Unterring bzw. Unterk¨ orper vorliegt, sagen uns die folgenden beiden Kriterien. Satz 1..23. Eine nichtleere Untermenge U ⊂ agermenge = R eines Ringes R(+, ·) ist genau dann Tr¨ eines Unterringes, wenn die Menge U abgeschlossen bez¨ uglich der beiden Operationen ’+’,’·’ und der additiven Inversenbildung ist, d.h. u − v ∈ U,
u·v ∈U
∀u, v ∈ U.
46
KAPITEL 1. ALGEBRA
Eine nichtleere Untermenge U ⊂ agermenge eines K¨ orpers K(+, ·) ist genau dann Tr¨ ager= K der Tr¨ menge eines Unterk¨ orpers, wenn u−v ∈U
∀u, v ∈ U und u−1 · v ∈ U
∀u, v ∈ U \ {0}.
Das Kriterium f¨ ur einen Unterk¨ orper sagt aus, daß die Tr¨agermenge U eines Unterk¨orpers abgeschlossen bez¨ uglich ’+’, der additiven Inversenbildung und U \ {0} abgeschlossen bez¨ uglich ’·’ und der multiplikativen Inversenbildung ist. Analog zu Gruppen definiert man den von einer Untermenge X erzeugten Unterring (Unterk¨ orper) als den Durchschnitt aller jener Unterringe (Unterk¨orper), deren Tr¨agermengen die Menge X enthalten. Dem allgemeinen Homomorphiebegriff folgend liegt bei einer Abbildung ϕ eines Ringes R(+, ·) in einen Ring S(∗, ◦) ein Ringhomomorphismus vor, wenn ϕ(x + y) = ϕ(x) ∗ ϕ(y) und ϕ(x · y) = ϕ(x) ◦ ϕ(y) ∀x, y ∈ R gilt. Ist u ¨berdies die Strukturabbildung ϕ sogar bijektiv, spricht man von einem Ringisomorphismus. Als Beispiel sei erw¨ ahnt, daß ϕ:
Z 7−→ Zn mit i 7−→ rn (i),
wobei rn (i) den nichtnegativen Rest von i bei Division durch n bedeutet, einen Ringhomomorphismus darstellt. Im Zusammenhang mit Ringhomomorphismen formulieren wir 6 Eigenschaften. Satz 1..24. Es sei ϕ ein Ringhomomorphismus von R(+, ·) in S(∗, ◦). Dann gelten die folgenden Aussagen. 1. Der Homomorphismus ϕ u uhrt Ringe in Ringe, d. h. ϕ(R) ist ein Unterring von S. ¨berf¨ 2. Das homomorphe Bild eines kommutativen Ringes ist wieder kommutativ. 3. Wenn e das Einselement im Urbildring darstellt, dann ist ϕ(e) das Einselement im Bildring. 4. Das homomorphe Bild eines Unterringes ist ein Unterring in der Bildstruktur. 5. Das volle Urbild eines Unterringes aus dem Bildring ist ein Unterring im Urbildring. ¨ Die Kongruenzrelationen auf einem Ring R(+, ·) sind gerade jene Aquivalenzrelationen auf R, die sowohl Kongruenzen auf R(+) als auch auf R(·) sind. Nun ist R(+) ein Modul, also sind alle Untergruppen auch Normalteiler; daher entspricht jeder Untergruppe von R(+) umkehrbar eindeutig eine Kongruenz, wobei einer Kongruenzrelation S die Untergruppe [0]S entspricht. Ist nun S außerdem auch noch Kongruenz auf R(·), so gilt r · [0]S
⊂ =
[0]S und [0]S · r
⊂ =
[0]S
∀r ∈ R,
denn f¨ ur alle x ∈ [0]S ist ϕ(r · x) = ϕ(r) · ϕ(x) = ϕ(r) · ϕ(0) = ϕ(0). ⊂ Diese Untergruppen heißen Ideale. Eine Untergruppe I(+) von R(+), f¨ ur die r · I ⊂ = I und I · r = I f¨ ur alle r ∈ R gilt, heißt Ideal. Zwischen den Idealen, Kongruenzrelationen und den homomorphen Bildern eines Ringes besteht folgender Zusammenhang.
Satz 1..25. Zwischen den Idealen I und den Kongruenzrelationen S eines Ringes R(+, ·) besteht eine eineindeutige Beziehung: S 7−→ I = [0]S , I 7−→ SI mit xSI y ⇐⇒ x + I = y + I.
¨ 1.4. UBUNGEN
47
Beweis. F¨ ur die letzte Beziehung ist noch zu zeigen, daß SI eine Kongruenzrelation auf R(·) ist. Aus x + I = y + I und u + I = v + I folgt (y + I) · (v + I) = (x + I) · (u + I) = x · u + x · I + I · u + I · I ⊂ =
x·u+I =⇒ y · v ∈ x · u + I =⇒ y · v + I = x · u + I.
Satz 1..26. Das homomorphe Bild ϕ(R) eines Ringes R(+, ·) ist isomorph zum Restklassenring R/I von R nach dem Ideal I = [0]SI = ker(ϕ). Dieser Satz folgt sofort aus dem Homomorphiesatz f¨ ur algebraische Strukturen. Es sei noch angemerkt, daß die obigen Eigenschaften von Normalteilern in Gruppen sinngem¨aß auch f¨ ur Ideale gelten. Abschließend sollen die endlichen Restklassenringe Zm (+, ·) etwas n¨aher betrachtet werden, da es unter ihnen K¨ orper gibt, die in der Codierungstheorie angewendet werden. Zwei Elemente x, y einer Restklasse unterscheiden sich nur um ein ganzzahliges Vielfaches von m: x = λ · m + l,
y = µ · m + l =⇒ x − y = σ · m.
Daher haben alle Elemente einer Restklasse die gleichen Teiler mit m. Eine Restklasse nennt man prime Restklasse modulo m, wenn ihre Elemente zu m teilerfremd sind. Sind [x] und [y] prime Restklassen modulo m, so ist auch [x] · [y] = [x · y] eine prime Restklasse modulo m. Aus der Schule wissen wir, daß es zu zwei teilerfremden Zahlen x, m stets ganze Zahlen u, v gibt mit x·u+m·v = 1, wobei u teilerfremd zu m ist. Die letzte Gleichung bedeutet, daß es zu jeder primen Restklasse [x] mod m eine prime Restklasse [y] mod m gibt mit [x] · [y] = [1]. Somit ist gezeigt, daß die primen Restklassen mod m mit der Restklassenmultiplikation eine kommutative Gruppe bilden. Im Falle, daß m eine Primzahl ist, sind [1], [2], . . . , [m−1] s¨amtlich prime Restklassen und daher Zm (+, ·) f¨ ur jede Primzahl m ein endlicher K¨ orper. Der erste von ihnen ist Z2 (+, ·) mit nur zwei Elementen.
1.4.
¨ Ubungen
1. Man zeige die G¨ ultigkeit des Distributivgesetzes und der Assoziativgesetze im Bereich der komplexen Zahlen. 2. Man gebe zu den folgenden komplexen Zahlen jeweils die alternativen Darstellungen an (arithmetische bzw. trigonometrische Darstellung): π π −2 + 3i, 8 − 6i, 5 cos + i sin , 6 6 √ 5π 5π −5 − 3i, 2 cos + i sin . 4 4 3. F¨ ur z1 =
3√ 3√ 2− 2i, 2 2
z3 = −4 − 5i, berechne man:
z1 (z2 + z3 ) , z4
z2 = 1 + i,
1 1√ z4 = − + 3i 2 2 z12 z4 ,
z3 z4 , z2
48
KAPITEL 1. ALGEBRA z1 − z42 (z1 + z2 + z3 + z4 )2 . z2 + z3 Man gebe die L¨ osungen in der arithmetischen Darstellung an. 4. Man berechne die folgenden Wurzeln: √ 3
√ 5
1 + i,
−1,
√
q 4
3−i
und
√ 3
−16 + 16i
und stelle die Ergebnisse in der Gauss-schen Zahlenebene dar. 5. Man berechne: (1 −
√
h√ √ √ √ i 32 ( 6 + 2) + ( 6 − 2)i ,
5
3) 2 ,
1
und (−i) 4 .
6. Man dr¨ ucke sin x, cos x und tan x durch tan x2 aus. 7. Man l¨ose die goniometrischen Gleichungen (a) sin x + cos x =
1 , sin x
(b) sin4 x + cos4 x = cos 4x. 8. Man ermittle jeweils alle reellen Zahlen x, die die folgenden Ungleichungen erf¨ ullen. (a) sin2 x + 2 sin x > 0, √ 1 (b) | sin 2x| > = 2 3, (c) 5 sin 2x + 2 cos x < 7. 9. Man beweise die G¨ ultigkeit von n i−1 n X 2(2 ) − 2 2(2 ) = 1 − 2(2n ) 1 − 2(2i ) i=1
f¨ ur alle nat¨ urlichen Zahlen n. 10. Man beweise die G¨ ultigkeit von r
2+
|
q √ π 2 + · · · + 2 = 2 cos n+1 2 {z } n−mal
f¨ ur alle nat¨ urlichen Zahlen n. 11. Man gebe s¨ amtliche L¨ osungen x der folgenden Gleichungen an: (a)
√
p+x+
√
p−x=x
(p beliebige reelle Zahl),
(b)
x x+1
2
+
x+1 x
2
=
5 , 2
¨ 1.4. UBUNGEN
49
(c)
√
6x + 1 −
√
2x + 1 =
√
x.
12. Man zeige die G¨ ultigkeit der folgenden Beziehungen f¨ ur alle nat¨ urlichen Zahlen n: (a)
n X
k =
n(n + 1) , 2
(b)
n X
k2 =
n(n + 1)(2n + 1) , 6
k3 =
n2 (n + 1)2 . 4
k=1
(c)
k=1 n X
k=1
13. Man zeige die G¨ ultigkeit der folgenden Beziehung f¨ ur alle nat¨ urlichen Zahlen n: n X
k · k! = (n + 1)! − 1.
k=1
14. Man berechne
n−1 X
(n − k)(n − k + 1).
k=1
15. Man beweise: F¨ ur alle von Null verschiedenen reellen Zahlen a und b und alle nat¨ urlichen Zahlen n gilt (a + b)n =
n X n
k
k=0
ak bn−k .
16. Man beweise oder widerlege folgende Aussagen: (a) F¨ ur alle n ∈ N ist n3 − n durch 6 teilbar. (b) F¨ ur alle n ∈ N ist (n − 1)2 + n + 40 eine Primzahl. 17. Sei (ak ) eine arithmetische Zahlenfolge mit ak 6= 0 f¨ ur alle k. Man beweise, daß f¨ ur alle k ∈ N, k> = 2 gilt: 1 1 1 k−1 + + ··· + = . a1 · a2 a2 · a3 ak−1 · ak a1 · ak Hinweis: Eine Folge (ak ) ist eine arithmetische Zahlenfolge, wenn zwei beliebige, aufeinander folgende Zahlen eine feste Differenz haben. 18. Man beweise: (a) F¨ ur beliebige Mengen X, Y gilt X ∪ Y = X ∩ Y genau dann, wenn X = Y . (b) F¨ ur beliebige Mengen X, Y, Z folgt aus X
⊂ =
Y, X
⊂ =
Was kann man zur Umkehrung von Aussage (b) sagen? 19. Man skizziere die folgenden Mengen: (a) M1 = (x, y) | y + 1 > = x ,
Z, daß auch X
⊂ =
Y ∩ Z gilt.
50
KAPITEL 1. ALGEBRA (x, y) y = −x2 , (c) M3 = (x, y) x2 + y 2 < , = 2 < (d) M4 = (x, y) | max(|x|, |y|) = 2 , (b) M2 =
(e) M1 ∪ M2 , M1 ∪ M2 , M1 \ M3 , M3 \ M2 , M3 × M4 .
20. Man zeige die G¨ ultigkeit der folgenden Beziehungen f¨ ur beliebige Mengen M1 , M2 und M3 : (a) M1 \ (M2 ∪ M3 ) = (M1 \ M2 ) ∩ (M1 \ M3 ), (b) M1 \ (M2 ∩ M3 ) = (M1 \ M2 ) ∪ (M1 \ M3 ). 21. Man untersuche, ob f¨ ur beliebige Mengen M1 , M2 und M3 die folgenden Beziehungen gelten: (a) M1 ∩ (M2 \ M3 ) = (M1 ∩ M2 ) \ (M1 ∩ M3 ), (b) M1 ∪ (M2 \ M3 ) = (M1 ∪ M2 ) \ (M1 ∪ M3 ). 22. Gilt f¨ ur beliebige Mengen M1 und M2 die Beziehung M1 ∩ M2 = M1 \ (M1 \ M2 )? 23. Man untersuche die Eigenschaften der folgenden bin¨aren Relationen R auf der Menge X. ¨ Durch welche Relationen ist eine Ordnung, Halbordnung bzw. Aquivalenzrelation gegeben? ¨ ¨ Falls R eine Aquivalenzrelation ist, so charakterisiere man die Aquivalenzklassen. (a) X = N,
xRy ⇐⇒ x|y
(b) X = N,
xRy ⇐⇒ 2|x2 + y 2 ,
(x ist Teiler von y),
(c) X = { Menge der Geraden im Raum } ,
xRy ⇐⇒ x und y sind parallel,
(d) X = { Menge der Geraden im Raum } , xRy ⇐⇒ x und y besitzen mindestens einen gemeinsamen Punkt, (e) X = R2 , (a1 , a2 ), (b1 , b2 ) fixiert, (x1 , x2 )R(y1 , y2 ) genau dann, wenn p p (x1 − a1 )2 + (x2 − a2 )2 + (x1 − b1 )2 + (x2 − b2 )2 p p = (y1 − a1 )2 + (y2 − a2 )2 + (y1 − b1 )2 + (y2 − b2 )2 , (f) X = P(M ),
xRy ⇐⇒ x ∩ y = ∅,
(g) X = P(M ),
xRy ⇐⇒ x ∪ y = x,
(h) X = C,
xRy ⇐⇒ x¯ y=x ¯y, wobei x ¯ die konjugiert komplexe Zahl zu x bezeichnet.
24. Man untersuche die folgenden Relationen R u ¨ber den jeweiligen Mengen X hinsichtlich ihrer Eigenschaften. (a) X = R,
xRy ⇐⇒ x < = y,
(b) X = N × N,
(i, j)R(k, l) ⇐⇒ i · l = j · k,
(c) X = { 1, 2, 3 } ,
R = { (1, 1), (2, 2), (3, 3), (1, 2), (2, 3) } ,
(d) X = N,
mRn ⇐⇒ m · n ist gerade oder m = n,
(e) X = N,
mRn ⇐⇒ ggT(m, n) > 1 (ggT - gr¨oßter gemeinsamer Teiler).
¨ Welche der Relationen bilden eine Aquivalenzrelation, eine Halbordnung oder eine Ordnung?
¨ 1.4. UBUNGEN
51
25. Man zeige, daß die Potenzmenge P(M ) jeder endlichen Menge M m¨achtiger ist als M selbst. 26. Man suche Beispiele f¨ ur Relationen, die (a) reflexiv und symmetrisch, aber nicht transitiv, (b) symmetrisch und antisymmetrisch zugleich sind. 27. Man zeige, daß durch die Relation S: (a, b)S(c, d) ⇐⇒ a + b = c + d ¨ eine Aquivalenzrelation im R2 definiert wird. ¨ Man veranschauliche sich die [1, 1]S -Klasse sowie die Menge aller Aquivalenzklassen. ¨ 28. Man untersuche, ob die folgenden Relationen R u sind ¨ber der Menge X Aquivalenzrelationen ¨ und beschreibe gegebenenfalls die Aquivalenzklassen. (a) X = N, mRn ⇐⇒ sin (b) X = R,
nπ mπ nπ mπ · sin > 0 oder sin + sin = 0, 2 2 2 2 xRy ⇐⇒ [x] = [y],
wobei [x] die gr¨ oßte ganze Zahl z bezeichnet, die nicht gr¨oßer als x ist, (c) X = P(M ), X1 RX2 ⇐⇒ X1 = CM (X2 ). 29. Man untersuche folgende Abbildungen f :
X → Y auf ihre Eigenschaften:
(a) X = [0, 1], Y = [− 81 , 1], f (x) = 2x2 − x, (b) X = [1, 2], Y = [1, 3], f (x) = |x|, (c) X = [−1, 1], Y = [0, 1], f (x) = |x|. 30. Man untersuche, ob folgende Teilmengen f ⊂ R × R Abbildungen von R in R sind. (a) f=
(b) f=
(c)
(x, y) ∈ R2 y 2 = 9 − x2 ,
(x, y) ∈ R2 (y + 3)2 = 2 cos 5x ,
f=
f=
(d) (e)
x+3 (x, y) ∈ R2 y = , x−2 √ (x, y) ∈ R2 y = x ln x ,
f=
x3 − x + 2 (x, y) ∈ R y = , x2 + 2
f=
(x, y) ∈ R2 ey = x2 − x − 2 ,
(f)
2
52
KAPITEL 1. ALGEBRA (g) f=
(x, y) ∈ R2 ey = x4 − x + 7 .
31. Gegeben seien die Mengen X = { 1, 2, 3, 5, 6, 10, 15, 30 } und Y = { 2, 3, 5 }. Man konstruiere eine bijektive Abbildung der Menge X auf die Potenzmenge P(Y ), so daß f¨ ur beliebige m, n ∈ X gilt: m|n ⇐⇒ f (m) ⊂ = f (n). 32. Man zeige, daß es keine bijektive Abbildung einer Menge auf ihre Potenzmenge gibt. 33. Es seien f und g Abbildungen. Man finde Bedingungen, unter denen f ◦ g surjektiv bzw. injektiv bzw. bijektiv ist. 34. Man zeige, daß die Verkn¨ upfung von Abbildungen assoziativ ist. 35. Eine Abbildung f : X → Y heißt linear, wenn gilt: ∀x1 , x2 ∈ X
∀a, b ∈ R : f (ax1 + bx2 ) = af (x1 ) + bf (x2 ).
Man untersuche, ob folgende Abbildungen linear sind. (a) X = R,
Y = R,
f (x) = 3x + 4,
(b) X = R,
Y = R,
f (x) = 2x,
(c) X = { Menge aller differenzierbaren Funktionen von R in R } , f : jede Funktion aus X wird auf ihre Ableitung abgebildet.
Y = X,
36. Seien f : M → N und g : N → L Abbildungen. F¨ ur die Verkn¨ upfung g ◦f dieser Abbildungen zeige man: (a) Sind f und g surjektiv, so ist auch g ◦ f surjektiv. (b) Sind f und g injektiv, so ist auch g ◦ f injektiv. (c) Sind f und g bijektiv, so ist auch g ◦ f bijektiv. 37. Gegeben seien die folgenden Abbildungen: mit f (x) = sin2 x, √ • g : [0, ∞) → [0, ∞) mit g(x) = x, • f : R → [0, 1]
• h : R+ → R
mit h(x) = ln x,
• p : R → [−1, 1]
mit p(x) = sin 2x.
Man bilde alle m¨ oglichen Verkn¨ upfungen dieser Abbildungen bzw. geeigneter Einschr¨ankungen dieser Abbildungen und ermittle deren Eigenschaften. 38. A sei eine σ-Algebra. Man beweise folgende Eigenschaft: A ∈ A ∧ B ∈ A =⇒ (A ∩ B) ∈ A. 39. Gegeben seien die algebraischen Strukturen S1 = (R+ ; 1; = dimK ϕ(V ), was gerade im Satz behauptet wurde. Bei einer linearen Abbildung kann also ein Dimensionsverlust, niemals ein Dimensionsgewinn eintreten. Diese Aussage bezieht sich auf das Bild, nicht auf den Raum, in den abgebildet wird. Sehr wohl kann man von einem Vektorraum niederer Dimension in einen Vektorraum h¨oherer Dimension abbilden. Eine solche Abbildung ist jedoch nicht mit einem Informationsgewinn verbunden.
2.2.
Algorithmen zum Austauschsatz
Der Beweis des Austauschsatzes ist konstruktiv. Mathematische S¨atze, zu denen man einen konstruktiven Beweis hat, haben oft wichtige Anwendungen, weil man direkt aus dem Beweis einen Algorithmus ziehen kann. Es gibt sogar Mathematiker, die nur mathematische S¨atze mit einem konstruktiven Beweis akzeptieren. Die Bedeutung des Austauschsatzes von Steinitz liegt darin, daß der Beweis des Satzes konstruktive Methoden der linearen Algebra begr¨ undet. Im algorithmischen Teil des Beweises wird die eindeutige Darstellung wi =
n X j=1
aij vj , i = 1, . . . , m.
70
KAPITEL 2. LINEARE ALGEBRA
nach gewissen m Vektoren vji , (i = 1, . . . , m) aus v1 , . . . , vn aufgel¨ost, so daß diese Vektoren als Linearkombination der Vektoren w1 , . . . wm und der Vektoren aus { v1 , . . . , vn } \ { vj1 , . . . , vjm } dargestellt sind. Im Beweis ist enthalten, welche Vektoren vji daf¨ ur genommen werden d¨ urfen. Folglich besteht der Beweis aus 2 Teilen, die gemischt auftreten: einem Begr¨ undungsteil und einem algorithmischen Teil. Im Begr¨ undungsteil wird nachgewiesen, warum gewisse Operationen bzw. Beweisschritte ausf¨ uhrbar sind. Der algorithmische Teil vollzieht sich hier ausschließlich auf den obigen Linearkombinationen. Diese stellen wir zweckm¨aßigerweise in Tabellenform dar: v1 v2 . . . vn a11 a12 . . . a1n a21 a22 . . . a2n ....................... am1 am2 . . . amn .
w1 w2 ... wm
Hierin ist die wi -Zeile nur eine andere Darstellungsform f¨ ur die Linearkombination wi = ai1 v1 + ai2 v2 + · · · + ain vn =
n X
aij vj .
j=1
Dem Beweis des Austauschsatzes folgend ist die Gleichung f¨ ur w1 nach einem Vektor vj1 aufzul¨osen, was nat¨ urlich nur dann m¨ oglich ist, wenn der entsprechende Faktor a1j1 ungleich Null ist. Sei etwa a11 6= 0, also j1 = 1. Aufl¨ osen der 1. Gleichung nach v1 und einsetzen in die u ¨brigen liefert: v1 =
1 (w1 − a12 v2 − a13 v3 − · · · − a1n vn ) a11
wi =
1 (ai1 w1 + (a11 ai2 − ai1 a12 )v2 + · · · + (a11 ain − ai1 a1n )vn ), a11
wobei die letzte Gleichung f¨ ur i = 2, . . . , m gilt. In Tabellenform geschrieben lauten diese Linearkombinationen:
v1
w1 (1) a11
v2 (1) a12
... ...
vn (1) a1n
w2 ...
a21 a22 . . . a2n ......................
(1)
(1)
wm
am1
(1)
am2
(1)
(1)
...
(1)
amn
mit (1)
a11 =
1 , a11
(1)
(1)
a1j = −a1j a11 ,
(1)
(1)
aij = aij + ai1 a1j , (1)
(1)
ai1 = ai1 a11 ,
j = 2, . . . , n
i = 2, . . . , m; j = 2, . . . , n.
i = 2, . . . , m.
Nach r Schritten haben wir ein System von Linearkombinationen erreicht, das durch folgende Tabelle repr¨ asentiert wird:
2.2. ALGORITHMEN ZUM AUSTAUSCHSATZ
··· ···
w1 (r) a11
w2 (r) a12
v2 ···
a21 a22 · · · a2r a2,r+1 · · · a2n ......................................................
(r)
(r)
vr
ar1
wr+1 ···
ar+1,1 ar+1,2 · · · ar+1,r ar+1,r+1 · · · ar+1,n ......................................................
wm
am1
(r)
(r)
···
ar2
(r)
(r)
(r)
am2
vr+1 (r) a1,r+1
··· ···
v1
(r)
wr (r) a1r
71
(r)
(r)
(r)
arr
ar,r+1
(r)
(r)
···
(r)
···
(r)
(r)
(r)
amr
am,r+1
vn (r) a1n
(r)
arn
(r)
···
(r)
amn .
Dem Beweis des Austauschsatzes folgend haben wir nun die Linearkombination f¨ ur einen der Vektoren wi , i = r + 1, . . . , m nach einem der Vektoren vj , j = r + 1, . . . , n aufzul¨osen. F¨ ur diesen (r) Akt d¨ urfen alle jene Vektorpaare (wi , vj ) benutzt werden, bei denen der Faktor aij 6= 0 ist. Es sei (r)
etwa ar+1,r+1 6= 0. Wir l¨ osen die Linearkombination f¨ ur den Vektor wr+1 nach dem Vektor vr+1 auf und setzen das Ergebnis in die u brigen Gleichungen ein. So erhalten wir die neue Tabelle ¨
··· ···
v1
w2 (r+1) a12
v2 ···
a21 a22 · · · a2,r+1 a2,r+2 · · · a2n ..........................................................
(r+1)
(r+1)
vr+1
ar+1,1
(r+1)
ar+1,2
wr+2 ···
ar+2,1 ar+2,2 · · · ar+2,r+1 ar+2,r+2 · · · ar+2,n ..........................................................
(r+1)
(r+1)
wm
am1
(r+1)
(r+1)
(r+1)
am2
···
···
wr+1 (r+1) a1,r+1
vr+2 (r+1) a1,r+2
(r+1)
(r+1)
··· ···
w1 (r+1) a11
(r+1)
ar+1,r+1
(r+1)
ar+1,r+2
(r+1)
(r+1)
(r+1)
am,r+2
am,r+1
(r+1)
vn (r+1) a1n (r+1)
···
(r+1)
ar+1,n (r+1)
···
(r+1)
amn
,
wobei sich die Faktoren in den neuen Linearkombinationen nach folgenden Formeln berechnen: 1
(r+1)
ar+1,r+1 = (r+1)
aij
(r+1)
(r+1)
(r) ar+1,r+1
(r)
(r)
(r+1)
, ai,r+1 = ai,r+1 ar+1,r+1 , i = 1, . . . , m; i 6= r + 1,
(r+1) (r)
= aij − ai,r+1 ar+1,j , i = 1, . . . , m; i 6= r + 1; j = 1, . . . , n; j 6= r + 1, (r)
(r+1)
ar+1,j = −ar+1,j ar+1,r+1 , j = 1, . . . , n; j 6= r + 1. F¨ ur r = m endet der Algorithmus. Dieser algorithmische Extrakt aus dem Beweis des Austauschsatzes von Steinitz zeigt uns noch etwas: Bei den Operationen auf der Tabellenform der Linearkombinationen kann man von der expliziten Existenz aller Vektoren abstrahieren, da sie f¨ ur den eigentlichen Algorithmus nicht interessieren. Im Ergebnis des Algorithmus ist nur wichtig, welche Vektoren jeweils f¨ ur den Austausch ausgew¨ahlt wurden; diese k¨onnen wir durch ihre Indices repr¨asentieren, indem wir z. B. am Anfang an die v-Vektoren die Indices 1, 2, . . . , n vergeben und an die w-Vektoren die Indices n + 1, . . . , n + m. Diese kleine Tatsache ist wesentlich, weil man Vektoren nicht nach einer einheitlichen Methode in den Rechner eingeben kann. Im Austauschsatz haben wir vorausgesetzt, daß die Vektoren w1 , . . . , wm linear unabh¨angig sind. Diese Bedingung brauchen wir zun¨ achst nicht, um den Algorithmus auszuf¨ uhren. Sollte sie verletzt sein, wird man
72
KAPITEL 2. LINEARE ALGEBRA (r)
in einem gewissen Schritt r des Algorithmus kein geeignetes Vektorpaar (wi , vj ) mit aij 6= 0 finden. In einem solchen Falle w¨ urde der Algorithmus mit dem r-ten Schritt enden. Daher sollte ein formaler Algorithmus auch ausgeben, welche Vektoren und wieviele ausgetauscht wurden. Die in einem Austauschschritt ausgew¨ ahlte Zeile in der Tabelle nennt man auch Pivotzeile, und die ausgew¨ahlte Spalte heißt Pivotspalte; das auf der Kreuzung von Pivotzeile und Pivotspalte stehende Element heißt Pivotelement. Beispiel. Im R4 seien die Vektoren b1 = (4; 0; −1; 2), b2 = (3; 2; −2; 1), b3 = (−1; 2; 0; 0) urlichen Einheitsvektoren zu einer Basis zu erg¨ anzen. Als Ausgangsbasis des R4 w¨ahlen wir die nat¨ B = { e1 , e2 , e3 , e4 }. Damit lautet das Anfangstableau f¨ ur den Austauschalgorithmus:
5 6 7
1 ∗4 3 −1
2 0 2 2
3 −1 −2 0
4 2 . 1 0
Der Austausch von b1 gegen e1 liefert die neue Tabelle
1 6 7
5 1 4 3 4 1 − 4
2 0 ∗2 2
3 1 4 5 − 4 1 − 4
4 1 − 2 1 . − 2 1 2
Nun k¨onnen wir b2 gegen e2 austauschen und erhalten die neue Tabelle
1 2 7
5 1 4 3 − 8 −1
6
1 2
3 1 4 5 8
4 1 − 2 1 . 4
1
∗1
1
0
Im letzten Schritt tauschen wir b3 gegen e3 und erhalten die Endtabelle
1 2 3
5 1 2 1 4
6 1 − 4 1 − 8
7 1 4 5 8
4 3 − 4 3 . − 8
1
−1
1
−1
Insbesondere entnehmen wir dieser Tabelle, daß die Vektoren b1 , b2 , b3 , e4 eine Basis des R4 bilden. Gleichzeitig wurden uns die Koordinaten der nat¨ urlichen Einheitsvektoren e1 , e2 , e3 bez¨ uglich dieser Basis geliefert.
2.2. ALGORITHMEN ZUM AUSTAUSCHSATZ
73
Der Algorithmus AUSTAUSCH operiert nur auf den Faktoren aij der Linearkombinationen. Ein Rechteckschema von m · n Zahlen aij werden wir Matrix A nennen: a11 a12 · · · a1n a21 a22 · · · a2n A= . . . . . . . . . . . . . . . . . . . . . = (aij )m,n . am1 am2 · · · amn Eine Matrix hat Zeilen und Spalten (i-te Zeile, j-te Spalte). Jede Zeile kann als Vektor des Rn (Zeilenvektor) und jede Spalte als Vektor des Rm (Spaltenvektor) angesehen werden; aij heißt Matrixelement, die Zahlen aii nennt man Hauptdiagonalelemente. Sind eine Basis B = { b1 , . . . , bn } und eine Matrix A = (aij )m,n gegeben, so werden durch wi =
n X
aij bj ,
i = 1, . . . , m
j=1
m Vektoren w1 , . . . , wm definiert, und wir k¨onnen mit dem Austauschalgorithmus entscheiden, ob sie linear unabh¨ angig sind oder nicht. Im ersten Falle endet der Algorithmus bei r = m, sonst fr¨ uher. Aus der Kette m X
λi wi = o ⇐⇒
i=1
⇐⇒ ⇐⇒
m X i=1 n X
n X λi ( aij bj ) = o j=1 m X
(
aij λi )bj = o
j=1 i=1 m X
aij λi = 0,
j = 1, . . . , n
i=1
schließen wir, daß die Vektoren w1 , . . . , wm genau dann linear unabh¨angig sind, wenn die Zeilenvektoren der Matrix A diese Eigenschaft haben. Genauer gesagt: Unter den Vektoren w1 , . . . , wm gibt es genau dann r linear unabh¨ angige, wenn es unter den Zeilenvektoren der Matrix A r linear unabh¨angige gibt. Die maximale Anzahl linear unabh¨angiger Zeilenvektoren einer Matrix A nennt man den Zeilenrang der Matrix A. Sei eine Matrix A = (aij )m,n mit den Zeilenvektoren wi =
n X
aij ej ,
i = 1, . . . , m
j=1
gegeben. Sie m¨ oge den Zeilenrang r haben; ohne Beschr¨ankung der Allgemeinheit nehmen wir an, daß die ersten r Vektoren w1 , . . . , wr linear unabh¨angig sind und mit dem Austauschalgorithmus die Vektoren e1 , . . . , er gegen w1 , . . . , wr ausgetauscht werden. Dann sind U = lin (w1 , . . . , wr ) und U = lin (er+1 , . . . , en ) Komplementr¨ aume und f¨ ur den Restklassenraum gilt Rn /U = x + U | x ∈ U ,
74
KAPITEL 2. LINEARE ALGEBRA
woraus dim(Rn /U ) = r folgt. Zu einer gegebenen Matrix A = (aij )m,n kann man mit dem Austauschalgorithmus den Zeilenrang berechnen. Dazu w¨ ahle man { v1 , . . . , vn } = { e1 , . . . , en } und wi =
n X
aij ej ,
i = 1, . . . , m.
j=1
Dann ist wi gerade der i-te Zeilenvektor der Matrix A, und der Austauschalgorithmus liefert die maximale Anzahl ausgetauschter Vektoren, also die maximale Anzahl linear unabh¨angiger Zeilenvektoren, d. h. den Zeilenrang. Nat¨ urlich nutzen wir damit den Algorithmus zweckentfremdet, da ja der Zeilenrang nur ein Nebenprodukt ist. Wir wollen aus diesem Grunde im Austauschalgorithmus jene Operationen einsparen, die f¨ ur die Berechnung des Zeilenranges unn¨otig sind. Betrachten wir den ersten Schritt und es sei etwa w1 gegen v1 zu tauschen, also a11 6= 0. Diese Situation ist durch eventuelles Vertauschen der Pivotzeile mit der ersten Zeile und der Pivotspalte mit der ersten Spalte zu erreichen. Offenbar m¨ ussen wir nur die Transformation f¨ ur die Elemente der Untermatrix a22 a23 · · · a2n a32 a33 · · · a3n ..................... am2 am3 · · · amn ausf¨ uhren. Die unvollst¨ andigen Transformationsformeln lauten hier: (1)
li,1 = (1)
ai1 , i = 2, . . . , m; a11 (1)
aij = aij − li1 a1j , i = 2, . . . , m; j = 2, . . . , n. Wir entnehmen sie unmittelbar den Transformationsformeln aus dem Austauschalgorithmus, wobei wir die Transformation der Pivotzeile (hier die erste Zeile) weggelassen und die transformierten Elemente der Pivotspalte mit li1 , i = 2, . . . , m bezeichnet haben. Es sei noch bemerkt, daß wir auch keinen Austausch der Indices aus der 0-ten Zeile und 0-ten Spalte vorzunehmen brauchen, da wir ja nur am Zeilenrang der Matrix interessiert sind. Nach diesen Bemerkungen k¨onnen wir den unvollst¨andigen Austauschalgorithmus schon verbal beschreiben, wobei wir die folgende Tabellenform verwenden wollen: 1 2 ... m
1 2 ... n a11 a12 . . . a1n a21 a22 . . . a2n ....................... am1 am2 . . . amn .
Die zu l¨osende Aufgabe besteht darin, die maximale Anzahl linear unabh¨angiger Zeilen der Matrix A zu bestimmen. Das folgende unvollst¨ andige Austauschverfahren wurde wohl zuerst von K. F. Gauß (1777-1855) angegeben, jedoch mit einem anderen Ziel.
2.2. ALGORITHMEN ZUM AUSTAUSCHSATZ
75
Schritt 0: r:=0. Schritt 1: Man suche eine Zeile i (i > r) in der aktuellen Tabelle, die ein aij 6= 0 (j > r) enth¨alt; falls keine solche Zeile existiert, ist das Verfahren beendet; andernfalls vertausche man Zeile i mit Zeile r + 1 und Spalte j mit Spalte r + 1, so daß danach ar+1,r+1 6= 0 gilt. Schritt 2: Die Tabelle wird transformiert gem¨aß der folgenden Formeln: li,r+1 =
ai,r+1 ar+1,r+1
, i = r + 2, . . . , m;
aij := aij − li,r+1 ar+1,j , i = r + 2, . . . , m; j = r + 2, . . . , n. Schritt 3: r := r + 1; man wiederhole Schritt 1. Das Verfahren endet offenbar, falls r = m ist oder die aktuelle Matrix ab Zeile r + 1 und Spalte r + 1 nur noch Nullelemente enth¨ alt. Die letzte aktuelle Zahl r ist der Zeilenrang der Ausgangsmatrix A. Im Interesse der vollst¨ andigen Reproduzierbarkeit der Ausgangsmatrix aus der Endtabelle speichern wir die Faktoren lij auf den entsprechenden Elementen aij ab: ai,r+1 := li,r+1 , i = r + 2, . . . , m. Zur Illustration betrachten wir das folgende Beispiel:
1 2 3
1 0 1 0
2 0 −1 −2
3 1 3 0
4 2 0 0
5 0 . −2 −1
Zun¨achst vertauschen wir die Spalten 1 und 3:
1 2 3
3 ∗1 3 0
2 0 −1 −2
1 0 1 0
4 2 0 0
5 0 . −2 −1
Nach dem ersten Durchlauf haben wir die folgende Tabelle:
1 2 3
3 1 3 0
2 0 ∗−1 −2
1 0 1 0
4 2 −6 0
5 0 . −2 −1
Der zweite Durchlauf liefert die Endtabelle: 1 2 3
3 1 3 0
2 0 −1 −2
1 0 1 −2
4 2 −6 12
5 0 . −2 3
Wir wollen noch eine Interpretation der Operationen, die der Algorithmus auf der Matrix ausf¨ uhrt, betrachten. Dazu nehmen wir zur Vereinfachung der Darstellung an, daß keine Zeilen- und Spaltenvertauschungen vorgenommen werden. Die erste Transformation der Matrixelemente lautet (1)
aij = aij −
ai1 a1j , i = 2, . . . , m, j = 2, . . . , n. a11
76
KAPITEL 2. LINEARE ALGEBRA
F¨ ur j = 1 erzeugen diese Formeln in der ersten Spalte unterhalb des Pivotelementes a11 Nullelei1 mente. Dabei wird das aa11 -fache der ersten Zeile von der i-ten subtrahiert (i = 2, . . . , m). Folglich u uhrt die erste Transformation die Matrix A in die Matrix ¨berf¨ a11 a12 · · · a1n (1) (1) 0 a22 · · · a2n .................... . (1) (1) 0 am2 · · · amn (1)
Im zweiten Transformationsschritt werden die Elemente in der 2. Spalte unterhalb von a22 zu Null gemacht, indem das
(1) ai2 (1) a22
-fache der zweiten Zeile von der i-ten subtrahiert wird (i = 3, . . . , m) usw.
Wenn die Matrix A den Zeilenrang r hat, so wird sie a11 a12 · · · a1r a1,r+1 · · · a1n (1) (1) (1) (1) a22 · · · a2r a2,r+1 · · · a2n 0 ............................................ (r−1) (r−1) (r−1) 0 0 · · · arr ar,r+1 · · · arn 0 0 ··· 0 0 ··· 0 ............................................ 0 0 ··· 0 0 ··· 0
mit dem Algorithmus in die Matrix
u uhrt, wobei in jedem Transformationsschritt in geeigneter Weise ein gewisses Vielfaches ei¨berf¨ ner Zeile zu anderen addiert wird. In der Endmatrix kann der untere Nullteil auch fehlen; die Hauptdiagonalelemente bis zur r-ten Zeile sind ungleich Null. Man sagt, daß die Matrix A auf Halbdiagonalform transformiert wurde. Wir konstatieren zwei Beobachtungen: Der Algorithmus transformiert eine Matrix auf Halbdiagonalform. Die Addition einer Linearkombination von Zeilen zu einer anderen a ¨ndert den Zeilenrang der Matrix nicht.
2.3.
Lineare Abbildungen und Matrizen
Es sei V (+; ·, R) ein endlichdimensionaler Vektorraum der Dimension n. In V sei eine Basis B = { b1 , . . . , bn } gegeben. Da jede lineare Abbildung ϕ auf V durch Vorgabe der Bilder einer fixierten Basis vollst¨andig charakterisiert ist, definieren wir ϕ so, daß die Bilder der Basisvektoren gerade die nat¨ urlichen Einheitsvektoren des Rn sind: ϕ(bi ) = ei , i = 1, . . . , n. Es seien x ein Vektor aus V und x1 , . . . , xn seine Koordinaten bez¨ uglich der gew¨ahlten Basis B: x=
n X
xi bi
i=1
Im Falle x ∈ ker(ϕ) folgt n n n X X X xi bi ) = xi ϕ(bi ) = xi ei , o = ϕ(x) = ϕ( i=1
i=1
i=1
woraus sich xi = 0, i = 1, . . . , n ergibt, da die nat¨ urlichen Einheitsvektoren linear unabh¨angig sind. Damit ist die so definierte lineare Abbildung ein Isomorphismus und wir haben
2.3. LINEARE ABBILDUNGEN UND MATRIZEN
77
Satz 2..14. Jeder n-dimensionale Vektorraum u orper der reellen Zahlen ist isomorph ¨ber dem K¨ zum Rn . Wir k¨onnen daher unsere Untersuchungen auf den Rn einschr¨anken. Im Mittelpunkt der Untersuchungen steht dabei das Studium der linearen Abbildungen zwischen Vektorr¨aumen. Bisher haben wir lineare Abbildungen abstrakt behandelt. Nun wollen wir untersuchen, wie sich lineare Abbildungen berechnen lassen, d. h. wie man das Bild eines beliebigen Vektors bei einer linearen Abbildung berechnet. Im Vektorraum Rn sei eine Basis B = { b1 , . . . , bn } und im Vektorraum Rm eine Basis C = { c1 , . . . , cm } gegeben; ferner sei ϕ eine lineare Abbildung des Rn in den Rm . Die Bilder ϕ(b1 ), . . . , ϕ(bn ) der Basisvektoren aus B lassen sich dann auf genau eine Weise als Linearkombinationen der Basisvektoren aus C darstellen: ϕ(bj ) =
m X
aij ci = a1j c1 + a2j c2 + · · · + amj cm , j = 1, . . . , n.
i=1
Die Faktoren in der j-ten Linearkombination sind die Koordinaten des Vektors ϕ(bj ) bez¨ uglich der Basis C. F¨ ur das Bild eines beliebigen Vektors x = x1 b1 + · · · + xn bn ∈ Rn folgt daraus ϕ(x) = ϕ(x1 b1 + · · · + xn bn ) = x1 ϕ(b1 ) + · · · + xn ϕ(bn ) m m X X = x1 ai1 ci + · · · + xn ain ci i=1
i=1
= a11 x1 c1 + a21 x1 c2 + · · · + am1 x1 cm + a12 x2 c1 + a22 x2 c2 + · · · + am2 x2 cm + + ···+ a1n xn c1 + a2n xn c2 + · · · + amn xn cm = (a11 x1 + a12 x2 + · · · + a1n xn )c1 + (a21 x1 + a22 x2 + · · · + a2n xn )c2 + + ···+ (am1 x1 + am2 x2 + · · · + amn xn )cm . Das Bild ϕ(x) hat also bez¨ uglich der fixierten Basis C die Koordinaten y1 , . . . , ym mit yi = ai1 x1 + ai2 x2 + · · · + ain xn , i = 1, . . . , m. Folglich ist bei fixierten Basen in Bild- und Urbildraum jeder linearen Abbildung eine wohlbestimmte Matrix zugeordnet. Die Matrix enth¨alt in der j-ten Spalte die Koordinaten des Bildvektors vom j-ten Basisvektor bez¨ uglich der im Bildraum gew¨ahlten Basis. Besteht die gew¨ahlte Basis im Bildraum aus den nat¨ urlichen Einheitsvektoren, so stimmen die Koordinaten der Bildvektoren mit den Komponenten u ¨berein. Folglich enth¨alt in diesem Falle die j-te Spalte der Matrix den Bildvektor des j-ten Basisvektors aus dem Urbildraum. Umgekehrt definiert jede (m, n)-Matrix A = (aij )m,n bei fixierten Basen B und C in Bild- und Urbildraum durch ϕ(bj ) =
m X i=1
aij ci , j = 1, . . . , n
78
KAPITEL 2. LINEARE ALGEBRA
genau eine lineare Abbildung ϕ des Rn in den Rm . Es gibt daher eine umkehrbar eindeutige Abbildung zwischen der Menge L(Rn , Rm ) aller linearen Abbildungen des Rn in den Rm und der Menge Mmn (R) aller (m, n)-Matrizen. Die (m, n)-Matrix mit nur Nullelementen heißt Nullmatrix. Im Falle m = n spricht man von einer quadratischen Matrix. Eine quadratische Matrix nennt man Einheitsmatrix, falls die i-te Zeile den i-ten Einheitsvektor enth¨alt. An einem Beispiel soll die Zuordnung einer Matrix zu einer linearen Abbildung demonstriert werden. Im R2 (n = 2) sei die Basis B = { (1; 2), (0; 1) } und im R3 (m = 3) sei die Basis C = { (0; 2; −1), (1; 1; 1), (2; 0; −3) } gegeben. Wir definieren eine lineare Abbildung ϕ durch ϕ(B): ϕ(1; 2) = (1; 1; 0), ϕ(0; 1) = (−2; 2; 3). Man bestimme die der Abbildung zugeordnete Matrix. Die Koeffizienten der Matrix sind gerade die Koordinaten der Bildvektoren bez¨ uglich der Basis C: (1; 1; 0) = a11 (0; 2; −1) + a21 (1; 1; 1) + a31 (2; 0; −3), (−2; 2; 3) = a12 (0; 2; −1) + a22 (1; 1; 1) + a32 (2; 0; −3). In Komponentenschreibweise lauten diese Gleichungen: 1 = a21 + 2a31 1 = 2a11 + a21 0 = −a11 + a21 − 3a31 −2 = a22 + 2a32 2 = 2a12 + a22 3 = −a12 + a22 − 3a32 . Wir haben also ein lineares Gleichungssystem zu l¨osen, um die zugeordnete Matrix zu erhalten. Dies verschieben wir auf den n¨ achsten Abschnitt. H¨atten wir im Bildraum R3 die nat¨ urlichen Einheitsvektoren als Basis gew¨ ahlt, best¨ unde die zugeordnete Matrix einfach aus den Bildvektoren der gew¨ahlten Basis des Urbildraumes: 1 −2 2 . A= 1 0 3 Die Menge L(Rn , Rm ) aller linearen Abbildungen des Rn in den Rm bildet mit den Operationen: ϕ + ψ : x 7−→ ϕ(x) + ψ(x) ∀x ∈ Rn , λϕ : x 7−→ λϕ(x) ∀x ∈ Rn ∀λ ∈ R einen Vektorraum u ¨ber R. Wegen der umkehrbar eindeutigen Abbildung zwischen der Menge L(Rn , Rm ) und der Menge Mmn (R) aller (m, n)-Matrizen mit Koeffizienten aus R k¨onnen wir untersuchen, welche Operationen zwischen Matrizen mit der Addition von linearen Abbildungen in L(Rn , Rm ) und mit der Multiplikation einer linearen Abbildung mit einer reellen Zahl vertr¨aglich
2.3. LINEARE ABBILDUNGEN UND MATRIZEN
79
sind, so daß Mmn (R) ein Vektorraum wird und außerdem Isomorphie zwischen L(Rn , Rm ) und Mmn (R) besteht. Dazu seien ϕ, ψ ∈ L(Rn , Rm ) lineare Abbildungen und ψ ψ Aϕ = (aϕ ij )m,n , A = (aij )m,n
die den Abbildungen zugeordneten Matrizen bez¨ uglich vorgegebener Basen B = { b1 , . . . , bn } des Rn bzw. C = { c1 , . . . , cm } des Rm ; sei x ein Vektor aus dem Rn mit den Koordinaten x1 , . . . , xn ¨ bez¨ uglich der Basis B. Dann gilt nach den obigen Uberlegungen ϕ(x) =
m X n m X n X X ( aϕ x )c , ψ(x) = ( aψ ij j i ij xj )ci , i=1 j=1
i=1 j=1
und daher m X n n X X ϕ ϕ(x) + ψ(x) = ( aij xj + aψ ij xj )ci i=1 j=1
j=1
m X n X ψ = ( (aϕ ij + aij )xj )ci . i=1 j=1
Also ist der linearen Abbildung ϕ + ψ die Matrix ψ Aϕ + Aψ = (aϕ ij + aij )m,n
zugeordnet, was wir daher als eine sinnvolle Definition der Matrizenaddition ansehen k¨onnen. Ganz ϕ ¨ahnlich rechnet man aus, daß der linearen Abbildung λϕ, λ ∈ R die Matrix (λ · aij )m,n zugeordnet ist, woraus wir schließen, daß die Multiplikation einer Matrix A mit einer reellen Zahl λ durch λ · A = (λ · aij )m,n zu definieren ist. Die so erkl¨ arten Operationen auf der Menge Mmn (R) aller (m, n)-Matrizen machen diesen zu einem Vektorraum u ¨ber dem K¨orper der reellen Zahlen, und die beiden Vektorr¨aume L(Rn , Rm ) und Mmn (R) sind isomorph. Insbesondere bildet die Menge M1n (R) aller (1, n)-Matrizen einen Vektorraum u ¨ber R, der isomorph zum Rn ist; entsprechend auch die Menge Mm1 (R) aller (m, 1)-Matrizen. Der Vektorraum Mnm (R) heißt der zu Mmn (R) transponierte Vektorraum; entsprechend f¨ ur Matrizen: zu einer Matrix A = (aij )m,n heißt die Matrix AT = (aji )n,m die zu A transponierte Matrix. Sie entsteht aus der Matrix dadurch, daß die Zeilen der einen zu den Spalten der anderen werden. Als n¨achstes wollen wir ausrechnen, welche zweistellige Matrizenoperation die Verkn¨ upfung von zwei linearen Abbildungen liefert. Um zwei Abbildungen ϕ, ψ zu verkn¨ upfen, muß der Bildraum der einen gerade der Urbildraum der anderen sein. Es seien im Rn eine Basis B = { b1 , . . . , bn }, im Rm eine Basis C = { c1 , . . . , cm }, im Rl eine Basis D = { d1 , . . . , dl } gegeben und ϕ : Rn 7−→ Rm , ϕ 7−→ Aϕ = (aϕ ij )m,n , ψ : Rm 7−→ Rl , ψ 7−→ Aψ = (aψ ij )l,m .
80
KAPITEL 2. LINEARE ALGEBRA
F¨ ur die Basisvektoren bj aus B berechnen wir m m X X ψ(ϕ(bj )) = ψ( aϕ c ) = aϕ i ij ij ψ(ci ) i=1
=
m X
i=1
aϕ ij (
i=1
l X
aψ ki dk )
k=1
l X m X ϕ = ( aψ ki aij )dk . k=1 i=1
Folglich ist der Verkn¨ upfung ψ ◦ ϕ die Matrix (aψ◦ϕ kj )l,n = (
m X
ϕ aψ ki aij )l,n
i=1
zugeordnet und wir haben die Multiplikation zweier Matrizen in entsprechender Weise zu definieren: A · B = (aij )m,n · (bjk )n,l = (cik )m,l mit cik =
n X
aij bjk , i = 1, . . . , m, k = 1, . . . , l.
j=1
Beispiel: A=
a b c d e f
g ,B = i k
h ag + bi + ck j , AB = dg + ei + f k l
ah + bj + cl dh + ej + f l
.
Durch einfaches Ausrechnen zeigt man, daß die Matrizenmultiplikation assoziativ und mit der Matrizenaddition distributiv ist: (AB)C = A(BC), (A + B)C = AC + BC, C(A + B) = CA + CB, wobei nat¨ urlich die Zeilen- und Spaltenanzahlen so gew¨ahlt sein m¨ ussen, daß die Operationen auch ausf¨ uhrbar sind. Im Falle m = n ist AB ∈ Mnn (R). Hier entspricht der identischen Abbildung die Einheitsmatrix 1 0 0 ... 0 0 1 0 ... 0 E= 0 0 1 ... 0 . ................ 0 0 0 ... 1 Die Menge Mnn (R) aller (n, n)-Matrizen bildet somit einen Ring mit Einselement bez¨ uglich der Matrizenaddition und der Matrizenmultiplikation und dieser ist isomorph zum Ring der linearen Abbildungen L(Rn , Rn ) mit der Addition und der Nacheinanderausf¨ uhrung von Abbildungen. Der Ring ist nicht kommutativ und enth¨ alt Nullteiler, z. B. 1 −2 4 2 4 −2 0 0 0 3 1 5 −1 −2 1 = 0 0 0 . 2 4 0 −1 −2 1 0 0 0
2.4. LINEARE GLEICHUNGSSYSTEME
81
Im Vektorraum Rn nehmen wir nun als Basis die nat¨ urlichen Einheitsvektoren, entsprechend auch im Rm . In diesem Falle stimmen die Komponenten mit den Koordinaten sowohl im Bild- als auch im Urbildraum u uglich ¨berein. Es sei ϕ eine lineare Abbildung und A die ihr zugeordnete Matrix bez¨ der beiden nat¨ urlichen Basen. Mit A1 , . . . , An bezeichnen wir die Spalten der Matrix A, also die Bilder der Basisvektoren des Urbildraumes: ϕ(ej ) = Aj , j = 1, . . . , n. F¨ ur die Dimension des Bildes gilt dann dim ϕ(Rn ) = dim lin (A1 , . . . , An ) . Die Dimension des Bildraumes ist nat¨ urlich unabh¨angig von der Matrix A; folglich hat der Unterraum lin (A1 , . . . , An ) des Rm f¨ ur jede Matrix A, die man der Abbildung ϕ zuordnen kann, die gleiche Dimension; anders gesagt: Jede dieser Matrizen hat die gleiche maximale Anzahl linear unabh¨angiger Spaltenvektoren. Die maximale Anzahl linear unabh¨angiger Spaltenvektoren einer Matrix nennt man Spaltenrang. Im Abschnitt 2.2. haben wir gelernt, daß die Dimension des durch die lineare Abbildung induzierten Restklassenklassenraumes gerade der Zeilenrang einer beliebigen, ihr zugeordneten Matrix ist. Nach Homomorphiesatz sind aber der Bildraum ϕ(Rn ) und der Restklassenraum isomorph. Somit stimmen Zeilenrang und Spaltenrang einer Matrix u ¨berein und wir k¨ onnen vom Rang rg(A) einer Matrix A sprechen. Der Algorithmus GAUSS bestimmt also den Rang einer Matrix (indem er sie auf sog. Halbdiagonalform transformiert) und damit die Dimension des Bildes eines Vektorraumes bei einer linearen Abbildung.
2.4.
Lineare Gleichungssysteme
Nachdem wir im vorangegangenen Abschnitt gelernt haben, wie man lineare Abbildungen berechnet, wollen wir hier die Umkehrung der Aufgabe behandeln. Die Aufgabe lautet: Bei gegebener Abbildung ϕ ∈ L(Rn , Rm ) und gegebenem Vektor y ∈ Rm finde man alle Vektoren x ∈ Rn , die die Gleichung ϕ(x) = y erf¨ ullen. Zur L¨ osung dieser Aufgabe benutzen wir in diesem Abschnitt in den Vektorr¨ aumen Rn und Rm jeweils die nat¨ urlichen Einheitsbasen. Bez¨ uglich dieser Basen sei der linearen Abbildung ϕ die Matrix A = (aij )m,n zugeordnet. Dann bedeutet die Gleichung ϕ(x) = y in Komponentenschreibweise a11 x1 + a12 x2 + · · · + a1n xn = y1 a21 x1 + a22 x2 + · · · + a2n xn = y2 .................................... am1 x1 + am2 x2 + · · · + amn xn = ym . Dies ist ein lineares Gleichungssystem mit m Gleichungen und n Unbekannten x1 , . . . , xn . F¨ ur ein Gleichungssystem f¨ uhren wir die sog. Matrizenschreibweise ein. Dazu fassen wir die Vektoren x = (x1 , . . . , xn ) und y = (y1 , . . . , ym ) als (n, 1)- bzw. (m, 1)-Matrizen auf: y1 x1 y2 x2 x = . , y = . . .. .. ym xn Diese Schreibweise ist dadurch gerechtfertigt, daß der Vektorraum Mn1 (R) aller (n, 1)-Matrizen isomorph zum Rn ist; entsprechend ist der Vektorraum M1n (R) aller (1, n)-Matrizen isomorph zum
82
KAPITEL 2. LINEARE ALGEBRA
Mn1 (R). Damit k¨ onnen wir das Gleichungssytem in der Kurzform Ax = y schreiben. Die Matrix A nennt man in diesem Zusammenhang auch Koeffizientenmatrix. Unsere Ausgangsfrage nach den L¨osungen der Gleichung ϕ(x) = y ist so gleichbedeutend mit der Frage nach allen L¨osungen des linearen Gleichungssystems Ax = y und wir k¨onnen unsere Erkenntnisse u ¨ber lineare Abbildungen auf das lineare Gleichungssystem anwenden. Zun¨achst wollen wir uns mit der sog. homogenen Gleichung ϕ(x) = o besch¨aftigen, d. h. mit dem homogenen linearen Gleichungssystem Ax = o. Wegen ker(ϕ) = { x | Ax = o } und n = dim Rn = dim ker(ϕ) + dim ϕ(Rn = dim ker(ϕ) + rg(A) folgt: Satz 2..15. Die Anzahl der linear unabh¨ angigen L¨ osungen eines homogenen linearen Gleichungssystems Ax = o ist gleich der Anzahl der Unbekannten minus Rang der Koeffizientenmatrix. Das sog. inhomogene System Ax = y ist offenbar genau dann l¨osbar, wenn y ∈ ϕ(Rn ) gilt. Da die Spaltenvektoren A1 , . . . , An der Matrix A die Bildvektoren der fixierten Basis im Rn sind, geh¨ort der Vektor y genau dann zum Bild ϕ(Rn ), wenn y in der linearen H¨ ulle der Spaltenvektoren der Matrix A liegt. Zusammen: Das System Ax = y ist genau dann l¨osbar, wenn lin (A1 , . . . , An ) = lin (A1 , . . . , An , y) gilt. Wenn wir noch die sog. erweiterte Koeffizientenmatrix a11 · · · a1n y1 (A, y) = . . . . . . . . . . . . . . . . . . . . am1 · · · amn ym einf¨ uhren und den Dimensionsbegriff ber¨ ucksichtigen, haben wir den folgenden Satz bewiesen. Satz 2..16. Das lineare Gleichungssystem Ax = y ist genau dann l¨ osbar, wenn die Koeffizientenmatrix und die erweiterte Koeffizientenmatrix den gleichen Rang haben: rg(A) = rg(A, y). Die Menge aller L¨ osungen eines linearen Gleichungssystems wird oft auch als allgemeine L¨ osung bezeichnet. Da die lineare Abbildung ϕ ein Homomorphismus ist und somit eine Restklassenzerlegung des Rn nach dem Normalteiler ker(ϕ) induziert, bedeutet das Aufsuchen aller L¨osungen von Ax = y die Ermittlung jener Restklasse, deren Vektoren s¨amtlich auf y abgebildet werden. Die Restklassen sind von der Form x∗ + ker(ϕ) = { x∗ + x | Ax = o } . Also hat im Falle der L¨ osbarkeit von Ax = y die Menge X ∗ aller L¨osungen die Form X ∗ = { x∗ + x | Ax = o } , wobei x∗ eine spezielle L¨ osung von Ax = y darstellt. Nach dem vorletzten Satz wird der Unterraum ker(ϕ) = { x | Ax = o } durch n − r linear unabh¨ angige L¨ osungen des homogenen Systems erzeugt, wobei r der Rang der Matrix A ist. Zusammenfassend k¨ onnen wir also den folgenden Satz aussprechen.
2.4. LINEARE GLEICHUNGSSYSTEME
83
Satz 2..17. Die (m, n)-Matrix A habe den Rang r; es seien a1 , . . . , an−r linear unabh¨ angige L¨ osungen des homogenen Systems Ax = o und x∗ eine spezielle L¨ osung des inhomogenen Systems Ax = y. Dann l¨ aßt sich die Menge X ∗ aller L¨ osungen des linearen Gleichungssystems Ax = y in der Form X ∗ = { x∗ + λ1 a1 + λ2 a2 + · · · + λn−r an−r | λi ∈ R, i = 1, . . . , n − r } darstellen, d. h. zu jeder L¨ osung x des Systems Ax = y gibt es reelle Zahlen λ1 , . . . , λn−r , so daß x = x∗ + λ1 a1 + λ2 a2 + · · · + λn−r an−r gilt. Wir u ¨berlegen uns nun, daß man mit dem Algorithmus GAUSS sowohl die L¨osbarkeit eines linearen Gleichungssystems entscheiden als auch die allgemeine L¨osung bestimmen kann. Wir bringen die erweiterte Koeffizientenmatrix (A, y) mit dem Algorithmus GAUSS auf Halbdiagonalform (U, z), wobei die letzte Spalte nicht in eventuelle Spaltenvertauschungen einbezogen wird. Bei dieser Transformation werden schrittweise Linearkombinationen von Zeilen zu anderen addiert. Das neue Gleichungssystem mit der erweiterten Koeffizientenmatrix (U, z) lautet, falls keine Spaltenvertauschungen vorgenommen wurden: u11 x1
+ u12 x2 u22 x2
+ · · · + u1r xr + · · · + u1n xn = z1 + · · · + u1r xr + · · · + u2n xn = z2 ......................................... urr xr + · · · + urn xn = zr 0xr + · · · + 0xn = zr+1 ............................... 0xr + · · · + 0xn = zm .
Dieses Gleichungssystem ist wegen der Transformationsformeln im Algorithmus GAUSS aus Ax = y durch mehrfache Anwendung folgender Operationen hervorgegangen: • Multiplikation einer Gleichung mit einer Zahl (ungleich Null), • Addition zweier Gleichungen. Daher hat das neue Gleichungssystem die gleichen L¨osungen wie das alte. Im transformierten System Ux = z sind zwei F¨ alle m¨ oglich: Fall 1: Es ist r < m und f¨ ur ein l ∈ { r + 1, . . . , m } gilt zl 6= 0. Dann ist rg(U, z) = rg(A, y) = r + 1 > r = rg(A), was uns zeigt, daß das System unl¨ osbar ist. Fall 2: Es ist r < = m, zi = 0, i = r + 1, . . . , m. In diesem Falle gilt rg(A, y) = rg(U, z) = rg(U) = r = rg(A), das System ist l¨ osbar und kann in folgender Form geschrieben werden: u11 x1 + u12 x2 + · · · + u1r xr = z1 − u1,r+1 xr+1 − · · · − u1n xn u22 x2 + · · · + u2r xr = z2 − u2,r+1 xr+1 − · · · − u2n xn ....................................................... urr xr = zr − ur,r+1 xr+1 − · · · − urn xn .
84
KAPITEL 2. LINEARE ALGEBRA
Zu jeder Wahl von (x∗r+1 , . . . , x∗n ) ∈ Rn−r erh¨alt man genau eine spezielle L¨osung x∗ = (x∗1 , . . . , x∗n ), indem man die restlichen Werte x∗r , x∗r−1 , . . . , x∗1 suksessiv von der letzten zur ersten Gleichung berechnet, was man u uckw¨ artselimination nennt. Speziell kann man nat¨ urlich ¨blicherweise R¨ x∗r+1 = · · · = x∗n = 0 w¨ahlen. Im homogenen Fall (z = y = o) folgt daraus: F¨ ur jede Wahl (x0r+1 , . . . , x0n ) ∈ Rn−r erh¨alt man genau eine L¨ osung (x01 , . . . , x0n ) ∈ ker(ϕ). W¨ahlt man insbesondere n − r linear unabh¨angige L¨ osungen aus dem Rn−r (etwa die nat¨ urlichen Einheitsvektoren des Rn−r ), so kann man durch R¨ uckw¨ artselimination n − r linear unabh¨angige Vektoren a1 , . . . , an−r aus ker(ϕ) berechnen. Die L¨ osungen des Systems Ax = y sind also genau alle Vektoren der Form x = x∗ + λ1 a1 + · · · + λn−r an−r , λi ∈ R. Als Beispiel sei das System 2x1 4x1 4x1
+ + +
3x2 6x2 3x2
− x3 − 3x3 − x3
+ + −
x4 = 5 2x4 = 0 x4 = 4
gegeben. Durch den Algorithmus GAUSS transformieren wir das System auf die Form 2x1
+ 3x2 − 3x2
− x3 + x3 − x3
+ x4 = 5 − 3x4 = −6 . = −10
Hieraus entnehmen wir, daß die Koeffizientenmatrix den Rang 3 hat; der Kern ist eindimensional: 2x1
+ 3x2 − 3x2
− x3 = 5 − + x3 = −6 + − x3 = −10
x4 3x4 .
Um eine spezielle L¨ osung x∗ = (x∗1 , x∗2 , x∗3 , x∗4 ) zu berechnen, w¨ahlen wir x∗4 = 0 und erhalten 1 16 x∗ = (− ; ; 10; 0). 2 3 Um eine Basis vom Kern der entsprechenden linearen Abbildung zu gewinnen, haben wir das zugeordnete homogene System zu betrachten: 2x1
+ 3x2 − 3x2
− x3 = −x4 + x3 = 3x4 . − x3 = 0
Mit x4 = 1 erhalten wir den Vektor a1 = (1; −1; 0; 1). Damit lautet die allgemeine L¨osung 1 16 x = (− ; ; 10; 0) + λ(1; −1; 0; 1), λ ∈ R. 2 3 Abschließend wollen wir noch den wichtigen Spezialfall m = n studieren. Es m¨oge eine lineare Abbildung ϕ ∈ L(Rn , Rn ) mit ker(ϕ) = {o} gegeben sein. Wir untersuchen die Gleichung ϕ(x) = y
2.4. LINEARE GLEICHUNGSSYSTEME
85
mit gegebenem Vektor y ∈ Rn . Der Gleichung entspricht bei gegebener Basis ein lineares Gleichungssystem Ax = y mit einer (n, n)-Matrix A. Wegen dim Rn = dim ker(ϕ) + dim ϕ(Rn = rg(A) ist rg(A) = n. Eine (n, n)-Matrix A, die den maximalen Rang n hat, heißt regul¨ ar; falls rg(A) < n ausf¨allt, heißt die Matrix singul¨ ar. Es sei erw¨ahnt, daß die Menge aller regul¨aren (n, n)-Matrizen mit der Matrizenmultiplikation eine Gruppe bildet. Im regul¨aren Fall bilden die Spaltenvektoren A1 , . . . , An der Matrix A eine Basis des Rn ; daher hat das System Ax = y f¨ ur jeden Vektor y ∈ Rn genau eine L¨ osung x∗ . Diese L¨osung k¨onnen wir sowohl mit Hilfe des Algorithmus AUSTAUSCH als auch mit dem Algorithmus GAUSS berechnen. Zun¨achst benutzen wir den Algorithmus AUSTAUSCH und setzen n X vj = ej , j = 1, . . . , n, wi = aij ej , i = 1, . . . , n. j=1
Dann ist wi gerade der i-te Zeilenvektor der Matrix A. Mit dem Austauschalgorithmus werden nun die Vektoren e1 , . . . , en gegen die Vektoren w1 , . . . , wn ausgetauscht, und die Endtabelle liefert eine Darstellung der Form ei =
n X
aij wj , i = 1, . . . , n.
j=1
Dabei ist A = (aij )n,n die Matrix aus der Endtabelle, wobei wir ohne Beschr¨ankung der Allgemeinheit annehmen, daß ei gegen wi (i = 1, . . . , n) ausgetauscht wurde. Ist nun ψ die dieser Matrix entsprechende lineare Abbildung, so folgt, daß ϕ ◦ ψ die identische Abbildung ist, da bei Nacheinanderausf¨ uhrung aus den nat¨ urlichen Einheitsvektoren wieder die nat¨ urlichen Einheitsvektoren werden. Entsprechend u uhrt die Abbildung ψ ◦ ϕ jeden Zeilenvektor der Matrix in sich. Beiden ¨berf¨ Verkn¨ upfungen ist folglich die Einheitsmatrix zugeordnet. Nun haben wir die Matrizenmultiplikation gerade so definiert, wie es der Verkn¨ upfung von linearen Abblidungen entspricht. Also erhalten wir A · A = A · A = E, wobei E die (n, n)-Einheitsmatrix darstellt. Die Matrix A nennt man invers zur Matrix A; sie wird mit A−1 bezeichnet. Wir k¨onnen daher sagen, daß der Algorithmus AUSTAUSCH im Falle einer regul¨aren Matrix A die zu A inverse Matrix berechnet. Multiplizieren wir nun die Gleichung Ax = y von links mit der inversen Matrix A−1 , so folgt x = E · x = A−1 · Ax = A−1 · y und die gesuchte L¨ osung des Systems Ax = y ist berechnet. Man beachte dabei, daß die Berechnung der inversen Matrix ca. n3 Operationen ben¨otigt, wobei als Operation eine Addition plus einer Multiplikation gerechnet wird. Als Beispiel nehmen wir die Matrix 2 1 0 0 . A= 0 2 −2 0 −1 Der Austauschalgorithmus liefert die inverse Matrix 1 − 14 0 2 1 0 . A−1 = 0 2 1 −1 −1 2
86
KAPITEL 2. LINEARE ALGEBRA
Hat man die inverse Matrix einmal bestimmt, kann man das System Ax = y f¨ ur jede rechte Seite y sofort durch x = A−1 y l¨ osen. Dabei sind n2 Operationen auszuf¨ uhren. Wenden wir uns nun dem Algorithmus GAUSS zu, um das System Ax = y zu l¨osen. Wir wenden also auf die Matrix A den Algorithmus GAUSS an. Zur Vereinfachnung der Darlegungen nehmen wir zun¨achst an, daß keine Zeilen- oder Spaltenvertauschungen ausgef¨ uhrt werden m¨ ussen. Aus der Endtabelle des Algorithmus bilden wir zwei Matrizen: 1 0 0 ··· 0 u11 u12 u13 · · · u1n l21 1 0 u22 u23 · · · u2n 0 ··· 0 0 l l 1 · · · 0 0 u33 · · · u3n L= , U = 31 32 . .................. ..................... 0 0 0 · · · unn ln1 ln2 ln3 · · · 1 Dabei sind in der unteren Dreiecksmatrix L die Faktoren zusammengefaßt, mit denen die entsprechenden Zeilen multipliziert wurden. Die obere Dreiecksmatrix U enth¨alt die transformierte Matrix. Die Matrix L kann man als Produkt L = L1 L2 · · · Ln−1 darstellen mit 1 0 0 ··· 0 0 ··· 0 0 1 0 ··· 0 0 ··· 0 0 0 1 ··· 0 0 ··· 0 ......................... Li = 0 0 0 ··· 1 0 ··· 0 0 0 0 · · · li+1,i 1 · · · 0 ......................... 0 0 0 · · · lni 0 ··· 1
, (i = 1, . . . , n − 1).
Die inverse Matrix dazu lautet 1 0 0 ··· 0 0 ··· 0 0 1 0 ··· 0 0 ··· 0 0 0 1 ··· 0 0 ··· 0 ........................... −1 Li = 0 0 0 ··· 1 0 ··· 0 0 0 0 · · · −li+1,i 1 · · · 0 ........................... 0 0 0 · · · −lni 0 ··· 1
, (i = 1, . . . , n − 1),
was sich durch Ausrechnen sofort feststellen l¨aßt. Den Algorithmus GAUSS k¨onnen wir mit diesen Matrizen in Matrixform schreiben. Der 1. Schritt im Algorithmus besteht in der Multiplikation der Matrix A mit L−1 1 : a11 a12 · · · a1n a11 a12 · · · a1n 1 0 0 ··· 0 (1) (1) 0 a22 · · · a2n −l21 1 0 · · · 0 a21 a22 · · · a2n (1) (1) −l31 0 1 · · · 0 a31 a32 · · · a3n = 0 a32 · · · a3n . ................ ................ ................ an1 an2 · · · ann −ln1 0 0 · · · 1 (1) (1) 0 an2 · · · ann
2.4. LINEARE GLEICHUNGSSYSTEME
87
Entsprechend haben wir nach dem letzten Schritt −1 −1 −1 L−1 n−1 Ln−2 · · · L2 L1 A = U.
Aus dieser Gleichung folgt: −1 −1 L1 L2 · · · Ln−1 (L−1 n−1 · · · L2 L1 A) = A = L1 L2 · · · Ln−1 U = L · U.
Damit haben wir gezeigt, daß der Algorithmus GAUSS im Falle einer regul¨aren (n, n)-Matrix A eine Zerlegung dieser Matrix in das Produkt einer unteren Dreiecksmatrix L und einer oberen Dreiecksmatrix U liefert. Eine solche Zerlegung nennt man kurz LU-Zerlegung der Matrix A. Ist nun eine LU-Zerlegung der Matrix A gegeben, so hat man anstelle des Gleichungssystems Ax = y das System LUx = y zu l¨ osen. Dieses System wird in zwei Schritten gel¨ost: Zun¨achst l¨ost man das System Lz = y und danach das System Ux = z. Das System Lz = y hat die Form z1 = y1 l21 z1 + z2 = y2 l31 z1 + l32 z2 + z3 = y3 , .............................................................. ln1 z1 + ln2 z2 + ln3 z3 + · · · + ln−1 zn−1 + zn = yn was man durch Vorw¨ artselimination l¨osen kann. Die so erhaltene L¨osung wird zur rechten Seite f¨ ur das System Ux = z: u11 x1
+ u12 x2 u22 x2
+ u13 x3 + · · · + u1n xn = z1 + u23 x3 + · · · + u2n xn = z2 u33 x3 + · · · + u3n xn = z3 , ............................. unn xn = zn
woraus wir durch R¨ uckw¨ artselimination die L¨osung des Systems Ax = y erhalten. Wir erw¨ahnen noch, daß sich bei Zeilen- oder Spaltenvertauschungen w¨ahrend der Arbeit des Algorithmus ¨ GAUSS die hier dargelegten Uberlegungen prinzipiell nicht ¨andern, da solche Vertauschungen durch Matrizen beschrieben werden k¨ onnen, die bis auf Zeilen- bzw. Spaltenvertauschungen mit der Einheitsmatrix u ¨bereinstimmen. Solche Matrizen nennt man Anordnungsmatrizen oder auch Permutationsmatrizen. Das Produkt zweier Anordnungsmatrizen ist wieder eine. Die Anordnungsmatrizen bilden eine Untergruppe der regul¨aren (n, n)-Matrizen. Multiplizieren wir etwa die Matrix A von rechts mit der Anordnungsmatrix 0 1 0 ... 0 1 0 0 ... 0 P21 = 0 0 1 ... 0 , ............. 0 0 0 ... 1 so erh¨alt man eine Matrix, die durch Vertauschen der ersten und zweiten Spalte aus der Matrix A entsteht. Bei Multiplikation von links werden die erste und zweite Zeile vertauscht. Allgemein liefert daher der Algorithmus GAUSS bei Eingabe einer regul¨aren (n, n)-Matrix A eine untere Dreiecksmatrix L, eine obere Dreiecksmatrix U, eine linke Anordnungsmatrix P und eine rechte Anordnungsmatrix Q, so daß LU = PAQ gilt. Zur Vervollst¨andigung haben wir den Algorithmus LU angegeben, der mit GAUSS im Falle einer regul¨aren (n, n)-Matrix A u ¨bereinstimmt. Nachdem man eine LU-Zerlegung erfolgreich ermittelt hat, kann man mit dem LU SOLVE eine Loesung zu
88
KAPITEL 2. LINEARE ALGEBRA
jeder rechten Seite berechnen. Abschließend sch¨atzen wir noch den Rechenaufwand f¨ ur die LUZerlegung. Im r-ten Schritt werden (n − r)2 Operationen ausgef¨ uhrt, also insgesamt n−1 X
(n − r)2 =
r=1
(2n − 1)(n − 1)n n3 n2 n = − + 6 3 2 6
Operationen. Der Aufwand f¨ ur die Vorw¨ arts- und R¨ uckw¨artselimination ist nur von quadratischer Ordnung. Das zeigt uns, daß das L¨ osen eines linearen Gleichungssystems u ¨ber die LU-Zerlegung wesentlich schneller abl¨ auft als u ber die Berechnung der inversen Matrix. Die Berechnung der ¨ inversen Matrix ist auch mittels der LU-Zerlegung m¨oglich. Man u berlege sich, daß dieser algo¨ rithmische Weg zur Berechnung der inversen Matrix ebenfalls n3 Operationen ben¨otigt. Es sei daher betont, daß sich die Berechnung der inversen Matrix selbst dann nicht lohnt, wenn man das System f¨ ur viele rechte Seiten l¨ osen muß. Die Berechnung von A−1 y erfordert den gleichen Aufwand wie das L¨ osen der beiden Gleichungssysteme Lz = y und Ux = z. Die Berechnung von A−1 kostet aber dreimal mehr als die LU-Zerlegung.
2.5.
Determinanten
¨ Uber der Menge Mnn (R) aller (n, n)-Matrizen f¨ uhren wir eine reellwertige Funktion Det(A) ein, die fr¨ uher im Zusammenhang mit dem L¨ osen linearer Gleichungssysteme wichtig war. Im Gegensatz zur meist u ahlen wir hier eine solche, die uns sogleich effektive M¨oglichkeiten ¨blichen Definition w¨ ihrer Berechnung aufzeigt. Es sei A eine (n, n)-Matrix mit den Spalten A1 , . . . , An . Unter der Determinante Det(A) verstehen wir eine Funktion Det : Mnn (R) 7−→ R mit folgenden Eigenschaften: 1. Det(E)=1, 2. Det(A1 , . . . , λAi , . . . , An ) = λDet(A1 , . . . , Ai , . . . , An ), 3. Det(A1 , . . . , Ai−1 , a + a0 , Ai+1 , . . . , An ) = Det(A1 , . . . , Ai−1 , a, Ai+1 , . . . , An ) + Det(A1 , . . . , Ai−1 , a0 , Ai+1 , . . . , An ), 4. Det(A1 , . . . , Ai , . . . , Aj , . . . , An ) = −Det(A1 , . . . , Aj , . . . , Ai , . . . , An ). Die Eigenschaften 2.-4. dr¨ uckt man in Worten wie folgt aus: Die Determinantenfunktion ist homogen, additiv und alternierend in den Spalten. Aus dieser Definition ziehen wir einige Schlußfolgerungen. Satz 2..18. Die Determinate einer Matrix mit zwei gleichen Spalten ist gleich Null. Beweis. Da die Determinante alternierend in den Spalten ist, kann man die zwei gleichen Spalten vertauschen, ohne die Matrix selbst zu ¨andern; dabei ¨andert sich aber das Vorzeichen der Determinante, woraus Det(A) = 0 folgt. Satz 2..19. Der Wert der Determinante ¨ andert sich nicht, wenn man eine Linearkombination von Spaltenvektoren zu einer Spalte addiert, die nicht in der Linearkombination auftritt. Beweis. Es ist wegen des letzten Satzes, der Additivit¨at, der Homogenit¨at Det(A1 + λA2 , A2 , . . . , An ) = Det(A1 , . . . , An ) + λDet(A2 , A2 , . . . , An ) = Det(A1 , A2 , . . . , An ),
2.5. DETERMINANTEN
89
womit der Satz bereits bewiesen ist, da die Schlußweise wiederholt anwendbar ist und f¨ ur jede Spalte verwendet werden kann. Im Falle einer singul¨ aren Matrix muß mindestens eine Spalte Linearkombination gewisser anderer Spalten sein. Sei dies etwa die erste. Indem wir eine gewisse Linearkombination anderer Spalten zur ersten addieren, erhalten wir eine Nullspalte. Also folgt mit dem letzten Satz, daß f¨ ur eine solche Matrix Det(A1 , A2 , . . . , An ) = Det(o, A2 , . . . , An ) gilt. Die Homogenit¨ at liefert f¨ ur beliebiges λ Det(o, A2 , . . . , An ) = λDet(o, A2 , . . . , An ), was nur gelten kann, wenn Det(o, A2 , . . . , An ) = 0 gilt. Damit haben wir den folgenden Satz bewiesen. Satz 2..20. Die Determinante einer singul¨ aren Matrix ist gleich Null. F¨ ur den Fall, daß die Matrix eine spezielle Form hat, kann man den Wert der Determinante leicht berechnen. Satz 2..21. Bei einer oberen Dreiecksmatrix U = (uij )n,n , uij = 0, i > j ist die Determinante gleich dem Produkt der Hauptdiagonalelemente: u11 u12 u13 · · · u1n 0 u22 u23 · · · u2n 0 0 u33 · · · u3n Det(U) = Det = u11 u22 u33 · · · unn . ..................... 0 0 0 · · · unn Beweis. Es sei eine obere Dreicksmatrix U gegeben. Wir bemerken zun¨achst, daß folgendes gilt: u11 u12 u13 . . . u1n 0 u22 u23 . . . u2n 0 0 u33 . . . u3n Det = ..................... 0 0 0 . . . unn
Det
u11 0 u13 · · · u1n 0 u22 u23 · · · u2n 0 0 u33 · · · u3n ..................... 0 0 0 · · · unn
+ Det
u11 u12 u13 · · · u1n 0 0 u23 · · · u2n 0 0 u33 · · · u3n ..................... 0 0 0 · · · unn
.
Da im zweiten Summanden die erste und zweite Spalte der Matrix linear abh¨angig sind, ist dieser Summand gleich Null. Nach diesem Schema k¨onnen wir suksessiv alle Elemente oberhalb der
90
KAPITEL 2. LINEARE ALGEBRA
Hauptdiagonalen von U durch Nullen ersetzen, ohne den Wert der Determinante zu ¨andern. Folglich schließen wir mit der Homogenit¨ at: u11 0 0 ... 0 0 u22 0 . . . 0 = u11 u22 · · · unn Det(E), 0 0 u . . . 0 Det(U) = Det 33 ..................... 0 0 0 . . . unn womit der Satz f¨ ur eine obere Dreiecksmatrix bewiesen ist. F¨ ur eine untere Dreicksmatrix geht man ganz analog vor. Satz 2..22. Bei einer unteren Dreiecksmatrix ist die Determinante gleich dem Produkt der Hauptdiagonalelemente. Nun k¨onnen wir leicht die Determinante einer Matrix berechnen. Satz 2..23. Wenn f¨ ur eine quadratische (n, n)-Matrix A eine LU-Zerlegung gegeben ist: A = LU, so ist der Wert der Determinante von A gleich dem Produkt der Hauptdiagonalelemente der oberen Dreiecksmatrix U: Det(A) = Det(U) = u11 · u22 · · · unn . Beweis. Es sei die Matrix A regul¨ ar und A = LU. Bei der Matrizenmultiplikation von L mit U wird die i-te Spalte der Matrix L mit uii multipliziert und außerdem eine Linearkombination der nachfolgenden Spalten von L mit den Indices i + 1, . . . , n zur i-ten Spalte addiert. Also gilt Det(A) = Det(LU) = u11 · u22 · · · unn Det(L). Die untere Dreiecksmatrix L hat alle Hauptdiagonalelemente gleich 1. Wegen Det(L) = Det(E · L) wird bei der Multiplikation der Einheitsmatrix mit der Matrix L zur i-ten Spalte der Einheitsmatrix eine Linearkombination der ersten i − 1 Spalten addiert (i = 1, . . . , n). Diese Operation ¨andert den Wert der Determinante der Einheitsmatrix nicht, also gilt Det(L) = 1, womit der Satz f¨ ur eine regul¨are Matrix bewiesen ist. Im singul¨ aren Fall gilt die Aussage offenbar auch, da beide Seiten gleich Null sind. Satz 2..24. Die Determinante des Produktes zweier Matrizen ist gleich dem Produkt der Determinanten beider Matrizen: Det(A · B) = Det(A) · Det(B). Beweis. Ist B eine singul¨ are Matrix, so gilt die Aussage offenbar, da beide Seiten gleich Null sind. Es sei B eine regul¨ are Matrix und B = L · U. Dann k¨onnen wir mit dem vorangegangenen Satz und seinem Beweis die folgenden Gleichungskette schließen: Det(A · B) = Det(A · L · U) = u11 · · · unn Det(A · L) = Det(A)Det(B), was zu beweisen war. Schließlich folgt sofort aus unseren S¨ atzen der
¨ 2.6. SKALARPRODUKT UND ORTHOGONALITAT
91
Satz 2..25. F¨ ur jede quadratische Matrix A gilt: Det(A) = Det(AT). Beweis. Wir brauchen nur den Fall einer regul¨aren Matrix A zu betrachten. Außerdem sei eine LU-Zerlegung der Matrix A gegeben. Unsere S¨atze erlauben es, die folgende Gleichungskette aufzuschreiben: Det(A) = Det(LU) = Det(L)Det(U) = Det(UT)Det(LT) = Det(UTLT) = Det(AT), welche den Satz beweist. ¨ Aus unseren Uberlegungen schließen wir insbesondere, daß Det(A) = (−1)k Det(U) gilt, wobei die Matrix U die sich aus dem Algorithmus GAUSS ergebende obere Dreiecksmatrix darstellt und k die Anzahl der Zeilen- und Spaltenvertauschungen ist. Unabh¨angig von den Vertauschungen liefert das Produkt der Hauptdiagonalelemente in der Endtabelle des Algorithmus den Betrag der Determinante. Nach unseren Untersuchungen ist eine Matrix genau dann regul¨ar, wenn ihre Determinante ungleich Null ist. Damit k¨ onnen wir den folgenden Satz aussprechen. Satz 2..26. Das lineare Gleichungssystem Ax = y mit einer quadratischen Matrix A ist genau dann l¨ osbar, wenn Det(A) 6= 0 gilt.
2.6.
Skalarprodukt und Orthogonalit¨ at
Es sei ein Vektorraum V (+; ·, R) gegeben. Das Skalarprodukt ist eine auf V × V definierte reellwertige Abbildung (·, ·) : V × V 7−→ R mit den folgenden Eigenschaften, die f¨ ur alle x, y, z ∈ V und alle λ ∈ R gelten sollen: Symmetrie: (x, y) = (y, x), Additivit¨ at: (x + y, z) = (x, z) + (y, z), Homogenit¨ at: (λx, y) = λ(x, y), Nichtnegativit¨ at: (x, x) > = 0, (x, x) = 0 ⇐⇒ x = o. Als Beipspiele erw¨ ahnen wir den Vektorraum aller u ¨ber einem Intervall [a, b] integrierbaren reellwertigen Funktionen; das Skalarprodukt ist hier durch Z
b
f (x)g(x)dx
a
gegeben. Ein weiteres, f¨ ur uns wichtiges Beispiel ist der Vektorraum Rn , u ur x, y ∈ Rn ¨ber dem f¨ durch (x, y) =
n X i=1
xi yi
92
KAPITEL 2. LINEARE ALGEBRA
ein Skalarprodukt definiert ist, was man leicht nachpr¨ ufen kann. Gelegentlich verwenden wir f¨ ur dieses Skalarprodukt auch die Matrixschreibweise, indem wir die Vektoren als (n, 1)-Matrizen auffassen: (x, y) = xTy. Zwei Vektoren x, y ∈ V heißen orthogonal , wenn (x, y) = 0 gilt. F¨ ur die Orthogonalit¨at verifiziert man schnell f¨ ur alle x, y, z ∈ V, λ, µ ∈ R: (x, y) = 0 ⇐⇒ (y, x) = 0, (x, y) = 0 und (x, z) = 0, so (x, λy + µz) = 0, (x, y) = 0 ∀y ∈ V ⇐⇒ x = o, (x, x) = 0 ⇐⇒ x = o. Aus diesen Eigenschaften erh¨ alt man z. B. , daß alle zu den Vektoren eines Unterraumes U orthogonalen Vektoren wieder einen Unterraum bilden, den Orthogonalraum U ∗ = { x | (x, y) = 0 ∀y ∈ U } . Es sei nun V = Rn und { b1 , . . . , br } eine Basis von U . Dann folgt x ∈ U ∗ ⇐⇒ (x, bi ) = 0, i = 1, . . . , r. Die Basisvektoren b1 , . . . , br fassen wir als Zeilenvektoren einer Matrix B auf. Dann ist rg(B) = r, und die Bedingung f¨ ur die Vektoren des Orthogonalraumes lautet x ∈ U ∗ ⇐⇒ Bx = o. Der Orthogonalraum U ∗ ist also Kern einer gewissen linearen Abbildung ϕ : Rn 7−→ Rn , die zur Matrix B geh¨ ort. Aus dim ker(ϕ) + rg(B) = dim Rn = n folgt, daß dim ker(ϕ) = dim U ∗ = n − r sein muß und daher dim U + dim U ∗ = dim Rn . Andererseits haben U und U ∗ nur den Nullvektor gemeinsam. Folglich ist der Orthogonalraum ein Komplementraum von U . Ein Beispiel aus dem R3 : Es sei U = lin (b1 , b2 ) mit b1 = (3, 2, −1), b2 = (0, 1, 2), d. h. U = { x | x = λ(3, 2, −1) + µ(0, 1, 2) , λ, µ ∈ R } . Geometrisch ist U eine Ebene durch den Ursprung und U ∗ die Gerade durch den Ursprung, die auf U senkrecht steht. Es sei bemerkt, daß man nicht in allen Vektorr¨aumen ein Skalarprodukt definieren kann. Einen unendlichdimensionalen Vektorraum, in dem ein Skalarprodukt existiert, nennt man Hilbertraum. Fundamental ist die Cauchy-Schwarzsche Ungleichung:
¨ 2.6. SKALARPRODUKT UND ORTHOGONALITAT
93
Satz 2..27. F¨ ur alle Vektoren x, y eines Vektorraumes mit Skalarprodukt gilt p p |(x, y)| < (x, x) · (y, y). = Beweis. F¨ ur x = o oder y = o ist die Ungleichung offenbar richtig; seien also x 6= o und y 6= o. Wir verwenden ausschließlich die das Skalarprodukt definierenden Eigenschaften. F¨ ur alle λ ∈ R gilt offenbar 2 0< = (x + λy, x + λy) = (x, x) + 2λ(x, y) + λ (y, y).
Rechts steht in der Ungleichung eine quadratische Funktion in λ, die nach dieser Ungleichung keine negativen Werte annimmt. Dies ist aber genau dann erf¨ ullt, wenn die Diskriminante der Funktion nicht positiv ist, d. h. es muß gelten: (x, y)2
< =
(x, x) · (y, y).
Auf beiden Seiten der Ungleichung stehen nichtnegative Zahlen; folglich darf man die Quadratwurzel ziehen, ohne daß sich die Ungleichungsrichtung ¨andert, womit wir die Behauptung erhalten. Aus dem Beweis dieses Satzes k¨ onnen wir noch erkennen, wann in der Cauchy-Schwarzschen Ungleichung die Gleichheit gilt. Es gilt offenbar genau dann, wenn 0 = (x + λy, x + λy) ausf¨allt, was wiederum genau dann gilt, wenn x+λy = o gilt, also die beiden Vektoren x, y linear abh¨angig sind. Eine weitere, wichtige reellwertige Funktion auf einem Vektorraum V ist die L¨ange oder Norm k · k eines Vektors: k · k : V 7−→ R, die durch die folgenden Eigenschaften charakterisiert wird: 1. kxk > = 0, kxk = 0 ⇐⇒ x = o, 2. kλxk = |λ|kxk, 3. kx + yk < = kxk + kyk. Die letzte Bedingung nennt man Dreiecksungleichung. Sie besagt, daß die L¨ange der Summe zweier Vektoren niemals gr¨ oßer sein kann als die L¨angensumme der einzelnen Vektoren. In Vektorr¨ aumen, auf denen ein Skalarprodukt (·, ·) definiert ist, wird durch p kxk = (x, x) auch eine Norm definiert. Um das einzusehen, brauchen wir nur die Dreiecksungleichung zu beweisen, da die anderen Eigenschaften offensichtlich sind. Diese folgt aus der folgenden Kette, in der die Cauchy-Schwarzsche Ungleichung angewendet wird: kx + yk2 = (x + y, x + y) = kxk2 + 2(x, y) + kyk2 < =
kxk2 + 2|(x, y)| + kyk2
= (kxk + kyk)2 . Der Vektorraum Rn mit der Norm v u n p uX x2i kxk2 = (x, x) = t i=1
< =
kxk2 + 2kxkkyk + kyk2
94
KAPITEL 2. LINEARE ALGEBRA
heißt euklidischer Vektorraum; die Norm heißt euklidische Norm oder euklidische L¨ ange. Die Cauchy-Schwarzsche Ungleichung k¨ onnen wir mit der euklischen Norm auch in der Form −1 < = (
x y < , )=1 kxk kyk
schreiben. Dies gestattet es uns, einen Winkel α(x, y) zwischen zwei Vektoren x, y eines euklidischen Vektorraumes zu definieren, indem wir festsetzen: cos α(x, y) = (
x y , ). kxk kyk
Daß diese Definition des Winkels zwischen zwei Vektoren unserer Anschauung entspricht, zeigt die ¨ folgende Uberlegung: Offenbar ist der Winkel zwischen orthogonalen Vektoren gleich π2 ; im Falle y = x erhalten wir cos α(x, x) = 1, also α(x, x) = 0; im Falle y = −x folgt cos α(x, −x) = −1 und damit α(x, x) = π. Neben der euklidischen Norm gibt es auf dem Rn noch andere Normen, so z. B. die Maximumnorm kxk∞ = max { |x1 |, |x2 |, . . . , |xn | } = max |xj | j
und die p-Norm v u n uX p kxkp = t |x|p . i=1
Auch f¨ ur (m, n)-Matrizen A ∈ Mmn (R) kann man eine Norm kAk einf¨ uhren, indem man analoge Eigenschaften fordert: kAk > 0 ∀A 6= o, kλAk = |λ| · kAk, kA + Bk < = kAk + kBk. Eine Matrixnorm wird meist im Zusammenhang mit Vektornormen verwendet. Die Matrixnorm k·k heißt mit der Vektornorm k·ka auf dem Rn und der Vektornorm k·kb auf dem Rm vertr¨ aglich, falls gilt: kAxkb
< =
kAk · kxka .
So ist die Zeilensummennorm n n X X kAk∞ = max |a1j |, . . . , |amj | j=1
j=1
¨ 2.6. SKALARPRODUKT UND ORTHOGONALITAT
95
mit der Maximumnorm vertr¨ aglich, was aus n X kAxk∞ = max |aij xj | i j=1 n X < |aij | max |xj | = max i j j=1
= kAk∞ · kxk∞
folgt. Mit der euklidischen Vektornorm ist die Schur-Norm (f¨ ur (n, n)-Matrizen) v uX n u n X kAk2 = t a2ij i=1 j=1
vertr¨aglich, was man unter Nutzung der Cauchy-Schwarzschen Ungleichung so einsieht: v uX n u n X kAxk2 = t ( aij xj )2 i=1 j=1
v uX n n X u n X 0). Im Falle n = 2, λ1 > 0, λ2 > 0 zeigt die Gleichung, daß durch xTAx = α eine Ellipse beschrieben wird, deren Halbachsen die L¨angen λ1 , λ2 haben; bei λ2 = 0 wird eine Parabel beschrieben und bei λ1 = λ2 = 1 ein Kreis mit dem Durchmesser α. Bei dieser orthogonalen Koordinatentransformation wird also die quadratische Form xTAx in eine solche u uhrt, in der die ¨berf¨ gemischten Glieder nicht mehr auftreten. Daher spricht man hier von einer Hauptachsentransformation. Wenn wir die Gleichung QTAQ = diag(λ1 , . . . , λn ) von links mit Q multiplizieren und die Spaltenvektoren der Matrix Q mit Q1 , . . . , Qn bezeichnen, erhalten wir AQ = Qdiag(λ1 , . . . , λn ) = Q(λ1 e1 , . . . , λn en ), (AQ1 , . . . , AQn ) = (λ1 Q1 , . . . , λn Qn ), d. h. AQj = λj Qj ,
j = 1, . . . , n
oder (A − λj E)Qj = o,
j = 1, . . . , n.
Diese Gleichung sagt uns, daß das homogene lineare Gleichungssystem (A − λj E)x = o eine nichttriviale L¨ osung x = Qj besitzt. Eine reelle Zahl λ, zu der ein Vektor x ∈ Rn , x 6= o existiert mit Ax = λx, heißt Eigenwert der Matrix A; jede nichttriviale L¨ osung des Gleichungssystems Ax = λx nennt man Eigenvektor zum Eigenwert λ. Wegen λx = λEx kann man das System auch in der Form (A − λE)x = o, d. h. (a11 − λ)x1 + a12 x2 + . . . + a1n xn = 0 a21 x1 + (a22 − λ)x2 + . . . + a2n xn = 0 ............................................................... an1 x1 + an2 x2 + . . . + (ann − λ)xn = 0 schreiben. Man kann verschiedene Aufgaben hinsichtlich Eigenwerten und Eigenvektoren formulieren; so z. B. Man finde einen absolut maximalen Eigenwert, man finde zu einem gegebenen
100
KAPITEL 2. LINEARE ALGEBRA
Eigenwert alle Eigenvektoren, man finde alle Eigenwerte und alle Eigenvektoren usw. Das Gleichungssystem hat genau dann eine nichttriviale L¨osung, wenn Det(A − λE) = 0 gilt. Nach unserer Theorie der linearen Gleichungssysteme bilden die Eigenvektoren zu einem Eigenwert λ, einen Unterraum Uλ , den man Eigenraum zum Eigenwert λ nennt. Satz 2..33. Eigenvektoren zu verschiedenen Eigenwerten sind linear unabh¨ angig. Beweis. Ist n¨ amlich x = αy, und sind x Eigenvektor zum Eigenwert λ und y Eigenvektor zum Eigenwert µ, so folgt: λx = Ax = Aαy = αAy = αµy = µx, also (λ − µ)x = o, woraus sich λ = µ ergibt. Satz 2..34. Zu jeder (n, n)-Matrix A gibt es h¨ ochstens n verschiedene Eigenwerte. Beweis. Nach dem vorangegangenen Satz sind Eigenvektoren zu verschiedenen Eigenwerten linear unabh¨angig. Im Rn gibt es aber h¨ ochstens n linear unabh¨angige Vektoren; folglich gibt es h¨ochstens n verschiedene Eigenwerte. Die Determinantengleichung Det(A − λE) = 0 f¨ ur die Eigenwerte ist wegen des Zusammenhangs mit der LU-Zerlegung eine Polynomgleichung, die h¨ochstens n verschiedene L¨ osungen hat. Die Determinante ist ein Polynom n-ten Grades in λ, wobei λn den Koeffizienten (−1)n hat. Man nennt sie charakteristisches Polynom der Matrix A. Satz 2..35. Eigenvektoren zu verschiedenen Eigenwerten einer symmetrischen Matrix sind orthogonal. Beweis. Es seien λ, µ verschiedene Eigenwerte der Matrix A und x, y entsprechende Eigenvektoren: Ax = λx,
Ay = µy.
Wir multiplizieren die erste Gleichung skalar mit y und die zweite skalar mit x; dann folgt yTAx = λyTx = λ(x, y), xTAy = µxTy = µ(x, y). Die linken Seiten stimmen wegen der Symmetrie von A u ¨berein: yTAx = (Ay)Tx = xTAy, also ergibt sich λ(x, y) = µ(x, y), woraus wir wegen λ 6= µ schließen, daß (x, y) = 0 sein muß. Ohne Beweis erw¨ ahnen wir, daß alle Eigenwerte einer symmetrischen Matrix reell sind.
¨ 2.8. UBUNGEN
101
Sind λ1 , . . . , λr alle verschiedenen Eigenwerte (r chenden Eigenr¨ aume, so folgt r X
dim Uλi
< =
< =
n) der (n, n)-Matrix A und Uλi die entspre-
n,
i=1
und im Falle r = n Beispiel: 0 1 A= 1 0 1 1
gilt die Gleichheit. 1 1 , 0
−λ A − λE = 1 1
1 −λ 1
1 1 . −λ
Wir transformieren die Matrix A − λE auf Halbdiagonalform und erhalten die Matrix 1 1 −λ 0 λ + 1 −λ2 + 1 , 0 0 −λ2 + λ + 2 woraus sich ergibt: Det(A − λE) = 1 · (λ + 1) · (−λ2 + λ + 2) = 0. Aus dieser Gleichung erhalten wir, daß die Matrix die beiden Eigenwerte −1 und 2 besitzt, wobei −1 zweifacher Eigenwert ist.
2.8.
¨ Ubungen
1. Man finde unkonventionelle Beispiele f¨ ur lineare Vektorr¨aume. 2. Es sei Zn die Menge aller n-Tupel (x1 , . . . , xn ) mit xi ∈ { 0, 1, . . . , p − 1 }, wobei p eine Primzahl ist. Man mache daraus einen Vektorraum u ¨ber einem geeigneten K¨orper. 3. Gibt es einen Vektorraum ohne echte Basis? Man begr¨ unde die Antwort. 4. Man beweise den folgenden Satz: Die Komponenten und Koordinaten eines beliebigen Vektors bez¨ uglich einer Basis aus dem Rn stimmen genau dann u urlichen Einheitsvektoren ge¨berein, wenn die Basis aus den nat¨ bildet wird. 5. Auf dem Rn ist f¨ ur jedes m eine m-stellige Relation S m erkl¨art: (x1 , . . . , xm ) ∈ S m ⇐⇒ x1 , . . . , xm sind linear abh¨angig. Welche Eigenschaften haben diese Relationen? 6. Man schreibe ein Programm f¨ ur den Algorithmus AUSTAUSCH. 7. Man schreibe ein Programm f¨ ur den Algorithmus GAUSS. 8. Warum multipliziert man zwei Matrizen in der angegebenen Weise und nicht nach der Regel AB = C mit cij = aij bij oder einer anderen?
102
KAPITEL 2. LINEARE ALGEBRA
9. Es sei A(ϕ) die Menge aller (n, n)-Matrizen, die einer gegebenen linearen Abbildung ϕ des Rn in sich zugeordnet sind, wenn man alle Basen des Rn durchl¨auft. Welche charakteristischen Eigenschaften haben die Matrizen dieser Menge? 10. F¨ ur welche Matrizen B gilt AB = BA, wobei 1 2 A= ? 3 4 11. Man untersuche, ob die folgenden Mengen Teilr¨aume des R3 sind. (a) M=
x x, y ∈ R , y x2 + y 2
M=
x x, y ∈ R ax b2 x + c2 y
(b) a, b, c ∈ Z.
12. Man untersuche, ob die folgenden Mengen Teilr¨aume des R3 sind. (a) M=
α β α, β ∈ R , α·β
(b) M=
x ∈ R3 (x, y) = 0 ,
wobei y einen beliebigen aber festen Vektor des R3 bezeichnet. 13. Man pr¨ ufe auf lineare Unabh¨ angigkeit. 1 0 (a) x1 = 1 , x2 = 2 , 1 1
4 3 (b) x1 = −5 , 5 (c)
x1 =
1 2
,
2 (d) x1 = 1 , 0
1 0 x2 = 1 , 2 x2 =
2 1
,
3 x2 = −1 , 2
0 x3 = 2 ; 0
2 1 x3 = −1 ; 3 x3 =
5 4
;
1 x3 = 1 . 2
¨ 2.8. UBUNGEN
103
14. F¨ ur welche Werte von a und b sind die folgenden drei Vektoren linear unabh¨angig? 1 1 0 0 a , x2 = , x3 = −a . x1 = a 1+a 2 b 3 1 15. Man stelle das Element x ∈ R4 , 3 −1 x= −2 −1 als Linearkombination der Basis { b1 , b2 , b3 , b4 } mit 1 −1 1 1 1 2 −1 1 b1 = −1 , b2 = 0 , b3 = 0 , b4 = −2 0 1 1 −1 dar. 16. Man ordne der linearen Abbildung ϕ : R3 7−→ R4 mit 0 −1 2 0 1 1 ϕ( 1 ) = −2 , ϕ( −2 ) = −3 0 3 −1 0 1 −1 1 ϕ( 0 ) = −1 −2 −1
eine Matrix zu. 17. Gegeben sei die lineare Abbildung ϕ : R2 7−→ R3 mit 0 1 ϕ( ) = −1 , 1 −1
2 −1 ϕ( ) = 0 . 2 1
Welche Bilder haben die Vektoren 5 −4 , ? 7 3
,
.
104
KAPITEL 2. LINEARE ALGEBRA
18. Eine lineare Abbildung ϕ : R3 → R3 ist gegeben durch: 1 6 0 3 1 1 ϕ( 1 ) = 9 , ϕ( 1 ) = 7 , ϕ( 2 ) = 4 . 1 8 1 7 −2 7 (a) Man ermittle die Bilder von 1 0 e1 = 0 , e2 = 1 0 0
0 und e3 = 0 . 1
(b) Wie lautet die zu ϕ geh¨ orende Matrix, wenn als Basis in Urbild- und Bildraum jeweils B = { e1 , e2 , e3 } gew¨ ahlt wird? 19. Sei durch ϕ : R4 → R3 eine lineare Abbildung gegeben. Es gelte 1 1 2 4 1 −1 ) = 3 , ) = 1 , ϕ( ϕ( 0 0 1 5 0 0 0 0 1 3 0 0 2 . 4 , ϕ( ϕ( 1 ) = 1 ) = −2 0 −1 1 Man bestimme, die zu ϕ Basisvektoren 0 1 0 1 , , 0 0 0 0
geh¨ orige Matrix A, wenn im Urbild- bzw. Bildraum jeweils die 0 0 0 0 , 1 0 1 0
bzw.
0 0 1 0 , 1 , 0 1 0 0
gew¨ahlt werden. 20. Durch y = ϕ(x) = Ax −1 3 0 A= 2 4 −2
mit 2 1 , 0
y1 y = y2 y3
x1 x = x2 , x3
wird eine lineare Abbildung ϕ : R3 7−→ R3 beschrieben. (a) Man bestimme den Kern von ϕ. x ∈ R3 | (1, 1, 1)Tx = 1 . (c) Man bestimme das Urbild der Menge Y = y ∈ R3 | (1, −2, 1)Ty = 0 .
(b) Man bestimme das Bild der Menge X =
21. Sei B = { b1 , b2 , b3 } eine beliebige Basis des R3 und ϕ : R3 → R3 eine lineare Abbildung mit ϕ(b1 ) = b2 ,
ϕ(b2 ) = b3 ,
ϕ(b3 ) = b1 .
Man bestimme die zu ϕ, ϕ ◦ ϕ und zu ϕ ◦ ϕ ◦ ϕ geh¨orenden Matrizen, wenn als Basis immer B gew¨ ahlt wird.
¨ 2.8. UBUNGEN
105
22. Sei ϕ : Rn → Rm eine lineare Abbildung. Die Bilder der Einheitsvektoren ϕ(ei ), i = 1, . . . , n, seien linear unabh¨ angig. Man beweise, daß dann die Bilder ϕ(xk ) linear unabh¨angiger Vektoren xk ∈ Rn , k = 1, . . . , n, linear unabh¨angige Vektoren im Rm sind. 23. Gegeben seien die Vektoren 1 0 2 3 b1 = −1 , b2 = −2 3 0 −2 4
und b3 =
0 2 −2 1 0
.
Man zeige die lineare Unabh¨ angigkeit der drei Vektoren und erg¨anze sie zu einer Basis des R5 . Wie lautet die Darstellung des Vektors 1 1 c= 1 1 1 in der neuen Basis. n 24. Man finde Algorithmen, die aus gegebenen m (m < angige = n) Vektoren des R linear unabh¨ machen und sch¨ atze den Operationsaufwand f¨ ur jeden Algorithmus ab. Welcher ist der beste?
25. Gegeben seien die 1 2 B= 1 0 1 1
Matrix 0 2 1
und die durch sie gem¨ aß ϕ(x) = Bx vermittelte lineare Abbildung ϕ : R3 → R3 . (a) Man bestimme rg(B). (b) Man beschreibe die Menge ker ϕ = Menge?
x ∈ R3 : Bx = o . Welche Dimension hat diese
(c) Ist ϕ bijektiv? (d) Man l¨ ose
3 ϕ(x) = −1 1
2 und ϕ(x) = 1 . −1
26. Man zeige: Die Inverse der Transponierten einer regul¨aren Matrix ist gleich der Transponierten der Inversen: (AT)−1 = (A−1 )T. 27. Man zeige: Die Inverse des Produktes zweier regul¨arer Matrizen ist gleich dem Produkt der Inversen dieser Matrizen in umgekehrter Reihenfolge: (AB)−1 = B−1 A−1 .
106
KAPITEL 2. LINEARE ALGEBRA
28. Man untersuche die Matrix 1 1 1 1 2 1 λ 1 2 in Abh¨angigkeit von λ. Insbesondere bestimme man alle jene Werte von λ, f¨ ur die die Matrix regul¨ar ist; gegebenenfalls berechne man die Inverse. 29. Die drei Gleichungen 2y − 5z = 4,
3y − 3z = 5
y + 2z = 1,
beschreiben jeweils eine Ebene im R3 . Man berechne den Durchschnitt dieser Ebenen. 30. Man untersuche, f¨ ur welche Werte λ das Gleichungssystem x 3x 2x 5x
+ + + +
y 5y 3y 6y
+ z + z + z + λz
= 3 = 9 = λ2 − 4λ + 6 = 15
l¨osbar ist und bestimme gegebenenfalls die allgemeine L¨osung. 31. F¨ ur welche Werte von λ ist das System 7x − 2y −4x − 6y 10x − 10y
+ λz + 3z + 13z
= 3 = 2 = 0
unl¨osbar? 32. Man l¨ose: (a)
3x + y 4x + 2y x + 2y
(b)
2x −x 2x 3x
+ + + +
+ 2z + 2z + z
3y 2y y y
+ − + +
+ 2u + u + u
3z z 3z 4z
= = = =
= 1 = 3 = 2,
7 1 5 6.
33. Man untersuche, ob die folgenden Gleichungssysteme l¨osbar sind und bestimme gegebenenfalls die allgemeine L¨ osung: (a)
2x + y x + y 3x − y
− + +
z 2z z
+ u − u + u
(b)
2x 2y 2z 2u 2v
+ y + z + u + v + x
+ z + u + v + x + y
= 5 = 5 = 7 = 12 = 11
(c)
u 2u u
+ v − z − 2z
= 5 = 1 = 0
− x = −2 + y = 5 − 2y = 0
¨ 2.8. UBUNGEN
107
34. F¨ ur n ∈ N sei An =
1 1 1 2 1 2 .. .. . . 1 2 1 2 1 2
1 ... 2 ... 3 ... .. . . . . 3 ... 3 ... 3 ...
1 2 3 .. .
1 2 3 .. .
1 2 3 .. .
n−2 n−2 n−2 n−2 n−1 n−1 n−2 n−1 n
und
bn =
0 1 1 2 2 .. . n 2
f¨ ur gerades n bzw. bn =
1 1 2 2 3 .. . n+1 2
f¨ ur ungerades n.
Man l¨ ose An x = bn . 35. Ein Swimmingpool soll durch 10 gleichzeitig arbeitende Pumpen in 20 Stunden entleert werden. Daf¨ ur stehen 4 Pumpenarten bereit; die erste Sorte ben¨otigt 800 Stunden pro Pumpe, die zweite 400 Stunden pro Pumpe, die dritte 200 Stunden pro Pumpe und die vierte 100 Stunden pro Pumpe. Man f¨ uhre in einer Tabelle die verschiedenen Zusammenstellungen der Pumpen auf. 36. Die Summe der Hauptdiagonalelemente einer quadratischen Matrix A heißt Spur sp(A) der Matrix. Es sei A = (aij )m,n ,
B = (bji )n,m .
Man zeige, daß sp(AB) = sp(BA) gilt. 37. Man untersuche, ob die folgenden Matrizen regul¨ar sind und bestimme gegebenenfalls die inverse Matrix: (a)
1 0 A= 1 1
1 1 0 1
1 1 1 0
5 2 , 4 3
(b)
A=
1 0 0 .. . 0
1 1 0 .. .
1 ... 1 1 ... 1 1 ... 1 .. . . .. . . . 0 0 ... 0
1 1 1 .. . 1
.
108
KAPITEL 2. LINEARE ALGEBRA
38. Man berechne: (a)
1 Det 2 3
3 1 , 1
2 3 2
(b)
1 + cos x 1 + sin x 1 Det 1 − sin x 1 + cos x 1 . 1 1 1 39. Es sei
0 1 1 0 1 . A= 3 24 −7 1 F¨ ur welche λ ist die Matrix A − λE regul¨ar? 40. Man berechne die Determinanten folgender Matrizen: (a)
5 6 A= 4 7
2 1 4 2
4 4 , 1 3
3 3 2 1
(b) 1 a −b 1 c , A = −a b −c 1
(c)
a b b .. .
An = b b
b a b .. . b b
b ... b b b ... b b a ... b b .. . . .. .. . . . . . b ... a b b ... b a
41. Man berechne die Determinante der quadratischen Matrix An = ((i + j − 1)2 )n,n . 42. Man l¨ose det (A) = 0 x −1 x A = −1 1 2
f¨ ur x x . x
¨ 2.8. UBUNGEN
109
43. Sei (·, ·) das Skalarprodukt und || · || die euklidische Norm im Rn . Man beweise: (a) ||x + y||2 = ||x||2 + ||y||2 ⇐⇒ (x, y) = 0, (b) ||x + y||2 + ||x − y||2 = 2(||x||2 + ||y||2 ). 44. Man gebe eine Matrizendarstellung f¨ ur das Erhard-Schmidt-sche Orthogonalisierungsverfahren an und schreibe ein Programm f¨ ur das Orthogonalisierungsverfahren. 45. Man finde eine orthonormale Basis von lin (z1 , z2 , z3 ) mit 0 −1 3 0 0 1 z1 = 1 , z2 = 2 , z3 = 0 . 0 3 2 Wie kann man ein z4 ∈ R4 finden, das zu allen Elementen von lin (z1 , z2 , z3 ) orthogonal ist? 46. Man finde eine orthonormale Basis von lin (z1 , z2 , z3 ) mit −18 7 0 −4 0 9 z1 = 1 , z2 = 2 , z3 = −3 . 0 4 0 Weiterhin gebe man ein z4 ∈ R4 an, das zu allen Elementen von lin (z1 , z2 , z3 ) orthogonal ist. 47. Man finde eine orthonormale Basis von lin (z1 , z2 , z3 ) mit 0 9 4 9 6 1 z1 = −2 , z2 = −2 , z3 = 7 . 2 2 2 Anschließend erg¨ anze man die gefundene Basis zu einer orthonormalen Basis des R4 . 48. Gegeben sei das lineare Gleichungssystem Ax = b mit
1 −2 3 0 3 A= 2 −2 2 −3
6 und b = 11 . −7
Man l¨ ose das System auf folgende Weise: • Man finde eine orthogonale Matrix Q und eine obere Dreiecksmatrix R, so daß A = QR gilt. • Man berechne die L¨ osung des Systems Qy = b, gem¨aß y = QTb. • Man berechne die L¨ osung des Systems Rx = y.
110
KAPITEL 2. LINEARE ALGEBRA
49. Man berechne Eigenwerte und Eigenvektoren der Matrix 1 1 1 A = 1 0 0 . 1 0 0 50. Man berechne die Inverse der Matrix 1 1 1 A = 1 1 0 . 1 0 1 51. Man l¨ose mit verschiedenen Verfahren das lineare Gleichungssystem Ax = y mit A = (aij )n,n = (
1 )n,n , i+j−1
yj = 1, j = 1, . . . , n,
n = 5, 6, 7, 12.
Dabei bedenke man, daß die L¨ osungen ganzzahlig sind. 52. Eine Matrix A = (aij )n,n heißt streng diagonal dominant, wenn |aii | >
n X
|aij |,
i = 1, . . . , n.
j=1 j6=i
Man zeige, daß solche Matrizen regul¨ar sind.
Kapitel 3
Graphentheorie 3.1.
Gerichtete und ungerichtete Graphen
Die Darstellung und Untersuchung realer oder gedanklicher Strukturen ist ein wesentlicher Gegenstand der Informatik. Strukturen treten z. B. bei Rechnernetzen, Programmen, Datenbanken und elektrischen Netzwerken auf. Ihnen allen ist gemeinsam, daß zwischen den Objekten der Struktur gewisse Verbindungen existieren (oder auch nicht). Oft ist es zweckm¨aßig, von der Art der Verbindungen und den verbundenen Objekten zu abstrahieren und sich nur f¨ ur die durch die Verbindungen definierte Struktur zu interessieren. In dieser Situation ist die Graphentheorie ein hervorragendes Hilfsmittel zur Strukturbeschreibung und zur Untersuchung von Struktureigenschaften. Wie in jedem mathematischen Gebiet ist auch hier ein gewisser grundlegender Begriffsapparat n¨otig, um die Sachverhalte in pr¨ aziser Form aussprechen zu k¨onnen. Eine endliche Struktur G = (V, Ru , Rg ) heißt Graph, falls Ru endlich viele symmetrische Relationen auf V und Rg endlich viele asymmetrische Relationen auf V darstellen. Dabei heißt eine Relation R asymmetrisch, falls aus (x, y) ∈ R mit x 6= y stets (y, x) ∈ / R folgt. Die Elemente der Tr¨agermenge V = { v1 , . . . , vl } heißen Knoten. Die Zweiermengen { (x, y), (y, x) }, wo die Paare (x, y) und (y, x) aus der gleichen definierenden symmetrischen Relation sind, heißen ungerichtete Kanten; alle Einermengen { (x, y) }, wo (x, y) aus einer asymmetrischen Relation ist, heißen gerichtete Kanten. Auf diese Weise ist jedem Graphen seine wohlbestimmte Kantenmenge E = { e1 , . . . , er } zugeordnet. Oft wird ein Graph auch durch seine Knoten- und Kantenmenge dargestellt: G = (V, E). Kanten der Form (x, x) heißen Schlingen. Die obige Beschreibung eines Graphen ist nicht eindeutig; so kann man z. B. jede Kante durch eine Relation beschreiben. Die Beschreibung wird eindeutig, wenn wir zus¨atzlich fordern, daß je zwei definierende, elementfremde, symmetrische Relationen zu einer zusammenzufassen sind; analog f¨ ur die asymmetrischen Relationen. Mit dieser Forderung erhalten wir eine Minimalbeschreibung f¨ ur einen Graphen. Sind alle definierenden Relationen symmetrisch, heißt der Graph ungerichtet; sind alle definierenden Relationen asymmetrisch, heißt der Graph gerichtet. Beispiele f¨ ur Graphen sind: • V : Menge von St¨ adten, Kanten: Straßen, • V : Menge von Relaisstationen, Kanten: Leitungen, • V : Menge der Atome eines Molek¨ uls, Kanten: Bindungen. Es sei etwa G = ({ 1; 2; 3; 4; 5 } , R1 , R2 ) mit den symmetrischen Relationen R1 = { (1, 2), (2, 1), (2, 2), (2, 3), (3, 2), (3, 3), (2, 4), (4, 2), (3, 5), (5, 3), (4, 5), (5, 4), (1, 4), (4, 1) } , R2 = { (3, 5), (5, 3) } 111
112
KAPITEL 3. GRAPHENTHEORIE
Eine m¨ogliche graphische Darstellung zeigt das folgende Bild. r4
r5
e8
e9 1r
e5
@ e@ 1 @ r2 e2
e6
e3
e7
r3 e4
In Graphen d¨ urfen Schlingen und Mehrfachkanten (d. h. zwei definierende Relationen sind nicht elementfremd) auftreten. Ist in einem Graphen dieses ausgeschlossen, heißt er schlichter Graph. Genauer: Ein Graph heißt schlicht, wenn alle definierenden Relationen irreflexiv und je zwei von ihnen elementfremd sind. F¨ ur die Minimalbeschreibung eines Graphen bedeutet dies: Ein Graph heißt schlicht, wenn er durch h¨ ochstens eine asymmetrische und/oder h¨ochstens eine symmetrische Relation definiert ist. ¨ Bei unseren weiteren Uberlegungen betrachten wir meist nur die reinen F¨alle, d. h. die Graphen sollen entweder gerichtet oder ungerichtet sein. In der Graphentheorie wird versucht, eine m¨oglichst anschauliche Sprechweise zu pflegen. Kanten haben Anfangs- und Endknoten. Bei einer ungerichteten Kante e = { (x, y), (y, x) } sind beide Knoten x und y sowohl Anfangs- als auch Endknoten. Bei einer gerichteten Kante e = { (x, y) } ist x der Anfangs- und y der Endknoten. Wir sagen: Die Kante e ist zu dem Knoten x inzident, wenn x Anfangsknoten von e ist. Ein Knoten y heißt Nachbar eines Knotens x (d. h. y ist adjazent zu x), wenn es eine Kante e gibt, so daß x Anfangsund y Endknoten von e sind. Die Anzahl d(x) aller zu einem Knoten x inzidenten Kanten nennt man Grad des Knotens x. Sollte zum Knoten x keine Kante inzident sein, d. h. d(x) = 0, so heißt der Knoten isoliert. Die Endknoten eines Graphen sind gerade jene, die zu genau einer Kante inzident sind. Da in ungerichteten Graphen selbst Schlingen zwei Endknoten haben, gilt X d(x) = 2|E|. x∈V
Daraus schließen wir Satz 3..1. Die Anzahl der Knoten mit ungeradem Grad ist in einem ungerichteten Graphen stets gerade. Ein Knoten x kann durch mehrere Kanten mit einem Knoten y verbunden sein. Dieser Sachverhalt a¨ußert sich in der Graphdefinition darin, daß das Paar (x, y) in mehreren definierenden Relationen vorkommt. Deshalb sei ag (x, y) die Anzahl der gerichteten Kanten, die vom Knoten x zum Knoten y f¨ uhren, d. h. die Anzahl der Paare (x, y) in den definierenden asymmetrischen Relationen; entsprechend sei au (x, y) die Anzahl der Paare (x, y) in den definierenden symmetrischen Relationen. Wir nennen au (x, y) den ungerichteten Adjazenzgrad des Knotenpaares (x, y) und ag (x, y) den gerichteten Adjazenzgrad des Knotenpaares (x, y). Die ungerichteten Adjazenzgrade fassen wir in einer Matrix, der ungerichteten Adjazenzmatrix Au (G), zusammen: In ihr entsprechen jedem Knoten genau eine Zeile und Spalte; im Schnittpunkt der zum Knoten x geh¨orenden Zeile mit der zum Knoten y geh¨ orenden Spalte steht der ungerichtete Adjazenzgrad au (x, y). In analoger Weise bildet man die gerichtete Adjazenzmatrix Ag (G). Offensichtlich ist ein Graph durch seine beiden Adjazenzmatrizen vollst¨ andig beschrieben, da die Adjazenzmatrizen die definierenden Relationen charakterisieren. Damit ist die Adjazenz die strukturbestimmende Eigenschaft bei Graphen und wir d¨ urfen einen Graph G auch in der Form G = (V, Au , Ag ) darstellen. Wesentlich ist aber zu erw¨ ahnen, daß die Darstellung eines Graphen mittels seiner beiden Adjazenzmatrizen eine fixierte Numerierung seiner Knoten voraussetzt. Dies folgt daraus, daß jedem Knoten x genau
3.1. GERICHTETE UND UNGERICHTETE GRAPHEN
113
eine nat¨ urliche Zahl i derart zuzuordnen ist, daß dem Knoten x die i-te Zeile und i-te Spalte in den Adjazenzmatrizen zugeordnet ist. Liegt ein gerichteter bzw. ungerichteter Graph vor, so ist eine der beiden Adjazenzmatrizen die Nullmatrix; diese lassen wir weg und nennen die andere die dem Graphen zugeordnete Adjazenzmatrix A(G). Die Adjazenzmatrix ist bei ungerichteten Graphen symmetrisch; bei schlichten, ungerichteten Graphen sind ihre Elemente gleich 0 oder 1 und auf der Hauptdiagonalen stehen nur Nullen. So lautet die Adjazenzmatrix f¨ ur das obige Beispiel: 0 1 0 1 0 1 2 1 1 0 A= 0 1 2 0 2 . 1 1 0 0 1 0 0 2 1 0 Beim Grad eines Knotens x in einem gerichteten Graphen m¨ ussen wir zwischen der Anzahl d+ (x) der von x wegf¨ uhrenden Kanten – dem Weggrad – und der Anzahl d− (x) der zu x hinf¨ uhrenden Kanten – dem Hingrad – unterscheiden. Im ersten Falle ist der Knoten x Anfangspunkt P und im zweitenPFalle Endpunkt der betreffenden Kante. Aus d(x) = d+ (x) + d− (x) folgt |E| = x∈V d+ (x) = x∈V d− (x). Jeder Graph G ist mit einem wohlbestimmten, ungerichteten Graphen Gu assoziiert, den man seinen Schatten nennt: Gu hat die gleiche Knotenmenge wie G, jedoch gilt f¨ ur die Anzahl au (x, y) der Kanten zwischen zwei beliebigen Knoten x, y: au (x, y) = au (x, y) + max { ag (x, y), ag (y, x) } . Die Situation kann man sich leicht veranschaulichen: G:
q q I @ @q - q? q? @ @ I @ Rq @ q?
Gu :
q @ @q
q @ @q
q q @ @q
Ein Graph G0 = (V 0 , Ru0 , Rg0 ) mit seinen Adjazenzmatrizen Au (G0 ) und Ag (G0 ) heißt Untergraph des Graphen G = (V, Ru , Rg ) mit seinen Adjazenzmatrizen Au (G) und Ag (G), wenn f¨ ur je zwei < 0 Knoten x, y ∈ V 0 die Ungleichungen a0g (x, y) < a (x, y) und a (x, y) a (x, y) gelten. Im Falle = g = u u V 0 = V heißt ein Untergraph spannend . Sind alle Knoten aus G0 , die in G adjazent sind, auch in G0 adjazent, so heißt der Untergraph ges¨ attigt. Ein schlichter Graph mit genau r Knoten heißt abgeschlossen oder auch vollst¨ andig, wenn zwischen je zwei Knoten genau eine Kante verl¨auft. Offenbar gibt es zu jedem r genau einen abgeschlossenen Graphen, den wir mit Gr bezeichnen. Beispielhaft betrachten wir den Graphen G4 und die folgenden Untergraphen: Hierin sind die Graphen Y1 , Y2 , Y3 spannend, Y4 , Y5 sind ges¨attigt, Y6 ist nur ein einfacher Untergraph.
3.1.1.
Isomorphie von Graphen
Im letzten Abschnitt haben wir insbesondere erkannt, daß die Adjazenzmatrix sowohl einen gerichteten als auch einen ungerichteten Graphen vollst¨andig charakterisiert. Zwei Graphen G = (V, Ru , Rg ) und G0 = (V 0 , Ru0 Rg0 ) sind isomorph, wenn eine bijektive Abbildung ψ:
V 7−→ V 0
114
KAPITEL 3. GRAPHENTHEORIE q Y1 : q S qS q QQS q Q Sq q
G4 :
q S qS QQ S q Q Sq
Y2 : q
q Y4 : q q q QQ q Qq q
Y5 : q
Y3 :
q
q q q
Y6 :
der Knoten von G auf die Knoten von G0 derart existiert, daß sich die gerichteten und ungerichteten Adjazenzgrade jedes Knotenpaares nicht ¨andern: a0g (ψ(x), ψ(y)) = ag (x, y) a0u (ψ(x), ψ(y)) = au (x, y) ∀x, y ∈ V, d. h. wenn von einem Knoten x zu einem Knoten y im Graphen G genau r Kanten f¨ uhren, so muß dies auch f¨ ur die Bildknoten im Graphen G0 gelten. Bei der Graphenisomorphie bleibt somit die strukturbestimmende Eigenschaft, die Adjazenz, erhalten. So sind z. B. die beiden folgenden Graphen G:
qX i q XXXq i @ @q q
G0 :
q q i
i q J J Jq q
isomorph, da man die Knoten und Kanten so numerieren kann, daß die Adjazenzen in beiden u ¨bereinstimmen. Generell kann man sagen: Zwei Graphen sind genau dann isomorph, wenn man die Knoten des einen Graphen so umnumerieren kann, daß die entsprechenden Adjazenzmatrizen mit denen des anderen Graphen u ¨bereinstimmen. Zwei abgeschlossene Graphen mit gleicher Knotenzahl sind offenbar isomorph, so daß man von dem abgeschlossenen Graphen mit n Knoten sprechen kann. Das entscheidende Problem bei der Isomorphie ist hier, daß man aus der Darstellung von Graphen im allgemeinen nicht auf ihre Isomorphie schließen kann und der Isomorphienachweis algorithmisch sehr aufwendig ist. Stellt man Graphen mittels ihrer Adjazenzmatrizen dar, so wird die Isomorphie dadurch entschieden, daß man durch Zeilen- und Spaltenvertauschungen in den Adjazenzmatrizen diese als gleich zu identifizieren hat. Eine negative Entscheidung u ¨ber die Isomorphie kann oft durch Vergleich gewisser charakteristischer Gr¨oßen herbeigef¨ uhrt werden. Solche Gr¨oßen sind etwa die Knotenanzahl, die Kantenanzahl, die aufsteigende Gradfolge, maximaler Grad, minimaler Grad, Untergraphen eines gewissen Typs. Ist der Wert einer solchen Gr¨ oße f¨ ur zwei Graphen verschieden, so k¨onnen diese nicht isomorph sein. Leider ist kein endliches System von charakteristischen Gr¨oßen bekannt, aus deren Gleichheit man auf die Isomorphie schließen kann. So haben z. B. die beiden Graphen G:
q HH HHq q @ @q q
G0 :
q HH HHq q @ @q q
gleiche Knoten- und Kantenzahlen, u ¨bereinstimmende aufsteigende Gradfolgen, minimaler und maximaler Grad sind gleich; trotzdem sind sie nicht isomorph, da die beiden Knoten mit der Schlinge
3.1. GERICHTETE UND UNGERICHTETE GRAPHEN
115
aufeinander abgebildet werden m¨ ussen. F¨ ur die graphentheoretische Beschreibung von Automaten ben¨otigen wir den Begriff des bewerteten, gerichteten Graphen. Eine Struktur G = (V, Rg , M, σ) heißt bewerteter, gerichteter Graph, wenn (V, Rg ) ein gerichteter Graph ist und σ:
E 7−→ M
eine Abbildung der Kanten in die Menge M , die Bewertungsmenge des Graphen, darstellt, also jeder Kante zus¨ atzlich eine Bewertung in Form eines Elementes aus der Menge M zugeordnet ist. Zwei bewertete, gerichtete Graphen G, G0 sind isomorph, wenn sie zun¨achst als gerichtete Graphen isomorph sind und sich u ¨berdies die Bewertungen von sich einander entsprechenden Kanten bijektiv aufeinander abbilden lassen.
3.1.2.
Zusammenhang
Sind zwei Knoten eines Graphen nicht durch eine Kante verbunden, fragt man nach einem Weg von einem Knoten zum anderen. Unter einem Weg zwischen zwei Knoten x, y eines ungerichteten Graphen G = (V, Ru ) versteht man eine endliche Folge x0 , e1 , x1 , e2 , . . . , en , xn von Knoten und Kanten aus G, bei denen die auftretenden Kanten mit den rechts und links von ihnen stehenden Knoten inzident sind und x0 = x, xn = y gilt. Falls ein Weg zwischen den Knoten x und y existiert, nennt man x und y durch einen Weg verbunden. Um eine innerhalb der Informatik typische Form der Definition, die induktive Definition zu verwenden, wollen wir den Wegbegriff induktiv definieren. Es sei G = (V, Ru ) ein ungerichteter Graph, die Menge W (G) aller Wege in G ist dann durch folgende Regeln charakterisiert: 1. Jeder Knoten x ∈ V ist ein Weg. 2. Es seien w = x, . . . , y und w0 = u, . . . , v Wege. • Fall y 6= u: Gibt es eine Kante e mit y als Anfangs- und u als Endknoten (d. h. u ist adjazent zu y), so ist x, . . . , y, e, u, . . . , v ein Weg. • Fall y = u: Es ist x, . . . , y, . . . , v ein Weg. 3. Weitere Wege gibt es nicht. Durch diese Regeln sind nicht nur alle Wege innerhalb eines ungerichteten Graphen definiert: Wir haben damit auch eine formale Entscheidungsgrundlage, die es uns gestattet, von einem vorgegebenen Objekt in endlich vielen Schritten zu entscheiden, ob das Objekt ein Weg ist oder nicht. Wege sind mittels der Regel 2 aus Knoten und adjazenten Kanten aufgebaut. Zu jedem Weg gibt es eine nat¨ urliche Zahl n, so daß man ihn durch n-malige Anwendung der Regel 2 aus den Knoten des Graphen gewinnen kann. Ein Weg von x nach y heißt einfach, wenn seine Kanten alle verschieden sind. Ein Weg heißt elementar, wenn alle seine Knoten unterschiedlich sind mit eventueller Ausnahme von Anfangsund Endknoten. Stimmen Anfangs- und Endknoten in einem Weg u ¨berein, so sprechen wir von einem Kreis; entsprechend von einfachen bzw. elementaren Kreisen. Im folgenden werden wir stets einfache Kreise meinen, wenn wir von Kreisen sprechen. Einfache oder elementare Wege und Kreise k¨onnen in schlichten Graphen durch die Aufeinanderfolge ihrer Knoten beschrieben werden. Jeder Weg enth¨ alt einen elementaren Weg, den man beim Durchlaufen dadurch erh¨alt, daß man aus dem Weg alle jene Knoten und Kanten streicht, die zum zweiten Male durchlaufen werden sollen. Analog enth¨ alt jeder Kreis einen elementaren. Unter der L¨ ange eines Weges wird die Anzahl seiner Kanten verstanden. Betrachten wir z. B. den folgenden Graphen G:
116
KAPITEL 3. GRAPHENTHEORIE G:
x1 r
e5
e1
e6
x5 r
r x2
e7 e4
e2
e8 x4
r
r e3
x3
Ein Weg hierin ist z. B. x1 , e1 , x2 , e6 , x5 , e6 , x2 , e7 , x5 , e8 , x3 , e3 , x4 . Die Folge x3 , e3 , x4 , e4 , x5 , e8 , x3 , e2 , x2 , e7 , x5 ist ein einfacher Weg, w¨ ahrend x1 , e1 , x2 , e6 , x5 , e8 , x3 , e3 , x4 ein elementarer Weg ist. Ein Kreis der L¨ ange 2 ist der Weg x5 , e6 , x2 , e7 , x5 , und ein Kreis der L¨ ange 5 ist durch die Folge x5 , x4 , x3 , x2 , x1 , x5 gegeben. Existiert zwischen zwei Knoten ein Weg, so gibt es auch einen k¨ urzesten, d. h. einen Weg mit kleinster L¨ange. Der Abstand d(x, y) zweier Knoten x und y des Graphen G ist die L¨ange des k¨ urzesten Weges zwischen beiden Knoten; sollte kein Weg zwischen den betrachteten Knoten exisiteren, wird d(x, y) = ∞ gesetzt. Man u ¨berlegt sich leicht, daß der Abstand von Knoten Eigenschaften hat, die uns schon beim Abstand von Vektoren in einem euklidischen Vektorraum begegnet sind: d(x, y) > = 0
und
d(x, y) = 0 ⇐⇒ x = y,
d(x, y) = d(y, x), d(x, y) < = d(x, z) + d(z, y)
Dreiecksungleichung.
Wir nennen einen Graphen zusammenh¨ angend, wenn es zwischen je zwei Knoten stets einen Weg gibt, d. h. wenn je zwei Knoten einen endlichen Abstand haben; andernfalls heißt er unzusammenh¨ angend. Schließlich ist die Komponente K(x) eines Knotens x die Menge aller jener Knoten, die durch einen Weg von x aus erreichbar sind, also einen endlichen Abstand von x haben: K(x) = { y ∈ V | d(x, y) < ∞ } . Bei zusammenh¨ angenden Graphen ist stets K(x) = V f¨ ur alle x ∈ V , w¨ahrend man bei unzusammenh¨angenden Graphen endlich viele Knoten x1 , . . . , xn finden kann, so daß die Komponenten
3.1. GERICHTETE UND UNGERICHTETE GRAPHEN
117
K(x1 ), . . . , K(xn ) eine Zerlegung des Graphen in zusammenh¨angende Untergraphen bilden. Jeder beliebig gew¨ ahlte Untergraph von G, der eine echte Komponente hat, kann offenbar nicht zusammenh¨angend sein. In gerichteten Graphen sind die Begriffe analog. Man muß sich unter den Kanten stets nur gerichtete Kanten vorstellen. Bei gerichteten Graphen ist zwischen stark und schwach zusammenh¨angend zu unterscheiden. Ein gerichteter Graph heißt stark zusammenh¨ angend, wenn je zwei Knoten durch einen gerichteten Weg verbunden sind und schwach zusammenh¨ angend, wenn sein Schatten zusammenh¨ angend ist. Als Beispiel sei G der Graph f¨ ur die 0 g¨ abe es eine aus x herausf¨ uhrende, gerichtete Kante. Da der Weg w maximale L¨ange hat, muß diese Kante zu einem in w bereits vorkommenden Knoten f¨ uhren, wodurch man einen gerichteten Kreis gewonnen h¨ atte, was aber in einem azyklischen Graphen unm¨oglich ist. Folglich ist der Endpunkt jedes Weges maximaler L¨ange eine Senke. Analog zeigt man, daß der Anfangspunkt jedes Weges maximaler L¨ ange eine Quelle des Graphen sein muß. Die Aussage des Satzes kann man ausnutzen, um zu entscheiden, ob ein gerichteter Graph azyklisch ist oder nicht: Man streiche alle Quellen einschließlich aller aus ihnen herausf¨ uhrenden Kanten. Dies wiederhole man solange, bis keine Kanten mehr existieren - in diesem Falle ist der Graph azyklisch - bzw. bis ein Untergraph entsteht, der keine Quellen hat. In gleicher Weise kann man mit den Senken verfahren; beide Vorgehensweisen d¨ urfen auch gemischt werden. In Rechnernetzen spielt u. a. die Frage nach solchen Knotenrechnern eine Rolle, von denen man jeden Rechner eines gewissen Unternetzes erreichen kann. Kennt man solche Rechner (oder gar alle), so braucht man nur an diese Informationen zu senden und ist sicher, daß alle Teilnehmer der Unternetze erreicht werden. Nat¨ urlich sollten in einem Netz m¨oglichst wenig Knotenrechner installiert sein. Eine Basis eines gerichteten Graphen G ist daher eine minimale Untermenge B seiner Knotenmenge V derart, daß jeder Knoten aus V von einem Knoten aus B erreichbar ist, d. h. zu jedem Knoten y ∈ V existiert ein Knoten x ∈ B, so daß ein gerichteter Weg von x nach y f¨ uhrt. Dabei setzt man zus¨ atzlich fest, daß jeder Knoten x von x erreichbar ist. Offenbar hat jeder gerichtete Graph eine Basis. Jede Basis muß sicherlich alle Quellen des Graphen enthalten. Bei stark zusammenh¨ angenden Graphen sind die Basen einelementig: Jeder Knoten bildet eine Basis. Allgemein ist eine Basis B eines gerichteten Graphen durch die folgenden beiden Bedingungen charakterisiert:
118
KAPITEL 3. GRAPHENTHEORIE
• Jeder Knoten ist von einem Knoten aus B erreichbar. • Kein Knoten aus B ist von einem anderen aus B erreichbar. Ein Eulergraph ist ein ungerichteter Graph, in dem es einen einfachen Kreis u ¨ber alle Kanten gibt. Der betreffende Kreis heißt dann Eulerkreis. Eulergraphen sind gerade solche, deren graphische Darstellung in einem Zuge (ohne Absetzen) gezeichnet werden kann, wobei man zum Anfangsknoten zur¨ uckkehrt und jede Kante nur einmal durchlaufen wurde. Satz 3..3. Ein zusammenh¨ angender Graph ist genau dann eulersch, wenn jeder seiner Knoten einen geraden Grad hat. Beweis. Es sei im Graphen G ein Eulerkreis w gegeben. Dann muß es zu jedem Knoten von w eine Kante geben, auf der man zu ihm gelangt und eine weitere, auf der man ihn wieder verl¨aßt. Tritt also ein Knoten x genau k-mal im Kreis w auf, so ist d(x) = 2k. Sei andererseits G ein zusammenh¨ angender Graph mit n Kanten, jeder Knoten habe geraden Grad. Wir zeigen, wie man zu einem Eulerkreis kommt. Von einem beliebigen Knoten x1 aus starten wir das Durchlaufen eines einfachen Weges solange, wie noch eine nicht durchlaufene Kante vorhanden ist. Kann der Weg nicht fortgesetzt werden, muß er in x1 enden, da in jedem anderen Knoten x ein Verlassen des Knotens m¨oglich ist (d(x) ist gerade). Enth¨ alt der Weg alle Kanten von G, sind wir fertig. Andernfalls streichen wir aus G alle durchlaufenen Kanten und alle danach isolierten Knoten. Nun ist der Graph in zusammenh¨angende Untergraphen zerfallen; jeder dieser Untergraphen hat weniger als n Kanten. Auf jeden einzelnen Untergraphen wenden wir das letzte Vorgehen an usw. bis wir nur noch Eulerkreise erhalten haben. Wir wollen nun alle entstandenen Eulerkreise von Untergraphen zu einem Eulerkreis von G zusammenf¨ ugen. Dazu nehmen wir an, daß die Methode nach r Schritten endet. Es sei Vi die Menge aller Knoten, die im i-ten Schritt durch Streichen von Kanten isoliert wurden und Ei die Menge aller Eulerkreise aus dem i-ten Schritt. So ist z. B. x1 ∈ V1 . Alle Eulerkreise aus E2 h¨angen an Knoten des einzigen Eulerkreises k1 aus E1 ; alle Eulerkreise aus Ei h¨angen an Knoten von Eulerkreisen aus Ei−1 (i = 1, . . . , r). Durch folgendes Durchlaufen erhalten wir einen Eulerkreis von G: Wir beginnen in x11 = x1 und laufen bis zum ersten Knoten x12 ∈ V2 ; der Knoten x12 geh¨ort auch zu einem Eulerkreis k2 ∈ E2 aus dem Schritt 2; diesen durchlaufen wir ab x21 = x12 bis zum ersten Knoten, der zu einem Eulerkreis k3 ∈ E3 geh¨ort usw. bis wir zu einem Eulerkreis kr ∈ Er gekommen sind; an diesen h¨ angen keine weiteren Eulerkreise. Nun steigen wir wieder suksessive bis zum Eulerkreis k1 aus E1 auf, indem kr−1 vollst¨andig durchlaufen wird einschließlich aller an ihm h¨angenden Eulerkreis aus Schritt r; danach ist man in den Knoten xr−1,1 zur¨ uckgekehrt und kann das Durchlaufen des Eulerkreises kr−2 fortsetzen usw. Auf diese Weise werden schließlich k1 und alle nachgeordneten Eulerkreise durchlaufen. ¨ Mit diesen Uberlegungen ist insbesondere das ber¨ uhmte K¨ onigsberger Br¨ uckenproblem aus der Zeit Eulers (1736) gel¨ ost worden. Die Aufgabe besteht in folgendem. Zu Eulers Zeiten gab es in K¨onigsberg einige Br¨ ucken u ¨ber die Pregel, wodurch auch zwei Inseln im Fluß mit dem Festland verbunden waren. Die Situation wird durch das folgende Bild dargestellt: 1 D D D D
2
3 CC CC
4
CC CC
Die Aufgabe bestand nun darin zu entscheiden, ob es m¨oglich ist, ausgehend von einem beliebigen
3.1. GERICHTETE UND UNGERICHTETE GRAPHEN
119
Ort genau einmal u ucken wandernd zum Ausgangspunkt zur¨ uckzukehren. Offenbar ent¨ber alle Br¨ spricht der obigen Situation der folgende ungerichtete Graph: 1q HH HH HH Hq 3 q 2 HH H HH HH q 4
Die Aufgabe bedeutet nun zu entscheiden, ob ein Eulergraph vorliegt oder nicht. Offensichtlich ist dies kein Eulergraph, da jeder Knoten ungeraden Grad hat. Die getroffene Charakterisierung von Eulergraphen gibt uns die M¨oglichkeit zu entscheiden, wann ein Graph in einem Zuge gezeichnet werden kann, d. h. ob es einen einfachen Weg u ¨ber alle Kanten des Graphen gibt. Dies ist genau dann der Fall, wenn er ein Eulergraph ist oder genau zwei Knoten x, y ungeraden Grades enth¨ alt. Im zweiten Falle startet man n¨amlich im Knoten x und durchl¨auft alle Kanten genau einmal, um im Knoten y zu enden. Erreicht man einen Knoten z mit geradem Grad, so kann man ihn stets auf einer anderen Kante verlassen. Kehrt man zum Ausgangspunkt zur¨ uck, kann man ihn ebenfalls auf einer noch nicht durchlaufenen Kante verlassen. Die einzige Ausnahme macht der Knoten y, da jedes Eintreffen in y und Verlasssen von y zwei durchlaufene Kanten ergibt, so daß man schließlich in y endet. Eine erheblich schwierigere graphentheoretische Aufgabe ist die folgende. Ein Graph enth¨alt einen Hamiltonkreis, wenn er einen elementaren Kreis u ¨ber alle Knoten enth¨alt. In vielen Anwendungen wird nach einem k¨ urzesten Hamiltonkreis in einem gerichteten, bewerteten Graphen gefragt; so z. B. beim sog. Rundreiseproblem: Man m¨ochte von einer Stadt ausgehend eine vorgegebene Anzahl von St¨ adten bereisen und dabei minimale Reisekosten verursachen. Alle bisher bekannten Algorithmen zur exakten L¨ osung dieser Aufgabe haben ein exponentielles Aufwandsverhalten in Abh¨angigkeit von der St¨ adtezahl und sind daher schon bei einer geringen St¨adtezahl (ca. 50) aus Zeitgr¨ unden praktisch undurchf¨ uhrbar. Wir wollen hier auch kurz das wohl ber¨ uhmteste Graphenproblem, das Vierfarbenproblem erw¨ahnen. Es lautet wie folgt: Bekanntlich kann man jeder Landkarte einen Graphen zuordnen: Die Knoten bestehen aus den L¨ andern (zusammenh¨angende Wasserfl¨achen bilden auch L¨ander). Zwei Knoten werden durch eine Kante verbunden, wenn sie eine gemeinsame Grenze haben, die sich nicht auf einen Punkt reduziert. Eine F¨arbung der Landkarte mit m Farben soll regul¨ar heißen, wenn je zwei L¨ ander mit einer gemeinsamen Grenze auch verschiedene Farben haben. Relativ einfach l¨ aßt sich zeigen, daß man mit 5 Farben jede gegebene Landkarte regul¨ar f¨arben kann. Andererseits ist es auch einfach, jede konkret vorgelegte Landkarte mit 4 Farben regul¨ar zu f¨arben. Alle Versuche, dies auch mathematisch zu beweisen, sind bisher fehlgeschlagen. Im Jahre 1976 wurde ein Beweis vorgelegt, der das Vierfarbenproblem auf die Untersuchung der regul¨aren F¨arbung einer großen Anzahl spezieller Graphen reduziert (dies war schon seit etwa 1896 bekannt) und mittels Rechnerprogammen diese Frage f¨ ur alle auftretenden Graphen positiv entscheidet. Leider gibt es keinen Beweis f¨ ur die korrekte Arbeitsweise dieser Programme, weshalb dieser Beweis von Mathematikern auch nicht als vollwertig anerkannt ist. Der Korrektheitsnachweis ist in der Tat wesentlich, denn es werden immer noch Fehler in den Programmen gefunden (die bisher alle reparabel waren). Auch wenn u ¨ber einen langen Zeitraum keine Fehler gefunden werden, bleibt die Situation unbefriedigend, wenngleich den Mathematikern die Show gestohlen wurde.
120
KAPITEL 3. GRAPHENTHEORIE
3.2.
Relationen, Graphen und Automaten
Bin¨are Relationen lassen sich durch Matrizen darstellen. Ist r eine Relation u ¨ber X mit X = { x1 , . . . , xn }, so ist r die Matrix R = (rij )n,n mit rij = 1, falls (xi , xj ) ∈ r und rij = 0 sonst zugeordnet. Es sei s eine weitere Relation u ¨ber X, der die Matrix S = (sjk )n,n zugordnet ist. Dann gilt T = R · S = (tik )n,n ,
tik =
n X
rij sjk .
j=1
Die Gr¨oße tik ist also die Anzahl der Werte j, f¨ ur die rij = sjk = 1 gilt, also die Anzahl der M¨oglichkeiten, von xi nach xk zu gelangen: (xi , xk ) ∈ r ◦ s ⇐⇒ tik 6= 0. Ebenso folgt f¨ ur t Relationen r1 , . . . , rt u ¨ber X, daß der Relation u = r1 ◦ r2 ◦ . . . ◦ rt die Matrix U = R1 R2 . . . Rt = (uik )n,n zugeordnet ist und uik angibt, auf wieviele Arten man von xi u ¨ber eine Folge von Elementen aus X nach xk gelangen kann. Eine bin¨are Relation r u ¨ber einer endlichen Menge X = { x1 , . . . , xn } kann auch durch einen gerichteten Graphen dargestellt werden. Dazu ordnen wir der Relation r einen gerichteten Graphen G = (V, Rg ) zu, wobei V = X gilt und im Falle (x, y) ∈ r vom Knoten x zum Knoten y eine Kante e f¨ uhrt. Es sei A(G) = (aij )n,n die Adjazenzmatrix des Graphen G; dann gibt aij die Anzahl der gerichteten Kanten von xi nach xj an, wie in dem folgenden Beispiel: G:
-r ' r 6 r & @
$
- r? %
0 0 A(G) = 0 1
2 0 0 0
1 1 0 0
0 0 1 1
Hat G keine Mehrfachkanten, so ist aij = 1 genau dann, wenn (xi , xj ) ∈ E und aij = 0 sonst. Also ist A(G) in diesem Falle die zur Relation r geh¨orende Matrix. Wir definieren die Relation r2 = r ◦r durch: (x, y) ∈ r2 genau dann, wenn ein z existiert mit (x, z) ∈ r und (z, y) ∈ r; entsprechend ist rl definiert: (y0 , yl ) ∈ rl genau dann, wenn y1 , . . . , yl−1 existieren mit (yi , yi+1 ) ∈ r, i = 0, . . . , l − 1. Offenbar ist dann Al (G) die zur Relation rl geh¨orende Matrix. Im folgenden Satz sind einige Eigenschaften der Adjazenzmatrix zusammengestellt. Satz 3..4. Gegeben sei eine bin¨ are Relation r u ¨ber einer endlichen Menge X = { x1 , . . . , xn }. Sei ferner G der zugeordnete, gerichtete Graph und A(G) die zum Graphen geh¨ orende Adjazenzmatrix. Dann gilt 1. Die Adjazenzmatrix ist genau dann symmetrisch, wenn die Relation r symmetrisch ist. 2. Die Zeilensumme ist gleich dem Weggrad, die Spaltensumme gleich dem Hingrad des zugeordneten Knotens: n n X X aij = d+ (xi ), aij = d− (xj ). j=1
i=1
3.2. RELATIONEN, GRAPHEN UND AUTOMATEN
121
(k)
3. Es sei G schlicht und Ak (G) = (aij )n,n das k-fache Produkt von A(G) mit sich. Dann ist (k)
aij die Anzahl der gerichteten Wege der L¨ ange k von xi nach xj . 4. Der Graph G ist genau dann azyklisch, wenn es eine Zahl l gibt mit Al (G) 6= o und Al+1 (G) = o, d. h. wenn es einen gerichteten Weg gr¨ oßter L¨ ange gibt. Als Beispiel sei folgende Relation gegeben: A = { 1, 2, 5 } , B = { 4, 8, 10 } ,
(a, b) ∈ r ⇐⇒ a teilt b.
Der zugeh¨ orende Graph sieht hier so aus: r1 4 r r 2 r5 8 r ? 10 r Die zugeordnete Adjazenzmatrix 0 0 0 1 1 0 0 0 1 1 0 0 0 0 0 A(G) = 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
lautet: 1 1 1 . 0 0 0
Um den Zusammenhang zwischen Graphen und Automaten herauszuarbeiten, wollen wir zun¨achst den Begriff des Automaten mathematisch pr¨azise einf¨ uhren. Ein (endlicher) Automat A ist ein 5-Tupel A = (K, Σ, T, σ, λ), wobei K, Σ, T Mengen und σ, λ Abbildungen sein m¨ogen. Ein Element aus der Menge K nennen wir Zustand des Automaten A, ein Element aus Σ heißt Eingabe f¨ ur den Automaten und ein Element aus T heißt Ausgabe des Automaten A. Man nennt die Menge Σ das Eingabealphabet, T das Ausgabealphabet und K die Zustandsmenge des Automaten. Mittels einer Eingabe wird der Automat von einem Zustand in einen weiteren u uhrt; daher heißt σ die ¨berf¨ ¨ Uberf¨ uhrungsfunktion des Automaten: σ:
K × Σ 7−→ K; (q, x) ∈ K × Σ 7−→ σ(q, x) ∈ K.
Die Bef¨ ahigung des Automaten zur Ausgabe von Daten wird durch die Ausgabefunktion λ beschrieben: λ:
K × Σ 7−→ T ; (q, x) ∈ K × Σ 7−→ λ(q, x) ∈ T.
122
KAPITEL 3. GRAPHENTHEORIE
Zur Illustration kann man sich etwa einen Briefmarkenautomaten vorstellen, der bei Einwurf eines Markst¨ uckes eine Eine-Mark-Marke auswirft und bei Einwurf eines Zweimarkst¨ uckes eine ZweiMark-Marke. Als Zustand des Automaten sehen wir die Anzahl der noch vorhandenen Eine-MarkMarken und die Anzahl der noch vorhandenen Zwei-Mark-Marken an, d. h. der Zustand wird durch ein Paar (x, y) von nat¨ urlichen Zahlen beschrieben. Jeder Einwurf eines Geldst¨ uckes ¨andert den Zustand. Jede Ausgabe ist eine Eine-Mark- oder eine Zwei-Mark-Marke. Zum richtigen Funktionieren des Briefmarkenautomaten geh¨ ort es nat¨ urlich, daß er im Zustand (0,y) bei Eingabe eines Markst¨ uckes das Geld wieder auswirft; entsprechend im Zustand (x,0) bei Einwurf eines Zweimarkst¨ uckes. Schließlich sollte nicht unerw¨ahnt bleiben, daß unser Briefmarkenautomat bei ¨ Einwurf anderer Objekte diese ohne Anderung seines Zustandes wieder auswirft. Diese Eigenschaft wollen wir als selbstverst¨ andlich voraussetzen und nicht in unser Modell aufnehmen. Ein Automat arbeitet nach folgendem Prinzip: Auf Grund einer Eingabe ¨andert sich in definierter Weise der Zustand des Automaten. Nach diesem Grundprinzip arbeiten gegenw¨artig auch alle Rechner. Die inneren Verh¨ altnisse eines Automaten k¨onnen durch einen bewerteten, gerichteten Graphen G = (V, A, Σ, σ) beschrieben werden. Dabei ist die Knotenmenge V von G die Zustandsmenge K des Automaten; zwei Knoten q1 , q2 sind durch so viele gerichtete Kanten verbunden, wie es Eingaben gibt, die den Automaten aus dem Zustand q1 in den Zustand q2 bringen, d. h. f¨ ur die Adjazenzmatrix gilt a(q1 , q2 ) = | { x ∈ Σ | σ(q1 , x) = q2 } |. Die einer Kante zugeordnete Eingabe ist die Bewertung der betreffenden Kante. Wir skizzieren von unserem Briefmarkenautomaten jenen Untergraphen G, der den Automaten vom Zustand (3, 2) bis zum Zustand (0, 0) beschreibt:
(3, 2)
1
2
? (3, 1)
1
2
? (3, 0) 2 6
1
- (2, 2)
1
- (1, 2)
2
2
? - (2, 1)
? - (1, 1)
1
2
2
? - (2, 0)
? - (1, 0)
2 6
1
2 6
1
?1 - (0, 2) 2
1
??1 - (0, 1) 2
1
??1 - (0, 0) 2 6
Graphentheoretisch k¨ onnen wir einige Eigenschaften von Automaten interpretieren. Wenn der Automat durch l Eingaben von einem Zustand q ∈ K in einen Zustand g 0 ∈ K u ¨bergehen kann, so gibt es in dem zugeordneten Graphen einen Weg der L¨ange l von q nach q 0 . Kann der Automat von einem gewissen Zustand in jeden anderen u ¨bergehen, ist der zugeordnete Graph schwach zusammenh¨angend. Sein Graph ist stark zusammenh¨angend, falls jeder Zustand des Automaten aus jedem anderen erzeugbar ist. Der Graph enth¨alt einen Kreis, falls der entsprechende Automat von einem gewissen Zustand in diesen zur¨ uckgef¨ uhrt werden kann. Die Isomorphie von Automaten wird so gefaßt, daß die zugeordneten Graphen isomorph sind. Zwei Automaten A = (K, Σ, T, σ, λ) und A0 = (K 0 , Σ0 , T 0 , σ 0 , λ0 ) heißen isomorph , falls es bijektive Abbildungen ϕK , ϕΣ , ϕT gibt, so daß f¨ ur alle q ∈ K und alle x ∈ Σ: ϕK (σ(q, x)) = σ 0 (ϕK (q), ϕΣ (x)), ϕT (λ(q, x)) = λ0 (ϕK (q), ϕΣ (x)).
¨ 3.3. UBUNGEN
123
Bei isomorphen Automaten erreicht man also die gleiche Zustands¨anderung bzw. Ausgabe unabh¨angig davon, ob man zuerst den ersten Automaten bedient und dann das isomorphe Bild des Ergebnisses im zweiten betrachtet oder ob man zuerst Zustand und Eingabe in den zweiten Automaten abbildet und diesen dann bedient.
3.3.
¨ Ubungen
1. Man skizziere alle m¨ oglichen schlichten, gerichteten Graphen mit genau drei Knoten, wobei keine zwei Graphen einander isomorph sein sollen. 2. Man beweise die folgende Aussage f¨ ur gerichtete und ungerichtete Graphen: Die Anzahl der Knoten mit ungeradem Grad ist gerade. 3. Die Knoten eines schlichten Graphen sollen so gef¨arbt werden, daß benachbarte Knoten verschiedene Farben erhalten. Man zeige: Wenn alle Knoten h¨ochstens den Grad n haben, werden h¨ ochstens n + 1 Farben ben¨otigt. 4. Es sei Qn ein Graph mit n + 1 Knoten a0 , . . . , an und folgenden Eigenschaften: Genau ein Knoten (etwa a0 ) ist zu allen anderen adjazent. F¨ ur die anderen Knoten a1 , . . . , an gilt: ai und ai+1 (i = 1, . . . , n − 1) sowie an und a1 sind adjazent. Wie viele Farben werden h¨ochstens ben¨ otigt, um Qn so zu f¨ arben, daß je zwei benachbarte Knoten unterschiedlich gef¨arbt sind? 5. Man untersuche, f¨ ur welche nat¨ urlichen Zahlen n es ungerichtete Graphen Gn mit genau n Knoten x1 , x2 , . . . , xn derart gibt, daß f¨ ur die Knotengrade d(xi ) = i, i = 1, 2, . . . , n gilt. • F¨ ur welche n gibt es solche Graphen nicht? • Man finde alle derartigen nichtisomorphen Graphen f¨ ur die beiden kleinsten solcher nat¨ urlicher Zahlen n. • Man kennzeichne 4 Graphenpaare derart, daß jeweils der eine Graph isomorph zu einem echten Untergraphen des anderen ist. 6. Sei G ein Graph mit 100 Knoten. Der Grad eines Knoten betr¨agt mindestens drei. Man untersuche, wieviel Kanten G mindestens besitzt. 7. Es sei G = (V, Rg ) ein endlicher ungerichteter Graph mit n Knoten v1 . . . vn mit den Knotengraden gi und m Kanten. Man beweise: n X
gi = 2m .
i=1
8. Man untersuche die folgenden beiden Graphen auf Isomorphie:
124
KAPITEL 3. GRAPHENTHEORIE
r x5
x4 r
y4 r und
x3 r
. y5 r
r y3
y1 r
r y2
r x1
r x2
9. Man zeige, daß in einem zusammenh¨angenden Graphen je zwei l¨angste Wege einen Knoten gemeinsam haben. 10. Man beweise: Wenn alle Knoten eines Graphen mit der der Knotenmenge V mindestens den Grad haben, ist er zusammenh¨ angend.
|V |−1 2
11. Es sei G ein Graph ohne isolierte Knoten, der genau eine Kante weniger als Knoten hat. Man zeige: G enth¨ alt mindestens zwei Knoten mit dem Grad 1. 12. Man zeige: Jeder azyklische Graph mit n Knoten hat h¨ochstens n − 1 Kanten. 13. Man stelle sich einen dreidimensionalen K¨orper als Graphen vor: Die Kanten des K¨orpers entsprechen den Kanten im Graphen, die Eckpunkte den Knoten. Welche regelm¨aßigen K¨orper (d. h. mit nur kongruenten Seiten) (a) sind Eulergraphen? (b) enthalten einen Hamilton-Kreis? 14. Ein Graph heißt n-regul¨ ar, wenn jeder Knoten den Grad n hat. Man zeichne einen 5-regul¨ aren schlichten Graphen, dessen k¨ urzester Kreis die L¨ange 3 und l¨angster Kreis die L¨ ange 8 hat.
15. Man untersuche nebenstehenden gerichteten Graphen auf Zyklenfreiheit:
r A6 A rH -AU rH HH j r Hjr H B
B
B
-BNr
P q r? P 6
¨ 3.3. UBUNGEN
125
16. Gegeben sei folgende Vereinfachung eines Ausschnitts einer Landkarte. Die Knoten S1 , . . . , S7 stellen St¨ adte dar. Zwei Knoten Si , Sj sind genau dann durch eine Kante verbunden, wenn Si von Sj aus direkt erreichbar ist und umgekehrt. Die Reisekosten f¨ ur eine direkte Verbindung stehen an der entsprechenden Kante.
1 j Sj 2 HH @ B @ 3 H @ B @ HH B @ 4 HH5 @ HH@ B 1 @ @ j H @ H B 2 S3 @ B 6 @ BB @ j 1 Sj 4 S5 2 5 3 @ 1 @ j 7 Sj S 6 7 S1
Gesucht ist ein Weg von S1 nach S1 u ¨ber alle St¨adte S2 , . . . , S7 mit minimalen Gesamtkosten, wenn jede Stadt (a) genau einmal, (b) mindestens einmal besucht werden soll. Welche Auswirkung auf die H¨ ohe der Ausgaben hat die Wahl des Start-Ziel-Ortes? 17. Es sei folgender bewertete, gerichtete Graph gegeben. 1 5 j Bj Cj 2 2 6 @4 @1 @2 @ @ @ j 3 5 3 j D Ej Fj G 5 4 4 @3 @1 @6 @ j @ j @ j 2 5 H I J A
Man finde einen Weg von A nach J mit minimalen Kosten. 18. Man stelle sich einen unendlichen, gerichteten Graphen mit den Knoten ai , i = 1, 2, . . . und den Kanten (ai , aj ) vor, wobei f¨ ur die Kanten gilt: Es existiert genau dann eine gerichtete Kante (ai , aj ) von ai nach aj , wenn ai ein Teiler von aj ist. Was kann man u ¨ber die Hinund Weggrade der Knoten aussagen? 19. Ein Graph heißt bipartit, wenn eine Zerlegung der Knotenmenge V in zwei Mengen M , N so existiert, daß jede Kante zu je einem Knoten aus M und N inzident ist. Man zeichne alle bis auf Isomorphie verschiedenen bipartiten Graphen mit |M | = 2, |N | = 3, die keinen isolierten Knoten enthalten.
126
KAPITEL 3. GRAPHENTHEORIE
Kapitel 4
Analysis 4.1.
Erinnerung und Neues
Die Analysis ist nicht nur das umfangreichste mathematische Teilgebiet, sondern auch jenes mit den meisten außermathematischen Anwendungen. Wir k¨onnen hier nur einige grundlegende Begriffe und Erkenntnisse studieren, um so in die analytische Denkweise einzuf¨ uhren. ¨ F¨ ur unsere Uberlegungen verwenden wir den n-dimensionalen euklidischen Vektorraum Rn mit dem in Kap. 2 definierten Skalarprodukt (·, ·) und der euklidischen Norm v uX p u n kxk = (x, x) = t xj xj . j=1
Die Vektoren aus dem Rn werden wir auch Punkte nennen. F¨ ur einen beliebigen Punkt x ∈ Rn und eine beliebige Zahl ε > 0 heißt die Menge Uε (x) = { y | kx − yk < ε } Umgebung von x, genauer ε-Umgebung des Punktes x. Eine ε-Umgebung um einen Punkt x ist offenbar eine Kugel um diesen mit dem Mittelpunkt in x und dem Radius ε. Im Falle n = 1, wenn wir also als Vektorraum die reellen Zahlen nehmen, stimmt die Norm mit dem Betrag u ¨berein; damit gilt hier Uε (x) = { y | |x − y| < ε } = { y | x − ε < y < x + ε } , d. h. in R sind die Umgebungen offene Intervalle. Mit dem Zeichen Uε◦ (x) bezeichnen wir eine punktierte Umgebung von x, d. h. eine Umgebung von x, wo der Punkt x herausgeschnitten wurde: Uε◦ (x) = Uε (x) \ {x}. n Eine Menge M ⊂ ankt , wenn sie in einer Umgebung des Nullpunktes liegt, d. h. = R heißt beschr¨ wenn eine positive Zahl L existiert, so daß f¨ ur alle x ∈ M die Ungleichung kxk < L gilt. Im Vektorraum R der reellen Zahlen kann man noch oben und unten unterscheiden: Eine Menge M⊂ ankt, wenn eine Zahl L existiert mit x < ur alle x ∈ M . Eine = R heißt nach oben beschr¨ = L f¨ solche Zahl L heißt obere Schranke der Menge M . Die kleinste obere Schanke von M nennt man obere Grenze von M . Analog nennt man eine Menge M ⊂ ankt, = R nach unten beschr¨
127
128
KAPITEL 4. ANALYSIS
wenn eine reelle Zahl l existiert, so daß x > ur alle x ∈ M ausf¨allt. Jede dieser Zahlen heißt = l f¨ untere Schranke und die gr¨ oßte unter ihnen untere Grenze der Menge M . Hier sei bereits bemerkt, daß weder die obere noch die untere Grenze Element der Menge sein m¨ ussen. Offenbar ist im Bereich der reellen Zahlen eine Menge genau dann beschr¨ankt, wenn sie nach oben und nach unten beschr¨ ankt ist. n Ein Punkt x ∈ M ⊂ = R heißt innerer Punkt von M , wenn eine Umgebung von ihm in M liegt, d. h. wenn ein ε > 0 existert mit Uε (x) ⊂ = M . Mit int (M ) bezeichnen wir die Menge aller inneren Punkte der Menge M . Besteht die Menge M nur aus inneren Punkten, d. h. gilt int (M ) = n M , so heißt M offen. Andererseits nennen wir eine Menge M ⊂ = R abgeschlossen, wenn die n Komplementmenge R \ M offen ist. Ein Punkt x ∈ Rn heißt Randpunkt der Menge M , wenn in jeder punktierten Umgebung von x sowohl Punkte aus M liegen als auch solche Punkte, die nicht zu M geh¨oren, d. h. f¨ ur jedes ε > 0 gilt M ∩ Uε◦ (x) 6= ∅,
Uε◦ (x) \ M 6= ∅.
Ein Punkt x ∈ M heißt isoliert, wenn es eine punktierte Umgebung von x gibt, die keinen Punkt aus M enth¨alt, d. h. es gibt ein ε > 0, so daß M ∩ Uε◦ (x) = ∅ gilt. n Ein Punkt x ∈ Rn heißt H¨ aufungspunkt der Menge M ⊂ = R , wenn in jeder punktierten Umgebung von x auch Punkte aus M liegen, d. h. f¨ ur jedes ε > 0 gilt M ∩ Uε◦ (x) 6= ∅. Es sei ausdr¨ ucklich erw¨ahnt, daß H¨ aufungspunkte einer Menge nicht automatisch auch zur Menge geh¨oren m¨ ussen. Satz 4..1. (Vereinigung von offenen Mengen) Die Vereinigung von beliebig vielen offenen Mengen ist offen. Beweis. Es sei [ M= Mα α∈I
mit einer Indexmenge von beliebiger M¨ achtigkeit und x ∈ M beliebig ausgew¨ahlt. Dann muß x in mindestens einer der Mengen Mα , etwa Mα0 liegen. Da Mα0 eine offene Menge ist, enth¨alt sie mit x auch eine Umgebung von x, die folglich auch in der Vereinigung liegen muß, was uns sagt, daß M mit jedem Punkt x auch eine Umgebung von x enth¨alt, d. h. M ist offen. Satz 4..2 (Durchschnitt abgeschlossener Mengen). Der Durchschnitt von beliebig vielen abgeschlossenen Mengen ist abgeschlossen. Beweis. Es sei \ M= Mα α∈I
und wir haben zu zeigen, daß die Menge Rn \M offen ist. Dazu sei x ∈ Rn \M ein beliebiger Punkt; dann liegt x nicht im Durchschnitt M , d. h. es gibt unter den Mengen Mα mindestens eine, die den Punkt x nicht enth¨ alt; sei dies die abgeschlossene Menge Mα0 . Der Punkt x liegt dann aber n in der offenen Menge Rn \ Mα0 und mit ihm auch eine Umgebung Uε (x) von x: Uε (x) ⊂ = R \ Mα0 . ⊂ ⊂ n ⊂ n n Wegen M = Mα0 gilt R \ Mα0 = R \ M , womit wir Uε (x) = R \ M schließen, was uns anzeigt, daß Rn \ M offen ist. Satz 4..3. (Abgeschlossenheitskriterium) Eine Menge ist dann und nur dann abgeschlossen, wenn sie alle ihre H¨ aufungspunkte enth¨ alt.
4.2. FOLGEN
129
n Beweis. Zun¨ achst sei eine abgeschlossene Menge M ⊂ = R gegeben. Wir zeigen, daß sie alle ihre H¨aufungspunkte enth¨ alt. Es sei x ein beliebiger Punkt aus der offenen Menge Rn \M . Dann existiert eine Umgebung Uε (x) des Punktes x, die vollst¨andig in Rn \ M liegt, woraus sich Uε (x) ∩ M = ∅ ergibt. Dieser Schluß zeigt uns, daß außerhalb der Menge M keine H¨aufungspunkte von M liegen. Nehmen wir nun umgekehrt an, daß die Menge M alle ihre H¨aufungspunkte enth¨alt. Wir haben zu zeigen, daß Rn \ M offen ist. Es sei also x ∈ Rn \ M beliebig ausgew¨ahlt. Da der Punkt x nicht n H¨aufungspunkt von M sein kann, existiert ein ε > 0 und Uε (x) ∩ M = ∅, also Uε (x) ⊂ = R \M. Abschließend sei noch angemerkt, daß man Mengen oft auch durch ihre Indikatorfunktion darstellt. Genauer: Es sei X ⊂ = Y eine beliebige Teilmenge von Y . Eine auf einer Menge Y definierte reellwertige Funktion fX , die nur die Werte 0 oder 1 annimmt (0-1-Funktion), heißt Indikatorfunktion von X bez¨ uglich der Menge Y , falls
X = { x | fX (x) = 1 } gilt. Auf diese Weise ist jeder Menge eine wohlbestimmte Funktion, ihre Indikatorfunktion, zugeordnet. Ist umgekehrt f eine 0-1-Funktion, so definiert das Urbild von 1 eine Menge X derart, daß f die Indikatorfunktion dieser Menge darstellt. Die Indikatorfunktion Li von {xi } bez¨ uglich { x1 , . . . , xn } lautet (x − x1 ) · . . . · (x − xi−1 )(x − xi+1 ) · . . . · (x − xn ) 1 x = xi . Li (x) = = 0 x 6= xi (xi − x1 ) · . . . · (xi − xi−1 )(xi − xi+1 ) · . . . · (xi − xn )
4.2.
Folgen
Eine Funktion f , die jeder nat¨ urlichen Zahl n aus einer unendlichen Menge N ⊂ = N ein Element a aus einer Menge M zuordnet, heißt Folge. Wir schreiben Folgen in der Form (ak , k ∈ N ) bzw. (ak ), falls N die Argumentmenge ist. Die Folgeglieder ak m¨ ussen nicht notwendig verschiedene Elemente der Grundmenge M sein. Beispiele f¨ ur Folgen reeller Zahlen sind folgende: k k 1 k ak = 2 · (−1) · k, ak = , ak = 1 + , k = 1, 2, . . . . k+1 k Die Elemente ak nennt man Glieder der Folge (ak , k ∈ N). Eine Folge mit nur gleichen Gliedern heißt station¨ ar. Wenn man aus einer Folge (ak , k ∈ N) unendlich viele Folgeglieder herausgreift, erh¨alt man eine Unterfolge oder auch Teilfolge (ak , k ∈ K) mit K = { ki , i = 1, 2, . . . } ,
k1 < k2 < · · · < ki < · · · .
Wir studieren hier Folgen, deren Glieder Vektoren aus dem Rn sind; Folgen von reellen Zahlen nennt man einfach Zahlenfolgen. Unmittelbar einsichtig ist die Tatsache, daß man arithmetische Operationen mit Folgen ausf¨ uhren darf: Sind (ak ), (bk ) zwei Folgen, so sind auch (ak ± bk ) Folgen. Zus¨atzlich sind bei Zahlenfolgen ur alle k auch (ak · bk ) und ( abkk ) Folgen, wobei im letzteren Falle gesichert sein muß, daß bk 6= 0 f¨ gilt. Eine Zahlenfolge (ak ) nennt man monoton wachsend, falls ak
< =
ak+1 ,
k = 0, 1, 2, . . .
und monoton fallend, falls ak
> =
ak+1 ,
k = 0, 1, 2, . . .
130
KAPITEL 4. ANALYSIS
gilt. Sollten die Ungleichungen streng gelten, sprechen wir von streng monoton wachsend bzw. von streng monoton fallend. Eine Folge (ak ) heißt Nullfolge, wenn in jeder Umgebung des Nullpunktes bis auf endlich viele Ausnahmen alle Folgeglieder liegen. Diese charakterisierende Eigenschaft l¨aßt sich formal auf zwei Arten beschreiben: Variante 1: Zu jedem ε > 0 existiert ein k0 = k0 (ε), so daß kak k < ε ∀k
> =
k0 .
Variante 2: F¨ ur jedes ε > 0 enth¨ alt die Komplementmenge Rn \ Uε (o) von Uε (o) h¨ochstens endlich viele Folgeglieder: | k kak k > | < ∞. = ε Satz 4..4 (Nullfolgeneigenschaften). F¨ ur Nullfolgen gelten die folgenden Aussagen. 1. Jede Unterfolge einer Nullfolge ist auch eine Nullfolge. ⊂ n 2. Eine Folge (ak ) ⊂ = R ist genau dann eine Nullfolge, wenn (kak k) = R eine Nullfolge ist.
3. Jede Nullfolge ist beschr¨ ankt. 4. Sind (ak ), (bk ) Nullfolgen, so sind auch (ak + bk ) und (ak − bk ) Nullfolgen. Die Menge aller Nullfolgen bildet einen Vektorraum u ¨ber den reellen Zahlen. 5. (Majorantenkriterium.) Ist (ck ) eine Nullfolge und (ak ) eine Folge, zu der ein L > 0 existiert, so daß ab einem Index k0 kak k < = L · kck k
∀k
> =
k0
gilt, dann ist auch (ak ) eine Nullfolge. 6. Es sei ak = (a1k , a2k , . . . , ank ). Die Folge (ak ) ist genau dann Nullfolge, wenn alle Zahlenfolgen (ajk ), j = 1, 2, . . . , n Nullfolgen sind. 7. Ist (ak ) eine Nullfolge und (bk ) eine beschr¨ ankte Zahlenfolge, so ist (bk · ak ) eine Nullfolge. Beweis. Auf einen Beweis der ersten 4 Aussagen soll hier verzichtet werden. F¨ ur den Beweis des Majorantenkriteriums sei ε > 0 beliebig vorgegeben. Da wegen der Aussage 2 die Folge (kck k) eine Nullfolge ist, liegen außerhalb einer Lε -Umgebung des Nullpunktes h¨ochstens endlich viele Folgeglieder und wir k¨ onnen aus deren Indices den maximalen bilden: n n ε oo k0 (ε) = max {k0 } ∪ k kck k > . = L F¨ ur alle k > k0 (ε) folgt daraus mit der Voraussetzung kak k < = L · kck k < L ·
ε = ε, L
was uns sagt, daß (ak ) eine Nullfolge ist. F¨ ur die Aussage 6 zeigen wir zun¨ achst: Wenn (ak ) eine Nullfolge darstellt, so ist auch jede Folge (ajk ) eine Nullfolge. Offensichtlich gilt |ajk | < = kak k,
j = 1, 2, . . . , n.
4.2. FOLGEN
131
Mit dem Majorantenkriterium folgt hieraus, daß (ajk ) eine Nullfolge ist. Nehmen wir nun umgekehrt an, daß alle Folgen (ajk )(j = 1, 2, . . . , n) Nullfolgen sind. Wegen Aussage 4 ist dann die Folge (|a1k | + |a2k | + · · · + |ank |) eine Nullfolge. Wegen der offensichtlichen Ungleichung kak k
< =
n X
|ajk |
j=1
folgt aus dem Majorantenkriterium, daß (ak ) eine Nullfolge darstellt. Wir kommen zum Beweis der Aussage 7. Die Zahlenfolge (bk ) ist nach Voraussetzung beschr¨ankt; also existiert eine positive Zahl L mit |bk | < = L ∀k. Es sei nun ε > 0 beliebig vorgegeben und k0 (ε) der maximale Index aller Folgeglieder ak , die außerhalb einer Lε -Umgebung des Nullpunktes liegen: k0 (ε) = max
n
ε o k kak k > . = L
F¨ ur k > k0 (ε) folgt daraus: kak · bk k = kak k · |bk | < L ·
ε = ε, L
was uns sagt, daß (ak · bk ) eine Nullfolge ist. Das folgende Beispiel soll zeigen, daß man unter Umst¨anden die Glieder einer Nullfolge mit den Gliedern einer unbeschr¨ ankten Folge multiplizieren darf, ohne die Nullfolgeneigenschaft zu verlieren. Wir betrachten die beiden Zahlenfolgen (q k ), (k) mit 0 < |q| < 1 und bilden daraus die Folge 1 setzen, folgt f¨ ur k > (k · q k ). Indem wir |q| = 1+x = 2: k k = k k (1 + x) 1 + 1 x + k2 x2 + · · · xk k 2 2 1 < k = = 2· . 2 2 (k − 1)x x k − 1 x 2
|k · q k | =
1 Damit haben wir gezeigt, daß die Nullfolge ( k−1 ) eine Majorante f¨ ur die Folge (k · q k ) darstellt, 1 und das Majorantenkriterium sagt uns, daß auch (k · q k ) eine Nullfolge ist. Die Folge ( k−1 ) ist erst k k recht eine Majorante f¨ ur die Folge (q ), was uns das Nebenergebnis liefert, daß (q ) f¨ ur |q| < 1 eine Nullfolge darstellt. Eine Folge (ak ) ist konvergent, falls ein a existiert, so daß (ak − a) eine Nullfolge ist; andernfalls sagen wir, daß die betrachtete Folge divergiert. Bei divergenten Folgen unterscheidet man noch zwischen bestimmt divergent und unbestimmt divergent. Eine Folge (ak ) divergiert bestimmt, falls die Folge ( ka1k k ) eine Nullfolge ist. Alle u ¨brigen, nicht konvergenten Folgen nennt man unbestimmt divergent. Bei einer bestimmt divergenten Folge liegen in jeder Umgebung des Nullpunktes h¨ ochstens endlich viele Folgeglieder. Man sagt in einem solchen Falle, daß ∞ bzw. −∞ der uneigentliche Grenzwert der Folge ist. Zu einer Folge (ak ) gibt es h¨ ochstens einen Punkt a, so daß (ak −a) eine Nullfolge ist. Sind n¨amlich (ak − a) und (ak − b) Nullfolgen, so muß auch die Differenz eine Nullfolge sein, woraus sich a = b ergibt. Zu einer konvergenten Folge (ak ) existiert daher genau ein a, so daß (ak − a) eine Nullfolge
132
KAPITEL 4. ANALYSIS
ist. Dieser eindeutig bestimmte Punkt a heißt Grenzwert oder Limes der Folge. Man sagt: Die Folge (ak ) konvergiert gegen den Punkt a, in Zeichen: k→∞
ak −→ a
a = lim ak , k→∞
oder
ak −→ a.
Beispiele. 1. Wir betrachten f¨ ur |q| < 1 die Folge (
Pk
i=0
q i ). Aus der Gleichungskette
1 − q k+1 = 1 + q + q 2 + · · · + q k − (q + q 2 + · · · + q k+1 ) = (1 − q)(1 + q + q 2 + · · · + q k ) = (1 − q)
k X
qi
i=0
folgt durch Umstellen: k X
qi =
i=0
1 − q k+1 1 q k+1 = − , 1−q 1−q 1−q
1 was uns zeigt, daß die Folge den Grenzwert 1−q hat, da der zweite Summand allgemeines Glied einer Nullfolge ist. √ √ 2. Als zweites Beispiel w¨ ahlen wir die Folge ( k k). Indem wir ak = k k − 1 setzen, folgt k 2 k(k − 1) 2 k = (1 + ak )k > a = ak 2 k 2
und daraus durch Umstellen a2k
0 ein k0 (ε) gibt mit kam − ak k < ε
∀m, k
> =
k0 (ε).
Satz 4..5 (Konvergenz von Folgen). Konvergierende Folgen haben die folgenden Eigenschaften.
4.2. FOLGEN
133
1. Jede Unterfolge einer konvergenten Folge ist konvergent. 2. Jeder H¨ aufungspunkt einer Unterfolge ist auch H¨ aufungspunkt der gesamten Folge. 3. Jede konvergente Folge hat genau einen H¨ aufungspunkt. 4. Jede konvergente Folge ist beschr¨ ankt. 5. (Cauchysches Konvergenzkriterium.) Eine Folge ist genau dann eine Fundamentalfolge, wenn sie konvergiert. 6. F¨ ur konvergente Folgen gelten die folgenden Rechenregeln: lim (ak ± bk ) = lim ak ± lim bk ,
k→∞
k→∞
k→∞
lim kak k = k lim ak k
k→∞
k→∞
und zus¨ atzlich bei Zahlenfolgen lim (ak · bk ) = lim ak · lim bk ,
k→∞
k→∞
k→∞
limk→∞ ak ak = . lim k→∞ bk limk→∞ bk Dabei m¨ ussen in der letzten Gleichung alle Folgeglieder bk von 0 verschieden und (bk ) darf keine Nullfolge sein. Die Menge aller konvergenten Folgen des Rn bildet einen Vektorraum u ¨ber den reellen Zahlen. 7. (Satz von Bolzano-Weierstraß.) Jede beschr¨ ankte Folge hat einen H¨ aufungspunkt (und damit eine konvergente Unterfolge). 8. Eine Folge konvergiert genau dann, wenn sie beschr¨ ankt ist und h¨ ochstens einen H¨ aufungspunkt besitzt. 9. F¨ ur Zahlenfolgen gilt: (a) Aus lim ak = a,
k→∞
lim bk = b,
ak
< =
bk ,
lim bk = a,
ak
< =
ck
k→∞
∀k
> =
k0
folgt a < = b. (b) Aus lim ak = a,
k→∞
k→∞
< =
bk ,
∀k
> =
k0
folgt limk→∞ ck = a. (c) Eine monotone Folge konvergiert genau dann, wenn sie beschr¨ ankt ist. (d) Jede Zahlenfolge enth¨ alt eine monotone Unterfolge. Beweis. Zun¨ achst soll die Aussage 9d bewiesen werden. Dazu sei eine Zahlenfolge (ak ) gegeben. Wir definieren > M = l ∃k0 : ak+l < = { l1 < l2 < · · · } . = ak ∀k = k0
134
KAPITEL 4. ANALYSIS
Es sei l ∈ M ; dann gilt ak0 +n·l
< =
ak0 +(n−1)·l ,
n = 1, 2, . . . ,
also liegt eine monoton fallende Unterfolge (ak0 +kl ) vor. Wir haben daher nur noch den Fall M = ∅ zu untersuchen. In diesem Falle gibt es zu jedem Index k0 einen Index k mit ak > ak0 . Folglich existiert zu l1 = 1 ein kleinster Index l2 > l1 mit al2 > al1 . Dieses Vorgehen kann man iterieren: Es sei weiter l3 > l2 der erste Index mit al3 > al2 usw.; die so entstehende Unterfolge (ali ) ist streng monoton wachsend. Damit ist in beiden F¨allen die Aussage 9d nachgewiesen. F¨ ur die Aussage 9c sei (ak ) eine monoton wachsende, gegen a konvergente Zahlenfolge: a1
< =
a2
< =
···
< =
ak
< =
···
< =
a,
also ist die Folge beschr¨ ankt. Entsprechend folgt die Beschr¨anktheit bei einer monoton fallenden Zahlenfolge. Es sei umgekehrt (ak ) nach oben beschr¨ankt und monoton wachsend. Dann hat die Folge eine obere Grenze a, d. h. eine kleinste obere Schranke. F¨ ur jedes ε > 0 ist a − ε nicht mehr obere Schranke; also existert zu ε ein Index k0 (ε) mit ak0 > a − ε; f¨ ur alle k > = k0 gilt dann |ak − a| = a − ak = a − ak0 − (ak − ak0 ) < = a − ak0 < ε, womit wir gezeigt haben, daß (ak − a) eine Nullfolge ist, d. h. die Folge (ak ) konvergiert gegen a. Der Satz von Bolzano-Weierstraß (Aussage 7) wird zun¨achst f¨ ur Zahlenfolgen bewiesen. Es sei also (ak ) eine Zahlenfolge. Nach Aussage 9d enth¨alt sie eine monotone Unterfolge, die nach Aussage 9c konvergiert; folglich hat (ak ) einen H¨ aufungspunkt. Es sei nun (ak ) eine beliebige beschr¨ ankte Punktfolge aus dem Rn : kak k < = L ∀k. Wegen ak = (a1k , . . . , ank ) und < |ajk | < = kak k = L,
j = 1, . . . , n
sind auch alle Zahlenfolgen (ajk ) beschr¨ ankt. Daher enth¨alt die Folge (a1k ) eine konvergente Unterfolge (a1k , k ∈ K1 ), K1 ⊂ K mit K alt eine konvergente Unterfolge = 0 0 = N. Diese Folge enth¨ (a2k , k ∈ K2 ), K2 ⊂ K usw. bis zu einer konvergenten Unterfolge (ank , k ∈ Kn ), Kn ⊂ = = Kn−1 . Es 1 ⊂ ∗ sei aj der Grenzwert der Folge (ajk , k ∈ Kj ), Kj = Kj−1 . Wegen Kn
⊂ =
Kn−1
⊂ =
···
⊂ =
K1
⊂ =
K0
konvergiert die Folge (ak , k ∈ Kn ) gegen den Punkt a∗ = (a∗1 , . . . , a∗n ), folglich ist a∗ ein H¨aufungspunkt der Folge (ak ), womit der Satz von Bolzano-Weierstraß bewiesen ist. Wir kommen zum Beweis des Cauchyschen Konvergenzkriteriums. Es sei (ak ) eine gegen a konvergente Folge. Wir haben zu beweisen, daß (ak ) Fundamentalfolge ist. Dazu geben wir uns ein ε > 0 beliebig vor und w¨ahlen K > 0 als obere Schranke f¨ ur die Indexmenge n ε o k kak − ak > . = 2 F¨ ur alle m, l > = K folgt damit:
kam − al k = k(am − a) + (a − al )k < = kam − ak + kal − ak
=
k0 (1).
Wir fixieren ein m > k0 (1); f¨ ur jedes k
> =
m folgt dann:
kak − a1 k = k(am − a1 ) + (ak − am )k < = kam − a1 k + kak − am k < kam − a1 k + 1, was uns sagt, daß die vorgegebene Fundamentalfolge beschr¨ankt ist. Nach dem Satz von BolzanoWeierstraß enth¨ alt sie eine konvergente Unterfolge (aki ): lim aki = a.
i→∞
Zu vorgegebenem ε > 0 existieren ein k1 (ε), k2 (ε) mit kaki − ak
=
k1 (ε),
kam − al k
= k2 (ε).
Damit k¨ onnen wir wie folgt absch¨ atzen: kak − ak < = kak − aki k + kaki − ak
= ak+1 , d. h. k k+1 k+1 k+2 > . = k k+1 k k+1 Indem wir diese Ungleichung mit dem Faktor ( k+1 ) multiplizieren, erhalten wir
k k+1
k+1 1 (k + 1)2 1 1 k > 1 − (k + 1) · =1− = , 2 (k + 1) k+1 k+1 > =
k+2 k · k+1 k+1
k+1
=
1−
was offenbar unm¨ oglich ist. Analog zeigt man, daß auch die Folge k ! 1 1− (ck ) = k streng monoton w¨ achst. Wegen k+1 k+1 k+1 1 1 k+1 k bk · ck+1 = 1 + · 1− = · =1 k k+1 k k+1
136
KAPITEL 4. ANALYSIS
ist die Folge (bk ) streng monoton fallend. Weiter folgt bk − ak =
1+
=
1 1+ k
1 k
k+1 k
·
k k 1 1 1 − 1+ = 1+ 1+ −1 k k k
1 1 = · ak > 0. k k
Wegen ak < bk < b1 ist die streng monoton wachsende Folge (ak ) beschr¨ankt und konvergiert daher nach Aussage 9c. Wegen bk − ak = akk bildet (bk − ak ) eine Nullfolge. Folglich haben beide Folgen einen gemeinsamen Grenzwert, den man mit e bezeichnet: lim ak = lim bk = e = 2.71828182844590...
k→∞
k→∞
Es ist die Eulersche Zahl, die Basis des nat¨ urlichen Logarithmus. 2. Das folgende Beispiel soll zeigen, daß man mit dem Cauchyschen Konvergenzkriterium die Konvergenz einer Folge beweisen kann, ohne eine Vermutung u ¨ber den Grenzwert zu verwenden. Es sei (ak ) eine beschr¨ ankte Zahlenfolge: |ak | < L und |q| < 1. Wir bilden die Folge (sk ) mit = sk =
k X
ai q i
i=0
und zeigen, daß sie eine Cauchyfolge ist, woraus sich dann mit dem Cauchyschen Konvergenzkriterium die Konvergenz der Folge ergibt. Da (q k ) eine Nullfolge ist, gibt es zu beliebig vorgegebenem ε > 0 einen Index k0 (ε) derart, daß |q|k+1 < (1 − |q|) F¨ ur solche k und r
ε L
∀k
> =
k0 (ε).
> =
0 gilt dann k+r k+r X X |sk+r − sk | = ai q i < |ai | · |q|i = i=k+1
=L·
k+r X
i=k+1
|q|i = L · |q|k+1 ·
|q|i
i=0
i=k+1
1 − |q|r = L · |q|k+1 · 1 − |q|
r−1 X
< =
L · |q|k+1 ·
1 < ε, 1 − |q|
d. h. (sk ) ist eine Cauchyfolge.
4.3.
Unendliche Reihen
Im folgenden sei (an ) eine Zahlenfolge. Wir betrachten den nachstehenden unendlichen Algorithmus: s0 = a0 , sn+1 = sn + an+1 , n = 0, 1, 2, . . . Diesen Algorithmus P nennt man unendliche Reihe oder einfach Reihe und schreibt abk¨ urzend ∞ f¨ ur ihn das Zeichen k=0 ak . Es sei ausdr¨ ucklich darauf hingewiesen, daß es sich hier nicht um
4.3. UNENDLICHE REIHEN
137
so etwas wie eine unendliche Summe“ handelt. Bei einer Summe gilt z. B. die Kommutativit¨at ” der Addition, w¨ ahrend hier u ¨ber den Algorithmus genau vorgeschrieben ist, in welcher Reihenfolge die Folgeglieder zu addieren sind. Das Summenzeichen mag etwas irref¨ uhrend Pn sein; es ist jedoch insbesondere außerhalb der Mathematik sehr gebr¨auchlich. Wegen sn = k=0 ak heißt die Zahl sn die n-te Partialsumme und die Folge (sn ) nennt man entsprechend Partialsummenfolge. Jeder Zahlenfolge ist eine Reihe und damit eine Partialsummenfolge zugeordnet. In der Partialsummenfolge widerspiegeln sich die Eigenschaften des obigen Algorithmus; sein Verhalten wird durch Eigenschaften der Partialsummenfolge beschrieben. Wir sagen daher, daß eine Reihe konvergent ist, divergiert, bestimmt divergiert, unbestimmt divergiert, falls die entsprechende Partialsummenfolge diese Eigenschaft hat. Falls die Reihe gegen den Wert s∗ konvergiert, schreiben wir dies in der Form ∞ X
an = s∗
n=0
auf und nennen s∗ den Wert der Reihe. Im obigen Algorithmus werden die Folgeglieder in der aufgef¨ uhrten Reihenfolge verarbeitet. Nun kann sich der Wert einer Reihe ¨ andern oder auch nicht, falls man die Reihenfolge der Folgeglieder ¨ ver¨andert. Es ist klar, daß h¨ ochstens dann eine Anderung im Wert der Reihe zu erwarten P∞ ist, wenn unendlich viele Folgeglieder einen anderen Platz in der Folge erhalten. Eine Reihe k=0 ak konvergiert bedingt, falls sie gegen einen Wert s∗ konvergiert, aber eine solche Umordnung der Folge (an ) existiert, daß die daraus gebildete Reihe nicht gegen s∗ konvergiert. Sie kann in einem solchen Falle also gegen einen anderen Wert konvergieren oder sogar divergieren. Eine Reihe ist unbedingt konvergent, P wenn sie konvergiert und sich ihr Wert bei Umordnung der Folgeglieder ∞ nicht a ndert. Eine Reihe ¨ k=0 ak ist absolut konvergent, wenn die aus (|an |) gebildete Reihe P∞ |a | konvergiert. k=0 k Satz 4..6. (Rechenregeln f¨ ur Reihen) Die Menge aller konvergenten Reihen bildet einen Vektorraum u orper der reellen Zahlen. ¨ber dem K¨ P∞ 1. P Wenn die Reihe n=0 an konvergiert, dann konvergiert f¨ ur jede reelle Zahl α auch die Reihe ∞ αa und es gilt n n=0 ∞ X
αan = α ·
n=0
an .
n=0
2. Wenn die Reihen ∞ X
∞ X
P∞
n=0
an ,
P∞
n=0 bn
konvergieren, so auch die Reihen
(an ± bn )
n=0
und es gilt ∞ X
n=0
(an ± bn ) =
∞ X
n=0
an ±
∞ X
bn .
n=0
Der Satz kann direkt durch R¨ uckgang auf die Konvergenzdefinition bewiesen werden. Satz 4..7. (Notwendiges Konvergenzkriterium) P∞ Wenn eine Reihe n=0 an konvergiert, dann ist die Folge (an ) eine Nullfolge.
138
KAPITEL 4. ANALYSIS
Beweis. Die Behauptung des Satzes ergibt sich aus der folgenden Gleichungskette: lim an+1 = lim (sn+1 − sn ) = lim sn+1 − lim sn = 0.
n→∞
n→∞
n→∞
n→∞
Die Tatsache, daß man h¨ ochstens aus einer Nullfolge eine konvergente Reihe erhalten kann, bedeutet nicht, daß aus jeder Nullfolge eine konvergente Reihe entsteht. Als Beispiel nehmen wir die Nullfolge ( n1 ) und die damit gebildete harmonische Reihe: ∞ X
=1+
n=1
1 1 + + ··· . 2 3
F¨ ur die Partialsummen der harmonischen Reihe erhalten wir s2n − sn =
1 1 1 1 1 + + ··· + >n· = , n+1 n+2 2n 2n 2
was uns sagt, daß die Partialsummenfolge keine Fundamentalfolge ist. Daher divergiert die harmonische Reihe, obwohl die Reihenglieder eine Nullfolge bilden. P∞ Satz 4..8 (Cauchysches Konvergenzkriterium). Eine Reihe n=0 an konvergiert dann und nur dann, wenn es zu jedem ε > 0 ein n0 (ε) gibt mit |an+1 + an+2 + · · · + an+m | < ε
∀n > n0 (ε), ∀m > = 1.
Das Cauchysche Konvergenzkriterium ist wegen |sn+m − sn | = |an+1 + · · · + an+m | zum Cauchyschen Konvergenzkriterium f¨ ur Zahlenfolgen ¨aquivalent. Satz 4..9 (Reihen mit nichtnegativen Gliedern). Eine Reihe, deren Glieder s¨ amtlich nichtnegativ sind, konvergiert genau dann, wenn die zugeordnete Partialsummenfolge beschr¨ ankt ist. Beweis. Die Partialsummen von Reihen mit nichtnegativen Gliedern sind monoton wachsend; daher folgt die Behauptung aus der Aussage 9c f¨ ur Folgen. P∞ Satz 4..10 (Leibniz-Kriterium). Eine alternierende Reihe n=0 an , d. h. bei aufeinander folgenden Gliedern wechselt das Vorzeichen, konvergiert, falls die Betragsfolge (|an |) eine monotone Nullfolge ist. Beweis. Ohne Beschr¨ ankung der Allgemeinheit nehmen wir a0
> =
|a1 | > = a2
> =
|a3 | > = ···
an. Die Partialsummenfolge spalten wir in 2 Folgen (bn ), (cn ) mit bn = s2n+1 ,
cn = s2n
auf. Es ist bn+1 − bn = (s2n+3 − s2n+2 ) + (s2n+2 − s2n+1 ) = a2n+3 + a2n+2 = a2n+2 − |a2n+3 | > = 0, cn+1 − cn = (s2n+2 − s2n+1 ) + (s2n+1 − s2n ) = a2n+2 + a2n+1 = a2n+2 − |a2n+1 | < = 0, cn − bn = s2n − s2n+1 = |a2n+1 | > 0.
4.3. UNENDLICHE REIHEN
139
Daraus entnehmen wir, daß (bn ) monoton w¨achst, (cn ) monoton f¨allt, beide Folgen konvergieren und die Differenzfolge (cn − bn ) ist eine Nullfolge. Also haben beide Folgen den gleichen Grenzwert s. Da die beiden Partialsummen (s2n ) und (s2n+1 ) die gesamte Folge (sn ) aussch¨opfen, liegen in jeder Umgebung von s mit h¨ ochstens endlich vielen Ausnahmen alle Folgeglieder von (sn ), d. h. die Folge (sn ) konvergiert gegen s. Als Beispiel einer Leibnizreihe erw¨ ahnen wir die Reihe ∞ X (−1)n . n n=1
Diese Reihe konvergiert nach dem Leibniz-Kriterium; sie konvergiert aber nicht absolut! Satz 4..11. Eine absolut konvergente Reihe ist konvergent. Beweis. Hier bemerken wir nur, daß |an+1 + an+2 + · · · + an+m | < = |an+1 | + |an+2 | + · · · + |an+m | gilt, so daß die Aussage direkt aus dem Cauchyschen Konvergenzkriterium folgt. P∞ Satz 4..12. Eine Reihe n=0 an konvergiert genau dann absolut, wenn die Partialsummenfolge der Betragsfolge (|an |) beschr¨ ankt ist. P∞ P∞ Beweis. Zun¨ achst konvergiert eine Reihe n=0 an genau dann absolut, wenn die Reihe n=0 |an | konvergiert. Dies ist aber eine Reihe mit nichtnegativen Gliedern, worauf wir Satz 4.9 anwenden k¨onnen und die Behauptung erhalten. Satz 4..13 (1. Majorantenkriterium). Es sei (cn ) eine Folge mit nichtnegativen Gliedern. P∞ ur eine Folge (an ) ab einem gewissen Index n0 Wenn die Reihe n=0 cn konvergiert und f¨ |an | < = cn
∀n > = n0
P∞ gilt, so konvergiert die Reihe n=0 an absolut. P∞ Wenn die Reihe n=0 cn divergiert und f¨ ur eine Folge (an ) ab einem gewissen Index n0 |an | > = cn
∀n > = n0
P∞ gilt so konvergiert die Reihe n=0 an nicht absolut. P∞ Beweis. F¨ ur den 1. Teil sei n=0 cn = c. Dann erhalten wir < |an0 | + |an0 +1 | + · · · + |an0 +m | < = cn0 + cn0 +1 + · · · + cn0 +m = c, P∞ woraus mit Satz 4.12 folgt, daß die Reihe n=0 an absolut konvergiert. Nehmen wir andererseits an, daß > |an | > = cn > 0 ∀n = n0 P∞ gilt und die Reihe n=0 cn divergiert. Dann folgt
|an0 | + |an0 +1 | + · · · + |an0 +m | > = cn0 + cn0 +1 + · · · + cn0 +m . Die P∞ rechte Seite dieser Ungleichung wird mit wachsendem m beliebig groß; also kann die Reihe n=0 an nicht absolut konvergieren.
140
KAPITEL 4. ANALYSIS
Satz 4..14 (2. Majorantenkriterium). Es sei (cn ) eine Folge mit positiven Gliedern. P∞ Wenn die Reihe n=0 cn konvergiert und f¨ ur eine Folge (an ), in der alle Glieder ungleich 0 sind, ab einem gewissen Index n0 |an+1 | |an |
< =
cn+1 cn
∀n > = n0
P∞ gilt, so konvergiert Reihe n=0 an absolut. Pdie ∞ Wenn die Reihe n=0 dn divergiert und f¨ ur eine Folge (an ), in der alle Glieder ungleich 0 sind, ab einem gewissen Index n0 |an+1 | |an |
> =
dn+1 dn
∀n > = n0
gilt, so konvergiert die Reihe
P∞
n=0
an nicht absolut.
Beweis. Wir schreiben die beiden Ungleichungen dn+1 dn
|an+1 | |an |
< =
cn+1 cn
< =
f¨ ur n = n0 , . . . , n0 + m − 1 auf: dn0 +1 d n0
< =
|an0 +1 | |an0 |
< =
cn0 +1 cn0
dn0 +2 dn0 +1
< =
|an0 +2 | |an0 +1 |
< =
cn0 +2 cn0 +1
usw. bis dn0 +m dn0 +m−1
< =
|an0 +m | |an0 +m−1 |
< =
cn0 +m . cn0 +m−1
Wir multiplizieren nun – beginnend mit der letzten – die Ungleichungen suksessive miteinander und erhalten dn0 +m d n0
< =
|an0 +m | |an0 |
< =
cn0 +m , cn0
d. h. mit n = n0 + m: |an0 | · dn d n0
< =
|an | < =
|an0 | · cn . cn0
Mit dem 1. Majorantenkriterium folgen hieraus die behaupteten Eigenschaften. Satz 4..15 (Wurzelkriterium). Wenn es zu einer Folge (an ) eine positive Zahl q < 1 gibt, so daß ab einem Index n0 p n |an | < ∀n > = q = n0 P∞ gilt, so konvergiert die Reihe n=0 an absolut. Falls p n > |an | > = 1 ∀n = n0 gilt, divergiert die Reihe.
4.3. UNENDLICHE REIHEN
141
Beweis. Die Voraussetzung des Wurzelkriteriums schreiben wir in der Form n |an | < = q
∀n > = n0 .
P∞ Wir wissen bereits, daß die Reihe n=0 q n f¨ ur |q| < 1 konvergiert; daher folgt die behauptete Konvergenz aus dem 1. Majorantenkriterium. Der 2. Teil ergibt sich dadurch, daß wegen der Voraussetzung die Folge (an ) keine Nullfolge ist. Satz 4..16 (Quotientenkriterium). Wenn es zu einer Folge (an ) eine positive Zahl q < 1 gibt, so daß ab einem Index n0 |an+1 | |an |
< =
q
∀n > = n0
gilt, so konvergiert die Reihe Falls |an+1 | |an |
> =
1
P∞
n=0
an absolut.
∀n > = n0
gilt, divergiert die Reihe. Beweis. Die Voraussetzung des Quotientenkriteriums schreiben wir in der Form |an+1 | an
< =
q=
q n+1 1, so gilt wegen n+1 → 1 ab einem gewissen n0 : |x| ·
n n+1
> =
1 ∀n > = n0 ,
womit nach dem zweiten Teil des Quotientenkriteriums die Reihe als divergent verifiziert ist. F¨ ur x = 1 liegt die harmonische Reihe vor, von der wir bereits wissen, daß sie bestimmt divergiert. F¨ ur x = −1 konvergiert die Reihe nach dem Leibniz-Kriterium. 5. Die sog. geometrische Reihe ∞ X
n=0
qn
4.4. STETIGKEIT UND GRENZWERTE VON FUNKTIONEN
143
konvergiert f¨ ur |q| < 1 und es gilt ∞ X
qn =
n=0
1 . 1−q
Wir multiplizieren die Reihe mit sich und erhalten ∞ ∞ ∞ X n X X X 1 n n = q · q = q k q n−k (1 − q)2 n=0 n=0 n=0 k=0
=
∞ X n X
qn =
n=0 k=0
4.4.
∞ X
(n + 1)q n .
n=0
Stetigkeit und Grenzwerte von Funktionen
Es sei f eine auf X ⊂ = R definierte, reellwertige Funktion. Die Funktion f heißt stetig im Punkte a ∈ int (X), wenn f¨ ur jede gegen a konvergente Folge (an ) die Folge (f (an )) der Funktionswerte konvergiert und den Grenzwert f (a) hat: lim f (an ) = f (a) ∀(an ) : lim an = a
n→∞
n→∞
oder k¨ urzer lim f (an ) = f ( lim an ).
n→∞
n→∞
Ist die Funktion f in jedem Punkte aus int (X) stetig, so heißt f stetig in X. Satz 4..19 (Stetigkeitskriterium). Eine auf X ⊂ = R definierte, reellwertige Funktion f ist genau dann im Punkte a ∈ int (X) stetig, wenn es zu jedem ε > 0 eine Zahl η > 0 derart gibt, daß f¨ ur alle x ∈ X mit |x − a| < η die Ungleichung |f (x) − f (a)| < ε erf¨ ullt ist. Beweis. Wir zeigen indirekt, daß die angegebene Bedingung notwendig f¨ ur die Stetigkeit ist. Es sei also ε > 0 eine solche Zahl, daß zu jedem η > 0 ein x ∈ X mit |x − a| < η existiert, f¨ ur das aber |f (x) − f (a)| > ahlen η = n1 ; dann gibt es zu jedem n ein an ∈ X mit |x − an | < n1 und = ε gilt. Wir w¨ |f (x) − f (an )| > = ε. Offenbar konvergiert die Folge (an ) gegen a, aber die Folge der Funktionswerte konvergiert nicht gegen f (a); folglich ist f nicht stetig in a, was der Voraussetzung widerspricht. Wir zeigen nun, daß die im Satz genannte Bedingung hinreichend f¨ ur die Stetigkeit ist. Dazu sei (an ) ⊂ X eine gegen a ∈ X konvergente Folge, ε > 0 beliebig fixiert und η > 0 eine zu ε geh¨orende = Zahl mit der Eigenschaft: |f (x) − f (a)| < ε ∀x ∈ X : |x − a| < η. Da die Folge (an ) gegen a konvergiert, existiert ein n0 (η) mit |an − a| < η
∀n > = n0 (η)
und daher |f (an ) − f (a)| < ε ∀n > = n0 (η),
144
KAPITEL 4. ANALYSIS
was bedeutet, daß f (a) der Grenzwert der Folge (f (an )) ist. Um auch Randpunkte der Menge X zu erfassen, ben¨otigen wir noch den Grenzwert einer Funktionswertfolge f¨ ur den Fall, daß der Grenzwert m¨oglicherweise nicht zum Wertebereich der Funktion geh¨ort. Wir sagen, daß eine Funktion f in a ∈ X den Grenzwert b hat, wenn f¨ ur jede gegen a konvergente Folge (an ) ⊂ = X die Funktionswerfolge (f (an )) konvergiert und den Grenzwert b hat: lim f (an ) = b
n→∞
∀(an ) ⊂ = X : lim an = a. n→∞
Zur vereinfachenden Schreibweise: Mit einer Gleichung der Form lim f (x) = b
x→a
ist folgendes gemeint: F¨ ur jede gegen a konvergente Folge konvergiert auch die entsprechende Funktionswertfolge und alle haben den gleichen Grenzwert, n¨amlich die Zahl b. Beispiele. 1. Bei der Funktion f mit f (x) = (sgn (x))2 gilt f¨ ur alle x 6= 0 : |f (x) − 1| = (sgn (x))2 − 1 = 0,
also
lim f (x) = 1
x→0
aber (sgn (0))2 = 0. Insbesondere ist diese Funktion in x = 0 unstetig, hat aber dort einen endlichen Grenzwert. 2. Die Funktion f mit f (x) =
1 x2
(x 6= 0)
hat in x = 0 den uneigentlichen Grenzwert ∞, denn f¨ ur jede Nullfolge (an ) ist die Folge ( a12 ) n bestimmt divergent. 3. Es sei die Funktion f mit f (x) =
x2 1 + x2
gegeben und ( a1n ), an 6= 0 eine Nullfolge; dann divergiert die Folge (an ) bestimmt und a2n 1 = lim 1 = 1; n→∞ 1 + a2 n→∞ 1 + n a2
lim f (an ) = lim
n→∞
n
also hat die Funktion f¨ ur jede unbedingt divergente Folge den Grenzwert 1. Es sei X ein Intervall: X = [a, b] und f eine auf X erkl¨arte Funktion. F¨ ur einen Punkt y ∈ X heißt die Funktion f linksseitig stetig, wenn f¨ ur alle positiven Nullfolgen (hn ), (hn > 0) gilt: lim f (y − hn ) = f (y).
n→∞
4.4. STETIGKEIT UND GRENZWERTE VON FUNKTIONEN
145
Ganz analog nennt man die Funktion f in y ∈ X rechtsseitig stetig, falls f¨ ur jede positive Nullfolge gilt lim f (y + hn ) = f (y).
n→∞
Solche Grenzwerteigenschaft schreibt man meist kurz in der Form lim f (y + h) = f (y) bzw. lim f (y + h) = f (y).
h→0−
h→0+
Eine Funktion f heißt auf X stetig, wenn sie in X stetig und in den Randpunkten rechts- bzw. linksseitig stetig ist. Beispiele. 1. Wir betrachten die Funktion ( π x 6= 0 sin . f (x) = x 0 x=0 2 4n+1
F¨ ur x = sin f¨ ur x =
ist
π π π π = sin (4n + 1) = sin + 2nπ = sin = 1; x 2 2 2
2 4n+3
sin
π = sin x
und f¨ ur x = sin
3π + 2nπ 2
3 = sin π = −1 2
1 n:
π = sin nπ = 0. x
Folglich ist f in x = 0 unstetig. Die Funktion nimmt in jeder noch so kleinen Umgebung vom Nullpunkt jeden Wert aus dem Intervall [-1,1] unendlich oft an. Das u ¨bersteigt die menschliche Vorstellungskraft. 2. Die Funktion 1 1 < 1 n+1 n+1 < x = n f (x) = 0 x=0 ist in x = 0 stetig, da |f (x)| < = |x|. Satz 4..20. Die Menge C(X) aller auf X ⊂ = R stetigen Funktionen bildet mit der Multiplikation eine Halbgruppe und ist ein Vektorraum u ¨ber den reellen Zahlen. ¨ Den Beweis m¨ oge man als Ubung selbst ausf¨ uhren. Man hat nur zu zeigen: Sind f und g stetige Funktionen auf X, so auch α · f, f + g, f · g. Satz 4..21. Ist die Funktion f stetig in a ∈ int (X), die Funktion g stetig in f (a), so ist g ◦ f in a stetig. Auch der Beweis dieses Satzes sollte dem Leser leicht fallen. Satz 4..22. Das Bild f (X) einer auf einer beschr¨ ankten, abgeschlossenen Menge X stetigen Funktion f ist abgeschlossen.
146
KAPITEL 4. ANALYSIS
∗ Beweis. Es sei (yn ) ⊂ = f (X) eine gegen y konvergente Folge. Zu jedem yn existiert ein xn mit ⊂ f (xn ) = yn . Die Folge (xn ) = X ist beschr¨ankt, da X beschr¨ankt ist und hat daher einen H¨aufungspunkt x∗ , der wegen der Abgeschlossenheit von X auch in der Menge X liegen muß; mit der Stetigkeit von f folgt daraus:
f (x∗ ) = lim f (xni ) = lim yni = y ∗ , ni →∞
ni →∞
also gilt y ∗ ∈ f (X). Satz 4..23 (Minimum-Maximum f¨ ur stetige Funktionen). Jede auf einer beschr¨ ankten, abgeschlossenen Menge stetige Funktion nimmt dort ihre untere und ihre obere Grenze an. Beweis. Wir beweisen den Satz nur f¨ ur die obere Grenze; wegen inf f (x) = sup −f (x) gilt die Aussage dann auch f¨ ur die untere Grenze. Es sei X ⊂ R eine beschr¨ a nkte, abgeschlossene Menge und f eine auf X stetige Funktion; ferner = sei M die obere Grenze von f (X). Dann gibt es eine Folge (yn ) ⊂ = f (X) mit limn→∞ yn = M . Nach dem vorangegangenen Satz ist f (X) eine abgeschlossene Menge, woraus M ∈ f (X) folgt, d. h. es gibt ein x∗ ∈ X mit f (x∗ ) = M . Wenn die obere Grenze von einer Funktion angenommen wird, nennt man sie Maximum der Funktion; entsprechend spricht man von einem Minimum, wenn die Funktion ihre untere Grenze annimmt. Satz 4..24 (Nullstelleneigenschaft). Es sei f eine auf [a, b] stetige Funktion. Haben die Funktionswerte f (a) und f (b) unterschiedliches Vorzeichen, dann hat f im Intervall [a, b] eine Nullstelle. Beweis. Wir konstruieren eine Nullstelle nach dem sog. Bisektionsverfahren: Eingabe: a : untere Intervallgrenze, b : obere Intervallgrenze, f : stetige Funktion mit f (a) < 0, f (b) > 0, Programm: x := a; y := b while true do x+y z := ; u = f (z) 2 if u = 0 do out := z exit endif { z ist Nullstelle. } if u < 0 x := z else y := z endif endwhile. Wenn der Algorithmus in endlicher Zeit endet, hat er offenbar eine Nullstelle von f gefunden. Andernfalls wird die Schleife unendlich oft durchlaufen und erzeugt so zwei Folgen (xn ), (yn ), wobei die Folge (xn ) monoton w¨ achst, die Folge (yn ) monoton f¨allt und f (xn ) < 0, f (yn ) > 0,
yn − xn =
b−a 2n
∀n
gilt. Die Intervall¨ angen yn − xn bilden also eine Nullfolge; daher haben beide Folgen einen gemeinsamen Grenzwert x∗ ; in einer Umgebung vom Grenzwert liegen links nur Punkte mit negativen
4.4. STETIGKEIT UND GRENZWERTE VON FUNKTIONEN
147
Funktionswerten und rechts nur solche mit positiven Funktionswerten. Also muß f (x∗ ) = 0 sein. Wir bemerken noch, daß man den Test u = 0“ durch einen Genauigkeitstest, etwa von der Form ” max { |u|, y − x, f (y) + f (x) } < ε ersetzt. Satz 4..25 (Zwischenwerteigenschaft). Jede auf einem gegebenen Intervall [a, b] stetige Funktion f nimmt dort jeden zwischen f (a) und f (b) gelegenen Wert in mindestens einem Punkte an. Beweis. Es sei c ein beliebiger Wert zwischen f (a) und f (b); wir nehmen die Funktion ϕ(x) = f (x) − c. Diese Funktion ist stetig auf dem Intervall [a, b] und nimmt in den Endpunkten des Intervalls Werte mit unterschiedlichem Vorzeichen an. Mit der Nullstelleneigenschaft schließen wir, daß es ein x∗ mit 0 = ϕ(x∗ ) = f (x∗ ) − c gibt. Es sei erw¨ ahnt, daß auch die Menge aller auf einem Intervall definierten Funktionen, die die Zwischenwerteigenschaft haben, einen Vektorraum u ¨ber den reellen Zahlen bildet. Eine zentrale Bedeutung f¨ ur L¨ osung vieler angewandter Aufgaben hat der nun folgende Fixpunktsatz, den wir im Rn formulieren wollen. n Dazu sei X ⊂ = R und f eine Abbildung von X in sich. Ein Punkt aus der Menge X, der bei der Abbildung f auf sich abgebildet wird, heißt Fixpunkt von f . Ein Fixpunkt ist also durch die Gleichung f (x∗ ) = x∗ ,
x∗ ∈ X
charakterisiert. Eine Abbildung f von X in sich heißt kontrahierend auf X, wenn sich der Abstand von je zwei Punkten aus X bei der Abbildung gleichm¨aßig verkleinert, d. h. wenn es eine positive Zahl q < 1 gibt, so daß kf (x) − f (y)k < = qkx − yk
∀x, y ∈ X
gilt. Aus dieser Ungleichung schließt man, daß jede kontrahierende Abbildung stetig sein muß. Wir u ¨berlegen uns sogleich, daß eine kontrahierende Abbildung h¨ochstens einen Fixpunkt haben kann. Sind n¨ amlich x, y Fixpunkte von f , so folgt mit der Fixpunktgleichung und der Kontraktionsbedingung kx − yk = kf (x) − f (y)k < = qkx − yk, woraus wir wegen 0 < q < 1 sofort x = y schließen. Satz 4..26 (Fixpunktsatz). Jede auf einer abgeschlossenen Menge X kontrahierende Abbildung f mit einer Kontraktionskonstanten q hat genau einen Fixpunkt x∗ ∈ X. Dieser Fixpunkt ist Grenzwert der Folge (xk ), die gem¨ aß x0 ∈ X,
xk+1 = f (xk ), k = 0, 1, 2, . . .
konstruiert ist; außerdem gilt die Absch¨ atzung kxk − x∗ k < =
qk kx0 − x1 k. 1−q
148
KAPITEL 4. ANALYSIS
Beweis. Wir sch¨ atzen den Abstand von zwei aufeinander folgenden Gliedern ab: < kxk+1 − xk k = kf (xk ) − f (xk−1 )k < = qkxk − xk−1 k = · · ·
< =
q k kx1 − x0 k
und daher r kxk+r+1 − xk+r k < = q kxk+1 − xk k,
womit wir erhalten: kxk+r+1 − xk k < =
r X
kxk+i+1 − xk+i k < = kxk+1 − xk k
qi
i=0
i=0
< =
r X
kx1 − x0 kq k
r X
k
qi
< =
kx1 − x0 k
i=0
q ; 1−q
also ist (xk ) eine Fundamentalfolge, die nach dem Cauchyschen Konvergenzkriterium einen Grenzwert x∗ hat, der in der abgeschlossenen Menge X liegen muß. Mit der Stetigkeit von f folgt x∗ = lim xk+1 = lim f (xk ) = f (x∗ ), k→∞
k→∞
∗
d. h. x ist ein Fixpunkt von f . F¨ ur den Abstand des k-ten Folgegliedes vom Fixpunkt berechnen wir ∗ kx∗ − xk k < = kx − xk+r+1 k + kxk+r+1 − xk k r X ∗ < kx − x k + kx − x k qi = k+r+1 k+1 k i=0
und f¨ ur r → ∞: kx∗ − xk k < = kxk+1 − xk k
1 1−q
< =
kxk − xk−1 k
q 1−q
< =
···
< =
kx1 − x0 k
qk , 1−q
womit alles bewiesen ist. Die Bedeutung dieses Satzes liegt vor allem in seiner Konstruktivit¨at: Er beinhaltet nicht nur eine qualitative Aussage, sondern liefert gleichzeitg eine L¨osungsmethode nebst einer Genauigkeitsabsch¨atzung u aherung bei Abbruch des Verfahrens. ¨ber die erreichte N¨
4.5.
Folgen und Reihen von Funktionen
Ein wichtiges Anliegen der Analysis ist es, komplizierte Funktionen durch m¨oglichst einfache anzun¨ahern. Eine solche Ann¨ aherung muß die M¨oglichkeit einer verbesserten Ann¨aherung derart beinhalten, daß man eine beliebig genaue Ann¨aherung erreichen kann, sofern man nur hinreichend lange rechnet. F¨ ur dieses Ziel ist es sachgem¨aß, Folgen von Funktionen zu untersuchen. Wir betrachten eine Folge (fn ) von auf X ⊂ = R definierten Funktionen und sagen, daß die Folge (fn ) auf X konvergiert, wenn eine auf X definierte Funktion f , die Grenzfunktion, existiert mit f (x) = lim fn (x) ∀x ∈ X. n→∞
Beispiele. Die Folge (fn ) mit x n fn (x) = 1 + (x ∈ R) n
4.5. FOLGEN UND REIHEN VON FUNKTIONEN
149
hat als Grenzfunktion die Exponentialfunktion ex und ln x ist die Grenzfunktion der Funktionenfolge (ϕn ) mit √ ϕn (x) = n n x − 1 (x > 0). Sind die Glieder einer konvergenten Funktionenfolge s¨amtlich stetig, so braucht die Grenzfunktion f (x) nicht stetig zu sein, wie das folgende Beispiel zeigt: < 1 −nx + 1 f¨ ur 0 < = x = n . fn (x) = 1 0 f¨ ur x > n Es ist f (x) = lim fn (x) = n→∞
1 0
f¨ ur x = 0 . f¨ ur x > 0
Aus diesem Grunde brauchen wir einen neuen Begriff, der uns sichert, daß die Grenzfunktion einer Folge stetiger Funktionen stetig ist. Eine Folge (fn ) von auf einer Menge X ⊂ = R definierten Funktionen konvergiert gleichm¨ aßig gegen eine Funktion f , wenn es zu jedem ε > 0 ein n0 (ε) gibt, so daß |f (x) − fn (x)| < ε
∀x ∈ X, ∀n > = n0 (ε)
ausf¨allt. Wesentlich an diesem Begriff ist es, daß die Zahl n0 (ε) nur von ε und nicht noch von x abh¨angt. Inhaltlich besagt diese Definition, daß zu beliebig vorgegebenem ε > 0 ab einem gewissen Index n0 alle Funktionen fn in einem ε-Schlauch um die Grenzfunktion verlaufen. So konvergiert die obige Folge nicht gleichm¨ aßig. Um dies einzusehen, setzen wir ε = 1 und nehmen die Folge 1 (xn ) = ( 2n ); es ist 1 1 |f (xn ) − fn (xn )| = |0 − | = 2 2
> =
ε.
Betrachten wir dagegen fn (x) =
n X cos kx
k=1
k2
und w¨ahlen ε > 0 beliebig; da die Reihe
P∞
1 n=1 n2
konvergiert existiert ein n0 (ε) mit
1 1 + + · · · < ε ∀n > = n0 (ε). (n + 1)2 (n + 2)2 Damit folgt aber |
∞ X cos kx
k=1
k2
− fn (x)| = |
∞ X cos kx < |= k2
k=n+1
∞ X
k=n+1
1 < ε. k2
Satz 4..27. (Satz u ¨ ber die stetige Grenzfunktion) Jede auf einer Menge X gleichm¨ aßig konvergierende Folge (fn ) stetiger Funktionen hat eine stetige Grenzfunktion.
150
KAPITEL 4. ANALYSIS
Beweis. Es seien (fn ) eine auf X gleichm¨ aßig konvergente Folge stetiger Funktionen mit der Grenzfunktion f und y ∈ X; zu ε > 0 sei n0 ( 3ε ) so gew¨ahlt, daß |fn (x) − f (x)|
= n0 ( ) 3
ε gilt. Wir fixieren ein beliebiges n > = n0 ( 3 ). Zu derart, daß
|fn (x) − fn (y)|
0
∀x ∈ X, |x − y| < η.
F¨ ur diese x folgt: |f (x) − f (y)| < = |fn (x) − f (x)| + |fn (x) − fn (y)| + |fn (y) − f (y)| ε ε ε < + + = ε, 3 3 3 was uns zeigt, daß die Grenzfunktion stetig ist. Wir sagen, daß eine Funktionenreihe s mit s(x) =
∞ X
fn (x)
n=0
gleichm¨ aßig konvergiert, wenn die zugeordnete Partialsummenfolge (sn ) gleichm¨aßig konvergiert. Satz 4..28. (Kriterium von Weierstraß) Wenn f¨ ur eine Funktionenfolge (fn ) eine Absch¨ atzung der Form |fn (x)| < = an
∀x ∈ X P∞ gilt und die Reihe n=0 an konvergiert, dann konvergiert die Funktionenreihe s mit s(x) =
∞ X
fn (x)
n=0
gleichm¨ aßig. Beweis. Es sei sn (x) =
n X
fk (x);
k=0
dann ist |sn+m (x) − sn (x)| < = an+1 + an+2 + · · · + an+m . P∞ Da die Reihe n=0 an konvergiert, ist die Folge (sn (x)) eine Fundamentalfolge und nach dem Cauchyschen Konvergenzkriterium existert eine Grenzfunktion s mit s(x) = lim sn (x). n→∞
Bei beliebig fixiertem ε > 0 gibt es ein n0 (ε) mit an+1 + an+2 + · · · < ε ∀n > = n0 (ε),
4.6. EINDIMENSIONALE DIFFERENTIALRECHNUNG
151
also > |s(x) − sn (x)| < = an+1 + an+2 + · · · < ε ∀n = n0 (ε), ∀x ∈ X, P∞ d. h. die Reihe n=0 fn (x) konvergiert gleichm¨aßig. Beispiel. F¨ ur die Reihe
s(x) =
∞ X xn n2 n=1
(|x| < 1)
folgt wegen n x < 1 = n2 n2
mit dem Majorantenkriterium, daß die Reihe gleichm¨aßig konvergiert; da alle Glieder stetige Funktionen sind, folgt weiter, daß die Reihe eine stetige Funktion darstellt.
4.6.
Eindimensionale Differentialrechnung
4.6.1.
Differenzierbarkeit
Eine auf einer Menge X ⊂ = R definierte reellwertige Funktion f heißt an einer Stelle a ∈ int (X) differenzierbar (ableitbar), wenn die Funktion ϕ mit ϕ(h) =
f (a + h) − f (a) h
an der Stelle 0 (d. h. f¨ ur h = 0) einen endlichen Grenzwert hat. Dieser Grenzwert wird mit f 0 (a) bezeichnet und heißt Ableitung (Differentialquotient) der Funktion f an der Stelle a. Andere u ur die Ableitung sind: ¨bliche Schreibweisen f¨ f 0 (a) = lim
h→0
f (a + h) − f (a) h
und mit x = a + h: f 0 (a) = lim
x→a
f (x) − f (a) . x−a
An dieser Stelle f¨ uhren wir zwei sehr zweckm¨aßige Hilfsmittel der Analysis ein, die LandauSymbole. Es seien ϕ, ψ zwei auf einer Menge X definierte Funktionen mit ψ(x) 6= 0 auf X. Falls es Zahlen L > 0 und η > 0 gibt, so daß die Ungleichung ϕ(x) < ψ(x) = L ∀x ∈ X, |x − a| < η, x 6= a
gilt, nennt man ϕ eine O(ψ)-Funktion f¨ ur x gegen a und schreibt ϕ(x) = O(ψ(x)). Sollte sogar zu jedem L > 0 ein η > 0 existieren, so daß die obige Ungleichung gilt, so schreibt man ϕ(x) = O(ψ(x)) und nennt ϕ eine O(ψ)-Funktion f¨ ur x gegen a. Meist verwendet man Landau-Symbole, um das Verhalten einer Funktion ϕ f¨ ur x → 0 oder x → ∞ abzusch¨atzen, so daß als Vergleichsfunktion ψ oft eine Funktion der Form ψ(x) = xr benutzt wird. Insbesondere bedeutet die Schreibweise ϕ(x) = O(1), daß die Funktion ϕ in einer Umgebung des Nullpunktes beschr¨ankt ist. Leicht sieht
152
KAPITEL 4. ANALYSIS
man ein, daß die Summe zweier O-Funktionen wieder eine O-Funktion ist; gleiches gilt f¨ ur die Summe zweier O-Funktionen. Wegen lim
h→0
f (a + h) − f (a) − f 0 (a) = 0 h
gilt damit f (a + h) − f (a) − f 0 (a) = O(h) h und wir erhalten f (a + h) = f (a) + h · f 0 (a) + h · O(h) mit limh→0 O(h) = 0. Wegen h·O(h) = O(h) ergibt sich die Weierstraßsche Zerlegungsformel: f (a + h) = f (a) + h · f 0 (a) + O(h) mit lim
h→0
O(h)
h
= 0.
In erster N¨aherung gilt also f (a + h) ≈ f (a) + h · f 0 (a). Ist die Funktion f in jedem Punkte x ∈ int (X) differenzierbar, so heißt f differenzierbar in X; mit f 0 bezeichnet man die Ableitungsfunktion: f (x + h) − f (x) . h→0 h
f 0 (x) = lim
Sollte die Ableitung f 0 stetig in X sein, so heißt die Funktion f stetig differenzierbar. Beispiele. 1. F¨ ur die Funktion f mit f (x) = x2 erhalten wir: f (x) − f (a) x2 − a2 = lim = lim x + a = 2a. x→a x→a x − a x→a x−a lim
Also ist die Funktion in R differenzierbar und hat die Ableitung 2x. 2. F¨ ur die Funktion f mit f (x) = |x| ergibt sich mit a 6= 0 wegen |x| = x · sgn (x): lim
x→a
|x| − |a| x · sgn (x) − a · sgn (a) = lim x→a x−a x−a x−a = lim sgn (a) · = sgn (a) , x→a x−a
also 0
f (x) =
1 x>0 . −1 x < 0
F¨ ur a = 0 gilt f¨ ur den Differenzenquotienten: |x| − 0 = sgn (x) . x−0
4.6. EINDIMENSIONALE DIFFERENTIALRECHNUNG
153
Somit ist die Funktion in R \ {0} differenzierbar, aber nicht in x = 0, dort aber stetig. Wenn die einseitigen Grenzwerte lim
h→0 h>0
f (a + h) − f (a) , h
f (a + h) − f (a) h
lim
h→0 h 0).
Beweis. Wir bemerken zun¨ achst, daß mit eh = x aus dem letzten Beispiel wegen h e −1 ln x · =1 h x−1 der Grenzwert ln x =1 x→1 x − 1 lim
folgt. Damit schließen wir f¨ ur a > 0: ln x ln x − ln a 1 1 ln x 1 = lim x a = lim = , x→a x−a a x→a a − 1 a x→1 x − 1 a lim
womit die Behauptung bewiesen ist. 5. Es ist (sin x)0 = cos x,
(cos x)0 = − sin x.
Beweis. Wir verwenden das aus der Schule bekannte Additionstheorem x+y x−y sin x − sin y = 2 cos sin 2 2 und die Grenzwertformel lim
x→0
sin x = 1. x
die letzte Formel folgt mit dem Majorantenkriterium aus der Absch¨atzung sin x < x2 x5 1 1 2 2 x − 1 = 3! + 5! + · · · < x 1 + 1! + 2! + · · · = x e. Damit erh¨alt man
sin h sin(x + h) − sin x h lim = lim cos x + · h 2 = cos x. h→0 h→0 h 2 2 Der Beweis f¨ ur cos x verl¨ auft analog.
4.6. EINDIMENSIONALE DIFFERENTIALRECHNUNG
4.6.2.
155
Eigenschaften differenzierbarer Funktionen
Aus der Definition stetiger Funktionen ergibt sich sofort, daß differenzierbare Funktionen stetig sind; aber nicht jede stetige Funktion ist auch diffenrenzierbar, wie wir bereits an einem Beispiel gesehen haben. Zun¨ achst stellen wir einige wichtige Rechenregeln f¨ ur differenzierbare Funktionen zusammen. Satz 4..29 (Rechenregeln). Die Menge C 1 (X) aller auf einer Menge X differenzierbaren Funktionen bildet einen Vektorraum u orper der reellen Zahlen. Außerdem gelten die folgenden ¨ber dem K¨ Regeln. Produktregel: (f (x) · g(x))0 = f 0 (x)g(x) + f (x)g 0 (x) Quotientenregel: 0 f (x) f 0 (x)g(x) − f (x)g 0 (x) = g(x) g 2 (x)
∀x ∈ X.
(g(x) 6= 0)
∀x ∈ X.
Umkehrregel : Ist g die Umkehrfunktion von f und (g 0 ◦ f )(x) 6= 0, so gilt f 0 (x) =
1 . g 0 (f (x))
Kettenregel: (f ◦ g)0 (x) = f 0 (g(x))g 0 (x) oder als Merkregel mit z = f (y), y = g(x): dz dz dy = . dx dy dx Beweis. Die Produktregel erh¨ alt man aus der folgenden Grenzwertbetrachtung: lim
h→0
f (x + h)g(x + h) − f (x)g(x) f (x + h) − f (x) = lim g(x + h) h→0 h h g(x + h) − g(x) + lim f (x) h→0 h 0 = f (x)g(x) + f (x)g 0 (x).
In der Quotientenregel ist g(x) 6= 0; also existert ein η > 0, so daß f¨ ur alle h mit |h| < η ebenfalls g(x + h) 6= 0 ausf¨ allt. F¨ ur solche h schließen wir: 1 f (x + h) f (x) lim − h→0 h g(x + h) g(x) = lim
f (x + h)g(x) − f (x)g(x + h) hg(x + h)g(x)
= lim
1 f (x + h)g(x) − f (x)g(x + h) · g(x + h)g(x) h
h→0
h→0
156
KAPITEL 4. ANALYSIS
f (x + h) − f (x) g(x + h) − g(x) g(x) − f (x) h h
=
1 lim 2 g (x) h→0
=
1 (f 0 (x)g(x) − f (x)g 0 (x)) . g 2 (x)
F¨ ur die Umkehrregel verwenden wir die Weierstraßsche Zerlegungsformel: x − a = g(f (x)) − g(f (a)) = (f (x) − f (a))(g 0 (f (a)) + o(f (x) − f (a))) und erhalten lim
x→a
f (x) − f (a) 1 1 = lim 0 = 0 . x→a g (f (a)) + o(f (x) − f (a)) x−a g (f (a))
F¨ ur die Kettenregel verwenden wir die Weierstraßsche Zerlegungsformel in der Form f (g(x)) − f (g(a)) = (g(x) − g(a)) · (f 0 (g(a)) + o(g(x) − g(a))) und folgern lim
x→a
f (g(x)) − f (g(a)) = g 0 (a)f 0 (g(a)), x−a
wobei die Ableitung von f an der Stelle g(a) zu nehmen ist. Beispiele. Wir wollen einige Regeln auf bekannte elementare Funktionen anwenden: 0 sin x cos2 x + sin2 x 0 (tan x) = = cos x cos2 x 1 = = 1 + tan2 x. cos2 x Analog berechnet man (cot x)0 = −
1 = −(1 + cot2 x). sin2 x
F¨ ur die Umkehrfunktion y = arctan x (x ∈ R) zu x = tan y mit y ∈ [− π2 , π2 ] folgt daraus (arctan x)0 =
1 1 = 1 + x2 1 + tan2 (arctan x)
und analog (arccot x)0 = −
1 . 1 + x2
Entsprechend ergibt sich f¨ ur |x| < 1 (arcsin x)0 =
1 1 =√ cos(arcsin x) 1 − x2
und analog (arccos x)0 = − √
1 . 1 − x2
4.6. EINDIMENSIONALE DIFFERENTIALRECHNUNG
157
Als Ableitung f¨ ur die Funktion y = ax folgt wegen ax = ex·ln a mit f (y) = ey , y = g(x) = x · ln a: 0
(ax ) = (f (g(x)))0 = g 0 (x) · f 0 (g(x)) = ey ln a = ax ln a. Schließlich erhalten wir aus xα = eα·ln x f¨ ur x > 0: α 0 0 (xα ) = eα·ln x = xα = α · xα−1 . x Die wichtigsten Eigenschaften differenzierbarer Funktionen sollen nun bewiesen werden. Satz 4..30 (Satz von Rolle). Zwischen zwei Nullstellen einer gegebenen, differenzierbaren Funktion liegt eine Nullstelle der Ableitung. Beweis. Es sei f eine differenzierbare Funktion auf dem Intervall [a, b], a < b und f (a) = f (b) = 0. Da die Funktion f stetig auf dem Intervall ist, nimmt sie ihren maximalen Wert in einem Punkte x∗ ∈ [a, b] an; dabei muß offenbar f (x∗ ) > alle. = 0 sein. Wir unterscheiden nun zwei F¨ Fall 1: Es sei f (x∗ ) > 0; dann ist a < x∗ < b und f¨ ur beliebige, aber kleine h gilt stets f (x∗ + h) − f (x∗ ) < = 0. Damit wird das Vorzeichen des Differenzenquotienten f (x∗ + h) − f (x∗ ) h ausschließlich vom Vorzeichen von h bestimmt: f (x∗ + h) − f (x∗ ) h
< =
0 ∀h > 0, a < x∗ + h < b
f (x∗ + h) − f (x∗ ) h
> =
0 ∀h < 0, a < x∗ + h < b.
und
Aus der ersten Ungleichung folgt f 0 (x∗ ) = lim
h→0+
f (x∗ + h) − f (x∗ ) h
< =
0
f (x∗ + h) − f (x∗ ) h
> =
0,
und aus der zweiten f 0 (x∗ ) = lim
h→0−
was zusammen f 0 (x∗ ) = 0 ergibt. Fall 2: Es sei f (x∗ ) = 0. Ist auch der minimale Wert von f auf [a, b] gleich Null, so ist f (x) = 0 f¨ ur alle x ∈ [a, b] und damit auch f 0 (x) = 0 f¨ ur alle x ∈ [a, b]. Andernfalls wenden wir auf −f den Fall 1 an. Der Beweis des Satzes ¨ andert sich nicht, wenn wir die gegebene Funktion um eine Konstante ab¨andern. Damit k¨ onnen wir den Satz auch so aussprechen: Wenn eine differenzierbare Funktion in zwei Punkten den gleichen Funktionswert hat, so hat ihre Ableitung zwischen diesen Punkten eine Nullstelle. In dieser Form werden wir den Satz auch anwenden.
158
KAPITEL 4. ANALYSIS
Satz 4..31. (Mittelwertsatz der Differentialrechnung) Ist die gegebene Funktion f im abgeschlossenen Intervall [a, b] differenzierbar, so existiert zu je zwei Punkten α, β ∈ [a, b], α < β ein ξ ∈ (α, β) mit f 0 (ξ) =
f (β) − f (α) . β−α
Beweis. Wir verwenden die Hilfsfunktion f (β) − f (α) (x − α) . g(x) = f (x) − f (α) + β−α Es ist g(α) = 0 = g(β); nach dem Satz von Rolle existiert ein ξ ∈ (α, β) mit 0 = g 0 (ξ) = f 0 (ξ) −
f (β) − f (α) , β−α
was gerade die Behauptung des Satzes darstellt. Der Mittelwertsatz wird oft in der folgenden Fassung angewendet: Ist die Funktion f im Intervall [x − h, x + h] differenzierbar, so existiert eine Zahl %, % ∈ [0, 1] mit f (x + h) = f (x) + h · f 0 (x + %h). Setzt man h = y − x, so kann man dies auch in der Form f 0 (x + %(y − x)) =
f (y) − f (x) y−x
schreiben, was anschaulich im Sinne der Schulmathematik bedeutet: Der Tangentenanstieg im Punkte x + %(y − x) an den Graphen der Funktion f ist gleich dem Anstieg der Sekante, die durch die Punkte x und y bestimmt ist. Satz 4..32 (Verallgemeinerter Mittelwertsatz). Sind die Funktionen f und g im Intervall (a, b) differenzierbar, auf dem abgeschlossenen Intervall [a, b] stetig und gilt g 0 (x) 6= 0 f¨ ur alle x ∈ (a, b), so existiert ein ξ ∈ (a, b) mit f (b) − f (a) f 0 (ξ) = 0 . g(b) − g(a) g (ξ) Beweis. Zun¨achst erkennen wir, daß die Funktion g in den Endpunkten a, b des Intervalls verschiedene Werte annehmen muß. W¨ aren diese Werte gleich, so h¨atte nach dem Satz von Rolle die Ableitung im Intervall eine Nullstelle, was aber nach Voraussetzung ausgeschlossen ist. Wir nehmen die Hilfsfunktion ϕ(x) = f (x) − λg(x) und w¨ahlen den Parameter λ so, daß ϕ(a) = ϕ(b) ausf¨allt; dies f¨ uhrt uns zu λ=
f (b) − f (a) . g(b) − g(a)
Nach dem Satz von Rolle existiert dann ein ξ ∈ (a, b) mit der Eigenschaft 0 = ϕ0 (ξ) = f 0 (ξ) − λg 0 (ξ) = f 0 (ξ) −
f (b) − f (a) 0 g (ξ), g(b) − g(a)
was nach Umstellung mit der Behauptung des Satzes u ¨bereinstimmt. Wir wissen bereits, daß die Ableitung einer Funktion nicht notwendigerweise stetig sein muß; wohl aber hat sie die Zwischenwerteigenschaft.
4.6. EINDIMENSIONALE DIFFERENTIALRECHNUNG
159
Satz 4..33 (Zwischenwertsatz). Die Ableitung einer im abgeschlossenen Intervall [a, b] differenzierbaren Funktion f nimmt jeden Wert zwischen f 0 (a) und f 0 (b) im Intervall an. Beweis. F¨ ur diesen Satz verwenden wir die beiden Hilfsfunktionen f (x) − f (a) a < x < b = x−a ϕ(x) = 0 f (a) x = a, f (b) − f (x) x−a ψ(x) = 0 f (b)
a< = x 0, so h¨atte die Ableitung nach dem Zwischenwertsatz eine Nullstelle, was aber der Voraussetzung widerspricht. Es sei etwa f 0 (x) > 0 f¨ ur alle x ∈ [a, b]; mit dem Mittelwertsatz folgt daraus f¨ ur h > 0: f (x + h) − f (x) = h · f 0 (x + %h) > 0, was bedeutet, daß die Funktion streng monoton w¨achst. ¨ Als Ubung kann man sich u ¨berlegen, ob auch die Umkehrung dieses Satzes gilt.
4.6.3.
Taylor-Entwicklung
Ein wichtiges Problem f¨ ur die Analysis ist es, f¨ ur mehr oder weniger komplizierte Funktionen geeignete N¨aherungsformeln zu entwickeln. Die mittels dieser N¨aherungsformeln berechneten Werte sollen dann anstelle der Funktionswerte verwendet werden. Dieses Problem hat zwei Aspekte: Zum einen sollten die N¨ aherungswerte einfacher“ zu berechnen sein, was etwa durch eine geringere ” Anzahl von Rechenoperationen gemessen werden kann. Zum anderen sollten nur solche Rechenoperationen verwendet werden, die sich auch auf einem Rechner ausf¨ uhren lassen. F¨ ur Funktionen, von denen man weiß, daß sie mehrfach differenzierbar sind und von denen die mehrfachen Ableitungen in einem vorgegebenen Punkt vorliegen, kann man leicht N¨aherungsformeln aufstellen. Die Ann¨aherung einer Funktion durch ihre Ableitungswerte in einem Punkte gelingt exakt bei Polynomen n-ten Grades. Wenn wir n¨ amlich ein Polynom n-ten Grades P (x) = an xn + an−1 xn−1 + · · · + a1 x + a0 wiederholt ableiten, erhalten wir P 0 (x) = n · an xn−1 + (n − 1)an−1 xn−2 + · · · + 2a2 x + a1 , P 00 (x) = n(n − 1)an xn−2 + · · · + 2 · 1 · a2 .. . P (n) (x) = n(n − 1)(n − 2) · · · 2 · 1 · an = n!an , P (k) (x) ≡ 0,
k > n.
Aus P (0) = a0
P 0 (0) = 1 · a1 ,
P 00 (0) = 2!a2 , . . . , P (n) (0) = n!an
folgt mit P (0) (x) = P (x) aj =
P (j) (0) , j!
j = 0, 1, . . . , n
und wir k¨onnen das Polynom P formal wie folgt darstellen: P (x) = P (0) +
P 0 (0) P 00 (0) 2 P (n) (0) n x+ x + ··· + x . 1! 2! n!
Analog folgt in einem beliebigen Punkt a: P (x) = P (a) +
P 0 (a) P 00 (a) P (n) (a) (x − a) + (x − a)2 + · · · + (x − a)n . 1! 2! n!
4.6. EINDIMENSIONALE DIFFERENTIALRECHNUNG
161
Es sei die Funktion f in einer Umgebung eines Punktes a mindestens (n + 1)-mal stetig differenzierbar und Pn (x) = f (a) +
f 0 (a) f 00 (a) f (n) (a) (x − a) + (x − a)2 + · · · + (x − a)n . 1! 2! n!
Nach der obigen Darstellung eines Polynoms gilt dann P (j) (a) = f (j) (a),
j = 0, 1, . . . , n.
Das Polynom Pn kann als N¨ aherungspolynom f¨ ur die Funktion f an der Stelle a genommen werden. Die G¨ ute der N¨ aherung wird durch das Restglied Rn+1 = f (x) − Pn (x) bestimmt, so daß f (x) = Pn (x) + Rn+1 (a, x) gilt. F¨ ur das Restglied kann man verschiedene Darstellungen w¨ahlen. Das Restglied nach Lagrange erh¨ alt man aus dem Mittelwertsatz: Rn+1 (a, x) =
f (n+1) (a + %(x − a)) (x − a)n+1 . (n + 1)!
Setzt man x − a = h, so erh¨ alt man daraus f (a + h) = f (a) +
f 0 (a) f 00 (a) 2 f (n) (a) n f (n+1) (a + %h) n+1 h+ h + ··· + h + h . 1! 2! n! (n + 1)!
Diese Formel nennt man Taylor-Entwicklung der Funktion f an der Stelle a. Das Restglied nach Cauchy lautet Rn+1 (a, x) =
f (n+1) (a + %(x − a)) (x − a)n+1 (1 − %)n . n!
Beispiel. Wir betrachten f¨ ur x > −1 und reelles α die Funktion f (x) = (1 + x)α und erhalten als n-te Ableitung: α f (n) (x) = α(α − 1) · · · (α − n + 1)(1 + x)α−n = n! (1 + x)α−n . n Somit gilt die folgende Darstellung der Funktion in einer Umgebung von x = 0: α α n α (1 + x) = 1 + x + ··· + x + Rn+1 (x). 1 n Wie groß die Umgebung des Nullpunktes gew¨ahlt werden darf, zeigt eine genauere Untersuchung des Restgliedes nach Cauchy α Rn+1 (x) = (n + 1)xn+1 (1 + %x)α−n−1 (1 − %)n . n+1
162
KAPITEL 4. ANALYSIS
Die ersten drei Faktoren fassen wir zusammen α an = nxn n und wenden das Quotientenkriterium an: an+1 = |x| α − n n + 1 = |x| α − n . n+1 n n an
Dies zeigt uns, daß das Quotientenkriterium erf¨ ullt ist, falls |x| < 1 gilt. F¨ ur den Restfaktor im Restglied erhalten wir wegen % ∈ (0, 1) f¨ ur |x| < 1: n 1−% α−n−1 n (1 + %x) (1 − %) = (1 + %x)α−1 < (1 + %x)α−1 1 + %x α−1 2 f¨ ur α> = 1 < . = α−1 (1 − |x|) f¨ urα < 1 Damit haben wir gezeigt, daß die Reihe ∞ X α
n=0
n
xn
f¨ ur alle x mit |x| < 1 absolut konvergiert und dort mit der Funktion (1 + x)α u ¨bereinstimmt: (1 + x)α =
∞ X α
n=0
n
xn ,
|x| < 1.
Nehmen wir nun den Spezialfall α = 12 . Dann liefert die abgeleitete Formel f¨ ur |x| < 1: √
1 1 2 1·3 3 3 · . . . · (2n − 3) n 1+x=1+ x− x + x ∓ · · · + (−1)n−1 x + ··· . 2 2·4 2·4·6 2 · 4 · . . . · (2n) √ Insbesondere wird die Funktion 1 + x f¨ ur kleine |x| durch die lineare Funktion 1 + 12 x oder durch 1 1 2 die quadratische Funktion 1 + 2 x − 8 x angen¨ahert.
4.6.4.
Extremwerte
Wir sagen, daß eine auf einer gegebenen Menge X definierte Funktion im Punkte a ∈ X ein lokales Maximum hat, wenn es eine ε-Umgebung Uε (a) von a gibt mit f (x) < ur alle x ∈ X ∩ Uε (a) = f (a) f¨ gilt. Dabei sprechen wir im Falle X ⊂ = Uε (a) von einem Maximum schlechthin. Gilt die Gleichheit nur f¨ ur x = a, so sprechen wir von einem strengen (lokalen) Maximum. Die Funktion f hat in a ∈ X genau dann ein lokales Minimum, wenn −f in a ein lokales Maximum hat. Als Oberbegriff f¨ ur Maximum und Minimum verwendet man den Begriff Extremum bzw. Extremwert. Schließlich sprechen wir bei einer in a differenzierbaren Funktion f von einem Wendepunkt, wenn ein ε > 0 existiert mit entweder
f (x) − f (a) f (x) − f (a) > f 0 (a) oder < f 0 (a) ∀x : |x − a| < ε. x−a x−a
F¨ ur das Vorhandensein von Extrema und Wendepunkten kann man bei differenzierbaren Funktionen Bedingungen angeben.
4.6. EINDIMENSIONALE DIFFERENTIALRECHNUNG
163
Satz 4..36. Hat die in X differenzierbare Funktion f in a ∈ int (X) ein lokales Extremum, so gilt f 0 (a) = 0. Beweis. Wir brauchen diese Bedingung nur f¨ ur ein Minimum zu beweisen. Es sei f (x) > = f (a) ∀x ∈ Uε (a). F¨ ur kleine positive h gilt dann f (a + h) − f (a) h
> =
0
und f¨ ur kleine negative h f (a + h) − f (a) h
< =
0,
< 0 woraus wir beim Grenz¨ ubergang im ersten Falle f 0 (a) > = 0 und im zweiten Falle f (a) = 0 erhalten, was zusammen die Behauptung liefert.
Satz 4..37. Wenn ein ε > 0 existiert mit f 0 (x) · f 0 (y) < 0
∀x, y : a − ε < = x 1), in einem inneren Punkte a aus X m¨ ogen die ersten m − 1 Ableitungen verschwinden, nicht aber die m-te Ableitung, d. h. f 0 (a) = 0, f 00 (a) = 0, . . . , f (m−1) (a) = 0, f (m) (a) 6= 0. F¨ ur die Funktion f liegt im Punkte a genau dann ein Wendepunkt vor, wenn m ungerade ist. Ist die Zahl m gerade, so ist a im Falle f (m) (a) > 0 eine lokale Minimumstelle und im Falle f (m) (a) < 0 eine lokale Maximumstelle. Beweis. Unter den gemachten Voraussetzungen lautet die Taylor-Entwicklung von f an der Stelle a: f (x) = f (a) +
f (m) (a − %(x − a)) (x − a)m . m!
Da die Funktion f (m) stetig ist und f (m) (a) 6= 0 gilt, existiert eine Umgebung Uε (a) mit f (m) (x) 6= 0 ∀x ∈ Uε (a); also hat f (m) in Uε (a) einheitliches Vorzeichen. Damit folgt: Die Funktion f hat in a genau dann ein lokales Extremum, wenn f 0 (a) = 0 und m eine gerade Zahl ist; im Falle f (m) (a) > 0 liegt ein lokales Minimum, im Falle f (m) (a) < 0 ein lokales Maximum vor. Die Funktion f hat in a genau dann einen Wendepunkt, wenn m > 1 und ungerade ist.
4.6.5.
Grenzwertbestimmung
Mit Hilfe der Differentialrechnung lassen sich Grenzwerte von Quotienten differenzierbarer Funktionen berechnen. Wir geben hier zwei M¨ oglichkeiten an; andere lassen sich auf diese zur¨ uckf¨ uhren. Satz 4..40 (Regel von de l’Hospital (1691)). Falls lim f (x) = lim ϕ(x) = 0
x→a
x→a
gilt und der eigentliche oder uneigentliche Grenzwert f 0 (x) x→a ϕ0 (x) lim
existiert, dann gilt f (x) f 0 (x) = lim 0 . x→a ϕ(x) x→a ϕ (x) lim
Beweis. Wir definieren zwei Hilfsfunktionen: f (x) x 6= a ϕ(x) x 6= a F (x) = , Φ(x) = 0 x=a 0 x=a und erhalten mit dem verallgemeinerten Mittelwertsatz f (x) F (x) − F (a) F 0 (ξ) = = 0 , ϕ(x) Φ(x) − Φ(a) Φ (ξ)
a < ξ < x bzw. x < ξ < a.
Durch Grenz¨ ubergang x → a folgt die Behauptung. Ganz a¨hnlich beweist man auch den n¨ achsten Satz.
4.6. EINDIMENSIONALE DIFFERENTIALRECHNUNG
165
Satz 4..41. Falls lim f (x) = lim ϕ(x) = ∞
x→a
x→a
gilt und der eigentliche oder uneigentliche Grenzwert f 0 (x) x→a ϕ0 (x)
(ϕ0 (x) 6= 0)
lim
existiert, dann gilt f (x) f 0 (x) = lim 0 . x→a ϕ(x) x→a ϕ (x) lim
Beispiele. So folgt etwa lim
x→0
sin x cos x = lim = 1. x→0 x 1
Man darf die Regeln nat¨ urlich auch mehrfach hintereinander anwenden: lim
x→0+
ln x = lim cot x x→0+
1 x −1 sin2 x
= lim − x→0+
= lim − x→0+
sin2 x x
2 sin x cos x = 0. 1
Durch die Regel von de l’Hospital wird einem unbestimmten Ausdruck der Form 00 bzw. ∞ ∞ mittels Ableiten in Z¨ ahler und Nenner ein Wert zugeordnet. Andere unbestimmte Ausdr¨ ucke sind 0·∞, ∞− ∞, 00 , 1∞ , die beim Produkt, bei der Differenz bzw. beim Potenzieren auftreten k¨onnen. Den Fall f (x) · ϕ(x) u uhrt man in einen der beiden obigen, indem man ¨berf¨ ϕ(x) =
1 h(x)
setzt. Mittels der Transformation f (x) − ϕ(x) =
1 ϕ(x)
−
1 f (x)
1 f (x)·ϕ(x)
wird der Fall ∞ − ∞ in den Fall
0 0
u uhrt. Im Fall f (x) > 0 kann man wegen ¨berf¨
f (x)ϕ(x) = eϕ(x)·ln f (x) den Grenzwert der Funktion ϕ(x) · ln f (x) berechnen. Zu diesem Fall sei ein Beispiel gegeben: lim
x→0+
x 2 x +1
x
x = exp lim x · ln 2 = exp x→0+ x +1 2 21 − x = exp lim −x = 1. x→0+ 1 + x2
lim
x→0+
1−x2 1+x2 − x12
!
166
KAPITEL 4. ANALYSIS
4.6.6.
Potenzreihen
Eine unendliche Reihe der Form ∞ X
cn (x − a)n
n=0
heißt Potenzreihe an der Stelle a. Eine solche Reihe kann f¨ ur gewisse Werte der Variablen x konvergieren, f¨ ur andere nicht. Es sei X die Menge aller x ∈ R, f¨ ur die die Reihe konvergiert. Die Menge X ist offenbar nicht leer, denn es ist a ∈ X. Eine Funktion f , deren Funktionswerte in einer Umgebung von a durch eine Potenzreihe berechnet werden k¨onnen, nennen wir analytisch in a; falls die Funktion diese Eigenschaft in jedem Punkte ihres Definitionsbereiches hat, heißt sie schlechthin analytisch. So sind ex , sin x, cos x analytische Funktionen. Die Funktionswerte von analytischen Funktionen k¨ onnen durch die Glieder der Partialsummenfolge beliebig genau angehn¨ahert werden und sind daher durch elementare Operationen beliebig genau berechenbar. Dies ist der wesentliche Unterschied zur Taylor-Entwicklung: Bei der Taylor-Entwicklung bleibt ein Restglied, das wesentlich sein kann. Wir stellen die wichtigsten Eigenschaften zusammen. Satz 4..42 (Konvergenzkreis). Zu jeder Potenzreihe ∞ X
cn (x − a)n
n=0 < gibt es genau ein R, 0 < ur alle x mit |x−a| < R die Potenzreihe absolut konvergiert = R = ∞ so, daß f¨ und f¨ ur alle x mit |x − a| > R divergiert.
Beweis. Es sei L = lim sup n→∞
p n
|cn |,
R=
0
1 L
∞
L = ∞, 0 < L < ∞, . L=0
F¨ ur x = a konvergiert die Reihe; f¨ ur x 6= a konvergiert die Reihe nach dem Wurzelkriterium, wenn p lim sup n |cn (x − a)n | = |x − a| · L < 1 ausf¨allt und divergiert, falls p lim sup n |cn (x − a)n | = |x − a| · L > 1 gilt. Im Falle R = 0, d. h. L = ∞ divergiert die Reihe f¨ ur x 6= a. Bei R = ∞, d. h. L = 0 konvergiert die Reihe absolut f¨ ur alle x. Ist nun 0 < R < ∞, so konvergiert die Reihe absolut, falls |x − a| < R; im Falle |x − a| > R divergiert die Reihe. Die Menge { x | |x − a| < R } heißt Konvergenzkreis der Potenzreihe; a ist der Mittelpunkt und R sein Radius. Satz 4..43. Eine Potenzreihe konvergiert gleichm¨ aßig in jedem abgeschlossenen, beschr¨ ankten Bereich X, der vollst¨ andig im Konvergenzkreis liegt. Beweis. EsPsei X eine beschr¨ ankte, abgeschlossene Menge, die ganz im Konvergenzkreis der Po∞ n tenzreihe c (x − a) liegen m¨ oge. Die Betragsfunktion nimmt als stetige Funktion ihren n n=0 maximalen Wert auf X an: r = max { |x − a| | x ∈ X } .
4.6. EINDIMENSIONALE DIFFERENTIALRECHNUNG P∞
Offenbar gilt r < R; also konvergiert die Reihe n |cn (x − a)n | < = |cn |r
n=0
167
|cn |rn . Wegen
∀x ∈ X
konvergiert die vorgegebene Reihe gleichm¨aßig. P∞ Satz 4..44. Hat die Potenzreihe n=0 cn (x − a)n den Konvergenzkreis-Radius R, so stellt sie in |x − a| < R eine Funktion dar, die dort beliebig oft differenzierbar ist und deren Ableitungen durch gliedweises Differenzieren gewonnen werden k¨ onnen. Aus f (x) =
∞ X
cn (x − a)n ,
|x − a| < r
n=0
folgt f¨ ur die l-te Ableitung f
(l)
(x) = l!
∞ X n
l
n=l
cn (x − a)n−l ,
l = 0, 1, 2, . . . .
Beweis. Wir brauchen offenbar nur die Formel f¨ ur die l-te Ableitung zu beweisen. Dies soll durch vollst¨andige Induktion u ur l = 0 ist nichts zu beweisen. Die Induktionsvoraus¨ber l geschehen. F¨ setzung lautet f
(l)
∞ X n (x) = l!cl + l! cn (x − a)n−l . l n=l+1
F¨ ur die (l + 1)-te Ableitung erhalten wir daraus: ∞ X
n (n − l) cn (x − a)n−l−l l n=l+1 ∞ X n = (l + 1)! cn (x − a)n−(l+l) . l+1
f (l+1) (x) = l!
n=l+1
F¨ ur x = a folgt f (l) (a) = l!cl . Wenn wir cl in die Potenzreihe einsetzen, erhalten wir die Taylorreihe einer analytischen Funktion: f (x) =
∞ X f (n) (a) (x − a)n . n! n=0
Satz 4..45. (Algebra der analytischen Funktionen) • Sind f und ϕ analytisch in a: f (x) =
∞ X
cn (x − a)n ,
n=0
ϕ(x) =
∞ X
dn (x − a)n ,
n=0
so sind auch λf, f + ϕ, f · ϕ in a analytisch und es gilt f (x) · ϕ(x) =
∞ X l X
l=0 n=0
cn dl−n (x − a)n .
168
KAPITEL 4. ANALYSIS
• Ist ϕ in a analytisch und f in ϕ(a) analytisch, so ist auch die Funktion f ◦ ϕ in a analytisch. • Ist die Funktion f in a analytisch und f (a) 6= 0, so ist auch die Funktion • Der Quotient
f ϕ
1 f
in a analytisch.
zweier in a analytischer Funktionen f und ϕ mit ϕ(a) 6= 0 ist in a analytisch.
Beweis. Wir beweisen nur die vorletzte Eigenschaft. Es sei f (x) =
∞ X
cn (x − a)n .
n=0
Wegen f (a) 6= 0, muß c0 6= 0 sein. Wir setzen ∞ 1 X ϕ(x) = − cn (x − a)n , c0 n=1
∞ X 1 h(y) = = yn 1 − y n=0
(|y| < 1).
Die so definierte Funktion ϕ ist in a analytisch, die Funktion h ist in 0 analytisch und 1 1 1 1 = = h(ϕ(x)). f (x) c0 1 − ϕ(x) c0 Damit haben wir
1 f
als Verkettung zweier analytischer Funktionen dargestellt.
4.7.
Integralrechnung
4.7.1.
Das bestimmte Integral
Die Integralrechnung geht von der klassischen Aufgabenstellung aus, daß man bei einer auf einem Intervall [a, b] gegebenen Funktion f den Fl¨acheninhalt der ebenen Menge < < I0f = (x, y) | a < 0< = x = b, = y = f (x) berechnen m¨ ochte. Diese Aufgabe f¨ uhrt unmittelbar zum Riemannschen Integralbegriff. Es sei eine auf einem Intervall I = [a, b] definierte Funktion f gegeben. Einem beliebigen Teilintervall I 0 ⊂ = I ordnen wir die obere und die untere Grenze der Funktionswerte von f auf diesem Teilintervall zu: f (I 0 ) = inf { f (x) | x ∈ I 0 } ,
f (I 0 ) = sup { f (x) | x ∈ I 0 } .
Wir benutzen ferner beliebige, endliche Zerlegungen des Intervalls I: Z = { I1 , I2 , . . . , Im } ,
Ij = (xj−1 , xj ),
(j = 1, . . . , m),
a = x0 < x1 < . . . < xm = b. Einem Paar (f, Z) ordnen wir die Untersumme S(f, Z) =
m X
f (Ij )(xj − xj−1 )
j=1
und die Obersumme S(f, Z) =
m X j=1
f (Ij )(xj − xj−1 )
4.7. INTEGRALRECHNUNG
169
zu. Geometrisch ist die Untersumme gerade die Summe der Fl¨acheninhalte aller einbeschriebenen“ ” Rechtecke mit den Seitenl¨ angen f (Ij ) und xj −xj−1 ; analog l¨aßt sich die Obersumme deuten. Nach Definition folgt S(f, Z) − S(f, Z) > = 0. Wegen f (Ij ) > = f (I),
f (Ij ) < = f (I),
j = 1, . . . , m
ist S(f, Z) =
m X
f (Ij )(xj − xj−1 ) > = f (I)
j=1
m X
(xj − xj−1 ) = f (I)(b − a)
j=1
und entsprechend f¨ ur die Obersumme S(f, Z) < = f (I)(b − a), was zusammen < < (b − a)f (I) < = S(f, Z) = S(f, Z) = f (I)(b − a)
f¨ ur jede Zerlegung Z des Intervalls [a, b] liefert. Insbesondere sind die Obersummen nach unten und die Untersummen nach oben beschr¨ankt. Die untere Grenze J(f, a, b) aller Obersummen nennt man Oberintegral der Funktion f u ¨ber dem Intervall [a, b]: J(f, a, b) = inf S(f, Z). Z
Entsprechend heißt die obere Grenze J(f, a, b) aller Untersummen Unterintegral der Funktion f u ¨ber dem Intervall [a, b]: J(f, a, b) = sup S(f, Z). Z
F¨ ur alle Zerlegungen Z gilt offenbar < < S(f, Z) < = J(f, a, b) = J(f, a, b) = S(f, Z).
Diese Konstruktion kann man f¨ ur jede Funktion durchf¨ uhren. Nun m¨ ussen Ober- und Unterintegral durchaus nicht u ¨bereinstimmen. Bei der Funktion 1 x rational f (x) = 0 x irrational auf dem Intervall I = [0, 1] gilt offenbar f (I) = 0 und f (I) = 1. In jedem Teilintervall von I liegen eine rationale und eine irrationale Zahl; also ist stets f (I 0 ) = 0 und f (I 0 ) = 1 f¨ ur alle I 0 ⊂ = I, was J(f, I) = 0 und J(f, I)=1 liefert. Eine auf dem Intervall [a, b] beschr¨ ankte Funktion f heißt integrierbar (nach B. Riemann), wenn Ober- und Unterintegral u ¨bereinstimmen; den gemeinsamen Wert nennt man bestimmtes Integral der Funktion f u ¨ber dem Intervall [a, b] und schreibt es nach Leibniz (1675) in der Form Z b f (x)dx, a
wobei a und b als Integrationsgrenzen bezeichnet werden. Eine notwendige und hinreichende Bedingung f¨ ur die Integrierbarkeit einer Funktion liefert der folgende Satz.
170
KAPITEL 4. ANALYSIS
Satz 4..46 (Riemannsches Integrabilit¨ atskriterium). Eine Funktion f ist genau dann u ¨ber dem Intervall [a, b] integriebar, wenn es zu jedem ε > 0 eine Zerlegung Z gibt mit S(f, Z) − S(f, Z) < ε. Beweis. Die Hinl¨ anglichkeit der Bedingung ist offensichtlich. Wir haben nur zu zeigen, daß die Bedingung auch notwendig ist. Es sei also f u ¨ber [a, b] integrierbar und ε > 0 beliebig vorgegeben. Dann existieren zwei Zerlegungen Z 0 , Z 00 mit Z
b
f (x)dx − S(f, Z 0 )
S(f, Z) = S(f, Z).
¨ Kehren wir sogleich zum Beweis zur¨ uck und bilden eine Uberlagerung Z der beiden Zerlegungen Z 0 und Z 00 , d. h. eine Verfeinerung, die sowohl Verfeinerung von Z 0 als auch von Z 00 ist. Damit erhalten wir ε ε ˜00 ˜0 S(f, Z) − S(f, Z) < + = ε. = S(f, Z ) − S(f, Z ) < 2 2
4.7.2.
Eigenschaften integrierbarer Funktionen
In letzten Abschnitt haben wir bei der Einf¨ uhrung des bestimmten Integrals einer Funktion f u ¨ber einem Intervall [a, b] vorausgesetzt, daß a < b gilt. W¨ urde man die Einf¨ uhrung f¨ ur den Fall a > b wiederholen, erhielte man, daß Z a
b
f (x)dx = −
Z
a
f (x)dx
b
gilt, was wir damit als gegeben annehmen wollen. Speziell ist Z a f (x)dx = 0. a
Satz 4..47. Jede auf einem Intervall stetige Funktion ist dort integrierbar. Beweis. Aus technischen Gr¨ unden beweisen wir diese Aussage nur f¨ ur stetig differenzierbare Funktionen. Sei f eine auf [a, b] stetig differenzierbare Funktion. In jedem Teilintervall I ⊂ = [a, b] gibt es Punkte x, x mit f (x) = f (I) und f (x) = f (I); außerdem gibt es eine Zahl M > 0 mit |f 0 (x)| < = M f¨ ur alle x ∈ [a, b]. Aus dem Mittelwertsatz folgt < f (I) − f (I) = (x − x)f 0 (ξ) < = M |x − x| = M (b − a).
4.7. INTEGRALRECHNUNG
171
Damit schließen wir f¨ ur jede Zerlegung Z = { I1 , . . . , Im }: 0< = S(f, Z) − S(f, Z) =
m X
(f (Ij ) − f (Ij ))(xj − xj−1 )
j=1
< =
M %(Z)
m X
(xj − xj−1 )
j=1
= M %(Z)(b − a). Hierin bezeichnet %(Z) die Gr¨ oße %(Z) = max |xj − xj−1 |, j
d. h. %(Z) ist die maximale Intervall¨ ange der Intervalle aus Z; die Gr¨oße nennt man Durchmesser der Zerlegung Z. Ist nun ε > 0 beliebig vorgegeben, so existiert dazu eine Zerlegung Z mit %(Z)
ur alle x ∈ [a, b]. Dann gibt es ein ξ ∈ [a, b] mit = 0 f¨ Z b Z b f (x)ϕ(x)dx = f (ξ) ϕ(x)dx. a
a
Beweis. Es seien m, M wie beim Mittelwertsatz; dann gilt zun¨achst < m · ϕ(x) < = f (x)ϕ(x) = M · ϕ(x)
und wegen der Monotonie der Integration Z Z b Z b m· ϕ(x)dx < f (x)ϕ(x)dx < = = M · a
Im Falle Z b
a
b
ϕ(x)dx.
a
ϕ(x)dx = 0
a
ist die Behauptung klar. Andernfalls sei Rb f (x)ϕ(x)dx η = aR b . ϕ(x)dx a < Es ist m < = η = M und mit dem Zwischenwertsatz folgt, daß es ein ξ ∈ [a, b] gibt mit f (ξ) = η. F¨ ur den Hauptsatz der Differential- und Integralrechnung brauchen wir einen neuen, wichtigen Begriff. Wir nennen eine auf einem Intervall [a, b] differenzierbare Funktion F Stammfunktion einer dort definierten Funktion f , wenn
F 0 (x) = f (x)
∀x ∈ [a, b].
Eine Funktion hat unendlich viele Stammfunktionen. Nach der Definition k¨onnen sich zwei Stammfunktionen zu einer festen Funktion nur um eine Konstante unterscheiden. Satz 4..55. (Hauptsatz der Differential- und Integralrechnung) Es sei f eine auf dem Intervall [a, b] stetige Funktion. Dann ist die Funktion F mit Z x < F (x) = f (t)dt, a< = x = b a
eine Stammfunktion von f . Beweis. Der Hauptsatz ist eine unmittelbare Folge des Mittelwertsatzes: "Z # Z x x+h F (x + h) − F (x) 1 = f (t)dt − f (t)dt h h a a Z 1 x+h < = f (t)dt = f (x + %h) (0 < = % = 1). h x F¨ ur h → 0 folgt die Behauptung. Nach diesem Satz ist bei stetigen Funktionen die Integration die Umkehrung der Differentiation.
4.7. INTEGRALRECHNUNG
175
Satz 4..56. Ist F eine Stammfunktion einer auf [a, b] stetigen Funktion f , so gilt Z
b
f (x)dx = F (b) − F (a).
a
Beweis. Es sei F eine beliebige Stammfunktion von f . Nach dem Hauptsatz ist auch Z x < Φ(x) = f (t)dt, (a < = x = b) a
eine Stammfunktion; also k¨ onnen sich beide nur um eine Konstante c unterscheiden: Φ(x) = F (x) + c. Speziell erhalten wir f¨ ur x = a: 0 = Φ(a) = F (a) + c, also c = −F (a). Damit gilt Φ(x) = F (x) − F (a), woraus F (b) − F (a) = Φ(b) =
Z
b
f (t)dt
a
folgt, was zu zeigen war. Oft verwendet man die Schreibweise [F (x)]ba = F (b) − F (a) bzw. F (x)|ba = F (b) − F (a). Bei einer stetig differenzierbaren Funktion f ist die Funktion f eine Stammfunktion von f 0 und daher Z b f 0 (x)dx = [f (x)]ba . a
4.7.3.
Integrationsmethoden
Unter dem unbestimmten Integral einer auf einem Intervall I integrierbaren Funktion f versteht man die Menge aller Stammfunktionen F von f auf I; meist schreibt man daf¨ ur Z f (x)dx + C und nennt C Integrationskonstante. In dieser Darstellung steht der erste Summand f¨ ur eine beliebig gew¨aRhlte Stammfunktion von f . Die u ¨bliche Schreibweise ist nicht eindeutig. Manchmal meint man mit f (x)dx schon die Menge aller Stammfunktionen von f : Z 1 xdx = x2 + C. 2 Hinzu kommt noch die Problematik, daß das Zeichen x auf beiden Seiten der Gleichung v¨ollig anders interpretiert werden muß, damit die Gleichung als sinnvoll angesehen werden kann. Mit der
176
KAPITEL 4. ANALYSIS
Gleichung ist gemeint: Die Funktion F mit F (x) = 12 x2 ist eine Stammfunktion der Funktion f mit f (x) = x. Allgemein bedeutet damit die Schreibweise Z f (x)dx = F (x) + C, daß F eine Stammfunktion von f ist. In anderen F¨allen steht Stammfunktion, z. B. in Z Z u(x)v(x) = u0 (x)v(x)dx + u(x)v 0 (x)dx.
R
f (x)dx f¨ ur eine geeignet zu w¨ahlende
Was im konkreten Falle gemeint ist, muß man aus dem Zusammenhang entnehmen. F¨ ur die Mathematik ist es leicht, eine eindeutige Notation festzulegen. Es bleibt aber sehr zweifelhaft, ob eine solche Notation von Nichtmathematikern akzeptiert und angewendet wird. Daher lebt die Mathematik schon seit Jahrhunderten mit diesem ungel¨osten Konflikt. Aus den Rechenregeln der Differentialrechnung ergeben sich sofort einige unbestimmte Integrale: Z 1 xα+1 + C (α 6= −1), xα dx = α+1 Z dx = ln |x| + C, x Z ex dx = ex + C, Z cos xdx = sin x + C, Z sin xdx = − cos x + C, Z dx √ = arcsin x + C, |x| < 1, 1 − x2 Z dx √ = − arccos x + C, |x| < 1, 1 − x2 Z dx √ = arctan x + C. 1 + x2 Eine Stammfunktion heißt elementar, wenn sie durch endlich viele Verkn¨ upfungen +, −, ·, /, ◦ aus den bekannten elementare Funktionen dargestellt werden kann. Man nennt daher eine Funktion elementar integrierbar, wenn sie eine elementare Stammfunktion besitzt. Es gibt elementare Funktionen, die nicht elementar integrierbar sind, so z. B. die Funktion f (x) =
sin x . x
F¨ ur die unbestimmte Integration (d. h. die Bestimmung des unbestimmten Integral) gibt es viele Regeln, von denen wir hier nur die wichtigsten kurz diskutieren werden. Es gibt heute effziente Programmsysteme, die uns das m¨ uhselige Handwerk des Integrierens abnehmen. Satz 4..57 (Partielle Integration). Sind die Funktionen f, g stetig differenzierbar auf einem Intervall I, so gilt Z Z f (x)g 0 (x)dx = f (x)g(x) − f 0 (x)g(x)dx + C.
4.7. INTEGRALRECHNUNG
177
Beweis. Nach der Produktregel f¨ ur die Differentiation gilt 0
(f (x)g(x)) = f 0 (x)g(x) + f (x)g 0 (x), also Z
[f 0 (x)g(x) + f (x)g 0 (x)] dx Z Z = f 0 (x)g(x)dx + f (x)g 0 (x)dx + C.
f (x)g(x) =
Beispiel: Z Z Z cos2 xdx = cos x cos xdx = cos x sin x + sin2 xdx Z Z 2 = cos x sin x + (1 − cos x)dx = cos x sin x + x − cos2 xdx =
1 (cos x sin x + x) + C. 2
F¨ ur bestimmte Integrale lautet die partielle Integration: Z
b 0
f (x)g (x)dx =
[f (x)g(x)]ba
−
a
b
f 0 (x)g(x)dx.
a
Beispiel. Wir wollen Z
Z
Rx 0
t2 e−t dt berechnen. Es ist Z te−t dt = −t2 e−t − 2 te−t − e−t dt t2 + 2t + 2 + C.
t2 e−t dt = −t2 e−t + 2 = −e−t
Z
Damit erhalten wir Z x x t2 e−t dt = −e−t (t2 + 2t + 2) 0 = −e−x (x2 + 2x + 2) + 2. 0
F¨ ur x → ∞ folgt x2 x 1 = 2 · lim x = 2 · lim x = 0, x→∞ ex x→∞ e x→∞ e
lim x2 e−x = lim
x→∞
also Z 0
∞
2 −t
t e dt = lim
x→∞
Z
x
t2 e−t dt
0 = lim −e−x (x2 + 2x + 2) + 2 = 2. x→∞
Satz 4..58 (Substitutionsregel). Ist die Funktion f stetig auf I, die Funktion g stetig differenzierbar mit Werten in I, so gilt Z Z f (g(x))g 0 (x)dx = f (t)dt (t = g(x)).
178
KAPITEL 4. ANALYSIS
Beweis. Die Funktion g im Satz heißt Substitutionsfunktion. Die Formel folgt direkt aus der Kettenregel f¨ ur die Differentiation. Beispiele. Mit t = f (x), f (x) 6= 0 erh¨ alt man Z 0 Z f (x) dt dx = dt = ln |t| + C = ln |f (x)| + C. f (x) t Entsprechend ergibt sich mit t = f (x), f (x) > 0, α 6= −1: Z Z tα+1 1 α 0 α+1 (f (x)) f (x)dx = tα dt = +C = (f (x)) + C. α+1 α+1 F¨ ur den Fall, daß die Substitutionsfunktion umkehrbar eindeutig ist, kann man die Subtitutionsregel auch von rechts nach links lesen: Z Z f (x)dx = f (g(t))g 0 (t)dt (t = g −1 (x)). 1 Beispiel. F¨ ur n > 1 sei t = n · x − 1; dann gilt dx dt = n und Z Z 1 1 sin(nx − 1)dx = sin tdt = − cos t + C n n 1 = − cos(nx − 1) + C. n
Satz 4..59 (1. Substitutionsregel f¨ ur bestimmte Integrale). Ist ϕ stetig differenzierbar auf [a, b] und f stetig auf ϕ([a, b]), so gilt Z
b
f (ϕ(x))ϕ0 (x)dx =
a
Z
ϕ(b)
f (t)dt.
ϕ(a)
Beweis. Mit einer Stammfunktion F von f gilt F 0 (ϕ(x)) = f (ϕ(x))ϕ0 (x), also ist F (ϕ(·)) eine Stammfunktion von f (ϕ(·))ϕ0 (·) und Z
b
f (ϕ(x))ϕ0 (x)dx = F (ϕ(b)) − F (ϕ(a)) =
a
Z
ϕ(b)
f (t)dt.
ϕ(a)
Satz 4..60. (2. Substitutionsregel f¨ ur bestimmte Integrale) Es sei f eine auf dem Intervall [a, b] stetige Funktion; ϕ sei stetig differenzierbar und bilde ein Intervall umkehrbar eindeutig auf das Intervall [a, b] ab. Dann gilt Z a
b
f (x)dx =
Z
ϕ−1 (b)
f (ϕ(t))ϕ0 (t)dt.
ϕ−1 (a)
Der Beweis folgt sofort mit dem letzten Satz. Satz 4..61. Jede rationale Funktion ist elementar integrierbar. Diesen Satz beweist man durch eine sog. Partialbruchzerlegung einer rationalen Funktion, was eine rein technische Angelegenheit ist und daher auch wegen seiner L¨ange u ¨bergangen werden soll.
4.7. INTEGRALRECHNUNG
179
Satz 4..62. Ist (fn ) eine gleichm¨ aßig konvergente Folge von auf dem Intervall [a, b] stetigen Funktionen, dann gilt Z b Z b lim fn (x)dx = lim fn (x)dx. a n→∞
n→∞
a
Beweis. Die Grenzfunktion f (x) = lim fn (x) n→∞
ist stetig; wegen der gleichm¨ aßigen Konvergenz gibt es zu jedem ε > 0 eine Zahl N = N (ε), so daß |f (x) − fn (x)| < Damit folgt Z b Z | f (x)dx − a
ε b−a
∀n > = N, x ∈ [a, b].
b
fn (x)dx| < =
Z
a
b
|f (x) − fn (x)|dx < =
a
ε b−a
Z
b
dx = ε.
a
F¨ ur gleichm¨ aßig konvergente Reihen gilt entsprechend: ! Z b X ∞ ∞ Z b X fn (x) dx = fn (x)dx. a
n=0
n=0
a
Beispiel. Z π4 Z π4 X ∞ ∞ X sin(102n x) 1 dx = sin(102n x)dx n n 10 10 0 n=0 0 n=0 ∞ X
=−
π4 1 2n cos(10 x) 0 103n n=0
=−
∞ X
1 2n π cos(10 ) − 1 103n 4 n=0
≈ 1, 002 − 0, 707.
4.7.4.
Uneigentliche Integrale
Es sei f eine im Intervall [a, ∞) integrierbare Funktion. F¨ ur jedes b > = a existiert dann und Z t F (t) = f (x)dx.
Rb a
f (x)dx
a
ist eine stetige Funktion. Falls F f¨ ur t → ∞ einen endlichen Grenzwert hat, setzen wir Z ∞ Z t f (x)dx = lim F (t) = lim f (x)dx a
t→∞
t→∞
a
und nennen den Grenzwert uneigentliches Integral der Funktion f u ¨ber dem Intervall [a, ∞). Existiert dieser Grenzwert nicht, so sagen wir, daß das Integral divergiert. Analog zu unendlichen
180
KAPITEL 4. ANALYSIS
Reihen konvergiert das uneigentliche Integral absolut, wenn das uneigenliche Integral der Funktion |f | u ¨ber [a, ∞) existiert. Analog denken wir uns das uneigentliche Integral einer u ¨ber (−∞, a] integrierbaren Funktion eingef¨ uhrt. Falls die Funktion f u ¨ber dem Intervall (−∞, ∞) integrierbar ist, setzt man Z ∞ Z a Z ∞ f (x)dx = f (x)dx + f (x)dx. −∞
−∞
a
F¨ ur eine im Intervall [a, ∞) stetige Funktion f mit einer Stammfunktion F folgt Z
∞
f (x)dx = lim
b→∞
a
b
Z
∞
f (x)dx = lim (F (b) − F (a)) = [F (x)]a ; b→∞
a
analog im Intervall (−∞, a]: Z a a f (x)dx = F (a) − lim F (c) = [F (x)]−∞ c→−∞
−∞
und zusammen Z ∞ ∞ f (x)dx = lim F (b) − lim F (c) = [F (x)]−∞ . −∞
c→∞
b→∞
Beispiele. Z
∞
1
Z
∞
1
dx = lim b→∞ x2
Z
dx = lim b→∞ x
Z
b
b dx 1 1 = lim − = 1 − lim = 1. 2 b→∞ b→∞ b x x 1
b
dx = lim (ln b − ln 1) = lim ln b. b→∞ b→∞ x
1
1
Damit haben wir insbesondere, daß das letzte uneigentliche Integral divergiert. Dagegen folgt Z
∞
−∞
dx = lim b→∞ 1 + x2
b
Z 0
dx + lim 1 + x2 c→−∞
Z c
0
dx 1 + x2
= lim [arctan x]b0 + lim [arctan x]0c c→−∞
b→∞
= lim arctan b − lim arctan c c→−∞
b→∞
π π = + = π. 2 2 Es sei nun die Funktion f in jedem offenen Intervall (a, c) mit a < c < b beschr¨ankt und integrierbar. Wir setzen Z b Z c f (x)dx = lim f (x)dx c→b ca
Z c
b
f (x)dx.
¨ 4.8. UBUNGEN
181
Ist die Funktion f auf jedem abgeschlossenen Teilintervall aus [a, c) und (c, b] integrierbar, so setzt man Z b Z t Z b f (x)dx = lim f (x)dx + lim f (x)dx, t→c t→c a
a
tc
t
falls beide Integrale konvergieren. Beispiele. Z 2 Z 2 √ 2 dx dx √ = lim √ = lim 2 x t ≈ 2 · 1, 414 . . . , t→0 t→0 x x t 0 t>0 t>0 Z
1
dx = ln 1 − lim ln t = ∞. t→0 x t>0
0
Wegen 1 1 1 1 1 = · + · 1 − x2 2 1−x 2 1+x folgt Z
1
dx 1 = 2 1−x 2
0
Z
1
0
dx 1 + 1−x 2
Z 0
1
dx , 1+x
woraus wir ersehen, daß das Integral divergiert, da der erste Summand divergiert. Insbesondere divergiert damit jedes Integral der Funktion 1 , 1 − x2 wenn die Integration u ¨ber ein Intervall I mit 1 ∈ I erstreckt wird.
4.8.
¨ Ubungen
1. Man gebe N (ε) ∈ R an, so daß gilt: | xn |< ε
∀n > N (ε).
(a) n2 +1
(−1) xn = 4n3
,
(b) xn =
2n . n2 − 2
2. Sei (xn ) die Ziffernfolge der Zahl π (x0 = 3, x1 = 1, x2 = 4, ...). (a) Besitzt die Folge (xn ) H¨ aufigkeitspunkte? (b) Besitzt die Folge einen Grenzwert? 3. Man untersuche die Folgen (qn ) auf Monotonie, Beschr¨anktheit und H¨aufigkeitspunkte.
182
KAPITEL 4. ANALYSIS (a) qn =
(−2)n+1 + 3n , 3n+1 + (−2)n
(b) qn = cos
nπ 4
,
(c) qn+1 =
2 , q0 ∈ (1, 2) , qn
qn+1 =
p
(d) 2 + qn , q 0 =
√
2.
4. Man gebe n0 (ε) ∈ R an, so daß gilt: | an − a |< ε (a) √ 1− n √ an = 1+ n
, a = −1 ,
(b) an =
n4 n!
, a = 0.
5. Man bestimme den Grenzwert lim an . n→∞
(a) an = q n , (b) an =
2n3 + 6n , n!
an =
an =
n! . nn
(c) 1 1− 2 n
(d)
n
,
∀n > n0 (ε).
¨ 4.8. UBUNGEN
183
6. Sei (an ) eine Folge nichtnegativer reeller Zahlen. Man zeige: ∞ X
konv. ⇒
an
n=0
∞ X
a2n
konv.
n=0
Gilt auch die Umkehrung? 7. Man untersuche folgende Reihen auf Konvergenz: (a) ∞ X
(−1)k ,
k=0
(b) ∞ X √ n
a
,
0 < a < 1,
n=2
(c) ∞ X 1 3 − k , 4k 2
k=1
(d) ∞ X
n=1
1 1− n
n
,
(e) n(n−1) ∞ X (−1) 2 . 3n n=1
8. Man untersuche folgende Reihen mit Hilfe des Wurzel- bzw. Quotientenkriteriums auf Konvergenz: (a) ∞ X (n!)2 5n , (2n)! n=1
(b) ∞ X
k=1
k2 2−
(c) ∞ X n3 , 2n n=1
1 k k
,
184
KAPITEL 4. ANALYSIS (d) ∞ X n! , n n n=1
(e) ∞ X 2 + (−1)n+1 . 2n n=0
9. Konvergiert die Reihe ∞ X
n=1
√
(−1)n ? n2 − 10n + 30
10. Man gebe alle x ∈ R an, f¨ ur die die Reihe ∞ X
xn n2n−1 n=1 konvergiert. 11. Man zeige: F¨ ur P (x) = an xn + · · · + a1 x + a0
(an 6= 0),
Q(x) = bm xm + · · · + b1 x + b0
(bm 6= 0)
gilt: P (x) an xn−m = lim . x→∞ Q(x) x→∞ bm lim
12. Man berechne: (a) k + 19k 21 + 21k 19 − 100 , k→∞ 100k + 19k 19 + 21k 21 + 1 lim
(b) √
10
lim √ 5
k→∞
k 15 , +k
k 10
(c) ϕ sin ϕ2 . ϕ→∞ ϕ2 + sin ϕ lim
13. Mit Hilfe des Stetigkeitskriteriums zeige man die Stetigkeit der folgenden Funktionen im R1 : (a) f (x) = sin 3x ,
¨ 4.8. UBUNGEN
185
(b) f (x) = xn (n ∈ N) . 14. Man berechne die Grenzwerte der folgenden Funktionen: (a) 1
lim e x ,
x→0−
(b) 1
lim e x ,
x→0+
(c) lim
sin x , x
lim
sin 5x , x
lim
1 − cos x , x2
lim
cos x − cos a . x−a
x→0
(d)
x→0
(e) x→0
(f) x→a
15. Der Umfang eines regelm¨ aßigen n-Ecks, das einem Kreis vom Radius R einbeschrieben ist, betr¨ agt Un = 2Rn sin
π . n
Man bestimme u = lim Un . n→∞
16. Es gilt der Satz: F¨ ur n stetige Funktionen f1 . . . fn in R sind auch die Funktionen Fmin (x) =
min fk (x)
1
< =
k
< =
Fmax (x) =
n
max fk (x)
1
< =
k
< =
n
stetige Funktionen. Man zeige, daß die Funktion −c f (x) < −c < gc (x) = f (x) −c < = f (x) = c c sonst f¨ ur jede stetige Funktion in R ebenfalls stetig in R ist.
186
KAPITEL 4. ANALYSIS
17. Man untersuche die Folge von Funktionen (fn ) auf gleichm¨aßige Konvergenz und bestimme die zugeh¨ orige Grenzfunktion: (a) fn (x) =
1 1 + en(a−x)
x ∈ (a, ∞) ,
fn (x) =
1 1 + enx
x ∈ (1, ∞) ,
(b)
(c) fn (x) =
√ n
x
x > 0.
18. Man bestimme a, b ∈ R so, daß die Funktion x f¨ ur x < = a f (x) = 2 2 + bx f¨ ur x > a stetig differenzierbar in R ist. 19. Man bestimme die 1. Ableitung folgender Funktionen: (a) p(y) =
b + ay (b − ay)c
y 6=
q(x) =
1 log2 (x2 )
x 6= 0 .
b , a
(b)
20. Es gilt die Regel d f 0 (x) (ln f (x)) = dx f (x) f¨ ur differenzierbare Funktionen f mit positiven Funktionswerten. Man berechne damit die 1. Ableitung von: (a) f (x) = (x2 )2x
(x > 0),
(b) f (x) = xsin x
(x ∈ (0, π)),
(c) f (x) = (ln x)ln x
(x > 1).
¨ 4.8. UBUNGEN
187
21. Man zeige mit Hilfe des Mittelwertsatzes : | arctan x − arctan y |
< =
1 | x − y | f¨ ur alle x, y 2
> =
1.
22. Man ermittle die ersten sechs Glieder der Taylor-Entwicklung folgender Funktionen in x = 0. Wo konvergieren die Reihen? (a) f (x) = cos2 x − sin2 x , (b) g(x) = tan x − x , (c) h(x) = ln(cos x) f¨ ur (| x |
0 und = C· | x | f¨ gen¨ ugend kleines x gilt? Hinweis: Man ermittle die Reihenentwicklung des linken Ausdrucks! 2
25. Man ermittle Extrema und Wendepunkte der Funktion f (x) = e−x . 26. Mit der Regel von l’Hospital ermittle man (a) lim
x→0
ln(cos ax) , ln(cos bx)
(b) −x
lim x2 · e 1000 ,
x→∞
(c) lim
x→∞
ln x xp
(p ∈ R) ,
(d) lim xx ,
x→0
(e) lim
x→1
1 1 − ln x x − 1
(f) 1
lim x 1−x ,
x→1
(g) 1 lim sin2 x ln x2 .
x→0
,
188
KAPITEL 4. ANALYSIS
27. Man ermittle die Taylor-Reihe im Punkt x0 = 0 sowie ihren Konvergenzradius: (a) f (x) = ax
(a > 0) ,
(b) f (x) =
x10 (1 − x)2
(x 6= 1) .
28. Wie groß ist der Konvergenzradius folgender Potenzreihen? Was kann man u ¨ber die Konvergenz an den Grenzen des Konvergenzbereiches aussagen? (a) ∞ X xn np n=1
(p ∈ R) ,
(b) ∞ X 3n + (−2)n (x + 1)n , n n=1
(c) ∞ X
n=1
an
xn + bn
(a > b > = 0) .
29. Man bestimme unter Zur¨ uckf¨ uhrung auf Grundintegrale: (a) Z
(1 + x)(1 − 2x)(1 + 3x) dx ,
(b) Z "
1+x x
2
−
1−x x
2 #
dx ,
(c) Z
e−2x + 2ex + 5 dx , ex
Z
√ x2 + 3 5 x √ dx . 5 x6
(d)
30. Man bestimme mittels linearer Substitution:
¨ 4.8. UBUNGEN
189
(a) Z
dx sin2 ( x+π 4 )
,
(b) Z
2
√ 9
27x − 26 dx ,
1
(c) Z 0
1
√
x2 dx , 2−x
(d) Z
2 dx . 1 + (x − 1)2
31. Man berechne mit Hilfe der partiellen Integration: (a) Z
z 2 sin z dz ,
Z
(x2 + x)ex dx .
(b)
190
KAPITEL 4. ANALYSIS
Kapitel 5
Stochastik 5.1.
Wahrscheinlichkeit
Der Zufall tritt in der T¨ atigkeit des Informatikers bei zahlreichen Gelegenheiten auf. So spricht man z. B. von einer zuf¨ alligen Laufzeit eines Programms innerhalb eines Mehraufgabensystems. Auch die Simulation realer Vorg¨ ange anhand zuf¨allig gew¨ahlter Daten ist hier zu nennen. Die mathematische Wahrscheinlichkeitstheorie ist der Versuch, mittels mathematischer Modelle den Zufall in einer Form zu beschreiben, daß daraus praktische Schlußfolgerungen gezogen werden k¨onnen. Da es sich hierbei um eine Abstraktion handelt, kann man nicht erwarten, daß durch ein mathematisches Modell alle auftretenden Formen des Zufalls beschrieben werden k¨onnen. Wir beschr¨anken uns vielmehr auf jene Form des Zufalls, wie er uns in sog. zuf¨alligen Versuchen begegnet. Ein zuf¨alliger Versuch kann beliebig oft wiederholt werden, d. h. die Versuchsbedingungen sind beliebig oft wiedereinstellbar. Der Versuchsausgang wird jedoch nicht vollst¨andig durch die Versuchsparameter festgelegt und ist daher in einem gewissen Rahmen ungewiß. Einen m¨oglichen Ausgang eines zuf¨alligen Versuchs nennt man zuf¨ alliges Ereignis. Als wohl bekanntestes Beispiel kann man ein Lotteriespiel anf¨ uhren, z. B. 6 aus 49. In diesem zuf¨alligen“ Versuch gibt es 13983816 m¨ogliche ” Versuchsausg¨ ange, n¨ amlich so viele M¨oglichkeiten, 6 Zahlen ohne R¨ ucklegen zu ziehen.
5.1.1.
Wahrscheinlichkeit zuf¨ alliger Ereignisse
Zuf¨allige Ereignisse werden im Rahmen der Mengenlehre modelliert. Dabei ist es wesentlich zu wissen, welches die sog. Elementarereignisse eines zuf¨alligen Versuches sind. In einer konkreten Situation kann man oft die Elementarereignisse verifizieren: Jedes Elementarereignis ist ein m¨oglicher Versuchsausgang. So sind die Elementarereignisse beim W¨ urfeln das Auftreten der Augenzahlen 1, 2, 3, 4, 5, 6, und andere gibt es nicht. Wichtig ist hier, daß man alle Elementarereignisse in die Bertrachtungen einbezieht. Es sei Ω eine beliebige, nichtleere Menge (d. h. die Menge aller Elementarereignisse) und A ⊂ = P(Ω) eine Untermenge der Potenzmenge von Ω. Die Menge A heißt σ-Algebra u ¨ber Ω, wenn Ω in dem Mengensystem A liegt und A abgeschlossen ist bez¨ uglich der Komplementbildung und der Vereinigung von abz¨ ahlbar vielen Elementen aus P(Ω): • Ω ∈ A, • A ∈ A =⇒ A ∈ A, • (An ) ⊂ = A =⇒
∞ S
An ∈ A.
n=1
191
192
KAPITEL 5. STOCHASTIK
Die Potenzmenge P(Ω) ist die feinste (gr¨oßte) σ-Algebra u ¨ber Ω und A = {∅, Ω} die gr¨obste (kleinste). Ein Element einer σ-Algebra nennt man zuf¨ alliges Ereignis oder einfach Ereignis. Mit den de Morganschen Regeln folgt sofort, daß die leere Menge zu jeder σ-Algebra geh¨ort und jede σ-Algebra auch abgeschlossen gegen¨ uber einer abz¨ahlbaren Durchschnittsbildung ist: (An ) ⊂ = A =⇒
∞ \
An ∈ A.
n=1
Wenn man bei einer abz¨ ahlbaren Vereinigungsbildung ab einem gewissen Index nur noch die leere Menge nimmt und bei einer abz¨ ahlbaren Durchschnittsbildung nur noch die Menge Ω, so sieht man, daß eine σ-Algebra abgeschlossen ist gegen¨ uber der Vereinigung und dem Durchschnitt. Damit ist A(∩, ∪, − ) eine algebraische Struktur im u ¨blichen Sinne. Formal gesehen sind die Elemente eines minimalen Erzeugendensystems einer σ-Algebra die Elementarereignisse. Sehr anschaulich wird dieser algebraische Modellierungsansatz in dem Falle, daß es nur endlich viele Elementarereignisse gibt. Dann enth¨ alt jede Menge nur endlich viele Elemente. Ist nun A = { a1 , . . . , am } ein Element der σ-Algebra A, dann charakterisiert A das Ereignis a1 oder a2 oder · · · oder am“. ” Es ist klar, daß das sichere Ereignis durch die Menge Ω und das unm¨ogliche Ereignis durch die leere Menge ∅ repr¨ asentiert sind. Wir suchen nun nach einem quantitativen Maß f¨ ur die Zuf¨alligkeit. Dieses Maß soll ausdr¨ ucken, wie wahrscheinlich das Eintreten eines Ereignisses ist. Wenn wir einen zuf¨alligen Versuch n-mal wiederholen und dabei das Ereignis A genau Hn (A)-mal eintritt, ist hn (A) =
Hn (A) n
die relative H¨ aufigkeit f¨ ur das Eintreten des Ereignisses A. Die relative H¨aufigkeit hat folgende, unmittelbar einsichtige Eigenschaften: < 0< = hn (A) = 1,
hn (∅) = 0,
hn (Ω) = 1,
hn (A) = 1 − hn (A), hn (A ∪ B) = hn (A) + hn (B) − hn (A ∩ B), hn (A1 ∪ A2 ∪ . . .) =
∞ X
hn (Ai ),
falls Ai ∩ Aj = ∅ (i 6= j).
i=1
Dabei heißen zwei Ereignisse unvereinbar, wenn ihr Durchschnitt leer ist. Aus der Erfahrung weiß man nun, daß mit wachsendem n die relativen H¨aufigkeiten hn (A) immer weniger stark um einen gewissen Wert schwanken. Diesen Wert nennt man die empirische Wahrscheinlichkeit P (A) f¨ ur das Ereignis A. Allgemein versteht man unter einem Wahrscheinlichkeitsmaß P eine auf einer σ-Algebra A (¨ uber einer nichtleeren Menge Ω) definierte reellwertige Funktion mit folgenden charakterisierenden Eigenschaften: < 0< = P (A) = 1,
P(
∞ [
n=1
An ) =
∀A ∈ A,
∞ X
P (Ω) = 1,
P (An ) ∀(An ) ⊂ = A,
An ∩ Am = ∅ (n 6= m).
n=1
Die letzte Eigenschaft nennt man auch σ-Additivit¨ at . Der Funktionswert P (A) heißt die Wahrscheinlichkeit f¨ ur das Ereignis A ∈ A.
5.1. WAHRSCHEINLICHKEIT
193
Satz 5..1. (Grundeigenschaften eines Wahrscheinlichkeitsmaßes) Es sei P ein Wahrscheinlichkeitsmaß auf einer σ-Algebra A: Dann gelten die folgenden Regeln. 1. P (∅) = 0, 2. P (A) = 1 − P (A)
∀A ∈ A.
< 3. Monotonie: Aus A ⊂ = B folgt P (A) = P (B).
4. Subtraktivit¨ at: Aus A ⊂ = B folgt P (B \ A) = P (B) − P (A). 5. Unterhalbstetigkeit: F¨ ur jede monoton wachsende Ereignisfolge, d. h. (An ) ⊂ = A,
An
⊂ =
An+1
gilt P(
∞ [
An ) = lim P (An ). n→∞
n=1
6. Oberhalbstetigkeit: F¨ ur jede monoton fallende Ereignisfolge, d. h. (An ) ⊂ = A,
An+1
⊂ =
An
gilt P(
∞ \
An ) = lim P (An ). n→∞
n=1
7. Subadditivit¨ at: F¨ ur alle Ereignisfolgen (An ) ⊂ = A ist stets P(
∞ [
An ) < =
∞ X
P (An ).
n X
P (Ak ) −
n=1
n=1
8. Siebformel: P(
n [
Ak ) =
k=1
X
P (Ai ∩ Aj ) +
i<j
k=1
X
P (Ai ∩ Aj ∩ Ak ) − +
i<j =
k=1
n X
k=1
P (Ak ) −
X
P (Ai ∩ Aj ).
i<j
Beweis. Die Regel 2 folgt aus der σ-Additivit¨at des Wahrscheinlichkeitsmaßes P f¨ ur die Folge (A, A, ∅, ∅, . . .). Setzen wir in 2. speziell A = Ω, so erhalten wir die Regel 1. F¨ ur die Monotonie beachten wir, daß im Falle A ⊂ = B offenbar B = A ∪ (B \ A)
194
KAPITEL 5. STOCHASTIK
gilt, die Ereignisse A und B \ A unvereinbar sind und damit aus der σ-Additivit¨at folgt: P (B) = P (A ∪ (B \ A)) = P (A) + P (B \ A) > = P (A). Gleichzeitig folgt daraus auch die Subtraktivit¨at. F¨ ur den Beweis der Unterhalbstetigkeit konstruieren wir eine neue Ereignisfolge: B1 = A1 ,
Bn+1 = An+1 \ An ,
n = 1, 2, . . . .
Die Ereignisse Bn sind paarweise unvereinbar und es gilt ∞ [
An =
n=1
∞ [
Bn .
n=1
Die σ-Additivit¨ at und die Subtraktivit¨ at liefern nun: P(
∞ [
An ) = P (
n=1
∞ [
Bn ) =
n=1
= P (A1 ) +
∞ X
P (Bn )
n=1 ∞ X
(P (An ) − P (An−1 )
n=2
= P (A1 ) + lim
m→∞
m X
(P (An ) − P (An−1 ))
n=2
= P (A1 ) + lim (P (Am ) − P (A1 )) = lim P (Am ). m→∞
m→∞
Die Oberhalbstetigkeit folgt aus der Unterhalbstetigkeit durch Komplementbildung. Die Subadditivit¨at erh¨alt man aus dem Beweis der Unterhalbstetigkeit, da dort wegen der Monotonie gilt: P(
∞ [
An ) =
n=1
∞ X
P (Bn ) < =
n=1
∞ X
P (An ).
n=1
Die Siebformel beweisen wir induktiv. F¨ ur n = 1 ist nichts zu beweisen. Die Siebformel m¨oge also f¨ ur eine nat¨ urliche Zahl n gelten. Es sei A=
n [
Ak ,
B = An+1 .
k=1
Wir erhalten mittels Subtraktivit¨ at die folgende Gleichungskette: n+1 [
P(
Ak ) = P (A ∪ B) = P ((A \ B) ∪ (B \ A) ∪ (A ∩ B))
k=1
= P (A \ B) + P (B \ A) + P (A ∩ B) = P (A \ (A ∩ B)) + P (B \ (A ∩ B)) + P (A ∩ B) = P (A) − P (A ∩ B) + P (B) − P (A ∩ B) + P (A ∩ B) = P (A) + P (B) − P (A ∩ B).
5.1. WAHRSCHEINLICHKEIT
195
Mit der Induktionsvoraussetzung schließen wir: P (A ∩ B) = P (
n [
Ak ∩ An+1 )
k=1
=
n X
P (Ak ∩ An+1 ) −
X
P (Ai ∩ Aj ∩ An+1 )
i<j
k=1
+
X
P (Ai ∩ Aj ∩ Ak ∩ An+1 ) − + · · ·
i<j 6: P (X < x) = P (X
< =
6) =
6 X
P (X = i) = 1.
i=1
Wir sehen an diesem Beispiel, daß die Wahrscheinlichkeit P (X < x) mit x monoton w¨achst. Die durch die Formel F (x) = P (X < x) definierte Funktion heißt Verteilungsfunktion der Zufallsgr¨oße X. Kennt man die Verteilungsfunktion, so kann man alle Wahrscheinlichkeiten berechnen. So ist z. B. P (a < = X < b) = F (b) − F (a). Satz 5..2. Die Verteilungsfunktion F einer Zufallsgr¨ oße X hat folgende Eigenschaften: 1. < 0< = F (x) = 1
∀x ∈ R.
2. F ist monoton wachsend: Aus x < y folgt F (x) < = F (y). 3. F ist linksseitig stetig: lim F (x) = F (a).
x→a x 2.
Bei einer stetigen Zufallsgr¨ oße X gilt offenbar Za P (X = a) = f (x)dx = 0, a
und jede reelle Zahl ist ein Elementarereignis. F¨ ur das Ereignis R \ {a} folgt P (R \ {a}) = 1, obwohl das Ereignis, das der Zufallsgr¨ oße X einen Wert aus R \ {a} zuweist, nicht das sichere Ereignis ist. Allgemein muß man daraus schlußfolgern: Wenn bei einer stetigen Zufallsgr¨oße die Wahrscheinlichkeit eines gewissen Ereignisses gleich 0 ist, so kann man dieses nicht als unm¨ogliches Ereignis ansehen, sondern muß es als ein Ereignis betrachten, dessen Eintreten sehr wenig wahrscheinlich ist. Ist andererseits bei einer stetigen Zufallsgr¨oße die Wahrscheinlichkeit eines Ereignisses gleich 1, so kann man es als sehr wahrscheinlich ansehen, jedoch nicht als sicher. In vielen praktischen Anwendungen ist man nur daran interessiert, gewisse prinzipielle Aussagen u oße zu machen. Dies geschieht durch verschiedene quantitative ¨ber die Verteilung einer Zufallsgr¨ Kenngr¨oßen der Verteilungsfunktion. Eine solche Kenngr¨oße ist ihr Mittelwert. Dazu ein Beispiel. Hat man keine Ahnung vom Fußballspiel, so tippt man beim Fußballtoto jeden Spielausgang der 12 Spiele mit der Wahrscheinlichkeit 31 richtig, so daß man etwa mit 12 · 13 = 4 richtigen Tips rechnen kann und jedes andere Ergebnis ist weniger wahrscheinlich: 4 richtige Tips ist der Erwartungswert beim ahnungslosen Totospieler. Dieser Wert verschiebt sich sofort, wenn der Spieler z. B. weiß, daß Heimspiele h¨ aufiger als Ausw¨ artsspiele gewonnen werden. Allgemein sagen wir: Bei einer diskreten Zufallsgr¨oße X mit den Werten xn und den Einzelwahrscheinlichkeiten pn nennt man die Gr¨oße X µ = E(X) = pn xn n
den Erwartungswert bzw. Mittelwert der Zufallsgr¨oße X. Dabei muß im Falle abz¨ahlbar vieler Werte xn gefordert werden, daß die Reihe absolut konvergiert; andernfalls existiert der ¨ Erwartungswert nicht. Diese Einschr¨ ankung folgt aus folgender Uberlegung: Die Numerierung der Einzelereignisse xn ist willk¨ urlich; also darf sich der Erwartungswert beim Umnumerieren der Reihenglieder nicht ¨ andern, d. h. die Reihe muß unbedingt konvergieren. In der Analysis haben wir gelernt, daß diese Forderung gleichwertig mit der absoluten Konvergenz der Reihe ist. Analog definiert man bei einer stetigen Zufallsgr¨oße X mit der Dichte f den Erwartungswert als µ = E(X) =
+∞ Z x · f (x)dx, −∞
5.1. WAHRSCHEINLICHKEIT
199
sofern das uneigentliche Integral absolut konvergiert, d. h. +∞ Z |x| · f (x)dx < ∞. −∞
Beispiele. Ist X jene Zufallsgr¨ oße, die jedem W¨ urfeln die gew¨ urfelte Augenzahl zuordnet, so gilt pn = 61 , xn = n, n = 1, . . . , 6; also erhalten wir µ=1·
1 1 1 + 2 · + · · · + 6 · = 3, 5. 6 6 6
Dieses Beispiel zeigt uns zus¨ atzlich, daß der Erwartungswert im allgemeinen kein Wert ist, der von der Zufallsgr¨ oße angenommen werden kann. Die Zufallsgr¨ oße X m¨ oge die Werte xn =
(−2)n , n
n = 1, 2 . . .
mit den Wahrscheinlichkeiten pn =
1 , 2n
n = 1, 2 . . .
annehmen. Dann folgt ∞ X
pn xn =
n=1
∞ X (−1)n = ln 2; n n=1
jedoch existiert der Erwartungswert nicht, da die Reihe nicht absolut konvergiert. Eine kleine Rechnung zeigt, daß man jeden existierenden Erwartungswert durch Transformieren der Zufallsgr¨ oße auf den Wert 0 einstellen kann. Ist n¨amlich X eine Zufallsgr¨oße, so auch Y = aX + b, wo a, b reelle Zahlen sind. Im diskreten Fall folgt X X X X E(Y ) = pn y n = pn (axn + b) = a pn xn + b pn n
n
n
n
= aE(X) + b und im stetigen Falle zeigen wir +∞ Z E(Y ) = (ax + b)f (x)dx = aE(X) + b. −∞
Dazu seien FY , fY die Verteilungs- und die Dichtefunktionen der Zufallsgr¨oße Y sowie F, f die Verteilungs-und Dichtefunktionen der Zufallsgr¨oße X und a > 0. Wir erhalten t−b t−b FY (t) = P (Y < t) = P (aX + b < t) = P X < =F a a woraus f¨ ur die Dichtefunktionen t−b 1 fY (t) = f a a
200
KAPITEL 5. STOCHASTIK
folgt. Damit schließen wir +∞ +∞ +∞ Z Z Z y−b 1 E(Y ) = yfY (y)dy = yf dy = (ax + b)f (x)dx a a −∞
−∞
−∞
+∞ +∞ Z Z =a xf (x)dx + b f (x)dx = aE(X) + b −∞
−∞
Setzen wir speziell a = 1, b = −E(X), so folgt E(Y ) = E(X − E(X)) = 0 ¨ und man nennt den Ubergang von der Zufallsgr¨oße X zur Zufallsgr¨oße X − E(X) Zentrieren der Zufallsgr¨ oße X. Insbesondere lernen wir hieraus, daß verschiedene Zufallsgr¨oßen den gleichen Erwartungswert haben k¨ onnen; man ben¨otigt also ein Maß, das die Abweichung der Werte von X vom Erwartungswert ausdr¨ uckt. Nat¨ urlich sollen alle Abweichungen gleichbehandelt werden. Hierf¨ ur kann man die quadratische Abweichung verwenden. Es sei X eine Zufallsgr¨oße mit dem Erwartungswert µ = E(X). Dann heißt im Falle einer diskreten Zufallsgr¨oße die Zahl X σ 2 = V (X) = (xn − µ)2 pn n
Streuung oder Varianz von X. Bei einer stetigen Zufallsgr¨oße X mit der Dichte f und dem Erwartungswert µ lautet die Streuung +∞ Z σ = V (X) = (x − µ)2 f (x)dx. 2
−∞
Die Wurzel σ aus der Streuung nennt man Standardabweichung von X. Aus den Rechenregeln f¨ ur unendliche Reihen schließen wir bei einer diskreten Zufallsgr¨oße X X X X σ2 = (xn − µ)2 pn = x2n pn − 2µ xn pn + µ2 pn n
n
2
n
n
2
= E(X ) − µ
und bei einer stetigen Zufallsgr¨ oße X mit der Dichte f : +∞ Z σ = (x − µ)2 f (x)dx 2
−∞ +∞ +∞ +∞ Z Z Z 2 2 = x f (x)dx − 2µ xf (x)dx + µ f (x)dx −∞
−∞
−∞
+∞ Z x2 f (x)dx − µ2 = E(X 2 ) − E(X)2 , = −∞
womit wir zusammen den folgenden Satz gewonnen haben.
5.1. WAHRSCHEINLICHKEIT
201
Satz 5..4. F¨ ur jede Zufallsgr¨ oße X mit dem Erwartungswert E(X) und der Varianz V (X) gilt: V (X) = E(X 2 ) − E(X)2 . Untersuchen wir weiter, wie sich die Varianz gegen¨ uber einer linearen Transformation der Zufallsgr¨oße verh¨ alt: X 2 V (aX + b) = (axn + b − E(aX + b)) pn n
=
X
2
(axn + b − aE(X) − b) pn
n
= a2
X
2
(xn − E(X)) pn
n
2
= a V (X). Analoges rechnet man f¨ ur eine stetige Zufallsgr¨oße aus. Folglich gilt der n¨achste Satz. Satz 5..5. Ist X eine Zufallsgr¨ oße mit der Varianz V (X), so gilt f¨ ur beliebige reelle Zahlen a, b: V (aX + b) = a2 V (X). Insbesondere ist also V (−X) = V (X) und V (X + b) = V (X). Die Streuung ist somit symmetrisch und unempfindlich gegen¨ uber einer Parallelverschiebung. Außerdem folgt V(
X ) = 1. σ
¨ Den Ubergang von der Zufallsgr¨ oße X zur Zufallsgr¨oße Y : X
=⇒
Y =
X mit V (Y ) = 1 σ
nennt man Normierung der Zufallsgr¨oße X. Wenn wir das Zentrieren hinzunehmen, nennt man ¨ den Ubergang X
X −µ σ
=⇒
Standardisierung; die neue Zufallsgr¨oße heißt standardisierte Zufallsgr¨ oße; sie hat den Erwartungswert 0 und die Streuung 1. Satz 5..6 (Tschebyscheff-Ungleichung). F¨ ur jede Zufallsgr¨ oße X mit dem Erwartungswert µ und der Sreuung σ 2 gilt bei beliebig gew¨ ahltem ε > 0 die Ungleichung < P (|X − µ| > = ε) =
σ2 . ε2
Beweis. Zun¨ achst wird die folgende Aussage bewiesen: Wenn die Zufallsgr¨oße Y mit dem Erwartungswert E(Y ) nur nichtnegative Werte annimmt, so gilt f¨ ur jedes α > 0 die Ungleichung P (Y
> =
α) < =
E(Y ) . α
F¨ ur diskretes Y mit den Werten yn und den Einzelwahrscheinlichkeiten pn folgt die behauptete Ungleichung aus X X X E(Y ) = y n pn > y n pn > pn = αP (Y > = = α = α). n
n:yn
> =
α
n:yn
> =
α
202
KAPITEL 5. STOCHASTIK
F¨ ur stetiges Y mit der Dichte f ergibt sich: +∞ Z E(Y ) = y · f (y)dy
> =
−∞
+∞ Z y · f (y)dy
> =
+∞ Z α f (y)dy = αP (Y
α
> =
α).
α 2
Wir setzen nun α = ε2 und Y = (X − E(X)) ; dann ist E(Y ) = E ((X − E(X))) = V (X) und die obige Ungleichung liefert 2 P (X − E(X))
> =
ε2
< =
V (X) , ε2
was mit der Behauptung u ¨bereinstimmt, da die beiden Ereignisse 2 > =
(X − E(X))
ε2 und |X − E(X)| > = ε
die gleichen sind. Setzt man in der Tschebyscheff-Ungleichung ε = nσ, so erh¨alt man die Form < P (|X − E(X)| > = nσ) =
1 . n2
F¨ ur n=4 folgt daraus z. B. P (|X − µ| < 4σ) > = 1−
15 1 = = 0, 9375, 16 16
was man im Falle σ = 1 so lesen kann: Jede Zufallsgr¨oße X nimmt mit mindestens der Wahrscheinlichkeit 0,9375 nur Werte an, deren Abst¨ ande vom Erwartungswert kleiner als 4 sind. Abschließend soll noch eingef¨ uhrt werden, was man unter unabh¨angigen Zufallsgr¨oßen versteht. Zwei Zufallsgr¨ oßen X, Y heißen unabh¨ angig, wenn die sie repr¨asentierenden zuf¨alligen Ereignisse unabh¨angig sind. Ist daher A das Urbild eines Intervalls I bei der Zufallsgr¨oße X und B das Urbild bei der Zufallsgr¨ oße Y , so gilt bei unabh¨ angigen Zufallssgr¨oßen stets P (A ∩ B) = P (A)P (B).
5.1.3.
Einige diskrete Verteilungen
Die wohl einfachste diskrete Verteilung ist die diskrete Gleichverteilung oder gleichm¨ aßige Verteilung. Bei dieser Verteilung nimmt die Zufallsgr¨oße X nur endlich viele Werte x1 , x2 , . . . , xn an und jeden mit der gleichen Wahrscheinlichkeit: pi = P (X = xi ) =
1 , n
i = 1, . . . , n.
Bei den meisten Gl¨ ucksspielen liegt eine solche Verteilung vor. F¨ ur den Erwartungswert und die Varianz folgt hier: n
1X µ= xi , n i=1
n
1X 2 σ2 = x − n i=1 i
n
1X xi n i=1
!2
.
Der Erwartungswert einer gleichm¨ aßig verteilten Zufallsgr¨oße ist also das arithmetische Mittel der m¨oglichen Werte.
5.1. WAHRSCHEINLICHKEIT
203
Eine weitere diskrete Verteilung erhalten wir bei der Betrachtung des folgenden Urnenmodells. Wir betrachten einen zuf¨ alligen Versuch, bei dem der Versuchsausgang f¨ ur jede Wiederholung unabh¨angig von den bereits durchgef¨ uhrten Versuchen ist. Also etwa das Ziehen einer gewissen Kugelanzahl aus einer Urne. Ein gewisses Ereignis A m¨oge mit der Wahrscheinlichkeit p als Versuchsausgang eintreten: P (A) = p. Dann tritt das Ereignis A mit der Wahrscheinlichkeit 1 − p ein. Die n-malige Wiederholung des Versuches liefert uns ein n-Tupel aus den Ereignissen A und A; jedes solche n-Tupel repr¨ asentiert eine Versuchsserie aus n Wiederholungen. Alle m¨oglichen, aus n Wiederholungen bestehenden Versuchsserien werden also durch alle n-Tupel, die aus A und A bestehen, charakterisiert. Von diesen n-Tupeln gibt es genau nr , in denen das Ereignis A genau r-mal auftritt. Jedes n-Tupel hat die gleiche Wahrscheinlichkeit, als Resultat einer Versuchsserie aufzutreten. Enth¨ alt ein n-Tupel genau r-mal das Ereignis A, so enth¨alt es genau (n − r)mal das Ereignis A. Das Auftreten von A und A bei n-maliger Wiederholung sind unabh¨angige Ereignisse, so daß sich die Wahrscheinlichkeiten multiplizieren. Also hat ein n-Tupel von Ereignissen A und A, in dem r-mal das Ereignis A auftritt, die Wahrscheinlichkeit pr (1 − p)n−r , um als Resultat einer Versuchsserie aus n Wiederholungen aufzutreten. Es sei nun X die Anzahl der Ereignisse A in einem n-Tupel, also die absolute H¨aufigkeit des Eintretens von A bei einer Versuchsserie von n Wiederholungen; X ist dann eine Zufallsgr¨oße und kann die Werte 0, 1, 2, . . . , n annehmen. Nach ¨ den obigen Uberlegungen ist P (X = r) =
n r
pr (1 − p)n−r .
Als konkretes Beispiel nehmen wir wie angek¨ undigt das Ziehen von Kugeln aus einer Urne. In der Urne m¨ ogen N Kugeln liegen, R davon seien rot und nach dem Ziehen wird die Kugel zur¨ uckgelegt. Ist X die Anzahl der roten Kugeln unter n zuf¨allig gezogenen, so sei A das Ereignis, eine rote Kugel R . zu ziehen. Dieses Ereignis hat offenbar die Wahrscheinlichkeit p = N Allgemein sagen wir, daß eine diskrete Zufallsgr¨oße X, die die Werte 0, 1, 2, . . . , n annehmen kann, einer Binomialverteilung gen¨ ugt, wenn P (X = r) =
n r
pr (1 − p)n−r ,
r = 0, 1, 2, . . . , n
gilt. Die Binomialverteilung h¨ angt von den beiden Parametern n und p ab. Aus n X
P (X = r) =
r=0
n X n r=0
r
pr (1 − p)n−r = (p + 1 − p)n = 1
ergibt sich, daß tats¨ achlich eine Verteilung vorliegt. Eine typische Anwendung f¨ ur die Binomialverteilung ist die folgende. F¨ ur eine Ware sei bekannt, daß sich in einem hinreichend großen Warenposten ungef¨ahr p · 100% Ausschuß befindet. Die Anzahl der zum Ausschuß geh¨ orenden Einzelst¨ ucke bei einer zuf¨allig entnommenen Stichprobe vom Umfang n ist dann eine Zufallsgr¨oße mit einer Binomialverteilung und den Parametern n und p. Um die Unabh¨ angigkeit einer Warenentnahme von den vorangegangenen Entnahmen zu sichern, muß der Warenposten sehr groß gegen¨ uber dem Stichprobenumfang n sein oder aber man legt jedes entnommene St¨ uck nach der Pr¨ ufung zur¨ uck. Erwartungswert und Varianz lassen sich hier leicht berechnen. Satz 5..7. F¨ ur eine binomialverteilte Zufallsgr¨ oße X mit den Parametern n und p gilt: E(X) = n · p,
V (X) = n · p(1 − p).
204
KAPITEL 5. STOCHASTIK
Beweis.Der Beweis erfolgt durch Ausrechnen: n n n n X X r pr (1 − p)n−r = r pr (1 − p)n−r r r r=0 r=1 n X n−1 = n pr (1 − p)n−r r−1 r=1 n X n−1 = np pr−1 (1 − p)n−1−(r−1) r − 1 r=1
E(X) =
n−1
= np (p + (1 − p))
= np.
Analog berechnet man die Varianz. ¨ Eine binomialverteilte Zufallsgr¨ oße X mit den Parametern n und p kann nach den obigen Uber1 legungen als absolute H¨ aufigkeit interpretiert werden; also ist Y = n X die relative H¨aufigkeit und ebenfalls eine Zufallsgr¨ oße. Nach den Rechenregeln f¨ ur Erwartungswert und Varianz bei einer linearen Transformation der Zufallsgr¨ oße folgt: E(Y ) = p,
V (Y ) =
1 p(1 − p). n
Der Erwartungswert der relativen H¨ aufigkeit ist somit die Wahrscheinlichkeit p selbst; außerdem folgt aus dem Wert der Varianz, daß die Abweichung vom Erwartungswert mit wachsendem n beliebig klein und sehr selten wird. Als dritte diskrete Verteilung betrachten wir die Poissonverteilung. Eine diskrete X, die jede nat¨ urliche Zahl als Wert annehmen kann, heißt poissonverteilt mit dem Parameter λ, λ > 0, wenn P (X = r) =
λr −λ e , r!
r = 0, 1, 2, . . .
gilt. Durch Bildung der entsprechenden unendlichen Reihe u ¨berzeugen wir uns davon, daß wirklich eine Verteilung vorliegt: ∞ X λr r=0
r!
e−λ = eλ e−λ = 1.
Diese Verteilung hat große praktische Bedeutung, da man bei vielen Zufallsgr¨oßen eine Poissonverteilung annehmen kann. Dazu einige Beispiele. • Die Anzahl der Anrufe, die in einem gegebenen Zeitintervall in einer Zentrale eintreffen. Allgemein bei Bedienungssystemen: Die Anzahl der Kunden, die in einer gegebenen Zeiteinheit vor einem Bedienungssytem auf eine Bedienung warten. • Die Anzahl des Eintretens eines Ereignisses A mit kleiner Wahrscheinlichkeit p bei einer sehr großen Zahl von Wiederholungen des entsprechenden Versuches. • Die Anzahl der Atome eines radioaktiven Materials, die in einer gegebenen Zeiteinheit zerfallen. • In einer Telefonzentrale m¨ ogen durchschnittlich 10 Anrufe pro Minute eintreffen. Dann ist λ = 10 und f¨ ur die Wahrscheinlichkeit, daß in einer Minute mehr als 2 Anrufe eingehen,
5.1. WAHRSCHEINLICHKEIT
205
ergibt sich P (X > 2) = 1 − P (X < = 2) = 1 − (P (X = 0) + P (X = 1) + P (X = 2)) 100 −10 101 −10 102 −10 e − e − e 0! 1! 2! ≈ 0, 997.
=1−
Satz 5..8. F¨ ur eine poissonverteilte Zufallsgr¨ oße X mit dem Parameter λ gilt E(X) = λ,
V (X) = λ.
Beweis. Wir berechnen nur den Erwartungswert, da sich die Varianz analog ausrechnen l¨aßt: E(X) =
∞ X
P (X = r)r = e−λ
r=0
= λe−λ
∞ X λr r=0
r!
r
∞ X λr−1 = λe−λ eλ (r − 1)! r=1
= λ. Wir beweisen nun einen wichtigen Zusammenhang zwischen der Binomial- und der Poissonverteilung. Satz 5..9 (Grenzwertsatz von Poisson). F¨ ur alle r (r = 0, 1, 2, . . .) und ein beliebig fixiertes λ > 0 gilt: n−r n λ r λ λr −λ lim 1− = e . n→∞ r n n r! Beweis. Das links stehende Folgeglied schreiben wir in der Form n −r n(n − 1) · · · (n − r + 1) λr λ λ 1− 1− . nr r! n n Der erste Faktor strebt f¨ ur n → ∞ gegen 1, der dritte gegen e−λ und der vierte gegen 1, so daß die Behauptung schon bewiesen ist. Der Inhalt dieses Satzes soll nun interpretiert werden. Die Glieder der Folge n−r n λ r λ 1− r n n sind f¨ ur fixiertes r bei n > art. Ist nun a(r, n, p) die r-te Einzelwahrscheinlichkeit einer bino= r erkl¨ mialverteilten Zufallsgr¨ oße mit den Parametern n und p, b(r, λ) die r-te Einzelwahrscheinlichkeit einer poissonverteilten Zufallsgr¨ oße mit dem Parameter λ = np, so folgt aus dem Grenzwertsatz, daß f¨ ur große n beide n¨ aherungsweise u ¨bereinstimmen: a(r, n, p) ≈ b(r, λ). Die Ann¨ aherung ist bereits f¨ ur n > 10 und kleine Zahlen p f¨ ur praktische Zwecke v¨ollig ausreichend. Diese Tatsache ist praktisch wichtig, da die Werte b(r, λ) in Tabellen vorliegen, w¨ahrend a(r, n, p)
206
KAPITEL 5. STOCHASTIK
f¨ ur große n schlecht berechnet werden kann. Aus der Definition der Poissonverteilung ergeben sich die beiden folgenden Rekursionformeln: λ b(r, λ), r > = 0, r+1 r b(r − 1, λ) = b(r, λ), r > = 1, λ die man vorteilhaft f¨ ur nicht zu große r verwenden kann. Abschließend wollen wir noch zusammenstellen, wie sich diskrete Zufallsgr¨oßen bei Addition verhalten. b(r + 1, λ) =
Satz 5..10. Die diskreten, unabh¨ angigen Zufallsgr¨ oßen X, Y seien binomialverteilt mit den Parametern n, p bzw. m, p. Dann ist die Summe X + Y binomialverteilt mit den Parametern n + m und p. Anschaulich kann man diese Aussage so interpretieren. Sei X eine Zufallsgr¨oße, die das Eintreten eines Ereignisses A mit P (A) = p bei n-maliger Wiederholung beschreibt; entsprechend Y bei m-maliger Wiederholung. Dann geh¨ ort X + Y offenbar zur (n + m)-maligen Wiederholung. Satz 5..11. Die diskreten, unabh¨ angigen Zufallsgr¨ oßen X, Y seien poissonverteilt mit den Parametern λ, %. Dann ist die Summe poissonverteilt mit dem Parameter λ + %. Die beiden letzten Aussagen k¨ onnen durch Ausrechnen verifiziert werden.
5.1.4.
Einige stetige Verteilungen
Die einfachste stetige Verteilung ist die stetige Gleichverteilung oder Rechteckverteilung . Eine stetige Zufallsgr¨ oße X heißt gleichverteilt mit den Parametern a und h (h > 0) – kurz R(a − h, a + h)-verteilt –, wenn ihre Dichtefunktion f die folgende Form hat: < 1 a−h< = x = a+h 2h f (x) = 0 sonst. Wegen Z∞
1 f (x)dx = 2h
−∞
a+h Z
dx = 1
a−h
liegt eine Verteilung vor. Wir berechnen die Verteilungsfunktion. F¨ ur x < a−h ist offenbar F (x) = 0 < und f¨ ur x > a + h ist F (x) = 1. F¨ ur a − h < x a + h folgt = = F (x) =
Zx
1 f (t)dt = 2h
−∞
also zusammen 0 x − (a − h) F (x) = 2h 1
Zx
dt =
x − (a − h) , 2h
a−h
x a + h.
5.1. WAHRSCHEINLICHKEIT
207
Der Erwartungswert ergibt sich zu Z∞
µ=
xf (x)dx =
−∞
a+h Z
1 2h
xdx =
1 (a + h)2 − (a − h)2 =a 2h 2
a−h
und 1 E(X ) = 2h 2
a+h Z
x2 dx =
1 (a + h)3 − (a − h)3 3a2 + h2 = , 2h 3 3
a−h
woraus f¨ ur die Varianz folgt: 2
σ 2 = E(X 2 ) − (E(X)) =
3a2 + h2 h2 − a2 = . 3 3
Wir fassen alles in einem Satz zusammen. Satz 5..12. Eine rechteckverteilte stetige Zufallsgr¨ oße X mit den Parametern a und h hat den 2 Erwartungswert a und die Varianz h3 . Die transformierte Zufallsgr¨ oße Y =
X − (a − h) 2h
ist R(0, 1)-verteilt mit der Dichte < 1 0< = y = 1 f (y) = 0 sonst, dem Erwartungswert
1 2
und der Varianz
1 12 .
Eine wichtige Bedeutung erh¨ alt die R(0, 1)-Verteilung durch den folgenden Umstand. Satz 5..13. Es seien X eine stetige Zufallsgr¨ oße mit der Verteilungsfunktion F und Y jene stetige Zufallsgr¨ oße, die den Wert F (x) annimmt, wenn X den Wert x annimmt, kurz als Y = F (X) geschrieben. Dann ist Y eine R(0, 1)-verteilte Zufallsgr¨ oße. Beweis. Jedem Werteintervall (−∞, x) der Zufallsgr¨oße X entspricht eine Wertemenge der Zufallsgr¨oße Y , die im Intervall [0, F (x)] mit F (x) < = 1 liegt. Andererseits entspricht jedem y ∈ [0, 1] ein Wert x, der die Beziehung y = F (x) = P (X < x) erf¨ ullt. Diese Transformation ist umkehrbar eindeutig, wenn F streng monoton w¨achst. Im allgemeinen wird F −1 (y) f¨ ur gewisse y ein Intervall sein, in dem die Verteilungsfunktion F konstant ist. Ist nun F1 die Verteilungsfunktion von Y , so erhalten wir F1 (y) = P (Y < y) = P (F (X) < y) = P (X < F −1 (y)) = F (F −1 (y)) = y f¨ ur y ∈ [0, 1] und F1 (y) = 0 f¨ ur y < 0, sowie F1 (y) = 1 f¨ ur y > 1; damit < 1 0< = y = 1 F10 (y) = f1 (y) = 0 sonst. Dieser Satz zeigt uns, daß man prinzipiell aus R(0, 1)-verteilten Zufallsgr¨oßen mittels geeigneter Transformationen Zufallszahlen mit anderen Verteilungen berechnen kann.
208
KAPITEL 5. STOCHASTIK
Eine stetige Zufallsgr¨ oße X unterliegt einer Exponentialverteilung mit dem Parameter α (α > 0), wenn ihre Dichtefunktion f die Form 0 x< = 0 f (x) = −αx α·e x>0 hat. Durch Integration u ur die Vertei¨berzeugt man sich sofort, daß eine Verteilung vorliegt. F¨ lungsfunktion F folgt: 0 x< = 0 F (x) = −αx 1−e x > 0. Satz 5..14. Eine exponentialverteilte Zufallsg¨ oße mit dem Parameter α hat den Erwartungswert 1 1 und die Varianz . α α2 Beweis. Der Beweis erfolgt durch direktes Ausrechnen: E(X) =
Z∞
xf (x)dx = α
−∞
Z∞
−αx
xe
dx =
[−xe−αx ]∞ 0
0
+
Z∞
e−αx dx
0
1 1 . = [0 − e−αx ]∞ 0 = α α Analog berechnet man die Varianz. Die Erfahrung zeigt, daß viele zufallsabh¨angige Zeiten einer Exponentialverteilung unterliegen. Folgende Gr¨ oßen sind meist exponentialverteilt: • die Dauer eines Telefonanrufes, • die Dauer einer Reparatur, einer Bedienung, • Zeitdifferenzen, die keinen vorhersagbaren Wert haben, wie z. B. die Zeit zwischen zwei Ausf¨allen eines Rechners oder die Zeit zwischen zwei ankommenden Nachrichten. Die einfache Formel f¨ ur den Erwartungswert erlaubt es, empirisch eine N¨aherung f¨ ur den Parameter α einer exponentialverteilten Zufallsgr¨ oße zu ermitteln. Ist etwa X die zuf¨allige Zeit zwischen zwei Rechnerst¨orungen, so mißt man diese hinreichend oft und bildet u ¨ber die Meßwerte den Mittelwert. Als Parameter α kann man dann n¨ aherungsweise den reziproken Wert davon nehmen. Beispiel. Die Zufallsgr¨ oße X beschreibe die Laufzeit eines Rechners zwischen zwei St¨orungen. Aus einer l¨angeren Meßreihe m¨ oge man wissen, daß der Rechner durchschnittlich 2 Stunden st¨orungsfrei l¨auft; daraus erh¨ alt man α = 21 . Die Wahrscheinlichkeit, daß der Rechner mehr als 3 Stunden st¨orungsfrei l¨ auft, betr¨ agt dann P (X > 3) = 1 − P (X
< =
3) = 1 − (1 − e−0,5·3 ) ≈ 0, 3232.
Nat¨ urlich ist dieser Wert unrealistisch, wenn ein Eingriff in die Funktionsweise des Rechners vorgenommen wurde. Zwischen der Poisson- und der Exponentialverteilung besteht in den Anwendungen oft ein inniger Zusammenhang: So ist die Anzahl der Programme, die in einer Stapelmaschine auf ihren Start warten, meist poisson- und die Abarbeitungszeit exponentialverteilt. Zusammen ergibt sich die Gesamtbearbeitungszeit f¨ ur ein Programm. Die wohl wichtigste Verteilung ist die Normalverteilung. Eine stetige Zufallsgr¨oße X nennt man
5.1. WAHRSCHEINLICHKEIT
209
normalverteilt mit den positiven Parametern µ, σ – kurz N (µ, σ)-verteilt –, wenn die Dichte ϕ von X die folgende Form hat: 1 (x − µ)2 ϕ(x, µ, σ) = √ exp − . 2σ 2 σ 2π Ohne Beweis wollen wir hinnehmen, daß eine Verteilung vorliegt, also +∞ Z ϕ(x, µ, σ)dx = 1 −∞
gilt. Die zugeh¨ orige Verteilungsfunktion lautet dann: 1 Φ(x, µ, σ) = √ σ 2π
Zx
(t − µ)2 exp − dt. 2σ 2
−∞
Empirisch hat man festgestellt, daß alle jene Zufallsgr¨oßen n¨aherungsweise als normalverteilt ange¨ sehen werden k¨ onnen, die durch additive Uberlagerung vieler, voneinander unabh¨angiger, kleiner zuf¨alliger Einfl¨ usse entstehen, bei denen keiner besonders ausgezeichnet ist; so z. B. Meß- und Beobachtungsfehler, bei denen insbesondere kein systematischer Fehlereinfluß vorliegt, Normabweichungen eines Werkst¨ uckes, die insbesondere nicht auf einer falschen Maschineneinrichtung beruhen usw. Bei oftmaliger Wiederholung eines Versuches passiert es h¨aufig, daß man sog. Ausreißer im Versuchsergebnis erh¨ alt, die dann aus der Versuchsserie herausgelassen werden, um zum einen das Ergebnis zu sch¨ onen“ und zum anderen Normalverteilung annehmen zu d¨ urfen. Gelegentlich ” zeigen dann Versuchswiederholungen durch andere Experimentatoren, daß gerade die Ausreißer n¨aher an der Wahrheit waren als das publizierte statistische Ergebnis. Die folgende Abbildung zeigt einen typischen Verlauf von Dichte und Verteilungsfunktion (σ = 1, µ = 3). 1
Φ
q q
q ϕ
0
µ−σ
µ
µ+σ
√ Die Dichte ϕ hat an der Stelle x = µ ein absolutes Maximum mit dem Funktionswert 1/(σ 2π) und verl¨auft symmetrisch zur Maximumstelle; außerdem hat die Funktion in µ − σ und µ + σ je einen Wendepunkt. Je kleiner σ ist, um so h¨oher ist der Maximalwert und umso st¨arker konzentriert sich der gesamte Fl¨ acheninhalt zwischen dem Graphen der Funktion und der x-Achse im Intervall (µ − σ, µ + σ). Ohne Beweis sei der n¨achste Satz angegeben. Satz 5..15. Eine normalverteilte Zufallsgr¨ oße mit den Parametern µ und σ hat den Erwartungswert µ und die Varianz σ 2 .
210
KAPITEL 5. STOCHASTIK
Mittels der Standardisierung Y =
X −µ σ
erh¨alt man aus einer N (µ, σ)-verteilten Zufallsgr¨oße X eine N (0, 1)-verteilte Zufallsgr¨oße Y , d. h. eine Zufallsgr¨ oße mit dem Erwartungswert 0 und der Varianz 1; diese Verteilung nennt man standardisierte Normalverteilung mit der Dichte und der Verteilungsfunktion 1 y2 ϕ(y) = √ exp(− ), 2 2π
1 Φ(y) = √ 2π
Zy
t2 exp − 2
dt.
−∞
Wegen ϕ(x, µ, σ) =
1 ϕ σ
x−µ σ
,
Φ(x, µ, σ) = Φ
x−µ σ
gen¨ ugt es, Dichte und Verteilungsfunktion der standardisierten Normalverteilung zu kennen, die in Tabellen vorliegt. Wegen der Symmetrie ϕ(−x) = ϕ(x),
Φ(−x) = 1 − Φ(x)
kann man sich auf die nichtnegativen Werte von x beschr¨anken. Ist nun X eine N (µ, σ)-verteilte Zufallsgr¨oße, so folgt P (a < X
< =
< b) = P (a < = X = b) = Φ(b, µ, σ) − Φ(a, µ, σ) a−µ b−µ −Φ . =Φ σ σ
Beispiel. Das Gewicht von geschlachteten H¨ahnchen sei normalverteilt mit µ = 1000g, σ = 20g. Die Wahrscheinlichkeit, daß ein H¨ ahnchen zwischen 960g und 1040g wiegt, ist dann P (960 < = X
< =
1040) = Φ(2) − Φ(−2) = 2Φ(2) − 1 ≈ 0, 954.
Allgemein ergibt sich f¨ ur Intervalle, die symmetrisch zum Erwartungswert µ liegen: < P (|X − µ| < = rσ) = P (µ − rσ = X = 2Φ(r) − 1,
< =
µ + rσ) = Φ(r) − Φ(−r)
also z. B. P (|X − µ| < σ) ≈ 0, 683, P (|X − µ| < 2σ) ≈ 0, 955, P (|X − µ| < 3σ) ≈ 0, 997. Der letzte Wert besagt insbesondere, daß es im Falle einer Normalverteilung eine 99, 7%-ige Sicherheit daf¨ ur gibt, daß die Realisierungen der Werte von X im Intervall (µ − 3σ, µ + 3σ) liegt; dies ist die sog. 3σ-Regel. F¨ ur die n¨achste Verteilung ben¨ otigen wir die Gammafunktion oder auch Fakult¨ atsfunktion, die f¨ ur x > 0 definiert ist: Γ(x) =
Z∞ 0
tx−1 e−t dt.
5.1. WAHRSCHEINLICHKEIT
211
Das Integral konvergiert gleichm¨ aßig; daher ist Γ eine stetige Funktion und mittels partieller Integration folgt Γ(x + 1) =
Z∞
x −t
t e dt =
[−e−t tx ]∞ 0
0
+x
Z∞
tx−1 e−t dt
0
= xΓ(x). Wegen Γ(1) = [−e−x ]∞ 0 =1 ergibt sich f¨ ur jede nat¨ urliche Zahl n: Γ(n + 1) = nΓ(n) = n(n − 1)Γ(n − 1) = n(n − 1) · · · 2Γ(1) = n!. Die Gammafunktion ist somit die reelle Erweiterung der Fakult¨at, die wir f¨ ur nat¨ urliche Zahlen kennen. Wir sagen, daß eine stetige Zufallsgr¨ oße X einer χ2 -Verteilung mit m Freiheitsgraden unterliegt, wenn ihre Dichte die folgende Form hat: x< = 0 0 m m f (x) = x 2 −1 e− 2 x > 0. m 22Γ m 2 Diese Verteilung wird bei statistischen Untersuchungen verwendet. Ohne Beweis vermerken wir den n¨achsten Satz. Satz 5..16. Eine χ2 -verteilte Zufallsgr¨ oße mit m Freiheitsgraden hat den Erwartungswert m und die Varianz 2m. Als letzte Verteilung erw¨ ahnen wir die Studentverteilung. Eine stetige Zufallsgr¨oße X unterliegt der Studentverteilung mit n Freiheitsgraden, wenn ihre Dichte die Form − n+1 2 Γ n+1 x2 2 √ 1+ f (x) = n n nπ · Γ( 2 ) hat. Satz 5..17. Eine Studentverteilung mit n > ur = 2 Freiheitsgraden hat den Erwartungswert 0 und f¨ n n> = 3 die Varianz n−2 . Viele praktisch auftretende Verteilungen sind Mischverteilungen. Darum wollen wir zusammenstellen, wie sich Zufallsgr¨ oßen verhalten, wenn man sie elementaren Operationen unterzieht. Satz 5..18. Die unabh¨ angigen Zufallsgr¨ oßen X, Y seien normalverteilt mit denq Parametern µx , σx bzw. µy , σy . Dann ist X + Y normalverteilt mit den Parametern µx + µy und σx2 + σy2 . Allgemeiner gilt Satz 5..19. Sind die unabh¨ angigen Zufallsgr¨ oßen X1 , X2 . . . , Xn normalverteilt mit den gleichen Parametern µ, σ, so ist ihr arithmetisches Mittel n
X=
1X Xi n i=1
eine normalverteilte Zufallsgr¨ oße mit den Parametern µ und
√σ . n
212
KAPITEL 5. STOCHASTIK
Diese Eigenschaft folgt durch vollst¨ andige Induktion aus dem vorletzten Satz. Eine m¨ogliche Interpretation ist die folgende: Bei einem Versuch m¨oge ein Merkmal normalverteilt mit den Parametern µ, σ auftreten. Es sei Xi die dem Merkmal entsprechende Zufallsgr¨oße bei der i-ten Wiederholung des Versuches, wobei die Versuche unabh¨ angig voneinander ausgef¨ uhrt werden. Der Satz gibt dann Auskunft u ¨ber das mittlere Auftreten des betreffenden Merkmals nach n Versuchen. Die folgenden S¨atze zeigen Zusammenh¨ ange zwischen verschiedenen Verteilungen auf. Satz 5..20. Sind die unabh¨ angigen Zufallsgr¨ oßen X1 , . . . , Xn alle N (0, 1)-verteilt, dann ist die Zufallsgr¨ oße X = X12 + X22 + · · · + Xn2 χ2 -verteilt mit n Freiheitsgraden. Satz 5..21. Sind die unabh¨ angigen Zufallsgr¨ oßen X1 , . . . , Xn normalverteilt mit den einheitlichen Parametern µ, σ, so hat die quadratische Abweichung n 1 X (Xi − X)2 σ 2 i=1
vom arithmetischen Mittel X eine χ2 -Verteilung mit n − 1 Freiheitsgraden. Satz 5..22. Es seien X, Y unabh¨ angige Zufallsgr¨ oßen; X sei N (0, 1)-verteilt und Y χ2 -verteilt mit n Freiheitsgraden. Dann hat √ nX Z= √ Y eine Studentverteilung mit n Freiheitsgraden. Eine m¨ogliche Anwendung dieser Aussagen ist die folgende. Es seien X1 , . . . , Xn unabh¨angige und normalverteilte Zufallsgr¨ oßen mit den einheitlichen Parametern µ, σ. Dann ist ihr arithmetisches Mittel X normalverteilt mit den Paramertern µ, √σn , so daß die standardisierte Zufallsgr¨oße X −µ √σ n
N (0, 1)-verteilt ist. Die quadratische Abweichung Y =
n 1 X (Xi − X)2 σ 2 i=1
ist χ2 -verteilt mit n − 1 Freiheitsgraden. Setzen wir alles ineinander ein, so folgt mit dem letzten Satz: Sind die Zufallsgr¨ oßen X1 , . . . , Xn unabh¨angig und normalverteilt mit den einheitlichen Parametern µ, σ, so hat die Zufallsgr¨ oße √
nq
1 n−1
X −µ Pn 2 i=1 (Xi − X)
eine Studentverteilung mit n − 1 Freiheitsgraden.
5.1. WAHRSCHEINLICHKEIT
5.1.5.
213
Grenzwerts¨ atze
Grenzwerts¨ atze haben grundlegende Bedeutung f¨ ur die Anwendungen. Es werden Folgen von Zufallsgr¨oßen untersucht; insbesondere interessiert dabei die sich ergebende Verteilungsfunktion beim Grenz¨ ubergang. Dadurch erhalten wir einerseits eine theoretische Begr¨ undung f¨ ur empirisch gefundene Verteilungen und andererseits die M¨oglichkeit, Grenzverteilungen zu approximieren. Aus den zahlreich vorhandenen Grenzwerts¨atzen w¨ahlen wir nur drei aus. Satz 5..23 (Gesetz der großen Zahlen). Es sei hn (A) die relative H¨ aufigkeit f¨ ur das Eintreten eines Ereignisses A bei n-maliger, unabh¨ angiger Wiederholung des zuf¨ alligen Versuches; das Ereignis A habe die Wahrscheinlichkeit p. Dann gilt f¨ ur jedes ε > 0: lim P (|hn (A) − p| < ε) = 1.
n→∞
Beweis. Wie wir bereits wissen, hat das Ereignis hn (A) den Erwartungswert p und die Varianz p(1 − p)/n. Aus der Tschebyscheff-Ungleichung folgt damit < > 0< = P (|hn (A) − p| = ε) =
p(1 − p) nε2
bzw. > 1> = P (|hn (A) − p| < ε) = 1 −
p(1 − p) . nε2
F¨ ur n → ∞ folgt daraus die Behauptung. F¨ ur große n kommt es nach diesem Satz sehr selten vor, daß die relative H¨aufigkeit des Ereignisses A bei n unabh¨ angigen Wiederholungen des Versuches sich wesentlich von der Wahrscheinlichkeit p unterscheidet. Auch sehr unwahrscheinliche Ereignisse treten mit großer Wahrscheinlichkeit ein, sofern der Versuch nur hinreichend oft wiederholt wird. Der Satz ist daher ein mathematische Pendant zu Volksweisheiten wie z. B. • Was lange w¨ ahrt, wird endlich gut. • Der Krug geht so lange zu Wasser, bis er bricht. Betrachten wir nun die absolute H¨ aufigkeit Hn (A) als Zufallsgr¨oße; sie hat den Erwartungswert np und die Varianz np(1 − p). Die Verteilungsfunktionen der standardisierten, absoluten H¨aufigkeiten streben f¨ ur n → ∞ gegen die Verteilungsfunktion der Normalverteilung. Satz 5..24. (Grenzwertsatz von deMoivre-Laplace) Es seien Hn , n = 1, 2, . . . binomialverteilte Zufallsgr¨ oßen mit den Parametern n und p, 0 < p < 1; Xn seien die standardisierten Zufallsgr¨ oßen Hn − np Xn = p . np(1 − p) Dann gilt f¨ ur die Verteilungsfunktionen Fn : lim Fn (x) = Φ(x).
n→∞
Nach diesem Satz ist eine Binomialverteilung mit den Parametern n undpp f¨ ur große n n¨aherungsweise eine Normalverteilung mit den Parametern µ = np und σ = np(1 − p). F¨ ur eine
214
KAPITEL 5. STOCHASTIK
binomialverteilte Zufallsgr¨ oße X mit den Parametern n und p gilt also f¨ ur große n n¨aherungsweise: ! a − np < < pX − np < p b − np p P (a < = X = b) = P = = np(1 − p) np(1 − p) np(1 − p) ! ! b − np a − np ≈Φ p −Φ p . np(1 − p) np(1 − p) Diese Werte kann man aus den bekannten Tabellen entnehmen. Meist erh¨alt man schon f¨ ur np(1 − p) > 9 gute N¨ aherungswerte. Satz 5..25. (Zentraler Grenzwertsatz) Es sei (Xi ) eine Folge unabh¨ angiger Zufallsgr¨ oßen mit dem gemeinsamen Erwartungswert µ und der gemeinsamen Varianz σ 2 . Dann konvergiert die Folge (Fn ) der Verteilungsfunktionen f¨ ur die standardisierten Zufallsgr¨ oßen Pn Xi − nµ Yn = i=1√ nσ gegen die Verteilungsfunktion der standardisierten Normalverteilung: lim Fn (x) = Φ(x).
n→∞
Nach diesem Satz hat die Summe von n unabh¨angigen Zufallsgr¨oßen Xi , die alle den gleichen Erwartungswert µ und die gleiche Standardabweichung σ haben, n¨aherungsweise eine Normalver√ teilung mit den Parametern nµ und nσ. Das arithmetische Mittel von n unabh¨angigen Zufallsgr¨oßen mit Erwartungswert µ und Standardabweichung σ ist ann¨ahernd normalverteilt mit dem Erwartungswert µ der Varianz σ 2 /n. Dies ist die theoretische Begr¨ undung daf¨ ur, daß eine zuf¨alli¨ ge Erscheinung, die durch additive Uberlagerung vieler unabh¨angiger Einflußgr¨oßen entsteht, bei denen keine sonderlich bevorteilt ist, n¨ aherungsweise normalverteilt ist. Beispiel. Die Zufallsgr¨ oßen Xi , i = 1, 2, . . . seien unabh¨angig und m¨ogen nur die Werte r = 0, 1, . . . , 9 mit der einheitlichen Wahrscheinlichkeit 0, 1 annehmen: P (Xi = r) = 0, 1. Es ist dann 9
µ = E(Xi ) =
1 X r = 4, 5, 10 r=0
9
σ2 =
1 X 2 r − µ2 = 28, 50 − 20, 25 = 8, 25, 10 r=0
also σ ≈ 2, 87. Wir fragen nun danach, wie groß die Wahrscheinlichkeit daf¨ ur ist, daß die Zufallsgr¨oße Y100 =
1 (X1 + X2 + · · · + X100 ) 100
einen Wert annimmt, der gr¨ oßer als 5 ist. Nach dem zentralen Grenzwertsatz ist die Zufallsgr¨oße Y100 ann¨ahernd normalverteilt mit dem Erwartungswert µ = 4, 5 und der Standardabweichung σ=
2, 87 = 0, 287. 10
5.2. ANWENDUNGEN IN SIMULATION UND STATISTIK
215
Wir erhalten also P (Y100 > 5) = P
Y100 − 4, 5 5 − 4, 5 > 0, 287 0, 287
=P
Y100 − 4, 5 > 1, 74 0, 287
≈ 1 − Φ(1, 74) ≈ 0, 041.
5.2.
Anwendungen in Simulation und Statistik
5.2.1.
Erzeugung von Pseudozufallszahlen
Ein großes Gebiet der Informatik ist die Simulation realer Prozesse auf einem Rechner. Hier ist man insbesondere daran interessiert, eine Vielzahl von Daten in k¨ urzester Zeit verf¨ ugbar zu machen, die dann ausreichen, die betrachtete Situation hinreichend genau darzustellen. Auch bei Laufzeituntersuchungen von Algorithmen ben¨otigt man oft Eingabedaten, die ’zuf¨allig’ erzeugt sind und einer gewissen Verteilung gen¨ ugen. Nat¨ urlich ist kein Rechner in der Lage, wirklich Zufall zu erzeugen. Daher stellt sich besser die Frage, wie man Daten erzeugen kann, die f¨ ur einen neutralen Beobachter ’zuf¨ allig’ aussehen und deren Zuf¨alligkeit man wegen gewisser Untersuchungen nicht ablehnen kann. Solche Zahlen nennt man Pseudozufallszahlen. Wie wir gezeigt haben, k¨ onnen wir uns zun¨achst auf die Erzeugung von R(0, 1)-verteilten Zufallszahlen beschr¨ anken, da man daraus mittels geeigneter Transformationen andere Verteilungen berechnen kann. Als leicht zu realisierende Methode hat sich die multiplikative Kongruenzmethode durchgesetzt. Bei dieser Methode wird eine Folge von Zahlen x1 , x2 , . . . aus einer Menge M = { 1, 2, . . . , m − 1 } nach der Vorschrift xi+1 = a · xi (mod m) erzeugt, wobei der Faktor a, der Modul m und der Startwert x1 geeignet gew¨ahlt werden m¨ ussen. Als Zufallszahlen verwendet man dann xi zi = , i = 1, 2, . . . . m Auf Grund unserer algebraischen Kenntnisse wissen wir, daß sich die nach dieser Methode erzeugten Zahlen nach einer gewissen Vorlaufphase periodisch wiederholen m¨ ussen. Man kann zeigen, daß f¨ ur m = 2n mit n > ange m/4 betr¨agt. Diese Schranke wird angenommen, = 3 die maximale Periodenl¨ wenn der Startwert x1 ungerade ist und der Faktor a der Bedingung a = 3 (mod 8) oder a = 5 (mod 8) 1 gen¨ ugt. Alle erzeugten Zahlen haben den Abstand m ; daher sollte man, um n¨aherungsweise eine R(0, 1)-Verteilung zu sichern, den Modul m m¨oglichst groß w¨ahlen, etwa m = 235 , wodurch die maximale Periodenl¨ ange
233 = 8589934592 betr¨agt. F¨ ur die Wahl des Faktors a ist zu beachten, daß das Produkt a · m noch auf dem Rechner ausf¨ uhrbar sein muß. Bei einem 64-bit-Rechner darf a nicht gr¨oßer als 228 = 268435456
216
KAPITEL 5. STOCHASTIK
sein. Andererseits darf man a auch nicht zu klein w¨ahlen, da sonst die produzierten Zahlen nicht mehr unabh¨ angig sind. Ein Kompromiß ist etwa a = 89 + 5 = 134217733. Bezeichnet man mit [x] den Nachkomma-Anteil einer reellen Zahl x, so kann die obige Methode auch als xi+1 = [a · xi ],
i = 1, 2, . . .
geschrieben werden. Wenn wir nun die R(0, 1)-verteilte Zufallsgr¨oße X in der Form X = F (Y ) darstellen, wobei F die Verteilungsfunktion der Zufallsgr¨ oße Y sein soll, so k¨onnen wir mittels Y = F −1 (X) weitere Verteilungen berechnen. Sucht man etwa eine exponentialverteilte Zufallsgr¨oße mit dem Parameter α, also F (y) = 1 − eαy
(y > 0)
und setzt man ln x x > 0 Lnx = 0 sonst, so erf¨ ullt 1 Y = − LnX α diese Forderung. N (0, 1)-verteilte Zufallsgr¨ oßen erh¨ alt man durch die sog. Polarmethode: Sind X, Y unabh¨angige, R(0, 1)-verteilte Zufallsgr¨ oßen, so kann man zeigen, daß √ √ U = −2 ln X sin(2πY ), V = −2 ln X cos(2πY ) normalverteilt sind mit dem Erwartungswert 0 und der Varianz 1.
5.2.2.
Monte-Carlo-Methoden
Wir wollen hier nur die sog. rohe Monte-Carlo-Methode anhand einer konkreten Aufgabe besprechen. Daraus wird das grundlegende Prinzip dieser Methoden klar hervortreten. Es sei ein Gebiet G in der Ebene gegeben, das vollst¨ andig im Einheitsquadrat liegt: < < < G⊂ (x, y) | 0 < = = x = 1, 0 = y = 1 . Auf G sei eine stetige Funktion h erkl¨ art: h : G 7−→ R. Berechnet werden soll das bestimmte Integral von h u ¨ber G: ZZ I= h(x, y)dxdy, G
d. h. das Volumen zwischen der durch h beschriebenen Fl¨ache und dem Gebiet G. Ist ein Gebiet gegeben, das nicht im Einheitsquadrat liegt, bildet man es zun¨achst mittels einer geeigneten
5.2. ANWENDUNGEN IN SIMULATION UND STATISTIK
217
Transformation in das Einheitsquadrat ab. Es seien nun X, Y unabh¨angige, R(0, 1)-verteilte Zufallsgr¨oßen und IG die Indikatorfunktion von G, d. h. 1 (x, y) ∈ G, IG (x, y) = 0 sonst, so l¨aßt sich das Volumenintegral offenbar auch in der Form I = E(h(X, Y )IG (X, Y )) darstellen. Die Idee besteht nun darin, diesen Erwartungswert nach dem Gesetz der großen Zahlen zu approximieren. Sind (Xn ) und (Yn ) unabh¨angige Folgen von R(0, 1)-verteilten Zufallsgr¨oßen, dann gilt n
1X 1X h(Xk , Yk )IG (Xk , Yk ) = lim h(Xk , Yk ), n→∞ n n→∞ n
I = lim
k=1
k
wobei in der letzten Summe u ur die (xk , yk ) ∈ G gilt. Diese ¨ber alle jene k zu summieren ist, f¨ Grundmethode l¨ aßt sich noch wesentlich verfeinern.
5.2.3.
Vertrauensintervalle
Bisher hatten wir angenommen, daß die Verteilung und die Parameter einer Zufallsgr¨oße bekannt sind. In der Praxis stellt sich aber die Frage, ob die urspr¨ unglichen Wahrscheinlichkeitsannahmen gerechtfertigt sind bzw. wie genau die wirkliche Situation erfaßt worden ist. Dazu kann man den folgenden Weg einschlagen: Man f¨ uhre einen zuf¨alligen Versuch hinreichend oft durch und schließe von den Versuchsergebnissen auf die Verteilung und die Parameter der Zufallsgr¨oße. So kann man etwa Gl¨ uhlampen auf ihre Lebenszeit untersuchen und Leute nach ihrer Einstellung zu politischen Parteien befragen, um damit R¨ uckschl¨ usse auf die Gesamtheit aller Gl¨ uhlampen bzw. der Bev¨ olkerung eines Landes zu ziehen. Allgemein wird von einer Stichprobe durch Hochrechnung auf die Grundgesamtheit geschlossen. Wichtig dabei ist, daß durch die Stichprobe ein repr¨asentativer Querschnitt erreicht wird. So hat man z. B. in den USA vor dem zweiten Weltkrieg per Telefon eine repr¨ asentative Umfrage nach dem Namen des n¨achsten Pr¨asidenten gemacht. Es ergab sich eine u berw¨ altigende Mehrheit f¨ ur einen, der es schließlich doch nicht wurde. Die Stich¨ probe war allein schon dadurch nicht repr¨asentativ, daß nur wenige Menschen u ¨ber ein Telefon verf¨ ugten und jene, die telefonisch erreichbar waren, einer ausgew¨ahlten Bev¨olkerungsschicht angeh¨orten. Bei Meinungs-Umfragen entsteht ein weiteres, wichtiges Problem: Durch die Art der Frage, wird die Antwort wesentlich beeinflußt. Beispiel: 1. Frage: Wollen Sie, daß in Ihrem Garten eine atomare Mittelstrecken-Rakete der NATO aufgestellt wird? 2. Frage: Glauben Sie, daß der NATO-Doppelbeschluß Ihrer und damit unserer Sicherheit dient? Jeder aufmerksame Wahlbeobachter kann u ¨ber einige Wahlen hinweg selbst erkennen, daß ein Meinungsforschungs-Institut in seinen Prognosen mehr rechts von der eingetretenen Situation und ein anderes mehr links davon liegt. Diese Tatsache wechselt nicht zwischen den Instituten. Wir wollen zun¨ achst ein Vertrauensintervall f¨ ur eine Wahrscheinlichkeit p konstruieren. Beispiel: Angenommen, bei der letzten Wahl haben 43% der W¨ahler die Partei A gew¨ahlt. Dann ist die Wahrscheinlichkeit p daf¨ ur, daß auf einem zuf¨allig ausgew¨ahlten Stimmzettel die Partei A angekreuzt ist, gleich 0,43. Bei 1000 zuf¨allig ausgew¨ahlten Stimmzetteln wird man ca. 430 Stimmen f¨ ur die Partei A erwarten: µ = 0, 43 · 1000 = 430. Aber weder 410 noch 450 Stimmen f¨ ur A werden uns u ¨berraschen, denn die absolute H¨aufigkeit Hn (A) ist binomialverteilt mit den Parametern n = 1000 und p = 0, 43; Hn (A) ist n¨aherungsweise normalverteilt; wegen np(1 − p) = 430 · 0, 57 > 9
218
KAPITEL 5. STOCHASTIK
folgt < P (405 < = Hn (A) = 455) ≈ 0, 9.
Erst bei weniger als 400 oder mehr als 460 Stimmen w¨are man stutzig, denn P (Hn (A) ∈ / [400, 460]) < 0, 05. Nehmen wir umgekehrt an, daß das Wahlergebnis nicht bekannt ist, 1000 zuf¨allig ausgew¨ahlte Stimmzettel bereits ausgez¨ ahlt sind und dabei ein Anteil hn (A) = 0, 43 auf die Partei A entf¨allt. Selbst wenn sich sp¨ ater herausstellen sollte, daß der wahre Anteil nur 42% oder aber gar 44% betr¨agt, w¨ urden wir unser Stichprobenergebnis akzeptieren, f¨ ur wahrscheinlich halten. F¨ ur welche Stimmenanteile p in der Gesamtw¨ ahlerschaft wird nun das Stichprobenergebnis unwahrscheinlich? Die Frage kann man auch so formulieren: F¨ ur welche Werte von p liegt hn (A) noch nicht in einem Bereich mit geringer Wahrscheinlichkeit? Wir wissen: F¨ ur eine normalverteilte Zufallsgr¨oße X gilt P (µ − kσ
< =
X
< =
µ + kσ) = 2Φ(k) − 1.
Die absolute H¨ aufigkeit Hn (A) ist n¨ aherungsweise normalverteilt mit µ = np,
σ=
p np(1 − p),
also folgt p p < P np − k np(1 − p) < = Hn (A) = np + k np(1 − p) ≈ 2Φ(k) − 1, d. h. P
hn (A) − k
r
p(1 − p) n
< =
p
< =
hn (A) + k
r
p(1 − p) n
!
≈ 2Φ(k) − 1,
bzw. P
−k
< =
√ hn (A) − p np p(1 − p)
< =
k
!
≈ 2Φ(k) − 1.
Daraus folgt f¨ ur eine vorgegebene Wahrscheinlichkeit % > 0, % = 2Φ(k) − 1 ein Intervall # " r r p(1 − p) p(1 − p) hn (A) − k , hn (A) + k n n mit folgender Eigenschaft: In 100 · %% aller Stichproben wird das Intervall den Wert p enthalten. Also liegt p mit der Wahrscheinlichkeit % in diesem Intervall; man nennt es %-Vertrauensintervall f¨ ur die gesuchte Wahrscheinlichkeit p. Die Gr¨oße α = 1 − % heißt Irrtumswahrscheinlichkeit. Das obige Intervall ist eine Zufallsgr¨ oße, da seine Lage noch von hn (A) abh¨angt. Zur Ermittlung des Intervalls ist die quadratische Ungleichung r p(1 − p) < |hn (A) − p| = k · n
5.2. ANWENDUNGEN IN SIMULATION UND STATISTIK
219
zu l¨osen. In unserem obigen Beispiel w¨ ahlen wir α = 0, 05 als Irrtumswahrscheinlichkeit; dann folgt % = 0, 95 und aus % = 2Φ(k) − 1 ergibt sich k = 1, 96, womit die fragliche Ungleichung lautet: r p(1 − p) < |0, 43 − p| = 1, 96 1000 mit den L¨ osungen p1 ≈ 0, 4000, p2 ≈ 0, 460; also k¨onnen wir sagen, daß mit einer 95%-igen Sicherheit der tats¨ achliche Stimmenanteil f¨ ur die Partei A zwischen 40% und 46% liegen wird. Wir wollen nun ein Vertrauensintervall f¨ ur den Erwartungswert ermitteln. Dazu seien X1 , . . . , Xn identisch normalverteilte Zufallsgr¨oßen mit den Parametern µ, σ; dann ist der Mittelwert n
X=
1X Xi n i=1
normalverteilt mit den Parametern µ, √σn und daher die standardisierte Gr¨oße Tµ,σ =
√ X −µ n σ
N (0, 1)-verteilt. Wie oben schließen wir √ X −µ < < P −k = n = k = 2Φ(k) − 1 = % σ bzw. P
σ X − k√ n
< =
σ µ< = X + k√ n
= 2Φ(k) − 1 = %.
Folglich ist σ σ X − k√ ,X + k√ n n ein %-Vertrauensintervall f¨ ur den Erwartungswert µ einer Normalverteilung, falls die Standardabweichung σ bekannt ist. Sollte die Standardabweichung unbekannt sein, ersetzt man sie durch den Sch¨atzwert s mit n
s2 =
1 X (Xi − X)2 n − 1 i=1
und erh¨ alt als Testgr¨ oße Tµ,s =
√ X −µ n ; s
diese ist studentverteilt mit n − 1 Freiheitsgraden. Damit lautet die Bedingung P (−t < = Tµ,s
< =
t) = %.
Bei gegebenem % entnehmen wir den Wert f¨ ur t der Tabelle f¨ ur die Studentverteilung mit n − 1 Freiheitsgraden. Wegen der Symmetrie dieser Verteilung gilt P (−t < = Tµ,s
< =
t) = 2 · P (−t < = Tµ,s ) − 1.
220
KAPITEL 5. STOCHASTIK
Daher haben wir in der Tabelle bei n − 1 und p = wir nun nach dem Erwartungswert um: s s < < =% P X − t√ = µ = X + t√ n n
1+% 2
nachzusehen. Die obige Bedingung stellen
und erhalten s s X − t√ , X + t√ n n als ein %-Vertrauensintervall f¨ ur den Erwartungswert µ einer Normalverteilung bei unbekannter Varianz. Beispiel. Holzbretter werden auf L¨ ange ges¨agt; die letzten 10 hatten eine mittlere L¨ange von 201, 5 cm mit einer Standardabweichung von 2,4 cm. Die Schnittl¨angen seien normalverteilt mit dem Erwartungswert µ und der unbekannten Varianz σ 2 . F¨ ur µ berechnen wir ein 95%-iges Vertrauensintervall: s s 2, 4 2, 4 X − t√ , X + t√ = 201, 5 − 2, 262 √ ; 201, 5 + 2, 262 √ n n 10 10 ≈ [199, 8; 203, 2]. Der t-Wert ist der Tabelle f¨ ur die Studentverteilung bei n = 9 und α = 1+0,95 zu entnehmen. 2 Angenommen, die Varianz σ 2 ist bekannt, z. B. σ = 2, 4; dann kann man mit der Normalverteilung rechnen und erh¨ alt als 95%-iges Vertrauensintervall: σ σ 2, 4 2, 4 X − k√ ,X + k√ = 201, 5 − 1, 96 √ ; 201, 5 + 1, 96 √ n n 10 10 ≈ [200, 0; 203, 0]. Abschließend soll ein Vertrauensintervall f¨ ur die Varianz bestimmt werden. Es seien X1 , . . . , Xn unabh¨ angige, normalverteilte Zufallsgr¨oßen mit den gleichen Parametern µ, σ. Dann ist die Zufallsgr¨ oße Tσ 2 =
n 1 X (Xi − X)2 σ 2 i=1
χ2 -verteilt mit n − 1 Freiheitsgraden. Damit folgt aus P (c1
< =
Tσ 2
< =
c2 ) = %,
d. h. P
c1 < =
n 1 X (Xi − X)2 σ 2 i=1
< =
c2
!
= %,
daß c1 , c2 aus der Tabelle f¨ ur die χ2 -Verteilung mit n − 1 Freiheitsgraden zu ermitteln ist (es liegt eine unsymmetrische Verteilung vor!). Sind nun c1 und c2 bestimmt, so k¨onnen wir die Ungleichung mit der Varianzsch¨ atzung n
s2 =
1 X (Xi − X)2 n − 1 i=1
5.2. ANWENDUNGEN IN SIMULATION UND STATISTIK umformen: (n − 1)s2 P c2
< =
σ2 < =
(n − 1)s2 c1
221
= %.
Folglich ist (n − 1)s2 (n − 1)s2 , c2 c1 ein %-Vertrauensintervall f¨ ur die Varianz einer Normalverteilung. Im Zusammenhang mit der Bestimmung von c1 , c2 erw¨ ahnen wir noch, daß man wegen % = P (c1
< =
Tσ 2
< =
c2 ) = P (Tσ2 < = c2 ) − P (Tσ 2 1+% 1−% = − 2 2
> =
c1 )
den Wert f¨ ur c1 f¨ ur p = 1−% ur p = 1+% 2 und c2 f¨ 2 zu ermitteln hat. Im obigen Beispiel war s = 2, 4. Als 95%-iges Vertrauensintervall f¨ ur σ 2 folgt 9 · 2, 42 9 · 2, 42 (n − 1)s2 (n − 1)s2 , = ; ≈ [2, 73; 19, 2], c2 c1 19, 02 2, 70 also 1, 65 < = σ
< =
4, 38.
Nat¨ urlich ist dies nur eine grobe Sch¨atzung, die sich aber mit einer gr¨oßeren Stichprobe verbessern l¨aßt.
5.2.4.
Testen von Hypothesen
Die prinzipielle Vorgehensweise soll an einem Beispiel erl¨autert werden: Die Partei A behauptet am Wahltag, daß sie die absolute Mehrheit der abgegebenen Stimmen erringen wird. Mit den ersten 1000 zuf¨ allig ausgew¨ ahlten Stimmzetteln soll die Behauptung p > 0, 5 u uft werden. ¨berpr¨ Wir lehnen die Behauptung ab, wenn f¨ ur das Stichprobenergebnis Hn (A) mit einem gewissen a gilt: < P (Hn (A) < = a) = α 1, z. B. α = 0, 01
unter der Annahme p > 0, 5. Es sind E(Hn (A)) = n · p = 500,
σ 2 = V (Hn (A)) = np(1 − p) = 250,
und Hn (A) ist ann¨ ahernd normalverteilt, also P (Hn (A) < = µ − kσ) ≈ Φ(−k) = 1 − Φ(k) und mit α = 1 − Φ(k) = 0, 01: √ P (Hn (A) < = 500 − 2, 33 250) ≈ 0, 01 oder P (Hn (A) < = 463) < 0, 01.
222
KAPITEL 5. STOCHASTIK
Also kann man so argumentieren: Erh¨ alt die Partei A wirklich einen Stimmenanteil von 50%, so ist es sehr unwahrscheinlich, daß unter den 1000 zuf¨allig ausgew¨ahlten Stimmzetteln h¨ochstens 463 Stimmen f¨ ur A sind. Sollte dies trotzdem eintreten, werden wir die Behauptung p > 0, 5 ablehnen, wobei wir uns im ersten Falle mit der Wahrscheinlichkeit α = 0, 01 irren; daher heißt α Irrtumswahrscheinlichkeit. Die Hypothese p > 0, 5 werden wir nur dann annehmen, wenn das Stichprobenergebnis Hn (A) unter der Annahme p < = 0, 5 sehr unwahrscheinlich wird, also mit einem gewissen a gilt: < P (Hn (A) > = a) = α.
Daf¨ ur folgt (p = 0, 5): P (Hn (A) > = µ + kσ) ≈ 1 − Φ(k) = α = 0, 01 √ bzw. (k = 2, 33, σ = 250) P (Hn (A) > = 537) < 0, 01, was man so interpretieren kann: Unter der Annahme, daß der wahre W¨ahleranteil unter 50% liegen wird, entfallen h¨ ochstens mit der Wahrscheinlichkeit 0,01 mehr als 536 Stimmen aus der Stichprobe auf die Partei A. Werden aber mehr als 536 Stimmen f¨ ur A gez¨ahlt, wird man die Hypothese H0 : p < = 0, 5 verwerfen und p > 0, 5 annehmen. Im Falle 463 < Hn (A) < 537 (das sind 7, 45% Abweichung von 500) ist mit einer Irrtumswahrscheinlichkeit von α = 0, 01 die Hypothese H0 : p > 0, 5 weder anzunehmen noch abzulehnen. Durch Erh¨ohung der Irrtumswahrscheinlichkeit oder des Stichprobenumfangs kann man das Intervall verkleinern. Bei einer Stichprobe von n = 2000 betr¨ agt die Abweichung nur noch 5, 2%. Allgemein: Wir betrachten die Testgr¨ oße hn (A) − p0 , Th = q p0 (1−p0 ) n
wobei p0 eine angenommene Wahrscheinlichkeit in der Hypothese H0 : p > = p0 ist. Die Hypothese wird abgelehnt, wenn Th < −k bei einer Irrtumswahrscheinlichkeit α 1 und die Gegenhypothese H1 : p < p0 angenommen. Die Hypothese H0 : p < = p0 wird bei Th > k abgelehnt. Beides sind einseitige Tests. Ein zweiseitiger Test ist z. B. H0 : p = p0 . Dieser Test wird abgelehnt, wenn Th > k oder Th < −k ausf¨ allt; dabei muß α aufgeteilt werden: α P (Th > k) = 1 − Φ(k) < . = 2 Mit den Testgr¨ oßen Tµ,σ =
√ X −µ n , σ
Tµ,s =
√ X −µ n , s
Tσ 2 =
(n − 1)s2 σ2
kann man µ bzw. σ testen. Dabei wird die Hypothese H0 : µ = µ0 f¨ ur Tµ,σ < −k oder Tµ,σ > k abgelehnt; ebenso f¨ ur Tµ,s < −t oder Tµ,s > t. Die Hypothese H0 : σ 2 = σ02 wird f¨ ur Tσ2 < c1 oder Tσ2 > c2 abgelehnt und jeweils die Gegenhypothese angenommen. Beispiel. Wir nehmen das Holzs¨ agen mit verschiedenen Hypothesen: H0 : µ = 202, 5 cm, α = 0, 05, σ = 2, 4; die Hypothese kann nicht abgelehnt werden, da √ 201, 5 − 202, 5 −1, 96 < 10 < 1, 96; 2, 4
5.2. ANWENDUNGEN IN SIMULATION UND STATISTIK
223
H0 : µ < = 200, α = 0, 05 und unbekannte Varianz; die Hypothese wird abgelehnt mit Tµ,s : √
10
H0 : σ 2
> =
201, 5 − 200, 0 > 1, 833; 2, 4 16, α = 0, 05 wird abgelehnt, da
(n − 1)s2 9 · 2, 42 = < c1 = 3, 3251. σ02 16 Man hat zwei Fehlerarten bei Testentscheidungen: 1. Die Hypothese H0 wird abgelehnt, obwohl sie richtig ist. 2. Die Hypothese wird angenommen, obwohl sie falsch ist. Bei fixiertem Stichprobenumfang bewirkt eine Verringerung des ersten Fehlers eine Vergr¨oßerung des zweiten. Nur eine Vergr¨ oßerung des Stichprobenumfangs verringert beide Fehlerrisken gleichzeitig. Ein kleiner Stichprobenumfang verlangt eine nicht zu kleine Irrtumswahrscheinlichkeit. Welcher Fehler folgenschwerer ist, kann mathematisch nicht entschieden werden. Nehmen wir nur die beiden Hypothesen: Das Medikament ist wirksam“ und Es treten Nebenwirkungen auf“. Bei der ersten ” ” Hypothese ist der zweite Fehler bedeutungsvoller; bei der zweiten Hypothese ist sicherlich der erste Fehler folgenreicher.
224
KAPITEL 5. STOCHASTIK
5.2.5.
Tabellen von Verteilungen
1. Die Poisson-Verteilung mit dem Parameter λ λ
r 0 1 2 3 4 5 6 7 8
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,904837 0,090484 0,004524 0,000151 0,000004 — — — —
0,818731 0,163746 0,016375 0,001092 0,000055 0,000002 — — —
0,740818 0,222245 0,033337 0,003334 0,000250 0,000015 0,000001 — —
0,670320 0,268128 0,053626 0,007150 0,000715 0,000057 0,000004 — —
0,606531 0,303265 0,075816 0,012636 0,001580 0,000158 0,000013 0,000001 —
0,548812 0,329287 0,098786 0,019757 0,002964 0,000356 0,000036 0,000003 —
0,496585 0,347610 0,121663 0,028388 0,004968 0,000696 0,000081 0,000008 0,000001
0,449329 0,359463 0,143785 0,038343 0,007669 0,001227 0,000164 0,000019 0,000002
λ
r 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
0,9
1,0
1,5
2,0
2,5
3,0
3,5
4,0
0,406570 0,365913 0,164661 0,049398 0,011115 0,002001 0,000300 0,000039 0,000004 — — — — — — — — —
0,367879 0,367879 0,183940 0,061313 0,015328 0,003066 0,000511 0,000073 0,000009 0,000001 — — — — — — — —
0,223130 0,334695 0,251021 0,125510 0,047067 0,014120 0,003530 0,000756 0,000142 0,000024 0,000004 — — — — — — —
0,135335 0,270671 0,270671 0,180447 0,090224 0,036089 0,012030 0,003437 0,000859 0,000191 0,000038 0,000007 0,000001 — — — — —
0,082085 0,205212 0,256516 0,213763 0,133602 0,066801 0,027834 0,009941 0,003106 0,000863 0,000216 0,000049 0,000010 0,000002 — — — —
0,049787 0,149361 0,224042 0,224042 0,168031 0,100819 0,050409 0,021604 0,008102 0,002701 0,000810 0,000221 0,000055 0,000013 0,000003 0,000001 — —
0,030197 0,150691 0,184959 0,215785 0,188812 0,132169 0,077098 0,038549 0,016865 0,006559 0,002296 0,000730 0,000213 0,000057 0,000014 0,000003 0,000001 —
0,018316 0,073263 0,146525 0,195367 0,195367 0,156293 0,104196 0,059540 0,029770 0,013231 0,005292 0,001925 0,000642 0,000197 0,000056 0,000015 0,000004 0,000001
5.2. ANWENDUNGEN IN SIMULATION UND STATISTIK λ
r 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
225
4,5
5,0
6,0
7,0
8,0
9,0
10
0,011109 0,049990 0,112479 0,168718 0,189808 0,170827 0,128120 0,082363 0,046329 0,023165 0,010424 0,004264 0,001599 0,000554 0,000178 0,000053 0,000015 0,000004 0,000001 — — — — — — — — — — —
0,006738 0,033690 0,084224 0,140374 0,175467 0,175467 0,146223 0,104445 0,065278 0,036266 0,018133 0,008242 0,003434 0,001321 0,000472 0,000157 0,000049 0,000014 0,000004 0,000001 — — — — — — — — — —
0,002479 0,014873 0,044618 0,089235 0,133853 0,160623 0,160623 0,137677 0,103258 0,068838 0,041303 0,022629 0,011264 0,005199 0,002228 0,000891 0,000334 0,000118 0,000039 0,000012 0,000004 0,000001 — — — — — — — —
0,000912 0,006383 0,022341 0,052129 0,091226 0,127717 0,149003 0,149003 0,130377 0,101405 0,070983 0,045171 0,026350 0,014188 0,007094 0,003311 0,001448 0,000596 0,000232 0,000085 0,000030 0,000010 0,000003 0,000001 — — — — — —
0,000335 0,002684 0,010735 0,028626 0,057252 0,091604 0,122138 0,139587 0,139587 0,124077 0,099262 0,072190 0,048127 0,029616 0,016924 0,009026 0,004513 0,002124 0,000944 0,000397 0,000159 0,000061 0,000022 0,000008 0,000003 0,000001 — — —
0,000123 0,001111 0,004998 0,014994 0,033737 0,060727 0,091090 0,117116 0,131756 0,131756 0,118580 0,097020 0,072765 0,050376 0,032384 0,019431 0,010930 0,005786 0,002893 0,001370 0,000617 0,000264 0,000108 0,000042 0,000016 0,000006 0,000002 0,000001 — —
0,000045 0,000454 0,002270 0,007567 0,018917 0,037833 0,063055 0,090079 0,112599 0,125110 0,125110 0,113736 0,094780 0,0,2908 0,052077 0,034718 0,021699 0,012764 0.007091 0,003732 0,001866 0,000889 0,000404 0,000176 0,000073 0,000029 0,000011 0,000004 0,000001 0,000001
226
KAPITEL 5. STOCHASTIK
2. Die Normalverteilung mit Erwartungswert 0 und Varianz 1 x
ϕ(x)
x
ϕ(x)
x
ϕ(x)
x
ϕ(x)
x
ϕ(x)
0,00 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,55
0,3989 0,3984 0,3970 0,3945 0,3910 0,3867 0,3814 0,3752 0,3683 0,3605 0,3521 0,3429
0,60 0,65 0,70 0,75 0,80 0,85 0,90 0,95 1,00 1,05 1,10 1,15
0,3332 0,3230 0,3123 0,3011 0,2897 0,2780 0,2661 0,2541 0,2420 0,2299 0,2179 0,2059
1,20 1,25 1,30 1,35 1,40 1,45 1,50 1,55 1,60 1,65 1,70 1,75
0,1942 0,1826 0,1714 0,1604 0,1497 0,1394 0,1295 0,1200 0,1109 0,1023 0,0940 0,0863
1,80 1,85 1,90 1,95 2,00 2,05 2,10 2,15 2,20 2,25 2,30 2,35
0,0790 0,0721 0,0656 0,0596 0,0040 0,0488 0,0440 0,0396 0,0355 0,0317 0,0283 0,0252
2,40 2,45 2,50 2,55 2,60 2,65 2,70 2,75 2,80 2,85 2,90 2,95 3,00
0,0224 0,0198 0,0176 0,0154 0,0136 0,0119 0,0104 0,0091 0,0079 0,0069 0,0060 0,0051 0,0044
x
Φ(x)
x
Φ(x)
x
Φ(x)
x
Φ(x)
0,00 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,55 0,60 0,65 0,70
0,500000 0,519939 0,539828 0,559618 0,579260 0,598706 0,617911 0,636831 0,655422 0,673645 0,691463 0,708840 0,725747 0,742154 0,758036
0,75 0,80 0,85 0,90 0,95 1,00 1,05 1,10 1,15 1,20 1,25 1,30 1,35 1,40 1,45
0,773373 0,788145 0,802338 0,815940 0,828944 0,841345 0,853141 0,864334 0,874928 0,884930 0,894350 0,903200 0,911492 0,919243 0,926471
1,50 1,55 1,60 1,65 1,70 1,75 1,80 1,85 1,90 1,95 2,00 2,05 2,10 2,15 2,20
0,933193 0,939429 0,945201 0,950528 0,955434 0,959941 0,964070 0,967843 0,971283 0,974412 0,977250 0,979818 0,982136 0,984222 0,986097
2,25 2,30 2,35 2,40 2,45 2,50 2,55 2,60 2,65 2,70 2,75 2,80 2,85 2,90 2,95 3,00
0,987776 0,989276 0,990613 0,991802 0,992857 0,993790 0,994614 0,995339 0,995975 0,996533 0,997020 0,997445 0,997814 0,998134 0,998411 0,998650
3. Die χ2 -Verteilung Die Tabelle gibt die Werte von χα f¨ ur einige Werte α an. Dabei ist χ2α so bestimmt, daß die Wahrscheinlichkeit daf¨ ur, daß die Zufallsgr¨oße χ2 mit n Freiheitsgraden nicht kleiner als χ2α ist, gleich α ist: P (χ2 > =
χ2α )
1 = n n 2 2 Γ( 2 )
Z∞ χ2α
x
n
e− 2 x 2 −1 dx = α
5.2. ANWENDUNGEN IN SIMULATION UND STATISTIK α
n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
227
0,80
0,70
0,50
0,30
0,20
0,10
0,05
0,02
0,01
0,064 0,446 1,005 1,649 2,343 3,070 3,822 4,594 5,380 6,179 6,989 7,807 8,634 9,467 10,307 11,152 12,002 12,857 13,716 14,578 15,445 16,314 17,187 18,062 18,940 19,820 20,703 21,588 22,475 23,364
0,148 0,713 1,424 2,195 3,000 3,828 4,671 5,527 6,393 7,267 8,148 9,034 9,926 10,821 11,721 12,624 13,531 14,440 16,352 16,266 17,182 18,101 19,021 19,943 20,867 21,792 22,719 23,647 24,577 25,508
0,455 1,386 2,366 3,357 4,351 6,348 6,346 7,344 8,343 9,342 10,341 11,340 12,340 13,339 14,339 15,338 16,338 17,338 18,338 19,337 20,337 21,337 22,337 23,337 24,337 25,336 26,336 27,336 28,336 29,336
1,074 2,408 3,665 4,878 6,064 7,231 8,383 9,524 10,656 11,781 1,899 14,011 15,119 16,222 17,322 18,418 19,511 20,601 21,689 22,775 23,858 24,939 26,018 27,096 28,172 29,246 30,319 31,391 32,461 33,530
1,642 3,219 4,642 5,989 7,289 8,558 9,803 11,030 12,242 13,442 14,631 15,812 16,985 18,151 19,311 20,465 21,615 22,760 23,900 25,038 26,171 27,301 28,429 29,553 30,675 31,795 32,912 34,027 35,139 36,250
2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 29,615 30,813 32,007 33,196 34,382 35,563 36,741 37,916 39,087 40,256
3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362 23,685 24,996 26,296 27,687 28,869 30,144 31,410 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,657 43,773
5,412 7,824 9,837 11,668 13,388 15,033 16,622 18,168 19,679 21,161 22,618 24,054 25,472 26,873 28,259 29,633 30,995 32,346 33,687 35,020 36,343 37,659 38,968 40,270 41,566 42,856 44,140 45,419 46,693 47,962
6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892
228
KAPITEL 5. STOCHASTIK
4. Die Student-Verteilung Die Tabelle enth¨ alt die Werte von tα f¨ ur einige Werte α. Dabei ist tα derart gew¨ahlt, daß die Wahrscheinlichkeit daf¨ ur, daß die studentverteilte Zufallsgr¨oße t mit n Freiheitsgraden absolut genommen nicht kleiner als tα ist, gleich α ist: Z∞ − n+1 2 Γ n+1 x2 2 > P (|t| = tα ) = √ dx = α 1 + n n nπ · Γ( 2 ) tα
α
n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 ∞
0,80
0,60
0,40
0,20
0,10
0,05
0,02
0,01
0,325 0,289 0,277 0,271 0,267 0,265 0,263 0,262 0,261 0,260 0,260 0,259 0,259 0,258 0,258 0,258 0,257 0,257 0,257 0,257 0,257 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,255 0,254 0,254 0,253
0,727 0,617 0,584 0,569 0,559 0,553 0,549 0,546 0,543 0,542 0,540 0,539 0,538 0,537 0,536 0,535 0,534 0,534 0,533 0,533 0,532 0,532 0,532 0,531 0,531 0,531 0,531 0,530 0,530 0,530 0,529 0,527 0,526 0,524
1,376 1,061 0,978 0,941 0,920 0,906 0,896 0,889 0,883 0,879 0,876 0,873 0,870 0,868 0,866 0,865 0,863 0,862 0,861 0,860 0,859 0,858 0,858 0,857 0,856 0,856 0,855 0,855 0,854 0,854 0,851 0,848 0,845 0,842
3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,303 1,296 1,289 1,282
6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,684 1,671 1,658 1,645
12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,021 2,000 1,980 1,960
31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,423 2,390 2,358 2,326
63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,704 2,660 2,617 2,576
¨ 5.3. UBUNGEN
5.3.
229
¨ Ubungen
1. Eine Reederei besitzt n Schiffe, Ai sei das zuf¨allige Ereignis Das i-te Schiff sinkt.“ (i = ” 1, . . . , n). Man beschreibe die folgenden Ereignisse durch Ai und die u ¨blichen Operationen mit zuf¨ alligen Ereignissen: B: Mindestens ein Schiff sinkt.“, ” C: Keines der n Schiffe sinkt.“, ” D: Genau ein Schiff sinkt.“, ” E: H¨ ochstens ein Schiff sinkt.“. ” 2. Zwei Sch¨ utzen A und B schießen unabh¨angig voneinander 5 Schuß auf eine Zielscheibe. Die Trefferwahrscheinlichkeit von A betr¨agt 0,7, die von B 0,6. Man bestimme die Wahrscheinlichkeit f¨ ur folgende Ereignisse: (a) A hat mindestens einen Treffer, (b) B hat h¨ ochstens 2 Treffer, (c) A hat genau 3 Treffer, (d) A und B haben zusammen mindestens 2 Treffer. 3. Wieviele Teilnehmer muß man h¨ochstens zu einem f¨ unft¨agigen Kongreß einladen, damit mit der Wahrscheinlichkeit 0,95 mindestens einer w¨ahrend dieser 5 Tage Geburtstag hat? 4. In einer Urne sind 4 Kugeln mit den Zahlen 1 bis 4. Bei einem zuf¨alligen Versuch werden nacheinander 2 Kugeln gezogen (ohne Zur¨ ucklegen der 1. Kugel). Die Zufallsgr¨oße X sei die Differenz zwischen der 1. und der 2. gezogenen Zahl. (a) Man ermittle die Einzelwahrscheinlichkeiten pk = P (X = k). (b) Man skizziere die Verteilungsfunktion F . (c) Man ermittle P (−1 < X < 3). 5. Sei FX (x) = a + b arctan x (x ∈ R) die Verteilungsfunktion einer Zufallsgr¨oße X. (a) Man bestimme die Konstanten a und b. (b) Wie lautet die Dichtefunktion? (c) Man bestimme den Erwartungswert und die Varianz von X. 6. Es sei f eine durch αx2 (1 − x) f (x) = 0
< 0< = x = 1 sonst
gegebene Funktion. (a) Man bestimme α so, daß f die Dichtefunktion einer stetigen Zufallsgr¨oße X ist. (b) Man ermittle Verteilungsfunktion, Erwartungswert und Varianz. (c) Man berechne P (X < 1/2) und P (X < E(X)). 7. In einem Meßger¨ at seien 4 unabh¨angig voneinander arbeitende Transistoren gleicher Bauart installiert. Die zuf¨ allige Zeit T bis zum Ausfall unterliege einer Exponentialverteilung. 0, 15e−0,15t t > 0 f (t) = 0 sonst.
230
KAPITEL 5. STOCHASTIK (a) Man berechne die Wahrscheinlichkeit daf¨ ur, daß ein solcher Transistor mindestens 10 Zeiteinheiten arbeitet. (b) Man berechne die Wahrscheinlichkeit daf¨ ur, daß mindestens einer der 4 Transistoren l¨anger als 10 Zeiteinheiten arbeitet. (c) Man berechne die mittlere Anzahl der Transistoren, die l¨anger als 10 Zeiteinheiten arbeiten.
8. Gegeben sei die Funktion f mit xe (a) Man bestimme die Konstante a derart, daß f Dichtefunktion einer Zufallsgr¨oße X ist. (b) Man ermittle die Verteilungsfunktion F . 9. Es sei X eine diskrete Zufallsgr¨ oße mit der Verteilungstabelle: xi pi
-1 1/5
0 1/5
1 1/5
2 1/5
3 1/5
Man berechne f¨ ur Y =| X − E(X) | (a) die Verteilungsfunktion FY und die Einzelwahrscheinlichkeiten pyi , (b) E(Y ), (c) P (Y > 0). 10. Gegeben sei eine Funktion f mit 0 x < −1 und x > = 1 f (x) = a −1 < = x , = 10
|a| = 0.α1 α2 . . . αm αm+1 . . . , Man bildet 0.α1 α2 . . . αm 0 a = 0.α1 α2 . . . αm + 10−m
0< = αi
< =
9,
αm+1 αm+1
< = > =
4 5
α1 6= 0.
und danach x = sign(x) · a0 · 10b . Dann ergibt sich der relative Fehler von x zu 0.αm+1 . . . · 10−m 0 x − x a − |a| < 0.α1 α2 . . . x = a = −m − 0.αm+1 αm+2 . . . · 10−m 10 0.α1 α2 . . . also mit der Abk¨ urzung eps = 5 · 10−m : x = x(1 + ε),
|ε| < = eps.
< =
5 · 10−m ,
240
KAPITEL 6. NUMERISCHE MATHEMATIK
Auf einem konkreten Rechner bestimmt man eps als kleinste positive Rechnerzahl, f¨ ur die der Test if 1. + eps > 1.“ positiv ausf¨ allt. ” Wegen des hohen konstruktiven Aufwandes vollzieht sich die Rechner-Rundung nach anderen Prizipien, jedoch meist so, daß sie bis auf einen konstanten Faktor mit der obigen u ¨bereinstimmt. F¨ ur den Exponenten einer Rechnerzahl ist nur eine beschr¨ankte Stellenzahl reserviert; daher kann ¨ es w¨ahrend der Rechnung zu Exponenten-Unterlauf bzw. zu Exponenten-Uberlauf kommen. Der ¨ erste Fall wird meist ohne Fehlermeldung u das Pro¨bergangen, w¨ahrend bei Exponenten-Uberlauf gramm mit einem Laufzeitfehler abbricht. Wir wollen hier die Stellenzahl e f¨ ur den Exponenten als hinreichend groß annehmen. Da arithmetische Operationen mit Rechnerzahlen i. a. keine Rechnerzahlen liefern, sind sie als Ersatzoperationen (Real-Operationen) (+), (−), (·), (/) realisiert, etwa in der Form x(◦)y = x ◦ y,
◦ ∈ {+, −, ·, /},
so daß x(◦)y = (x ◦ y)(1 + ε),
|ε| < = eps
gilt. Wegen der meist etwas anderen Rundung wird der Fehler etwas gr¨oßer sein, jedoch so, daß > noch |ε| < = ν · eps mit ν = 1 gilt. Interessant und wichtig ist der Fall der Ausl¨ oschung, der bei der Subtraktion zweier Rechnerzahlen x, y mit gleichen Vorzeichen, Exponenten und u uhrenden Mantissenstellen ¨bereinstimmenden f¨ eintritt, z. B. bei x = 0.315876 · 101 , y = 0.315289 · 101 . Die Differenz x − y ist wieder eine Rechnerzahl, so daß die Operation exakt ausgef¨ uhrt wird: x(−)y = x − y = 0.587000 · 10−2 . Jedoch geraten wegen der Normalisierung von x−y alte Rundungsgehler in h¨ohere Mantissenstellen. Waren etwa bei x und y noch die ersten 3 Ziffern richtig, so ist bei der Differenz keine Ziffer mehr sicher. Also werden jene Fehler, die bei der Berechnung von x und y vor der Subtraktion entstanden, verst¨ arkt. Eine rechner-unabh¨angige N¨aherungsmethode zur Ausl¨oschungsmessung ist im Programm AUSL implementiert. Dabei wird die Ausl¨oschung bei Zahlen, die kleiner als 1 sind, als absoluter, und bei Zahlen gr¨ oßer 1 als relativer Fehler gemessen. F¨ ur das Ergebnis von Real-Operationen hat sich die Schreibweise gl(x ◦ y) = x(◦)y eingeb¨ urgert, die wir auch verwenden wollen. Eine numerische Aufgabe besteht darin, aus gewissen Zahlen x1 , x2 , . . . , xn (Input) gewisse andere Zahlen y1 , y2 , . . . , ym (Output) zu berechnen. Ein Problem dieser Art zu l¨osen bedeutet, den Wert y einer gewissen Vektorfunktion ϕ = (ϕ1 , ϕ2 , . . . , ϕm ) im Punkte x zu bestimmen: yi = ϕi (x1 , x2 , . . . , xn ),
i = 1, 2, . . . , m.
Ein Algorithmus ist eine endliche Rechenvorschrift zur Berechnung von ϕ(x). Die Abbildung ϕ sei Verkn¨ upfung von elementaren Operationen: ϕ = ϕ(r) ◦ ϕ(r−1) ◦ . . . ◦ ϕ(1) ◦ ϕ(0) .
6.2. RECHNERZAHLEN UND RUNDUNG
241
Unter den elementaren Operationen kann man etwa die arithmetischen Operationen und die u ¨blichen Standardfunktionen verstehen, wie sie u ubersetzer verf¨ ugbar sind. Auf einem ¨ber einen Sprach¨ Rechner sind f¨ ur die elementaren Operationen ϕ(i) Ersatzabbildungen gl(ϕ(i) ) implementiert. Entsprechend ist gl(ϕ(i) )(x(i) ) − ϕ(i) (x(i) ) der Rundungsfehler, der bei der Berechnung von ϕ(i) (x(i) ) auf dem Rechner entsteht. Beispiel 1. Es sei ϕ(a, b, c) = a + b + c. Wir haben zwei Algorithmen: ALG1: η =a+b y =c+η
ALG2: η =b+c y =a+η
ϕ(0) (a, b, c) =
a+b c
ϕ(0) (a, b, c) =
a b+c
ϕ(1) (u, v) = u + v ϕ = ϕ(1) ◦ ϕ(0) . Beispiel 2. Es sei ϕ(a, b) = a2 − b2 . Auch hier haben wir zwei Algorithmen: ALG1: η1 = a · a η2 = b · b y = η1 − η2 a2 ϕ(0) (a, b) = b2
ALG2: η1 = a + b η2 = a − b y = η1 · η2 a+b (0) ϕ (a, b) = a−b
ϕ(1) (u, v) = u − v
ϕ(1) (u, v) = u · v
Am ersten Beispiel soll gezeigt werden, daß verschiedene Algorithmen zur L¨osung eines Problems verschiedene Resultate liefern. In ALG 1 erh¨alt man f¨ ur y =a+b+c einen N¨ aherungswert y˜ = gl(gl(a + b) + c) mit η = gl(a + b) = (a + b)(1 + ε1 ) y˜ = gl(η + c) = (η + c)(1 + ε2 ) = [(a + b)(1 + ε1 ) + c](1 + ε2 ) a+b ε1 (1 + ε2 ) + ε2 . = (a + b + c) 1 + a+b+c F¨ ur den relativen Fehler εy von y˜ folgt εy =
y˜ − y a+b = ε1 (1 + ε2 ) + ε2 y a+b+c
242
KAPITEL 6. NUMERISCHE MATHEMATIK
und in erster N¨ aherung . εy =
a+b ε1 + 1 · ε2 . a+b+c
Die beiden Faktoren vor ε1 und ε2 geben an, wie sich die Rundungsfehler ε1 , ε2 im relativen Fehler des Ergebnisses verst¨ arken. Der kritische Faktor ist dabei jener vor ε1 ; je nachdem, welcher der beiden Faktoren |a + b|, |b + c| kleiner ist, wird es numerisch g¨ unstiger, den ersten bzw. den zweiten Algorithmus anzuwenden. Man nennt einen Algorithmus zur Berechnung von ϕ(x) numerisch stabiler als einen zweiten, falls der Gesamtfehler beim ersten Algorithmus kleiner als beim zweiten ist.
6.3.
Interpolation
Das Interpolationsproblem ist ein grundlegendes innerhalb der numerischen Mathematik. Wir formulieren es in folgender Form. Es seien eine Funktion Φ: y = Φ(x; a0 , a1 , . . . , an ) und n + 1 Paare (xi , yi ), i = 0, 1, . . . , n, xi 6= xk f¨ ur i 6= k gegeben. Die Funktion Φ h¨ange von n + 1 unbekannten Parametern a0 , a1 , . . . , an ab. Die Paare nennt man St¨ utzstellen oder auch St¨ utzpunkte. Die unbekannten Parameter sind so zu bestimmen, daß Φ(xi ; a0 , a1 , . . . , an ) = yi ,
i = 0, 1, . . . , n
gilt. Ein Interpolationsproblem heißt linear , wenn die Funktion Φ linear von den Parametern abh¨angt, also die Form Φ(x; a0 , a1 , . . . , an ) =
n X
ai Φi (x)
i=0
hat. Zu den linearen Interpolationsproblemen geh¨oren die Polynom-Interpolation mit Φ(x; a0 , a1 , . . . , an ) = an xn + an−1 xn−1 + · · · + a1 x + a0 , die trigonometrische Interpolation Φ(x; a0 , a1 , . . . , an ) = a0 + a1 eix + a2 e2ix + · · · + an enix
(i2 = −1)
und die Spline-Interpolation, bei der im Falle kubischer Splines eine Funktion Φ benutzt wird, die zweimal steitg differenzierbar ist und in jedem Teilintervall [xi , xi+1 ] mit einem Polynom 3. Grades u ¨bereinstimmt. Interpolationsaufgaben treten sehr vielf¨ altig auf. Polynom-Interpolation verwendet man zur n¨aherungsweisen Berechnung von Werten einer Funktion, die nur an diskreten Stellen gegeben ist. Auch bei N¨aherungsformeln f¨ ur die numerische Integration tritt Polynom-Interpolation auf. Die trigonometrische Interpolation wird meist f¨ ur die numerische Auswertung von Meßreihen verwendet. Die Spline-Interpolation benutzt man zum Zeichnen von Kurven, die m¨oglichst glatt durch vorgegebene Punkte verlaufen sollen. Zu den nichtlinearen Interpolationsaufgaben geh¨oren die Interpolation durch rationale Funktionen Φ(x; a0 , . . . , an , b0 , . . . , bm ) =
an xn + an−1 xn−1 + · · · + a1 x + a0 bm xm + am−1 xm−1 + · · · + b1 x + b0
6.3. INTERPOLATION
243
und die Interpolation durch Exponentialsummen Φ(x; a0 , . . . , an , λ0 , . . . , λn ) = a0 eλ0 x + a1 eλ1 x + . . . + an eλn x . Rationale Interpolation verwendet man zur Konvergenzbeschleunigung von Algorithmen; die Interpolation durch Exponentialreihen wird in Physik und Chemie bei der Analyse von Zerfallsreihen eingesetzt. Wir besprechen hier die Polynominterpolation und die Interpolation mittels nat¨ urlicher kubischer Splinefunktionen. Es sei Πn die Menge aller Polynome P vom Grade h¨ochstens n: P (x) = a0 + a1 x + · · · + an xn . Satz 6..1. (Existenz- und Eindeutigkeitssatz) Zu beliebigen n + 1 St¨ utzstellen (xi , yi ), i = 0, 1, . . . , n, xi 6= xk (i 6= k) gibt es genau ein Polynom P ∈ Πn mit P (xi ) = yi , i = 0, 1, . . . , n. Beweis. Zun¨ achst zeigen wir, daß es h¨ochstens ein solches Polynom gibt. Angenommen, die Polynome P, Q erf¨ ullen die Bedingungen des Satzes, also P (xi ) = Q(xi ) = yi ,
i = 0, 1, . . . , n.
Dann hat das Polynom R = P − Q vom Grade h¨ochstens n mindestens n + 1 Nullstellen: R(xi ) = 0,
i = 0, 1, . . . , n.
Ein Nichtnull-Polynom vom Grade n kann aber nur n Nullstellen haben; also folgt P = Q. Die im Satz behauptete Existenz des Polynoms beweisen wir direkt. Es sei Li die Indikatorfunktion von {xi } bez¨ uglich der Menge { x0 , x1 , . . . , xn }, d. h. 1 i=k Li (xk ) = . 0 i 6= k Offenbar gilt (x − x0 ) . . . (x − xi−1 )(x − xi+1 ) . . . (x − xn ) (xi − x0 ) . . . (xi − xi−1 )(xi − xi+1 ) . . . (xi − xn ) ω(x) = (x − xi )ω 0 (xi )
Li (x) =
mit ω(x) = (x − x0 )(x − x1 ) . . . (x − xn ). Wir setzen P (x) =
n X
yi Li (x) =
i=0
n X i=0
yi
n Y x − xk . xi − xk k=0 k6=i
Dieses Polynom leistet das Verlangte; es heißt Langrange-sches Interpolationspolynom. Die Indikatorfunktionen Li (x) h¨ angen nicht von den yi ab; daher erhalten wir aus P (x) = 1 also yi = 1, i = 1, . . . , n die Bedingung n X
Li (x) = 1.
i=0
F¨ ur die algorithmische Berechnung eines Funktionswertes f¨ ur das Lagrange-sche Interpolationspolynom eignet sich besonders der Neville-Algorithmus.
244
KAPITEL 6. NUMERISCHE MATHEMATIK
Satz 6..2 (Neville-Algorithmus). Es sei Pij (i > ochstens j-ten = 0) das Interpolationspolynom h¨ Grades (i > = j) mit Pij (xk ) = yk ,
k = i − j, . . . , i.
Dann gilt f¨ ur fixiertes x: Pi0 (x) = yi , (x − xi−j )Pi,j−1 (x) − (x − xi )Pi−1,j−1 (x) , xi − xi−j
Pij (x) =
j = 1, . . . , i.
Beweis. Die Richtigkeit dieser Formel sieht man wie folgt ein. Es ist k = i − j + 1, . . . , i − 1, i, k = i − j, . . . , i − 1,
Pi,j−1 (xk ) = yk , Pi−1,j−1 (xk ) = yk ,
also folgt f¨ ur die rechte Seite der Formel, die mit P (x) bezeichnet werden soll: P (xi−j ) = Pi−1,j−1 (xi−j ) = yi−j , (xk − xi−j )yk − (xk − xi )yk = yk , xi − xi−j
P (xk ) =
k = i − j + 1, . . . , i − 1,
P (xi ) = Pi,j−1 (xi ) = yi , d. h. P ist ein interpolierendes Polynom f¨ ur die St¨ utzstellen (xk , yk ), k = i − j, . . . , i. Wegen der Eindeutigkeit dieses Polynoms muß P = Pij sein. Der Neville-Algorithmus berechnet somit nach der obigen Formel folgendes Schema, das die Werte der interpolierenden Polynome Pij an der Stelle x enth¨alt: x0 x1 x2 x3 .. .
P00 P10 P20 P30 .. .
P11 P21 P31 .. .
P22 P32 .. .
P33 .. .
..
.
mit z. B. P32 =
(x − x1 )P31 − (x − x3 )P21 . x3 − x1
Eine weitere M¨ oglichkeit zur Berechnung des Lagrange-schen Interpolationspolynoms ergibt sich durch folgende Betrachtung. Der Nenner der Indikatorfunktion Li h¨angt nicht von x ab; wir setzen also ai =
1 n Y
(xi − xk )
k=0 k6=i
und erhalten P (x) =
n X i=0
yi ai
n Y k=0 k6=i
(x − xk ).
6.3. INTERPOLATION
245
Wegen
1=
n X
Li (x) =
i=0
n X
ai
i=0
n Y
(x − xk )
k=0 k6=i
und
n Y
n Y
(x − xk ) =
(x − xk )
k=0
k=0 k6=i
x − xi
erhalten wir schließlich n X
P (x) =
ai yi x − xi
i=0 n X i=0
ai x − xi
.
Diese Darstellung ist f¨ ur x 6= xi definiert. Zusammen gilt somit y x = xi (i = 0, . . . , n) in X ai yi P (x) = i=0 x − xi . x 6= xi (i = 0, . . . , n) n X ai x−x i=0
i
Dies nennt man baryzentrische Darstellung des Polynoms P (x); sie l¨aßt sich gut numerisch auswerten und wird auch im Programm LPOLYNOM angewendet. Es gibt Aufgaben, bei denen man nicht nur den Wert des interpolierenden Polynoms an einer gewissen Stelle haben m¨ ochte, sondern die Koeffizienten des Polynoms ben¨otigt. Ein anderer Ansatz ist die algorithmische Frage, ob man nicht bei oftmaligem Aufruf des Neville-Algorithmus in einem Vorspann alle jene Rechenoperationen ausf¨ uhren kann, die vom Eingabeparameter x unabh¨angig sind. Beide Ausgangsfragen f¨ uhren zum gleichen Ziel. Wir stellen das gesuchte Polynom P in der Form des sog. Newton-schen Interpolationspolynoms dar: P (x) = a0 + a1 (x − x0 ) + a2 (x − x0 )(x − x1 ) + . . . + an (x − x0 ) · . . . · (x − xn−1 ). In dieser Form kann man es nach einem Horner-artigen Schema auswerten: P (x) = (. . . (an (x − xn−1 ) + an−1 )(x − xn−2 ) + . . . + a1 )(x − x0 ) + a0 . Prinzipiell kann man die Koeffizienten ai nacheinander aus den Beziehungen f0 = P (x0 ) = a0 , f1 = P (x1 ) = a0 + a1 (x1 − x0 ), f2 = P (x2 ) = a0 + a1 (x2 − x0 ) + a2 (x2 − x0 )(x2 − x1 ), ··· ermitteln. F¨ ur die Abschnittspolynome Qi (x) = a0 + a1 (x − x0 ) + . . . + ai (x − x0 ) · . . . · (x − xi−1 ), folgt sofort
(i = 0, . . . , n)
246
KAPITEL 6. NUMERISCHE MATHEMATIK
1. Qi (x) = Pii (x), 2. Qi+1 = Qi (x) + ai+1 (x − x0 ) · . . . · (x − xi ), 3. ai ist der Koeffizient von xi im Polynom Qi . Betrachten wir nun die folgenden Gr¨ oßen: fi0 = yi , i = 0, . . . , n fi,j−1 − fi−1,j−1 fij = , xi − xj
i = 1, . . . , n; j = 1, . . . , i.
Man nennt die Gr¨ oße fij die j-te dividierte Differenz . Satz 6..3 (Newton-Interpolation). Die Koeffizienten ai des Newton-schen Interpolationspolynoms P (x) = a0 + a1 (x − x0 ) + a2 (x − x0 )(x − x1 ) + . . . + an (x − x0 ) · . . . · (x − xn−1 ). sind gleich der i-ten dividierten Differenz ai = fii ,
i = 0, 1, . . . , n.
Beweis. Wir zeigen durch Induktion, daß Pij (x) = fi0 + fi1 (x − xi−j ) + . . . + fij (x − xi−j+1 ) · . . . · (x − xi−1 ) gilt. F¨ ur j = 0 gilt diese Formel offenbar. Nehmen wir an, sie ist f¨ ur j − 1 richtig. Aus den obigen Eigenschaften der Abschnittspolynome folgt Pij (x) = Pi−1,j−1 (x) + a(x − xi−j+1 )(x − xi−j+2 ) · . . . · (x − xi ), wobei der unbekannte Faktor a gerade der Koeffizient von xj des Polynoms Pij darstellt. F¨ ur den Induktionsschritt ist somit a = fij zu zeigen. Nach Induktionsvoraussetzung gilt: Pi−1,j−1 (x) = . . . + fi−1,j−1 xj−1 , Pi,j−1 (x) = . . . + fi,j−1 xj−1 . Die Nevillesche Interpolationsformel liefert Pij (x) =
(x − xi−j )Pi,j−1 (x) − (x − xi )Pi−1,j−1 (x) . xi − xi−j
Der Koeffizient von xj ergibt sich daraus zu fi,j−1 − fi−1,j−1 , xi − xi−j was mit der obigen Rekursionsformel u ¨bereinstimmt. Das Differenzenschema f¨ ur die Newton-Interpolation lautet also x0 x1 x2 x3 .. .
f00 f10 f20 f30 .. .
f11 f21 f31 .. .
f22 f32 .. .
f33 .. .
..
.
6.3. INTERPOLATION
247
mit z. B. f32 =
f31 − f21 . x3 − x1
Das Programm NPOLYNOM berechnet einen Polynomwert mittels des Newtonschen Interpolytionspolynoms. Wir wollen nun untersuchen, wie genau die Polynominterpolation arbeitet, falls die St¨ utzstellen von einer auf einem Intervall [a, b] definierten Funktion f stammen. Satz 6..4 (Restgliedsatz f¨ ur die Polynominterpolation). Ist f eine auf dem Intervall [a, b] (n + 1)-mal stetig differenzierbare Funktion mit f (xi ) = yi ,
i = 0, . . . , n
a = x0 < x1 < . . . < xn = b,
so gibt es zu jedem x ein ξ aus dem kleinsten Intervall, das die Punkte x, a, b enth¨ alt mit f (x) − Pnn (x) =
ω(x)f (n+1) (ξ) . (n + 1)!
Beweis. Es sei x 6= xi , i = 0, . . . , n. Wir verwenden die Hilfsfunktion F (x) = f (x) − P (x) − K · ω(x) und w¨ahlen den Parameter K so, daß F (x) = 0 gilt. Dann hat die Funktion F im Intervall die n + 2 Nullstellen x0 , x1 , . . . , xn , x. Nach dem Satz von Rolle hat die Ableitung F 0 dort n + 1 Nullstellen; F 00 hat n Nullstellen usw.; die (n + 1)-te Ableitung F (n+1) hat dort eine Nulstelle ξ. Wegen P (n+1) ≡ 0 folgt 0 = F (n+1) (ξ) = f (n+1) (ξ) − K · (n + 1)!, d. h. K=
f (n+1) (ξ) , (n + 1)!
womit der Satz bereits bewiesen ist. Als letztes Beispiel f¨ ur die Interpolation wollen wir die Spline-Interpolation studieren. Gegeben seien ein Intervall [a, b] und St¨ utzstellen (xi , yi ), i = 0, . . . , n mit a = x0 < x1 < . . . < xn = b. Eine kubische Spline-Funktion S ist im Intervall [xi , xi+1 ] ein Polynom 3. Grades (i = 0, 1, . . . , n), wobei die Ableitungen in den Randpunkten stetig anschließen m¨ogen. Im Falle S 00 (a) = S 00 (b) = 0 spricht man von nat¨ urlichen kubischen Spline-Funktionen, die hier untersucht werden sollen. Satz 6..5. (Existenz- und Eindeutigkeit f¨ ur nat¨ urliche, kubische Spline-Funktionen.) Zu jedem System von St¨ utzstellen (xi , yi ), i = 0, . . . , n existiert genau eine nat¨ urliche kubische Spline-Funktion S mit S(xi ) = yi , i = 0, . . . , n. Beweis. Der Beweis des Satzes gibt uns gleichzeitig eine Methode zur Konstruktion einer nat¨ urlichen kubischen Spline-Funktion. Es sei hi+1 = xi+1 − xi , i = 0, . . . , n − 1, Mi = S 00 (xi ), i = 0, . . . , n, M0 = Mn = 0.
248
KAPITEL 6. NUMERISCHE MATHEMATIK
Die Gr¨oßen Mi nennt man Momente. Da die gesuchte Funktion S auf dem Intervall [xi , xi+1 ] ein Polynom 3. Grades sein soll, muß die zweite Ableitung dort linear sein: S 00 (x) = Mi
xi+1 − x x − xi + Mi+1 , hi+1 hi+1
x ∈ [xi , xi+1 ].
Diese Funktion integrieren wir zweimal unbestimmt: S 0 (x) = −Mi S(x) = Mi
(xi+1 − x)2 (x − xi )2 + Mi+1 + Ai , 2hi+1 2hi+1
(xi+1 − x)3 (x − xi )3 + Mi+1 + Ai (x − xi ) + Bi , i = 0, . . . , n − 1, 6hi+1 6hi+1
wobei Ai , Bi Integrationskonstanten darstellen, die wir in Abh¨angigkeit von den Momenten berechnen werden. In der Darstellung von S in Abh¨angigkeit von den Momenten setzen wir einmal x = xi und dann x = xi+1 , woraus folgt: Mi Mi+1
h2i+1 + Bi = S(xi ) = yi , 6
h2i+1 + Ai hi+1 + Bi = S(xi+1 ) = yi+1 . 6
Aus diesen Gleichungen erhalten wir die gew¨ unschten Darstellungen f¨ ur die Integrationskonstanten: B i = y i − Mi Ai =
h2i+1 , 6
hi+1 yi+1 − yi − (Mi+1 − Mi ), i = 0, . . . , n − 1. hi+1 6
Die Gr¨oßen Ai setzen wir in die Darstellung von S 0 ein. Im Intervall [xi , xi+1 ] folgt S 0 (x) = −Mi
(xi+1 − x)2 (x − xi )2 yi+1 − yi hi+1 + Mi+1 + − (Mi+1 − Mi ) 2hi+1 2hi+1 hi+1 6
und im Intervall [xi−1 , xi ]: S 0 (x) = −Mi−1
(xi − x)2 (x − xi−1 )2 yi − yi−1 hi + Mi + − (Mi − Mi−1 ). 2hi 2hi hi 6
Erinnern wir uns an die Forderung, daß die Ableitungen der Spline-Funktionen stetig anschließen sollen. Dies zieht nach sich, daß im Punkte xi beide Ableitungen u ussen. Wir ¨bereinstimmen m¨ haben also beide Formeln mit x = xi gleichzusetzen, woraus nach Umordnen folgt: hi hi + hi+1 hi+1 yi+1 − yi yi − yi−1 Mi−1 + Mi + Mi+1 = − , i = 1, . . . , n − 1. 6 3 6 hi+1 hi Zusammen mit M0 = 0, Mn = 0 haben wir damit n + 1 Gleichungen f¨ ur n + 1 unbekannte Momente gewonnen. Dem Gleichungssystem soll noch eine u ¨bersichtlichere Form gegeben werden. Wir setzen hi+1 hi , µi = 1 − λi = , hi + hi+1 hi + hi+1 6 yi+1 − yi yi − yi−1 di = − , i = 1, . . . , n − 1. hi + hi+1 hi+1 hi λi =
6.4. NUMERISCHE INTEGRATION
249
Dann lautet das System µi Mi−1 + 2Mi + λi Mi+1 = di , i = 1, . . . , n − 1. Setzen wir noch λ0 = d0 = µn = dn , so ergibt sich schließlich 2M0 + λ0 M1 = d0 , µi Mi−1 + 2Mi + λi Mi+1 = di , i = 1, . . . , n − 1, µn Mn−1 + 2Mn = dn . Die Koeffizientenmatrix A 2 λ0 0 µ1 2 λ1 0 µ 2 2 A= . . .. .. .. . 0 0 0 0 0 0
dieses Systems ist tridiagonal: 0 ... 0 0 0 0 ... 0 0 0 λ2 . . . 0 0 0 .. .. .. .. . ... . . . 0 . . . µn−1 2 λn−1 0 ... 0 µn 2
> mit λi > = 0, µi = 0, λi + µi = 1 (i = 1, . . . , n − 1). Dies ist eine streng diagonal dominante Matrix, ¨ von der wir aus den Ubungen in der linearen Algebra wissen, daß sie regul¨ar ist. Damit sind die Momente als L¨ osungen eines linearen Gleichungssystems mit einer streng diagonal dominanten Tridiagonalmatrix eindeutig bestimmt. Wegen der Darstellung einer Spline-Funktion in Abh¨angigkeit von den Momenten ist hiermit der Satz bewiesen. Es sei noch erw¨ ahnt, daß unter den zweimal stetig differenzierbaren Interpolationsfunktionen ϕ die nat¨ urlichen kubischen Spline-Funktionen jene Interpolierenden sind, die den Wert des Integrals
Zb
(ϕ00 (x))2 dx
a
zum Minimum machen. Den Wert des genannten Integrals kann man als Welligkeit“ der Funktion ” ϕ auffassen, so daß die Spline-Funktionen gerade jene sind, die unter den genannten die kleinste Welligkeit haben. Mit der Spline-Interpolation modellieren wir daher insbesondere das Zeichnen von m¨oglichst glatten“ Kurven mittels eines Kurvenlineals, wie wir es aus dem Schulunterricht ” kennen.
6.4.
Numerische Integration
Wir wissen, daß es viele Funktionen gibt, die man nicht elementar integrieren kann. Es liegt daher nahe, f¨ ur die Berechnung von Zb
f (x) dx
a
einer auf dem Intervall [a, b] stetigen Funktion f den Integranden durch eine geeignete Funktion zu ersetzen, um so N¨ aherungswerte f¨ ur das gesuchte bestimmte Integral zu erhalten. Bei den Integrationsformeln von Newton-Cotes wird der Integrand durch ein interpolierendes Polynom P ersetzt. Dazu brauchen wir ein System von St¨ utzstellen (xi , yi ), i = 0, . . . , n. Es sei h=
b−a , n
xi = a + i · h,
f (xi ) = yi ,
i = 0, . . . , n
250
KAPITEL 6. NUMERISCHE MATHEMATIK
und Pn das Polynom vom Grade h¨ ochstens n mit Pn (xi ) = yi , i = 0, . . . , n. Nach der LagrangeInterpolationsformel gilt Pn (x) =
n X
yi Li (x),
Li (x) =
i=0
n Y x − xj xi − xj j=0 j6=i
und mit x = a + s · h erh¨ alt man Li (a + s · h) = ϕi (s) =
n Y s−j . i−j j=0 j6=i
Damit folgt wegen dx = h · ds: Zb
Pn (x)dx =
n X i=0
a
yi
Zb
Li (x)dx = h ·
n X i=0
a
yi
Zn
ϕi (s)ds = h ·
0
n X
αi yi
i=0
mit αi =
Zn
ϕi (s)ds,
i = 0, . . . , n.
0
Die Gewichte αi h¨ angen nicht von der zu integrierenden Funktion f ab, sondern nur von der Anzahl n der Teilintervalle. Setzen wir speziell f ≡ 1, dann ist auch Pn ≡ 1 und somit b−a=
Zb a
n X
n
b−aX αi , Pn (x)dx = h · αi yi = n i=0 i=0
also n X
αi = n.
i=0
Mittels der Restgliedabsch¨ atzung f¨ ur die Polynominterpolation k¨onnen wir die G¨ ute der erreichten Ann¨aherung an das gesuchte Integral ermitteln. Dazu m¨ ussen wir wie oben annehmen, daß die Funktion f im Intervall [a, b] (n + 1)-mal stetig differenzierbar ist. Dann existiert eine Zahl M > 0 mit |f (n+1) (x)| < M f¨ ur alle x ∈ [a, b] und wir erhalten Zb a
(f (x) − Pn (x)) dx =
Zb
ω(x)f (n+1) (ξ(x)) dx (n + 1)!
a
und mit ω(a + sh) = hn+1 s(s − 1)(s − 2) · . . . · (s − n) = hn+1 ω(s): Zb a
(f (x) − Pn (x))dx = h
n+2
Zn
ω(s)f (n+1) (ξ(s)) ds = O(hn+2 ). (n + 1)!
0
Es liegt somit ein Verfahren der Ordnung n + 2 vor. In Abh¨angigkeit von n erh¨ alt man verschiedene Integrationsregeln; so im Falle n = 1 die Trapezregel, bei n = 2 die Simpsonregel und bei n = 3 die 3/8-Regel. F¨ ur n > 6 treten negative
6.4. NUMERISCHE INTEGRATION
251
Gewichte auf, so daß die Formeln numerisch unbrauchbar werden. Da die Fehlerabsch¨atzung f¨ ur die N¨aherung nur f¨ ur kleine h wirksam ist, kann man die Formeln nicht auf das gesamte Intervall anwenden; man zerlegt es und addiert die N¨aherungen f¨ ur die Teilintervalle. Am Beispiel der Trapezregel (n = 1) soll der erreichbare Effekt untersucht werden. F¨ ur das Teilintervall [xi , xi+1 ] einer Zerlegung xi = a + ih, i = 0, . . . , N und h = b−a erh¨ a lt man den N¨aherungswert N Ii =
h (f (xi ) + f (xi+1 )) 2
und f¨ ur das gesamte Intervall damit S(h) =
N −1 X i=0
=h
h (f (xi ) + f (xi+1 )) 2
f (a) f (b) + f (a + h) + f (a + 2h) + . . . + f (b − h) + 2 2
,
die Trapezsumme zur Schrittweite h. F¨ ur jedes Teilintervall hat man einen Fehler von der Gr¨oße O(h3 ), falls die Funktion f zweilmal stetig differenzierbar ist; daher ergibt sich als Gesamtfehler |S(h) −
Zb
f (x)dx| =
a
N −1 X
O(h3 ) = N · O(h3 ) =
i=0
b−a O(h3 ) = O(h2 ), h
was uns sagt, daß ein Verfahren zweiter Ordnung vorliegt. Falls die zu integrierende Funktion f im Intervall [a, b] (2m + 2)-mal stetig differenzierbar ist, kann man beweisen, daß die Trapezsumme eine asymptotische Entwicklung der folgenden Form hat: S(h) = σ0 + σ1 h2 + σ2 h4 + . . . + σm h2m + O(h2m+2 ) mit σ0 =
Zb
f (x)dx.
a
Dabei sind die Faktoren σi von h unabh¨angig; ihre Berechnung ist nicht erforderlich, da wir ja u oglichkeit zur Berechnung der Trapezsumme verf¨ ugen. Vernachl¨assigt man ¨ber eine einfache M¨ das Restglied O(h2m+2 ), kann man die Trapezsumme also als ein Polynom in h2 auffassen, das an der Stelle h = 0 den Wert des gesuchten Integrals hat. Das legt es nahe, den Wert σ0 = S(0) mittels Polynominterpolation n¨ aherungsweise zu bestimmen, d. h. auf die Schrittweite h = 0 zu extrapolieren. Dazu brauchen wir ein System von St¨ utzstellen. Da hier ein Polynom in h2 vorliegt, 2 haben die St¨ utzstellen die Form (hi , Si ) mit Si = S(hi ). Zu einer gegebenen Schrittweitenfolge ur das Srr (hi ) = S(hi ), i = 0, . . . , r gilt. h0 > h1 > . . . > hr > 0 sei Srr dasjenige Polynom in h2 , f¨ Der extrapolierte Wert Srr (0) wird dann ein guter N¨aherungswert f¨ ur das gesuchte Integral sein. Die Extrapolation l¨ aßt sich nach dem Neville-Algorithmus ausf¨ uhren. In den Formeln ist x = 0 und xi = h2i zu setzen. Die entsprechenden Formeln lauten damit: Si0 = S(hi ),
i = 0, . . . , r, Si,j−1 − Si−1,j−1 , Sij = Si,j−1 + 2 hi−j − 1 hi
j = 1, . . . , i.
252
KAPITEL 6. NUMERISCHE MATHEMATIK
W¨ahlt man als Schrittweitenfolge h0 = b − a,
hi+1 =
hi , 2
so erh¨alt man die Romberg-Integration. Diese Folge strebt f¨ ur unseren Zweck zu schnell gegen 0; daher w¨ahlt man besser die Burlirsch-Folge h0 = b − a,
h1 =
h0 , 2
h2 =
h0 , 3
hi =
hi−2 > (i = 3). 2
F¨ ur die Anwendung ist es noch wichtig zu wissen, bis in welche Tiefe das Schema berechnet werden sollte. Ein zu kleines r sch¨ opft die Vorteile der Methode nicht aus; ein zu großes r verbietet sich einerseits wegen der sich aufschaukelnden Rechenfehler im Schema und andererseits wegen des schnell wachsenden Aufwandes bei der Berechnung von S(h). In der Praxis w¨ahlt man bei doppelt genauer Rechnung r = 6 oder r = 7 und steuert die Schrittweite h entsprechend. Eine genaue Fehleruntersuchung zeigt, daß
Srr −
Zb
f (x)dx = O(h2i−r · h2i−r+1 · . . . · h2i )
a
gilt, also ein Verfahren der Ordnung 2r + 2 vorliegt.
6.5.
Numerisches Differenzieren
Um eine N¨aherungsformel f¨ ur die Ableitung f 0 (a) einer im Punkte a ableitbaren Funktion f zu bestimmen, legt man eine Ersatzfunktion ϕ durch einige benachbarte Punkte und berechnet ϕ0 (a). Ist die Ersatzfunktion ϕ z. B. eine Parabel durch die St¨ utzstellen (a − h, f (a − h)), (a, f (a)), (a + h, f (a + h)), dann l¨ aßt sie sich in der Form ϕ(x) = f (a) +
f (a + h) − f (a − h) f (a + h) − 2f (a) + f (a − h) (x − a) + (x − a)2 2h 2h2
darstellen und wir erhalten als N¨ aherung f¨ ur die erste Ableitung von f an der Stelle a den zentralen Differenzenquotienten f 0 (a) ≈ ϕ0 (a) =
f (a + h) − f (a − h) . 2h
Andere zentrale Differenzenformeln sind z. B. f 0 (a) ≈
1 (−f (a + 3h) + 27f (a + h) − 27f (a − h) + f (a − 3h)), 48h
1 (−f (a + 2h) + 8f (a + h) − 8f (a − h) + f (a − 2h)). 12h Verwendet man a utzwerte mit dem Abstand h und w¨ahlt eine Ersatzfunktion ϕ, die ¨quidistante St¨ linear von den Funktionswerten der Funktion f abh¨angt, so erh¨alt man N¨aherungsformeln in der Form f 0 (a) ≈
n
f 0 (a) ≈
1X αi f (xi ), h i=0
6.6. LINEARE GLEICHUNGSSYSTEME
253
wobei aus f 0 (a) = 0 bei einer konstanten Funktion f folgt, daß n X
αi = 0
i=0
sein muß. Durch Taylor-Entwicklung der Funktion f stellt man fest, daß der Verfahrensfehler bei der ersten zentralen Differenzenformel von der Ordnung O(h2 ), bei den anderen von der Ordnung O(h4 ) und im letzteren Falle von der Ordnung O(h) ist. Bei der ersten zentralen Differenzenformel heben sich in der Taylor-Entwicklung des Verfahrensfehlers die Summanden mit einer ungeraden h-Potenz weg, so daß bei einer (2m + 2)-mal stetig differenzierbaren Funktion f folgt: f (a + h) − f (a − h) h2 h2m = f 0 (a) + f (3) (a) + · · · + f (2m+1) (a) + O(h2m+2 ). 2h 3! (2m + 1)! Diese Tatsache legt es nun nahe, eine Extrapolation analog zur numerischen Integration auszuf¨ uhren, wodurch man die Genauigkeit der Differenzenformel besser dem Verlauf der Funktion f anpassen kann. Der Eingabefehler kann hier nur in ungenauen Funktionswerten auftreten. Werden anstelle der Eingabewerte f (xi ) die Werte f (xi ) benutzt, so erh¨alt man als Fehler n n n 1 X 1X 1X αi f (xi ) − αi f (xi ) < |αi ||f (xi ) − f (xi )| = h h h i=0 i=0 i=0 ! n X < 1 |αi | max |f (xi ) − f (xi )|. = i h i=0 Der Eingabefehler nimmt also bei abnehmender Schrittweite h umgekehrt proportional zu h zu. Der Gesamtfehler wird sich daher nur solange bei Verkleinerung der Schrittweite verringern, bis die Abnahme des Verfahrensfehlers durch die Zunahme des Eingabe- und des Rechenfehlers wettgemacht ist. Die mathematische Aufgabe der Berechnung eines Ableitungswertes ist eine instabile Aufgabe. So kann sich die Ableitung von f (x) = f (x) + ε sin(M x) von der Ableitung der Funktion f um εM unterscheiden, obwohl die Funktionswerte um h¨ochstens ε voneinander abweichen. Die starke Fehlerfortpflanzung ist daher problemspezifisch und h¨angt nicht von dem gew¨ ahlten Algorithmus ab.
6.6.
Lineare Gleichungssysteme
Es sei A = (aij )n,n eine Matrix mit n Zeilen und n Spalten; ferner sei b ein Vektor mit n Komponenten. Wir wollen numerische und algorithmische Fragen im Zusammenhang mit dem L¨osen des linearen Gleichungssystems Ax = b studieren. Dabei setzen wir voraus, daß die Koeffizientenmatrix A regul¨ ar ist. Zun¨ achst interessieren wir uns daf¨ ur, wie sich Eingabefehler in der rechten Seite b auf die L¨ osung des Systems auswirken. Es sei x∗ die L¨osung des Systems Ax = b und x die L¨osung von Ax = b. Unter Ausnutzung der in der linearen Algebra eingef¨ uhrten Matrixnorm k¨onnen wir absch¨ atzen: −1 kx − x∗ k = kA−1 (b − b)k < k · kb − bk = kA
254
KAPITEL 6. NUMERISCHE MATHEMATIK
¨ und f¨ ur die relative Anderung: kx − x∗ k kx∗ k
< =
kAk · kA−1 k
kb − bk . kbk
Der Verst¨arkungsfaktor kAk · kA−1 k heißt Kondition der Matrix A: cond(A) = kAk · kA−1 k. Die Kondition h¨ angt von der gew¨ ahlten Norm ab und ist nur mit h¨oherem Aufwand als die L¨osung der Aufgabe berechenbar. Beispiel: Wir w¨ ahlen 1.00 0.99 1.99 1.989903 A= , b= , b= . 0.99 0.98 1.97 1.970106 Die exakten L¨ osungen lauten 1 3 ∗ x = , x= . −1.0203 1 Der absolute Fehler −0.000097 b−b= 0.000106 in den Eingabedaten bewirkt eine absolute L¨osungs¨anderung 2 ∗ x−x = . −2.0203 In der Maximumnorm ist kx − x∗ k = 2.0203, kx∗ k
kb − bk = 0.000053266, kbk
was als Quotient die untere Absch¨ atzung 37928 f¨ ur die Kondition liefert. Es ist −9800 9900 A−1 = , 9900 −10000 also cond(A) = 1.99 · 19900 = 39601. Dieses Beispiel zeigt uns insbesondere, daß die Fehlerabsch¨atzung realistisch ist. F¨ ur die Reduzierung der Rundungsfehler bei der numerischen L¨osung eines linearen Gleichungssystems kann man die Nachiteration anwenden, die wie folgt arbeitet. Es sei x das Maschinenergebnis bei der L¨ osung von Ax = b. Das Residuum r = Ax − b liefert beschr¨ ankt Auskunft u ¨ber die Genauigkeit des Maschinenergebnisses; wegen Ax∗ = b folgt ∗ A(x − x ) = r und damit x − x∗ = A−1 r; aber die inverse Matrix A−1 ist unbekannt und kA−1 k kann sehr groß sein. Also muß man das Residuum mit erh¨ohter Genauigkeit berechnen; mit dem
6.6. LINEARE GLEICHUNGSSYSTEME
255
so berechneten Vektor r kann man bei Vorliegen einer LU-Zerlegung f¨ ur die Matrix A das System Ay = r l¨ osen; es sei y das Maschinenergebnis. Nun wird der Vektor x(1) = x−y als neue N¨aherung f¨ ur die exakte L¨ osung x∗ betrachtet. Der Prozeß l¨aßt sich wiederholen: (1) Berechne r = Ax(1) − b mit erh¨ ohter Genauigkeit, l¨ose das System Ay = r(1) mit der vorlie(2) genden LU-Zerlegung und setze x = x(1) − y(1) . Die mit der Nachiteration zu erreichende Genauigkeit muß vorsichtig beurteilt werden. Der Eingabefehler kann h¨ ohere Auswirkungen als der Rundungsfehler haben. Mit die Nachiteration n¨ahert man sich h¨ ochstens der exakten L¨ osung jenes Systems, das sich im Rechner befindet. Beispiel: Es sei
1
1 A= 2 1 3
1 2 1 3 1 4
Wir rechnen mit 3 1 L = 0.55 0.333
1 3 1 4 1 5
,
1 b = 0 . 1
Ziffern, zur Basis 10 und 0 0 1 1 0 , U = 0 1.01 1 0
ohne Pivotisierung. Als LU-Zerlegung folgt 0.500 0.333 0.830 0.0840 0 0.00520
mit der Maschinenl¨ osung 42.1 x = −233 , 225 wobei aber
39 x∗ = −216 210 die exakte L¨ osung ist. F¨ ur das Residuum mit erh¨ohter Genauigkeit erh¨alt man 0.475 Ax − b = 0.298 0.230 und die Nachiteration liefert 42.9 x(1) = −236 , 228 die offenbar keine Ann¨ aherung an die exakte L¨osung darstellt. Man beachte jedoch, daß sich wegen des Eingabefehlers eine fehlerhafte Aufgabe im Rechner befindet; diese hat bei 6-stelliger Rechnung die exakte L¨ osung 42.9542 −236.459 . 229.055
256
KAPITEL 6. NUMERISCHE MATHEMATIK
F¨ ur diese Aufgabe war die Nachiteration offensichtlich erfolgreich. Im Programm NACHITERATION ist die Nachiteration realisiert, sofern bereits eine LUZerlegung vorliegt. F¨ ur die folgenden Untersuchungen w¨ahlen wir als Vektornorm die euklidische. Eine damit vertr¨ agliche Matrixnorm ist r xTATAx kAk = max . x6=o xTx Die Vertr¨aglichkeitsbedingung kAxk < = kAk · kxk sieht man sofort ein, wenn man sie in der Form kAxk kxk
< =
kAk (x 6= o)
schreibt und ber¨ ucksichtigt, daß die rechte Seite dieser Ungleichung gerade das Maximum der linken ist. Wir zeigen als n¨ achstes, daß diese Matrixnorm submultiplikativ ist, d. h. es gilt kA · Bk < = kAk · kBk f¨ ur alle regul¨ aren (n, n)-Matrizen A, B. Die Ungleichung folgt durch Ausrechnen: s r xTBTATABx (Bx)TATA(Bx) xTBTBx kA · Bk = max = max · T x6=o x6=o xx (Bx)T(Bx) xTx s r yTATAy xTBTBx < · max = kAk · kBk. = max y6=o x6=o yTy xTx Wegen −1 1 = kEk = kAA−1 k < k = cond(A) = kAk · kA
gilt f¨ ur jede regul¨ are Matrix A: cond(A) > = 1. Orthogonale Matrizen P sind bekanntlich durch die Bedingung PTP = E charakterisiert; daher folgt 1 = kPk = kPTk = kP−1 k, also cond(P) = 1 und damit kP · Ak = kAk. F¨ ur jede orthogonale Matrix P ist also cond(PA) = cond(A). Es sei nun eine LU-Zerlegung der Matrix A gegeben: A = LU. Dann haben wir als Absch¨atzung ¨ der L¨osungs¨ anderung des linearen Gleichungssystems Ax = b bei Anderung der rechten Seite auf b: kx − x∗ k kx∗ k
< =
cond(L) · cond(U) ·
kb − bk kbk
und wir erkennen, daß durch die LU-Zerlegung der Eingabefehler in der numerischen L¨osung verst¨arkt wird.
6.6. LINEARE GLEICHUNGSSYSTEME
6.6.1.
257
Householder-Transformation
Im folgenden werden wir sehen, daß man jede regul¨are Matrix A in der Form A = QR zerlegen kann, wobei Q eine orthogonale und R eine obere Dreiecksmatrix darstellen. Hat man eine solche Zerlegung konstruiert, so w¨ urden sich bei rundungsfehlerfreier Rechnung die Eingabefehler beim L¨osen eines linearen Gleichungssystems mit der Koeffizientenmatrix A nicht verst¨arken. Wenn gar die orthogonale Matrix Q als Produkt von orthogonalen Matrizen konstruiert wird, ist gesichert, daß sich bei der schrittweisen Konstruktion der oberen Dreiecksmatrix R die Rundungsfehler eines Schrittes im n¨ achsten nicht verst¨ arken, da man die Rundungsfehler in einem Schritt als Eingabefehler f¨ ur den n¨ achsten interpretieren kann. Nach Householder kann man eine QR-Zerlegung in folgender Weise erhalten. Man w¨ahle zu gegebenem Vektor w eine Matrix P in der Form P = E − 2wwT mit wTw = 1. Hierin ist wwT ein dyadisches Produkt: w1 w1 w1 w2 · · · w1 wn w2 w1 w2 w2 · · · w2 wn wwT = w3 w1 w3 w2 · · · w3 wn . ...................... wn w1 wn w2 · · · wn wn Jede solche Matrix P ist orthogonal, denn wegen PT = P folgt PTP = (E − 2wwT)(E − 2wwT) = E − 4wwT + 4wwT = E. In der Matrix P k¨ onnen wir u ugen. Wir versuchen daher, den Vektor ¨ber den Vektor w frei verf¨ w so zu bestimmen, daß ein gegebener Vektor in ein Vielfaches des ersten Einheitsvektors e1 transformiert wird: Px = %e1 . Wir multiplizieren diese Gleichung skalar mit sich: %2 = xTx, d. h. |%| = kxk und u ugt werden. ¨ber das Vorzeichen von % darf noch verf¨ Wir setzen den Ansatz f¨ ur P in die Gleichung Px = %e1 ein: Px = (E − 2wwT)x = x − 2(wTx)w = %e1 , also w=
x − %e1 . 2wTx
Diese Gleichung multiplizieren wir skalar mit sich und ber¨ ucksichtigen, daß wTw = 1 vorausgestzt ist: 1 = wTw =
kx − %e1 k2 , (2wTx)2
also 2wTx = kx − %e1 k und damit w=
x − %e1 . kx − %e1 k
258
KAPITEL 6. NUMERISCHE MATHEMATIK
Es folgt weiter kx − %e1 k = kx ∓ kxke1 k =
q (x1 ∓ kxk)2 + x22 + . . . + x2n .
Damit keine Ausl¨ oschung eintritt, w¨ ahlt man als Vorzeichen von % das entgegengesetzte von x1 , falls x1 6= 0: % = −sign(x1 ) · kxk bzw. % = kxk, falls x1 = 0. Mit dieser Festsetzung folgt (x1 − %)2 = kxk2 + 2|x1 | · kxk + x21 und kx − %e1 k2 = 2kxk2 + 2kxk|x1 |, 2wwT = 2
(x − %e1 )(x − %e1 )T uuT = kx − %e1 k2 kxk(kxk + |x1 |)
mit u = x − %e1 und P = E − αuuT,
α=
1 . kxk(kxk + |x1 |)
Wir fassen das Ergebnis in einem Satz zusammen. Satz 6..6 (Householder-Transformation). Zu einem gegebenen Vektor x 6= o sei −sign(x1 )kxk, x1 6= 0 %= kxk, x1 = 0 Dann wird der Vektor x mittels der orthogonalen Matrix P=E−
(x − %e1 )(x − %e1 )T kxk(kxk + |x1 |)
in das %-fache des Einheitsvektors e1 transformiert: Px = %e1 . Die durch diesen Satz definierte Transformation bezeichnen wir bei Anwendung auf einen Vektor x ∈ Rn mit Hn (x). Die Householder-Transformation soll nun verwendet werden, um eine regul¨are Matrix schrittweise auf eine obere Dreiecksmatrix zu transformieren. Dazu sei A(0) = A und a1 die erste Spalte der Matrix A(0) . Wir bilden die Householder-Transformation P1 = Hn (a1 ) und setzen A(1) = P1 A(0) . Es sei bemerkt, daß unterhalb der Hauptdiagonalen in der 1. Spalte der Matrix A(1) nur NullElemente stehen. Nach r − 1 Schritten haben wir eine Matrix A(r−1) der Form ∗ ∗ ··· ∗ ∗ ··· ∗ 0 ∗ ··· ∗ ∗ ··· ∗ # ........................... " D B (r−1) = 0 0 ··· ∗ ∗ ··· ∗ A = (r−1) (r−1) (r−1) 0 A 0 0 · · · 0 arr · · · a rn ........................... 0
(r−1)
0 · · · 0 anr
(r−1)
· · · ann
6.6. LINEARE GLEICHUNGSSYSTEME
259
mit einer oberen Dreiecksmatrix D der Ordnung r − 1. Nun ermitteln wir eine Householder(r−1) (r−1) Transformation f¨ ur die erste Spalte a1 der Matrix A : (r−1)
Pr = Hn−r+1 (a1
).
Die orthogonale Matrix Pr wird durch Einheitsvektoren zu einer orthogonalen Matrix Pr der Ordnung n erg¨ anzt: Pr =
E 0 0 Pr
.
Mit dieser Matrix bilden wir A
(r)
= Pr A
(r−1)
=
E 0 0 Pr
Die Multiplikation der Matrix A y = αr u(r)T A
(r−1)
,
"
(r−1)
Pr A
(r−1)
D B 0
A
(r−1)
#
=
"
D
B
0
Pr A
(r−1)
#
.
mit der Matrix Pr = E − αr u(r) u(r)T f¨ uhrt man so aus: =A
(r−1)
− u(r) yT.
Nach n − 1 Householder-Transformationen erh¨alt man auf diese Weise eine obere Dreiecksmatrix (n−1) . Die u-Vektoren aus den Transformationsmatrizen Pr werden auf die erzeugten NullR=A elemente in den Matrizen A(r) gespeichert. Da der u-Vektor im r-ten Schritt genau n − r + 1 wesentliche Komponenten hat, wird zur Abspeicherung auch noch die Hauptdiagonale ben¨otigt, so daß man die Diagonal-Elemente der Matrix R in einem besonderen Vektor ablegen muß. Zur Konstruktion der Matrix Q ben¨ otigt man außerdem die Faktoren αr , die man zweckm¨aßigerweise in einem weiteren Vektor abgelegt. Falls w¨ahrend der Transformation festgestellt wird, daß die (r) Matrix nicht regul¨ ar ist (was sich dadurch zeigt, daß die 1. Spalte der Matrix A eine Nullspalte ist), setzt man den entsprechenden Faktor αr gleich Null und f¨ahrt mit der n¨achsten Spalte fort. Wegen R = A(n−1) = Pn−1 · · · P2 P1 A = QTA mit der orthogonalen Matrix QT = Pn−1 · · · P2 P1 folgt A = QR. Die QR-Zerlegung einer (n, n)-Matrix ben¨otigt etwa 23 n3 Operationen, also doppelt soviel wie die LU-Zerlegung. Abschließend noch eine wichtige Bermerkung. Die Householder-Transformation kann auf die Spalten jeder (m, n)-Matrix A angewendet werden. Also existiert zu jeder Matrix eine orthogonale Matrix Q mit R S T QA= , 0 0 wobei die obere Dreicksmatrix R die Ordnung rg(A) hat und daher der untere Nullteil sowie der rechte Teil auch fehlen k¨ onnen. Mit einer QR-Zerlegung lassen sich auch jene Aussagen gewinnen, die man mittels einer LU-Zerlegung erzielt. Das Programm QR enthaelt eine Implementation der QR-Zerlegung. Mit dem Programm QR SOLVE kann man die L¨osung eines linearen Gleichungssystems Ax = b bei regul¨ arer Matrix A berechnen, sofern f¨ ur A eine QR-Zerlegung bereits berechnet wurde.
260
KAPITEL 6. NUMERISCHE MATHEMATIK
6.6.2.
Symmetrische Matrizen
Beim L¨osen eines linearen Gleichungssystems Ax = b mit einer symmetrischen Matrix A kann man Rechenoperationen sparen, da beim Konstruieren einer LU-Zerlegung unter Umst¨anden die Symmetrie erhalten bleibt. Ist etwa die Restmatrix A(r) symmetrisch, so folgt f¨ ur die Elemente von A(r+1) : (r)
(r+1)
= aij −
(r+1)
= aji −
aij
(r)
air
(r) a , (r) rj arr
i, j = r + 1, . . . , n,
(r)
aji
(r+1)
(r)
(r+1)
ajr
(r) a , (r) ri
i, j = r + 1, . . . , n,
arr
(r)
(r)
= aji , da aij = aji . Eventuelle Zeilen-Vertauschungen m¨ ussen mit entsprechenalso aij den Spalten-Vertauschungen kombiniert werden, um die Symmetrie zu erhalten; die Pivotsuche muß also entlang der Hauptdiagonalen geschehen, was aber nicht bei jeder symmetrischen Matrix zum Erfolg f¨ uhren wird. F¨ ur eine praktisch wichtige Klasse symmetrischer Matrizen ist eine Pivotisierung entlang der Hauptdiagonalen m¨oglich; dies sind die positiv definiten Matrizen. Eine symmetrische Matrix A heißt positiv definit , wenn xTAx > 0 gilt f¨ ur alle Vektoren x 6= o. Es sei nun A eine regul¨ are, symmetrische Matrix der Ordnung n; ferner sei eine LU-Zerlegung gegeben: A = LU. Wir schreiben die obere Dreiecksmatrix als Produkt einer Diagonalmatrix D und einer oberen Dreiecksmatrix V, deren Hauptdiagonal-Elemente s¨amtlich gleich 1 sind: u1n u12 ··· 1 u11 0 ··· 0 u11 u11 0 u22 · · · 0 u2n 0 1 ··· D = diag(uii )n,n = . ................ , V = u22 .............. 0 0 · · · unn 0 0 ··· 1 Mit diesen Bezeichnungen gilt U = DV und damit A = LDV = AT = VTDLT, also LT = V. Damit haben wir den folgenden Satz bewiesen. Satz 6..7. Jede regul¨ are, symmetrische (n, n)-Matrix A hat eine Zerlegung der Form A = LDLT mit einer Diagonalmatrix D und einer unteren Dreiecksmatrix L, f¨ ur welche lii = 1, i = 1, . . . , n gilt. Es sei nun die Matrix A außerdem noch positiv definit; dann erhalten wir f¨ ur alle Vektoren x 6= o: 0 < xTAx = xTLDLTx = (LTx)TD(LTx). Indem wir in dieser Ungleichung n-mal einen solchen Vektor x w¨ahlen, daß LTx = ei gilt, erhalten wir uii > 0, i = 1, . . . , n. Damit k¨ onnen wir √ √ D = diag ( uii )n,n √ √ √ setzen und schreiben A = L D DLT = GTG mit G = DLT, d. h. √ u12 u1n u11 √ ··· √ u11 u11 u2n √ 0 u22 · · · √ . G= u22 ...................... √ 0 0 · · · unn
6.6. LINEARE GLEICHUNGSSYSTEME
261
Diese Zerlegung heißt Cholesky-Zerlegung der Matrix A. Es sei gj die j-te Spalte der Matrix G: g1j g2j .. . gj = gjj . 0 . . . 0
Es ist dann GTG = (gTi gj )n,n und aij = gTi gj = gii gij +
i−1 X
gli glj
(i < = j),
l=1
was eine Berechnungsm¨ oglichkeit der Zahlen gij liefert. Unser Ergebnis wird im folgenden Satz zusammengefaßt. Satz 6..8 (Cholesky-Zerlegung). Zu jeder symmetrischen, positiv definiten Matrix A der Ordnung n gibt es eine obere Dreiecksmatrix G, so daß A = GTG gilt. Die Elemente gij der Matrix G kann man nach den Formeln v u i−1 X u gii = taii − gli2 , i = 1, . . . , n l=1
1 gij = gii
aij −
i−1 X
gli glj
!
,
j = i + 1, . . . , n
l=1
berechnen. 3
Neben den n Quadratwurzeln hat die Methode einen Aufwand von ca. n6 Operationen. Nach dem vorangegangenen Satz kann man das Wurzelziehen vermeiden und eine LDLT-Zerlegung bestimmen, wie es im Programm LDLT geschieht. Hierin ist ein zus¨atzlicher Parameter d eingef¨ uhrt, der zu wesentlichen Zeiteinsparungen bei Bandmatrizen f¨ uhrt. Bandmatrizen haben lediglich entlang von einigen Nebendiagonalen von Null verschiedene Elemente. Die Bandstruktur bleibt bei der Faktorisierung erhalten, so daß sich ein Operationsaufwand O(n2 ) ergibt. Nach der Berechnung einer Faktorisierung hat man anstelle des Systems Ax = b die beiden Systeme Ly = b und LTx = D−1 y zu l¨osen, was man durch Aufruf des Programms LDLT SOLVE erledigen kann. Abschließend beweisen wir noch ein hinreichendes Kriterium f¨ ur positiv definite Matrizen. Satz 6..9. Jede symmetrische, streng diagonal-dominante Matrix A, d. h. aii >
n X
|aij |,
j=1 j6=i
ist positiv definit.
i = 1, . . . , n
262
KAPITEL 6. NUMERISCHE MATHEMATIK
Beweis. Es gen¨ ugt offenbar zu zeigen, daß f¨ ur die Matrix A eine LU-Zerlegung ohne Pivotisierung ¨ m¨oglich ist und beim Ubergang von A(r) zu A(r+1) die Bedingung n X
(r)
aii >
(r)
|aij |,
i = 1, . . . , n
j=r+1 j6=i
¨ erhalten bleibt. Dazu brauchen wir nur den Fall r = 0, d. h. den Ubergang von A = A(0) zu A(1) zu betrachten. Es ist ai1 a1j (1) aij = aij − , i, j = 2, . . . , n. a11 Wir setzen die folgenden Hilfsgr¨ oßen %i =
n X |aij | , aii j=1
pi =
|ai1 | , aii
i = 1, . . . , n,
q=
|a1i | . a11
j6=i
Offenbar gilt 0< = %i < 1,
0< = pi < 1,
0< = q =
aii
aii −
|ai1 | · |a1i | = aii (1 − q · pi ) > 0. a11
Zusammen folgt (1) j=2 |aij | j6=i < = (1) aii
Pn
Pn
j=2 j6=i
|aij | + |ai1 |(%1 − q) aii (1 − q · pi )
%i − pi + pi (%1 − q) 1 − q · pi q(1 − %i ) + (1 − %1 ) = %i − p i 1 − q · pi =
< =
%i < 1,
womit die Behauptung bewiesen ist.
6.6.3.
Große, schwach besetzte Matrizen
Bei der numerischen Behandlung angewandter Aufgaben treten oft sehr große Matrizen auf; so z. B. bei der Berechnung von Spannungen und Verformungen in Bauteilen, bei der Beschreibung grafischer Bilder auf dem Rechner oder bei der Optimierung von Produktionspl¨anen in großen Betrieben. Die dort auftretenden Matrizen haben nur eine sehr geringe Anzahl von Nichtnullelementen und diese sind oft noch innerhalb der Matrix in spezieller Form angeordnet, so z. B. in
6.6. LINEARE GLEICHUNGSSYSTEME
263
großer N¨ ahe zur Hauptdiagonalen, so daß ein Band entsteht, d. h. die Nichtnullelemente der Matrix befinden sich in jeweils r oberen und unteren Nebendiagonalen um die Hauptdiagonale herum. ¨ Ublicherweise nennt man eine (m, n)-Matrix schwach besetzt (sparse-Matrix), wenn die Anzahl der Nichtnullelemente (NNE) von der Ordnung O(max(m, n)) ist. Wenn man bei der Berechnung einer LU-Zerlegung die Pivotisierung geschickt w¨ahlt, kann man u. U. errreichen, daß sowohl die berechnete untere als auch die obere Dreiecksmatrix wenig Nichtnullelemente enth¨alt. Gelingt es u ¨berdies noch, das Rechnen mit Nullelementen m¨oglichst zu vermeiden, kann man den Rechenaufwand bei der LU-Zerlegung von O(n3 ) auf h¨ochstens O(n2 ) senken. Bei großer Matrixordnung n erlaubt eine solche Reduzierung des Rechenaufwandes u ¨berhaupt erst das numerische L¨osen des linearen Gleichungssystems in einer akzeptablen Zeit. Um beim L¨ osen von linearen Gleichungssysteme die schwache Besetztheit der Koeffizientenmatrix ausnutzen zu k¨ onnen, ben¨ otigt man Speicherungsformen f¨ ur Matrizen, die das Abspeichern von Nichtnullelementen vermeiden. Eine solche Speicherungsform muß folgende Operationen erm¨oglichen, damit auf ihrer Grundlage eine Zerlegung der Matrix ermittelt werden kann: • Wiederauffinden der NNE, d. h. man ben¨otigt ein Programm, das bei vorgegebenen Indices i, j das Matrixelement aij ermittelt, ¨ • Andern von NNE, d. h. vorhandenen NNE werden neue Werte zugewiesen, • Hinzuf¨ ugen neuer NNE, • Streichen von NNE (Nullsetzen). Anhand der Matrix 2 0 1 0 0 −5 A= 0 −4 0 7
0 0 −1 3 0 1 0 6 0 0 0 0 0 3 8
soll eine Kompaktspeicherung erl¨ autert werden, die die obigen Forderungen erf¨ ullt. Bei einer zeilenorientierten Speicherung der Matrix ben¨otigt man f¨ ur eine NNE einen Datentyp der folgenden Form: typedef struct sp_m_e { INT z, // Zeiger auf naechstes NNE in der Zeile oder 0 j, // Spaltenindex REAL x; // NNE } NNE; Die NNE werden in einem NNE-Feld abgelegt, wobei die ersten n + 1 Elemente reserviert sind: NNE nne[N] // NNE-Feld // nne->j: n+1 // nne->z: Zeiger auf ein unbenutzes NNE // (0j: wahrer Zeilenindex oder NNE-Anzahl der Zeile i //(nne+i)->z: Zeiger auf das erste NNE der Zeile i Die Verkettung der NNE innerhalb einer Zeile erfolgt dabei so, daß die Spaltenindices in aufsteigender Reihenfolge erscheinen. Das Ende einer Zeile wird durch den Zeiger 0 angezeigt. Legt man
264
KAPITEL 6. NUMERISCHE MATHEMATIK
die NNE in 8-byte-W¨ ortern, die Zeiger und Indices in 2-byte-W¨ortern ab, so ben¨otigt diese Speicherungsform 12 Bytes pro NNE. Falls die NNE-Anzahl gr¨oßer als 65535 wird, m¨ ussen 16 Bytes pro NNE verwendet werden. Der Gesamtspeicherplatz f¨ ur die Matrix ist nat¨ urlich vorgegeben und wird anfangs noch unbelegte Pl¨ atze enthalten. Die unbelegten Speicherpl¨atze im Feld A werden durch eine verkettete Liste (Nullkette) beschrieben, deren erster Zeiger im ersten NNE steht; F¨ ur die obige Matrix nehmen wir an, daß das NNE-Feld die L¨ange 18 ist. Dann wird die Matrix wie folgt gespeichert: x z j
0
1
2
3
4
5
17 6
6 1
8 2
11 3
13 4
14 5
6 2 7 1
7 -1 0 5
8 1 9 1
9 3 10 3
10 1 0 5
11 -5 12 2
12 6 0 4
13 -4 0 2
14 7 15 2
15 3 16 4
16 8 0 5
17
18
18
0
Wenn im Algorithmus ein Matrixelement gleich Null gesetzt wird, kettet man das betreffende NNE an den Anfang der Nullkette ein. Wird andererseits ein neues Feldelement zum Abspeichern eines NNE ben¨otigt, so kettet man ein NNE aus der Nullkette aus und in die entsprechende Zeilenkette ein. Auf diese Weise erreicht man eine m¨oglichst reorganisationsfreie, kompakte Speicherung der Matrix. Die angegebene Speicherungsform ist nur dann zweckm¨aßig, wenn man im Algorithmus die Matrix stets zeilenweise durchl¨ auft. Bei einem ausschließlich spaltenweisen Durchlauf kann man eine analoge Speicherungsform w¨ ahlen, indem man Spaltenkettenlisten f¨ uhrt und die Zeilenindices abspeichert. Wird im Algorithmus die Matrix zeilen- und spaltenweise verarbeitet (wie z. B. bei der Berechnung einer LU-Zerlegung), muß man den Datentyp um einen Zeilenindex und einen Spaltenzeiger erweitern: typedef struct sp_m_e { INT z, // Zeiger auf naechstes NNE in der Zeile oder 0 j, // Spaltenindex s, // Zeiger auf das naechste NNE in der Spalte oder 0 i; // Zeilenindex REAL x; // NNE } NNE; NNE nne[N] // NNE-Feld // nne->j: n+1 // nne->i: m+1 // nne->z: Zeiger auf ein unbenutzes NNE // nne->s: Anzahl der unbenutzten NNE //(0z: Zeiger auf das erste NNE der Zeile i // (nne+i)->i: wahrer Zeilenindex oder NNE-Anzahl der Zeile i // (nne+i)->s: Zeiger auf das erste NNE der Spalte i // (nne+i)->j: wahrer Spaltenindex oder NNE-Anzahl der Spalte i // (nne+i)->x: reserviert fuer besondere Zwecke (z. B. Diagonalelemente) Damit hat man f¨ ur die obige Matrix die folgende Abspeicherung: x z i s j
0
1
2
3
4
5
17 6 2 6
6 1 6 1
8 2 11 2
11 3 9 3
13 4 12 4
14 5 7 5
6 2 7 1 8 1
7 -1 0 1 10 5
8 1 9 2 0 1
9 3 10 2 0 3
10 1 0 2 16 5
11 -5 12 3 13 2
12 6 0 3 15 4
13 -4 0 4 14 2
14 7 15 5 0 2
15 3 16 5 0 4
16 8 0 5 0 5
17
18
18
0
.
6.6. LINEARE GLEICHUNGSSYSTEME
265
Dadurch werden 24 Bytes pro NNE ben¨otigt. Nat¨ urlich w¨achst bei der Kompaktspeicherung der Organisationsaufwand. Man kann jedoch sagen, daß selbst bei einer Besetzung der Matrix mit ca. 20% NNE eine Kompaktspeicherung noch zu wesentlichen Zeiteinsparungen f¨ uhrt. Bei symmetrischen Matrizen spart man dadurch weiteren Speicherplatz, daß man nur das untere bzw. obere Dreieck abspeichert. Es sei hier angemerkt, daß eine analoge Kompaktspeicherung auch bei Anwendung auf Datenbanken zu erheblichen Einsparungen an Rechenzeit und Speicherplatz f¨ uhren kann. In dem kleinen Programmpaket SPM ist diese Kompaktspeichertechnik realisiert. Durch die Anwendung einer Kompaktspeicherung treten bei der numerischen Berechnung einer Zerlegung der Matrix neue Probleme auf. Die Auswahl der Pivotelemente darf nicht nur dazu dienen, numerische Probleme zu reduzieren, sondern muß auch das Anwachsen der NNE-Anzahl in der berechneten Zerlegung gering halten. Eine in dieser Hinsicht schlechte Pivotisierung kann aus einer sparse-Matrix eine volle machen. So liefert die Cholesky-Zerlegung f¨ ur eine Matrix der Form ∗ ∗ ∗ ∗ ∗ ∗ ∗ 0 0 0 ∗ 0 ∗ 0 0 ∗ 0 0 ∗ 0 ∗ 0 0 0 ∗ eine untere ∗ ∗ ∗ ∗ ∗
Dreiecksmatrix der Form 0 0 0 0 ∗ 0 0 0 ∗ ∗ 0 0 , ∗ ∗ ∗ 0 ∗ ∗ ∗ ∗
w¨ahrend nach Form ∗ 0 0 ∗ 0 0 0 0 ∗ ∗
Vertauschen von erster mit letzter Zeile und Spalte eine sparse-Dreiecksmatrix der 0 0 ∗ 0 ∗
0 0 0 ∗ ∗
0 0 0 0 ∗
entsteht. Effiziente Methoden zur L¨osung eines linearen Gleichungssystems Ax = b mit einer positiv definiten Koeffizientenmatrix bestehen aus drei Schritten: • Wahl einer geeigneten Permutation P der Matrix A, so daß das sog. Fill-in (die Auff¨ ullung mit NNE) f¨ ur die Cholesky-Zerlegung m¨oglichst gering ist, • numerische Berechnung der unteren Dreiecksmatrix L, • Berechnung der L¨ osung x∗ durch L¨osen der gestaffelten Gleichungssysteme Lz = Pb,
LTu = z,
x = PTu.
F¨ ur zahlreiche Anwendungen ist eine Bandmatrix typisch: Die NNE befinden sich in der N¨ahe der Hauptdiagonalen (in wenigen Nebendiagonalen), so daß außerhalb eines Bandes um die Hauptdiagonale alle Matrixelemente gleich 0 sind. Derartige Matrizen lassen sich insbesondere bei kleiner, von n unabh¨ angiger Bandbreite d sehr schnell behandeln, da z. B. die Multiplikation einer Bandmatrix mit einem Vektor nur O(n) Operationen ben¨otigt. Bei ihnen w¨ urde eine Pivotisierung die
266
KAPITEL 6. NUMERISCHE MATHEMATIK
Bandstruktur zerst¨ oren, w¨ ahrend die untere Dreiecksmatrix bei einer Cholesky-Zerlegung wieder eine Bandmatrix ist und mit O(n2 ) Operationen berechnet werden kann. Bisher haben wir nur sog. direkte Methoden zum L¨osen linearer Gleichungssysteme besprochen; das sind solche Methoden, die die Aufgabe in eine ¨aquivalente u uhren, deren L¨osung in einem ¨berf¨ Schritt erhalten werden kann. Solche Methoden verwenden direkt die Koeffizientenmatrix, indem sie diese transformieren. Hier bieten sich auch iterative Methoden an, die anstelle der Koeffizientenmatrix ein Unterprogramm verwenden, das bei Eingabe eines Vektors als Ausgabe die Multiplikation des Vektors mit der Koeffizientenmatrix liefert. Dadurch braucht man im Algorithmus selbst die Koeffizientenmatrix nicht unmittelbar, und in dem genannten Unterprogramm kann man die spezielle Struktur der Matrix direkt ausnutzen, so daß ein Aufruf des Unterprogramms meist mit O(n) Operationen auskommt. Beispielhaft soll hier das Gauß-Seidel-Verfahren besprochen werden. Der Grundgedanke der Methode besteht darin, das Gleichungssystem in eine iterierf¨ahige Form zu bringen, so daß man zeigen kann, daß die mit der Iteration erzeugte Vektorfolge gegen die L¨osung der Aufgabe konvergiert. Wir setzen voraus, daß die Koeffizientenmatrix eine absolut streng diagonal-dominante Hauptdiagonale hat. L¨osen wir die i-te Gleichung nach xi auf: i−1 n X 1 X xi = − aij xj + aij xj − bi , i = 1, . . . , n. aii j=1 j=i+1 Das legt die folgende Iteration nahe: i−1 n X X 1 (r) (r+1) (r) aij xj + xr+1 = xi − aij xj − bi , i aii j=1 j=i+1
i = 1, . . . , n.
F¨ ur Matrizen mit streng diagonal-dominanter Hauptdiagonale konvergiert diese Methode recht gut gegen die gesuchte L¨ osung. Muß man das System mit mehreren rechten Seiten l¨osen, so kann man nat¨ urlich eine bereits berechnete L¨ osung als Startvektor f¨ ur den n¨achsten Durchlauf nehmen. Falls der Startvektor schon nahe an der wahren L¨osung liegt, brauchen nur wenige Iterationsschritte ausgef¨ uhrt zu werden. Eine weitere, besonders effiziente Methode ist das cg-Verfahren (konjugiertes Gradientenverfahren) zur L¨osung eines linearen Gleichungssystems Ax = b mit einer positiv definiten Koeffizientenmatrix A. Die Methode liefert bei einem beliebigen Startvektor x0 eine Kette von Vektoren x0 , x1 , . . . , xl , die nach sp¨atestens n Schritten mit der gesuchten L¨osung abbricht, falls man exakt rechnet. Der Operationsaufwand pro Schritt wird durch den Aufwand bei der Multiplikation der Matrix A mit einem Vektor bestimmt und ist daher attraktiv bei schwachbesetzten Matrizen. Wir wollen sogleich die Methode beschreiben: W¨ahle x0 ∈ Rn , setze p0 = r0 = b − Ax0 und berechne rTk rk = , αk pTk Apk xk+1 = xk + αk pk , rk+1 = rk − αk Apk , cg : rTk+1 rk+1 βk = , rTk rk pk+1 = rk+1 + βk pk .
6.6. LINEARE GLEICHUNGSSYSTEME
267
bis pk = o gilt. Eine formale Betrachtung der Methode zeigt, daß man 4 Vektoren speichern muß; den Operationsaufwand f¨ ur Matrix mal Vektor und f¨ ur 6 Skalarprodukte pro Schritt hat. F¨ ur dieses Verfahren gilt nun < Satz 6..10. Es gibt eine kleinste nat¨ urliche Zahl l, 0 < = l = n mit pl = o. Außerdem gilt
1. Axl = b. < (0 < = k < i = l).
2. rTi pk = 0 3. rTi pi = rTi ri
(i < = l).
4. pTi Apk = 0
(0 < = i 0
(i < l).
< =
6. rTi rk = 0
(0 < = i < k < l).
7. rTi ri > 0
(i < l).
8. ri = b − Axi
l).
(i < = l).
Nach diesem Satz sind die Vektoren r0 , r1 , . . . , rl orthogonal; es k¨onnen aber h¨ochstens n NichtNullvektoren zueinander orthogonal sein; daher muß die Methode nach sp¨atestens n Schritten mit der gesuchten L¨ osung enden. Wegen der auftretenden Rundungsfehler wird dies numerisch nicht der Fall sein. Man setzt daher das Verfahren solange fort bis das Residuum r hinreichend klein geworden ist. Das cg-Verfahren kann auch auf allgemeine Gleichungssysteme Ax = b mit einer regul¨aren Koeffizientmatrix angewendet werden. Da ein Vektor x∗ das System Ax = b genau dann l¨ost, wenn er das System ATAx = ATb l¨ ost, kann man das cg-Verfahren auf letzteres System anwenden, zumal dieses eine positiv definite Koeffizientenmatrix besitzt. Die explizite Berechnung von ATA kann dabei vermieden werden: Es sei r0 = b − Ax0 , p0 = ATr0 . rTk rk α = , k pTk pk xk+1 = xk + αk pk , rk+1 = rk − αk Apk , cgu : rTk+1 rk+1 βk = , rTk rk pk+1 = ATrk+1 + βk pk . Man kann zeigen, daß das cg-Verfahren umso schneller konvergiert, je kleiner die Kondition der Koeffizientenmatrix ist. Dieser Sachverhalt wird bei den sog. vorkonditionierten cg-Verfahren ausgenutzt. Man versucht, die positiv definite Koeffizientenmatrix A durch eine andere positiv definite Matrix C (Vorkonditionierungsmatrix) derart anzun¨ahern, daß die Matrix C−1 A n¨aherungsweise die Einheitsmatrix ist. Dazu sei C eine unvollst¨andige Cholesky-Zerlegung der Matrix A: C = LLT. Das System Ax = b ist ¨ aquivalent zu Ax = b mit A = L−1 A(L−1 )T, x = LTx, b = L−1 b. Unter Verwendung der Transformationsregeln erh¨alt man sofort aus dem cg-Verfahren die neuen Regeln:
268
KAPITEL 6. NUMERISCHE MATHEMATIK
Es sei r0 = b − Ax0 , p0 = (LLT)−1 r0 , q0 = p0 . rTk qk αk = , pTk Apk xk+1 = xk + αk pk , rk+1 = rk − αk Apk , u cg : T −1 qk+1 = (LL ) rk+1 rTk+1 qk+1 βk = , rTk qk pk+1 = qk+1 + βk pk . Wie man sieht, ist hier zus¨ atzlich in jedem Schritt ein lineares Gleichungssystem q = (LLT)−1 r zu l¨osen. F¨ ur die Wahl der unvollst¨ andigen Cholesky-Zerlegung der Matrix A gibt es verschiedene Vorschl¨age. Der wohl bekannteste Vorschlag ist, nur die NNE der wahren Cholesky-Zerlegung f¨ ur die NNE der Matrix A (oder einer Teilmenge davon) zu berechnen. Dieser Vorschlag l¨aßt sich f¨ ur diagonaldominante Matrizen A mit aii > 0 und aij < unden. Alle diese Techniken sind = 0(i 6= j) begr¨ dann effizient, wenn man Ax mit O(n) Operationen berechnen kann, wie z. B. bei schwachbesetzten Matrizen. Daher sind diese Techniken im System SPM implementiert.
6.6.4.
Ausgleichungsrechnung
Eine ziemlich typische angewandte Aufgabe ist die folgende: Es sollen gewisse Werte x1 , x2 , . . . , xn bestimmt werden; jedoch ist es praktisch nicht m¨oglich, diese direkt zu messen. Vielmehr ist man gezwungen, sich mit der Messung einer anderen Gr¨oße y zu begn¨ ugen, wobei man annimmt, daß zwischen y und x1 , x2 , . . . , xn sowie einstellbaren Versuchsbedingungen z ein funktionaler Zusammenhang besteht: y = f (z, x1 , x2 , . . . , xn ). Unter m, m > = n verschiedenen Versuchsbedingungen z1 , z2 , . . . , zm werden die entsprechenden Ergebnisse y1 , y2 , . . . , ym gemessen. Dabei ist nicht zu erwarten, daß die Messungen dem wahren bzw. angenommenen funktionalen Zusammenhang entsprechen; dies kann verschiedene Ursachen haben, wie etwa Meßfehler, unscharfe Versuchsbedingungen oder eine ungenaue Sch¨atzung des funktionalen Zusammenhangs. Man wird daher durch Rechnung die unbekannten Parameter x1 , x2 , . . . , xn so bestimmen, daß der angesetzte funktionale Zusammenhang m¨oglichst gut mit den Meßwerten u utemaß ¨bereinstimmt, wozu z. B. das G¨ n X
2
(yi − fi (x1 , x2 , . . . , xn ))
i=1
verwendet werden kann mit fi (x1 , x2 , . . . , xn ) = f (zi , x1 , x2 , . . . , xn ),
i = 1, . . . , n.
Ein wichtiger Spezialfall liegt vor, wenn die Funktionen fi linear von den Parametern abh¨angen, d. h. wenn es eine (m, n)-Matrix A gibt mit f1 (x1 , x2 , . . . , xn ) f2 (x1 , x2 , . . . , xn ) = Ax. ... fm (x1 , x2 , . . . , xn )
6.6. LINEARE GLEICHUNGSSYSTEME
269
Dieser Fall soll hier untersucht werden. Genauer liegt die folgende Aufgabestellung vor: Es sei k · k m die euklidische Norm. Gegeben seien eine (m, n)-Matrix A mit m > = n, ein Vektor y ∈ R ; dann ist die Funktion ky − Axk2 = (y − Ax)T(y − Ax) zu minimieren. Im Zusammenhang mit dieser Aufgabe spielen die sog. Normalgleichungen eine wesentliche Rolle: ATAx = ATy. Satz 6..11. Das lineare Ausgleichungsproblem min ky − Axk
x∈Rn
hat stets eine L¨ osung x∗ und genau alle L¨ osungen gen¨ ugen der Gleichung Ax = Ax∗ . Das ResiduT um r = y − Ax gen¨ ugt der Gleichung A r = o. Ein Vektor x∗ l¨ ost genau dann die Aufgabe, wenn er L¨ osung der Normalgleichungen ist. m die lineare H¨ ulle aus den Spaltenvektoren der Matrix A: Beweis. Es sei L ⊂ = R
L = { Ax | x ∈ Rn } und L⊥ der zugeh¨ orige Orthogonalraum: L⊥ = r rTA = o .
Dann l¨aßt sich jeder Vektor y ∈ Rm eindeutig in der Form y = u + r,
u ∈ L, r ∈ L⊥
darstellen. Wegen u ∈ L existiert ein Vektor x∗ mit Ax∗ = u, woraus AT = ATu + ATr = ATAx∗ , folgt, d. h. der vektor x∗ erf¨ ullt die Normalgleichungen. Umgekehrt entspricht jeder L¨osung x der Normalgleichungen eine Zerlegung y = u + r,
u = Ax,
u ∈ L, r ∈ L⊥ .
r = y − Ax,
Da die Zerlegung eindeutig ist, haben wir damit gezeigt, daß f¨ ur zwei L¨osungen x∗ , x der Normal∗ ∗ gleichungen Ax = Ax gilt. Es sei nun x eine L¨osung der Normalgleichungen und x beliebig. Wir setzen z = Ax − Ax∗ und r = y − Ax∗ . Wegen rTz = 0 folgt: ky − Axk2 = kr − zk2 = krk2 + kzk2
> =
ky − Ax∗ k2 ,
d. h. der Vektor x∗ minimiert die Funktion ky − Axk2 . Es seien nun die Spalten der Matrix A linear unabh¨angig; dann gilt Ax 6= o f¨ ur alle Vektoren x 6= o und die Matrix ATA ist regul¨ ar, sogar positiv definit, da in diesem Falle xTATAx = kAxk2 > 0,
∀x 6= o
gilt. Daher sind dann die Normalgleichungen eindeutig l¨osbar: x∗ = (ATA)−1 ATy
270
KAPITEL 6. NUMERISCHE MATHEMATIK
und die L¨osung kann man u ¨ber eine Cholesky-Zerlegung der Matrix ATA bestimmen. Diese Vorgehensweise ist aber numerisch nicht gutartig, da sich der Eingabefehler aus der Matrix A durch die Matrizenmultiplikation wesentlich verst¨ arken kann. Ein anderer Weg ist vorzuziehen: Das lineare Ausgleichsproblem kann mittels Householder-Transformation gel¨ost werden. Dazu transformiert man die gegebene Matrix A(0) = A und den Vektor y(0) = y durch eine Folge von HouseholderTransformationen Pr A(r) = Pr A(r−1) ,
y (r) = Pr y (r−1)
in eine Matrix R (n) A = 0 mit einer oberen (n, n)-Dreiecksmatrix R und einen Vektor h = y(n) ; letzterer wird entsprechend zu A(n) aufgespalten: h1 h= , h1 ∈ Rn , h2 ∈ Rm−n . h2 Die Matrix P = Pn · · · P1 ist wieder orthogonal und es gilt A(n) = PA, h = Py. Eine orthogonale Matrix l¨aßt die L¨ angen von Vektoren unver¨andert; also gilt
h1 − Rx (n) (n)
. ky − Axk = kP(y − Ax)k = ky − A xk =
h2
Folglich wird die L¨ ange genau dann minimal, wenn der Vektor x so gew¨ahlt wird, daß h1 = Rx ausf¨allt. Die Matrix R ist genau dann regul¨ar, wenn die Spalten der Matrix A linear unabh¨angig sind. In diesem Falle erh¨ alt man aus dem System h1 = Rx genau eine L¨osung, die das lineare Ausgleichsproblem l¨ ost. Sind die Spalten der Matrix A linear abh¨angig, so hat System h1 = Rx unendlich viele L¨ osungen, die alle das Ausgleichsproblem l¨osen. F¨ ur den Fehler erh¨alt man ky − Axk = kh2 k.
Das Programm QR ermittelt eine Householder-Faktorisierung f¨ ur eine beliebige (m, n)-Matrix, ist daher auch auf lineare Ausgleichsprobleme anwendbar. F¨ ur große Ausgleichsprobleme mit einer schwachbesetzten, spaltenregul¨ aren Koeffizientenmatrix haben die zugeh¨origen Normalgleichungen eine positiv definite Koeffizientenmatrix. Das im System SPM implementierte konjugierte Gradientenverfahren ist so programmiert, daß es auch auf lineare Ausgleichsprobleme anwendbar ist.
6.7.
Nullstellen nichtlinearer Gleichungen
Es wird die Aufgabe betrachtet, zu einer auf einem Intervall [a, b] definierten Funktion f einen Punkt x∗ ∈ [a, b] zu finden, der Nullstelle der Funktion f ist: f (x∗ ) = 0. Zun¨achst soll untersucht werden, wie empfindlich eine L¨osung der Aufgabe von den Eingabedaten abh¨angt. Die Eingabedaten bestehen hier aus der Funktion f . Es sei also f + f eine Funktion mit der Nullstelle x∗ + x; dann folgt in erster N¨aherung, falls die Funktion f ableitbar ist: 0 = f (x∗ + x) + f (x∗ + x) = f (x∗ ) + f 0 (x∗ )x + f (x∗ ), also . x=−
1 f (x∗ ). f 0 (x∗ )
6.7. NULLSTELLEN NICHTLINEARER GLEICHUNGEN
271
Die Aufgabe ist also schlecht konditioniert, wenn |f 0 (x∗ )| sehr klein ausf¨allt. Im Falle f 0 (x) = 0 in ∗ der N¨ahe des Punktes x∗ ist keine Absch¨atzung der Form |x| < oglich, was eine extrem = K|f (x )| m¨ schlechte Kondition der Aufgabe bedeutet. Bei solchen Aufgaben werden daher alle Methoden mehr oder weniger schnell versagen. Viele Verfahren zur L¨ osung der Nullstellen-Aufgabe laufen nach dem folgenden Schema ab: Es sei x(0) als N¨ aherung von x∗ bekannt; durch x(r+1) = Φ x(r) , r = 0, 1, . . . wird eine Folge x(r) erzeugt, die gegen x∗ konvergiert. Abgesehen von der Bestimmung einer geeigneten Iterationsfunktion Φ muß der Algorithmus noch einen geeigneten Startpunkt x(0) ermitteln und die Iteration mit einer brauchbaren N¨aherung abbrechen. In einer punktierten Umgebung U (x∗ ) einer gesuchten, einfachen Nullstelle x∗ gelte f (x) 6= 0. W¨ahlt man als Iterationsfunktion Φ(x) = x −
f (x) , f 0 (x)
so erh¨alt man das Newton-Verfahren: f x(r) (r+1) (r) x = x − 0 (r) , f x wof¨ ur der folgende Konvergenzsatz gilt. Satz 6..12. Die zweimal stetig differenzierbare Funktion f habe im Intervall [a, b] eine Nullstelle x∗ ; es m¨ ogen Konstanten m, M mit |f 0 (x)| > = m > 0,
|f 00 (x)| < = M
∀x ∈ [a, b]
geben; ferner gelte f¨ ur x(r) ∈ [a, b] auch x(r+1) ∈ [a, b]. Dann gilt f¨ ur die durch das NewtonVerfahren erzeugte Punktfolge: |x(r+1) − x∗ | < =
M (r) |x − x∗ |2 . 2m
Beweis. Mit dem Mittelwertsatz der Differentialrechnung folgt f¨ ur ein gewisses ξ (r) ∈ [x(r) , x∗ ]: 1 0 = f (x∗ ) = f (x(r) ) + f 0 (x(r) )(x∗ − x(r) ) + f 00 (ξ (r) )(x∗ − x(r) )2 . 2 Wegen (r)
x
(r+1)
=x
f x(r) + 0 (r) f x
folgt weiter (r)
0 = f (x
0
(r)
) + f (x
∗
(r+1)
) x −x
! f x(r) 1 − 0 (r) + f 00 (ξ (r) )(x∗ − x(r) )2 2 f x
und nach Umstellen: x(r+1) − x∗ =
1 f 00 (ξ (r) ) ∗ (x − x(r) )2 . 2 f 0 x(r)
272
KAPITEL 6. NUMERISCHE MATHEMATIK
Die Voraussetzungen an die Funktion f sind so gew¨ahlt, daß man mit ihnen sofort die behauptete Absch¨atzung erh¨ alt. Nach diesem Satz konvergiert das Newton-Verfahren quadratisch, falls es u ¨berhaupt konvergieren sollte. Die Konvergenz des Newton-Verfahrens ist stets nur eine lokale, da gefordert wird,daß die erzeugten Punkte das gegebene Intervall nicht verlassen d¨ urfen; ein Intervall mit dieser Eigenschaft ist aber oft sehr klein. Beispiel. F¨ ur die Quadratwurzelgleichung x2 − a = 0 (a > 0) lautet das Newton-Verfahren 1 (r) a x(r+1) = x + (r) . 2 x Als Startpunkt sollte man x(0) =
1+a 2
> =
√
a
√ w¨ahlen. Dann folgt f¨ ur alle r: x(r) > a und der Satz liefert die Absch¨atzung = 2 √ √ 1 x(r+1) − a < x(r) − a = √ 2 a oder x(r+1) − √ a
√
a
< =
1 2
√ 2 x(r) − a √ , a
d. h. die Anzahl der richtigen Stellen verdoppelt sich mit jedem Schritt. Sollte die Auswertung der Funktion f 0 zu aufwendig sein, darf man eine Konstante m ≈ f 0 (x∗ ) verwenden und erh¨ alt das vereinfachte Newton-Verfahren: x(r+1) = x(r) −
f 0 (x(r) ) , m
das noch linear konvergiert, d. h. (r) |x(r+1) − x∗ | < − x∗ | = q|x
mit q = max |1 − x
f 0 (x) |. m
Damit Konvergenz gesichert ist muß q < 1 sein, was dann garantiert ist, wenn man die Zahl m so w¨ahlt,daß max |1 − x
f 0 (x) | 0 berechnet werden, so erh¨alt man mit jedem Verfahren nur eine N¨ aherung x∗ mit |x∗ − x∗ | < =
ε , |f 0 (x∗ )|
wodurch die erzielbare Genauigkeit unmittelbar begrenzt wird. Das Rechnen mit erh¨ohter Genauigkeit im Algorithmus ist nur dann sinnvoll, wenn auch die Funktionswerte mit entsprechender Genauigkeit vorliegen.
6.8.
¨ Ubungen
1. Welche Grundgesetze der Arithmetik sind bei Rechneroperationen i.a. nicht mehr g¨ ultig (Begr¨ undung) ? 2. Man ermittle die Fehlerfortpflanzungsformel f¨ ur die Grundoperationen (+, −, ·, /).Die Werte c1 und c2 sind derart zu bestimmen, daß εz ≈ c1 εx + c2 εy f¨ ur x ≈ x ˜ und y ≈ y˜ gilt, wobei z = x · y, z˜ = x ˜ · y˜, εz = sind.
z˜ − z y˜ − y x ˜−x , εy = , εx = z y x
274
KAPITEL 6. NUMERISCHE MATHEMATIK
3. Man forme die folgenden Ausdr¨ ucke so um, daß ihre Auswertung m¨oglichst ohne Ausl¨oschung vorgenommen werden kann: (a) 1 1−x − , 2x + 1 1 + x (b) 1 − cos x , x (c) r
1 x+ − x
r
x−
1 . x
4. Es werden die Folgen en (x) =
n X xi i=0
i!
,
x n fn (x) = 1 + , n
x n+1 1 gn (x) = 1 + , hn (x) = (fn (x) + gn (x)) n 2 x betrachtet, die gleichm¨ aßig gegen e f¨ ur x ∈ R konvergieren. Jede dieser Folgen soll als Grundlage f¨ ur die Berechnung des Funktionswertes der Exponentialfunktion an einer gegebenen Stelle x gew¨ ahlt werden. Bei der Suche nach m¨oglichst guten Algorithmen lassen ¨ wir uns von folgender Uberlegung leiten. Auf einem Rechner ist der Funktionswert wegen Exponentenunterlauf bzw. Exponenten¨ uberlauf nur f¨ ur x-Werte aus einem beschr¨ankten Intervall (xmin , xmax ) berechenbar. Wenn man eine Genauigkeit ianz , gemessen in der Anzahl der richtigen Mantissenstellen, und die Anzahl r der Iterationen vorgibt, so existiert hierzu bei jedem Algorithmus ein Arbeitsintervall (x, x) mit der Eigenschaft, daß der Algorithmus mit r Iterationen ianz richtige Mantissenstellen liefert, falls der Wert x aus dem Arbeitsintervall vorgegeben wird. Nat¨ urlich sollte das Arbeitsintervall maximal berechnet sein. F¨ ur die Durchf¨ uhrung der Iterationen ben¨otigt ein Algorithmus iop Operationen, falls der Wert x im Arbeitsintervall liegt. Die Daten (x, x), iop sind algorithmenspezifisch und k¨onnen unabh¨ angig von einer Anwendung bestimmt werden. Wenn man mit dem Arbeitsintervall startet, kann man somit f¨ ur jeden Algorithmus eine Zerlegung des Ausgangsintervalls (xmin , xmax ) finden; pro Algorithmus entstehe dabei eine endliche Folge x0 , x1 , . . . , xp . Wenn nun x ∈ (xi , xi+1 ) gilt, so folgt ex = exi ey und y liegt im Arbeitsintervall. Hat man daher die Werte ex0 , ex1 , . . . , exp bereits a priori berechnet (und abgespeichert), so transformiert man mit der obigen Formel den x-Wert in sein zugeordnetes Arbeitsintervall, berechnet mit r Iterationen einen Funktionswert mit ianz richtigen Mantissenstellen und erh¨alt mit dem bereits vorhandenen Funktionswert den gesuchten. Zusammenfassend werden daher bei gegebener Genauigkeit die Speichereffizienz eines Algorithmus durch die L¨ ange des Arbeitsintervalls und die Operationseffizienz durch die Anzahl der Operationen pro Iteration beschrieben. Die Aufgabe lautet nun: Man finde aus den obigen Algorithmen den besten.
¨ 6.8. UBUNGEN
275
5. Die Funktion f (x) = tan πx soll an den St¨ utzstellen x0 = 0, x1 = 1/6 und x2 = 1/4 gegeben sein. Man l¨ ose das Interpolationsproblem entsprechend der Definition f¨ ur folgende Ans¨atze: (a) P (x) = ao + a1 x + a2 x2 , (b) Q(x) = b0 + b1 x + b2
1 . x − 1/2
Welche N¨ aherungen ergeben sich hieraus f¨ ur tan 200 ? 6. Man berechne P (¯ x) aus der vorherigen Aufgabe f¨ ur x ¯ = 0, 2 (a) nach der Methode von Lagrange, (b) nach der Methode von Newton, (c) nach dem Neville-Algorithmus. 7. Man sch¨ atze den Fehler von P (¯ x) aus der vorherigen Aufgabe ab. 8. Die Funktion ln x werde quadratisch interpoliert. St¨ utzstellen seien x0 = 10, x1 = 11 und x2 = 12. (a) Man sch¨ atze den Interpolationsfehler f¨ ur x = 11, 1 ab. (b) Wie h¨ angt das Vorzeichen des Interpolationsfehlers von x ab? √ 9. Aus den Werten von√f (x) =p x an den Stellen x0 = 0, x1 = 1 und x2 = 4 berechne man den N¨aherungswert f¨ ur 3 und 1/3 durch (a) Polynominterpolation, (b) Berechnung, Auswertung der kubischen Spline-Interpolierenden; wobei S 00 (0) = S 00 (4) = 0 gelten m¨ oge. Man diskutiere das Ergebnis. 10. F¨ ur die Zerlegung des Intervalls I = (0, 1) durch xk = k · h mit k = 0, 1, 2, 3, 4 und h = 1/4 ist die Splinefunktion S mit S 00 (0) = S 00 (1) = 0 und 1 x = x0 S(x) = 0 x = xk , k = 1, 2, 3, 4 auf I zu berechnen (in Form von Formeln f¨ ur die Teilintervalle). Man berechne insbesondere S(1/8) und S(3/8). 11. (a) Man berechne die Koeffizienten in den Newton-Cotes-Formeln f¨ ur n = 2 (SimpsonRegel) und n = 4 (Milne-Formel). (b) Welche N¨ aherungswerte ergeben sich nach den Newton-Cotes-Formeln f¨ ur n = 1, 2, 3, 4 R1 bei der Berechnung von sin πx dx? 0
276
KAPITEL 6. NUMERISCHE MATHEMATIK
12. Man leite analog zum Vorgehen bei der Trapezsumme die zusammengesetzte Simpson-Regel h {f (a) + f (b) + 2[f (a + 2h) + · · · + f (b − 2h)] 3 + 4[f (a + h) + · · · + f (b − h)]}
S(h) =
mit h=
b−a 2n
her. 13. Man zeige, daß das Romberg-Verfahren mit den Schrittweiten h0 = b − a und h1 = (b − a)/2 gerade die Simpson-Regel liefert. Ti,k = Ti,k−1 +
Ti,k−1 − Ti−1,k−1 . h i2 hi−k − 1 hi
14. F¨ ur die lineare Abbildung f (x) = a + bx mit a 6= 0, b 6= 0 soll die erste Ableitung f 0 (0) = b nach der Differentiationsformel Dh f (0) =
f (h) − f (−h) 2h
in dualer Gleitpunktarithmetik berechnet werden. Dabei seien a und b gegebene duale Gleitpunktzahlen. h sei eine Potenz von 2, so daß Multiplikation mit h und Divison durch 2h exakt ausgef¨ uhrt werden. Man gebe eine Schranke f¨ ur den relativen Fehler vonDh f (0) an. Wie verh¨alt sich diese Schranke f¨ ur h → 0? 15. Mit dem Householder-Verfahren 1/3 −1 5/6 2/3 0 1/6 x = 2/3 1/5 1/6
l¨ ose man das Gleichungssystem 1/6 5/6 . 31/30
16. Gegeben seien a, b ∈ Rn mit a 6= b und kak2 = kbk2 (k · k2 - euklidische Norm). Man konstruiere eine Housholder-Transformation H, f¨ ur die Ha = b gilt. 17. Sei H = E − αuuT eine Housholder-Transformation. Das Produkt Hy kann nach folgenden Algorithmen berechnet werden: (a) Berechne H = E − αuuT und berechne z = Hy, (b) Berechne β = αuTy und z = y − βu. Man zeige, daß beide Algorithmen a ¨quivalent sind und vergleiche die Algorithmen hinsichtlich der Anzahl der Operationen und des ben¨otigten Speicherplatzes. 18. Man berechne die Cholesky-Zerlegung der Matrix 16 4 4 A = 4 5 3 . 4 3 11
¨ 6.8. UBUNGEN
277
19. F¨ ur das Gleichungssystem Ax = b mit 1 1 1 A= und b = 1 0, 99 1 ist A
−1
=
−99 100 100 −100
F¨ ur die St¨ orungen −3 δA = 10
1 −1 −1 1
1 0
.
und δb = 10
−3
und x =
−1 1
l¨ose man das Gleichungssystem (A + δA)(x + δx) = b + δb und berechne δx und kδxk∞ . Man vergleiche die berechnete St¨orung kδxk∞ mit den Schranken aus der Absch¨atzung kδxk < cond A kδAk kδbk + . = kxk 1 − kδAkkA−1 k kAk kbk 20. Es liege das folgende mathematische Gesetz vor: y = x1 z + x2 mit zwei unbekannten Parametern x1 und x2 . Ferner sei ein Satz von Meßdaten gegeben: (yl , zl ), l = 1 . . . m mit zl = l. Man versuche, mittels linearer Ausgleichsrechnung die Parameter x1 , x2 aus den Meßdaten zu bestimmen. (a) Wie lauten die Normalgleichungen f¨ ur das lineare Ausgleichsproblem? (b) Man f¨ uhre die Cholesky-Zerlegung der Matrix der Normalgleichung B = ATA = GTG durch. 21. Man zeige: Hat die m × n-Matrix A den Rang n, so ist ATA positiv definit. √ 22. Man zeige: lim xi = 2 f¨ ur x0 = 0 und xi+1 = 2 + xi , i = 0, 1 . . . i→∞
23. Man zeige, daß die Iteration xk+1 = cos(xk ) f¨ ur alle x0 ∈ R gegen den einzigen Fixpunkt ξ (ξ = cos ξ) konvergiert. 24. Man bestimme die drei L¨ osungen der Gleichung F (x) = 3x2 − ex = 0 mit dem NewtonVerfahren, wobei die Startwerte (a) x0 = 0, 25 , (b) x0 = 0, 3 , (c) x0 = 0, 35 zu benutzen sind (max. 10 Iterationen bzw. bis zur Rechnergenauigkeit). 25. Man pr¨ ufe, ob Φ(x) = ln 3 + 2 ln |x| eine geeignete Iterationsfunktion zur Bestimmung der L¨ osung von F (x) = 3x2 − ex = 0 ist.
278
KAPITEL 6. NUMERISCHE MATHEMATIK
Kapitel 7
Programm-Anhang Auf die folgenden C/C++-Programme wird in den entsprechenden Kapiteln des Buches hingewie¨ sen. Die Reihenfolge entspricht der Hinweisfolge. Alle Routinen k¨onnen ohne Anderungen sofort u ¨bersetzt werden. GGT: //========================================================================== // Bestimmung des groessten gemeinsamen Teilers zweier natuerlicher Zahlen //========================================================================== int ggt(int m,int n){ int r;while(r=m%n) m=n,n=r;return(n);} ZYKLEN: //========================================================================== // Bestimmung aller Zyklen einer Anordnung //========================================================================== void zyklen(int n, // Laenge der Anordnung int *pi, // Feld, das die Anordnung enthaelt int **rho) // Ausgabefeld (oder NULL) { int i,j,k,l,m,*r=*rho; if(!r) r=*rho=new int[n]; for(j=0;jj < j); if (iz->j == j) mat->x = iz->x; else mat->x = 0; return mat->x; } sp_Vector sp_Matrix::operator* (sp_Vector &vv) const { #ifdef sp_test static char *q1 = "sp_Matrix::operator*"; if (vv.n != n) sp_error_(q1, 6); if (typ&15) sp_error_(q1, 13); #endif Int i, k, ll, le = vv.n_A; Vec_el *v, b; NNE *iz; sp_Vector u(m); Real s; for (i = 1; i z)->j) i < ll)) k++, v++; if (v->i == ll) s += iz->x * v->x, v++; } if (!s) continue; b.i = i, b.x = s, u j)x * v[ll]); return u; } ls_Vector sp_Matrix::operator% (ls_Vector &v) const {
304
KAPITEL 7. PROGRAMM-ANHANG #ifdef sp_test static char *q1 = "sp_Matrix::operator%"; if (v.n != m) sp_error_(q1, 6); if (typ&15) sp_error_(q1, 13); #endif Int j, ll; NNE *js; Real s; ls_Vector u(n); for (j = 1; j s)->i)x * v[ll]); return u; } void sp_Matrix::print() { Int i, j, k, l, mm, nn; NNE *iz; mm = (m > 8)? 8 : m; nn = (n > 8)? 8 : n; for ( i = 1; i j) > nn) k = nn; for (l = j; l < k; l++) cout i, v->x = js->x, v++; } iz = A+i; while ((iz = iz->z) != A) v->i = iz->j, v->x = iz->x, v++; vv.n_A = ll; return vv; } void sp_Matrix::put_row(Int i, const sp_Vector &vv) { static char *q1 = "sp_Matrix::put_row"; #ifdef sp_test if (i > m) sp_error_(q1, 15); if (typ&15) sp_error_(q1, 13); #endif Int ll = vv.n_A, j, k; NNE *js, *iz, *l; int na = get_name(); Real s; Vec_el *v = vv.A; if (l_A < ll) sp_zero_(&A, &l_A, ll-l_A); while (ll--) { if (!(s = v->x)) { v++; continue; } #ifdef sp_test if ((j = v->i) > n) sp_error_(q1, 16); #endif if (!na && (j < i)) k = j, j = i; else k = i; v++, js = A+j; while (js->s->i < k) js = js->s; if (js->s->i == k) { js->s->x = s; continue; } iz = A+k, iz->i += 1, (A+j)->j += 1; while (iz->z->j < j) iz = iz->z; l = A->z, A->z = A->z->z, l->x = s, l->z = iz->z, l->s = js->s, l->i = k, l->j = j, js->s = iz->z = l, l_A--; } } sp_Vector sp_Matrix::get_column(Int j) { if (!get_name()) return get_row(j); #ifdef sp_test static char *q1 = "sp_Matrix::get_column"; if (j > n) sp_error_(q1, 16); #endif NNE *js = A+j; Int ll = (A+j)->j; sp_Vector vv(n, ll+3); Vec_el *v = vv.A; while ((js = js->s) != A) v->i = js->i, v->x = js->x, v++;
306
KAPITEL 7. PROGRAMM-ANHANG vv.n_A = ll; return vv; } void sp_Matrix::put_column(Int j, const sp_Vector &vv) { if (!get_name()) { put_row(j, vv); return; } static char *q1 = "sp_Matrix::put_column"; #ifdef sp_test if (j > n) sp_error_(q1, 16); if (typ&15) sp_error_(q1, 13); #endif Int ll = vv.n_A, i; NNE *js, *iz, *l; Real s; Vec_el *v = vv.A; if (l_A < ll) sp_zero_(&A, &l_A, ll - l_A); while (ll--) { if (!(s = v->x)) { v++; continue; } #ifdef sp_test if ((i = v->i) > m) sp_error_(q1, 16); #endif v++, js = A+j; while (js->s->i < i) js = js->s; if (js->s->i == i) { js->s->x = s; continue; } iz = A+i, iz->i += 1, (A+j)->j += 1; while (iz->z->j < j) iz = iz->z; l = A->z, A->z = A->z->z, l->x = s, l->z = iz->z, l->s = js->s, l->i = i, l->j = j, js->s = iz->z = l, l_A--; } } sp_Vector sp_Matrix::get_lower_diagonal(Int idiag) { if (!get_name()) { return get_upper_diagonal(idiag); } #ifdef sp_test static char *q1 = "sp_Matrix::get_lower_diagonal"; if (idiag > m) sp_error_(q1, 15); #endif Int i = idiag+1, j = 1, l = 1; NNE *iz; while ((i j < j); if (iz->j == j) l++; i++, j++; } sp_Vector vv(m-idiag, l); Vec_el *v = vv.A;
307
i = idiag+1, j = 1; while ((i j < j); if (iz->j == j) v->i = j, v->x = iz->x, v++; i++, j++; } vv.n_A = l-1; return vv; } void sp_Matrix::put_lower_diagonal(Int idiag, const sp_Vector &vv) { if (!get_name()) { put_upper_diagonal(idiag,vv); return; } static char *q1 = "sp_Matrix::put_lower_diagonal"; #ifdef sp_test if (idiag > m) sp_error_(q1, 15); if (typ&15) sp_error_(q1, 13); #endif Int ll = vv.n_A, i, j; NNE *js, *iz, *l; Real s; Vec_el *v = vv.A; if (l_A < ll) sp_zero_(&A, &l_A, ll - l_A); while (ll--) { if (!(s = v->x)) { v++; continue; } #ifdef sp_test if ((j = v->i) > n) sp_error_(q1, 16); #endif if ((i = j+idiag) > m) break; v++, js = A+j; while (js->s->i < i) js = js->s; if (js->s->i == i) { js->s->x = s; continue; } iz = A+i, iz->i += 1, (A+j)->j += 1; while (iz->z->j < j) iz = iz->z; l = A->z, A->z = A->z->z, l->x = s, l->z = iz->z, l->s = js->s, l->i = i, l->j = j, js->s = iz->z = l, l_A--; } } void sp_Matrix::put_lower_diagonal(Int idiag, Real s) { if (!get_name()) { put_upper_diagonal(idiag,s); return; } #ifdef sp_test static char *q1 = "sp_Matrix::put_lower_diagonal"; if (idiag > m) sp_error_(q1, 15); if (typ&15) sp_error_(q1, 13); #endif if (fabs(s) < eps) return; NNE *js, *iz, *l;
308
KAPITEL 7. PROGRAMM-ANHANG Int i, j, ll = n-idiag; if (l_A < ll) sp_zero_(&A, &l_A, ll-l_A); for (j = 1; j s->i < i) js = js->s; if (js->s->i == i) { js->s->x = s; continue; } iz = A+i, iz->i += 1, (A+j)->j += 1; while (iz->z->j < j) iz = iz->z; l = A->z, A->z = A->z->z, l->x = s, l->z = iz->z, l->s = js->s, l->i = i, l->j = j, js->s = iz->z = l, l_A--; } } sp_Vector sp_Matrix::get_upper_diagonal(Int idiag) { #ifdef sp_test static char *q1 = "sp_Matrix::get_upper_diagonal"; if (idiag > n) sp_error_(q1, 16); #endif Int ll = 1, j = idiag+1, i = 1; NNE *iz; while ((i j < j); if (iz->j == j) ll++; i++, j++; } sp_Vector vv(n-idiag, ll); Vec_el *v = vv.A; j = idiag+1, i = 1; while ((i j < j); if (iz->j == j) v->i = i, v->x = iz->x, v++; i++, j++; } vv.n_A = ll-1; return vv; } void sp_Matrix::put_upper_diagonal(Int idiag, const sp_Vector &vv) { static char *q1 = "sp_Matrix::put_upper_diagonal"; #ifdef sp_test if (idiag > n) sp_error_(q1, 16); if (typ&15) sp_error_(q1, 13); #endif
309 Int ll = vv.n_A, i, j; NNE *js, *iz, *l; Real s; Vec_el *v = vv.A; if (l_A < ll) sp_zero_(&A, &l_A, ll-l_A); while (ll--) { if (!(s = v->x)) { v++; continue; } #ifdef sp_test if ((i = v->i) > m) sp_error_(q1, 16); #endif if ((j = i+idiag) > n) break; v++, js = A+j; while (js->s->i < i) js = js->s; if (js->s->i == i) { js->s->x = s; continue; } iz = A+i, iz->i += 1, (A+j)->j += 1; while (iz->z->j < j) iz = iz->z; l = A->z, A->z = A->z->z, l->z = iz->z, l->s = js->s, l->x = s, l->i = i, l->j = j, js->s = iz->z = l, l_A--; } } void sp_Matrix::put_upper_diagonal(Int idiag, Real s) { #ifdef sp_test static char *q1 = "sp_Matrix::put_upper_diagonal"; if (idiag > n) sp_error_(q1, 16); if (typ&15) sp_error_(q1, 13); #endif Int ll = n-idiag, i, j; NNE *js, *iz, *l; if(fabs(s) < eps) return; if (l_A < ll) sp_zero_(&A, &l_A, ll-l_A); for (i = 1; i s->i < i) js = js->s; if (js->s->i == i) { js->s->x = s; continue; } iz = A+i, iz->i += 1, (A+j)->j += 1; while (iz->z->j < j) iz = iz->z; l = A->z, A->z = A->z->z, l->x = s, l->z = iz->z, l->s = js->s, l->i = i, l->j = j, js->s = iz->z = l, l_A--; } } void sp_Matrix::delete_nne(const Mat_el &mat) { static char *q1 = "sp_Matrix::delete_nne";
310
KAPITEL 7. PROGRAMM-ANHANG Int i, j, k; NNE *js, *iz, *l; int na = get_name(); i = mat.i, j = mat.j; if (!na && (j < i)) k = j, j = i; else k = i; #ifdef sp_test if ((k > m) || (j > n)) sp_error_(q1, 14); if (typ&15) sp_error_(q1, 13); #endif js = A+j; while (js->s->i < k) js = js->s; if (js->s->i != k) return; iz = A+k, iz->i -= 1, (A+j)->j -= 1; while (iz->z != js->s) iz = iz->z; l = A->z, A->z = iz->z, iz->z = iz->z->z, A->z->z = l, js->s = js->s->s, l_A++; } void sp_Matrix::delete_row(Int i) { #ifdef sp_test static char *q1 ="sp_Matrix::delete_row"; if (typ&15) sp_error_(q1, 13); #endif NNE *js, *iz, *l; iz = A+i; while ((iz = iz->z) != A) { js = A+(iz->j), js->j -= 1; while (js->s != iz) js = js->s; js->s = js->s->s, js = iz; } if ((A+i)->i) l = A->z, A->z = (A+i)->z, js->z = l, (A+i)->z = A, l_A += (A+i)->i, (A+i)->i = 0; if (get_name()) return; js = A+i; while ((js = js->s) != A) { iz = A+(js->i), iz->i -= 1; while (iz->z != js) iz = iz->z; l = A->z, A->z = js, iz->z = iz->z->z, A->z->z = l; } (A+i)->s = A, l_A += (A+i)->j, (A+i)->j = 0; } void sp_Matrix::delete_in_row(Int i, const sp_Vector &vv)
311 { #ifdef sp_test static char *q1 = "sp_Matrix::delete_in_row"; if (vv.n != n) sp_error_(q1, 6); if (typ&15) sp_error_(q1, 13); #endif Int j, k, le = vv.n_A; NNE *js, *iz, *l; Vec_el *v = vv.A; int na = get_name(); while (le--) { j = v->i, v++; if (!na && (j < i)) k = j, j = i; else k = i; js = A+j; while (js->s->i < i) js = js->s; if (js->s->i != i) continue; iz = A+i, (A+j)->j -= 1, iz->i -= 1; while (iz->z != js->s) iz = iz->z; l = A->z, A->z = iz->z, iz->z = iz->z->z, A->z->z = l, js->s = js->s->s, l_A++; } } void sp_Matrix::delete_column(Int j) { #ifdef sp_test static char *q1 ="sp_Matrix::delete_column"; if (typ&15) sp_error_(q1, 13); #endif if (!get_name()) { delete_row(j); return; } NNE *js, *iz, *l; js = A+j; while ((js = js->s) != A) { iz = A+(js->i), iz->i -= 1; while (iz->z != js) iz = iz->z; l = A->z, A->z = js, iz->z = iz->z->z, A->z->z = l; } (A+j)->s = A, l_A += (A+j)->j, (A+j)->j = 0; } void sp_Matrix::delete_in_column(Int j, const sp_Vector &vv) { if (!get_name()) { delete_in_row(j, vv); return; } #ifdef sp_test static char *q1 = "sp_Matrix::delete_in_column"; if (vv.n != n) sp_error_(q1, 6); if (typ&15) sp_error_(q1, 13); #endif Vec_el *v = vv.A;
312
KAPITEL 7. PROGRAMM-ANHANG Int i, le = vv.n_A; NNE *js, *iz, *l; while (le--) { i = v->i, v++, js = A+j; while (js->s->i < i) js = js->s; if (js->s->i != i) continue; iz = A+i, iz->i -= 1, (A+j)->j -= 1; while (iz->z != js->s) iz = iz->z; l = A->z, A->z = iz->z, iz->z = iz->z->z, A->z->z = l, js->s = js->s->s, l_A++; } } void sp_Matrix::delete_lower_diagonal(Int idiag) { #ifdef sp_test static char *q1 = "sp_Matrix::delete_lower_diagonal"; if (typ&15) sp_error_(q1, 13); #endif if (!get_name()) { delete_upper_diagonal(idiag); return; } Int j, i, le; NNE *js, *iz, *l; le = (m-idiag > n)? n : m-idiag; j = 0; while (le--) { j++, i = j+idiag; js = A+j; while (js->s->i < i) js = js->s; if (js->s->i != i) continue; iz = A+i, iz->i -= 1, (A+j)->j -= 1; while (iz->z != js->s) iz = iz->z; l = A->z, A->z = iz->z, iz->z = iz->z->z, A->z->z = l, js->s = js->s->s, l_A++; } } void sp_Matrix::delete_in_lower_diagonal(Int idiag, const sp_Vector &vv) { #ifdef sp_test static char *q1 = "sp_Matrix::delete_in_lower_diagonal"; if (typ&15) sp_error_(q1, 13); #endif if (!get_name()) { delete_in_upper_diagonal(idiag, vv); return; } Vec_el *v = vv.A; Int j, i, le = vv.n_A; NNE *js, *iz, *l; while (le--) { j = v->i, i = j+idiag, v++;
313 js = A+j; while (js->s->i < i) js = js->s; if (js->s->i != i) continue; iz = A+i, iz->i -= 1, (A+j)->j -= 1; while (iz->z != js->s) iz = iz->z; l = A->z, A->z = iz->z, iz->z = iz->z->z, A->z->z = l, js->s = js->s->s, l_A++; } } void sp_Matrix::delete_upper_diagonal(Int idiag) { #ifdef sp_test static char *q1 = "sp_Matrix::delete_upper_diagonal"; if (typ&15) sp_error_(q1, 13); #endif Int j, i, le; NNE *js, *iz, *l; le = (n-idiag > n)? n : n-idiag; i = 0; while (le--) { i++, j = i+idiag, iz = A+i; while (iz->z->j < j) iz = iz->z; if (iz->z->j != j) continue; js = A+j, js->j -= 1, (A+i)->i -= 1; while (js->s != iz->z) js = js->s; l = A->z, A->z = iz->z, iz->z = iz->z->z, A->z->z = l, js->s = js->s->s, l_A++; } } void sp_Matrix::delete_in_upper_diagonal(Int idiag, const sp_Vector &vv) { #ifdef sp_test static char *q1 = "sp_Matrix::delete_upper_diagonal"; if (typ&15) sp_error_(q1, 13); #endif Vec_el *v = vv.A; Int j, i, le = vv.n_A; NNE *js, *iz, *l; while (le--) { i = v->i, j = i+idiag, v++, iz = A+i; while (iz->z->j < j) iz = iz->z; if (iz->z->j != j) continue; js = A+j, js->j -= 1, (A+i)->i -= 1; while (js->s != iz->z) js = js->s; l = A->z, A->z = iz->z, iz->z = iz->z->z, A->z->z = l, js->s = js->s->s, l_A++; } }
314
KAPITEL 7. PROGRAMM-ANHANG
void sp_Matrix::change_row(Int i, Int k) // i= k) || (i > m) || (k > m)) sp_error_(q1, 14); if (typ&15) sp_error_(q1, 13); #endif sp_Vector ai(n), ak(n); ai = get_row(i), ak = get_row(k); delete_row(i), delete_row(k); put_row(i,ak),put_row(k,ai); } void sp_Matrix::change_column(Int j, Int k) // j= k) || (j > n) || (k > n)) sp_error_(q1, 14); if (typ&15) sp_error_(q1, 13); #endif sp_Vector aj(n), ak(n); aj = get_column(j), ak = get_column(k); delete_column(j), delete_column(k); put_column(j,ak),put_column(k,aj); } ls_Vector sp_Matrix::solve_with_MAT(ls_Vector &x, ls_Vector &b) { #ifdef sp_test static char *q1 = "sp_Matrix::solve_with_MAT"; if (typ&15) sp_error_(q1, 13); #endif ls_Vector p(n); b -= *this * x, p = *this % b; Real s, bb = b * b, bbn, pp = p * p; Int it = 5*m, jt = it; *rc = 0; if (pp < eps) { *rc = it-jt; return x; } while (jt--) { s = bb/pp, x += s * p, b -= s * (*this * p), bbn = b * b, p = (*this % b) + (bbn/bb) * p, pp = p * p, bb = bbn; if (pp < eps) break; } *rc = it-jt; return x; }
315 ls_Vector sp_Matrix::solve(ls_Vector &b) { static char *q1 = "sp_Matrix::solve"; ls_Vector x(n); switch(typ&15) { case sp_MAT: return solve_with_MAT(x, b); default: sp_error_(q1,26); } return x; } //========================================================================= // Funktionen der Klasse sp_qMatrix //========================================================================= #ifndef sp_h #include "sp.h" #endif sp_qMatrix::sp_qMatrix(Int nn, char *meth, \ char *onam):sp_Matrix(0,0,meth,onam) { static char *q1 = "sp_qMatrix::sp_qMatrix"; Int i; m = n = nn, l_A = 0, irow = icol = NULL; if (!n) return; for (i = 0, typ = sp_END; sp_q_mask[i] != sp_END; i++) if (!strcmp(meth, sp_meth[sp_q_mask[i]])){ typ = sp_q_mask[i]; break;} switch(typ) { case sp_MAT: case sp_LU: case sp_LUinc: sp_zero_(&A, &l_A, m, n); typ z = iz->z, l->s = js->s, l->i = i, l->j = j, js->s = iz->z = l, l_A--; } Real sp_qMatrix::operator>> (Mat_el *mat) { Int j = mat->j, i = mat->i; NNE *iz = A+i; while ((iz = iz->z)->j < j); if (iz->j == j) mat->x = iz->x; else mat->x = 0; return mat->x; } ls_Vector sp_qMatrix::solve_with_LU(ls_Vector &b) { static char *q1 = "sp_qMatrix solve_with_LU"; Int i, j, k, ll; Real s, ss; NNE *js, *ij, *iz, *idz, *ivs, *l; if ((typ>>4) != sp_LU) sp_error_(q1,26); // LU-Faktorisierung
if(!(typ&15)) { for (i = 1; i x = s, i++) for (s = 0, iz = A+i; (iz = iz->z) != A; s += fabs(iz->x)); for (i = 1; i z)->j < i); if ((idz->j != i) || fabs (idz->x) < eps) sp_error_(q1, 17); s = 1/idz->x, js = A+i; while ((js = js->s)->i < i); if (idz->z == A) { while ((js = js->s) != A) js->x *= s; continue; } ivs = js; while ((js = ivs->s) != A) { if (fabs (ss = js->x * s) < eps) { iz = A+(js->i), iz->i -= 1, (A+(js->j))->j -= 1; while (iz->z != js) iz = iz->z; l = A->z, A->z = js, iz->z = iz->z->z, A->z->z = l, ivs->s = ivs->s->s, l_A++; continue; } js->x = ss, ivs = js, ij = idz, k = js->i, iz = A+k; while ((j = (ij = ij->z)->j) z->j < j) iz = iz->z; if (iz->z->j == j) { iz->z->x -= ss * ij->x; continue; } if (!l_A) sp_zero_(&A, &l_A); js = A+j, js->j += 1, (A+k)->i += 1; while (js->s->i < k) js = js->s;
321 l = A->z, A->z = A->z->z, l->x = -ss * ij->x, l->z = iz->z, l->s = js->s, l->i = k, l->j = j, js->s = iz->z = l, l_A--; } } } typ |= sp_LU; } if (!b.n) return b; #ifdef sp_test if (b.n != n) sp_error_(q1, 6); #endif ls_Vector x(n); Real *xx = x.A, *bb = b.A; // loesen for (i = 1; i z)->j) < i; s += iz->x * bb[ll-1]); for (i = n; i > 0; xx[i-1]= (bb[i-1]-s)/ss, i--) { iz = A+i; while ((iz = iz->z)->j < i); for (s = 0, ss = iz->x; (ll = (iz = iz->z)->j) x * xx[ll-1]); } return x; } ls_Vector sp_qMatrix::solve_with_LUpiv(ls_Vector &b) { static char *q1 = "sp_qMatrix::solve_with_LUpiv"; Int i, j, k, ll; Real s, ss, t; NNE *js, *ij, *iz, *idz, *ivs, *l; if ((typ>>4) != sp_LUpiv) sp_error_(q1,26); if (!(typ&15)) { // LUpiv-Faktorisierung mit Pivotisierung for (i = 1; i x = s, irow[i] = icol[i] = i, i++) { s = 0, iz = A+i; while ((iz = iz->z) != A) s += fabs(iz->x); } for (i = 1; i i, j = i+1; j i < ll) k = j, ll = (A+j)->i; if (i < k) { change_row(i,k), ll = irow[i], irow[i] = irow[k], irow[k] = ll; }
322
KAPITEL 7. PROGRAMM-ANHANG t = (A+i)->x, idz = A+i; while ((idz = idz->z)->j < i); s = (idz->j == i)? fabs(idz->x) * t : 0; if (s < eps) { iz = idz; while ((iz = iz->z) != A) if ((ss = fabs(iz->x) * t) > s) s = ss, idz = iz; if (s < eps) sp_error_(q1, 17); k = idz->j; if (i < k) { change_column(i,k), ll = icol[i], icol[i] = icol[k], icol[k] = ll; idz = A+i; while ((idz = idz->z)->j < i); } } s = 1/idz->x, js = A+i; while ((js = js->s)->i < i); if (idz->z == A) { while ((js = js->s) != A) js->x *= s; continue; } ivs = js; while ((js = ivs->s) != A) { if (fabs (ss = js->x * s) < eps) { iz = A+js->i, iz->i -= 1, (A+js->j)->j -= 1; while (iz->z != js) iz = iz->z; l = A->z, A->z = js, iz->z = iz->z->z, A->z->z = l, ivs->s = ivs->s->s, l_A++; continue; } js->x = ss, ivs = js, k = js->i, ij = idz, iz = A+k; while ((j = (ij = ij->z)->j) z->j < j) iz = iz->z; if (iz->z->j == j) { iz->z->x -= ss * ij->x; continue; } if (!l_A) sp_zero_(&A, &l_A); js = A+j, js->j += 1, (A+k)->i += 1; while (js->s->i < k) js = js->s; l = A->z, A->z = A->z->z, l->x = -ss * ij->x, l->z = iz->z, l->s = js->s, l->i = k, l->j = j, js->s = iz->z = l, l_A--; } } } typ |= sp_LUpiv; } if (!b.n) return b; #ifdef sp_test if (b.n != n) sp_error_(q1, 6); #endif ls_Vector x(n); Real *xx = x.A, *bb = b.A; // loesen
323
for (i = 1; i z)->j) < i; s += iz->x * bb[irow[ll]-1]); for (i = n; i > 0; xx[icol[i]-1]= (bb[irow[i]-1]-s)/ss, i--) { iz = A+i; while ((iz = iz->z)->j < i); for (s = 0, ss = iz->x; (ll = (iz = iz->z)->j) x * xx[icol[ll]-1]); } return x; } ls_Vector sp_qMatrix::solve_with_LUinc(ls_Vector &x, ls_Vector &b) { static char *q1 = "sp_qMatrix::solve_with_LUpre"; Int i, j, ll; NNE *a, *ij, *idz, *iz, *js; Real s, ss; Int lm = sizeof(NNE)*(More+1), lmm = sizeof(NNE)*(n+1); if ((typ>>4) != sp_LUinc) sp_error_(q1, 26); if (!(typ&15)) { if (!a_name) a_name = new char [L_tmpnam], tmpnam(a_name);else a_n=1; if (!u_name) u_name = new char [L_tmpnam], tmpnam(u_name);else u_n=1; { ofstream fa(a_name, ios::out|ios::binary); if (!fa) sp_error_(q1, 8); for (a=A,fa.write((char *)a,lmm);a=a->s;fa.write((char *)a,lm)); } // unvollstaendige LU-Zerlegung;
Elemente <eps werden genullt
for (i = 1; i x = s, i++) for (s = 0, iz = A+i; (iz = iz->z) != A; s += fabs(iz->x)); for (i = 1; i z)->j < i); s = (idz->j == i)? fabs(idz->x) * (A+i)->x : 0; iz = idz; if (s < eps) sp_error_(q1, 29); s = 1/idz->x, js = A+i; while ((js = js->s)->i < i); if (idz->z == A) { while ((js = js->s) != A) js->x *= s; continue; } while ((js = js->s) != A) { if (fabs(ss = js->x * s) < eps) { js->x = 0; continue; } js->x = ss, ij = idz, iz = A+js->i; while ((j = (ij = ij->z)->j) j < j) iz = iz->z; if (iz->j == j) iz->x -= ss * ij->x; } } } ofstream fu(u_name, ios::out|ios::binary);
324
KAPITEL 7. PROGRAMM-ANHANG if (!fu) sp_error_(q1, 8); for (a=A,fu.write((char *)a,lmm);a=a->s;fu.write((char *)a,lm)); ifstream fa(a_name, ios::in|ios::binary); if (!fa) sp_error_(q1, 8); for (a=A,fa.read((char *)a,lmm);a=a->s;fa.read((char *)a,lm)); typ |= sp_LUinc; } // vorkonditioniertes cg_Verfahren if (!b.n) return b; #ifdef sp_test if (b.n != n) sp_error_(q1, 6); #endif ifstream fa(a_name, ios::in|ios::binary); if (!fa) sp_error_(q1, 8); ifstream fu(u_name, ios::in|ios::binary); if (!fu) sp_error_(q1, 8); ls_Vector q(n), y(n), p(n); b -= *this * x; Real *bb=b.A, *qq=q.A, *yy=y.A, *pp=p.A; for (a=A,fu.read((char *)a,lmm);a = a->s;fu.read((char *)a,lm)); fu.seekg(0, ios::beg); for (i = 1; i z)->j)x * yy[ll-1]); for (i = n; i > 0; qq[i-1] = (yy[i-1]-s)/ss, i--) { iz = A+i; while ((iz = iz->z)->j < i); for (s=0,ss=iz->x;(ll = (iz = iz->z)->j)x * qq[ll-1]); } Int it = 5*n, jt = it; *rc = 0; p = q; Real alpha, bq1 = b * q, bq2; while (jt--) { for (a=A,fa.read((char *)a,lmm);a = a->s;fa.read((char *)a,lm)); fa.seekg(0, ios::beg); y = *this * p; if (fabs(s = p*y) < eps) break; alpha = bq1/s, x += alpha * p, b -= alpha * y; for (a=A,fu.read((char *)a,lmm);a=a->s;fu.read((char *)a,lm)); fu.seekg(0, ios::beg); for (i = 1; i z)->j)x * yy[ll-1]); for (i = n; i > 0; qq[i-1] = (yy[i-1]-s)/ss,i--) { iz = A+i; while ((iz = iz->z)->j < i); for (s=0,ss=iz->x;(ll=(iz = iz->z)->j)x * qq[ll-1]); }
325 bq2 = b * q, p = q + (bq2/bq1) * p, bq1 = bq2; } *rc = it-jt; return x; } ls_Vector sp_qMatrix::solve(ls_Vector &b) { static char *q1 ="sp_qMatrix::solve"; ls_Vector x(n); switch(typ>>4) { case sp_MAT: return solve_with_MAT(x, b); case sp_LU: return solve_with_LU(b); case sp_LUpiv: return solve_with_LUpiv(b); case sp_LUinc: return solve_with_LUinc(x, b); default: sp_error_(q1, 26); } return x; } //========================================================================= // Funktionen der Klasse sp_sMatrix //========================================================================= #ifndef sp_h #include "sp.h" #endif sp_sMatrix::sp_sMatrix(Int nn, char *meth, char *onam):sp_Matrix(0,0,meth,onam) { static char *q1 = "sp_Matrix::sp_Matrix"; Int i; m = n = nn, l_A = 0, a_name = u_name = NULL, a_n = u_n = 0; if (!n) return; for (i = 0, typ = sp_END; sp_s_mask[i] != sp_END; i++) if (!strcmp(meth, sp_meth[sp_s_mask[i]])){ typ = sp_s_mask[i]; break;} switch(typ) { case sp_MAT: case sp_LDLT: case sp_LDLTinc: icol = NULL, sp_zero_(&A, &l_A, m, n); typ z = iz->z, l->s = js->s, l->i = i, l->j = j, js->s = iz->z = l, l_A--; } Real sp_sMatrix::operator>> (Mat_el *mat) { Int j = mat->j, i = mat->i; if (i > j) i = mat->j, j = mat->i; NNE *iz = A+i; while ((iz = iz->z)->j < j); if (iz->j == j) mat->x = iz->x; else mat->x = 0; return mat->x; } sp_Vector sp_sMatrix::operator* (sp_Vector &vv) const { #ifdef sp_test static char *q1 = "sp_sMatrix::operator*"; if (vv.n != n) sp_error_(q1, 6); #endif Int i, ll, k, le = vv.n_A; NNE *js, *iz; Vec_el *v, b; sp_Vector u(n); Real s; for (i = 1; i s)->i) i < ll)) k++, v++; if (v->i == ll) s += js->x * v->x; } iz = A+i; while ((iz = iz->z)->j < i); while ((k < le) && (ll = (iz = iz->z)->j) i < ll)) k++, v++; if (v->i == ll) s += iz->x*v->x, v++; } if (!s) continue; b.i = i, b.x = s, u i) < i) s += js->x * vv[ll-1]; iz = A+i; while ((ll = (iz = iz->z)->j) x * vv[ll-1]; } return u; } void sp_sMatrix::change_diagonal (Int j, Int k) { #ifdef sp_test static char *q1 = "sp_sMatrix::change_diagonal"; if (j >= k) sp_error_(q1, 14); #endif Int i, i0, le; Real aj = 0, ak = 0; sp_Vector vvj(n), vvk(n); Vec_el *vj, *vk; vvj = get_row(j), vvk = get_row(k); delete_row(j); delete_row(k); for (le = vvj.n_A, vj = vvj.A, i = 0; (i < le) &&((i0 = vj[i].i) x * ii->x * ii->x); if (ausl (ii->x, t) < eps) sp_error_(q1, 18); for((A+i)->x = t = ii->x - t, t = 1/t, ij = ii->z, j=i+1;jj == j) { ss = ij->x, k = ij->i, ij->i = 0; js = A+j, js->j -= 1, (A+k)->i -= 1; while (js->s->i) js = js->s; l = A->z, A->z = ij, ii->z = ij->z, A->z->z = l, js->s = js->s->s, ij = ii->z, l_A++; } ik = A+i; while ((k = (ik = ik->z)->j) < i) { iz = A+j; while ((ll = (iz = iz->z)-> j) < k); if (ll > i) break; if (ll == k) s += (A+k)->x * ik->x * iz->x; } if (ausl(ss, s) < eps) continue; s = (ss - s) * t; if (!l_A) sp_zero_(&A, &l_A); iz = A+j, iz->i += 1; while (iz->z->j < i) iz = iz->z; js = A+i, js->j += 1; while (js->s->i < j) js = js->s; l = A->z, A->z = A->z->z, l->x = s, l->j = i, l->i = j, l->z = iz->z, l->s = js->s, iz->z = js->s = l, l_A--; } } typ |= sp_LDLT; } if (!b.n) return b; #ifdef sp_test if (b.n != n) sp_error_(q1, 6); #endif ls_Vector x(n); Real *xx = x.A, *bb = b.A; for (i = 1; i z)->j)x*xx[ll-1]); for (j = n; j > 0; xx[j-1] = (xx[j-1]/(A+j)->x) - s, j--) { js = A+j; while ((js = js->s)->i < j); for ( s = 0; (ll = (js = js->s)->i) x * xx[ll-1]); } return x; } ls_Vector sp_sMatrix::solve_with_LDLTpiv(ls_Vector &b) { static char *q1 = "sp_sMatrix::solve_with_LDLTpiv"; Int i, j, k, ll; Real s, ss, t;
334
KAPITEL 7. PROGRAMM-ANHANG NNE *ii, *ij, *ik, *iz, *js, *l; if ((typ>>4) != sp_LDLTpiv) sp_error_(q1, 26); if (!(typ&15)) { if (!(icol = new Int[n+1])) sp_error_(q1); for (i = 1; i j, k = j; if (i < k) change_diagonal(i, k), ll = icol[i], icol[i]=icol[k], icol[k] = ll; } for (i = 1; i z)->j) < i; t += (A+k)->x * ii->x * ii->x); if (ausl(ii->x, t) < eps) sp_error_(q1, 18); for((A+i)->x = t = ii->x - t, t = 1/t, ij = ii->z, j=i+1;jj == j) { ss = ij->x, k = ij->i, ij->i = 0; js = A+j, js->j -= 1, (A+k)->i -= 1; while (js->s->i) js = js->s; l = A->z, A->z = ij, ii->z = ij->z, A->z->z = l, js->s = js->s->s, ij = ii->z, l_A++; } ik = A+i; while (( k= (ik=ik->z)->j) < i) { iz = A+j; while ((iz = iz->z)->j < k); if (iz->j > i) break; if (iz->j == k) s += (A+k)->x * ik->x * iz->x; } if (ausl(ss, s) < eps) continue; s = (ss - s) * t; if (!l_A) sp_zero_(&A, &l_A); iz = A+j, iz->i += 1; while (iz->z->j < i) iz = iz->z; js = A+i, js->j += 1; while (js->s->i < j) js = js->s; l = A->z, A->z = A->z->z, l->x = s, l->j = i, l->i = j, l->z = iz->z, l->s = js->s, iz->z = js->s = l, l_A--; } } typ |= sp_LDLTpiv; } if (!b.n) return b; #ifdef sp_test if (b.n != n) sp_error_(q1, 6); #endif
335 ls_Vector x(n); Real *xx = x.A, *bb = b.A; for (i = 1; i z)->j) < i) s += iz->x * xx[icol[ll]-1]; } for (j = n; j > 0; xx[icol[j]-1] = (xx[icol[j]-1]/(A+j)->x) - s, j--) { js = A+j; while((js = js->s)->i <j); for (s = 0; (ll = (js = js->s)->i) x * xx[icol[ll]-1]); } return x; } ls_Vector sp_sMatrix::solve_with_LDLTinc(ls_Vector &x, ls_Vector &b) { static char *q1 = "sp_sMatrix::solve_with_preconditioned_cg"; Int i, j, k, ll; NNE *a, *IZ, *ik, *iz, *ij, *jk, *js; Real s, ss, t; Int lm = sizeof(NNE)*(More+1), lmm = sizeof(NNE)*(n+1); if ((typ>>4) != sp_LDLTinc) sp_error_(q1, 26); if (!(typ&15)) { if (!a_name) a_name = new char [L_tmpnam], tmpnam (a_name);else a_n=1; if (!u_name) u_name = new char [L_tmpnam], tmpnam (u_name);else u_n=1; { ofstream fa(a_name, ios::out|ios::trunc|ios::binary); if (!fa) sp_error_(q1, 8); for (a=A,fa.write((char *)a,lmm);a=a->s;fa.write((char *)a,lm)); fa.close(); } for (i = 1; i z)->j) < i; t += (A+k)->x * IZ->x * IZ->x); if (ausl(IZ->x, t) < eps) sp_error_(q1, 21); (A+i)->x = t = IZ->x - t, t = 1/t, ij = IZ; while ((j = (ij = ij->z)->j) x, jk = A+j, ik = A+i; while ((k = (ik = ik->z)->j) < i) { iz = jk; while ((iz = iz->z)->j < k); if (iz == A) break; if (iz->j == k) s += (A+k)->x * ik->x * iz->x; } if (ausl(ss, s) < eps) { ij->x = 0; continue; } ij->x = (ss - s) * t; } } for (i = 1; i z, (A+i)->z = (A+i)->s, (A+i)->s = iz;
336
KAPITEL 7. PROGRAMM-ANHANG { ofstream fu(u_name, ios::out|ios::trunc|ios::binary); if (!fu) sp_error_(q1, 8); for (a=A,fu.write((char *)a,lmm);a=a->s;fu.write((char *)a,lm)); fu.close(); } { ifstream fa(a_name, ios::in|ios::binary|ios::nocreate); if (!fa) sp_error_(q1, 8); for (a=A,fa.read((char *)a,lmm);a=a->s;fa.read((char *)a,lm)); fa.close(); } typ |= sp_LDLTinc; } if (!b.n) return b; ifstream fa(a_name, ios::in|ios::binary|ios::nocreate); if (!fa) sp_error_(q1, 8); ifstream fu(u_name, ios::in|ios::binary|ios::nocreate); if (!fu) sp_error_(q1, 8); ls_Vector p(n), q(n), y(n); Int it = 5*n, jt = it; *rc = 0; Real alpha, bq1, bq2, *bb=b.A, *qq=q.A; b -= *this * x; for (a=A,fu.read((char *)a,lmm);a=a->s;fu.read((char *)a,lm)); fu.seekg(0, ios::beg); // mit U und b auf q loesen for (i = 1; i z)->j)x * qq[ll-1]); for (i = n; i > 0; qq[i-1] = (qq[i-1]/(A+i)->x)-s, i--) { s = 0, js = A+i; while ((js = js->s)->i < i); while ((ll = (js = js->s)->i) x * qq[ll-1]; } bq1 = b * q, p = q; while (jt--) { if (fabs(bq1) < eps) break; for (a=A,fa.read((char *)a,lmm);a=a->s;fa.read((char *)a,lm)); fa.seekg(0, ios::beg); y = *this * p; if (fabs(s = p*y) < eps) break; alpha = bq1/s; x += alpha * p; b -= alpha * y; for (a=A,fu.read((char *)a,lmm);a=a->s;fu.read((char *)a,lm)); fu.seekg(0, ios::beg); for (i = 1; i z)->j)x * qq[ll-1]); for (i = n; i > 0; qq[i-1] = (qq[i-1]/(A+i)->x)-s, i--) { s = 0, js = A+i; while ((js = js->s )->i < i);
337 while ((ll = (js = js->s)->i) x * qq[ll-1]; } bq2 = b * q; p = q + (bq2/bq1) * p; bq1 = bq2; } *rc = it-jt; return x; } ls_Vector sp_sMatrix::solve(ls_Vector &b) { static char *q1 ="sp_sMatrix::solve"; ls_Vector x(n); switch(typ) { case sp_MAT: return solve_with_MAT(x, b); case sp_LDLT: return solve_with_LDLT(b); case sp_LDLTpiv: return solve_with_LDLTpiv(b); case sp_LDLTinc: return solve_with_LDLTinc(x, b); default: sp_error_(q1, 26); } return x; } //========================================================================= // Funktionen der Klasse sp_bMatrix //========================================================================= #ifndef sp_h #include "sp.h" #endif sp_bMatrix::sp_bMatrix(Int nn, Int d, char *meth, char *onam):sp_Org(onam) { static char *q1 = "b_Matrix::b_Matrix"; n = nn, o_anz = d; if (!nn || !d) return; Int i; for (i = 0, typ = sp_END; sp_b_mask[i] != sp_END; i++) if (!strcmp(meth, sp_meth[sp_b_mask[i]])){ typ = sp_b_mask[i]; break;} switch(typ) { case sp_MAT: break; case sp_END: sp_error_(q1, 39); } if (!(o_ind = new Int [o_anz+1])) sp_error_(q1); memset(o_ind, 0, sizeof(Int)*(o_anz+1)); if (!(o_f = new unsigned char [o_anz+1])) sp_error_(q1); memset(o_f, 0,o_anz+1); if (!(o_w = new Real* [o_anz+1])) sp_error_(q1); memset(o_w, 0, sizeof(Real*)*(o_anz+1));
338
KAPITEL 7. PROGRAMM-ANHANG } sp_bMatrix::~sp_bMatrix() { if (!*copy && n) { Int i; for (i = 0; i x, v++); if (!(f >> w) || (*w != ’}’)) sp_error_(q1, 4); } void sp_Vector::operator>>(char *name) { if (*name == ’\0’) write(cout); else{ ofstream f(name); write(f);} } void sp_Vector::operatori < i) v++; if (v->i > i) sp_error_(q1, 7); v->x = uu.x;
return; }
} Real sp_Vector::operator[] (Int k) // Komponenten-Ausgabe { #ifdef sp_test static char *q1 = "sp_Vector::operator[]"; if (!(k > 0) || (k > n)) sp_error_(q1, 7); #endif Vec_el *v = A, *ve = v+n_A; while ((v < ve) && (v->i < k)) v++; if (v->i == k) return v->x; return 0; } Int sp_Vector::operator== (const sp_Vector &u) const// Test auf Gleichheit { #ifdef sp_test static char *q1 = "sp_Vector::operator=="; if (u.n != n) sp_error_(q1, 6); #endif if (n_A != u.n_A) return 0; for (Vec_el *x = A, *xe = x+n_A, *y = u.A; x < xe; x++, y++) { if (x->i != y->i) return 0; if (ausl(x->x, -y->x) > eps) return 0; } return 1; } Int sp_Vector::operator!= (const sp_Vector &u) const// Test auf Ungleichheit { #ifdef sp_test static char *q1 = "sp_Vector::operator!="; if (u.n != n) sp_error_(q1, 6); #endif if (n_A != u.n_A) return 1; for (Vec_el *x = A, *xe = x+n_A, *y = u.A; x < xe; x++, y++) { if (x->i != y->i) return 1;
345 if (ausl(x->x, -y->x) > eps) return 1; } return 0; } sp_Vector sp_Vector::operator- () const // negativer sp_Vector { sp_Vector yy(n); yy = *this; for (Vec_el *y = yy.A, *ye = y+n_A; y < ye; y->x = -y->x, y++); return yy; } sp_Vector sp_Vector::operator* (Real a) const // sp_Vector mal Wert { sp_Vector yy(n); yy = *this; for (Vec_el *y = yy.A, *ye = y+n_A; y < ye; y->x *= a, y++); return yy; } void sp_Vector::operator= (const sp_Vector &u) { static char *q1 = "sp_Vector::operator="; if (n) delete [] A; n_A = u.n_A, l_A = u.l_A;
// sp_Vector = sp_Vector
if (!(A = new Vec_el[l_A])) sp_error_(q1); memcpy(A, u.A, sizeof(Vec_el) * n_A); } void sp_Vector::operator= (const ls_Vector &u) { static char *q1 = "sp_Vector::operator="; Int i; Real *f = u.A; if (n) delete n = u.n; for (i = 0; i l_A = n_A; Vec_el *v; if (!(v = A = for (i = 0; i
// sp_Vector = ls_Vector
[] A; n_A = 0; < n; i++) if (f[i]) n_A++;
new Vec_el[l_A])) sp_error_(q1); < n; i++) if (f[i]) v->i = i, v->x = f[i];
} sp_Vector sp_Vector::operator+ (const sp_Vector &uu) const { #ifdef sp_test static char *q1 = "sp_Vector::operator+"; if (uu.n != n) sp_error_(q1, 6); #endif sp_Vector yy(n, n_A + uu.n_A); Int yle = 0;
346
KAPITEL 7. PROGRAMM-ANHANG Vec_el *y = yy.A, *u = uu.A, *v = A, *ue = u+uu.n_A, *ve = v+n_A; while ((u < ue) && (v < ve)) { if (u->i == v->i) { y->i = u->i, y->x = v->x + u->x, u++, v++, yle++; continue; } if (u->i < v->i) { *y = *u, u++, y++, yle++; continue; } *y=*v, v++, y++, yle++; } if (u < ue) memcpy(y, u, sizeof(Vec_el) * (ue-u)), yle += (ue-u); if (v < ve) memcpy(y, v, sizeof(Vec_el) * (ve-v)), yle += (ve-v); yy.n_A = yle; return yy; } sp_Vector sp_Vector::operator- (const sp_Vector &uu) const { #ifdef sp_test static char *q1 = "sp_Vector::operator-"; if (uu.n != n) sp_error_(q1, 6); #endif sp_Vector yy(n, n_A + uu.n_A); Int yle = 0; Vec_el *y = yy.A, *u = uu.A, *v = A, *ue = u+uu.n_A, *ve = v+n_A; while ((u < ue) && (v < ve)) { if (u->i == v->i) { y->i = u->i, y->x = v->x - u->x, u++, v++, yle++; continue; } if (u->i < v->i) { *y = *u, u++, y++, yle++; continue; } *y=*v, v++, y++, yle++; } while (u < ue) y->x = -u->x, y->i = u->i, yle++, u++; if (v < ve) memcpy(y, v, sizeof(Vec_el) * (ve-v)), yle += (ve-v); yy.n_A = yle; return yy; } void sp_Vector::operator+= (const sp_Vector &uu) // sp_Vector += sp_Vector { #ifdef sp_test static char *q1 = "sp_Vector::operator+="; if (uu.n != n) sp_error_(q1, 6); #endif sp_Vector yy(n, n_A+uu.n_A); Int yle = 0; Vec_el *y = yy.A, *u = uu.A, *v = A, *ue = u+uu.n_A, *ve = v+n_A; while ((u < ue) && (v < ve)) { if (u->i == v->i) { y->i = u->i, y->x = v->x + u->x, u++, v++, yle++; continue; }
347 if (u->i < v->i) { *y = *u, u++, y++, yle++; continue; } *y=*v, v++, y++, yle++; } if (u < ue) memcpy(y, u, sizeof(Vec_el) * (ue-u)), yle += (ue-u); if (v < ve) memcpy(y, v, sizeof(Vec_el) * (ve-v)), yle += (ve-v); yy.n_A = yle; *this = yy; } void sp_Vector::operator-= (const sp_Vector &uu) // sp_Vector -= sp_Vector { #ifdef sp_test static char *q1 = "sp_Vector::operator-="; if (uu.n != n) sp_error_(q1, 6); #endif sp_Vector yy (n, n_A + uu.n_A); Int yle = 0; Vec_el *y = yy.A, *u = uu.A, *v = A, *ue = u+uu.n_A, *ve = v+n_A; while ((u < ue) && (v < ve)) { if (u->i == v->i) { y->i = u->i, y->x = v->x - u->x, u++, v++, yle++; continue; } if (u->i < v->i) { *y = *u, u++, y++, yle++; continue; } *y = *v, v++, y++, yle++; } while (u < ue) y->x = -u->x, y->i = u->i, yle++, u++; if (v < ve) memcpy(y, v, sizeof(Vec_el) * (ve-v)), yle += (ve-v); yy.n_A = yle; *this = yy; } Real sp_Vector::operator* (const sp_Vector &uu) const// Skalarprodukt { #ifdef sp_test static char *q1 = "sp_Vector::operator*"; if (uu.n != n) sp_error_(q1, 6); #endif Vec_el *u = uu.A, *ue = u+uu.n_A, *v = A, *ve = v+n_A; Real s, sp = 0, sm = 0; while ((u < ue) && (v < ve)) { if (u->i < v->i) { u++; continue; } if (u->i > v->i) { v++; continue; } if ((s = u->x * v->x) >0) sp += s; else sm += s; u++, v++; } if (ausl(sp, -sm) < eps) return 0.; else return sp+sm; }
348
KAPITEL 7. PROGRAMM-ANHANG void sp_Vector::operator*= (Real a) { for (Vec_el *u = A, *ue = u+n_A; u < ue; u->x *= a, u++); } //========================================================================= // Funktionen der Klasse ls_Vector //========================================================================= #ifndef sp_h #include "sp.h" #endif ls_Vector::ls_Vector (Int nn, char *onam):ls_Org(onam) { static char *q1 = "Vector::ls_Vector"; n = nn; if (!n){ A = NULL; return;} if (!(A = new Real[n])) sp_error_(q1); memset(A, 0, sizeof(Real) * n); } ls_Vector::~ls_Vector () { if (!*copy && !n) delete [] A; } void ls_Vector::write(ostream &f) { static char *q1 = "Vector::write"; Int i, prec = asp-9; f.unsetf(ios::scientific), f.unsetf(ios::floatfield); if (oname) f *x, x++); w) || (*w != ’}’)) sp_error_(q1, 4);
349 void ls_Vector::operator>>(char *name) { if (*name == ’\0’) write(cout); else{ ofstream f(name); write(f);} } void ls_Vector::operator eps) return 0; return 1; } Int ls_Vector::operator!= (const ls_Vector &u) const { #ifdef sp_test static char *q1 = "Vector::operator!="; if (u.n != n) sp_error_(q1, 6); #endif Real *uu = u.A, *x = A, *xe = x+n; for (; x < xe; x++, uu++) if (ausl(*x, -*uu) > eps) return 1; return 0; } ls_Vector ls_Vector::operator- () const { ls_Vector yy(n); Real *y = yy.A, *ye = y+n, *x = A; for (; y < ye; *y = -*x, y++, x++); return yy; }
350
KAPITEL 7. PROGRAMM-ANHANG
ls_Vector ls_Vector::operator= (Real a) { Real *y = A, *ye = A+n; for (; y < ye; *y = a, y++); return *this; } ls_Vector ls_Vector::operator* (Real a) const { ls_Vector yy(n); Real *y = yy.A, *ye = y+n, *x = A; for (; y < ye; *y = *x + a, y++, x++); return yy; } void ls_Vector::operator= (const ls_Vector &u) { #ifdef sp_test static char *q1 = "Vector::operator="; if (u.n != n) sp_error_(q1, 6); #endif memcpy(A, u.A, sizeof(Real) * n); } ls_Vector ls_Vector::operator= (const sp_Vector &u) { #ifdef sp_test static char *q1 = "Vector::operator="; if (u.n != n) sp_error_(q1, 6); #endif Vec_el *uu, *ue; memset(A,0,sizeof(Real) * n); for (uu = u.A, ue = u.A+u.n_A; uu < ue; A[uu->i] = uu->x, uu++); return *this; } ls_Vector ls_Vector::operator+ (const ls_Vector &u) const { #ifdef sp_test static char *q1 = "Vector::operator+"; if (u.n != n) sp_error_(q1, 6); #endif ls_Vector yy(n); yy = *this; Real *y = yy.A, *uu = u.A; for (Int i = 0; i < n; y[i++] += uu[i]); return yy;
351 } ls_Vector ls_Vector::operator- (const ls_Vector &u) const { #ifdef sp_test static char *q1 = "Vector::operator-"; if (u.n != n) sp_error_(q1, 6); #endif ls_Vector yy(n); yy = *this; Real *uu = u.A, *y = yy.A; for (Int i = 0; i < n; y[i++] -= uu[i]); return yy; } ls_Vector ls_Vector::operator+= (const ls_Vector &u) { #ifdef sp_test static char *q1 = "Vector::operator+="; if (u.n != n) sp_error_(q1, 6); #endif Real *uu = u.A; for (Int i = 0; i < n; A[i++] += uu[i]); return *this; } ls_Vector ls_Vector::operator-= (const ls_Vector &u) { #ifdef sp_test static char *q1 = "Vector::operator-="; if (u.n != n) sp_error_(q1, 6); #endif Real *uu = u.A; for (Int i = 0; i < n; A[i++] -= uu[i]); return *this; } Real ls_Vector::operator* (const ls_Vector &u) const// Skalarprodukt { #ifdef sp_test static char *q1 = "Vector::operator*"; if (u.n != n) sp_error_(q1, 6); #endif Real *uu = u.A, s, sp = 0, sm = 0; for (Int i = 0; i < n; i++) { if ((s = uu[i] * A[i]) > 0) sp += s; else sm += s; }
352
KAPITEL 7. PROGRAMM-ANHANG if (ausl(sp, -sm) < eps) return 0.; else return sp + sm; } ls_Vector ls_Vector::operator*= (Real a) { for (Int i = 0; i < n; A[i++] *= a); return *this; }
//========================================================================== // Fehlerroutine und Restfunktionen //========================================================================== #ifndef sp_h #include "sp.h" #endif void sp_error_(const char *v, Int l) { static char *a[] = { "no memory.", // 0 "missing Vector name.", // 1 "cannot open Vector file.", // 2 "Vector not found.", // 3 "Vector end error.", // 4 "no correct Vector.", // 5 "Vector size error.", // 6 "Vector component index error.",// 7 "cannot open Matrix file.", // 8 "Matrix not found.", // 9 "no correct Matrix.", // 10 "Matrix contents error.", // 11 "Matrix size error.", // 12 "operation/function forbidden.",// 13 "index error.", // 14 "row index error.", // 15 "column index error.", // 16 "Matrix singular.", // 17 "s_Matrix singular.", // 18 "Matrix write error.", // 19 "Matrix read error.", // 20 "incomplete s_Matrix singular.",// 21 "diagonal index error.", // 22 "missing diagonals.", // 23 "diagonal is empty.", // 24 "missing file name.", // 25 "matrix method error.", // 26 "matrix is not empty.", // 27 "method not found.", // 28 "incomplete q_Matrix singular." // 29 }; cerr s = NULL, (*A)->z = a+1, (*A)->s = a; for (aa = a+1, ae = a+More; aa < ae; aa->z = aa+1, aa++); ae->z = NULL, *l_A = More-1; return; } mm = m/More; if (!m || (mm*More < m)) mm++; while (mm--) { if (!(a = new NNE[More+1])) sp_error_(q1); for (aa = a+1, ae = a+More; aa < ae; aa->z = aa+1, aa++); ae->z = NULL, a->s = (*A)->s, (*A)->s = a, ((a->s)+More)->z = a+1, (a->s)->z = a, *l_A += More; } } void sp_Org::sp_delete_(NNE *A) { NNE *a, *aa; for(a = A; a; aa = a->s, delete [] a, a = aa); } ls_Org::ls_Org (char *onam)
354
KAPITEL 7. PROGRAMM-ANHANG { asp = (sizeof(Real) < 8)? dr4 : dr8, eps = (sizeof(Real) < 8)? eps4 : eps8; copy = new Int, *copy = 0; oname = onam; } ls_Org::ls_Org (const ls_Org &B) { asp = B.asp, eps = B.eps, copy = B.copy, *copy += 1, oname = B.oname; } ls_Org::~ls_Org() { if (!*copy) delete copy; else *copy -= 1; } Real ausl(Real a, Real b) // Ausloeschung zweier Zahlen { if (!a || !b || (a * b < 0)) return fabs(a-b); a = fabs(a), b = fabs(b); if ((a < 1) && (b < 1)) return fabs(a-b); return fabs(a - b)/((a > b)? a : b); } ls_Vector operator* (Real a, const ls_Vector &x) { Int n = x.n, i; ls_Vector vv(n); vv = x; Real *v = vv.A; for (i = 0; i < n; v[i++] *= a); return vv; }
Index Abbildung, 22 Abbildung, bijektive, 23 injektive, 23 inverse, 23 kontrahierende, 147 lineare, 67 orthogonale, 97 surjektive, 22 Ableitung, 151 Absorption, 14 Abstand, 116 Adjazenzgrad, 112 ¨ Aquivalenzklasse, 19 ¨ Aquivalenzrelation, 18 ¨ Aquivalenzrelation, induzierte, 24 Algebra, allgemeine, 29 boolesche, 14 Algorithmus, euklidischer, 11 numerischer, 234 numerisch stabiler, 242 Alphabet, 29 Anordnungsgruppe, 38 Anordnungsmatrix, 87 Argumentbereich, 22 Assoziativit¨ at, 14 Atom, 29 Aufgabe, stabile, 235 Ausgabe, 121 Ausgabealphabet, 121 Ausgabefunktion, 121 Ausl¨oschung, 240 AUSTAUSCH, 280 Auswahlmenge, 10 Auswahlprinzip, 9 Automat, 121 Automaten,
isomorphe, 122 Basis, 59, 117 Basis, nat¨ urliche, 62 Bildbereich, 22 Binomialverteilung, 203 Bisektionsverfahren, 146 Bonferoni-Ungleichung, 193 Br¨ uckenproblem, K¨onigsberger, 118 Cauchyfolge, 132 CG, 287 CG-U, 287 cg-Verfahren, 266 χ2 -Verteilung, 211 Darstellung, baryzentrische, 245 Definition, induktive, 115 Definitionsbereich, 22 Determinante, 88 Dichte, 197 Dichtefunktion, 197 Differentialquotient, 151 Differenz, dividierte, 246 symmetrische, 13 Differenzenquotient, zentraler, 252 Dimension, 65 Distributivit¨at, 14 Division, 21 3/8-Regel, 250 Dreiecksungleichung, 93 3σ-Regel, 210 Durchmesser, 171 Durchschnitt, 13 Eigenraum, 100 355
356 Eigenvektor, 99 Eigenwert, 99 Eingabe, 121 Eingabealphabet, 121 Eingabefehler, 234 Einheitsmatrix, 78 Einzelwahrscheinlichkeit, 197 Element, Einselement, 34 inverses, 34 neutrales, 34 Elementarereignis, 191 Elemente, links¨aquivalente, 40 Endknoten, 112 Ereignis, 192 Ereignis, zuf¨alliges, 191, 192 Ereignisse, unabh¨angige, 195 unvereinbare, 192 Erwartungswert, 198 Erzeugendensystem, 39 Eulergraph, 118 Eulerkreis, 118 Eulersche Zahl, 136 Extensionalit¨ atsprinzip, 9 Extremum, 162 Extremwert, 162 Faktor, 20 Faktorstruktur, 32 Fakult¨atsfunktion, 210 Fehler, 234 Fixpunkt, 147 Folge, 129 Folge, bestimmt divergente, 131 divergente, 131 konvergente, 131 monoton fallende, 129 monoton wachsende, 129 station¨are, 129 unbestimmt divergente, 131 Fundamentalfolge, 132 Fundamentalsystem, 59 Funktion, 22 Funktion, O-, 151 O-, 151
INDEX ableitbare, 151 analytische, 166 differenzierbare, 151 elementar integrierbare, 176 integrierbare, 169 linksseitig differenzierbare, 153 linksseitig stetige, 144 rechtsseitig differenzierbare, 153 rechtsseitig stetige, 145 stetig differenzierbare, 152 stetige, 143 Funktional, 172 Funktionenfolge, gleichm¨aßig konvergente, 149 konvergente, 148 Funktionenreihe, gleichm¨aßig konvergente, 150 Gammafunktion, 210 GAUSS, 281 Gauß-Seidel-Verfahren, 266 GGT, 279 Gleichverteilung, 202, 206 Glied, 16, 129 Grad, 112 Graph, 111 Graph, abgeschlossener, 113 azyklischer, 117 bewerteter, gerichteter, 115 bipartiter, 125 gerichteter, 18, 111 regul¨arer, 124 schlichter, 112 schwach zusammenh¨angender, 117 stark zusammenh¨angender, 117 ungerichteter, 111 unzusammenh¨angender, 116 vollst¨andiger, 113 zusammenh¨angender, 116 Graphen, isomorphe, 113 Grenze, obere, 127 untere, 128 Grenzfunktion, 148 Grenzwert, 132, 144 Gruppe, 34 Gruppe, abelsche, 35
INDEX alternierende, 38 symmetrische, 36 H¨aufungspunkt, 128, 132 Halbdiagonalform, 76 Halbgruppe, 34 Halbgruppe, abelsche, 35 Halbordnung, 12, 19 Hamiltonkreis, 119 Hauptachsentransformation, 99 Hauptdiagonalelement, 73 Hingrad, 113 Homomorphiesatz, 32 H¨ ulle, lineare, 59 Ideal, 46 Idempotenz, 14 Implementierung, 234 Index, 41 Indexmenge, 25 Indikatorfunktion, 129 Induktion, vollst¨ andige, 10 Induktionsanfang, 10 Induktionsannahme, 10 Induktionsschluß, 10 Integral, bestimmtes, 169 unbestimmtes, 175 uneigentliches, 179 Integrationsformel, Newton-Cotes-Formel, 249 Integrationsgrenze, 169 Interpolation, trigonometrische, 242 Interpolationspolynom, Langrange-sches, 243 Newton-sches, 245 Interpolationsproblem, lineares, 242 Inversion, 37 Irrtumswahrscheinlichkeit, 218, 222 Isomorphie, 30 Isomorphismus, 30 Join, 20 Kante,
357 inzidente, 112 Kern, 44 Knoten, 111 Knoten, adjazenter, 112 isolierter, 112 Koeffizientenmatrix, 82 K¨orper, 45 Kommutativit¨at, 13 Komplement, 13 Komplement, algebraisches, 65 Komplementmenge, 13 Komplementraum, 65 Komplementregel, 14 Komponente, 16, 58, 116 Kondition, 254 Kongruenzmethode, multiplikative, 215 Kongruenzrelation, 33 Konvergenzkreis, 166 Koordinate, 62 Kreis, 115 Kreuzmenge, 16 L¨ange, 37, 115 Landau-Symbol, 151 LDLT, 286 LDLT SOLVE, 286 Limes, 132 Linearkombination, 59 Linksnebenklassen, 40 L¨osung, allgemeine, 82 LPOLYNOM, 283 LU, 282 LU-Zerlegung, 87 LU SOLVE, 282 M¨achtigkeit, 25 Mantisse, 239 Matrix, 73 Matrix, inverse, 85 orthogonale, 97 positiv definite, 260 regul¨are, 85 singul¨are, 85 streng diagonal-dominante, 110 transponierte, 79
358 Matrixnorm, submultiplikative, 256 vertr¨agliche, 94 Maximum, 146, 162 Maximum, lokales, 162 Menge, 7 Menge, abgeschlossene, 27, 128 abz¨ahlbare, 25 beschr¨ankte, 127 endliche, 25 nach oben beschr¨ ankte, 127 nach unten beschr¨ ankte, 127 offene, 128 u ¨berabz¨ahlbare, 25 unendliche, 25 Mengen, gleichm¨ achtige, 25 Mengenbildungsprinzip, 8 Mengendifferenz, 13 Mengensystem, 8 Methode, instabile, 238 Minimum, 146 Minimum, lokales, 162 Mittelwert, 198 Modul, 35 Modulregel, 14 Momente, 248 Monoid, 34 Monotonie, 193 n-Tupel, geordnetes, 16 Nachbar, 112 Nachiteration, 254 NACHITERATION, 284 Neville-Algorithmus, 243 Newton-Verfahren, 271 Norm, 93 Norm, euklidische, 94 Normalgleichungen, 269 Normalteiler, 44 Normalverteilung, standardisierte, 210 Normierung, 201 NPOLYNOM, 283
INDEX Nullelement, 35 Nullfolge, 130 Nullmatrix, 78 Nullteiler, 35 Null und Eins, 14 Oberhalbstetigkeit, 193 Oberintegral, 169 Obermenge, 12 Obermenge, echte, 12 Obersumme, 168 Operation, 27 Operation, assoziative, 27 distributive, 27 idempotente, 27 kommutative, 27 links-distributive, 27 rechts-distributive, 27 Operationstafel, 27 Operator, 159 Ordnung, 19, 25, 40 ORTHO, 284 Orthogonalisierungsverfahren, Erhard-Schmidtsches, 97 Orthogonalraum, 92 Orthonormalbasis, 95 Orthonormalsystem, 95 Paar, geordenetes, 16 Partialsumme, 137 Partialsummenfolge, 137 Permutationsgruppe, 38 Permutationsmatrix, 87 Pfeildiagramm, 18 Pivotelement, 72 Pivotspalte, 72 Pivotzeile, 72 Poissonverteilung, 204 Polarmethode, 216 Polynom, charakteristisches, 100 Polynom-Interpolation, 242 Potenzmenge, 12 Potenzreihe, 166 Produkt, dyadisches, 257 kartesisches, 16
INDEX Produktmenge, 16 Projektion, 20 Pseudozufallszahl, 215 Punkt, 127 Punkt, innerer, 128 isolierter, 128 QR, 285 QR SOLVE, 285 Quelle, 117 Randpunkt, 128 Rang, 81 Raum, linearer, 57 Rechenfehler, 234 Rechnerzahl, 239 Rechteckverteilung, 206 Rechtsnebenklasse, 41 Regel, de Morgansche, 14 Regula falsi, 272 Reihe, 136 Reihe, absolut konvergente, 137 bedingt konvergente, 137 bestimmt divergente, 137 divergente, 137 geometrische, 142 harmonische, 138 konvergente, 137 unbedingt konvergente, 137 unbestimmt divergente, 137 unendliche, 136 Wert der, 137 Relation, antisymmetrische, 18 asymmetrische, 18, 111 bin¨ are, 16 connexe, 18 irreflexive, 18 reflexive, 18 symmetrische, 18 transitive, 18 Relaxationsparameter, 273 Repr¨asentant, 19 Residuum, 254 Restglied, 161 Restglied,
359 nach Cauchy, 161 nach Lagrange, 161 Restklasse, 19 Restklasse, prime, 47 Restklassengruppe, additive, 43 Restklassenstruktur, 32 Reststruktur, 32 Restsystem, 19 Resultat, 27 Ring, 45 Ring, mit Einselement, 45 Ringhomomorphismus, 46 Ringisomorphismus, 46 Romberg-Integration, 252 R¨ uckw¨artselimination, 84 Rundreiseproblem, 119 Schalter, 15 Schaltkreis, 15 Schaltwert, 15 Schatten, 113 Schl¨ ussel, 22 Schranke, obere, 127 untere, 128 Schur-Norm, 95 Senke, 117 Siebformel, 193 σ-Additivit¨at, 192 σ-Algebra, 191 Signum, 37 Simpsonregel, 250 Skalarprodukt, 91 SP, 288 Spaltenrang, 81 Spaltenvektor, 73 Spline-Funktion, kubische, 247 nat¨ urliche kubische, 247 Spline-Interpolation, 242 Spur, 107 Stammfunktion, 174 Stammfunktion, elementare, 176 Standardabweichung, 200 Standardisierung, 201 Stichprobe, 217
360 Streuung, 200 Struktur, 29 Struktur, freie, 29 homomorphe, 30 isomorphe, 30 Strukturabbildung, 30 Studentverteilung, 211 St¨ utzpunkte, 242 St¨ utzstellen, 242 Subadditivit¨ at, 193 Substitutionsfunktion, 178 Substruktur, 30 Subtraktivit¨ at, 193 Tabelle, 17 Taylor-Entwicklung, 161 Taylorreihe, 167 Teilfolge, 129 Teilmenge, 12 Teilmenge, echte, 12 Teilstruktur, 30 Tr¨agermenge, 29 Transposition, 37 Trapezregel, 250 Trapezsumme, 251 Tschebyscheff-Ungleichung, 201 ¨ Uberdeckung, lineare, 59 ¨ Uberf¨ uhrungsfunktion, 121 Umgebung, 127 Ungleichung, Cauchy-Schwarzsche, 92 Universum, 8 Unterfolge, 129 Untergraph, 113 Untergraph, ges¨attigter, 113 spannender, 113 Untergruppe, 38 Untergruppe, zyklische, 40 Unterhalbgruppe, 38 Unterhalbgruppe, zyklische, 40 Unterhalbstetigkeit, 193 Unterintegral, 169 Unterk¨orper, 45
INDEX Untermenge, 12 Unterraum, 58 Unterring, 45 Unterstruktur, 30 Untersumme, 168 Varianz, 200 Vektor, 57 Vektoren, linear abh¨angige, 60 linear unabh¨angige, 60 orthogonale, 92 Vektorraum, 57 Vektorraum, euklidischer, 94 linearer, 57, 67 transponierter, 79 Ver¨anderliche, zuf¨allige, 195 Verbund, 20 Vereinigung, 13 Verfahrensfehler, 234 Verfeinerung, 170 Verteilung, gleichm¨aßige, 202 Verteilungsfunktion, 196 Vertrauensintervall, 218 Vierfarbenproblem, 119 Wahrscheinlichkeit, 192 Wahrscheinlichkeit, empirische, 192 Wahrscheinlichkeitsmaß, 192 Weg, einfacher, 115 elementarer, 115 Weggrad, 113 Wendepunkt, 162 Wertebereich, 22 Wortl¨ange, 239 Zahlenfolge, 129 Zeilenrang, 73 Zeilensummennorm, 94 Zeilenvektor, 73 Zentrieren, 200 Zerlegung, 19 Zerlegungsformel, Weierstraßsche, 152 Zufallsgr¨oße, 195
INDEX χ2 -verteilte, 211 Zufallsgr¨ oße, diskrete, 197 exponentialverteilte, 208 gleichverteilte, 206 normalverteilte, 209 poissonverteilte, 204 standardisierte, 201 stetige, 197 student-verteilte, 211 unabh¨ angige, 202 Zufallsvariable, 195 Zustand, 121 Zustandsmenge, 121 ZYKLEN, 279 Zyklus, 36
361