Jörg Liesen | Volker Mehrmann Lineare Algebra
Bachelorkurs Mathematik Herausgegeben von: Prof. Dr. Martin Aigner, Prof. Dr. Heike Faßbender, Prof. Dr. Jürg Kramer, Prof. Dr. Peter Gritzmann, Prof. Dr. Volker Mehrmann, Prof. Dr. Gisbert Wüstholz Die Reihe ist zugeschnitten auf den Bachelor für mathematische Studiengänge. Sie bietet Studierenden einen schnellen Zugang zu den wichtigsten mathematischen Teilgebieten. Die Auswahl der Themen entspricht gängigen Modulen, die in einsemestrigen Lehrveranstaltungen abgehandelt werden können. Die Lehrbücher geben eine Einführung in ein mathematisches Teilgebiet. Sie sind im Vorlesungsstil geschrieben und benutzerfreundlich gegliedert. Die Reihe enthält Hochschultexte und kurz gefasste Skripte und soll durch Übungsbücher ergänzt werden.
Lars Grüne / Oliver Junge Gewöhnliche Differentialgleichungen Wolfgang Fischer / Ingo Lieb Einführung in die Komplexe Analysis Jörg Liesen / Volker Mehrmann Lineare Algebra Martin Aigner Zahlentheorie
www.viewegteubner.de
Jörg Liesen | Volker Mehrmann
Lineare Algebra Ein Lehrbuch über die Theorie mit Blick auf die Praxis STUDIUM
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.
Prof. Dr. Jörg Liesen Technische Universität Berlin Institut für Mathematik Straße des 17. Juni 136 10623 Berlin
[email protected] Prof. Dr. Volker Mehrmann Technische Universität Berlin Institut für Mathematik Straße des 17. Juni 136 10623 Berlin
[email protected] 1. Auflage 2011 Alle Rechte vorbehalten © Vieweg+Teubner Verlag | Springer Fachmedien Wiesbaden GmbH 2011 Lektorat: Schmickler-Hirzebruch | Barbara Gerlach Vieweg+Teubner Verlag ist eine Marke von Springer Fachmedien. Springer Fachmedien ist Teil der Fachverlagsgruppe Springer Science+Business Media. www.viewegteubner.de Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Umschlaggestaltung: KünkelLopka Medienentwicklung, Heidelberg Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier Printed in Germany ISBN 978-3-8348-0081-7
Vorwort
Das Instrument, welches die Vermittlung bewirkt zwischen Theorie und Praxis, zwischen Denken und Beobachten, ist die Mathematik; sie baut die verbindende Brücke und gestaltet sie immer tragfähiger. Daher kommt es, dass unsere ganze gegenwärtige Kultur, soweit sie auf der geistigen Durchdringung und Dienstbarmachung der Natur beruht, ihre Grundlage in der Mathematik findet. (David Hilbert)
Diese Einschätzung des berühmten deutschen Mathematikers David Hilbert (1862–1943) ist heute aktueller denn je. Die Mathematik hat nicht nur die klassischen Naturwissenschaften Biologie, Chemie und Physik durchdrungen, ihre Methoden sind auch unverzichtbar geworden in den Ingenieurwissenschaften, im modernen Wirtschaftsleben, in der Medizin und in vielen anderen Lebensbereichen. Die fortschreitende Mathematisierung der Welt wird ermöglicht durch die transversale Stärke der Mathematik: Die in der Mathematik entwickelten abstrakten Objekte und Operationen können zur Beschreibung und Lösung von Problemen in den unterschiedlichsten Situationen benutzt werden. Während der hohe Abstraktionsgrad der modernen Mathematik ihre Einsatzmöglichkeiten ständig erweitert, stellt er für Studierende besonders in den ersten Semestern eine große Herausforderung dar. Viele neue und ungewohnte Begriffe sind zu verstehen und der sichere Umgang mit ihnen ist zu erlernen. Um die Studierenden für die Mathematik zu begeistern, ist es für uns als Lehrende einer Grundlagenvorlesung wie der Linearen Algebra besonders wichtig, die Mathematik als eine lebendige Wissenschaft in ihren Gesamtzusammenhängen zu vermitteln. In diesem Buch zeigen wir anhand kurzer historischer Notizen im Text und einer Liste ausgewählter historischer Arbeiten am Ende, dass der heutige Vorlesungsstoff der Linearen Algebra das Ergebnis eines von Menschen gestalteten, sich entwickelnden Prozesses ist. Ein wesentlicher Leitgedanke dieses Buches ist das Aufzeigen der unmittelbaren praktischen Relevanz der entwickelten Theorie. Gleich zu Beginn des Buches illustrieren wir das Auftreten von Konzepten der Linearen Algebra in einigen Alltagssituationen. Wir diskutieren unter anderem mathematische Grundlagen der Internet Suchmaschine Google und der Prämienberechnung in der KFZ-Versicherung. Diese und weitere am Anfang vorgestellte Anwendungen untersuchen wir in späteren Kapiteln mit Hilfe der theoretischen Resultate. Dabei geht es uns nicht vorrangig um die konkreten Beispiele selbst oder um ihre Lösung, sondern
V
VI
Vorwort
um die Darstellung der oben erwähnten transversalen Stärke mathematischer Methoden im Kontext der Linearen Algebra. Das zentrale Objekt in unserem Zugang zur Linearen Algebra ist die Matrix. Wir führen Matrizen sofort nach der Diskussion von unverzichtbaren mathematischen Grundlagen ein. Über mehrere Kapitel studieren wir ihre wichtigsten Eigenschaften, bevor wir den Sprung zu den abstrakten Vektorräumen und Homomorphismen machen. Unserer Erfahrung nach führt der matrizenorientierte Zugang zur Linearen Algebra zu einer besseren Anschauung und somit zum besseren Verständnis der abstrakten Konzepte. Diesem Ziel dienen auch die über das Buch verteilten MATLAB-Minuten,1 in denen die Leserinnen und Leser wichtige Resultate und Konzepte am Rechner nachvollziehen können. Die notwendigen Vorkenntnisse für diese kurzen Übungen werden im Anhang erläutert. Neben den MATLAB-Minuten gibt es eine Vielzahl von klassischen Übungsaufgaben, für die nur Papier und Bleistift benötigt werden. Ein weiterer Vorteil der matrizenorientierten Darstellung in der Linearen Algebra ist die Erleichterung der späteren Anwendung theoretischer Resultate und ihrer Umsetzung in praxisrelevante Algorithmen. Matrizen trifft man heute überall dort an, wo Daten systematisch geordnet und verarbeitet werden. Dies ist in fast allen typischen Berufsfeldern der Bachelor-Studierenden mathematischer Studiengänge von Bedeutung. Hierauf ausgerichtet ist auch die Stoffauswahl zu den Themen Matrix-Funktionen, Singulärwertzerlegung und Kroneckerprodukte im hinteren Teil des Buches. Trotz manchem Hinweis auch auf algorithmische und numerische Aspekte steht in diesem Buch die Theorie der Linearen Algebra im Vordergrund. Dem deutschen Physiker Gustav Robert Kirchhoff (1824–1887) wird der Satz zugeschrieben: Eine gute Theorie ist das Praktischste, was es gibt. In diesem Sinne möchten wir unseren Zugang verstanden wissen. Dieses Buch basiert auf unseren Vorlesungen an der TU Chemnitz und der TU Berlin. Wir möchten uns bei allen Studierenden, Mitarbeiterinnen und Mitarbeitern sowie Kolleginnen und Kollegen bedanken, die uns beim Erstellen und Korrekturlesen von Skripten, Formulieren von Aufgaben und inhaltlichen Gestalten der Vorlesungen unterstützt haben. Insbesondere gilt unser Dank André Gaul, Florian Goßler, Daniel Kresser, Robert Luce, Christian Mehl, Matthias Pester, Robert Polzin, Timo Reis, Olivier Sète, Tatjana Stykel, Elif Topcu, Wolfgang Wülling und Andreas Zeiser. Ebenfalls bedanken möchten wir uns bei den Mitarbeiterinnen und Mitarbeitern des Vieweg+Teubner Verlags und hier insbesondere bei Frau Ulrike Schmickler-Hirzebruch, die unser Vorhaben stets freundlich unterstützt hat. Berlin, im Mai 2011
1
R ist ein eingetragenes Warenzeichen von The MathWorks Inc. MATLAB
Jörg Liesen Volker Mehrmann
Inhaltsverzeichnis
1 Lineare Algebra im Alltag . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 Google und die Wichtigkeit von Internetseiten . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Schadensfreiheitsklassen in der Kraftfahrzeug-Versicherung . . . . . . . . . . . . . . 1.3 Produktionsplanung in einem verarbeitenden Betrieb . . . . . . . . . . . . . . . . . . . . 1.4 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Schaltkreissimulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 1 3 4 6 7
2 Mathematische Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1 Mengen und Aussagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2 Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.3 Relationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3 Algebraische Strukturen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Gruppen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Ringe und Körper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 21 23 29
4 Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Grundlegende Definitionen und Operationen . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Matrizengruppen und -ringe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33 33 39 46
5 Die Treppennormalform und der Rang von Matrizen . . . . . . . . . . . . . . . . . . . . . . 5.1 Elementarmatrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Die Treppennormalform und der Gauß’sche Algorithmus . . . . . . . . . . . . . . . . 5.3 Rang und Äquivalenz von Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49 49 51 60 65
6 Lineare Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
VII
VIII
Inhaltsverzeichnis
7 Determinanten von Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1 Definition der Determinante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Einige Eigenschaften der Determinante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Minoren und die Laplace-Entwicklung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75 75 79 85 89
8 Das charakteristische Polynom und Eigenwerte von Matrizen . . . . . . . . . . . . . . . 93 8.1 Das charakteristische Polynom und der Satz von Cayley-Hamilton . . . . . . . . 93 8.2 Eigenwerte und Eigenvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 8.3 Eigenvektoren stochastischer Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 9 Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 9.1 Grundlegende Definitionen und Eigenschaften von Vektorräumen . . . . . . . . . 105 9.2 Basen und Dimension von Vektorräumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 9.3 Koordinaten und Basisübergang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 9.4 Beziehungen zwischen Vektorräumen und ihren Dimensionen . . . . . . . . . . . . 118 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 10 Lineare Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 10.1 Grundlegende Definitionen und Eigenschaften von linearen Abbildungen . . . 123 10.2 Lineare Abbildungen und Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 11 Linearformen und Bilinearformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 11.1 Linearformen und Dualräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 11.2 Bilinearformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 11.3 Sesquilinearformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 12 Euklidische und unitäre Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 12.1 Skalarprodukte und Normen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 12.2 Orthogonalität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 12.3 Das Vektor-Produkt im R3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 13 Adjungierte lineare Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 13.1 Grundlegende Definitionen und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . 171 13.2 Adjungierte Endomorphismen und Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 14 Eigenwerte von Endomorphismen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 14.1 Grundlegende Definitionen und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . 183 14.2 Diagonalisierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
Inhaltsverzeichnis
IX
14.3 Triangulierung und der Satz von Schur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 15 Polynome und der Fundamentalsatz der Algebra . . . . . . . . . . . . . . . . . . . . . . . . . . 197 15.1 Polynome . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 15.2 Der Fundamentalsatz der Algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 16 Zyklische Unterräume, Dualität und die Jordan-Normalform . . . . . . . . . . . . . . . 211 16.1 Zyklische f -invariante Unterräume und Dualität . . . . . . . . . . . . . . . . . . . . . . . . 211 16.2 Die Jordan-Normalform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 16.3 Berechnung der Jordan-Normalform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 17 Matrix-Funktionen und Differenzialgleichungssysteme . . . . . . . . . . . . . . . . . . . . . 235 17.1 Matrix-Funktionen und die Matrix-Exponentialfunktion . . . . . . . . . . . . . . . . . 235 17.2 Systeme linearer gewöhnlicher Differenzialgleichungen . . . . . . . . . . . . . . . . . 241 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 18 Spezielle Klassen von Endomorphismen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251 18.1 Normale Endomorphismen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251 18.2 Unitäre und orthogonale Endomorphismen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 18.3 Selbstadjungierte Endomorphismen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270 19 Die Singulärwertzerlegung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280 20 Das Kroneckerprodukt und lineare Matrixgleichungen . . . . . . . . . . . . . . . . . . . . . 281 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288 Anhang A MATLAB Kurzeinführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289 Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 Lehrbücher zur Linearen Algebra (Auswahl) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 Weiterführende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 Ausgewählte historische Arbeiten zur Linearen Algebra . . . . . . . . . . . . . . . . . . . . . . . 294 Sachverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
Kapitel 1
Lineare Algebra im Alltag
Man muss den Lernenden mit konkreten Fragestellungen aus den Anwendungen vertraut machen, dass er lernt, konkrete Fragen zu behandeln. (Lothar Collatz1 )
1.1 Google und die Wichtigkeit von Internetseiten Die Beliebtheit der Internet-Suchmaschine Google beruht zum großen Teil auf der Tatsache, dass Google in der Regel sehr schnell relevante Internetseiten für die vom Benutzer eingegebenen Suchbegriffe findet. Eine wichtige Komponente der Google-Suche ist der PageRank Algorithmus von den Firmengründern Sergey Brin und Larry Page, der die „Wichtigkeit“ von Internetseiten bewertet. Dazu ein Zitat von www.google.de/corporate/tech.html (gefunden im April 20102 ): Google verwendet PageRankTM , um die gesamte Linkstruktur des Internets zu analysieren und herauszufinden, welche Seiten die wichtigsten sind. ... Anstatt die direkten Links zu zählen, interpretiert PageRank im Wesentlichen einen Link von Seite A auf Seite B als Votum von Seite A für Seite B. PageRank bewertet dann die Wichtigkeit einer Seite nach den erzielten Voten. PageRank berücksichtigt auch die Wichtigkeit jeder Seite, die ein Votum abgibt, da Voten von einigen Seiten einen höheren Wert aufweisen und deshalb auch der Seite, auf die der Link verweist, einen höheren Wert geben. Wichtige Seiten werden von PageRank höher eingestuft und demnach auch in den Suchergebnissen an einer vorderen Position aufgeführt.
Wir wollen diese Idee nun mathematisch beschreiben (modellieren) und orientieren uns an der Darstellung im Artikel [BryL06]. Wir möchten jeder Internetseite k eine Wichtigkeit x k ≥ 0 zuordnen. Dabei ist Seite k wichtiger als Seite j, wenn xk > x j gilt. Die Verbindung einer Internetseite zum Rest des Internets erfolgt über Links, also über Verweise auf andere Seiten. Zudem benötigen wir den Begriff der Backlinks einer Internetseite, worunter die Links
1
Lothar Collatz (1910–1990), deutscher Mathematiker.
2
Im Mai 2011 schreibt Google auf der gleichen Seite: „Eine der Hauptinnovationen bei der Gründung von Google war der PageRank, eine Technologie, mit der die „Wichtigkeit“ einer Webseite anhand der Links von anderen Seiten sowie weiteren Faktoren bestimmt wurde. Heute verwenden wir neben dem PageRankAlgorithmus mehr als 200 Faktoren, um Websites einzuordnen, und wir aktualisieren diese Algorithmen jede Woche.“
J. Liesen, V. Mehrmann, Lineare Algebra, DOI 10.1007/978-3-8348-8290-5_1, C Vieweg+Teubner Verlag | Springer Fachmedien Wiesbaden GmbH 2011
1
2
1 Lineare Algebra im Alltag
Abb. 1.1 Verknüpfungsstruktur in einem „4-Seiten-Internet“
von anderen Seiten auf diese Seite (in der Google-Beschreibung oben die Voten für diese Seite) verstanden werden. Im 4-seitigen Internet in Abb. 1.1 hat zum Beispiel Seite 1 Links auf die Seiten 2, 3 und 4, und einen Backlink von der Seite 3. Der einfachste Ansatz zur Definition der Wichtigkeit von Internetseiten ist die Zählung der Anzahl ihrer Backlinks – je mehr Seiten auf eine gegebene Seite zeigen, d. h. je mehr Seiten ein Votum für eine Seite abgeben, desto wichtiger ist diese Seite. Im 4-Seiten-Internet von Abb. 1.1 ergibt dieser Ansatz die folgenden Werte: x1 = 1,
x2 = 3,
x3 = 2,
x4 = 3.
Hier sind somit die Seiten 2 und 4 die wichtigsten Seiten und beide sind gleich wichtig. In diesem Ansatz ist jedoch die Wichtigkeit der Backlinks selbst nicht berücksichtigt. Dabei entspricht es sowohl der Intuition als auch der obigen Beschreibung von Google, dass eine Seite wichtiger sein sollte, wenn wichtige Seiten auf sie zeigen. Somit könnten wir x k als Summe der Wichtigkeiten aller Backlinks der Seite k definieren. Im Beispiel von Abb. 1.1 ergibt dies die folgenden vier Gleichungen, die gleichzeitig erfüllt sein müssen: x1 = x3 ,
x 2 = x 1 + x3 + x 4 ,
x3 = x1 + x4 ,
x 4 = x 1 + x2 + x 3 .
Dies ist schon fast die von Google beschriebene Strategie von PageRank. Allerdings wird hierbei nicht die Anzahl der Links einer Seite berücksichtigt, also wie viele Voten eine Seite für andere Seiten des Internets abgibt. Ohne diese Berücksichtigung wäre es jedoch möglich, durch Hinzufügen von Links die eigene Wichtigkeit zu erhöhen. Um Letzteres zu vermeiden, gewichten wir die Backlinks jeweils mit der Anzahl ihrer Links. Wir verwirklichen damit eine Art „Internet-Demokratie“: Jede Seite kann andere Seiten (aber nicht sich selbst) „wählen“ und jede Seite hat insgesamt eine „Stimme“ zu vergeben. Im Beispiel von Abb. 1.1 sehen die entsprechenden Gleichungen für die unbekannten Wichtigkeiten x1 , x2 , x3 und x4 so aus: x1 =
x3 , 3
x2 =
x1 x3 x4 + + , 3 3 2
x3 =
x1 x4 + , 3 2
x4 =
x1 x3 + x2 + . 3 3
(1.1)
Wir haben es hier mit vier Gleichungen für die vier unbekannten Wichtigkeiten zu tun. Alle diese Gleichungen sind linear,3 d. h. die Unbekannten xk treten nur in der ersten
3
Das Wort linear stammt vom lateinischen linea ab, was „(gerade) Linie“ bedeutet; linearis bedeutet „aus Linien bestehend“.
1.2
Schadensfreiheitsklassen in der Kraftfahrzeug-Versicherung
3
Potenz auf. Wir werden in Kap. 6 sehen, wie die Gleichungen in (1.1) zu einem linearen Gleichungssystem zusammengefasst werden können. Das Studium und die Lösung solcher Systeme ist eine der wichtigsten Aufgaben der Linearen Algebra. Dieses Beispiel zeigt, dass die Lineare Algebra ein mächtiges Modellierungswerkzeug darstellt: Wir haben ein konkretes Problem, die Bestimmung der Wichtigkeit von Internet-Seiten, auf ein Problem der Linearen Algebra überführt. Dieses Problem werden wir in Abschn. 8.3 genauer untersuchen. Der Vollständigkeit halber sei noch kurz erwähnt, dass eine Lösung für die vier Unbekannten (berechnet mit MATLAB und gerundet auf die zweite Nachkommastelle) durch x 1 = 0.14,
x2 = 0.54,
x3 = 0.41,
x4 = 0.72,
gegeben ist. Die wichtigste Seite ist also Seite 4. Man kann diese Lösung noch beliebig skalieren, d. h. alle Wichtigkeiten x k mit der gleichen positiven Konstante multiplizieren. Dadurch kann man z. B. stets die Wichtigkeit der wichtigsten Seite auf 1 oder jeden anderen positiven Wert setzen. Eine solche Skalierung ist manchmal aus rechentechnischen oder auch rein optischen Gründen vorteilhaft. Sie ist erlaubt, weil sie den wesentlichen Informationsgehalt der Lösung, nämlich die Rangfolge der Seiten entsprechend ihrer Wichtigkeit, unverändert lässt.
1.2 Schadensfreiheitsklassen in der Kraftfahrzeug-Versicherung Versicherungsunternehmen berechnen die zu zahlenden Beiträge ihrer Kunden, die sogenannten Versicherungsprämien, nach dem versicherten Risiko: je höher das Risiko, desto höher die Prämie. Entscheidend für den geschäftlichen Erfolg des Versicherers auf der einen Seite und den Geldbeutel des Kunden auf der anderen ist daher die Identifikation und Bewertung von Faktoren, die zu einem erhöhten Risiko beitragen. Im Fall einer KFZ-Versicherung sind unter den möglichen Faktoren zum Beispiel die jährliche Fahrleistung, die Entfernung zwischen Wohnung und Arbeitsplatz, der Familienstatus, das Geschlecht oder das Alter der Fahrerin oder des Fahrers, aber auch das Modell, die Motorleistung oder sogar die Farbe des Fahrzeugs. Vor Vertragsabschluss muss der Kunde seiner Versicherung Informationen über einige, manchmal alle dieser Faktoren mitteilen. Als bester Indikator für das Auftreten von Schadensfällen eines Kunden in der Zukunft gilt die Anzahl seiner Schadensfälle in der Vergangenheit. Um dies in die Prämienberechnung einzubeziehen, gibt es das System der „Schadensfreiheitsklassen“. In diesem System werden die Versicherten in relativ homogene Risikogruppen aufgeteilt, deren Prämien relativ zu ihrer Schadensvergangenheit bestimmt werden. Wer in der Vergangenheit wenige Schadensfälle hatte, erhält einen Nachlass auf seine Prämie. Zur mathematischen Beschreibung eines Systems von Schadensfreiheitsklassen benötigt man eine Menge solcher Klassen, {K 1 , . . . , K n }, und eine Übergangsregel zwischen den Klassen. Dabei sei K 1 die „Einsteigerklasse“ mit dem höchsten Beitrag und K n die Klasse mit dem niedrigsten Beitrag, d. h. dem höchsten Nachlass. Der Nachlass wird meist in Prozent vom „Einsteigerbeitrag“ angegeben. Wir betrachten ein einfaches Beispiel:
% Nachlass
K1 0
K2 10
K3 20
K4 40
4
1 Lineare Algebra im Alltag
Wir nehmen folgende Übergangsregel an: • Kein Schadensfall: Im Folgejahr eine Klasse höher (oder in K 4 bleiben). • Ein Schadensfall: Im Folgejahr eine Klasse zurück (oder in K 1 bleiben). • Mehr als ein Schadensfall: Im Folgejahr (zurück) in Klasse K 1 . Nun muss der Versicherer die Wahrscheinlichkeit einschätzen, dass ein Versicherter, der sich in diesem Jahr in Klasse K i befindet, im Folgejahr in Klasse K j wechselt. Diese Wahrscheinlichkeit bezeichnen wir mit pi j . Nehmen wir der Einfachheit halber an, dass die Wahrscheinlichkeit (genau) eines Schadens für jeden Versicherten 0.1 beträgt (also 10%) und die Wahrscheinlichkeit zweier oder mehr Schäden 0.05 (also 5%). (In der Praxis machen die Versicherer diese Wahrscheinlichkeiten natürlich von den jeweiligen Klassen abhängig.) Dann ergeben sich zum Beispiel folgende Werte: p11 = 0.15,
p12 = 0.85,
p13 = 0.00,
p14 = 0.00.
Wer in diesem Jahr in Klasse K 1 ist, bleibt in dieser Klasse bei einem oder mehreren Schäden. Dies tritt nach unserer Annahme mit Wahrscheinlichkeit p11 = 0.15 ein. Wer in Klasse K 1 ist, hat mit Wahrscheinlichkeit 0.85 keinen Schaden und daher p12 = 0.85. Letztlich besteht keine Möglichkeit, aus Klasse K 1 in diesem Jahr in eine der Klassen K 3 und K 4 im nächsten Jahr zu wechseln. Wir können die 16 Wahrscheinlichkeiten pi j , i, j = 1, 2, 3, 4, in einem Zahlenschema – einer Matrix – anordnen: ⎤ ⎡ ⎡ ⎤ 0.15 0.85 0.00 0.00 p11 p12 p13 p14 ⎢0.15 0.00 0.85 0.00⎥ ⎢ p21 p22 p23 p24 ⎥ ⎥ ⎢ ⎢ ⎥ (1.2) ⎣ p31 p32 p33 p34 ⎦ = ⎣0.05 0.10 0.00 0.85⎦. p41 p42 p43 p44 0.05 0.00 0.10 0.85 Alle Einträge dieser Matrix sind nichtnegative reelle Zahlen und die Summe aller Einträge in jeder Zeile ist gleich 1.00. Eine solche Matrix wird zeilen-stochastisch genannt. Die Analyse der Eigenschaften von Matrizen ist ein wichtiges Thema der Linearen Algebra, das im gesamten Buch immer wieder aufgegriffen und weiterentwickelt wird. Wie im obigen Google-Beispiel haben wir hier ein praktisches Problem in die Sprache der Linearen Algebra übersetzt und können es mit Hilfe der Linearen Algebra weiter untersuchen. Das Beispiel der Schadensfreiheitsklassen wird uns im Kap. 4 wieder begegnen.
1.3 Produktionsplanung in einem verarbeitenden Betrieb Die Planung der Produktion in einem verarbeitenden Betrieb muss viele verschiedene Faktoren, z. B. Rohstoffpreise, Arbeitskosten und vorhandenes Kapital, berücksichtigen, um aus der Gesamtinformation dieser Faktoren eine Vorgabe für die Durchführung der Produktion zu machen. Wir betrachten ein einfaches Beispiel: Ein Betrieb produziert die zwei Produkte P1 und P2 . Die Herstellung einer Einheit von Produkt Pi kostet ai Euro für die eingesetzten Rohstoffe und bi Euro für den Arbeitslohn, wobei i = 1, 2 ist. Der Gewinn beim Verkauf einer Einheit von Produkt Pi sei mit gi
1.3
Produktionsplanung in einem verarbeitenden Betrieb
5
bezeichnet. Insgesamt stehen a Euro für den Einkauf von Rohstoffen und b Euro für die Arbeitslöhne zur Verfügung. Jedes denkbare Produktionsprogramm ist von der Form: Produziere x1 Einheiten von Produkt P1 und x2 Einheiten von Produkt P2 . Geometrisch kann jedes Produktionsprogramm als Zahlenpaar (x1 , x2 ) in einem Koordinatensystem dargestellt werden: x2 Punkt (x1,x2)
x1
Es sind nur Produktionsprogramme erlaubt, die mit den vorhandenen Ressourcen hergestellt werden können, d. h. es muss gelten: a1 x1 + a2 x2 ≤ a, b1 x1 + b2 x2 ≤ b. Ziel der Produktionsplanung ist meist die Gewinnmaximierung, d. h. man sucht ein Maximum der „Gewinnfunktion“ (x 1 , x2 ) = g1 x1 + g2 x2 . Wie kann man dieses Maximum finden? Im obigen Koordinatensystem aller Produktionsprogramme bilden die erlaubten Produktionsprogramme Halbebenen, die durch die Gradengleichungen a1 x1 + a2 x2 = a, b1 x1 + b2 x2 = b, beschränkt werden. Natürlich gibt es keine negativen Anzahlen von Produkten, d. h. es gilt x 1 ≥ 0 und x 2 ≥ 0. Damit erhalten wir eine Darstellung aller möglichen Produktionsprogramme: a1x1 + a2x2 = a
q1x1 + q2x2 = y2
b1x1 + b2x2 = b " optimale Losung Erlaubte Produktionsprogramme
q1x1 + q2x2 = y1
q1x1 + q2x2 = y3
6
1 Lineare Algebra im Alltag
Gilt g1 x1 + g2 x2 = y, so erzielt der Betrieb den Gewinn y. Für geplante Gewinne yi , i = 1, 2, 3, . . ., sind dies im Koordinatensystem parallele Geraden. Verschiebt man diese parallelen Geraden bis man die Ecke mit dem maximalen y erreicht, so hat man das Problem der Gewinnmaximierung gelöst. Dies ist ein Beispiel für ein „Lineares Programm“. Auch in diesem Beispiel haben wir ein wichtiges Anwendungsproblem als Problem der Linearen Algebra formuliert und wir können es damit mathematisch untersuchen und lösen.
1.4 Lineare Regression Die Vorhersage von Gewinn- oder Verlusterwartungen eines Betriebes ist ein zentrales Planungsinstrument der Wirtschaftswissenschaften. Analoge Probleme treten in vielen Bereichen der politischen Entscheidungsfindung, wie bei Aufstellung eines öffentlichen Haushalts, in der Steuerschätzung oder bei der Planung von Infrastrukturmaßnahmen im Verkehr auf. Wir betrachten ein konkretes Beispiel: In den vier Quartalen eines Jahres erzielt eine Firma Gewinne von 10, 8, 9, 11 Millionen Euro. Vor der Aktionärsversammlung macht die Firma eine Schätzung über den Verlauf der Geschäftsentwicklung im kommenden Jahr. Dazu sollen die Firmenergebnisse in den nächsten vier Quartalen geschätzt werden. Das Management verwendet auf der Basis der bekannten Ergebnisse und der Erfahrung aus den Vorjahren ein Modell, auf welche Weise die Daten in die Zukunft „extrapoliert“ werden sollen. Das Management nimmt an, dass der Gewinn „linear“ wächst. Stimmt dies exakt, so müsste es eine Gerade y(t) = αt + β geben, die durch die Punkte (1, 10), (2, 8), (3, 9), (4, 11) verläuft.
? 10
1
2
3
4
5
6
7
8
In der Praxis (und in diesem Beispiel) ist dies meist nicht erfüllt. Man kann aber versuchen, eine Gerade zu bestimmen, die möglichst wenig von den gegebenen Punkten abweicht. Hierbei ist es eine gute Idee, die Parameter α und β so zu wählen, dass die Summe der Quadrate der Abstände zwischen den gegebenen Punkten und den entsprechenden Punkten auf der Gerade minimiert wird. Dieses sogenannte „kleinste Quadrate-Problem“ ist ein Problem der Linearen Algebra, das wir in Kap. 12 abstrakt formulieren und lösen werden (siehe Beispiel 12.15). Es handelt sich um einen Spezialfall der Parameter-Identifikation. Wenn man gute Parameter α und β gefunden hat, kann man das gewonnene Modell verwenden, um den Gewinn in den nächsten
1.5
Schaltkreissimulation
7
Quartalen zu schätzen und damit Planungszahlen für das nächste Jahr zu berechnen. Diese Methode nennt sich lineare Regression.
1.5 Schaltkreissimulation Die Entwicklung elektronischer Geräte ist extrem schnell, so dass in sehr kurzen Abständen, von inzwischen weniger als einem Jahr, neue Modelle von Laptops oder Mobiltelefonen auf den Markt kommen. Um dies zu erreichen, müssen ständig neue Generationen von ComputerChips entwickelt werden, die typischerweise immer kleiner und leistunsgfähiger werden und die natürlich auch möglichst wenig Energie verbrauchen sollen. Ein wesentlicher Faktor bei dieser Entwicklung ist es, die zu entwickelnden Chips virtuell am Rechner zu planen und ihr Verhalten am Modell zu simulieren, ohne einen Prototyp physisch herzustellen. Diese modellbasierte Planung und Optimierung von Produkten ist heute in vielen anderen Bereichen der Technologieentwicklung, wie zum Beispiel im Flug- oder Fahrzeugbau, eine zentrale Technologie, die einen hohen Einsatz von modernster Mathematik erfordert. Das Schaltungsverhalten eines Chips wird durch ein mathematisches Modell beschrieben, das im Allgemeinen durch ein System aus Differenzialgleichungen und algebraischen Gleichungen gegeben ist und das die Beziehungen zwischen den Strömen und Spannungen beschreibt. Ohne in die Details zu gehen, betrachten wir zur Illustration den folgenden einfachen Schaltkreis:
+
−
Hier ist VS (t) die vorgegebene angelegte Spannung zum Zeitpunkt t, und die Kennwerte der Bauteile sind R beim Resistor, L bei der Induktivität und C für die Kapazität. Die Funktionen der Spannungsabfälle an den drei Bauteilen werden mit V R (t), VL (t), und VC (t) bezeichnet; I (t) ist die Stromstärke. Die Anwendung der Kirchhoff’schen Gesetze der Elektrotechnik führt auf das folgende System von linearen Gleichungen und Differenzialgleichungen, das diesen Schaltkreis modelliert: L C
d I = VL , dt
d VC = I, dt R I = VR ,
VL + VC + V R = VS .
8
1 Lineare Algebra im Alltag
Man kann in diesem Beispiel sehr einfach die letzten beiden Gleichungen nach VL und V R auflösen. Dies liefert das System von Differenzialgleichungen 1 R 1 d I = − I − VC + VS , dt L L L d 1 VC = − I, dt C für die beiden Funktionen I und VC . Dieses System werden wir in Kap. 17 lösen (siehe Beispiel 17.12). Schon dieses einfache Beispiel zeigt, dass zur Simulation der Schaltung ein System von (linearen) Differenzialgleichungen und algebraischen Gleichungen zu lösen ist. Bei der Entwicklung moderner Computerchips werden heute in der industriellen Praxis Systeme mit Millionen solcher differenziell-algebraischer Gleichungen gelöst. Für die theoretische Untersuchung solcher Systeme und für die Entwicklung von effizienten Lösungsmethoden ist die Lineare Algebra eines der zentralen Hilfsmittel.
Kapitel 2
Mathematische Grundbegriffe
In diesem Kapitel stellen wir die wichtigsten mathematischen Grundbegriffe vor, auf denen die Entwicklungen in den folgenden Kapiteln beruhen.
2.1 Mengen und Aussagen Ausgangspunkt aller weiteren Entwicklungen ist der Begriff der Menge. Wir gehen hier von der folgenden Definition aus, die Cantor1 1895 in der mathematischen Fachzeitschrift „Mathematische Annalen“ veröffentlichte. Definition 2.1 Unter einer Menge verstehen wir jede Zusammenfassung M von bestimmten wohlunterschiedenen Objekten x unserer Anschauung oder unseres Denkens (welche die Elemente von M genannt werden) zu einem Ganzen. Die Objekte x in dieser Definition sind als „bestimmt“ angenommen. Für jedes Objekt x können wir somit eindeutig feststellen, ob es zu einer gegebenen Menge M gehört oder nicht. Gehört x zur Menge M, so schreiben wir x ∈ M, falls nicht, so schreiben wir x ∈ / M. Zudem sind die Objekte, die zu einer Menge gehören, „wohlunterschieden“. Das heißt, alle zu M gehörenden Objekte sind (paarweise) verschieden. Sind zwei Objekte x und y gleich, so schreiben wir x = y, falls nicht, so schreiben wir x = y. Für mathematische Objekte muss oft eine formale Definition der „Gleichheit“ gegeben werden, denn aufgrund der Abstraktheit der Begriffe sind ihre Eigenschaften nicht unmittelbar klar oder anschaulich. Die „Gleichheit“ zweier Mengen definieren wir zum Beispiel in Definition 2.2. Wir geben Mengen an durch Aufzählung der Elemente, zum Beispiel {rot, gelb, grün},
{1, 2, 3, 4},
{2, 4, 6, . . . }
oder durch Angabe einer definierenden Eigenschaft, zum Beispiel
1 Georg Cantor (1845–1918), deutscher Mathematiker, Begründer der Mengenlehre. Cantor schrieb „Objecten m“ anstelle von „Objekten x“ in unserer Definition 2.1. (Wir geben die Nationalität, die Lebensdaten und das Arbeitsgebiet nur bei der jeweils ersten Nennung der Personen an.)
J. Liesen, V. Mehrmann, Lineare Algebra, DOI 10.1007/978-3-8348-8290-5_2, C Vieweg+Teubner Verlag | Springer Fachmedien Wiesbaden GmbH 2011
9
10
2 Mathematische Grundbegriffe
{x|x ist eine positive gerade Zahl}, {x|x ist eine Person, die in Deutschland ihren ersten Wohnsitz hat}. Die geschweiften Klammern „{ }“ sind eine übliche Notation zur Angabe von Mengen. Bekannte Zahlenmengen bezeichnen wir wie folgt: N = {1, 2, 3, . . . } Z = {. . . , −2, −1, 0, 1, 2 . . . } Q = {x | x = a/b mit a ∈ Z und b ∈ N} R = {x | x ist eine reelle Zahl}
(die natürlichen Zahlen), (die ganzen Zahlen), (die rationalen Zahlen), (die reellen Zahlen).
Die Konstruktion und Charakterisierung der Menge der reellen Zahlen R ist im Regelfall Thema einer einführenden Vorlesung in die Analysis. Bei der Angabe einer Menge durch eine definierende Eigenschaft schreiben wir formal {x | P(x)}. Hier ist P ein Prädikat, welches auf ein Objekt x zutreffen kann oder nicht, und P(x) ist die Aussage „P trifft auf x zu“. Allgemein verstehen wir unter einer Aussage einen Sachverhalt, der als „wahr“ oder „falsch“ klassifizierbar ist. Zum Beispiel ist „Die Menge N hat unendlich viele Elemente“ eine wahre Aussage. Keine Aussage ist zum Beispiel „Morgen wird es gutes Wetter geben“. Aus mathematischer Sicht ist nicht nur die Unsicherheit der Wettervorhersage problematisch, sondern auch die Ungenauigkeit des auftretenden Begriffs „gutes Wetter“. Die Negation oder Verneinung einer Aussage A ist die Aussage „nicht A“, kurz geschrieben als ¬A. Diese ist genau dann wahr wenn A falsch ist und genau dann falsch, wenn A wahr ist. Zum Beispiel ist die Verneinung der (wahren) Aussage „Die Menge N hat unendlich viele Elemente“ gegeben durch „Die Menge N hat nicht unendlich viele Elemente“ (oder auch „Die Menge N hat endlich viele Elemente“). Dies ist eine falsche Aussage. Zwei Aussagen A und B können mit logischen Verknüpfungen, sogenannten Junktoren, zu einer neuen Aussage zusammengesetzt werden. Hier ist eine Liste der am meisten gebrauchten logischen Verknüpfungen mit ihren üblichen mathematischen Kurzschreibweisen (Notationen): Verknüpfung (Junktor) und oder daraus folgt
genau dann, wenn
Notation ∧ ∨ ⇒
⇔
Alternative textliche Beschreibung
A impliziert B Wenn A gilt, dann gilt auch B A ist eine hinreichende Bedingung für B B ist eine notwendige Bedingung für A A und B sind äquivalent A gilt dann und nur dann, wenn B gilt A ist notwendig und hinreichend für B B ist notwendig und hinreichend für A
Die Aussage „x ist eine reelle Zahl und x ist negativ“ kann man in mathematischer Kurzschreibweise zum Beispiel so formulieren: x ∈ R ∧ x < 0. Ob eine aus zwei Aussagen A und B zusammengesetzte Aussage wahr oder falsch ist, hängt von den Wahrheitswerten von A und B ab. Es gilt folgende Wahrheitstafel („w“ und „f“ stehen für „wahr“ und „falsch“):
2.1
Mengen und Aussagen
A w w f f
11
B w f w f
A∧B w f f f
A∨B w w w f
A⇒B w f w w
A⇔B w f f w
Zum Beispiel ist die Aussage „A und B“ bzw. A ∧ B nur wahr, wenn A und B beide wahr sind. Die Aussage „A impliziert B“ bzw. A ⇒ B ist nur falsch, wenn A wahr und B falsch ist. Ist insbesondere A falsch, so ist die Aussage A ⇒ B wahr, und zwar unabhängig vom Wahrheitswert von B. Eine wahre Aussage ist zum Beispiel „Jedes negative Element der Menge N ist ohne Rest durch 3 teilbar“ bzw. (x ∈ N ∧ x < 0) ⇒ (x/3 ∈ Z), denn für jedes Objekt x ist die Aussage x ∈ N ∧ x < 0 falsch. Die Klammern auf den beiden Seiten der obigen Implikation haben wir zur Verdeutlichung gesetzt. Neben den obigen Junktoren benutzen wir häufig sogenannte Quantoren im Zusammenhang mit Aussagen: Quantor für alle es gibt ein
Notation ∀ ∃
Nach diesem kurzen Ausflug in die Aussagenlogik kehren wir zurück zur Mengenlehre. Zwischen Mengen kann man die folgenden Teilmengenrelationen definieren. Definition 2.2 Seien M, N Mengen. (1) M heißt Teilmenge von N , geschrieben M ⊆ N , wenn jedes Element von M auch Element von N ist. Wir schreiben M N , falls dies nicht gilt. (2) M und N heißen gleich, geschrieben M = N , wenn M ⊆ N und N ⊆ M ist. Wir schreiben M = N , falls dies nicht gilt. (3) M heißt echte Teilmenge von N , geschrieben M ⊂ N , wenn M ⊆ N und M = N gelten. Mit Hilfe der Kurzschreibweisen der Aussagenlogik kann man die drei Teile dieser Definition auch wie folgt formulieren: (1) M ⊆ N (2) M = N (3) M ⊂ N
⇔ ⇔ ⇔
(∀ x : x ∈ M ⇒ x ∈ N ). (M ⊆ N ∧ N ⊆ M). (M ⊆ N ∧ ¬(M = N )).
Die Aussage auf der rechten Seite der Äquivalenz in (1) liest sich wie folgt: Für alle Objekte x gilt, dass aus x ∈ M die Aussage x ∈ N folgt. Insbesondere steht der Doppelpunkt „ : “ für das Wort „gilt“. Eine besondere Menge ist diejenige, die keine Elemente enthält. Diese Menge definieren wir formal wie folgt. Definition 2.3 Die Menge Ø := {x | x = x} heißt die leere Menge.
12
2 Mathematische Grundbegriffe
Das Zeichen „:=“ steht für ist definiert als. Wir haben die leere Menge durch eine definierende Eigenschaft angegeben: Jedes Objekt x, für das x = x gilt, ist ein Element von Ø. Offensichtlich kann dies für kein Objekt gelten und somit enthält die Menge Ø kein Element. Satz 2.4 Für jede Menge M gelten folgende Aussagen: (1) Ø ⊆ M. (2) M ⊆ Ø ⇒ M = Ø. Beweis (1) Zu zeigen ist die Aussage „∀ x : x ∈ Ø ⇒ x ∈ M“. Da es kein x ∈ Ø gibt, ist der erste Teil der Aussage „x ∈ Ø ⇒ x ∈ M“ für jedes x falsch, die gesamte Aussage ist also wahr für jedes x (vgl. die obigen Bemerkungen zu Aussagen des Typs „A ⇒ B“). (2) Sei M ⊆ Ø. Nach (1) gilt Ø ⊆ M, also insgesamt Ø ⊆ M ⊆ Ø, woraus M = Ø folgt. 2 Satz 2.5 Seien M, N , L Mengen, dann gelten folgende Aussagen für die Teilmengenrelation „⊆“: (1) M ⊆ M (Reflexivität). (2) Aus M ⊆ N und N ⊆ L folgt M ⊆ L (Transitivität). Beweis (1) Zu zeigen ist die Aussage „∀ x : x ∈ M ⇒ x ∈ M“. Die Aussage x ∈ M ist für jedes gegebene x entweder wahr oder falsch. Somit ist für alle x die Aussage „x ∈ M ⇒ x ∈ M“ eine Verknüpfung von Aussagen, die entweder beide wahr oder beide falsch sind. Die verknüpfte Aussage ist daher immer wahr. (2) Sei x ∈ M, dann folgt x ∈ N wegen M ⊆ N . Aus x ∈ N folgt x ∈ L, da N ⊆ L. Somit ist die Aussage „x ∈ M ⇒ x ∈ L“ wahr. Ist x kein Element von M, so ist die Aussage „x ∈ M“ falsch, die zusammengesetzte Aussage „x ∈ M ⇒ x ∈ L“ ist daher wahr. Die Aussage „x ∈ M ⇒ x ∈ L“ ist somit für alle Objekte x wahr, d. h. M ⊆ L. 2 Definition 2.6 Seien M, N Mengen. (1) Die Vereinigung2 von M und N ist M ∪ N := {x | x ∈ M ∨ x ∈ N }. (2) Der Durchschnitt von M und N ist M ∩ N := {x | x ∈ M ∧ x ∈ N }. (3) Die Differenz von M und N ist M \ N := {x | x ∈ M ∧ x ∈ / N }.
Die Notationen „M ∪ N “ und „M ∩ N “ für die Vereinigung und den Durchschnitt von zwei Mengen M und N stammen aus dem Jahr 1888 und vom italienischen Mathematiker Giuseppe Peano (1858–1932), einem der Begründer der formalen Logik. Georg Cantors 1880 eingeführte Bezeichnungen und Notationen des „kleinsten gemeinsamen Multiplums M(M, N )“ und des „größten gemeinsamen Divisors D(M, N )“ der Mengen M und N haben sich nicht durchgesetzt. 2
2.1
Mengen und Aussagen
13
Ist M ∩ N = Ø, so nennen wir die Mengen M und N disjunkt. Die Mengenoperationen Vereinigung und Durchschnitt lassen sich auf mehr als zwei Mengen verallgemeinern: Ist I = Ø eine Menge und ist für jedes i ∈ I eine Menge Mi gegeben, dann sind Mi := {x | ∃ i ∈ I mit x ∈ Mi } und Mi := {x | ∀ i ∈ I gilt x ∈ Mi }. i∈I
i∈I
Die Menge I wird in diesem Zusammenhang eine Indexmenge genannt. Insbesondere schreiben wir für I = {1, 2, . . . , n} ⊂ N die Vereinigung und den Durchschnitt der Mengen M1 , . . . , Mn als n n Mi und Mi . i=1
i=1
Satz 2.7 Für zwei Mengen M, N gelte M ⊆ N . Dann sind folgende Aussagen äquivalent: (1) M ⊂ N . (2) N \ M = Ø. Beweis Wir zeigen die Aussagen (1) ⇒ (2) und (2) ⇒ (1). (1) ⇒ (2) : Wegen M = N gibt es ein x ∈ N mit x ∈ / M. Somit ist x ∈ N \ M, d. h. es gilt N \ M = Ø. (2) ⇒ (1) : Es gibt ein x ∈ N mit x ∈ / M. Daher gilt N = M. Mit der Annahme M ⊆ N folgt M ⊂ N . 2 Satz 2.8 Seien M, N , L Mengen, dann gelten folgende Aussagen: (1) M ∩ N ⊆ M und M ⊆ M ∪ N . (2) M ∩ N = N ∩ M und M ∪ N = N ∪ M. (3) M ∩ (N ∩ L) = (M ∩ N ) ∩ L und M ∪ (N ∪ L) = (M ∪ N ) ∪ L. (4) M ∪ (N ∩ L) = (M ∪ N ) ∩ (M ∪ L) und M ∩ (N ∪ L) = (M ∩ N ) ∪ (M ∩ L). (5) M \ N ⊆ M. (6) M \ (N ∩ L) = (M \ N ) ∪ (M \ L) und M \ (N ∪ L) = (M \ N ) ∩ (M \ L). Beweis Übungsaufgabe.
(Kommutativgesetze) (Assoziativgesetze) (Distributivesetze)
2
Definition 2.9 Sei M eine Menge. (1) Die Mächtigkeit oder Kardinalität von M, bezeichnet mit |M|, ist die Anzahl der Elemente von M. (2) Die Potenzmenge von M, bezeichnet mit P(M), ist die Menge aller Teilmengen von M, d. h. P(M) := {N | N ⊆ M}. Die leere Menge Ø hat die Kardinalität Null und es gilt P(Ø) = {Ø}, also |P(Ø)| = 1. Für M = {1, 3} gilt |M| = 2 und
14
2 Mathematische Grundbegriffe
P(M) = { Ø, {1}, {3}, M }, also |P(M)| = 4 = 2|M| . Man kann zeigen, dass für jede Menge M mit endlich vielen Elementen, d. h. endlicher Kardinalität, |P(M)| = 2|M| gilt.
2.2 Abbildungen Wir kommen nun zum Begriff der Abbildung. Definition 2.10 Seien X, Y nicht leere Mengen. (1) Eine Abbildung von X nach Y ist eine Vorschrift, die jedem x ∈ X genau ein y = f (x) ∈ Y zuordnet. Wir schreiben f : X → Y,
x → y = f (x).
Die Abbildungsvorschrift x → y = f (x) schreiben wir auch kurz f (x) = y. Die Mengen X bzw. Y heißen Definitions- bzw. Wertebereich von f . (2) Zwei Abbildungen f : X → Y und g : X → Y heißen gleich oder identisch, geschrieben f = g, wenn f (x) = g(x) für alle x ∈ X gilt. Anstatt Wertebereich wird oft auch der Begriff Zielbereich benutzt. In der Definition haben wir die gegebenen Mengen X und Y als nicht leer angenommen, damit überhaupt eine Zuordnung x → y = f (x) möglich ist. Wäre (mindestens) eine der Mengen X oder Y leer, so könnte man eine „leere Abbildung“ definieren. Wir werden im Folgenden immer annehmen, dass die Mengen zwischen denen abgebildet wird nicht leer sind, dies aber in der Regel nicht explizit erwähnen. Ist zum Beispiel X = Y = R, dann sind durch f : X → Y, f (x) = x 2 ,
0, x ≤ 0, g : X → Y, x → 1, x > 0,
(2.1) (2.2)
zwei Abbildungen gegeben. Für die Charakterisierung von Abbildungen benötigen wir weitere Begriffe. Definition 2.11 Seien X, Y nicht leere Mengen. (1) Die Abbildung Id X : X → X , x → x, heißt die Identität auf X . (2) Sei f : X → Y eine Abbildung und seien M ⊆ X und N ⊆ Y . Dann heißen f (M) := { f (x) ∈ Y | x ∈ M } f
−1
das Bild von M unter f ,
(N ) := { x ∈ X | f (x) ∈ N } das Urbild von N unter f .
(3) Ist f : X → Y , x → f (x) eine Abbildung und Ø = M ⊆ X , dann heißt f | M : M → Y , x → f (x), die Einschränkung von f auf M.
2.2
Abbildungen
15
Man beachte, dass f −1 (N ) in dieser Definition eine Menge ist. Mit dem Symbol f −1 ist somit nicht die Umkehrabbildung (oder Inverse) der Abbildung f gemeint. (Diese führen wir später in Definition 2.19 formal ein.) Für die in (2.1) und (2.2) betrachteten Abbildungen mit X = R und R− := {x ∈ R | x ≤ 0} ⊂ R ergeben sich f (X ) = {x ∈ R | x ≥ 0}, g(X ) = {0, 1},
f −1 (R− ) = {0} ,
f −1 ({−1}) = Ø,
g −1 (R− ) = g −1 ({0}) = R− .
Definition 2.12 Seien X, Y nicht leere Mengen. Eine Abbildung f : X → Y heißt (1) injektiv, wenn für alle x1 , x2 ∈ X aus f (x1 ) = f (x2 ) folgt, dass x1 = x2 ist, (2) surjektiv, wenn f (X ) = Y ist, (3) bijektiv, wenn f injektiv und surjektiv ist. Das einfachste Beispiel einer bijektiven Abbildung für jede gegebene nicht leere Menge X ist die Identität auf X , für die Id X (x) = x gilt. Beispiel 2.13 Sei R+ := {x ∈ R | x ≥ 0}, dann gilt: f : R → R, f (x) = x 2 , ist weder injektiv noch surjektiv. f : R → R+ , f (x) = x 2 , ist surjektiv aber nicht injektiv. f : R+ → R, f (x) = x 2 , ist injektiv aber nicht surjektiv. f : R+ → R+ , f (x) = x 2 , ist bijektiv. Bei diesen Aussagen haben wir Eigenschaften der stetigen Abbildung f (x) = x 2 benutzt, die man in der Analysis lernt. Insbesondere bilden stetige Abbildungen reelle Intervalle auf reelle Intervalle ab. Die Aussagen zeigen, warum es bei der Untersuchung der Eigenschaften einer Abbildung wichtig ist, auf ihren Definitions- und Wertebereich zu achten. Satz 2.14 Eine Abbildung f : X → Y ist genau dann bijektiv, wenn es für jedes y ∈ Y genau ein x ∈ X mit f (x) = y gibt. Beweis ⇒: Sei f bijektiv, also injektiv und surjektiv. Sei y1 ∈ Y . Wegen der Surjektivität von f gibt es ein x 1 ∈ X mit f (x1 ) = y1 . Gibt es nun ein weiteres x 2 ∈ X mit f (x 2 ) = y1 , dann folgt x1 = x2 aus der Injektivität von f . Somit gibt es genau ein x1 ∈ X mit f (x1 ) = y1 . ⇐: Da es für alle y ∈ Y (genau) ein x ∈ X mit f (x) = y gibt, gilt f (X ) = Y . Somit ist f surjektiv. Seien nun x1 , x2 ∈ X mit f (x1 ) = f (x2 ) = y ∈ Y . Dann folgt aus der Annahme, dass x1 = x 2 ist, also ist f injektiv. 2 Man überlegt sich leicht, dass zwischen zwei Mengen M und N mit endlicher Kardinalität eine bijektive Abbildung genau dann existiert, wenn |M| = |N | gilt. Lemma 2.15 Sind M, N Mengen mit |M| = |N | = m ∈ N, so gibt es genau m! := 1·2·. . .·m paarweise verschiedene bijektive Abbildungen zwischen M und N . Beweis Übungsaufgabe.
2
Definition 2.16 Seien f : X → Y , x → f (x), und g : Y → Z , y → g(y), Abbildungen. Dann ist die Komposition oder Hintereinanderausführung von f und g die Abbildung
16
2 Mathematische Grundbegriffe
g ◦ f : X → Z,
x → g( f (x)).
Der Ausdruck g ◦ f wird oft „g nach f “ gelesen, woraus die Reihenfolge der Komposition deutlich wird: Erst wird f auf x und dann g auf f (x) angewandt. Man sieht leicht, dass f ◦ Id X = f = IdY ◦ f für jede Abbildung f : X → Y gilt. Satz 2.17 Seien f : W → X , g : X → Y , h : Y → Z Abbildungen, dann gilt: (1) h ◦ (g ◦ f ) = (h ◦ g) ◦ f , d. h. die Komposition von Abbildungen ist assoziativ. (2) Sind f und g beide injektiv/surjektiv/bijektiv, so ist g ◦ f injektiv/surjektiv/bijektiv. 2
Beweis Übungsaufgabe.
Satz 2.18 Eine Abbildung f : X → Y , x → f (x), ist genau dann bijektiv, wenn eine eindeutig bestimmte Abbildung g : Y → X , y → g(y), existiert, so dass g ◦ f = Id X
und
f ◦ g = IdY
gilt. Beweis ⇒: Ist f bijektiv, so gibt es nach Satz 2.14 zu jedem y ∈ Y genau ein x = x y ∈ X mit f (x y ) = y. Wir definieren die Abbildung g durch g : Y → X,
g(y) = x y .
Sei nun ein y ∈ Y gegeben, dann gilt y, ( f ◦ g)( y) = f (g( y)) = f (xy ) =
also
f ◦ g = IdY .
Ist andererseits ein x ∈ X gegeben, dann ist y = f ( x ) ∈ Y . Nach Satz 2.14 gibt es genau ein xy ∈ X mit f (xy ) = y und aus der Injektivität von f folgt x = xy . Somit y) = xy = x, (g ◦ f )( x ) = (g ◦ f )(xy ) = g( f (xy )) = g(
also
g ◦ f = Id X .
Sei nun h : Y → X , y → h(y), mit f ◦ h = IdY gegeben. Dann gilt g = g ◦ IdY = g ◦ ( f ◦ h) = (g ◦ f ) ◦ h = Id X ◦ h = h, d. h. g ist eindeutig. ⇐: Nach Annahme ist g ◦ f = Id X , also ist g ◦ f injektiv und daher ist f injektiv (vgl. Aufgabe 2.6). Außerdem ist f ◦ g = IdY , also ist f ◦ g surjektiv und daher ist f surjektiv (vgl. Aufgabe 2.6). Somit ist f bijektiv. 2 Dieser Satz führt uns auf die Definition der inversen Abbildung. Definition 2.19 Ist f : X → Y eine bijektive Abbildung, so heißt die (eindeutig bestimmte) Abbildung g : Y → X , für die g ◦ f = Id X gilt, die Inverse oder Umkehrabbildung von f . Wir bezeichnen die Inverse von f mit f −1 . Man sieht sofort, dass sowohl f −1 ◦ f = Id X als auch f ◦ f −1 = IdY gilt.
2.3
Relationen
17
Satz 2.20 Für zwei bijektive Abbildungen f : X → Y und g : Y → Z gilt: (1) f −1 ist bijektiv mit ( f −1 )−1 = f . (2) g ◦ f ist bijektiv mit (g ◦ f )−1 = f −1 ◦ g −1 . Beweis (1) Übungsaufgabe. (2) Wir wissen bereits aus Satz 2.17, dass g ◦ f : X → Z bijektiv ist. Es gibt somit eine (eindeutige) Inverse von g ◦ f . Für die Abbildung h := f −1 ◦ g −1 gilt
h ◦ (g ◦ f ) = ( f −1 ◦ g −1 ) ◦ (g ◦ f ) = f −1 ◦ (g −1 ◦ g) ◦ f = f −1 ◦ f = Id X . Es folgt h = h ◦ Id Z = (h ◦ (g ◦ f )) ◦ (g ◦ f )−1 = Id X ◦ (g ◦ f )−1 = (g ◦ f )−1 .
2
2.3 Relationen Wir beginnen mit dem Begriff des kartesischen Produktes3 zweier Mengen. Definition 2.21 Sind M, N nicht leere Mengen, dann heißt die Menge M × N := {(x, y) | x ∈ M ∧ y ∈ N } das kartesische Produkt oder das Kreuzprodukt von M und N . Ist (mindestens) eine der Mengen M, N leer, so setzen wir M × N := Ø. Das kartesische Produkt von n Mengen M1 , . . . , Mn ist M1 × · · · × Mn := {(x1 , . . . , xn ) | xi ∈ Mi für i = 1, . . . , n}. Für das n-fache kartesische Produkt einer Menge M benutzen wir auch die Notation M n , also · · × M = {(x1 , . . . , x n ) | xi ∈ M für i = 1, . . . , n}. M n := M × ·
(2.3)
n−mal
Ein Element (x, y) ∈ M × N bezeichnen wir auch als ein (geordnetes) Paar und ein Element (x1 , . . . , xn ) ∈ M1 × · · · × Mn wird oft (geordnetes) n-Tupel genannt. Definition 2.22 Sind M, N Mengen, dann heißt eine Menge R ⊆ M × N eine Relation zwischen M und N . Ist M = N , so nennen wir R eine Relation auf M. Für (x, y) ∈ R schreiben wir auch x ∼ R y oder x ∼ y, wenn klar ist, um welche Relation es sich handelt.
3 Benannt nach René Descartes (1596–1650), französischer Philosoph und Mathematiker, einer der Begründer der analytischen Geometrie. Georg Cantor benutzte 1895 den Namen „Verbindungsmenge von M und N “ und die Notation (M.N ) = {(m, n)}.
18
2 Mathematische Grundbegriffe
Ist (mindestens) eine der Mengen M und N leer, so ist jede Relation zwischen M und N ebenfalls die leere Menge. Sind zum Beispiel M = N und N = Q, dann ist R = {(x, y) ∈ M × N | x y = 1} eine Relation zwischen M und N , die auch wie folgt angegeben werden kann: R = {(1, 1), (2, 1/2), (3, 1/3), . . . } = {(n, 1/n) | n ∈ N}. Definition 2.23 Sei M eine Menge. Eine Relation R auf M heißt (1) reflexiv, falls für alle x ∈ M gilt: x ∼ x, (2) symmetrisch, falls für alle x, y ∈ M gilt: (x ∼ y) ⇒ (y ∼ x), (3) transitiv, falls für alle x, y, z ∈ M gilt: (x ∼ y ∧ y ∼ z) ⇒ (x ∼ z). Falls R reflexiv, transitiv und symmetrisch ist, so nennen wir R eine Äquivalenzrelation auf M. Beispiel 2.24 (1) Sei R = {(x, y) ∈ Q2 | x + y = 0}, d. h. x ∼ y gilt, wenn x + y = 0 ist. R ist nicht reflexiv, denn nur für x = 0 gilt x ∼ x. R ist symmetrisch, denn aus x + y = 0 folgt y + x = 0. R ist nicht transitiv, denn aus x ∼ y und y ∼ z folgt x = −y und z = −y, also x − z = 0 und nicht x + z = 0. (2) Die Relation R = {(x, y) ∈ Z2 | x ≤ y} ist reflexiv und transitiv, aber nicht symmetrisch. (3) Ist f : M → N eine Abbildung, dann ist R = {(x, y) ∈ M 2 | f (x) = f (y)} eine Äquivalenzrelation auf M, denn es gelten: Reflexivität: Symmetrie: Transitivität:
f (x) = f (x), ∀x ∈ M. f (x) = f (y) ⇒ f (y) = f (x), ∀x, y ∈ M. f (x) = f (y) ∧ f (y) = f (z) ⇒ f (x) = f (z), ∀x, y, z ∈ M.
Definition 2.25 Sei R eine Äquivalenzrelation auf der Menge M. Dann heißt für x ∈ M die Menge [x] R := {y ∈ M | (x, y) ∈ R} = {y ∈ M | x ∼ y} die Äquivalenzklasse von x (bezüglich R). Die Äquivalenzklasse [x] R eines Elements x ∈ M ist niemals die leere Menge, denn es gilt stets x ∼ x (Reflexivität) und somit x ∈ [x] R . Wenn klar ist, um welche Äquivalenzrelation R es sich handelt, schreiben wir oft lediglich [x] anstatt [x] R . Satz 2.26 Ist R eine Äquivalenzrelation auf der Menge M und sind x, y ∈ M, dann sind die folgenden Aussagen äquivalent: (1) [x] = [y]. (2) [x] ∩ [y] = Ø. (3) x ∼ y.
2.3
Relationen
19
Beweis (1) ⇒ (2): Wegen x ∼ x ist x ∈ [x]. Aus [x] = [y] folgt dann x ∈ [y] und somit x ∈ [x] ∩ [y]. (2) ⇒ (3): Wegen [x] ∩ [y] = Ø, gibt es ein z ∈ [x] ∩ [y]. Für dieses gilt x ∼ z und y ∼ z, also x ∼ z und z ∼ y (Symmetrie) und somit x ∼ y (Transitivität). (3) ⇒ (1): Sei x ∼ y und sei z ∈ [x], d. h. x ∼ z. Aus x ∼ y folgt nun mit Hilfe der Transitivität und Symmetrie, dass y ∼ z, also z ∈ [y]. Das heißt, es gilt [x] ⊆ [y]. Genauso zeigt man [y] ⊆ [x], so dass [x] = [y] folgt. 2 Satz 2.26 zeigt, dass für zwei Äquivalenzklassen [x] und [y] stets entweder [x] = [y] oder [x] ∩ [y] = Ø gilt. Da jedes x ∈ M in einer Äquivalenzklasse liegt (nämlich in [x]), liefert uns eine Äquivalenzrelation R somit eine Zerlegung von M in disjunkte Teilmengen. Jedes Element der Menge [x] heißt Vertreter oder Repräsentant der Äquivalenzklasse [x]. Insbesondere ist x ein Repräsentant von [x]. Später werden wir für bestimmte Mengen von Objekten (z. B. Mengen von Matrizen) Einteilungen in Äquivalenzklassen vornehmen und versuchen, in jeder Klasse einen Vertreter mit „besonders einfachen Eigenschaften“ zu bestimmen. Einen solchen Vertreter werden wir dann eine Normalform bezüglich der gegebenen Äquivalenzrelation nennen. Beispiel 2.27 Für eine gegebene Zahl n ∈ N ist die Menge Rn := {(a, b) ∈ Z2 | a − b ist ohne Rest durch n teilbar} eine Äquivalenzrelation auf Z, denn es gelten: Reflexivität: a − a = 0 ist ohne Rest durch n teilbar. Symmetrie: Falls a − b ohne Rest durch n teilbar ist, so gilt dies auch für b − a. Transitivität: Sind a − b und b − c ohne Rest durch n teilbar, dann gilt a − c = (a − b) + (b − c). Beide Summanden auf der rechten Seite sind ohne Rest durch n teilbar, daher gilt dies auch für a − c. Für a ∈ Z heißt die Äquivalenzklasse [a] bezüglich der Relation Rn die Restklasse von a modulo n. Wie man leicht sieht ist [a] = a + nZ := {a + nz | z ∈ Z}. Die Äquivalenzrelation Rn liefert uns eine Zerlegung der Menge Z in n disjunkte Teilmengen. Insbesondere gilt [0] ∪ [1] ∪ · · · ∪ [n − 1] =
n−1
[a] = Z.
a=0
Die Menge aller Restklassen modulo n bezeichnet man häufig mit Z/nZ, also Z/nZ := {[0], [1], . . . , [n − 1]}. Diese Menge spielt im mathematischen Teilgebiet der Zahlentheorie eine wichtige Rolle.
20
2 Mathematische Grundbegriffe
Aufgaben 2.1
Seien A, B, C Aussagen. Zeigen Sie, dass die folgenden Aussagen wahr sind: (a) [A ⇔ B] ⇔ [(A ⇒ B) ∧ (B ⇒ A)]. (b) Für ∧ und ∨ gelten die Assoziativgesetze [(A ∧ B) ∧ C] ⇔ [A ∧ (B ∧ C)],
[(A ∨ B) ∨ C] ⇔ [ A ∨ (B ∨ C].
(c) Für ∧ und ∨ gelten die Kommutativgesetze (A ∧ B) ⇔ (B ∧ A),
(A ∨ B) ⇔ (B ∨ A).
(d) Für ∧ und ∨ gelten die Distributivgesetze [(A ∧ B) ∨ C] ⇔ [(A ∨ C) ∧ (B ∨ C)], [(A ∨ B) ∧ C] ⇔ [(A ∧ C) ∨ (B ∧ C)]. 2.2 2.3
Beweisen Sie Satz 2.8. Zeigen Sie, dass für zwei Mengen M, N gilt: N⊆M
2.4
2.5
⇔
M∩N =N
⇔
M ∪ N = M.
Seien X, Y nicht leere Mengen, U, V ⊆ Y nicht leere Teilmengen und sei f : X → Y eine Abbildung. Zeigen Sie, dass f −1 (U ∩ V ) = f −1 (U ) ∩ f −1 (V ) gilt. Seien nun U, V ⊆ X nicht leer. Überprüfen Sie, ob f (U ∪ V ) = f (U ) ∪ f (V ) gilt. Sind folgende Abbildungen injektiv, surjektiv, bijektiv? (a) f 1 : R2 → R, (x, y) → x + y. (b) f 2 : R2 → R, (x, y) → x 2 + y 2 − 1.
2.6
Beweisen Sie, dass für zwei Abbildungen f : X → Y und g : Y → Z folgende Aussagen gelten: (a) g ◦ f ist surjektiv ⇒ g ist surjektiv. (b) g ◦ f ist injektiv ⇒ f ist injektiv.
2.7 2.8 2.9 2.10
Beweisen Sie Lemma 2.15. Beweisen Sie Satz 2.17. Beweisen Sie Satz 2.20 (1). Sei a ∈ Z gegeben. Zeigen Sie, dass die Abbildung f a : Z → Z, fa (x) = x + a, bijektiv ist. 2.11 Finden Sie Abbildungen f, g : N → N, so dass (gleichzeitig) gilt: • f ist nicht surjektiv, • g ist nicht injektiv und • g ◦ f ist bijektiv.
Kapitel 3
Algebraische Strukturen
Unter einer algebraischen Struktur versteht man eine Menge zusammen mit „Verknüpfungen“ ihrer Elemente, die gewissen Bedingungen genügen. Als Beispiel einer solchen Struktur stelle man sich die ganzen Zahlen und die Addition „+“ vor. Welche Eigenschaften hat die Addition? Bereits in der Grundschule lernt man, dass die Summe a + b zweier ganzer Zahlen a und b eine ganze Zahl ist. Zudem gibt es die ganze Zahl 0, für die a + 0 = a für jede ganze Zahl a gilt, und für jede ganze Zahl a gibt es die ganze Zahl −a, so dass a + (−a) = 0 ist. Die Analyse der Eigenschaften solcher konkreten Beispiele führt in der Mathematik häufig auf Definitionen abstrakter Konzepte, die aus wenigen und einfachen Grundsätzen, den sogenannten Axiomen, bestehen. Für die ganzen Zahlen und die Addition führt dies auf die algebraische Struktur der Gruppe. Das Prinzip der Abstraktion von konkreten Beispielen ist eine der Stärken und grundlegenden Arbeitsweisen der Mathematik. Indem wir den „mathematischen Kern herausgeschält und völlig enthüllt haben“ (David Hilbert) erleichtern wir uns auch die Folgearbeiten: Jede bewiesene Aussage über ein abstraktes Konzept gilt automatisch für alle konkreten Beispiele. Zudem können wir durch Kombination einmal definierter Konzepte zu allgemeineren fortschreiten und so die mathematische Theorie Stück für Stück erweitern. Der deutsche Mathematiker Hermann Günther Graßmann (1809–1877) beschrieb bereits 1844 dieses Vorgehen mit den Worten: „... die mathematische Methode hingegen schreitet von den einfachsten Begriffen zu den zusammengesetzteren fort, und gewinnt so durch Verknüpfung des Besonderen neue und allgemeinere Begriffe.“
3.1 Gruppen Wir beginnen mit einer Menge, auf der eine Verknüpfung mit bestimmten Eigenschaften definiert ist. Definition 3.1 Eine Gruppe ist eine Menge G mit einer Abbildung, genannt Operation oder Verknüpfung, ⊕ : G × G → G,
(a, b) → a ⊕ b,
für die folgende Regeln erfüllt sind: (1) Die Verknüpfung ⊕ ist assoziativ, d. h. (a ⊕ b) ⊕ c = a ⊕ (b ⊕ c) gilt für alle a, b, c ∈ G. (2) Es gibt ein Element e ∈ G, genannt neutrales Element, für das gilt: J. Liesen, V. Mehrmann, Lineare Algebra, DOI 10.1007/978-3-8348-8290-5_3, C Vieweg+Teubner Verlag | Springer Fachmedien Wiesbaden GmbH 2011
21
22
3 Algebraische Strukturen
(a) e ⊕ a = a für alle a ∈ G. (b) Zu jedem a ∈ G gibt es ein a ∈ G, genannt inverses Element zu a, mit a ⊕ a = e. Falls a ⊕ b = b ⊕ a für alle a, b ∈ G gilt, so heißt die Gruppe kommutativ oder abelsch.1 Als Kurzbezeichnung für eine Gruppe benutzen wir (G, ⊕) oder lediglich G, wenn klar ist, um welche Verknüpfung es sich handelt. In Definition 3.1 werden die Existenz mindestens eines neutralen Elementes e ∈ G, sowie zu jedem a ∈ G die Existenz mindestens eines inversen Elementes gefordert. Das folgende Resultat zeigt, dass sowohl das neutrale Element der Gruppe, als auch das zu a ∈ G inverse Element eindeutig bestimmt sind. Zudem kommutiert jedes a ∈ G sowohl mit dem neutralen Element, als auch mit seinem inversen Element. Satz 3.2 Für jede Gruppe (G, ⊕) gelten: (1) Zu jedem a ∈ G existiert genau ein inverses Element a ∈ G. Für dieses gilt a⊕a = a ⊕ a = e. (2) G enthält genau ein neutrales Element e. Für dieses gilt e ⊕ a = a ⊕ e = a für alle a ∈ G. Beweis Sei e ∈ G ein neutrales Element und sei a ∈ G beliebig. Per Definition einer Gruppe gibt es ein inverses Element a1 ∈ G, so dass a1 ⊕ a = e ist. Ist a2 ∈ G ein inverses Element zu a1 , d. h. es gilt a2 ⊕ a1 = e, dann folgt a ⊕ a1 = e ⊕ (a ⊕ a1 ) = (a2 ⊕ a1 ) ⊕ (a ⊕ a1 ) = a2 ⊕ (a1 ⊕ (a ⊕ a1 )) = a2 ⊕ ((a1 ⊕ a) ⊕ a1 ) = a2 ⊕ (e ⊕ a1 ) = a2 ⊕ a1 = e. Somit erhalten wir a ⊕ e = a ⊕ (a1 ⊕ a) = (a ⊕ a1 ) ⊕ a = e ⊕ a = a. Ist nun a3 ∈ G ein weiteres inverses Element zu a, so folgt a3 = a3 ⊕ e = a3 ⊕ (a ⊕ a1 ) = (a3 ⊕ a) ⊕ a1 = e ⊕ a1 = a1 , also ist das inverse Element zu a eindeutig. Ist schließlich e ∈ G ein weiteres neutrales Element, dann gilt e = e ⊕ e = e (die erste Gleichung gilt, weil e ein neutrales Element in G ist und e ∈ G ist; die zweite Gleichung gilt, weil a ⊕ e = a für alle a ∈ G gilt). Das neutrale Element ist somit eindeutig. 2 Beispiel 3.3 (1) (Z, +), (Q, +) und (R, +) sind kommutative Gruppen. In allen diesen Gruppen ist das neutrale Element die Zahl 0 (Null) und das zu einer Zahl a inverse Element ist die Zahl −a. Anstelle von a + (−b) schreibt man a − b. Weil die Verknüpfung die Addition ist, nennt man diese Gruppen auch additive Gruppen.
1
Benannt nach Niels Henrik Abel (1802–1829), norwegischer Mathematiker, einer der Begründer der Gruppentheorie.
3.2
Ringe und Körper
23
Keine Gruppe bildet die Menge der natürlichen Zahlen N mit der Addition, denn es gibt in N kein neutrales Element bezüglich der Addition und auch keine inversen Elemente. (2) Die Mengen Q \ {0} und R \ {0} bilden jeweils mit der (gewöhnlichen) Multiplikation kommutative Gruppen. In diesen, die wegen der multiplikativen Verknüpfung auch multiplikative Gruppen genannt werden, ist das neutrale Element die Zahl 1 (Eins) und das zu einer Zahl a inverse Element die Zahl a1 (oder a −1 ). Anstelle von a · b−1 schreibt man ab oder a/b. Keine Gruppe bilden die ganzen Zahlen Z mit der Multiplikation. Zwar enthält die Menge Z die Zahl 1, für die 1 · a = a · 1 = a für alle a ∈ Z gilt, aber für a ∈ Z \ {−1, 1} existiert in Z kein inverses Element bezüglich der Multiplikation. Definition 3.4 Ist (G, ⊕) eine Gruppe und H ⊆ G, dann heißt (H, ⊕) Untergruppe von (G, ⊕), wenn (H, ⊕) selbst eine Gruppe ist. Der folgende Satz enthält eine alternative Charakterisierung des Begriffs der Untergruppe. Satz 3.5 (H, ⊕) ist genau dann eine Untergruppe der Gruppe (G, ⊕), wenn Folgendes gilt: (1) Ø = H ⊆ G. (2) a ⊕ b ∈ H für alle a, b ∈ H . (3) Für jedes a ∈ H ist sein inverses Element a ∈ H. 2
Beweis Übungsaufgabe. Wir erwähnen noch die folgende Definition, auf die wir später zurückkommen werden. Definition 3.6 Seien (G 1 , ⊕) und (G 2 , ) Gruppen. Eine Abbildung ϕ : G 1 → G 2,
g → ϕ(g)
heißt Gruppenhomomorphismus, wenn ϕ(a ⊕ b) = ϕ(a) ϕ(b),
∀ a, b ∈ G 1
gilt. Ein bijektiver Gruppenhomomorphismus wird Gruppenisomorphismus genannt.
3.2 Ringe und Körper Nun wollen wir den Gruppenbegriff erweitern und mathematische Strukturen betrachten, die durch zwei Verknüpfungen gekennzeichnet sind. Als motivierendes Beispiel betrachten wir die ganzen Zahlen mit der Addition, also die Gruppe (Z, +). Die Elemente von Z können wir miteinander multiplizieren und diese Multiplikation ist assoziativ, d. h. es gilt (a · b) · c = a · (b · c) für alle a, b, c ∈ Z. Zudem gelten für die Addition und Multiplikation die sogenannten Distributivgesetze: a · (b + c) = a · b + a · c und (a + b) · c = a · c + b · c für alle ganzen Zahlen a, b, c. Diese Eigenschaften machen Z zusammen mit Addition und Multiplikation zu einem Ring.
24
3 Algebraische Strukturen
Definition 3.7 Ein Ring ist eine Menge R mit zwei Abbildungen, genannt Operationen oder Verknüpfungen, + : R × R → R,
(a, b) → a + b,
(Addition)
∗ : R × R → R,
(a, b) → a ∗ b,
(Multiplikation)
für die folgende Regeln erfüllt sind: (1) (R, +) ist eine kommutative Gruppe. (Wir nennen das neutrale Element bzgl. der Addition Null, bezeichnen es mit 0, und bezeichnen das zu a ∈ R inverse Element mit −a. Wir schreiben a − b anstatt a + (−b).) (2) Die Multiplikation ∗ ist assoziativ, d. h. (a ∗ b) ∗ c = a ∗ (b ∗ c) gilt für alle a, b, c ∈ R. (3) Es gelten die Distributivgesetze, d. h. für alle a, b, c ∈ R gilt a ∗ (b + c) = a ∗ b + a ∗ c, (a + b) ∗ c = a ∗ c + b ∗ c. Ein Ring heißt kommutativ, falls a ∗ b = b ∗ a für alle a, b ∈ R gilt. Ein Element 1 ∈ R heißt Einselement (kurz: Eins), falls 1 ∗ a = a ∗ 1 = a für alle a ∈ R gilt. In diesem Fall nennen wir den Ring einen Ring mit Eins. Analog zur Schreibweise für Gruppen bezeichnen wir einen Ring mit (R, +, ∗), bzw. nur mit R, wenn klar ist, um welche Verknüpfungen es sich handelt. Ist R ein Ring mit Einselement, dann ist das Einselement eindeutig. Gilt nämlich 1 ∗ a = a ∗ 1 = a für alle a ∈ R und gibt es ein e ∈ R mit e ∗ a = a ∗ e = a für alle a ∈ R, dann folgt 1 = e ∗ 1 = e. Sind a1 , a2 , . . . , an ∈ R, so benutzen wir die folgenden Abkürzungen für die Summe und das Produkt dieser Elemente: n
a j := a1 + a2 + . . . + an
und
j=1
n
a j := a1 ∗ a2 ∗ . . . ∗ an .
j=1
Ist > k, so definieren wir die leere Summe und das leere Produkt durch k j=
a j := 0 und
k
a j := 1.
j=
Satz 3.8 In jedem Ring R gelten folgende Aussagen: (1) 0 ∗ a = a ∗ 0 = 0 für alle a ∈ R. (2) a ∗ (−b) = −(a ∗ b) = (−a) ∗ b und (−a) ∗ (−b) = a ∗ b für alle a, b ∈ R. Beweis (1) Für jedes a ∈ R gilt 0 ∗ a = (0 + 0) ∗ a = (0 ∗ a) + (0 ∗ a). Addieren wir −(0 ∗ a) auf der linken und rechten Seite dieser Identität, so erhalten wir 0 = 0 ∗ a. Genauso zeigt man a ∗ 0 = 0 für alle a ∈ R.
3.2
Ringe und Körper
25
(2) Es gilt (a ∗ b) + (a ∗ (−b)) = a ∗ (b + (−b)) = a ∗ 0 = 0, also ist a ∗ (−b) das zu a ∗ b additiv inverse Element, d. h. a ∗ (−b) = −(a ∗ b). Ähnlich zeigt man (−a) ∗ b = −(a ∗ b). Zudem gilt 0 = 0 ∗ (−b) = (a + (−a)) ∗ (−b) = a ∗ (−b) + (−a) ∗ (−b) = −(a ∗ b) + (−a) ∗ (−b) und daher (−a) ∗ (−b) = a ∗ b.
2
Es ist leicht ersichtlich, dass (Z, +, ∗) ein kommutativer Ring mit Eins ist. Dies ist das Standardbeispiel, nach dem die Definition des Rings „modelliert“ ist. Beispiel 3.9 Sei M eine nicht leere Menge und sei R die Menge aller Abbildungen f : M → R. Dann ist (R, +, ∗) mit den Verknüpfungen + : R × R → R, ∗ : R × R → R,
( f, g) → f + g,
( f + g)(x) := f (x) + g(x),
( f, g) → f ∗ g,
( f ∗ g)(x) := f (x) · g(x)
ein kommutativer Ring mit Eins. Hierbei sind f (x) + g(x) bzw. f (x) · g(x) die Summe bzw. das Produkt zweier reeller Zahlen. Die Eins in diesem Ring ist die Abbildung f : M → R mit f (x) = 1 für alle x ∈ M. In der Definition eines Rings kommen inverse Elemente nur bezüglich der Addition vor. Das Konzept der multiplikativen Inversen wollen wir nun für einen Ring formal definieren. Definition 3.10 Sei (R, +, ∗) ein Ring mit Eins. Ein Element b ∈ R heißt invers (bezüglich ∗) zu a ∈ R, falls a ∗ b = b ∗ a = 1. Falls es zu a ∈ R ein inverses Element b ∈ R gibt, so nennen wir a invertierbar. Nicht jedes Element in einem Ring muss invertierbar sein. Falls aber ein Element invertierbar ist, so ist das inverse Element eindeutig, wie der folgende Satz zeigt. Satz 3.11 Sei (R, +, ∗) ein Ring mit Eins. (1) Falls zu a ∈ R ein inverses Element (bezüglich ∗) existiert, so ist dieses eindeutig. Wir bezeichnen es dann mit a −1 . (2) Sind a, b ∈ R invertierbar, so ist a ∗ b invertierbar und (a ∗ b)−1 = b−1 ∗ a −1 . Beweis (1) Sei a ∈ R und sei b ∈ R invers zu a. Ist nun b ∈ R ebenfalls invers zu a, so folgt b = b ∗ 1 = b ∗ (a ∗ b) = (b ∗ a) ∗ b = 1 ∗ b = b. (2) Sei c = b−1 ∗ a −1 , dann gilt c ∗ (a ∗ b) = (c ∗ a) ∗ b = ((b−1 ∗ a −1 ) ∗ a)) ∗ b = (b−1 ∗ (a −1 ∗ a)) ∗ b = b−1 ∗ b = 1. Genauso zeigt man (a ∗ b) ∗ c = 1, so dass c = (a ∗ b)−1 ist.
2
26
3 Algebraische Strukturen
Was unterscheidet die ganzen Zahlen von den rationalen und den reellen Zahlen? Aus algebraischer Sicht ist der zentrale Unterschied, dass in den Mengen Q und R jedes Element (bis auf die Null) invertierbar ist. Diese Mengen haben somit „mehr Struktur“ als Z. Die zusätzliche Struktur macht Q und R zu Körpern. Definition 3.12 Ein kommutativer Ring R mit Eins heißt Körper, falls 0 = 1 gilt und jedes a ∈ R \ {0} invertierbar ist. Jeder Körper ist per Definition also ein kommutativer Ring mit Eins (aber nicht umgekehrt). Man kann den Begriff des Körpers alternativ auch wie folgt, aufbauend auf dem Begriff der Gruppe, definieren. Definition 3.13 Ein Körper ist eine Menge K mit zwei Abbildungen, genannt Operationen oder Verknüpfungen, + : K × K → K, ∗ : K × K → K,
(a, b) → a + b, (a, b) → a ∗ b,
(Addition) (Multiplikation)
für die die folgenden Regeln erfüllt sind: (1) (K , +) ist eine kommutative Gruppe. (Wir nennen das neutrale Element bzgl. der Addition Null, bezeichnen es mit 0, und bezeichnen das zu a ∈ K inverse Element mit −a. Wir schreiben a − b anstatt a + (−b).) (2) (K \ {0}, ∗) ist eine kommutative Gruppe. (Wir nennen das neutrale Element bzgl. der Multiplikation Eins, bezeichnen es mit 1, und bezeichnen das zu a ∈ K \ {0} inverse Element mit a −1 .) (3) Es gelten die Distributivgesetze, d. h. für alle a, b, c ∈ K gilt a ∗ (b + c) = a ∗ b + a ∗ c, (a + b) ∗ c = a ∗ c + b ∗ c. Wir zeigen nun eine Reihe von nützlichen Eigenschaften eines Körpers. Lemma 3.14 Für jeden Körper K gelten folgende Aussagen: (1) (2) (3) (4)
K hat mindestens zwei Elemente. 0 ∗ a = a ∗ 0 = 0 für alle a ∈ K . a ∗ b = a ∗ c und a = 0 impliziert b = c für alle a, b, c ∈ K . a ∗ b = 0 impliziert a = 0 oder b = 0, für alle a, b ∈ K .
Beweis (1) Dies folgt aus der Definition, denn 0, 1 ∈ K mit 0 = 1. (2) Dies haben wir bereits für Ringe gezeigt, siehe Satz 3.8. (3) Gelten a ∗ b = a ∗ c und a = 0, so ist a invertierbar und Multiplikation mit a −1 von links auf beiden Seiten liefert b = c. (4) Angenommen es gilt a ∗ b = 0. Ist a = 0, so sind wir fertig. Ist a = 0, so existiert a −1 und aus a ∗ b = 0 folgt nach Linksmultiplikation mit a −1 , dass b = 0 ist. 2
3.2
Ringe und Körper
27
Ist R ein Ring, so heißt a ∈ R ein Teiler der Null oder Nullteiler,2 wenn ein b ∈ R mit a ∗ b = 0 existiert. Das Element a = 0 (also die Null selbst) wird als der triviale Nullteiler bezeichnet. Eigenschaft (4) in Lemma 3.14 bedeutet, dass es in einem Körper nur den trivialen Nullteiler gibt. Es gibt auch Ringe, in denen die Eigenschaft (4) gilt (zum Beispiel den Ring der ganzen Zahlen Z). Später werden wir am Beispiel der Matrizen Ringe kennenlernen, die nicht-triviale Nullteiler haben. Ähnlich wie bei Gruppen können wir auch bei Körpern Teilmengen identifizieren, die ihrerseits wieder Körper sind. Definition 3.15 Ist (K , +, ∗) ein Körper und L ⊆ K , dann heißt (L , +, ∗) Teilkörper von (K , +, ∗), wenn (L , +, ∗) selbst ein Körper ist. Wir betrachten nun zwei wichtige Beispiele für die obigen algebraischen Grundbegriffe, den Körper der komplexen Zahlen und den Ring der Polynome. Beispiel 3.16 Die Menge der komplexen Zahlen ist definiert als C := { (x, y) | x, y ∈ R }, also C = R × R. Auf dieser Menge definieren wir die folgenden Verknüpfungen als Addition und Multiplikation: + : C × C → C, · : C × C → C,
(x1 , y1 ) + (x2 , y2 ) := (x1 + x 2 , y1 + y2 ), (x1 , y1 ) · (x2 , y2 ) := (x1 · x 2 − y1 · y2 , x 1 · y2 + x 2 · y1 ).
In diesen Definitionen benutzen wir jeweils auf der rechten Seite die Addition und die Multiplikation im Körper der reellen Zahlen. Es ist leicht zu sehen, dass neutrale Elemente bezüglich der Addition und der Multiplikation in C gegeben sind durch 0C = (0, 0) 1C = (1, 0)
(die Null in C), (die Eins in C).
Man kann nachrechnen, dass (C, +, ∗) ein Körper ist, wobei die inversen Elemente bezüglich Addition und Multiplikation gegeben sind durch −(x, y) = (−x, −y), für alle (x, y) ∈ C, x y −1 , für alle (x, y) ∈ C \ {(0, 0)}. ,− 2 (x, y) = x 2 + y2 x + y2 Beim inversen Element bezüglich der Multiplikation haben wir die für R übliche Schreibweise ab (anstatt a · b−1 ) benutzt. Nun betrachten wir die Teilmenge L := {(x, 0) | x ∈ R} ⊂ C. Wir können jedes x ∈ R mit einem Element der Menge L mittels der (bijektiven) Abbildung x → (x, 0) identifizieren. 2
Der Begriff „Theiler der Null“ wurde 1883 vom deutschen Mathematiker Karl Theodor Wilhelm Weierstraß (1815–1897) eingeführt.
28
3 Algebraische Strukturen
Insbesondere gelten 0R → (0, 0) = 0C und 1R → (1, 0) = 1C . So können wir R als Teilkörper von C auffassen (obwohl R strenggenommen keine Teilmenge von C ist), und wir brauchen nicht zwischen den Null- und Einselementen in R und C zu unterscheiden. Eine besondere komplexe Zahl ist die imaginäre Einheit (0, 1). Für diese Zahl gilt (0, 1) · (0, 1) = (0 · 0 − 1 · 1, 0 · 1 + 0 · 1) = (−1, 0) = −1. Hier haben wir in der letzten Gleichung die reelle Zahl −1 mit der komplexen Zahl (−1, 0) identifiziert. Die imaginäre Einheit wird mit i bezeichnet, d. h. i := (0, 1), so dass die gerade gezeigte Identität als i2 = −1 geschrieben werden kann. Mit der Identifikation von x ∈ R mit (x, 0) ∈ C kann z = (x, y) ∈ C geschrieben werden als (x, y) = (x, 0) + (0, y) = (x, 0) + (0, 1) · (y, 0) = x + i y = Re(z) + i Im(z). Im letzten Ausdruck sind Re(z) = x und Im(z) = y die Kurzbezeichnungen für Realteil und Imaginärteil der komplexen Zahl z = (x, y). Es gilt (0, 1) · (y, 0) = (y, 0) · (0, 1), d. h. iy = yi. Daher ist es erlaubt, die komplexe Zahl x + iy als x + yi zu schreiben. Für eine gegebene komplexe Zahl z = (x, y) bzw. z = x + i y heißt z := (x, −y) bzw. z := x − i y die zugehörige konjugiert komplexe Zahl. Mit Hilfe der (reellen) Quadratwurzel definiert man den Betrag einer komplexen Zahl als
1/2 2
1/2 = x − i x y + i yx − i2 y 2 |z| : = (zz)1/2 = (x + i y) (x − i y) = (x 2 + y 2 )1/2 . Zur Vereinfachung der Schreibweise haben wir hier das Multiplikationszeichen zwischen zwei komplexen Zahlen weggelassen. Die obige Gleichung zeigt, dass der Betrag jeder komplexen Zahl eine nicht-negative reelle Zahl ist. Weitere Eigenschaften des Betrages von komplexen Zahlen sind in den Aufgaben am Ende des Kapitels nachzuweisen. Beispiel 3.17 Sei (R, +, ·) ein kommutativer Ring mit Eins. Ein Polynom mit Koeffizienten in R in der „Unbekannten“ t (kurz: ein Polynom über R) ist ein Ausdruck der Form p = α0 · t 0 + α1 · t 1 + . . . + αn · t n ,
α0 , α1 , . . . , αn ∈ R.
Anstatt α0 · t 0 , t 1 und α j · t j schreiben wir oft nur α0 , t und α j t j . Der Grad des Polynoms p, bezeichnet mit Grad( p), ist definiert als der größte Index j, für den α j = 0 gilt. Gibt es keinen solchen Index, so ist p = 0 · t 0 = 0 (das „Nullpolynom“) und wir setzen Grad(0) := −∞. Die Menge aller Polynome über R bezeichnen wir mit R[t]. Zwei Polynome p, q ∈ K [t] heißen gleich, geschrieben p = q, wenn ihre Koeffizienten gleich sind. Somit sind die Polynome p = α0 + α1 · t + . . . + αn · t n ,
q = β0 + β1 · t + . . . + βm · t m
Aufgaben
29
genau dann gleich, wenn n = m und α j = β j für j = 0, 1, . . . , n gilt. Insbesondere ist p = α0 + α1 · t + . . . + αn · t n = αn · t n + . . . + α1 t 1 + α0 . Sind p, q ∈ R[t] wie oben mit n ≥ m, so setzen wir βm+1 = . . . = βn = 0 und definieren die folgenden Verknüpfungen: p + q := (α0 + β0 ) + (α1 + β1 ) · t + . . . + (αn + βn ) · t n , αi β j . p ∗ q := γ0 + γ1 · t + . . . + γn+m · t n+m , γk := i+ j=k
Man rechnet leicht nach, dass (R[t], +, ∗) mit diesen Verknüpfungen ein kommutativer Ring mit Eins ist. Die Null ist das Nullpolynom p = 0 und die Eins ist p = 1 · t 0 = 1. Es handelt sich nicht um einen Körper, denn nicht jedes Polynom p ∈ R[t] \ {0} ist invertierbar (selbst dann nicht, wenn R ein Körper ist). Bei Polynomen handelt es sich um algebraische Objekte, in die wir für die Unbekannte t andere Objekte „einsetzen“ können, wenn der entstehende Ausdruck noch algebraisch ausgewertet werden kann. Zum Beispiel läßt sich die Unbekannte t durch jedes λ ∈ R ersetzen und die Addition und Multiplikation können dann als die entsprechenden Operationen im Ring R interpretiert werden. Formal ist dies eine Abbildung von R nach R, λ → p(λ) = α0 + α1 · λ + . . . + αn · λn ,
λk := λ · . . . · λ, k = 1, . . . , n. k−mal
Bei p(λ) handelt es sich dann um ein Element des Rings R, das nicht mit dem eigentlichen Polynom p verwechselt werden sollte. Später werden wir noch andere Objekte, z. B. Matrizen oder Endomorphismen, in Polynome einsetzen. Die Eigenschaften der Polynome werden wir dann ausführlich studieren.
Aufgaben 3.1
Stellen Sie jeweils fest, ob (M, ⊕) eine Gruppe ist: (a) M = {x ∈ R | x > 0} und ⊕ : M × M → M, (a, b) → a b . (b) M = R \ {0} und ⊕ : M × M → M, (a, b) → ab .
3.2
Seien a, b ∈ R, die Abbildung f a,b : R × R → R × R,
3.3 3.4
(x, y) → (ax − by, ay),
und die Menge G := { f a,b | a, b ∈ R, a = 0} gegeben. Zeigen Sie, dass (G, ⊕) eine nicht-kommutative Gruppe ist, wobei die Verknüpfung ⊕ : G × G → G als die Komposition zweier Abbildungen definiert ist (vgl. Definition 2.16). Beweisen Sie Satz 3.5. Sei (G, ⊕) eine Gruppe. Für ein gegebenes a ∈ G definieren wir die Menge Z G (a) := {g ∈ G | a ⊕ g = g ⊕ a}. Zeigen Sie, dass Z G (a) eine Untergruppe von G ist.
30
3.5
3 Algebraische Strukturen
(Diese Untergruppe aller mit a kommutierender Elemente von G heißt der Zentralisator von a.) Sei ϕ : G → H ein Gruppenhomomorphismus und seien eG und e H die neutralen Elemente der Gruppen G und H . (a) Zeigen Sie, dass ϕ(eG ) = e H ist. (b) Sei ker(ϕ) := {g ∈ G | ϕ(g) = e H }. Zeigen Sie, dass ϕ genau dann injektiv ist, wenn ker(ϕ) = {eG } gilt.
3.6
3.7 3.8
Weisen Sie die verschiedenen Eigenschaften aus Definition 3.7 für (R, +, ∗) aus Beispiel 3.9 nach, um zu zeigen, dass (R, +, ∗) ein kommutativer Ring mit Eins ist. Angenommen wir ersetzen in Beispiel 3.9 die Menge R (den Wertebereich der Abbildungen) durch einen kommutativen Ring mit Eins. Ist dann (R, +, ∗) immer noch ein kommutativer Ring mit Eins? Sei R ein Ring mit Eins. Zeigen Sie, dass entweder 1 = 0 oder R = {0} gilt. Sei (R, +, ∗) ein Ring mit Eins und sei R × die Menge aller invertierbaren Elemente von R. Bestimmen Sie die Mengen Z× , K × und K [t]× und zeigen Sie folgende Aussagen: (a) (R × , ∗) ist eine Gruppe. (b) Ist R kommutativ, so gilt (R[t])× = R × .
3.9
Sei (K , +, ∗) ein Körper. Zeigen Sie, dass (L , +, ∗) genau dann ein Teilkörper von (K , +, ∗) ist (vgl. Definition 3.15), wenn Folgendes gilt: (1) (2) (3) (4) (5)
L ⊆ K. 0, 1 ∈ L. a + b ∈ L und a ∗ b ∈ L für alle a, b ∈ L. −a ∈ L für alle a ∈ L. a −1 ∈ L für alle a ∈ L \ {0}.
3.10 Zeigen Sie, dass in einem Körper 1 + 1 = 0 genau dann gilt, wenn 1 + 1 + 1 + 1 = 0 ist. 3.11 Sei K [t] die Menge der Polynome über dem Körper K . Wir definieren die Menge der rationalen Funktionen über K durch K (t) := r = qp | p, q ∈ K [t], q = 0 . Zeigen Sie, dass (K (t), +, ·) mit den Verknüpfungen + : K (t) × K (t) → K (t), · : K (t) × K (t) → K (t),
(r1 , r2 ) → r1 + r2 = (r1 , r2 ) → r1 r2 =
p1 p2 p1 q2 + p2 q1 + := , q1 q2 q1 q 2
p 1 p2 p1 p 2 · := q1 q2 q1 q2
ein Körper ist. 3.12 Seien a = 2 + i ∈ C und b = 1 − 3i ∈ C. Berechnen Sie −a, −b, a + b, a − b, a −1 , b−1 , a −1 a, b−1 b, ab, ba.
Aufgaben
31
3.13 Beweisen Sie die folgenden Rechenregeln für die komplexen Zahlen: (a) (z 1 + z 2 ) = z 1 + z 2 und (z 1 z 2 ) = z 1 z 2 für alle z 1 , z 2 ∈ C. (b) z −1 = (z)−1 und Re(z −1 ) =
1 Re(z) |z|2
für alle z ∈ C \ {0}.
3.14 Zeigen Sie, dass der Betrag von komplexen Zahlen die folgenden Eigenschaften erfüllt: (a) |z 1 z 2 | = |z 1 | |z 2 | für alle z 1 , z 2 ∈ C. (b) |z| ≥ 0 für alle z ∈ C mit Gleichheit genau dann, wenn z = 0 ist. (c) |z 1 + z 2 | ≤ |z 1 | + |z 2 | für alle z 1 , z 2 ∈ C.
Kapitel 4
Matrizen
In diesem Kapitel definieren wir Matrizen mit ihren wichtigsten Operationen und wir studieren verschiedene aus Matrizen gebildete Gruppen und Ringe. Der englische Mathematiker James Joseph Sylvester erfand den Begriff „Matrix“ im Jahre 1850.1 Die in diesem Kapitel definierten Matrix-Operationen führte Sylvesters Landsmann Arthur Cayley 1858 ein, als er in seinem Artikel „A memoir on the theory of matrices“ erstmals Matrizen als eigenständige algebraische Objekte betrachtete. Für uns bilden Matrizen den zentralen Zugang zur Theorie der Linearen Algebra.
4.1 Grundlegende Definitionen und Operationen Wir beginnen mit der formalen Definition der Matrizen. Definition 4.1 Sei (R, +, ·) ein kommutativer Ring mit Eins und seien n, m ∈ N0 := N∪{0}. Ein Feld der Form ⎡
a11 ⎢a ⎢ 21 A = [ai j ] = ⎢ ⎢ .. ⎣ . an1
a12 a22 .. . an2
··· ···
⎤ a1m a2m ⎥ ⎥ ⎥ .. ⎥ . ⎦
· · · anm
mit ai j ∈ R, i = 1, . . . , n, j = 1, . . . , m, heißt (n × m)-Matrix mit Einträgen (Koeffizienten) in R (kurz: (n × m)-Matrix über R). Die Menge aller (n × m)-Matrizen über R bezeichnen wir mit R n,m . Formal erhalten wir für n = 0 oder m = 0 Matrizen der Form 0 × m, n × 0 oder 0 × 0. Diese „leeren Matrizen“ bezeichnen wir stets mit A = [ ]. Sie werden in manchen Beweisen aus technischen Gründen benötigt. Wenn wir jedoch später von algebraischen Strukturen wie Matrixgruppen oder -ringen sprechen, dann meinen wir stets Matrizen A ∈ R n,m mit n, m ≥ 1. 1
Das Wort „Matrix“ ist lateinisch und bedeutet „Gebärmutter“. Sylvester fasste in seiner Definition eine Matrix als ein Objekt auf, aus dem Determinanten (vgl. Kap. 7) „geboren werden“.
J. Liesen, V. Mehrmann, Lineare Algebra, DOI 10.1007/978-3-8348-8290-5_4, C Vieweg+Teubner Verlag | Springer Fachmedien Wiesbaden GmbH 2011
33
34
4 Matrizen
Die Nullmatrix in R n,m , bezeichnet mit 0n,m oder einfach 0, ist die Matrix bei der alle Einträge gleich 0 ∈ R sind. Ist n = m, so nennen wir A ∈ R n,n eine quadratische Matrix (oder nur quadratisch). Die Einträge aii für i = 1, . . . , n heißen die Diagonaleinträge von A. Die Einheitsmatrix in R n,n ist die Matrix In := [δi j ], wobei
δi j :=
1, falls i = j, 0, falls i = j,
(4.1)
die sogenannte Kronecker-Delta-Funktion2 ist. Wenn klar ist, um welches n es sich handelt, schreiben wir auch I anstatt In . Für n = 0 definieren wir I0 := [ ]. Die i-te Zeile von A ∈ R n,m ist [ai1 , ai2 , . . . , aim ] ∈ R 1,m , i = 1, . . . , n, wobei wir die Kommas zur optischen Trennung der einzelnen Einträge schreiben. Die j-te Spalte von A ist ⎡
⎤ a1 j ⎢ a2 j ⎥ ⎢ ⎥ ⎢ .. ⎥ ∈ R n,1 , ⎣ . ⎦
j = 1, . . . , m.
an j Die Zeilen und Spalten einer Matrix sind somit für uns wieder Matrizen. Sind andererseits (1 × m)-Matrizen ai := [ai1 , ai2 , . . . , aim ] ∈ R 1,m , i = 1, . . . , n, gegeben, so können wir aus diesen die Matrix ⎤ ⎡ a11 a1 ⎢ a2 ⎥ ⎢a21 ⎢ ⎥ ⎢ A=⎢ . ⎥=⎢ . ⎣ .. ⎦ ⎣ .. ⎡
an
an1
a12 a22 .. . an2
··· ···
⎤ a1m a2m ⎥ ⎥ n,m .. ⎥ ∈ R . ⎦
· · · anm
bilden. Hier lassen wir die eckigen Klammern um die einzelnen Zeilen von A weg. Genauso entsteht aus den (n × 1)-Matrizen ⎤ ⎡ a1 j ⎢ a2 j ⎥ ⎥ ⎢ a j := ⎢ . ⎥ ∈ R n,1 , j = 1, . . . , m, ⎣ .. ⎦ an j die Matrix ⎡
2
a11 ⎢a21 ⎢ A = [a1 , a2 , . . . , am ] = ⎢ . ⎣ ..
a12 a22 .. .
an1
an2
Leopold Kronecker (1823–1891), deutscher Mathematiker.
··· ···
⎤ a1m a2m ⎥ ⎥ n,m .. ⎥ ∈ R . . ⎦
· · · anm
4.1
Grundlegende Definitionen und Operationen
35
Sind n 1 , n 2 , m 1 , m 2 ∈ N0 und Ai j ∈ R n i ,m j , i, j = 1, 2, so können wir aus diesen vier Matrizen die Matrix A11 A12 A= ∈ R n 1 +n 2 ,m 1 +m 2 A21 A22 bilden. Die Matrizen Ai j heißen dann Blöcke der Blockmatrix A. Wir wollen nun vier verschiedene Operationen mit Matrizen definieren und beginnen mit der Addition: + : R n,m × R n,m → R n,m ,
(A, B) → A + B := [ai j + bi j ].
Die Addition in R n,m erfolgt also eintragsweise, basierend auf der Addition in R. Man beachte, dass die Addition nur für Matrizen gleicher Größe definiert ist. Die Multiplikation zweier Matrizen ist wie folgt definiert: ∗ : R n,m × R m,s → R n,s ,
(A, B) → A ∗ B = [ci j ],
ci j :=
m
aik bk j .
k=1
Der Eintrag ci j des Produktes A ∗ B entsteht also durch die sukzessive Multiplikation und Aufsummierung der Einträge der i-ten Zeile von A und j-ten Spalte von B. Man beachte, dass wir in der Definition der Einträge ci j der Matrix A ∗ B kein Symbol für die multiplikative Verknüpfung von Elementen in R benutzt haben. Dies folgt der üblichen Konvention das Multiplikationszeichen einfach „wegzulassen“, wenn klar ist, um welche Multiplikation es sich handelt. Wir werden ab jetzt immer häufiger, insbesondere bei der Matrizenmultiplikation, von dieser Schreibvereinfachung Gebrauch machen. Um das Produkt A ∗ B definieren zu können, muss offensichtlich die Anzahl der Spalten von A gleich der Anzahl der Zeilen von B sein. Die Merkregel cij gleich i-te Zeile von A mal j-te Spalte von B können wir wie folgt veranschaulichen: ⎡
b11 ⎢ .. ⎣ . bm1 ⎡
a11 ⎢ .. ⎢ . ⎢ ⎢[ai1 ⎢ ⎢ .. ⎣ . an1
⎤ a1m .. ⎥ . ⎥ ⎥ · · · aim ]⎥ ⎥ .. ⎥ . ⎦ · · · anm ···
··· ···
⎤ b1 j ⎢ .. ⎥ ⎣ . ⎦ ⎡
bm j
⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣
···
⎤ b1s .. ⎥ . ⎦
· · · bms
⎤
−→
↓ ci j
⎥ ⎥ ⎥ ⎥ ⎥ ⎦
Man beachte, dass die Matrizen-Multiplikation im Allgemeinen nicht kommutativ ist!
36
4 Matrizen
Beispiel 4.2 Für die Matrizen
1 2 3 A= ∈ Z2,3 , 4 5 6
⎡
⎤ −1 1 B = ⎣ 0 0 ⎦ ∈ Z3,2 1 −1
gilt
2 −2 A∗B = ∈ Z2,2 . 2 −2 Andererseits ist B ∗ A ∈ Z3,3 . Obwohl also A ∗ B und B ∗ A beide definiert sind, gilt offensichtlich A ∗ B = B ∗ A. Die Nichtkommutativität der Matrizen-Multiplikation erkennt man in diesem Beispiel bereits an der Tatsache, dass die Matrizen A ∗ B und B ∗ A nicht die gleiche Größe haben. Aber auch wenn A ∗ B und B ∗ A beide definiert und gleich groß sind, muss nicht unbedingt A ∗ B = B ∗ A gelten. Zum Beispiel sind für 1 2 4 0 2,2 A= ∈Z , B= ∈ Z2,2 0 3 5 6 die beiden Produkte durch
A∗B =
14 12 15 18
und
B∗A=
4 8 5 28
gegeben. Trotz der fehlenden Kommutativität erfüllt die Matrizenmultiplikation einige wichtige Eigenschaften. Insbesondere gelten Assoziativität und Distributivität. ∈ R n,m , B, Lemma 4.3 Für A, A B ∈ R m, und C ∈ R ,k gelten: (1) (2) (3) (4)
A ∗ (B ∗ C) = (A ∗ B) ∗ C. ∗B = A∗B+ A ∗ B. (A + A) A ∗ (B + B) = A ∗ B + A ∗ B. In ∗ A = A ∗ Im = A.
Beweis Wir zeigen lediglich Eigenschaft (1); alle anderen sind Übungsaufgaben. Seien A ∈ R n,m , B ∈ R m, , C ∈ R ,k sowie [di j ] := (A ∗ B)∗C und [di j ] := A ∗(B ∗C). Per Definition der Matrizenmultiplikation und unter Ausnutzung der Distributivität und Assoziativität in R gilt dann m m m
di j = ait bts cs j = ait bts cs j (ait bts ) cs j = s=1
=
m t=1
t=1
ait
bts cs j
s=1 t=1
s=1 t=1
= di j ,
s=1
für 1 ≤ i ≤ n und 1 ≤ j ≤ k, woraus (A ∗ B) ∗ C = A ∗ (B ∗ C) folgt.
2
4.1
Grundlegende Definitionen und Operationen
37
Ist A ∈ R n,n , so definieren wir A := A ∗ A ∗. . . ∗ A,
für ∈ N,
−mal
A0 := In . Es gibt noch eine weitere multiplikative Verknüpfung mit Matrizen, nämlich die Multiplikation mit einem Skalar 3 : · : R × R n,m → R n,m ,
(λ, A) → λ · A := [λai j ].
(4.2)
Für diese Multiplikation gelten folgende Eigenschaften. Lemma 4.4 Seien A, B ∈ R n,m , C ∈ R m, , λ, μ ∈ R, dann gelten: (1) (2) (3) (4)
(λμ) · A = λ · (μ · A). (λ + μ) · A = λ · A + μ · A, insbesondere 0 · A = A + (−1) · A = 0n,m . λ · (A + B) = λ · A + λ · B, insbesondere 1 · A = A. (λ · A) ∗ C = λ · (A ∗ C) = A ∗ (λ · C). 2
Beweis Übungsaufgabe. Die vierte Matrixoperation, die wir hier einführen, ist die Transposition: T : R n,m → R m,n ,
A = [ai j ] → A T = [bi j ],
also zum Beispiel 1 2 3 A= , 4 5 6
bi j := a ji ,
⎡ ⎤ 1 4 A T = ⎣2 5⎦. 3 6
Die Matrix A T nennen wir die Transponierte von A. Definition 4.5 Falls für A ∈ R n,n die Gleichung A = A T gilt, so nennen wir A eine symmetrische Matrix. Gilt die Gleichung A = −A T , so nennen wir A eine schiefsymmetrische Matrix. Für die Transposition gelten folgende Eigenschaften. ∈ R n,m , B ∈ R m, , λ ∈ R, dann gelten: Lemma 4.6 Seien A, A (1) (2) (3) (4)
(A T )T = A. T = AT + A T . (A + A) T T (λ · A) = λ · A . (A ∗ B)T = B T ∗ A T .
3 Der Begriff Skalar wurde im Jahre 1845 vom irischen Mathematiker Sir William Rowan Hamilton (1805– 1865) eingeführt. Er stammt ab von „scale“ (engl. für einen Zahlenbereich), was von „scala“ (lat. für „Leiter“) abstammt.
38
4 Matrizen
Beweis Die Eigenschaften (1)−(3) sind Übungsaufgaben. Zum Beweis von (4) seien A∗ B = T [ci j ] mit ci j = m ai j ], B T = [ bi j ] und (A ∗ B)T = [ ci j ]. Dann gilt k=1 aik bk j , A = [ ci j = c ji =
m
a jk bki =
k=1
m
ak j bik =
k=1
m
ak j , bik
k=1
woraus (A ∗ B)T = B T ∗ A T unmittelbar ersichtlich ist.
2
Die MATLAB-Minute Führen Sie folgende Kommandos aus, um sich mit der Anwendung der in diesem Abschnitt vorgestellten Matrix-Operationen in MATLAB vertraut zu machen: A=ones(5,2), A+A, A-3*A, A’, A’*A, A*A’. Um die Ausgabe von MATLAB beobachten zu können, schließen Sie die jeweiligen Eingaben bitte nicht mit einem Semikolon ab.
Beispiel 4.7 Wir betrachten noch einmal das Anwendungsbeispiel der Schadensfreiheitsklassen in der KFZ-Versicherung aus Kap. 1. Dort hatten wir die Wahrscheinlichkeit, dass ein Versicherungsnehmer, der sich in diesem Jahr in Klasse K i befindet, im nächsten Jahr in Klasse K j ist, mit pi j bezeichnet. Unser Beispiel hatte vier Klassen und so ergaben sich 16 Wahrscheinlichkeiten, die wir in einer (4 × 4)-Matrix angeordnet hatten (vgl. (1.2)). Diese Matrix bezeichnen wir nun mit P. Angenommen der Versicherer hat in diesem Jahr folgende Kundenverteilung in den vier Schadensfreiheitsklassen: 40% der Kunden sind in Klasse K 1 , 30% in Klasse K 2 , 20% in Klasse K 3 und 10% in Klasse K 4 . Dann lässt sich eine (1 × 4)-Matrix p0 := [0.4, 0.3, 0.2, 0.1] der Ausgangsverteilung bilden. Die Kundenverteilung im nächsten Jahr, die wir mit p1 bezeichnen wollen, berechnet sich mit Hilfe der Matrizen-Multiplikation wie folgt: ⎡ ⎤ 0.15 0.85 0.00 0.00 ⎢0.15 0.00 0.85 0.00⎥ ⎥ p1 = p0 ∗ P = [0.4, 0.3, 0.2, 0.1] ∗ ⎢ ⎣0.05 0.10 0.00 0.85⎦ 0.05 0.00 0.10 0.85 = [0.12, 0.36, 0.265, 0.255]. Warum ist das so? Als Beispiel betrachten wir den Eintrag von p0 ∗ P an der Stelle (1,4), der sich wie folgt berechnet, 0.4 · 0.00 + 0.3 · 0.00 + 0.2 · 0.85 + 0.1 · 0.85 = 0.255. Dieser Eintrag repräsentiert den Anteil der Kunden, die sich im nächsten Jahr in Klasse K 4 befinden (dies sind also 25,5%). Wer in diesem Jahr in Klasse K 1 bzw. Klasse K 2 ist, kann im Folgejahr nicht in K 4 kommen, daher multiplizieren sich die Werte der Ausgangsverteilungen
4.2
Matrizengruppen und -ringe
39
0.4 bzw. 0.3 mit den Wahrscheinlichkeiten p14 = 0.00 bzw. p24 = 0.00. Wer in Klasse K 3 oder K 4 ist, befindet sich im Folgejahr mit Wahrscheinlichkeit p34 = 0.85 bzw. p44 = 0.85 in Klasse K 3 bzw. K 4 , so ergeben sich die Produkte 0.2 · 0.85 und 0.1 · 0.85. Man sieht nun leicht, dass die Kundenverteilung nach Jahren gegeben ist durch die Formel p = p0 · P ,
= 0, 1, 2, . . .
Die Formel gilt auch für = 0, denn P 0 = I4 . Mit Hilfe dieser Formel kann der Versicherer nun die zu erwartenden Prämieneinnahmen in den kommenden Jahren berechnen. Dazu sei angenommen, dass die volle Prämie (Klasse K 1 ) für die Versicherung 500 Euro beträgt. Die Prämien in den Klassen K 2 , K 3 und K 4 sind dann 450, 400 und 300 Euro (10, 20 und 40% Nachlass). Sind zum Beispiel im Ausgangsjahr 1 000 Kunden versichert, so ergeben sich in diesem Jahr Prämieneinnahmen (in Euro) von 1000 · p0 ∗ [500, 450, 400, 300]T = 445 000. Die nach diesem Modell zu erwartenden Prämieneinnahmen im Jahr ≥ 0 aus den Verträgen im Ausgangsjahr (falls kein Kunde in der Zwischenzeit gekündigt hat) sind dann gegeben durch 1 000 · p ∗ [500, 450, 400, 300]T = 1 000 · p0 ∗ (P ∗ [500, 450, 400, 300]T ) . Zum Beispiel ergeben sich in den vier Folgejahren die Einnahmen 404 500, 372 025, 347 340 und 341 819 (gerundet auf volle Euro). Diese Beträge fallen von Jahr zu Jahr, doch anscheinend verlangsamt sich der Abfall. Gibt es hier einen „stationären Zustand“, also einen Zeitpunkt, an dem sich die Einnahmen nicht mehr (stark) ändern? Von welchen Eigenschaften des Systems wäre die Existenz eines solchen Zustandes abhängig? Offensichtlich sind dies wichtige praktische Fragen, die der Versicherer beantworten muss. Nur die gesicherte Existenz eines stationären Zustandes garantiert signifikante Prämieneinnahmen auch in der Zukunft. Da die Formel für die zukünftigen Prämieneinnahmen im Wesentlichen von den Einträgen der Matrizen P abhängt, sind wir unmittelbar bei einem interessanten Problem der Linearen Algebra angekommen, nämlich der Analyse der Eigenschaften von zeilen-stochastischen Matrizen. Eigenschaften stochastischer Matrizen werden wir im Abschn. 8.3 weiter untersuchen.
4.2 Matrizengruppen und -ringe In diesem Abschnitt untersuchen wir algebraische Strukturen, die durch Matrizen und die für sie definierten Operationen gebildet werden. Wir beginnen mit der Addition in R n,m . Satz 4.8 (R n,m , +) ist eine kommutative Gruppe mit neutralem Element 0n,m (Nullmatrix) und zu A = [ai j ] ∈ R n,m inversem Element −A := [−ai j ] ∈ R n,m . (Anstelle von A + (−B) schreiben wir A − B.)
40
4 Matrizen
Beweis Für beliebige A, B, C ∈ R n,m gilt wegen der Assoziativität der Addition in R, dass (A + B) + C = [ai j + bi j ] + [ci j ] = [(ai j + bi j ) + ci j ] = [ai j + (bi j + ci j )] = [ai j ] + [bi j + ci j ] = A + (B + C). Somit ist die Addition in R n,m assoziativ. Für die Nullmatrix 0 ∈ R n,m gilt 0 + A = [0] + [ai j ] = [0 + ai j ] = [ai j ] = A. Zu := [−ai j ] ∈ R n,m . Dann folgt A + A = gegebenem A = [ai j ] ∈ R n,m definieren wir A = −A. [−ai j ] + [ai j ] = [−ai j + ai j ] = [0] = 0, also A Schließlich folgt wegen der Kommutativität der Addition in R, dass A + B = [ai j ] + [bi j ] = [ai j + bi j ] = [bi j + ai j ] = B + A ist. 2 Wegen (2) in Lemma 4.6 ist die Transposition ein Homomorphismus (sogar Isomorphismus) der Gruppen (R n,m , +) und (R m,n , +) (vgl. Definition 3.6). Nun kommen wir zu der Frage, ob und wann Matrizen invertierbar bezüglich der Multi plikation ∗ sind. Wie bei Ringen (vgl. Definition 3.10) verlangen wir von einer Inversen A einer gegebenen Matrix A, dass sie die Gleichungen A ∗ A = I und A ∗ A = I erfüllt. ∗ A und A ∗ A definiert sein, was nur für quadratische Somit müssen die beiden Produkte A Matrizen möglich ist. Die Definition der invertierbaren Matrizen beschränkt sich damit auf die quadratischen Matrizen. ∈ R n,n gibt Definition 4.9 Eine Matrix A ∈ R n,n heißt invertierbar, wenn es eine Matrix A mit A ∗ A = A ∗ A = In . Nicht alle Matrizen A ∈ R n,n sind invertierbar, was für n = 1 durch die Matrix A = [0] gezeigt wird. Für ein etwas interessanteres Beispiel betrachten wir einen Ring R, in dem 0 = 1 gilt. Dann ist die Matrix A=
1 0
0 ∈ R 2,2 0
nicht invertierbar. Man beachte, dass eine Inverse einer Matrix A ∈ R n,n ebenfalls ein Element von R n,n sein muss. Sind zum Beispiel R = Z und
1 A= 0
1 ∈ R 2,2 , 2
dann gilt für B=
1 − 12 0
!
1 2
/ Z2,2 . Die Matrix A ist als Element von Z2,2 die Gleichung A ∗ B = B ∗ A = I2 , aber B ∈ 2,2 nicht invertierbar, als Element von Q aber schon. Es ist außerdem wichtig festzustellen, dass R n,n für n ≥ 2 nicht-triviale Nullteiler hat. Das heißt, es gibt Matrizen A ∈ R n,n \ {0}, für die es eine Matrix B ∈ R n,n \ {0} mit A ∗ B = 0 gibt. Beispielsweise gilt in R 2,2 die Gleichung
4.2
Matrizengruppen und -ringe
41
0 0
1 0 ∗ 0 0
1 0 = 0 0
0 . 0
Hier gilt also insbesondere A2 = 0, obwohl A = 0 ist. Man beachte, dass diese Identität auch gilt, wenn R ein Körper ist. Die Existenz nicht-trivialer Nullteiler zeigt, dass R n,n für n ≥ 2 kein Körper sein kann, selbst wenn R ein Körper ist (dies folgt auch aus der Nichtkommutativität der Matrizenmultiplikation). Allerdings gilt der folgende Satz. Satz 4.10 (R n,n , +, ∗) ist ein (nicht-kommutativer) Ring mit Einselement, welches durch die Einheitsmatrix In gegeben ist. Beweis Wir haben bereits gezeigt, dass (R n,n , +) eine kommutative Gruppe ist (Satz 4.8). Die weiteren Eigenschaften (Assoziativität, Distributivität und Einselement) folgen aus Lemma 4.3. 2 Aus Satz 4.10 und Lemma 3.11 folgt nun, dass die Inverse einer invertierbaren Matrix A ∈ R n,n eindeutig bestimmt ist. Diese Matrix bezeichnen wir mit A−1 . Für invertierbare Matrizen gilt folgendes Resultat. Lemma 4.11 Seien A, B ∈ R n,n invertierbar. Dann gelten: (1) A T ist invertierbar mit (A T )−1 = (A−1 )T . (Wir schreiben dafür auch A−T .) (2) A ∗ B ist invertierbar mit (A ∗ B)−1 = B −1 ∗ A−1 . Beweis (1) Mit Hilfe von Eigenschaft (4) aus Lemma 4.6 folgt (A−1 )T ∗ A T = (A ∗ A−1 )T = InT = In = A−1 ∗ A = (A−1 ∗ A)T = A T ∗ (A−1 )T , also ist (A−1 )T die Inverse von A T . (2) Dies wurde bereits in Lemma 3.11 für allgemeine Ringe mit Eins gezeigt. Es gilt also insbesondere für den Ring (R n,n , +, ∗). 2 Als Nächstes zeigen wir die Gruppeneigenschaft der invertierbaren Matrizen bezüglich der Multiplikation. Satz 4.12 Die Menge der invertierbaren Matrizen A ∈ R n,n bildet zusammen mit der Matrizenmultiplikation eine (nicht-kommutative) Gruppe. Beweis Die Abgeschlossenheit der Menge der invertierbaren Matrizen A ∈ R n,n bezüglich der Multiplikation wurde bereits in (2) in Lemma 4.11 gezeigt, die Assoziativität der Multiplikation in Lemma 4.3. Das neutrale Element dieser Menge ist In . Per Definition ist jedes Element der Menge invertierbar und es gilt (A−1 )−1 = A, also ist auch A−1 in der Menge. 2
42
4 Matrizen
Die Gruppe der invertierbaren Matrizen A ∈ R n,n bezeichnen wir mit G L n (R) („GL“ steht für „general linear group“). Definition 4.13 Sei A = [ai j ] ∈ R n,n . (1) A heißt obere Dreiecksmatrix, falls ai j = 0 für alle i > j gilt. A heißt untere Dreiecksmatrix, falls ai j = 0 für alle j > i gilt (d. h. A T ist eine obere Dreiecksmatrix). (2) A heißt Diagonalmatrix, falls A eine obere und untere Dreiecksmatrix ist. Wir schreiben dann auch zur Vereinfachung A = diag(a11 , . . . , ann ). Wir wollen diese speziellen Mengen von Matrizen auf ihre Gruppeneigenschaften hin untersuchen. Wir beginnen mit den invertierbaren oberen und unteren Dreiecksmatrizen. Satz 4.14 Die Menge der invertierbaren oberen Dreiecksmatrizen A ∈ R n,n bzw. der invertierbaren unteren Dreiecksmatrizen A ∈ R n,n bildet jeweils mit der Matrizenmultiplikation eine (nicht-kommutative) Untergruppe von G L n (R). Beweis Wir zeigen die Aussage nur für invertierbare obere Dreiecksmatrizen. Der Beweis für invertierbare untere Dreiecksmatrizen ist analog. Um zu zeigen, dass die invertierbaren oberen Dreiecksmatrizen mit der Matrizenmultiplikation eine Untergruppe von G L n (R) bilden, weisen wir die drei Eigenschaften aus Satz 3.5 nach. Da In eine invertierbare obere Dreiecksmatrix ist, ist die Menge der invertierbaren oberen Dreiecksmatrizen eine nichtleere Teilmenge von G L n (R). Nun zeigen wir, dass für zwei invertierbare obere Dreiecksmatrizen A, B ∈ R n,n das Produkt C = A ∗ B eine invertierbare obere Dreiecksmatrix ist. Die Invertierbarkeit von C = [ci j ] folgt aus (2) in Lemma 4.11. Für i > j gilt ci j =
n
aik bk j
(hier ist bk j = 0 für k > j)
aik bk j
(hier ist aik = 0 für k = 1, . . . , j, da i > j ist)
k=1
=
j k=1
= 0. Somit ist C eine obere Dreiecksmatrix. Nun ist noch zu zeigen, dass für eine gegebene invertierbare obere Dreiecksmatrix A die Inverse A−1 ebenfalls eine obere Dreiecksmatrix ist. Für n = 1 ist diese Aussage trivial, daher nehmen wir n ≥ 2 an. Wir schreiben A−1 = [ci j ], dann lässt sich die Gleichung A ∗ A−1 = In in Form eines Systems von n Gleichungen schreiben als ⎡ a11 ⎢ ⎢ 0 ⎢ ⎢ .. ⎣ . 0
⎡ ⎤ ⎤ ⎡ ⎤ · · · · · · a1n c1 j δ1 j ⎢ .. ⎥ .. ⎥ ⎢ .. ⎥ .. ⎢ ⎥ ⎢ ⎥ . . ⎥ ⎥ ∗ ⎢ . ⎥ = ⎢ . ⎥, ⎢ ⎢ . ⎥ ⎥ ⎥ . . .. .. ⎣ .. ⎦ . . .. ⎦ ⎣ .. ⎦ · · · 0 ann cn j δn j
j = 1, . . . , n.
(4.3)
4.2
Matrizengruppen und -ringe
43
Hier ist δi j die in (4.1) definierte Kronecker-Delta-Funktion. Zu zeigen ist, dass ci j = 0 für i > j gilt. Wir behaupten (und zeigen induktiv) sogar: Die Diagonaleinträge aii von A sind invertierbar und für i = n, n − 1, . . . , 1 gilt ⎛ ci j = aii−1 ⎝δi j −
n
⎞ ai cj ⎠,
j = 1, . . . , n,
(4.4)
=i+1
woraus insbesondere ci j = 0 für i > j folgt. (Man beachte, dass in (4.4) für i = n die leere Summe n=n+1 ai cj = 0 auftritt.) Für i = n ist die letzte Zeile in (4.3) gegeben durch ann cn j = δn j ,
j = 1, . . . , n.
Insbesondere gilt für j = n, dass ann cnn = 1 = cnn ann ist, wobei wir in der zweiten Gleichung die Kommutativität der Multiplikation in R ausgenutzt haben. Somit ist ann in−1 . Es folgt vertierbar und es gilt cnn = ann −1 δn j , cn j = ann
j = 1, . . . , n.
Dies ist äquivalent mit (4.4) für i = n. Insbesondere gilt cn j = 0 für j = 1, 2, . . . , n − 1. Nun nehmen wir an, dass unsere Behauptung für i = n, . . . , k + 1 gilt, wobei 1 ≤ k ≤ n − 1. Insbesondere gilt also ci j = 0, falls k + 1 ≤ i ≤ n und i > j. Mit anderen Worten: Die Zeilen i = n, . . . , k + 1 von A−1 sind in „oberer Dreiecksform“. Um die Behauptung für i = k zu beweisen, betrachten wir die k-te Zeile in (4.3), akk ck j + ak,k+1 ck+1, j + . . . + akn cn j = δk j ,
j = 1, . . . , n.
(4.5)
Für j = k (< n) ergibt sich akk ckk + ak,k+1 ck+1,k + . . . + akn cnk = 1. Aufgrund der Induktionsannahme gilt ck+1,k = · · · = cn,k = 0, woraus akk ckk = 1 = ckk akk folgt. Hier haben wir erneut die Kommutativität der Multiplikation in R ausgenutzt. Somit ist −1 . Aus (4.5) folgt dann akk invertierbar mit ckk = akk
−1 ck j = akk δk j − ak,k+1 ck+1, j − . . . − akn cn j ,
j = 1, . . . , n,
also gilt (4.4) für i = k. Ist nun k > j, so sind δk j = 0 und ck+1, j = · · · = cnk = 0, also 2 folgt ck j = 0. In diesem Beweis haben wir in (4.4) eine rekursive Formel für die Einträge ci j der Inversen A−1 = [ci j ] einer invertierbaren oberen Dreiecksmatrix A = [ai j ] ∈ R n,n hergeleitet. Wir können somit die Einträge der Inversen explizit „von unten nach oben“ und „von rechts nach links“ berechnen. Dieser Prozess wird auch Rückwärts-Einsetzen genannt.
44
4 Matrizen
Die Regeln für die Invertierung von oberen (unteren) Dreiecksmatrizen kann man auf invertierbare Block-Dreiecksmatrizen übertragen. Dazu wähle man ein k, 1 ≤ k ≤ n − 1, und „partitioniere“ A ∈ R n,n in die Form A=
A11 A12 , A21 A22
mit A11 ∈ R k,k und A22 ∈ R n−k,n−k .
Sind A, B ∈ R n,n zwei so partitionierte Matrizen, dann kann deren Produkt A ∗ B „blockweise“ ausgewertet werden, d. h.
B11 B12 A11 B11 + A12 B21 A11 B12 + A12 B22 A11 A12 ∗ = . A21 A22 B21 B22 A21 B11 + A22 B21 A21 B12 + A22 B22
Ist nun A=
A11 A12 0 A22
eine block-obere Dreiecksmatrix und sind A11 und A22 invertierbar, dann ist A invertierbar und man zeigt leicht durch Nachrechnen, dass A
−1
=
−1 −1 A−1 11 −A11 A12 A22
0
A−1 22
! (4.6)
gilt.
Die MATLAB-Minute Erstellen Sie Block-Matrizen in MATLAB durch Ausführen der folgenden Kommandos: k=5; A11=gallery(’tridiag’,-ones(k-1,1),2*ones(k,1),-ones(k-1,1)); A12=zeros(k,2); A12(1,1)=1; A12(2,2)=1; A22=-eye(2); A=full([A11 A12; A12’ A22]) B=full([A11 A12; zeros(2,n) -A22]) Sehen Sie sich die Bedeutung des Kommandos full an. Berechnen Sie die Produkte A*B und B*A sowie die Inversen inv(A) und inv(B). Berechnen Sie die Inverse von B in MATLAB mit Hilfe der Formel (4.6). Korollar 4.15 Die Menge der invertierbaren Diagonalmatrizen aus R n,n mit der Matrizenmultiplikation ist eine kommutative Untergruppe der invertierbaren oberen (oder unteren) Dreiecksmatrizen aus R n,n . Beweis Die invertierbaren Diagonalmatrizen aus R n,n bilden eine nichtleere Teilmenge der invertierbaren oberen (oder unteren) Dreiecksmatrizen aus R n,n ; inbesondere ist In eine in-
4.2
Matrizengruppen und -ringe
45
vertierbare Diagonalmatrix. Sind A = [ai j ] ∈ R n,n und B = [bi j ] ∈ R n,n zwei invertierbare Diagonalmatrizen, so ist A ∗ B invertierbar und wegen der Kommutativität in R gilt A ∗ B = diag(a11 b11 , . . . , ann bnn ) = diag(b11 a11 , . . . , bnn ann ) = B ∗ A. Dies zeigt Abgeschlossenheit und Kommutativität der Multiplikation in der Menge der invertierbaren Diagonalmatrizen. Zudem wissen wir aus Satz 4.14, dass die Inverse einer invertierbaren oberen (unteren) Dreiecksmatrix eine obere (untere) Dreiecksmatrix ist. Ist also A ∈ R n,n eine invertierbare Diagonalmatrix, so ist A obere und untere Dreiecksmatrix, also ist auch A−1 eine Diagonalmatrix. 2 Definition 4.16 Eine Matrix P ∈ R n,n heißt Permutationsmatrix, falls in jeder Zeile und in jeder Spalte von P genau ein Eintrag 1 ist und alle anderen Einträge 0 sind. Der Begriff „Permutation“ bedeutet „Vertauschung“. Multipliziert man eine Matrix M ∈ R n,n mit einer Permutationsmatrix von links bzw. von rechts, so werden die Zeilen bzw. die Spalten von M vertauscht. Zum Beispiel gelten für ⎡
0 P = ⎣0 1
⎤ 1 0⎦, 0
0 1 0
⎡
1 M = ⎣4 7
2 5 8
⎤ 3 6⎦ ∈ Z3,3 9
die Gleichungen ⎡
7 ⎣ P∗M= 4 1
8 5 2
⎤ 9 6⎦ 3
⎡
und
3 ⎣ M∗P= 6 9
2 5 8
⎤ 1 4⎦. 7
Wir werden die Vertauschungseigenschaften von Permutationsmatrizen in späteren Kapiteln genauer untersuchen. Satz 4.17 Die Menge der Permutationsmatrizen P ∈ R n,n mit der Matrizenmultiplikation ist eine (nicht-kommutative) Untergruppe von G L n (R). Ist P ∈ R n,n eine Permutationsmatrix, so ist A invertierbar und es gilt P −1 = P T . Beweis Sei P = [ pi j ] ∈ R n,n eine Permutationsmatrix und sei P ∗ P T = C = [ci j ], dann gilt ci j =
n
pik p jk = δi j ,
k=1
also C = In . Genauso zeigt man P T ∗ P = In . Die Permutationsmatrizen bilden somit eine (nichtleere) Teilmenge von G L n (R) und die Inverse jeder Permutationsmatrix P ist die transponierte Matrix P T , die per Definition ebenfalls eine Permutationsmatrix ist. Zuletzt ist noch zu zeigen, dass das Produkt zweier Permutationsmatrizen P1 , P2 ∈ R n,n ebenfalls eine Permutationsmatrix ist. Dies sieht man sofort aus der Tatsache, dass es in jeder Zeile und
46
4 Matrizen
Spalte von P1 und P2 jeweils nur einen Eintrag gleich 1 gibt und alle anderen Einträge gleich 0 sind. 2 Zur Vereinfachung der Schreibweise werden wir ab sofort das Multiplikationszeichen bei der Matrizenmultiplikation (bis auf wenige Ausnahmen) weglassen, d. h. wir schreiben AB anstatt A ∗ B.
Aufgaben (In den folgenden Aufgaben ist R stets ein beliebiger kommutativer Ring mit Eins.) 4.1 Seien die folgenden Matrizen über Z gegeben: A=
4.2
1 −2 −2 3
4 , −5
⎡
⎤ 2 4 6⎦ , B = ⎣3 1 −2
C=
−1 1
0 . 1
Berechnen Sie (falls möglich) die Matrizen C A, BC, B T A, A T C, (−A)T C, B T A T , AC und C B. Gegeben seien die Matrizen & ' A = ai j ∈ R m,n ,
⎡ ⎤ x1 ⎢ .. ⎥ x = ⎣ . ⎦ ∈ R n,1 ,
& ' y = y1 y2 . . . ym ∈ R 1,m .
xn
4.3 4.4 4.5 4.6 4.7
Welche der folgenden Ausdrücke sind für m = n bzw. m = n definiert? (a) y Ax, (b) y T Ax, (c) x T Ay T , (d) x T Ay, (e) (Ax)T y, T T T T T (h) Ax y , (i) yx A , (j) A T y T x T , (f) x (y A) , (g) Ax y, T T (k) y x A, (l) x y, (m) yx. Beweisen Sie Lemma 4.3 (2)–(4). Beweisen Sie Lemma 4.4. Beweisen⎡Sie Lemma⎤4.6 (1)–(3). 0 1 1 Sei A = ⎣0 0 1⎦ ∈ Z3,3 . Bestimmen Sie An für alle n ∈ N ∪ {0}. 0 0 0 Sei p = αn t n +. . .+α1 t +α0 t 0 ∈ R[t] ein Polynom (vgl. Beispiel 3.17) und M ∈ R m,m . Dann ist p(M) ∈ R m,m durch p(M) := αn M n + . . . + α1 M + α0 Im
4.8
definiert. (Formal wird t k durch M k ersetzt, k = 0, 1, . . . , n.) 1 0 2,2 Berechnen Sie p(M) für M = ∈ Z und p = t 2 − 2t + 1 ∈ Z[t]. 3 1 Sei K ein Körper mit 1 + 1 = 0. Zeigen Sie, dass sich jede Matrix A ∈ K n,n als A = M + S mit einer symmetrischen Matrix M ∈ K n,n (d. h. M T = M) und einer schiefsymmetrischen Matrix S ∈ K n,n (d. h. S T = −S) schreiben lässt.
Aufgaben
47
Gilt dies auch im Fall eines Körpers mit 1 + 1 = 0? Geben Sie einen Beweis oder ein Gegenbeispiel an. 4.9 Beweisen Sie den Binomischen Lehrsatz für kommutierende Matrizen: Sind k k j k− j A B , A, B ∈ R n,n mit AB = B A, so gilt (A + B)k = j=0 j k! wobei kj := j! (k− j)! ist. n,n eine Matrix, für die In − A invertierbar ist. Zeigen Sie, dass für jedes 4.10 Sei A ∈ R m ∈ N die Gleichung (In − A)−1 (In − Am+1 ) = mj=0 A j gilt. 4.11 Sei (R, +, ·) ein Ring. Eine Teilmenge S ⊆ R heißt Unterring von R, wenn (S, +, ·) ein Ring ist. Wie bei Körpern zeigt man, dass S = Ø genau dann ein Unterring von R ist, wenn S die folgenden drei Eigenschaften erfüllt: (a) 0 R ∈ S, (b) für alle r, s ∈ S sind r + s ∈ S und r · s ∈ S, (c) für jedes r ∈ S ist −r ∈ S. Sei nun (R, +, ·) ein kommutativer Ring mit Eins und sei ) (& ' * An,n := ai, j ∈ R n,n ) an, j = 0 für j = 1, 2, . . . , n . (a) Zeigen Sie, dass An,n ein Unterring von R n,n ist. (b) Zeigen Sie, dass AM ∈ An,n für alle M ∈ R n,n und A ∈ An,n gilt. (Ein Unterring mit dieser Eigenschaft heißt Rechtsideal von R n,n .) (c) Finden Sie einen zu An,n analogen Unterring B n,n von R n,n , so dass M · B ∈ B n,n für alle M ∈ R n,n und B ∈ B n,n gilt. Beweisen Sie ihre Aussage. (Ein Unterring mit dieser Eigenschaft heißt Linksideal von R n,n .) 4.12 Seien A11 ∈ R n 1 ,n 1 , A12 ∈ R n 1 ,n 2 , A21 ∈ R n 2 ,n 1 , A22 ∈ R n 2 ,n 2 und A11 A12 A= ∈ R n 1 +n 2 ,n 1 +n 2 . A21 A22 (a) Sei A11 ∈ G L n 1 (R). Zeigen Sie, dass A genau dann invertierbar ist, wenn A22 − −1 an. A21 A−1 11 A12 invertierbar ist und geben Sie in diesem Fall eine Formel für A (b) Sei A22 ∈ G L n 2 (R). Zeigen Sie, dass A genau dann invertierbar ist, wenn A11 − −1 an. A12 A−1 22 A21 invertierbar ist und geben Sie in diesem Fall eine Formel für A 4.13 Seien A ∈ G L n (R), U ∈ R n,m und V ∈ R m,n . Zeigen Sie folgende Aussagen: (a) A + U V ∈ G L n (R) gilt genau dann, wenn Im + V A−1 U ∈ G L m (R) ist. (b) Ist Im + V A−1 U ∈ G L m (R), so gilt (A + U V )−1 = A−1 − A−1 U (Im + V A−1 U )−1 V A−1 . Die letzte Gleichung wird auch als die Sherman-Morrison-Woodbury Formel bezeichnet (nach Jack Sherman, Winifred J. Morrison und Max A. Woodbury).
48
4 Matrizen
4.14 Zeigen Sie, dass die Menge der oberen Block-Dreiecksmatrizen mit invertierbaren (2 × 2)-Diagonalblöcken, d. h. die Menge der Matrizen ⎡
A11 ⎢ 0 ⎢ ⎢ .. ⎣ . 0
A12 A22 .. .
··· ··· .. .
···
A1m A2m .. .
0
Amm
⎤ ⎥ ⎥ ⎥, ⎦
Aii ∈ G L 2 (R),
i = 1, . . . , m,
mit der Matrizenmultiplikation eine Gruppe bildet. 4.15 Zeigen Sie, dass die folgende Relation auf der Menge R n,n eine Äquivalenzrelation ist: A∼B
⇔
Es gibt eine Permutationsmatrix P mit A = P T B P.
4.16 In einem Betrieb werden aus vier Rohstoffen R1 , R2 , R3 , R4 fünf Zwischenprodukte Z 1 , Z 2 , Z 3 , Z 4 , Z 5 hergestellt, aus denen drei Endprodukte E 1 , E 2 , E 3 gefertigt werden. In den folgenden Tabellen ist angegeben, wie viele Einheiten der Ri bzw. Z j zur Produktion einer Einheit von Z k bzw. E benötigt werden:
R1 R2 R3 R4
Z1 0 5 1 0
Z2 1 0 1 2
Z3 1 1 1 0
Z4 1 2 1 1
Z5 2 1 0 0
Z1 Z2 Z3 Z4 Z5
E1 1 1 0 4 3
E2 1 2 1 1 1
E3 1 0 1 1 1
(Zum Beispiel benötigt man 5 Einheiten von R2 zur Herstellung einer Einheit von Z 1 .) (a) Bestimmen Sie mit Hilfe der Matrizenrechnung eine entsprechende Tabelle, aus der entnommen werden kann, wie viele Einheiten des Rohstoffs Ri zur Produktion einer Einheit des Endprodukts E benötigt werden. (b) Ermitteln Sie nun, wie viele Einheiten der vier Rohstoffe bereitzustellen sind, wenn 100 Einheiten von E 1 , 200 Einheiten von E 2 und 300 Einheiten von E 3 hergestellt werden sollen.
Kapitel 5
Die Treppennormalform und der Rang von Matrizen
In vielen Anwendungen interessiert man sich dafür, ob eine (quadratische) Matrix A invertierbar ist und man möchte gegebenenfalls die Inverse A−1 berechnen oder, wie wir in Kap. 6 sehen werden, lineare Gleichungssysteme mit der Koeffizientenmatrix A lösen. In diesem Kapitel werden wir ein systematisches Verfahren entwickeln, das für eine invertierbare Matrix A, die über einem Körper definiert ist, die Inverse A−1 als ein Produkt von sogenannten Elementarmatrizen liefert. Multipliziert man diese Elementarmatrizen von links an die Matrix A, so erhält man daher die Einheitsmatrix. Angewandt auf eine nicht-invertierbare Matrix A führt das gleiche Verfahren zwar nicht auf die Einheitsmatrix, jedoch ergibt sich eine Matrix, die in einem gewissen Sinn „möglichst nahe“ an der Einheitsmatrix ist. Dies wird den Begriff des Rangs von Matrizen motivieren, der in der Linearen Algebra von großer Bedeutung ist und in späteren Kapiteln noch häufig auftreten wird.
5.1 Elementarmatrizen Sei R ein kommutativer Ring mit Eins, sei In ∈ R n,n die Einheitsmatrix und sei ei die i-te Spalte von In , d. h. In = [e1 , . . . , en ]. Für i, j ∈ N mit 1 ≤ i, j ≤ n definieren wir die Matrix E i j := [0, . . . , 0,
ei , 0, . . . , 0] ∈ R n,n , Spalte j
d. h. der Eintrag (i, j) der Matrix Ei j ist 1, alle anderen Einträge sind 0. In den folgenden drei Definitionen von Elementarmatrizen seien i und j stets gegebene natürliche Zahlen zwischen 1 und n. Ist n ≥ 2 und i < j, so definieren wir die Matrix Pi j := [e1 , . . . , ei−1 , e j , ei+1 , . . . , e j−1 , ei , e j+1 , . . . , en ] ∈ R n,n .
(5.1)
Die i-te Spalte von Pi j ist also e j und die j-te Spalte ist ei . Man überzeugt sich leicht, dass Pi j eine Permutationsmatrix ist (vgl. Definition 4.13). Multipliziert man eine Matrix A ∈ R n,m von links mit einer solchen Matrix Pi j , so werden die Zeilen i und j von A vertauscht (permutiert). Zum Beispiel: J. Liesen, V. Mehrmann, Lineare Algebra, DOI 10.1007/978-3-8348-8290-5_5, C Vieweg+Teubner Verlag | Springer Fachmedien Wiesbaden GmbH 2011
49
50
5 Die Treppennormalform und der Rang von Matrizen
⎡
1 A = ⎣4 7 ⎡ 7 P13 A = ⎣4 1
2 5 8 8 5 2
⎤ 3 6⎦ , 9 ⎤ 9 6⎦ . 3
⎡
P13
0 = [e3 , e2 , e1 ] = ⎣0 1
⎤ 1 0⎦ , 0
0 1 0
Für λ ∈ R definieren wir die Matrix Mi (λ) := [e1 , . . . , ei−1 , λei , ei+1 , . . . , en ] ∈ R n,n .
(5.2)
Die i-te Spalte von Mi (λ) ist also λei . Offensichtlich ist Mi (λ) eine Diagonalmatrix mit i-tem Diagonalelement λ und allen anderen Diagonalelementen 1. Multipliziert man eine Matrix A ∈ R n,m von links mit einer solchen Matrix Mi (λ), so wird die Zeile i von A mit λ multipliziert. Zum Beispiel: ⎡
1 A = ⎣4 7 ⎡
2 5 8
⎤ 3 6⎦ , 9
⎡
1 M2 (−1) = [e1 , −e2 , e3 ] = ⎣0 0 ⎤ 1 2 3 M2 (−1)A = ⎣−4 −5 −6⎦ . 7 8 9
⎤ 0 0 −1 0⎦ , 0 1
Ist n ≥ 2, i < j und λ ∈ R, so definieren wir die Matrix G i j (λ) := In + λ · E ji = [e1 , . . . , ei−1 , ei + λe j , ei+1 , . . . , en ] ∈ R n,n .
(5.3)
Die i-te Spalte von G i j (λ) ist also ei + λe j . Multipliziert man eine Matrix A ∈ R n,m von links mit einer solchen unteren Dreiecksmatrix G i j (λ), so wird das λ-fache der i-ten Zeile von A zur j-ten Zeile A addiert. Die Multiplikation von links mit der oberen Dreiecksmatrix G i j (λ)T bewirkt, dass das λ-fache der j-ten Zeile von A zur i-ten Zeile von A addiert wird. Zum Beispiel: ⎡
⎤ 1 2 3 A = ⎣4 5 6⎦ , 7 8 9 ⎡ ⎤ 1 2 3 G 23 (−1)A = ⎣4 5 6⎦ , 3 3 3
⎡
⎤ 1 0 0 1 0⎦ , G 23 (−1) = [e1 , e2 − e3 , e3 ] = ⎣0 0 −1 1 ⎡ ⎤ 1 2 3 G 23 (−1)T A = ⎣−3 −3 −3⎦ . 7 8 9
Lemma 5.1 Die in (5.1), (5.2) und (5.3) definierten Elementarmatrizen Pi j , Mi (λ) für invertierbares λ ∈ R und G i j (λ) sind invertierbar und es gelten: T (1) Pi−1 j = Pi j = Pi j .
5.2
Die Treppennormalform und der Gauß’sche Algorithmus
51
(2) Mi (λ)−1 = Mi (λ−1 ). (3) G i j (λ)−1 = G i j (−λ). Beweis = PiTj wurde bereits in Satz 4.17 gezeigt; die (1) Die Invertierbarkeit von Pi j mit Pi−1 j Symmetrie von Pi j ist offensichtlich. (2) Dies folgt sofort aus Korollar 4.15. (3) Es gilt G i j (λ)G i j (−λ) = (In + λ · E ji )(In + (−λ) · E ji ) = In + λ · E ji + (−λ) · E ji + (−λ2 ) · E 2ji = In = G i j (λ)G i j (−λ). Hier haben wir E 2ji = 0 für i < j ausgenutzt.
2
5.2 Die Treppennormalform und der Gauß’sche Algorithmus Wir wollen nun die Elementarmatrizen verwenden, um die Invertierbarkeit von Matrizen zu untersuchen. Der konstruktive Beweis des folgenden Satzes beruht auf dem Gauß’schen Algorithmus,1 welcher zu jeder Matrix A ∈ K n,m eine Matrix B ∈ GLn (K ) konstruiert, so dass B A = C eine (eindeutig bestimmte) quasi-obere Dreiecksgestalt hat, die wir die Treppennormalform von A nennen. Die Matrix A ist genau dann invertierbar, wenn C = In und B = A−1 sind. Die Treppennormalform erreichen wir durch Linksmultiplikation von A mit Elementarmatrizen Pi j , Mi j (λ) und G i j (λ). Jede dieser Linksmultiplikationen entspricht der Anwendung einer der sogenannten „elementaren Zeilenoperationen“ auf die Matrix A: • Pi j : Vertauschen zweier Zeilen von A. • Mi (λ): Multiplizieren einer Zeile von A mit einem invertierbaren Skalar. • G i j (λ): Addition eines Vielfachen einer Zeile von A zu einer anderen Zeile von A. Wir nehmen an, dass A eine Matrix über einem Körper K ist (und nicht über einem Ring R), denn im folgenden Beweis benötigen wir ständig, dass von Null verschiedene Einträge von A invertierbar sind. Diese Tatsache ist im Allgemeinen für Matrizen über einem Ring nicht gegeben. Es gibt eine Verallgemeinerung der Treppennormalform auf Matrizen, die über gewissen Ringen (z. B. den ganzen Zahlen Z) definiert sind. Diese sogenannte HermiteNormalform2 spielt in der Zahlentheorie eine wichtige Rolle.
1 Nach dem deutschen Mathematiker und Astronom Carl Friedrich Gauß (1777–1855) benannt. Ein ähnliches Verfahren wurde bereits in den „Neun Büchern arithmetischer Technik“ beschrieben, die seit ca. 200 vor Chr. in China zur Ausbildung von Verwaltungsbeamten eingesetzt wurden. Der älteste erhaltene Text stammt von Liu Hui (220–280 nach Chr.). Seine Entstehung wird auf ca. 260 nach Chr. geschätzt. 2
Charles Hermite (1822–1901), französischer Mathematiker.
52
5 Die Treppennormalform und der Rang von Matrizen
Satz 5.2 Sei K ein Körper und sei A ∈ K n,m . Dann gibt es (invertierbare) Matrizen S1 , . . . , St ∈ K n,n (dies sind Produkte von Elementarmatrizen), so dass C := St · · · S1 A in Treppennormalform ist, d. h., C hat die Form ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ C = ⎢ ⎢ ⎢ ⎢ ⎢ ⎣
0
1
1
0
0 1
0
0
0
⎤
0 .. . .. 0
. 0 1 0
⎥ ⎥ ⎥
⎥ ⎥ ⎥. ⎥ ⎥ ⎥ ⎥ ⎦
Hier steht jeweils für beliebige Einträge (gleich oder ungleich Null) in der Matrix C. Präziser: C = [ci j ] ist entweder die Nullmatrix oder es gibt eine Folge von natürlichen Zahlen j1 , . . . , jr (die „Stufen“ der Treppennormalform), wobei 1 ≤ j1 < · · · < jr ≤ m und 1 ≤ r ≤ min{n, m}, so dass (1) ci j = 0 für 1 ≤ i ≤ r und 1 ≤ j < ji , (2) ci j = 0 für r < i ≤ n und 1 ≤ j ≤ m, (3) ci, ji = 1 für 1 ≤ i ≤ r und alle anderen Einträge in Spalte ji sind Null. Ist n = m, so ist A ∈ K n,n genau dann invertierbar, wenn C = In gilt. In diesem Fall ist dann A−1 = St · · · S1 . Beweis Ist A = 0, so setzen wir t = 1, S1 = In und sind fertig. Sei also A = 0 und sei j1 der Index der ersten Spalte von , + (1) A(1) = ai j := A, das erste Element in dieser Spalte, welches nicht die nicht aus lauter Nullen besteht. Sei ai(1) 1 , j1 (1) Null ist, d. h. A hat die Form ⎡
A(1)
⎢ ⎢ ⎢ ⎢ ⎢ = ⎢ ⎢ ⎢ ⎢ ⎢ ⎣
0
) ) ) 0 ) ) . ) ) . ) ) . ) ) ) ) 0 ) ) (1) ) ) )a ) i 1 , j1 ) ) ) ) ) ) . ) ) .. ) ) ) ) ) j1
⎤
⎥ ⎥ ⎥ ⎥ ⎥ ⎥. ⎥ ⎥ ⎥ ⎥ ⎦
Wir gehen nun wie folgt vor: Zunächst vertauschen (permutieren) wir die Zeilen i 1 und 1 (falls i 1 > 1). Dann normieren wir die neue erste Zeile, d. h. wir multiplizieren sie mit
5.2
Die Treppennormalform und der Gauß’sche Algorithmus
53
(1) −1 ai1 , j1 . Schließlich eliminieren wir unterhalb des ersten Eintrags in der Spalte j1 . Vertauschen und Normieren führt auf ⎡ ⎢ , −1 + ⎢ (1) ⎢ 0 A˜ (1) = a˜ i,(1)j := M1 ai(1) P A = 1,i 1 ⎢ 1 , j1 ⎣
) ) ) 1 ) ) (1) ) ) ) a˜ ) 2, j1 ) ) . ) ) . ) ) . ) ) (1) ) ) a˜ n, j ) 1 j1
⎤ ⎥ ⎥ ⎥. ⎥ ⎦
Nun haben wir noch unterhalb der 1 in der Spalte j1 zu eliminieren. Dies geschieht durch Linksmultiplikation von A˜ (1) mit den Matrizen (1) (1) G 1,n −a˜ n, ˜ 2, j1 . j1 , . . . , G 1,2 −a Damit gilt ⎡
0
⎢ ⎢ S1 A(1) = ⎢ ⎣ 0
1 0 .. .
A(2)
⎤ ⎥ ⎥ ⎥, ⎦
0 j1 mit (1) (1) (1) −1 S1 := G 1,n −a˜ n, a P1,i1 · · · G − a ˜ M 1,2 1 j1 i 1 , j1 2, j1 + , (2) und A(2) = ai j mit i = 2, . . . , n, j = j1 + 1, . . . , m, d. h. wir behalten die Indizes aus der „großen“ Matrix A(1) in der „kleineren“ Matrix A(2) bei. Ist A(2) = [ ] oder A(2) = 0, so sind wir fertig, denn C := S1 A(1) ist in Treppennormalform. In diesem Fall ist r = 1. Ist mindestens ein Eintrag der Matrix A(2) ungleich Null, so führen wir die oben beschriebenen Schritte für die Matrix A(2) aus. Für k = 2, 3, . . . seien die Matrizen Sk rekursiv definiert durch
Sk =
Ik−1 0
0 Sk
⎡
! ,
0
⎢ ⎢ mit Sk A(k) = ⎢ ⎣ 0
1 0 .. . 0 jk
A(k+1)
⎤ ⎥ ⎥ ⎥. ⎦
54
5 Die Treppennormalform und der Rang von Matrizen
Die Matrix Sk konstruieren wir analog zu S1 : Zunächst identifizieren wir die erste Spalte jk von A(k) , die nicht aus lauter Nullen besteht sowie den ersten Eintrag ai(k) dieser Spalte, der k , jk ungleich Null ist. Dann liefert Vertauschen und Normieren die Matrix + , (k) (k) −1 (k) A = Pk,ik A(k) ai j := Mk ai k , jk und es folgt (k) (k) (k) −1 Sk = G k,n − Pk,ik . an, jk · · · G k,k+1 − ak+1, jk Mk ai k , jk Hier müssen wir beachten, dass die Elementarmatrizen aus denen Sk gebildet wird natürlich nicht n ×n Matrizen sind, sondern die gleiche Größe wie A(k) haben. Man sieht jedoch sofort, dass Sk wieder ein Produkt von Elementarmatrizen ist, die alle die Form Ik−1
0
0
T
!
haben, wobei T eine Elementarmatrix der kleineren Größe ist. Wenn wir dieses Verfahren induktiv fortsetzen, so bricht es nach r ≤ min{n, m} Schritten ab, wenn entweder A(r +1) = 0 oder A(r +1) = [ ] gilt. Nach r Schritten haben wir Sr · · · S1 A(1) = ⎡ 1
⎢ 1 ⎢ ⎢ ⎢ ⎢ ⎢ 0 ⎢ 0 ⎢ 0 ⎢ ⎢ ⎣
⎤
1
.. . ..
0
.
1 0
⎥ ⎥ ⎥
⎥ ⎥ ⎥. ⎥ ⎥ ⎥ ⎥ ⎦
(5.4)
Nach Konstruktion stehen die Einsen in (5.4) in den Positionen (1, j1 ), (2, j2 ), . . . , (r, jr ).
(5.5)
Ist r = 1, so ist die Matrix S1 A(1) in Treppennormalform (siehe oben). Ist r > 1, so müssen wir noch die Einträge ungleich Null über den Einsen in den j2 , . . . , jr , + Spalten (1) (1) eliminieren. Dazu bezeichnen wir die Matrix in (5.4) mit R = ri j und bilden für k = 2, . . . , r rekursiv + , (k) := Sr +k−1 R (k−1) , R (k) = ri j
5.2
Die Treppennormalform und der Gauß’sche Algorithmus
55
wobei
Sr +k−1 :=
T T (k−1) (k−1) G 1,k −r1, jk · · · G k−1,k −rk−1, jk .
Für t := 2r − 1 ist dann die Matrix C := St St−1 · · · S1 A in Treppennormalform. Sei nun n = m und C := St St−1 · · · S1 A in Treppennormalform. Ist A invertierbar, so ist C das Produkt von invertierbaren Matrizen und daher ebenfalls invertierbar. Da eine invertierbare Matrix keine Null-Zeilen oder -Spalten haben kann, folgt C = In . Ist andererseits C = In , so gilt wegen der Invertierbarkeit der Elementarmatrizen, dass S1−1 · · · St−1 = A ist. Somit ist A als Produkt von invertierbaren Matrizen ebenfalls invertierbar, wobei A−1 = St · · · S1 gilt. 2 Die Treppennormalform wird in der Literatur auch als Echelon-Form oder (normierte) Zeilenstufenform bezeichnet. Beispiel 5.3 Transformation einer Matrix aus Q3,5 durch Linksmultiplikation mit Elementarmatrizen auf Treppennormalform: ⎡
0 ⎣ 0 0 j1 = 2, i 1 = 1 −→ M1 12
⎡
0 ⎣ 0 0 ⎡
−→ G 12 (−2)
0 ⎢ ⎣ 0 0 ⎡
−→ G 23 (1)
2 2 2
1 0 0
1 2 2
3 1 1
⎤ 3 1 ⎦ 1
1 2
3 2
0 0
1 1
3 ⎤ 2
⎡ −→ G 13 (−2)
1 ⎦ 1
1
1 2
3 2
0 0
−1 −1
−2 −2
⎤
3 2 ⎥
−2 ⎦ −2
1
1 2
3 2
0
1
2
⎥ ⎥ 2 ⎥ ⎦
0
0
0
0
0
⎡
0 ⎢ ⎣ 0 0 ⎡
⎤
0 ⎢ ⎢ ⎢ 0 ⎣
3 2
j2 = 3, i 2 = 2 −→ M2 (−1)
0 ⎣ 0 0
−→ T G 12 − 12
1 2 0
1 2
3 2
0 −1
1 −2
3 ⎤ 2
1 ⎦ −2 ⎤
1
1 2
3 2
0 0
1 −1
2 −2
3 2 ⎥
2 ⎦ −2 ⎤
0 ⎢ ⎢ ⎢ 0 ⎣
1
0
1 2
0
1
2
⎥ ⎥ 2 ⎥. ⎦
0
0
0
0
0
1 2
Die MATLAB-Minute Die Treppennormalform einer Matrix berechnet man in MATLAB mit dem Kommando rref („reduced row echolon form“). Wenden Sie rref auf [A eye(n)] an, um die Inverse der Matrix A=gallery(’tridiag’,-ones(n,1),2*ones(n+1,1),-ones (n,1)) für n=1,2,3,4,5 zu berechnen (vgl. Aufgabe 5.4). Stellen Sie eine Vermutung über die allgemeine Form von A−1 auf. (Können Sie diese Vermutung beweisen?)
Die Treppennormalform einer Matrix A ∈ K n,n führt auf die sogenannte LU -Zerlegung von A.
56
5 Die Treppennormalform und der Rang von Matrizen
Satz 5.4 Für jede Matrix A ∈ K n,n gibt es eine Permutationsmatrix P ∈ K n,n , eine untere Dreiecksmatrix L ∈ GLn (K ) mit 1-Diagonale und eine obere Dreiecksmatrix U ∈ K n,n , so dass A = PLU ist. Die Matrix U ist genau dann invertierbar, wenn A invertierbar ist. , wobei U eine obere DreiBeweis Ist A ∈ K n,n , so hat (5.4) die Form Sn · · · S1 A = U ecksmatrix ist. Ist r < n, so setzen wir Sn = Sn−1 = · · · = Sr +1 = In . Da die Matri genau dann invertierbar, wenn A invertierbar ist. Für zen S1 , . . . , Sn invertierbar sind, ist U i = 1, . . . , n hat jede Matrix Si die Form ⎡
⎤
1
⎢ ⎢ ⎢ ⎢ ⎢ Si = ⎢ ⎢ ⎢ ⎢ ⎢ ⎣
..
⎥ ⎥ ⎥ ⎥ ⎥ ⎥ Pi, j , i ⎥ ⎥ ⎥ ⎥ ⎦ 1
. 1 si,i si+1,i .. .
1
..
.
sn,i
wobei ji ≥ i für i = 1, . . . , n und Pi,i := In (ist ji = i, so war kein Zeilentausch vorzunehmen). Also folgt ⎡ ⎢ ⎢ ⎢ Sn · · · S1 = ⎢ ⎢ ⎣
1
⎤⎡ ..
1
⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎦⎣
. 1 1
⎤ ..
1 sn−1,n−1 sn,n−1
sn,n ⎡
1
⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣
1
⎤ ..
. 1 sn−2,n−2 sn−1,n−2 sn,n−2
⎡
⎤
1
⎢ ⎢ ⎢ ⎢ ⎢ ⎣
⎥ ⎥ ⎥ ⎥ Pn−1, jn−1 ⎥ ⎦
.
s22 s32 .. . sn,2
1
..
1 0 1
⎥ ⎥ ⎥ ⎥ ⎥ Pn−2, jn−2 · · · ⎥ ⎥ ⎦
s11 ⎥ ⎢ s21 ⎥ ⎢ ⎥ ⎢ ⎥ P2, j2 ⎢ s31 ⎥ ⎢ .. ⎦ ⎣ .
. 1
⎤
⎡
sn,1
⎥ ⎥ ⎥ ⎥ P1, j1 . ⎥ ⎦
1 1
..
. 1
Aus der Form der Permutationsmatrizen folgt für k = 2, . . . , n − 1 und = 1, . . . , k − 1 die Gleichung
5.2
Die Treppennormalform und der Gauß’sche Algorithmus
⎡
Pk, jk
⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣
⎡
⎤
1
..
⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎥ = ⎢ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦
. 1 s, s+1, .. .
1
sn,
..
.
57
⎤
1
..
⎥ ⎥ ⎥ ⎥ ⎥ ⎥ Pk, j , k ⎥ ⎥ ⎥ ⎥ ⎦
. 1 s, s+1, .. .
1
..
sn,
1
. 1
für gewisse s j, ∈ K , j = + 1, . . . , n. Somit gilt Sn · · · S1 = ⎡ 1 ⎢ .. ⎢ . ⎢ ⎢ 1 ⎢ ⎣ ⎡
1
⎢ ⎢ ⎢ ⎢ ⎢ ⎣
s22 s32 .. .
sn2
⎡ ⎤ 1 ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎦⎢ ⎣
sn−1,n−1 sn,n sn,n−1 sn,n ⎤⎡ s11 ⎥ ⎢ ⎥ ⎢ s21 1 ⎥ ⎢ 1 1 ⎥ ⎢ s31 ⎥ ⎢ .. .. ⎦⎣ . . 1
⎤ ..
⎥ ⎥ ⎥ ⎥ ⎥··· ⎥ ⎥ ⎦
. 1 sn−2,n−2 sn−1,n−2 sn,n−2 ⎤
..
sn,1
.
1 1
⎥ ⎥ ⎥ ⎥ Pn−1, jn−1 · · · P1, j1 . ⎥ ⎦ 1
Die invertierbaren unteren Dreiecksmatrizen und die Permutationsmatrizen bilden Gruppen wobei bezüglich der Multiplikation (vgl. Sätze 4.14 und 4.17). Somit gilt Sn · · · S1 = L P, L eine Permutationsmatrix sind. Da eine invertierbare untere Dreiecksmatrix und P L = [ i j ] invertierbar ist, ist auch die Matrix D = diag( l11 , . . . , lnn ) invertierbar und wir erhalten A = D −1 U , bzw. A = PLU mit P := P −1 , L := in der L −1 D und U := D −1U D −1 LP gewünschten Form. 2 Beispiel 5.5 Berechnung der LU -Zerlegung einer Matrix aus Q3,3 : ⎡
j1 = 2, i 1 = 1 −→ M1
1 2
⎤ 2 2 4 ⎣2 2 1⎦ 2 0 1 ⎡ ⎤ 1 1 2 ⎣2 2 1⎦ 2 0 1 ⎡
−→ G 12 (−2)
1 ⎣0 0
⎤ 1 2 0 −3⎦ −2 −3
−→ G 13 (−2)
⎡ 1 ⎣2 0
⎤ 1 2 2 1⎦ −2 −3
−→ P23
⎡ 1 ⎣0 0
⎤ 1 2 . −2 −3⎦ = U 0 −3
58
5 Die Treppennormalform und der Rang von Matrizen
= P23 , Damit haben wir P ⎡ 1 2 1 L = G 12 (−2)G 13 (−2)M1 = ⎣−2 2 −2
⎤ 0 0 1 0⎦ , 1 1
1 , 1, 1 , D = diag 2
T = P T = P23 , also P = P 23 ⎡
1 L= L −1 D = ⎣1 1
0 1 0
⎤ 0 0⎦ , 1
⎡
⎤ 2 2 4 = ⎣0 −2 −3⎦. U = D −1 U 0 0 −3
Ist A ∈ GLn (K ), so liefert die LU -Zerlegung A−1 = U −1 L −1 P T . Nach der Berechnung der LU -Zerlegung erhält man die Inverse von A somit im Wesentlichen durch die Invertierung von Dreiecksmatrizen. Da hierfür eine effiziente rekursive Formel bekannt ist (vgl. (4.4)), wird die LU -Zerlegung häufig in Anwendungen des wissenschaftlichen Rechnens benutzt. In diesem Zusammenhang verwendet man jedoch andere Strategien für die Auswahl der Permutationsmatrizen. Anstatt das erste von Null verschiedene Element für die Elimination zu verwenden, tauscht man das Element mit dem größten Absolutbetrag in diese Position. Durch diese Strategie wird der Einfluß von Rundungsfehlern reduziert.
Die MATLAB-Minute Die „Hilbert-Matrix“ A = [ai j ] ∈ Qn,n hat die Einträge ai j = 1/(i + j − 1) für i, j = 1, . . . , n. Sie wird in MATLAB mit dem Kommando hilb(n) generiert. Führen Sie das Kommando [L,U,P]=lu(hilb(4)) aus, um eine Zerlegung der Form hilb(5)=PLU zu berechnen. Wie sehen die Matrizen P, L und U aus? Berechnen Sie auch eine LU -Zerlegung der Matrix gallery(’tridiag’,-ones(3,1),2*ones(4,1),-ones(3,1)) und sehen Sie sich die entsprechenden Matrizen P, L und U an.
Wir wollen nun den Namen Treppennormalform rechtfertigen, indem wir zeigen, dass diese Form für jede Matrix A ∈ K n,m eindeutig bestimmt ist. Hierfür benötigen wir die folgende Definition. Definition 5.6 Ist C ∈ K n,m eine Matrix in Treppennormalform (wie in Satz 5.2), dann werden die „Stufenpositionen“ (1, j1 ), . . . , (r, jr ) als die Pivotpositionen von C bezeichnet. Zudem benötigen wir für den Beweis der Eindeutigkeit das folgende Resultat. Lemma 5.7 Ist Z ∈ GLn (K ) und x ∈ K n,1 , so gilt Z x = 0 genau dann, wenn x = 0 ist. Beweis Übungsaufgabe.
2
Satz 5.8 Seien A, B ∈ K n,m in Treppennormalform. Falls A = Z B für eine Matrix Z ∈ GLn (K ) gilt, dann folgt A = B.
5.2
Die Treppennormalform und der Gauß’sche Algorithmus
59
Beweis Ist B die Nullmatrix, so ist A = ZB = 0, also gilt A = B. Sei nun B = 0 und seien A, B in Treppennormalform mit den jeweiligen Spalten ai , bi , 1 ≤ i ≤ m, d. h. A = [a1 , . . . , am ] und B = [b1 , . . . , bm ]. Weiterhin seien (1, j1 ), . . . , (r, jr ) die r ≥ 1 Pivotpositionen von B. Wir zeigen, dass jede Matrix Z ∈ GLn (K ), für die A = ZB gilt, die Form Z=
Ir 0
Z n−r
hat, wobei Z n−r ∈ GLn−r (K ) ist. Da B in Treppennormalform ist und alle Einträge von B unterhalb von Zeile r gleich Null sind, folgt ZB = B und somit A = B. Da (1, j1 ) die erste Pivotposition von B ist, gilt bi = 0 ∈ K n,1 für 1 ≤ i ≤ j1 − 1 und b j1 = e1 (die erste Spalte der Einheitsmatrix In ). Aus A = Z B folgen ai = 0 ∈ K n,1 für 1 ≤ i ≤ j1 − 1 und a j1 = Z b j1 = Z e1 . Da Z invertierbar ist, gilt a j1 = 0 ∈ K n,1 (vgl. Lemma 5.7). Da A in Treppennormalform ist, folgt a j1 = e1 = b j1 . Weiterhin folgt Z = Z n :=
1 0
Z n−1
,
wobei Z n−1 ∈ GLn−1 (K ) ist. Im Fall r = 1 sind wir fertig. Ist r > 1, so gehen wir die weiteren Pivotpositionen analog durch. Da B in Treppennormalform ist, ergibt sich b jk = ek für die Pivotposition (k, jk ). Aus a jk = Z b jk und der Invertierbarkeit von Z n−k+1 folgt wie oben a jk = b jk und ⎡
Ik−1 Z = ⎣ 0 0 wobei Z n−k ∈ GLn−k (K ) ist.
0 1 0
⎤ ⎦,
Z n−k 2
Mit Hilfe dieses Satzes zeigen wir nun die Eindeutigkeit der Treppennormalform einer Matrix. Korollar 5.9 Für A ∈ K n,m gelten: (1) Es gibt genau eine Matrix C ∈ K n,m in Treppennormalform, in die sich A durch elementare Zeilenoperationen bzw. durch Linksmultiplikation mit Elementarmatrizen überführen lässt. Diese Matrix C nennen wir die Treppennormalform von A. (2) Ist M ∈ GLn (K ), so ist C auch die Treppennormalform von M A, d. h. die Treppennormalform ist invariant unter Linksmultiplikation mit invertierbaren Matrizen. Beweis (1) Sind S1 A = C1 und S2 A =C2 , wobei C 1 , C 2 in Treppennormalform und S1 , S2 inver−1 tierbar sind, dann gilt C 1 = S1 S2 C2 . Aus Satz 5.8 folgt nun C1 = C2 .
60
5 Die Treppennormalform und der Rang von Matrizen
(2) Ist M ∈ GL n (K ) und S3 (M A) = C3 in Treppennormalform, so folgt mit S1 A = C1 , dass C3 = S3 M S1−1 C1 ist. Satz 5.8 zeigt C3 = C1 . 2
5.3 Rang und Äquivalenz von Matrizen Wie wir in Korollar 5.9 gesehen haben, ist die Treppennormalform einer Matrix A ∈ K n,m eindeutig bestimmt. Insbesondere gibt es zu jeder Matrix A ∈ K n,m eine eindeutig bestimmte Anzahl von Pivotpositionen (vgl. Definition 5.6) in ihrer Treppennormalform. Dies rechtfertigt die folgende Definition. Definition 5.10 Die Anzahl r der Pivotpositionen in der Treppennormalform von A ∈ K n,m wird der Rang3 von A genannt und mit Rang(A) bezeichnet. Wir sehen sofort, dass für A ∈ K n,m immer Rang(A) ≤ min{n, m} gilt. Außerdem folgt aus Satz 5.2, dass A ∈ K n,n genau dann invertierbar ist, wenn Rang(A) = n gilt. Weitere Eigenschaften des Rangs sind im folgenden Satz zusammengestellt. Satz 5.11 Für A ∈ K n,m gelten: (1) Es gibt Matrizen Q ∈ GLn (K ) und Z ∈ GLm (K ) mit QAZ =
Ir 0
0 0
genau dann, wenn Rang(A) = r ist. (2) Sind Q ∈ GLn (K ) und Z ∈ GLm (K ), so gilt Rang(A) = Rang(QAZ). (3) Ist A = BC mit B ∈ K n, und C ∈ K ,m , so gilt (a) Rang(A) ≤ Rang(B), (b) Rang(A) ≤ Rang(C). (4) Rang(A) = Rang(A T ). (5) Es gibt Matrizen B ∈ K n, und C ∈ K ,m mit A = BC genau dann, wenn Rang(A) ≤ ist. Beweis Wir zeigen zuerst (3a). Sei Q ∈ GLn (K ), so dass QB in Treppennormalform ist. Dann gilt QA = QBC. In der Matrix QBC sind höchstens die ersten Rang(B) Zeilen von Null verschieden. Die Treppennormalform von QA ist nach Korollar 5.9 gleich der Treppennormalform von A. Somit können in der Treppennormalform von A ebenfalls höchstens die ersten Rang(B) Zeilen von Null verschieden sein, woraus Rang(A) ≤ Rang(B) folgt.
3
Der Begriff Rang wurde (im Zusammenhang mit Bilinearformen) erstmals 1879 vom deutschen Mathematiker Ferdinand Georg Frobenius (1849–1917) benutzt.
5.3
Rang und Äquivalenz von Matrizen
61
(1) ⇐: Ist Rang(A) = r = 0, dann ist A = 0 und wir sind fertig. Sei nun r ≥ 1. Dann gibt es eine Matrix Q ∈ GLn (K ), so dass QA in Treppennormalform mit r Pivotpositionen ist. Es gibt dann eine Permutationsmatrix P ∈ K m,m , die ein Produkt von Permutationsmatrizen Pi j ist, so dass T
PA Q
T
=
0 0
Ir
Ir V
=:
0 0
gilt, wobei V ∈ K m−r,r ist. (Ist r = 0, so sind hier I0 = [ ] und V = [ ].) Dann ist die Matrix 0 Ir ∈ K m,m Y := −V Im−r invertierbar mit Y
−1
=
0
Ir V
∈ K m,m .
Im−r
Es folgt T
YPA Q
T
=
Ir 0
0 0
.
Mit Z := P T Y T ∈ K m,m ergibt sich somit QAZ =
Ir 0
0 0
.
(5.6)
⇒: Es gelte (5.6) für A ∈ K n,m und Matrizen Q ∈ GLn (K ) und Z ∈ GLm (K ). Dann folgt mit Hilfe von (3a), Rang(A) = Rang(AZ Z −1 ) ≤ Rang(AZ) ≤ Rang(A), also insbesondere Rang(A) = Rang(AZ). Wegen der Invarianz der Treppennormalform unter Linksmultiplikation mit invertierbaren Matrizen (Korollar 5.9) folgt Rang(A) = Rang(AZ) = Rang(QAZ) = Rang
Ir 0
0 0
= r.
(2) Sei Rang(QAZ) = r . Nach (1) gibt es Matrizen N ∈ GLn (K ) und L ∈ GLm (K ) mit N (QAZ)L = Mit Hilfe von (3a) folgt
Ir 0
0 0
.
62
5 Die Treppennormalform und der Rang von Matrizen
r = Rang(QAZ) = Rang(AZ)
≤ Rang(A) = Rang(NQA) = Rang Ir 0 ≤ Rang =r 0 0
Ir 0
0 0
L
−1
Z
−1
und daher Rang(A) = r = Rang(QAZ). (4) Sei Rang(A) = r ,dann gibt es nach (1) Matrizen Q ∈ GLn (K ) und Z ∈ GLm (K ) mit Ir 0 . Somit gilt QAZ = 0 0 Ir 0 Rang(A) = Rang(QAZ) = Rang 0 0 T Ir 0 = Rang = Rang((QAZ)T ) 0 0 = Rang(Z T A T Q T ) = Rang(A T ). (3b) Mit Hilfe von (3a) und (4) folgt Rang(A) = Rang(A T ) = Rang(C T B T ) ≤ Rang(C T ) = Rang(C). (5) Sei A = BC mit B ∈ K n, , C ∈ K ,m . Dann gilt nach (3a), Rang(A) = Rang(BC) ≤ Rang(B) ≤ . Sei andererseits Rang(A) = r ≤ . Dann gibt es Matrizen Q ∈ GLn (K ) und Z ∈ Ir 0 . Also erhalten wir GLm (K ) mit QAZ = 0 0 A=
Q
−1
Ir
0r,−r
0n−r,r
0n−r,−r
Ir 0−r,r
0r,m−r 0−r,m−r
Z
−1
=: BC, wobei B ∈ K n, und C ∈ K ,m sind.
2
Beispiel 5.12 Für die Matrix aus Beispiel 5.3, ⎡
0 A=⎣ 0 0 hatten wir die Treppennormalform
2 2 2
1 0 0
3 1 1
⎤ 3 1 ⎦ ∈ Q3,5 , 1
5.3
Rang und Äquivalenz von Matrizen
63
⎡
0
⎢ ⎣ 0 0
1
0
0
1
0
0
1 2
1 2
⎤
⎥ 2 2 ⎦. 0 0
berechnet. Da es zwei Pivotpositionen gibt, gilt Rang(A) = 2. Wenn wir die Matrix A von rechts mit ⎡ ⎤ 1 0 0 0 0 ⎢ 0 0 0 0 0 ⎥ ⎢ ⎥ 5,5 ⎢ 0 0 ⎥ B=⎢ 0 0 0 ⎥∈Q ⎣ 0 0 0 −1 −1 ⎦ 0 0 0 −1 −1 multiplizieren, erhalten wir ⎡
0 AB = ⎣ 0 0
0 0 0
0 0 0
0 0 0
⎤ 0 0 ⎦ ∈ Q3,5 0
und damit ist Rang(AB) = 0. Die Aussage (1) in Satz 5.11 motiviert die folgende Definition. Definition 5.13 Zwei Matrizen A, B ∈ K n,m heißen äquivalent, wenn es Matrizen Q ∈ GLn (K ) und Z ∈ GLm (K ) mit A = QBZ gibt. Wie der Name bereits andeutet, ist die Äquivalenz von Matrizen eine Äquivalenzrelation auf der Menge K n,m , denn es gelten: • Reflexivität: A = QAZ mit Q = In und Z = Im . • Symmetrie: Ist A = QBZ, dann ist B = Q −1 AZ −1 . • Transitivität: Sind A = Q 1 B Z 1 und B = Q 2 C Z 2 , dann ist A = (Q 1 Q 2 )C(Z 1 Z 2 ). Die Äquivalenzklasse von A ∈ K n,m ist gegeben durch [A] = {QAZ | Q ∈ GLn (K ) und Z ∈ GLm (K )}. Ist Rang(A) = r , so gilt nach (1) in Satz 5.11
Ir 0
0 0
Ir 0
0 0
∈ [A]
und daher
= [ A].
64
5 Die Treppennormalform und der Rang von Matrizen
Der Rang von A bestimmt somit vollständig, wie die Äquivalenzklasse [A] aussieht. Die Matrix Ir 0 ∈ K n,m 0 0 nennen wir die Normalform von A unter Äquivalenz oder Äquivalenz-Normalform von A. Wir erhalten K
n,m
=
min{n,m}
0 0
Ir 0
Ir 0 r =0
0 0 I 0
, 0 0
wobei
= Ø,
falls r = ist.
Bezüglich der Äquivalenz von Matrizen aus K n,m gibt es somit 1 + min{n, m} verschiedene Äquivalenzklassen und die Menge
Ir 0
0 0
) ) ∈ K n,m )) r = 0, 1, . . . , min{n, m}
bildet eine vollständige Menge von Repräsentanten. Aus Satz 4.10 wissen wir, dass (K n,n , +, ∗) ein (nicht-kommutativer) Ring mit Eins ist. Für n ≥ 2 gibt es in diesem Ring nicht-triviale Nullteiler (vgl. die Beispiele nach Definition 4.9). Mit Hilfe der Äquivalenz-Normalform können wir diese Nullteiler charakterisieren: Ist A ∈ K n,n invertierbar, so kann A kein Nullteiler sein, denn aus AB = 0 folgt B = −1 A ∗ 0 = 0. Ist A ∈ K n,n \ {0} ein Nullteiler, so kann A nicht invertierbar sein. Also gilt 1 ≤ Rang(A) = r < n und die Äquivalenz-Normalform von A ist ungleich der Einheitsmatrix In . Es gibt dann Matrizen Q, Z ∈ GLn (K ), so dass QAZ =
Ir
0r,n−r
0n−r,r
0n−r,n−r
.
Für jede Matrix der Form V :=
0r,r
0r,n−r
∈ K n,n
und B := Z V gilt dann AB = Q
−1
Ir
0r,n−r
0n−r,r
0n−r,n−r
Ist V = 0, dann ist B = 0, denn Z ist invertierbar.
0r,r
0r,n−r
= 0.
Aufgaben
65
Aufgaben (In den folgenden Aufgaben ist K stets ein beliebiger Körper.) 5.1 Berechnen Sie die Treppennormalformen von A=
1 2
3 ∈ Q2,3 , 48
2 4
B=
1 i i −1
2,2
∈C
,
C=
1 i i 1
∈ C2,2 ,
⎡
⎤ 1 i −i 0 ⎢ 0 0 0 1 ⎥ 4,4 ⎥ D=⎢ ⎣ 5 0 −6i 0 ⎦ ∈ C . 0 1 0 0
5.2 5.3
Geben Sie die verwendeten Elementarmatrizen an. Ist einer der Matrizen A, B, C, D invertierbar? Falls ja, dann berechnen Sie die entsprechende Inverse als Produkt der Elementarmatrizen. α β Sei A = ∈ K 2,2 mit αδ = βγ . Berechnen Sie die Treppennormalform von A γ δ und bestimmen Sie mit Hilfe dieser Rechnung eine Formel für A−1 . Gegeben sei die Matrix
A=
5.4
5.5 5.6
t−1 t2 t−1 t+1
! ∈ (K (t))2,2 ,
wobei K (t) der Körper der rationalen Funktionen ist (vgl. Aufgabe 3.11). Untersuchen Sie, ob A invertierbar ist. Bestimmen Sie gegebenenfalls A−1 und überprüfen Sie Ihr Ergebnis durch Berechnung von A−1 A. Zeigen Sie,&dass A' ∈ K n,n genau dann invertierbar & ' ist, wenn die Treppennormalform der Matrix A In ∈ K n,2n die Gestalt In A−1 hat. (Die Inverse einer & ' Matrix A ∈ GLn (K ) kann man somit berechnen, indem man die Matrix A In in Treppennormalform bringt; vgl. die MATLAB-Minute auf Seite 55.) Beweisen Sie Lemma 5.7. Bestimmen Sie die LU -Zerlegungen der Matrizen ⎡
1 ⎢4 A=⎢ ⎣5 0
5.7
t+1 t−1 t2 t+1
2 0 0 1
3 0 6 0
⎤ 0 1⎥ ⎥, 0⎦ 0
⎡
⎤ 2 0 −2 0 ⎢ −4 0 4 −1 ⎥ 4,4 ⎥ B=⎢ ⎣ 0 −1 −1 −2 ⎦ ∈ R 0 0 1 1
(vgl. Satz 5.4). Stellen Sie fest, ob die Matrizen invertierbar sind und berechnen Sie gegebenenfalls die Inversen mit Hilfe der LU -Zerlegung. Sei A die (4 × 4)-Hilbert-Matrix (vgl. die MATLAB Minute auf Seite 58). Bestimmen Sie Rang(A). Existiert für A eine LU -Zerlegung wie in Satz 5.4 mit P = I4 ?
66
5.8
5 Die Treppennormalform und der Rang von Matrizen
Bestimmen Sie den Rang der Matrix ⎡
0 A = ⎣ −α −β
5.9
α 0 −γ
⎤ β γ ⎦ ∈ R3,3 0
in Abhängigkeit von α, β, γ ∈ R. Seien A, B ∈ K n,n gegeben. Zeigen Sie, dass Rang(A) + Rang(B) ≤ Rang
A 0
C B
für alle C ∈ K n,n gilt. Überlegen Sie, wann diese Ungleichung strikt ist bzw. wann Gleichheit gilt. 5.10 Seien a, b, c ∈ Rn,1 . (a) Bestimmen Sie Rang(ba T ). (b) Sei nun M(a, b) := ba T − ab T . Zeigen Sie, dass Folgendes gilt: (i) M(a, b) = −M(b, a) und M(a, b)c + M(b, c)a + M(c, a)b = 0, (ii) M(λa + μb, c) = λM(a, c) + μM(b, c) für λ, μ ∈ R, (iii) Rang(M(a, b)) = 0 genau dann, wenn es λ, μ ∈ R mit λ = 0 oder μ = 0 und λa + μb = 0 gibt, (iv) Rang(M(a, b)) ∈ {0, 2}.
Kapitel 6
Lineare Gleichungssysteme
Die Lösung linearer Gleichungssysteme ist ein zentrales Problem der Linearen Algebra. Solche Systeme treten in vielen wissenschaftlich-technischen Anwendungen auf, wie zum Beispiel bei der Diskretisierung von Differenzialgleichungen oder der Linearisierung einer nichtlinearen Gleichung. Somit ist das Thema dieses Kapitels weit über die Lineare Algebra hinaus von großem Interesse. Definition 6.1 Ein lineares Gleichungssystem über einem Körper K mit n Gleichungen für m Unbekannte x 1 , . . . , xm hat die Form a11 x1 + . . . + a1m xm = b1 , a21 x1 + . . . + a2m xm = b2 , .. . an1 x1 + . . . + anm xm = bn
(6.1)
oder Ax = b,
(6.2)
wobei die Koeffizientenmatrix A = [ai j ] ∈ K n,m und die rechte Seite b = [bi ] ∈ K n,1 gegeben sind. Ist b = 0, so heißt das lineare Gleichungssystem homogen, andernfalls inhomogen. Jedes x ∈ K m,1 , für das A x = b gilt, heißt Lösung des linearen Gleichungssystems. Die Menge aller Lösungen wird Lösungsmenge des linearen Gleichungssystems genannt. Diese Menge bezeichnen wir mit L (A, b). Wir charakterisieren nun die Lösungsmenge L (A, b) des linearen Gleichungssystems Ax = b mit Hilfe der Lösungsmenge L (A, 0) des zugeordneten homogenen linearen Gleichungssystems Ax = 0. x ∈ L (A, b), so Lemma 6.2 Seien A ∈ K n,m und b ∈ K n,1 mit L (A, b) = Ø gegeben. Ist gilt L (A, b) = x + L (A, 0) := { x + z | z ∈ L (A, 0)}. Beweis Ist z ∈ L (A, 0), also x + z ∈ x + L (A, 0), dann gilt J. Liesen, V. Mehrmann, Lineare Algebra, DOI 10.1007/978-3-8348-8290-5_6, C Vieweg+Teubner Verlag | Springer Fachmedien Wiesbaden GmbH 2011
67
68
6 Lineare Gleichungssysteme
A( x + z) = A x + A z =b+0=b und somit x + z ∈ L (A, b), woraus x + L (A, 0) ⊆ L (A, b) folgt. Sei nun x1 ∈ L (A, b) und sei z := x1 − x , dann gilt A z = A x1 − A x = b − b = 0, also z ∈ L (A, 0) und somit x1 = x + z ∈ x + L (A, 0), woraus L (A, b) ⊆ x + L (A, 0) folgt. 2 Wir sehen uns nun die Menge L (A, 0) etwas genauer an: Offensichtlich gilt für 0 ∈ K m,1 , dass A ∗ 0 = 0 ∈ K n,1 ist und daher ist L (A, 0) = Ø. Ist z ∈ L (A, 0), dann folgt für alle λ ∈ K , dass A(λ · z) = λ · (A z) = λ · 0 = 0, also λ · z ∈ L (A, 0). Somit sind für jedes z ∈ L (A, 0) alle skalaren Vielfachen von z ebenfalls Elemente von L (A, 0). Zudem gilt für z 1 , z 2 ∈ L (A, 0), dass A( z 1 + z 2 ) = A z 1 + A z 2 = 0 + 0 = 0, also z 1 + z 2 ∈ L (A, 0). Lemma 6.3 Sind A ∈ K n,m , b ∈ K n,1 und S ∈ K n,n , so gilt L (A, b) ⊆ L (S A, Sb). Ist S invertierbar, so gilt sogar L (A, b) = L (S A, Sb). Beweis Ist x ∈ L (A, b), dann gilt S A x = Sb, also auch x ∈ L (S A, Sb) und daher L (A, b) ⊆ L (S A, Sb). Ist S invertierbar und y ∈ L (S A, Sb), also S A y = Sb, so folgt y) = S −1 (Sb) und damit A y = b. Es folgen y ∈ L (A, b) und L (S A, Sb) ⊆ S −1 (S A L (A, b). 2 Sei ein lineares Gleichungssystem der Form Ax = b gegeben. Nach Satz 5.2 können wir eine Matrix S ∈ G L n (K ) finden, so dass S A in Treppennormalform ist. Sei b = [ bi ] := Sb, dann gilt L (A, b) = L (S A, b) nach Lemma 6.3 und das lineare Gleichungssystem S Ax = b sieht wie folgt aus: ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣
0
1
1
0
0
0 1
0
0
0
.. . ..
0
. 0 1
⎤
⎡ ⎤ b1 ⎥ ⎥ ⎢ ⎥ ⎥ ⎢ ⎥ ⎢ ⎥
⎥ ⎥ ⎢ ⎥ ⎥ x = ⎢ .. ⎥ . ⎥ ⎢ . ⎥ ⎥ ⎢ ⎥ ⎥ ⎢ ⎥ ⎥ ⎣ ⎦ ⎦ 0 bn
Seien j1 , j2 , . . . , jr die Pivotspalten von S A, also Rang(A) = r , und sei die Permutationsmatrix P T ∈ K m,m gegeben durch P T := [e j1 , . . . , e jr , e1 , . . . , e j1 −1 , e j1 +1 , . . . , e j2 −1 , e j2 +1 , . . . , e jr −1 , e jr +1 , . . . , em ]. Dann gilt := S A P T = A
Ir
12 A
0n−r,r 0n−r,m−r
,
6 Lineare Gleichungssysteme
69
12 ∈ K r,m−r . Im Fall r = m ist A 12 = [ ]. Rechtsmultiplikation von S A mit für eine Matrix A T P tauscht somit die r Pivotspalten von S A „nach vorn“. (Dies führt im Folgenden zu einer Vereinfachung der Darstellung, kann aber bei einer „praktischen“ Berechnung weggelassen werden.) b auch in der Form Da P T P = Im gilt, können wir das lineare Gleichungssystem S Ax = APx = b schreiben. Mit y := P x ergibt sich
⎢ Ir ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ 0n−r,r
⎤ ⎡ ⎤ b1 y1 ⎢ .. ⎥ ⎢ .. ⎥ ⎥⎢ . ⎥ ⎢ . ⎥ ⎥⎢ ⎥ ⎢ ⎥ ⎥ ⎢ yr ⎥ ⎢ ⎥ ⎥⎢ ⎥ = ⎢ br ⎥. ⎥ ⎢ yr +1 ⎥ ⎢ ⎥ ⎥⎢ ⎥ ⎢ br +1 ⎥ ⎦ ⎢ .. ⎥ ⎢ .. ⎥ ⎣ . ⎦ ⎣ . ⎦ bn ym ⎤
⎡ 12 A
0n−r,m−r
= A:=S APT
⎡
=y:=P x
(6.3)
= b:=Sb
Die Linksmultiplikation von P an x entspricht einer Umnummerierung der Unbekannten x1 , . . . , xm . Wir haben y ∈ L ( A, b) genau dann, wenn x := P T y ∈ L (S A, b) = L (A, b) ist. Ob das lineare Gleichungssystem (6.3) Lösungen hat, läßt sich an der erweiterten Koeffi entsteht. Es gilt zientenmatrix [ A, b] ∈ K n,m+1 ablesen, die durch „Anhängen“ von b an A ≤ Rang([ A, Rang( A) b]), mit Gleichheit genau dann, wenn br +1 = · · · = bn = 0 ist. < Rang([ A, bn ungleich 0 und das Ist Rang( A) b]), so ist mindestens eines der br +1 , . . . , = lineare Gleichungssystem Ay b kann keine Lösung haben, denn alle Einträge in den Zeilen sind 0. r + 1, . . . , n von A = Rang([ A, Ist andererseits Rang( A) b]), so gilt br +1 = · · · = bn = 0 und (6.3) kann geschrieben werden als ⎤ ⎡ ⎤ ⎡ ⎤ b1 yr +1 y1 ⎢ .. ⎥ ⎢ .. ⎥ ⎢ .. ⎥ ⎣ . ⎦ = ⎣ . ⎦ − A12 ⎣ . ⎦. yr ym br ⎡
(6.4)
Aus dieser Darstellung ergibt sich [ b1 , . . . , br , 0, . . . , 0]T = b ∈ L ( A, b) = Ø. 0) zu bestimmen, setzten wir br = 0 in (6.4), woraus Um die Menge L ( A, b1 = · · · = 0) = L ( A,
(
[ y1 , . . . , ym ]T | yr +1 , . . . , ym beliebig und * 12 [ [ y1 , . . . , yr ]T = 0 − A yr +1 , . . . , ym ]T
(6.5)
0) = {0} und somit |L ( A, 12 = [ ], L ( A, b)| = 1, d. h. zu ersehen ist. Ist r = m so gilt A die Lösung von Ay = b ist eindeutig bestimmt.
70
6 Lineare Gleichungssysteme
Beispiel 6.4 Für die erweiterte Koeffizientenmatrix ⎡
1 0 3 [ A, b] = ⎣ 0 1 4 0 0 0
⎤ b1 b2 ⎦ ∈ Q3,4 b3
= Rang([ A, gilt Rang( A) b]) genau dann, wenn b3 = 0 ist. Ist b3 = 0, so kann das lineare = Gleichungssystem Ay b geschrieben werden als
y1 y2
b1 3 = − [y3 ]. 4 b2
b2 , 0]T ∈ L ( A, b) und Somit ist [ b1 , 0) = L ( A,
(
* [ y1 , y2 , y3 ]T | y3 beliebig und [ y1 , y2 ]T = −[3, 4]T [ y3 ]. .
Ist andererseits b3 = 0, so ist L ( A, b) = Ø. Lemma 6.5 Sind A ∈ K n,m und b ∈ K n,1 , so gilt L (A, b) = Ø genau dann, wenn Rang(A) = Rang([A, b]) ist. = Rang(A) und Beweis Dies folgt aus der obigen Diskussion sowie den Identitäten Rang( A) Rang([ A, b]) = Rang([A, b]). 2 Wir können nun die obigen Überlegungen zusammenfassen und einen Algorithmus zur Lösung eines linearen Gleichungssystems Ax = b angeben. Algorithmus 6.6 Gegeben seien A ∈ K n,m und b ∈ K n,1 . (1) Wende den Gauß’schen Algorithmus an, um S ∈ G L n (A) zu berechnen, so dass S A in Treppennormalform ist. Bilde b := Sb. (2a) Ist Rang(S A) < Rang([S A, b]), so gilt L (S A, b) = L (A, b) = Ø. := S A P T wie in (6.3). (2b) Ist r = Rang(A) = Rang([S A, b]), so betrachte A 0), wobei L ( A, 0) wie in (6.5) bestimmt Es gilt b ∈ L ( A, b) und L ( A, b) = b+L ( A, y | y ∈ L ( A, b)}. ist, sowie L (A, b) = {P T Korollar 6.7 Für A ∈ K n,m und b ∈ K n,1 gelten die folgenden Aussagen über die Lösbarkeit des linearen Gleichungssystems Ax = b: (1) Ist Rang(A) < Rang([A, b]), so gilt L (A, b) = Ø. (2) Ist Rang(A) = Rang([A, b]) = m, so gilt |L (A, b)| = 1 (d. h. es gibt genau eine Lösung). (3) Ist Rang(A) = Rang([A, b]) < m, so gibt es „viele“ Lösungen. Falls der Körper K unendlich viele Elemente hat (also z. B. K = Q, K = R oder K = C), so gibt es in diesem Fall auch unendlich viele (paarweise) verschiedene Lösungen. Den letzten Fall in Korollar 6.7 werden wir besser charakterisieren können, wenn wir später den Begriff der Dimension eingeführt haben.
6 Lineare Gleichungssysteme
71
Beispiel 6.8 Sei K = Q und das lineare Gleichungssystem Ax = b mit ⎡
1 ⎢0 ⎢ A=⎢ ⎢1 ⎣2 1
2 1 0 3 1
2 0 3 5 3
⎤ 1 3⎥ ⎥ 0⎥ ⎥, 4⎦ 3
⎡ ⎤ 1 ⎢0⎥ ⎢ ⎥ ⎥ b=⎢ ⎢2⎥. ⎣3⎦ 2
Wir bilden nun die erweiterte Koeffizientenmatrix [A, b] und wenden den Gauß’schen Algorithmus an, um A in Treppennormalform zu bringen: ⎡
1 2 ⎢0 1 ⎢ 0 −2 [A, b] ; ⎢ ⎢ ⎣0 −1 0 −1 ⎡
1 ⎢0 ⎢ ;⎢ ⎢0 ⎣0 0 ⎡
1 ⎢0 ⎢ ;⎢ ⎢0 ⎣0 0
2 1 0 3 1 −1 1 2 1 2
⎡ ⎤ 1 2 1 ⎢0 1 0⎥ ⎢ ⎥ ⎢ 1⎥ ⎥ ; ⎢0 0 ⎣0 0 ⎦ 1 0 0 1
2 0 1 1 1
⎤ ⎡ 1 0 2 −5 1 ⎢0 1 0 3 0⎥ ⎥ ⎢ ⎢0 0 1 1⎥ 5 ; ⎥ ⎢ ⎣0 0 0 0 0⎦ 0 0 0 0 0
2 1 0 0 0
2 0 1 0 0
1 3 5 0 0
0 1 0 0 0
0 0 1 0 0
−15 3 5 0 0
1 3 5 5 5
⎤ 1 0⎥ ⎥ 1⎥ ⎥ 1⎦ 1 ⎤ 1 0⎥ ⎥ 1⎥ ⎥ 0⎦ 0
⎤ −1 0⎥ ⎥ 1⎥ ⎥ = [S A|b]. 0⎦ 0
Es gilt Rang(S A) = Rang([S A, b]) = 3, daher gibt es Lösungen. Außerdem gilt für die = S A. Das lineare Pivotspalten ji = i, i = 1, 2, 3. Somit ist P = P T = I4 und A Gleichungssystem S Ax = b können wir schreiben als ⎤ ⎡ ⎤ ⎡ ⎤ −1 −15 x1 ⎣ x2 ⎦ = ⎣ 0 ⎦ − ⎣ 3 ⎦ [x4 ]. x3 1 5 ⎡
b + L (A, 0), wobei Es folgt b = [−1, 0, 1, 0]T ∈ L (A, b) und L (A, b) = ( * L (A, 0) = [ x1 , . . . , x 4 ]T | x4 beliebig und [ x1 , x2 , x3 ]T = −[−15, 3, 5]T [ x4 ]. ist.
72
6 Lineare Gleichungssysteme
Aufgaben 6.1 Finden Sie einen Körper K , Zahlen n, m ∈ N sowie Matrizen A ∈ K n,m , S ∈ K n,n und b ∈ K n,1 mit L (A, b) = L (S A, Sb). 6.2 Bestimmen Sie L (A, b) für die folgenden A und b: ⎡
1 A = ⎣1 1
⎤ 1 1 2 −1⎦ ∈ R3,3 , −1 6
⎡
1 1 2 A = ⎣1 1 −1
⎡
⎤ 1 b = ⎣ −2 ⎦ ∈ R3,1 , 3
⎤ 1 0 −1 −1⎦ ∈ R3,4 , 6 2
⎡
⎤ 1 1 1 ⎢1 2 −1⎥ ⎥ ∈ R4,3 , A=⎢ ⎣1 −1 6⎦ 1 1 1 ⎡
⎤ 1 1 1 ⎢1 2 −1⎥ ⎥ ∈ R4,3 , A=⎢ ⎣1 −1 6⎦ 1 1 1
⎡
⎤ 1 b = ⎣ −2 ⎦ ∈ R3,1 , 3 ⎡
⎤ 1 ⎢ −2 ⎥ 4,1 ⎥ b=⎢ ⎣ 3⎦ ∈ R , 1 ⎡
⎤ 1 ⎢ −2 ⎥ 4,1 ⎥ b=⎢ ⎣ 3⎦ ∈ R . 0
6.3 Es seien α ∈ Q, ⎡
⎤ 3 2 1 A = ⎣1 1 1⎦ ∈ Q3,3 , 2 1 0
⎡ ⎤ 6 bα = ⎣ 3 ⎦ ∈ Q3,1 . α
Bestimmen Sie die Lösungsmengen der linearen Gleichungssysteme Ax = 0 und Ax = bα (in Abhängigkeit von α). 6.4 Seien K ein Körper, m, n, s ∈ N, A ∈ K n,m und B ∈ K n,s . Für i = 1, . . . , s bezeichne bi die i-te Spalte von B. Zeigen Sie, dass das lineare Gleichungssystem AX = B genau dann mindestens eine Lösung X ∈ K m,s hat, wenn Rang(A) = Rang([A, b1 ]) = Rang([A, b2 ]) = · · · = Rang([A, bs ]) gilt. Unter welcher Bedingung ist diese Lösung eindeutig?
Aufgaben
73
6.5 Sei K ein Körper. Gegeben seien ⎡
0 ⎢q2 ⎢ ⎢0 ⎢ A=⎢. ⎢ .. ⎢ ⎣0 0
p1 0 0 0 p2 0 q3 0 p3 .. .. . . · · · 0 qn−1 ··· 0 0
··· ··· ··· .. .
0 0 0 .. .
⎤
⎥ ⎥ ⎥ ⎥ ⎥ ∈ K n,n , ⎥ ⎥ 0 pn−1 ⎦ qn p n
⎡ ⎤ b1 ⎢ .. ⎥ b = ⎣ . ⎦ ∈ K n,1 bn
mit pi , qi = 0 für alle i. Bestimmen Sie eine rekursive Formel zur Berechnung der Einträge der Lösung des linearen Gleichungssystems Ax = b.
Kapitel 7
Determinanten von Matrizen
Die Determinante ist eine Abbildung, die jeder quadratischen Matrix A ∈ R n,n , wobei R ein kommutativer Ring mit Eins ist, ein Element des Rings R zuordnet. Diese Abbildung hat interessante und wichtige Eigenschaften. Unter anderem erhalten wir durch sie eine notwendige und hinreichende Bedingung dafür, dass eine Matrix A ∈ R n,n invertierbar ist. Zudem bildet die Determinante eine Grundlage für zentrale Begriffe der Linearen Algebra, die wir in den folgenden Kapiteln einführen werden (insbesondere das charakteristische Polynom von Matrizen).
7.1 Definition der Determinante Unter den verschiedenen Zugängen zur Definition der Determinante wählen wir den konstruktiven Weg über die Permutationen. Definition 7.1 Sei n ∈ N gegeben. Eine bijektive Abbildung σ : {1, 2, . . . , n} → {1, 2, . . . , n},
j → σ ( j)
heißt Permutation der Zahlen {1, 2, . . . , n}. Die Menge aller dieser Abbildungen bezeichnen wir mit Sn . Eine Permutation σ ∈ Sn schreiben wir in der Form &
' σ (1) σ (2) . . . σ (n) .
Somit sind S1 = {[1]}, S2 = {[1 2], [2 1]} und S3 = { [1 2 3], [1 3 2], [2 1 3], [2 3 1], [3 1 2], [3 2 1] }. Aus Lemma 2.15 folgt |Sn | = n! = 1 · 2 · . . . · n. Die Menge Sn bildet zusammen mit der Verknüpfung von Abbildungen eine Gruppe: Offensichtlich gilt σ1 ◦ σ2 ∈ Sn für alle σ1 , σ2 ∈ Sn , wobei die Verknüpfung ◦ assoziativ ist (vgl. Satz 2.17). Das neutrale Element ist die Identität auf {1, 2, . . . , n}, also die Permutation [1 2 . . . n]. Da jedes gegebene σ ∈ Sn bijektiv ist, gibt es zu σ eine eindeutig bestimmte J. Liesen, V. Mehrmann, Lineare Algebra, DOI 10.1007/978-3-8348-8290-5_7, C Vieweg+Teubner Verlag | Springer Fachmedien Wiesbaden GmbH 2011
75
76
7 Determinanten von Matrizen
inverse Permutation σ −1 ∈ Sn . Die Gruppe (Sn , ◦) wird auch als die symmetrische Gruppe bezeichnet. Während S1 und S2 kommutative Gruppen sind, ist Sn für n ≥ 3 nicht kommutativ. Zum Beispiel gilt für σ1 = [2 3 1] ∈ S3 und σ2 = [1 3 2] ∈ S3 : σ1 ◦ σ2 = [σ1 (σ2 (1)) σ1 (σ2 (2)) σ1 (σ2 (3))] = [σ1 (1) σ1 (3) σ1 (2)] = [2 1 3], σ2 ◦ σ1 = [σ2 (σ1 (1)) σ2 (σ1 (2)) σ2 (σ1 (3))] = [σ2 (2) σ2 (3) σ2 (1)] = [3 2 1]. Definition 7.2 Seien n ∈ N, n ≥ 2 und σ ∈ Sn . Ein Paar (i, j) ∈ N × N mit 1 ≤ i < j ≤ n und σ (i) > σ ( j) heißt Fehlstand von σ . Ist k die Anzahl der Fehlstände von σ , so heißt sgn(σ ) := (−1)k das Signum (oder Vorzeichen) von σ . Für n = 1 definieren wir sgn([1]) := 1. Beispiel 7.3 Die Permutation [2 3 1 4] ∈ S4 hat die Fehlstände (1, 3) und (2, 3), also gilt sgn([2 3 1 4]) = 1. Die Permutation [4 1 2 3] ∈ S4 hat die Fehlstände (1, 2), (1, 3), (1, 4) und somit sgn([4 1 2 3]) = −1. Nun kommen wir zur Definition der Determinante. Definition 7.4 Sei R ein kommutativer Ring mit Eins und sei n ∈ N. Die Abbildung det : R
n,n
→ R,
A = [ai j ] → det(A) :=
σ ∈Sn
sgn(σ )
n
ai,σ (i)
(7.1)
i=1
heißt die Determinante und det(A) heißt die Determinante der Matrix A. Die in (7.1) angegebene Formel für det(A) in wird als die Signaturformel von Leibniz1 bezeichnet. Der Ausdruck sgn(σ ) in dieser Definition ist als Element des Rings R zu deuten. Das heißt, entweder sgn(σ ) = 1 ∈ R oder sgn(σ ) = −1 ∈ R, wobei −1 ∈ R das zu 1 ∈ R eindeutig bestimmte additiv inverse Element bezeichnet. Beispiel 7.5 Für n = 1 gilt A = [a11 ] und somit det(A) = sgn([1])a11 = a11 . Für n = 2 erhalten wir a11 a12 det(A) = det = sgn([1 2])a11 a22 + sgn([2 1])a12 a21 a21 a22 = a11 a22 − a12 a21 . Für n = 3 ergibt sich die Regel von Sarrus,2 det(A) =
a11 a22 a33 + a12 a23 a31 + a13 a21 a32 −a11 a23 a32 − a12 a21 a33 − a13 a22 a31 .
1
Gottfried Wilhelm Leibniz (1646–1716), deutscher Universalgelehrter.
2
Pierre Frédéric Sarrus (1798–1861), französischer Mathematiker.
7.1
Definition der Determinante
77
Lemma 7.6 Für n ∈ N, A ∈ R n,n und λ ∈ R gilt det
λ 0n,1
A
= det
λ
01,n A
= λ det(A). 2
Beweis Übungsaufgabe.
Zur Berechnung der Determinante von A ∈ R n,n mit der Signaturformel müssen insgesamt n! Produkte mit je n Faktoren gebildet werden. Dies ist für große n selbst auf modernen Computern zu aufwändig. Wie wir später sehen werden, gibt es effizientere Möglichkeiten, det(A) zu berechnen. Die Signaturformel ist vor allem von theoretischer Bedeutung, denn sie stellt die Determinante von A explizit als Funktion der Einträge von A dar. Betrachtet man die n 2 Einträge als Variablen, so ist det(A) ein Polynom in diesen n 2 Variablen. Ist R = R oder R = C, so kann man anhand der Signaturformel mit Mitteln der Analysis zeigen, dass det(A) eine stetige Funktion der Einträge von A ist. Um die algebraischen Eigenschaften der Determinante genauer zu untersuchen, müssen wir zunächst die Gruppe der Permutationen besser kennen lernen. Ist σ = [3 2 1] ∈ S3 , dann gilt 1≤i< j≤1
σ ( j) − σ (i) σ (2) − σ (1) σ (3) − σ (1) σ (3) − σ (2) = · · j −i 2−1 3−1 3−2 =
2−3 1−3 1−2 · · = (−1)3 = −1 = sgn(σ ). 2−1 3−1 3−2
Dies ist kein Zufall, sondern gilt allgemein, wie das folgende Resultat zeigt. Lemma 7.7 Für n ∈ N und σ ∈ Sn gilt sgn(σ ) =
1≤i< j≤n
σ ( j) − σ (i) . j −i
(7.2)
Beweis Im Fall n = 1 steht auf der rechten Seite von (7.2) ein leeres Produkt, dessen Wert als 1 definiert ist (vgl. Abschn. 3.2). Die Formel (7.2) gilt somit für n = 1. Sei nun n > 1 und σ ∈ Sn mit sgn(σ ) = (−1)k , d. h. k ist die Anzahl der Paare (i, j) mit i < j aber σ (i) > σ ( j). Dann gilt
(σ ( j) − σ (i)) = (−1)k ·
1≤i< j≤n
1≤i< j≤n
|σ ( j) − σ (i)| = (−1)k ·
( j − i).
1≤i< j≤n
In der letzten Gleichung haben wir ausgenutzt, dass die beiden Produkte (eventuell bis auf die Reihenfolge) die gleichen Faktoren besitzen. 2 Satz 7.8 Für alle σ1 , σ2 ∈ Sn gilt sgn(σ1 ◦ σ2 ) = sgn(σ1 ) · sgn(σ2 ). Insbesondere gilt also sgn(σ −1 ) = sgn(σ ) für alle σ ∈ Sn . Beweis Nach Lemma 7.7 gilt
78
7 Determinanten von Matrizen
sgn(σ1 ◦ σ2 ) =
1≤i< j≤n
⎛
σ1 (σ2 ( j)) − σ1 (σ2 (i)) j −i
⎞ ⎛ ⎞ σ (σ ( j)) − σ (σ (i)) σ ( j) − σ (i) 1 2 1 2 2 2 ⎠·⎝ ⎠ =⎝ σ2 ( j) − σ2 (i) j −i 1≤i< j≤n 1≤i< j≤n ⎞ ⎛ σ (σ ( j)) − σ (σ (i)) 1 2 1 2 ⎠ · sgn(σ2 ) =⎝ σ2 ( j) − σ2 (i) 1≤σ2 (i)
n
|ai j |
für alle i = 1, . . . , n,
(7.5)
j=1 j =i
so gilt det(A) = 0. Beweis Wir zeigen die entgegengesetzte Implikation: Ist det(A) = 0, so ist A nicht diagonaldominant. Ist det(A) = 0, so ist L (A, 0) = {0}, d. h. das homogene lineare Gleichungssystem xn ]T = 0. Sei xm ein Eintrag von x mit Ax = 0 hat mindestens eine Lösung x = [ x1 , . . . , maximalem Betrag, also | xm | ≥ | x j | für alle j = 1, . . . , n. Insbesondere gilt dann | xm | > 0. Die m-te Zeile von A x = 0 ist gegeben durch x 1 + am2 x2 + . . . + amn xn = 0 am1
⇔
amm xm = −
n
am j xj.
j=1 j =m
In der letzten Gleichung bilden wir die Beträge auf beiden Seiten und nutzen die Dreiecksungleichung aus. Dies ergibt xm | ≤ |amm | |
n
|am j | | xj| ≤
j=1 j =m
n
|am j || x m |,
also |amm | ≤
j=1 j =m
n
|am j |.
j=1 j =m
2
Somit ist A nicht diagonaldominant. Die Umkehrung der Aussage dieses Satzes gilt nicht: Ist zum Beispiel 1 2 A= ∈ Q2,2 , 1 0
so gilt det(A) = −2 = 0, doch A ist nicht diagonaldominant. Aus Satz 7.18 erhalten wir die sogenannte Laplace-Entwicklung,3 die eine alternative Möglichkeit zur Berechnung der Determinante darstellt. Korollar 7.20 Für A ∈ R n,n , n ≥ 2, gelten die folgenden Regeln: (1) Für alle i = 1, 2, . . . , n ist det(A) =
n
(−1)i+ j ai j det(A(i, j))
j=1
(Laplace-Entwicklung von det(A) nach der i-ten Zeile von A). 3
Pierre-Simon Laplace (1749–1827), französischer Mathematiker, veröffentlichte diese Entwicklung 1772.
88
7 Determinanten von Matrizen
(2) Für alle j = 1, 2, . . . , n ist det(A) =
n
(−1)i+ j ai j det(A(i, j))
i=1
(Laplace-Entwicklung von det(A) nach der j-ten Spalte von A). Beweis Die beiden Formeln für det(A) folgen unmittelbar aus einem Vergleich der Diagonaleinträge in den Matrix-Gleichungen det(A) · In = A adj(A) und det(A) · In = adj(A) A 2 Schließlich erwähnen wir noch die Cramer’sche Regel,4 die die explizite Lösung eines linearen Gleichungssystems in Form von Determinanten angibt. Diese Regel ist nur von theoretischem Wert, denn um die n Komponenten der Lösung zu berechnen erfordert sie die Auswertung von n + 1 Determinanten. Korollar 7.21 Sei K ein Körper, A ∈ G L n (K ) und b ∈ K n,1 . Dann ist die eindeutige Lösung des linearen Gleichungsystems Ax = b gegeben durch [x 1 , . . . , xn ]T = A−1 b = (det(A))−1 · adj(A)b, mit xi =
det[a1 , . . . , ai−1 , b, ai+1 , . . . , an ] , det(A)
i = 1, . . . , n.
Beispiel 7.22 Seien ⎡
1 ⎢1 A=⎢ ⎣1 1
3 2 2 2
0 0 1 3
⎤ 0 0⎥ ⎥ ∈ Q4,4 , 0⎦ 1
⎡ ⎤ 1 ⎢2⎥ 4,1 ⎥ b=⎢ ⎣1⎦ ∈ Q . 0
Wenden wir die Laplace-Entwicklung nach der letzten Spalte auf die Matrix A an, so erhalten wir 1 3 det(A) = 1 · 1 · det = −1. 1 2 Die Matrix A ist somit invertierbar und das linearen Gleichungssystem Ax = b hat eine eindeutige Lösung x = A−1 b ∈ Q4,1 . Mit der Cramer’schen Regel ergeben sich die Einträge von x als
4
Gabriel Cramer (1704–1746), schweizer Mathematiker.
Aufgaben
89
⎛⎡
x1
x2
x3
x4
1 ⎜ ⎢2 ⎢ = det ⎜ ⎝ ⎣1 0 ⎛⎡ 1 ⎜ ⎢1 ⎢ = det ⎜ ⎝ ⎣1 1 ⎛⎡ 1 ⎜ ⎢1 ⎢ = det ⎜ ⎝ ⎣1 1 ⎛⎡ 1 ⎜ ⎢1 ⎢ = det ⎜ ⎝ ⎣1 1
3 2 2 2
0 0 1 3
1 2 1 0
0 0 1 3
3 2 2 2
1 2 1 0
3 2 2 2
0 0 1 3
⎤⎞ 0 ⎟ 0⎥ ⎥⎟ / det(A) = −4/(−1) = 4, ⎦ 0 ⎠ 1 ⎤⎞ 0 ⎟ 0⎥ ⎥⎟ / det(A) = 1/(−1) = −1, ⎦ 0 ⎠ 1 ⎤⎞ 0 ⎟ 0⎥ ⎥⎟ / det(A) = 1/(−1) = −1, ⎦ 0 ⎠ 1 ⎤⎞ 1 ⎟ 2⎥ ⎥⎟ / det(A) = −1/(−1) = 1. ⎦ 1 ⎠ 0
Aufgaben 7.1
Falls es für σ ∈ Sn eine Teilmenge {i 1 , . . . , ir } ⊆ {1, 2, . . . , n} mit r Elementen und σ (i k ) = i k+1 für k = 1, 2, . . . , r − 1,
σ (ir ) = i 1 ,
σ (i) = i für i ∈ / {i 1 , . . . , ir },
gibt, so nennen wir σ einen Zykel (genauer einen r -Zykel). Wir schreiben einen r -Zykel als σ = (i 1 , i 2 , . . . , ir ). Insbesondere ist eine Transposition in τ ∈ Sn ein 2-Zykel. (a) Seien für n = 4 die 2-Zykel τ1,2 = (1, 2), τ2,3 = (2, 3) und τ3,4 = (3, 4) gegeben. −1 und τ1,2 ◦ τ2,3 ◦ τ3,4 . Berechnen Sie τ1,2 ◦ τ2,3 , τ1,2 ◦ τ2,3 ◦ τ1,2 (b) Seien n ≥ 4 und σ = (1, 2, 3, 4). Berechnen Sie σ j für j = 2, 3, 4, 5. (c) Zeigen Sie, dass die Inverse des Zykels (i1 , . . . , ir ) durch (ir , . . . , i 1 ) gegeben ist. (d) Zeigen Sie, dass zwei elementfremde Zykel, d. h. Zykel (i 1 , . . . , ir ) und ( j1 , . . . , jr ) mit {i 1 , . . . , ir } ∩ { j1 , . . . , jr } = ∅, kommutieren. (e) Zeigen Sie, dass jede Permutation σ ∈ Sn als ein Produkt von elementfremden Zykeln geschrieben werden kann, die bis auf ihre Reihenfolge eindeutig durch σ bestimmt sind. 7.2 7.3
Beweisen Sie Lemma 7.6 mit Hilfe der Signaturformel (7.1). Berechnen Sie die Determinanten der folgenden Matrizen: & ' (a) A = en en−1 . . . e1 ∈ Zn,n , wobei ei die i-te Spalte der Einheitsmatrix ist. & ' (b) B = bi j ∈ Zn,n mit
90
7 Determinanten von Matrizen
⎧ ⎪ für |i − j| = 0, ⎨2 bi j = −1 für |i − j| = 1, ⎪ ⎩ 0 für |i − j| ≥ 2. (c) ⎡
1 ⎢e ⎢ 2 ⎢e ⎢ 3 C =⎢ ⎢e ⎢e 4 ⎢ ⎣e6 0
0 0 1 0 0 0 0
1 eπ 17 31
−e 10001 √ 2 1
0 √4 6 π 0 0 0
0 5 √ 7 e π −1 0 0
0 1 √ 8 0 0 0 0
⎤ √0 ⎥ √π ⎥ 10⎥ ⎥ 7,7 πe ⎥ ⎥∈R . 2 ⎥ e π⎥ −1 ⎦ 0
(d) Die (4 × 4)-Wilkinson-Matrix5 (vgl. die MATLAB-Minute auf Seite 84). 7.4 7.5 7.6
Finden Sie Matrizen A, B ∈ Rn,n für ein n ≥ 2 mit det(A + B) = det(A) + det(B). Sei R ein kommutativer Ring mit Eins und sei A ∈ R n,n , n ≥ 2, so dass det(A) ∈ R invertierbar ist. Zeigen Sie, dass dann det(adj(A)) = (det(A))n−1 gilt. 1 Sei K ein Körper und A = [ai j ] ∈ K n,n mit ai j = xi +y für gewisse x 1 , . . . , x n , j y1 , . . . , yn ∈ K . (Insbesondere gilt also xi + y j = 0 für alle i, j.) (a) Zeigen Sie, dass . det(A) =
1≤i< j≤n (x j .n i, j=1
− xi )(y j − yi ) xi + y j
gilt. (b) Leiten Sie mit dem Ergebnis aus (a) eine Formel für die Determinate der (n × n)Hilbert-Matrix her (vgl. die MATLAB-Minute auf Seite 58). 7.7
Sind α1 , . . . , αn ∈ R, dann wird ⎡
1 , ⎢1 + ⎢ Vn := αij−1 = ⎢ . ⎣ .. 1
α1 α2 .. .
αn
α12 α22 .. . αn2
... ... ...
⎤ α1n−1 α2n−1 ⎥ ⎥ ∈ R n,n .. ⎥ ⎦ . αnn−1
eine (n × n)-Vandermonde-Matrix6 genannt.
5
James Hardy Wilkinson (1919–1986), englischer Mathematiker.
6
Alexandre-Théophile Vandermonde (1735–1796), französischer Mathematiker.
Aufgaben
91
(a) Zeigen Sie, dass det(Vn ) =
(α j − αi )
1≤i< j≤n
gilt. (b) Sei K ein Körper und K [t]≤n−1 die Menge der Polynome in der Unbekannten t vom Grad höchstens n − 1. Zeigen Sie, dass zwei Polynome p, q ∈ K [t]≤n−1 gleich sind, wenn p(β j ) = q(β j ) für paarweise verschiedene β1 , . . . , βn ∈ K gilt. 7.8
Zeigen Sie die folgenden Aussagen: (a) Sei K ein Körper mit 1 + 1 = 0 und A ∈ K n,n mit A T = −A. Ist n ungerade, so gilt det(A) = 0. (b) Ist A ∈ G L n (R) mit A T = A−1 , so gilt det(A) ∈ {1, −1}.
7.9
Sei K ein Körper, A11 ∈ K n 1 ,n 1 , A12 ∈ K n 1 ,n 2 , A21 ∈ K n 2 ,n 1 , A22 ∈ K n 2 ,n 2 sowie A=
A11 A12 . A21 A22
Zeigen Sie die folgenden Rechenregeln: (a) Ist A11 ∈ G L n 1 (K ), so gilt det(A) = det(A11 ) det A22 − A21 A−1 11 A12 . . A (b) Ist A22 ∈ G L n 2 (K ), so gilt det(A) = det(A22 ) det A11 − A12 A−1 21 22 (c) Ist A 21 = 0, so gilt det(A) = det(A11 ) det(A22 ). Können Sie diese Regeln auch beweisen, wenn die Matrizen über einem kommutativen Ring mit Eins definiert sind? 7.10 Finden Sie Matrizen A11 , A12 , A21 , A22 ∈ Rn,n für ein n ≥ 2 mit A11 A12 = det(A11 ) det(A22 ) − det(A12 ) det(A21 ). det A21 A22 & ' 7.11 Sei A = ai j ∈ G L n (R) mit ai j ∈ Z. Zeigen Sie folgende Aussagen: (a) A−1 ∈ Qn,n . (b) A−1 ∈ Zn,n gilt genau dann, wenn det(A) ∈ {±1} ist. (c) Das lineare Gleichungssystem Ax = b hat für jedes b ∈ Zn,1 eine eindeutige Lösung x ∈ Zn,1 genau dann, wenn det(A) ∈ {±1} ist.
Kapitel 8
Das charakteristische Polynom und Eigenwerte von Matrizen
In den vorherigen Kapiteln haben wir den Rang und die Determinante als charakterisierende Größen von Matrizen kennengelernt. Nun wollen wir als weitere wichtige Größen das charakteristische Polynom und die Eigenwerte von Matrizen kennenlernen.
8.1 Das charakteristische Polynom und der Satz von Cayley-Hamilton Im Beispiel 3.17 haben wir den Ring R[t] der Polynome über einem kommutativen Ring mit Eins und in der Unbekannten t betrachtet. Ist A = [ai j ] ∈ R n,n , so setzen wir ⎡ t − a11 ⎢ ⎢ −a21 t In − A = ⎢ ⎢ .. ⎣ . −an1
−a12 t − a22 .. . ···
··· .. . .. . −an,n−1
⎤ −a1n ⎥ .. ⎥ . ⎥ ∈ (R[t])n,n . ⎥ −an−1,n ⎦ t − ann
Die Einträge der Matrix t In − A sind also Elemente von R[t], wobei die Diagonaleinträge die linearen Polynome (d. h. Polynome vom Grad 1) t − aii , i = 1, . . . , n, sind. Alle anderen Einträge sind die konstanten Polynome −ai j für i = j. Da die Einträge von t In − A Elemente eines kommutativen Rings mit Eins sind, können wir die Determinante dieser Matrix bilden, die wieder ein Element von R[t] ist (vgl. Definition 7.4). Definition 8.1 Sind R ein kommutativer Ring mit Eins und A ∈ R n,n , dann heißt PA := det(t In − A) ∈ R[t] das charakteristische Polynom von A. Beispiel 8.2 Ist n = 1 und A = [a11 ], dann ist PA = det(t I1 − A) = det([t − a11 ]) = t − a11 . Für n = 2 und J. Liesen, V. Mehrmann, Lineare Algebra, DOI 10.1007/978-3-8348-8290-5_8, C Vieweg+Teubner Verlag | Springer Fachmedien Wiesbaden GmbH 2011
93
94
8 Das charakteristische Polynom und Eigenwerte von Matrizen
A=
a11 a21
a12 a22
erhalten wir PA = det
−a12 t − a22
t − a11 −a21
= t 2 − (a11 + a22 )t + (a11 a22 − a12 a21 ).
Mit Hilfe von Definition 7.4 ergibt sich die allgemeine Form von PA für eine Matrix A ∈ R n,n als PA =
sgn(σ )
σ ∈Sn
n
δi,σ (i) t − ai,σ (i) .
(8.1)
i=1
Das folgende Lemma gibt weitere Informationen über das charakteristische Polynom PA . Lemma 8.3 Für A ∈ R n,n ist PA = t n − αn−1 t n−1 + . . . + (−1)n−1 α1 t + (−1)n α0 , mit αn−1 =
n
i=1 aii
und α0 = det(A).
Beweis Nach (8.1) gilt n PA = (t − aii ) +
n
sgn(σ ) δi,σ (i) t − ai,σ (i) .
σ =[1 ··· n]
i=1
i=1
In der Summe auf der rechten Seite hat der erste Summand die Form n n t − aii t n−1 + (Polynom vom Grad ≤ n − 2) i=1
und der zweite Summand ist ein Polynom vom Grad ≤ n − 2. Somit gilt αn−1 = wie behauptet. Aus (8.1) folgt außerdem PA (0) =
σ ∈Sn
sgn(σ )
n i=1
aii
n
−ai,σ (i) = (−1)n det(A) i=1
und somit α0 = det(A).
2
hat somit stets den Grad n. Der KoeffiDas charakteristische Polynom PA von A ∈ zient α1 vor t n−1 ist die Summe der Diagonalelemente und wird als Spur der Matrix bezeichnet, d. h. R n,n
Spur(A) :=
n i=1
aii .
8.1
Das charakteristische Polynom und der Satz von Cayley-Hamilton
95
Der Koeffizient von t n ist gleich 1 ∈ R. Ein solches Polynom wird monisch oder auch normiert genannt. Das folgende Lemma zeigt, dass es zu jedem monischen Polynom p ∈ R[t] vom Grad n ≥ 1 eine Matrix A ∈ R n,n mit PA = p gibt. Lemma 8.4 Sei n ≥ 1 und p = t n + βn−1 t n−1 + . . . + β0 ∈ R[t]. Dann ist p das charakteristische Polynom der Matrix ⎡
0
⎢ ⎢1 A=⎢ ⎢ ⎣
.. ..
. .
⎤ −β0 .. ⎥ . ⎥ ⎥ ∈ R n,n . ⎥ 0 −βn−2 ⎦ 1 −βn−1
(Für n = 1 ist A = [−β0 ].) Die Matrix A heißt die Begleitmatrix von p. Beweis Wir beweisen die Aussage durch Induktion über n. Für n = 1 ist p = t + β0 , A = [−β0 ] und PA = det([t + β0 ]) = p. Die Aussage gelte nun für ein n ≥ 1. Wir betrachten p = t n+1 + βn t n + . . . + β0 und ⎡
0
⎢ ⎢1 A=⎢ ⎢ ⎣
.. ..
. .
⎤ −β0 .. ⎥ . ⎥ ⎥ ∈ R n+1,n+1 . ⎥ 0 −βn−1 ⎦ 1 −βn
Mit Hilfe der Laplace-Entwicklung nach der ersten Zeile (vgl. Korollar 7.20) erhalten wir PA = det(t In+1 − A) ⎛⎡ t ⎜⎢ ⎜⎢−1 . . . ⎢ = t · det ⎜ ⎜⎢ .. ⎝⎣ .
⎤⎞ β1 .. ⎥⎟ ⎟ . ⎥ ⎥⎟ ⎥⎟ βn−1 ⎦⎠ t + αn
t −1 ⎛⎡ −1 ⎜⎢ ⎜⎢ ⎢ +(−1)n+2 · β0 · det ⎜ ⎜⎢ ⎝⎣
t .. .
.. ..
. .
⎤⎞ ⎥⎟ ⎥⎟ ⎥⎟ ⎥⎟ t ⎦⎠ −1
= t · (t n + βn t n−1 + . . . + β1 ) + β0 = t n+1 + βn t n + . . . + β1 t + β0 . In der vorletzten Gleichung haben wir die Induktionsannahme ausgenutzt.
2
96
8 Das charakteristische Polynom und Eigenwerte von Matrizen
Beispiel 8.5 Das Polynom p = (t − 1)3 = t 3 − 3t 2 + 3t − 1 hat die Begleitmatrix ⎡
0 A = ⎣1 0
0 0 1
⎤ 1 −3⎦ . 3
Die Einheitsmatrix I3 hat das charakteristische Polynom PI3 = det(t I3 − I3 ) = (t − 1)3 = PA . Wir sehen, dass unterschiedliche Matrizen das gleiche charakteristische Polynom besitzen können. Im Beispiel 3.17 haben wir gesehen, wie man Skalare λ ∈ R in ein Polynom p ∈ R[t] „einsetzt“. Analog kann man dies für Matrizen M ∈ R m,m definieren. Für p = βn t n + βn−1 t n−1 + . . . + β0 ∈ R[t] ist p(M) := βn M n + βn−1 M n−1 + . . . + β0 Im ∈ R m,m , wobei die Multiplikation auf der rechten Seite als skalare Multiplikation von β j ∈ R und M j ∈ R m,m , j = 0, 1, . . . , n, zu verstehen ist (vgl. auch Aufgabe 4.7). Es gilt M 0 := Im . Das „Einsetzen“ einer Matrix M ∈ R m,m in ein Polynom p ∈ R[t] ist somit eine Abbildung von R m,m nach R m,m . Insbesondere gilt nach (8.1) für das charakteristische Polynom PA einer Matrix A ∈ R n,n und eine Matrix M ∈ R m,m die Gleichung PA (M) =
σ ∈Sn
n
δi,σ (i) · M − ai,σ (i) · Im . sgn(σ )
(8.2)
i=1
Achtung: Die aus sich für M ∈ R n,n aus der Definition PA = det(t In − A) „offensichtlich anbietende“ Gleichung PA (M) = det(M − A) ist falsch. Per Definition ist PA (M) ∈ R n,n und det(M − A) ∈ R. Somit können diese beiden Ausdrücke (selbst für n = 1) niemals identisch sein! Die folgende fundamentale Aussage wird als Satz von Cayley-Hamilton1 bezeichnet. Satz 8.6 Für eine Matrix A ∈ R n,n und ihr charakteristisches Polynom gilt PA (A) = 0 ∈ R n,n . Arthur Cayley bewies diesen Satz 1858 für n = 2 und behauptete, ihn ebenfalls für n = 3 verifiziert zu haben. Er hielt es nicht für nötig, einen Beweis für allgemeines n zu liefern. Sir William Rowan Hamilton bewies 1853 ebenfalls einen Spezialfall, nämlich den Fall n = 4 im Zusammenhang mit seinen Untersuchungen der Quaternionen. Einen der ersten Beweise für allgemeines n gab Ferdinand Georg Frobenius 1878. James Joseph Sylvester sorgte 1884 für die Namensgebung, als er den Satz als „no-little-marvellous Hamilton-Cayley theorem“ bezeichnete.
1
8.1
Das charakteristische Polynom und der Satz von Cayley-Hamilton
97
Beweis Für n = 1 ist der Satz trivial, daher sei n ≥ 2. Sei ei die i-te Spalte der Einheitsmatrix In ∈ R n,n , dann gilt A[e1 , . . . , en ] = [e1 , . . . , en ]A. Aus dieser Identität erhalten wir n Gleichungen für die n Spalten, Aei = a1i e1 + a2i e2 + . . . + ani en , 1 ≤ i ≤ n n (−a ji In )e j = 0n,1 , 1 ≤ i ≤ n. ⇔ (A − aii In )ei + j=1 j =i
Die letzten n Gleichungen können wir schreiben als ⎡
⎡ ⎤ ⎤⎡ ⎤ e1 0 ⎢0⎥ ⎥ ⎢ e2 ⎥ ⎢ ⎥ ⎥⎢ ⎥ ⎥ ⎢ .. ⎥ = ⎢ .. ⎥, ⎣.⎦ ⎦⎣.⎦ en 0 · · · A − ann In
A − a11 In −a21 In · · · ⎢ −a12 In A − a22 In · · · ⎢ ⎢ .. .. ⎣ . . −a1n In
−a2n In
−an1 In −an2 In .. .
kurz
Bε = 0.
Es gilt B ∈ (R[A])n,n mit R[A] := { p(A) | p ∈ R[t]}, d. h. die Einträge von B sind Polynome aus R[t], in die die Matrix A eingesetzt wurde. Die Menge R[A] bildet einen kommutativen Ring mit Eins (gegeben durch In ); offensichtlich gilt p(A)q(A) = q(A) p(A) für alle p, q ∈ R[t]. Nach Annahme gilt n ≥ 2 und somit folgt adj(B) B = det(B) · In aus Satz 7.18, wobei det(B) ∈ R[A] und In die Einheitsmatrix in (R[A])n,n sind (diese Matrix hat also n-mal die Einheitsmatrix In auf ihrer Diagonalen). Wir multiplizieren diese Identität von rechts mit ε und erhalten In ε, adj(B) B ε = det(B) · = 0
woraus det(B) = 0 ∈ R[A] folgt. Um den Beweis zu beenden, betrachten wir die Matrix det(B) = [bi j ] ∈ R n,n genauer. Per Definition der Determinante gilt (vgl. (7.1), (8.1) und auch den Beweis von (4) in Lemma 7.11), det(B) =
sgn(σ )
σ ∈Sn
=
σ ∈Sn
=
σ ∈Sn
sgn(σ )
n i=1 n
bi,σ (i) =
sgn(σ )
σ ∈Sn
n
(δi,σ (i) A − aσ (i),i In )
i=1
(δσ (i),i A − aσ (i),i In )
i=1
sgn(σ −1 )
n i=1
(δi,σ −1 (i) A − ai,σ −1 (i) In )
98
8 Das charakteristische Polynom und Eigenwerte von Matrizen
=
sgn(σ )
σ ∈Sn
n
(δi,σ (i) A − ai,σ (i) In )
i=1
= PA (A), 2
was den Beweis beendet.
8.2 Eigenwerte und Eigenvektoren In diesem Abschnitt geben wir eine Einführung in das Thema der Eigenwerte und Eigenvektoren von quadratische Matrizen über einem Körper K . Diese wichtigen Begriffe werden wir in späteren Kapiteln sehr detailliert untersuchen. Wir beginnen mit einer hinreichenden Bedingung dafür, dass zwei Matrizen das gleiche charakteristische Polynom haben (vgl. Beispiel 8.5). Definition 8.7 Zwei Matrizen A, B ∈ K n,n heißen ähnlich, wenn es eine Matrix Z ∈ G L n (K ) mit A = Z B Z −1 gibt. Man überzeugt sich leicht, dass Ähnlichkeit eine Äquivalenzrelation auf der Menge K n,n ist. Satz 8.8 Sind zwei Matrizen A, B ∈ K n,n ähnlich, so gilt PA = PB . Beweis Sei A = Z B Z −1 , dann folgt aus Satz 7.16 PA = det(t In − A) = det(t In − Z B Z −1 ) = det(Z (t In − B)Z −1 ) = det(Z ) det(t In − B) det(Z −1 ) = det(t In − B) det(Z Z −1 ) = PB 2
(vgl. die Bemerkungen nach Satz 7.16)
Die Bedingung für PA = PB in Satz 8.8 ist hinreichend, aber nicht notwendig. Seien zum Beispiel A, B ∈ Q2,2 gegeben durch 1 A= 0
1 , 1
1 B= 0
0 = I2 . 1
Dann gilt PA = t 2 − 2t + 1 = PB , aber für jede Matrix Z ∈ G L n (Q) gilt Z B Z −1 = I2 = A. Also sind A und B nicht ähnlich. Definition 8.9 Sei A ∈ K n,n . Falls v ∈ K n,1 \ {0} und λ ∈ K die Gleichung Av = λv erfüllen, so heißt v Eigenvektor von A zum Eigenwert λ. Falls A ∈ K n,n einen Eigenvektor v ∈ K n,1 \ {0} zum Eigenwert λ ∈ K hat, so sagen wir auch kurz: λ ist ein Eigenwert von A. Während v = 0 per Definition niemals ein Eigenvektor einer Matrix A ist, kann λ = 0 als Eigenwert auftreten. Zum Beispiel gilt
8.2
Eigenwerte und Eigenvektoren
99
1 −1 1 1 = 0 . −1 1 1 1
Ist v ein Eigenvektor zum Eigenwert λ von A, so ist auch αv für jedes α ∈ K \ {0} ein Eigenvektor von A zum Eigenwert λ, denn es gilt αv = 0 und A (αv) = α (Av) = α (λv) = λ (αv). Der folgende Satz stellt einen wichtigen Zusammenhang zwischen den Eigenwerten von A ∈ K n,n und dem charakteristischen Polynom PA von A her. Satz 8.10 Ist A ∈ K n,n , so gelten: (1) λ ∈ K ist genau dann ein Eigenwert von A, wenn λ eine Nullstelle des charakteristischen Polynoms von A ist, d. h. wenn PA (λ) = 0 ∈ K gilt. (2) λ = 0 ∈ K ist genau dann ein Eigenwert von A, wenn det(A) = 0 ist. (3) λ ∈ K ist genau dann ein Eigenwert von A, wenn λ ∈ K ein Eigenwert von AT ist (A und A T haben die gleichen Eigenwerte, aber nicht unbedingt die gleichen Eigenvektoren). Beweis (1) Sei λ ∈ K mit PA (λ) = 0, also det(λIn − A) = 0. Dies gilt genau dann, wenn die Matrix λIn − A nicht invertierbar ist (vgl. (7.4)), was äquivalent ist mit der Aussage L (λIn − A, 0) = {0}, so dass ein x = 0 mit (λIn − A) x = 0 bzw. A x = λ x existiert. (2) Nach (1) ist λ = 0 genau dann ein Eigenwert von A, wenn PA (0) = 0 ist. Die Aussage folgt nun aus PA (0) = (−1)n det(A) (vgl. Lemma 8.3). (3) Nach (1) ist λ genau dann ein Eigenwert von A, wenn PA (λ) = 0 ist. Aus (4) in Lemma 7.11 folgt dann 0 = det(λIn − A) = det((λIn − A)T ) = PA T (λ), womit die Behauptung bewiesen ist.
2
hat also genau dann Eigenwerte, wenn PA Nullstellen besitzt. Dies Eine Matrix A ∈ muss nicht immer der Fall sein. Zum Beispiel ist für K = R und 0 1 A= ∈ R2,2 −1 0 K n,n
das charakteristische Polynom gegeben durch PA = t 2 + 1 ∈ R[t]. Dieses Polynom hat keine Nullstellen, denn es gibt keine reellen Lösungen der Gleichung t 2 = −1. Fassen wir A als komplexe Matrix auf (d. h. als ein Element von C2,2 ), so hat PA ∈ C[t] die beiden komplexen Nullstellen i und −i. Aufgefasst als komplexe Matrix hat A daher die beiden Eigenwerte i und −i. Die Existenz von Eigenwerten kann somit davon abhängen, über welchem Körper man eine gegebene Matrix betrachtet! Aus Satz 8.10 folgt ebenfalls, dass zwei ähnliche Matrizen A, B ∈ K n,n die gleichen Eigenwerte besitzen, denn ihre charakteristischen Polynome sind gleich (vgl. Satz 8.8). Zudem folgen zusammen mit (7.3) weitere nützliche Kriterien für die Invertierbarkeit von A ∈ K n,n :
100
8 Das charakteristische Polynom und Eigenwerte von Matrizen
A ∈ G L n (K ) ⇔ 0 ist kein Eigenwert von A ⇔ 0 ist keine Nullstelle von PA
(8.3)
8.3 Eigenvektoren stochastischer Matrizen Wir betrachten nun das in Kap. 1 beschriebene „Google-Eigenwertproblem“. Die Modellierung der Verbindungsstruktur im Internet führt auf eine Gleichung der Form Ax = 1x = x. Hierbei ist A = [ai j ] ∈ Rn,n (n=Anzahl der Internetseiten) mit ai j ≥ 0 und
n
ai j = 1 für
j = 1, . . . , n.
i=1
Eine solche Matrix A nennt man spalten-stochastisch. x = x und x = [x 1 , . . . , xn ]T = 0, wobei der Gesucht ist nun ein x ∈ Rn,1 mit A Eintrag xi die „Wichtigkeit“ der Internetseite i darstellt. Gewünscht sind nur nicht-negative „Wichtigkeiten“, d. h. es soll xi ≥ 0 für i = 1, . . . , n gelten. Wir haben daher das folgende Problem zu lösen: Bestimme einen Eigenvektor von A mit nicht-negativen Einträgen zum Eigenwert λ = 1. Wir überzeugen uns zunächst davon, dass dieses Problem eine Lösung hat. Danach untersuchen wir die Eindeutigkeit dieser Lösung. Unsere Darstellung orientiert sich an [BryL06]. Lemma 8.11 Eine spalten-stochastische Matrix A ∈ Rn,n hat einen Eigenvektor zum Eigenwert 1. Beweis Sei A = [ai j ] spalten-stochastisch. Nach Satz 8.10 ist 1 genau dann ein Eigenwert von A, wenn 1 ein Eigenwert von A T ist. Für e := [1, . . . , 1]T ∈ Rn,1 gilt ⎡n
i=1 ai1
⎢ .. AT e = ⎣ n .
⎤ ⎥ ⎦=e
i=1 ain
und somit gibt es auch einen Eigenvektor zum Eigenwert 1 von A.
2
Wir nennen eine Matrix mit reellen Einträgen positiv, wenn alle ihre Einträge positiv sind. x ∈ Rn,1 ein Eigenvektor Lemma 8.12 Ist A ∈ Rn,n positiv und spalten-stochastisch und ist von A zum Eigenwert 1, dann ist entweder x oder − x positiv. x = A x, Beweis Ist x = [x 1 , . . . , x n ]T ein Eigenvektor von A = [ai j ] zum Eigenwert 1, d. h. dann gilt xi =
n j=1
ai j x j ,
i = 1, . . . , n.
8.3
Eigenvektoren stochastischer Matrizen
101
Sind nicht alle Einträge von x positiv (oder sind nicht alle Einträge negativ), so gibt es mindestens einen Index k mit |xk |