Springer-Lehrbuch
Karl-Heinz Goldhorn · Hans-Peter Heinz
Mathematik für Physiker 1 Grundlagen aus Analysis und Linearer Algebra Mit 17 Abbildungen
123
Dr. Karl-Heinz Goldhorn Professor Dr. Hans-Peter Heinz Johannes-Gutenberg-Universität Mainz Institut für Mathematik – Fachbereich 08: Physik, Mathematik, Informatik Staudinger Weg 9 55099 Mainz, Germany E-Mail:
[email protected] Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.ddb.de abrufbar.
ISSN 0937-7433 ISBN 978-3-540-48767-8 Springer Berlin Heidelberg New York Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Springer ist ein Unternehmen von Springer Science+Business Media springer.de c Springer-Verlag Berlin Heidelberg 2007 Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, daß solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Satz und Herstellung: LE-TEX Jelonek, Schmidt & Vöckler GbR, Leipzig Einbandgestaltung: WMXDesign GmbH, Heidelberg Gedruckt auf säurefreiem Papier
56/3100/YL - 5 4 3 2 1 0
Für Christel und Lin, ohne deren Geduld und Unterstützung dies nicht möglich gewesen wäre.
Vorwort
Lehrbücher, die – wörtlich oder sinngemäß – den Titel „Mathematik für Physiker“ tragen, sind in den letzten Jahren mit zunehmender Häufigkeit erschienen. Dass wir dennoch ein weiteres derartiges Werk vorlegen, hat folgenden Grund: Der erste Autor hat über gut drei Jahrzehnte hinweg die mathematische Ausbildung der Studierenden der Physik an der Johannes GutenbergUniversität Mainz maßgeblich mitgestaltet, und zwar, wie wir ohne Übertreibung sagen dürfen, mit einer ausgesprochen positiven Resonanz bei Lehrenden und Lernenden gleichermaßen. Die fragliche Lehrtätigkeit bestand nicht nur aus einem viersemestrigen Grundkurs, der immer wieder umgestaltet, modernisiert und optimiert wurde, sondern auch aus weiterführenden Vorlesungen zu Themen wie etwa „Differenzialoperatoren der mathematischen Physik“, „Lineare Analysis“, „Gruppen und Darstellungen in der Physik“ oder „Mannigfaltigkeiten in der Physik“. Der zweite Autor hat sich bei seiner eigenen Lehrtätigkeit im Rahmen des Service für die Physiker mit diesem Material auseinander gesetzt und ist dabei zu der Überzeugung gelangt, dass es verdient, der Nachwelt erhalten zu bleiben und einem größeren Kreis von Interessenten zugänglich gemacht zu werden. So entstand der Plan, es zu einem modernen Lehrwerk auszugestalten, ergänzt durch weiterführende Abschnitte, zusätzliche Übungsaufgaben, Ausblicke und Literaturhinweise für die stärker theoretisch orientierten Studierenden. Das vorliegende Buch ist der erste von drei geplanten Bänden, und ein weiteres Lehrbuch, das auf einem fortgeschrittenen Niveau ansetzt (nämlich [14]) ist in Vorbereitung. Die große Beliebtheit der Vorlesungen, aus denen dieses Buch und seine Nachfolgebände entstanden sind, dürfte in erster Linie auf ihre kompromisslose Konzentration aufs Wesentliche zurückzuführen sein. Die mathematische Ausbildung der zukünftigen Physiker und Physikerinnen steht heute ja mehr denn je im Spannungsfeld zwischen zwei gegensätzlichen Anforderungen: Einerseits verwendet und benötigt die Physik – zumindest in ihrer theoretischen Ausrichtung – immer mehr und immer anspruchsvollere Mathematik aus den verschiedensten Teildisziplinen dieser vielfältigen Wissenschaft, und so entsteht das Bedürfnis, die Studierenden sogar schon im Grundstudium zur Be-
VIII
Vorwort
herrschung einer erstaunlichen Fülle mathematischer Werkzeuge anzuleiten. Andererseits bleibt die Mathematik für die physikalischen Studiengänge doch nur ein Nebenfach, das auf keinen Fall das Kerngeschäft Physik beeinträchtigen oder davon ablenken soll, zumal einige eher experimentell orientierte Fachleute argumentieren werden, dass der durchschnittliche Physiker für einen Großteil der fortgeschrittenen mathematischen Werkzeuge gar keine Verwendung habe. Die neuen Bachelor- und Master-Studiengänge mit ihrer stärkeren Straffung der Studieninhalte werden dieses Dilemma noch verschärfen. Wir behaupten nicht, dass uns hier die Quadratur des Kreises gelungen wäre, aber wir glauben, dass wir zu einer recht guten Approximation gelangt sind. Dabei präsentieren wir in einem „Basistext“ ein Minimalprogramm, das man jedem Studierenden der Physik zumuten muss, und in den jedem Kapitel beigefügten „Ergänzungen“ bieten wir den mathematisch interessierten Lesern – die tendenziell auch in ihrer physikalischen Laufbahn eher theoretisch ausgerichtet sein werden – anregenden, aufregenden und nutzbringenden Zusatzstoff. Entfernt man aus jedem Kapitel die Abschnitte „Ergänzungen“, „Aufgaben“ sowie die als „Formelsammlung“ gekennzeichneten Sonderabschnitte, so bleiben ca. 250 Seiten Basistext übrig, und auf diesen 250 Seiten behandeln wir den gesamten üblichen Stoffkanon der Differenzial- und Integralrechnung in einer und mehreren Variablen (mit Ausnahme der Potenzreihen, die am Beginn des zweiten Bandes im Zusammenhang mit komplexer Funktionentheorie systematisch diskutiert werden), die Grundlagen der linearen Algebra einschl. Räumen mit Skalarprodukt und ihrer speziellen Transformationen, ferner die klassische Vektoranalysis in zwei und drei Dimensionen, elementar lösbare Differenzialgleichungen erster und zweiter Ordnung sowie lineare Systeme von Differenzialgleichungen erster Ordnung, und schließlich die wichtigsten topologischen Grundlagen der Analysis. Bei der Ausgestaltung dieses Basistexts haben wir uns von folgenden Gedanken leiten lassen: • Die Auswahl des Stoffes deckt ein breites Spektrum mathematischer Konzepte und Methoden ab, die für die heutige Physik relevant sind. Im Gegenzug wird das Herumreiten auf angeblich erhellenden Einzelheiten, in das man als Mathematiker so gerne verfällt, überall dort vermieden, wo sie sich in der Praxis als nicht wirklich erhellend erwiesen haben. Gerade in dieser Hinsicht wurde das zugrunde liegende Vorlesungsskript im Laufe einer langjährigen Lehrerfahrung immer weiter optimiert. Die umfangreiche Sammlung von Übungsaufgaben liefert natürlich etliche Details nach, die im Basistext vermisst werden könnten. • Die Anordnung des Materials folgt nicht so sehr einer mathematischen Systematik als vielmehr den kurrikularen Bedürfnissen des Physikstudiums. Das wirkt zwar oft etwas unkonventionell und führt auch zu gewissen Redundanzen, vermeidet aber den verbreiteten Missstand, dass wichtige mathematische Begriffe und Methoden von den Dozenten der Physik ad hoc eingeführt werden müssen, weil das betreffende Material im mathemati-
Vorwort
•
•
•
•
IX
schen Grundkurs erst viel später an der Reihe ist. Dabei werden auch Vorwärtszitate in Kauf genommen, und diese werden didaktisch nutzbringend eingesetzt, indem abstraktere und für die Studierenden schwer motivierbare theoretische Überlegungen zurückgestellt werden, bis sie schließlich als Lösung eines schon durch mehrfache Erfahrung vertrauten Problems in Erscheinung treten. Ebenso haben die erwähnten Redundanzen einen didaktischen Nutzeffekt, da man einen abstrakten Begriff wesentlich besser versteht, wenn man vorher schon sein Auftreten in verschiedenen konkreten Situationen erlebt hat. Die Präsentation und sprachliche Ausgestaltung folgt dem Prinzip, dass gute Didaktik nicht darin besteht, möglichst viele Worte zu machen, sondern durch wenige gut gewählte Worte erreicht wird, unterstützt durch geeignete Illustrationen und ein breites Angebot von sinnvollen Übungsaufgaben. Ein derartiges Lehrbuch existiert ja nicht im luftleeren Raum, sondern wird i. Allg. im Rahmen des Lehrbetriebs an einer Hochschule benutzt, wo den Studierenden stets kompetente Ansprechpartner für ihre Fragen zur Verfügung stehen dürften. Ein Buchautor sollte also nicht versuchen, jede denkbare Frage zu beantworten, die ein Leser oder eine Leserin eventuell haben könnte, sondern seine Kommentare darauf beschränken, den wichtigsten und offensichtlichsten Quellen von Unverständnis oder Missverständnissen entgegenzutreten. Die meisten Behauptungen werden auch bewiesen oder hergeleitet, doch handelt es sich nur im Ausnahmefall um die detaillierte Ausführung eines mathematisch rigorosen Beweises. Zumeist ist es eine recht knappe Darstellung des prinzipiellen Gedankengangs, manchmal unterstützt durch Veranschaulichungen oder physikalische Motivationen. Die Beweisteile, die am ausführlichsten dargestellt sind, sind Rechengänge, wie sie auch für die Praxis des Physikers typisch sind. Manchmal wird ein leichter Spezialfall bewiesen und die dringend benötigte allgemeinere Version schlicht berichtet. Bei Bedarf sind Literaturzitate als Quellennachweis angeführt. Einfache Beweisdetails nachzuliefern ist natürlich für die Studierenden immer eine gute Übung, und an vielen Stellen werden die Leser ausdrücklich hierzu aufgefordert. Wo immer auf einen vollständigen Beweis verzichtet wird, wird deutlich erklärt, dass hier eine Beweislücke in Kauf genommen wurde. Im Sinne der begrifflichen Klarheit und der Schulung der mathematischen Kritikfähigkeit erscheint es uns nämlich dringend geboten, dem Leser stets reinen Wein darüber einzuschenken, ob er es gerade mit einem strengen Beweis, einer Beweisskizze oder einer bloßen Plausibilitätserklärung zu tun hat. Was als Beweis bezeichnet wird, kann ein knapp skizzierter Beweis sein, aber kein fehlerhafter. Hier und da werden exemplarisch auch mathematische Beweise in aller Strenge und Ausführlichkeit dargeboten, um die Studierenden mit der mathematischen Denk- und Ausdrucksweise zu konfrontieren und ihre Kritikfähigkeit bezüglich mathematischer Vertrauenswürdigkeit einer Argumen-
X
Vorwort
tation zu schulen. Dies scheint uns in der Tat – zumindest für die begabteren Studierenden – ein wichtiger Aspekt zu sein, angesichts einer schier unübersehbaren Flut von Fachliteratur, bei der junge Wissenschaftler es oft als eine Herausforderung empfinden, zwischen vertrauenswürdigen und weniger vertrauenswürdigen Beiträgen zu unterscheiden. • Manche weiterführenden Themen, die den Rahmen des Buches sprengen würden, werden durch Verwendung einer modernen mathematischen Sprache, durch frühzeitige Einführung bestimmter Grundbegriffe (z. B. Gruppen) und durch Diskussion von illustrativen Beispielen gezielt vorbereitet. In Bezug auf die Sprache steuern wir allerdings einen Mittelweg und benutzen häufig auch ältere, in der angewandten Literatur verbreitete Sprechweisen, um für die Leser nicht eine unnötige Sprachbarriere zu schaffen. • Wir möchten der Sprachbarriere zwischen Mathematik und Physik weiter entgegenwirken, indem wir überall dort, wo für ein und dieselbe Sache unterschiedliche Konventionen oder Terminologien benutzt werden, explizit auf diesen Umstand hinweisen und die beiden Terminologien gleichberechtigt nebeneinander stellen. • Der Basistext ist auch als Nachschlagewerk zur Klausur- und Prüfungsvorbereitung verwendbar. Dies wird zum einen durch ein sehr ausführliches Sachregister erreicht, zum anderen dadurch, dass die nummerierten und kursiv gedruckten Zusammenfassungen i. Allg. für sich alleine verständlich sind und das unverzichtbare Katalogwissen abdecken. Durch die Wahl der Überschriften „Theorem“, „Satz“, „Korollar“ und „Lemma“ wird unter den mathematischen Behauptungen eine Reihung bezüglich ihrer Wichtigkeit vorgenommen, die den Anfängern den Überblick über den Stoff erleichtern soll. Die schon angesprochenen „Ergänzungen“, mit denen wir den mathematisch interessierten Leserinnen und Lesern entgegenkommen wollen, sind weniger straff organisiert und sprachlich meist in einem essayistischen Ton gehalten. Sie bieten in loser Folge: -
Nachträge von Beweisen oder Beweisschritten mit stärker theoretischem Charakter, interessante Beispiele und Gegenbeispiele, mögliche Verallgemeinerungen (soweit sie physikalisch relevant sind) und Ausblicke auf fortgeschrittene Themen und entsprechende Literaturhinweise.
Die Aufgabensammlung enthält etwa zu 70–80% Aufgaben, bei denen das Schwergewicht auf dem Einüben von Rechentechniken liegt. Theoretische Aufgaben, die helfen, Begriffe zu klären, Beweisschritte nachzutragen, logisches Argumentieren zu üben oder Ausblicke auf zusätzlichen Stoff zu geben, sind durchaus vertreten, aber nur zu 20–30%. Diese Angaben bleiben unpräzise, weil die Grenze zwischen beiden Aufgabentypen fließend ist. Bei den allermeisten Aufgaben, in denen Beweise verlangt werden, bestehen diese Beweise aus
Vorwort
XI
intelligenten Rechnungen, wie sie auch in der theoretischen Physik gang und gäbe sind. Das Material dieses ersten Bandes entspricht, wenn man nur den Basistext berücksichtigt, etwa anderthalb bis zwei Semestern eines vierstündigen Vorlesungszyklus. Es lässt sich in vielerlei Weise umstellen oder auch durch Streichen gewisser Abschnitte auf ein Semester reduzieren. Z. B. ist es denkbar, die Kap. 4 und 8 und/oder die Kap. 10 und 12 wegzulassen, wenn gesichert ist, dass die entsprechenden Themen – also die elementare Theorie der linearen Differenzialgleichungen im ersten Fall, die Vektoranalysis und Integralsätze in zwei und drei Dimensionen im zweiten – den Studierenden im Rahmen ihrer physikalischen Lehrveranstaltungen in befriedigender Weise nahe gebracht werden. Es spricht auch sachlich nichts dagegen, mit linearer Algebra zu beginnen, also etwa die Kap. 5–7 direkt hinter Kap. 1 einzufügen. Uns scheint es jedoch psychologisch günstiger, in den ersten Wochen noch bei Material zu verweilen, das wenigstens teilweise aus der Schule vertraut ist. Unendliche Reihen werden erst recht spät eingeführt (nämlich am Schluss von Kap. 13), und das ist unserer Meinung nach angebracht, weil andere Themen für die Physik vordringlicher sind, aber auch hier ist nach geringer Modifikation eine Verschiebung der entsprechenden Abschnitte in den Teil über Analysis in einer reellen Variablen leicht möglich. Des Weiteren lässt sich Zeit sparen, indem man die Redundanzen des Textes vermeidet. In erster Linie betrifft das die topologischen Grundbegriffe über Mengen und Abbildungen im ndimensionalen euklidischen Raum, die in den Kap. 8–12 überall dort, wo man sie braucht, ad hoc eingeführt werden, obwohl sie dann in den Kap. 13, 14 im Kontext metrischer Räume durchaus systematisch behandelt werden. Die Kap. 13 und 14 sowie ein Großteil von Kap. 15 lassen sich aber vor die Analysis in mehreren Variablen schieben, und dann kann man die provisorische Behandlung besagter topologischer Grundbegriffe einsparen. Allerdings entsteht dabei für die Studierenden eine ausgesprochene Durststrecke, in der sie keine Anwendung und erst recht keine physikalische Motivation für das theoretische Material wahrnehmen können. Es war in erster Linie dieser Umstand, der uns von unserer Anordnung überzeugt hat. Zusammen mit den nächsten beiden Bänden wird sich ein drei- bis viersemestriger Grundkurs ergeben. Für diese Bände sind die folgenden Themen vorgesehen: • • • •
Potenzreihen und komplexe Funktionentheorie, Exponentialfunktion von Matrizen und klassische Gruppen, Allgemeine Theorie der gewöhnlichen Differenzialgleichungen: Existenz, Eindeutigkeit und Stabilität, dynamische Systeme, Flüsse und Phasenporträts, Ausblick auf deterministisches Chaos, Teilmannigfaltigkeiten des euklidischen Raums, Extremwertaufgaben mit Nebenbedingungen, Pfaff’sche Formen, Integration über Teilmannigfaltigkeiten, Gauss’scher Integralsatz in beliebiger Dimension,
XII
Vorwort
• Variationsrechnung und mathematische Grundlagen der klassischen Mechanik, • Orthogonalreihen, insbes. Fourierreihen, • Potenzialgleichung, Wellengleichung, Wärmeleitungsgleichung, • Reihenansätze für Randwertprobleme und Anfangs-Randwertprobleme, Sturm-Liouville-Probleme, spezielle Funktionen und • Integraltransformationen und ihre Anwendung auf partielle Differenzialgleichungen. Die mathematischen Grundlagen von Quantenmechanik und Relativitätstheorie finden in diesem Basiskurs allerdings keinen Platz, sondern sind dem geplanten Aufbaukurs [14] vorbehalten. Zuletzt bleibt die angenehme Pflicht, allen denjenigen, die dieses Unternehmen mit Rat und Tat unterstützt haben, unseren herzlichen Dank auszusprechen. An erster Stelle sind hier Prof. Dr. Volker Bach und Prof. Dr. Florian Scheck zu nennen, die uns zu diesem Projekt ermutigt und wertvolle Hinweise und Hilfestellungen gegeben haben. Des Weiteren danken wir Herrn Prof. Dr. Nils Blümer und Frau Privatdozentin Dr. Margarita Kraus für ihre Durchmusterung großer Teile des Manuskripts und die daraus resultierenden kritischen Anmerkungen und konstruktiven Vorschläge. Herr stud. nat. Martin Huber hat mit großer Gewissenhaftigkeit die Zeichnungen angefertigt, immer wieder technisch unterstützt von Herrn Dr. Peter Dauscher, und Frau Renate Emerenziani hat sich mit bewundernswertem Fleiß und Sachverstand der mühseligen Aufgabe unterzogen, die handschriftliche Vorlage in LaTeX-Quelltext zu verwandeln. Ihnen allen gilt unser aufrichtiger Dank. Last but not least danken wir den betroffenen Mitarbeiterinnen und Mitarbeitern des SpringerVerlags, die uns stets mit Verständnis, Geduld, Flexibilität und großer Kompetenz zur Seite gestanden haben.
Mainz, Oktober 2006
Karl-Heinz Goldhorn Hans-Peter Heinz
Benutzerhinweise
Wenn Sie als Student oder Studentin mit Hauptfach Physik dieses Buch zur Hand nehmen, so ist es mit einiger Wahrscheinlichkeit das erste Mathematikbuch auf Hochschulniveau, in das Sie je hinein geschaut haben. Natürlich liest man ein solches Buch nicht von vorne bis hinten durch – das wäre sehr mühsam und würde auch nicht viel nützen. Hier also ein paar Tipps und Tricks über den effizienten Umgang mit diesem Buch: •
•
•
Entfernt man aus jedem Kapitel die Ergänzungen und Aufgaben sowie die als Formelsammlung gekennzeichneten Sonderabschnitte, so bleiben etwa 250 Seiten „Basistext“ übrig. Dieser enthält ein mathematisches Minimalprogramm, ohne das man heute keine ernst zu nehmende Physik betreiben kann, und Gleiches gilt für die entsprechenden Teile der weiteren Bände. Die Ergänzungen hingegen sind vollkommen freiwillig und wenden sich vor allem an diejenigen unter Ihnen, die sich für Mathematik und ihre Anwendung in der Naturforschung besonders interessieren und eventuell auch eine Laufbahn im Bereich der theoretischen Physik anstreben. Die wichtigen mathematischen Informationen (Begriffe und Resultate) sind, soweit sie sich kurz und prägnant formulieren lassen, in nummerierten und kursiv gedruckten Zusammenfassungen versammelt, wie es heute in der Mathematik weithin üblich ist. Dabei sind die mathematischen Behauptungen durch feste Überschriften nach ihrer Wichtigkeit geordnet: Ein Theorem ist ein Hauptsatz, den man im Schlaf beherrschen und auch bei jeder Prüfung reproduzieren können muss. Ein Lemma ist ein Hilfssatz, der eigentlich nur innerhalb einer größeren mathematischen Argumentationskette einen wesentlichen Schritt markiert und den man deshalb notfalls auch wieder vergessen darf, nachdem man ihn einmal verstanden hat. Irgendwo dazwischen sind die Sätze und Korollare angesiedelt, wobei der Ausdruck „Korollar“ darauf hinweist, dass es sich um eine einfache Folgerung aus vorhergehenden Resultaten handelt. Der Rest des Basistextes besteht aus Kommentaren, Erläuterungen, Motivationen, Beispielen und mathematischen Beweisen. Die Beweise sind oft
XIV
Benutzerhinweise
nur skizziert, und Beweistechniken, die für die Physik untypisch sind, werden fast immer weggelassen. Die im Text vorgeführten Details sind daher i. Allg. als Vorbilder, Musterbeispiele und Anregungen für Ihre eigenen Überlegungen nutzbringend, und darin liegt ihr hauptsächlicher Zweck. Häufig werden Sie aufgefordert, gewisse Einzelheiten als Übung selber zu ergänzen, und dies ist stets zu empfehlen (auch ohne ausdrückliche Aufforderung), denn die Beherrschung von Mathematik ist in erster Linie eine Sache von Fähigkeiten, und diese erwirbt man sich durch das aktive Betreiben von Mathematik anhand von Übungsproblemen, die in Gestalt von Aufgaben oder eben als fehlende Details in einer Schlusskette auf einen zukommen. • Ein Buch wie dieses wird in kleinen Portionen durchgearbeitet, meist parallel zu einem entsprechenden Vorlesungszyklus an einer Hochschule oder zur Ergänzung der Lehrveranstaltung während der Semesterferien. Dabei wird der aktuelle Abschnitt nicht nur aufmerksam durchgelesen. Man versucht vielmehr, sich von den eingeführten abstrakten Begriffen und Sachverhalten möglichst zutreffende konkrete Bilder zu machen und sich von der Zweckmäßigkeit der Begriffsbildungen anhand von Beispielen und Anwendungen zu überzeugen. Ebenso wichtig ist es, die Korrektheit der Rechnungen und die Logik der mathematischen Schlüsse nachzuvollziehen und die eigene Fähigkeit zur Durchführung derartiger Berechnungen und Beweisschritte durch ständiges Üben immer weiter zu vervollkommnen. Das pure Auswendiglernen sollte dagegen in den Hintergrund treten und sich quasi durch die intensive aktive Beschäftigung mit dem Material von selbst erledigen. • Wer den Stoff grundsätzlich gut verstanden hat, kann sich gegenüber vielen Details auch die Philosophie „Bildung ist, wenn man weiß, wo ’s steht“ erlauben und dieses Buch als Nachschlagewerk benutzen. Dabei unterstützen Sie ein ausführliches Sachverzeichnis, unzählige Querverweise und nicht zuletzt die Tatsache, dass die nummerierten Zusammenfassungen weitgehend für sich verständlich sind, also nur wenig Kontextinformation benötigen. Insbesondere kann man das Buch zur gezielten Wiederholung vor Prüfungen nutzen, indem man sich an den Kursivtext hält.
Und nun wünschen wir viel Erfolg und möglichst auch Spaß an der Sache!
Inhaltsverzeichnis
Benutzerhinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .XIII Teil I Analysis in einer reellen Variablen 1
Reelle und komplexe Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A. Mengen, Funktionen, Körper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B. Anordnung, Betrag, Induktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . C. Das Supremumsaxiom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . D. Der Körper der komplexen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . E. Wurzeln algebraischer Gleichungen . . . . . . . . . . . . . . . . . . . . . . . . F. Elementare Funktionen (Formelsammlung) . . . . . . . . . . . . . . . . . Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 3 8 12 14 17 19 25 31
2
Differenziation in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A. Reelle Zahlenfolgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B. Stetigkeit in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . C. Ableitung von Funktionen einer Variablen . . . . . . . . . . . . . . . . . . D. Mittelwertsatz und Taylorformel . . . . . . . . . . . . . . . . . . . . . . . . . E. Die Regeln von De L’Hospital . . . . . . . . . . . . . . . . . . . . . . . . . . . F. Elementare Funktionen II (Formelsammlung) . . . . . . . . . . . . . . . Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35 35 38 42 46 49 52 54 62
3
Integration in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A. Eigenschaften des Riemann-Integrals . . . . . . . . . . . . . . . . . . . . . . B. Hauptsatz der Differenzial- und Integralrechnung . . . . . . . . . . . . C. Integrationsmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67 67 70 72 74 80
XVI
4
Inhaltsverzeichnis
Lösungsmethoden für Differenzialgleichungen . . . . . . . . . . . . . 85 A. Differenzialgleichungen 1. Ordnung . . . . . . . . . . . . . . . . . . . . . . . . 86 B. Lineare Differenzialgleichungen 2. Ordnung . . . . . . . . . . . . . . . . . 90 C. Homogene lineare Differenzialgleichung 2. Ordnung mit konstanten Koeffizienten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 D. Bestimmung einer speziellen Lösung der inhomogenen Differenzialgleichung mit der Methode der Variation der Konstanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Teil II Lineare Algebra und lineare Differenzialgleichungen 5
Vektoren, Matrizen, Determinanten . . . . . . . . . . . . . . . . . . . . . . . 113 A. Vektoren und Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 B. Lineare Gleichungssysteme und Gauß-Elimination . . . . . . . . . . 118 C. Determinanten und Permutationen . . . . . . . . . . . . . . . . . . . . . . . . 123 D. Die inverse Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 E. Lineare Gleichungssysteme, Determinanten und Rang . . . . . . . . 133 Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
6
Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 A. Dimension und Basis eines Vektorraumes . . . . . . . . . . . . . . . . . . . 143 B. Norm und Skalarprodukt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 C. Das Vektorprodukt im R3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
7
Lineare Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 A. Definition und einfache Eigenschaften linearer Abbildungen . . . 165 B. Die Matrix einer linearen Abbildung . . . . . . . . . . . . . . . . . . . . . . . 169 C. Eigenwerte linearer Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . 172 D. Lineare Abbildungen im Prähilbertraum . . . . . . . . . . . . . . . . . . . . 175 E. Unitäre und orthogonale Gruppen . . . . . . . . . . . . . . . . . . . . . . . . . 180 Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
8
Lineare Differenzialgleichungssysteme . . . . . . . . . . . . . . . . . . . . . . 197 A. Allgemeine lineare Differenzialgleichungssysteme 1. Ordnung . . 197 B. Homogene Differenzialgleichungssysteme mit konstanten Koeffizienten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 C. Spezialfälle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
Inhaltsverzeichnis
XVII
Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
Teil III Analysis in mehreren reellen Variablen 9
Differenziation in Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 A. Kurven in Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 B. Partielle Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 C. Totale Differenzierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228 D. Die Kettenregel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 E. Höhere Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 F. Die Taylor-Formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 G. Extremwertprobleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237 Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
10 Ausbau der Differenzialrechnung: Implizite Funktionen und Vektoranalysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 A. Inverse und implizite Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . 253 B. Vektorfelder und Potenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 C. Kurvenintegrale von Vektorfeldern . . . . . . . . . . . . . . . . . . . . . . . . . 260 D. Krummlinige Koordinaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 E. Die Feldoperationen in Kugel- und Zylinderkoordinaten(Formelsammlung) . . . . . . . . . . . . . . . . . . . . . 269 Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284 11 Integration im Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289 A. Definition des Riemann-Integrals . . . . . . . . . . . . . . . . . . . . . . . . . . 289 B. Eigenschaften des Riemann-Integrals . . . . . . . . . . . . . . . . . . . . . . 293 C. Iterierte Integrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298 D. Die Transformationsformel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303 Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 12 Integralsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323 A. Flächen im R3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323 B. Flächenintegrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327 C. Der Green’sche Satz in der Ebene . . . . . . . . . . . . . . . . . . . . . . . . 329 D. Integralsatz von Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331 E. Integralsatz von Stokes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336 Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344
XVIII Inhaltsverzeichnis
Teil IV Grenzprozesse 13 Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349 A. Metrische Räume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349 B. Konvergenz von Folgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351 C. Kompaktheit und Vollständigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 355 D. Konvergenz von unendlichen Reihen . . . . . . . . . . . . . . . . . . . . . . . 357 E. Konvergenzkriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361 Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371 14 Stetigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375 A. Definition der Stetigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375 B. eitere Eigenschaften stetiger Funktionen . . . . . . . . . . . . . . . . . . . . 378 C. Fixpunktsatz von Banach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379 D. Funktionenfolgen und -reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381 E. Differenziation und Integration von Folgen und Reihen . . . . . . . 386 Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391 15 Uneigentliche Integrale und Integrale mit Parameter . . . . . . 395 A. Uneigentliche Integrale in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395 B. Parameterabhängige Integrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398 C. Mehrdimensionale uneigentliche Integrale . . . . . . . . . . . . . . . . . . . 401 D. Die Euler’sche Gammafunktion . . . . . . . . . . . . . . . . . . . . . . . . . . 407 Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412 Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417 Sachverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419
Teil I
Analysis in einer reellen Variablen
1 Reelle und komplexe Zahlen
Als Vorbereitung auf die Analysis müssen wir mit einigen Grundbegriffen über Mengen und Abbildungen, die gängigen Zahlbereiche und die elementaren Funktionen beginnen. Manches davon – aber sicher nicht alles – wird Ihnen aus der Schule bekannt sein.
A. Mengen, Funktionen, Körper Die Grundbegriffe der Mengenlehre liefern für die gesamte Mathematik einen einheitlichen sprachlichen Rahmen. Diese Formulierung der Mathematik hat sich in den letzten hundert Jahren sehr bewährt und allgemein durchgesetzt, und auch wir wollen und müssen uns ihr anschließen. Daher wiederholen wir zunächst die wichtigsten Begriffe, Vokabeln, Sprech- und Schreibweisen aus der Mengenlehre. Dabei benutzen wir auch zwei logische Zeichen, die man zwischen Aussagen A, B, . . . setzt: A =⇒ B (gesprochen „A impliziert B“ oder „Aus A folgt B“ oder „Wenn A, dann B“) bedeutet, dass B wahr ist, wenn A wahr ist. Man sagt dann auch, A sei eine hinreichende Bedingung für B, oder, noch anders ausgedrückt, B sei eine notwendige Bedingung für A. Die Schreibweise A
⇐⇒
B
bedeutet A
=⇒
B und B
=⇒
A,
und man spricht sie „A äquivalent B“ oder „A gilt genau dann, wenn B gilt“ oder „A gilt dann und nur dann, wenn B gilt“. Schließlich muss noch vermerkt werden, dass das Wörtchen „oder“ im Folgenden (und auch sonst in der Mathematik!) nicht als „entweder oder“ zu
4
1 Reelle und komplexe Zahlen
verstehen ist. Die Aussage „A oder B“ schließt also den Fall ein, dass A und B beide wahr sind. Definitionen 1.1. a. Eine Menge M ist eine Zusammenfassung von verschiedenen Elementen: x ∈ M ⇐⇒ x ist ein Element von M ; y ∈ M ⇐⇒ y ist kein Element von M. b. Sind A, B Mengen, so schreibe A ⊆ B ⇐⇒ A ist Teilmenge von B ⇐⇒ (a ∈ A =⇒ a ∈ B) A = B ⇐⇒ A ⊆ B und B ⊆ A. c. Sind A, B Mengen, so definiert man (i) Durchschnitt A ∩ B = {x|x ∈ A und x ∈ B} (ii) Vereinigung A ∪ B = {x|x ∈ A oder x ∈ B} (iii) Differenz A \ B = {a ∈ A|a ∈ B} B \ A = {b ∈ B|b ∈ A} . d. Die leere Menge ∅ enthält keine Elemente. A, B disjunkt ⇐⇒ A ∩ B = ∅. Hier wurde die übliche Schreibweise {x|
...... }
verwendet, bei der durch eine Bedingung festgelegt wird, welche x zu der Menge gehören und welche nicht. Die Menge M = {x|
. . . (Bedingung an x) . . . }
besteht also exakt aus denjenigen x, die die rechts angegebene Bedingung erfüllen. Und diese Information – also was dazugehört und was nicht – ist auch alles, was die Menge M ausmacht. Wenn z. B. eine endliche Menge durch Auflistung ihrer Elemente angegeben wird wie etwa A = {2, 3, 5, 7, 11}, so ist die Reihenfolge, in der die Elemente aufgeschrieben sind, völlig unerheblich, denn sie hat ja keinen Einfluss darauf, was dazugehört und was nicht.
A. Mengen, Funktionen, Körper
5
Die obige Menge A könnte ebenso gut beschrieben werden als die Menge aller Primzahlen, die kleiner sind als 12, und in dieser Beschreibung kommt keine Reihenfolge mehr vor. Die Mengenlehre kennt aber auch echte Listen, bei denen also die Reihenfolge ein Teil der mitgelieferten Information ist. Eine Liste (x, y) aus zwei Elementen nennt man auch ein geordnetes Paar, eine aus drei Elementen ein Tripel, bei vier Elementen spricht man von einem Quadrupel, und bei einer unbestimmten oder beliebigen Anzahl n von Elementen spricht man von einem n-Tupel und schreibt x = (x1 , . . . , xn ) für die gesamte, hier mit x abgekürzte Liste. Aus solchen Listen lassen sich natürlich neue Mengen bilden, was im ersten Teil der nächsten Definition für den Fall der geordneten Paare geschieht. Definitionen 1.2. Seien A, B Mengen. a. Dann ist das kartesische Produkt A×B die Menge A×B = {(a, b)|a ∈ A, b ∈ B}. b. Sei D ⊆ A. Eine Abbildung (Funktion) f aus A in B ist eine Vorschrift, die jedem a ∈ D genau ein b = f (a) ∈ B zuordnet, das sogenannte Bild von a unter f oder den Funktionswert von f an der Stelle a. Schreibe: A⊇D a− → f (a) ∈ B f : D −→ B, D ⊆ A. Man nennt: D = D(f ) ⊆ A den Definitionsbereich von f . R = R(f ) = {b ∈ B|b = f (a) für ein a ∈ D} ⊆ B den Wertebereich von f . G = G(f ) = {(a, b)|a ∈ D, b = f (a)} ⊆ A × B den Graph von f . Für D0 ⊆ D(f ) heißt f (D0 ) das Bild von D0 , und für C ⊆ B heißt f −1 (C) = {a ∈ D|f (a) ∈ C} ⊆ D das inverse Bild (Urbild) von C. c. Sind f1 : A ⊇ D1 −→ B,
f2 : A ⊇ D2 −→ B
Funktionen aus A in B, so definiert man: f1 ⊆ f2 ⇐⇒ f1 ist Einschränkung von f2 ⇐⇒ f2 ist Fortsetzung von f1 ⇐⇒ D1 ⊆ D2 und f1 (x) = f2 (x) für x ∈ D1 ⇐⇒ f1 = f2 |D1 f1 = f2 ⇐⇒ D1 = D2 und f1 (x) = f2 (x) für x ∈ D1 . Das vielleicht vertrauteste Beispiel für ein kartesisches Produkt entsteht, wenn wir für A und B die Zahlengerade R nehmen. Die geordneten Paare (x, y)
6
1 Reelle und komplexe Zahlen
mit x, y ∈ R kann man dann als Punkte einer Ebene deuten, wobei jeweils x die Abszisse, y die Ordinate des betreffenden Punktes ist. Dann ist also A × B = R2 die Ebene. Für eine Funktion f : R → R besteht der Graph G(f ) ⊆ R2 gerade aus den Punkten, die man zeichnen würde, wenn man versucht, den „Kurvenverlauf“ der Funktion in der Ebene grafisch darzustellen. Definitionen 1.3. Sei f : A ⊇ D −→ B eine Funktion. a. f heißt injektiv (eineindeutig), wenn D x1 ,x2 , x1 = x2 =⇒ f (x1 ) = f (x2 ). In diesem Fall existiert die inverse Abbildung (Umkehrfunktion) f −1 : B ⊇ R(f ) −→ A von f mit f −1 (f (x)) = x
für x ∈ D(f ) = R(f −1 )
f (f −1 (y)) = y
für y ∈ R(f ) = D(f −1 ) .
b. f heißt surjektiv, wenn R(f ) = B und f heißt bijektiv, wenn f injektiv und surjektiv ist. c. Ist g : B ⊇ D(g) −→ C eine zweite Funktion, mit R(f ) ⊆ D(g), so heißt h := g ◦ f : A ⊇ D(f ) −→ C (g ◦ f )(x) := g(f (x)), x ∈ D(f ) die Komposition von g mit f . Als Nächstes definieren wir spezielle Rechenoperationen und Objekte wie Gruppen und Körper. Wir benötigen dazu aber noch zwei logische Zeichen, nämlich die sog. Quantoren „∀“ (gesprochen „für alle“) und „∃“ (gesprochen „es gibt“): Wird einer Aussage über Elemente x einer festen Grundmenge M das Zeichen ∀x∈M hinzugefügt, so bedeutet dies, dass die Aussage für jedes x ∈ M gilt. Wird das Zeichen ∃x∈M hinzugefügt, so bedeutet dies, dass die Aussage für mindestens ein x ∈ M gilt. Mit anderen Worten: Es gibt dann in der Menge M (mindestens) ein Element x, für das die betreffende Aussage gültig ist. Wenn aus dem Zusammenhang heraus klar ist, um welche Grundmenge M es sich handelt, so kann die Nennung vom M natürlich auch entfallen.
A. Mengen, Funktionen, Körper
7
Definitionen 1.4. a. Eine Menge G = ∅ heißt eine Gruppe, wenn in G eine Verknüpfung G × G (a, b) −→ a ◦ b = ab ∈ G definiert ist mit folgenden Eigenschaften: (i) Assoziativgesetz: (ab)c = a(bc)
∀ a, b, c ∈ G .
(ii) Existenz einer Eins (neutrales Element): Es existiert ein e ∈ G mit ∀a∈G.
ea = ae = a
(iii) Existenz eines inversen Elementes: Zu jedem a ∈ G existiert genau ein a−1 ∈ G mit aa−1 = a−1 a = e . Gilt zusätzlich das (iv) Kommutativgesetz ab = ba
∀ a, b ∈ G .
so heißt G eine Abel’sche ( = kommutative) Gruppe. b. Eine Menge K mit wenigstens 2 Elementen heißt ein Körper, wenn in K zwei Verknüpfungen K × K (x, y) −→ x + y ∈ K
Addition
K × K (x, y) −→ x · y = xy ∈ K
Multiplikation
definiert sind mit folgenden Eigenschaften: (i) K ist bzgl. + eine abel’sche Gruppe mit neutralem Element 0. (ii) K \ {0} ist bzgl. · eine abel’sche Gruppe mit neutralem Element 1. (iii) Distributivgesetz x(y + z) = xy + xz
∀ x, y, z ∈ K .
Die drei Rechenregeln für die Verknüpfung in einer Gruppe nennt man Gruppenaxiome. Die grundlegenden Rechenregeln für Addition und Multiplikation in einem Körper bezeichnet man entsprechend als Körperaxiome. Was man sich konkret unter einer Gruppe oder einem Körper vorzustellen hat, ist an dieser Stelle für Sie wahrscheinlich noch recht unklar. Es wird immer klarer werden, je mehr Beispiele für Gruppen bzw. Körper Sie kennenlernen. Erste Beispiele werden wir in Kürze antreffen, wenn wir die wichtigsten Zahlensysteme diskutieren (vgl. 1.6). Axiomatische Definitionen sind in der Mathematik aus dem Bedürfnis entstanden, die Gemeinsamkeiten vieler verschiedener Situationen herauszukristallisieren. Bei einer erfolgreichen axiomatischen
8
1 Reelle und komplexe Zahlen
Theorie werden aus den Axiomen – manchmal sehr weitgehende – logische Schlussfolgerungen gezogen, und alle diese Folgerungen stehen dann in jeder Situation, wo die Axiome erfüllt sind, als gesicherte Erkenntnis zur Verfügung. Es handelt sich also um ein Mittel, die Mathematik möglichst effizient zu gestalten – man kommt mit möglichst geringem Aufwand an Beweisen zu möglichst umfangreichen und vielseitig anwendbaren Resultaten. Folgende Aussagen lassen sich leicht aus den Körperaxiomen herleiten: Satz 1.5. Sei K ein Körper. Dann gilt für x, y, z ∈ K: a. x·0 = 0
∀x∈K
x·y = 0
=⇒ x = 0 oder y = 0 .
b. (−x) y = −(xy) = x(−y) (−x) (−y) = xy . c. Die Gleichung x+y =z hat für gegebene x, z ∈ K stets die eindeutige Lösung y = z − x := z + (−x) . d. Die Gleichung x·y =z hat für alle x, z ∈ K, x = 0, die eindeutige Lösung y=
z := zx−1 = x−1 z . x
B. Anordnung, Betrag, Induktion Folgende Mengen setzen wir als bekannt voraus: Definitionen 1.6. N = {1, 2, 3, . . . }
die Menge der natürlichen Zahlen,
N0 = {0, 1, 2, . . . } = N ∪ {0} , Z = {0, 1, −1, . . . } die Menge der ganzen Zahlen und p die Menge der rationalen Zahlen. Q = r = , p, q ∈ Z, q = 0 q
B. Anordnung, Betrag, Induktion
9
Z bildet bzgl. „+“ eine Gruppe, Q bildet bzgl. „+“ und „·“ einen Körper, der jedoch die unangenehme Eigenschaft hat, dass z. B. kein r ∈ Q existiert mit r2 = 2. Es sei daher R ein Körper, der Q enthält und der außerdem Rechenoperationen wie „Wurzelziehen“ ermöglicht. Seine Elemente nennen wir reelle Zahlen. Anschaulich stellt man sich R als Zahlengerade vor, was zu folgenden zusätzlichen Eigenschaften führt, die allerdings auch Q besitzt: Definitionen 1.7. a. R (und Q) ist ein angeordneter Körper, d. h. für jedes x ∈ R gilt genau eine der Relationen x > 0 , x = 0 , −x > 0 , sodass
x>0, y>0
=⇒
x+y >0 . x·y >0
Schreibe: x > y ⇐⇒ x − y > 0 , x < y ⇐⇒ y > x ,
x ≥ y ⇐⇒ x > y oder x = y , x ≤ y ⇐⇒ y ≥ x .
b. Folgerungen: x > 0 ⇐⇒ x−1 > 0 x = 0 ⇐⇒ x2 > 0 =⇒ 1 > 0 x < y ⇐⇒ −x > −y
y >1 x x < y, c < 0 =⇒ x · c > y · c . 0 < x < y =⇒ x−1 > y −1 ,
c. Bezeichnungen: (Intervalle) Sei a < b in R. [a, b] = {x ∈ R|a ≤ x ≤ b} ]a, b] = {x ∈ R|a < x ≤ b} [a, b[ = {x ∈ R|a ≤ x < b} ]a, b[ = {x ∈ R|a < x < b} ]−∞, a] = {x ∈ R|x ≤ a} , ]−∞, a[ = {x ∈ R|x < a} [b, +∞[ = {x ∈ R|x ≥ b} , ]b, +∞[ = {x ∈ R|x > b} . Alle diese Eigenschaften und Bezeichnungen setzen wir als bekannt voraus, ebenso folgende Begriffe und Aussagen:
10
1 Reelle und komplexe Zahlen
Satz 1.8. a. Definiert man für a ∈ R den Betrag von a durch a, falls a ≥ 0 |a| := , −a , falls a < 0 so gelten für a, b, c ∈ R und ε > 0 folgende Relationen: | − a| |a|
= |a|, |(|a|)| = |a| < ε ⇐⇒ −ε < a < ε
|a + b| ≤ |a| + |b|, |ab| = |a| · |b| |a − b| . a| − |b ≤ |a + b| b. Definiert man für a, b ∈ R Maximum und Minimum durch a, für a ≥ b a, für a ≤ b max(a, b) = , min(a, b) = , b, für a < b b, für a > b so gilt 1 1 (a + b + |b − a|), min(a, b) = (a + b − |b − a|) . 2 2 Die folgenden Bezeichnungen dürften ebenfalls bekannt sein. Wir verwenden zu ihrer Formulierung wieder das Zeichen K, das für einen beliebigen Körper steht. Dabei denken wir aber (vorläufig) in erster Linie an den Körper R der reellen Zahlen: max(a, b) =
Definitionen 1.9. a. Für n ∈ N und x1 , x2 , . . . , xn ∈ K setzt man: n
xi := x1 + · · · + xn ,
i=1
0! := 1,
n
xi := x1 · · · xn
i=1
n! := 1 · 2 · 3 · · · n
(n Fakultät) .
b. Definiert man für 0 ≤ k ≤ n den Binomialkoeffizient „n über k“ durch n n! n(n − 1) · · · (n − k + 1) = , := k k! k!(n − k)! so gilt
n n n n n+1 = , + = k n−k k−1 k k n n (k + 1) = (n − k) . k+1 k
B. Anordnung, Betrag, Induktion
11
Eine der wichtigsten Eigenschaften der ganzen Zahlen Z ist die Gültigkeit des Induktionsprinzips, das eine definierende Eigenschaft von Z ist. Axiom 1.10 (Induktionsprinzip). Sei n0 ∈ Z und sei A(n) eine Aussage, die für alle ganzen Zahlen n ≥ n0 definiert ist. Angenommen man kann beweisen: a. Induktionsanfang: A(n0 ) ist richtig. b. Unter der Induktionsannahme, dass A(n) für ein n ≥ n0 richtig ist, folgt die Induktionsbehauptung, dass A(n + 1) richtig ist. Dann ist A(n) für alle n ∈ Z, n ≥ n0 richtig. Beispiel. Es gilt: n! > 2n für alle n ≥ n0 = 4, denn a. 4! = 24 > 16 = 24 . b. Gelte n! > 2n =⇒ (n + 1)! = (n + 1) · n! > (n + 1) · 2n > 2 · 2n = 2n+1 . Folgende Aussagen können durch Induktion als Übung bewiesen werden: Satz 1.11. a. Für jedes h ≥ −1 und n = 0, 1, 2, . . . gilt die Bernoulli’sche Ungleichung (1 + h)n ≥ 1 + nh . b. Für q ∈ K, q = 1 und n = 0, 1, 2, . . . gilt die Summenformel für die endliche geometrische Reihe n
qk = 1 + q + q2 + · · · + qn =
k=0
1 − q n+1 . 1−q
c. Für a, b ∈ K und n = 0, 1, . . . gilt die binomische Formel (a + b)n =
n n k n−k . a b k k=0
Diese drei Ergebnisse werden sich noch oft als nützlich erweisen, und dasselbe gilt für die folgende Formel: Satz 1.12. Für a, b ∈ K, n ∈ N gilt an − bn = (a − b)
n−1 k=0
an−1−k bk .
12
1 Reelle und komplexe Zahlen
Zum Beweis schreibt man die Summenformel für die endliche geometrische Reihe in der Form n−1 1 − q n = (1 − q) qk , k=0
setzt darin q = b/a und multipliziert alles mit an . (Für die Ausnahmefälle a = 0 und a = b ist die Behauptung ja sowieso klar!) – Man kann aber auch die rechte Seite ausdistribuieren und stellt dann fest, dass sich in der entstehenden Summe alle Terme wegheben bis auf den ersten und den letzten („Teleskopsumme“).
C. Das Supremumsaxiom Wir benötigen noch eine Eigenschaft, die R von Q unterscheidet, damit z. B. x ∈ R mit x2 = 2 definiert werden kann. Folgende Begriffe werden dazu benötigt: Definitionen 1.13. Eine Menge ∅ = A ⊆ R heißt nach oben (unten) beschränkt, wenn es eine obere (untere) Schranke von A gibt, d. h. ein s ∈ R (s ∈ R) mit a≤s ∀a∈A (s ≤ a ∀ a ∈ A). Man nennt die kleinste obere Schranke (bzw. die größte untere Schranke) σ (bzw. σ) von A auch das Supremum (bzw. das Infimum) von A und schreibt σ = sup A, σ = inf A. Das größte (bzw. kleinste) Element von A (falls es existiert) nennt man Maximum max A (bzw. Minimum min A) von A. A heißt beschränkt, wenn A nach oben und unten beschränkt ist. Folgende Aussage ist dann klar: Satz 1.14. Ist ∅ = A ⊆ R nach oben beschränkt, so ist die Menge B = −A := {−a|a ∈ A} nach unten beschränkt und inf B = − sup A, min B = − max A, falls sup A bzw. max A existieren. Folgendes Axiom charakterisiert die reellen Zahlen vollständig: Axiom 1.15 (Supremumsaxiom). Jede nichtleere nach oben (unten) beschränkte Menge A ⊆ R besitzt ein Supremum (Infimum). Man beachte, dass das Supremumsaxiom in Q falsch wäre, denn die Menge A = q ∈ Q|q 2 < 2 hat in Q kein Supremum. Die folgende Aussage wird ganz häufig benutzt: Satz 1.16. Sei A = ∅ nach oben (unten) beschränkt und σ = sup A (µ = inf A). Dann gibt es zu jedem ε > 0 ein a ∈ A mit σ − a < ε (a − µ < ε).
C. Das Supremumsaxiom
13
Beweis. Wäre die Behauptung falsch, so gäbe es ein ε > 0 mit σ−a≥ε
(a − µ < ε)
∀a ∈ A .
Dann wäre aber σ = σ − 2ε < σ eine obere Schranke von A im Widerspruch zur Definition von σ = sup A. Satz 1.17. a. N ist nicht nach oben beschränkt. b. Zu jedem ε > 0 existiert ein n ∈ N mit 0
0, mit xn = a. Man nennt x =: a1/n = n a die n-te Wurzel von a. b. Setzt man für a > 0 und r = p/q ∈ Q ar = ap/q =
√ 1 q ap , a−r = r , a0 = 1 , a
so gelten folgende Potenzregeln ar · as = ar+s ,
ar = ar−s , as
(ar )s = ar·s .
Beweis. a. Wir definieren die Menge A = {y ∈ R|y > 0, y n < a} . Dann ist A = ∅ und nach oben beschränkt. Durch Betrachten der beiden Fälle a ≥ 1 und a < 1 sieht man nämlich sofort, dass z. B. y := 12 min(a, 1) ein Element und s := max(a, 1) eine obere Schranke von A ist. Daher existiert x := sup A , und man kann beweisen, dass xn = a ist (Details in Ergänzung 1.35). Dass die n-te Wurzel eindeutig bestimmt ist, folgt aus der für x, y > 0 gültigen Beziehung (1.1) xn < y n ⇐⇒ x < y ,
14
1 Reelle und komplexe Zahlen
und diese folgt sofort aus Satz 1.12. Nach 1.12 kann man nämlich schreiben y n − xn = (y − x)q(x, y) mit q(x, y) := y n−1 + xy n−2 + . . . + xn−2 y + xn−1 > 0. Also haben y − x und y n − xn ein und dasselbe Vorzeichen. b. Die Potenzregeln können als Übung bewiesen werden. Die Eindeutigkeit der Wurzeln spielt dabei die entscheidende Rolle.
D. Der Körper der komplexen Zahlen Wir führen die komplexen Zahlen als Paare (x, y) ∈ R × R von reellen Zahlen ein, zwischen denen eine Addition und Multiplikation so definiert wird, dass ein Körper entsteht. Satz 1.19. Definiert man in der Menge C = R × R = {z = (x, y)|x, y ∈ R} eine Addition durch z1 + z2 ≡ (x1 , y1 ) + (x2 , y2 ) := (x1 + x2 , y1 + y2 ) und eine Multiplikation durch z1 · z2 ≡ (x1 , y1 ) · (x2 , y2 ) := (x1 x2 − y1 y2 , x1 y2 + x2 y1 ) so wird C zum Körper der komplexen Zahlen. Dabei ist: 0 := (0, 0) 1 := (1, 0)
z −1
i := (0, 1) −z = (−x, −y) x −y = , x2 + y 2 x2 + y 2
die komplexe Null (neutrales Element der Addition), die komplexe Eins (neutrales Element der Multiplikation), mit i2 = (−1, 0) die imaginäre Einheit, das inverse Element der Addition, das inverse Element der Multiplikation.
Dass C tatsächlich ein Körper ist, rechnet man nach. Schreibt man: z = (x, y) = (x, 0) + (0, y) = x(1, 0) + y(0, 1) , so bekommt man die Normaldarstellung der komplexen Zahlen z = x + iy := (x, y)
mit i2 = −1 ,
D. Der Körper der komplexen Zahlen
15
sodass man in C wie in R rechnen kann, z. B. (x1 + iy1 ) · (x2 + iy2 ) = x1 x2 + ix1 y2 + ix2 y1 + i2 y1 y2 = (x1 x2 − y1 y2 ) + i(x1 y2 + x2 y1 ) , was das Merken der komplizierten Definition der Multiplikation erspart. Folgende Begriffe werden häufig benutzt: Definitionen 1.20. Für z = x + iy = (x,
y) ∈ C heißt x = Re z der Realteil, y = Im z der Imaginärteil, und |z| = x2 + y 2 der Betrag der komplexen Zahl z. Ferner heißt z := x − iy = (x, −y) die zu z konjugiert komplexe Zahl. Bemerkung: In der physikalischen Literatur wird die konjugiert komplexe Zahl durchweg mit z ∗ statt z bezeichnet. Folgende Rechenregeln können sofort überprüft werden. Satz 1.21. Für z, z1 , z2 ∈ C gilt: a. z1 + z2 = z1 + z2 , b. Re z = 12 (z + z),
z1 · z2 = z1 · z2 , Im z =
1 2i (z
z=z.
− z) .
c. |z| ≥ 0 und |z| = 0 ⇐⇒ z = 0 . d. |z| = |z|,
|z|2 = z · z .
e. |z1 z2 | = |z1 ||z2 |,
|z1 + z2 | ≤ |z1 | + |z2 | .
f. |z1 − z2 | ≥ ||z1 | − |z2 || . Die reellen Zahlen R sind einfach komplexe Zahlen mit Imaginärteil 0: z ∈ R ⇐⇒ Im z = 0 ⇐⇒ z = z . Fasst man die z ∈ C als Punkte der Ebene R × R, sog. komplexe Ebene auf, so liegen die z ∈ R auf der x-Achse. Die y-Achse heißt auch imaginäre Achse, die x-Achse reelle Achse. Dies führt zu einer zweiten Darstellung der komplexen Zahlen: Definitionen 1.22. a. Setzt man für z = x + iy = (x, y) x = |z| cos ϕ,
y = |z| sin ϕ .
16
1 Reelle und komplexe Zahlen
Abb. 1.1. Normal- und Polardarstellung komplexer Zahlen
so bekommt man die Polardarstellung der komplexen Zahlen: z = r(cos ϕ + i sin ϕ)
mit r = |z| .
Dabei ist das Argument arg z := ϕ der Winkel zwischen positiver reeller Achse und dem Strahl nach z. b. Definiert man für y ∈ R . eiy := cos y + i sin y so bekommt man die Exponentialdarstellung z = reiϕ
mit r = |z|, ϕ = arg z .
Der Vorteil dieser beiden Darstellungen liegt in folgenden Aussagen begründet: Satz 1.23. Für z = reiϕ = r(cos ϕ + i sin ϕ) und zk = rk eiϕk = rk (cos ϕk + i sin ϕk ), k = 1, 2, gilt: a. z = re−iϕ = r(cos(−ϕ) + i sin(−ϕ)) . b. z1 · z2 = r1 r2 ei(ϕ1 + ϕ2 ) = r1 r2 (cos(ϕ1 + ϕ2 ) + i sin(ϕ1 + ϕ2 )) . c. z1 r1 = ei(ϕ1 − ϕ2 ) z2 r2 r1 = (cos(ϕ1 − ϕ2 ) + i sin(ϕ1 − ϕ2 )) . r2
E. Wurzeln algebraischer Gleichungen
17
d. z n = rn einϕ = rn (cos nϕ + i sin nϕ) . Insbesondere gilt die Formel von de Moivre: (eiϕ )n = (cos ϕ + i sin ϕ)n = cos nϕ + i sin nϕ = einϕ . Beweis. a. z = r(cos ϕ − i sin ϕ) = r(cos(−ϕ) + i sin(−ϕ)) = rei(−ϕ) = re−iϕ . b. z1 · z2 = r1 r2 [(cos ϕ1 cos ϕ2 − sin ϕ1 sin ϕ2 )+ +i(cos ϕ1 sin ϕ2 + cos ϕ2 sin ϕ1 )] = r1 r2 (cos(ϕ1 + ϕ2 ) + i sin(ϕ1 + ϕ2 )) = r1 r2 ei(ϕ1 +ϕ2 ) = r1 r2 eiϕ1 eiϕ2 nach trigonometrischen Additionstheorem bzw. den üblichen Potenzregeln. c. und d. folgen aus 2.
E. Wurzeln algebraischer Gleichungen Eine algebraische Gleichung ist eine Gleichung der Form cn xn + cn−1 xn−1 + · · · + c1 x + c0 = 0 . Eine Lösung dieser Gleichung ist also nichts anderes als eine Nullstelle des Polynoms n P (x) := ck xk . k=0
Die Lösungen√bezeichnet man manchmal auch als Wurzeln, denn die schon besprochene n a ist ja eine Lösung der algebraischen Gleichung xn − a = 0. Die Einführung der komplexen Zahlen wird i. Allg. damit begründet, dass in C alle algebraischen Gleichungen gelöst werden können. Wir beginnen mit dem einfachsten Fall: Zu gegebenem w = ρeiψ und n ∈ N ist eine n-te Wurzel z = reiϕ gesucht mit z n = w. Wenn es eine solche n-te Wurzel gibt, muss nach Satz 1.23 gelten: !
z n = rn einϕ ≡ rn (cos nϕ + i sin nϕ) = = w = ρeiψ ≡ ρ(cos ϕ + i sin ψ) ,
18
1 Reelle und komplexe Zahlen
was genau dann erfüllt ist, wenn rn = ρ,
cos nϕ = cos ψ,
sin nϕ = sin ψ .
(1.2)
Beachten wir, dass cos und sin 2π-periodische Funktionen sind, so sind die Gleichungen 1.2 dann und nur dann erfüllt, wenn r=
√ n ρ,
ϕ=
ψ + 2kπ , n
k = 0, 1, . . . , n − 1 .
(1.3)
Satz 1.24. Für n ∈ N und w = ρeiψ = ρ(cos ψ + i sin ψ) hat die Gleichung z n = w genau n verschiedene Lösungen √ n ρ(cos( ψ+2kπ ) + i sin( ψ+2kπ )) n n √ = n ρei(ψ+2kπ)/n , k = 0, 1, . . . , n − 1 ,
zk =
(1.4)
welche die n-ten Wurzeln von w heißen. Diese bilden die Ecken eines regel√ mäßigen n-Ecks auf dem Kreis |z| = n ρ. Im Falle ρ = 1 heißen die zk die n-ten Einheitswurzeln. Über die Lösbarkeit allgemeiner algebraischer Gleichungen gibt der folgende Satz Auskunft, dessen Beweis wir zunächst zurückstellen (16.24 – s. aber auch Ergänzung 1.34). Theorem 1.25 (Fundamentalsatz der Algebra). Sei p(z) = an z n + an−1 z n−1 + · · · + a1 z + a0
(1.5)
ein Polynom n-ten Grades der komplexen Variablen z ∈ C mit Koeffizienten ak ∈ C, an = 0. Dann besitzt p(z) genau n Nullstellen z 1 , . . . , zn ∈ C
mit
p(zk ) = 0, k = 1, . . . , n ,
(1.6)
die nicht notwendig verschieden sind, und es gilt p(z) = an (z − z1 )(z − z2 ) · · · (z − zn ) .
(1.7)
Zu beachten ist, dass Theorem 1.25 kein Analogon für R statt C besitzt. Für reelle Polynome kann man immerhin Folgendes beweisen (Übung): Satz 1.26. Sei p(x) ein Polynom n-ten Grades mit reellen Koeffizienten ak ∈ R. Dann gilt: a. Ist z0 ∈ C eine Nullstelle von p, so auch z 0 . b. Ist n ungerade, so hat p wenigstens eine reelle Nullstelle x0 ∈ R.
F. Elementare Funktionen (Formelsammlung)
19
F. Elementare Funktionen (Formelsammlung) In diesem Abschnitt werden die wichtigsten Eigenschaften der trigonometrischen Funktionen, der Exponentialfunktion und der Hyperbelfunktionen sowie ihrer Umkehrfunktionen zusammengestellt. Die elementargeometrischen Definitionen werden als bekannt vorausgesetzt. Alle diese Funktionen sowie die Polynome und die rationalen Funktionen (d. h. die Quotienten von Polynomen) fasst man unter der Bezeichnung elementare Funktionen zusammen. Auch jede Funktion, die sich durch Komposition sowie durch Verknüpfung mittels der vier Grundrechenarten aus schon bekannten elementaren Funktionen zusammensetzen lässt, gilt als elementar. Satz 1.27. a. Die Funktionen sin x und cos x sind für alle x ∈ R definiert, 2π-periodisch mit Wertebereich [−1, 1] und es gilt sin2 x + cos2 x = 1 , sin(−x) = − sin x , cos(−x) = cos x , π π sin − x = cos x , cos − x = sin x . 2 2 sin x 2k+1 b. tan x = cos ist für alle x = π (k ∈ Z) definiert und π-periodisch x 2 2k−1 2k+1 und auf jedem Intervall 2 π < x < 2 π streng monoton von −∞ bis x 1 +∞ wachsend. cot x = cos sin x = tan x ist für alle x = kπ definiert und auf jedem Intervall (k − 1)π < x < kπ streng monoton fallend. c. Es gelten die Additionstheoreme sin(x ± y) = sin x cos y ± cos x sin y cos(x ± y) = cos x cos y ∓ sin x sin y tan x ± tan y tan(x ± y) = . 1 ∓ tan x tan y d. Doppel- und Halbwinkel-Formeln sin 2x = 2 sin x cos x
,
cos 2x = cos2 x − sin2 x
,
tan 2x = e.
2 tan x 1 − tan2 x
,
1 x = (1 − cos x) 2 2 1 2 x = (1 + cos x) cos 2 2 x 1 − cos x sin x tan = = . 2 sin x 1 + cos x
sin2
x+y x−y cos 2 2 x−y x+y sin sin x − sin y = 2 cos 2 2 x−y x+y cos cos x + cos y = 2 cos 2 2 x−y x+y sin . cos x − cos y = −2 sin 2 2 sin x + sin y = 2 sin
20
1 Reelle und komplexe Zahlen
Satz 1.28.
a. sin x ist auf − π2 , π2 streng monoton wachsend und hat dort die Umkehrfunktion Arcus-Sinus π π . arcsin x , −1 ≤ x ≤ 1 , mit Wertebereich − , 2 2 cos x ist auf [0, π] streng monoton fallend und hat dort die Umkehrfunktion Arcus-Cosinus π π arccos x , −1 ≤ x ≤ 1 , mit Wertebereich − , . 2 2
tan x ist auf − π2 , π2 streng monoton wachsend und hat die Umkehrfunktion Arcus-Tangens π π . arctan x , −∞ < x < ∞ mit Wertebereich − , 2 2 cot x ist auf ]0, π[ streng monoton fallend und hat die Umkehrfunktion Arcus-Cotangens arccot x ,
−∞ < x < +∞
mit Wertebereich ]0, π[ .
b. Umrechnungsformeln: arcsin x = − arcsin(−x)
=
arccos x = π − arccos(−x) = arctan x = − arctan(−x)
=
arccot x = π − arccot (−x) =
π 2 π 2 π 2 π 2
x − arccos x = arctan √1−x 2 x − arcsin x = arccot √1−x 2
x − arccot x = arcsin √1+x 2
x − arctan x = arccos √1+x 2 .
c. Additionstheoreme
√ arcsin x + arcsin y = arcsin x 1 − y 2 + y 1 − x2 , x2 + y 2 ≤ 1
√ arcsin x − arcsin y = arcsin x 1 − y 2 − y 1 − x2 , x2 + y 2 ≤ 1
√ arccos x + arccos y = arccos xy − 1 − x2 1 − y 2 , x2 + y 2 ≤ 1
√ arccos x − arccos y = − arccos xy + 1 − x2 1 − y 2 , x2 + y 2 ≤ 1 x+y arctan x + arctan y = arctan 1−xy , xy < 1 x−y arctan x − arctan y = arctan 1+xy , xy > −1 .
Satz 1.29. a. Die Exponentialfunktion exp(x) = ex ist auf ganz R definiert, streng positiv, streng monoton wachsend mit Wertebereich ]0, +∞[ und erfüllt exp(x + y) = exp(x) · exp(y)
bzw. (anders geschrieben)
ex+y = ex ey .
F. Elementare Funktionen (Formelsammlung)
Abb. 1.2. Die trigonometrischen Funktionen
21
22
1 Reelle und komplexe Zahlen
Abb. 1.3. Exponentialfunktion und Logarithmus
b. Der natürliche Logarithmus ln x = log x
,
0<x 0 für x > 1 ,
ist streng monoton wachsend mit Wertebereich R und erfüllt ln(x · y) = ln x + ln y ,
ln(xα ) = α ln x ,
x, y > 0 .
c. Es gilt: ab = eb ln a x
x =e
x ln x
für a > 0, insbesondere für x > 0.
Satz 1.30. a. Der Sinus hyperbolicus sinh x :=
1 x (e − e−x ) , 2
x∈R
ist auf ganz R definiert, streng monoton wachsend mit Wertebereich R. Der Cosinus hyperbolicus cosh x :=
1 x (e + e−x ) , 2
x∈R
F. Elementare Funktionen (Formelsammlung)
23
ist auf ganz R definiert, cosh x ≥ 1 für alle x ∈ R, ferner streng monoton fallend auf ]−∞, 0], streng monoton wachsend auf ]0, +∞[ mit Wertebereich [1, +∞[. Der Tangens hyperbolicus tanh x =
ex − e−x sinh x = x , cosh x e + e−x
x∈R
ist auf ganz R definiert, streng monoton wachsend mit Wertebereich ]−1, 1[. Der Cotangens hyperbolicus coth x =
ex + e−x cosh x = x , sinh x e − e−x
x = 0
ist für alle x = 0 definiert, streng monoton fallend auf ]−∞, 0[ von −1 nach −∞, streng monoton fallend auf ]0, +∞[ von +∞ nach 1. b. Es gelten die Additionstheoreme cosh2 x − sinh2 x = 1 cosh(x ± y) = cosh x cosh y ± sinh x sinh y sinh(x ± y) = sinh x cosh y ± cosh x sinh y tanh(x ± y) =
tanh x±tanh y 1±tanh x tanh y
.
c. Ferner gilt: sinh 2x = 2 sinh x cosh x
,
cosh 2x = sinh2 x + cosh2 x
,
sinh x2 = ± 12 (cosh x − 1) , x ≥ 0 cosh x2 = 12 (cosh x + 1)
,
tanh x2 =
tanh 2x =
2 tanh x 1+tanh2 x
cosh x−1 sinh x
=
d. Ferner gilt: x∓y sinh x ± sinh y = 2 sinh x±y 2 cosh 2 x−y cosh x + cosh y = 2 cosh x+y 2 cosh 2 x−y cosh x − cosh y = 2 sinh x+y 2 sinh 2 .
e. Ferner gilt für x ∈ R mit i2 = −1: sin(ix) = i sinh x ,
cos(ix) = cosh x
sinh(ix) = i sin x ,
cosh(ix) = cos x .
sinh x cosh x+1
.
24
1 Reelle und komplexe Zahlen
Abb. 1.4. Hyperbelfunktionen
Satz 1.31. a. Die auf ganz R definierte Umkehrfunktion von sinh x heißt Area Sinus hyperbolicus ar sinh x. Diese ist streng monoton wachsend mit Wertebereich R und erfüllt
ar sinh x = ln x + x2 + 1 , x ∈ R . Die für x ≥ 1 definierte Umkehrfunktion von cosh x, x ≥ 0, heißt Area Cosinus hyperbolicus ar cosh x. Diese ist streng monoton wachsend mit Wertebereich [0, +∞[ und erfüllt
ar cosh x = ln x − x2 − 1 , x ≥ 1 . Die für |x| < 1 definierte Umkehrfunktion von tanh x heißt Area Tangens hyperbolicus ar tanh x. Diese ist streng monoton wachsend mit Wertebereich R und erfüllt ar tanh x =
1 x+1 ln , 2 x−1
|x| < 1 .
b. Es gelten die Umrechnungsformeln: √ ar sinh x = ar cosh x2 + 1 = ar tanh √xx2 +1 , √ √ 2 ar cosh x = ar sinh x2 − 1 = ar tanh xx−1 , ar tanh x = ar sinh
√ x 1−x2
= ar cosh
√ 1 1−x2
,
x≥0 x≥1
|x| < 1 .
Ergänzungen
25
c. Es gelten die Additionstheoreme:
√ ar sinh x ± ar sinh y = ar sinh x 1 + y 2 ± y 1 + x2
√ ar cosh x ± ar cosh y = ar sinh xy ± x2 − 1 y 2 − 1 x±y ar tanh x ± ar tanh y = ar tanh 1±xy .
Ergänzungen zu §1 Die mathematischen Methoden der Physik entstammen hauptsächlich der Analysis und der Geometrie, neuerdings z. T. auch der Topologie, während andere mathematische Teildisziplinen, vor allem Algebra (mit Ausnahme der linearen und multilinearen Algebra) und Zahlentheorie, weitgehend außen vor bleiben. Der vorbereitende Charakter des in diesem Paragraphen besprochenen Materials legt es nahe, in den Ergänzungen etwas zu tun, was wir später nie mehr tun werden, nämlich, einen verstohlenen Blick in diese „physikfernen“ Bereiche der Mathematik zu werfen und dadurch eine bessere Einsicht in die Bedeutung der eingeführten Grundbegriffe zu gewinnen. Abschnitt 1.34 ist aber auch von praktischem Nutzen für den Umgang mit Polynomfunktionen, und in 1.35 vervollständigen wir den Beweis von 1.18. 1.32 Andere Körper. In der Physik trifft man (bis jetzt) eigentlich nur auf die hier eingeführten Körper Q, R und C. Aus anderen Gebieten der Mathematik, vornehmlich aus Algebra und Zahlentheorie, sind jedoch Unmengen weiterer Körper von ganz verschiedenem Typus bekannt, und darum lohnt sich auch die axiomatische Definition des Körperbegriffs. Wir möchten Sie anhand einiger einfacher Beispiele wenigstens ahnen lassen, worum es sich hier handelt. √ a) Der Körper Q[ 2] besteht aus allen Zahlen der Form √ r+s 2 √ mit r, s ∈ Q. Man addiert und multipliziert die Elemente von Q[ 2] einfach als reelle Zahlen, und man überzeugt sich sofort, dass Summe, Differenz und Produkt zweier solcher Zahlen wieder dieselbe Form haben. Für die multiplikative Inverse ist das etwas schwieriger, und man greift zu einem ähnlichen Trick wie bei den komplexen Zahlen: √ 1 r−s 2 √ = 2 r − 2s2 r+s 2 r −s √ = 2 + 2 2. 2 r − 2s r − 2s2
26
1 Reelle und komplexe Zahlen
√ Weil 2 keine rationale Zahl ist, kann der Nenner hier nur für r √ = s = 0 verschwinden. Also kann man tatsächlich für jedes Element von Q[ 2] \ {0} den Kehrwert bilden, und damit ist klar, dass alle Körperaxiome gelten. Dies ist das einfachste Beispiel einer sog. algebraischen Erweiterung. Allgemein geht man von einem beliebigen Körper K und einem Polynom P mit Koeffizienten in K aus, das in K keine Nullstelle hat (in unserem Beispiel K = Q und P (x) = x2 − 2). Dann konstruiert man einen möglichst kleinen Körper L ⊇ K, in dem alle Nullstellen von P liegen, und man sagt, dass L durch Adjungieren der Nullstellen von P aus K hervorgeht. So entsteht übrigens auch C aus R durch Adjungieren der Nullstellen ±i des Polynoms x2 + 1. b) Es gibt Körper mit nur endlich vielen Elementen, genauer: Zu jeder Zahl q von der Form q = pm , wo p eine Primzahl und m ∈ N beliebig ist, gibt es einen Körper mit q Elementen. Dieser wird mit GF (q) bezeichnet. Die Konstruktion dieser sog. Galois-Felder zu beschreiben, würde hier zu weit führen, aber wir wollen wenigstens GF (2) und GF (3) vorstellen: GF (2) besteht aus den Elementen 0 und 1, mit denen folgendermaßen gerechnet wird: 0+0=1+1=0, 1+0=0+1=1, 1·0= 0·1 = 0·0 =0 , 1·1 = 1. Eigentlich braucht man sich hier nur die Rechenregel 1 + 1 = 0 zu merken, denn alles andere ergibt sich zwangsläufig aus den Körperaxiomen. GF (3) besteht aus der Null 0, also dem neutralen Element für die Addition, der Eins 1, also dem neutralen Element für die Multiplikation, und einem weiteren Element, das wir passenderweise 2 nennen. Die Verknüpfungen Addition und Multiplikation sind durch die Körperaxiome und die in 1.5 zusammengestellten einfachen Folgerungen vollständig festgelegt, wenn wir nur vereinbaren, dass 1 + 1 = 2,
2+1=0
und
2·2=1
gelten sollen. Vielleicht werden Sie diese kleinen Körper seltsam – ja sogar albern – finden. Sie sind aber nicht nur von großer theoretischer Bedeutung, sondern heute sogar von praktischer. Die lineare Algebra (vgl. Kap. 2) über GF (2) z. B. ist die mathematische Grundlage für die sog. Kodierungstheorie, und diese ist ein unentbehrliches Werkzeug in der Hand des Ingenieurs, wenn es um die schnelle und zuverlässige elektronische Informationsübermittlung geht. Auch die mathematischen Methoden der Verschlüsselung und Entschlüsselung von Nachrichten, die von zentraler Bedeutung für die Internetsicherheit ist, beruht auf endlichen Körpern (mathematische Kryptografie).
Ergänzungen
27
c) Sei K ein beliebiger vorgegebener Körper. Der Körper K(X) (genannt der „Körper der rationalen Funktionen über K“) besteht aus allen Brüchen der Form a0 + a1 X + · · · + an X n f (X) = (∗) b0 + b1 X + · · · + bm X m mit m, n ∈ N0 , a0 , . . . , an , b0 , . . . , bm ∈ K. Mit diesen Brüchen wird ganz normal nach den Regeln der Bruchrechnung gerechnet. Wir können kurz f = P/Q schreiben, wenn wir für die Polynome in Zähler und Nenner Abkürzungen P (X) =
n
ak X k ,
k=0
Q(X) :=
m
bk X k
k=0
einführen. Dann haben wir für jedes f ∈ K(X) tatsächlich eine Funktion f˜ : K ⊇ D(f˜) → K, gegeben durch D(f˜) = {ξ ∈ K|Q(ξ) = 0} , P (ξ) f˜(ξ) := . Q(ξ) Aber das Rechnen mit diesen Funktionen gestaltet sich wegen der wechselnden Definitionsbereiche sehr unübersichtlich, und es können sogar so schlimme Dinge passieren wie D(f˜) = ∅, weil Q(ξ) = 0 ist für alle ξ ∈ K, obwohl nicht alle Koeffizienten von Q verschwinden. Daher ist die Bezeichnung „rationale Funktionen“ für die Elemente von K(X) irreführend. Eigentlich besteht f nur aus den beiden Listen (a0 , a1 , . . . , an ),
(b0 , b1 , . . . , bm )
der Koeffizienten des Zähler- und des Nennerpolynoms, und die Schreibweise (∗) für f dient nur dazu, die richtigen Rechenregeln zu suggerieren. Diese Problematik fällt allerdings nur bei kleinen Grundkörpern K ins Gewicht, denn wir werden gleich sehen (vgl. 1.34), dass ein Polynom höchstens so viele Nullstellen hat wie sein Grad (d. h. die höchste vorkommende x-Potenz) angibt. Für die Körper R(X), C(X) unterscheidet sich also D(f˜) von ganz R bzw. C nur durch eine endliche Menge von Ausnahmepunkten. √ 1.33 Rationale und irrationale Nullstellen von Polynomen. Dass 2 irrational ist, ist kein Einzelfall. Allgemein ist die n-te Wurzel aus einer natürlichen Zahl entweder ganzzahlig oder irrational, und noch allgemeiner gilt der folgende Satz, den man leicht beweisen kann, wenn man die bekannte Tatsache benutzt, dass jede ganze Zahl eine eindeutige Zerlegung in Primfaktoren besitzt: Satz. Es sei P (x) = xn + an−1 xn−1 + · · · + a1 x + a0 ein Polynom mit führendem Koeffizienten 1 und ansonsten ganzzahligen Koeffizienten a0 , a1 , . . . , an−1 . Jedes a ∈ Q mit P (a) = 0 ist dann ganzzahlig.
28
1 Reelle und komplexe Zahlen
Beweis. Wir schreiben a als gekürzten Bruch mit positivem Nenner, also a = r/s mit r ∈ Z, s ∈ N, wobei r, s keinen gemeinsamen Teiler haben. Wenn wir s = 1 nachweisen können, sind wir fertig, denn dann ist a = r ganzzahlig. Wir nehmen also an, es wäre s > 1. Dann hat s einen Primteiler p, d. h. eine Primzahl, die in der Primfaktorzerlegung von s vorkommt. Die Gleichung rn−k rn + an−k n−k n s s n
0 = P (a) =
k=1
impliziert nach Multiplikation mit sn : rn = −
n
an−k rn−k sk
k=1 n
= −s
an−k rn−k sk−1 .
k=1
Also ist rn ein ganzzahliges Vielfaches von s und damit auch von p. In der Primfaktorzerlegung von rn können aber nur diejenigen Primzahlen auftreten, die schon in der Zerlegung von r vorhanden sind. Also hat auch r den Primteiler p, und damit haben r und s den gemeinsamen Teiler p, obwohl wir von einem gekürzten Bruch ausgegangen waren. Dieser Widerspruch beweist unseren Satz. Speziell für√P (x) = xn − m mit gegebenem m ∈ N ergibt sich unsere Aussage, dass n m entweder ganzzahlig oder irrational ist. 1.34 Zerlegung von Polynomen in Linearfaktoren. Ein Teil des Fundamentalsatzes der Algebra (Theorem 1.25) ist leicht zu beweisen und gilt auch für jeden beliebigen Körper. Um dies zu erläutern, betrachten wir ein Polynom (1.8) P (x) := bn xn + bn−1 xn−1 + · · · + b1 x + b0 mit Koeffizienten b0 , b1 , . . . , bn aus dem Körper K, wobei bn = 0 sein soll, sodass der Grad von P , also die höchste tatsächlich vorkommende Potenz von x, wirklich n ist. Ist nun a ∈ K eine Nullstelle von P , so kann man P durch den Linearfaktor x − a dividieren. Genauer: Lemma. Ist P (a) = 0 (a ∈ K), so ist P (x) = (x − a)Q(x) mit einem Polynom Q(x) vom Grad n − 1. Beweis. Für k = 1, . . . , n haben wir nach Satz 1.12 xk − ak = (x − a)Rk (x) k−1 mit Polynomen Rk (x) := j=0 ak−j−1 xj . Daraus folgt
Ergänzungen
29
P (x) = P (x) − P (a) n n = bk xk − b k ak = =
k=0 n k=1 n
k=0
bk (xk − ak ) bk (x − a)Rk (x)
k=1
= (x − a)Q(x) , wobei Q(x) :=
n
bk Rk (x)
k=1
gesetzt wurde. Es ist klar, dass beim Multiplizieren von Polynomen sich die Grade addieren. Daher muss Grad(Q) = Grad(P ) − Grad(x − a) = n − 1 sein. Es ist durchaus möglich, dass auch Q(a) = 0 ist. In diesem Falle können wir einen weiteren Linearfaktor x − a abspalten und erhalten P (x) = (x − a)2 Q2 (x) mit Grad(Q2 ) = n − 2. So geht es weiter, bis schließlich P (x) = (x − a)m Qm (x),
Qm (a) = 0 .
(1.9)
Dieser Fall muss für ein m ≤ n eintreten, weil die Grade von Q, Q2 , . . . ja immer um 1 sinken. Die durch (1.9) eindeutig bestimmte Zahl m = m(a) nennt man die Vielfachheit der Nullstelle a. Nun können wir uns einer weiteren Nullstelle a∗ von P zuwenden und erhalten Qm (a∗ ) =
1 P (a∗ ) = 0 . a∗ − a
Wir können also einen Linearfaktor x − a∗ von Qm abspalten. So fortfahrend (formal wäre es eine Induktion nach der Anzahl s der verschiedenen Nullstellen von P ) erhalten wir schließlich das folgende Ergebnis: Satz. Es seien a1 , . . . , as die verschiedenen Nullstellen von P und m1 , . . . , ms ihre jeweiligen Vielfachheiten. Dann ist j := m1 + · · · + ms ≤ n
(1.10)
P (x) = (x − a1 )m1 · (x − a2 )m2 · · · (x − as )ms R(x)
(1.11)
und mit einem Polynom R vom Grad n − j, das an den Stellen a1 , . . . , as nicht verschwindet.
30
1 Reelle und komplexe Zahlen
Meist denkt man sich die Nullstellen eines Polynoms so aufgelistet, dass in der Liste jede Nullstelle so oft wiederholt wird, wie ihre Vielfachheit angibt. Man sagt dann, die Nullstellen wären „mit Vielfachheit gezählt“. Die Aussage (1.10) aus dem Satz lässt sich also folgendermaßen formulieren: P hat, mit Vielfachheit gezählt, höchstens so viele Nullstellen wie sein Grad n angibt. Das Besondere am Körper C, das wir in 16.24 beweisen werden, ist nun, dass jedes nichtkonstante Polynom mit komplexen Koeffizienten tatsächlich (mindestens) eine Nullstelle in C besitzt. Im Fall K = C muss daher das Polynom R aus (1.11) konstant und ≡ 0 sein und damit j = n. Daraus ergeben sich alle Aussagen von Theorem 1.25. √ 1.35 Zur Existenz der n-ten Wurzel. Um die Existenz von n a zu zeigen, haben wir in 1.18 x := sup A betrachtet, wobei A = {y ∈ R|y > 0, y n < a} gesetzt wurde. Wir behaupten, dass xn = a gilt, und beweisen dies, indem wir die beiden Fälle xn < a und xn > a ausschließen: a. Angenommen, es wäre xn < a. Dann beachten wir, dass x + 1 ∈ A, sodass (x + 1)n > a. Daher liegt die Zahl h :=
a − xn (x + 1)n − xn
zwischen 0 und 1, also 0 < h < 1. Mit der binomischen Formel folgt dann: (x + h)n = xn +
n n n k n−k n n−k < xn + h h x x k k
k=1
k=1
= xn + h [(x + 1)n − xn ] = xn + (a − xn ) = a . Also: (x + h)n < a, was wegen h > 0 ein Widerspruch zu x = sup A ist. b. Angenommen, xn > a. Die Bernoulli’sche Ungleichung 1.11a liefert für 0 < h ≤ x: h n ) x ≥ xn (1 − nh/x)
(x − h)n = xn (1 −
= xn − nxn−1 h . Wir verwenden diese Abschätzung für die Zahl h :=
xn − a . nxn−1
Aufgaben
31
Tatsächlich ist h/x ≤ (xn − a)/xn < 1, die Abschätzung also anwendbar. Wir erhalten: (x − h)n ≥ xn − (xn − a) = a , also y n < (x − h)n ∀ y ∈ A. Wegen (1.1) bedeutet dies, dass x − h eine obere Schranke für A ist, und wegen h > 0 ist das ein Widerspruch zu x = sup A.
Aufgaben zu §1 1.1. Es seien folgende Mengen gegeben: A := {1, 2, 3, 5}, B := {1, 4, 6}, C := {−1, 2, 5}, M := [2, 6[, N :=]3, 5[ . Man gebe folgende Mengen an: A ∪ B, A ∩ B, A \ B, B \ A, M ∩ N, M ∪ N, B ∩ M, N ∩ C, B ∩ C, B × C . 1.2. Es seien folgende Abbildungen gegeben: f : Z → Z, x → 2x + 1, g : Q → Q, x → 2x + 1, h : R → R, x → x2 und k : [0, ∞[→ [0, ∞[, x → x2 . Welche der Abbildungen ist injektiv, surjektiv oder bijektiv? 1.3. Seien A, B, C Mengen. f : A → B und g : B → C . Man zeige, dass Folgendes gilt: • •
f, g injektiv ⇒ g ◦ f injektiv, g ◦ f injektiv, f surjektiv ⇒ g injektiv.
1.4. Sei f : R3 → R3 gegeben durch (x, y, z) → (x − y, y − z, z − x) . Man bestimme f −1 ({(0, −1, 1)}) und f −1 ({(1, 1, 2)}). Ist f injektiv, surjektiv oder bijektiv? 1.5. Man beweise folgende Ungleichungen: a. Für a > 0, b > 0 gilt: a+b a b < + . 1+a+b 1+a 1+b
32
1 Reelle und komplexe Zahlen
b. Für a > b > 0 und c > 0 gilt: b b+c a+c a < < 1 < < . a a+c b+c b 1.6. Für x, y > 0 in R seien A(x, y) =
1 (x + y) , 2
G(x, y) =
√ xy ,
H(x, y) =
x−1
2 + y −1
das arithmetische, bzw. geometrische, bzw. harmonische Mittel von x, y. Man zeige H(x, y) ≤ G(x, y) ≤ A(x, y) . 1.7. Man beweise durch Induktion nach n a. (1 + x)n ≥ 1 + nx b.
n
qk =
k=0
1 − q n+1 1−q
für
x ≥ −1 ,
für
q = 1 ,
n≥0. n≥0.
1.8. Man beweise mittels Induktion nach n: n 1 1 ≤2− , 2 k n k=1
n(n + 1) , 2 2 1 + 3 + 5 + . . . + (2n − 1) = n , 1 + 2 + 3 + ...+ n =
1 2 + 2 2 + 3 2 + . . . + n2 =
n(n + 1)(2n + 1) . 6
1.9. Für die Binomialkoeffizienten zeige man: n n n+1 + = für k−1 k k
0≤k≤n
und beweise damit durch Induktion die binomische Formel n n k n−k n (a + b) = für a, b ∈ R , n ≥ 0 . a b k k=0
1.10. Für a > b > 0 in R und n ∈ N zeige man: nbn−1 < (Hinweis: Verwende Satz 1.12.)
an − b n < nan−1 . a−b
Aufgaben
33
1.11. Für x, y ≥ 0 in R und n ∈ N zeige man: a.
√ √ √ n x+y ≤ nx+ ny ,
b.
√ √ | n x − n y| ≤ n |x − y| .
1.12. Zur Teilmenge M := {2−m + n−1 | m, n ∈ N} von R ermittle man gegebenenfalls Supremum, Infimum, Maximum, Minimum. Man beweise die Richtigkeit der gemachten Angaben. 1.13. Für komplexe Zahlen z, z1 , z2 ∈ C zeige man: a. |Re z| ≤ |z| ,
|Im z| ≤ |z| ,
b. |z1 · z2 | = |z1 | · |z2 | , c. |z1 + z2 | ≤ |z1 | + |z2 | . 1.14. Man zeige: Drei verschiedene komplexe Zahlen z1 , z2 , z3 ∈ C liegen genau dann auf einer Geraden in C, wenn z2 − z1 ∈R z3 − z1
ist.
1.15. Man zeige: Ist z ∈ C eine Lösung der algebraischen Gleichung z n + a1 z n−1 + . . . + an−1 z + an = 0 mit komplexen Koeffizienten a1 , . . . , an , so ist |z| < 1 + |a1 | + |a2 | + . . . + |an | . (Hinweis: Im Falle |z| ≥ 1 dividiere man die Gleichung durch z n−1 und schätze dann |z| nach oben ab.) 1.16. Man bestimme alle sechsten Wurzeln von w = −64 in Polar- und Normaldarstellung. 1.17. Sei ζ = 1 eine n-te Einheitswurzel. Man zeige: n
ζ k−1 = 0
und
k=1
n k=1
n
kζ k−1 =
n . ζ−1
(Hinweis zur zweiten Formel: (ζ−1) k=1 kζ k−1 lässt sich unter Zuhilfenahme der ersten Formel so umformen, dass eine Teleskopsumme entsteht.) Man folgere hieraus Formeln für Summen von speziellen Werten von Sinus und Kosinus.
34
1 Reelle und komplexe Zahlen
1.18. Sei p(z) = an z n + · · · + a1 z + a0 ein Polynom n-ten Grades in C mit reellen Koeffizienten a0 , . . . , an ∈ R. Man zeige: a. p(z) = p(z). b. Ist z = α + iβ, β = 0, eine Nullstelle von p(z), so auch z = α − iβ. c. In R hat ein Polynom n-ten Grades wenigstens eine Nullstelle, wenn n ungerade ist. 1.19. Mit der Formel von de Moivre zeige man: cos 4x = 8 cos4 x − 8 cos2 x + 1
für
x∈R.
1.20. Man bestimme Amplitude A und Phasenverschiebung ϕ von B cos ωt + C sin ωt = A sin(ωt + ϕ) . 1.21. Man zeige mit Hilfe der Sätze 1.11b und 1.23 folgende Gleichung: n sin (2n + 1) x2 1+2 cos(kx) = , x = 2πk, k ∈ Z . sin x2 k=1
√ √ √ 1.22. Man finde alle x ∈ R mit ( 2 + 1) sin2 x + ( 2 − 1) cos2 x + sin 2x = 2.
2 Differenziation in R
In diesem Abschnitt befassen wir uns mit der Stetigkeit und mit dem Differenzieren von reellwertigen Funktionen, die auf einem Intervall I ⊆ R definiert sind. Ausgangspunkt dieser Betrachtungen ist der Begriff des Grenzwertes, denn die Ableitung ist der Grenzwert von Differenzenquotienten, und die Stetigkeit einer Funktion bedeutet, dass an jeder Stelle des Definitionsbereichs der Funktionswert gleich dem dortigen Grenzwert ist. Grenzwerte kann man aber am leichtesten anhand von Zahlenfolgen diskutieren und mit diesen beginnen wir daher auch.
A. Reelle Zahlenfolgen Eine Folge (xn ) in R ist eine Vorschrift, die jedem n ∈ N eine Zahl xn ∈ R zuordnet. Es handelt sich also einfach um eine Abbildung N −→ R, bei der man xn statt x(n) schreibt. Man stellt sich aber am besten eine unendlich lange Liste (x1 , x2 , x3 , . . .) vor. Mitunter sind auch ausführlichere Schreibweisen wie (xn )n oder (xn )n≥1 gebräuchlich, bei denen der „Laufindex“ hervorgehoben wird. Definitionen 2.1. a. Eine Folge (xn ) in R heißt beschränkt, wenn es eine Konstante C ≥ 0 gibt, so dass |xn | ≤ C ∀n ∈ N . (2.1) Sie heißt nach oben (bzw. unten) beschränkt, wenn xn ≤ C
(bzw. xn ≥ C)
∀n ∈ N .
(2.2)
∀n ∈ N .
(2.3)
Sie heißt monoton wachsend (fallend), wenn xn ≤ xn+1
(xn ≥ xn+1 )
36
2 Differenziation in R
b. Eine Folge (xn ) in R heißt konvergent gegen x ∈ R, lim xn = x
n−→∞
xn −→ x für n −→ ∞ ,
bzw.
wenn es zu jedem ε > 0 ein n0 = n0 (ε) ∈ N gibt, sodass |xn − x| < ε
∀n ≥ n0 .
(2.4)
Durch diese Forderung ist x eindeutig bestimmt, und man nennt x den Grenzwert oder Limes der Folge. Mit konvergenten Folgen kann man rechnen: Satz 2.2. Seien (xn ), (yn ), (zn ) Folgen in R. Dann gilt: a. Konvergente Folgen sind beschränkt. b. Gilt xn −→ x0 , so gilt |xn | −→ |x0 |
und
λxn −→ λx0
für λ ∈ R. c. Gilt xn −→ x0 = 0, so gibt es ein n0 ∈ N, sodass xn = 0
∀n ≥ n0 .
d. Gilt xn −→ x0 und yn −→ y0 , so gilt xn + yn −→ x0 + y0 xn · yn −→ x0 · y0 xn x0 −→ , yn y0
falls y0 = 0 .
e. Gilt xn −→ x0 und zn −→ z0 und ist xn ≤ zn für alle n ∈ N, so ist x0 ≤ z0 . Gilt xn ≤ yn ≤ zn für alle n ∈ N und x0 = z0 , so gilt yn −→ x0 . Beweis. a. Gelte xn −→ x0 . Zu ε = 1 gibt es dann ein n0 ∈ N, sodass |xn | ≤ |x0 | + |xn − x0 | ≤ |x0 | + 1
∀n ≥ n0 .
Setzt man M=
max |xn | ,
n=1,...,n0
so gilt |xn | ≤ M + |x0 | + 1
∀n ∈ N .
b. Folgt aus |λxn − λx0 | = |λ| |xn − x0 | ||xn | − |x0 || ≤ |xn − x0 | .
A. Reelle Zahlenfolgen
37
c. Sei etwa x0 > 0 und ε = 12 x0 . Wegen xn −→ x0 gibt es ein n0 ∈ N, sodass 1 x0 2
|xn − x0 | < ε =
∀n ∈ N
und damit 1 xn = x0 + xn − x0 ≥ x0 − |xn − x0 | ≥ x0 − x0 > 0 . 2 d. Wegen |(xn + yn ) − (x0 + y0 )| ≤ |xn − x0 | + |yn − y0 | folgt (xn + yn ) −→ (x0 + y0 ). Wegen |xn yn − x0 y0 | = |xn yn − xn y0 + xn y0 − x0 y0 | ≤ |xn | |yn − y0 | + |y0 | |xn − x0 | folgt xn yn −→ x0 y0 , weil konvergente Folgen nach a beschränkt sind. Wegen |yn − y0 | |yn−1 − y0−1 | = |yn | |y0 | folgt yn−1 −→ y0−1 für y0 = 0 nach c. e. Wegen xn −→ x0 , zn −→ z0 gibt es zu ε > 0 ein n0 ∈ N, sodass |xn − x0 |
0 wähle n0 ≥ 1ε , sodass n1 − 0 < ε für n ≥ n0 . 1
b. lim
n−→∞
denn
n+1 1 = 1 + lim =1 n−→∞ n n−→∞ n lim
nach 2.2d und 2.3a.
n+1 =1, n
38
2 Differenziation in R
c. lim q n = 0
n−→∞
denn sei etwa 0 < q < 1 und 1 + h = li’schen Ungleichung 1.11a |q n − 0| =
für |q| < 1 , 1 q
> 1, so folgt mit der Bernoul-
11 1 1 ≤ −→ 0 nach a . ≤ n (1 + h) 1 + nh hn
Bei beschränkten Folgen hat man für das Supremum bzw. Infimum der Wertemenge eine suggestive eigene Schreibweise: sup xn := sup {xn |n ∈ N} , n
inf xn := inf {xn |n ∈ N} . n
Satz 2.4. Eine monoton wachsende (fallende) nach oben (unten) beschränkte Folge konvergiert gegen ihr Supremum (Infimum). Beweis. Gelte also xn ≤ xn+1 und xn ≤ C für alle n ∈ N und sei σ = sup {xn } . n
Für ein ε > 0 ist dann σ − ε keine obere Schranke. Wegen der Monotonie gibt es dann ein n0 ∈ N, sodass σ − ε ≤ xn ≤ σ
∀n ≥ n0 ,
d. h. xn −→ σ .
B. Stetigkeit in R Wir diskutieren den Grenzwertbegriff und den Stetigkeitsbegriff für Funktionen aus R in R, deren Definitionsbereiche Intervalle (vgl. 1.7) sind. Definitionen 2.5. Ein Intervall der Form ]a, b[ oder ]a, ∞[ oder ] − ∞, a[ nennt man offenes Intervall. Ein Intervall der Form [a, b] oder [a, ∞[ oder ] −∞, a] nennt man abgeschlossenes Intervall. Die beschränkten abgeschlossenen Intervalle bezeichnet man auch als kompakte Intervalle.
Ein offenes Intervall enthält also keinen seiner Randpunkte, ein abgeschlossenes enthält dagegen jeden seiner Randpunkte. Intervalle von der Form [a, b[ oder ]a, b] nennt man daher auch halboffen.
B. Stetigkeit in R
39
Definitionen 2.6. Sei I ⊂ R ein offenes Intervall, f : I −→ R eine Funktion. a. f hat in x0 ∈ I den Grenzwert oder Limes y0 ∈ R, geschrieben lim f (x) = y0 ,
x−→x0
wenn es zu jedem ε > 0 ein δ > 0 gibt, sodass |f (x) − y0 | < ε
falls x ∈ I mit |x − x0 | < δ .
(2.5)
Durch diese Forderung ist y0 eindeutig bestimmt. b. f heißt stetig in x0 , wenn lim f (x) = f (x0 ), und stetig in I, wenn f in jedem x0 ∈ I stetig ist.
x−→x0
Es kann vorkommen, dass lim f (x) = y0 existiert, jedoch y0 = f (x0 ) ist, x−→x0
oder sogar f in x0 nicht definiert ist. Setzt man dann f (x) für x = x0 , g(x) := y0 für x = x0 so wird g stetig in x0 . Man sagt: f wird in x0 stetig ergänzt. Satz 2.7 (Folgenkriterium). Eine Funktion f : I −→ R ist genau dann stetig in x0 ∈ I, wenn für jede Folge (xn ) ⊂ I gilt: xn −→ x0 =⇒ f (xn ) −→ f (x0 ) .
(2.6)
Beweis. a. Sei f zunächst stetig in x0 im Sinne von 2.6b, d. h. zu ε > 0 existiert ein δ > 0, sodass |f (x) − f (x0 )| < ε ,
falls |x − x0 | < δ .
(2.7)
Sei δ > 0 so gewählt, dass (2.7) gilt und sei (xn ) eine Folge mit xn −→ x0 . Nach 2.1 b. gibt es dann ein n0 ∈ N, sodass |xn − x0 | < δ
∀n ≥ n0
und damit nach (2.7) |f (xn ) − f (x0 )| < ε
für alle n ≥ n0 ,
d. h. f (xn ) −→ f (x0 ) nach 2.1 b. b. Gelte umgekehrt f (xn ) −→ f (x0 ) für jede Folge xn −→ x0 . Angenommen, f wäre unstetig in x0 . Dann gibt es ein ε > 0 und zu jedem δ = n1 ein xn ∈ I mit 1 |xn − x0 | < und |f (xn ) − f (x0 )| ≥ ε n im Widerspruch zur Voraussetzung.
40
2 Differenziation in R
Satz 2.8. Die Komposition stetiger Funktionen ist stetig. Genauer: Sind f : I −→ R, g : J −→ R stetige Funktionen, x0 ∈ I, f (x0 ) = y0 ∈ J, so ist g ◦ f stetig in x0 . Beweis. Sei (xn ) eine Folge in I mit xn −→ x0 . Dann gilt yn = f (xn ) −→ f (x0 ) = y0 , da f stetig in x0 , und weiter g(yn ) −→ g(y0 ), da g stetig in y0 . Also (g ◦ f )(xn ) = g(f (xn )) = g(yn ) −→ g(y0 ) = (g ◦ f )(x0 ) . Aus 2.2 und dem Folgenkriterium in 2.7 folgt dann Satz 2.9. Seien f, g : I −→ R stetig in x0 , λ ∈ R. Dann gilt: a. f + g, λf , f · g sind stetig in x0 . b. Ist f (x0 ) = 0, so gibt es ein δ > 0, sodass f (x) = 0 für x ∈ I mit |x − x0 | < δ. c. Ist g(x0 ) = 0, so ist fg stetig in x0 . Definitionen 2.10. Sei I = [a, b] ⊆ R, f : I −→ R, a < x0 < b. a. In x0 existiert der linksseitige Limes f (x0 − 0), wenn es zu jedem ε > 0 ein δ > 0 gibt, sodass |f (x) − f (x0 − 0)| < ε ,
falls x0 − δ < x < x0 .
(2.8)
Ist f (x0 − 0) = f (x0 ), so heißt f linksstetig in x0 . b. In x0 existiert der rechtsseitige Limes f (x0 + 0), wenn es zu jedem ε > 0 ein δ > 0 gibt, sodass |f (x) − f (x0 + 0)| < ε ,
falls x0 < x < x0 + δ .
(2.9)
Ist f (x0 + 0) = f (x0 ), so heißt f rechtsstetig in x0 . c. f heißt stetig in [a, b], wenn f in ]a, b[ stetig, in a rechtsstetig, in b linksstetig ist. Es kann vorkommen, dass f (x0 − 0), f (x0 + 0) beide existieren, jedoch f (x0 − 0) = f (x0 + 0) ist. In diesem Fall existiert der Limes lim f (x) nicht. Umgekehrt: lim f (x) existiert ⇐⇒ f (x0 − 0) = f (x0 + 0).
x−→x0
x−→x0
Die nächsten beiden Theoreme sind die Hauptresultate über Funktionen, die auf einem ganzen Intervall stetig sind. Bevor wir sie formulieren, führen wir noch gebräuchliche Schreibweisen für Supremum, Infimum, Maximum und Minimum des Wertebereichs einer Funktion ein: Ist f : I −→ R und z. B. I = [a, b], so schreibt man sup f (x) = sup f (x) := sup f (I) , x∈I
a≤x≤b
B. Stetigkeit in R
41
wobei das Supremum den Wert +∞ erhält, wenn f (I) nicht nach oben beschränkt ist. Entsprechende Schreibweisen hat man für das Infimum und (falls sie existieren) für Maximum und Minimum sowie auch für offene und halboffene Intervalle. Natürlich setzt man inf f (x) = −∞ ,
x∈I
wenn f (I) nicht nach unten beschränkt ist. Theorem 2.11 (Zwischenwertsatz). Sei I ⊂ R ein Intervall und sei f : I −→ R stetig. a. Sind x1 = x2 in I und y ∈ R mit f (x1 ) < y < f (x2 ), so gibt es ein x0 zwischen x1 , x2 mit f (x0 ) = y. b. f nimmt jeden Wert zwischen inf f (x) und sup f (x) an. x∈I
x∈I
Beweis. a. Dies folgt aus dem Supremumsaxiom. Ist z. B. x1 < x2 , so betrachtet man das längste Intervall der Form [x1 , s[, auf dem überall f (x) < y gilt, und man wählt dann x0 := s. Die Stetigkeit von f führt nun dazu, dass f (x0 ) = y sein muss (Details in 2.38). b. Sei nun y ∈ R mit inf x∈I f (x) < y < supx∈I f (x). Nach 1.16 gibt es dann Werte y1 = f (x1 ) < y < y2 = f (x2 ) . Jeder Punkt zwischen x1 und x2 liegt in I, weil I ein Intervall ist. Also folgt die Behauptung aus Teil a. Der Beweis des nächsten Theorems findet sich in Ergänzung 2.39. Theorem 2.12. Auf einem kompakten Intervall ist jede stetige Funktion beschränkt und nimmt ihr Maximum und ihr Minimum an. Die Behauptungen von 2.11a und 2.12 kann man in der folgenden prägnanten Aussage zusammenfassen: Das Bild eines kompakten Intervalls unter einer stetigen Funktion ist ein kompaktes Intervall. Es ist nämlich f ([a, b]) = [m, M ] mit m := min f (x), a≤x≤b
M := max f (x) . a≤x≤b
Besonders einfach sind die stetigen Funktionen, die immer steigen oder immer fallen:
42
2 Differenziation in R
Definitionen 2.13. Sei I ⊆ R ein Intervall. a. f : I −→ R heißt (streng) monoton wachsend auf I, wenn f (x1 ) ≤ f (x2 )
(f (x1 ) < f (x2 ))
für x1 < x2
und (streng) monoton fallend auf I, wenn f (x1 ) ≥ f (x2 )
(f (x1 ) > f (x2 ))
für x1 < x2 .
b. f : I −→ R heißt (streng) monoton, wenn f auf I (streng) monoton wachsend oder fallend ist. Satz 2.14. Sei I ⊆ R ein Intervall, f : I −→ R stetig. a. f ist genau dann injektiv, wenn f streng monoton ist. b. Ist f streng wachsend (fallend), so ist auch f −1 streng wachsend (fallend). In beiden Fällen ist f −1 stetig. Beweis. a. Es ist klar, dass aus strenger Monotonie Injektivität folgt. Sei umgekehrt f injektiv, aber nicht streng monoton. Dann gibt es (z. B.) x1 < x2 < x3
mit f (x1 ) < f (x2 ) > f (x3 ) .
Sei etwa f (x1 ) < f (x3 ) und f (x3 ) < y < f (x2 ). Nach 2.11 gibt es dann x0 ∈ ]x1 , x2 [ ,
x0 ∈ ]x2 , x3 [
mit f (x0 ) = y = f (x0 )
im Widerspruch zur Injektivität. b. Kann leicht als Übung bewiesen werden.
C. Ableitung von Funktionen einer Variablen Im Folgenden betrachten wir Funktionen f (x) aus R in R. Definitionen 2.15. Sei [a, b] ⊆ R, a < b, ein kompaktes Intervall und sei f : [a, b] −→ R eine gegebene Funktion. a. f heißt differenzierbar in x0 ∈ ]a, b[, wenn in x0 die Ableitung f (x0 ) =
f (x) − f (x0 ) f (x0 + h) − f (x0 ) df (x0 ) := lim = lim x−→x0 h−→0 dx x − x0 h (2.10)
existiert. f heißt differenzierbar in ]a, b[, wenn f in jedem x0 ∈ ]a, b[ differenzierbar ist.
C. Ableitung von Funktionen einer Variablen
b. Man nennt f− (x0 ) =
lim
h−→0−0
f (x0 + h) − f (x0 ) h
43
(2.11)
die linksseitige Ableitung von f in x0 , und f (x0 − 0) =
lim f (x0 + h)
h−→0−0
(2.12)
den linksseitigen Grenzwert der Ableitung von f in x0 (auch für x0 = b). c. Man nennt f (x0 + h) − f (x0 ) (2.13) f+ (x0 ) = lim h−→0+0 h die rechtsseitige Ableitung von f in x0 , und f (x0 + 0) =
lim f (x0 + h)
h−→0+0
(2.14)
den rechtsseitigen Grenzwert der Ableitung von f in x0 (auch für x0 = a). Anmerkung 2.16. In der Situation von 2.15a können wir für x ∈]a, b[, x = x0 setzen: f (x) − f (x0 ) r(x) := − f (x0 ) x − x0 und erhalten r(x) −→ 0 für x −→ x0 . Auflösen der Gleichung nach f (x) ergibt f (x) = f (x0 ) + [f (x0 ) + r(x)](x − x0 )
mit
lim r(x) = 0 .
x→x0
(2.15)
Hieraus folgt sofort, dass f (x) −→ f (x0 ) für x −→ x0 . Wenn also eine Funktion f in x0 differenzierbar ist, so ist sie dort auch stetig. Gilt umgekehrt (2.15) für eine geeignete Funktion r und eine Zahl f (x0 ), so erkennt man, dass f (x0 ) durch (2.10) gegeben ist. Die Funktion f ist dann also differenzierbar in x0 , und f (x0 ) ist tatsächlich die Ableitung. Diese Beschreibung der Ableitung ist der Ausgangspunkt der Differenzialrechnung für Funktionen von mehreren Variablen (vgl. Kap. 9). Mit derartigen einfachen Grenzwertbetrachtungen beweist man auch den folgenden Satz: Satz 2.17. a. Ist f : [a, b] −→ R (links- oder rechtsseitig) differenzierbar in x0 , so ist f (links- oder rechtsseitig) stetig in x0 . b. f ist genau dann differenzierbar in x0 , wenn f− (x0 ) = f+ (x0 ) .
Es folgen die wohlbekannten Rechenregeln für das Differenzieren mit knappen Beweisen. Die Beweise ausführlich darzustellen, ist eine gute Übung.
44
2 Differenziation in R
Theorem 2.18. Seien f, g : I −→ R, I = ]a, b[, differenzierbar in I. a. Für α, β ∈ R ist αf + βg differenzierbar in I mit (αf + βg) (x) = αf (x) + βg (x) .
(2.16)
b. f · g : I −→ R ist differenzierbar und es gilt die Produktregel (f g) (x) = f (x)g (x) + g(x)f (x)
(2.17)
c. f /g : I −→ R ist differenzierbar in Punkten x ∈ I mit g(x) = 0 und es gilt die Quotientenregel f f (x)g(x) − f (x)g (x) (x) = (2.18) g g(x)2 d. Ist f streng monoton in I, J = f (I), so ist f −1 : J −→ R differenzierbar in J mit 1 für y ∈ J (2.19) (f −1 ) (y) = −1 f (f (y)) in allen Punkten y = f (x), in denen f (x) = 0. e. Ist f : I −→ R differenzierbar in I, J = f (I) und ist g : J −→ R differenzierbar in J, so ist g ◦ f : I −→ R differenzierbar in I und es gilt die Kettenregel (2.20) (g ◦ f ) (x) = g (f (x)) · f (x) . Beweis. a. Folgt aus 2.18 und 2.2. b. Folgt aus f (x) − f (x0 ) g(x) − g(x0 ) f (x)g(x) − f (x0 )g(x0 ) = g(x) + f (x0 ) x − x0 x − x0 x − x0 und Grenzübergang x −→ x0 . c. Folgt aus f (x) f (x0 ) − f (x)g(x0 ) − f (x0 )g(x0 ) 1 g(x) g(x0 ) = − x − x0 g(x)g(x0 ) x − x0 f (x0 )g(x) − f (x0 )g(x0 ) − x − x0 und Grenzübergang x −→ x0 , wobei man 2.2d beachtet. d. Setzen wir ϕ = f −1 : J −→ R, so ist ϕ(f (x)) = x
für x ∈ I,
f (ϕ(y)) = y
für y ∈ J
und die Behauptung folgt aus
−1 f (x) − f (x0 ) x − x0 ϕ(y) − ϕ(y0 ) = = y − y0 f (x) − f (x0 ) x − x0
für y −→ y0 . Man muss nur sicherstellen, dass y −→ y0 =⇒ x −→ x0 , d. h. dass ϕ in y0 stetig ist. Das folgt aber aus 2.14b.
C. Ableitung von Funktionen einer Variablen
45
e. Die Kettenregel übernehmen wir zunächst ohne Beweis. Sie wird sich als Spezialfall einer allgemeineren Version ergeben (vgl. 9.16). 2.19 Ableitungen der elementaren Funktionen. Die elementaren Funktionen sind überall differenzierbar. Ohne Beweis (vgl. jedoch Ergänzung 2.40) vermerken wir die grundlegenden Beziehungen d exp x = exp x dx
(2.21)
und d sin x = cos x, dx Mittels 2.18d folgt aus (2.21) sofort
d cos x = − sin x . dx
(2.22)
1 d ln x = (x > 0) . (2.23) dx x Für die allgemeine Potenz xα = exp(α ln x) folgt dann (für x > 0) mittels der Kettenregel d α x = αxα−1 (2.24) dx für beliebiges α ∈ R. Ist der Exponent ganzzahlig, so gilt diese Formel auch auf ganz R, wie man mittels Produkt- und Quotientenregel direkt nachrechnet. Für ein Polynom n ck xk P (x) := k=0
folgt P (x) =
n
ck kxk−1 =
n−1
(j + 1)cj+1 xj .
j=0
k=1
Auch die Ableitungen aller anderen elementaren Funktionen lassen sich mit den Rechenregeln aus 2.18 nun leicht berechnen. Die Ergebnisse dieser Rechnungen gehören zum Handwerkszeug des Physikers, und wir stellen sie in Abschnitt F. kurz zusammen. Korollar 2.20. Für alle x ∈ R ist
x n 1+ . n→∞ n
ex = lim
Insbesondere ist die Euler’sche Zahl gegeben durch n 1 e = lim 1 + . n→∞ n
46
2 Differenziation in R
Beweis. Die Ableitung von ln t bei t = 1 ist 1. Nach Definition der Ableitung heißt das: 1 1 lim ln(1 + h) = lim (ln(1 + h) − ln 1) = 1 . h→0 h h→0 h h=0 h=0 Diesen Grenzwert können wir auch entlang einer Folge bilden, die gegen Null konvergiert, z. B. entlang der Folge hn := x/n. Also: 1 n x ln 1 + 1 = lim ln(1 + hn ) = lim . n→∞ hn n→∞ x n Dies multiplizieren wir mit x und wenden alsdann die Exponentialfunktion an. Da die Exponentialfunktion stetig ist, folgt die Behauptung.
D. Mittelwertsatz und Taylorformel Wir beginnen mit einer Aussage über lokale Extrema. Damit sind Punkte x0 aus dem Definitionsbereich von f gemeint, bei denen die Einschränkung von f auf ein geeignetes Intervall [x0 − δ, x0 + δ] ihr Maximum oder Minimum annimmt. Satz 2.21. Wenn f : [a, b] −→ R in x0 ∈ ]a, b[ ein lokales Extremum hat und in x0 differenzierbar ist, dann ist f (x0 ) = 0. Beweis. Wir nehmen an, f habe in x0 ein lokales Maximum, d. h. es gibt ein δ > 0, sodass für |x − x0 | < δ . f (x0 ) − f (x) ≥ 0 Wegen f (x) − f (x0 ) x − x0
≤0 ≥0
folgt die Behauptung für x −→ x0 .
für x0 < x < x0 + δ für x0 − δ < x < x0
Theorem 2.22. Sei f : [a, b] −→ R stetig auf [a, b] und differenzierbar in ]a, b[. Für a ≤ x1 < x2 ≤ b gilt dann: a. Satz von Rolle: Wenn f (x1 ) = f (x2 ) ist, dann gibt es ein x0 ∈ ]x1 , x2 [ mit f (x0 ) = 0. b. Mittelwertsatz der Differenzialrechnung: Es gibt ein x0 ∈ ]x1 , x2 [ mit f (x2 )−f (x1 ) = f (x0 ). x2 −x1 Beweis. a. Ist f konstant in [x1 , x2 ], so ist die Behauptung für jedes x0 ∈ ]x1 , x2 [ richtig. Anderenfalls hat f (x) in dem kompakten Intervall [x1 , x2 ] nach Theorem 2.12 ein Maximum M > f (x1 ) oder ein Minimum m < f (x1 ), etwa bei x0 , und wegen der Voraussetzung f (x1 ) = f (x2 ) kann x0 weder x1 noch x2 sein. Also hat f in ]x1 , x2 [ ein lokales Extremum und die Behauptung folgt aus 2.21.
D. Mittelwertsatz und Taylorformel
47
b. Anwendung des Satzes von Rolle auf h(x) := f (x) −
f (x2 ) − f (x1 ) (x − x1 ) x2 − x1
liefert den Mittelwertsatz. Eine unmittelbare Konsequenz dieser Sätze ist: Satz 2.23. Sei f : [a, b] −→ R differenzierbar, a ≤ x1 < x2 ≤ b. Dann gilt a. f (x) ≥ 0, x1 ≤ x ≤ x2 ⇐⇒ f monoton wachsend in [x1 , x2 ]. b. f (x) = 0, x1 ≤ x ≤ x2 ⇐⇒ f konstant auf [x1 , x2 ]. c. f (x) ≤ 0, x1 ≤ x ≤ x2 ⇐⇒ f monoton fallend in [x1 , x2 ]. Wir betrachten höhere Ableitungen. Definitionen 2.24. Wir betrachten ein offenes Intervall I und Funktionen f : I −→ R. a. Ist f differenzierbar in I und existiert die zweite Ableitung f (x0 + h) − f (x0 ) h−→0 h
f (x0 ) = lim
von f in x0 ,
so heißt f zweimal differenzierbar in x0 . Existiert die zweite Ableitung in jedem x0 ∈ I, so heißt f zweimal differenzierbar in I. Dann definiert man die dritte Ableitung als Ableitung von f usw. Allgemein ist f in x0 ∈ I k-mal differenzierbar, wenn f in I (k − 1)-mal differenzierbar ist und die Ableitung f (k) (x0 ) der Funktion f (k−1) : I −→ R in x0 existiert. b. Ist f k-mal differenzierbar in I und ist die k-te Ableitung stetig in I, so heißt f k-mal stetig differenzierbar in I. Mit C k (I) bezeichnet man die Menge der k-mal stetig differenzierbaren Funktionen auf I. Mit C ∞ (I) bezeichnet man die Menge der Funktionen, die zu jedem C k (I) gehören, die also beliebig oft stetig differenzierbar sind. Damit können wir den folgenden fundamentalen Approximationssatz beweisen: Theorem 2.25 (Satz von Taylor). Sei f : [a, b] −→ R eine C n+1 Funktion, a < x0 < b. Dann gilt die Taylorformel f (x) = pn (f, x, x0 ) + rn (f, x, x0 )
(2.25)
mit dem Taylor-Polynom n-ten Grades pn (f, x, x0 ) =
n f (k) (x0 ) (x − x0 )k k! k=0
(2.26)
2 Differenziation in R
48
und dem n-ten Taylor’schen Rest rn (f, x, x0 ) =
1 f (n+1) (ξ)(x − x0 )n+1 (n + 1)!
(2.27)
mit einem ξ zwischen x und x0 . Beweis. Für festes x und x0 setzen wir f (x) = pn (f, x, x0 ) +
(x − x0 )n+1 R (n + 1)!
(2.28)
mit einer Konstanten R, die durch (2.28) definiert ist und von x, x0 abhängt. Für ξ ∈ [a, b] definieren wir die Hilfsfunktion ϕ(ξ) = f (x) −
n f (k) (ξ)
k!
k=0
(x − ξ)k −
(x − ξ)n+1 R. (n + 1)!
(2.29)
Aus 2.28 folgt dann: ϕ(x0 ) = 0
und
ϕ(x) = 0 .
Da ϕ differenzierbar ist wegen f ∈ C n+1 , folgt aus dem Satz 2.22a von Rolle, dass ein ξ zwischen x und x0 existiert, sodass 0 = ϕ (ξ) = −
n
f (k+1) (ξ) (x k!
k=0 n + (x−ξ) R n!
=
− ξ) +
(x−ξ)k n! (R
n
f (k) (ξ) (k−1)! (x
k=1 (n+1)
−f
− ξ)k−1
(ξ)) ,
weil alle anderen Summanden herausfallen (Teleskopsumme). Wegen x−ξ = 0 ist R = f (k+1) (ξ), was nach Einsetzen in (2.28) gerade die Behauptung liefert. Eine Anwendung der Taylorformel liegt darin, Funktionen durch Polynome zu approximieren, wobei das Restglied den Fehler angibt. Beispiele 2.26. a. f (x) = (1 + x)α , x > −1, x0 = 0, α ∈ R. Dann ist f (0) = 1, f (0) = α, f (0) = α(α − 1), . . . und man bekommt α
(1 + x) =
k=0
mit
α (1 + ξ)α−n−1 xn+1 x + n+1 k
n α
k
α α(α − 1) · · · (α − k + 1) . = k k!
E. Die Regeln von De L’Hospital
49
b. f (x) = ex , x ∈ R, x0 = 0. Dann ist f (k) (0) = 1, also ex =
n xk k=0
k!
+
xn+1 ξ e . (n + 1)!
Eine weitere Anwendung der Taylorformel ist folgende Aussage: Satz 2.27. Sei f ∈ C n (]a, b[) und für ein x0 ∈ ]a, b[ sei f (x0 ) = · · · = f (n−1) (x0 ) = 0, f (n) (x0 ) = 0. Dann gilt a. Ist n gerade, so hat f in x0 ein relatives Maximum (bzw. Minimum), wenn f (n) (x0 ) < 0 (bzw. f (n) (x0 ) > 0). b. Ist n ungerade, so hat f in x0 kein relatives Extremum. Beweis. Aus den Voraussetzungen und der Taylorformel in 2.25 folgt f (x) = f (x0 ) +
1 (n) f (ξ)(x − x0 )n . n!
Da f (n) noch stetig ist, hat f (n) (ξ) nach 2.9b dasselbe Vorzeichen wie f (n) (x0 ), falls |x − x0 | hinreichend klein ist. Ist n gerade, so ist (x − x0 )n > 0 und daher f (x) < f (x0 ) ,
falls f (n) (x0 ) < 0
f (x) > f (x0 ) ,
falls f (n) (x0 ) > 0
Ist n ungerade, so wechselt (x − x0 )n das Vorzeichen.
E. Die Regeln von De L’Hospital Die Differenzialrechnung erlaubt es, gewisse Grenzwerte bequem zu berechnen, und dabei geht es auch um Grenzwerte, bei denen x −→ ±∞ oder y = f (x) −→ ±∞ strebt. Die exakte Definition dieser Grenzwerte müssen wir noch nachtragen, wobei wir uns allerdings auf zwei Fälle beschränken. Dabei wollen wir auch Grenzübergänge x → x0 zulassen, bei denen x0 gar nicht im Definitionsintervall I der betrachteten Funktion liegt. Das ist aber nur dann sinnvoll, wenn x0 das Intervall I berührt, d. h. wenn x0 eine der Grenzen von I ist. Daher bezeichnen wir mit I¯ die Menge, die entsteht, wenn man zum Intervall I noch seine Grenzen hinzunimmt. Definitionen 2.28. a. Sei y0 ∈ R, und das Definitionsintervall I von f sei nach oben unbeschränkt. Dann ist y0 = lim f (x) x→∞
genau dann, wenn es zu jedem ε > 0 ein K > 0 gibt, für das gilt: x ∈ I, x > K
=⇒
|y0 − f (x)| < ε .
50
2 Differenziation in R
b. Für x0 ∈ I¯ ist
lim f (x) = ∞
x→x0
genau dann, wenn es zu jedem K > 0 ein δ > 0 gibt, für das gilt: x ∈ I, |x − x0 | < δ
=⇒
f (x) > K .
Für alle anderen Fälle sind die Definitionen analog und leicht zu erraten. Sie sollten als Übung ausgeschrieben werden. Seien nun f (x), g(x) stetige Funktionen auf einem Intervall I ⊆ R und sei x0 ∈ I¯ ein Berührpunkt von I. Dann betrachten wir: • Grenzwerte vom Typ 00 , d. h. f (x) x−→x0 g(x)
wenn lim f (x) = 0 = lim g(x) .
lim
• Grenzwerte vom Typ
x−→x0
∞ ∞,
f (x) , x−→x0 g(x)
x−→x0
d. h. wenn lim f (x) = ±∞ = lim g(x) .
lim
x−→x0
x−→x0
• Grenzwerte vom Typ 0 · ∞, d. h. lim f (x) · g(x),
wenn lim f (x) = 0, x−→x0
x−→x0
lim g(x) = ±∞ .
x−→x0
• Grenzwerte vom Typ (±∞) − (±∞), d. h. lim (f (x) − g(x)),
x−→x0
wenn lim f (x) = ±∞ = lim g(x) . x−→x0
x−→x0
Man überlegt sich, dass man die beiden letzten Grenzwerte auf die ersten beiden Grenzwerte zurückführen kann (Übung). Satz 2.29. Seien f, g ∈ C n (I), n ≥ 1, x0 ∈ I¯ Berührpunkt von I und gelte lim f (k) (x) = 0 = lim g (k) (x), k = 0, . . . , n − 1 ,
(2.30)
f (x) f (n) (x) = lim (n) , x−→x0 g(x) x−→x0 g (x)
(2.31)
x−→x0
x−→x0
dann gilt: lim
falls lim f (n) (x) = 0 oder lim g (n) (x) = 0. x−→x0
x−→x0
E. Die Regeln von De L’Hospital
51
Beweis. Es genügt die Behauptung für n = 1 zu beweisen. Für n > 1 folgt sie dann durch Induktion. Der Einfachheit halber nehmen wir auch an, es ist x0 ∈ I, sodass also f, g, f , g in x0 definiert sind. Gelte also: f (x0 ) = 0 = lim f (x), x−→x0
g(x0 ) = 0 = lim g(x) . x−→x0
Dann ist f (x) − f (x0 ) f (x) − f (x0 ) f (x) = = g(x) g(x) − g(x0 ) x − x0
g(x) − g(x0 ) x − x0
−1
. Grenzübergang x −→ x0 liefert die Behauptung. Auch für x0 ∈ I¯ \ I lässt sich dieser Schluss durchführen, wenn f, g, f , g geeignet fortgesetzt werden (vgl. Ergänzung 2.41). Beispiele: sin x x−→0 x lim sin2x x−→0 x
cos x 1 =1 . cos x = lim 2x = +∞ . x−→0 sin2 x lim x = lim 2 sin x1 cos x = 0 . x−→0 x−→0 sin x x lim cosxx−1 = lim − 2x = lim − cos 2 2 x−→0 x−→0 x−→0
a. lim b. c. d.
= lim
x−→0
= −2 .
Satz 2.30. Seien f, g ∈ C n (I), n ≥ 1, x0 ∈ I¯ und gelte lim f (k) (x) = ±∞ = lim g (k) (x), k = 0, 1, . . . , n − 1 ,
x−→x0
x−→x0
(2.32)
dann gilt f (x) f (n) (x) , = lim (n) x−→x0 g(x) x−→x0 g (x) lim
(2.31)
falls lim f (n) (x) = ±∞ oder lim g (n) (x) = ±∞. x−→x0
x−→x0
Der etwas knifflige Beweis wird in Ergänzung 2.41 angegeben. Korollar 2.31. Die Regeln von de l’Hospital – also die letzten beiden Sätze – bleiben gültig, wenn überall der Grenzübergang x → x0 durch x −→ ∞ oder x −→ −∞ ersetzt wird. Beweis. Wieder genügt es, den Fall n = 1 zu behandeln. Betrachte z. B. f (x) , wenn f, g für x −→ ∞ die Voraussetzungen von 2.29 oder 2.30 lim x→∞ g(x) erfüllen. Wir setzen F (t) := f (1/t),
G(t) := g(1/t)
52
2 Differenziation in R
für t > 0. Dann ist t0 = 0 ein Berührpunkt des Intervalls ]0, ∞[, und F, G erfüllen für den Grenzübergang t → 0+ die Voraussetzungen von 2.29 bzw. 2.30. Also ist F (t) F (t) = lim . lim t→0+ G(t) t→0+ G (t) f (x) F (t) = lim , und wegen F (t) = −(1/t2 )f (1/t), G (t) = t→0+ G(t) g(x) −(1/t )g (1/t) ist
Aber lim
x−→∞ 2
F (t) f (1/t) f (x) = lim = lim , x−→∞ g (x) t→0+ G (t) t→0+ g (1/t) lim
und es folgt die Behauptung. Beispiele: a.
n lim xx x−→∞ e
= lim
x−→∞
nxn−1 ex
b. lim x · ln x = lim x−→0
ln x x−→0 1/x
= · · · = lim =
n! x = 0 . x−→∞ e 1/x lim 2 = lim (−x) x−→0 −1/x x−→0
=0.
F. Elementare Funktionen II (Formelsammlung) Es folgt die versprochene Zusammenstellung der Ableitungen der elementaren Funktionen, zusammen mit Taylorentwicklungen und weiteren asymptotischen Aussagen. Alle Behauptungen können mit den in diesem Kapitel besprochenen Rechenregeln leicht bewiesen werden. Satz 2.32. a. Die Exponentialfunktion f (x) = ex ist auf ganz R beliebig oft differenzierbar mit d x (e ) = ex . dx b. Die Exponentialfunktion wächst schneller als jede Potenz von x für x −→ +∞, d. h. für alle n > 0 gilt ex = +∞ . x−→+∞ xn lim
c. Die Exponentialfunktion hat an der Stelle x0 = 0 die folgende Taylorentwicklung n xn+1 ξ xk ex = + e . k! (n + 1)! k=0
F. Elementare Funktionen II (Formelsammlung)
53
Satz 2.33. a. Der natürliche Logarithmus f (x) = ln x ist für x > 0 beliebig oft differenzierbar mit 1 d ln x = . dx x b. Der Logarithmus wächst langsamer als jede Potenz von x für x −→ ∞, d. h. für jedes ε > 0 gilt ln x lim =0 x−→+∞ xε . c. Es gelten die Taylorentwicklungen ln(1 + x) =
n
k
n+1
x (−1)k−1 xk + (−1)n (n+1)(1+ξ) n+1
k=1 n
ln(1 − x) = −
k=1
xk k
−
xn+1 (n+1)(1−ξ)n+1
für |x| < 1. Satz 2.34. a. Die trigonometrischen Funktionen sin x und cos x sind für alle x ∈ R beliebig oft differenzierbar mit d sin x = cos x , dx
d cos x = − sin x dx
. b. Es gelten die Taylorentwicklungen sin x = cos x =
n k=0 n k=0
2k+1
2n+2
x x (−1)k (2k+1)! + (−1)n+1 (2n+2)! cos ξ 2k
2n+1
.
x x (−1)k (2k)! + (−1)n+1 (2n+1)! sin ξ
c. Die Funktion tan x ist für alle x = kπ + π2 und die Funktion cot x ist für alle x = kπ (k ∈ Z) beliebig oft differenzierbar mit 1 d tan x = = 1 + tan2 x dx cos2 x 1 d cot x = − 2 = −1 − cot2 x . dx sin x Satz 2.35. a. Die Hyperbelfunktionen sinh x und cosh x sind für alle x ∈ R beliebig oft differenzierbar mit d sinh x = cosh x , dx
d cosh x = sinh x . dx
54
2 Differenziation in R
b. Es gelten die Taylorentwicklungen sinh x =
n x2n+2 x2k+1 + cosh ξ (2k + 1)! (2n + 2)!
k=0
cosh x =
n x2n+1 x2k + sinh ξ . (2k)! (2n + 1)!
k=0
Satz 2.36. a. Die Funktionen arcsin x und arccos x sind für |x| < 1 beliebig oft differenzierbar mit d 1 arcsin x = √ , dx 1 − x2
−1 d arccos x = √ . dx 1 − x2
b. Die Funktionen arctan x und arccot x sind für x ∈ R beliebig oft differenzierbar mit d 1 arctan x = , dx 1 + x2
−1 d arccot x = . dx 1 + x2
Satz 2.37. a. Die Funktion ar sinh x ist für alle x ∈ R und ar cosh x für alle x > 1 beliebig oft differenzierbar mit d 1 ar sinh x = √ , dx 1 + x2
1 d ar cosh x = √ . 2 dx x −1
b. Die Funktion ar tanh x ist für alle |x| < 1 und die Funktion ar coth x für alle |x| > 1 beliebig oft differenzierbar mit 1 d ar tanh x = , dx 1 − x2
−1 d ar coth x = 2 . dx x −1
Ergänzungen zu §2 Wir tragen hier die Beweise von 2.11, 2.12 und 2.30 nach, machen verschiedene zusätzliche Betrachtungen über Grenzwerte und (einseitige) Ableitungen und geben am Schluss eine Verallgemeinerung der Produktregel auf höhere Ableitungen sowie eine Anwendung davon auf Nullstellen von Polynomen. 2.38 Beweis des Zwischenwertsatzes. Wir brauchen nur 2.11a zu beweisen. Sei etwa x1 < x2 und f (x1 ) < y < f (x2 ) (der Fall x1 > x2 geht analog). Dann definieren wir die Menge M = {x|f (x ) < y
für x1 ≤ x < x} .
Ergänzungen
55
Offenbar ist x1 ∈ M und x2 eine obere Schranke von M . Also existiert x0 := sup M nach 1.15, und nach 1.16 gibt es eine Folge: (xn )
mit xn ∈ M und xn −→ x0 .
Mit 2.7 und 2.2e folgt hieraus f (x0 ) = lim f (xn ) ≤ y . n→∞
Nach Definition von M ist außerdem f (x) < y auf jedem der Intervalle [x1 , xn [ (n ∈ N) und daher auf dem ganzen Intervall [x1 , x0 [. Wäre nun f (x0 ) < y, so gäbe es nach Definition der Stetigkeit ein positives δ < x2 − x0 so, dass f (x) < y auch für x0 − δ < x < x0 + δ richtig wäre (man wähle δ z. B. passend zu ε := 12 (y − f (x0 ))). Dann wäre aber f (x) < y auf ganz [x1 , x0 + δ[ und damit x0 + δ ∈ M im Widerspruch zu x0 = sup M . Also ist f (x0 ) = y, und wir sind fertig. 2.39 Beweis von Theorem 2.12. Wir betrachten das beliebige kompakte Intervall I = [a, b]. Zunächst zeigen wir: Behauptung. Jede stetige Funktion auf I ist beschränkt. Beweis. Nehmen wir an, für eine stetige Funktion f : I → R wäre der Wertebereich f (I) unbeschränkt. Wir halbieren das Intervall, teilen es also ein in die beiden Hälften [a, c] und [c, b] mit c := (a + b)/2. Auf mindestens einer der beiden Hälften muss f unbeschränkt sein, denn sonst wäre f ja auf ganz I beschränkt. Wir wählen solch eine Hälfte und nennen sie I1 := [a1 , b1 ]. (Es ist also a1 = a, b1 = c, wenn die linke Hälfte gewählt wurde, bzw. a1 = c, b1 = b, wenn die rechte Hälfte gewählt wurde.) Nun teilen wir I1 ein in die beiden Hälften [a1 , c1 ] und [c1 , b1 ] mit c1 := (a1 + b1 )/2. Auf mindestens einer der beiden Hälften muss f wiederum unbeschränkt sein. Wir wählen solch eine Hälfte und nennen sie I2 := [a2 , b2 ]. So fortfahrend, erhalten wir rekursiv eine Folge I = I0 ⊃ I1 ⊃ I2 ⊃ . . . von ineinander geschachtelten Intervallen In = [an , bn ], auf denen f unbeschränkt ist. Für jedes n ∈ N haben wir wegen der Schachtelung der Intervalle an ≤ an+1 < bn+1 ≤ bn ≤ b .
(∗)
Die Folge (an )n ist also monoton wachsend und nach oben beschränkt. Nach Satz 2.4 konvergiert sie daher gegen ihr Supremum s := supn∈N an , und nach (∗) zusammen mit der Definition des Supremums ist klar, dass a ≤ an ≤ s ≤ bn ≤ b ∀ n, insbesondere also s ∈ I. Die Konstruktion der Intervalle In zeigt außerdem, dass In+1 stets halb so lang ist wie In , also bn − an = (b − a)/2n .
56
2 Differenziation in R
Daher ist limn→∞ (bn − an ) = 0 und somit lim bn = lim an + lim (bn − an ) = s .
n→∞
n→∞
n→∞
Zu ε = 1 wählen wir nun ein δ > 0 gemäß der Stetigkeit von f im Punkt s. Da die Folgen (an )n , (bn )n beide gegen s konvergieren, können wir n so groß wählen, dass |s − an |, |s − bn | < δ, also 0 ≤ s − an < δ und 0 ≤ bn − s < δ. Dies bedeutet In ⊆ I∩]s − δ, s + δ[ . Aber für jedes x ∈ I∩]s − δ, s + δ[ ist |f (x)| ≤ |f (s)| + |f (x) − f (s)| < |f (s)| + 1 =: M und damit f (In ) ⊆ [−M, M ] im Widerspruch dazu, dass f (In ) unbeschränkt ist. Nun zeigen wir, dass die stetige Funktion f : I → R in I ihr Maximum annimmt. Nach unserer Behauptung ist f (I) beschränkt, also können wir setzen: M := sup f (I) , und wir haben zu zeigen, dass M ∈ f (I). Angenommen, das wäre falsch. Dann wäre durch g(x) :=
1 M − f (x)
(x ∈ I)
eine positive stetige Funktion auf I definiert, denn es ist ja f (x) < M für jedes x ∈ I. Wir können unsere Behauptung auf g anwenden und erkennen so, dass es eine Zahl µ > 0 gibt mit g(x) ≤ µ ∀ x ∈ I. Aber 1 ≤µ M − f (x) ist äquivalent zu f (x) ≤ M −
1 . µ
Es ist also M = sup f (I) ≤ M −
1 <M µ
ein Widerspruch. Also war unsere Annahme falsch, und f nimmt ihr Maximum an. Dass sie auch ihr Minimum annimmt, folgt durch Anwendung des Bewiesenen auf die stetige Funktion −f . 2.40 Grenzwertbestimmungen bei elementaren Funktionen. Die Differenzierbarkeit – und damit insbesondere die Stetigkeit – der elementaren Funktionen sowie die Werte ihrer Ableitungen lassen sich leicht aus einfachen und anschaulich sehr einleuchtenden Eigenschaften herleiten, was hier geschehen soll.
Ergänzungen
57
Die Exponentialfunktion Neben dem Additionstheorem verwenden wir die Tatsache, dass exp x ≥ 1 + x
∀ x ∈ R.
(2.33)
Schreibt man dies für −x auf und geht zum Kehrwert über, so folgt im Falle x < 1, dass auch 1 exp x ≤ 1−x gilt. Nun ist x 1 −1= . 1−x 1−x Für −∞ < x < 1 haben wir also x ≤ exp x − 1 ≤ und somit für x = 0: 1≤
x 1−x
exp x − 1 1 ≤ . x 1−x
Hieraus folgt lim
x→0 x=0
exp x − 1 =1. x
Mit dem Additionstheorem folgt hieraus die Differenzierbarkeit an jedem Punkt sowie die Beziehung (2.21).
Die trigonometrischen Funktionen Hier gehen wir aus von der anschaulich einleuchtenden Beziehung sin x ≤ x ≤ tan x
(0 ≤ x < π/2).
(2.34)
Aus dem Additionstheorem für den Kosinus folgt leicht (vgl. auch 1.27c) 1 − cos x = 2 sin2
x , 2
und daher liefert die erste Ungleichung in (2.34) x2 . (2.35) 2 Da hier links und rechts gerade Funktionen stehen, gilt diese Ungleichung sogar für −π/2 < x < π/2. Für x = 0 folgt 1 − cos x ≤
0≤
1 − cos x ≤ x/2 x
58
2 Differenziation in R
und daher lim
x→0 x=0
cos x − 1 = 0. x
(2.36)
Die Ungleichung (2.35) können wir umformulieren zu cos x ≥ 1 −
x2 , 2
und die zweite Ungleichung in (2.34) zu sin x ≥ x cos x
(x ≥ 0) .
Kombination dieser beiden Ungleichungen liefert für x ≥ 0 x2 sin x ≥ x 1 − 2 und somit (wenn wir erneut (2.34) beachten) 1−
sin x x2 ≤ ≤1. 2 x
Da die hier vorkommenden Funktionen wieder gerade sind, gilt diese Beziehung auch für negative x = 0. Es folgt lim
x→0 x=0
sin x =1. x
(2.37)
Mit den Additionstheoremen folgt aus (2.36) und (2.37) die Differenzierbarkeit der trigonometrischen Funktionen auf ganz R sowie die vertrauten Werte (2.22) der Ableitungen. 2.41 Grenzwerte von Ableitungen sind Ableitungen. Zwischen den in 2.15b, c definierten Größen herrscht die folgende einfache Beziehung: Satz. Wenn f (x0 − 0) (bzw. f (x0 + 0)) existiert und f in x0 linksseitig (bzw. rechtsseitig) stetig ist, so existiert auch f− (x0 ) (bzw. f+ (x0 )), und die beiden Größen stimmen überein. Beweis. Nehmen wir z. B. an, es existiert f (x0 + 0) und f ist in x0 rechtsseitig stetig. Zu beliebigem ε > 0 finden wir dann δ > 0 so, dass 0 ≤ x − x0 < δ
=⇒
|f (x) − f (x0 + 0)| < ε .
Ist nun 0 < h < δ, so haben wir nach dem Mittelwertsatz f (x0 + h) − f (x0 ) = f (ξ) h
Ergänzungen
59
mit einem ξ zwischen x0 und x0 + h, also mit 0 < ξ − x0 < δ. Daher ist f (x0 + h) − f (x0 ) = |f (ξ) − f (x0 + 0)| < ε . − f (x + 0) 0 h Dies zeigt, dass tatsächlich f (x0 + h) − f (x0 ) , h→0+ h
f (x0 + 0) = lim
wie behauptet. Der andere Fall wird völlig analog behandelt.
In der Theorie der Differenzialgleichungen trifft man häufig die folgende Situation an: Man hat Zahlen a < c < b und C 1 -Funktionen f : [a, c] → R, g : [c, b] → R mit f (c) = g(c). Dann kann man die beiden Funktionen „zusammenstückeln“, d. h. man hat eine eindeutige Funktion h : [a, b] → R, die auf [a, c] mit f , auf [c, b] mit g übereinstimmt, und diese ist sogar stetig. Aber h muss in x = c nicht differenzierbar sein, denn es könnte dort ja ein Knick in der Kurve auftreten. Man erwartet Differenzierbarkeit, wenn die Steigungen von f und g bei x = c übereinstimmen. Unser Satz bestätigt dies, denn aus f (c − 0) = g (c + 0) folgt ja aufgrund des Satzes f− (c) = g+ (c) ,
und dieser gemeinsame Wert ist offenbar h (c). Insbesondere ist h stetig, auch im Punkt c. Mit dieser Methode kann man auch leicht Beispiele für Funktionen konstruieren, die z. B. einmal, aber nicht zweimal differenzierbar sind. Setze etwa für x ≥ 0 , x2 h(x) := 2 −x für x ≤ 0 , dann ist h ∈ C 1 (R) mit h (0) = 0, aber h (0) existiert nicht, da der Grenzwert der zweiten Ableitungen von rechts +2 und von links −2 beträgt. 2.42 Zweiter Mittelwertsatz und Regel von de l’Hospital. Zum Beweis der Regel von de l’Hospital im Falle eines Grenzwertes vom Typ ∞/∞ benutzt man den sog. zweiten Mittelwertsatz der Differenzialrechnung. Er lautet: Es sei a ≤ x1 < x2 ≤ b. Sind f, g : [a, b] −→ R beide stetig auf [a, b], differenzierbar in ]a, b[ und ist g (x) = 0 in ]x1 , x2 [, so gibt es ein x0 ∈ ]x1 , x2 [ mit f (x0 ) f (x2 ) − f (x1 ) = . g(x2 ) − g(x1 ) g (x0 )
60
2 Differenziation in R
Beweis. Anwendung des Satzes von Rolle auf h(x) := (f (x2 ) − f (x1 ))g(x) − (g(x2 ) − g(x1 ))f (x)
liefert die Behauptung. Nun können wir Satz 2.30 beweisen: Es genügt wieder, den Beweis für n = 1 zu führen. Sei also lim
x−→x0
f (x) =L, g (x)
d. h. zu ε > 0 gibt es ein δ0 > 0, sodass L−
f (ξ) ε ε < 0 ein δ > 0 gibt mit f D(f ) ∩ Uδ (x0 ) ⊆ Uε (y0 ) . Allerdings betrachten wir dies nur unter der Voraussetzung, dass x0 ein Häufungspunkt von D(f ) ist, was heißen soll, dass für jedes δ > 0 die Menge D(f ) ∩ Uδ (x0 ) aus unendlich vielen Punkten besteht. Unter dieser Definition lassen sich alle bisher behandelten Grenzwerte subsumieren. Die einseitigen Grenzwerte sind einfach die Grenzwerte der Einschränkung von f auf I∩]x0 , ∞[ bzw. I∩] − ∞, x0 [, und die Grenzwerte von Folgen entstehen, wenn man die Folge als Funktion mit Definitionsbereich N auffasst. Die Mengen Uε (x0 ) nennt man Umgebungen von x0 . Wir werden noch weitere Situationen kennenlernen, in denen man durch Variieren des Umgebungsbegriffs zu neuen Varianten des Grenzwertbegriffs kommt. Die allgemeinsten derartigen Situationen werden in einem Zweig der Mathematik behandelt, der als allgemeine oder mengentheoretische Topologie bekannt ist. 2.44 Die Leibniz-Regel. Das ist die Produktregel für höhere Ableitungen: Sind f, g ∈ C n (I), so ist auch f g n–mal stetig differenzierbar, und es gilt (f g)(n) =
n n (n−k) (k) g . f k k=0
Man beweist das durch Induktion nach n mit Hilfe der Produktregel. Der Verlauf der Rechnung ist genau derselbe wie beim Beweis der binomischen Formel. Übrigens gibt es auch eine Verallgemeinerung der Kettenregel auf höhere Ableitungen, also eine geschlossene Formel für die n-te Ableitung einer Komposition g ◦ f („Formel von Fa’a de Bruno“). Sie ist aber sehr kompliziert und eher von theoretischem Interesse (vgl. [34]). 2.45 Nochmals Vielfachheit von Nullstellen. Mithilfe der Ableitungen kann man die in 1.34 eingeführte Vielfachheit einer Nullstelle eines Polynoms bequem charakterisieren. Sie ist nämlich die kleinste Zahl m, für die die m-te Ableitung nicht verschwindet. Genauer:
62
2 Differenziation in R
Satz. Sei a ∈ R eine Nullstelle des Polynoms P , und sei m ihre Vielfachheit. Dann ist P (a) = P (a) = . . . = P (m−1) (a) = 0,
aber
P (m) (a) = 0 .
Beweis. Nach Definition der Vielfachheit haben wir P (x) = (x − a)m Q(x) mit Q(a) = 0, und hierauf wenden wir die Leibniz-Regel an. Für n ≤ m ist dn (x − a)m = cn (x − a)m−n dxn mit einem positiven konstanten Vorfaktor cn , dessen genauer Wert uns im Augenblick nicht zu interessieren braucht. Es folgt also P (n) (x) =
n n k=0
k
cn−k (x − a)m−n+k Q(k) (x) .
Im Falle n < m ist stets m − n + k > 0, also verschwinden für x = a alle Terme, und es ergibt sich P (n) (a) = 0. Im Falle n = m verschwinden alle Terme mit k ≥ 1, also bleibt nur der Term mit k = 0, und das ergibt P (m) (a) = cm Q(a) = 0 .
Aufgaben zu §2 2.1. Man bestimme 2n + 1 , n→∞ n2 + n + 1 lim
√ n−1 1 2 + 2 2 + . . . + n2 lim √ , lim , n→∞ n→∞ n+1 n3 n q k , |q| < 1 . lim n→∞
k=0
2.2. Für a ≥ 0 in R bestimme man lim
n−→∞
falls der Grenzwert existiert.
an , 1 + an+1
Aufgaben
63
2.3. Für a, b > 0, x0 > 0 zeige man, dass die rekursiv definierte Folge xn mit xn+1 =
a + bxn , b + axn
konvergiert. Man betrachte dazu: yn =
n = 0, 1, 2, . . . xn −1 xn +1 .
2.4. Wir bezeichnen mit sgn(x) das Vorzeichen von x ∈ R. sgn(x) ist also 1, 0 oder −1 je nachdem, ob x positiv, gleich null oder negativ ist. Man bestimme den linksseitigen und rechtsseitigen Limes der Vorzeichenfunktion sgn bei x = 0. √ 2.5. Für a > 0 definiert man die Folge (xn ), indem man x1 > a wählt und alle anderen Folgenglieder mittels 1 a xn + xn+1 = 2 xn rekursiv bestimmt. Man zeige nun: a. (xn ) ist monoton fallend. b. (xn ) ist konvergent. √ c. (xn ) besitzt den Grenzwert a. √ a d. xn < a < xn , ∀n ∈ N.
√ Sei nun x1 = 5 und a = 17. Man bestimme ein n ∈ N so, dass |xn − 17| ≤ √ 10−6 . Man beweise die Richtigkeit der Wahl von n ohne 17 mit dem Taschenrechner zu bestimmen. 2.6. Sei f : [0, 1] −→ R stetig mit 0 ≤ f (x) ≤ 1 für x ∈ [0, 1]. Man zeige, dass der Graph von f wenigstens einmal die erste Winkelhalbierende in der (x, y)-Ebene schneidet. 2.7. Sei p(x) = an xn + an−1 xn−1 + · · · + a1 x + a0 ,
ak ∈ R , an = 0
eine Polynomfunktion in R. Mithilfe des Zwischenwertsatzes, aber ohne Verwendung des Fundamentalsatzes der Algebra, zeige man: Für ungerades n hat p(x) wenigstens eine reelle Nullstelle. 2.8. Mit dem Zwischenwertsatz zeige man, dass p(x) = x4 − x3 − 10x2 − x + 1 Vier verschiedene reelle Nullstellen hat. 2.9. Für m = 0, 1, 2, . . . sei xm sin x1 fm (x) = 0
für x = 0 , für x = 0
−1 ≤ x ≤ 1 .
64
2 Differenziation in R
Man bestimme ein minimales m ∈ N0 , sodass a. fm stetig in x = 0 ist, (0) existiert, b. fm c. fm beschränkt ist, stetig in x = 0 ist, d. fm (0) existiert, e. fm beschränkt ist und f. fm g. fm stetig in x = 0 ist.
2.10. Man untersuche, wie oft f (x) = |x|3 in x = 0 differenzierbar ist. 2.11. Durch Induktion nach n beweise man die folgende allgemeine Produktregel: Sei I ⊆ R ein offenes Intervall und x0 ∈ I. Sind die Funktionen n f1 , f2 , . . . , fn : I → R in x0 differenzierbar, so ist auch ihr Produkt g := fk k=1
in x0 differenzierbar, und es gilt g (x0 ) =
n
f1 (x0 ) · · · fk−1 (x0 )fk (x0 )fk+1 (x0 ) · · · fn (x0 ) .
k=1
2.12. Mit dem Satz von Rolle zeige man: a. Für jedes c ∈ R hat f (x) = x3 − 27x + c höchstens eine Nullstelle x0 > 3. b. Für jedes c ∈ R hat f (x) = x3 −3x+c höchstens eine Nullstelle x0 ∈ ]0, 1[. c. p(x) =
d4 2 dx4 ((x
− 1)4 ) hat 4 verschiedene reelle Nullstellen.
2.13. Man beweise, dass für beliebiges n ∈ N gilt: nπ dn , sin x = sin x + a. dxn 2 b. c.
2n! dn 1 + x = , dxn 1 − x (1 − x)n+1 [n/2] n (2k)! dn (2x)n−2k f (n−k) (x2 ) f (x2 ) = k=0 2k n dx k! für f ∈ C n . Dabei ist n/2 , falls n gerade, [n/2] := (n − 1)/2 , falls n ungerade.
Aufgaben
65
2.14. a. Man berechne das Taylorpolynom zweiten Grades der Sinusfunktion bezüglich des Entwicklungspunktes x0 = 0. Man benutze den zweiten Taylor’schen Rest, um eine Abschätzung des Terms | sin x − x| für x ∈ [−1, 1] zu √ finden. Man berechne maxx∈[−1,1] | sin x − x|. b. Sei f (x) = 4 x. Man berechne das Taylorpolynom 2 (f, 9 p11
x, 1), sowie eine Schranke des Fehlers |f (x) − p2 (f, x, 1)| für x ∈ 10 , 10 . c. Für alle n ∈ N0 berechne man das n-te Taylorpolynom pn (g, x, 1), wobei g(x) = x · ln x, x ∈]0, ∞[. 2.15. a. Es sei f ∈ C n (]a, b[) und a < x0 < b. Man zeige: Das Taylorpolynom pn (f, x, x0 ) ist das einzige Polynom P vom Grad ≤ n, für das P (k) (x0 ) = f (k) (x0 )
für k = 0, 1, . . . , n ist.
b. Man zeige: Für jedes Polynom P vom Grad ≤ n und beliebige x , x0 ∈ R ist n P (k) (x0 ) P (x) = (x − x0 )k . k! k=0
c. Eindeutigkeit der Taylorentwicklung. Es sei f : [a, b] → R eine C n+1 Funktion, es sei pn ein Polynom von höchstens n-tem Grad und rn : [a, b] → R eine Funktion. Es gelte f (x) = pn (x) + rn (x) für alle x ∈ [a, b] sowie für ein x0 ∈]a, b[ lim
h→0
| rn (x0 + h)| = 0. |h|n
Man zeige, dass daraus folgt: pn (x) = pn (f, x, x0 ) und rn (x) = rn (f, x, x0 ). (Hinweis: Beweise zuerst, dass rn die obige Grenzwertbeziehung erfüllt und folgere daraus pn = pn .) 2.16. a. Man untersuche die Funktion f : R → R f (x) = x3 + ax2 + bx auf lokale Extrema in Abhängigkeit von den Parametern a, b ∈ R. b. Man beweise, dass die Funktion f : [0, ∞[ → R f (x) = xn e−x , n > 0 genau ein lokales und globales Maximum an der Stelle x = n besitzt. 2.17. Man bestimme die Grenzwerte: 1 1 a. lim − , x→0 sin x x √ √ x2 + 1 − x √ , b. lim √ x→1+0 1 + x − x2 + 1
66
2 Differenziation in R
c. lim xx , x−→0+
d. lim (sin x)tan x . x−→0+
2.18. Man zeige, dass die folgenden Funktionen in x = 0 stetig sind:
a. f (x) =
b. f (x) =
x−arcsin x x3 − 16
1 ex −1 − 12
−
1 x
, ,
x = 0 . x=0
, ,
x = 0 . x=0
3 Integration in R
Meist wird behauptet, die Integration sei die Umkehrung der Differentiation. Falsch ist das nicht, aber die Integration ist doch noch viel mehr. Die bei Physikern populäre Formulierung, das Integral sei eine „kontinuierliche Summe“, sagt eigentlich viel deutlicher, was man sich unter einem Integral vorstellen sollte. Wir werden denn auch zuerst die klassische Riemann’sche Integralkonstruktion besprechen, die diese Vorstellung sozusagen mathematisch in die Tat umsetzt. Erst in den Abschnitten B. und C. werden wir den Zusammenhang zwischen Differenzial- und Integralrechnung diskutieren.
A. Eigenschaften des Riemann-Integrals Ausgangspunkt für das Integral ist die Berechnung von Flächeninhalten krummlinig berandeter Gebiete in R2 (vgl. Abb. 3.1).
Abb. 3.1. Integral als Flächeninhalt
68
3 Integration in R
Sei I = [a, b] ⊆ R ein Intervall, f : [a, b] −→ R eine stetige Funktion. Dann suchen wir den Inhalt des Gebietes, das von den Kurven y = f (x), y = 0, x = a, x = b berandet wird. Bekanntlich geht man folgendermaßen vor: a. Man zerlegt das Intervall I durch Punkte a = x0 < x1 < · · · < xn = b in n Teilintervalle Ij = [xj−1 , xj ] . b. In jedem Ij wählt man eine beliebige Stützstelle ξi , xi−1 ≤ ξi ≤ xi . c. Dann betrachtet man das Rechteck Ri mit Grundlinie Ii und Höhe f (ξi ). d. Man addiert die Inhalte aller Rechtecke auf S :=
n
f (ξi )(xi − xi−1 )
i=1
und bekommt so eine Näherung des gesuchten Inhaltes. e. Nun macht man die Zerlegung immer feiner, d. h. man wählt immer mehr Teilintervalle, sodass alle Intervalllängen kleiner werden, also max (xi − xi−1 ) −→ 0
i=1,...,n
für n −→ ∞
und bekommt dann eine Folge von Rechtecksummen (Sn ). f. Konvergiert diese Folge (Sn ) gegen ein S ∈ R und S ist unabhängig von (i) den speziell gewählten Zerlegungen, (ii) den speziell gewählten Stützstellen, so nennt man f auf [a, b] integrierbar und schreibt
b
f≡ a
b
f (x) dx := lim Sn . n−→∞
a
Wir wollen dies jetzt präzise definieren. Definitionen 3.1. Sei I = [a, b] ⊆ R ein kompaktes Intervall und sei f : [a, b] −→ R eine beschränkte Funktion. a. Eine Zerlegung Z von I ist ein System von endlich vielen Teilintervallen Ik = [xk−1 , xk ] von I, sodass a = x0 < x1 < · · · < xn−1 < xn = b. Die Zahl l(Z) = max (xn − xn−1 ) k=1,...,n
nennt man Feinheit der Zerlegung Z und eine Menge P = {ξ1 , . . . , ξn }
mit xk−1 ≤ ξk ≤ xk , k = 1, . . . , n ,
eine zu Z gehörende Stützstellenmenge. Schreibe (Z, P ). b. Ist (Z, P ) eine Zerlegung von I mit ihrer Stützstellenmenge, so heißt S(f ; Z, P ) =
n k=1
f (ξk )(xk − xk−1 )
A. Eigenschaften des Riemann-Integrals
69
eine Riemann’sche Zwischensumme von f zu (Z, P ) und f heißt dann Riemann-integrierbar über [a, b], wenn es eine Zahl b b f≡ f (x) dx ∈ R α= a
a
das sogenannte Riemann-Integral von f über [a, b] gibt, sodass zu jedem ε > 0 ein δ > 0 existiert mit |S(f ; Z, P ) − α| < ε für alle Zerlegungen Z von I mit l(Z) < δ und alle zugehörigen Stützstellenmengen P . b c. Existiert das Integral f (x) dx für a < b, so setzt man a
a
f (x) dx = −
b
b
f (x) dx
a
f (x) dx = 0 .
und
a
a
Aus diesen Definitionen kann man Kriterien für die Existenz sowie Rechenregeln herleiten, die wir zunächst nicht beweisen, weil wir dieselben Aussagen später für n-dimensionale Integrale beweisen. Die meisten Aussagen sind jedoch allgemein bekannt. Wir schreiben im Folgenden f ∈ R(I) = R([a, b]) ,
wenn f integrierbar auf I ist .
Satz 3.2. Sei I = [a, b] ⊆ R kompakt, f : I −→ R beschränkt. a. Ist a < c < b, so gilt f ∈ R([a, b]) ⇐⇒ f ∈ R([a, c]) und
b
f= a
c
f+ a
f ∈ R([c, b])
und b
f. c
b. Ist f ∈ C 0 ([a, b]), so ist f ∈ R([a, b]), d. h. stetige Funktionen sind integrierbar. c. Sind f, g ∈ R(I), α, β ∈ R, so ist αf + βg ∈ R(I) und es gilt b b b (αf + βg) = α f +β g. a
a
a
d. Ist f ∈ R(I) und f (x) ≥ 0 für alle x ∈ I, so ist b f (x) dx ≥ 0 . a
Sind f, g ∈ R(I) und f (x) ≤ g(x) für x ∈ I, so gilt b b f (x) dx ≤ g(x) dx . a
a
3 Integration in R
70
e. Ist f ∈ R(I), so gilt
b b f (x)dx ≤ |f (x)| dx . a a
f. Ist f stetig auf I, so gibt es ein x0 ∈ [a, b] mit b f (x) dx = f (x0 )(b − a) a
(„Mittelwertsatz der Integralrechnung“).
B. Hauptsatz der Differenzial- und Integralrechnung In diesem Abschnitt stellen wir einen Zusammenhang zwischen Differenziation und Integration her und bekommen damit Methoden, um Riemann-Integrale zu berechnen. Satz 3.3. Sei a < b und sei f : [a, b] −→ R stetig. Sei ϕ : [a, b] −→ R definiert durch x f (t) dt , a ≤ x ≤ b , (3.1) ϕ(x) = a
dann ist ϕ stetig differenzierbar auf [a, b] mit ϕ (x) = f (x)
für alle x ∈ [a, b] .
(3.2)
Jede Funktion ϕ ∈ C 1 ([a, b]), welche (3.2) erfüllt, heißt eine Stammfunktion von f . Beweis. Sei x ∈ ]a, b[ beliebig, aber fest, und sei ε > 0 vorgegeben. Wegen der Stetigkeit von f gibt es ein δ > 0, sodass |f (x + h) − f (x)| < ε ,
falls |h| < δ .
Damit können wir abschätzen: x 1 x+h ϕ(x+h)−ϕ(x) − f (x) = f (t) dt − f (t) dt − f (x) h h a a x+h x+h = h1 x f (t)dt − f (x) = h1 x [f (t) − f (x)] dt x+h 1 x+h 1 · ε x dt = ε . ≤ |h| x |f (t) − f (x)| dt ≤ |h| Also
ϕ(x + h) − ϕ(x) 1 √ 1 x2 +1
R
ar tanh x =
1 2
ln
1+x 1−x
für |x| < 1 1 1−x2
`
1+x ar coth x = ± 12 ln ± 1−x
´
für ±x < −1
Um daraus weitere explizite Stammfunktionen zu gewinnen, verwendet man Produktintegration und Substitutionsregel im Verein mit allerlei geschickten algebraischen Umformungen. Die Ergebnisse sind in einschlägigen Formelsammlungen wie z. B. [6, 12] zusammengestellt. Das Ganze lässt sich aber auch systematisieren und der sog. Ritt-Algorithmus erlaubt es für jede elementare Funktion, die eine elementare Stammfunktion besitzt, diese zu berechnen. Er ist in modernen Softwaresystemen implementiert, sodass die Berechnung unbestimmter Integrale heute durch den Computer erledigt werden kann. Ganz problemlos ist die Aufgabe der formalen Integration trotzdem nicht, denn sowohl Formelsammlungen wie auch Computerprogramme enthalten Fehler, und insbesondere die Software ist oft nicht in der Lage gewisse versteckte Ausnahmefälle angemessen zu berücksichtigen. Daher wäre auch der Physiker oder Ingenieur von heute schlecht beraten, wenn er sich unbegrenzt auf Computer oder Nachschlagewerke verlassen würde, und gewisse Grundkenntnisse über formale Integrationsmethoden gehören nach wie vor zu dem Handwerkszeug, das man im Kopf haben sollte und nicht nur auf dem Desktop. Es gibt eine große Anzahl „harmlos“ aussehender Funktionen, die mit keiner der bekannten Integrationsmethoden integriert werden können, d. h. deren Stammfunktionen nicht im Bereich der elementaren Funktionen liegen, obwohl
74
3 Integration in R
diese Funktionen selbst elementar und damit auch in ihrem Definitionsbereich stetig, ja sogar beliebig oft differenzierbar sind und daher nach Satz 3.4 eine Stammfunktion besitzen. Beispiele für solche unbestimmten Integrale sind dx dx sin x 2 2 √ dx , sin(x )dx , , exp(x )dx , . x ln x 1 + x4 Der Ritt-Algorithmus erkennt solche Ausdrücke und gibt als Ergebnis die Meldung aus, dass keine elementare Stammfunktion existiert. Das Vorhandensein solcher Integrale, die auch häufig in den Anwendungen auftreten, nimmt man zum Anlass, „neue Funktionen“ zu definieren, wie z. B. den Integralsinus x sin t dt Si(x) := t 0 oder die elliptischen Funktionen x x
dt
Fk (x) := , Ek (x) := 1 − k 2 sin2 t dt , 2 2 0 0 1 − k sin t
0 0 , falls ∆ = 4ac − b2 < 0
. (3.6)
3.9 Zähler vom Grad 1. a. Als Nächstes betrachten wir p (2ax + b) + q − pb 2a 2a px + q dx = dx ax2 + bx + c ax2 + bx + c p 2aq − pb 2ax + b dx = dx + 2a ax2 + bx + c 2a ax2 + bx + c Das erste Integral berechnet sich mit der Substitutionsregel 3.6 und das zweite Integral mit Gl. (3.6).
76
3 Integration in R
b. Ebenso zerlegt man (für n > 1) 2ax + b p px + q dx = dx (ax2 + bx + c)n 2a (ax2 + bx + c)n 2aq − pb dx . + 2a (ax2 + bx + c)n Das erste Integral auf der rechten Seite berechnet sich wieder mit der Substitution u = ax2 + bx + c. Um das zweite Integral zu bestimmen, macht man den Ansatz ux + v w dx = + dx (ax2 + bx + c)n (ax2 + bx + c)n−1 (ax2 + bx + c)n−1 mit zu bestimmenden Konstanten u, v, w. Differenziert man diese Gleichung (Integrale bezeichnen Stammfunktionen!) und multipliziert anschließend mit (ax2 + bx + c)n , so ergibt sich 1 = (ax2 + bx + c) · u − (ux + v)(n − 1)(2ax + b) + w(ax2 + bx + c) . Koeffizientenvergleich ergibt u=
b 2(2n − 3)a 2a , v= , w= . (n − 1)(4ac − b2 ) (n − 1)(4ac − b2 ) (n − 1)(4ac − b2 )
3.10 Partialbruchzerlegung. Den allgemeinen Fall Z(x) dx N (x) führt man nun durch Partialbruchzerlegung auf die diskutierten Fälle zurück: 1. Schritt: Ist Grad Z(x) ≥ Grad N (x), so führe man eine PolynomdiviZ sion durch. Es ergibt sich dann ein Polynom und eine rationale Funktion N , für die Grad Z < Grad N ist. 2. Schritt: Man bestimme die Nullstellen des Nennerpolynoms. Nach 1.25 und 1.26 ergibt sich dann eine reelle Faktorzerlegung des Nenners der Form N (x) = (x − a)k (x − b) · · · (x2 + px + q)m (x2 + rx + s)n · · · , wobei a, b, . . . reelle Nullstellen von N (x) der Vielfachheiten k, , . . . sind und (x2 +px+q)m , (x2 +rx+s)n , . . . Paaren von konjugiert komplexen Nullstellen der Vielfachheiten m, n, . . . entsprechen. 3. Schritt: Unter der Voraussetzung, dass Grad Z(x) < Grad N (x)
Ergänzungen
77
macht man den Ansatz: Z(x) N (x)
= + + +
Ak A1 A2 (x−a) + (x−a)2 + · · · + (x−a)k + B B1 B2 (x−b) + (x−b)2 + · · · + (x−b) + · · · + P1 x+Q1 P2 x+Q2 Pm x+Qm (x2 +px+q) + (x2 +px+q)2 + · · · + (x2 +px+q)m + R1 x+S1 Rn x+Sn (x2 +rx+s) + · · · + (x2 +rx+s)n + · · ·
mit unbestimmten Koeffizienten A1 , A2 , . . . , P1 , Q1 , . . . , R1 , S1 , . . . Diese bestimmt man, indem man die rechte Seite auf den Hauptnenner N (x) bringt und Koeffizientenvergleich im Zähler durchführt. Ein Satz der Algebra, auf den wir nicht näher eingehen wollen, stellt sicher, dass das entstehende Gleichungssystem für die unbestimmten Koeffizienten immer eindeutig lösbar ist.
4. Schritt: Berechne die Integrale der Summanden auf der rechten Seite nach den in 3.8 und 3.9 beschriebenen Methoden. Beispiele:
a.
xdx (x + 2)2 (x − 1)
Ansatz für Partialbruchzerlegung: A B x C = + + 2 2 (x + 2) (x − 1) x + 2 (x + 2) x−1 . Hauptnenner liefert für die Zähler: x = A(x + 2)(x − 1) + B(x − 1) + C(x + 2)2 . Koeffizientenvergleich bei den Potenzen von x: x2 : 0 = A + C x1 : 1 = A + B + 4C
=⇒
A = − 91 ,
B=
2 3
,
C=
1 9
x0 : 0 = −2A − B + 4C also
xdx (x+2)2 (x−1)
= − 19
dx x+2
+
2 3
= − 19 ln |x + 2| − b.
dx 1 dx (x+2)2 + 9 x−1 2 1 1 3 x+2 + 9 ln |x − 1|
.
2x + 1 dx (x2 + x + 1)(x + 1)2
x2 + x+ 1 hat konjugiert komplexe Wurzeln, wird also nicht weiter zerlegt.
78
3 Integration in R
Daher Ansatz für Partialbruchzerlegung: C D 2x + 1 Ax + B + + = 2 (x2 + x + 1)(x + 1)2 x + x + 1 x + 1 (x + 1)2 Hauptnenner liefert für die Zähler: 2x + 1 = (Ax + B)(x + 1)2 + C(x + 1)(x2 + x + 1) + D(x2 + x + 1) . Koeffizientenvergleich ergibt: x3 : 0 = A + C
x1 : 2 = A + 2B + 2C + D
x2 : 0 = 2A + B + 2C + D
x0 : 1 = B + C + D
mit den Lösungen: Also: 2x+1
A = −1, B = 1, C = 1, D = −1 .
(x2 +x+1)(x+1)2 dx = = − 21 ln |x2 + x + 1| +
−x+1 dx x2 +x+1 dx + x+1 − √ √ 3 arctan 2x+1 + ln |x 3
dx (x+1)2
+ 1| +
1 x+1
.
II. Integration nicht-rationaler Funktionen Im Folgenden bezeichne R(u, v) eine rationale Funktion von u, v. 3.11. Integrale der Form
m px + q R x, dx rx + s
werden mit der Substitution: t= dx =
px+q stm −q rx+s , x = p−rtm sp−rq mtm−1 (p−rt m )2 dt m
behandelt. Wie man sieht, entsteht dadurch ein Integral über eine rationale Funktion, das also mit den Methoden aus den letzten drei Abschnitten weiterbehandelt werden kann. 3.12. Integrale der Form
R x, ax2 + bx + c dx .
Durch quadratische Ergänzung wird ax2 + bx + c auf eine der Formen k · (u2 + 1) bzw.
k · (u2 − 1) bzw.
k · (1 − u2 ) ,
k>0
Ergänzungen
79
gebracht. Es ist 2
ax + bx + c = a
=
∆ 4a
=
−∆ 4a
=
∆ −4a
=
∆ 4a
x+
2
x+
b 2a
2 +
∆ 4a2
mit ∆ = 4ac − b2
∧
= k · (u2 + 1) , falls a > 0, ∆ > 0 2 ∧ b √2a x + − 1 = k · (u2 − 1) , falls a > 0, ∆ < 0 2a −∆ 2 ∧ 2a b √ − + 1 = k · (1 − u2 ) , falls a < 0, ∆ > 0 x + 2a ∆ 2 ∧ 2a b √ x + 2a + 1 = k · (1 − u2 ) , falls a < 0, ∆ < 0 . − −∆ 2a √ ∆
b 2a
+1
2a b Substituieren wir also u =
, so ergibt sich (mit einer neuen x+ 2a |∆| rationalen Funktion R1 , die sich jedoch von R nur um einen konstanten Faktor unterscheidet) ⎧ √ ⎪ R u, u2 + 1 du , falls a > 0, ∆ > 0 ⎪ ⎨ 1 √
R x, ax2 + bx + c dx = R1 u, u2 − 1 du , falls a > 0, ∆ < 0 . ⎪ ⎪ ⎩ R u, √1 − u2 du , falls a < 0 1
Diese Integrale werden folgendermaßen behandelt (wir schreiben wieder R statt R1 ):
R u, u2 + 1 du: Substitution: u = sinh t, u2 + 1 = cosh2 t, du = cosh t dt. Es ergibt sich dann ein rationaler Integrand in sinh t, cosh t.
R u, u2 − 1 du: Substitution: u = cosh t, u2 − 1 = sinh2 t, d u = sinh tdt. Es ergibt sich dann ein rationaler Integrand in sinh t, cosh t.
R u, 1 − u2 du: Substitution: u = sin t, 1 − u2 = cos2 t, d u = cos tdt. Es ergibt sich dann ein rationaler Integrand in sin t, cos t. Solche Integrale behandeln wir im nächsten Abschnitt. 3.13. a. Eine rationale Funktion in sinh x, cosh x ist auch eine rationale Funktion in ex . Durch die Substitution u = ex wird aus einem solchen Integral also ein Integral über eine rationale Funktion. b. Integrale der Form R(cos x, sin x) dx
80
3 Integration in R
werden durch die Substitution u = tan(x/2) in Integrale über rationale Funktionen überführt. Es ist nämlich x cos x = 2 cos2 − 1 2 2 = −1 1 + tan2 x2 2 1 − u2 −1= , 2 1+u 1 + u2 x x sin x = 2 sin cos 2 2 x x = 2 tan cos2 2 2 2 tan x2 = 1 + tan2 x2 2u = , 1 + u2 2 2 dx = 2 x du = 1 + u2 du . 1 + tan 2 =
Für viele Spezialfälle ist das aber nicht die einfachste Methode – z. B. kann partielle Integration manchmal schneller zum Ziel führen.
Aufgaben zu §3 3.1. Seien f, g : R −→ R stetige Funktionen. Man zeige: a. Wenn f ungerade und g gerade ist, dann gilt für jedes a ≥ 0: a
a f (x)dx = 0 ,
a g(x)dx = 2
−a
−a
g(x)dx . 0
b. Wenn f p-periodisch ist, d. h. f (x + p) = f (x)
für alle x ∈ R,
so gilt für jedes a ∈ R a+p
p
f (x)dx = a
p/2 f (x)dx =
0
f (x)dx . −p/2
3.2. Sei f : R −→ R eine stetige Funktion. Man zeige: a.
π/2 0
f (sin x)dx =
π/2 0
f (cos x)dx,
Aufgaben
b.
π
81
f (sin x) cos x dx = 0.
0
3.3. Sei f : R −→ R stetig und seien a, b, c, d ∈ R beliebig. Man zeige: d
b [f (x + b) − f (x + a)] dx =
c
[f (x + d) − f (x + c)] dx . a
3.4. Sei f : R −→ R stetig und seien α, β : R −→ R stetig differenzierbar und sei β(x) f (t) d t . ϕ(x) = α(x)
Man zeige:
ϕ (x) = f (β(x))β (x) − f (α(x))α (x) .
3.5. Für x > 0 definiere x L(x) :=
dt t
(= ln x)
(3.7)
1
und zeige allein mit der Definitionsgleichung (3.7) die folgenden Eigenschaften von ln x: a. L(x) ist stetig differenzierbar mit L (x) =
1 x
für x > 0 ,
ferner streng monoton wachsend, also injektiv, mit ⎧ ⎪ ⎨< 0 für 0 < x < 1, L(x) = 0 für x = 1, ⎪ ⎩ > 0 für x > 1.
(3.8)
(3.9)
b. L(x) erfüllt die Funktionalgleichungen L(x · y) = L(x) + L(y) , L(xn ) = n L(x) ,
L(x−n ) = −n L(x) ,
L(x1/n ) =
1 L(x) n
(3.10) (3.11) (3.12)
für x, y > 0, n ∈ N, und damit L(xq ) = q L(x)
für q ∈ Q .
(3.13)
82
3 Integration in R
c.
L(x) −→ +∞
für x −→ +∞ ,
L(x) −→ −∞
für x −→ 0+ ,
(3.14)
L(e) = 1 .
(3.15) 1 n und den MittelHinweis zu (3.15): Man benutze e = limn→∞ 1 + n wertsatz der Differenzialrechnung. 3.6. Für die nach Aufgabe 3.5a existierende stetig differenzierbare Umkehrfunktion E(x) von L(x) zeige man: a.
E (x) = E(x) für alle x ∈ R .
b.
E(u + v) = E(u) · E(v),
3.7. Man beweise:
n+1 k=2
u, v ∈ R .
1 1 ≤ ln(n + 1) ≤ . k k n
k=1
3.8. a. Mittels Produktintegration zeige man, dass unter den Voraussetzungen von Theorem 2.25 für alle x ∈ I gilt: n f (k) (x0 ) 1 x k f (x) = (x − x0 ) + (x − t)n f (n+1) (t) dt . k! n! x0 k=0
b. Man folgere, dass der Taylor’sche Rest auch in der Form (x − x0 )n+1 1 rn (f, x, x0 ) = (1 − s)n f (n+1) (x0 + s(x − x0 )) ds n! 0 geschrieben werden kann. 3.9. a. Man bestimme mit einer Substitution x = sin t, oder x = 1 − t2 , oder mit partieller Integration die folgenden Integrale bzw. Grenzwerte von Integralen:
π 6
cos x sin x dx,
0 π
lim
a→1−0
0
a
x dx √ , 1 − x2
lim
a→1−0
0
a
dx √ , 1 − x2
2
sin x dx. 0
b. Man beweise für die Folge von Integralen: e In := (ln x)n dx (n ∈ N) 1
die Rekursionsformel In = e − nIn−1 (n ≥ 2) und berechne I1 , I2 und I3 .
Aufgaben
83
3.10. Man beweise für n, m ∈ N ∪ {0} die Formeln: ⎧ π ⎨ 0, falls m = n 1 cos mx cos nx dx = 1, falls m = n = 0 ⎩ π −π 2, falls m = n = 0 ⎧ ⎨ 0, falls m = n 1 π sin mx sin nx dx = 1, falls m = n = 0 ⎩ π −π 0, falls m = n = 0 π 1 sin mx cos nx dx = 0. π −π Hinweis: Die Additionstheoreme Satz 1.27c sind extrem hilfreich. 3.11. Die Funktion f : [a, b] −→ R sei stetig differenzierbar und für alle Argumente ungleich null. Dann ist f /f nach Satz 2.9c stetig, also gilt nach Satz 3.2b f /f ∈ R([a, b]). Man zeige, dass ln |f (x)| eine Stammfunktion von f (x)/f (x) ist, und dass gilt: b f (b) f (x) dx = ln . f (x) f (a) a Dieses Rezept, Integrale zu berechnen, nennt man „logarithmisches Integrieren“. Man berechne die folgenden Integrale: π4 2 x3 − 2x dx . tan x dx, 4 2 0 17x − 68x − π 0 3.12. a. Man beweise durch partielle Integration die Rekursionsformeln: (ln x)n dx = x(ln x)n − n (ln x)n−1 dx ,
1 n−1 cos x sinn−1 x + sinn−2 xdx . n n b. Man errechne analoge Formeln für: xn ex dx , xn sin x dx , xn cos x dx , ex sinn x dx , ex cosn x dx . sinn x dx = −
3.13. Man berechne Partialbruchzerlegung und Stammfunktion zu den rationalen Funktionen: 3x2 + 7x − 1 4x5 und . x4 − 2x2 + 1 x3 − 3x − 2 Dazu mache man sich mit Ergänzung 3.10 vertraut.
84
3 Integration in R
3.14. Mittels partieller Integration formen wir um: cot x dx = dx = cot x tan x dx sin x cos x cos2 x tan x dx = cot x tan x − cot x tan x dx = 1 + , dx = 1 + sin x cos x sin2 x also ergibt sich 0 = 1. Wo liegt hier der Fehler?
4 Lösungsmethoden für Differenzialgleichungen
Bestimmungsgleichungen wie man sie aus der Schule kennt, sind Bedingungen an Zahlen, und eine Lösung ist eine Zahl, die die Bedingung erfüllt. Eine (gewöhnliche) Differenzialgleichung ist eine Bedingung an Funktionen auf einem Intervall, bei der die Funktion selbst und ihre Ableitungen bis zu einer gewissen Ordnung m rechnerisch miteinander verknüpft werden, und eine Lösung ist eine m-fach differenzierbare Funktion, die an jedem Punkt ihres Definitionsbereichs die Bedingung erfüllt. Die Zahl m bezeichnet man als die Ordnung der Differenzialgleichung. Allerdings werden Differenzialgleichungen meist in einer Art Kurzschrift angegeben, bei der es so aussieht, als ob die abhängige Variable y das gesuchte Objekt wäre, obwohl in Wirklichkeit die Funktionen y = ϕ(x) gesucht sind, die die Gleichung erfüllen. Die Differenzialgleichung F (x, y, y , . . . , y (m) ) = 0 ist also genau genommen die Bedingung F (x, ϕ(x), ϕ (x), . . . , ϕ(m) (x)) = 0
∀x∈I
an eine C m -Funktion ϕ auf einem Intervall I. Differenzialgleichungen sind vielleicht für die Physik das wichtigste mathematische Objekt überhaupt. Die Physik beschreibt Naturvorgänge mittels der funktionalen Abhängigkeit gewisser Messgrößen von anderen Messgrößen und sie formuliert Naturgesetze als Differenzialgleichungen für diese funktionalen Abhängigkeiten. Durch einfache Zusatzbedingungen (Anfangsbedingungen, Randbedingungen) lässt sich meist aus der Menge aller Lösungen eine eindeutige Lösung herausgreifen und diese Lösungsfunktion stellt dann die Vorhersage dar, die die Theorie über die betreffende Abhängigkeit der Messgrößen macht. Diese Vorhersage lässt sich mit dem Experiment vergleichen, wodurch dann die betreffende Theorie entweder widerlegt oder bestätigt (d. h. in ihrer Vertrauenswürdigkeit gestärkt) wird. Kein Wunder also, dass Differenzialgleichungen in diesem Buch ein immer wiederkehrendes Thema darstellen werden. In diesem ersten Abschnitt über
86
4 Lösungsmethoden für Differenzialgleichungen
Differenzialgleichungen werden wir allerdings nur einige rechnerische Lösungsmethoden für gewisse einfache Typen von Differenzialgleichungen besprechen, die in der Physik häufig vorkommen und von Anfang an benötigt werden.
A. Differenzialgleichungen 1. Ordnung Wir beginnen mit den folgenden Definitionen: Definitionen 4.1. a. Sei f (x, y) eine gegebene Funktion von zwei Variablen. Dann nennt man eine Gleichung der Form (4.1) y = f (x, y) eine gewöhnliche Differenzialgleichung 1. Ordnung. Eine Lösung von (4.1) auf einem Intervall I ⊆ R ist eine differenzierbare Funktion y = ϕ(x), sodass ϕ (x) = f (x, ϕ(x))
für alle x ∈ I .
(4.2)
b. Die allgemeine Lösung von (4.1) ist eine Funktion y = Φ(x, c) von zwei Variablen, für die gilt: (i) Für jedes feste c ist durch ϕc (x) := Φ(x, c) eine Lösung von (4.1) gegeben und (ii) jede Lösung von (4.1) ist von dieser Form. Eine einzelne Lösung ϕc wird demgegenüber als spezielle Lösung bezeichnet (in der älteren Literatur auch als partikuläre Lösung). c. Wird zusätzlich zur Differenzialgleichung (4.1) eine Anfangsbedingung y(x0 ) = y0 ,
x0 ∈ I ,
y0 ∈ R
(4.3)
vorgegeben, so entsteht eine Anfangswertaufgabe (Anfangswertaufgabe). Wir wollen im Folgenden für zwei häufig vorkommende Typen von Differenzialgleichungen 1. Ordnung demonstrieren, wie man zu einer Lösung kommt.
I. Separierbare Differenzialgleichungen Wir beginnen mit einer Differenzialgleichung der Form y =
f (x) , g(y)
(4.4)
A. Differenzialgleichungen 1. Ordnung
87
bei der f, g gegebene stetige Funktionen einer Variablen sind. Angenommen, (4.4) hat eine Lösung y(x) auf einem Intervall I ⊆ R, d. h. es gilt g(y(x)) · y (x) = f (x)
für x ∈ I .
(4.5)
Da f (x) und g(x) nach Voraussetzung stetig sind, besitzen sie nach 3.3 Stammfunktionen ϕ(x) und γ(y), d. h. γ (y) = g(y) ,
ϕ (x) = f (x) .
(4.6)
Setzen wir (4.6) in (4.5) ein, so folgt mit der Kettenregel in 2.18e d γ(y(x)) = f (x) dx
(4.7)
und Integration liefert dann die implizite allgemeine Lösung der Differenzialgleichungen (4.4) γ(y) = ϕ(x) + c . (4.8) Ist γ injektiv, d. h. es existiert γ −1 , so bekommt man die explizite allgemeine Lösung der Differenzialgleichung (4.4) y(x) = Φ(x, c) = γ −1 (ϕ(x) + c) . Wir fassen zusammen: 4.2 Methode I. Gegeben die Anfangswertaufgabe y =
f (x) g(y)
,
y(x0 ) = y0
a. Trennung der Variablen y =
f (x) −→ g(y)dy = f (x)dx . g(y)
b. Integration (Bestimmung von Stammfunktionen) γ(y) := g(y)dy = f (x)dx + c =: ϕ(x) + c liefert die implizite allgemeine Lösung γ(y) = ϕ(x) + c . c. Anfangsbedingung (falls vorhanden) γ(y0 ) = ϕ(x0 ) + c −→ c = γ(y0 ) − ϕ(x0 ) liefert die implizite Lösung der Anfangswertaufgabe γ(y) − γ(y0 ) = ϕ(x) − ϕ(x0 ) .
(4.9)
88
4 Lösungsmethoden für Differenzialgleichungen
d. Ist γ injektiv, d. h. es existiert γ −1 , so ergibt sich als explizite Lösung der Anfangswertaufgabe y(x) = γ −1 (ϕ(x) + γ(y0 ) − ϕ(x0 )) . Beispiel: Löse die Anfangswertaufgabe y = 3x2 e−y ,
y(−1) = 0
a. Trennung der Variablen ey dy = 3x2 dx . b. Integration
ey dy = ey =
3x2 dx + c = x3 + c
ergibt die implizite Lösung ey = x3 + c . c. Anfangsbedingung y(−1) = 0 e0 = (−1)3 + c
ergibt c = 2
. d. Explizite Lösung der Anfangswertaufgabe y(x) = ln(x3 + 2) ,
√ 3 x>− 2
.
II. Lineare Differenzialgleichungen 1. Ordnung Eine lineare Differenzialgleichung 1. Ordnung hat die Form y + p(x)y = f (x) ,
(4.10)
wo p(x), f (x) gegebene stetige Funktionen auf einem Intervall I ⊆ R sind. Solche Differenzialgleichungen werden in zwei Schritten gelöst. (A) Lösung der zugehörigen homogenen Differenzialgleichung y + p(x)y = 0
(4.11)
durch Trennung der Variablen dy y
= −p(x)dx =⇒ ln |y| = −π(x) := − p(x)dx =⇒ y1 (x) = e−π(x) =⇒ yh (x) = cy1 (x) = ce
mit einem freien Parameter c ∈ R.
R − p(x)dx
spezielle Lösung allgemeine Lösung
A. Differenzialgleichungen 1. Ordnung
89
(B) Bestimmung einer speziellen (oder „partikulären“) Lösung yp (x) der inhomogenen Differenzialgleichung (4.10) mit dem Ansatz yp = u y1 + uy1 .
yp (x) = u(x)y1 (x) , Einsetzen in (4.10)
u y1 + uy1 + puy1 = f =⇒ u y1 + u (y1 + py1 ) = f % &' ( =0
ergibt für u die Differenzialgleichung u =
f =⇒ u(x) = y1
und damit yp (x) = y1 (x) ·
f (x) dx y1 (x)
f (x) dx . y1 (x)
(C) Allgemeine Lösung der inhomogenen Differenzialgleichung: Die Funktion f (x) dx Φ(x, c) = yh (x) + yp (x) = cy1 (x) + y1 (x) y1 (x) mit dem freien Parameter c löst, wie man sofort nachrechnet, die inhomogene Differenzialgleichung (4.10). Ist andererseits ϕ eine beliebige Lösung von (4.10), so ist ϕ − yp eine Lösung der homogenen Gleichung (4.11), also ϕ − yp = cy1 für ein geeignetes c ∈ R. Es folgt ϕ(x) = Φ(x, c) und somit ist Φ wirklich die allgemeine Lösung. Wir fassen wieder zusammen: 4.3 Methode II. Gegeben die Anfangswertaufgabe y + p(x)y = f (x) ,
y(x0 ) = y0 .
a. Spezielle Lösung der homogenen Differenzialgleichung −π(x) y1 (x) = e mit π(x) = p(x)dx . b. Spezielle Lösung der inhomogenen Differenzialgleichung (f = 0) yp (x) = y1 (x) =e
−π(x)
f (x) y1 (x)
dx
f (x)eπ(x) dx .
90
4 Lösungsmethoden für Differenzialgleichungen
c. Allgemeine Lösung der inhomogenen Differenzialgleichung y(x) = c · y1 (x) + yp (x) . d. Anfangsbedingung y0 = y(x0 ) = cy1 (x0 ) + yp (x0 ) ergibt c=
y0 − yp (x0 ) . y1 (x0 )
Beispiel: y −
3 y = x3 ex − 2x , x
y(1) = 1 .
a. Spezielle Lösung der homogenen Differenzialgleichung: p(x) = − x3 3 y1 (x) = exp − − dx = e3 ln x = x3 . x b. Spezielle Lösung der inhomogenen Differenzialgleichung: f (x) = x3 ex − 2x u(x) =
f (x) y1 (x)
dx =
ex −
2 x2 2
dx = ex +
2 x
yp (x) = u(x)y1 (x) = x3 ex + 2x . c. Allgemeine Lösung der inhomogenen Differenzialgleichung y(x) = cy1 (x) + yp (x) = cx3 + x3 ex + 2x2 . d. Anfangsbedingung 1 = y(1) = c + e + 2
=⇒
c = −e − 1 .
e. Lösung der Anfangswertaufgabe y(x) = −(e + 1)x3 + ex x3 + 2x2 .
B. Lineare Differenzialgleichungen 2. Ordnung Ab jetzt benutzen wir etwas Vektor- und Matrizenrechnung in dem Umfang, wie er aus der Schule bekannt sein dürfte (lineare Gleichungssysteme mit zwei Unbekannten, zweireihige Determinanten usw.). Allgemeiner und gründlicher werden diese Dinge in den nächsten drei Kapiteln behandelt. Definitionen 4.4. Sei I ⊆ R ein Intervall und seien a, b, f : I −→ R gegebene stetige Funktionen.
B. Lineare Differenzialgleichungen 2. Ordnung
a. Dann heißt:
y + a(x)y + b(x)y = f (x)
91
(4.12)
eine inhomogene lineare Differenzialgleichung 2. Ordnung und y + a(x)y + b(x)y = 0
(4.13)
die zugehörige homogene lineare Differenzialgleichung. b. Sind x0 ∈ I, p0 , p1 ∈ R gegeben, so heißt y(x0 ) = p0 , y (x0 ) = p1
(4.14)
eine Anfangsbedingung für (4.12) bzw. (4.13). Wir stellen die wichtigsten Fakten über lineare Differenzialgleichungen 2. Ordnung ohne Beweis in den folgenden Sätzen zusammen. Satz 4.5. Unter den Voraussetzungen von 4.4 gilt a. Die Anfangswertaufgaben (4.12), (4.14) und (4.13), (4.14) sind eindeutig lösbar. b. Für die Lösungen der homogenen Differenzialgleichung (4.13) gilt das Superpositionsprinzip, d. h. sind y1 (x), y2 (x) beides Lösungen von (4.13), so ist auch jede Linearkombination y(x) = c1 y1 (x) + c2 y2 (x) ,
c1 , c2 ∈ R
eine Lösung von (4.13). c. Sind y1 (x), y2 (x) beides Lösungen der inhomogenen Differenzialgleichung (4.12), so ist die Differenz z(x) = y1 (x) − y2 (x) eine Lösung der homogenen Differenzialgleichung (4.13). Die Behauptungen b und c können direkt nachgerechnet werden. Die Behauptung a werden wir später beweisen (vgl. Kap. 20). Zwei Lösungen y1 (x), y2 (x) von (4.13) heißen linear abhängig, wenn es eine Konstante c ∈ R gibt, sodass y2 (x) = cy1 (x)
oder
y1 (x) = cy2 (x)
∀x ∈ I .
Anderenfalls heißen y1 , y2 linear unabhängig. Zwei linear unabhängige Lösungen y1 , y2 von (4.13) bilden ein sogenanntes Fundamentalsystem für (4.13).
92
4 Lösungsmethoden für Differenzialgleichungen
Satz 4.6. a. Zwei Lösungen y1 (x), y2 (x) der homogenen Differenzialgleichung (4.13) sind genau dann linear unabhängig, wenn die sogenannte WronskiDeterminante y1 (x) y2 (x) := y1 (x)y2 (x) − y2 (x)y1 (x) = 0 (4.15) W (x) := y1 (x) y2 (x) für ein x ∈ I ist. b. Ist {y1 , y2 } ein Fundamentalsystem für (4.13), so ist yh (x) := c1 y1 (x) + c2 y2 (x)
(4.16)
für c1 , c2 ∈ R die allgemeine Lösung der homogenen Differenzialgleichung (4.13). c. Ist yp (x) irgendeine spezielle Lösung der inhomogenen Differenzialgleichung (4.12), so ist y(x) = yh (x) + yp (x) = c1 y1 (x) + c2 y2 (x) + yp (x)
(4.17)
die allgemeine Lösung der inhomogenen Differenzialgleichung (4.12). Nehmen wir diese Behauptungen vorläufig ohne Beweis zur Kenntnis (s. jedoch Ergänzung 4.10), so hat man bei der Lösung einer Anfangswertaufgabe y + a(x)y + b(x)y = f (x) ,
y(x0 ) = p0 , y (x0 ) = p1
in folgenden Schritten vorzugehen: I. Bestimme ein Fundamentalsystem y1 , y2 der zugehörigen homogenen Differenzialgleichung y + ay + by = 0 .
II. Bestimme eine spezielle Lösung yp (x) der inhomogenen Differenzialgleichung. III. Setze in die allgemeine Lösung y(x) = c1 y1 (x) + c2 y2 (x) + yp (x) die Anfangsbedingungen ein p0 = c1 y1 (x0 ) + c2 y2 (x0 ) + yp (x0 ) p1 = c1 y1 (x0 ) + c2 y2 (x0 ) + yp (x0 ) und bestimme daraus c1 , c2 . Der Schritt III ist klar, während wir die Schritte I und II im Folgenden diskutieren werden, wobei wir uns teilweise auf Spezialfälle zurückziehen müssen.
C. Konstante Koeffizienten
93
C. Homogene lineare Differenzialgleichung 2. Ordnung mit konstanten Koeffizienten Wir bestimmen ein Fundamentalsystem für die homogene, lineare Differenzialgleichung y + ay + by = 0
mit Konstanten a, b ∈ R .
(4.18)
Da die entsprechende lineare Differenzialgleichung 1. Ordnung y + ay = 0 die Lösung y1 (x) = e−ax hat, machen wir für 4.18 den Ansatz y(x) = eλx ,
y (x) = λeλx ,
y (x) = λ2 eλx ,
(4.19)
wobei λ ∈ C so zu bestimmen ist, dass y(x) Lösung von (4.18) wird. Einsetzen von (4.19) in (4.18) ergibt eλx (λ2 + aλ + b) = 0 , d. h. y = eλx ist eine Lösung von (4.18), wenn λ eine Nullstelle des charakteristischen Polynoms λ2 + aλ + b = 0 (4.20) ist, d. h.
a 1 2 λ1,2 = − ± a − 4b , 2 2 sodass wir drei Fälle unterscheiden müssen:
(4.21)
I. λ1 = λ2
reell
⇐⇒
∆ := a2 − 4b > 0 .
In diesem Fall bekommen wir direkt ein Fundamentalsystem y1 (x) = eλ1 x , denn
y2 (x) = eλ2 x ,
y1 y2 eλ1 x eλ2 x = (λ2 − λ1 )e(λ1 +λ2 )x = 0 . W (x) = = λ1 x y1 y2 λ1 e λ2 eλ2 x
Beispiel: Löse die Anfangswertaufgabe y − 4y + 3y = 0 ,
y(0) = −1 ,
y (0) = −5 .
a. Charakteristisches Polynom p(λ) = λ2 − 4λ + 3 .
(4.22)
(4.23)
94
4 Lösungsmethoden für Differenzialgleichungen
b. Nullstellen
√ =2± 4−3=
λ1,2
3 . 1
c. Fundamentalsystem und allgemeine Lösung y2 (x) = e3x ,
y1 (x) = ex ,
W (x) = 2e4x
yh (x) = c1 ex + c2 e2x yh (x) = c1 ex + 3c2 e3x . d. Anfangsbedingungen −1 = y(0) = c1 + c2 −5 = y (0) = c1 + 3c2
c1 = 1 . c2 = −2
=⇒
e. Lösung der Anfangswertaufgabe y(x) = ex − 2e3x . II. λ1 = α + iβ ,
λ2 = λ1 = α − iβ
⇐⇒
∆ = a2 − 4b < 0 .
In diesem Fall ergibt sich zunächst ein komplexes Fundamentalsystem z1 = eλ1 x = eαx (cos βx + i sin βx) z2 = eλ2 x = eαx (cos βx − i sin βx) = z 1 . Da nach 4.5b das Superpositionsprinzip gilt, bekommen wir ein reelles Fundamentalsystem y1 = Re z1 = 12 (z1 + z 1 ) = eαx cos βx y2 = Im z1 = mit
y y W (x) = 1 2 = y1 y2
1 2i (z1
− z 1 ) = eαx sin βx
eαx cos βx αx e (α cos βx − β sin βx)
= βe2αx = 0
(4.24)
eαx sin βx αx e (α sin βx + β cos βx)
wegen β = 0 . (4.25)
Beispiel: Löse die Anfangswertaufgabe y + 2y + 2y = 0 ,
y(0) = 1 ,
y (0) = −1 .
C. Konstante Koeffizienten
95
a. Charakteristisches Polynom p(λ) = λ2 + 2λ + 2 . b. Nullstellen λ1,2 = −1 ±
√
1 − 2 = −1 ± i .
c. Fundamentalsystem y1 (x) = e−x cos x ,
y2 (x) = e−x sin x .
Allgemeine Lösung y(x) = e−x (c1 cos x + c2 sin x) y (x) = e−x ((c2 − c1 ) cos x + (−c1 − c2 ) sin x) . d. Anfangsbedingungen 1 = y(0) = c1 −1 = y (0) = c2 − c1
=⇒
c1 = 1 ,
c2 = 0 .
e. Lösung der Anfangswertaufgabe: y(x) = e−x cos x . III.
a ≡ λ ⇐⇒ 2 . In diesem Fall bekommt man mit λ1 = λ2 = −
∆ = a2 − 4b = 0
y1 (x) = eλx zunächst nur eine Lösung und kein Fundamentalsystem. Hier hilft folgendes allgemeines Prinzip: Satz 4.7 (d’Alembert’sche Reduktion). Ist y1 eine Lösung der homogenen linearen Differenzialgleichung (4.13), die im betrachteten Definitionsintervall keine Nullstelle hat, so bekommt man eine zweite, von y1 linear unabhängige Lösung y2 , und damit ein Fundamentalsystem {y1 , y2 } mit dem Ansatz (4.26) y2 (x) = u(x)y1 (x) . wobei u(x) so zu bestimmen ist, dass y2 eine Lösung ist. Beweis. Mit dem Ansatz (4.26) bilden wir y2 = uy1 ,
y2 = u y1 + uy1 ,
y2 = u y1 + 2u y1 + uy1 .
Einsetzen in die Differenzialgleichung (4.13) ergibt 0 = u y1 + u (2y1 + ay1 ) + u(y1 + ay1 + by1 ) .
96
4 Lösungsmethoden für Differenzialgleichungen
Also mit v(x) := u (x)
y1 v + 2 +a v =0. y1
(4.27)
Dies ist eine lineare Differenzialgleichung 1. Ordnung, die mit Methode II aus 4.3 gelöst werden kann. Wählen wir also u als Stammfunktion einer nicht verschwindenden Lösung v von (4.27), so löst y2 := uy1 tatsächlich unsere Differenzialgleichung. Die Wronski-Determinante von y1 , uy1 errechnet sich sofort zu W = u y12 = vy12 . Sie verschwindet also nicht, und nach 4.6a bilden y1 , y2 daher ein Fundamentalsystem. Der Beweis zeigt insbesondere, wie u zu bestimmen ist. Anwendung auf y1 = eλx ergibt
mit λ = −
v = u = 0
a , 2
a konstant
und damit u(x) = x
und damit als Fundamentalsystem y1 (x) = eλx , mit
y y eλx W (x) = 1 2 = λx y1 y2 λe
y2 (x) = xeλx
xeλx 2λx = e−ax . λx = e (1 + λx)e
Beispiel: Löse die Anfangswertaufgabe 1 y + y + y = 0 , 4
y(1) = 1 ,
y (1) = 0 .
a. Charakteristisches Polynom 1 p(λ) = λ + λ + = 4 2
2 1 λ+ . 2
b. Nullstellen λ = λ1 = λ2 = −
1 . 2
c. Fundamentalsystem y1 (x) = e−x/2 ,
y2 (x) = xe−x/2 .
(4.28)
(4.29)
C. Konstante Koeffizienten
d. Allgemeine Lösung y(x) = e−x/2 (c1 + c2 x) y (x) = e−x/2 c2 − c21 −
c2 2
x .
e. Anfangsbedingung 1 = y(1) = e−1/2 (c1 + c2 ) 1 = y (1) = e−1/2 12 c2 − 12 c1
√ e . c1 = c2 = 2
=⇒
f. Lösung der Anfangswertaufgabe y(x) =
1 (1 + x)e(1−x)/2 . 2
Wir fassen zusammen: 4.8 Methode III. Gegeben die homogene, lineare Differenzialgleichung 2. Ordnung y + ay + by = 0 mit konstanten Koeffizienten a, b. a. Charakteristisches Polynom p(λ) = λ2 + aλ + b . b. Nullstellen λ1,2 = −
1 2 a ± a − 4b . 2 2
c. Fallunterscheidung (i) a2 − 4b > 0,
d. h. λ1 = λ2 reell
Fundamentalsystem: (ii) a2 − 4b < 0,
y2 (x) = eλ2 x .
d. h. λ1 = α + iβ, λ2 = λ1 = α − iβ
Fundamentalsystem: (iii) a2 − 4b = 0,
y1 (x) = eλ1 x ,
y1 (x) = eαx cos βx ,
y2 (x) = eαx sin βx .
d. h. λ1 = λ2 = λ = − a2
Fundamentalsystem:
y1 (x) = eλx ,
y2 (x) = xeλx .
d. Allgemeine Lösung yh (x) = c1 y1 (x) + c2 y2 (x) .
97
98
4 Lösungsmethoden für Differenzialgleichungen
D. Bestimmung einer speziellen Lösung der inhomogenen Differenzialgleichung mit der Methode der Variation der Konstanten Wir betrachten nun die allgemeine inhomogene Differenzialgleichung (4.12) und setzen voraus, dass ein Fundamentalsystem {y1 (x), y2 (x)} der zugehörigen homogenen Differenzialgleichung bekannt ist. Dann machen wir für eine spezielle Lösung von (4.12) den Ansatz y(x) = u1 (x)y1 (x) + u2 (x)y2 (x) .
(4.30)
Differenziation ergibt y = u1 y1 + u1 y1 + u2 y2 + u2 y2 . Wir fordern, dass u1 , u2 so bestimmt werden sollen, dass u1 y1 + u2 y2 = 0 .
(4.31)
Damit ergibt sich y = u1 y1 + u2 y2 y = u1 y1 + u2 y2 + u1 y1 + u2 y2 .
(4.32)
Einsetzen von (4.30) und (4.32) in die Differenzialgleichung (4.12) ergibt (u1 y1 + u2 y2 + u1 y1 + u2 y2 ) + a(u1 y1 + u2 y2 ) + b(u1 y1 + u2 y2 ) = f oder
u1 y1 + u2 y2 + u1 (y1 + ay1 + by1 ) + u2 (y2 + ay2 + by2 ) = f
und daher, weil y1 , y2 die homogene Differenzialgleichung lösen u1 y1 + u2 y2 = f .
(4.33)
Die Gleichungen (4.31) und (4.33) stellen ein lineares Gleichungssystem u1 y1 + u2 y2 = 0 y1 y2 u1 0 ⇐⇒ = (4.34) y y u f u 1 y1 + u 2 y2 = f 1 2 2 für die Funktionen u1 (x), u2 (x) dar, das nach der Cramer’schen Regel die eindeutige Lösung u1 (x) = −
f (x)y2 (x) , w(x)
u2 (x) =
f (x)y1 (x) w(x)
(4.35)
hat, wobei w(x) die Wronski-Determinante des Fundamentalsystems ist. Integration von (4.35) liefert dann u1 (x), u2 (x) und damit über den Ansatz (4.30) yp (x).
D. Variation der Konstanten
99
4.9 Methode IV. Bestimme eine spezielle Lösung yp (x) der inhomogenen Differenzialgleichung y + a(x)y + b(x)y = f (x) . a. Berechne die Wronski-Determinante w(x) eines Fundamentalsystems {y1 (x), y2 (x)} der homogenen Differenzialgleichung. b. Berechne f (x)y2 (x) f (x)y1 (x) dx , u2 (x) = dx . u1 (x) = − w(x) w(x) c. Spezielle Lösung yp (x) = u1 (x)y1 (x) + u2 (x)y2 (x) . Beispiel: Löse die Anfangswertaufgabe y + y =
1 , cos x
y(0) = 1 ,
y (0) = 1 .
a. Allgemeine Lösung der homogenen Differenzialgleichung mit Methode III (i) Charakteristisches Polynom mit Nullstellen λ1/2 = ± i .
λ2 + 1 = 0 (ii) Fundamentalsystem
y1 (x) = cos x ,
y2 (x) = sin x .
(iii) Allgemeine Lösung der homogenen Differenzialgleichung yh (x) = a cos x + b sin x . b. Spezielle Lösung der inhomogenen Differenzialgleichung mit Methode IV (i) Wronski-Determinante y1 y2 cos x sin x =1 w(x) = = − sin x cos x y1 y2 f (x) =
1 . cos x
(ii) Bestimmung von u1 , u2 : u1 = − u2 =
sin x f · y2 =− w cos x
cos x f y1 = w cos x
=⇒
=⇒
u1 (x) = ln cos x
u2 (x) = x .
100
4 Lösungsmethoden für Differenzialgleichungen
(iii) yp (x) = u1 y1 + u2 y2 = cos x · ln cos x + x · sin x . c. Allgemeine Lösung der Differenzialgleichung y(x) = yh (x) + yp (x) = a cos x + b sin x + cos x · ln cos x + x sin x y (x) = b cos x − a sin x − sin x ln cos x − sin x + sin x + x cos x . d. Anfangsbedingung 1 = y(0) = a ,
1 = y (0) = b .
Lösung der Anfangswertaufgabe y(x) = cos x + sin x + x sin x + cos x · ln cos x .
Ergänzungen zu §4 Wir tragen den Beweis von Satz 4.6 nach und gehen dann noch etwas gründlicher auf Lösungsmethoden für lineare Differenzialgleichungen 2. Ordnung ein. Für gewisse spezielle Typen kann man Methode IV durch eine rechnerisch einfachere ersetzen (Methode V), und in 4.13 betrachten wir eine Klasse von homogenen Gleichungen mit variablen Koeffizienten, für die sich ein Fundamentalsystem explizit bestimmen lässt. Diese sog. Euler–Cauchy–Gleichungen spielen im Zusammenhang mit partiellen Differenzialgleichungen der mathematischen Physik eine wichtige Rolle. Wir beschließen diesen Abschnitt mit zwei Ausblicken auf weiterführende Themen. 4.10 Beweis von Satz 4.6. Wenn man 4.5a akzeptiert, so lassen sich die Behauptungen aus 4.6 leicht herleiten: a. Wir zeigen, dass zwei Lösungen y1 , y2 genau dann linear abhängig sind, wenn ihre Wronski-Determinante W identisch verschwindet. Ist z. B. y2 = cy1 , so ist W = cy1 y1 − cy1 y1 = 0, ebenso im Falle y1 = cy2 . Nun nehmen wir umgekehrt an, es ist W ≡ 0. Im Fall y1 ≡ 0 sind y1 , y2 sowieso linear abhängig. Anderenfalls gibt es nach 2.9b ein Teilintervall J ⊆ I, auf dem y1 keine Nullstelle hat. Auf ganz J ist nach der Quotientenregel d y2 W = 2 ≡0, dx y1 y1 also ist nach 2.23b y2 /y1 konstant auf J, etwa gleich c ∈ R. Die Funktion z := y2 − cy1 ist dann auf ganz I eine Lösung von (4.13), die auf J identisch verschwindet. Für ein x0 ∈ J erfüllt z also auch die Anfangsbedingungen z(x0 ) = 0 ,
z (x0 ) = 0 ,
Ergänzungen
101
die auch von der trivialen Lösung y ≡ 0 erfüllt werden. Wegen der Eindeutigkeit in 4.5a folgt daher z ≡ 0 auf ganz I und damit die behauptete lineare Abhängigkeit y2 = cy1 . b. Nach dem Superpositionsprinzip 4.5b ist y = c1 y1 + c2 y2 stets eine Lösung von (4.13). Wir müssen zeigen, dass jede Lösung von dieser Form ist, betrachten also jetzt eine beliebige Lösung ϕ. Da y1 , y2 nach Voraussetzung ein Fundamentalsystem bilden, kann ihre Wronski-Determinante W nicht identisch verschwinden. Es gibt also x0 ∈ I mit W (x0 ) = 0. Das lineare Gleichungssystem c1 y1 (x0 ) + c2 y2 (x0 ) = ϕ(x0 ) c1 y1 (x0 ) + c2 y2 (x0 ) = ϕ (x0 ) mit den Unbekannten c1 , c2 hat W (x0 ) als Koeffizientendeterminante und ist daher eindeutig lösbar. Wählen wir also c1 , c2 als seine Lösungen, so erfüllen ϕ und c1 y1 + c2 y2 ein und dieselbe Anfangswertaufgabe. Nach der Eindeutigkeitsaussage in 4.5a stimmen diese beiden Funktionen also auf ganz I überein, und damit hat ϕ die gewünschte Form. c. Folgt sofort aus 4.6b und 4.5c. 4.11 Bestimmung einer speziellen Lösung der inhomogenen Differenzialgleichung mit der Methode der unbestimmten Koeffizienten. Wir betrachten die inhomogene, lineare Differenzialgleichung 2. Ordnung mit konstanten Koeffizienten y + ay + by = f (x)
mit a, b ∈ R .
(4.36)
Dann kann man eine spezielle Lösung yp (x) von (4.36) relativ einfach bestimmen, wenn f (x) vom einfachen Typ ist, d. h. I. f (x) ist ein Polynom n-ten Grades (Typ P) f (x) = an xn + · · · + a1 x + a0 ,
an = 0 .
(4.37)
Ansatz: yp (x) = cn xn + · · · + c1 x + c0
(4.38)
mit unbestimmten Koeffizienten ck , die so zu bestimmen sind, dass (4.38) Lösung von (4.36) ist. Beispiel: Bestimme eine Lösung der Differenzialgleichung y + 2y + 3y = x , a. Ansatz: y(x) = c0 + c1 x ,
d. h. f (x) = x (Typ P) . y (x) = c1 ,
y (x) = 0 .
102
4 Lösungsmethoden für Differenzialgleichungen
b. Einsetzen: 2c1 + 3(c0 + c1 x) = x . c. Koeffizientenvergleich: x0 : 2c1 + 3c0 = 0
=⇒
1
x : 3c1 = 1 d. Lösung:
yp (x) =
1 3
x−
2 9
c1 =
1 , 3
c2 = −
2 . 9
.
II. f (x) ist Produkt aus Exponentialfunktion und einem Polynom (Typ E) f (x) = ekx (an xn + · · · + a1 x + a0 ) .
(4.39)
yp (x) = ekx (cn xn + · · · + c1 x + c0 ) .
(4.40)
Ansatz:
Beispiel: Bestimme eine Lösung der Differenzialgleichung y − y = xe2x ,
f (x) = xe2x (Typ E) .
a. Ansatz: y = (c0 + c1 x)e2x ,
y = [(2c0 + c1 ) + 2c1 x] e2x
y = [(4c0 + 4c1 ) + 4c1 x] e2x . b. Einsetzen in Differenzialgleichung [(4c0 + 4c1 ) + 4c1 x] e2x − (c0 + c1 x)e2x = xe2x . c. Koeffizientenvergleich: x0 : 3c0 + 4c1 = 0 1
d. Lösung:
x : 3c1 = 1 yp (x) = 13 x − 49 e2x .
=⇒
c1 =
1 4 , c0 = − . 3 9
III. f (x) ist Produkt aus trigonometrischer Funktion und einem Polynom (Typ T) f (x) = (an xn + · · · + a0 ) cos ωx + (bn xn + · · · + b0 ) sin ωx .
(4.41)
Ansatz: yp (x) = (cn xn + · · · + c0 ) cos ωx + (dn xn + · · · + d0 ) sin ωx , auch wenn nur eine trigonometrische Funktion vorkommt. Beispiel: Man bestimme eine Lösung der Differenzialgleichung y − y − 2y = 10 cos x ,
f (x) = 10 cos x (Typ T) .
(4.42)
Ergänzungen
103
a. Ansatz: y = c0 cos x + c1 sin x y = c1 cos x − c0 sin x y = −c0 cos x − c1 sin x . b. Einsetzen in Differenzialgleichung (−c0 cos x−c1 sin x)−(c1 cos x−c0 sin x)−2(c0 cos x+c1 sin x) = 10 cos x . c. Koeffizientenvergleich cos x : −3c0 − c1 = 10 sin x : c0 − 3c1 = 0 d. Lösung:
=⇒
c0 = −3 ,
c1 = −1 .
yp (x) = −3 cos x − sin x .
Wir beschreiben nun zusammenfassend eine noch etwas allgemeinere Version dieser Methode: 4.12 Methode V. Spezielle Lösung yp (x) der Differenzialgleichung y + ay + by = f (x) mit konstanten Koeffizienten a, b ∈ R und rechter Seite f (x) von einfachem Typ. a. Ist f (x) eine Summe vom Typ (E)
ekx (an xn + · · · + a1 x + a0 )
(T)
cos αx(bm xm + · · · + b1 x + b0 ) sin βx(cp xp + · · · + c1 x + c0 )
so mache für yp (x) einen Ansatz vom selben Typ. b. Ist einer der Summanden von f (x) selbst Lösung der homogenen Differenzialgleichung, so multipliziere den zugehörigen Summanden in yp (x) mit x. c. Setze den Ansatz für yp (x) in die Differenzialgleichung ein und bestimme alle unbestimmten Koeffizienten durch Koeffizientenvergleich. Beispiele: a. Bestimme yp (x) für
y + ay + by = f (x)
mit f (x) = x + x2 ex + e2x + x cos x + x2 sin 2x .
104
4 Lösungsmethoden für Differenzialgleichungen
Ansatz yp (x) = (a0 + a1 x) + (b0 + b1 x + b2 x2 )ex + d0 e2x + (e0 + e1 x) cos x + (f0 + f1 x) sin x + (g0 + g1 x + g2 x2 ) cos 2x + (h0 + h1 x + h2 x2 ) sin 2x . b. Bestimme yp (x) für
y − 2y + y = ex .
Ansatz: y = cex
=⇒
cex − 2cex + cex = 0 ,
denn f (x) = ex löst die homogene Differenzialgleichung. Neuer Ansatz: y = cxex =⇒
=⇒
y = c(x + 1)ex ,
y = c(x + 2)ex
c(x + 2)ex − 2c(x + 1)ex + cxex = 0 ,
denn xex löst die homogene Differenzialgleichung. Dritter Ansatz: y = cx2 ex . Dies ergibt genau für c = 1/2 eine Lösung der gegebenen Differenzialgleichung, wie man nachrechnet.
4.13 Euler–Cauchy–Differenzialgleichungen . Diese haben die Form: x2 y + axy + by = 0 , Ansatz: y(x) = xλ ,
a, b ∈ R konstant, x = 0 .
y = λxλ−1 ,
y = λ(λ − 1)xλ−2 .
(4.43) (4.44)
Einsetzen in (4.43) λ(λ − 1)xλ + λaxλ + bxλ = xλ (λ2 + (a − 1)λ + b) = 0 . Also: y = xλ ist genau dann Lösung von (4.43), wenn λ Lösung der charakteristischen Gleichung λ2 + (a − 1)λ + b = 0 (4.45) ist. Die Wurzeln sind λ1,2 =
1−a 1
(1 − a)2 − 4b2 , ± 2 2
sodass 3 Fälle unterschieden werden müssen:
(4.46)
Ergänzungen
105
I. Fall λ1 = λ2
=⇒
reell
λ1
y1 = x
,
Fundamentalsystem y2 = xλ2 .
(4.47)
II. Fall λ2 = α − iβ
λ1 = α + iβ ,
mit β = 0 .
Komplexes Fundamentalsystem: z1,2 = xλ1 = xα x±iβ = xα e±iβ ln x = xα (cos(β ln x) ± i sin(β ln x)) . Reelles Fundamentalsystem: y1 = Re z1 = xα cos(ln xβ ) y2 = Im z1 = xα sin(ln xβ ) . III. Fall 1−a reelle Doppelwurzel =⇒ 2 Eine zweite Lösung y2 (x) wird mit 4.7 bestimmt. λ=
y1 (x) = xλ .
Ansatz y2 = uy1 führt für v = u auf die lineare Differenzialgleichung y1 v + 2 + a(x) v = 0 , y1
wobei a(x) =
a , x
y1 = xλ =⇒
=⇒
1−a y1 λ = = y1 x 2x 1 y a 2 1+ = y1 x x =⇒
Differenzialgleichung: 1 v + v=0 x
=⇒ =⇒
dx 1 x = e− ln x = v=e x u(x) = v(x)dx = ln x , −
R
also y2 (x) = y1 (x) ln x . Fundamentalsystem: y1 (x) = xλ ,
y2 (x) = xλ · ln x .
106
4 Lösungsmethoden für Differenzialgleichungen
4.14 Ausblick: Systematik der Lösungsmethoden. Anders als bei der Bestimmung von Stammfunktionen lässt sich das explizite Lösen von Differenzialgleichungen nicht lückenlos durch einen Algorithmus beschreiben. Es gibt jedoch eine Unzahl von algorithmischen Lösungsmethoden für verschiedene mehr oder weniger spezielle Typen von Differenzialgleichungen, und moderne Computeralgebra-Software kann solche Typen erkennen und entsprechende Lösungsverfahren anwenden. Nützlich sind auch Nachschlagewerke wie z. B. der Klassiker [26]. Doch – wie bei der formalen Integration – sind die hier besprochenen Grundkenntnisse unerlässlich, um Software oder Nachschlagewerk kompetent anwenden zu können. Es gibt aber auch ganz einfache Differenzialgleichungen, die keine explizite Lösung zulassen, wie etwa (4.48) y = y2 − x (vgl. [2], S. 87). Dabei gelten nicht nur die elementaren Funktionen als explizit, sondern man betrachtet auch das unbestimmte Integral einer expliziten Funktion wieder als explizit, lässt also wesentlich mehr Funktionen als explizite Lösungen gelten als bei der Bestimmung von Stammfunktionen in Kap. 3. Der Beweis für die Unmöglichkeit, (4.48) explizit zu lösen, gehört allerdings in die sog. Differenzialalgebra, ein Gebiet der Mathematik, das (bis jetzt) für die Physik keine Rolle spielt und auf das wir uns nicht einlassen können. Die Methoden zur expliziten Berechnung von Lösungen beruhen fast immer auf Symmetrien, d. h. Invarianz gegen geeignete (lokale) Lie-Gruppen. Diese Theorie hat in letzter Zeit wieder Auftrieb erfahren und dazu geführt, dass man die Lösungsmethoden viel besser systematisieren kann als früher. Näheres findet man z. B. in [32]. Dieses Buch dürfte auch für Sie verständlich sein, sobald Sie die Differenzialrechnung in mehreren Variablen (vgl. Kap. 9 und 10) gut beherrschen. 4.15 Ausblick: Qualitative Theorie. Wie aus der vorigen Ergänzung hervorgeht, stoßen explizite Lösungsmethoden unter Umständen schnell an ihre Grenzen. Mehr noch: Bei der Behandlung komplizierterer Systeme, etwa in der Festkörperphysik oder im Maschinenbau, kennt man häufig die zu lösende Differenzialgleichung gar nicht genau, sondern weiß nur etwas darüber, zu welchem allgemeinen Typ sie gehört. (In der Biologie oder den Wirtschaftswissenschaften ist diese Situation geradezu die Regel!) Hier helfen natürlich Computersimulationen, bei denen man ausgiebig mit verschiedenen Wahlen für die zur Debatte stehenden Parameter experimentieren kann. Diese sind in der Tat ein ausgesprochen wichtiges Werkzeug der Forschung, doch sind sie aufwändig und dabei oft nicht so zuverlässig, wie man es sich wünscht. Flankiert werden diese halb experimentellen Methoden von der qualitativen Theorie der Differenzialgleichungen, die für die meisten Mathematiker das eigentlich Interessante an diesem Teil der Analysis darstellt. Diese Theorie versucht gar nicht erst, die Gleichungen zu lösen, sondern zieht aus qualitativen Informationen über die gegebenen Daten Schlüsse über das qualitative
Ergänzungen
107
Verhalten beliebiger Lösungen (oder von Lösungen, die noch gewisse Zusatzbedingungen erfüllen). Da es viele verschiedene Typen von Differenzialgleichungen gibt, für die man unterschiedliche Methoden braucht, ist die qualitative Theorie in sich sehr vielfältig und uneinheitlich. Wir demonstrieren an einem einfachen Beispiel eine der vielen Möglichkeiten für qualitative Untersuchungen: Beispiel: Wir betrachten die Anfangswertaufgabe y = f (x, y) ,
y(x0 ) = y0
(4.49)
mit gegebenem y0 > 0. Über die Datenfunktion f setzen wir Folgendes voraus: (V1) Für gewisse a, b > 0 ist f (x, y) ≤ b − a|y| (V2)
∀ x, y ∈ R ,
es gibt δ , 0 < δ < b/a mit für |y| < δ .
f (x, y) > 0
Sonst wissen wir nichts über die Funktion f . Trotzdem kann man Folgendes beweisen: Behauptung. Sind (V1), (V2) erfüllt, so gilt Aufgabe (4.49) b + y0 − 0 < u(x) ≤ a
für jede Lösung u : J → R der b a
e−a(x−x0 )
(4.50)
für alle x ∈ J , x ≥ x0 . Insbesondere bleibt die Lösung u auf J + := {x ∈ J | x ≥ x0 } beschränkt. Beweis. Als Lösung einer Differenzialgleichung ist u überall in ihrem Definitionsintervall J differenzierbar, also auch stetig. Nun ist u(x0 ) = y0 > 0, also auch u(x) > 0 für x ≥ x0 nahe genug bei x0 . Angenommen, die erste Ungleichung in (4.50) wäre irgendwo in J + falsch. Dann könnten wir bilden: x1 := inf{x ∈ J + | u(x) ≤ 0} , und es wäre x1 > x0 . Wegen der Stetigkeit von u muss u(x1 ) = 0 sein und für x0 ≤ x < x1 haben wir u(x) > 0. Bildet man die Ableitung u (x1 ), also als linksseitigen Differenzialquotienten, so ergibt sich u (x1 ) = lim
x→x1 −
u(x) − u(x1 ) ≤ 0. x − x1
Aber (V2) liefert u (x1 ) = f (x1 , u(x1 )) = f (x1 , 0) > 0, ein Widerspruch. Daher ist u(x) > 0 auf ganz J + .
108
4 Lösungsmethoden für Differenzialgleichungen
Für die zweite Ungleichung in (4.50) betrachten wir hilfsweise die Anfangswertaufgabe y = b + ε − ay , y(x0 ) = y0 (4.51) mit der expliziten Lösung (vgl. Methode II aus 4.3) b+ε b + ε −a(x−x0 ) b+ε + y0 − . 1−e−a(x−x0 ) = e v(x) = y0 e−a(x−x0 ) + a a a Dabei ist ε > 0 beliebig gewählt. Setze w := v−u. Dann ist w(x0 ) = y0 −y0 = 0 und w (x0 ) = v (x0 ) − u (x0 ) = b + ε − ay0 − f (x0 , y0 ) ≥ ε > 0 nach (V1). Somit ist w(x) > 0 für x > x0 nahe genug bei x0 . Angenommen, die Beziehung w(x) > 0 gilt nicht in ganz J ++ := J + \ {x0 }. Wie vorher können wir dann den Punkt x2 := inf{x ∈ J ++ | w(x) ≤ 0} betrachten, und es ist x2 > x0 . Da w stetig ist, folgt w(x2 ) = 0. Für x0 < x < x2 ist aber w(x) > 0 nach Wahl von x2 , also zeigt die Betrachtung des linksseitigen Differenzialquotienten, dass w (x2 ) ≤ 0. Aber w(x2 ) = 0 bedeutet auch, dass v(x2 ) = u(x2 ) =: y2 > 0. Bei Beachtung von (V2) ergeben daher die von u bzw. v erfüllten Differenzialgleichungen w (x2 ) = v (x2 ) − u (x2 ) = b + ε − ay2 − f (x2 , y2 ) ≥ ε > 0 . Dieser Widerspruch zeigt, dass w(x) > 0 in ganz J ++ gelten muss, d. h. b + ε −a(x−x0 ) b+ε + y0 − . u(x) < e a a Aber ε > 0 war beliebig. Also können wir ε → 0 schicken, und es ergibt sich die zweite Ungleichung in (4.50).
Aufgaben zu §4 4.1. Man löse die folgenden Anfangswertaufgaben durch Trennung der Variablen: a. b. c.
y = 3xe−y ,
y(−1) = 0 .
2
y = y sin x ,
y(π) =
(x + 1)y − 2x y = 0 , 3
1 5
.
y(0) = 4 .
4.2. Man löse die folgenden Anfangswertaufgaben für lineare Differenzialgleichungen 1. Ordnung: a. b.
xy + y = x + x3 ,
y −
2 xy
2 x
=x e ,
y(1) = 2 . y(2) = 0 .
Aufgaben
109
4.3. Mit der Methode der unbestimmten Koeffizienten (vgl. 4.11, 4.12) löse man die folgenden Anfangswertaufgaben für lineare Differenzialgleichungen 2. Ordnung: a.
y + y − 2y = 14 + 2x − 2x2 ,
b.
y − 4y + 3y = 4e3x ,
c.
y + y − 2y = −6 sin 2x − 18 cos 2x ,
y(0) = 0 ,
y(0) = −1 ,
y (0) = 0 .
y (0) = 3 . y(0) = 0 ,
y (0) = 0 .
4.4. Mit Variation der Konstanten löse man die folgenden Anfangswertaufgaben. (In 4.13 ist verraten, wie man zu einem Fundamentalsystem für die homogene Gleichung kommt!): a.
x2 y − 2xy + 2y =
6 x
b.
x2 y − 4xy + 6y =
42 x4
c.
x2 y − 2xy + 2y = x3 cos x ,
,
y(1) = 0 , ,
y(1) = 2 ,
y (1) = 5 . y (1) = 4 .
y(π) = π ,
y (π) = 2 .
4.5. Man finde alle Lösungen der Differenzialgleichung y − 3y − cos x = 0 , die die Periode 2π haben.
Teil II
Lineare Algebra und lineare Differenzialgleichungen
5 Vektoren, Matrizen, Determinanten
In diesem und den nächsten beiden Kapiteln besprechen wir die Grundlagen der linearen Algebra. Wir werden zwar in 5.1 und 5.7 schon einige fundamentale abstrakte Begriffe kennen lernen, doch wird es sich in diesem Kapitel in erster Linie um ganz praktische Fragen handeln, die sich um das Auflösen von linearen Systemen von Bestimmungsgleichungen ranken.
A. Vektoren und Matrizen Im Folgenden bezeichnet K immer den Körper R oder C. Wir beginnen mit der abstrakten Definition eines Vektorraumes. Es handelt sich um eine axiomatische Definition wie bei der Einführung von Gruppen und Körpern in 1.4, und entsprechend nennt man die unten stehenden Aussagen (V 1)–(V 8) die Vektorraumaxiome. Die allgemeinen Bemerkungen über axiomatische Definitionen, die Punkt 1.4 folgen, sollten Sie sich auch in Bezug auf den Vektorraumbegriff zu Herzen nehmen. Definitionen 5.1. a. Eine Menge V = ∅ heißt ein Vektorraum über dem Körper K (kurz: K-Vektorraum), wenn zwischen den Elementen x, y ∈ V eine Addition x + y ( Summe von Vektoren) und zwischen den Elementen λ ∈ K, x ∈ V eine Skalarmultiplikation λx ∈ V (skalares Vielfaches eines Vektors) definiert sind, sodass für alle x, y, z ∈ V , λ, µ ∈ K Folgendes gilt: (V 1)
(x + y) + z = x + (y + z) .
(V 2)
x+y =y+x.
(V 3)
∃Θ∈V
(V 4)
∀ x ∈ V ∃ (−x) ∈ V
(Nullvektor)
:x+Θ =x
∀x∈V .
: x + (−x) = Θ .
114
5 Vektoren, Matrizen, Determinanten
D. h. V ist bezüglich der Addition eine abelsche Gruppe, (V 5)
(λµ)x
= λ(µx) .
(V 6)
(λ + µ)x = λx + µx .
(V 7)
λ(x + y) = λx + λy .
(V 8)
1·x = x ,
0·x =Θ .
b. Eine Teilmenge U ⊆ V ist selbst ein K-Vektorraum, genannt Unterraum oder linearer Teilraum von V , wenn (T 1)
x, y ∈ U
(T 2)
λ∈K, x∈U
=⇒
x+y ∈U . =⇒
λx ∈ U .
Bemerkung: „Vektoren“ sind also im Moment für uns einfach Elemente eines Vektorraumes, d. h. Größen, mit denen auf die in den Vektorraumaxiomen festgelegte Art gerechnet wird. Geometrische, kinematische oder dynamische Interpretationen des Vektorbegriffs, wie sie in der Physik gang und gäbe sind, spielen jetzt noch keine Rolle. Daher verzichten wir auch vorläufig darauf, Vektoren bezeichnungstechnisch gegenüber Skalaren hervorzuheben. Die konkreten Beispiele von Vektoren, die uns in diesem Kapitel begegnen, werden immer Listen oder Tabellen von Zahlen sein. Als Nächstes führen wir Matrizen ein, und diese werden uns auch die ersten Beispiele für Vektorräume liefern. Definitionen 5.2. a. Ein rechteckiges Schema ⎛ ⎞ a11 · · · a1n ⎜ .. ⎟ A = (aij ) = ⎝ ... . ⎠ am1 · · · amn
von Elementen aij ∈ K
heißt eine m × n-Matrix mit den m Zeilenvektoren Ai = (ai1 , · · · , ain ) ,
i = 1, . . . , m
und den n Spaltenvektoren ⎛
⎞ a1j ⎟ ⎜ Aj = ⎝ ... ⎠ ,
j = 1, . . . , n .
amj Es bezeichnet Km×n die Menge der m × n-Matrizen.
A. Vektoren und Matrizen
b. In Km×n definiert man eine Addition durch ⎛ ⎞ a11 + b11 · · · a1n + b1n ⎜ ⎟ .. .. A + B := ⎝ ⎠ , . . am1 + bm1 · · · amn + bmn und eine Skalarmultiplikation durch ⎞ ⎛ λa11 · · · λa1n ⎜ .. ⎟ , λA := ⎝ ... . ⎠ λam1 · · · λamn
115
A, B ∈ Km×n
λ ∈ K , A ∈ Km×n .
Da Addition und Skalarmultiplikation aus K übertragen werden, hat man sofort: Satz 5.3. Km×n bildet einen K-Vektorraum mit der Nullmatrix 0mn = (0ij ), 0ij = 0 für alle i, j als Nullvektor. Definitionen 5.4. a. In Km×n definiert man die zu A = (aij ) ∈ Km×n transponierte Matrix AT = (aji ) ∈ Kn×m , indem man Zeilen und Spalten vertauscht. b. In Cm×n definiert man die zu A = (aij ) ∈ Cm×n konjugierte Matrix A= (aij ) ∈ Cm×n , indem man alle Elemente konjugiert. Die transponierte T
konjugierte Matrix A∗ = A = (aji ) ∈ Cn×m heißt die zu A adjungierte Matrix. c. Ist m = n, so heißen die Matrizen A ∈ Kn×n quadratisch. Dabei heißt 1,i=j E = En = (δij ) mit δij = 0 , i = j die n × n-Einheitsmatrix. Den hier definierten Ausdruck δij nennt man das Kronecker-Symbol. d. Für quadratisches A = (aij ) ∈ Kn×n heißt Spur A :=
n
aii
i=1
die Spur der Matrix A. Wir definieren nun noch ein Produkt von Matrizen. Diese Definition mag auf den ersten Blick unnötig kompliziert erscheinen, ist aber in Wirklichkeit genau das, was man braucht. Das wird spätestens in Kap. 7 ganz deutlich werden (vgl. insbesondere 7.5).
116
5 Vektoren, Matrizen, Determinanten
Definition 5.5. Für A = (aij ) ∈ Kp×n , B = (bij ) ∈ Kn×q definiert man das Matrizenprodukt C = (cij ) = A · B ∈ Kp×q durch cij =
n
aik · bkj .
k=1
Folgendes ist zu beachten: a. C = AB ist nur definiert, wenn Spaltenzahl von A = Zeilenzahl von B . C hat die Zeilenzahl von A, die Spaltenzahl von B. b. Im Allgemeinen ist höchstens eines der Produkte AB oder BA definiert. Sind beide definiert, so sind AB und BA i. Allg. von verschiedenem Typ. c. Nur in Kn×n sind AB ∈ Kn×n und BA ∈ Kn×n , aber i. Allg. ist AB = BA. Ferner kommt es vor, dass AB = 0obwohl A = 0 und B = 0 . d. h. Kn×n ist bezüglich der Matrizenmultiplikation keine Gruppe. Dennoch gelten eine Reihe von wichtigen Rechenregeln: Satz 5.6. a. Die Matrizenmultiplikation ist assoziativ, d. h. für A ∈ Kp×m , B ∈ Km×n , C ∈ Kn×q gilt A(BC) = (AB)C . b. Matrizenmultiplikation und -addition sind distributiv, d. h. (i) für A ∈ Kp×m und B, C ∈ Km×q gilt: A(B + C) = AB + AC . (ii) für A, B ∈ Kp×m und C ∈ Km×q gilt: (A + B)C = AC + BC . c. Für A ∈ Kp×n , B ∈ Kn×q gilt: (AB)T = B T AT ,
AB = A B ,
(AB)∗ = B ∗ A∗ .
d. Für A, B ∈ Kn×n gilt: Spur (AB) = Spur (BA) .
A. Vektoren und Matrizen
117
Beweis. a. Wir setzen: D := (dij ) = A(BC) , Dann gilt dij =
m
aik
k=1
n
F := (fij ) = (AB)C .
bk c j
=
=1
m n
=1
aik bk
c j = fij
k=1
b. und c. werden genauso als Übung bewiesen. d. Es gilt n n n n aik bki = bki aik = Spur BA . Spur AB = i=1
k=1
k=1
i=1
Wir beenden diesen Abschnitt mit einigen Begriffen, die in beliebigen Vektorräumen sinnvoll und wichtig sind und wir im Folgenden ständig benutzen: Definitionen 5.7. Sei V ein K-Vektorraum und seien a1 , . . . , an ∈ V . n λk ak eine Linearkoma. Für feste λ1 , . . . , λn ∈ K heißt der Vektor x = k=1
bination von a1 , . . . , an und die Menge aller solcher Linearkombinationen n LH (a1 , . . . , an ) = λk ak λk ∈ K k=1
die lineare Hülle von a1 , . . . , an oder der von a1 , . . . , an aufgespannte Unterraum von V . b. a1 , . . . , an heißen linear unabhängig über K, wenn n
λk ak = 0
=⇒
λ1 = · · · = λn = 0 .
k=1
Anderenfalls heißen sie linear abhängig über K. Dass a1 , . . . , an linear abhängig sind, bedeutet also, dass die Null als Linearkombination n λk ak = 0 k=1
geschrieben werden kann, bei der nicht alle Koeffizienten λ1 , . . . , λn verschwinden. Ist etwa λi = 0, so kann man nach ai auflösen und schreiben: ai = µk ak k=i
mit Skalaren µk := −λk /λi ∈ K. Die lineare Abhängigkeit von a1 , . . . , an bedeutet also, dass mindestens einer dieser Vektoren als Linearkombination der restlichen geschrieben werden kann.
118
5 Vektoren, Matrizen, Determinanten
B. Lineare Gleichungssysteme und Gauß-Elimination Sei A ∈ Km×n eine gegebene Matrix, B ∈ Km×1 ein gegebener Vektor. Dann betrachten wir das inhomogene lineare Gleichungssystem a11 x1 + · · · + a1n xn = b1 ···
(L)
···
am1 x1 + · · · + amn xn = bm und das zugehörige homogene Gleichungssystem a11 x1 + · · · + a1n xn = 0 (L0 )
··· ··· am1 x1 + · · · + amn xn = 0
mit m Gleichungen und n Unbekannten. Mittels der Matrizenmultiplikation können wir (L) bzw. (L0 ) kurz in der Form AX = B
(5.1)
AX = 0
(5.2)
bzw.
schreiben. Die Matrix A nennt man dann die Koeffizientenmatrix, die Matrix (A, B) := (A1 , . . . , An , B) die erweiterte Matrix des Systems (L). Jeder Vektor X ∈ Kn×1 , der (5.1) bzw. (5.2) erfüllt, heißt eine Lösung von (5.1) bzw. (5.2). Schreiben wir wieder A = (A1 , . . . , An ) mit den Spaltenvektoren Ak ∈ Km×1 , so haben wir: (L0 )
x1 A1 + · · · + xn An = 0
(L)
x1 A1 + · · · + xn An = B .
(5.3)
Da auf der linken Seite eine Linearkombination der Spalten von A steht, haben wir zunächst folgende Aussage: Satz 5.8. a. Das homogene System hat immer die triviale Lösung X = 0. (L0 ) hat genau dann nicht triviale Lösungen X = 0, wenn die Spaltenvektoren A1 , . . . , An von A linear abhängig sind. b. Die Lösungen von (L0 ) bilden einen K-Vektorraum (Unterraum von Kn×1 ), d. h. Linearkombinationen von Lösungen von (L0 ) sind wieder Lösungen von (L0 ). c. Das inhomogene System (L) ist genau dann lösbar, wenn B linear abhängig von den Spalten von A ist.
B. Lineare Gleichungssysteme und Gauß-Elimination
119
d. Die Differenz zweier Lösungen von (L) ist eine Lösung von (L0 ). Daher bekommt man alle Lösungen von (L), indem man zu einer Lösung von (L) alle Lösungen von (L0 ) addiert. Um lineare Gleichungssysteme explizit zu lösen, benutzt man das Gauss’sche Eliminationsverfahren (oder eine Variante davon). Dabei wird das gegebene System so lange äquivalent umgeformt, bis sich die Lösungen praktisch ablesen lassen. Wir nennen zwei Gleichungssysteme AX = B
und
˜ =B ˜ AX
äquivalent, wenn ihre Lösungsmengen übereinstimmen, wenn die beiden Gleichungssysteme also als Bedingungen an den Vektor X logisch gleichbedeutend sind. Das Gauss’sche Verfahren arbeitet mit zwei Typen von Umformungen, nämlich I. Zeilenvertauschungen: Vertauschung der i-ten mit der j-ten Zeile bezeichnen wir mit V (i, j) (i, j = 1, . . . , m). II. Ersetzungen: Mit M (i, j, µ) bezeichnen wir das Ersetzen der j-ten Zeile durch die Summe aus der j-ten Zeile und dem µ-fachen der i-ten Zeile (i, j = 1, . . . , m; µ ∈ K). Bei der Umformung M (i, j, µ) werden also ajk (k = 1, . . . , n) sowie bj ersetzt durch a ˜jk := ajk + µaik
(k = 1, . . . , n)
bzw.
˜bj := bj + µbi .
Diese Umformungen nennt man auch elementare Matrixoperationen. Es läuft auf dasselbe hinaus, ob man sie sich auf das lineare Gleichungssystem (L) oder auf dessen erweiterte Matrix angewendet denkt, und letzten Endes kann man sie auf jede beliebige Matrix anwenden. Lemma 5.9. Die elementaren Matrixoperationen sind äquivalente Umfor˜ = B ˜ durch elementare mungen. Genauer: Geht das Gleichungssystem AX Matrixoperationen aus (5.1) hervor, so sind die beiden Systeme äquivalent. Beweis. Man braucht das natürlich nur für eine einzige elementare Matrixoperation zu beweisen. Handelt es sich dabei um eine Zeilenvertauschung, so ist die Aussage klar. Betrachten wir nun die Operation M (i, j, µ). Ist X = (x1 , . . . , xn )T eine Lösung von (5.1), so haben wir insbesondere n
ajk xk = bj
k=1
also auch
und
n
aik xk = bi ,
k=1 n k=1
(ajk + µaik )xk = bj + µbi .
120
5 Vektoren, Matrizen, Determinanten
˜ = B. ˜ Das umgeformte Somit erfüllt X auch das umgeformte System AX System geht aber durch die Operation M (i, j, −µ) wieder in das ursprüngliche System (5.1) über. Also ist jede Lösung des umgeformten Systems auch eine Lösung des ursprünglichen, d. h. wir haben Äquivalenz. Das gegebene Gleichungssystem wird nun durch Anwendung elementarer Matrixoperationen auf eine einfache Form gebracht, die wir gestufte Form nennen wollen. Wir definieren: Definition 5.10. Sei C = (cjk ) ∈ Km×n eine Matrix und D = (d1 , . . . , dm )T ∈ Km×1 ein Spaltenvektor. Wir sagen, die Matrix C bzw. das lineare Gleichungssystem CX = D
(5.4)
habe gestufte Form, wenn für gewisse Zahlen r ∈ {0, 1, . . . , m} und 1 ≤ s1 < . . . < sr ≤ n Folgendes gilt: (i) cjk = 0 für j > r, k = 1, . . . , n , (ii)cjk = 0 für j ≤ r, 1 ≤ k < sj , (iii) cj,sj = 0 für j = 1, . . . , r . Die Zahl r heißt der Rang der Matrix C bzw. des Systems (5.4). Für j ≤ r beginnt also die j-te Zeile mit lauter Nullen und zwar bis zum Platz (j, sj ), wo keine Null stehen darf. Die letzten m − r Zeilen von C bestehen komplett aus Nullen. Die k-te Spalte enthält ab der (j + 1)-ten Zeile nur noch Nullen, wenn k im Bereich sj ≤ k < sj+1 liegt (wobei sr+1 als n aufzufassen ist). Das Gleichungssystem (5.4) sieht dann also folgendermaßen aus: c1,s1 xs1 + . . . . . . . . . . . . . . . . . . . . . . + c1,n xn = d1 c2,s2 xs2 + . . . . . . . . . . . . + c2,n xn = d2 ............................. cr,sr xsr + . . . + cr,n xn = dr 0
= dr+1 .. .
0
= dm .
Man erkennt sofort, dass die Bedingung dr+1 = . . . = dm = 0
(5.5)
B. Lineare Gleichungssysteme und Gauß-Elimination
121
notwendig für die Lösbarkeit von (5.4) ist, denn anderenfalls enthält das System absurde Gleichungen, die nie erfüllt sind, egal, was man für x1 , . . . , xn einsetzt. Gilt jedoch (5.5), so sind die letzten m−r Gleichungen redundant und können aus dem System gestrichen werden. Für jedes k ∈ {s1 , . . . , sr } kann man dann einen willkürlichen Wert xk vorgeben und danach die restlichen Komponenten des Lösungsvektors durch die sog. Rücksubstitution bestimmen: Zunächst löst man die r-te Gleichung nach xsr auf und erhält n 1 xsr = dr − cr,k xk . cr,sr k=sr +1
Dies setzt man (zusammen mit den willkürlich gewählten xk -Werten) in die (r − 1)-te Gleichung ein und löst dann nach xsr−1 auf. So arbeitet man sich weiter nach oben vor, bis man alle Komponenten xs1 , . . . , xsr bestimmt hat. Insbesondere ist die Lösung nach Wahl der xk für k ∈ {s1 , . . . , sr } eindeutig festgelegt. Am einfachsten ist der Fall r = n. Dann muss nämlich s1 = 1, s2 = 2, . . . , sr = r = n sein, und daher kann man keine Komponente xk willkürlich vorschreiben, sondern die Rücksubstitution liefert (sofern (5.5) gilt!) eine eindeutige Lösung X = (x1 , . . . , xn )T . Insgesamt ergibt sich das Lemma 5.11. Gegeben sei ein System (5.4) in gestufter Form vom Rang r. Dann gilt: a. Ist r < m und dj = 0 für ein j > r, so hat das System keine Lösung. b. Ist (5.5) erfüllt und r = n, so hat das System eine eindeutige Lösung. c. Ist (5.5) erfüllt und r < n, so hat das System eine unendliche Schar von Lösungen. Dabei kann man gewisse n−r Komponenten des Lösungsvektors beliebig vorgeben, und die restlichen Komponenten sind dann eindeutig bestimmt. Im Fall r = m gilt (5.5) als erfüllt. Der Grundgedanke des Gauss’schen Eliminationsverfahrens ist nun in dem folgenden Theorem und seinem Beweis enthalten: Theorem 5.12. Jedes lineare Gleichungssystem (5.1) lässt sich durch elementare Matrixoperationen in gestufte Form überführen und ist daher zu einem System in gestufter Form äquivalent. Beweis. Der Beweis erfolgt durch Induktion nach der Anzahl m der Gleichungen. Für m = 1 ist nichts zu beweisen, denn eine einzelne Gleichung ist ein System in gestufter Form. Nun nehmen wir an, der Satz sei für Systeme mit m − 1 Gleichungen bewiesen (m ≥ 2) und betrachten ein System (5.1) mit m Gleichungen. Es sei s1 der kleinste Index k, für den die k-te Spalte ein nicht verschwindendes Element enthält, etwa aj,s1 = 0. (Im Allgemeinen wird
122
5 Vektoren, Matrizen, Determinanten
natürlich s1 = 1 sein, aber das wollen wir nicht zwingend fordern.) Die Vertauschung V (1, j) befördert dieses Element in die erste Zeile, d. h. wir können annehmen, es sei a1,s1 = 0. Nun wenden wir für j = 2, . . . , m die Operationen M (1, j, µj ) an, und zwar mit µj := −aj,s1 /a1,s1 . Dadurch wird erreicht, dass in der s1 -ten Spalte unterhalb der ersten Zeile nur noch Nullen stehen. Es sei ˜ =B ˜ AX
(5.6)
das durch diese Umformungen entstandene System. Das aus den letzten m − 1 Gleichungen von (5.6) bestehende System kann nach Induktionsvoraussetzung durch elementare Matrixoperationen auf gestufte Form gebracht werden. Tut man das, ohne die erste Gleichung zu verändern, so wird (5.6) insgesamt auf gestufte Form gebracht, weil die ersten s1 Spaltenvektoren von A˜ unterhalb der ersten Zeile sowieso nur aus Nullen bestehen. Aber (5.6) ist durch elementare Matrixoperationen aus (5.1) hervorgegangen. Damit ist die Behauptung auch für m Gleichungen bewiesen, wie gewünscht. Anmerkung 5.13. Die Gauss-Elimination ist ein echter Algorithmus, also ein nach festen Regeln ablaufendes Verfahren, das sich für Computer programmieren lässt und das tatsächlich (in verschiedenen Varianten) in einschlägiger Software implementiert ist, sowohl für numerische Aufgaben (also solche mit expliziten Zahlen) als auch für symbolische (also Aufgaben mit Symbolen als Koeffizienten). Das Grundrezept ist in obigem Beweis enthalten, aber durch den Einsatz des Induktionsprinzips vielleicht etwas versteckt. Wir beschreiben deshalb noch einmal explizit, wie man ein vorgelegtes Gleichungssystem (5.1) tatsächlich auf gestufte Form bringt: (i) Die Nummerierung wird dafür sorgen, dass die Unbekannte x1 wirklich vorkommt, und damit ist s1 = 1. Bei Bedarf erreicht man durch eine Vertauschung V (1, j), dass x1 sogar in der obersten Gleichung vorkommt, dass also a11 = 0. Die Ersetzungen M (1, j, −aj1 /a11 )
(j = 2, . . . , m)
bewirken nun, dass in der ersten Spalte ab der zweiten Zeile lauter Nullen auftauchen. (ii) Nun wird die zweite Spalte daraufhin untersucht, ob sie unterhalb der ersten Zeile noch ein Element = 0 besitzt. Ist dies nicht der Fall, geht man zur dritten Spalte über usw. Es sei also s2 der kleinste Spaltenindex k, für den die k-te Spalte unterhalb der ersten Zeile nicht aus lauter Nullen besteht. Durch eine Vertauschung V (2, j) wird (bei Bedarf) erreicht, dass a2,s2 = 0. Es folgen Ersetzungen M (2, j, −aj,s2 /a2,s2 )
(j = 3, . . . , m) .
C. Determinanten und Permutationen
123
Diese bewirken, dass die s2 -te Spalte – und damit alle Spalten von Nummer 1 bis Nummer s2 – unterhalb der zweiten Zeile nur noch Nullen enthalten. (iii) Nun wird Schritt (ii) wiederholt, wobei es aber nur noch um den Teil der Matrix unterhalb der zweiten Zeile und rechts von der s2 -ten Spalte geht, usw. Im ν-ten Schritt geht es nur noch um den Teil unterhalb der ν-ten Zeile und rechts von der sν -ten Spalte (ν = 1, . . . , r). Die Zahl r ist dadurch bestimmt, dass nach dem r-ten Schritt unterhalb der r-ten Zeile in der Koeffizientenmatrix nur noch Nullen vorkommen. Dann ist gestufte Form erreicht, und das Verfahren stoppt. Neben seinem praktischen Nutzen liefert das hier beschriebene Verfahren auch äußerst wichtige theoretische Einsichten, z. B. das Folgende Korollar 5.14. Jedes homogene lineare Gleichungssystem mit mehr Unbekannten als Gleichungen hat nichttriviale Lösungen. Beweis. Nach äquivalenter Umwandlung in gestufte Form haben wir r ≤ m < n, also können wir nach 5.11c n − r > 0 Komponenten der Lösung beliebig vorschreiben, insbesondere = 0 wählen.
C. Determinanten und Permutationen Um Determinanten beliebiger Größe einführen zu können, benötigen wir einige Bezeichnungen. Zunächst setzen wir ein Dach über einen Listeneintrag, der aus der Liste gestrichen werden soll. Sind also z. B. x1 , x2 , . . . , xn n Größen (Zahlen, Vektoren oder was auch immer), so schreiben wir /k , . . . , xn ) (x1 , . . . , x für das (n − 1)-Tupel (x1 , . . . , xk−1 , xk+1 , . . . , xn ) (k = 1, . . . , n). Sei ferner A = (A1 , . . . , An ) ∈ Kn×n eine quadratische Matrix mit Spaltenvektoren k der Spaltenvektor, der aus Ak durch Ak = (aik )1≤i≤n ∈ Kn×1 und sei A Streichen der ersten Komponente entsteht, d. h. ⎤ ⎡ ⎡ ⎤ a1k a2k ⎢ a2k ⎥ ⎢ ⎥ . ⎥ k = ⎢ (5.7) Ak = ⎢ . ⎥ ∈ Kn×1 , A ⎣ .. ⎦ ∈ Kn−1×1 . ⎣ .. ⎦ ank ank Definitionen 5.15. Für A = (A1 , . . . , An ) = (aij ) ∈ Kn×n ist die Determinante von A det A ≡ det(A1 , . . . , Ak ) ≡ |A| ≡ |A1 , . . . , Ak | a11 · · · a1n .. ∈ K ≡ ... . an1 · · · ann
(5.8)
124
5 Vektoren, Matrizen, Determinanten
induktiv folgendermaßen definiert: a. Für n = 1 ist |A| := a11 . Für n = 2 ist: a11 a12 a21 a22 := a11 a22 − a21 a12 .
(5.9)
b. Für n ≥ 2 definiert man n
/ k , . . . , A 1 , . . . , A n | a1k (−1)k+1 |A a/ 6 1k · · · a 1n 11 · · · a/ a21 · · · a/ 2k · · · a2n n = k=1 a1k (−1)k+1 . .. .. . .. . . an1 · · · a 6 nk · · · ann
|A| =
k=1
(5.10)
Aus dieser „Entwicklungsformel“ können wir sofort folgende Eigenschaften der Determinante ableiten: Satz 5.16. Für die Determinante det(A) = |A1 , . . . , An | , Ak ∈ Kn×1 , A ∈ Kn×n gelten: (D1) det ist homogen in jedem Argument A1 , . . . , An , d. h. für λ ∈ K gilt |A1 , . . . , λAi , . . . , An | = λ|A1 , . . . , Ai , . . . , An | .
(5.11)
(D2) det ist additiv in jedem Argument A1 , . . . , An , d. h. für B i , C i ∈ Kn×1 gilt |A1 , . . . , B i + C i , . . . , An | = |A1 , . . . , B i , . . . , An | + |A1 , . . . , C i , . . . , An | .
(D3)
(5.12)
det ist alternierend oder schiefsymmetrisch, d. h.
|A1 , . . . , B, . . . , C, . . . , An | = |A1 , . . . , C, . . . , B, . . . , An | .
(5.13)
C. Determinanten und Permutationen
125
Beweis. Der Beweis von (D1) – (D3) wird durch Induktion nach n geführt, wobei die Eigenschaften für n = 1, 2 sicher erfüllt sind. Wir beweisen exemplarisch (D1) |A1 , . . . , λAk , . . . , An | =
k−1
/ 1 , . . . , A k , . . . , A n | i , . . . , A a1i (−1)i+1 λ|A
i=1
/ 1 , . . . , A k , . . . , A n | +(λa1k )(−1)k+1 |A n / 1 , . . . , A k , . . . , A i , . . . , A n | + a1i (−1)i+1 λ|A i=k+1
= λ|A1 , . . . , Ak , . . . , An | nach der Entwicklungsformel in 5.15, wobei wir die Induktionsvoraussetzung benutzt haben, dass (D1) bereits für (n − 1)-reihige Determinanten bewiesen ist. (D2) und (D3) werden genauso bewiesen. Aus (D1)–(D3) folgt sofort: Korollar 5.17. Für det A = |A1 , . . . , An | gilt: a. |A1 , . . . , An | = 0, wenn Ai = Aj für zwei Indizes i = j, b. |A1 , . . . , An | = 0, wenn A1 , . . . , An linear abhängig, c. det(A) ändert sich nicht, wenn man zu einer Spalte eine Linearkombination der übrigen Spalten addiert. Seien nun E 1 , . . . , E n die Spalten der Einheitsmatrix, d. h. E = (δij ) = (E 1 , . . . , E n ) . Dann gilt natürlich (strenger Beweis durch Induktion nach n): det(E) = | E 1 , . . . , E n | = 1 .
(5.14)
Vertauscht man zwei Spalten, so dreht sich nach (D3) das Vorzeichen um. Allgemeiner betrachten wir Abbildungen: π : {1, . . . , n} −→ {1, . . . , n} , die jedem k ∈ {1, . . . , n} eine Zahl π(k) ∈ {1, . . . , n} zuordnen. Da eine solche Abbildung π eine Funktion mit einer endlichen Menge als Definitionsbereich ist, können wir π vollständig durch ihre Wertetabelle beschreiben, also durch die endliche Folge (j1 , . . . , jn ) mit jk = π(k)
für
k = 1, . . . , n .
(5.15)
126
5 Vektoren, Matrizen, Determinanten
Ist die Abbildung π bijektiv, so heißt π eine Permutation von n Elementen. In der Wertetabelle (j1 , . . . , jn ) kommt dann jede Zahl zwischen 1 und n genau einmal vor. Die Tabelle enthält also einfach die Elemente der Menge {1, . . . , n}, in irgendeiner Reihenfolge aufgeschrieben. Man kann sich daher die Permutationen von n Elementen auch als die n-Tupel (j1 , . . . , jn ) vorstellen, die durch Umordnen von (1, 2, . . . , n) entstanden sind. Ist solch ein n-Tupel gegeben, so ist die entsprechende Abbildung π wieder durch (5.15) definiert. Die Permutationen von n Elementen bilden bezüglich der Komposition von Abbildungen eine Gruppe (vgl. 1.3 und 1.4). Sie enthält n! Elemente, wie man leicht durch Induktion nachweist. Jede Permutation (j1 , . . . , jn ) entsteht durch Hintereinanderausführung von Transpositionen ( = Vertauschungen), durch die die Folge (1, 2, . . . , n) in die Folge (j1 , . . . , jn ) umgeordnet wird. Ist die Permutation π ein Produkt von s Transpositionen, so ist nach (5.14) und (D3) |E π(1) , E π(2) , . . . , E π(n) | = (−1)s .
(5.16)
Man kann eine gegebene Permutation i. Allg. auf mehrere verschiedene Weisen aus Transpositionen zusammensetzen, doch ist das Vorzeichen (−1)s wegen (5.16) durch die Permutation eindeutig festgelegt, und man nennt es das Vorzeichen oder Signum der Permutation. Für eine Selbstabbildung π von {1, . . . , n}, die nicht bijektiv ist, setzt man das Signum gleich Null, denn dann ist ja nach 5.17a. |E π(1) , E π(2) , . . . , E π(n) | = 0 .
Beispiel: Für n = 3 gibt es die folgenden Permutationen: (1, 2, 3)
Anzahl d. Transpositionen −→ (1, 2, 3) 0
(1, 2, 3)
2 −→ (2, 1, 3)
(1, 2, 3) (1, 2, 3) (1, 2, 3) (1, 2, 3)
π1 π
1
π3
1
π4
2
π5
2
π6
3
−→ (1, 3, 2) −→ (3, 1, 2) −→ (2, 3, 1) −→ (3, 2, 1)
Wir fassen zusammen: Definitionen 5.18. a. Eine bijektive Abbildung π der Menge {1, . . . , n} auf sich heißt eine Permutation von n Elementen. Eine Permutation, die zwei Elemente vertauscht und alle übrigen festlässt, heißt eine Transposition. Sn sei die Gruppe der Permutationen von n Elementen.
C. Determinanten und Permutationen
127
b. Eine Permutation π ∈ Sn heißt gerade (ungerade), wenn π aus einer geraden (ungeraden) Anzahl von Transpositionen zusammengesetzt ist. c. Für eine beliebige Abbildung π : {1, . . . , n} −→ {1, . . . , n} definiert man das Signum durch sign(π) = sign(π(1), . . . , π(n)) = det(E π(1) , . . . , E π(n) ) ⎧ ⎪ ⎨ +1 , wenn π ∈ Sn gerade , = −1 , wenn π ∈ Sn ungerade , ⎪ ⎩ 0 , wenn π nicht bijektiv .
(5.17)
Sind π1 , π2 ∈ Sn aus s1 bzw. s2 Transpositionen zusammengesetzt, so entsteht die Komposition π1 ◦ π2 natürlich durch Hintereinanderausführung aller s1 + s2 Transpositionen. Daher ist sign(π1 ◦ π2 ) = (−1)s1 +s2 = (−1)s1 (−1)s2 , also sign(π1 ◦ π2 ) = (signπ1 )(signπ2 ) .
(5.18)
Nun ist π ◦ π −1 die identische Permutation, die sich aus s = 0 Transpositionen zusammensetzt und daher gerade ist. (5.18) ergibt somit sign(π −1 ) = signπ
∀ π ∈ Sn .
(5.19)
Nach diesen Vorbereitungen können wir Determinanten in geschlossener Form beschreiben: Theorem 5.19. a. Für die Determinante gilt folgende geschlossene Darstellung sign(j1 , . . . , jn )aj1 1 · · · ajn n . det A =
(5.20)
(j1 ,...,jn )∈Sn
b. Es gilt det(AT ) = det(A) .
(5.21)
c. (D1)–(D3) gelten auch für die Determinante als Funktion der Zeilenvektoren. Korollar 5.17 gilt wörtlich für die Zeilenvektoren anstelle der Spaltenvektoren. Beweis. Seien A1 , . . . , An ∈ Kn×1 beliebig. Dann können wir schreiben Ak = a1k E 1 + · · · + ank E n =
n jk =1
ajk k E jk .
128
5 Vektoren, Matrizen, Determinanten
Aus (D1)–(D3) in 5.16 folgt dann: 1
n
det(A , . . . , A ) = det
n
j1 =1
=
n
j1 ,...,jn =1
n
j1
aj1 1 E , . . . ,
jn =1
ajn n E
jn
aj1 1 · · · ajn n det E j1 , . . . , E jn
und mit der Definition des Signums erhalten wir (5.20). Um (5.21) in b zu beweisen, beachte man, dass aus (5.20) mit AT anstelle von A folgt sign(j1 , . . . , jn )a1j1 · · · anjn . (5.22) det(AT ) = (j1 ,...,jn )∈Sn
Man muss daher nur überprüfen, dass auf den rechten Seiten von (5.20) und (5.22) dieselben Summanden vorkommen. Jeder Summand von (5.20) entspricht aber einer Permutation π, die durch (5.15) gegeben ist. Wegen (5.19) und dem Kommutativgesetz für die Multiplikation ist signπaπ(1),1 · · · aπ(n),n = signπ −1 a1,π−1 (1) · · · an,π−1 (n) , also ist dieser Summand gleich dem Summanden von (5.22), der π −1 entspricht. Mit π durchläuft aber auch π −1 genau einmal die Menge Sn , weil es sich um eine Gruppe handelt. Teil c folgt unmittelbar aus b. Sei nun f : Kn×n −→ K eine Funktion, welche als Funktion der Spaltenvektoren Ak ∈ Kn×1 die Rechenregeln (D1)–(D3) für die Determinante erfüllt, d. h. (5.23) f (A1 , . . . , λAk , . . . , An ) = λf (A1 , . . . , Ak , . . . , An ) , f (A1 , . . . , B k + C k , . . . , An ) = f (A1 , . . . , B k , . . . , An )+
(5.24)
+ f (A1 , . . . , C k , . . . , An ) , f (. . . , B, . . . , C . . . ) = −f (. . . , C, . . . , B . . . ) .
(5.25)
Dann folgt wie bei der Herleitung von (5.16) f (E j1 , . . . , E jn ) = sign(j1 , . . . , jn )f (E 1 , . . . , E n ) und wie bei der Herleitung von (5.20) in Theorem 5.19 f (A1 , . . . , An ) = sign(j1 , . . . , jn )aj1 1 · · · ajn n f (E 1 , . . . , E n ) (j1 ,...,jn )
= f (E 1 , . . . , E n ) det(A1 , . . . , An ) .
(5.26)
(5.27)
C. Determinanten und Permutationen
129
Da f (E 1 , . . . , E n ) ∈ K eine feste Zahl ist, haben wir Satz 5.20. a. Jede Funktion f = f (A1 , . . . , An ) : Kn×n −→ K, welche die Eigenschaften (D1)–(D3) erfüllt, ist ein skalares Vielfaches der Determinante f (A1 , . . . , An ) = f (E 1 , . . . , E n ) det(A1 , . . . , An ) .
(5.28)
b. Insbesondere ist det(A1 , . . . , An ) die einzige Funktion f : Kn×n −→ K, welche (D1)–(D3) und f (E 1 , . . . , E n ) = 1
(D4) erfüllt.
Aus diesem Satz wollen wir noch eine wichtige Folgerung herleiten. Seien ⎛ ⎞ B1 ⎜ .. ⎟ B = ⎝ . ⎠ ∈ Kn×n mit Zeilenvektoren Bi ∈ K1×n , Bn A = (A1 , . . . , An ) ∈ Kn×n
mit Spaltenvektoren Ak ∈ Kn×1
gegebene Matrizen. Die Determinanten des Produktes B1 A1 · · · B1 An .. =: f (A1 , . . . , An ) |B · A| = ... . Bn A1 · · · Bn An
(5.29)
ist dann für festes B eine Funktion der Spalten von A, welche die Eigenschaften (D1)–(D3) hat, wie man aus (5.29) sieht. Nach (5.28) in 5.20 folgt daher det(B · A) = f (E 1 , . . . , E n ) · det(A) . Nun ist aber nach (5.29) f (E 1 , . . . , E n ) = det(B · E) = det B . Somit: Theorem 5.21 (Determinanten-Multiplikationssatz). Für A, B ∈ Kn×n gilt det(A · B) = det(A) · det(B) . (5.30)
130
5 Vektoren, Matrizen, Determinanten
Zum Schluss dieses Abschnitts wollen wir uns mit der Berechnung von Determinanten befassen. Zunächst einmal lässt sich die Entwicklungsformel, durch die die Determinante in 5.15 rekursiv definiert wurde, folgendermaßen verallgemeinern: Für A = (aik ) ∈ Kn×n sei die Adjunkte des Elementes aik definiert durch a11 · · · a/ 1k · · · a1n .. . . .. .. . . . . · · · a / · · · a / Adj(aik ) = (−1)i+k a/ (5.31) i1 ik in . . . . . .. . . .. .. an1 · · · a6 nk · · · ann Die Adjunkte Adj(aik ) ist also – bis auf das Vorzeichen (−1)i+k – die Determinante derjenigen (n − 1)-reihigen Matrix, die entsteht, wenn man aus A die i-te Zeile und die k-te Spalte streicht. Nun gilt: Theorem 5.22. Für jedes A = (aj ) ∈ Kn×n und beliebige Indizes i, k ∈ {1, . . . , n} hat man folgende Entwicklungsformeln: a. (Entwicklung nach der i-ten Zeile) |A| =
n
ai Adj(ai ) ,
=1
b. (Entwicklung nach der k-ten Spalte) |A| =
n
ajk Adj(ajk ) .
j=1
Beweis. a. Die Matrix B entstehe aus A durch Anwenden der i−1 Zeilenvertauschungen V (i − 1, i), V (i − 2, i − 1), . . . , V (1, 2) (in dieser Reihenfolge!). Nach 5.19c. ist dann |A| = (−1)i−1 |B|. Berechnen wir |B| durch Entwicklung nach der ersten Zeile gemäß (5.10), so erhalten wir das Ergebnis. b. Man wende Teil a. auf AT an und beachte (5.21). Besonders einfach wird die Determinantenberechnung, wenn auf einer Seite der Diagonalen nur Nullen stehen. Man nennt A = (aik ) eine untere Dreiecksmatrix (bzw. obere Dreiecksmatrix ), wenn für i > k (bzw. für i < k) stets aik = 0 gilt. Nun hat man: Korollar 5.23. Für jede Dreiecksmatrix A = (aik ) ∈ Kn×n ist |A| = a11 a22 · · · ann .
D. Die inverse Matrix
131
Beweis. Der Beweis ergibt sich leicht durch Induktion nach n. Der Induktionsschritt wird bei einer unteren Dreiecksmatrix durch Entwickeln nach der ersten Spalte, bei einer oberen Dreiecksmatrix durch Entwickeln nach der ersten Zeile bewerkstelligt. Bemerkung: Es gibt viele trickreiche Formeln für die Determinante von Matrizen mit besonderer Bauart. Die praktische Berechnung der Determinante einer konkret durch Zahlen gegebenen Matrix erfolgt aber meist mittels des Gauss’schen Eliminationsverfahrens. Nach 5.19c. ändert sich die Determinante nämlich nicht bei der Anwendung einer elementaren Matrixoperation M (i, j, µ), und bei Zeilenvertauschungen ändert sich nur das Vorzeichen. Die gestufte Form ist aber eine untere Dreiecksmatrix, und nach dem letzten Korollar ist ihre Determinante daher einfach das Produkt der Diagonalelemente. Man kann |A| daher berechnen, indem man A dem Eliminationsverfahren unterwirft und dabei über die Zeilenvertauschungen Buch führt.
D. Die inverse Matrix Sei A = (aik ) ∈ Kn×n gegeben. Wir suchen eine Matrix B = (bik ) ∈ Kn×n , sodass AB = BA = E = (δik ) . (5.32) Wenn eine solche Matrix B existiert, nennt man B = A−1 die inverse Matrix zu A. Angenommen, eine solche Matrix B existiert. Wenden wir dann auf (5.32) den Determinanten-Multiplikationssatz 5.21 an, so folgt det(AB) = det(A) · det(B) = det(E) = 1 .
(5.33)
d. h. die inverse Matrix kann nur existieren, wenn det A = 0 ist. Diese notwendige Bedingung ist auch hinreichend, wie wir beweisen werden. Als Vorbereitung beweisen wir: Lemma 5.24. Für jede quadratische Matrix A = (aik ) gelten folgende Entwicklungsformeln n aik Adj(ajk ) = δij |A| (5.34) k=1 n i=1
aik Adj(ail ) = δkl |A| .
(5.35)
132
5 Vektoren, Matrizen, Determinanten
Beweis. a. Für i = j ist (5.34) einfach die Entwicklung nach der i-ten Zeile aus 5.22. Um die Formel (5.34) für i = j, d. h. n
für i = j
aik Adj(ajk ) = 0
(5.36)
k=1
zu zeigen, definiert man eine Matrix B mit Zeilenvektoren Bm folgendermaßen für m = i, j, Bi = Ai , Bj = Ai . (5.37) Bm = Am Dann ist det B = 0
wegen Bi = Bj := Ai für i = j .
Entwickeln wir |B| gemäß 5.22 nach der j-ten Zeile, so folgt 0 = det B =
n
bjk Adj(bjk ) =
k=1
n
aik Adj(ajk ) .
k=1
b. Die Formel (5.35) folgt aus (5.34), wenn man gemäß 5.19b zur transponierten Matrix übergeht. Theorem 5.25. a. Für jede Matrix A = (aik ) ∈ Kn×n mit det A = 0 existiert eine eindeutig bestimmte inverse Matrix A−1 = (bik ) ∈ Kn×n mit A−1 A = AA−1 = E und
Adj(aki ) . |A| Matrizen mit det A = 0 heißen regulär, mit det A = 0 singulär. b. Sind A, B ∈ Kn×n beide regulär, so gilt bik =
(AB)−1 = B −1 A−1
und
(AT )−1 = (A−1 )T .
(5.38)
(5.39)
Beweis. Setzen wir C = (cik ) = AB, so folgt mit 5.24 aus (5.38) cik =
n
1 aij Adj(akj ) = δik , |A| j=1 n
aij bjk =
j=1
was zeigt, dass AB = E erfüllt ist. Analog ergibt sich BA = E. Um die Eindeutigkeit zu zeigen, nehmen wir an, es gebe B, C ∈ Kn×n mit BA = AB = E
und
CA = AC = E .
Dann folgt C = CE = C(AB) = (CA)B = EB = B . Die restlichen Formeln lassen sich leicht nachrechnen (Übung!).
E. Lineare Gleichungssysteme, Determinanten und Rang
133
E. Lineare Gleichungssysteme, Determinanten und Rang Wir wollen nun mithilfe der Determinantentheorie lineare Gleichungssysteme noch etwas besser theoretisch durchleuchten. Betrachten wir zunächst den quadratischen Fall. Theorem 5.26. Sei A ∈ Kn×n eine quadratische Matrix, B ∈ Kn×1 . a. Wenn det A = 0 ist, dann hat das inhomogene System (L)
AX = B
die eindeutige Lösung X = A−1 B, die mit der Cramer’schen Regel xk =
|A1 , . . . , Ak−1 , B, Ak+1 , . . . , An | |A|
(5.40)
berechnet werden kann. b. Das homogene System hat genau dann nur die triviale Lösung X = 0, wenn det A = 0 ist. Beweis. a. Wenn det A = 0 ist, existiert A−1 = (cik ) nach 5.25 mit cik =
Adj(aki ) . |A|
(5.41)
Aus X = A−1 B folgt dann xk =
n i=1
cki bi =
n 1 Adj(aik )bi , |A| i=1
(5.42)
was gerade (5.40) entspricht, wenn man die Zählerdeterminante nach der k-ten Spalte entwickelt. b. Hat das homogene System außer X = 0 noch eine Lösung Y = 0, so ist es nicht eindeutig lösbar. Nach a muss dann det A = 0 sein. Ist umgekehrt det A = 0, so überführen wir A gemäß Theorem 5.12 durch elementare Matrixoperationen in eine gestufte Form C. Nach 5.19c ändern diese Operationen höchstens das Vorzeichen der Determinante, also ist det C = ± det A = 0. Aber nach Korollar 5.21 ist det C das Produkt der Diagonalelemente, also muss mindestens eins der Diagonalelemente verschwinden. Für den Rang r von C gilt somit r < n, und damit folgt die Behauptung, dass das System AX = 0 nicht triviale Lösungen haben muss, aus 5.11 und 5.9. Als Konsequenz aus 5.8a, 5.26b und (5.21) folgen wichtige alternative Beschreibungen der regulären Matrizen, nämlich:
134
5 Vektoren, Matrizen, Determinanten
Theorem 5.27. Für eine Matrix A ∈ Kn×n sind äquivalent: a. det(A) = 0 . b. Die Spaltenvektoren von A sind linear unabhängig. c. Die Zeilenvektoren von A sind linear unabhängig. Eine Verallgemeinerung auf rechteckige Matrizen ist der folgende Satz: Theorem 5.28. Sei A ∈ Km×n eine beliebige Matrix. a. Die maximale Anzahl linear unabhängiger Spalten von A, die maximale Anzahl linear unabhängiger Zeilen von A und die maximale Reihenzahl einer quadratischen Untermatrix mit nicht verschwindender Determinante stimmen alle überein. Diese Zahl heißt der Rang rg (A) von A. (Wenn A gestufte Form hat, stimmt das mit der schon in 5.10 als Rang bezeichneten Größe überein.) b. Das inhomogene Gleichungssystem (L)
A ∈ Km×n ,
AX = B ,
B ∈ Km×1
ist genau dann lösbar, wenn rg (A, B) = rg (A) .
(5.43)
c. Das homogene System (L0 )
AX = 0
mit rg A = r hat n − r linear unabhängige Lösungen X01 , . . . , X0n−r und die allgemeine Lösung ist X0 =
n−r
αj X0j ,
αj ∈ K .
(5.44)
j=1
d. Ist rg (A, B) = rg A, so ist die allgemeine Lösung des inhomogenen Systems (L) von der Form X = Xp +
n−r
αj X0j ,
(5.45)
j=1
wobei Xp eine spezielle Lösung von (L) ist. Das Kernstück des Beweises ist das Folgende: Lemma 5.29. Die Spaltenvektoren einer Matrix A ∈ Km×n sind genau dann linear unabhängig, wenn m ≥ n ist und durch Streichen von geeigneten m − n Zeilen eine Matrix B ∈ Kn×n mit det B = 0 entsteht. Eine analoge Aussage gilt für die Zeilenvektoren.
E. Lineare Gleichungssysteme, Determinanten und Rang
135
Beweis. Zunächst setzen wir voraus, es sei m ≥ n und eine n-reihige quadratische Untermatrix B mit det B = 0 vorhanden. Wir erreichen durch Umnummerieren, dass ⎛ ⎞ a11 · · · a1n ⎜ .. ⎟ . B = ⎝ ... . ⎠ an1 · · · ann Nach 5.26b hat dann das homogene System BX = 0, also ausführlich a11 x1 + · · · + a1n xn = 0 ···
(5.46)
an1 x1 + · · · + ann xn = 0 nur die triviale Lösung. Dann hat aber das um m − n Gleichungen vergrößerte System a11 x1 + · · · + a1n xn = 0 ··· an1 x1 + · · · + ann xn = 0
(5.47)
··· am1 x1 + · · · + amn xn = 0 , also das volle System AX = 0, ebenfalls nur die triviale Lösung. Daher sind die Spalten von A nach Definition (vgl. 5.7) linear unabhängig. Nun sei umgekehrt vorausgesetzt, dass die Spalten von A linear unabhängig sind. Wir bringen A gemäß Theorem 5.12 auf die äquivalente gestufte Form C. Das homogene System AX = 0 hat nach Voraussetzung nur die triviale Lösung, also trifft dies auch auf das äquivalente System CX = 0 zu. Nach Lemma 5.11c muss dann r = n sein, nach der Definition von r also auch c11 = 0, c22 = 0, . . . , cnn = 0 . Also ist n = r ≤ m und nach Korollar 5.23 auch det C˜ = 0 für die quadrati˜ die aus den ersten n-Zeilen von C besteht. Diese ist aber sche Untermatrix C, durch die Anwendung der elementaren Matrixoperationen aus einer gewissen quadratischen Untermatrix B von A hervorgegangen (die wegen der evtl. beteiligten Zeilenvertauschungen nicht unbedingt aus den ersten n-Zeilen von A bestehen muss!) und es ist det B = ± det C˜ = 0, wie behauptet. Die analoge Aussage für die Zeilen folgt durch Betrachten von AT (Übung!). Beweis von Theorem 5.28. a. Folgt direkt aus dem Lemma. b. Ist eine Umformulierung von 5.8c, wenn man den Rang als die Maximalzahl linear unabhängiger Spalten auffasst.
136
5 Vektoren, Matrizen, Determinanten
c. Die Lösungsmenge von (L0 ) stimmt mit der Lösungsmenge eines äquivalenten Systems in gestufter Form überein, und wir können daher auf die in Abschnitt B. gegebene Beschreibung dieser Lösungsmenge zurückgreifen (vgl. insbes. 5.11). Sei r := rg A. Durch Umnummerieren der Unbekannten können wir erreichen, dass die Komponenten xr+1 , . . . , xn einer Lösung frei wählbar sind, während x1 , . . . , xr durch Rücksubstitution berechnet werden und dadurch auch festgelegt sind. Wir setzen (j)
(j)
X0j := (ξ1 , ξ2 , . . . , ξn(j) )T mit
(j = 1, . . . , n − r) (j)
ξk := δj+r,k (j)
(j)
für k = r + 1, . . . , n, während die Komponenten ξ1 , . . . , ξr auf die beschriebene Art durch Rücksubstitution festgelegt werden, sodass diese Vektoren X0j Lösungen von (L0 ) sind. Sie sind linear unabhängig, denn aus n−r λj X0j = 0 j=1
folgt λj = 0 durch Betrachtung der (j + r)-ten Zeile (j = 1, . . . , n − r). Ist schließlich X = (x1 , . . . , xn )T eine beliebige Lösung von (L0 ), so stimmt X in den letzten n − r Komponenten offenbar mit dem Vektor Y :=
n−r
xj+r X0j
j=1
überein. Wegen der Eindeutigkeit der ersten r Komponenten (vgl. Lemma 5.11) muss dann aber X = Y sein, d. h. X hat wirklich die behauptete Form (mit αj := xj+r , j = 1, . . . , n − r). d. Folgt sofort aus c und 5.8d.
Ergänzungen zu §5 Unter den vielen raffinierten Methoden zur Determinantenberechnung bei Matrizen spezieller Bauart sticht eine besonders nützliche hervor, die man als eine Verallgemeinerung von Korollar 5.23 auffassen kann: 5.30 Matrizen von Matrizen. Oft ist es zweckmäßig, große Matrizen aus kleineren zusammenzusetzen, die man dann als Blöcke oder Kästchen bezeichnet. Ist z. B. n = r + s (r, s ≥ 1), so kann man jede (n × n)-Matrix M in der Form AB M= CD
Ergänzungen
schreiben, wobei
137
B ∈ Kr×s , D ∈ Ks×s A B die beteiligten Blöcke sind. Ist M = eine weitere Matrix derselben C D Bauart, so ist das Matrizenprodukt gegeben durch AA + BC AB + BD , (5.48) M · M = CA + DC CB + DD A ∈ Kr×r , C ∈ Ks×r ,
wobei aber rechts natürlich wieder Produkte von Matrizen auftauchen. Man erkennt das sofort an der Definition des Matrizenprodukts in 5.5. Allgemeiner ist das Produkt C = AB zweier Matrizen A = (Aij ), B = (Bjk ) aus kleineren Blöcken Aij , Bjk gegeben durch die Blöcke Cik = Aij Bjk , j
vorausgesetzt, die Größen der einzelnen Blöcke passen zueinander, sodass die entsprechenden Matrizenprodukte sinnvoll gebildet werden können. (Was das genau bedeutet, kann man sich als Übung überlegen!) Eine aus Blöcken zusammengesetzte quadratische Matrix A = (Ajk ) heißt eine untere (bzw. obere) Block-Dreiecksmatrix, wenn Ajk = 0 für j > k (bzw. für j < k). Für solche Matrizen gilt die folgende Verallgemeinerung von Korollar 5.23: Theorem 5.31 (Kästchensatz). Ist A = (Ajk ) (j, k = 1, . . . , ν) eine BlockDreiecksmatrix, so gilt det A = (det A11 ) · (det A22 ) · · · (det Aνν ) . Beweis. Wir betrachten untere Block-Dreiecksmatrizen – der Fall der oberen wird dann durch Transponieren erledigt. Ferner brauchen wir nur den Fall ν = 2 zu betrachten, denn der allgemeine Fall folgt dann durch Induktion nach ν. Sei also die Matrix BC A= 0 D gegeben, wobei B ∈ Kr×r , C ∈ Kr×s , D ∈ Ks×s . Mit Er , Es bezeichnen wir die r- bzw. s-reihigen Einheitsmatrizen. Nach (5.48) ist dann B 0 Er C · . A= 0 D 0 Es Nun beweist man die Beziehung Er C 0 D = |D|
138
5 Vektoren, Matrizen, Determinanten
durch Induktion nach r, wobei man den Induktionsschritt durch Entwickeln nach der ersten Spalte bewerkstelligt. Ebenso beweist man B 0 0 Es = |B| durch Induktion nach s, wobei man den Induktionsschritt durch Entwickeln nach der letzten Spalte (oder der letzten Zeile) bewerkstelligt. Damit folgt die Behauptung det A = (det B)(det D) aus dem Determinanten-Multiplikationssatz 5.21.
Aufgaben zu §5 5.1. a. Man zeige, dass die Mengen C k [a, b], k ∈ N0 , a < b, wobei C 0 [a, b] := C[a, b] gesetzt wurde, Vektorräume sind. Dabei sind für f, g ∈ C k [a, b], r ∈ R die Funktionen f + g und r · f gegeben durch (f + g)(x) := f (x) + g(x) und (r · f )(x) := r · f (x) . b. Außerdem seien folgende Mengen gegeben: U :=
{f ∈ C 2 [a, b] | f (a) = f (b), f (x) = 25f (x)} ,
V :=
{f ∈ C 2 [a, b] | xf (x) + sin(x2 )f (x) + ex f (x) = 0} .
Man zeige, dass U und V Unterräume von C 2 [a, b] sind. 5.2. Sei V der Vektorraum aller Funktionen f : [−1, 1] → R. Man untersuche, ob die folgenden Teilmengen W1 , . . . , W5 von V lineare Teilräume sind: W1 = W2 =
{f ∈ V | f (0) = 0} , {f ∈ V | f (x) = 0 für − 1 ≤ x < 1/2} ,
W3 = W4 =
{f ∈ V | f stetig in x = 1/2} , {f ∈ V | f (−x) = f (x) für − 1 ≤ x ≤ 1} ,
W5 =
{f ∈ V | f streng monoton wachsend} .
5.3. Gegeben seien folgende Matrizen A=
1 2 −1 10 1
Man bestimme A · B und B · A.
⎛
,
⎞ −10 2 B = ⎝ 1 2⎠ . 0 8
Aufgaben
139
5.4. Es seien ζk := e2πik/3 (k = 1, 2, 3) die dritten Einheitswurzeln. Wir bilden die Matrizen ⎛ ⎞ 1 ζk2 ζk 1 Ak := ⎝ζk 1 ζk2 ⎠ . 3 ζ2 ζ 1 k
k
Man berechne Aj Ak für j, k = 1, 2, 3. (Antwort: Aj Ak = 0 für j = k, A2k = Ak .) 12 5.5. Sei A := . Man finde Ak für alle k ∈ N. 01 5.6. Man zeige: a. Für A ∈ Kp×m und B, C ∈ Km×q gilt: A(B + C) = AB + AC . b. Für A ∈ Kp×m und B ∈ Km×q gilt: (A B)T = B T AT . 5.7. A,B kommutieren, wenn AB = BA ist. Man finde alle Matrizen Matrizen x y 11 , die mit kommutieren. zw 01 a −b a, b ∈ R ⊆ R2×2 . Man zeige: 5.8. Sei M = A = b a a. M bildet bezüglich der Matrizenaddition und -multiplikation einen Körper. b. Die Körper M und C sind isomorph, d. h. es gibt eine bijektive Abbildung ϕ : M −→ C mit ϕ(A + B) = ϕ(A) + ϕ(B) ,
ϕ(A · B) = ϕ(A)ϕ(B) ,
5.9. Seien A, B ∈ Kn×n , E = (δij ). Man zeige: a. Wenn K = C , A∗ = A und B ∗ = B gilt, so ist (AB)∗ = AB
⇐⇒
AB = BA .
b. Wenn AB = A und BA = B, so gilt A2 = A und
B2 = B .
c. Wenn det(E + A) = 0 ist, so gilt (E + A)−1 (E − A) = (E − A)(E + A)−1 .
A, B ∈ M .
140
5 Vektoren, Matrizen, Determinanten
5.10. Seien f (x) = ex , g(x) = e−x , h(x) = cosh x Elemente des reellen Vektorraumes C 1 ([0, 1]). Man zeige: a. {f, g} sowie {g, h} sind linear unabhängig. b. {f, g, h} sind linear abhängig. 5.11. Man bestimme Zahlen α, β ∈ R, sodass das lineare Gleichungssystem x1 + 3x2 + 2x3 + x4
=1
2x1 + 2x2 + 5x3 + x4 = 1 3x1 + 5x2 + αx3 + 2x4 = β −x1 + x2 − 3x3 + αx4 = 2 entweder keine oder genau eine oder unendlich viele Lösungen hat. 5.12. Gegeben seien zwei Abbildungen π, τ : {1, 2, 3, 4, 5} → {1, 2, 3, 4, 5} durch die folgende Tabelle: n 12345 π(n) 2 4 5 3 1 τ (n) 3 1 4 5 2 Wieso sind π und τ Permutationen? Man trage die Werte von π ◦ τ und τ ◦ π in eine Tabelle ein. Man schreibe π als Produkt von Transpositionen und bestimme sign π. 5.13. Seien B = (bij ), C = (cij ) ∈ Kn×n definiert durch i + j für i ≤ j i/j für i ≥ j bij = , cij = . 0 für i > j 0 für i < j Für A = B · C bestimme man det(A). 5.14. Sei A = (aij ) ∈ Rn×n und gelte aji = −aij ,
1 ≤ i, j ≤ n .
Man zeige: Wenn n ungerade ist, dann ist det A = 0. 5.15. Man beweise die Gültigkeit der folgenden Gleichungen: a.
x x x + y y x + y x = −(x3 + y 3 + 2xy 2 ) . x + y x y
Aufgaben
141
1 + x 1 1 1 1 1−x 1 1 = x2 z 2 . 1 1 1 + z 1 1 1 1 1 − z
b.
⎛
⎞ a −b −c d ⎜ b a −d −c⎟ ⎜ ⎟ ⎝ c d a b ⎠ ∈ R4×4 . −d c −b a
5.16. Sei
Man berechne AAT und zeige damit (det A)2 = (a2 + b2 + c2 + d2 )4 . 5.17. Seien A, B, C, D ∈ Kn×n , λ ∈ K und C und D seien invertierbar. Welche Aussagen sind für alle A, B, C, D, n, λ richtig, welche sind für eine Wahl von A, B, C, D, n, λ falsch? Man beweise oder widerlege mithilfe eines Gegenbeispiels. AB = BA, (CD)−1 = C −1 D−1 ,
Spur(λA + B) = λSpur(A) + Spur(B),
det(A + B) = det(A) + det(B), AB = 0nn ⇒ A = 0nn oder B = 0nn , 1 , det(C −1 AC) = det(A), det(C −1 ) = det(C) B = 0nn und AB = B ⇒ A = En , Spur(A∗ ) = Spur(A), det(A∗ ) = det(A) , Spur(C −1 AC) = Spur(A), (A + B)2 = A2 + 2AB + B 2 , det(λA) = λ det(A) , det(λA) = λn det(A), A2 = 0nn ⇒ A = 0nn , Spur(ABC) = Spur(ACB), Spur(ABC) = Spur(BCA) . 5.18. Man bestimme den Rang und gegebenenfalls die Inverse der folgenden Matrizen. ⎛ ⎞ ⎛ ⎞ 6345 0 1 −4 ⎜ ⎟ ⎝ 1 2 −1 ⎠ , ⎜ 1 2 2 1 ⎟ . ⎝2 4 3 2⎠ 11 2 3342 5.19. Gegeben sei die Matrix
⎛
uv ⎜v u A=⎜ ⎝0 v v0
⎞ 0v v 0⎟ ⎟ . u v⎠ vu
Man bestimme u, v ∈ R, sodass rg A = 0 bzw.
rg A = 2
bzw.
und zeige, dass rg A = 1 nicht vorkommt.
rg A = 3
bzw.
rg A = 4
6 Vektorräume
Den allgemeinen Begriff des Vektorraums haben wir zwar schon in Kap. 5 definiert, weil wir ihn als sprachlichen Rahmen für die Matrizenrechnung gut gebrauchen konnten, aber wir haben weiter nichts Tiefschürfendes damit angefangen. Das müssen wir jetzt nachholen, denn Vektorräume gehören zu den häufigsten und wichtigsten Objekten überall in der Mathematik und ihren Anwendungen. In den späteren Abschnitten dieses Kapitels wird es auch um Vektorräume mit zusätzlichen Produkten gehen (Skalarprodukt, Vektorprodukt), und diese bilden die Grundlage für eine rechnerisch orientierte Formulierung der Geometrie, wie die Physik sie für die Beschreibung raumzeitlicher Vorgänge unter kinematischen und dynamischen Aspekten benötigt.
A. Dimension und Basis eines Vektorraumes Wir verweisen zwecks Vorbereitung auf die Definitionen eines K-Vektorraums in Def. 5.1 sowie der linearen Hülle und der linearen Unabhängigkeit in Def. 5.7. Und nun ein Grundbegriff: Definition 6.1. Sei V ein Vektorraum. Eine Menge A = {a1 , . . . , an } ⊆ V heißt eine Basis von V , wenn a. a1 , . . . , an sind linear unabhängig; b. a1 , . . . , an spannen V auf, d. h. LH(a1 , . . . , an ) = V . Basen sind das entscheidende Hilfsmittel, mit dem man allgemeine Vektoren x ∈ V mit konkreten Zahlen in Verbindung bringt. Die Anzahl der unabhängig voneinander frei wählbaren Parameter, die man benötigt, um einen Vektor x ∈ V festzulegen, nennt man die Dimension von V , und ähnlich ist auch der Dimensionsbegriff für allgemeinere geometrische Objekte wie Mannigfaltigkeiten zu verstehen. Er entspricht in etwa dem, was der Physiker mit der „Anzahl der Freiheitsgrade“ eines physikalischen Systems meint. Um diesen Begriff präzise zu beschreiben, benötigen wir allerdings etwas Vorbereitung:
144
6 Vektorräume
Lemma 6.2. Der Vektorraum V werde von m Vektoren aufgespannt. a. Dann ist jedes System von mehr als m Vektoren in V linear abhängig. b. Ist M ⊆ V eine beliebige Teilmenge und ist A ein System von linear unabhängigen Vektoren aus U := LH(M) (wobei A = ∅ erlaubt ist!), so gibt es eine endliche Basis B des Vektorraums U mit A ⊆ B ⊆ A ∪ M. Mit anderen Worten: Man kann das linear unabhängige System A durch Hinzunehmen von endlich vielen Vektoren aus M zu einer Basis B von U ergänzen. Der Beweis beruht auf 5.14 und damit letzten Endes auf der GaussElimination. Er ist aber etwas technisch und wird in Ergänzung 6.22 nachgetragen. Theorem 6.3. Es sei V ein Vektorraum, der von endlich vielen seiner Vektoren aufgespannt wird. a. V besitzt eine Basis. Mehr noch: Jedes System von linear unabhängigen Vektoren in V kann zu einer Basis ergänzt werden. b. Alle Basen von V haben ein und dieselbe Elementeanzahl. Beweis. a. Das ist Lemma 6.2b mit M = V . b. Seien B1 , B2 Basen von V mit Elementeanzahlen n1 bzw. n2 . Nach Lemma 6.2a ist dann n1 ≤ n2 , denn B1 ist ein linear unabhängiges System, und V wird von n2 Vektoren aufgespannt. In diesem Argument kann man aber die Rollen der beiden Basen vertauschen und erhält so auch n2 ≤ n1 . Definition 6.4. Wenn sich der K-Vektorraum V von endlich vielen Vektoren aufspannen lässt, so bezeichnet man die gemeinsame Elementeanzahl seiner Basen als die Dimension dim V von V . Lässt er sich nicht durch endlich viele Vektoren aufspannen, so sagt man, er habe unendliche Dimension. Die Dimension ist u. a. eine Art Größenangabe über den Vektorraum, wie aus dem folgenden Satz deutlich wird: Satz 6.5. Es sei V ein Vektorraum der Dimension n ∈ N. Dann: a. Jedes System von n linear unabhängigen Vektoren in V spannt den ganzen Raum auf und ist damit eine Basis. b. Jedes System von n Vektoren, das den ganzen Raum aufspannt, ist linear unabhängig und damit eine Basis. c. Ist U ⊆ V ein Teilvektorraum, so ist dim U ≤ n. Ist dim U = n, so muss U = V sein.
A. Dimension und Basis eines Vektorraumes
145
Beweis. a. Sei A ⊆ V ein System von n linear unabhängigen Vektoren. Nach Theorem 6.3a lässt sich A zu einer Basis B von V ergänzen. Aber B muss ebenfalls n = dim V Elemente enthalten. Also ist B = A, und damit ist A eine Basis. b. Sei M ⊆ V eine Menge aus n-Vektoren, die V aufspannt. Nach Lemma 6.2b (mit A = ∅) hat V = LH(M) eine Basis B mit B ⊆ M. Aber B muss ebenfalls n = dim V Vektoren enthalten, also ist B = M, und damit ist M eine Basis. c. Wir verwenden Lemma 6.2b mit A = ∅, M = U . Danach hat U eine Basis B, und da diese aus linear unabhängigen Vektoren von V besteht, kann sie nach 6.2a höchstens n Elemente enthalten. Somit ist dim U ≤ n. Ist nun dim U = n, so ist B ein System von n linear unabhängigen Vektoren aus V und damit eine Basis von V nach Teil a dieses Satzes. Also ist U = LH(B) = V . Beispiele 6.6. a. Das n-fache kartesische Produkt von K mit sich selbst, also Kn = K × · · · × K = {(x1 , . . . , xn )|x1 , . . . , xn ∈ K} , &' ( % n-mal
lässt sich mit K1×n oder Kn×1 identifizieren, je nachdem, ob man die n-Tupel x = (x1 , . . . , xn ) als Zeilen- oder Spaltenvektoren schreibt. Mit den komponentenweisen Rechenoperationen, die schon in 5.2b für Matrizen beschrieben wurden, ist K daher in natürlicher Weise ein KVektorraum. Er hat eine ganz besondere Basis, die man als die Standardbasis oder die kanonische Basis von Kn bezeichnet. Sie besteht aus den Vektoren: e1 = (1, 0, . . . , 0) , e2 = (0, 1, . . . , 0) , .. . en = (0, . . . , 0, 1) . Als Übung sollte man nachrechnen, dass {e1 , . . . , en } wirklich eine Basis von Kn ist. Es folgt die nicht sehr überraschende Beziehung dim Kn = n. b. Sei I ⊆ R ein Intervall, das nicht nur aus einem einzigen Punkt besteht. Die Menge aller Funktionen f : I → K bildet einen K-Vektorraum, wenn man die Funktionen, wie gewohnt, punktweise addiert und mit Skalaren aus K multipliziert. Interessante lineare Teilräume hiervon sind die in
146
6 Vektorräume
2.24 eingeführten Mengen C k (I) der k-mal stetig differenzierbaren Funktionen auf I (zumindest, wenn I offen und K = R ist, obschon es eigentlich auch ohne diese Einschränkungen geht). Die Rechenregeln für stetige und differenzierbare Funktionen aus 2.9, 2.18 zeigen, dass Linearkombinationen von C k -Funktionen tatsächlich wieder C k -Funktionen sind. Der Vektorraum C k (I) enthält auf jeden Fall die Potenzfunktionen (n = 0, 1, 2, . . .) . Pn (t) := tn Je endlich viele von diesen sind stets linear unabhängig. Haben wir nämlich eine Relation n λν Pν = 0 ν=0
mit Skalaren λ0 , . . . , λn , so verschwindet das Polynom Q(t) :=
n
λν tν
ν=0
auf ganz I, also muss λν = 0 ∀ ν sein, denn ansonsten könnte das Polynom Q ja höchstens n Nullstellen haben (vgl. 1.25 und 1.34). Der Raum C k (I) enthält also beliebig große linear unabhängige Systeme und ist daher von unendlicher Dimension, wie Lemma 6.2a zeigt. Bemerkung: Mit solchen Funktionenräumen werden wir uns vorläufig nur am Rande befassen, doch in der tiefergehenden Theorie der Differenzialgleichungen und in der Quantenphysik spielen sie eine entscheidende Rolle. Unser nächstes Thema ist die schon angekündigte Rolle der Basen als Vermittler zwischen abstrakten Elementen x ∈ V und ihrer Beschreibung durch konkrete Zahlenangaben: Satz 6.7. Sei B = {b1 , . . . , bn } eine Basis von V . Dann gilt: Jeder Vektor x ∈ V ist eine eindeutige Linearkombination von b1 , . . . , bn . Beweis. Da b1 , . . . , bn linear unabhängig sind,haben wir: αk bk = x = βk b k k
=⇒
k
(αk − βk )bk = 0 =⇒ αk = βk ,
k = 1, . . . , n .
k
Hat man in dem n-dimensionalen K-Vektorraum eine Basis fest gewählt, so kann man aufgrund des letzten Satzes Koordinaten von Vektoren definieren:
A. Dimension und Basis eines Vektorraumes
147
Definition 6.8. Sei B = {b1 , . . . , bn } eine Basis von V und x ∈ V . Dann heißen die Zahlen ξ1 , . . . , ξn ∈ K mit n
ξi bi = x
(6.1)
i=1
die Koordinaten von x bzgl. B und der Vektor ⎛ ⎞ ξ1 ⎜ .. ⎟ B X = X = ⎝ . ⎠ ∈ Kn×1
(6.2)
ξn der Koordinatenvektor von x bzgl. B. Beispiele: Wir greifen noch einmal die Beispiele aus 6.6 auf. a. Das Besondere an der kanonischen Basis K = {e1 , . . . , en } von Kn ist, dass der Koordinatenvektor X K zu einem x = (x1 , . . . , xn ) einfach der Vektor x selbst ist, nur eben als Spalte geschrieben. b. Es sei Pn ⊆ C k (I) der Teilvektorraum der auf I definierten Polynomfunktionen zu Polynomen vom Grad ≤ n. Die Potenzfunktionen P0 , P1 , . . . , Pn bilden dann eine Basis B von Pn , und die Koordinaten eines P ∈ Pn sind gerade die Koeffizienten des Polynoms P . Satz 6.7 liefert daher die theoretische Rechtfertigung für den schon öfters angewendeten Koeffizientenvergleich bei Polynomen. Seien nun
A = {a1 , . . . , an } , A = {a1 , . . . , an }
beides Basen von V . Dann kann man jedem Vektor der einen Basis einen Koordinatenvektor bzgl. der anderen Basis zuordnen: aj =
n
βij ai ,
ai =
i=1
n
αki ak .
(6.3)
k=1
Auf diese Weise erhält man Transformationsmatrizen A = (αki ) für die Basistransformation von A nach A, B = (βij ) für die Basistransformation von A nach A . Der Zusammenhang zwischen diesen Matrizen ergibt sich wie folgt: n n n βij ai = βij αki ak aj = i=1
i=1
=
n k=1
k=1 n i=1
αki βij
ak = !
n k=1
δkj ak ,
148
6 Vektorräume
weil die Basisentwicklung nach Satz 6.7 eindeutig ist. Wir sehen also A·B = E
B = A−1 .
d. h.
(6.4)
Untersuchen wir nun, wie die Koordinatenvektoren X bzgl. A und X bzgl. A eines Vektors x ∈ V zusammenhängen: Nach 6.1 sind X, X definiert durch x =
n
ξi ai ,
x =
i=1
n
ξk ak .
(6.5)
k=1
Zusammen mit den Transformationsgleichungen (6.3) folgt: x = ξi ai = ξi αki ak i
i
=
k
k
ak =
αki ξi
i
ξk ak .
k
Weil die Basisentwicklung nach 6.7 eindeutig ist, folgt wieder ξk =
n
αki ξi ,
d. h. X = AX .
(6.6)
i=1
Der folgende Satz fasst alles zusammen: Satz 6.9. a. Sind A = {a1 , . . . , an }, A = {a1 , . . . , an } Basen von V, so beschreiben reguläre Transformationsmatrizen A = (αki ) mit ai =
n
αki ak
k=1
den Übergang von A nach A, A−1 = (βki ) mit aj =
n
βij ai
i=1
den Übergang von A nach A . b. Sind X ∈ Kn×1 bzw. X ∈ Kn×1 die Koordinatenvektoren von x ∈ V bzgl. A bzw. A , so gilt X = AX ,
X = A−1 X .
B. Norm und Skalarprodukt
149
B. Norm und Skalarprodukt Wie man (zumindest für n = 3) aus der Schule weiß, definiert man im Rn = Rn×1 ein Skalarprodukt durch X · Y :=
n
xi yi = X T Y
für X = (xi ), Y = (yi ) ,
(6.7)
i=1
und dieses hat die folgenden Eigenschaften: X · (λY + µZ) = λ(X · Y ) + µ(X · Z) , Y · X = X · Y und X · X ≥ 0, X · X = 0 ⇐⇒ X = 0 . Dies nimmt man zum Anlass, allgemein zu definieren: Definitionen 6.10. Ein K-Vektorraum H heißt ein Prähilbertraum1 (PHR), wenn für alle x, y ∈ H ein Skalarprodukt x|y ∈ K definiert ist, sodass gilt: x|y, falls K = R (S1) y|x = (6.8) x|y, falls K = C (S2)
x|λy + µz = λx|y + µx|z
(S3)
x|x ≥ 0,
x|x = 0 ⇐⇒ x = 0 .
(6.9) (6.10)
Ist dim H < ∞ und K = R, so heißt H auch ein euklidischer Raum, im Falle K = C ein unitärer Raum. Ein Skalarprodukt ist nach (S2) linear im zweiten Faktor, wegen (S1) jedoch konjugiert linear im ersten Faktor, d. h. ¯ λx + µy|z = λx|z +µ ¯ y|z .
(6.11)
Die folgenden Beispiele sind die Bekanntesten: a. Im C-Vektorraum Cn wird durch z|w =
n
zk wk
k=1
ein Skalarprodukt definiert. 1
Eigentlich sollte es „Prä-Hilbertraum“ heißen, denn die Bezeichnung leitet sich vom Namen des Mathematikers David Hilbert ab.
150
6 Vektorräume
b. Im R-Vektorraum Rm×n wird durch A|B := Spur (AT B) ein Skalarprodukt definiert. Bemerkungen zur Notation: a. In der mathematischen Literatur ist es üblich, die Skalarprodukte im komplexen Fall „anders herum“ zu schreiben, d. h. sie verhalten sich linear im linken und konjugiert linear im rechten Argument. Das StandardSkalarprodukt in Cn wäre also definiert durch z|wmath =
n
zk wk .
k=1
Wir folgen in diesem Kapitel der in der physikalischen Literatur allgemein verbreiteten Konvention. b. In der mathematischen Literatur schreibt man statt x|y auch oft (x, y) oder (x|y). Im Kontext eines euklidischen Raums verwenden Physiker wie Mathematiker gerne den Malpunkt · wie in den einleitenden Zeilen dieses Abschnitts. c. Ein Element x eines euklidischen Raumes – und insbesondere ein x ∈ Rn – sollte man sich manchmal als einen Punkt mit den kartesischen Koordinaten x1 , . . . , xn vorstellen, in anderen Situationen aber als einen „Vektor im Sinne der Physik“, d. h. als einen Pfeil, der vom Ursprung zu dem betreffenden Punkt zeigt oder als eine Information, die sowohl Größe als auch Richtung beinhaltet. Im letzteren Fall wollen wir, einer Tradition der Physik folgend, ein fettes x schreiben statt des normalen x. Diese Konvention lässt sich allerdings nicht in aller Schärfe durchhalten, weil zwischen x und x ja kein mathematischer Unterschied besteht. Der Unterschied liegt einzig und allein in der anschaulichen Vorstellung, die für die betreffende Situation angemessen und zweckmäßig ist. Ein Skalarprodukt ermöglicht es, in dem betreffenden Vektorraum Längen und Winkel einzuführen, und zwar so, dass dabei die Gesetze der euklidischen Geometrie gelten. Als Vorbereitung hierzu benötigen wir: Theorem 6.11. In jedem PHR H gilt für alle x, y ∈ H die Schwarz’sche Ungleichung |x|y|2 ≤ x|x y|y
für alle x, y ∈ H ,
und Gleichheit gilt genau dann, wenn x, y linear abhängig sind.
(6.12)
B. Norm und Skalarprodukt
151
Beweis. Für beliebige x, y ∈ H, λ ∈ K folgt aus den Eigenschaften des Skalarprodukts: ¯ 0 ≤ x + λy|x + λy = x|x + λx|y + λx|y + |λ|2 y|y . Setzt man speziell λ =
y|x , y|y
so folgt (6.12) und auch die zweite Behauptung. (Im Fall y = 0 ist die Behauptung sowieso klar.) Nun definieren wir die Norm eines Vektors, die den euklidischen Längenbegriff verallgemeinert: Theorem 6.12. Jeder PHR H ist ein normierter linearer Raum (NLR) mit der Norm
x := x|x, x ∈ H , (6.13) d. h. die Abbildung H → R : x → x hat die folgenden Eigenschaften: (N1)
x ≥ 0 ,
x = 0
⇐⇒
(N2)
λx = |λ| x
(6.15)
(N3)
x + y ≤ x + y (Dreiecksungleichung) .
(6.16)
x=0
(6.14)
Beweis. (N1) und (N2) folgen sofort aus (6.13) und Definition 6.10. (N 3) ergibt sich folgendermaßen aus der Schwarz’schen Ungleichung: x + y2 = x + y|x + y = x2 + x|y + y|x + y2 ≤ x2 + 2x y + y2 = (x + y)2 . Allgemein ist eine Norm auf einem K-Vektorraum V eine Abbildung V → R : x → x, für die die Normaxiome (N1)–(N3) gelten, und V zusammen mit einer gegebenen Norm darauf ist dann ein NLR. Es sollte bemerkt werden, dass es Normen auf Vektorräumen gibt, die nicht durch (6.13) über ein Skalarprodukt definiert werden können. Aus dem üblichen Skalarprodukt auf Rn gewinnt man mittels (6.13) die euklidische Norm |x| := x2 :=
n k=1
1/2 x2k
,
152
6 Vektorräume
die genau den euklidischen Abstand des Punktes x vom Ursprung (bzw. die euklidische Länge des Ortsvektors x) angibt. Aber auch die Normen x1 :=
n
|xk |
k=1
und x∞ := max |xk | , 1≤k≤n
die rechnerisch oft einfacher zu behandeln sind, sowie noch weitere Normen werden in der Analysis häufig verwendet. Als Übung sollten Sie die Gültigkeit der Normaxiome für · 1 , · ∞ nachprüfen. Für das euklidische Skalarprodukt des Rn x·y =
n
xi yi
i=1
stellt man fest, dass x · y = |x| · |y| cos α, wobei α der Winkel zwischen den Vektoren x, y ist. Die Vektoren sind aber orthogonal (d. h. sie stehen aufeinander senkrecht) genau dann, wenn cos α = 0 ist. Also ist x·y =0
⇐⇒
x, y orthogonal .
Daher definiert man allgemein: Definitionen 6.13. a. x, y ∈ H heißen orthogonal, wenn x|y = 0. Man schreibt dann x ⊥ y. b. Eine Menge {x1 , . . . , xn , . . . } ⊆ H heißt ein Orthogonalsystem (OGS), wenn xi |xj = 0 für i = j und ein Orthonormalsystem (ONS), wenn xi |xj = δij .
(6.17)
c. Eine Basis B von H, die ein ONS ist, heißt eine Orthonormalbasis (ONB). Satz 6.14. a. Ein OGS {x1 , . . . , xn } ⊆ H mit xj = 0, j = 1, . . . , n ist eine linear unabhängige Menge. Insbesondere ist jedes ONS linear unabhängig. b. Ist {x1 , . . . , xn , . . . } ⊆ H linear unabhängig, so gibt es ein ONS {e1 , . . . , en , . . . } ⊆ H mit LH(x1 , . . . , xn ) = LH(e1 , . . . , en )
für alle n .
B. Norm und Skalarprodukt
Beweis. a. Aus
n i=1
153
λi xi = 0 folgt durch skalare Multiplikation mit xk 8 7 n n 0 = xk λi xi = λi xk |xi = λk xk 2 i=1
i=1
was λk = 0 wegen xk = 0 liefert. b. Wird konstruktiv mit dem Orthogonalisierungsverfahren von Erhard Schmidt bewiesen: y1 := x1 ,
e1 :=
y2 := x2 − e1 |x2 e1 ,
e2 :=
y3 := x3 − e1 |x3 e1 − e2 |x3 e2 ,
e3 :=
y1 y1 y2 y2 y3 y3
und allgemein ym := xm −
m−1
ek |xm ek ,
em :=
k=1
ym . ym
(6.18)
Damit kann die Behauptung direkt überprüft werden. Satz 6.15. Sei B = (e1 , . . . , en ) eine ONB von H. a. Jedes x ∈ H hat die eindeutige Darstellung x=
n
ek |x ek
(6.19)
k=1
mit den Fourierkoeffizienten ξk = ek |x als Koordinaten. b. Für alle x, y ∈ H gilt x|y =
n
ek |x ek |y
(6.20)
k=1
und insbesondere x2 =
n
| ek |x |2 .
(6.21)
k=1
Beweis. Da B eine Basis ist, gibt es nach Satz 6.7 eindeutige ξk ∈ K, sodass x=
n j=1
ξj ej .
154
6 Vektorräume
Skalare Multiplikation mit ek ergibt: 7 n 8 n ek |x = ek ξj ej = ξj ek |ej = ξk . j=1 j=1
(6.20) und (6.21) sind eine leichte Übung.
Eine der wichtigsten Eigenschaften euklidischer und unitärer Räume ist, dass man in Bezug auf einen gegebenen linearen Unterraum U jeden Vektor eindeutig in eine Komponente, die zu U gehört, und eine Komponente, die auf U senkrecht steht, zerlegen kann. Ähnliche eindeutige Zerlegungen können und müssen wir auch im Kontext allgemeiner Vektorräume einführen: Definition 6.16. Es sei V ein K-Vektorraum, U und W lineare Teilräume von V . Man sagt, V sei die direkte Summe von U und W und schreibt V =U ⊕W ,
(6.22)
wenn jeder Vektor v ∈ V sich eindeutig in der Form v = u+w mit u ∈ U, w ∈ W schreiben lässt. Man sagt dann, u bzw. w sei die Komponente von v in U (bzw. in W ), und man nennt die Beziehung (6.22) eine direkte Zerlegung von V . Satz 6.17. a. Für eine Teilmenge M ⊆ H ist das orthogonale Komplement von M def
M ⊥ = {x ∈ H| m|x = 0
∀ m ∈ M}
(6.23)
ein linearer Teilraum von H. b. Ist H endlichdimensional und ist U ⊆ H ein linearer Teilraum, so gilt H = U ⊕ U⊥
und U ⊥⊥ = U .
(6.24)
Beweis. a. Kann als Übung bewiesen werden. b. Sei {b1 , . . . , bk } eine Basis von U . Nach Theorem 6.3a kann diese zu einer Basis {b1 , . . . , bk , bk+1 , . . . , bn } von H ergänzt werden. Nach Satz 6.14b gibt es dann eine ONB {e1 , . . . , ek , ek+1 , . . . , en } von H, sodass U = LH(e1 , . . . , ek ) = LH(b1 , . . . , bk ) . Mittels Satz 6.15 rechnet man ohne Weiteres nach, dass dann: U ⊥ = LH(ek+1 , . . . , en ), woraus die Behauptung folgt.
C. Das Vektorprodukt im R3
155
C. Das Vektorprodukt im R3 Im 3-dimensionalen R-Vektorraum R3 definieren wir Definitionen 6.18. Sei {E1 , E2 , E3 } die Standardbasis ( = kanonische Basis) des R3 und seien ⎛ ⎞ ⎛ ⎞ a1 b1 A = ⎝a2 ⎠ , B = ⎝b2 ⎠ ∈ R3 . a3 b3 Dann definiert man das Vektorprodukt A × B ∈ R3 durch ⎡ ⎤ E1 a1 b1 a2 b 3 − a3 b 2 A × B := ⎣a3 b1 − a1 b3 ⎦ = E2 a2 b2 , E3 a3 b3 a1 b 2 − a2 b 1
(6.25)
wobei man sich die formale Determinante rechts nach der 1. Spalte entwickelt zu denken hat. Ferner definiert man für A, B, C ∈ R3 das sogenannte Spatprodukt a1 b1 c1 (6.26) A · (B × C) = a2 b2 c2 . a3 b3 c3 Diese Produkte haben die folgenden, leicht zu verifizierenden Eigenschaften: A × B = −B × A , A × A = 0 , (6.27) A×B =0
⇐⇒
A, B linear abhängig ,
(6.28)
A × B ⊥ A, A × B ⊥ B ,
(6.29)
A × (B + C) = A × B + A × C ,
(6.30)
A · (B × C) = C · (A × B) = B · (C × A) .
(6.31)
Um weitere Eigenschaften des Vektorprodukts herzuleiten, ist die folgende Darstellung nützlich, die sich durch einfaches Nachrechnen ergibt. Satz 6.19. Sei
εijk
a. Dann gilt
⎧ +1 , ⎪ ⎪ ⎨ ≡ sign (ijk) = −1 , ⎪ ⎪ ⎩ 0, 3 i=1
für (123) , (312) , (231) , für (213) , (321) , (132) , sonst.
εijk εilm = δjl δkm − δjm δkl .
(6.32)
156
6 Vektorräume
b. Für A, B ∈ R3 gilt (A × B)k =
3
εijk ai bj .
(6.33)
i,j=1
Damit können wir beweisen: Satz 6.20. Für A, B, C, D ∈ R3 gilt A × (B × C) = B(A · C) − C(A · B) ,
(6.34)
(A × B) · (C × D) = (A · C)(B · D) − (A · D)(B · C)
(6.35)
und insbesondere A × B2 = A2 B2 − (A · B)2 .
(6.36)
Beweis. a. (6.34) beweisen wir mit (6.33) und (6.32): (A × (B × C))n = εikn ai (B × C)k i,k = εikn ai εjlk bj cl i,k j,l εkni εkjl ai bj cl = i,j,l k = (δnj δil − δnl δij )ai bj cl i,j,l = a i ci b n − a i b i cn i
i
= (A · C)bn − (A · B)cn . b. Um (6.35) zu beweisen, gehen wir analog vor: (A × B) · (C × D) = (A × B)m (C × D)m m = εijm ai bj εklm ck dl m i,j k,l εijm εklm ai bj ck dl = m i,j,k,l = (δik δjl − δil δjk )ai bj ck dl i,j,k,l = (ai ci bj dj − ai di bj cj ) i,j a i ci bj dj − ai di b j cj = i
i
i
= (A · C)(B · D) − (A · D)(B · C) .
j
Ergänzungen
157
c. (6.36) folgt dann aus (6.35), indem man C := A , D := B setzt. Anmerkung 6.21. Ist α der von A, B ∈ R3 eingeschlossene Winkel und · die euklidische Norm, so gilt: A · B = A B cos α ,
(6.37)
A × B = A B sin α ,
(6.38)
d. h. A × B ist der Flächeninhalt des von A und B aufgespannten Parallelogramms.
Ergänzungen zu §6 Wir müssen natürlich noch Lemma 6.2 beweisen, das ja den fundamentalen Erkenntnissen über Basis und Dimension zugrunde liegt. Außerdem wollen wir das Thema „Direkte Zerlegungen“ (Def. 6.16) etwas vertiefen. Wirklich spannend wird die lineare Algebra allerdings erst, wenn lineare Abbildungen ins Spiel kommen (vgl. nächstes Kapitel). Dann wird auch klar werden, warum direkte Zerlegungen so wichtig sind. 6.22 Beweis von Lemma 6.2. a. Sei V = LH(b1 , . . . , bm ), und seien v1 , . . . , vn ∈ V beliebig vorgegebene Vektoren, wobei n > m. Wir haben zu zeigen, dass v1 , . . . , vn linear abhängig sein müssen. Nach Definition der linearen Hülle lässt sich jedes vj (j = 1, . . . , n) als Linearkombination der b1 , . . . , bm schreiben, also in der Form m vj = αij bi i=1
mit geeigneten Skalaren αij ∈ K. Die Bedingung (∗)
n
(λ1 , . . . , λn ∈ K)
λj vj = 0
j=1
ist dann erfüllt, wenn (λ1 , . . . , λn ) eine Lösung des homogenen linearen Gleichungssystems α11 λ1 +
...
+ α1n λn = 0
.............................. αm1 λ1 +
...
+ αmn λn = 0
158
6 Vektorräume
ist. Dieses Gleichungssystem hat aber mehr Unbekannte als Lösungen und besitzt daher (vgl. Korollar 5.14) eine nicht triviale Lösung (λ1 , . . . , λn ). Also lässt sich Bedingung (∗) mit Skalaren λ1 , . . . , λn erfüllen, die nicht sämtlich verschwinden, wie behauptet. b. Wir betrachten die Gesamtheit aller Mengen C, die aus linear unabhängigen Vektoren bestehen und A ⊆ C ⊆ A ∪ M erfüllen. Solche Mengen gibt es jedenfalls, z. B. C = A, und nach Teil a hat jede derartige Menge höchstens m Elemente. Wir wählen eine mit maximaler Elementeanzahl n aus und nennen sie B. Wenn wir zeigen können, dass B den Raum U aufspannt, ist klar, dass B alle geforderten Eigenschaften hat. Zunächst einmal ist B ⊆ U , also auch LH(B) ⊆ U , denn da U ein linearer Unterraum ist, liegen Linearkombinationen von Vektoren aus U wieder in U . Wir schreiben B = {b1 , . . . , bn } (n ≤ m). Angenommen, es gibt einen Vektor b0 ∈ M, der nicht in LH(B) liegt. Die Menge B∗ := {b0 , b1 , . . . , bn } besteht dann aus n + 1 Vektoren, und natürlich ist A ⊆ B∗ ⊆ A ∪ M. Wegen der Maximalität von n müssen die b0 , b1 , . . . , bn also linear abhängig sein. Aber aus der Relation λ0 b0 + λ1 b1 + · · · + λn bn = 0 mit Skalaren λ0 , λ1 , . . . , λn folgt zunächst einmal λ0 = 0, weil b0 andernfalls eine Linearkombination der Elemente von B wäre. Damit folgt λ1 b1 + · · · + λn bn = 0 und somit λ1 = . . . = λn = 0, denn b1 , . . . , bn sind ja linear unabhängig. Also besteht B∗ doch aus linear unabhängigen Vektoren, ein Widerspruch. Dies zeigt, dass M ⊆ LH(B) ist. Weil LH(B) aber ein linearer Unterraum ist, folgt daraus auch U = LH(M) ⊆ LH(B). Insgesamt ergibt sich LH(B) = U , und wir sind fertig. Bemerkung: Die Art der Argumentation beim Beweis von Teil b ist typisch für die abstrakte Algebra. Sicher wird der Physiker so etwas nur selten antreffen, aber aus der modernen Mathematik sind diese Schlussweisen nicht wegzudenken. 6.23 Mehr über direkte Zerlegungen. Seien wieder U, W lineare Teilräume des Vektorraums V . Man setzt U + W := {u + w|u ∈ U, w ∈ W } und rechnet mittels der Teilraumaxiome sofort nach, dass U + W = LH(U ∪ W )
Ergänzungen
159
ist. Insbesondere ist U + W ebenfalls ein linearer Teilraum. Ist nun die Zerlegung eines v ∈ U + W in einen Vektor aus U und einen aus W stets eindeutig, so trifft dies insbesondere auf die Null zu. Aber für jedes x ∈ U ∩ W ist 0 = x + (−x) solch eine Zerlegung. Also kann U ∩ W in diesem Fall nicht mehr als die Null enthalten. Umgekehrt: Ist U ∩ W = {0}, so müssen die Zerlegungen eindeutig sein. Haben wir nämlich v = u1 + w1 = u2 + w2 ∈ U + W mit u1 , u2 ∈ U, w1 , w2 ∈ W , so folgt u1 − u2 = w2 − w1 ∈ U ∩ W und damit u1 = u2 , w1 = w2 . Es gilt also (vgl. Def. 6.16): Satz. V = U ⊕ W genau dann, wenn U + W = V und U ∩ W = {0}. Diese Charakterisierung ist oft praktisch, wenn es darum geht, nachzuprüfen, ob eine direkte Zerlegung vorliegt. Zerlegungen in mehr als zwei Teilräume sind ebenfalls wichtig. Betrachten wir also lineare Teilräume U1 , . . . , Um von V und setzen ⎧ ⎫ m m ⎨ ⎬ def Uj = uj uj ∈ Uj für j = 1, . . . , m ⎩ ⎭ j=1 j=1 = LH U1 ∪ · · · ∪ Um . Wir sagen, V sei die direkte Summe der U1 , . . . , Um und schreiben V = U1 ⊕ · · · ⊕ Um =
m
r sind A1 , . . . , Ar , Ak jedoch linear abhängig nach Definition von r, also Ak ∈ W0 . Damit folgt Bild A = LH(A(E 1 ), . . . , A(E n )) = LH(A1 , . . . , An ) = W0 , also r = dim Bild A, wie behauptet. Wir sehen also, dass 5.28c auch aus 7.3 gefolgert werden kann. Bemerkung: Es gibt auch wichtige und interessante lineare Abbildungen, die nicht von Matrizen herrühren. Mehr dazu in Ergänzung 7.25.
B. Die Matrix einer linearen Abbildung
169
B. Die Matrix einer linearen Abbildung Wir werden jetzt erläutern, wie man lineare Abbildungen zwischen endlich dimensionalen Räumen durch Matrizen beschreiben kann. Gegeben seien also K-Vektorräume V
mit einer Basis A = {a1 , . . . , an }
W
mit einer Basis B = {b1 , . . . , bm }
und eine lineare Abbildung A : V −→ W . Die Bilder A(ak ) ∈ W der Basisvektoren ak ∈ V können dann bezüglich der Basis B von W entwickelt werden: m αik bi , 1 ≤ k ≤ n , (7.8) A(ak ) = i=1
wobei wir die Koordinaten αik , 1 ≤ i ≤ m, von A(ak ) spaltenweise zu einer Matrix A = (αik ) ∈ Km×n zusammenfassen können. Für x ∈ V sei y = A(x)
(7.9)
und es seien X A = (ξk ) ∈ Kn×1
mit x =
n
ξk ak ,
(7.10)
k=1
Y B = (ηi ) ∈ Km×1
mit y =
m
ηi bi
(7.11)
i=1
die Koordinatenvektoren von x bezüglich A, y bezüglich B. Dann folgt aus (7.8)–(7.11) n n ξk ak = ξk A(ak ) A(x) = A k=1 k=1 n m m n ξk αik bi = αik ξk bi = k=1
=y=
m
i=1
i=1
k=1
ηi bi .
i=1
Weil die b1 , . . . , bm linear unabhängig sind, gilt nach Satz 6.7 ηi =
n
αik ξk oder, in Matrixschreibweise Y B = AX A .
(7.12)
k=1
Wir fassen zusammen: Satz 7.4. Seien V mit Basis A = {a1 , . . . , an }, W mit Basis {b1 , . . . , bm } K-Vektorräume und sei A ∈ L(V, W ).
170
7 Lineare Abbildungen
a. Definiert man gemäß A(ak ) =
m
αik bi
(7.8)
i=1
die zu A gehörende Matrix B AA
= A = (αik ) ∈ Km×n
(7.13)
bezüglich der Basen A, B, so gilt: Ist x ∈ V und y = A(x) ∈ W und sind X A , Y B die Koordinatenvektoren von x, y, so hat man Y B = AX A . (7.12) b. Ist B : V −→ W eine weitere lineare Abbildung und B = BBA die zugehörige Matrix, λ ∈ K, so gehört zu A + B
die Matrix A + B ,
zu λA
die Matrix λA .
Wenn man die Komposition von linearen Abbildungen betrachtet, kommt man zu einer Interpretation des Matrizenprodukts: Satz 7.5. Seien U mit Basis A = {a1 , . . . , an }, V mit Basis B = {b1 , . . . , bm }, W mit Basis C = {c1 , . . . , cp } K-Vektorräume und seinen A : U −→ V , B : V −→ W lineare Abbildungen mit zugehörigen Matrizen A=
B AA
∈ Km×n ,
B = C BB ∈ Kp×m .
Dann hat die Komposition B ◦ A : U −→ W die Matrix B·A=
C (B
◦ A)A =
C BB B AA
.
(7.14)
Beweis. Dass B ◦ A linear ist, ist klar. Seien also A = (αik ) B = (βij )
mit A(ak ) = mit B(bi ) =
m
αik bi ,
i=1 p
βji cj .
j=1
Dann folgt (B ◦ A)(ak ) = B(A(ak )) p m m = αik B(bi ) = αik βji cj i=1 i=1 j=1 p m = βji αik cj , j=1
i=1
was nach Definition 5.5 gerade behauptet wird.
B. Die Matrix einer linearen Abbildung
171
Als Spezialfall betrachten wir einen Vektorraum-Endomorphismus A : V −→ V . Dann wählt man i. Allg. nur eine einzige Basis B von V und beschreibt A durch die Matrix A = BAB . Man muss aber untersuchen, wie diese Matrix sich ändert, wenn man zu einer anderen Basis B übergeht. Seien also B = (b1 , . . . , bn ), B = (b1 , . . . , bn ) beides Basen von V . Dann hat man eine reguläre Transformationsmatrix T = (τik ) so, dass bj =
n
τij bi .
(7.15)
i=1
T ist nämlich die zur identischen Abbildung I(x) ≡ x gehörige Matrix B IB mit der Inversen S = T −1 = BIB . Außerdem seien αjk bj , (7.16) A = (αjk ) = B AB gemäß A(bk ) = j
A = (αij ) =
B AB
gemäß A(bj ) =
αij bi
(7.17)
i
die Matrizen von A bezüglich der beiden Basen B bzw. B . Dann folgt einerseits αjk τij bi A(bk ) = αjk bj = j j i = τij αjk bi i
j
und andererseits
τjk bj = τjk A(bj ) A(bk ) = A j j τjk αij bi = αij τjk bi . = j
i
i
j
Machen wir einen Koeffizientenvergleich, so sehen wir (T A)ik = (A T )ik
∀ i, k .
Das bedeutet T A = A T oder, anders ausgedrückt, A = T AT −1. Damit haben wir: Theorem 7.6. Sei V ein K-Vektorraum mit Basen B, B und der Transformationsmatrix T von B nach B, und sei A : V −→ V eine lineare Abbildung. a. Die Matrizen A = B AB , A = Ähnlichkeitstransformation
B AB
sind ähnlich, d. h. es gibt die
A = T AT −1 . b. Ähnliche Matrizen haben dieselbe Determinante und dieselbe Spur. Teil b folgert man leicht aus Theorem 5.21 und Satz 5.6d.
172
7 Lineare Abbildungen
C. Eigenwerte linearer Abbildungen Sei V ein n-dimensionaler K-Vektorraum und A : V −→ V ein Endomorphismus. Ist dann B = {b1 , . . . , bn } eine Basis von V , so können wir A nach Satz 7.4 eine Matrix A=
B AB
= (αik ) ∈ Kn×n
mit A(bk ) =
n
αik bi
(7.18)
i=1
zuordnen. Nach Satz 7.6 wissen wir, dass der Übergang zu einer anderen Basis B zu einer ähnlichen Matrix A =
B AB
= S −1 AS
mit S =
B IB
führt. Da die einfachsten Matrizen sicher Diagonalmatrizen ⎞ ⎛ 0 λ1 ⎟ ⎜ D = (αij ) = diag (λj ) = ⎝ . . . ⎠ ∈ Kn×n 0
(7.19)
(7.20)
λn
sind, kann man fragen, ob eine Basis X = {x1 , . . . , xn } von V existiert, sodass X AX
=D
(7.21)
ist, was nach (7.18) und (7.20) bedeutet, dass A(xk ) = λk xk ,
k = 1, . . . , n
(7.22)
gilt. Definitionen 7.7. a. Für A ∈ L(V, V ) heißt ein Vektor x = 0 aus V ein Eigenvektor von A, wenn ein Eigenwert λ ∈ K existiert, sodass A(x) = λx .
(7.23)
b. Für A ∈ Kn×n heißt ein 0 = X ∈ Kn×1 ein Eigenvektor zum Eigenwert λ ∈ K, wenn AX = λX . (7.24) Schreiben wir (7.24) in der Form (A − λE)X = 0 ,
(7.25)
so stellt dies ein homogenes Gleichungssystem dar, das nach Satz 5.26b genau dann eine nicht triviale Lösung x = 0 hat, wenn det(A − λE) = 0
(7.26)
C. Eigenwerte linearer Abbildungen
173
gilt, was eine Bedingung an den Eigenwert λ darstellt. Entwickeln wir die Determinante in (7.26), so bekommen wir ein Polynom n-ten Grades in λ p(λ) = det(A − λE) = (−1)n λn + bn−1 λn−1 + · · · + b1 λ + b0 ,
(7.27)
sodass die Eigenwerte von A nach (7.26) gerade die Nullstellen des Polynoms p(λ) sind. Beachten wir weiter, dass ähnliche Matrizen dieselbe Determinante haben und dass alle Matrizen, die zu einer linearen Abbildung gehören, ähnlich sind, so haben wir folgendes Ergebnis: Satz 7.8. Sei V mit einer Basis B ein n-dimensionaler K-Vektorraum, A : V −→ V ein Vektorraum-Endomorphismus, A = B AB ∈ Kn×n . a. λ ∈ K ist genau dann ein Eigenwert von A, wenn λ eine Nullstelle des charakteristischen Polynoms ist, d. h. p(λ) = det(A − λE) = 0 .
(7.28)
b. Die Eigenwerte sind unabhängig von der Basis B, d. h. ähnliche Matrizen haben dasselbe charakteristische Polynom und daher dieselben Eigenwerte. Ursprünglich war unser Ziel, eine Basis X von V zu finden, sodass X AX
= D = diag (λi )
(7.21)
eine Diagonalmatrix ist. Wegen (7.22) muss eine solche Basis X aus Eigenvektoren von A bestehen. Daher lässt sich A diagonalisieren, wenn es n linear unabhängige Eigenvektoren gibt. Damit es überhaupt welche gibt, muss es zunächst einmal Eigenwerte geben. Da diese die Nullstellen des charakteristischen Polynoms sind, ist die Existenz von Eigenwerten nach Theorem 1.25 jedenfalls dann sichergestellt, wenn K = C ist. Satz 7.9. Sei V ein n-dimensionaler K-Vektorraum und A ∈ L(V, V ). Dann gilt: a. Ist K = C, so besitzt A n nicht notwendig verschiedene Eigenwerte λi ∈ C. b. Eigenvektoren zu verschiedenen Eigenwerten sind linear unabhängig. c. Hat A n linear unabhängige Eigenvektoren xk und bilden wir X = {x1 , . . . , xn }, so gilt ⎞ ⎛ 0 λ1 ⎟ ⎜ .. X AX = D = ⎝ . ⎠ . 0
λn
Ist A eine beliebige Basis von V , so gilt A AA
≡ A = T DT −1 ,
wobei in der k-ten Spalte von T die Koordinaten des k-ten Eigenvektors xk bezüglich A stehen.
174
7 Lineare Abbildungen
Beweis. a. und c. sind nach der vorhergehenden Diskussion klar. b. Seien λ1 , . . . , λm verschiedene Eigenwerte von A mit zugehörigen Eigenvektoren x1 , . . . , xm , d. h. A(xi ) = λi xi , und es gelte
m
(7.29)
αi xi = 0 .
(7.30)
i=1
Anwendung von A auf (7.30) bzw. Multiplikation von (7.30) mit λ1 ergibt wegen (7.29) die beiden Gleichungen m
αi λi xi = 0 und
i=1
m
αi λ1 xi = 0 ,
i=1
und Subtraktion liefert m
αi (λi − λ1 )xi = 0 .
(7.31)
i=2
Anwendung von A auf (7.31) bzw. Multiplikation von (7.31) mit λ2 ergibt wegen (7.29) die beiden Gleichungen m
αi (λi − λ1 )λi xi = 0 ,
i=2
m
αi (λi − λ1 )λ2 xi = 0 ,
i=2
und Subtraktion liefert m
αi (λi − λ1 )(λi − λ2 )xi = 0 .
(7.32)
i=3
Setzen wir diesen Prozess fort, so ergibt sich im (m − 1)-ten Schritt αm−1 (λm−1 − λ1 ) · · · (λm−1 − λm−2 )xm−1 + +αm (λm − λ1 ) · · · (λm − λm−2 )xm = 0 .
(7.33)
Anwendung von A auf (7.33) bzw. Multiplikation von (7.33) mit λm−1 ergibt mit (7.29) zwei Gleichungen, deren Subtraktion die Gleichung αm (λm − λ1 ) · · · (λm − λm−2 )(λm − λm−1 ) = 0
(7.34)
ergibt. Da die λi verschieden sind, muss αm = 0 sein. Aus (7.33) folgt dann aber αm−1 = 0. Gehen wir dann sukzessive alle Gleichungen zurück, so bekommen wir αm = αm−1 = αm−2 = · · · = α1 = 0 , was wegen (7.30) die lineare Unabhängigkeit von x1 , · · · , xm zeigt.
D. Lineare Abbildungen im Prähilbertraum
175
Nach diesem Satz ist eine Matrix A auf jeden Fall diagonalisierbar, wenn A n verschiedene Eigenwerte hat. Diese Bedingung ist zwar hinreichend, aber nicht notwendig. Probleme treten auf, wenn λ eine mehrfache Nullstelle von p(λ) ist. Da die Eigenvektoren Lösungen des homogenen Systems (A − λE)X = 0 sind, ist die Anzahl l der zu λ gehörenden linear unabhängigen Eigenvektoren nach Satz 5.28c l = n − rg(A − λE) . (7.35) Man nennt dann die Vielfachheit k von λ als Nullstelle des charakteristischen Polynoms die algebraische Vielfachheit von λ und l die geometrische Vielfachheit von λ. Die geometrische Vielfachheit ist nie größer als die algebraische, wie man mit Hilfe des Kästchensatzes leicht nachweisen kann (Übung!). Ist nun für ein λl < k, so ist A nicht diagonalisierbar, weil A dann weniger als n linear unabhängige Eigenvektoren hat.
D. Lineare Abbildungen im Prähilbertraum Im folgenden sei H ein n-dimensionaler Prähilbertraum über C, A : H −→ H eine lineare Abbildung, E = {e1 , . . . , en } eine feste Orthonormalbasis von H, und sei n αik ei (7.36) A = (αik ) = E AE ∈ Cn×n mit A(ek ) = i=1
die Matrix von A bezüglich E. Multiplizieren wir (7.36) skalar mit ej , so folgt ? > αik ei = αik ej |ei = αjk , ej |A(ek ) = ej | i
i
d. h. es gilt αjk = ej |A(ek ) ,
j, k = 1, . . . , n .
∗
Wir definieren nun eine Abbildung A : H −→ H durch A(ei )|x ei für x ∈ H . A∗ (x) := i
Für x, y ∈ H, α, β ∈ C folgt dann A(ei )|αx + βy ei A∗ (αx + βy) = i = α A(ei )|x ei + β A(ei )|y ei i
= αA∗ (x) + βA∗ (y) ,
i
(7.37)
176
7 Lineare Abbildungen
d. h., dass A∗ eine lineare Abbildung ist. Ferner folgt > ? A(ei )|x ei |y A∗ (x)|y = i A(ei )|x ei |y = i = x|A(ei ) ei |y ? >i ei |y ei = x|A(y) . = x|A i
Schließlich gibt es nur eine Abbildung B, die B(x)|y = x|A(y)
∀ x, y ∈ H
erfüllt. Für beliebige x, y ergibt sich nämlich A∗ (x) − B(x)|y = A∗ (x)|y − B(x)|y = x|A(y) − x|A(y) = 0 . Wählt man hier speziell y = A∗ (x) − B(x), so folgt 0 = A∗ (x) − B(x)2 und damit B(x) = A∗ (x). Damit haben wir: Theorem 7.10. Sei H ein Prähilbertraum mit einer Orthonormalbasis E = {e1 , . . . , en }. Dann gilt für eine lineare Abbildung A : H −→ H: a. Ist A = (αik ) = E AE die Matrix von A bezüglich E, so sind die αik durch (7.37) gegeben. b. Es gibt genau eine Abbildung A∗ : H −→ H mit x|A(y) = A∗ (x)|y
∀ x, y ∈ H .
(7.38)
Diese nennt man die zu A adjungierte Abbildung. Sie hat die Matrix A∗ bezüglich E (vgl. 5.4). Ein völlig analoger Satz (mit analogem Beweis) gilt auch in reellen Prähilberträumen. Die Matrix zu der adjungierten Abbildung ist dabei einfach die transponierte Matrix AT zu der Matrix A der ursprünglichen Abbildung. Für das Adjungieren von Abbildungen und Matrizen gelten einfache Rechenregeln: Satz 7.11. a. Für A, B ∈ L(H, H), α, β ∈ C ist
und ∗ ∗
¯ ∗ ¯ A∗ + βB (αA + βB)∗ = α
(7.39)
(A ◦ B)∗ = B ∗ ◦ A∗
(7.40)
∗
sowie (A ) = A. Ist A bijektiv, so auch A , und dann gilt (A∗ )−1 = (A−1 )∗ .
(7.41)
D. Lineare Abbildungen im Prähilbertraum
177
b. Analoge Rechenregeln gelten für Matrizen. Beweis. Für alle x, y ∈ H ist nach (7.38) (B ∗ ◦ A∗ )(x)|y = A∗ (x)|B(y) = x|(A ◦ B)(x) , also erfüllt B ∗ ◦ A∗ die Forderung, die (A ◦ B)∗ festlegt. Daraus folgt (7.40), und (7.39) und A∗∗ = A werden genauso bewiesen. Ist A bijektiv, B := A−1 , so ist B ◦ A = A ◦ B = I, also nach (7.40) A∗ ◦ B ∗ = B ∗ ◦ A∗ = I ∗ = I , und daraus folgt (7.41). Analoge Regeln für Matrizen folgen, indem man lineare Abbildungen betrachtet, die bzgl. einer Orthonormalbasis durch diese Matrizen definiert werden. Besonders wichtig sind Abbildungen bzw. Matrizen, die bezüglich des Adjungierens ein einfaches Verhalten zeigen: Definitionen 7.12. Sei A : H −→ H eine lineare Abbildung, A ∈ Cn×n eine Matrix. a. A bzw. A heißt normal, wenn A ◦ A∗ = A∗ ◦ A
bzw. AA∗ = A∗ A .
(7.42)
b. A bzw. A heißt selbstadjungiert (oder Hermitesch), wenn A = A∗
bzw. A = A∗ .
(7.43)
Reelle Matrizen A mit AT = A heißen auch symmetrisch. c. A bzw. A heißt unitär (orthogonal für K = R), wenn A ◦ A∗ = I oder, äquivalent A∗ = A−1 A · A∗ = E oder, äquivalent A∗ = A−1 (AT = A−1 ) .
(7.44)
Ist A die Matrix zu A bezüglich einer Orthonormalbasis, so gilt: A normal
⇐⇒
A normal
und analog auch für die Begriffe „selbstadjungiert“, „unitär“ etc. Dies erkennt man sofort aus Theorem 7.10b – Wir halten noch fest, wie man einer Matrix ansieht, ob sie unitär (bzw. orthogonal) ist (Beweis als Übung!): Satz 7.13. Ist A = (aik ) ∈ Cn×n , so sind folgende Aussagen äquivalent: a. A ist unitär.
178
7 Lineare Abbildungen
b. Die Spaltenvektoren bilden eine Orthonormalbasis des Cn , d. h. n
aji ajk = δik .
j=1
c. Die Zeilenvektoren bilden eine Orthonormalbasis des C1×n , d. h. n
aij akj = δik .
j=1
Wir untersuchen nun das Eigenwertproblem für normale und selbstadjungierte Abbildungen bzw. Matrizen. Dazu benötigen wir noch den folgenden Grundbegriff: Definition 7.14. Sei V ein beliebiger K-Vektorraum und A ∈ L(V, V ). Ein (unter A) invarianter Unterraum ist ein linearer Unterraum U ⊆ V mit A(U ) ⊆ U . Mit A|U bezeichnen wir dann die Einschränkung von A auf U , aufgefasst als lineare Abbildung U → U . Das Auffinden invarianter Unterräume kann sehr wichtig sein, weil es erlaubt, Probleme über lineare Abbildungen in einfachere Teilprobleme zu zerlegen. In Prähilberträumen ist dabei die folgende Beobachtung hilfreich: Satz 7.15. Ist U ⊆ H ein linearer Teilraum des Prähilbertraums H und A eine beliebige lineare Abbildung H → H, so gilt U invariant unter A
⇐⇒
U ⊥ invariant unter A∗ .
Beweis. Sei u ∈ U , v ∈ U ⊥ . Dann gilt A(u) ∈ U und damit 0 = A(u)|v = u|A∗ (v), d. h. A∗ (v) ∈ U ⊥ . Wendet man dies auf A∗ statt A und U ⊥ statt U an, so folgt wegen A∗∗ = A und U ⊥⊥ = U (vgl. (6.24)) auch der Umkehrschluss. Theorem 7.16. Sei A : H −→ H eine normale Abbildung. a. Für ein 0 = x ∈ H gilt A(x) = λx
⇐⇒
A∗ (x) = λx ,
(7.45)
d. h. A und A∗ haben dieselben Eigenvektoren und zueinander konjugiert komplexe Eigenwerte. b. A besitzt eine Orthonormalbasis von Eigenvektoren. Insbesondere ist jede normale Matrix A unitärähnlich zu einer Diagonalmatrix mit den Eigenwerten in der Diagonalen, d. h. es gibt eine unitäre Matrix V ∈ Kn×n , sodass ⎞ ⎛ 0 λ1 ⎟ ⎜ V −1 AV ≡ V ∗ AV = D = ⎝ . . . ⎠ . 0
λn
D. Lineare Abbildungen im Prähilbertraum
179
Beweis. a. Da A normal ist, gilt (A − λI)x2 = (A − λI)∗ x2 = (A∗ − λI)x2 , woraus (7.45) folgt. b. Da H ein C-Vektorraum ist, hat A einen Eigenwert λ1 , d. h. A(e1 ) = λ1 e1 Nach a. gilt dann
mit e1 = 1 .
A∗ (e1 ) = λe1 ,
d. h. U1 = LH(e1 ) ist invariant unter A und A∗ . Nach Satz 7.15 ist dann auch U1⊥ invariant unter A und A∗ und A1 = A|U1⊥ : U1⊥ −→ U1⊥
ist normal .
Nun hat A1 einen Eigenwert λ2 ∈ C mit Eigenvektor e2 ∈ U1⊥ : A(e2 ) = λ2 e2 , A∗ (e2 ) = λ2 e2 , e2 = 1 , e1 |e2 = 0 . Also ist auch U2 = LH(e1 , e2 ) und U2⊥ invariant unter A und A∗ . Folglich ist A2 = A|U2⊥ : U2⊥ −→ U2⊥ eine normale Abbildung. Setzt man diesen Prozess fort, so bekommt man nach n-Schritten eine Orthonormalbasis aus Eigenvektoren. Zu einer normalen Matrix A bekommen wir insbesondere eine Orthonormalbasis {V 1 , . . . , V n } von H = Cn aus Eigenvektoren. Die Matrix V = (V 1 , . . . , V n ) mit den V k als Spalten ist dann nach 7.13 unitär, und sie diagonalisiert A. Die wichtigste Anwendung hiervon bezieht sich auf selbstadjungierte Abbildungen bzw. auf Hermite’sche (oder symmetrische) Matrizen: Satz 7.17. Sei A : H −→ H eine selbstadjungierte Abbildung bzw. A ∈ Cn×n eine Hermite’sche Matrix. a. Dann sind alle Eigenwerte λi reell und A ist unitärähnlich zu einer Diagonalmatrix. b. Eigenvektoren zu verschiedenen Eigenwerten sind stets zueinander orthogonal.
180
7 Lineare Abbildungen
Beweis. a. Wegen Satz 7.16 genügt es zu zeigen, dass die Eigenwerte reell sind. Gelte also A(x) = λx für x = 0 und A∗ = A . Dann folgt λ x|x = x|λx = x|A(x) = A(x)|x = λx|x = λ x|x . Also λ = λ, d. h. λ ∈ R. b. Seien λ = µ Eigenwerte und x = 0 = y entsprechende Eigenvektoren. Da λ, µ reell sind, folgt λ y|x = y|λx = y|A(x) = A(y)|x = µy|x = µ y|x , also (λ − µ) y|x = 0 und damit y|x = 0, wie behauptet.
Insbesondere lassen sich reelle symmetrische Matrizen diagonalisieren. Das geht aber sogar mit reellen Eigenvektoren, wie der folgende Satz zeigt: Korollar 7.18. Sei A eine selbstadjungierte Abbildung in H = Rn bzw. A ∈ Rn×n eine symmetrische Matrix. Dann hat Rn eine Orthonormalbasis, die aus Eigenvektoren von A besteht, und A ist orthogonalähnlich zu einer Diagonalmatrix mit den Eigenwerten in der Diagonalen. Es gibt also eine orthogonale Matrix S, für die S −1 AS = S T AS Diagonalgestalt hat. Solch eine Matrix S nennt man Hauptachsentransformation für A, und die Eigenvektoren nennt man Hauptachsen. Beim Beweis geht man genauso vor wie beim Beweis von 7.16c, aber mit H = Rn als Grundraum. Da die Eigenwerte jetzt sämtlich reell sind, erhalten wir bei jedem Schritt auch reelle Eigenvektoren und schließlich eine Orthonormalbasis von H, die aus solchen Eigenvektoren besteht. Die Transformationsmatrix S wird wieder aus den Eigenvektoren als Spalten gebildet.
E. Unitäre und orthogonale Gruppen Um euklidische und unitäre Räume besser zu verstehen, ist es wichtig, ihre Symmetriegruppen zu analysieren. Diese Gruppen bestehen aus orthogonalen bzw. unitären Abbildungen, und man fasst sie praktischerweise als Gruppen der entsprechenden Matrizen auf, mit denen wir die Abbildungen darstellen. Eine Menge G = ∅ von invertierbaren n × n – Matrizen (bzw. von bijektiven linearen Abbildungen Kn → Kn ) bildet nämlich bzgl. der Matrizenmultiplikation (bzw. der Komposition von Abbildungen) eine Gruppe, wenn gilt:
E. Unitäre und orthogonale Gruppen
A, B ∈ G
(G1)
=⇒
181
AB ∈ G
und A∈G
(G2)
=⇒
A−1 ∈ G .
Die Gruppenaxiome (vgl. 1.4a) sind dann trivialerweise erfüllt. Auf diese Weise entstehen klassische Gruppen, die wir jetzt kennenlernen werden. Zunächst jedoch eine Vorbereitung: Satz 7.19. Sei H ein n-dimensionaler Prähilbertraum, A : H −→ H eine unitäre Abbildung. Dann gilt: a. A ist isometrisch, d. h. A(x)|A(y) = x|y
für alle x, y ∈ H .
(7.46)
b. Ist U ⊆ H ein Unterraum, der invariant unter A ist, so ist auch U ⊥ invariant unter A. c. Die Eigenwerte λ von A liegen auf dem Einheitskreis, d. h. |λ| = 1 . Beweis. a.
A(x)|A(y) = x|(A∗ ◦ A)(y) = x|I(y) = x|y . ∗
−1
b. Sei A unitär, A = A A(U ) = U
. Dann ist A bijektiv. Also:
⇐⇒
A−1 (U ) = U
⇐⇒
A∗ (U ) = U
⇐⇒
A(U ⊥ ) = U ⊥
nach 7.15.
c. Aus A(x) = λx folgt wegen a: x = A(x) = λx = |λ| x , also: |λ| = 1 .
Satz 7.20. a. Die unitären Abbildungen A : H −→ H (Matrizen A ∈ Cn×n ) bilden eine Gruppe, die sog. unitäre Gruppe U(n). Die Teilmenge SU(n) = {A ∈ U(n)| det A = 1} ist ebenfalls eine Gruppe, die sog. spezielle unitäre Gruppe. b. Die orthogonalen Abbildungen A : H −→ H (K = R) bzw. Matrizen A ∈ Rn×n bilden die orthogonale Gruppe O(n) und die Teilmenge SO(n) = {A ∈ O(n)| det A = 1} ist die spezielle orthogonale Gruppe.
182
7 Lineare Abbildungen
Beweis. Es genügt a zu beweisen. Seien A, B ∈ U(n), C = AB. Dann folgt C ∗ = (AB)∗ = B ∗ A∗ = B −1 A−1 = (AB)−1 = C −1 , d. h. C ∈ U(n).
(A−1 )∗ = A∗∗ = A = (A−1 )−1 ,
d. h. A−1 ∈ U(n). Daher ist U(n) eine Gruppe. Sind A, B ∈ SU(n), so ist det A = det B = 1 und AB ∈ U(n) mit det(AB) = det A · det B = 1 , d. h. SU(n) ist eine Untergruppe.
Jetzt betrachten wir nur noch reelle orthogonale Matrizen. Satz 7.21. a. Die Gruppe O(n) zerfällt in zwei disjunkte Teile SO(n) = {A ∈ O(n)| det A = +1} O(n)− = {A ∈ O(n)| det A = −1} . b. Ist A ∈ SO(n) und n ungerade, so ist λ = 1 ein Eigenwert von A. c. Ist A ∈ O(n)− , so ist λ = −1 ein Eigenwert von A. Beweis. a.
Ist A ∈ O(n), d. h. AT A = E, so folgt mit 5.19b und 5.21 1 = det(AT A) = det AT · det A = (det A)2 , also det A = ±1 .
b./c. Sei zunächst A ∈ O(n). Dann betrachten wir das charakteristische Polynom von A: p(λ) = |A − λE| = |A − λAT A| = |(E − λAT )| |A| = |A| |E − λA| = λn |A| | λ1 E − A| = λn (−1)n |A| |A − λ1 E| . Also
1 p(λ) = λn (−1)n det(A)p( ) . λ Im Falle λ = 1 und A ∈ SO(n) folgt: p(1) = (−1)n p(1) ,
bei ungeradem n also p(1) = 0. Im Falle λ = −1, A ∈ O(n)− folgt p(−1) = (−1)n (−1)n (−1)p(−1) = −p(−1) , d. h. es gilt immer p(−1) = 0.
E. Unitäre und orthogonale Gruppen
183
Die Matrizen A ∈ SO(2) bewirken Drehungen im R2 um den Nullpunkt, d. h. Satz 7.22. Zu jedem A = (aij ) ∈ SO(2) gibt es ein α ∈ [0, 2π[, sodass cos α − sin α A= . sin α cos α Beweis. Für A = E ist α = 0, für A = −E ist α = π. Sei also A = ±E. Aus 7.13 folgen dann für n = 2 die drei Gleichungen (1)
a211 + a221 = 1 ,
(2)
a212 + a222 = 1
(3)
a11 a12 + a21 a22 = 0 .
und
Wegen (1) und (2) gibt es Winkel α, β ∈ [0, 2π[, sodass a11 = cos α ,
a21 = sin α ,
a12 = cos β ,
a22 = sin β .
Einsetzen in (3) ergibt: 0 = cos α cos β + sin α sin β = cos(α − β) , Somit
also β = α ±
π . 2
a12 = cos β = cos α ± π2 = ∓ sin α a22 = sin β = sin α ± π2 = ± cos α .
Damit haben wir die beiden Möglichkeiten cos α − sin α cos α sin α und . sin α cos α sin α − cos α Die rechte Matrix hat die Determinante −1, sodass für A ∈ SO(2) die Behauptung folgt. Die Matrizen A ∈ SO(3) repräsentieren Drehungen im R3 um eine Drehachse, d. h. es gilt: Satz 7.23. Zu jedem A ∈ SO(3) existiert eine Orthonormalbasis (u1 , u2 , u3 ) des R3 und ein α ∈ [0, 2π[, sodass A bezüglich dieser Basis die folgende Gestalt hat ⎛ ⎞ 1 0 0 A = ⎝0 cos α − sin α⎠ = Drehung um u1 . 0 sin α cos α Dabei ist der Drehwinkel α durch Spur A = 1 + 2 cos α bestimmt.
184
7 Lineare Abbildungen
Beweis. Wegen n = 3 und det A = 1 hat A den Eigenwert λ = 1 nach 7.21b, d. h. Au1 = u1 , u1 = 1 . Also lässt A den eindimensionalen Unterraum U1 = LH(u1 ) invariant und daher nach 7.19b auch U2 = U1⊥ . Wegen A|U2 ∈ SO(2)
folgt dann die Behauptung aus 7.22 und aus 7.6b Satz 7.24. Sei E = {e1 , e2 , e3 } die Standardbasis des R3 und ⎡ ⎤ 1 0 0 R1 (α) = ⎣0 cos α − sin α⎦ Drehung um e1 , 0 sin α cos α ⎡
⎤ cos β 0 sin β 1 0 ⎦ R2 (β) = ⎣ 0 − sin β 0 cos β ⎡ cos γ − sin γ R3 (γ) = ⎣ sin γ cos γ 0 0
⎤ 0 0⎦ 1
Drehung um e2 ,
Drehung um e3 .
Dann gilt: Zu jedem A ∈ SO(3) existieren sogenannte Euler’sche Winkel α, β, γ ∈ [0, 2π[, sodass A = R3 (γ) R2 (β) R1 (α) .
(7.47)
Beweis. Sei A ∈ SO(3) beliebig, A = Ri (α), da sonst alles klar ist. a. Sei v = (v1 , v2 , v3 ) ∈ R3 mit v2 = (v12 + v22 ) + v32 = 1 ,
|vj | ≤ 1
(7.48)
ein beliebiger Einheitsvektor. Dann zeigen wir im ersten Schritt: Es gibt β, γ ∈ [0, 2π[, sodass (7.49) v = R3 (γ) R2 (β)e1 . Wegen (7.48) gibt es ein β ∈ [0, 2π[ mit v3 = − sin β , v12 + v22 = cos β . Ist cos β = 0, d. h. v1 = v2 = 0, so wähle γ =
v1 cos β
2 +
v2 cos β
2
π 2.
(7.50)
Ist cos β = 0, so gilt
=1.
Ergänzungen
185
Daher gibt es ein γ ∈ [0, 2π[ mit v1 = cos γ cos β , Damit folgt dann
v2 = sin γ cos β .
(7.51)
⎡ ⎤ ⎡ ⎤ ⎤ c 0s cos β 1 R3 (γ)R2 (β)e1 = R3 (γ) ⎣ 0 1 0⎦ ⎣0⎦ = R3 (γ) ⎣ 0 ⎦ −s 0 c β 0 − sin β ⎤ ⎡ ⎡ ⎤ ⎡ ⎤ ⎤ ⎡ cos β cos γ cos β v1 c −s 0 = ⎣s c 0⎦ ⎣ 0 ⎦ = ⎣ sin γ cos β ⎦ = ⎣v2 ⎦ = v . v3 − sin β 0 0 1 γ − sin β ⎡
b. Für A ∈ SO(3) definieren wir nun v := A e1 .
(7.52)
Aus (7.49) folgt dann: Ae1 = R3 (γ)R2 (β)e1 ,
(R3 (γ)R2 (β))−1 Ae1 = e1 ,
d. h. B := (R3 (γ)R2 (β))−1 A hat e1 als Eigenvektor und hat daher nach 7.23 die Form R1 (α), d. h. R1 (α) = (R3 (γ)R2 (β))−1 A was gerade (7.47) beweist.
Ergänzungen zu §7 Zunächst wollen wir hier der irrigen Vorstellung entgegenwirken, dass „vernünftige“ lineare Abbildungen immer von Matrizen herrühren. Lineare Abbildungen zwischen unendlich dimensionalen Räumen (sog. lineare Operatoren) spielen in der Quantenphysik sogar eine ganz entscheidende Rolle. Weiter stellen wir ein paar einfache Begriffe und Tatsachen zusammen, die nicht schwer zu beweisen sind, deren Kenntnis aber für einen versierten Umgang mit dem Thema ausgesprochen nützlich ist. Wir ergänzen die Eigenwerttheorie aus Abschnitt C., die dort mit dem Problem der nicht diagonalisierbaren Matrizen sozusagen abgebrochen wurde, durch einen Bericht über die Jordan’sche Normalform, mit der die Frage nach der Struktur linearer Abbildungen zumindest für den Fall eines endlich dimensionalen C-Vektorraums vollständig geklärt wird. 7.25 Lineare Operatoren. Wir haben schon gesehen (vgl. 6.6b), dass in der Analysis oft Vektorräume auftreten, die aus Funktionen bestehen. Diese gestatten interessante lineare Abbildungen, die man meist als lineare Operatoren bezeichnet.
186
7 Lineare Abbildungen
Beispiele: a. Sei I = [a, b] ein kompaktes Intervall und V = C(I) der Vektorraum der stetigen Funktionen auf I. Eine lineare Abbildung J : V → R ist dann dadurch gegeben, dass man jeder stetigen Funktion f ihr Integral
b
f (t) dt
Jf := a
zuordnet. b. Nun sei I ein offenes Intervall. Der Ableitungs-Operator Df := f definiert dann für jedes k ∈ N0 eine lineare Abbildung D : C k+1 (I) −→ C k (I). c. Auf dem offenen Intervall I seien stetige Funktionen a0 , . . . , ak gegeben. Dann definiert man eine lineare Abbildung L : C k (I) → C 0 (I) durch Lf :=
k
aj f (k−j)
j=0
oder, ausführlicher geschrieben [Lf ](t) := a0 (t)f (k) (t) + a1 (t)f (k−1) (t) + · · · + ak−1 (t)f (t) + ak (t)f (t) (t ∈ I) . Man nennt L einen linearen Differenzialoperator mit den Koeffizienten aj (t), und k ist seine Ordnung, wenn a0 ≡ 0. Eine lineare Differenzialgleichung k-ter Ordnung kann dann als Operatorgleichung Ly = b geschrieben werden, wobei b ∈ C 0 (I) gegeben und y ∈ C k (I) gesucht ist. Für die Fälle k = 1, k = 2 haben wir diese Operatoren in Kap. 4 schon etwas untersucht. Insbesondere ist klar, dass der Lösungsraum der homogenen Differenzialgleichung Ly = 0 nichts anderes ist als der Kern der linearen Abbildung L. Das Superpositionsprinzip drückt also einfach die Tatsache aus, dass der Kern ein linearer Teilraum ist (Satz 7.2b). 7.26 Urbild eines Vektors. Sei A : V → W eine ganz beliebige lineare Abbildung, sei w ∈ W gegeben, und sei ein xp ∈ V bekannt, für das Axp = w ist. Dann ist Ax = w ⇐⇒ x − xp ∈ Kern A , wie man mittels der Linearität von A sofort nachrechnet. D. h. die allgemeine Lösung der Gleichung Ax = w ist x = xp +xh , wobei xh die allgemeine Lösung der entsprechenden homogenen Gleichung Ax = 0 darstellt. Spezialfälle dieser Aussage sind uns schon in 4.6c, 5.8d und 5.28d begegnet und werden uns noch öfter begegnen.
Ergänzungen
187
7.27 Injektiv = surjektiv = bijektiv bei Endomorphismen. Sei A ∈ L(V, V ) ein Endomorphismus eines endlich dimensionalen Vektorraums V . Sei n = dim V . Die Dimensionsformel (Theorem 7.3) ergibt rang A + defekt A = n und insbesondere rang A = n
⇐⇒
defekt A = 0 .
⇐⇒
Kern A = {0} ,
Wegen 6.5c bedeutet dies Bild A = V
und wegen Satz 7.2d bedeutet es weiter A injektiv
⇐⇒
A surjektiv .
Will man also zeigen, dass A ein Isomorphismus ist, so genügt schon der Nachweis der Surjektivität oder der Injektivität alleine. 7.28 Direkte Summen von Abbildungen. Ein Endomorphismus A ∈ L(V, V ) kann in einfachere Teile zerlegt werden, wenn V die direkte Summe von A-invarianten Teilräumen ist (vgl. 6.16, 6.23 und 7.14). Sei nämlich V = U1 ⊕ · · · ⊕ Um
(7.53)
eine direkte Zerlegung von V in A-invariante Unterräume Uν , und sei Aν ∈ L(Uν , Uν ) jeweils die Einschränkung von A auf Uν (ν = 1, . . . , m). Haben wir nun einen Vektor x ∈ V gemäß der direkten Zerlegung in seine Komponenten aufgespalten, ihn also in der Form x = u1 + · · · + um ,
u ν ∈ Uν
geschrieben, so ergibt sich wegen der Linearität von A A(x) =
m
Aν (uν ).
(7.54)
ν=1
Auf diese Art lässt sich A aus den einfacheren Abbildungen Aν zurückgewinnen. Man sagt, A sei die direkte Summe der Aν und schreibt A = A1 ⊕ · · · ⊕ Am =
m
n − p ,
d. h. r < p
(8.31)
ist, sodass es zu λ0 nur r linear unabhängige Eigenvektoren gibt. Um dennoch zu λ0 p linear unabhängige Lösungen zu bekommen, versuchen wir anstelle von (8.27) den Ansatz X(t) = eλ0 t (C0 + C1 t + · · · + Cp−1 tp−1 ) = eλ0 t
p−1
Ck tk .
(8.32)
k=0
Setzen wir diesen in (8.26) ein, so folgt ˙ X(t) = λ0 X(t) + eλ0 t (C1 + 2C2 t + · · · + (p − 1)Cp−1 tp−2 ) = eλ0 t ((λ0 C0 + C1 ) + (λ0 C1 + 2C2 )t + · · · +(λ0 Cp−2 + (p − 1)Cp−1 )tp−2 + λ0 Cp−1 tp−1 ) = eλ0 t (AC0 + tAC1 + · · · + tp−1 ACp−1 ) ≡ AX(t) . Durch Koeffizientenvergleich folgt ACp−1 = λ0 Cp−1
(A − λ0 E)Cp−1 = 0
ACp−2 = λ0 Cp−2 + (p − 1)Cp−1
(A − λ0 E)Cp−2 = (p − 1)Cp−1 ⇐⇒
...
...
AC1
= λ0 C1 + 2C2
(A − λ0 E)C1
= 2C2
AC0
= λ0 C0 + C1
(A − λ0 E)C0
= C1 .
Also C1 = (A − λ0 E)C0 , C2 = 12 (A − λ0 E)2 C0 , C3 = ...
, Ck =
1 k! (A
− λ0 E) C0 , (A − k
1 3 2·3 (A − λ0 E) C0 λ0 E)p C0 = 0 .
,
(8.33) Sind die Vektoren C0 , . . . , Cp−1 auf diese Weise bestimmt, so ergibt sich aus dem Ansatz (8.32) die Lösung p−1 tk λ0 t k X(t) = e (A − λ0 E) C0 , (8.34) k! k=0
wobei C0 = 0 eine Lösung des homogenen Systems (A − λ0 E)p C0 = 0
(8.35)
B. Homogene Differenzialgleichungssysteme mit konstanten Koeffizienten
205
ist. Dass es nun zu dem p-fachen Eigenwert λ0 tatsächlich p linear unabhängige Lösungen der Form (8.34) gibt, sichert der folgende Satz aus der linearen Algebra, den wir ohne Beweis akzeptieren (vgl. jedoch Ergänzung 8.9): Satz 8.5. Sei A ∈ Rn×n und seien λ1 , . . . , λs die verschiedenen Eigenwerte von A mit Vielfachheiten n1 , . . . , ns , d. h. P (λ) = det(A − λE) = (λ − λ1 )n1 · · · (λ − λs )ns . Dann gilt rg(A − λj E)nj = n − nj , d. h. das homogene Gleichungssystem (A − λj E)nj Cj = 0 hat nj linear unabhängige Lösungen Cjα , α = 1, . . . , nj . Im Falle eines reellen Eigenwertes λj der Vielfachheit nj bekommen wir mit 8.5 zu nj linear unabhängige Lösungen nj −1 tk α λj t k α = 1, . . . , nj . (8.36) (A − λj E) Cjα , Xj (t) = e k! k=0
Ist dagegen λj = αj + iβj ein nj -facher komplexer Eigenwert, so ist nach 1.26 auch λj = αj − iβj ein nj -facher Eigenwert und wir bekommen damit aus (8.36) 2nj komplexe Lösungen Xjα (t), Xjα (t). Um daraus reelle Lösungen zu gewinnen, betrachten wir wieder einen Eigenwert λ = α+iβ der Vielfachheit p. Sei dann C0 = U0 + iV0 eine Lösung von (A − λE) C0 = 0 und Ck = Uk + iVk := p
1 p k! (A − λE) C0
= 0.
Dann ist C 0 = U0 − iV0 eine Lösung von (A − λE) C 0 = 0 und C k = Uk − iVk = k = 1, . . . , p − 1. p
1 k! (A
− λE)k C 0 ,
Es gibt dann 2p komplexe Lösungen der Form Z(t) = eλt (C0 + tC1 + · · · + tp−1 Cp−1 ) = eαt (cos βt + i sin βt)((U0 + iV0 ) + (U1 + iV1 )t + · · · + + (Up−1 + iVp−1 )tp−1 ) = X(t) + iY (t) , Z(t) = X(t) − iY (t) ,
206
8 Lineare Differenzialgleichungssysteme
wobei dann 1 (Z(t) + Z(t)) 2 = eαt ((U0 + U1 t + · · · + Up−1 tp−1 ) cos βt
X(t) = Re (Z(t)) =
− (V0 + V1 t + · · · + Vp−1 tp−1 ) sin βt) , 1 (Z(t) − Z(t)) Y (t) = Im (Z(t)) = 2i = eαt ((U0 + U1 t + · · · + Up−1 tp−1 ) sin βt + (V0 + V1 t + · · · + Vp−1 tp−1 ) cos βt) nach dem Superpositionsprinzip in 8.2b die zugehörigen reellen Lösungen sind. Wir fassen zusammen: Theorem 8.6. Gegeben sei das homogene Differenzialgleichungssystem (8.26) mit gegebener konstanter Matrix A ∈ Rn×n , und es seien λ1 , . . . , λs ∈ C die verschiedenen Eigenwerte von A mit Vielfachheiten n1 , . . . , ns . Für jedes j = 1, . . . , s seien Cjα , α = 1, . . . , nj linear unabhängige Lösungen des homogenen Systems (8.37) (A − λj E)nj Cjα = 0 . Dann gilt a. Ist λj ein reeller Eigenwert, so gehören dazu die nj Lösungen nj −1 tk α λj t k Xj (t) = e (A − λj E) Cjα , α = 1, . . . , nj . k!
(8.38)
k=0
b. Ist λj = αj + iβj und damit auch λj = αj − iβj ein komplexer Eigenwert und ist 1 α = k! Re ((A − λj E)k Cjα ) , Uj,k (8.39) 1 α Vj,k = k! Im ((A − λj E)k Cjα ) (k = 0, 1, . . . , nj − 1), so gehören zu dem Paar (λj , λj ) die 2nj Lösungen n j −1 α k Uj,k t Xjα (t) = eαj t cos βj t · k=0
− sin βj t Yjα (t)
=e
αj t
sin βj t ·
n j −1
n j −1
α k Vj,k t
,
k=0
(8.40)
α k Uj,k t
k=0
+ cos βj t ·
n j −1
α k Vj,k t
.
k=0
c. Die Gesamtheit der Lösungen, die man für die verschiedenen Eigenwerte λj , j = 1, . . . , s, gemäß a. oder b bekommt, bildet ein Fundamentalsystem für (8.1).
C. Spezialfälle
207
C. Spezialfälle Zugegebenermaßen sieht Theorem 8.6 etwas kompliziert aus, aber es gibt uns ein vollständiges Rezept, wie man bei einem homogenen linearen System 1. Ordnung mit konstanten Koeffizienten zu einem Fundamentalsystem von Lösungen gelangen kann. Um die Anwendung des Theorems zu erleichtern, illustrieren wir es anhand diverser Spezialfälle: I. n = 2. Sei A ∈ R2×2 mit P (λ) = det(A − λE). a. P (λ) hat reelle Nullstellen λ1 = λ2 . Seien C1 , C2 ∈ R2 Eigenvektoren zu λ1 , λ2 . Dann ist ein Fundamentalsystem gegeben durch: X1 (t) = C1 eλ1 t ,
X2 (t) = C2 eλ2 t .
b. P (λ) hat eine reelle Nullstelle λ := λ1 = λ2 . rg(A − λE) = n − 2 = 0 =⇒ ∃ 2 linear unabhängige Eigenvektoren C1 , C2 zu λ =⇒ ein Fundamentalsystem ist gegeben durch: X1 (t) = C1 eλt , X2 (t) = C2 eλt , (ii) rg(A − λE) = n − 1 = 1 =⇒ (A − λE)2 C = 0 hat 2 linear unabhängige Lösungen C1 , C2 ∈ R2 =⇒ Fundamentalsystem: (i)
X1 (t) = eλt (C1 + (A − λE)C1 t) , X2 (t) = eλt (C2 + (A − λE)C2 t) . 0. Sind dann c. P (λ) hat komplexe Nullstellen λ1 = α + iβ = λ2 , β = C1 = U + iV , C2 = U − iV die Eigenvektoren zu λ1 , λ2 , so haben wir das reelle Fundamentalsystem X1 (t) = eαt (U cos βt − V sin βt) , X2 (t) = eαt (V cos βt + U sin βt) . II. n = 3. Sei A ∈ R3×3 mit P (λ) = det(A − λE). a. P (λ) hat 3 verschiedene reelle Nullstellen λ1 , λ2 , λ3 ∈ R mit zugehörigen Eigenvektoren C1 , C2 , C3 ∈ R3 . Fundamentalsystem: Xk (t) = Ck eλk t ,
k = 1, 2, 3 .
208
8 Lineare Differenzialgleichungssysteme
b. P (λ) hat 2 verschiedene reelle Nullstellen λ := λ1 = λ2 ,
µ := λ3 ,
λ = µ .
Seien C1 , C2 linear unabhängige Lösungen von (A − λE)2 C = 0 ,
k = 1, 2 ,
und sei C3 ein Eigenvektor zu λ3 = µ, d. h. (A − µE)C3 = 0 . Fundamentalsystem: X1 (t) = eλt (C1 + t(A − λE)C1 ) , X2 (t) = eλt (C2 + t(A − λE)C2 ) , X3 (t) = eµt C3 . c. P (λ) hat 3-fache reelle Nullstellen λ := λ1 = λ2 = λ3 . Seien C1 , C2 , C3 linear unabhängige Lösungen von (A − λE)3 C = 0 . Fundamentalsystem: Xk (t) = eλt (Ck + t(A − λE)Ck +
t2 (A − λE)2 Ck ) 2
k = 1, 2, 3 .
d. P (λ) hat Nullstellen λ := λ1 ∈ R, µ = α ± iβ ∈ C, β = 0. Sei C ∈ R3 Eigenvektor zu λ, D := U + iV ∈ C3 Eigenvektor zu µ ∈ C. Fundamentalsystem: X1 (t) = Ceλt , X2 (t) = eαt (U cos βt − V sin βt) , X3 (t) = eαt (V cos βt + U sin βt) . III. n = 4 Sei A ∈ R4×4 , P (λ) = det(A − λE). Es gibt 8 Fälle, von denen aber nur einer etwas Neues bringt: λ = λ1 = λ2 = α + iβ ∈ C, λ = λ3 = λ4 = α − iβ ∈ C, β = 0. Seien C1 , C2 ∈ C4 linear unabhängige Lösungen von (A − λE)2 C = 0 . Sei
Ck = Uk + iVk , =k = U =k + iV=k = (A − λE)Ck , C
k = 1, 2 .
Ergänzungen
209
Fundamentalsystem:
=1 ) cos βt − (V1 + tV=1 ) sin βt X1 (t) = eαt (U1 + tU =1 ) sin βt X2 (t) = eαt (V1 + tV=1 ) cos βt + (U1 + tU =2 ) cos βt − (V2 + tV=2 ) sin βt X3 (t) = eαt (U2 + tU =2 ) sin βt X4 (t) = eαt (V2 + tV=2 ) cos βt + (U2 + tU
, , , .
Ergänzungen zu §8 Wir wollen einen besonders einfachen Typ von Systemen 2. Ordnung besprechen, der in der Theorie der gekoppelten Schwingungen vorkommt und der mithilfe der Hauptachsentransformation für symmetrische Matrizen sozusagen auf einen Schlag erledigt werden kann. Ferner berichten wir, was die hier dargestellte Theorie bei Anwendung auf skalare lineare Differenzialgleichungen höherer Ordnung liefert und erhalten so auch einen allgemeineren Rahmen, in dem die Ergebnisse aus Kap. 4 über lineare Differenzialgleichungen 2. Ordnung Platz finden. Für die ganz Neugierigen unter Ihnen geben wir schließlich einen vollständigen Beweis von Satz 8.5 und damit auch einen kleinen Einblick in die Denkweise der höheren Algebra. 8.7 Gekoppelte Schwingungen. In der Physik spricht man von „kleinen Schwingungen“, wenn die Rückstellkraft als lineare Funktion der Auslenkung angesetzt wird (weil dies i. Allg. nur bei kleinen Amplituden eine brauchbare Näherung darstellt). Ist nun ein System aus n miteinander gekoppelten schwingungsfähigen Teilsystemen zusammengesetzt, so ergibt dieser lineare Ansatz als Bewegungsgleichung für das Gesamtsystem x ¨ = Ax
(8.41)
mit einer konstanten symmetrischen Matrix A ∈ Rn×n . Die Reduktion dieses Systems 2. Ordnung auf ein doppelt so großes System 1. Ordnung erweist sich als unpraktisch. Vielmehr löst man (8.41) direkt durch Hauptachsentransformation (vgl. 7.18). Sind nämlich λ1 , . . . , λn die (mit Vielfachheit gezählten) Eigenwerte von A, so kann man sich durch Lösen der Gleichungssysteme (A − λk E)X = 0 und (bei Auftreten mehrfacher Eigenwerte) Anwendung des im Beweis von 6.14b beschriebenen Orthogonalisierungsverfahrens eine Orthonormalbasis aus reellen Eigenvektoren C 1 , . . . , C n beschaffen. Für die orthogonale Matrix S = (C 1 , . . . , C n ) gilt dann S −1 AS = D = diag(λ1 , . . . , λn ), also A = SDS −1 = SDS T . Multiplikation von (8.41) mit S T ergibt daher für Y := S T X das äquivalente System Y¨ = DY . (8.42)
210
8 Lineare Differenzialgleichungssysteme
Weil D Diagonalgestalt hat, ist (8.42) völlig „entkoppelt“, d. h. es besteht aus den skalaren Gleichungen y¨k = λk yk
(k = 1, . . . , n)
mit den bekannten Lösungen √ √ yk (t) = bk cos −λk t + ck sin −λk t , falls λk < 0 , yk (t) = bk + ck t√, falls λk = 0 , √ yk (t) = bk cosh λk t + ck sinh λk t , falls λk > 0 mit reellen Konstanten bk , ck . Die Lösungen von (8.41) ergeben sich nun als X(t) = SY (t), wo Y (t) = (y1 (t), . . . , yn (t))T Lösung von (8.42) ist. Man erkennt hieran, dass das System nur im Fall, wo alle Eigenwerte von A negativ sind, wirklich schwingt. Die Lösungen, die λk ≥ 0 entsprechen, sind (mit Ausnahme der Konstanten) für t → ∞ unphysikalisch. Symmetrische Matrizen mit lauter negativen Eigenwerten nennt man negativ definit. 8.8 Lineare Differenzialgleichungen n-ter Ordnung. Die Ergebnisse dieses Kapitels lassen sich leicht auch auf Differenzialgleichungen (8.5) höherer Ordnung anwenden, indem man sie durch die Transformation (8.6) in das äquivalente System (8.7) überführt. Details hierüber kann man in jedem Lehrbuch über gewöhnliche Differenzialgleichungen nachlesen (z. B. in Walter [39]). Hier eine Zusammenstellung der wichtigsten Fakten, die sich so ergeben: Gegeben seien stetige Funktionen a0 , a1 , . . . , an−1 und f auf dem offenen Intervall I. Die entsprechende Differenzialgleichung (8.5) schreiben wir wie in 7.25 als Operatorgleichung Ly = f (8.43) mit dem Differenzialoperator Ly := y (n) + an−1 y (n−1) + · · · + a1 y + a0 y . Es gilt: a. Der Lösungsraum Kern L der homogenen Differenzialgleichung hat die Dimension n. Für festes t0 ∈ I ist nämlich die Abbildung, die jedem y ∈ Kern L den Vektor (n−1) y(t0 ), y (t0 ), . . . , y (t0 ) ∈ Rn zuordnet, ein Isomorphismus. Mit anderen Worten: Zu jedem Y = (η1 , . . . , ηn ) ∈ Rn gibt es eine eindeutige Lösung y der homogenen Gleichung, die die Anfangsbedingungen y(t0 ) = η1 , y (t0 ) = η2 , . . . , y (n−1) (t0 ) = ηn erfüllt.
Ergänzungen
211
b. Für Funktionen y1 , . . . , yn ∈ Kern L erfüllt die Wronski-Determinante y1 (t) ... yn (t) y1 (t) ... yn (t) W (t) := .. .. . . (n−1) (n−1) y (t) . . . yn (t) 1 die Liouville’sche Gleichung t W (t) = W (t0 ) exp − an−1 (s) ds .
(8.44)
t0
Deswegen hat W (t) keine Nullstelle, oder W (t) verschwindet identisch. Die Funktionen y1 , . . . , yn bilden ein Fundamentalsystem von Lösungen der homogenen Gleichung Ly = 0, d. h. eine Basis von Kern L genau dann, wenn W (t) = 0. c. Sei {y1 , . . . , yn } ein Fundamentalsystem von Lösungen der homogenen Gleichung. Die Formel (8.25) für die Lösungen eines inhomogenen Systems lässt sich dann mithilfe der Cramer’schen Regel auswerten, und das ergibt für die allgemeine Lösung von (8.43): y(t) =
n k=1
yk (t) ck + (−1)n+k
t
t0
Wk (s) f (s) ds . W (s)
(8.45)
Dabei sind die Wk (s) Determinanten, die aus der Wronski-Determinante durch Streichen der k-ten Spalte und der n-ten Zeile entstehen, und die ck sind willkürliche Konstanten, die durch Anfangsbedingungen festgelegt werden können. Haben wir konstante Koeffizienten a0 , a1 , . . . , an−1 , so ist die Matrix ⎡ ⎤ 0 1 0 0 ··· 0 0 ⎢ 0 0 1 0 ··· 0 0 ⎥ ⎢ ⎥ ⎢ 0 0 0 1 ··· 0 0 ⎥ ⎢ ⎥ A=⎢ . .. ⎥ .. ⎢ .. . . ⎥ ⎢ ⎥ ⎣ 0 0 0 0 ··· 0 1 ⎦ −a0 −a1 −a2 −a3 · · · −an−2 −an−1 des äquivalenten Systems 1. Ordnung die sog. Begleitmatrix des Polynoms P (λ) = λn + an−1 λn−1 + · · · + a1 λ + a0 . Das charakteristische Polynom von A ist (−1)n P (λ), wie man durch Entwickeln nach der letzten Zeile feststellt. Ein Fundamentalsystem von Lösungen der Differenzialgleichung Ly = 0 lässt sich nun folgendermaßen konstruieren:
212
8 Lineare Differenzialgleichungssysteme
Es seien λ1 , . . . , λs die verschiedenen Nullstellen von P (λ) und n1 , . . . , ns ihre Vielfachheiten. Die Funktionen yν,k (t) := tk−1 eλν t ,
k = 1, . . . , nν ; ν = 1, . . . , s
bilden dann ein Fundamentalsystem. Sind die Koeffizienten a0 , . . . , an−1 reell und suchen wir ein reelles Fundamentalsystem, so bilden wir die yν,k nur für die reellen Nullstellen λ1 , . . . , λs . Diese sind dann linear unabhängige reelle ¯ 1 , . . . , µr , µ ¯r die Paare nicht reeller Nullstellen Lösungen. Weiter seien µ1 , µ von P , also µν = αν + iβν , βν = 0 , ν = 1, . . . , r , und n1 , . . . , nr seien ihre Vielfachheiten. Dann sind weitere linear unabhängige Lösungen gegeben durch uν,k (t) := tk−1 eαν t cos βν t , vν,k (t) := tk−1 eαν t sin βν t ,
k = 1, . . . , nν ; ν = 1, . . . , r .
Zusammen bilden alle diese Lösungen ein Fundamentalsystem. 8.9 Beweis von Satz 8.5. Aus der Jordan’schen Normalform von A (vgl. 7.29) kann man diesen Satz eigentlich leicht ablesen. Wir wollen hier aber einen direkten Beweis vorführen, der auch so etwas wie einen ersten Schritt auf dem Wege zur Jordan’schen Normalform darstellt. Der einfacheren Notation halber unterscheiden wir nicht zwischen einer Matrix B ∈ Cn×n und der linearen Abbildung B : Cn → Cn , die die Vektoren aus Cn = Cn×1 von links mit B multipliziert. Es ist also z. B. Kern B = {X ∈ Cn |BX = 0}. Wir können Satz 8.5 damit folgendermaßen formulieren: Behauptung. Sei µ ∈ C ein Eigenwert der Matrix A mit algebraischer Vielfachheit m. Dann ist dim Kern (A − µE)m = m .
(8.46)
Beweis. Für jedes j ∈ N betrachten wir die folgenden Unterräume von Cn : Uj := Kern (A − µE)j ,
Vj := Bild (A − µE)j .
Aus den Definitionen dieser Unterräume ergibt sich sofort, dass für jedes j gilt: Uj ⊆ Uj+1 , Vj ⊇ Vj+1 und damit dim Uj ≤ dim Uj+1 ,
dim Vj ≥ dim Vj+1 .
Aber die Dimensionen sind nach oben durch n und nach unten durch 0 beschränkt. Also muss eine Zahl q existieren, für die gilt:
Ergänzungen
dim Uq+j = dim Uq
und
dim Vq+j = dim Vq
213
∀j ≥ 0 .
Nach Satz 6.5c gilt dann auch: Uq+j = Uq
∀j ≥ 0
(8.47)
Vq+j = Vq
∀j ≥ 0 .
(8.48)
und Wir setzen N := Uq und M := Vq . Diese Räume sind das Hauptwerkzeug des Beweises und sie spielen auch sonst in der Normalformentheorie eine bedeutende Rolle. Man nennt N den verallgemeinerten Eigenraum oder den Hauptraum zum Eigenwert µ. Aus den Definitionen von M und N folgt sofort, dass beide Räume unter A − µE invariant sind, also auch unter A (denn unter µE ist ja jeder lineare Teilraum invariant). Wir haben also die Einschränkungen A0 := A|N ∈ L(N, N ) ,
A1 := A|M ∈ L(M, M ) .
Ferner gilt: Cn = N ⊕ M .
(8.49)
Um dies zu beweisen, verwenden wir die Charakterisierung einer direkten Zerlegung aus 6.23. Wir haben also zu zeigen, dass Cn = N + M und N ∩ M = {0}. Nun ist aber A1 − µE : M → M surjektiv nach Definition von M = Vq = Vq+1 . Damit ist A1 − µE sogar bijektiv (vgl. 7.27), und folglich ist auch (A1 − µE)q : M → M bijektiv. Andererseits ist (A0 − µE)q = 0 nach Definition von N = Uq . Wir haben daher: =⇒
X ∈M ∩N (A1 − µE)q X = 0
=⇒ =⇒
(A0 − µE)q X = 0 X =0,
also tatsächlich M ∩ N = {0}. Für beliebiges X ∈ Cn ist nun (A − µE)q X ∈ Vq = M , hat also unter der Bijektion (A1 − µE)q ein Urbild Y ∈ M . Dann ist (A − µE)q (X − Y ) = (A − µE)q X − (A − µE)q Y = 0, also X − Y ∈ Kern (A − µE)q = N . Somit haben wir X in die Komponenten Y ∈ M und Z := X − Y ∈ N zerlegt, und (8.49) ist bewiesen. Wegen der Invarianz von M und N heißt dies, dass A = A0 ⊕ A1 im Sinne von 7.28, und wegen des dortigen Satzes folgt pA (λ) = pA0 (λ)pA1 (λ)
(8.50)
für die entsprechenden charakteristischen Polynome. Nun ist aber µ der einzige Eigenwert von A0 . Ist nämlich A0 X = λX für ein λ ∈ C und ein 0 = X ∈ N , so folgt 0 = (A − µE)q X = (λ − µ)q X, also λ = µ. Daher ist pA0 (λ) = (µ − λ)d
mit
d := dim N .
Andererseits ist µ kein Eigenwert von A1 , denn wenn A1 X = µX ist für ein X ∈ M , so folgt (A1 − µE)X = 0, also X = 0, weil A1 − µE auf M injektiv
214
8 Lineare Differenzialgleichungssysteme
ist. Daher ist pA1 (µ) = 0. Aus (8.50) und der Definition der algebraischen Vielfachheit folgt also d = m. Wir werden nun zeigen, dass N = Um ,
(8.51)
woraus dann die Behauptung (8.46) folgt. Dazu betrachten wir die kleinste Zahl j, für die Uj = Uj+1 ist, und nennen sie q0 . Für j < q0 muss sich dann die Dimension beim Übergang von Uj zu Uj+1 stets um mindestens 1 erhöhen (vgl. 6.5c). Daher ist dim Uq0 ≥ q0 . Nun gilt aber (8.47) schon für q = q0 , wie man durch Induktion nach j nachweist. Der Induktionsanfang ist klar nach Definition von q0 , und wenn Uq+j = Uq+j+1 ist und wir betrachten ein X ∈ Uq+j+2 , so haben wir für Y := (A − µE)X (A − µE)q+j+1 Y = (A − µE)q+j+2 X = 0 =⇒ =⇒ (A − µE)q+j+1 X = (A − µE)q+j Y = 0
Y ∈ Uq+j+1 = Uq+j =⇒ X ∈ Uq+j+1
und somit Uq+j+2 = Uq+j+1 , wie gewünscht. Aus der Gültigkeit von (8.47) für q = q0 folgt N = Uq = Uq0 , also auch m = dim N = dim Uq0 ≥ q0 und somit Um = Uq0 = N , d. h. (8.51) ist bewiesen.
Aufgaben zu §8 8.1. Man bestimme die Lösungen der folgenden Anfangswertaufgaben: a. x˙ 1 = 2x1 + 4x2 ,
x1 (0) = 1
x˙ 2 = 5x1 + x2
x2 (0) = 1 .
,
b. x˙ 1 = x1 + 5x2 ,
x1 (0) = 2
x˙ 2 = 3x1 + 3x2 ,
x2 (0) = 3 .
8.2. Für die folgenden Differenzialgleichungs-Systeme sei jeweils die Anfangsbedingung: x1 (0) = 1 , x2 (0) = 2 , x3 (0) = 3 vorgegeben. Man bestimme die eindeutige Lösung der Anfangswertaufgaben für das zugehörige Differenzialgleichungs-System: a. x˙ 1 = 2x1 + 9x2 + 3x3 x˙ 2 = x1 + 2x2 x˙ 3 = x3 .
Aufgaben
215
b. x˙ 1 = 2x1 + 3x2 + 4x3 x˙ 2 = 2x2 − x3 x˙ 3 = 3x3 . c. x˙ 1 = x1 x˙ 2 = 2x1 + x2 − 2x3 x˙ 3 = 3x1 + 2x2 + x3 . 8.3. Man bestimme die allgemeine Lösung des inhomogenen Differenzialgleichungs-Systems x˙ 1 = x1 + 3x2 + t x˙ 2 = x1 − x2 + 1 und zwar a. mit der Methode der Variation der Konstanten, b. mit der Methode der unbestimmten Koeffizienten, d. h. mit dem Ansatz x1 (t) = a + bt ,
x2 (t) = c + dt
(analog zu 4.11, 4.12). 8.4. a. Sei Y ∈ Rn×n eine reguläre Matrix. Angenommen, sie lässt sich durch eine C 1 -Kurve von regulären Matrizen mit der Einheitsmatrix verbinden, d. h. es gibt eine (komponentenweise) stetig differenzierbare Funktion Φ : [0, 1] −→ Rn×n mit Φ(0) = E und Φ(1) = Y , bei der jedes Φ(t) regulär ist (0 ≤ t ≤ 1). Man zeige, dass dann
1
det Y = exp
−1 ˙ Spur Φ(s)Φ(s) ds .
(8.52)
0
(Hinweis: (8.21) verwenden!) b. Man folgere: 1 −1 Spur B(E + sB) ds , det(E + B) = exp
(8.53)
0
falls E + sB für 0 ≤ s ≤ 1 immer regulär ist. c. Gleichung (8.53) gilt insbesondere unter einer der folgenden Voraussetzungen: (i) B ist symmetrisch und positiv semidefinit (vgl. Aufg. 7.18), oder (ii) für eine gewisse Norm auf Rn (es muss nicht die euklidische sein!) gilt: Bx < x
für alle x = 0 .
Teil III
Analysis in mehreren reellen Variablen
9 Differenziation in Rn
Funktionen einer reellen Variablen reichen für die Bedürfnisse der Physik keineswegs aus. Ein Kraftfeld z. B. wird durch eine vektorwertige Funktion von drei räumlichen und einer zeitlichen Variablen beschrieben, und die potenzielle Energie eines Systems von N -Teilchen in einem solchen Kraftfeld ist eine skalare Funktion von n = 3N + 1 Variablen. Theorie und Methodik der Differenziation und Integration von Funktionen mehrerer reeller Variablen gehören daher zum unverzichtbaren mathematischen Rüstzeug des Physikers und sie bilden das Thema dieses und der nächsten drei Kapitel. Mathematisch gesehen, stellen sie eine reizvolle Kombination von Analysis und linearer Algebra dar. Bevor wir uns wirklich den Funktionen mehrerer Variabler zuwenden, befassen wir uns allerdings noch einmal mit den vektorwertigen Funktionen einer Variablen. Diese wurden natürlich schon im vorigen Kapitel als Lösungsfunktionen von Systemen von Differenzialgleichungen diskutiert, doch betrachten wir sie nun unter einem stärker geometrischen Gesichtspunkt.
A. Kurven in Rn Im Folgenden betrachten wir Vektorfunktionen ⎞ ⎛ f1 (t) ⎟ ⎜ F = F (t) = ⎝ ... ⎠ ≡ (f1 (t), . . . , fn (t))T
aus R in Rn .
fn (t) Definitionen 9.1. Wir betrachten F : [a, b] −→ Rn mit F (t) = (f1 (t), . . . , fn (t))T . a. Ein Vektor Y = (y1 , . . . , yn )T ∈ Rn ist der Limes oder Grenzwert Y = lim F (t) , t→t0
220
9 Differenziation in Rn
wenn yk = lim fk (t) t→t0
für
k = 1, . . . , n .
F heißt stetig im Punkt t0 ∈ [a, b], wenn F (t0 ) = lim F (t) gilt. Stetigkeit t→t0
in [a, b] bedeutet wieder Stetigkeit in jedem Punkt von [a, b]. b. F heißt differenzierbar in t0 ∈ ]a, b[, wenn die Ableitung von F in t0 , also der Grenzwert ⎛ ⎞ f1 (t0 ) F (t0 + h) − F (t0 ) ⎜ ⎟ F (t0 ) = lim = ⎝ ... ⎠ (9.1) h−→0 h fn (t0 ) existiert. F heißt differenzierbar in [a, b], wenn F in jedem Punkt t0 ∈ [a, b] differenzierbar ist. Vektorfunktionen werden also komponentenweise differenziert. Aus 2.18 bekommen wir dann sofort die folgenden Rechenregeln: Satz 9.2. Seien F, G : I −→ Rn differenzierbare Vektorfunktionen, ϕ : I −→ R eine differenzierbare Funktion, λ ∈ R. Dann: a. F + G : I −→ Rn , λF : I −→ Rn und ϕF : I −→ Rn sind differenzierbar mit (9.2) (F + G) (t) = F (t) + G (t) , (λF ) (t) = λF (t) ,
(9.3)
(ϕF ) (t) = ϕ (t)F (t) + ϕ(t)F (t) .
(9.4)
b. F |G : I −→ R und F × G : I −→ R3 sind differenzierbar mit F |G (t) = F |G(t) + F |G (t) ,
(9.5)
(F × G) (t) = F (t) × G(t) + F (t) × G (t) .
(9.6)
c. Ist α : J −→ I differenzierbar in J, so ist die Komposition (F ◦ α)(t) = F (α(t)) differenzierbar mit (F ◦ α) (t) = α (t) · F (α(t)) .
(9.7)
Die Wertebereiche von stetigen Vektorfunktionen F aus R in Rn sind Kurven im Rn . Beispiele: a. Sind A, P ∈ Rn feste Punkte, so ist das Bild der Vektorfunktion X = F (t) := P + tA , ein Geradenstück im Rn .
t 1 ≤ t ≤ t2
A. Kurven in Rn
b. Im R2 ist das Bild der Vektorfunktion cos t X = F (t) = , sin t
221
0≤t≤π
ein Halbkreisbogen vom Radius 1 um (0, 0). c. Im R3 ist das Bild der Vektorfunktion ⎛ ⎞ cos t X = F (t) = ⎝ sin t ⎠ , t
t∈R
eine Schraubenlinie, die auf einem Kreiszylinder vom Radius 1 um die x3 -Achse aufgewickelt ist. Wir führen folgende Bezeichnungen ein: Definitionen 9.3. Sei I = [a, b] ⊆ R und F : [a, b] −→ Rn eine Vektorfunktion. Dann heißt das Bild Γ = F ([a, b]) ⊆ Rn eine orientierte • • •
stetige Kurve, falls F stetig ist, glatte Kurve, falls F stetig differenzierbar ist, reguläre Kurve, falls F ∈ C 1 (I) und falls F (t) = 0 für alle t ∈ I
mit Anfangspunkt A = F (a), Endpunkt B = F (b). Man nennt F eine Parameterdarstellung von Γ und schreibt Γ : X = F (t) ,
a≤t≤b.
Ist F (t1 ) = F (t2 ) für a < t1 < t2 ≤ b und auch für a ≤ t1 < t2 < b, so heißt Γ eine Jordan-Kurve und zwar offen, wenn A = B, geschlossen, wenn A = B. Eine Kurve Γ ⊂ Rn kann viele Parameterdarstellungen haben. Beispiel: Die Vektorfunktionen t , 0≤t≤1, F1 (t) = t
F2 (t) =
sin t , sin t
0≤t≤
π 2
beschreiben beide die Strecke von (0, 0) nach (1, 1), etwa Γ + . Dagegen beschreiben die Vektorfunktionen π 1−t cos t , 0 ≤ t ≤ 1 , F4 (t) = , 0≤t≤ , F3 (t) = 1−t cos t 2 die entgegengesetzt orientierte Kurve Γ − von (1, 1) nach (0, 0). Γ + von A nach B und Γ − von B nach A sind als orientierte Kurven verschieden, obwohl sie als Punktmengen im Rn übereinstimmen. Wir definieren daher:
222
9 Differenziation in Rn
Definition 9.4. Zwei C 1 -Vektorfunktionen F : [a, b] −→ Rn und G : [c, d] −→ Rn sind genau dann Parameterdarstellungen derselben orientierten Kurve Γ ⊆ Rn , wenn es eine bijektive C 1 -Abbildung α : [c, d] −→ [a, b] mit α (s) > 0, c ≤ s ≤ d gibt, sodass F (α(s)) = G(s) ,
c≤s≤d.
Wir können jetzt auch die Ableitung einer Vektorfunktion geometrisch deuten. Wie man in Abb. 9.1 sieht, ist F (t) = lim h−→0
1 (F (t + h) − F (t)) h
gerade das, was man sich unter dem Tangentenvektor an Γ im Punkt F (t) vorstellt. Definitionen 9.5. Sei Γ : X = F (t), a ≤ t ≤ b, eine glatte, reguläre Kurve im Rn . Dann heißt F (t) Tangenten- oder Geschwindigkeitsvektor , der Betrag der Geschwindigkeit , v(t) := F (t) T (t) :=
F (t) F (t)
der Tangenteneinheitsvektor
an Γ im Kurvenpunkt F (t). Man überlegt sich mittels 9.2c sofort, dass der Tangenteneinheitsvektor unabhängig von der Parameterdarstellung ist.
Abb. 9.1. Tangentenvektor als Limes von Differenzenquotienten
B. Partielle Ableitungen
223
Wir wissen, dass manche Kurven Γ in der Ebene R2 als Graph einer Funktion Γ : y = f (x) , a≤x≤b, d. h. in sogenannter expliziter Darstellung, beschrieben werden können. Daraus kann man immer eine Parameterdarstellung machen: x t Γ :X= = F (t) := , a≤t≤b. y f (t) Ist f ∈ C 1 ([a, b]), so folgt aus 9.5 1 F (t) = , f (t)
F (t) =
1 + f (t)2 .
Wählen wir wieder x anstelle von t als Variable, so haben wir: Satz 9.6. Sei Γ : y = f (x), a ≤ x ≤ b, eine glatte, explizite Kurve im R2 . Dann gilt für den Tangenteneinheitsvektor an Γ im Kurvenpunkt (x, f (x)): 1 1 T (x) =
, 1 + f (x)2 f (x) d. h. eine explizite Kurve ist immer regulär. Da F (t) der Betrag der Geschwindigkeit ist, definiert man Definition 9.7. Für eine glatte parametrisierte Kurve Γ : X = F (t), a ≤ t ≤ b heißt b F (t)dt L(Γ ) = a
die Länge (oder Bogenlänge) von Γ . Der Ausdruck F (t)dt wird als das skalare Bogenelement auf Γ bezeichnet. Wieder rechnet man mittels 9.2c nach, dass die Bogenlänge nicht von der gewählten Parameterdarstellung abhängt. Für eine explizite Kurve Γ : y = f (x), a ≤ x ≤ b gilt offenbar L(Γ ) =
b
1 + f (x)2 dx .
(9.8)
a
B. Partielle Ableitungen Im Folgenden betrachten wir die Differentiation von Funktionen aus Rn in den Rm . Dabei sind wir genötigt, die Entfernung zwischen zwei Punkten x, y ∈ Rn
224
9 Differenziation in Rn
zahlenmäßig anzugeben, und zu diesem Zweck legen wir uns auf eine Norm · auf Rn fest (vgl. 6B.). Der Abstand zwischen x und y ist dann x − y. Später werden wir sehen, dass es eigentlich gar nicht darauf ankommt, welche Norm man hier nimmt, und wir wählen die durch x :=
n
1/2 x2k
k=1
gegebene euklidische Norm, weil sie dem physikalisch gemessenen Abstand entspricht. Damit definieren wir die offene Kugel vom Radius r um den Punkt a ∈ Rn durch Ur (a) := {x ∈ Rn | x − a < r} . Als Definitionsbereiche für Funktionen, die man differenzieren möchte, sind ganz beliebige Teilmengen von Rn nicht geeignet. Gute Definitionsbereiche sind Gebiete und deren Abschlüsse, und diese Begriffe führen wir jetzt ein: Definitionen 9.8. a. Eine Teilmenge Ω ⊆ Rn heißt ein Gebiet, wenn Ω offen und zusammenhängend ist, d. h. um jeden Punkt x ∈ Ω gibt es eine offene Kugel Uε (x) ⊆ Ω und je zwei Punkte x1 , x2 ∈ Ω können durch eine stetige Kurve Γ verbunden werden, die ganz in Ω verläuft.1 Das Gebiet Ω heißt konvex, wenn je zwei Punkte x1 , x2 ∈ Ω durch eine Strecke Σ = {x1 + t(x2 − x1 )| 0 ≤ t ≤ 1} verbunden werden können, die ganz in Ω liegt. b. x0 ∈ Rn heißt ein Randpunkt von Ω, wenn für jedes ε > 0 Uε (x0 ) ∩ Ω = ∅
und
Uε (x0 ) ∩ (Rn \ Ω) = ∅ .
Die Menge ∂Ω der Randpunkte von Ω heißt der Rand von Ω, und Ω := Ω ∪ ∂Ω der Abschluss von Ω. Bevor wir differenzieren, müssen wir uns mit den Begriffen „Grenzwert“ und „Stetigkeit“ für Funktionen mehrerer Variablen befassen. Das geht genauso wie bei Funktionen einer Variablen, außer dass Abstände jetzt durch die Norm gemessen werden: 1
In der mathematischen Literatur wird eine Menge als bogenzusammenhängend oder wegzusammenhängend bezeichnet, wenn sich je zwei ihrer Punkte stets durch eine stetige Kurve innerhalb der Menge verbinden lassen. Die genaue Definition davon, wann ein Raum in der Mathematik als „zusammenhängend“ gilt, würde hier zu weit führen. Wir nutzen die Tatsache aus, dass die beiden Begriffe für offene Teilmengen von Rn übereinstimmen.
B. Partielle Ableitungen
225
Definitionen 9.9. Wir betrachten ein Gebiet Ω ⊆ Rn und eine Funktion f : M −→ R, wo Ω ⊆ M ⊆ Ω. (Die Funktion f ist also jedenfalls auf Ω definiert, aber einige – oder auch alle – Randpunkte dürfen auch noch zu ihrem Definitionsbereich gehören.) a. Sei x0 ∈ Ω. Eine Zahl b heißt Limes oder Grenzwert von f für x → x0 , wenn es zu jedem ε > 0 ein δ > 0 gibt, für das gilt: x ∈ M, x − x0 < δ
=⇒
|f (x) − b| < ε .
Durch diese Forderung ist b eindeutig bestimmt, und man schreibt b = lim0 f (x) . x→x
b. Die Funktion f heißt stetig im Punkt x0 ∈ M , wenn f (x0 ) = lim0 f (x). x→x
Sie heißt stetig, wenn sie in jedem Punkt ihres Definitionsbereichs stetig ist. c. Für vektorwertige Funktionen mehrerer Variablen sind Grenzwerte und Stetigkeit wieder komponentenweise zu verstehen. Der Grundgedanke ist also derselbe wie früher: Stetigkeit von f bedeutet, dass die Funktionswerte f (x) höchstens um das vorgegebene ε von f (x0 ) abweichen, sofern x nur nahe genug bei x0 liegt. Während aber auf der reellen Geraden Abweichungen von x0 nur nach rechts oder links erfolgen konnten, sind jetzt alle Richtungen zugelassen, die nicht aus dem Definitionsbereich herausführen. Zum Beispiel im Fall x0 ∈ Ω füllen die zugelassenen Abweichungen eine ganze Kugel um x0 aus (nämlich Uδ (x0 )). Nun können wir partielle Ableitungen definieren. n Definitionen ⎛ ⎞ 9.10. Sei Ω ⊆ R ein Gebiet und f : Ω −→ R eine Funktion, f1 ⎜ .. ⎟ F = ⎝ . ⎠ : Ω −→ Rm eine Vektorfunktion.
fm a. Die skalare Funktion f heißt partiell differenzierbar in x0 ∈ Ω nach der i-ten Variablen, wenn die sogenannte erste partielle Ableitung nach xi Di f (x0 ) ≡
∂ f (x0 ) ≡ fxi (x0 ) ∂xi
1 f (x01 , . . . , x0i + h, . . . , x0n ) − f (x01 , . . . , x0i , . . . , x0n ) h−→0 h 1 (9.9) = lim (f (x0 + hei ) − f (x0 )) h−→0 h
:= lim
existiert, wo ei = (0, . . . , 0, 1, 0, . . . , 0) der i-te Einheitsvektor im Rn ist.
226
9 Differenziation in Rn
b. Existieren in x0 ∈ Ω alle ersten partiellen Ableitungen D1 f (x0 ), . . . , Dn f (x0 ), so heißt f partiell differenzierbar in x0 , und partiell differenzierbar in Ω, wenn dies für jedes x0 ∈ Ω gilt. Sind zusätzlich die n-Ableitungsfunktionen Di f (x) alle stetig in Ω, so heißt f stetig differenzierbar in Ω und man schreibt f ∈ C 1 (Ω). c. Die Vektorfunktion F heißt partiell differenzierbar in x0 ∈ Ω nach der i-ten Variablen, wenn alle partiellen Ableitungen Di f1 (x0 ), . . . , Di fm (x0 ) existieren, und man setzt: ⎤ ⎡ Di f1 (x0 ) ⎥ ⎢ .. Di F (x0 ) = ⎣ (9.10) ⎦ , . Di fm (x0 ) d. h. Vektorfunktionen werden immer komponentenweise differenziert. Die Formel (9.9) zeigt, wie partielle Ableitungen berechnet werden: Man hält alle Variablen außer xi fest und differenziert dann nach xi wie bei einer Variablen. Beispiel: a. f (x, y) = x2 y 3 =⇒ D1 f (x, y) = 2xy 3 , D2 f (x, y) = 3x2 y 2 . 2 2 2 b. g(x, y) = ex sin y =⇒ D1 g(x, y) = 2xex sin y, D2 g(x, y) = ex cos y . c. h(x, y) = ϕ(x) + ψ(y) =⇒ D1 h(x, y) = ϕ (x), D2 h(x, y) = ψ (y) . Definitionen 9.11. Sei Ω ⊆ Rn ein Gebiet. a. Ist f : Ω −→ R partiell differenzierbar in Ω, so heißt der Zeilenvektor ∈ R1×n
(Jf )(x) = (D1 f (x), . . . , Dn f (x)) die Jacobi-Matrix von f und
⎤ D1 f (x) ⎢ .. ⎥ grad f (x) ≡ ∇f (x) = (Jf (x))T = ⎣ . ⎦
(9.11)
⎡
(9.12)
Dn f (x) der Gradient von f in x ∈ Ω. b. Ist die Vektorfunktion ⎛
⎞ f1 ⎜ ⎟ F = ⎝ ... ⎠ : Ω −→ Rm fm
partiell differenzierbar in Ω, so heißt ⎤ ⎡ D1 f1 (x) · · · Dn f1 (x) ··· · · · ⎦ ∈ Rm×n (JF )(x) = ⎣ · · · D1 fm (x) · · · Dn fm (x) die Jacobi-Matrix von F in x ∈ Ω.
(9.13)
B. Partielle Ableitungen
227
c. Schreibt man
y = F (x)
oder ausführlich
y1 = f1 (x1 , . . . , xn ) .. .
(9.14)
yn = fn (x1 , . . . , xn ) für m = n, so heißt ∂(y1 , . . . , yn ) := det(JF ) ∂(x1 , . . . , xn )
(9.15)
die Jacobi-Determinante von F . Beispiele 9.12. a. Polarkoordinaten im R2 x r cos ϕ x= = F (r, ϕ) = , r > 0 , 0 ≤ ϕ < 2π y r sin ϕ ∂(x, y) cos ϕ −r sin ϕ =r. (JF )(r, ϕ) = , sin ϕ r cos ϕ ∂(r, ϕ) b. Zylinderkoordinaten im R3 ⎡ ⎤ ⎡ ⎤ x r cos ϕ x = ⎣ y ⎦ = F (r, ϕ, z) = ⎣ r sin ϕ ⎦ , r > 0, 0 ≤ ϕ < 2π, z ∈ R z z ⎡ cos ϕ (JF )(r, ϕ, z) = ⎣ sin ϕ 0
−r sin ϕ r cos ϕ 0
⎤ 0 0⎦ , 1
∂(x, y, z) =r. ∂(r, ϕ, z)
c. Kugelkoordinaten im R3 ⎡ ⎤ ⎡ ⎤ x r cos ϕ sin θ x = ⎣y ⎦ = F (r, ϕ, θ) = ⎣ r sin ϕ sin θ ⎦ z r cos θ (r > 0 , 0 ≤ ϕ < 2π , 0 ≤ θ ≤ π) ⎡ ⎤ cos ϕ sin θ −r sin ϕ sin θ r cos ϕ cos θ r cos ϕ sin θ r sin ϕ cos θ ⎦ (JF )(r, ϕ, θ) = ⎣ sin ϕ sin θ cos θ 0 −r sin θ ∂(x, y, z) = −r2 sin θ . ∂(r, ϕ, θ)
9 Differenziation in Rn
228
C. Totale Differenzierbarkeit Bei Funktionen einer Variablen wissen wir aus Anmerkung 2.16, dass aus der Differenzierbarkeit die Stetigkeit folgt. Das folgende Beispiel zeigt, dass aus partieller Differenzierbarkeit i. Allg. noch keine Stetigkeit folgt: Beispiele 9.13. f (x, y) =
2xy/(x2 + y 2 ) für (x, y) = (0, 0) . 0 für (x, y) = (0, 0)
In R2 {(0, 0)} ist f sowohl stetig als auch partiell differenzierbar. In (0, 0) ergibt sich f (h, 0) − f (0, 0) = 0, h−→0 h f (0, h) − f (0, 0) D2 f (0, 0) = lim =0, h−→0 h
D1 f (0, 0) = lim
d. h. f ist in ganz R2 partiell differenzierbar. Jedoch ist lim
f (x, y) = limx−→0 f (x, x) = limx−→0
lim
f (x, y) = limy−→0 f (0, y) = 0 ,
(x,y)−→(0,0) x=y
(x,y)−→(0,0) x=0
2x2 2x2
=1,
d. h. f ist in (0, 0) nicht stetig. Um dies genauer zu klären, definieren wir: Definitionen 9.14. Sei Ω ⊆ Rn ein Gebiet, x ∈ Ω ein Punkt und F : Ω −→ Rm eine Vektorfunktion, die in x partiell differenzierbar ist. Existiert dann eine Funktion Φ : U (x) −→ Rm , wobei U (x) ⊆ Ω eine Kugel um x ist, sodass a. lim Φ(h) = 0, h−→0
b. F (x + h) − F (x) = (JF )(x) · h + hΦ(h), d. h. lim
h−→0
F (x + h) − F (x) − (JF )(x) · h =0, h
(9.16)
so heißt F total differenzierbar in x, und die lineare Funktion dFx : Rn −→ Rm mit dFx (h) := (JF )(x) · h heißt die totale Ableitung oder das totale Differenzial von F in x.
C. Totale Differenzierbarkeit
229
Bemerkungen: a. Weitere gebräuchliche Schreibweisen für die totale Ableitung sind: F (x), DF (x) oder dF (x). Vor allem bei skalaren Funktionen f : Ω −→ R spricht man vom „Differenzial“ und schreibt df (x) oder dfx . b. Definiert man für i = 1, . . . , n Linearformen (d. h. skalarwertige lineare Funktionen) ⎛ ⎞ a1 ⎜ ⎟ dxi : Rn −→ R durch dxi (a) := ai für a = ⎝ ... ⎠ , an so schreibt sich das totale Differenzial dfx = D1 F (x)dx1 + · · · + Dn F (x)dxn , d. h. als sog. Pfaff’sche Form. Mehr dazu in Abschn. 21D. c. Obwohl (JF )(x) existiert, wenn F partiell differenzierbar in x ist, braucht F nicht total differenzierbar in x zu sein, wenn nämlich Φ(h) =
F (x + h) − F (x) − (JF )(x) · h h
nicht gegen 0 geht, wenn h −→ 0 geht. Dies ist etwa in Beispiel 9.13 der Fall. Satz 9.15. a. Wenn F : Ω −→ Rm total differenzierbar ist, dann ist F stetig in Ω. b. Wenn F stetig differenzierbar in Ω ist, dann ist F total differenzierbar in Ω. Beweis. a. Folgt direkt aus (9.16) in Definition 9.14. b. Es genügt den Beweis für n = 2, m = 1 zu führen. Sei also A = (a, b) ∈ Ω, h = (h, k) ∈ R2 . Dann folgt mit dem Mittelwertsatz der Differenzialrechnung in Theorem 2.22 b.: f (A + h) − f (A) = f (a + h, b + k) − f (a, b) = [f (a + h, b + k) − f (a, b + k)] + [f (a, b + k) − f (a, b)] = D1 f (x, b + k) · h + D2 f (a, y) · k mit x zwischen a und a + h, y zwischen b und b + k. Dafür schreiben wir f (A + h) − f (A) = D1 f (a, b)h + D2 f (a, b)k + hφ(h) mit
φ(h) = [D1 f (x, b + k) − D1 f (a, b)] · + [D2 f (a, y) − D2 f (a, b)]
√ h + h2 +k2 k · √h2 +k2 .
230
9 Differenziation in Rn
Wegen der Stetigkeit der partiellen Ableitungen gilt lim
φ(h, k) = 0 ,
(h,k)−→(0,0)
was nach Definition (vgl. 9.14) die totale Differenzierbarkeit beweist.
D. Die Kettenregel Wir wollen uns nun mit der Komposition differenzierbarer Abbildungen beschäftigen. Theorem 9.16 (Kettenregel). Seien U ⊆ Rn , V ⊆ Rm offen und seien F : U −→ Rm differenzierbar in a ∈ U , G : V −→ RP differenzierbar in b = F (a) ∈ V . Dann ist G ◦ F differenzierbar in a und a. b.
d(G ◦ F )a = dGF (a) ◦ dFa , J(G ◦ F )(a) = (JG)(F (a)) · (JF )(a).
Beweis. b. Folgt aus a., denn nach der Definition der totalen Ableitungen (vgl. 9.14) sind ihre Darstellungsmatrizen ja gerade die Jacobi-Matrizen. a. Wir müssen zeigen: lim
h−→0
(G ◦ F )(a + h) − (G ◦ F )(a) − (dGF (a) ◦ dFa )(h) = 0. h
(9.17)
Dazu setzen wir F (a + h) − F (a) − dFa (h) , h
(9.18)
G(F (a) + k) − G(F (a)) − dGF (a) (k) . k
(9.19)
Φ(h) =
Ψ (k) =
Da F und G nach Voraussetzung total differenzierbar sind, gilt lim Φ(h) = 0
h−→0
und lim Ψ (k) = 0 . k−→0
(9.20)
Setzen wir k = F (a + h) − F (a) in (9.19), so folgt (G ◦ F )(a + h) − (G ◦ F )(a) = G(F (a) + k) − G(F (a)) = dGF (a) (F (a + h) − F (a)) + F (a + h) − F (a) · Ψ (F (a + h) − F (a)) . Benutzen wir nun F (a + h) − F (a) = dFa (h) + h Φ(h) ,
D. Die Kettenregel
231
so folgt (G ◦ F )(a + h) − (G ◦ F )(a) = dGF (a) (dFa (h) + hΦ(h)) + F (a + h) − F (a)Ψ (F (a + h) − F (a)) = dGF (a) (dFa (h)) + { hdGF (a) (Φ(h))+ h + h · dFa + Φ(h) · Ψ (F (a + h) − F (a)) } , h also (G ◦ F )(a + h) − (G ◦ F )(a) − (dGF (a) ◦ dFa ) (h) = h h + Φ(h) Ψ (F (a + h) − F (a)) −→ 0 = dGF (a) (Φ(h)) + dFa h für h −→ 0.
Anmerkung 9.17. Schreibt man yi = fi (x1 , . . . , xn ) ,
i = 1, . . . , m ,
zj = gj (y1 , . . . , ym ) ,
j = 1, . . . , p ,
so lautet die Kettenregel: ∂zi ∂yk ∂zi = · , ∂xj ∂yk ∂xj m
i = 1, . . . , p
(9.21)
k=1
nach Definition des Matrizenprodukts. Im Falle n = m = p gilt: ∂(z1 , . . . , zn ) ∂(y1 , . . . , yn ) ∂(z1 , . . . , zn ) = · ∂(x1 , . . . , xn ) ∂(y1 , . . . , yn ) ∂(x1 , . . . , xn )
(9.22)
nach dem Determinanten-Multiplikationssatz 5.21. Wir erläutern dies an einigen Beispielen. Beispiele 9.18. a. Im Falle n = m = p = 1 haben wir differenzierbare Abbildungen R −→ R −→ R f
g
und die Kettenregel lautet (g ◦ f ) (t) = g (f (t)) · f (t) , was gerade die Kettenregel (2.20) aus Theorem 2.18e ist.
(9.23)
232
9 Differenziation in Rn
b. Im Falle n = p = 1 haben wir differenzierbare Abbildungen R −→ Rm −→ R ϕ
F
und die Kettenregel lautet (ϕ ◦ F ) (t) = (Jϕ)(F (t)) · F (t) = grad ϕ(F (t)) · F (t) m Di ϕ(F (t)) · fi (t) . =
(9.24)
i=1
Schreibt man y = ϕ(x1 , . . . , xm ) ,
xi = fi (t) ,
i = 1, . . . , m ,
so lautet die Schreibweise für (9.24) m ∂y dxi dy = . dt ∂x i dt i=1
(9.25)
c. Betrachten wir Abbildungen R2 −→ R3 −→ R2 , so lautet die KettenreF
G
gel in Matrixschreibweise, wenn wir H = G ◦ F setzen: ⎤ ⎡ D1 f1 D2 f1 D1 g 1 D2 g 1 D3 g 1 D 1 h1 D 2 h1 = · ⎣ D1 f2 D2 f2 ⎦ , D 1 h2 D 2 h2 A D1 g2 D2 g2 D3 g2 F (A) D1 f3 D2 f3 A d. h. für H(s, t) = (G ◦ F )(s, t), F = F (s, t), G = G(x, y, z) z. B.: ∂h1 ≡ D 1 h1 = D 1 g 1 · D 1 f 1 + D 2 g 1 · D 1 f 2 + D 3 g 1 · D 1 f 3 ∂s ∂g1 ∂f2 ∂g1 ∂f3 ∂g1 ∂f1 · + · + · . = ∂x ∂s ∂y ∂s ∂z ∂s Bemerkung: Man braucht für die Kettenregel wirklich totale Differenzierbarkeit. Setzt man nur partielle Differenzierbarkeit voraus, so gilt sie womöglich nicht, wie Beispiele zeigen (vgl. Übungen). Das ist vielleicht der wichtigste Grund für die Einführung der totalen Differenzierbarkeit.
E. Höhere Ableitungen Sei Ω ⊆ Rn ein Gebiet und F : Ω −→ Rm eine C 1 -Abbildung. Dann existieren die ersten partiellen Ableitungen Di F ≡
∂ F : Ω −→ Rm , ∂xi
i = 1, . . . , n .
E. Höhere Ableitungen
233
Sind diese ebenfalls partiell differenzierbar, d. h. existieren die zweiten partiellen Ableitungen ∂ ∂ ∂2 Dk Di F := Dk (Di F ) ≡ F =: F , (9.26) ∂xk ∂xi ∂xk ∂xi so können wir fragen, ob eine Vertauschung der Differenziationsreihenfolge erlaubt ist, d. h. ob Dk Di F = Di Dk F gilt. Die Antwort gibt: Theorem 9.19 (Satz von H. A. Schwarz). Sei Ω ⊆ Rn offen und F : Ω −→ Rm eine C s -Abbildung, d. h. s-mal stetig partiell differenzierbar. Dann sind alle partiellen Ableitungen unabhängig von der Differenziationsreihenfolge, d. h. insbesondere Di Dk F = Dk Di F ,
falls F ∈ C 2 (Ω, Rm ) .
(9.27)
Beweis. Es genügt, die Behauptung (9.27) für skalare Funktionen f (x, y) von zwei Variablen zu beweisen, d. h. fxy (x, y) = fyx (x, y) ,
falls f ∈ C 2 (Ω) .
(9.28)
Seien dazu h, k ∈ R so klein gewählt, dass das Rechteck mit den Eckpunkten (x, y), (x + h, y), (x, y + k), (x + h, y + k) ganz in Ω liegt. Dann betrachten wir den Ausdruck ∆ := [f (x + h, y + k) − f (x + h, y)] − [f (x, y + k) − f (x, y)] . Setzen wir
ϕ(x) = f (x, y + k) − f (x, y)
für festes y ,
ψ(y) = f (x + h, y) − f (x, y)
für festes x ,
(9.29)
(9.30)
so gilt offenbar: ϕ(x + h) − ϕ(x) = ∆ = ψ(y + k) − ψ(y) .
(9.31)
Auf beiden Seiten wenden wir den Mittelwertsatz der Differenzialrechnung, Theorem 2.22b, an. Danach gibt es ξ1 zwischen x und x + h, η1 zwischen y und y + k , sodass
hϕ (ξ1 ) = ∆ = kψ (η1 ) ,
d. h. nach Definition von ϕ und ψ in (9.30) h [fx (ξ1 , y + k) − fx (ξ1 , y)] = ∆ = k [fy (x + h, η1 ) − fy (x, η1 )] .
(9.32)
9 Differenziation in Rn
234
Wenden wir auf beiden Seiten wieder den Mittelwertsatz an, so finden wir ξ2 zwischen x und x + h, η2 zwischen y und y + k , sodass hkfxy (ξ1 , η2 ) = ∆ = hkfyx (ξ2 , η1 ) .
(9.33)
Nun gilt aber ξ1 −→ x , ξ2 −→ x für h −→ 0 ;
η1 −→ y , η2 −→ y für k −→ 0 .
Grenzübergang (h, k) −→ (0, 0) in (9.33) liefert dann (9.28), weil fxy (ξ1 , η2 ) −→ fxy (x, y) ;
fyx (ξ2 , η1 ) −→ fyx (x, y)
wegen der Stetigkeit der zweiten Ableitungen. Beispiele 9.20.
f (x, y) =
2
2
xy xx2 −y +y 2 0
für (x, y) = (0, 0) für (x, y) = (0, 0) .
Dafür gilt: fx (x, y) = y x
4
fy (x, y) = x x
+4x2 y 2 −y 4 (x2 +y 2 )2
4
2 2
−4x y −y (x2 +y 2 )2
4
, fx (0, y) = −y , fx (0, 0) = 0 , , fy (x, 0) = x , fy (0, 0) = 0 .
Daraus folgt: fx (0,y)−fx (0,0) y fy (x,0)−fy (0,0) lim x x−→0
fxy (0, 0) = lim
= −1 ,
fyx (0, 0) =
=1,
y−→0
d. h. fxy (0, 0) = fyx (0, 0), wobei man überprüft, dass fxy und fyx in (0, 0) nicht stetig sind. Dass es bei einer C s -Funktion (s ≥ 2) nicht auf die Reihenfolge ankommt, in der nach den einzelnen Variablen differenziert wird, ermöglicht es, eine sehr knappe und übersichtliche Schreibweise für höhere Ableitungen einzuführen: Statt jede einzelne Differentiation aufzuführen, notiert man nur, wie oft nach x1 differenziert wurde, wie oft nach x2 usw. Dazu verwendet man die sog. Multiindex-Schreibweise, die wir jetzt einführen. Definitionen 9.21. a. Ein Multiindex α = (α1 , . . . , αn ) ist ein n-Tupel von Zahlen αi ∈ N0 . Er hat die Ordnung |α| := α1 + · · · + αn . Ferner setzt man α! = α1 ! · · · αn ! und für m ∈ N , m m m! m! = . = = α α1 , . . . , αn α! α1 ! · · · αn !
F. Die Taylor-Formel
235
b. Für x = (x1 , . . . , xn ) ∈ Rn setzt man α2 αn 1 xα := xα 1 · x2 · · · xn .
c. Für F ∈ C s (Ω, Rm ), Ω offene Teilmenge von Rn , und |α| ≤ s setzt man Dα F = D1α1 · · · Dnαn F =
1 ∂xα 1
∂ |α| F . n · · · ∂xα n
d. Mit C ∞ (Ω, Rm ) bezeichnen wir die Menge der Funktionen F : Ω → Rm , die zu jeder Klasse C s gehören, für die also Ableitungen Dα F von beliebig hoher Ordnung |α| existieren.
F. Die Taylor-Formel Ist ϕ : R −→ R eine C m+1 -Funktion, so gilt nach Satz 2.25 die Taylor-Formel ϕ(t) =
m ϕ(k) (t0 ) k=0
k!
(t − t0 )k + rm (ϕ, t, t0 )
(9.34)
und insbesondere (wenn wir für das Restglied r noch seine explizite Gestalt einsetzen) m ϕ(m+1) (τ ) ϕ(k) (0) + (9.35) ϕ(1) = k! (m + 1)! k=0
mit τ zwischen 0 und 1. Wir wollen diese Formel jetzt auf Funktionen f : Rn −→ R der Klasse C m+1 verallgemeinern. Dazu betrachten wir für Punkte x = (x1 , . . . , xn ), x0 = (x01 , . . . , x0n ) ∈ Rn die Hilfsfunktion ϕ(t) = f (x0 + t(x − x0 )) ,
t∈R
(9.36)
mit ϕ(0) = f (x0 ) , ϕ(1) = f (x) . Darauf wollen wir die Taylor-Formel (9.35) anwenden. Nach der Kettenregel folgt: ϕ (0) = = ϕ (0) =
n
Di f (x0 )(xi − x0i )
i=1
|α|=1 n
Dα f (x0 )(x − x0 )α , Di Dj f (x0 )(xi − x0i ) · (xj − x0j )
i,j=1
= ϕ (0) = =
|α|=2 n
2! α α! D f (x0 )(x
− xo )α ,
Di Dj Dk f (x0 )(xi − x0i )(xj − x0j )(xk − x0k )
i,j,k=1 3! α α! D f (x0 )(x |α|=3
− x0 )α
9 Differenziation in Rn
236
usw. Allg. erhält man für ϕ(k) (0) Terme mit Ableitungen Dα f (x0 ), wo |α| = k ist. Aber zu einem gegebenen Multiindex α werden i. Allg. mehrere gleichartige Terme dieser Art entstehen, die durch Differenziationen in verschiedenen k k! Reihenfolgen zustandekommen. Die Anzahl dieser Terme ist = , wie α α! man sich durch geschicktes Zählen überlegen kann (vgl. Ergänzung 9.34). Daher ergibt sich k (k) ϕ (0) = (9.37) Dα f (x0 )(x − x0 )α . α |α|=k
Dabei spielt es keine Rolle, dass f auf ganz Rn definiert war. In Wirklichkeit braucht man nur eine offene Menge Ω, die die Verbindungsstrecke [x0 , x] := {x0 + t(x − x0 )|0 ≤ t ≤ 1} enthält. Die Hilfsfunktion ϕ ist dann auf einem Intervall der Form ] − δ, 1 + δ[ (δ > 0) definiert, und man kann die obigen Rechnungen durchführen. Setzen wir das Ergebnis (9.37) in (9.35) ein, so erhalten wir Theorem 9.22 (Satz von Taylor). Sei Ω ⊆ Rn ein konvexes Gebiet, f : Ω −→ Rm eine C m+1 -Funktion, x, x0 ∈ Ω. a. Dann gilt die Taylor-Formel 1 Dα f (x0 )(x − x0 )α + rm (f, x, x0 ) f (x) = α!
(9.38)
|α|≤m
mit rm (f, x, x0 ) =
|α|=m+1
1 α D f (z)(x − x0 )α , α!
(9.39)
wobei z auf der Verbindungsstrecke von x0 nach x liegt. b. Insbesondere gilt für m = 0 der Mittelwertsatz der Differenzialrechnung f (x) − f (x0 ) = grad f (z) · (x − x0 ) .
(9.40)
Wir bemerken, dass (wie auch bei einer Variablen) der Mittelwertsatz für Vektorfunktionen F = (f1 , . . . , fm ) : Ω −→ Rm nicht gilt. Zwar gilt für jede Komponente nach (9.40) fi (x) − fi (x0 ) = grad f (zi )(x − x0 ) , aber der Zwischenpunkt zi ist i. Allg. für jede Komponente ein anderer, sodass man generell keine Formel des Typs F (x) − F (x0 ) = (JF )(z)(x − x0 ) hat. Das stört aber eigentlich kaum, da man den Mittelwertsatz meist dazu benutzt, Abschätzungen herzuleiten, in denen der Zwischenpunkt gar nicht mehr vorkommt, und solche Abschätzungen kann man komponentenweise erledigen. (Ein einfaches Beispiel hierfür findet sich in Ergänzung 14.24.)
G. Extremwertprobleme
237
G. Extremwertprobleme In diesem Abschnitt wollen wir die Aussagen der Sätze 2.21 und 2.27 über Extremwerte von Funktionen einer Variablen auf Funktionen mehrerer Variablen übertragen: Definitionen 9.23. Sei Ω ⊆ Rn ein Gebiet, f : Ω −→ R eine Funktion. a. f hat in x0 ∈ Ω eine Extremstelle, wenn es ein δ > 0 gibt, sodass für alle x ∈ Ω mit x − x0 < δ entweder f (x)
≤ f (x0 )
(lokales Maximum)
f (x)
≥ f (x0 )
(lokales Minimum)
oder
gilt. b. Ist f ∈ C 1 (Ω), so heißt x0 ∈ Ω ein kritischer Punkt von f , wenn grad f (x0 ) = 0 ,
(9.41)
und zwar ein Sattelpunkt, wenn x0 dabei keine Extremstelle ist. Dass die Definition in b gerechtfertigt ist, sagt uns: Satz 9.24. Für eine Funktion f ∈ C 1 (Ω) ist jede Extremstelle ein kritischer Punkt. Beweis. Sei x0 ∈ Ω ein lokales Maximum von f . Ist dann h ∈ Rn , h = 1 beliebig, so gibt es ein δ > 0, sodass ϕ(t) := f (x0 + th) ≤ f (x0 ) = ϕ(0) ,
|t| < δ .
Nach Satz 2.21 und der Kettenregel folgt dann 0 = ϕ (0) = grad f (x0 ) · h , d. h. grad f (x0 ) = 0, weil h ∈ Rn beliebig war. Für lokale Minima ist der Beweis analog. Um Maxima, Minima und Sattelpunkte anhand der Ableitungen der Funktion voneinander unterscheiden zu können, benötigt man – wie in Satz 2.27 – die Taylor-Formel als entscheidendes Hilfsmittel. Dabei geben die ersten nicht verschwindenden Terme der Taylor-Entwicklung den Ausschlag. Haben diese ausschlaggebenden Terme dritte oder noch höhere Ordnung, so wird die Sache ausgesprochen kompliziert und geht weit über den Rahmen unserer elementaren Betrachtungen hinaus (Singularitätentheorie). Wir beschränken uns daher auf die Untersuchung des Einflusses der zweiten Ableitungen, was für viele praktische Zwecke auch ausreicht.
9 Differenziation in Rn
238
Als Vorbereitung benötigen wir: Satz 9.25. Sei A ∈ Rn×n eine symmetrische Matrix mit den reellen Eigenwerten λ1 , . . . , λn und der zugehörigen quadratischen Form QA (x) := xT Ax =
n
aij xi xj .
(9.42)
i,j=1
a. Äquivalent sind: (i) A ist positiv definit (bzw. positiv semidefinit), d. h. QA (x) > 0 (bzw. ≥ 0) ∀ x = 0, (ii) λi > 0 (bzw. ≥ 0) für alle i = 1, . . . , n. b. Äquivalent sind: (i) A ist negativ definit (bzw. negativ semidefinit), d. h. QA (x) < 0 (bzw. ≤ 0) ∀ x = 0, (ii) λi < 0 (bzw. ≤ 0) für alle i = 1, . . . , n. Beweis. Nach Korollar 7.18 ist A orthogonalähnlich zu einer Diagonalmatrix, d. h. A = SDS T mit D = diag(λi ) und einer orthogonalen Matrix S. Setzen wir für x ∈ Rn , y = ST x so folgt QA (x) = xT Ax = xT (SDS T )x = (xT S)D (S T x) n λi yi2 , = y T Dy = i=1
woraus alles folgt.
Wir haben uns schon in einigen Aufgaben zu Kap. 7 mit positiv (semi)definiten Matrizen beschäftigt. Im Moment interessieren sie uns wegen dem folgenden Satz: Satz 9.26. Sei f ∈ C 2 (Ω), Ω ein Gebiet, und sei x0 ∈ Ω ein kritischer Punkt von f . Dann gilt: a. Hat f in x0 ein lokales Minimum (Maximum), so ist die Hesse’sche Matrix ⎛ ⎞ fx1 x1 · · · fx1 xn ⎜ .. ⎟ (9.43) (Hf )(x0 ) := ⎝ ... . ⎠ fxn x1 · · · fxn xn
x0
positiv (negativ) semidefinit. b. Ist (Hf )(x0 ) positiv (negativ) definit, so hat f in x0 ein lokales Minimum (Maximum).
G. Extremwertprobleme
239
Beweis. Ausgangspunkt ist die Taylor-Formel aus Theorem 9.22. Für m = 1 hat diese die Form f (x0 + h) = f (x0 ) + grad f (x0 ) · h +
1 T h (Hf (z))h 2
(9.44)
mit einem z zwischen x0 und x0 + h. Da x0 ein kritischer Punkt ist, gilt f (x0 + h) = f (x0 ) +
1 T h (Hf (z))h , 2
(9.45)
woraus alle Behauptungen folgen.
Für Funktionen f (x, y) von 2 Variablen hat man ein einfaches Kriterium für die Definitheit der Hesse’schen Matrix. Setzt man im kritischen Punkt X0 = (x0 , y0 ) nämlich a = fxx (X0 ) ,
b = fxy (X0 ) = fyx (X0 ) ,
c = fyy (X0 ) ,
so ist für h = (u, v): hT (Hf (X0 ))h = au2 + 2buv + cv 2 a(u + ab v)2 + a1 (ac − b2 )v 2 , = c(v + bc u)2 + 1c (ac − b2 )u2 ,
a = 0
(9.46)
c = 0 .
Damit ergibt Satz 9.26: Satz 9.27. Sei Ω ⊆ R2 ein Gebiet, X0 ∈ Ω ein kritischer Punkt von f ∈ C 2 (Ω) und sei f (X ) f (X ) D(X0 ) = det(Hf (X0 )) = xx 0 xy 0 . fyx (X0 ) fyy (X0 )
(9.47)
Dann gilt: a. Ist D(X0 ) > 0, so hat f in X0 ein lokales – Minimum, falls fxx (X0 ) > 0 oder fyy (X0 ) > 0 , – Maximum, falls fxx (X0 ) < 0 oder fyy (X0 ) < 0 . b. Ist D(X0 ) < 0, so hat f in X0 einen Sattelpunkt. Auch bei mehr als zwei Variablen lässt sich die Definitheit der Hesse’schen Matrix an den Vorzeichen gewisser Unterdeterminanten erkennen („Hurwitz’sches Definitheitskriterium“). Das ist aber eher von theoretischer Bedeutung, während Satz 9.27 ein sehr brauchbares praktisches Werkzeug darstellt. Näheres findet man in Büchern über Matrizenrechnung wie z. B. [13].
240
9 Differenziation in Rn
Ergänzungen zu §9 Wir befassen uns jetzt mit zwei bezeichnungstechnischen Tricks, nämlich den sog. Landau’schen Symbolen und der schon eingeführten MultiindexSchreibweise. Beide Notationen sind etwas gewöhnungsbedürftig, erweisen sich aber als ausgesprochen nützlich, wenn man sich die Mühe macht, den Umgang mit ihnen einzuüben. In manchen Situationen ist es von entscheidender Bedeutung, eine Schreibweise zu finden, die dem betreffenden Sachverhalt gut angepasst ist und die es daher ermöglicht, auch über kompliziertere Zusammenhänge den Überblick zu behalten. Die nachstehenden Anwendungsbeispiele werden Sie hoffentlich hiervon überzeugen, denn wir geben einfache und elegante Beweise für etliche wichtige und nützliche, aber keineswegs selbstverständliche Tatsachen. 9.28 Die Landau’schen Symbole. Oft treten in Rechnungen unangenehm komplizierte Ausdrücke auf, deren Einzelheiten eigentlich gar keine Rolle spielen, weil sie bei einem nachfolgenden Grenzübergang sowieso verschwinden. Die Landau-Symbole O und o machen es möglich, von vornherein auf die Angabe der überflüssigen Einzelheiten zu verzichten. Sie beziehen sich stets auf einen festen Grenzübergang, der explizit festgelegt werden muss oder doch klar aus dem Kontext hervorgehen sollte. Betrachten wir z. B. eine offene Menge Ω ⊆ Rn , einen Punkt x0 ∈ Ω und den Grenzübergang x → x0 . Gegeben sei eine Funktion g : Ω → R mit g(x0 ) = 0 und g(x) = 0 für x = x0 . Für Funktionen F : Ω → Rm schreiben wir dann F (x) = o(g(x)) wenn lim0
x→x x=x0
für
x → x0 ,
F (x) =0. g(x)
(9.48)
Der Zusatz „für x → x0 “ kann entfallen, wenn aus dem Kontext klar ist, auf welchen Grenzübergang sich das Landau-Symbol bezieht. Analog schreibt man F (x) = O(g(x)) für x → x0 , wenn
F (x) g(x)
für x → x0 beschränkt
(9.49)
bleibt (oder, ganz exakt ausgedrückt, wenn es M > 0 und δ > 0 gibt so, dass (x) f j ≤ M für j = 1, . . . , m , F = x ∈ Ω, 0 < x − x0 < δ =⇒ g(x) (f1 , . . . , fm )). Bei Berechnungen wird nun jede Funktion F , die (9.48) bzw. (9.49) erfüllt, durch das entsprechende Landau-Symbol ersetzt. Zum Beispiel für den
Ergänzungen
241
Grenzübergang x → 0 auf der reellen Geraden sieht man durch TaylorEntwicklung, dass sin x = x + O(x3 ) und cos x = 1 − x2 + O(x4 ) , folglich sin x x + O(x3 ) 1 = 2 = + O(x) . 1 − cos x x (1 + O(x2 )) x Man könnte einwenden, dass derartige Rechnungen nicht wirklich mathematisch exakt seien. Die Exaktheit lässt sich retten, indem man o(g(x)) und O(g(x)) als die Menge der Funktionen F auffasst, die (9.48) bzw. (9.49) erfüllen und dann zunächst Regeln für den Umgang mit diesen Mengen herleitet. Darauf wollen wir aber nicht näher eingehen. Vielmehr empfehlen wir Ihnen, sich jedes Landau-Symbol als „irgendeine Funktion F , für die das und das gilt . . . “ vorzustellen und aufgrund dieser Vorstellung den gesunden Menschenverstand walten zu lassen. Völlig analoge Definitionen und Bemerkungen haben wir auch für andere Grenzübergänge, z. B. x → ∞ oder (im Zusammenhang mit Folgen) n → ∞. 9.29 Eindeutigkeit der Ableitung. Wir betrachten wieder ein Gebiet Ω ⊆ Rn , einen Punkt x0 ∈ Ω und eine (vektorwertige) Funktion F : Ω → Rm . Wir sagen, eine lineare Abbildung A ∈ L(Rn , Rm ) sei eine lineare Approximation von F bei x0 , wenn gilt: F (x) = F (x0 ) + A(x − x0 ) + o(x − x0 )
für
x → x0 .
(9.50)
Die totale Ableitung ist solch eine lineare Approximation, und zwar die einzig mögliche. Genau darin besteht ihre tiefere Bedeutung. Dass A = dFx0 eine lineare Approximation ist, ergibt sich sofort aus der Definition in 9.14. Nehmen wir andererseits an, (9.50) gilt für eine lineare Abbildung A : Rn −→ Rm . Für die kanonische Basis {e1 , . . . , en } folgt dann F (x0 + tei ) − F (x0 ) = tA(ei ) + o(|t|)
für
t→0,
also A(ei ) = lim
t→0 t=0
1 (F (x0 + tei ) − F (x0 )) t
(i = 1, . . . , n) .
Also ist F in x0 partiell differenzierbar, und die Jacobimatrix stellt gerade die gegebene Abbildung A dar. Dann besagt (9.50) aber, dass sogar totale Differenzierbarkeit vorliegt und dass A = dFx0 . 9.30 Polynome in mehreren Variablen. Die Multiindex-Schreibweise macht es möglich, auch mit Polynomen in mehreren Variablen x1 , . . . , xn be-
242
9 Differenziation in Rn
quem zu rechnen. Ein homogenes Polynom vom Grad m ist eine Funktion der Form Hm (x) = cα xα (x = (x1 , . . . , xn )) (9.51) |α|=m
mit Konstanten cα ∈ K. Hm ist tatsächlich eine homogene Funktion in dem Sinne, dass Hm (tx) = tm Hm (x) gilt für t ∈ R und alle x. Ein allgemeines Polynom vom Grad ≤ m hat die Form m P (x) = cα xα = Hk (x) (9.52) |α|≤m
k=0
mit homogenen Polynomen H0 , H1 , . . . , Hm . Die Zahlen cα nennt man die Koeffizienten des Polynoms. Es ist klar, dass Polynome beliebig hohe partielle Ableitungen haben und dass diese wieder Polynome sind. Also ist jedes Polynom beliebig oft stetig differenzierbar. Wir haben z. B. Dβ xα = 0, falls es einen Index j gibt mit βj > αj , denn dann werden die Differenziationen nach der j-ten Variablen ja alles annullieren. Ebenso leicht rechnet man nach, dass Dα xα = α!. Es gilt daher α!δαβ , falls |β| = |α| β α D x = 0, falls |β| > |α| . Für das homogene Polynom (9.51) und einen Multiindex β mit |β| = m ergibt dies Dβ Hm ≡ β!cβ . Für das allgemeine Polynom (9.52) und |β| = k ≤ m folgt Dβ P = β!cβ +
m
D β Hj ,
j=k+1
und Dβ Hj ist ein homogenes Polynom vom Grad j − k ≥ 1. Also ist Dβ Hj (0) = 0 für k < j ≤ m, und es folgt nach Einsetzen von x = 0: cβ =
Dβ P (0) . β!
(9.53)
Also sind die Koeffizienten cα durch die Funktion P eindeutig festgelegt, was den Koeffizientenvergleich bei Polynomen auch für mehrere Variable rechtfertigt und was außerdem zeigt, dass sozusagen jedes Polynom sein eigenes Taylor-Polynom ist: P (x) =
Dα P (0) xα . α!
|α|≤m
(9.54)
Ergänzungen
9.31 Der polynomische Satz. Er lautet: k k xα . (x1 + · · · + xn ) = α
243
(9.55)
|α|=k
Der binomische Satz ist der Spezialfall für k = 2, und es ist eine gute Übung, sich das klarzumachen. Zum Beweis des Satzes definieren wir P (x) := S(x)k
S(x) := x1 + · · · + xn .
mit
Die Kettenregel ergibt sofort ∂P/∂xj = kS(x)k−1 für alle j, und mehrmalige Wiederholung dieser Rechnung (Induktion!) zeigt dann, dass Dα P (x) = k(k − 1) · · · (k − |α| + 1)S(x)k−|α| für alle Multiindizes α mit |α| ≤ k. Für |α| = k ist insbesondere Dα P (x) ≡ k!, und damit ergibt (9.54) k! P (x) = , α! |α|=k
also die Behauptung. 9.32 Eindeutigkeit der Taylor-Entwicklung. Die genaue Gestalt des Restglieds in der Taylor-Formel ist meist gar nicht entscheidend. Worauf es ankommt, ist die Tatsache, dass sich jede Funktion f ∈ C m (Ω) in der Nähe eines x0 ∈ Ω eindeutig in ein Polynom von höchstens m-tem Grad und ein Restglied zerlegen lässt, das für x −→ x0 schneller gegen Null geht als x − x0 m . Um dies genauer zu formulieren, definieren wir zu f ∈ C s (Ω), x0 ∈ Ω und m ≤ s das m-te Taylor-Polynom (mit Entwicklungspunkt x0 ) durch Tm f (x0 ; η) :=
m Dα f (x0 ) Dk f (x0 ) k ηα = ·η α! k!
|α|≤m
(9.56)
k=0
mit den homogenen Bestandteilen
k D f (x0 ) · η := Dα f (x0 )η α . α k
k
(9.57)
|α|=k
Theorem. Ist f ∈ C s (Ω) ,
x0 ∈ Ω und m ≤ s, so gilt
f (x) = Tm f (x0 ; x − x0 ) + o(x − x0 m )
für
x → x0 .
(9.58)
Diese Zerlegung ist eindeutig in folgendem Sinne: Ist P ein Polynom vom Grad ≤ m, für das f (x) = P (x − x0 ) + o(x − x0 m ) gilt, so ist P (η) = Tm f (x0 ; η).
(x → x0 )
(9.59)
244
9 Differenziation in Rn
Beweis. (i) Da Ω offen ist, können wir δ > 0 so wählen, dass Ω0 := Uδ (x0 ) ⊆ Ω (vgl. 9.8 a). Kugeln sind offenbar konvex, und wir wenden die Taylor-Formel 9.22 a. auf die Kugel Ω0 an (für m − 1 statt m). Das ergibt f (x) = Tm−1 f (x0 ; x − x0 ) + Rm−1 (f, x, x0 ) für x ∈ Ω0 . Subtrahieren wir das m-te Taylor-Polynom, so folgt mit (9.39) und (9.57) 1 m 1 m D f (z) · (x − x0 )m − D f (x0 ) · (x − x0 )m m! m! 1 m D f (z) − Dm f (x0 ) · (x − x0 )m = m!
f (x) − Tm f (x0 ; x − x0 ) =
mit z auf der Verbindungsstrecke von x und x0 . Für x → x0 geht auch z → x0 , also folgt wegen der Stetigkeit aller m-fachen partiellen Ableitungen 1 m D f (z) − Dm f (x0 ) · (x − x0 )m = o(x − x0 m ) m! und somit (9.58). (ii) Nun sei P ein Polynom vom Grad ≤ m, für das (9.59) gilt. Dann ist s(η) := P (η) − Tm f (x0 ; η) ebenfalls ein Polynom vom Grad ≤ m, und es gilt S(η) = o(ηm )
für
η→0.
(9.60)
Die Eindeutigkeitsaussage des Theorems ist gleichbedeutend damit, dass S ≡ 0 sein muss. Angenommen, dies wäre nicht der Fall, dann schreiben wir S als Summe homogener Anteile S(η) =
m
Hj (η) ,
j=k
wobei k der kleinste Index j ist, für den Hj nicht identisch verschwindet. Sei v ∈ Rn ein Vektor, für den Hk (v) = 0 ist. Wegen der Homogenität der Hj haben wir dann für t ∈ R \ {0} t−k S(tv) = Hk (v) + tHk+1 (v) + · · · + tm−k Hm (v) , also t−k S(tv) −→ Hk (v) = 0 für t → 0. Wegen k ≤ m und (9.60) muss aber limt→0 t−k S(tv) = 0 sein, ein Widerspruch. Damit ist die Eindeutigkeit gezeigt. Bemerkung: Für vektorwertige Funktionen F : Ω −→ Rm gilt das Theorem genauso, da man sich auf Komponenten zurückziehen kann. Für den Fall m = 1 ist Gleichung (9.58) gerade die Gleichung aus 9.14, durch die die totale Ableitung definiert ist.
Ergänzungen
245
9.33 Taylor-Entwicklung eines Produkts und Leibniz-Regel. Die Leibniz-Regel (vgl. 2.44) lautet für mehrere Variable
Dα (f g) =
β+γ=α
α! β D f Dγ g , β!γ!
(9.61)
gültig für |α| ≤ m, wenn f, g ∈ C m (Ω) sind. Man kann das durch Induktion beweisen, aber ein viel einfacherer und eleganterer Beweis ergibt sich aus der Eindeutigkeit der Taylor-Entwicklung. Dazu betrachten wir einen beliebigen, aber festen Punkt x0 ∈ Ω, an dem wir die Gültigkeit von (9.61) nachprüfen wollen, und schreiben f (x)g(x) = = (Tm f (x0 ; x − x0 ) + o(x − x0 m ))(Tm g(x0 ; x − x0 ) + o(x − x0 m )) = Tm f (x0 ; x − x0 )Tm g(x0 ; x − x0 ) + Tm f (x0 ; x − x0 )o(x − x0 m ) + Tm g(x0 ; x − x0 )o(x − x0 m ) + o(x − x0 2m ) = Tm f (x0 ; x − x0 )Tm g(x0 ; x − x0 ) + o(x − x0 m ) . Durch Ausdistribuieren ergibt sich sofort Tm f (x0 ; η)Tm g(x0 ; η) =
Dβ f (x0 ) Dγ g(x0 ) η β+γ β! γ!
|β|≤m |γ|≤m
=
|α|≤2m
Dβ f (x0 )Dγ g(x0 ) β!γ!
ηα .
β+γ=α
Wir schreiben Tm f (x0 ; η)Tm g(x0 ; η) = P (η) + Q(η), wobei P die Terme mit |α| ≤ m enthält und Q die restlichen. Es ist also P (η) =
|α|≤m
cα η α
mit
cα =
Dβ f (x0 )Dγ g(x0 ) , β!γ!
β+γ=α
und offenbar ist Q(η) = o(ηm ) für η → 0. Also ist Tm f (x0 ; η)Tm g(x0 ; η) = P (η) + o(ηm ) und folglich f (x)g(x) = P (x − x0 ) + o(x − x0 m )
für
x → x0 .
Das Theorem aus 9.32 sagt uns nun, dass P das m-te Taylor-Polynom von Dα (f g)(x0 ) f g in x0 sein muss, also cα = für |α| ≤ m. Hieraus folgt die α! Gültigkeit von (9.61) in unserem beliebigen Punkt x0 .
246
9 Differenziation in Rn
Bei diesem Beweis haben wir auch gelernt, dass Tm (f g)(x0 ; η) = Tm f (x0 ; η)Tm g(x0 ; η) + o(ηm ) ,
(9.62)
d. h. die m-ten Taylor-Polynome verhalten sich multiplikativ, wenn man alle Terme von höherer als m-ter Ordnung vernachlässigt. 9.34 αk als Anzahl gleichartiger Terme. Es sei α ∈ Nn0 ein n-stelliger Multiindex mit |α| = k. Bei der Herleitung von (9.37) wurde behauptet, durch geschicktes Zählen könne man die Anzahl der Terme in der Summe n
Di1 · · · Dik f (x0 )(xi1 − x0i1 ) · · · (xik − x0ik )
(9.63)
i1 ,...,ik =1
die mit Dα f (x0 ) (x − x0 )α übereinstimmen, und das Ergebnis sei ermitteln, k α . Um diese Zählung durchzuführen, befassen wir uns (der größeren Anschaulichkeit halber) mit der Verteilung von Klötzen auf Schubfächer. Jeder Term in der Summe (9.63) entspricht einem k-Tupel (i1 , . . . , ik ) von Zahlen i ∈ {1, . . . , n}, und der betreffende Term lässt sich in k-Schritten dadurch produzieren, dass man beim -ten Schritt eine Differenziation Di und einen Faktor (xi − x0i ) hinzufügt ( = 1, . . . , k). Stattdessen fassen wir nun das Tupel (i1 , . . . , ik ) als Anweisung auf, k-nummerierte Klötze in n-Schubfächern unterzubringen, und zwar so, dass man im -ten Schritt den Klotz mit der Nummer im Fach Nummer i verstaut ( = 1, . . . , k). Offenbar führt das Tupel (i1 , . . . , ik ) genau dann zu einem Term Dα f (x0 )(x − x0 )α , wenn hierbei α1 -Klötze im ersten Fach, α2 -Klötze im zweiten Fach, . . . αn -Klötze im n-ten Fach landen. Die gesuchte Anzahl ist also gleich der Anzahl µ der Möglichkeiten, k-Klötze auf n-Fächer so zu verteilen, dass für jedes i = 1, . . . , n im i-ten Fach genau αi -Klötze liegen. Um µ zu bestimmen, denken wir uns die Schubfächer alle nebeneinander gestellt und die Klötze innerhalb der Fächer auch nebeneinander angeordnet, sodass insgesamt k-Klötze in einer Reihe liegen, getrennt nur durch die Wände zwischen den einzelnen Fächern. Es gibt k!-Reihenfolgen, in denen die Klötze aufgereiht sein können, wie wir in Abschn. 5C. bei der Diskussion von Permutationen gesehen haben (vgl. insbes. die Ausführungen im Anschluss an Kor. 5.17). Aber zwei solche Reihenfolgen können zu ein und derselben Verteilung der Klötze auf Fächer führen, und zwar geschieht dies genau dann, wenn die eine Reihenfolge aus der anderen durch eine Permutation hervorgeht, bei der kein Klotz von einem Fach ins andere wechselt, d. h. bei der die Klötze nur innerhalb der einzelnen Fächer umgeordnet werden. Wie viele derartige Permutationen gibt es? Nun, die α1 -Klötze im ersten Fach können auf α1 !-Arten angeordnet werden, die α2 -Klötze im zweiten Fach auf α2 !-Arten, und so weiter, und alle diese Möglichkeiten können kombiniert werden. Es ergeben sich also α1 !α2 ! · · · αn ! = α!-Möglichkeiten, die Klötze so umzuordnen, dass ihre Aufteilung auf Fächer unverändert bleibt. Gehen wir nun alle denkbaren Aufteilungen der Klötze auf Fächer durch, so ergeben
Aufgaben
247
sich µα! verschiedene Reihenfolgen, in denen alle k-Klötze angeordnet werden können. Es ist also k! = µα! k k! = , wie behauptet. und daher µ = α α! Bemerkung: Diese Argumentation ist völlig rigoros, und sie lässt sich auch ohne jede Bezugnahme auf Gedankenexperimente abstrakt in der Sprache der Mengen und Abbildungen formulieren. Statt Klötzen würde man von Elementen einer k-elementigen Menge und statt Schubfächern von Teilmengen reden. Das Teilgebiet der Mathematik, das sich mit derartigen Zählprozessen befasst, ist die Kombinatorik.
Aufgaben zu §9 9.1. Sei F : [a, b] −→ Rn eine C 1 -Vektorfunktion. Mit · bezeichnen wir die euklidische Norm. Man zeige: F 2 = 2F · F ,
a.
d dt
b.
d F , falls überall F (t) = 0, F · F = F dt
c.
d dt
(F × F ) = F × F , falls n = 3 und F sogar C 2 ist.
9.2. Sei Γ : x = F (t), a ≤ t ≤ b, eine glatte Kurve im Rn . Man zeige: a. Γ liegt genau dann auf einer Kugelsphäre um A ∈ Rn , wenn die Vektoren A − F (t) und F (t) für alle t ∈ [a, b] orthogonal sind. b. Ist P ∈ Γ ein Punkt, und hat der Kurvenpunkt Q = F (t0 ) minimalen Abstand zu P , so ist der Vektor P − Q orthogonal zum Tangentenvektor F (t0 ). 9.3. Ein Teilchen bewege sich im R2 mit konstanter Geschwindigkeit v entlang eines Kreises vom Radius r um 0 ∈ R2 gemäß der Gleichung X = F (t). Man zeige, dass für die Beschleunigung gilt: F (t) = k(t) F (t)
mit k(t) = −
v2 . r2
Man gebe eine physikalische Interpretation der Aussage. 9.4. Unter einer expliziten Polarkoordinatendarstellung Γ : r = f (ϕ) ,
a ≤ ϕ ≤ b,
f (ϕ) ≥ 0
einer Kurve Γ im R2 versteht man die Parameterdarstellung Γ : x = f (ϕ) cos ϕ ,
y = f (ϕ) sin ϕ ,
a≤ϕ≤b.
248
9 Differenziation in Rn
a. Man bestimme Tangentenvektor und Länge einer solchen Kurve Γ . b. Man berechne die Länge der Archimed’schen Spirale r = aϕ ,
a > 0,
0 ≤ ϕ ≤ 2π .
9.5. Man beweise, dass die Tangenteneinheitsvektoren und die Bogenlänge einer glatten, regulären orientierten Kurve im Rn nicht von der Parameterdarstellung der Kurve abhängen. 9.6. Man bestimme die Jacobi-Matrix von: f (x, y) = (x2 + y 2 )sin (x2 + y 2 )−1/2 für (x, y) = (0, 0), f (0, 0) := 0 , x+y g(x, y) := arctan für y = 1/x , 1 − xy √ x+ y G(x, y) = √ für x, y > 0 , x+y ⎞ ⎛ 2 3 3x y z + z 2 x H(x, y, z) = ⎝ 3x sin(x2 + y) ⎠ für (x, y, z) ∈ R3 . exyz 9.7. Sei A = (aij ) eine reelle n × n-Matrix. Man zeige: a. Die lineare Abbildung F (x) := Ax (x ∈ Rn ) ist stetig differenzierbar, und ihre Jacobi-Matrix ist an jedem Punkt x0 ∈ Rn die Matrix A, d. h. JF (x0 ) = A. b. Die Funktion f (x) := Ax | x = xT Ax =
n
aij xi xj
i,j=1
gehört zu C 1 (Rn ), und ihr Gradient ist grad f (x) = Ax + AT x . 9.8. Für die folgenden Abbildungen berechne man die Jacobi-Determinante: a.
F (x, y) =
x2 f (x, y) 1−x2 −y 2 , = y2 g(x, y) 2 2 1−x −y
b.
⎞ ⎛ √ x 2 2 f (x, y) 1−x −y ⎠ F (x, y) = = ⎝√ y . g(x, y) 2 2 1−x −y
Aufgaben
249
9.9. Man beweise, dass für C 1 -Funktionen F, G : Ω → R3 auf einem Gebiet Ω ⊆ R3 gilt: d(F × G) = (dF ) × G + F × (dG) oder, äquivalent, J(F × G)(x)H = (JF (x)H) × G(x) + F (x) × (JG(x)H) für beliebige x ∈ Ω , H ∈ R3×1 . (Hinweis: Man verwende (9.6).) 9.10. Sei f (x, y) total differenzierbar mit fx (5, 11) = 5, fy (5, 11) = 1 und sei
g(u, v) = f ( u2 + v 2 , u3 − v 2 ) . Man berechne: gu (3, 4), gv (3, 4) . 9.11. Sei Ω ⊆ Rn ein Gebiet, g : Ω → R total differenzierbar in x0 ∈ Ω und g(x) = 0 in Ω. Man zeige, dass dann auch 1/g in x0 total differenzierbar ist, und zwar mit der Ableitung dx0 (1/g) = −
1 dx0 g . g(x0 )2
9.12. Seien f (x, y, z), a(r, s, t), b(r, s), c(r) C 1 -Funktionen mit fx (1, 2, 3) = 1 , fy (1, 2, 3) = 2 , fz (1, 2, 3) = 3 , a(1, 2, 3) = 1 , b(1, 2) = 2 , c(1) = 3 , ar (1, 2, 3) = 3 , as (1, 2, 3) = 4 , at (1, 2, 3) = 5 , br (1, 2) = 6 , bs (1, 2) = 7 , c (1) = 8 . Für h(r, s, t) = f (a(r, s, t), b(r, s) , c(r)) berechne man h r , hs , ht
in (r, s, t) = (1, 2, 3) .
9.13. Sei f (r), r ≥ 0, eine positive C 1 -Funktion mit f (5) = f (5). Man berechne für x ∈ R2 die Größe grad (ln f (x)) in x0 = (3, 4) . 9.14. Sei f : ]0, ∞[→ R eine stetig differenzierbare Funktion. Wir definieren eine Funktion F : RN \ {0} → R durch F (x) = f (r), falls x = r > 0. Man zeige, dass F differenzierbar ist und gebe eine Formel für die JacobiMatrix an. Hinweis: Man berechne zuerst die Jacobi-Matrix von ρ(x) = x = x21 + . . . + x2N .
250
9 Differenziation in Rn
9.15. a. Seien f, h : R3 → R und g : R2 → R jeweils stetig differenzierbar. Man bestimme die Jacobi-Matrix von f (x + y, g(x, z), h(x, y, z 2 + sin(z))) in Abhängigkeit von f, g, h. b. Es soll Folgendes als bekannt vorausgesetzt werden (vgl. 15.6b.): Ist f : R2 → R stetig differenzierbar, dann gilt x x d ∂f (t, z) dt , f (t, z)dt = dz y ∂z y und außerdem ist die angegebene Ableitung als Funktion von (x, y, z) stetig. Es seien nun φ, ψ, χ : R → R stetig differenzierbare Funktionen. Man bestimme die Ableitung von
φ(s)
s →
f (t, χ(s))dt . ψ(s)
Man untersuche dazu zuerst
x
(x, y, z) →
f (t, z)dt . y
9.16. Sei F : Ω → Rm (m ≥ 1) eine (skalare oder vektorielle) Funktion auf dem Gebiet Ω ⊆ Rn . Ferner seien ein Punkt x0 ∈ Ω und ein Vektor 0 = v ∈ Rn gegeben. Der Grenzwert ∂F 0 F (x0 + hv) − F (x0 ) (x ) ≡ δF (x0 ; v) := lim h→0 ∂v h h=0
wird als die Richtungsableitung von F am Punkt x0 in Richtung v bezeichnet. Man zeige: Ist F ∈ C 1 (Ω, Rm ), so existiert für beliebige x0 ∈ Ω , v ∈ Rn \ {0} die Richtungsableitung, und sie hat den Wert ∂F 0 (x ) = dFx0 v = JF (x0 )v . ∂v Speziell für m = 1 gilt auch ∂F 0 (x ) = ∇F (x0 ) · v . ∂v 9.17. Die Funktion u : ]0, ∞[ → R sei zweimal stetig differenzierbar. Wir setzen f (x1 , . . . , xn ) := u(r) mit r = ρ(x) := x = x21 + . . . + x2n .
Aufgaben
251
Man beweise die Formel n ∂2f n−1 u (r) . = u (r) + ∂x2k r k=1
(Hinweis: Am bequemsten geht das, wenn man das Ergebnis der Berechnung von Jρ(x) aus Aufg. 9.14 systematisch verwendet.) 9.18. Sei f (x, y, z) = x2 z 2 + 2y 2 . Man bestimme die allgemeine Lösung y = y(x) der Differenzialgleichung d ∂f ∂f (x, y(x), y (x)) − (x, y(x), y (x)) = 0 . dx ∂z ∂y (Hinweis: Die Differenzialgleichung lässt sich auf die in 4.13 betrachtete Form bringen.) 9.19. Die eindimensionale Wellengleichung lautet utt (x, t) = c2 uxx (x, t) ,
(9.64)
wobei c > 0 eine gegebene Größe ist. Man zeige: a. Zu u ∈ C 2 (R2 ) gibt es genau eine Funktion v ∈ C 2 (R2 ), für die gilt: v(y, s) = u(x, t)
mit y = x + ct, s = x − ct ,
(9.65)
und zu jedem v gibt es auch genau ein u, für das (9.65) gilt. Wie definiert man v (bzw. u) bei gegebenem u (bzw. gegebenem v)? b. u ist eine Lösung der Wellengleichung (9.64) genau dann, wenn das entsprechende v die Differenzialgleichung vys = 0
(9.66)
löst. c. Man bestimme die allgemeine Lösung von (9.66) und damit die von (9.64). 9.20. Man berechne die Taylor-Polynome 2. Ordnung der Funktionen f : R3 −→ R,
(x, y, z) → (x2 + y 2 ) cos z und
g : R3 −→ R,
(x, y, z) → ex
2
+y 2 +z 2
.
9.21. a. Die Ausdrücke (x + y + z)2 , (x + y + z)3 , (x + y + z)4 , 2 (w + x + y + z)3 (w + x + y + z) , schreibe man als Summe von Produkten, indem man die Klammern (von Hand oder mittels Computer) ausmultipliziert. Dann überzeuge man sich, dass die Ergebnisse Spezialfälle des polynomischen Satzes (9.55) sind.
252
9 Differenziation in Rn
b. Man leite den binomischen Satz aus (9.55) her. 9.22. Man bestimme und klassifiziere die kritischen Punkte der folgenden Funktionen: a. b. c. d.
f (x, y) = x2 − y 2 + xy − 7, f (x, y) = 2x2 − 2xy + y 2 − 2x + 1, f (x, y) = x4 + y 4 − 2(x − y)2 , f (x, y) = x2 + xy 2 + y 4 .
9.23. Dem Einheitskreis sei das Dreieck mit den Eckpunkten (1, 0), (cos x, sin x), (cos y, sin y) einbeschrieben. Sein (orientierter) Flächeninhalt ist 1 (sin x − sin y + sin(y − x)) . 2 (Dass |F (x, y)| wirklich der Flächeninhalt des Dreiecks ist, geht aus Aufg. 11.3c hervor!) Man bestimme die lokalen Maxima und Minima von f und veranschauliche sich die Resultate geometrisch. F (x, y) =
9.24. Die Distanz zweier nichtleerer Teilmengen A, B ⊆ Rn ist der minimale Abstand, den ein Punkt x ∈ A von einem Punkt y ∈ B haben kann. Genauer: dist (A, B) :=
inf
x∈A, y∈B
x − y .
(9.67)
a. Seien Γ1 , Γ2 ⊆ Rn zwei disjunkte glatte Kurven, parametrisiert durch Γi :
ai ≤ t ≤ b i ,
x = Fi (t) ,
Man zeige: Sind Pi = Fi (ti ) ,
i = 1, 2 .
i = 1, 2 Punkte von Γi mit
P1 − P2 = dist (Γ1 , Γ2 ) , so steht die Gerade durch P1 , P2 senkrecht auf den Tangentenvektoren F1 (t1 ) und F2 (t2 ). (Hinweis: Mit den Quadraten der Abstände rechnet sich alles viel bequemer als mit den Abständen selbst. Außerdem ist Aufg. 9.1 nützlich.) b. Man berechne die Distanz zweier windschiefer Geraden G1 , G2 ⊆ Rn (d. h. die Geraden sollen weder parallel sein noch sich schneiden). Die Gerade Gi soll dabei durch einen Punkt Ai ∈ Gi und einen Einheitsvektor hi entlang Gi gegeben sein. 9.25. Sei H ein Prähilbertraum, U ⊆ H ein linearer Teilraum von endlicher Dimension, und sei y 0 ∈ H \ U gegeben. Man beweise: Es gibt genau einen Punkt x0 ∈ U , für den y 0 − x0 = dist (y 0 , U ) := min y 0 − x x∈U
⊥
ist, und für diesen gilt y − x ∈ U . (Hinweis: Führt man in U Koordinaten in Bezug auf eine feste ONB ein, so kann man x0 als Lösung einer Extremwertaufgabe auffassen. Wieder ist es am praktischsten, mit den Quadraten der Abstände zu rechnen.) 0
0
10 Ausbau der Differenzialrechnung: Implizite Funktionen und Vektoranalysis
Die Differenzialrechnung mehrerer Variablen kann und muss in vielerlei Hinsicht ausgebaut werden, und wir werden uns hier nicht zum letzten Mal mit diesem Thema beschäftigen (vgl. besonders die Kap. 21 und 22). Im Augenblick geht es um die folgenden beiden Themen: Abschn. A. handelt von zwei berühmten, eng miteinander verwandten Sätzen über implizit definierte Funktionen, mit denen die Differenzialrechnung ein unverzichtbares Werkzeug für den Umgang mit nichtlinearen Gleichungssystemen bereitstellt, und ab Abschn. B. geben wir einen ersten Einblick in die sog. Vektoranalysis, die zu den meistgebrauchten und am dringendsten benötigten mathematischen Hilfsmitteln des Physikers und Ingenieurs gehört.
A. Inverse und implizite Funktionen Wir beschäftigen uns nun mit der Frage, unter welchen Bedingungen eine C 1 -Abbildung aus Rn in Rn y = F (x)
oder ausführlich
y1 = f1 (x1 , . . . , xn ) ··· yn = fn (x1 , . . . , xn )
(10.1)
x1 = g1 (y1 , . . . , yn ) ··· xn = gn (y1 , . . . , yn )
(10.2)
eine C 1 -Umkehrabbildung x = G(y) bzw. ausführlich
wenigstens lokal, d. h. in Umgebungen U0 eines Punktes x0 bzw. V0 des Punktes y0 = G(x0 ) besitzt. Der Begriff der Umgebung hat dabei eine präzise mathematische Bedeutung: Innerhalb einer Umgebung U eines Punktes a kann man a in jeder beliebigen Richtung um eine feste Entfernung δ verschieben. Genauer:
254
10 Implizite Funktionen und Vektoranalysis
Definition 10.1. Eine Teilmenge U ⊆ Rn heißt Umgebung eines Punktes a ∈ Rn , wenn für ein genügend kleines δ > 0 die Kugel um a mit Radius δ ganz in U liegt. Im Falle n = 1 sagt uns Theorem 2.18d, dass die Gleichung y = f (x) , f ∈ C 1
eine Umkehrung x = g(y), g ∈ C 1
hat, wenn f (x) = 0 ist. Eine ähnliche Bedingung benötigt man auch im allgemeinen Fall. Dazu nehmen wir an, dass die inverse Abbildung G = F −1 in (10.2) existiert und aus C 1 ist. Dann gilt für y ∈ V0 , x = G(F (x)) für x ∈ U0 .
y = F (G(y))
(10.3)
Bilden wir auf beiden Seiten die Jacobimatrix, so folgt mit der Kettenregel in Theorem 9.16 (JG(F (x))) · (JF )(x) = E , (10.4) d. h.
(JG)(y) = (JF )−1 (x)
für y = F (x) ,
(10.5)
was nur möglich ist, wenn det(JF )(x) =
∂(y1 , . . . , yn ) = 0 für x ∈ U0 . ∂(x1 , . . . , xn )
(10.6)
Bedingung (10.6) ist also notwendig für die Existenz einer inversen Abbildung. Sie ist aber auch hinreichend, jedenfalls wenn wir F nur auf einer (möglicherweise kleinen) Umgebung von x0 betrachten. Dies wird durch den folgenden fundamentalen Satz ausgedrückt, den wir ohne Beweis vermerken: Theorem 10.2 (Satz über inverse Funktionen). Sei Ω ⊆ Rn ein Gebiet, F : Ω −→ Rn eine C 1 -Abbildung, sodass in x0 ∈ Ω det(JF )(x0 ) = 0
(10.7)
gilt. Dann gibt es Umgebungen U0 von x0 und V0 von y0 = F (x0 ), sodass F : U0 −→ V0 bijektiv ist und eine lokale C 1 -Umkehrabbildung G : V0 −→ U0 hat. Es gilt also: G(F (x)) = x
∀ x ∈ U0 ,
F (G(y)) = y
∀ y ∈ V0 .
(10.8)
Ferner gilt: −1
(JG)(y) = (JF )(x)−1 , −1 ∂(y1 , . . . , yn ) 1 ∂(x1 , . . . , xn ) ≡ det(JG) = = . ∂(y1 , . . . , yn ) det(JF ) ∂(x1 , . . . , xn ) dGy = (dFx )
und
(10.5) (10.9)
Ist F sogar s-mal stetig differenzierbar (s ≥ 1), so trifft dies auch auf G zu.
A. Inverse und implizite Funktionen
255
Beispiele 10.3. Gilt det(JF )(x) = 0 für alle x ∈ Ω, so folgt i. Allg. nicht die globale Umkehrbarkeit von F in ganz Ω. Für die Polarkoordinatenabbildung X = F (r, ϕ)
x = r cos ϕ y = r sin ϕ
bzw.
ist nach Beispiel 9.12
∂(x, y) =r, ∂(r, ϕ)
d. h. det(JF )(r, ϕ) = 0 in Ω = ]0, ∞[ ×R. Dennoch ist F : Ω −→ R2 nicht injektiv, denn jeder Halbstreifen Sn = {(r, ϕ)| r > 0 , nπ ≤ ϕ < (n + 2)π} , n ∈ Z wird von F auf ganz R2 \ {0} abgebildet. Man bekommt daher nur lokale Umkehrfunktionen, z. B. auf den Streifen Sn . Als Verallgemeinerung von (10.1) betrachten wir nun ein implizites Gleichungssystem der Form G(x, y) = 0
g1 (x1 , . . . , xn , y1 , . . . , ym ) = 0 ··· gm (x1 , . . . , xn , y1 , . . . , ym ) = 0 ,
bzw. ausführlich
(10.10)
wobei G : Rn+m −→ Rm eine C 1 -Abbildung ist. Wir fragen, unter welchen Bedingungen das System (10.10) aus m-Gleichungen nach den m-Variablen y1 , . . . , ym in folgender Form aufgelöst werden kann: y = Φ(x)
bzw. ausführlich
y1 = ϕ1 (x1 , . . . , xn ) ··· ym = ϕm (x1 , . . . , xn ) ,
(10.11)
wobei Φ : Rn −→ Rm eine C 1 -Abbildung sein soll. Wenn es eine solche Auflösung gibt, so muss gelten: G(x, Φ(x)) = 0
für alle x
(10.12)
wenigstens in einer Umgebung U0 eines Punktes x0 . Bilden wir die JacobiMatrix, so folgt mit der Kettenregel in Theorem 9.16: ∇x G(x, Φ(x)) + ∇y G(x, Φ(x)) · (JΦ)(x) = 0 , wobei ∇x G :=
∂gi ∂xj
∂gi ∈ Rm×m , ∇y G := ∂y j i ∈ Rm×n . JΦ = ∂ϕ ∂xj
∈ Rm×n ,
(∇x G, ∇y G) = JG ,
(10.13)
(10.14)
Aus (10.13) bekommt man die Jacobi-Matrix JΦ der Auflösung Φ in der Form (10.15) (JΦ)(x) = −(∇y G(x, y))−1 · (∇x G(x, y)) ,
256
10 Implizite Funktionen und Vektoranalysis
falls die inverse Matrix (∇y G)−1 existiert, d. h. falls ∂(g1 , . . . , gm ) = 0 ∂(y1 , . . . , ym )
(10.16)
ist. Wieder ist die notwendige Bedingung (10.16) auch hinreichend, wie der folgende, ebenso fundamentale, Satz zeigt: Theorem 10.4 (Satz über implizite Funktionen). Sei Ω ⊆ Rm+n ein Gebiet, G : Ω −→ Rm eine C 1 -Abbildung und sei (x0 , y0 ) ∈ Ω mit G(x0 , y0 ) = 0 . Ist dann det ∇y G(x0 , y0 ) =
∂(g1 , . . . , gm ) = 0 , ∂(y1 , . . . , ym ) (x0 ,y0 )
so gibt es eine Umgebung U0 von x0 im Rn , eine Umgebung W0 von y0 im Rm und eine C 1 -Abbildung Φ : U0 −→ W0 , sodass y = Φ(x) für x ∈ U0 die eindeutige in W0 liegende Lösung der Gleichung G(x, y) = 0 ist. Anders ausgedrückt: Der Graph von Φ ist genau die Lösungsmenge der Gleichung (10.10) in U0 × W0 . Ist F sogar s-mal stetig differenzierbar (s ≥ 1), so trifft dies auch auf Φ zu. Auch hier verzichten wir auf den Beweis. (Beweise der Sätze 10.2 und 10.4 finden sich in praktisch jedem Lehrbuch der mathematischen Analysis.) Beispiele 10.5. a. Die Gleichung einer implizit gegebenen Kurve Γ : g(x, y) = 0 im R2 kann lokal nach y = f (x) (als explizite Kurve) aufgelöst werden, wenn für ein (x0 , y0 ) g(x0 , y0 ) = 0 und gy (x0 , y0 ) = 0 . Dann ist y = f (x) = −
gx (x, y) , gy (x, y)
d. h. wir haben eine Differenzialgleichung zur Bestimmung von y = f (x). b. Eine implizit gegebene Fläche S : g(x, y, z) = 0 kann lokal in expliziter Form z = f (x, y) geschrieben werden, wenn für einen Punkt (x0 , y0 , z0 ) g(x0 , y0 , z0 ) = 0 Dann ist zx = −
und
gx (x, y, z) , gz (x, y, z)
gz (x0 , y0 , z0 ) = 0 . zy = −
gy (x, y, z) . gz (x, y, z)
B. Vektorfelder und Potenziale
257
B. Vektorfelder und Potenziale In Anlehnung an gewisse physikalische Interpretationen werden reellwertige Funktionen ϕ : Ω −→ R auch als Skalarfelder , Rn -wertige Funktionen F : Ω −→ Rn auch als Vektorfelder bezeichnet, wenn Ω eine offene Teilmenge von Rn ist. In diesem Abschnitt führen wir spezielle Differenzialoperatoren für Skalar- und Vektorfelder ein und übertragen den Begriff der Stammfunktion auf Vektorfelder. Definitionen 10.6. Sei Ω ⊆ Rn ein Gebiet, F : Ω −→ Rn ein C 1 -Vektorfeld. a. Das Vektorfeld F heißt konservativ, wenn es ein C 1 -Skalarfeld ϕ : Ω −→ R, ein sogenanntes skalares Potenzial gibt, sodass in Ω gilt: F = grad ϕ ,
d. h.
∂ϕ ∂xi
fi =
(i = 1, . . . , n) .
(10.17)
ϕ wird auch als Stammfunktion von F bezeichnet. b. Für das Vektorfeld F definiert man die Divergenz durch div F ≡ ∇ · F :=
n ∂fi : Ω −→ R . ∂x i i=1
(10.18)
Man nennt F quellenfrei, wenn div F = 0
in Ω .
(10.19)
c. Für Skalarfelder f ∈ C 2 (Ω) definiert man ∆f := div grad f =
n ∂2f . ∂x2k k=1
∆ wird Laplace-Operator genannt. Man nennt f harmonisch, wenn f die Laplace-Gleichung ∆f = 0
in
Ω
(10.20)
erfüllt. d. Ist n = 3, so definiert man die Rotation durch e1 D1 f1 rot F ≡ ∇ × F := e2 D2 f2 e3 D3 f3 = (D2 f3 − D3 f2 )e1 + (D3 f1 − D1 f3 )e2 + (D1 f2 − D2 f1 )e3 , (10.21) d. h. (rot F )k :=
3 i,j=1
εijk Di fj .
(10.22)
258
10 Implizite Funktionen und Vektoranalysis
(Der „ε-Tensor“ εijk wurde in 6.19 definiert.) Man nennt das Vektorfeld F wirbelfrei, wenn rot F = 0 in Ω . (10.23) Ein Vektorfeld F : Ω −→ R3 heißt ein Wirbelfeld, wenn es ein sogenanntes Vektorpotenzial G : Ω −→ R3 gibt mit F = rot G
in Ω .
(10.24)
Eine notwendige Bedingung für die Existenz eines Potenzials liefert uns der Satz von Schwarz. Für n = 3 kann man dies besonders griffig wie folgt formulieren: Satz 10.7. a. Ist Ω ⊆ R3 ein Gebiet und G : Ω −→ R3 ein C 2 -Vektorfeld, ϕ : Ω −→ R ein C 2 -Skalarfeld, so gilt rot grad ϕ = 0
in Ω ,
(10.25)
div rot G = 0
in Ω .
(10.26)
b. Ist das Vektorfeld F : Ω −→ R konservativ, so ist F wirbelfrei, d. h. es gelten die Integrabilitätsbedingungen 3
∂fk ∂fi = ∂xk ∂xi
in Ω,
i, k = 1, 2, 3 .
(10.27)
c. Ist das Vektorfeld F : Ω −→ R3 ein Wirbelfeld, so ist F quellenfrei. Mit G(x) ist auch H(x) := G(x) + grad ψ(x) für jede C 2 -Funktion ψ : Ω −→ R ein Vektorpotenzial für F . Es ist klar, dass b und c aus (10.25) und (10.26) folgen, die man mit Theorem 9.19 einfach nachrechnet. Aber auch in beliebiger Dimension n sagt uns Theorem 9.19, dass die Jacobi-Matrix eines konservativen Vektorfeldes stets symmetrisch ist, dass also die Integrabilitätsbedingungen (10.27) für i, k = 1, . . . , n gelten. Ob wirbelfreie Vektorfelder immer konservativ und quellenfreie Vektorfelder immer Wirbelfelder sind, müssen wir im Folgenden noch untersuchen. Zuvor leiten wir noch einige Rechenregeln für die Feldoperationen her. Im nachfolgenden Satz ist jede der aufgeführten Rechenregeln unter Verwendung des Nabla-Operators ∇ wiederholt. Die Anwendung von ∇ auf Vektorfelder ist komponentenweise zu verstehen, und damit ist ∇F die Jacobi-Matrix von F . Satz 10.8. Sei Ω ⊆ R3 ein Gebiet, ψ, ϕ : Ω −→ R C 2 -Skalarfelder, F, G : Ω −→ R3 C 2 -Vektorfelder. Dann gilt:
B. Vektorfelder und Potenziale
259
a. grad (ϕψ) = ϕ grad ψ + ψ grad ϕ ∇(ϕψ) = ϕ∇ψ + ψ∇ϕ . b.
grad (F · G) = (JG) · F + (JF ) · G +F × rot G + G × rot F ∇(F · G) = (∇G)F + (∇F )G + F × (∇ × G) + G × (∇ × F ) .
c.
div (ϕF ) = ϕ div F + ( grad ϕ) · F ∇ · (ϕF ) = ϕ∇ · F + (∇ϕ) · F .
d.
rot (ϕF ) = ϕ rot F + ( grad ϕ) × F ∇ × (ϕF ) = ϕ∇ × F + (∇ϕ) × F .
e.
div (F × G) = −F · rot G + G · rot F ∇ · (F × G) = −F · (∇ × G) + G · (∇ × F ) .
f.
rot (rot F ) = grad div F − div grad F ∇ × (∇ × F ) = ∇(∇ · F ) − ∇ · (∇F ) .
Beweis. a. Ist einfach die Produktregel für partielle Ableitungen. b. Für die k-te Komponente gilt: (grad F · G)k = Dk ( i fi gi ) = i (Dk fi ) · gi + i fi (Dk gi ) . Wir betrachten exemplarisch die erste Summe auf der rechten Seite für k = 1: D1 f1 · g 1 + D1 f2 · g 2 + D1 f3 g 3 = D1 f1 · g 1 + D2 f1 · g 2 + D3 f1 g 3 − D2 f1 · g 2 − D3 f1 g 3 + D1 f2 g 2 + D1 f3 · g 3 ⎛ ⎞ g1 = (D1 f1 , D2 f1 , D3 f1 ) · ⎝g2 ⎠ g3 + (rot F )3 · g2 − (rot F )2 · g3 = ((JF )G)1 + (G × rot F )1 .
260
10 Implizite Funktionen und Vektoranalysis
c.
∇ · (ϕF ) = i Di (ϕfi ) = ϕ i Di fi + i (Di ϕ)fi = ϕ div F + ( grad ϕ) · F .
d.
(rot ϕF )k = i,j εijk Di (ϕfj ) = i,j εijk (Di ϕ)fj + ϕ i,j εijk Di fj = (grad ϕ × F )k + ϕ (rot F )k .
Die übrigen Regeln werden analog bewiesen (Übung).
C. Kurvenintegrale von Vektorfeldern Im Folgenden sei K : Rn −→ Rn ein stetiges Vektorfeld, z. B. ein Kraftfeld, und es sei Γ : x = F (t) , a ≤ t ≤ b eine glatte Kurve im Rn . Wir berechnen die Arbeit, die geleistet werden muss, um eine Masse m in dem Kraftfeld K entlang Γ zu verschieben. Nach dem Newton’schen Grundgesetz gilt mF (t) = K(F (t)) , a ≤ t ≤ b . Multiplizieren wir diese Gleichung skalar mit F (t), so folgt mit der Kettenregel d m F (t)2 . K(F (t)) · F (t) = mF (t) · F (t) = dt 2 Integration bezüglich t von a bis b liefert dann mit dem Hauptsatz 3.4 b m m F (b)2 − F (a)2 = K(F (t)) · F (t)dt . 2 2 a Auf der linken Seite steht die Differenz der kinetischen Energien zwischen Endund Anfangspunkt, die nach dem Energiesatz gleich der geleisteten Arbeit auf der rechten Seite sein muss. Dies motiviert die folgende Definition: Definition 10.9. Sei Ω ⊆ Rn ein Gebiet, K : Ω −→ Rn ein stetiges Vektorfeld mit den Komponenten K1 , . . . , Kn , Γ : x = F (t) = (f1 (t), . . . , fn (t))T , a ≤ t ≤ b, eine glatte Kurve in Ω. Dann definiert man das Kurvenintegral von K entlang Γ durch b b @ n K := K(F (t)) · F (t)dt = Kj (F (t))fj (t) dt . (10.28) Γ
a
a j=1
@
@
K1 (x) dx1 + · · · + Kn (x) dxn .
K=
Ausführlichere Schreibweise: Γ
Γ
C. Kurvenintegrale von Vektorfeldern
261
Das Kurvenintegral bleibt gleich, wenn man zu einer anderen Parameterdarstellung derselben orientierten Kurve übergeht. Das folgt sofort aus Definition 9.4 und der Substitutionsregel für Integrale. Setzt sich Γ = Γ1 ∪ · · · ∪ ΓN aus glatten, gleich orientierten Kurvenstücken zusammen, so ist @ K= Γ
N @ i=1
K.
Ist −Γ die entgegengesetzt orientierte Kurve, so ist @ @ K=− K. −Γ
(10.29)
Γi
(10.30)
Γ
Es ist klar, dass (10.29) und (10.30) aus der Definition 3.1c, Satz 3.2a und Satz 3.6b folgen. Nehmen wir nun an, das Vektorfeld K sei konservativ, d. h. K besitzt eine Potenzialfunktion ϕ : Ω −→ R mit grad ϕ = K
in Ω .
Dann folgt aus (10.28) mit der Kettenregel aus Theorem 9.16 A Γ
K= =
b a b a
K(F (t)) · F (t)dt =
b
grad ϕ(F (t)) · F (t)dt
a d dt
(10.31)
= ϕ(F (b)) − ϕ(F (a)) ,
ϕ(F (t))dt
d. h. das Kurvenintegral hängt nur von den Werten des Potenzials im Anfangsund Endpunkt der Kurve Γ ab. Man sagt, das Kurvenintegral sei wegunabhängig. Wir haben bewiesen: Satz 10.10. a. Das Kurvenintegral von konservativen Vektorfeldern ist wegunabhängig, und genauer gilt für alle stückweise glatten Kurven von a nach b in Ω: @ K = ϕ(b) − ϕ(a) , (10.32) Γ
wenn ϕ ein Potenzial für K ist. b. Das Kurvenintegral von konservativen Vektorfeldern längs geschlossener Wege Γ verschwindet, d. h. @ K = 0 , wenn Γ geschlossene Kurve. (10.33) Γ
Ist ϕ ein Potenzial für K und c ∈ R eine Konstante, so ist offenbar auch ϕ1 := ϕ + c ein solches Potenzial. Das ist aber auch die einzige Möglichkeit, zu neuen Potenzialen für K zu gelangen, wie man mit Hilfe von Kurvenintegralen einsieht:
262
10 Implizite Funktionen und Vektoranalysis
Korollar 10.11. Zwei Potenziale eines Vektorfeldes K in einem Gebiet unterscheiden sich nur um eine additive Konstante. Beweis. Seien ϕ, ϕ1 Potenziale für K im Gebiet Ω, und sei a ∈ Ω ein fester Punkt. Da Ω zusammenhängend ist, können wir jedes beliebige x ∈ Ω durch eine glatte Kurve Γ ⊆ Ω mit a verbinden. Für beide Potenziale haben wir dann Gl. (10.32), und daher gilt ϕ(x) − ϕ(a) = ϕ1 (x) − ϕ1 (a) . Das kann man auch schreiben als ϕ1 (x) − ϕ(x) = ϕ1 (a) − ϕ(a) ,
und die rechte Seite hiervon ist konstant.
Wir zeigen nun, dass aus der Wegunabhängigkeit des Kurvenintegrals die Existenz einer Potenzialfunktion folgt. Sei dazu a ∈ Ω ein fester Punkt. Dann definieren wir ϕ : Ω −→ R durch @ x K, x∈Ω , (10.34) ϕ(x) := a
wobei längs eines beliebigen Weges Γ von a nach x in Ω integriert wird. Dann bilden wir (vgl. Abb. 10.1)
Abb. 10.1. Differenzenquotient für (10.34)
⎧ x+he ⎫ x+he @ i @x ⎬ @ i ϕ(x + hei ) − ϕ(x) 1⎨ 1 = K− K = K ⎭ h h h⎩ a
=
1 h
a
1 K(x + tei ) · ei dt = 0
x
1 h
1 ki (x + tei )dt , 0
und daraus folgt dann mit dem Mittelwertsatz der Integralrechnung aus Satz 3.2f Di ϕ(x) = lim
h−→0
1 (ϕ(x + hei ) − ϕ(x)) = lim ki (x + θh ei ) = ki (x) , h−→0 h
C. Kurvenintegrale von Vektorfeldern
263
d. h. ϕ ist eine Potenzialfunktion von K. Damit haben wir: Satz 10.12. Ein stetiges Vektorfeld K : Ω −→ Rn in einem Gebiet Ω ⊆ Rn ist genau dann konservativ, wenn alle Kurvenintegrale von K in Ω wegunabhängig sind. In Satz 10.7b. und im anschließenden Text haben wir gezeigt, dass konservative Vektorfelder K : Ω −→ Rn der Klasse C 1 die Integrabilitätsbedingungen i, j = 1, . . . , n in Ω (10.35) Di kj = Dj ki , erfüllen, (bzw. in Ω ⊆ R3 wirbelfrei sind). Wir untersuchen, ob auch die Umkehrung gilt. Betrachten wir ein Beispiel. Beispiele 10.13. In Ω = R2 \ {(0, 0)} betrachte das Vektorfeld W (x, y) =
T −y x f (x, y) = , . g(x, y) x2 + y 2 x2 + y 2
Es ist fy =
−(x2 + y 2 ) + 2y 2 y 2 − x2 (x2 + y 2 ) − 2x2 = = = gx , (x2 + y 2 )2 (x2 + y 2 )2 (x2 + y 2 )2
d. h. W erfüllt in Ω die Integrabilitätsbedingungen. Betrachten wir andererseits die geschlossene Kurve Γ : x = cos t ,
y = sin t ,
0 ≤ t ≤ 2π ,
so wird A
W =
Γ
=
2π
(f (cos t , sin t) · (− sin t) + g(cos t , sin t) · cos t)dt
0 2π
(sin2 t + cos2 t)dt = 2π = 0 ,
0
d. h. Kurvenintegrale in Ω sind i. Allg. nicht wegunabhängig, und daher ist W nach Satz 10.12 nicht konservativ. Es gibt also keine in ganz Ω definierte Potenzialfunktion. Allerdings überprüft man, dass in Ω + = {(x, y) | y > 0} die Funktion x ϕ(x, y) = − arctan y die Bedingungen ϕx = f , ϕy = g erfüllt. Zusätzlich zu den Integrabilitätsbedingungen (10.35) scheint also noch eine Bedingung an die Gestalt von Ω notwendig zu sein, damit die Existenz einer Potenzialfunktion gesichert ist. Solche Bedingungen formulieren wir jetzt.
264
10 Implizite Funktionen und Vektoranalysis
Definitionen 10.14. a. Ein Gebiet Ω ⊆ Rn heißt einfach zusammenhängend, wenn jede geschlossene Kurve in Ω innerhalb von Ω zu einem Punkt kontrahiert werden kann. Genauer: Jede stetige Funktion F : [a, b] → Ω mit F (a) = F (b) hat eine stetige Fortsetzung H : [a, b] × [0, 1] → Ω, für die gilt: H(t, 0) = F (t) H(a, s) = H(b, s) H(t, 1) ist konstant
für a ≤ t ≤ b , für 0 ≤ s ≤ 1 , für a ≤ t ≤ b .
b. Ein Gebiet Ω ⊆ Rn heißt sternförmig bzgl. eines Punktes x0 ∈ Ω, wenn jeder Punkt x ∈ Ω durch die Strecke [x0 , x] := {x0 + s(x − x0 )|0 ≤ s ≤ 1} innerhalb von Ω mit x0 verbunden werden kann. Ein konvexes Gebiet Ω ⊆ Rn ist offenbar sternförmig bzgl. jedes Punktes x ∈ Ω, und ein sternförmiges Gebiet ist einfach zusammenhängend. Ist nämlich Ω sternförmig bzgl. x0 und ist F : [a, b] → Ω die Parameterdarstellung einer geschlossenen Kurve, so können wir eine geeignete Kontraktion H : [a, b] × [0, 1] → Ω definieren durch H(t, s) := x0 + (1 − s)(F (t) − x0 ) . Dann erfüllt H alle drei in der Definition genannten Bedingungen, und man kann sich auch anschaulich leicht klar machen, wie H die Kurve x = F (t) innerhalb von Ω auf den Punkt x0 zusammenzieht, während s von 0 nach 1 läuft. Satz 10.15. Sei Ω ⊆ Rn ein einfach zusammenhängendes Gebiet. Dann gilt: a. Ein C 1 -Vektorfeld F : Ω −→ Rn , das die Integrabilitätsbedingungen erfüllt, ist konservativ, d. h. besitzt eine Potenzialfunktion ϕ : Ω −→ R mit grad ϕ = F . b. Sei n = 3 und Ω sogar sternförmig. Ein quellenfreies Vektorfeld F : Ω −→ R3 ist dann ein Wirbelfeld, d. h. es gibt ein Vektorpotenzial G : Ω −→ R3 mit F = rot G .
Beweis. Wir beweisen a. für ein sternförmiges Gebiet Ω bezüglich des Nullpunktes 0 ∈ Ω. Für jedes x ∈ Ω liegt dann die Strecke Γ : φ(t) = tx ,
0 ≤ t ≤ 1,
von 0 nach x
D. Krummlinige Koordinaten
265
ganz in Ω. Dann definieren wir ϕ : Ω −→ R durch ϕ(x) = =
A Γ 1
F =
1
˙ F (φ(t) · φ(t)dt
0
F (tx) · xdt =
n 1
fk (tx)xk dt .
0 k=1
0
Wie wir in Satz 15.6b beweisen werden, darf man unter den gemachten Voraussetzungen Integration und Differentiation vertauschen. Mit der Kettenregel folgt dann: Di ϕ(x) = = =
1 0 k 1 0 k 1 0 k
Di (fk (tx)xk )dt Di fk (tx) · txk dt +
1
fi (tx)dt
0 1
Di fk (tx) · txk dt + [tfi (tx)]0
= fi (x) + t
1 d − t dt fi (tx)dt 1 0
0
(Di fk (tx) − Dk fi (tx))txk dt = fi (x) .
k
Teil b wird ähnlich bewiesen. Ein Vektorpotenzial für F im Gebiet Ω ist z. B. 1 G(x) := tF (tr) dt × r (10.36) 0
mit r = x − x0 , wenn Ω sternförmig bzgl. x0 ist. Einzelheiten findet man etwa in [25], Abschn. 29.1.
D. Krummlinige Koordinaten Wir haben schon gesehen, dass ein beliebiger Vektor bezüglich verschiedener Basen des betreffenden Vektorraums durch verschiedene n-Tupel von Koordinaten beschrieben wird. Die Festlegung einer Basis führt also in dem Vektorraum ein Koordinatensystem ein, und verschiedene derartige Koordinatensysteme werden durch bijektive lineare Abbildungen (lineare Koordinatentransformationen) ineinander umgerechnet (vgl. Def. 6.8 und Satz 6.9). In der Physik trifft man aber auf Schritt und Tritt auch krummlinige Koordinaten an, die mittels nichtlinearer Transformationen aus den üblichen kartesischen Koordinaten x1 , . . . , xn hervorgehen. Man denke nur an Polarkoordinaten oder Zylinderkoordinaten (s. u.). Um Funktionen, die die Verteilung physikalischer Größen beschreiben, vernünftig in derartige Koordinaten umrechnen zu können, muss man aber zumindest verlangen, dass die entsprechenden Transformationen glatt sind, d. h. so oft stetig differenzierbar, wie man gerade braucht.
266
10 Implizite Funktionen und Vektoranalysis
Wir definieren: Definition 10.16. Seien G und Ω Gebiete in Rn . Eine Abbildung Q : G −→ Ω der Klasse C s heißt ein C s –Diffeomorphismus oder eine Koordinatentransformation der Klasse C s von G auf Ω, wenn sie bijektiv ist und wenn ihre Umkehrfunktion Q−1 : Ω −→ G ebenfalls von der Klasse C s ist. Die Variable, die in G läuft, bezeichnen wir nun mit u = (u1 , . . . , un ) und stellen uns auf den Standpunkt, die Punkte x ∈ Ω würden durch „krummlinige Koordinaten“ u1 , . . . , un in der Form x = Q(u1 , . . . , un ) beschrieben. (Die „krummen Linien“, von denen hier die Rede ist, sind die Kurven, auf denen alle Koordinaten bis auf eine konstant sind, also die Kurven der Form Fk (t) := Q(u1 , . . . , uk−1 , t, uk+1 , . . . , un ).) Ein Skalarfeld ϕ : Ω → R wird demnach in den u-Koordinaten durch die Funktion ϕ˜ := ϕ ◦ Q : G −→ R
(10.37)
beschrieben, und man nennt ϕ˜ die Darstellung von ϕ in den u-Koordinaten. Um auch Vektorfelder transformieren zu können, beachten wir, dass nach (10.6) die Jacobi-Matrix JQ(u) stets regulär ist und dass daher ihre Spalten bj (u) := dQu (ej ) = Dj Q(u) =
∂Q (u) , ∂uj
j = 1, . . . , n
(10.38)
eine Basis von Rn bilden. Diese Basen hängen natürlich von u ∈ G ab, und man tut gut daran, sich die Vektoren b1 (u), . . . , bn (u) am Punkt x = Q(u) angeheftet vorzustellen. Ist nun F : Ω −→ Rn ein Vektorfeld, so entwickelt man den Vektor F (x) = F (Q(u)) stets nach der durch (10.38) gegebenen Basis, schreibt also (F ◦ Q)(u) =
n
f˜j (u)bj (u)
(u ∈ G) .
(10.39)
j=1
Die vektorwertige Funktion ⎞ f˜1 (u) ⎜ ⎟ F˜ (u) := ⎝ ... ⎠ f˜n (u) ⎛
(10.40)
wird nun als die Darstellung des gegebenen Vektorfeldes F in den u-Koordinaten bezeichnet. In der Tat ist ja F˜ (u) nichts anderes als die Koordinatenspalte des Vektors F (x) in Bezug auf diejenige Basis des Rn , die am Punkt x = Q(u) durch Q gestiftet wurde.
D. Krummlinige Koordinaten
267
Der nächste Schritt ist nun, die Feldoperationen Gradient, Divergenz, Rotation und den Laplace-Operator in den neuen Koordinaten auszudrücken. Das heißt, wenn z. B. F = grad ϕ ist, so möchte man F˜ aus ϕ˜ berechnen. Ebenso möchte man ϕ˜ aus F˜ berechnen, wenn ϕ = div F ist, usw. Die allgemeine Antwort auf diese Fragen würde hier zu weit führen, doch für die meisten physikalischen Anwendungen ist schon der folgende Spezialfall ausreichend: Definition 10.17. Eine Koordinatentransformation Q : G → Ω heißt orthogonal, wenn für j = k und u ∈ G stets gilt: bj (u) · bk (u) = 0 , wobei die bi (u) (i = 1, . . . , n) durch (10.38) gegeben sind. Man sagt dann auch, durch Q würden in Ω orthogonale Koordinaten eingeführt. Die skalaren Funktionen (j = 1, . . . , n) Nj (u) := bj (u) = bj (u) · bj (u) nennt man die Maßstabsfaktoren der Koordinatentransformation. Bemerkung: Bei einer linearen Transformation Q : Rn −→ Rn sind die b1 , . . . , bn einfach die Spalten der Matrix, die Q bzgl. der kanonischen Basis beschreibt. Solch eine lineare Abbildung wird als orthogonal bezeichnet, wenn die b1 , . . . , bn ein Orthonormalsystem bilden (vgl. 7.12) Sie ist dann also orthogonal im Sinne von Def. 10.17 und hat Maßstabsfaktoren Nk ≡ 1. Der Ausdruck „orthogonal“ wird bei linearen Abbildungen also in einem engeren Sinne verwendet als bei allgemeinen Koordinatentransformationen. Dies kann Verwirrung stiften, hat sich aber eingebürgert. Durch geschickte Kombination der Kettenregel mit etwas linearer Algebra kann man nun den folgenden Satz beweisen: Satz 10.18. Es sei Q : G → Ω eine orthogonale Koordinatentransformation der Klasse C 2 mit den Maßstabsfaktoren N1 , . . . , Nn : G →]0, ∞[. Die entsprechenden Basisvektoren b1 (u), . . . , bn (u) bei x = Q(u) seien durch (10.38) gegeben. Für ein Skalarfeld ϕ ∈ C 2 (Ω) und ein Vektorfeld F ∈ C 2 (Ω, Rn ) seien ϕ˜ bzw. F˜ die Darstellungen in den durch Q gestifteten krummlinigen Koordinaten, wie sie durch (10.37) bzw. (10.39), (10.40) gegeben sind. Dann gilt: a. Für u ∈ G, k = 1, . . . , n ist f˜k (u) = Nk (u)−2 F (Q(u)) · bk (u) . b. F = ∇ϕ in Ω
(10.41)
⇐⇒ ∂ ϕ(u) ˜ f˜k (u) = Nk (u)−2 ∂uk
für u ∈ G, k = 1, . . . , n.
(10.42)
268
10 Implizite Funktionen und Vektoranalysis
c. ϕ = div F in Ω ϕ(u) ˜ =
⇐⇒
n 1 ∂ D(u)f˜j (u) D(u) j=1 ∂uj
für
u∈G,
wobei D := N1 N2 · · · Nn gesetzt wurde. d. Für ϕ ∈ C 2 (Ω) ist für alle x = Q(u) ∂ 1 ∂ ∆ϕ(x) = ϕ(u) ˜ . D(u)Nj (u)−2 D(u) j ∂uj ∂uj
(10.43)
(10.44)
e. Speziell sei n = 3, und die durch (10.38) gegebenen Vektoren b1 , b2 , b3 mögen bei jedem u ∈ G ein Rechtssystem bilden, d. h. es soll b3 = λ(b1 × := w ◦ Q und b2 ) sein mit einem λ > 0. Dann gilt für w ∈ C 1 (Ω; R3 ), w F ∈ C 0 (Ω; R3 ) genau dann F = rot w, wenn: · b3 − ∂3 w · b2 f˜1 = N1 N12 N3 ∂2 w · b1 − ∂1 w · b3 (10.45) f˜2 = N1 N12 N3 ∂3 w 1 · b2 − ∂2 w · b1 f˜3 = N1 N2 N3 ∂1 w in ganz G. Dabei wurde ∂j = ∂/∂uj gesetzt (j = 1, 2, 3), und das Argument u wurde überall weggelassen. Beweis. (10.41) folgt sofort, wenn man (10.39) skalar mit bk (u) multipliziert. Ebenso gilt für jedes Vektorfeld v : G −→ Rn (wir lassen das Argument u jetzt meistens weg!) v= (v · bj ) Nj−2 bj . (10.46) j
Nun sei ϕ ∈ C (Ω). Dann ergibt die Kettenregel: 1
∂ (ϕ ◦ Q) = (∇ϕ ◦ Q) · bj ∂uj
(1 ≤ j ≤ n) .
(10.47)
Für das Vektorfeld v := ∇ϕ ◦ Q auf G ergibt (10.46) daher ∂ ∇ϕ ◦ Q = Nj−2 (ϕ ◦ Q) bj ∂uj j und damit 10.18b Teil d ergibt sich durch Einsetzen von (10.42) in (10.43). Die Beweise von c und e sind jedoch schwieriger und werden in Ergänzungen 10.27 und 10.28 nachgetragen. Bemerkung: Bei orthogonalen Koordinaten verwendet man statt der Basisvektoren b1 , . . . , bn meist die krummlinige Orthonormalbasis euk (u) := Nk (u)−1 bk (u) ,
k = 1, . . . , n .
(10.48)
E. Die Feldoperationen in Kugel- und Zylinderkoordinaten
269
Man entwickelt also das transformierte Vektorfeld F ◦ Q in der Form F (Q(u)) =
n
gk (u)euk (u)
(10.49)
k=1
mit den Koeffizienten gk (u) = Nk (u)f˜k (u) = F (Q(u)) · euk (u) .
(10.50)
E. Die Feldoperationen in Kugel und Zylinderkoordinaten(Formelsammlung) Kugel- und Zylinderkoordinaten sind in der Physik die meistbenutzten krummlinigen Koordinaten für Gebiete Ω ⊆ R3 \ {0}. Wir stellen hier zusammen, was Satz 10.18 für diese fundamentalen Beispiele liefert. Dabei bezeichnen wir die kartesischen Koordinaten in R3 mit (x, y, z) statt (x1 , x2 , x3 ), und statt (u1 , u2 , u3 ) schreiben wir, wie in der Physik üblich, (r, ϕ, z) im Falle der Zylinder- bzw. (r, θ, ϕ) im Falle der Kugelkoordinaten. Entsprechend schreiben wir ex , ey , ez für die kanonischen Basisvektoren des R3 , und wir verwenden zum Entwickeln transformierter Vektorfelder die durch (10.48) gegebenen orthonormalen Basisvektoren. Beispiele 10.19. a. Zylinderkoordinaten im R3 . Die Transformationsgleichungen (x, y, z) = Q(r, ϕ, z) sind: x = r cos ϕ y = r sin ϕ z =z. Als Spaltenvektoren der Jacobi-Matrix ergeben sich ∂Q ≡ (cos ϕ, sin ϕ, 0)T ∂r ∂Q ≡ (−r sin ϕ, r cos ϕ, 0)T b2 = D2 Q = ∂ϕ ∂Q ≡ (0, 0, 1)T . b3 = D3 Q = ∂z
b1 = D1 Q =
Daraus folgt für die Maßstabsfaktoren N1 = 1 ,
N2 = r ,
N3 = 1 ,
270
10 Implizite Funktionen und Vektoranalysis
sodass sich als krummlinige Orthonormalbasis ergibt ⎛ ⎞ cos ϕ er := N1−1 b1 = ⎝ sin ϕ ⎠ = cos ϕex + sin ϕey 0 ⎛ ⎞ − sin ϕ eϕ := N2−1 b2 = ⎝ cos ϕ ⎠ = − sin ϕex + cos ϕey 0 ⎛ ⎞ 0 ez := N3−1 b3 = ⎝0⎠ = ez , 1
(10.51)
wobei diese Gleichungen die Basistransformation beim Übergang von {ex , ey , ez } nach {er , eϕ , ez } angeben. b. Kugelkoordinaten im R3 . Die Transformationsgleichungen (x, y, z) = Q(r, θ, ϕ) sind: x = r sin θ cos ϕ y = r sin θ sin ϕ z = r cos θ . Als Spaltenvektoren der Jacobi-Matrix ergeben sich b1 = ∂Q/∂r = (sin θ cos ϕ, sin θ sin ϕ, cos θ)T b2 = ∂Q/∂θ = (r cos θ cos ϕ, r cos θ sin ϕ, −r sin θ)T b3 = ∂Q/∂ϕ = (−r sin θ sin ϕ, r sin θ cos ϕ, 0)T mit den Maßstabsfaktoren N1 = b1 = 1 ,
N2 = b2 = r ,
N3 = b3 = r sin θ .
Damit ergibt sich als krummlinige Orthonormalbasis ⎛ ⎞ sin θ cos ϕ er = ⎝ sin θ sin ϕ ⎠ = sin θ cos ϕex + sin θ sin ϕey + cos θez cos θ ⎛ ⎞ cos θ cos ϕ eθ = ⎝ cos θ sin ϕ ⎠ = cos θ cos ϕex + cos θ sin ϕey − sin θez − sin θ ⎛ ⎞ − sin ϕ eϕ = ⎝ cos ϕ ⎠ = − sin ϕex + cos ϕey . 0
(10.52)
E. Die Feldoperationen in Kugel- und Zylinderkoordinaten
271
Satz 10.20. a. In Zylinderkoordinaten gilt für den Gradienten eines Skalarfeldes g(r, ϕ, z) = f (r cos ϕ, r sin ϕ, z) = f (x, y, z) die Darstellung grad f ◦ Q =
∂g 1 ∂g ∂g er + eϕ + ez . ∂r r ∂ϕ ∂z
(10.53)
b. In Kugelkoordinaten gilt für den Gradienten eines Skalarfeldes g(r, θ, ϕ) = f (r sin θ cos ϕ, r sin θ sin ϕ, r cos θ) = f (x, y, z) die Darstellung grad f ◦ Q =
∂g 1 ∂g 1 ∂g er + eθ + eϕ . ∂r r ∂θ r sin θ ∂ϕ
(10.54)
Satz 10.21. a. In Zylinderkoordinaten gilt für die Divergenz eines Vektorfeldes F ∂ ∂ 1 (rg1 (r, ϕ, z)) + g2 (r, ϕ, z) div F (r cos ϕ, r sin ϕ, z) = r ∂r ∂ϕ ∂ (10.55) + (rg3 (r, ϕ, z)) . ∂z Dabei sind g1 , g2 , g3 die Koeffizienten in der Entwicklung F (r cos ϕ, r sin ϕ, z) = g1 (r, ϕ, z)er (r, ϕ, z) + g2 (r, ϕ, z)eϕ (r, ϕ, z)+ (10.56) + g3 (r, ϕ, z)ez . b. In Kugelkoordinaten gilt für die Divergenz eines Vektorfeldes F 1 ∂ 2 (r sin θ g1 (r, θ, ϕ)) div F (Q(r, θ, ϕ)) = 2 r sin θ ∂r ∂ ∂ rg3 (r, θ, ϕ)) . (10.57) + (r sin θg2 (r, θ, ϕ)) + ∂θ ∂ϕ Dabei sind g1 , g2 , g3 die Koeffizienten in der Entwicklung F (Q(r, θ, ϕ)) = g1 (r, θ, ϕ)er (r, θ, ϕ) + g2 (r, θ, ϕ)eθ (r, θ, ϕ)+ + g3 (r, θ, ϕ)eϕ (r, θ, ϕ) .
(10.58)
272
10 Implizite Funktionen und Vektoranalysis
Satz 10.22. a. In Zylinderkoordinaten r, ϕ, z gilt für die Rotation eines Vektorfeldes F 1 ∂ ∂ g3 (r, ϕ, z) − (rg2 (r, ϕ, z)) er rot F (Q(r, ϕ, z)) = r ∂ϕ ∂z ∂ ∂ g1 (r, ϕ, z) − g3 (r, ϕ, z) eϕ + ∂z ∂r 1 ∂ ∂ (rg2 (r, ϕ, z)) − g1 (r, ϕ, z) ez , + r ∂r ∂ϕ wobei g1 , g2 , g3 durch (10.56) bestimmt sind. b. In Kugelkoordinaten r, θ, ϕ gilt für die Rotation eines Vektorfeldes F ∂ 1 ∂ (r sin θg3 (r, θ, ϕ)) − (rg2 (r, θ, ϕ)) er rot F (Q(r, θ, ϕ)) = 2 r sin θ ∂θ ∂ϕ ∂ 1 ∂ g1 (r, θ, ϕ) − (r sin θg3 (r, θ, ϕ)) eθ + r sin θ ∂ϕ ∂r 1 ∂ ∂ (rg2 (r, θ, ϕ)) − g1 (r, θ, ϕ) eϕ , + r ∂r ∂θ wobei g1 , g2 , g3 durch (10.58) bestimmt sind. Satz 10.23. a. In Zylinderkoordinaten r, ϕ, z gilt für jedes C 2 -Skalarfeld f und das transformierte Skalarfeld g = f ◦ Q ∂ 1 ∂ g(r, ϕ, z) ∆f (Q(r, ϕ, z)) = r r ∂r ∂r ∂ 1 ∂ ∂ ∂ + g(r, ϕ, z) + g(r, ϕ, z) , r ∂ϕ r ∂ϕ ∂z ∂z (10.59) d. h. ausdifferenziert: ∆f ◦ Q = grr +
1 1 gr + 2 gϕϕ + gzz . r r
(10.60)
b. In Kugelkoordinaten r, θ, ϕ gilt für jedes C 2 -Skalarfeld f und das transformierte Skalarfeld g = f ◦ Q ∂ 1 ∂ g(r, θ, ϕ) ∆f (Q(r, θ, ϕ)) = 2 r2 sin θ r sin θ ∂r ∂r ∂ ∂ 1 ∂ ∂ + g(r, θ, ϕ)) + ( g(r, θ, ϕ) , sin θ ∂θ ∂θ ∂ϕ sin θ ∂ϕ (10.61)
Ergänzungen
273
d. h. ausdifferenziert: ∆f ◦ Q = grr +
2 1 cot θ 1 gr + 2 gθθ + 2 gθ + 2 2 gϕϕ . r r r r sin θ
(10.62)
Ergänzungen zu §10 Die Sätze über implizite und inverse Funktionen sind von so ausgesprochen fundamentaler Bedeutung, dass sie auf jeden Fall noch einige zusätzliche Kommentare verdienen. Ähnliches gilt für die Frage der Existenz von Potenzialen und Vektorpotenzialen. Hier beginnt eine lange und sehr spannende Geschichte, die bis in die höchsten Höhen der mathematischen Abstraktion und in die tiefsten Tiefen der physikalischen Grundlagenforschung führt, und wir werden dies in 10.25 und 10.26 noch etwas näher erläutern. Im Übrigen wollen wir unser Versprechen einlösen, elementare Beweise für die Teile c und e von Satz 10.18 anzugeben. 10.24 Nochmals implizite und inverse Funktionen. Zunächst einmal sollte man sich darüber im Klaren sein, dass die beiden Sätze (Thm. 10.2 und Thm. 10.4) eng miteinander verwandt sind, d. h. dass sich leicht Einer aus dem Anderen herleiten lässt. Nehmen wir etwa an, der Satz über implizite Funktionen sei bekannt, und betrachten wir ein Gleichungssystem y = F (x) (mit gegebenem y und gesuchtem x), für das bei Punkten x0 , y0 = F (x0 ) die Voraussetzungen des Satzes über inverse Funktionen erfüllt sind. Dann betrachtet man G(x, y) := F (x) − y und stellt sofort fest, dass G(x0 , y0 ) = 0 ist sowie ∇x G(x0 , y0 ) = JF (x0 ). Also kann man den Satz über implizite Funktionen auf G anwenden – allerdings mit vertauschten Rollen von x und y – und erhält lokal die eindeutige Funktion Φ, die in der Nähe von (x0 , y0 ) die Gleichung F (Φ(y)) − y = G(Φ(y), y) = 0 löst. Sie ist offenbar die gesuchte lokale Umkehrfunktion von F . Nun nehmen wir an, der Satz über inverse Funktionen sei bekannt, und betrachten ein Gleichungssystem der Form (10.10) unter den Voraussetzungen von Thm. 10.4. Im Raum Rn+m definieren wir dann eine C 1 -Abbildung F durch F (x, y) := (x, G(x, y)) (x ∈ Rn , y ∈ Rm ) und stellen fest, dass F (x0 , y0 ) = (x0 , 0) und dass die Jacobi-Matrix von F die Block-Dreiecksgestalt 0 En JF (x, y) = ∇x G(x, y) ∇y G(x, y)
274
10 Implizite Funktionen und Vektoranalysis
hat (vgl. 5.30). Also ist det JF (x0 , y0 ) = det ∇y G(x0 , y0 ) = 0, und der Satz über inverse Funktionen liefert uns eine lokale Umkehrfunktion H von F in einer Umgebung von (x0 , 0) ∈ Rn × Rm . Diese spalten wir in der Form H = (A, B) in zwei Komponenten auf, schreiben statt (x, y) = H(ξ, η) also x = A(ξ, η) ,
y = B(ξ, η) .
Die Beziehung F (H(ξ, η)) = (ξ, η) bedeutet nach Definition von F dann A(ξ, η) = ξ G(A(ξ, η), B(ξ, η)) = η , und das ist gültig für ξ in der Nähe von x0 und η in der Nähe von 0. Für solche ξ, η ist also y = B(ξ, η) die eindeutige Lösung der Gleichung G(ξ, y) = η, für die y nahe bei y0 liegt. Eigentlich interessieren wir uns aber nur für η = 0, und daher betrachten wir Φ(x) := B(x, 0). Offenbar ist y = Φ(x) für x nahe bei x0 die eindeutige Lösung von (10.10), für die y nahe bei y0 liegt, also die gesuchte implizite Funktion. Es genügt daher, einen der beiden Sätze zu beweisen. Wir wollen das, wie gesagt, hier nicht tun, können uns aber mit Hilfe der Taylor-Formel die Sätze zumindest plausibel machen. Betrachten wir z. B. die Situation aus Thm. 10.2. Die Taylor-Formel (9.58) (in der vektorwertigen Version) für m = 1 lautet dann F (x) = F (x0 ) + DF (x0 )(x − x0 ) + R(x − x0 ) mit R(x − x0 ) = o(x − x0 ) für x → x0 . Zu gegebenem y in der Nähe von y0 soll nun die Gleichung F (x) = y (10.63) in einer Umgebung von x0 eindeutig gelöst werden. Diese Gleichung ist äquivalent zu (10.64) y − y0 = DF (x0 )(x − x0 ) + R(x − x0 ) . Nun ist DF (x0 ) nach Voraussetzung invertierbar. Wegen R(x − x0 ) = o(x − x0 ) ist das Restglied R(x − x0 ) also gegenüber dem ersten Term auf der rechten Seite von (10.64) vernachlässigbar, solange man sich auf x-Werte in der Nähe von x0 beschränkt. Vernachlässigen wir es, so erhalten wir die Näherungsgleichung (10.65) y − y0 = DF (x0 )(x − x0 ) , die sich selbstverständlich eindeutig nach x auflösen lässt durch x = x0 + DF (x0 )−1 (y − y0 ) . Das ist natürlich kein echter Beweis. Tatsächlich liefert aber eine Variante dieser Argumentation, bei der der Mittelwertsatz zu Hilfe genommen wird, die lokale Injektivität von F bei x0 . Um jedoch zu gegebenem y wirklich eine
Ergänzungen
275
Lösung von (10.63) zu finden, muss man das tun, was bei den sog. Existenzsätzen der mathematischen Analysis meistens getan wird: Man beschafft sich durch eine – manchmal recht einfallsreiche – Konstruktion eine Folge von Näherungslösungen, d. h. eine Folge (xk ), für die gilt: lim F (xk ) = y .
k→∞
Dann zeigt man, dass diese Folge konvergiert oder dass sie zumindest eine konvergente Teilfolge besitzt. Wegen der Stetigkeit von F ist der Grenzwert x = limk→∞ xk nun die gesuchte Lösung von (10.63). 10.25 Kurvenintegrale und Homotopie von Wegen. In einem beliebigen Gebiet Ω ⊆ Rn betrachten wir ein Vektorfeld K ∈ C 1 (Ω, Rn ), das die Integrabilitätsbedingungen erfüllt, sowie eine C 2 -Funktion H : [a, b] × [0, 1] −→ Ω. Für jedes s ∈ [0, 1] haben wir dann eine Kurve Γs : x = Fs (t) := H(t, s) ,
a≤t≤b,
und wir können uns H als eine innerhalb von Ω erfolgende Deformation der Kurve Γ0 in die Kurve Γ1 vorstellen. Wir interessieren uns dafür, wie sich Kurvenintegrale über K während solch einer Deformation verhalten. Wie im Beweis von Satz 10.15 dürfen wir aufgrund von Satz 15.6b die Differenziation nach dem Parameter s unter dem Integralzeichen durchführen. Außerdem besagen die Integrabilitätsbedingungen, dass die Jacobi-Matrix JK(x) symmetrisch ist, also JK(x)T = JK(x) und daher JK(x)h1 | h2 = h1 | JK(x)h2 = JK(x)h2 | h1 für alle x ∈ Ω und beliebige Vektoren h1 , h2 ∈ Rn . Das ergibt (wenn wir noch die Produktregel (9.5) und den Satz von H. A. Schwarz beachten): d ds
@
b d ∂H (t, s) dt K(H(t, s)) · ds a ∂t C B b ∂H ∂ = (t, s) dt K(H(t, s)) ∂t a ∂s C b B ∂H ∂H = (t, s) (t, s) + JK(H(t, s)) ∂s ∂t a 2 B C ∂ H + K(H(t, s)) (t, s) dt ∂s∂t C b B ∂H ∂H = (t, s) (t, s) + JK(H(t, s)) ∂t ∂s a 2 B C ∂ H + K(H(t, s)) (t, s) dt ∂t∂s
K= Γs
276
10 Implizite Funktionen und Vektoranalysis
C B ∂H (t, s) dt = K(H(t, s)) ∂s C B C Ba ∂H ∂H (b, s) − K(H(a, s)) (a, s) . = K(H(b, s)) ∂s ∂s
b
d dt
Aber der letzte Ausdruck verschwindet in den folgenden beiden Fällen: H(a, s) =: P
konstant, H(b, s) =: Q
konstant für
0≤s≤1
(10.66)
oder s ∈ [0, 1] .
H(a, s) = H(b, s)
(10.67)
In diesen beiden Fällen bleibt das Kurvenintegral also bei der Deformation konstant. Im ersten Fall sind alle Γs Kurven vom Punkt P zum Punkt Q, und im zweiten Fall sind sie alle geschlossene Kurven. Dieses Resultat gilt auch, wenn man von H nur Stetigkeit fordert. (Zum Beweis nutzt man die Tatsache aus, dass sich eine stetige Funktion H beliebig genau durch C 2 -Funktionen approximieren lässt. Aber hierauf wollen wir nicht näher eingehen.) Man definiert: Definition. Seien a ≤ t ≤ b,
Γi : x = Fi (t) ,
i = 0, 1
zwei Kurven in Ω. a. Beide Kurven mögen vom Punkt P ∈ Ω zum Punkt Q ∈ Ω führen. Sie heißen homotop in Ω (als Kurven von P nach Q), wenn es eine stetige Funktion H : [a, b] × [0, 1] → Ω gibt, für die H(t, 0) = F0 (t) ,
H(t, 1) = F1 (t)
∀ t ∈ [a, b]
(10.68)
sowie (10.66) gilt. b. Sind beide Kurven geschlossen, so heißen sie homotop in Ω (als geschlossene Kurven), wenn es eine stetige Funktion H : [a, b] × [0, 1] → Ω gibt, für die (10.68) und (10.67) gelten. In beiden Fällen bezeichnet man H als Homotopie von Γ0 nach Γ1 . Die obigen Überlegungen ergeben nun den Satz. Seien Γ0 , Γ1 zwei stückweise glatte Kurven im Gebiet Ω, und sei K : Ω → Rn ein C 1 -Vektorfeld, das die Integrabilitätsbedingungen erfüllt. Dann ist @ @ K= K, Γ0
Γ1
falls eine der beiden folgenden Voraussetzungen erfüllt ist: (i) Γ0 , Γ1 sind (in Ω) homotope Kurven von einem festen Punkt P ∈ Ω zu einem festen Punkt Q ∈ Ω, oder (ii) Γ0 , Γ1 sind (in Ω) homotope geschlossene Kurven.
Ergänzungen
277
Ist Ω einfach zusammenhängend, so ist jede geschlossene Kurve in Ω homotop zu einer konstanten Kurve, also verschwinden die Kurvenintegrale über geschlossene Kurven, und nach Satz 10.12 hat daher jedes Vektorfeld, das die Integrabilitätsbedingungen erfüllt, auch ein Potenzial. Wir erhalten also Satz 10.15 a als Spezialfall. Aber auch für nicht einfach zusammenhängende Gebiete hat unser Satz interessante Konsequenzen, die zeigen, dass bei Vektorfeldern mit Integrabilitätsbedingung die Werte der Kurvenintegrale wesentlich mehr mit der allgemeinen Gestalt von Ω zu tun haben als mit dem genauen Verlauf der Kurven oder des Feldes. Dazu ein Beispiel: Es sei Ω := R2 \ {(0, 0)} wie in Beispiel 10.13, und wir betrachten für m ∈ Z die Kurven x cos mt = , 0 ≤ t ≤ 2π . Cm : y sin mt Das Feld K ∈ C 1 (Ω, R2 ) erfülle die Integrabilitätsbedingungen. Setzen wir @ 1 q := K, 2π C1 @ K = 2πmq. so sehen wir nach leichter Rechnung (vgl. Aufg. 10.14), dass Cm
Man kann beweisen, dass jede geschlossene Kurve Γ ⊆ Ω in Ω homotop zu einer der Cm ist. Anschaulich beschreibt m, wie oft sich Γ um den Nullpunkt herumwindet (im Gegenuhrzeigersinn für m > 0, im Uhrzeigersinn für m < 0 und überhaupt nicht für m = 0) und deshalb nennt man m die Windungszahl von Γ in Bezug auf den Nullpunkt. Unser Satz ergibt also für m die Integralformel @ 1 K. mq = 2π Γ A Speziell für das Feld W aus Beispiel 10.13 ist q = 1, also m = (1/2π) Γ W . Das Feld K − qW ergibt daher das Kurvenintegral 0 für jeden geschlossenen Weg, d. h. die Kurvenintegrale dieses Feldes sind wegunabhängig. Satz 10.12 zeigt also, dass K − qW konservativ ist. Die Vektorfelder in Ω, die die Integrabilitätsbedingungen erfüllen, unterscheiden sich also von den konservativen Feldern in Ω nur durch skalare Vielfache von W , und dies reflektiert die Tatsache, dass sich Ω nur um einen einzigen Punkt von einem einfach zusammenhängenden Gebiet unterscheidet. Bemerkung: Ähnliche Überlegungen kann man auch für Vektorpotenziale anstellen, wobei allerdings Flächen statt Kurven die entscheidende Rolle spielen (vgl. Ergänzung 12.14). Es handelt sich hier um die allerersten Anfangsgründe eines Zweiges der Mathematik, den man als Differenzialtopologie bezeichnet und der versucht, mit Methoden der Differenzial- und Integralrechnung
278
10 Implizite Funktionen und Vektoranalysis
die globale Gestalt von geometrischen Gebilden (vor allem von Mannigfaltigkeiten) zu erkennen und zu klassifizieren. Eine gute elementare Einführung in dieses faszinierende Gebiet ist das Buch [15], in dem man auch Beweise für alle hier unbewiesenen Behauptungen findet. Differenzialtopologie gehört vielleicht nicht gerade zum täglichen Brot des durchschnittlichen Physikers, doch in der Grundlagenforschung (Kosmologie, Quantengravitation, StringTheorien, einheitliche Feldtheorien usw.) finden tiefgehende Resultate und Methoden aus diesem Gebiet neuerdings immer wieder Verwendung. 10.26 Lokale und globale Potenziale. Sei wieder Ω ⊆ Rn ein beliebiges Gebiet und K ∈ C 1 (Ω, Rn ) ein Vektorfeld, das die Integrabilitätsbedingungen erfüllt. Man kann Ω mit konvexen Teilgebieten Ω1 , Ω2 , . . . überdecken (im Extremfall legt man um jeden Punkt P ∈ Ω eine Kugel, die ganz in Ω enthalten ist, aber es geht in Wirklichkeit auch mit weniger Teilgebieten). Nach Satz 10.15a hat K in jedem Teilgebiet Ωi ein Potenzial ϕi . Man sagt daher, K sei lokal konservativ. Teilweise werden die Ωi sich überlappen, und auf solch einem nichtleeren Durchschnitt Ωi ∩ Ωj (i = j) hat man die beiden Potenziale ϕi und ϕj . Nach Korollar 10.11 unterscheiden sie sich um eine additive Konstante cij = ϕj −ϕi . Aber man darf die Potenziale um eine additive Konstante abändern („Umeichung“) und kann daher versuchen, diese Konstanten so zu adjustieren, dass alle cij = 0 werden. Gelingt dies, so hat man ein Potenzial ϕ für K, das in jedem Ωi mit dem dort gegebenen ϕi übereinstimmt. Wenn K nicht konservativ ist, so kann dieses Vorhaben natürlich nicht gelingen, und man wird immer irgendeine Diskrepanz übrig behalten, egal, wie man eicht. In dieser Diskrepanz („nichttriviale erste Kohomologie“) manifestiert sich die Abweichung von Ω vom einfach zusammenhängenden Typ. Beispiel: (vgl. auch Aufg. 10.12) Kehren wir noch einmal zu dem Beispiel aus der vorigen Ergänzung zurück und betrachten wir eine geschlossene Kurve Γ ⊆ Ω, die sich einmal um den Nullpunkt herumwindet. Wir können sie mit einer Kette von Kreisen Ω1 , Ω2 , . . . , Ωs überdecken, bei der jeder Kreis sich nur mit seinen beiden unmittelbaren Nachbarn überlappt und bei der die einzelnen Überlappungsbereiche untereinander disjunkt sind (vgl. Abb. 10.2). Der kürzeren Formulierung halber setzen wir noch Ωs+1 := Ω1 . Dann wählen wir Punkte Pi ∈ Ωi ∩ Ωi+1 , 1 ≤ i ≤ s, die nacheinander durchlaufen werden, also Pi = F (ti ) , i = 1, . . . , s, wobei a < t1 < t2 < · · · < ts ≤ b für eine geeignete Parameterdarstellung X = F (t) , a ≤ t ≤ b der Kurve Γ . Nun sei wieder K ein C 1 -Vektorfeld mit Integrabilitätsbedingungen in Ω, und wir wählen beliebige Potenziale ϕi für K in den konvexen Teilgebieten Ωi , i = 1, . . . , s, ferner ϕs+1 := ϕ1 . Schließlich definieren wir Konstanten ci := ϕi+1 − ϕi für 1 ≤ i ≤ s (die Konstanten ϕj − ϕi treten ja nur dann auf, wenn Ωj ∩ Ωi = ∅). Der Teil der Kurve, der von Pi nach Pi+1 führt, verläuft
Ergänzungen
279
Abb. 10.2.
nun ganz in Ωi , und deshalb können wir das Kurvenintegral mittels (10.32) folgendermaßen berechnen: @ K =
2πq = Γ
=
s
s i=1
Pi+1
K
Pi
(ϕi (Pi+1 ) − ϕi (Pi )) .
i=1
Wenn wir diese Summe nun etwas anders klammern, nämlich immer zwei Terme zusammenfassen, in denen ein und derselbe Punkt vorkommt, so ergibt sich s s ci . ϕi (Pi+1 ) − ϕi+1 (Pi+1 ) = − 2πq = i=1
i=1
Die Differenzen c1 , . . . , cs ergeben also immer die Summe −2πq, und im Falle q = 0 können sie daher nicht zum Verschwinden gebracht werden. Diese Summe ist die „Diskrepanz“, von der oben immer die Rede war. Bemerkung: Im Falle der Vektorpotenziale kann man ähnliche Überlegungen anstellen, wobei allerdings diesmal dreifache Überlappungen Ωi ∩ Ωj ∩ Ωk = ∅ betrachtet werden müssen („zweite Kohomologie“). Die Verallgemeinerung auf beliebige Dimension führt zur sog. de Rham’schen Kohomologietheorie,
280
10 Implizite Funktionen und Vektoranalysis
einem wichtigen Werkzeug der Differenzialtopologie (vgl. vorige Ergänzung). Hierfür genügen aber die Feldoperatoren der klassischen Vektoranalysis nicht mehr. Man muss vielmehr den Kalkül der alternierenden Differenzialformen einführen, wie er z. B. in [25] oder [15] beschrieben ist.
10.27 Zur Transformation der Divergenz auf orthogonale (krummlinige) Koordinaten. Unser Ziel ist, Satz 10.18c zu beweisen. Sei also Q : G −→ Ω (Ω, G ⊆ Rn offen) ein C 2 -Diffeomorphismus mit bj (u) · bk (u) = Nk2 (u)δjk
(1 ≤ j, k ≤ n , u ∈ G) ,
(10.69)
wobei bk (u) := ∂u∂ k Q(u) und Nk (u) := bk (u) (Norm · und Skalarprodukt · euklidisch!). Q führt also in Ω orthogonale Koordinaten u1 , . . . , un ein, die in G laufen. Wir schreiben x = Q(u), aber die nachfolgenden Rechnungen handeln durchweg von Funktionen, die auf G definiert sind, also von Funktionen der Variablen u. Um die Formeln übersichtlich zu halten, werden wir das Argument u von jetzt an aber konsequent unterdrücken. Außerdem schreiben wir kurz ∂j für die partielle Ableitung ∂/∂uj . Differenzieren von (10.69) liefert ∂i bj · bk + bj · ∂i bk = 0
∀ i, j, k, j = k ,
∂i Nj = Nj−1 bj · ∂i bj .
(10.70) (10.71)
Aber ∂i bj = ∂i ∂j Q = ∂j ∂i Q = ∂j bi . Mittels (10.70) (mit j statt i) folgt daher aus (10.71) für i = j:
∂i Nj = −Nj−1 ∂j2 Q · bi .
(10.72)
Sei nun F ∈ C 1 (Ω, Rn ) , w := F ◦ Q. Mit D := N1 · · · Nn gilt dann, wie wir gleich zeigen werden: divF ◦ Q =
1 ∂j DNj−2 w · bj , D j
und unter Beachtung von 10.18a folgt daraus sofort 10.18 c. Zum Beweis von (10.73) zeigen wir zunächst: ∂j (DNj−2 bj ) = 0 . j
Beweis.
DNj−2 = N1 · · · Nj−1 Nj−1 Nj+1 · · · Nn
und ∂j Nj−1 = −Nj−2 ∂j Nj
(10.71)
=
−Nj−3 bj · ∂j bj ,
(10.73)
(10.74)
Ergänzungen
281
also nach der Produktregel ∂j (DNj−2 )
(10.72)
=
−
DNj−2 Nk−2 bj · ∂k bk − DNj−4 bj · ∂j bj
k
=
−D
n
Nj−2 Nk−2 bj · ∂k bk
k=1
sowie ∂j bj
(10.46)
=
n
Nk−2 (∂j2 Q · bk )bk ,
k=1
also
∂j (DNj−2 ) bj ∂j (DNj−2 bj ) = D Nj−2 ∂j bj + j j j = D Nj−2 Nk−2 (∂j2 Q · bk )bk − D Nj−2 Nk−2 (∂k2 Q · bj )bj
j,k
j,k
=0. (Man vertausche j mit k in einem der beiden Terme!) =⇒ (10.74). Nun seien g ∈ C 1 (Ω) und v ∈ Rn . Auch die konstanten Vektorfelder auf Ω und G mit dem Wert v bezeichnen wir mit v. Für w := gv ergibt sich 1 ∂j (DNj−2 w · bj ) D j
=
1 ∂j (DNj−2 (g ◦ Q)v · bj ) D j
1 DNj−2 (v · bj )∂j (g ◦ Q) D j (10.47) = Nj−2 ((∇g ◦ Q) · ∂j Q)(v · bj ) (10.74)
=
j
=
(∇g ◦ Q) ·
Nj−2 (v · bj )bj
j (10.46)
=
(∇g ◦ Q) · v ,
also
1 ∂j (DNj−2 ((g ◦ Q)v · bj )) . (10.75) D j Schließlich betrachte w ∈ C 1 (Ω; Rn ), also w = wk ek mit w1 , . . . , wn ∈ k 1 C (Ω). Aus (10.75) folgt dann wegen (∇wk ◦ Q) · ek = div w ◦ Q die Be(∇g ◦ Q) · v =
k
hauptung (10.73). 10.28 Transformation der Rotation auf orthogonale (krummlinige) Koordinaten. Zunächst einige vorbereitende Betrachtungen über Vektorprodukt und Rotation, die auch für sich interessant sind:
282
10 Implizite Funktionen und Vektoranalysis
Lemma. Ist R eine orthogonale 3 × 3–Matrix, so gilt für beliebige Vektoren v, w ∈ R3 Rv × Rw = (det R)R(v × w) . Beweis. Dass R orthogonal ist, bedeutet R−1 = RT . Wir verwenden außerdem die Formel (6.26) über das Spatprodukt sowie den DeterminantenMultiplikationssatz (Theorem 5.21). Danach haben wir für beliebiges x ∈ R3 , y := R−1 x: x|Rv × Rw = Ry|Rv × Rw = det(Ry, Rv, Rw) = det R det(y, v, w) = det RRT x|v × w = det Rx|R(v × w) . Also ist x|Rv × Rw − (det R)R(v × w) = 0 für alle x ∈ R , speziell auch für x = Rv × Rw − (det R)R(v × w). Es folgt Rv × Rw − (det R)R(v × w)2 = 0 und somit die Behauptung. 3
Nun sei (a1 , a2 , a3 ) eine Orthonormalbasis von R3 und R die orthogonale Matrix mit den Spalten a1 , a2 , a3 . Dann ist aj = Rej
(j = 1, 2, 3) ,
also nach dem Lemma a1 × a2 = (det R)a3 . Die Vektoren a1 , a2 , a3 bilden also genau dann ein Rechtssystem in dem in Satz 10.18e. definierten Sinne, wenn det R = +1 ist, wenn also R eine Drehung ist (vgl. die Sätze 7.21 und 7.23). In diesem Falle zeigt das Lemma, dass für beliebige Vektoren v, w Rv × Rw = R(v × w)
(10.76)
gilt, d. h. das Vektorprodukt ist rotationsinvariant. Insbesondere haben wir für Rechtssysteme a1 × a2 = a3 ,
a3 × a1 = a2 ,
a2 × a3 = a1 .
Mit den Rechenregeln (6.27), (6.28) für das Vektorprodukt folgt daraus ai × aj =
3
εijk ak
(i, j = 1, 2, 3) ,
(10.77)
k=1
wobei wir den in 6.19 definierten ε-Tensor benutzen. Dies zeigt uns, wie wir die Rotation eines Vektorfeldes in gedrehten Koordinaten berechnen können:
Ergänzungen
283
Satz. Für jede Rechts-Orthonormalbasis (a1 , a2 , a3 ) gilt (in formaler Schreibweise): a1 δ1 w1 rot w = a2 δ2 w2 a3 δ3 w3 ∀ w ∈ C 1 (Ω, R3 ). Dabei ist wk := w · ak und δk die Richtungsableitung längs ak , also δk f = df (ak ) = ∇f · ak (1 ≤ k ≤ 3). Beweis. Nach Satz 6.15a ist w = w1 a1 + w2 a2 + w3 a3 . Fassen wir die aj als konstante Vektorfelder auf, so ist natürlich rot aj ≡ 0. Daher ergibt Satz 10.8d rot (wj aj ) = ∇wj × aj . Anwendung von 6.15a auf die Vektoren ∇wj ergibt 3 rot (wj aj ) = δi wj ai × aj i=1
(10.77)
=
εijk δi wj ak .
i,k
Aufsummieren dieser Terme für j = 1, 2, 3 ergibt die Behauptung.
Wir wollen Satz 10.18e beweisen und betrachten also speziell für n = 3 eine orthogonale Koordinatentransformation Q : G → Ω wie in 10.27. Die Vektoren b1 , b2 , b3 mögen ein Rechtssystem bilden, d. h. es soll b3 = λ(b1 ×b2 ) := w ◦ Q sein mit einem λ > 0. Dann gilt für w ∈ C 1 (Ω; R3 ), w · b3 − ∂3 w · b2 )b1 + rot w ◦ Q = (∂2 w · b1 − ∂1 w · b3 )b2 + + (∂3 w
(10.78)
· b2 − ∂2 w · b1 )b3 (N1 N2 N3 )−1 , + (∂1 w wobei ∂/∂uj durch ∂j abgekürzt wurde. Hieraus folgt (10.45) sofort durch Vergleich mit (10.39). Um (10.78) zu beweisen, betrachten wir ein beliebiges u ¯ ∈ G. Dann bilden ¯ −1 bk (¯ u ) eine Rechts-Orthonormalbasis offenbar die a1 , a2 , a3 mit ak := N k ¯k := Nk (¯ (N u)), also gilt nach obigem Satz an jeder Stelle x ∈ Ω: −1 ¯ −1 b1 (¯ ¯ N u ) δ1 N u) · w 1 1−1 b1 (¯ ¯ −1 b2 (¯ ¯ b2 (¯ rot w = N u ) δ2 N u) · w 2 2 −1 N ¯ −1 b3 (¯ ¯ u) δ3 N3 b3 (¯ u) · w 3
284
10 Implizite Funktionen und Vektoranalysis
mit ¯ −1 bk (¯ ¯ −1 bk (¯ ¯ −1 bj (¯ δj (w · N u)) = d(N u) · w) (N u)) j k k ¯ −1 N ¯ −1 bk (¯ =N u) · dw (bj (¯ u)) . j k = dw Q(u) (bj (u)) in ganz G. Speziell für Die Kettenregel ergibt ∂j w(u) x ¯ := Q(¯ u) ergibt sich also ¯ −1 bk (¯ ¯ −1 N ¯ −1 ∂j w(¯ u) · bk (¯ δj (w(¯ x) · N u)) = N u) , j k k also
−1 ¯ N u) 1−1 b1 (¯ ¯ b2 (¯ rot w(x) = N u) 2 N ¯ −1 b3 (¯ u) 3
¯ −1 ∂1 N 1 ¯ −1 ∂2 N 2 ¯ −1 ∂3 N 3
−1 b1 (¯ u) ¯1 N b2 (¯ ¯2 N ¯3 = N u) b3 (¯ u)
¯ −1 w N u) 1 · b1 (¯ ¯ −1 w u) N u) (¯ 2 · b2 (¯ −1 ¯ · b3 (¯ N3 w u)
· b1 (¯ w u) · b2 (¯ w u) (¯ u) . · b3 (¯ w u)
∂1 ∂2 ∂3
∈ C 1 (G, R3 ), also sind die formalen (Hier ist wieder ∂k = ∂/∂uk und w Determinanten Funktionen von u ∈ G.) Es ergibt sich also (10.78) bei u = u ¯. Aber u ¯ ∈ G war beliebig, also ist (10.78) bewiesen.
Aufgaben zu §10
10.1. Sei F (x, y) =
f1 (x, y) f2 (x, y)
=
x e cos y , (x, y) ∈ R2 ex sin y
als C 1 -Abbildung F : R2 −→ R2 gegeben. a. Man bestimme den Wertebereich R(F ) von F und zeige, dass jeder Streifen S(y0 ) = {(x, y)|x ∈ R , |y − y0 | < π} auf ganz R(F ) abgebildet wird. b. Man zeige, dass det(JF )(x, y) = 0
für alle (x, y) ∈ R2 ,
obwohl F nicht injektiv ist. c. Man bestimme für U = {(x, y)| x > 0 , 0 < y < π/2} eine lokale Umkehrfunktion G(u, v) von F |U . Ferner bestimme man die Jacobi-Matrix von G.
Aufgaben
285
10.2. Man zeige, dass die Gleichung x4 + 2x cos y + sin z = 0 in einer Umgebung von (x, y, z) = (0, 0, 0) nach z aufgelöst werden kann und bestimme zx (0, 0), zy (0, 0). 10.3. Man bestimme diejenigen Paare (x, y), (x, u), (x, v), (y, u), (y, v), (u, v), nach denen das Gleichungssystem f (x, y, u, v) := 3x2 − y 3 + u3 + v 2 = 4 g(x, y, u, v) := 2x2 − y 3 + u2 − v = 1 in der Nähe des Punktes (x0 , y0 , u0 , v0 ) = (1, 1, 1, 1) auflösbar ist. Bestimme die Jacobi-Matrix der Auflösungen. 10.4. Sei Ω ⊆ Rn ein Gebiet. Eine Funktion f : Ω −→ R heißt homogen vom Grade α, wenn f (tx1 , . . . , txn ) = tα f (x1 , . . . , xn ) für x ∈ Ω, t > 0, sodass tx ∈ Ω. Man beweise: a. Satz von Euler: Ist f ∈ C 1 (Ω), so gilt grad f (x) · x = α f (x) genau dann, wenn f homogen vom Grade α ist. (Hinweis: Betrachte für festes x ∈ Ω die Hilfsfunktion g(t) := t−α f (tx).) b. Ist Ω ⊆ R2 und f ∈ C 2 (Ω) homogen vom Grade 2, so gilt x2 fxx + 2xy fxy + y 2 fyy = 2f . 10.5. Sei f : R −→ R eine C 1 -Funktion. a. Für g(u, v) = u2 f
u v
berechne man ugu (u, v) + vgv (u, v) .
b. Für g(x, y, z) = f
x−y+z x+y−z
n ,
n∈N
berechne man xgx + ygy + zgz . 10.6. Wir setzen r = r(x) := x wie in Aufg. 9.17. Man berechne ∆rα in Ω := Rn \ {0} für beliebige α ∈ R. Für welche α ist rα harmonisch?
286
10 Implizite Funktionen und Vektoranalysis
10.7. Sei A ∈ Rn×n eine feste Matrix, b ∈ Rn ein fester Vektor. Sei ϕ ein C 1 -Skalarfeld, F ein C 1 -Vektorfeld auf Rn . Man zeige: a. ψ(x) := ϕ(Ax + b) =⇒ ∇ψ(x) = AT ∇ϕ(Ax + b). b. Für reguläres A gilt: G(x) := A−1 F (Ax + b) =⇒ div G(x) = div F (Ax + b). (Hinweis: Die Divergenz ist die Spur der Jacobi-Matrix.) c. Für eine orthogonale Matrix A und ϕ ∈ C 2 , ψ(x) := ϕ(Ax) ist ∆ψ(x) = (∆ϕ)(Ax) . (Man sagt, der Laplace-Operator ist invariant gegenüber orthogonalen Transformationen, insbesondere drehinvariant.) 10.8. Man vervollständige den Beweis von Satz 10.8 und überzeuge sich, dass die Teile a und c auch für beliebige Dimension n gelten. Ferner beweise man ∆(ϕψ) = ϕ∆ψ + 2∇ϕ · ∇ψ + ψ∆ϕ 2
für C -Funktionen ϕ, ψ von n Variablen sowie rot (F × G) = (div G)F − (div F )G + (dF )G − (dG)F für C -Vektorfelder F, G in R3 . 1
10.9. Sei Ω ⊆ Rn ein Gebiet und F : Ω → Rn ein C 1 -Vektorfeld. Man zeige: Für jede beliebige Basis {b1 , . . . , bn } ist div F =
n ∂fk , ∂ξk k=1
wobei die Funktionen f1 , . . . , fn festgelegt sind durch F (ξ1 b1 + . . . + ξn bn ) =
n
fk (ξ1 , . . . , ξn )bk .
k=1
(Hinweis: Man kann Aufg. 10.7b verwenden oder auch die Rechenregeln für die Divergenz, ins. Regel c aus Satz 10.8 für beliebige Dimension n.) 10.10. Wir betrachten ein Gebiet Ω ⊆ Rn , ein C 1 -Vektorfeld F (bzw. ein C 1 -Skalarfeld ϕ) auf Ω und eine Orthonormalbasis b1 , . . . , bn von Rn . Die Koordinaten bezüglich dieser Basis bezeichnen wir mit ξ1 , . . . , ξn , und ∂F/∂ξk bzw. ∂ϕ/∂ξk bezeichnet die entsprechende Richtungsableitung in Richtung bk (vgl. Aufg. 9.16) Man zeige: grad ϕ =
div F =
n j=1 n j=1
rot F =
3 j=1
bj
∂ϕ , ∂ξj
bj ·
∂F , ∂ξj
bj ×
∂F . ∂ξj
(10.79)
(10.80)
(10.81)
Aufgaben
287
Bei der letzten Gleichung ist natürlich n = 3 vorausgesetzt, und außerdem soll {b1 , b2 , b3 } eine Rechts-Orthogolnalbasis sein, d. h. b1 × b2 = b3 . (Wer das zu schwierig findet, beweise es wenigstens für die Standardbasis.) 10.11. Für die folgenden Vektorfelder bestimme man ein skalares Potenzial, falls ein solches existiert. Dabei wähle man den Definitionsbereich des Potenzials so groß wie möglich: xy cos(xy) + sin(xy) . a. F (x, y) = x2 cos(xy) ⎛ ⎞ y sin z b. F (x, y, z) = ⎝ x sin z ⎠. xy cos z T x y , y+ 2 . c. F (x, y) = x − 2 x + y2 x + y2 10.12. Wir betrachten das Gebiet Ω und das Vektorfeld W aus Beispiel 10.13. Man zeige, dass die unten angegebenen Funktionen ϕi in den angegebenen Teilgebieten Ωi (i = 1, 2, 3, 4) Potenziale von W sind. Man interpretiere jedes ϕi (x, y) als Winkel zwischen dem Ortsvektor X = (x, y)T und einer festen Achse, und man ermittle die konstanten Differenzen ϕ2 − ϕ1 , ϕ3 − ϕ2 , ϕ4 − ϕ3 , ϕ1 − ϕ4 in den entsprechenden Überlappungsgebieten. Ω1 Ω2 Ω3 Ω4
= {(x, y) | x > 0} , = {(x, y) | y > 0} , = {(x, y) | x < 0} , = {(x, y) | y < 0} ,
ϕ1 (x, y) = arctan(y/x) , ϕ2 (x, y) = − arctan(x/y) , ϕ3 (x, y) = arctan(y/x) , ϕ4 (x, y) = − arctan(x/y) .
Wie immer ist der Arcustangens so zu verstehen, dass seine Werte in ] − π/2, π/2[ liegen. 10.13. Man berechne die folgenden Kurvenintegrale. Dabei nutze man Wegunabhängigkeit aus, wo immer möglich: @
a.
2ex
2
−y 2
(x sin y 2 dx + y cos y 2 dy)
Γ 2
entlang Γ : b.
y2 x + = 1, 4 5 @ (2xy 3 − y 2 cos x) dx + (1 − 2y sin x + 3x2 y 2 ) dy Γ
entlang der Parabel Γ : 2x = πy 2 von (0, 0) nach
π 2
, 1 .
288
10 Implizite Funktionen und Vektoranalysis
10.14. Durch x = F (t) , a ≤ t ≤ b sei im Gebiet Ω ⊆ Rn eine glatte geschlossene Kurve gegeben. Für m ∈ Z definieren wir neue geschlossene Kurven Γm durch a≤t≤b, Γm : x = F (mt) , wobei F die eindeutige stetige periodische Fortsetzung von F auf ganz R mit der Periode b − a ist (vgl. Aufg. 3.1b) Man zeige, dass für jedes stetige Vektorfeld K in Ω @ @ K=m K ∀m ∈ Z . Γm
Γ
10.15. Man berechne das Kurvenintegral @ (2x − y + z) dx + (x + y − z 2 ) dy + (3x − 2y + 4z) dz Γ
entlang eines Kreises vom Radius 3 um (0, 0) in der (x, y)-Ebene. 10.16. a. Für die ebenen Polarkoordinaten x = r cos ϕ ,
y = r sin ϕ
zeichne man die Kurven, auf denen r bzw. ϕ konstant sind. Man weise nach, dass es sich um orthogonale Koordinaten handelt und berechne die Maßstabsfaktoren sowie die orthonormalen Basisvektoren er , eϕ . b. Man zeige, dass die in Polarkoordinaten (r, ϕ) gegebene Funktion g(r, ϕ) = rn sin nϕ eine Lösung der Potenzialgleichung ∆g = 0 ist. (Zunächst überlege man sich, was diese Aussage genau bedeutet!) 10.17. Sei Q : G → Ω eine orthogonale Koordinatentransformation in Rn mit den Maßstabsfaktoren N1 , . . . , Nn . Wir schreiben wieder x = Q(u). Man zeige: ∂(x1 , . . . , xn ) ∂(u1 , . . . , un ) = N1 N2 · · · Nn . (Hinweis: Betrachte das Matrizenprodukt JQ(u)T JQ(u).)
11 Integration im Rn
In der Physik ist man von Anfang an vor die Aufgabe gestellt, Funktionen von mehreren Variablen über „Bereiche“ zu integrieren, d. h. über Teilmengen des Rn , die geometrisch nicht allzu kompliziert sind. Man denke an Quader, Kugeln, Kegel, Zylinder etc., also an geometrische Gebilde, deren Rand aus endlich vielen glatten Stücken besteht. Wir wollen hier das nötigste Handwerkszeug zu diesem Thema bereitstellen. Gerne würden wir uns dabei auf stetige Funktionen beschränken, doch ist das nicht möglich, denn selbst wenn auf dem Bereich B eine stetige Funktion gegeben ist, so bricht sie doch am Rand von B jäh ab, wodurch Unstetigkeiten entstehen. Die klassische Theorie des Riemann’schen Integrals über Jordan-messbare Mengen, die wir hier behandeln werden, liefert einen Rahmen, in dem diese Problematik ohne allzu großen technischen Aufwand überwunden werden kann. Eine wirklich befriedigende Theorie ergibt jedoch erst das Integral von Lebesgue, und auch die theoretische Physik kommt heute nicht mehr an dieser modernen Integrationstheorie vorbei. Sie sprengt jedoch den Rahmen dieses Grundkurses, und wir werden an anderer Stelle auf sie zurückkommen (vgl. [14]).
A. Definition des Riemann-Integrals Wir verallgemeinern die Ergebnisse aus Kap. 3 auf höhere Dimensionen. Auf einem Rechteck I = [a1 , b1 ] × [a2 , b2 ] ⊆ R2 sei eine stetige Funktion f (x, y) definiert, sodass der Graph G(f ) eine stetige Fläche im R3 über I ist. Gesucht ist das dreidimensionale Volumen v3 (Ω(f )) des dreidimensionalen Gebietes Ω(f ) zwischen (x, y)-Ebene und Graph G(f ) über I. Eine analoge Problematik hat man für beliebige Dimension, d. h. für eine reelle Funktion f , die auf einem n-dimensionalen Intervall (oder n-dimensionalen Quader) I := [a1 , b1 ] × [a2 , b2 ] × · · · × [an , bn ]
290
11 Integration im Rn
Abb. 11.1. Integral als Volumen
definiert ist. Wir gehen vor wie im eindimensionalen Fall. Seien dazu A = (a1 , . . . , an ), B = (b1 , . . . , bn ) ∈ Rn Punkte. Wir schreiben A 0 gibt es ein δ > 0, sodass f − RS(f ; Z, S) < ε
(11.13)
I
für alle Zerlegungen und Stützstellenmengen (Z, S) von I mit Feinheit δ(Z) < δ. b. Zu jedem ε > 0 gibt es ein δ > 0, sodass OS(f, Z) − U S(f, Z) < ε
(11.14)
für alle Zerlegungen Z von I mit δ(Z) < δ. In diesem Fall ist inf OS(f, Z) = f = sup U S(f, Z) . Z
Z
I
Wir benutzen verschiedene Schreibweisen für das Integral: f ≡ dn xf (x) ≡ d(x1 , . . . , xn )f (x1 , . . . , xn ) . I
I
I
Im Falle n = 1 und I = [a, b] schreiben wir auch
f= I
b
f= a
b
dxf = a
b
dxf (x) = a
b
f (x)dx . a
(11.15)
B. Eigenschaften des Riemann-Integrals
293
B. Eigenschaften des Riemann-Integrals Wir wollen nun Folgerungen aus der Definition ziehen. Zunächst haben wir: Satz 11.4. Sei I ⊆ Rn ein kompaktes Intervall und sei f : I −→ R stetig auf I. Dann ist f integrierbar über I. Kurz: Stetige Funktionen sind integrierbar. Beweis. Da I kompakt ist, ist f nach Satz 14.9 gleichmäßig stetig 1 auf I. Zu ε > 0 gibt es daher ein δ > 0, sodass |f (Y ) − f (Y )|
0 vorgegeben und δ > 0 gemäß (11.16) bestimmt. Sei Z = {J1 , . . . , JN } eine Zerlegung von I mit Feinheit δ(Z) < δ. Dann ist δ(Jk ) < δ für k = 1, . . . , N . Aus (11.16) folgt daher mk (f ) − mk (f ) =
|f (Y ) − f (Y )|
0 finden kann, für die gilt: Y − Y0 < δ
=⇒
|f (Y ) − f (Y0 )| < ε .
Gleichmäßige Stetigkeit bedeutet, dass man δ sogar unabhängig von Y0 wählen kann. Dieser scheinbar geringfügige Unterschied ist für den Beweis hier entscheidend. Wir werden auf solche Details in Kap. 14 näher eingehen.
294
11 Integration im Rn
Definitionen 11.5. a. Eine Teilmenge S ⊆ Rn hat das n-dimensionale Jordan-Maß 0, wenn es zu jedem ε > 0 endlich viele Intervalle Q1 , . . . , QN ⊆ Rn gibt, sodass S⊆
N D
Qk
k=1
und
N
vn (Qk ) < ε.
(11.18)
k=1
Solche Mengen nennt man auch kurz (n-dimensionale Jordan’sche) Nullmengen. b. Eine Teilmenge S ⊆ Rn heißt Jordan-messbar, wenn der Rand ∂S das n-dimensionale Jordan-Maß 0 hat. Der Rand ∂S ist dabei genauso definiert wie in 9.8b für Gebiete. Er ist also die Menge der Randpunkte von S, d. h. die Menge der Punkte P ∈ Rn , sodass für jedes ε > 0 Uε (P ) ∩ S = ∅ ,
Uε (P ) ∩ (Rn S) = ∅ .
Mengen vom Jordan-Maß 0 sind also relativ „dünn“, und Jordan-messbare Mengen sind solche, deren Rand nicht zu stark ausgefranst ist. Nun kann man folgendes Kriterium formulieren, auf dessen Beweis wir verzichten (vgl. etwa Heuser [19], Abschnitte 199, 201, 202). Satz 11.6. Sei I ⊆ Rn ein kompaktes Intervall, sei f : I −→ R eine beschränkte Funktion, und sei U = {x ∈ I | f unstetig in X}
Abb. 11.2. Integration einer stückweise stetigen Funktion
B. Eigenschaften des Riemann-Integrals
295
die Unstetigkeitsmenge von f . Dann gilt: f ist Riemann-integrierbar über I, wenn U das n-dimensionale Jordan-Maß 0 hat. Bisher haben wir nur Integrale über Intervalle definiert. Für n = 1 reicht dies auch aus. Für n > 1 muss man aber auch über krummlinig berandete Mengen integrieren. Definition 11.7. Sei S ⊆ Rn eine beschränkte Menge und I ⊆ Rn ein kompaktes Intervall mit S ⊆ I. Eine beschränkte Funktion f : S −→ R heißt integrierbar über S, wenn die Funktion g : Rn −→ R mit f (x), für x ∈ S g(x) = 0, für x ∈ Rn S integrierbar über I ist, und man setzt f := g . S
I
Dabei kann das kompakte Intervall I ⊇ S ganz beliebig gewählt werden – weder die Existenz des Integrals noch sein Wert hängen von I ab. Die Funktion g wird i. Allg. auf ∂S unstetig sein, selbst wenn f stetig ist. Kombination der Definition 11.5b mit Satz 11.6 liefert dann folgendes Kriterium für die Existenz des Integrals. Satz 11.8. Eine beschränkte Funktion f : S −→ R, S ⊆ Rn , ist integrierbar über S, wenn gilt: a. S ist Jordan-messbar. b. Die Menge U der Unstetigkeitsstellen von f ist eine Jordan-Nullmenge. Besonders interessant ist das für die konstante Funktion f ≡ 1 auf S. Die entsprechende Funktion g ist dann die sog. charakteristische Funktion χS der Menge S, definiert durch 1 für x ∈ S , (11.19) χS (x) := 0 für x ∈ S . Die Unstetigkeitsstellen von χS sind genau die Randpunkte von S. Also ist χS Riemann-integrierbar, wenn S Jordan-messbar ist. Wir definieren: Definition 11.9. Für eine beschränkte messbare Teilmenge S ⊆ Rn ist das n-dimensionale Volumen (oder der n-dimensionale Jordan-Inhalt) gegeben durch n vn (S) := 1 d x = χS , S
I
wobei I ein beliebiges kompaktes Intervall ist, das S enthält.
296
11 Integration im Rn
Es ist klar, dass dies für Intervalle mit dem eingangs definierten Volumen übereinstimmt. Messbare Mengen S mit vn (S) = 0 erfüllen die Bedingung, die in Def. 11.5a Mengen „vom Jordan-Maß 0“ definiert, wie man sich leicht anhand der Definition des Integrals klarmacht. Im folgenden Theorem sind die wichtigsten Eigenschaften des Integrals zusammengefasst: Theorem 11.10. Für messbare Mengen S, A, B mit A ⊆ S, B ⊆ S und integrierbare Funktionen f, g : S −→ R gilt
a.
(αf + βg) = α S
f +β S
g,
α, β ∈ R ,
S
d. h. S ist ein lineares Funktional auf dem R-Vektorraum R(S) der integrierbaren Funktionen. b. Ist f (x) ≤ g(x) für alle x ∈ S, so ist f≤ g. S
Ferner gilt
S
f ≤ |f | ≤ sup |f (x)| vn (S) . x∈S S
(11.20)
S
c. Ist S = A ∪ B, so gilt:
f=
S
f−
f+ A
B
f. A∩B
d. (Mittelwertsatz der Integralrechnung): Ist S zusammenhängend und f stetig, so gibt es ein x0 ∈ S mit f = f (x0 )vn (S) . S
Beweis. Da das Integral über Jordan-messbare Mengen durch Integrale über Intervalle definiert ist und das Integral über Intervalle durch Riemann’sche Zwischensummen definiert ist, ergeben sich sofort die Eigenschaften a und b Teil c können wir leicht aus der Linearität folgern, indem wir für Teilmengen M ⊆ S die Funktionen gM betrachten, die auf M mit f übereinstimmen und außerhalb von M verschwinden. Dann ist nämlich punktweise gS = gA + gB − gA∩B , woraus wegen a die Behauptung folgt. Um d zu beweisen, betrachten wir die Zahlen M := inf f (x) , M := sup f (x) . x∈S
x∈S
B. Eigenschaften des Riemann-Integrals
297
Nach Teil b und Definition 11.9 ist dann M vn (S) ≤ f ≤ M vn (S) . S
Im Sonderfall vn (S) = 0 ist also
f = 0, und die Behauptung ist für belie1 f im Intervall biges x0 korrekt. Im anderen Fall liegt der Mittelwert vn (S) S [M , M ], und dieses Intervall ist der Wertebereich von f , weil f stetig und S zusammenhängend ist (vgl. Def. 9.8a und den Zwischenwertsatz 2.11). Man findet daher eine Stelle x0 ∈ S, wo der Wert von f mit dem Mittelwert übereinstimmt. S
Bei den Anwendungen ist man oft genötigt, komplizierte Integrationsbereiche aus einfachen zusammenzusetzen. Dieses Vorgehen wird durch den folgenden Satz gerechtfertigt: Satz 11.11. a. Vereinigung und Durchschnitt von endlich vielen Jordan-messbaren Mengen sind ebenfalls Jordan-messbar. b. Sind A, B Jordan-messbar, so gilt vn (A ∪ B) ≤ vn (A) + vn (B) sowie A⊆B
=⇒
vn (A) ≤ vn (B) .
c. Ist S Jordan-messbar in Rn , so ist es auch sein Rand, und dabei ist vn (∂S) = 0. Beweis. a. Folgt sofort aus ∂(A ∪ B) ⊆ ∂A ∪ ∂B und ∂(A ∩ B) ⊆ ∂A ∪ ∂B. b. Ergibt sich durch Anwendung von 11.10b auf die charakteristischen Funktionen. c. ∂(∂S) = ∂S hat das Jordan-Maß Null, also ist ∂S gemäß Def. 11.5b Jordan-messbar. Zu gegebenem ε > 0 können wir Intervalle Q1 , . . . , QN wählen, für die (11.18) in Bezug auf ∂S gilt. Mit Q := Q1 ∪· · ·∪QN haben wir dann nach a, b vn (∂S) ≤ vn (Q) ≤
N
vn (Qk ) < ε .
k=1
Da ε beliebig klein gewählt werden kann, folgt hieraus vn (∂S) = 0.
In der typischen Anwendungssituation haben wir S = A∪B, wobei A, B als Jordan-messbar bekannt sind und wobei A, B sich nur am Rande überlappen,
298
11 Integration im Rn
d. h. A ∩ B ⊆ ∂A ∪ ∂B. Nach Satz 11.11 sind S und A ∩ B dann Jordanmessbar, und es ist vn (A ∩ B) = 0. Ist nun f : S −→ R über S integrierbar (z. B. stetig), so ist A∩B f = 0 nach (11.20), und somit ergibt 11.10c f= f+ f. (11.21) S
A
B
C. Iterierte Integrale Wir wollen nun diskutieren, wie man n-dimensionale Integrale durch eine Folge von eindimensionalen Integrationen berechnen kann. Beispiel: f (x, y) = xy 2 , definiert auf Q = [1, 2] × [2, 3]. a. Integriere erst für konstantes x bezüglich y von 2 bis 3 und integriere dann bezüglich x von 1 bis 2:
f (x, y)d2 (x, y) =
Q
2
=
1
3
dx x y3
y=3 =
2
3 dx dy(xy 2 )
1 2
y=2
1
2
dx 19 3 x=
19 6
x3
2 1
=
19 2
.
b. Integriere erst bezüglich x von 1 bis 2 für konstantes y und integriere dann bezüglich y von 2 bis 3:
f (x, y)d2 (x, y) =
Q
=
3 2
dy
x=2 x2 y 2 2 x=1
3
dy
2
=
3
2
dx(xy 2 )
1
dy
2
3
2y
2
=
3 y3 2 2
=
19 2
.
Inwieweit diese Methode allgemein zum Ergebnis führt, sagt der folgende Satz: Theorem 11.12 (Fubini). Seien I ⊆ Rm , J ⊆ Rn Intervalle und sei Q = I × J ⊆ Rm+n . Sei ferner f : Q −→ R, f = f (x, y), x ∈ I, y ∈ J eine stetige Funktion. Dann gilt f (x, y)dm+n (x, y) Q (11.22) = dm x dn yf (x, y) = dn y dm xf (x, y) . I
J
J
I
Beweis. Seien Zx = {S1 , . . . , SM } Zy = {T1 , . . . , Tn }
eine Zerlegung von I ⊆ Rm , eine Zerlegung von J ⊆ Rn .
C. Iterierte Integrale
299
Dann ist Z = {Si × Tj |i = 1, . . . , M , j = 1, . . . , N }
Zerlegung von Q.
Wir beweisen f (x, y)d(x, y) = dx dyf (x, y) ≡ dxϕ(x) Q
I
J
mit der Abkürzung
(11.23)
I
f (x, y)dy .
ϕ(x) =
(11.24)
J
Dazu arbeiten wir mit Ober- und Untersummen: f (x, y)d(x, y) − ϕ(x)dx Q
I
≤ OS(f, Z) − U S(ϕ, Zx ) M = OS(f, Z) − inf ϕ(x) · vm (Si ) i=1 x∈Si M = OS(f, Z) − inf f (x, y)dy vm (Si ) ≤ OS(f, Z) − = OS(f, Z) − ≤ OS(f, Z) − = OS(f, Z) −
i=1 M
x∈Si J
inf U S(f (x, ·), Zy ) · vm (Si )
i=1 x∈Si M N
inf
i=1 x∈Si M N
inf f (x, y)vn (Tj ) vm (Si )
j=1 y∈Tj
inf inf f (x, y)vn (Tj )vm (Si )
i=1 j=1 x∈Si y∈Tj M N
inf
i=1 j=1 (x,y)∈Si ×Tj
f (x, y)vm+n (Si × Tj )
= OS(f, Z) − U S(f, Z) . Also ist
f (x, y)d(x, y) −
ϕ(x)dx ≤ OS(f, Z) − U S(f, Z)
(11.25)
und ganz genauso zeigt man f (x, y)d(x, y) − ϕ(x)dx ≥ U S(f, Z) − OS(f, Z) .
(11.26)
Q
Q
I
I
Insgesamt also: f (x, y)d(x, y) − ϕ(x)dx ≤ OS(f, Z) − U S(f, Z) . Q
(11.27)
I
Da f nach Satz 11.4 integrierbar über Q ist, gibt es zu jedem ε > 0 ein δ > 0, sodass die rechte Seite von (11.27) < ε wird, wenn die Feinheit von Z < δ ist.
11 Integration im Rn
300
Also gilt
f (x, y)d(x, y) =
Q
ϕ(x)dx . I
Man kann dieselbe Argumentation auch mit vertauschten Rollen von x und y durchführen und erhält so f (x, y)d(x, y) = dy dxf (x, y) ≡ dyψ(y) (11.28) Q
J
I
J
mit ψ(y) =
f (x, y)dx .
(11.29)
I
Aus (11.23) und (11.28) folgt aber die Behauptung.
Durch Induktion folgert man hieraus sofort die Rechenregel, die bei der praktischen Berechnung von Bereichsintegralen meist angewendet wird: Korollar 11.13. Ist f = f (x1 , . . . , xn ) stetig auf dem Intervall Q = [a1 , b1 ] × · · · × [an , bn ] so gilt
b1 n
fd x = Q
b2 dx2 · · ·
dx1 a1
bn
a2
dxn f (x1 , . . . , xn ) ,
an
wobei die Reihenfolge der Integrationen beliebig ist. Anmerkung 11.14. Die Stetigkeit von f wurde beim Satz von Fubini nur dazu benutzt, sicherzustellen, dass alle auftretenden Integrale existieren. In Wirklichkeit gilt der Satz aber auch unter allgemeineren Voraussetzungen, und das kann zuweilen wichtig sein. Sei f : Q = I × J −→ R Riemann-integrierbar und ϕ : I → R durch (11.24) definiert, wobei wir voraussetzen, dass die Integrale dort existieren. Dann kann man wieder (11.23) herleiten, und dabei ergibt sich insbesondere die Existenz von I ϕ(x) dx. Setzen wir hingegen voraus, dass die Integrale auf der rechten Seite von (11.29) existieren, so ergibt sich analog (11.28) einschließlich der Existenz des Integrals J dyψ(y). Anwendung des Satzes von Fubini auf charakteristische Funktionen (vgl. (11.19)) ergibt eine klassische Methode zur Volumenberechnung: Satz 11.15 (Prinzip von Cavalieri). Seien Q ⊆ Rn und I = [a, b] ⊆ R Intervalle, und sei A ⊆ Q × I = {(x, t)| x ∈ Q , a ≤ t ≤ b} ⊆ Rn+1
C. Iterierte Integrale
301
eine Jordan-messbare Menge. Seien ferner At = {x ∈ Rn | (x, t) ∈ A} ,
für t ∈ I
die „Querschnitte“ von A, und diese seien ebenfalls Jordan-messbar. Dann gilt b vn+1 (A) = vn (At )dt . a
Beweis. Nach Definition 11.9 und Bemerkung 11.14 gilt: χA = dt Q dxχA (x, t) vn+1 (A) = =
Q×I b
dt
a
Q
I
b χAt = vn (At )dt . a
Beispiele: a. Zweidimensionales Volumen einer Kreisscheibe A2 = (x, y) ∈ R2 | x2 + y 2 ≤ R2 . Es gilt: v2 (A2 ) =
t=R R
t 2 R2 − t2 dt = t R2 − t2 + R2 arcsin R t=−R
−R 2
= R (arcsin(1) − arcsin(−1)) = πR2 . b. Dreidimensionales Volumen einer dreidimensionalen Kugel A3 = (x, y, z) ∈ R3 | x2 + y 2 + z 2 ≤ R2 . Es gilt:
R v3 (A3 ) = −R
R 2
2 2 π R −t dt = π(R2 − t2 )dt −R
t=R t3 4 2 =π R t− = πR3 . 3 t=−R 3 c. Vierdimensionales Volumen einer vierdimensionalen Kugel A4 = x ∈ R4 | x21 + x22 + x23 + x24 ≤ R2 .
302
11 Integration im Rn
Abb. 11.3a. x1 -Normalgebiet
Es gilt:
R
v4 (A4 ) = −R
Abb. 11.3b. x2 -Normalgebiet
Abb. 11.3c. x3 -Normalgebiet in R3
3 4 2 4 π R − t2 dt = π 3 3
R (R2 − t2 )3/2 dt
−R
2
t 1 3R t 2 3R4 (R − t2 )1/2 + arcsin = π t(R2 − t2 )3/2 + 3 2 2 R 1 1 = πR4 (arcsin(1) − arcsin(−1)) = π 2 R4 . 2 2
t=R t=−R
Bemerkung: Man kann so fortfahren und durch Induktion das Volumen von Kugeln in beliebiger Dimension berechnen. Ein eleganterer Weg hierzu ist jedoch in Ergänzung 15.19 dargestellt. Als weitere Anwendung betrachten wir die Integration über sog. Normalgebiete. Dazu führen wir folgende Abkürzung ein: Für x = (x1 , . . . , xn ) ∈ Rn setzen wir xi = (x1 , . . . , xi−1 , xi+1 , . . . , xn ) ≡ (x1 , . . . , x=i , . . . , xn ) ∈ Rn−1 und schreiben:
x = (xi , xi ).
Definition 11.16. Eine messbare Menge A ⊆ Rn heißt ein xi -Normalgebiet, wenn es eine messbare Menge Bi ⊆ Rn−1 und stetige Funktionen αi , βi : Bi −→ R mit αi ≤ βi gibt, sodass A = {x = (xi , xi ) | xi ∈ Bi , αi (xi ) ≤ xi ≤ βi (xi )} . Aus dem Satz 11.12 von Fubini (genau genommen aus Bemg. 11.14) folgt dann sofort Satz 11.17. Sei A ⊆ Rn ein xi -Normalgebiet und f : A −→ R stetig. Dann gilt ⎛ ⎞ β i (xi ) ⎜ ⎟ f= dn−1 xi ⎝ f (xi , xi )dxi ⎠ . A
Bi
αi (xi )
D. Die Transformationsformel
303
Beispiel: A ⊆ R3 werde berandet von den Flächen x = 0 , x = 1 , y = 0 , z = 0 , z = x + y , y = x2 , d. h. 4 Ebenen und einem Parabolzylinder entlang der z-Achse. Dann ist A ein z-Normalgebiet im R3 A = (x, y, z) ∈ R3 | (x, y) ∈ Bz , 0 ≤ z ≤ x + y , und Bz ist ein x-Normalgebiet im R2 : Bz = (x, y) ∈ R2 | x ∈ Bx = [0, 1] , 0 ≤ y ≤ x2 . Sei ferner f (x, y, z) = 2x − y − z . Dann berechnen wir das Integral
f=
A
x+y
(2x − y − z)dz
d(x, y) 0
Bz
=
z2 d(x, y) 2xz − yz − 2
z=x+y
Bz
=
z=0
3 d(x, y) (x2 − y 2 ) 2
Bz
x2
1 dx
= 0
1 =
3 dy (x2 − y 2 ) 2
0
1 6 8 4 . dx x − x = 3 35
0
D. Die Transformationsformel Viele mehrdimensionale Integrale lassen sich einfacher berechnen, wenn man anstelle der kartesischen Koordinaten x1 , . . . , xn neue Koordinaten, z. B. Polarkoordinaten einführt. Dazu muss man allerdings wissen, wie sich n-dimensionale Integrale unter Koordinatentransformationen verhalten. Wir untersuchen diese Frage zunächst für affine Transformationen, d. h. Transformationen der Form y = Ax + b , wobei A eine reguläre n × n–Matrix und b ∈ Rn ein fester Vektor ist. (Hierbei und im Folgenden ist Ax stets als das Matrizenprodukt zu verstehen, wobei man sich x als Spaltenvektor (x1 , . . . , xn )T zu denken hat.)
304
11 Integration im Rn
Wie der Integrationsbereich sich unter der Transformation ändert, ist oft schwer zu beschreiben, und diese Schwierigkeit umgehen wir, indem wir beschränkte Funktionen betrachten, die auf ganz Rn definiert sind, aber außerhalb einer beschränkten Menge verschwinden. Wenn für solch eine Funkti on f : Rn −→ R das Riemann-Integral I f über ein kompaktes Intervall I ⊇ Sf := {x | f (x) = 0} existiert, so existiert es auch für jedes andere derartige Intervall und hat denselben Wert. Wir können also definieren: Definition 11.18. Eine Funktion f : Rn → R heißt Riemann-integrierbar über Rn , wenn sie beschränkt ist, außerhalb einer beschränkten Menge verschwindet, und wenn das Integral f := f , wobei I ⊇ {x | f (x) = 0} , (11.30) I
existiert. Diese Bezeichnung verwenden wir auch, wenn f zunächst nur auf einer beschränkten Menge S ⊆ Rn definiert ist. Wir denken uns dann f durch Null auf ganz Rn fortgesetzt wie in Def. 11.7. Für A ⊆ S haben wir dann offenbar f = f χA . (11.31) A
Mit diesen Bezeichnungen gilt der bemerkenswerte Satz 11.19. Ist A eine reguläre n × n-Matrix, b ∈ Rn beliebig, und ist f : Rn → R über Rn integrierbar, so ist 1 n (11.32) f (y) dn y . f (Ax + b) d x = | det A| (Insbesondere ist der Integrand auf der linken Seite über Rn integrierbar.) Bewiesen wird dieser Satz, indem man die Transformation y = Ax + b in mehrere einfache Transformationen (Streckungen und Scherungen) zerlegt, bei denen mittels der Substitutionsregel 3.6 und des Satzes von Fubini verfolgt werden kann, wie die Transformation das Integral ändert (Einzelheiten in Ergänzung 11.24). Anmerkung 11.20. Für n = 1 ergibt der Satz 1 f (y) dy , f (ax + b) dx = |a| was für a < 0 im Widerspruch zu 3.6 zu stehen scheint. Diese Diskrepanz rührt davon her, dass wir hier Integrale über Mengen betrachten und nicht Integrale
D. Die Transformationsformel
305
zwischen „Grenzen“ wie in Kap. 3. Ist I ⊆ R ein beschränktes Intervall, so ist grundsätzlich s f (x) dx = f (x) dx r
I
mit r := inf I ,
s := sup I .
Im Falle a < 0 bewirkt die Substitution, dass die untere Grenze größer ist als die obere. Daher muss man die Grenzen vertauschen, wodurch das entstandene Minuszeichen wieder verschwindet. Anwendung des Satzes auf charakteristische Funktionen ergibt eine wichtige Formel, durch die sich die Determinante als Volumen interpretieren lässt: Korollar 11.21. Zu einem Punkt y0 ∈ Rn und n linear unabhängigen Vektoren a1 , . . . , an ∈ Rn definiert man das (bei y0 von diesen Vektoren aufgespannte) Parallelepiped durch ⎧ ⎫ n ⎨ ⎬ ξj aj ξ1 , . . . , ξn ∈ [0, 1] . P (y0 ; a1 , . . . , an ) := y0 + ⎩ ⎭ j=1
Das Parallelepiped ist Jordan-messbar, und sein Volumen ist vn (P (y0 ; a1 , . . . , an )) = | det(a1 , . . . , an )| . Beweis. Es sei A die Matrix aus den Spalten a1 , . . . , an . Dann ist P := P (y0 ; a1 , . . . , an ) das Bild des Würfels W := [0, 1]n unter der Transformation y = Ax + y0 . Für die entsprechenden charakteristischen Funktionen gilt daher: χP (y) = χW (A−1 y − A−1 y0 ) . Wegen det A−1 = 1/ det A ergibt Satz 11.19 also vn (P ) = χP = χW (A−1 y − A−1 y0 ) dn y = | det 1A−1 | χW = | det A | vn (W ) = | det A| . Nun betrachten wir den allgemeinen Fall nichtlinearer Transformationen. Dabei beschränken wir uns auf stetige Funktionen, die über kompakte Mengen integriert werden. Man nennt eine Teilmenge B ⊆ Rn kompakt, wenn sie beschränkt ist und alle ihre Randpunkte enthält. Dieser überaus wichtige Typ von Mengen wird uns in den Kap. 13 und 14 noch näher beschäftigen. Für den Augenblick mag es genügen, festzuhalten, dass stetige Funktionen auf kompakten Mengen beschränkt bleiben, sodass das Integral B f (x) dn x mit Sicherheit existiert, wenn f stetig und B kompakt und messbar ist.
306
11 Integration im Rn
Abb. 11.4. Zum Beweis der Transformationsformel
Sei nun C ⊆ Rn ein Gebiet und G : C −→ Rn ,
D = G(C)
1
sei ein C -Diffeomorphismus, also eine C 1 -Abbildung (Koordinatentransformation), welche eine C 1 -Inverse G−1 : D −→ Rn ,
C = G−1 (D)
besitzt (vgl. Def. 10.16). Sei nun f : D −→ R eine stetige Funktion, B ⊆ D eine kompakte messbare Menge. Dann wollen wir das Integral f (x)dn x B
ausdrücken durch ein Integral über die Menge A = G−1 (B). Theorem 11.22. Sei G : C −→ Rn eine Koordinatentransformation im Rn , D = G(C) und sei f : D −→ R eine stetige Funktion. Dann gilt für jede kompakte messbare Menge B ⊆ D, A = G−1 (B) ⊆ C die Transformationsformel f (X)dn x = f (G(U )) | det(JG(U ))| dn u . (11.33) B
A
Wir beweisen diesen Satz nicht im Detail, skizzieren aber die wesentliche Idee. Sei Q ⊆ Rn ein Intervall mit A⊆Q⊆C. Sei Z = {I1 , . . . , IN } eine Zerlegung von Q mit einer zugehörigen Stützstellenmenge {u1 , . . . , uN }. Wir betrachten ein Teilintervall Ik mit zugehörigem Punkt uk . Sei Jk = G(Ik ) , yk = G(uk ) .
D. Die Transformationsformel
307
Bezeichnen wir mit vn (Jk ) das Volumen des verzerrten Rechtecks, so gilt näherungsweise f (x)dn x ≈ f (yk )vn (Jk ) ,
(11.34)
Jk
weil f stetig ist, wobei die Approximation um so besser ist, je feiner die Zerlegung, d. h. je kleiner das Intervall Ik ist. Um eine Approximation für das Volumen vn (Jk ) zu bekommen, schreiben wir für die Koordinatentransformation G(u) in der Umgebung von uk G(u) ≈ G(uk ) + dGuk (u − uk ) ,
(11.35)
was nichts anderes als eine Taylor-Entwicklung 1. Ordnung ist. Ersetzen wir G durch die rechte Seite von (11.35), so bekommen wir mit Korollar 11.21 die folgende Approximation für das Volumen: vn (Jk ) ≈ | det JG(uk )| vn (Ik ) .
(11.36)
Setzen wir dies in (11.34) ein, so folgt f (x)dn x ≈ f (G(uk ))| det JG(uk )| vn (Ik ) .
(11.37)
Jk
Daraus folgt dann, wenn wir über alle Zerlegungsintervalle summieren f (x)d x ≈ n
B
N
{f (G(uk ))| det JG(uk )|} vn (Ik ) .
(11.38)
k=1
Nach Definition 11.2 ist die rechte Seite aber nichts anderes als die RiemannSumme der Funktion h(u) ≡ {f (G(u))| det JG(u)| } , welche das Integral
f (G(u))| det JG(u)| dn u A
nach Definition 11.3 approximiert. Beispiele: a. Sei B ⊆ R3 das Zylinderstück B = (x, y, z)| x > 0 , y > 0 , und sei f (x, y, z) = x2 y.
x2 + y 2 < 1 ,
0 0 beliebig gewählt (z. B. ρ0 = 1). Offenbar ist m0 := infn f (x) ≤ 0 , x∈R
also g(x) := f (x) − m0 h(I, ρ0 ; x) ≥ 0 . Die Funktion g ist beschränkt, verschwindet außerhalb von Iρ0 und ist nach Thm. 11.10a und Satz 11.4 über Iρ0 integrierbar. Für g können wir also die in (iii) angegebene Konstruktion durchführen und bekommen zu gegen ˜ ˜ ˜ ≤ g(x) ≤ ψ(x) ∀ x und benem ε > 0 Funktionen ϕ˜ , ψ ∈ Cc (R ) mit ϕ(x) ˜ (ψ − ϕ) ˜ < ε. Setze ϕ(x) := ϕ(x) ˜ + m0 h(I, ρ0 ; x) ,
˜ ψ(x) := ψ(x) + m0 h(I, ρ0 ; x) .
Dann erfüllen ϕ, ψ offenbar (11.39), (11.40) für die gegebene Funktion f .
11.24 Affine Transformationen. Wir wollen Satz 11.19 beweisen. Dabei betrachten wir zunächst nur Funktionen f ∈ Cc (Rn ), weil bei diesen der Satz von Fubini unbeschränkt anwendbar ist. Am Schluss verwenden wir dann den Satz aus 11.23. Ist I ⊆ Rn ein kompaktes Intervall, so ist auch I + b := {x + b | x ∈ I} ein kompaktes Intervall mit denselben Seitenlängen, also mit vn (I + b) = vn (I). Die Definition des Integrals mittels Riemann’scher Zwischensummen ergibt daher sofort seine Translationsinvarianz (11.46) f (x + b)dn x = f (x)dn x . Also können wir ohne Beschränkung der Allgemeinheit b = 0 annehmen. Wir beweisen die Behauptung nun zunächst für den Fall, dass A eine untere Dreiecksmatrix ist: Lemma Ist C = (cij ) eine reguläre untere Dreiecksmatrix, so ist 1 n f (Cx)d x = f (y)dn y . | det C| Beweis. Nach Korollar 5.23 ist det C = c11 c22 · · · cnn , also haben wir zu zeigen: 1 (11.47) f (Cx)dn x = f (y)dn y , |c11 | · |c22 | · · · |cnn |
314
11 Integration im Rn
und das tun wir durch Induktion nach n. Für n = 1 ist es klar (vgl. Anmerkung 11.20). Setze x = (x1 , x ) , y = (y1 , y ) mit x , y ∈ Rn−1 . Dann ist y = Cx äquivalent zu dem Gleichungssystem y1 = c11 x1 + C1 x y = C x , wobei C1 := (c12 , . . . , c1n ) und C die (n − 1)-reihige Dreiecksmatrix ⎛ ⎞ c22 · · · c2n ⎜ .. . . .. ⎟ ⎝ . . . ⎠ 0 · · · cnn ist. Mit Thm. 11.12 folgt n n−1 d x f (c11 x1 + C1 x , C x ) dx1 f (Cx) d x = 1 3.6 n−1 = d x f (y1 , C x ) dy1 |c11 | 1 = g(C x ) dn−1 x |c11 | mit g(y ) :=
f (y1 , y ) dy1 .
Man überzeugt sich leicht, dass g ∈ Cc (Rn−1 ) ist (vgl. 15.6a). Nach Induktionsvoraussetzung ist also 1 n−1 x = g(C x ) d g(y ) dn−1 y . |c22 | · · · |cnn | Setzt man dies ein, so hat man (11.47) für n-Variable.
Eine beliebige n×n-Matrix A lässt sich nach Thm. 5.12 durch endlich viele elementare Matrixoperationen (vgl. Abschn. 5B.) in eine untere Dreiecksmatrix (die „gestufte Form“) überführen, und dabei ist | det A| = | det C|
(11.48)
nach Thm. 5.19c Wir werden nun die elementaren Matrixoperationen durch Linksmultiplikation mit gewissen Matrizen spezieller Bauart ausdrücken und dann nachprüfen, dass sich die Integrale bei Transformation mit diesen speziellen Matrizen nicht ändern.
Ergänzungen
315
(i) Zeilenvertauschungen V (i, j): Für 1 ≤ i < j ≤ n setzen wir P (i, j) := (E 1 , . . . , E j , . . . , E i , . . . , E n ) , wo die E k die Spalten der Einheitsmatrix sind. Dass B aus A durch Anwenden der Zeilenvertauschung V (i, j) hervorgeht, bedeutet nun gerade, dass B = P (i, j)A oder, anders ausgedrückt, A = P (i, j)B ,
(11.49)
da offenbar P (i, j) = P (i, j)−1 ist. (ii) Ersetzungen M (i, j, µ): Es sei Eij die Matrix (δik δjl )k,l=1,...,n , also diejenige n × n-Matrix, die am Platz (i, j) eine Eins hat und sonst nur Nullen. Ferner sei E die n × n-Einheitsmatrix und Q(i, j, µ) := E + µEji für i = j und µ ∈ R. Die Beziehung B = Q(i, j, µ)A bedeutet dann gerade, dass B aus A durch Anwenden der Ersetzungsoperation M (i, j, µ) hervorgeht, wie man ohne weiteres nachrechnet. Ebenso leicht rechnet man nach, dass Q(i, j, µ1 )Q(i, j, µ2 ) = Q(i, j, µ1 + µ2 ) und insbesondere
Q(i, j, −µ) = Q(i, j, µ)−1 .
Also entsteht B aus A durch Anwendung von M (i, j, µ) genau dann, wenn A = Q(i, j, −µ)B .
(11.50)
Ist nun M eine beliebige Matrix der Gestalt P (i, j) oder Q(i, j, µ), so ist f (M x) dn x = f (y) dn y . (11.51) Für M = P (i, j) folgt das direkt aus Korollar 11.13, und für den Fall M = Q(i, j, µ) beachte man, dass Q(i, j, µ) eine Dreiecksmatrix mit lauter Einsen auf der Diagonale ist, sodass man Lemma 1 (oder seine Entsprechung für obere Dreiecksmatrizen) verwenden kann. Die Aussage von Thm. 5.12 bedeutet nun, dass A durch Linksmultiplikation mit Matrizen der Form P (i, j) oder Q(i, j, µ) in eine untere Dreiecksmatrix C übergeht, wobei (11.48) gilt. Nach (11.49), (11.50) ist dann A = M1 M2 · · · MN C ,
11 Integration im Rn
316
wobei (11.51) auf jede der speziellen Matrizen M1 , . . . , MN anwendbar ist. Es folgt 1 f (Ax) dn x = f (Cx) dn x = f (y) dn y , | det A| zusammen mit (11.46) also die Behauptung, jedenfalls für f ∈ Cc (Rn ). Nun sei f irgendeine Funktion, die über Rn Riemann-integrierbar ist. Wir wählen eine Nullfolge (εm ) positiver Zahlen und finden nach dem Satz aus 11.23 Funktionen ϕm , ψm ∈ Cc (Rn ) mit ϕm ≤ f ≤ ψm und
(11.52)
(ψm − ϕm ) < εm .
(11.53)
Wir setzen Φm (x) := ϕm (Ax + b) ,
F (x) := f (Ax + b) ,
Ψm (x) := ψm (Ax + b)
und haben dann nach dem bisher Bewiesenen 1 εm (Ψm − Φm ) = (ψm − ϕm ) < | det A| | det A| sowie Φm , Ψm ∈ Cc (Rn ) , Φm ≤ F ≤ Ψm . Der Satz aus 11.23 zeigt daher, dass F integrierbar ist. Aus (11.52), (11.53) und Thm. 11.10a, b ergibt sich aber 0 ≤ f − ϕm ≤ (ψm − ϕm ) < εm −→ 0 (m → ∞) , also f = limm→∞ ϕm . Völlig analog erkennt man, dass F = limm→∞ Φm . Es folgt 1 1 F = lim ϕm = f, m→∞ | det A| | det A| also die Behauptung von Satz 11.19 für allgemeines f . 11.25 Ausblick. Die charakteristische Funktion χQ der Menge der rationalen Zahlen, also die Funktion 1 , falls x rational, χQ (x) = 0 , falls x irrational ist über kein Intervall I = [a, b] (a < b) Riemann-integrierbar. Denn da jedes – noch so kurze – offene Intervall sowohl rationale wie auch irrationale Zahlen enthält, hat jede Untersumme den Wert 0 und jede Obersumme den Wert 1, egal wie fein die Zerlegung ist. In der Lebesgue’schen Integrationstheorie hingegen ist χQ integrierbar, und das Integral hat den Wert Null. Man mag sich fragen, ob es wirklich der Mühe wert ist, wegen dieser und ähnlicher skurriler Funktionen, die in der Physik bestimmt nicht vorkommen,
Aufgaben
317
mit viel Aufwand eine neue Theorie zu entwickeln. Nun gilt aber die interessante Formel m . (11.54) χQ (x) = lim lim cos2 πn!x n→∞ m→∞
(Der Beweis sei als Übung gestellt.) Dies zeigt, dass man durch Grenzübergänge schneller als man denkt zu solchen scheinbar skurrilen Funktionen gelangen kann und die Funktion χQ ist hier natürlich nur ein Beispiel unter vielen. Der Sinn einer Erweiterung der Integrationstheorie liegt nicht so sehr darin, neue Integrale auszurechnen, sondern eine Klasse von integrierbaren Funktionen zur Verfügung zu stellen, in der man bequem und sorglos mit Grenzübergängen hantieren kann. Dafür ist die Klasse der Riemann-integrierbaren Funktionen in der Tat zu klein. Wir werden im Folgenden noch mehrmals auf diesen Punkt zurückkommen.
Aufgaben zu §11 11.1. Es seien A1 , . . . , As beschränkte Jordan-messbare Teilmengen von Rn . Man beweise: Wenn für eine Zahl r ∈ N 1 vn (Aj ) r j=1 s
vn (A1 ∪ A2 ∪ . . . ∪ As )
0 setzen wir Σn (a) :=
(x1 , . . . , xn ) ∈ R x1 ≥ 0 , . . . , xn ≥ 0 , n
n
xk ≤ a
.
k=1
Man beweise durch Induktion nach n, dass vn (Σn (a)) = an /n!. b. Gegeben sei ein Punkt y ∈ Rn und eine Basis {b1 , . . . , bn } von Rn . Das in diesem Punkt von dieser Basis aufgespannte Simplex ist die Menge n ξk bk (ξ1 , . . . , ξn ) ∈ Σn (1) . Sn (y; b1 , . . . , bn ) := x = y + k=1
Man zeige: vn (Sn (y; b1 , . . . , bn )) = | det(b1 , . . . , bn )|/n! . Bemerkung: Man nennt Σn (1) das n-dimensionale Standardsimplex. c. Es seien z0 , z1 , z2 ∈ C die Eckpunkte eines Dreiecks " in der komplexen Ebene. Man zeige, dass der Flächeninhalt von " gegeben ist durch: 1 F = Im (z1 − z0 )(z2 − z0 ) . 2 11.4. Durch Transformation auf Polarkoordinaten berechne man die folgenden zweidimensionalen Gebietsintegrale:
a.
ln (1 + x2 + y 2 ) d(x, y) , Ω
b.
wobei Ω im ersten Quadranten das Innere des Einheitskreises ist. E 1 − x2 − y 2 d(x, y) , 1 + x2 + y 2 Ω
wobei Ω wie in a ist.
c.
d(x, y) , Ω
wobei Ω ⊆ R2 von der Lemniskate (x2 + y 2 )2 = 4(x2 − y 2 ) berandet wird. d. (x + y)2 d(x, y) Ω
mit Ω := {(x, y) | x + y − x < 0 , x2 + y 2 − y > 0 , y > 0}. 2
2
Aufgaben
319
11.5. Es sei 0 ≤ α < β ≤ 2π und R : [α, β] → R stetig und positiv. Man zeige, dass der Flächeninhalt der Menge A := {(x, y) | x = r cos ϕ , y = r sin ϕ , ϕ ∈ [α, β] , 0 ≤ r ≤ R(ϕ)} durch die Sektorformel v2 (A) =
1 2
β
R(ϕ)2 dϕ α
gegeben ist. 11.6. Man berechne das Volumen der Menge Ω := {(x, y, z) | 0 < x < b , e−2x > y 2 + z 2 } ,
(b > 0 gegeben) .
11.7. Sei B ⊆ Rn eine beschränkte messbare Teilmenge und p = (a, h) = (a1 , . . . , an , h) ∈ Rn+1 ein Punkt. Unter dem Kegel mit Grundfläche B und Spitze p versteht man die Menge C(B, p) := {((1 − t)x + ta, th) ∈ Rn+1 | x ∈ B , 0 ≤ t ≤ 1} . Man veranschauliche sich für verschiedene Wahlen von B und p die entsprechenden Kegel im Falle n = 2. Man beweise: vn+1 (C(B, p)) = vn (B) |h| /(n + 1). (Hinweis: Am besten mit dem Prinzip von Cavalieri.) 11.8. Mit den angegebenen Koordinatentransformationen berechne man die folgenden zweidimensionalen Gebietsintegrale:
a.
(x2 + y 2 ) d(x, y) , Ω
wobei Ω im ersten Quadranten von den Hyperbeln x2 − y 2 = 1 ,
x2 − y 2 = 9 ,
xy = 2 ,
xy = 4
berandet wird, mit der Transformation: u = x2 − y 2 , v = 2xy b. d(x, y) , Ω
wobei Ω im ersten Quadranten von den Kurven xy = 4 ,
xy = 8 ,
xy 3 = 5 ,
xy 3 = 15
berandet wird, mit der Transformation: u = xy, v = xy 3 . c. y 2 d(x, y) Ω
für Ω := {(x, y) | x > 0 , y > 0 , 0 < xy < 3 , x < y < 2x}, mit der Transformation u = xy, v = y/x.
320
11 Integration im Rn
d.
2π(x2 − y 2 ) sin π(x − y)2 d(x, y) Ω
wo Ω das Quadrat mit den Ecken ±e1 , ±e2 ist. Transformation: u = x+y, v = x − y. 11.9. Man berechne folgende dreidimensionale Volumenintegrale:
a.
xy d(x, y, z) , Ω
wobei Ω ⊆ R oberhalb der (x, y)-Ebene von den Flächen z = xy, x + y = 1, z = 0 berandet wird. b. y cos(x + z) d(x, y, z) , 3
Ω
wobei Ω ⊆ R von den Flächen y = wird. 3
√ x, y = 0, z = 0, x + z =
π 2
berandet
11.10. Durch Transformation auf Zylinderkoordinaten berechne man die Trägheitsmomente Iz = (x2 + y 2 ) d(x, y, z) Ω
der folgenden Gebiete Ω ⊆ R mit Massendichte ρ = 1 bezüglich der Rotation um die z-Achse: 3
a. Ω liegt oberhalb der (x, y)-Ebene und wird berandet von dem Zylinder x2 + y 2 = 4 und dem Paraboloid z = x2 + y 2 . 2 2 b. Ω wird
berandet von dem Paraboloid z = x + y und dem Kegel 2 2 z = x +y . 11.11. Man berechne Ω xyzd(x, y, z) für Ω := {(x, y, z) | x2 + y 2 < z 2 , 0 < z < 1}. 11.12. Durch Transformation auf Kugelkoordinaten berechne man das Volumen der folgenden Gebiete Ω ⊆ R3 : a. Ω innerhalb der Fläche: (x2 + y 2 + z 2 )2 = y. b. Ω innerhalb der Fläche: (x2 + y 2 + z 2 )2 = x2 + y 2 . 11.13. Man berechne das Volumen des Gebiets 2 R R2 3 2 2 2 2 + y2 < C = (x, y, z) ∈ R | x + y + z < R und x − 2 4 (R > 0 gegeben).
,
Aufgaben
321
11.14. Gegeben seien positive Zahlen a1 , . . . , an sowie ein Punkt x0 = (x01 , . . . , x0n ) ∈ Rn . Das massive Ellipsoid mit dem Mittelpunkt x0 und den Halbachsen a1 , . . . , an ist die Menge 0 2 (xn − x0n )2 n (x1 − x1 ) E := (x1 , . . . , xn ) ∈ R + ··· + ≤ 1 . a21 a2n Man beweise: vn (E) = ωn
n
ak ,
k=1
wobei ωn das Volumen der n-dimensionalen Einheitskugel bezeichnet. (Hinweis: E geht aus der Einheitskugel durch eine affine Transformation hervor!) Wie lautet diese Formel speziell für die zweidimensionalen Ellipsen und die dreidimensionalen Ellipsoide? (Vgl. die Beispiele hinter 11.15.) 11.15. Sei A ∈ Rn×n eine orthogonale Matrix und b ∈ Rn = Rn×1 ein fester Vektor. Man beweise: Für jede (im Sinne von Def. 11.18) Riemannintegrierbare Funktion f : Rn → R gilt n f (Ax + b) d x = f (y) dn y . Man folgere daraus auch:
vn (S ) = vn (S)
für jede beschränkte Jordan-messbare Menge S ⊆ Rn , S := {Ax + b | x ∈ S}. Bemerkung: Die Transformationen der Form y = Ax + b mit orthogonalem A nennt man auch euklidische Bewegungen. 11.16. Man beweise nacheinander: a. Ist 1 ≤ m < n, so ist jedes m-dimensionale Intervall J ⊆ Rn eine n-dimensionale Nullmenge (im Sinne von Def. 11.5a.). Genauer: Ist I ⊆ Rm ein Intervall, m < n, so hat J = I × {0} ⊆ Rn das n-dimensionale Jordan-Maß Null. b. Jede Teilmenge einer n-dimensionalen Nullmenge ist ebenfalls eine ndimensionale Nullmenge. c. Eine Teilmenge W ⊆ Rn wird affiner Teilraum genannt, wenn sie einen Punkt b enthält, für den die Vektoren x − b mit x ∈ W einen Teilvektorraum U von Rn bilden. (Man überlege sich, dass dies dann auch auf jeden anderen Punkt b ∈ W zutrifft, und zwar mit demselben Raum U , sodass es auf die Wahl von b nicht ankommt.) Die Dimension von W ist definiert als die Dimension von U . Behauptung: Jede beschränkte Teilmenge S ⊆ Rn , die in einem affinen Teilraum W mit m = dim W < n enthalten ist, hat das n-dimensionale Maß Null. (Hinweis: W kann durch eine euklidische Bewegung (vgl. vorige Aufgabe) in Rm × {0} überführt werden (wieso?).)
322
11 Integration im Rn
11.17. Mit Cc (Rn ) (bzw. Cc1 (Rn )) bezeichnen wir den reellen Vektorraum der stetigen (bzw. der einmal stetig differenzierbaren) Funktionen f : Rn → R, die außerhalb einer beschränkten Menge verschwinden (wobei das für verschiedene Funktionen durchaus verschiedene Mengen sein können!). Man beweise, dass durch die nachstehenden Formeln Skalarprodukte auf diesen Räumen gegeben sind: f |g := f (x)g(x) dn x für Cc (Rn )
bzw. f |g :=
∇f (x) · ∇g(x) dn x
für Cc1 (Rn ) .
Wie sehen die entsprechenden Normen aus? 11.18. Wir betrachten dieselben Funktionenräume wie in der vorigen Aufgabe. Für p ≥ 1 , f ∈ Cc (Rn ) und g ∈ Cc1 (Rn ) setzen wir Np (f ) := Np,1 (g) :=
1/p |f (x)|p dn x , 1/p ∇g(x)p dn x ,
wobei mit ∇g(x) die euklidische Norm gemeint ist. Ferner definieren wir „gestreckte“ oder „gestauchte“ Funktionen fr , gr für r > 0 durch fr (x) := f (rx) ,
gr (x) := g(rx) .
Man zeige: a. Np (fr ) = Np (f )rα und Np,1 (gr ) = Np,1 (g)rβ mit Exponenten α, β, die zwar von n und p, nicht aber von r oder den Funktionen f, g abhängen. Man gebe diese Exponenten explizit an. b. Der Quotient Nq (gr )/Np,1 (gr ) ist genau dann von r unabhängig, wenn 1/q = 1/p − 1/n ist (p, q ≥ 1). Bemerkung: Die Größen Np (f ) , Np,1 (g) sind Normen auf den entsprechenden Vektorräumen und spielen in der theoretischen Behandlung vieler partieller Differenzialgleichungen eine wichtige Rolle. Darauf können wir aber nicht näher eingehen.
12 Integralsätze
Bei Funktionen einer reellen Variablen sind Integration und Differenziation durch den Hauptsatz der Differenzial- und Integralrechnung (Thm. 3.4) eng miteinander verknüpft. Solch eine Verbindung gibt es auch für Funktionen mehrerer Variablen, aber ihre allgemeine Formulierung erfordert höhere Mittel und würde den Rahmen dieses Grundkurses sprengen. Gewisse Spezialfälle für zwei und drei Variable jedoch, die als die Integralsätze von Green, Gauß und Stokes bekannt sind, sind für die Physik so wichtig, dass wir sie jetzt schon behandeln müssen (Abschn. C., D. und E.). Zuvor müssen wir uns aber noch mit der mathematischen Beschreibung von glatten, aber gekrümmten Flächen und Flächenstücken im dreidimensionalen Raum vertraut machen, und insbesondere müssen wir uns überlegen, wie man über solche Flächenstücke sinnvoll integrieren kann (Abschn. A., B.).
A. Flächen im R3 Wir beginnen damit, parametrisierte Flächen im R3 zu untersuchen. Dazu betrachten wir für ein Gebiet Ω ⊆ R2 Abbildungen ⎛ ⎛ ⎞ ⎞ f (u, v) f X = F (u, v) = ⎝ g(u, v) ⎠ . F = ⎝ g ⎠ : Ω −→ R3 , h(u, v) h Solche Abbildungen deuten wir als Parameterdarstellungen von Flächen im R3 S : X = F (u, v) , (u, v) ∈ Ω = Ω ∪ ∂Ω . (12.1) Wir nehmen an, dass die Parameterdarstellung F differenzierbar in Ω ist. Ist dann P = F (u, v) ∈ S ein fester Flächenpunkt, a = (a, b) ∈ R2 ein Vektor, so ist die Richtungsableitung d(u,v) F (a) = (JF (u, v))a = a
∂F ∂F (u, v) + b (u, v) ∂u ∂v
(12.2)
324
12 Integralsätze
ein Tangentenvektor an die Fläche S im Punkte P und zwar eine Linearkombination der Vektoren Fu (u, v) = D1 F (u, v) ,
Fv (u, v) = D2 F (u, v)
die ihrerseits die Spalten der Jacobi-Matrix von F bilden: ⎤ ⎡ fu fv JF = (Fu , Fv ) = ⎣ gu gv ⎦ . hu hv
(12.3)
(12.4)
Sind die Spalten in jedem Punkt (u, v) ∈ Ω linear unabhängig, d. h. rang (JF )(u, v) = 2
für alle (u, v) ∈ Ω ,
(12.5)
so spannen die Vektoren Fu (u, v), Fv (u, v) die Tangentialebene an S im Punkte P = F (u, v) auf. Diese hat die Parameterdarstellung s, t ∈ R
EP S : X = F (u, v) + sFu (u, v) + tFv (u, v) ,
(12.6)
für festes (u, v) ∈ Ω. Den zweidimensionalen Teilraum des R3 TP S := LH(Fu (u, v) , Fv (u, v))
(12.7)
nennt man den Tangentialraum von S in P . Im R3 steht der Vektor nP S = Fu (u, v) × Fv (u, v)
(12.8)
senkrecht auf der Tangentialebene und heißt daher Normalenvektor auf S in P . Wegen (12.5) ist nP S = 0. Wir fassen zusammen: Definitionen 12.1. Sei Ω ⊆ R2 ein Gebiet, F : Ω −→ R3 eine C 1 -Abbildung mit rang JF = 2 in ganz Ω. Dann heißt F eine Parameterdarstellung der glatten, regulären Fläche S : X = F (u, v) ,
(u, v) ∈ Ω
im R3 .
(12.9)
Jeder Vektor t = aFu (u0 , v0 ) + bFv (u0 , v0 ) ,
a, b ∈ R
(12.10)
heißt ein Tangentenvektor an S in P0 = F (u0 , v0 ), EP0 S : X = F (u0 , v0 ) + sFu (u0 , v0 ) + tFv (u0 , v0 )
(12.11)
eine Parameterdarstellung der Tangentialebene, nP0 S = Fu (u0 , v0 ) × Fv (u0 , v0 ) = (Dx , Dy , Dz )T(u0 ,v0 )
(12.12)
ein Normalenvektor, wobei
gu gv ∂(y, z) ∂(z, x) hu hv Dx := = = , Dy := , hu hv ∂(u, v) ∂(u, v) fu fv f f ∂(x, y) = u v . Dz := gu gv ∂(u, v)
(12.13)
A. Flächen im R3
325
Genau wie bei einigen Kurven im R2 , die man in expliziter Form Γ : y = f (x) ,
a≤x≤b
darstellen kann, gibt es auch Flächen S ⊆ R3 , die man explizit in der Form S : z = f (x, y) ,
(x, y) ∈ Ω ⊆ R2
(12.14)
beschreiben kann, d. h. als Graph einer C 1 -Funktion f : Ω −→ R. Daraus kann man sofort eine Parameterdarstellung der Form ⎛ ⎞ u (12.15) S : X = F (u, v) = ⎝ v ⎠ , (u, v) ∈ Ω f (u, v) gewinnen. Geht man damit in die Definition 12.1, so hat man: Satz 12.2. Sei S : z = f (x, y)
mit f ∈ C 1 (Ω) ∩ C 0 (Ω)
eine glatte explizite Fläche im R3 . Dann wird die Tangentialebene aufgespannt von den Vektoren ⎛ ⎞ ⎛ ⎞ 1 0 ⎝0⎠ , ⎝1⎠ fx fy und hat daher im Flächenpunkt P0 = (x0 , y0 , f (x0 , y0 )) die explizite Darstellung EP0 S : z = f (x0 , y0 ) + fx (x0 , y0 )(x − x0 ) + fy (x0 , y0 )(y − y0 ) für alle (x, y) ∈ R2 , und den Normalen-Einheitsvektor ⎛ ⎞ −fx 1 ⎝−fy ⎠ nP0 S = 2 2 1 + fx + fy 1 (x ,y 0
. 0)
Neben der expliziten Darstellung von Kurven Γ ⊆ R2 und Flächen S ⊆ R3 gibt es noch implizite Darstellungen Γ : g(x, y) = c , S : h(x, y, z) = c ,
(12.16)
wobei c ∈ R eine Konstante ist und g : R2 −→ R, h : R3 −→ R C 1 -Funktionen sind. Die nahe liegendsten Beispiele hierfür sind sicherlich die Kreislinie x2 + y 2 = r2 und die Sphäre ( = Kugeloberfläche) x2 + y 2 + z 2 = r2 , wobei jedes Mal der Radius r eine gegebene Zahl ist.
326
12 Integralsätze
Nehmen wir an, Γ und S sind außerdem in Parameterdarstellung gegeben: Γ : X = F (t)
= (ϕ(t), ψ(t))T ,
a≤t≤b,
S : X = G(u, v) = (α(u, v), β(u, v), γ(u, v))T ,
(u, v) ∈ Ω .
(12.17)
Dann gilt g(ϕ(t), ψ(t)) = c
für alle t ∈ [a, b] ,
h(α(u, v), β(u, v), γ(u, v)) = c
für alle (u, v) ∈ Ω .
(12.18)
Differenzieren wir diese Gleichungen nach t bzw. u, v, so folgt gx (x, y)ϕ (t) + gy (x, y)ψ (t) = grad g(x, y) · F (t) = 0 und
hx αu + hy βu + hz γu = grad h · Fu = 0 , hx αv + hy βv + hz γv = grad h · Fv = 0 .
(12.19)
(12.20)
Aus (12.19) folgt, dass grad g(x, y) senkrecht auf dem Tangentenvektor F (t) der Kurve Γ steht und daher ein Normalenvektor auf Γ ist. Aus (12.20) folgt, dass grad h senkrecht auf den beiden Tangentenvektoren Fu , Fv von S steht und daher ein Normalenvektor auf S ist, weil Fu , Fv die Tangentialebene aufspannen. Wir fassen zusammen: Satz 12.3. a. Sei Ω ⊆ R2 ein Gebiet, g ∈ C 1 (Ω) eine gegebene Funktion mit grad g = 0 in Ω. Dann ist Γ : g(x, y) = c eine implizite reguläre Kurve im R2 mit Normalenvektor nX0 (Γ ) = grad g(x0 , y0 )
in X0 = (x0 , y0 ) ∈ Γ
und impliziter Tangentenlinie TX0 (Γ ) : gx (x0 , y0 )(x − x0 ) + gy (x0 , y0 )(y − y0 ) = 0 . b. Sei Ω ⊆ R3 ein Gebiet, g ∈ C 1 (Ω), grad g = 0, eine gegebene Funktion. Dann ist S : g(x, y, z) = c eine implizite reguläre Fläche im R3 mit Normalenvektor grad g(x0 , y0 , z0 )
in (x0 , y0 , z0 ) ∈ S
und impliziter Tangentialebene TX0 S : grad g(X0 ) · (X − X0 ) = 0 .
B. Flächenintegrale
327
B. Flächenintegrale Sei (u, v) ∈ I ⊆ R2
S : X = F (u, v) ,
eine glatte, injektiv parametrisierte Fläche im R3 und es sei ρ : S −→ R eine gegebene stetige Funktion, die zum Beispiel die Ladungsdichte auf der Fläche S beschreibt. Wir fragen nach der Gesamtladung auf der Fläche S. Um diese zu bestimmen, gehen wir ähnlich vor wie bei unseren Überlegungen zur Herleitung der Transformationsformel 11.22: Wir machen eine Zerlegung Z = {I1 , . . . , IN } des Parameterintervalls I in Teilintervalle und wählen Stützstellen (uj , vj ) ∈ Ij . Auf dem Flächenstück Sj = F (Ij ) ist die stetige Funktion näherungsweise konstant, wenn die Feinheit der Zerlegung klein ist: ρ(F (u, v)) ≈ ρ(F (uj , vj ))
für (u, v) ∈ Ij ,
und es ist dann Ladung (S) = ≈
N j=1
N
j=1
Ladung (Sj ) ρ(F (uj , vj )) · A(Sj ) ,
(12.21)
wo A(Sj ) den Flächeninhalt von Sj bezeichnet. Auf dem kleinen Intervall Ij herrscht gute Übereinstimmung zwischen F und seiner Taylor-Entwicklung G(u, v) := F (uj , vj ) + Fu (uj , vj )(u − uj ) + Fv (uj , vj )(v − vj ) , also ist A(Sj ) ≈ A(G(Ij )), und G(Ij ) ist ein Parallelogramm, sodass wir seinen Flächeninhalt durch die Formel aus Anmerkung 6.21 angeben können. Sind δj , εj die Kantenlängen von Ij , so wird dieses Parallelogramm (an einem geeigneten Punkt, der uns nicht zu interessieren braucht) von den folgenden Vektoren aufgespannt: a := δj Fu (uj , vj ) ,
b := εj Fv (uj , vj ) .
Daher liefert 6.21: A(Sj ) ≈ a × b = Fu (uj , vj ) × Fv (uj , vj )v2 (Ij ) ,
(12.22)
sodass wir mit (12.21) schreiben können Ladung (S) ≈
N j=1
ρ(F (uj , vj )) Fu (uj , vj ) × Fv (uj , vj ) v2 (Ij ) .
(12.23)
328
12 Integralsätze
Die rechte Seite ist aber nach Definition 11.3 nichts anderes als die RiemannSumme der Funktion ρ(F (u, v)) Fu (u, v) × Fv (u, v) zur Zerlegung Z. Diese heuristischen Überlegungen zeigen uns, dass die nachstehende Definition wirklich das liefert, was man sich unter dem Integral der Belegungsdichte ρ über die Fläche S vorstellt. Definition 12.4. Sei Ω ⊆ R3 ein Gebiet, ρ : Ω −→ R eine beschränkte integrierbare Funktion. Ist S : X = F (u, v) ,
(u, v) ∈ I ⊆ R2
eine glatte, injektiv parametrisierte Fläche in Ω, so definiert man als Flächenintegral von ρ über S: ρ dσ := ρ(F (u, v))Fu (u, v) × Fv (u, v) d2 (u, v) . (12.24) I
S
Die hier betrachteten Flächen werden auch als regulär bezeichnet. Ist S : z = f (x, y) ,
(x, y) ∈ D ⊆ R2
eine glatte explizite Fläche im R3 , so ist das Flächenintegral von ρ über S ρ dσ = ρ(x, y, f (x, y)) 1 + fx (x, y)2 + fy (x, y)2 d(x, y) . (12.25) S
D
Es ist klar, dass (12.25) aus (12.24) folgt, indem man die spezielle Parameterdarstellung (12.15) verwendet. Ist die Belegungsdichte ρ ≡ 1 auf S, so liefern uns die Formeln (12.24) und (12.25) gerade den Flächeninhalt von S. Definitionen 12.5. Ist S : X = F (u, v) ,
(u, v) ∈ I ⊆ R2
eine glatte, parametrisierte Fläche im R3 , so ist der Flächeninhalt von S definiert durch A(S) = Fu (u, v) × Fv (u, v) d2 (u, v) I
Fu 2 Fv 2 − (Fu · Fv )2 d2 (u, v) . = I
Man nennt dσ = Fu × Fv d2 (u, v) das skalare Flächenelement, dΣ = (Fu × Fv ) d2 (u, v) das vektorielle Flächenelement von S.
C. Der Green’sche Satz in der Ebene
329
Ist S : z = f (x, y) ,
(x, y) ∈ D ⊆ R2
eine glatte explizite Fläche im R3 , so ist der Flächeninhalt von S gegeben durch A(S) = 1 + fx (x, y)2 + fy (x, y)2 d2 (x, y) . (12.26) D
Sei nun wieder Ω ⊆ R3 ein Gebiet, (u, v) ∈ D ⊆ R2
S : X = F (u, v) ,
eine glatte reguläre Fläche im R3 innerhalb Ω und sei k : Ω −→ R3 ein stetiges Vektorfeld, z. B. das Geschwindigkeitsfeld einer Strömung. Wir interessieren uns für den Fluss Φ durch die Fläche S, d. h. für die Menge an strömender Substanz, die pro Zeiteinheit durch S hindurchtritt. Ist S eine ebene Fläche mit Einheitsnormalenvektor n, so ist der Kraftfluss Φ offenbar gegeben durch Φ = (k · n) A(S) , wobei klar ist, dass nur die Normalkomponente k · n der Strömung eine Rolle spielt. Wir definieren also: Definition 12.6. Sei Ω ⊆ R3 ein Gebiet, k : Ω −→ R3 ein stetiges Vektorfeld und S eine reguläre Fläche in Ω. Dann definiert man als Flächenintegral von k über S k · dΣ := k · n dσ , (12.27) S
S
wobei die rechte Seite gemäß Definition 12.4 definiert ist. Im einzelnen bedeutet das: Ist S : X = F (u, v) , so gilt
k · dΣ = S
(u, v) ∈ I ⊆ R2 ,
k(F (u, v)) · (Fu × Fv ) d2 (u, v) .
(12.28)
I
C. Der Green’sche Satz in der Ebene Im R2 stellen wir nun einen Zusammenhang zwischen zweidimensionalen Gebietsintegralen und Kurvenintegralen über den Rand der Gebiete her. In Anlehnung an Definition 11.16 nennen wir ein Gebiet B ⊆ R2 ein Normalgebiet, wenn B sowohl x-normal, d. h. B = {(x, y)|c ≤ y ≤ d , α1 (y) ≤ x ≤ α2 (y)}
330
12 Integralsätze
und y-normal, d. h. B = {(x, y)|a ≤ x ≤ b , β1 (x) ≤ y ≤ β2 (x)} ist. Die Funktionen α1 , α2 , β1 , β2 sollen dabei stetig und stückweise C 1 sein. Für beliebige Teilmengen C ⊆ Rn schreiben wir (in Verallgemeinerung von ◦
(11.3)) C := C \ ∂C und nennen dies das Innere von C. Ein Bereich A ⊆ R2 ◦
◦
heißt Green’scher Bereich, wenn A = B1 ∪ · · · ∪ Bm , wobei Bi ∩ Bj = ∅ für i = j, und wobei die Bi Normalbereiche sind. Dann besteht ∂A aus endlich vielen disjunkten, stückweise glatten geschlossenen Kurven, und man kann über den Rand integrieren, indem man die entsprechenden Kurvenintegrale aufaddiert. Satz 12.7. Sei D ⊆ R2 ein Gebiet und sei f k= : D −→ R2 g ein C 1 -Vektorfeld. Dann gilt für jeden Green’schen Bereich A ⊆ D @ 2 (gx (x, y) − fy (x, y)) d (x, y) = f dx + g dy . ∂A
A
Dabei wird jede der Kurven, aus denen ∂A besteht, so durchlaufen, dass A immer links liegt. Beweis. Sei zunächst A ⊆ R2 ein Normalbereich. Dann folgt, wenn wir zunächst A = {(x, y)| a ≤ x ≤ b , β1 (x) ≤ y ≤ β2 (x)} ansetzen: −
fy d(x, y) = −
A
=− =
b a
b
b β2(x)
fy (x, y) dy dx
a β1 (x)
{f (x, β2 (x)) − f (x, β1 (x))} dx
a
f (x, β1 (x)) dx +
a
f (x, β2 (x)) dx =
b
A
f dx .
∂A
(Die Strecken von (b, β1 (b)) nach (b, β2 (b)) und von (a, β2 (a)) A nach (a, β1 (a)) gehören zwar auch zu ∂A, liefern aber keinen Beitrag zu f dx, denn auf ∂A
diesen Strecken verschwindet die x-Komponente des Tangentenvektors.) Wenn wir hingegen A = {(x, y)| c ≤ y ≤ d ,
α1 (y) ≤ x ≤ α2 (y)}
D. Integralsatz von Gauss
331
ansetzen, so haben wir
gx (x, y) d(x, y) =
B
=
d
g(α2 (y), y) dy +
c
d α2(y)
gx (x, y) dx dy
c α1 (y) c
g(α1 (y), y) dy =
d
A
g dy .
∂A
(Diesmal liefern Strecken parallel zur x-Achse, die zu ∂A gehören, keinen Beitrag zum Kurvenintegral.) Addition der Gleichungen liefert die Behauptung für den Fall eines Normalgebietes. Ist nun A = B1 ∪ · · · ∪ Bm ein Green’scher Bereich, Bi Normalgebiet, so folgt m m A (gx − fy ) = (gx − fy ) = f dx + g dy i=1 i=1 ∂Bi A A Bi f dx + g dy , = ∂A
weil alle innerhalb A gelegenen Randkurven der Bi zweimal in entgegengesetzter Richtung durchlaufen werden und daher keinen Beitrag liefern.
D. Integralsatz von Gauss In diesem Abschnitt wollen wir 12.7 auf den R3 ausdehnen. Wie in Abschnitt C. führen wir zuvor folgende Bezeichnungen ein: Definitionen 12.8. Ein Normalgebiet B ⊆ R3 ist ein Gebiet, das x-normal, d. h. B : (y, z) ∈ Dx ⊆ R2 , α1 (y, z) ≤ x ≤ α2 (y, z) , y-normal, d. h. B : (x, z) ∈ Dy ⊆ R2 ,
β1 (x, z) ≤ y ≤ β2 (y, z) ,
z-normal, d. h. B : (x, y) ∈ Dz ⊆ R2 ,
γ1 (x, y) ≤ z ≤ γ2 (x, y)
ist. Die Funktionen αi , βi , γi (i = 1, 2) sollen dabei stetig und stückweise C 1 sein. Ein Green’scher Bereich A ⊆ R3 ist ein beschränktes Gebiet, das in endlich viele Normalgebiete zerlegt werden kann. Der Rand ∂A besteht dann aus endlich vielen glatten parametrisierbaren Flächen S1 , . . . , Sm , die sich höchstens an ihren Rändern überlappen, und für eine stetige Funktion ρ : ∂A −→ R setzen wir dann @ m @ ρ dσ := ρ dσ . ∂A
j=1 S
j
332
12 Integralsätze
Damit können wir beweisen: Theorem 12.9 (Integralsatz von Gauss). Sei Ω ⊆ R3 ein Gebiet und sei ⎛ ⎞ k1 k = ⎝k2 ⎠ : Ω −→ R3 k3 ein C 1 -Vektorfeld. Dann gilt für jeden Green’schen Bereich A ⊆ Ω: ∂ki 3 d X= ki ni dσ (12.29) ∂xi A
∂A
für i = 1, 2, 3, wobei n = (n1 , n2 , n3 ) die äußere Einheitsnormale auf ∂A ist. Insbesondere gilt div k d3 x = k · dΣ . (12.30) T
A
∂A
Beweis. Der Divergenzsatz (12.30) folgt aus (12.29) durch Addition. Es genügt (12.29) für ein Normalgebiet B zu beweisen, denn ist A = B1 ∪ · · · ∪ Bm ein Green’scher Bereich und ist (12.29) bereits für Normalgebiete Bj bewiesen, so folgt: ∂ki 3 ∂ki 3 ∂xi d x = ∂xi d x A
=
m A
j Bj
ki · ni dσ =
j=1 ∂Bj
A
ki · ni dσ ,
∂A
weil die Flächenintegrale über die inneren Randflächen von Bj sich gegenseitig kompensieren. Da ein Normalgebiet x, y, z-normal ist, genügt es, (12.29) für i = 3 und ein z-Normalgebiet zu zeigen, d. h. hz (x, y, z) d3 (x, y, z) = h n3 dσ , (12.31) B
∂B
wobei wir h ≡ k3 gesetzt haben. Wegen B = {(x, y, z)| (x, y) ∈ D ,
γ1 (x, y) ≤ z ≤ γ2 (x, y)}
mit stetigen Funktionen γ1 , γ2 : D −→ R folgt aus Satz 11.17 für das Volumenintegral auf der linken Seite von (12.31) γ2 (x,y) hz d3 x = hz (x, y, z) dz d2 (x, y) B D γ1 (x,y) (12.32) 2 = {h(x, y, γ2 (x, y)) − h(x, y, γ1 (x, y))} d (x, y) . D
D. Integralsatz von Gauss
333
Abb. 12.1. Die Integrale über die inneren Randflächen kompensieren sich
Um das Oberflächenintegral auf der rechten Seite von (12.31) auszurechnen, schreiben wir ∂B = S1 ∪ S2 ∪ M mit Sj := {(x, y, z)|(x, y) ∈ D , z = γj (x, y)} ,
j = 1, 2 ,
M := {(x, y, z)|(x, y) ∈ ∂D , γ1 (x, y) ≤ z ≤ γ2 (x, y)} und beachten, dass das Integral über M verschwindet, weil dort n3 ≡ 0 ist. Für „Boden“ und „Dach“ des Gebietes wählen wir die expliziten Darstellungen S1 : z = γ1 (x, y) ,
(x, y) ∈ D
mit dem äußeren Normaleneinheitsvektor 1
n= 2 + γ2 1 + γ1,x 1,y und dem Flächenelement dσ =
2 + γ 2 d(x, y) bzw. 1 + γ1,x 1,y
S2 : z = γ2 (x, y) ,
(x, y) ∈ D
mit dem äußeren Normaleneinheitsvektor 1
n= 2 + γ2 1 + γ2,x 2,y und dem Flächenelement dσ =
⎞ ⎛ γ1,x ⎝γ1,y ⎠ −1
⎛ ⎞ γ2,x ⎝γ2,y ⎠ 1
2 + γ 2 d(x, y). 1 + γ2,x 2,y
334
12 Integralsätze
Setzen wir dies gemäß Definition 12.4 ein, so bekommen wir hn3 dσ = hn3 dσ + hn3 dσ ∂B
S1
S2
{h(x, y, γ2 (x, y)) − h(x, y, γ1 (x, y))} d2 (x, y) .
=
(12.33)
D
Dabei haben wir der Einfachheit halber angenommen, dass γ1 , γ2 überall C 1 sind. Im allgemeinen Fall können wir die Flächenintegrale aus glatten Stücken zusammensetzen und erhalten wieder (12.31). Für die Ebene gilt ein völlig analoger Satz, der eigentlich nur eine Umformulierung von Satz 12.7 ist. Wir machen uns zunächst klar, wie man eine stetige skalare Funktion ρ über eine reguläre glatte Kurve Γ ⊆ Rn integrieren kann: Für eine Parameterdarstellung Γ : X = γ(s) , setzen wir
b
ρ dσ := Γ
a≤s≤b
ρ(γ(s)) γ (s) ds
(12.34)
(12.35)
a
und rechnen mittels (9.7) nach, dass dies nicht von der gewählten Parameterdarstellungabhängt. Genau wie beim Flächenintegral kann man sich klar machen, dass Γ ρ dσ die Gesamtladung oder Gesamtmasse ergibt, wenn ρ(x) die Belegungsdichte von Ladung oder Masse entlang der Kurve Γ wiedergibt. Nun gilt: Satz 12.10 (Gauss’scher Integralsatz für die Ebene). Sei D ⊆ R2 ein Gebiet und sei f k= : D −→ R2 g ein C 1 -Vektorfeld. Dann gilt für jeden Green’schen Bereich A ⊆ D: div k d2 (x, y) = k · n dσ , (12.36) A
∂A
wobei n = (n1 , n2 )T die äußere Einheitsnormale auf ∂A ist. Beweis. Die Matrix R :=
0 −1 1 0
bewirkt eine Drehung um den Winkel π/2 entgegen dem Uhrzeigersinn. Für das so gedrehte Vektorfeld Rk = (−g, f )T ergibt Satz 12.7
D. Integralsatz von Gauss
@
Rk = div k d2 (x, y) . fx + gy d2 (x, y) =
∂A
A
335
(12.37)
A
Betrachten wir nun eine der Kurven Γ , aus denen ∂A besteht. Sie sei gemäß (12.34) parametrisiert, und zwar so, dass beim Durchlaufen von Γ der Bereich A zur Linken liegt. Dann ist n(γ(s)) := R−1
γ (s) γ (s)
der äußere Normaleneinheitsvektor auf A im Punkt P = γ(s) ∈ Γ . Die Matrix R ist orthogonal, d. h. RT = R−1 , also Rk(γ(s)) · γ (s) = k(γ(s)) · R−1 γ (s) = k(γ(s)) · n(γ(s))γ (s) für alle s. Die Definitionen (10.28) und (12.35) ergeben daher b @ Rk = Rk(γ(s)) · γ (s) ds = k · n dσ . a
Γ
Γ
Mit (12.37) folgt nun die Behauptung.
Wichtige Folgerungen aus dem Gauß’schen Satz sind die beiden Green’schen Formeln. Satz 12.11. Sei Ω ⊆ Rn , n = 2, 3 ein Gebiet. a. Ist u ∈ C 2 (Ω), v ∈ C 1 (Ω) so gilt für jeden Green’schen Bereich B ⊆ Ω die erste Green’sche Formel @ ∂u dσ . (12.38) (v∆u + ∇v · ∇u) dn x = v ∂n B
∂B
b. Sind u, v ∈ C (Ω), so gilt für jeden Green’schen Bereich B ⊆ Ω die zweite Green’sche Formel @ ∂u ∂v n −v (u∆v − v∆u) d x = u dσ . (12.39) ∂n ∂n 2
B
∂B
Dabei bezeichnet ∂/∂n die Normalableitung, d. h. die Richtungsableitung in Richtung der äußeren Normalen: ∂ := n · ∇ . ∂n Beweis. a. Wir setzen im Gauß’schen Satz (12.30) bzw. (12.36) k := v grad u . Dann ist div k = ∇ · (v∇u) = ∇v · ∇u + v∆u . Einsetzen in (12.30) bzw. (12.36) liefert (12.38).
336
12 Integralsätze
b. Vertauscht man in (12.38) u mit v, so bekommt man @ ∂v n dσ . (u∆v + ∇u · ∇v) d x = u ∂n B
(12.40)
∂B
Subtraktion (12.40) – (12.38) liefert dann gerade (12.39).
E. Integralsatz von Stokes Genau wie der Gauß’sche Satz ist auch der Satz von Stokes eine dreidimensionale Verallgemeinerung des Green’schen Satzes 12.7 @ (gv − fu ) d2 (u, v) = f du + g dv . (12.41) D
∂D
Betrachten wir nämlich die Fläche ⎛ ⎞ ⎛ ⎞ x u S : X ≡ ⎝y ⎠ := F (u, v) = ⎝v ⎠ , z 0
(u, v) ∈ D ,
d. h. ein ebenes Stück der (x, y)-Ebene und ein C 1 -Vektorfeld k = (f, g, h)T im R3 , so können wir, da der Normalenvektor auf D von der Form n = (0, 0, n3 )T = (0, 0, ±1)T und der Tangentenvektor an S von der Form t = (t1 , t2 , 0)T sind, Gleichung (12.41) in der Form @ rot k · dΣ = k ± D
(12.42)
∂D
schreiben. Dabei können wir uns auf das Pluszeichen festlegen, indem wir n = (0, 0, 1)T wählen und ∂D gemäß der „Rechte-Hand-Regel“ durchlaufen. Diese Formel gilt auch für Flächen im R3 : Satz 12.12 (Satz von Stokes). Sei Ω ⊆ R3 ein Gebiet, S eine stückweise glatte orientierte Fläche in Ω mit positiv orientierter, stückweise glatter Randkurve ∂S. Dann gilt für ein C 1 -Vektorfeld k : Ω −→ R3 : @ rot k · dΣ = k . (12.43) S
∂S
E. Integralsatz von Stokes
337
Bemerkung: Dass S orientiert ist, bedeutet, dass ein stetiges Einheits-Normalenvektorfeld n : S −→ R3 gewählt ist. Der Vektor n(x) darf also nicht plötzlich umkippen, während x die Fläche durchläuft. Offenbar gibt es nur zwei Möglichkeiten für die Funktion n : S −→ R3 , und jede definiert eine Orientierung von S. Ist eine Orientierung gewählt, so ergibt sich der richtige Durchlaufungssinn für ∂S nach der „Rechte-Hand-Regel“, und diesen bezeichnen wir als die positive Orientierung der Randkurve. Etwas mathematischer ausgedrückt, heißt das: Man wählt eine Parameterdarstellung F : D → S, für die Fu × Fv = Fu × Fv n überall auf S. Dann wählt man eine Parameterdarstellung G von ∂D, bei der ∂D so durchlaufen wird, dass D immer links liegt. Die Parameterdarstellung H := F ◦ G gibt dann den positiven Durchlaufungssinn von ∂S an. Beweis. Der Beweis wird mit sehr viel Rechnung geführt, deren einzelne Schritte wir nur skizzieren. Wir nehmen o. B. d. A. an, dass (u, v) ∈ D ⊆ R2
S : X = F (u, v) , als glatte Fläche gegeben ist. Ferner sei ∂D : U = G(t) ,
a≤t≤b
die glatte Jordan-Randkurve des Parameterbereiches D und damit ∂S : X = H(t) := F (G(t)) ,
a≤t≤b
die glatte Parametrisierung von ∂S. a. Wir rechnen zunächst das auf der linken Seite von (12.43) stehende Flächenintegral aus. Wegen ⎛ ⎞ ⎛ 2 3 ⎞ ∂2 k3 − ∂3 k2 fu fv − fu3 fv2 rot k = ⎝∂3 k1 − ∂1 k3 ⎠ , dΣ = ⎝fu3 fv1 − fu1 fv3 ⎠ d2 (u, v) ∂1 k2 − ∂2 k1 fu1 fv2 − fu2 fv1 bekommen wir, wenn wir auf die Definitionsgleichung in Definition 12.6 zurückgehen, folgenden Ausdruck: rot k · dΣ = S
3 D
∂j kl fvj ful − fuj fvl d2 (u, v) ,
(12.44)
j=1 l=j
wie man sofort ausrechnet. b. Für das Kurvenintegral auf der rechten Seite von (12.43) ergibt sich andererseits
338
12 Integralsätze
A
k=
∂S
= =
b a b aA
k(H(t)) · H (t) dt k(H(t)) · (Fu · g1 (t) + Fv · g2 (t)) dt k(F (u, v)) · Fu (u, v) du + k(F (u, v)) · Fv (u, v) dv
∂D
nach der Kettenregel und der Definition des Kurvenintegrals. Setzen wir nun kl (F (u, v))ful (u, v) , f (u, v) := k(F (u, v)) · Fu (u, v) = l g(u, v) := k(F (u, v)) · Fv (u, v) = kl (F (u, v))fvl (u, v) l
in den Green’schen Satz ein, so folgt @ k= (gu − fv ) d2 (u, v) . −∂S
D
Nun ist aber nach der Kettenregel ∂ kl (F (u, v))ful (u, v) ∂v l l + ∂j kl · fvj fvl , kl · fuv =
fv =
l
j
l
j
∂ kl (F (u, v))fvl (u, v) gu = ∂u l l kl · fvu + ∂j kl · fvj ful . = Setzen wir diese Ausdrücke in (gu − fv ) d2 (u, v) D
ein, so bekommen wir genau die rechte Seite von (12.44).
Ergänzungen zu §12 Ziel der Ergänzungen hier ist es, mithilfe der Integralsätze die Bedeutung der Feldoperationen grad, div, rot besser zu verstehen. Für das Verständnis und die korrekte Anwendung der Integralsätze ist außerdem der Begriff der Orientierung wesentlich, den wir deshalb am Schluss gründlich diskutieren.
Ergänzungen
339
12.13 Bedeutung von Divergenz und Rotation. Die anschauliche und physikalische Bedeutung von Divergenz und Rotation eines Vektorfelds werden erst im Lichte der Integralsätze wirklich deutlich. Betrachten wir z. B. ein C 1 -Vektorfeld K : Ω −→ Rn auf einer offenen Teilmenge Ω ⊆ Rn (n = 2, 3), einen festen Punkt a ∈ Ω und eine Folge (Bk ) von zusammenhängenden Green’schen Bereichen, die sich sozusagen auf den Punkt a zusammenziehen. Damit ist gemeint, dass a ∈ Bk ⊆ Uεk (a) ⊆ Ω
∀k ,
wobei (εk ) eine Nullfolge positiver Zahlen ist. Nach dem Mittelwertsatz der Integralrechnung (Thm. 11.10d.) gibt es dann Punkte xk ∈ Bk mit div K = div K(xk )vn (Bk ) . Bk
Wegen xk ∈ Bk ⊆ Uεk (a) ist a = limk→∞ xk . Da div K stetig ist, folgt hieraus 1 div K = div K(a) . lim k→∞ vn (Bk ) B k Der Gauß’sche Integralsatz ergibt nun 1 div K(a) = lim k→∞ vn (Bk )
K · dΣ .
(12.45)
∂Bk
Fassen wir nun K als das Geschwindigkeitsfeld einer Strömung auf (wie in der kurzen Betrachtung vor Def. 12.6), so ist f · dΣ die Gesamtmenge der ∂Bk
Substanz, die pro Zeiteinheit durch die Oberfläche des kleinen, den Punkt a einschließenden Bereichs Bk nach außen strömt. Daher ist div K(a) die Quellstärke der Strömung im Punkt a (bzw. die Sickerstärke, wenn sie negativ ist). Die nahe liegendste Wahl für die Bk sind natürlich Kugeln Bε (a). Dafür ergibt sich, etwa für n = 3: 3 x−a div K(a) = lim dσ . (12.46) K(x) · ε→0 4πε3 x − a ∂Bε (a)
Um für die Rotation eine ähnliche Überlegung anzustellen, betrachten wir eine Rechts-Orthonormalbasis (u, v, w) des R3 , d. h. es ist u × v = w (vgl. 10.18e, 10.28). Damit bilden wir Kreisscheiben Sε um den Punkt a in der Ebene senkrecht zu w, also Sε := {a + su + tv|s2 + t2 < ε2 } und parametrisieren die Ränder Γε := ∂Sε etwa durch Γε : x = a + εu cos ϕ + εv sin ϕ ,
0 ≤ ϕ ≤ 2π .
340
12 Integralsätze
Es ist leicht zu sehen (Übung!), dass 1 w · rot K(a) = lim 2 ε→0 πε
rot K(x) · w dσ , Sε
und nun ergibt der Integralsatz von Stokes: w · rot K(a) = lim
ε→0
1 πε2
@ K.
(12.47)
Γε
Gemäß seiner Definition berücksichtigt das Kurvenintegral auf der rechten Seite nur die tangentiale Komponente von K entlang des Kreises Γε . Die Komponente von rot K(a) in w-Richtung misst daher die Stärke, mit der K beim Durchlaufen eines kleinen Kreises in der Ebene senkrecht zu w um a herumwirbelt. 12.14 Vektorpotenziale und Satz von Stokes. Der Stokes´sche Integralsatz liefert einen Test für die Existenz eines Vektorpotenzials: Satz. Sei B : Ω −→ R3 ein stetiges Vektorfeld auf dem Gebiet Ω ⊆ R3 . Wenn B auf ganz Ω ein Vektorpotenzial besitzt, so ist B · n dσ = 0 S
für alle Sphären S ⊆ Ω, d. h. für alle Flächen der Form S = {(x, y, z)|(x − a)2 + (y − b)2 + (z − c)2 = r2 } mit gegebenem r > 0 und gegebenem Punkt P = (a, b, c) ∈ R3 . (Ob der Punkt P in Ω liegt, ist dabei unerheblich!) Beweis. Wir zerlegen die gegebene Sphäre in obere und untere Halbsphäre, schreiben also S = S + ∪ S − mit S ± := {(x, y, z) ∈ S| ± (z − c) > 0} . Der Äquator Γ := {(x, y, z) ∈ S|z = c} ist dann sowohl ∂S + als auch ∂S − . Für n wählen wir den äußeren NormalenEinheitsvektor an die Kugel Br (P ), deren Rand S bildet. Die hierdurch bestimmten Orientierungen von S + , S − erzeugen auf Γ entgegengesetzten Durchlaufungssinn. Das ist anschaulich klar, kann aber auch exakt nachgerechnet werden, indem man z. B. die folgenden Parameterdarstellungen für S ± wählt:
Ergänzungen
⎛
341
⎞
x ⎠, y F ± (x, y) := ⎝ (x − a)2 + (y − b)2 < r2 c ± w(x, y)
mit w(x, y) := r2 − (x − a)2 − (y − b)2 . Auf S + zeigt n dann in die gleiche Richtung wie Fx+ × Fy+ , und auf S − zeigt n in die Richtung von Fy− × Fx− , was man durch Nachrechnen sofort bestätigt. Nun nehmen wir an, es sei B = rot A mit einem C 1 -Vektorpotenzial A : Ω −→ R3 . Dann sagt uns Satz 12.12, dass @ @ B · n dσ = B · n dσ + B · n dσ = A− A=0. S± :
S
S+
S−
Γ
Γ
Als Beispiel betrachten wir das quellenfreie Vektorfeld X = (x, y, z) ∈ Ω := R3 \ {0} B(X) := r−3 X ,
mit r := X = x2 + y 2 + z 2 . Dass div B ≡ 0 ist, kann man in kartesischen Koordinaten direkt nachrechnen, aber am praktischsten ist es, zu Kugelkoordinaten überzugehen: Wegen er = X/r ist B = r−2 er , also nach Satz 10.21b (div B)(Q(r, θ, ϕ)) =
r2
∂ 2 1 r sin θ · r−2 = 0 . sin θ ∂r
Nun sei S = SR (0) die Sphäre mit Radius R um den Nullpunkt. Für X ∈ S haben wir dann B(X) · n(X) = R−3 X · R−1 X = R−4 X2 = R−2 , also B · n dσ = R−2 A(S) = 4π = 0 . S
Somit hat B auf Ω kein Vektorpotenzial, obwohl B quellenfrei und Ω einfachzusammenhängend ist (vgl. Def. 10.12a). Das Beispiel hat eine gewisse Ähnlichkeit mit Beispiel 10.13, doch ist jetzt sozusagen alles eine Dimension höher. Insbesondere sind es hier nicht Kurven, die die globale Existenz des Vektorpotenzials verhindern, sondern zweidimensionale Objekte wie die betrachteten Sphären. 12.15 Ein Wort zur Orientierung. Beim Begriff der Orientierung haben wir uns bisher vor einer allgemeinen und präzisen mathematischen Definition gedrückt und stattdessen immer nur erläutert, was sie in der konkreten Situation bedeutet, in der wir sie gerade gebraucht haben. Für alle diejenigen, die das unbefriedigend finden, folgen hier ein paar Antworten: (i) Zwei Basen eines endlichdimensionalen reellen Vektorraums V nennt man gleich orientiert, wenn die Basistransformation, die die eine in die andere
342
12 Integralsätze
überführt, positive Determinante hat. Andernfalls nennt man sie entgegengesetzt orientiert. (Hier muss man Basen als n-Tupel von Vektoren auffassen, nicht als Mengen!) Sind B1 , B2 zwei entgegengesetzt orientierte Basen von V und ist B irgendeine weitere Basis, so ist B entweder mit B1 oder mit B2 gleich orientiert, weil es für das Vorzeichen der Determinante nur zwei Möglichkeiten gibt (genauer Beweis als Übung!). Daher gestattet V genau zwei Orientierungen, die durch die Basen B1 , B2 repräsentiert werden und die zunächst völlig gleichberechtigt sind. Oft hat der Vektorraum jedoch eine „Vorzugsbasis“, und die durch sie gegebene Orientierung nennt man dann positiv, die andere negativ. Insbesondere ist dies in V = Rn der Fall, wo man der Standardbasis (e1 , . . . , en ) den Vorzug gibt. Die positiv (bzw. negativ) orientierten Basen des Rn sind also die Basen (b1 , . . . , bn ) mit det (b1 , . . . , bn ) > 0 (bzw. < 0). Was wir uns in 10.28 im Anschluss an das Lemma überlegt haben, lässt sich in dieser Terminologie folgendermaßen ausdrücken: Eine Orthonormalbasis (a1 , a2 , a3 ) von R3 ist ein Rechtssystem (d. h. a1 × a2 = a3 ) genau dann, wenn sie positiv orientiert ist. Sie folgt dann also dem positiven „Schraubsinn“, der durch die „Rechte-Hand-Regel“ gegeben ist. Eine Basis (b1 , b2 ) von R2 ist positiv orientiert, wenn b1 durch eine Drehung im Gegenuhrzeigersinn in die Richtung von b2 gedreht werden kann. Was aber hat der mathematische Begriff der Orientierung mit so außermathematischen Gegebenheiten zu tun wie dem Lauf des Uhrzeigers oder der Anatomie der menschlichen Hand? Nun, die Verbindung rührt einzig und alleine davon her, dass wir Konventionen für das Zeichnen von Achsenkreuzen haben, die so fest eingebürgert sind, dass sie selbstverständlich erscheinen: Bei einem ebenen Achsenkreuz zeigt die positive x-Achse nach rechts, die positive y-Achse nach oben, und bei einem räumlichen Achsenkreuz zeigt die positive x-Achse nach rechts, die positive y-Achse nach hinten und die positive z-Achse nach oben. Würde man zwei Achsen vertauschen oder bei einer Achse die Richtung ändern (z. B. auf der x-Achse die positiven Zahlen links von der Null auftragen), so würde der bisher als positiv geltende Dreh- bzw. Schraubsinn plötzlich der negativen Orientierung entsprechen. (ii) Aber nicht nur Vektorräume werden orientiert, sondern auch Kurven und Flächen, allgemeiner Mannigfaltigkeiten. Um dies näher zu erläutern, betrachten wir einen Diffeomorphismus Q : G → Ω, wobei G, Ω Gebiete in Rn sind. Dann ist det JQ(u) = 0 ∀ u ∈ G, also muss die Jacobi-Determinante nach dem Zwischenwertsatz in G konstantes Vorzeichen haben. Wir nennen Q orientierungserhaltend, wenn dieses Vorzeichen positiv ist, andernfalls orientierungsumkehrend. Im Falle n = 1, wo also G, Ω Intervalle in R sind, sind die orientierungserhaltenden (bzw. die orientierungsumkehrenden) Diffeomorphismen gerade die monoton wachsenden (bzw. die monoton fallenden) C 1 -Funktionen, deren Ableitung keine Nullstelle hat. Kurven haben wir in Abschn. 9A. dadurch orientiert, dass wir gesagt haben, zwei Parameterdarstellungen vermitteln dieselbe Orientierung, wenn die
Ergänzungen
343
Parametertransformation, die die eine in die andere überführt, monoton wachsend ist. Genauso macht man es bei Flächen (und auch bei höherdimensionalen Mannigfaltigkeiten – vgl. Kap. 21): Es sei S ⊆ R3 ein Flächenstück, das wir durch zwei injektive Parameterdarstellungen S : X = Fi (s, t) ,
(s, t) ∈ Ωi ⊆ R2
angeben können (i = 1, 2). Wie man sich leicht überlegt, ist dann F2 = F1 ◦ Q mit einem Diffeomorphismus („Parametertransformation“) Q : Ω2 → Ω1 . Wir sagen, F1 und F2 vermitteln dieselbe Orientierung auf S, wenn Q orientierungserhaltend ist. Andernfalls vermitteln sie verschiedene Orientierungen. So erhält S zwei mögliche Orientierungen, die man als Klassen von Parameterdarstellungen auffassen kann. Sie entsprechen aber auch den zwei Möglichkeiten für ein Einheits-Normalenvektorfeld n auf S. Setzt man nämlich ∂Fi ∂s × ni := F ∂F F i× ∂s
∂Fi ∂t F ∂Fi F ∂t
,
so ist n2 = n1
⇐⇒
det JQ > 0 ,
n2 = −n1
⇐⇒
det JQ < 0 ,
wie man leicht beweisen kann (notfalls durch stures Nachrechnen!). Im Allgemeinen muss man aber eine Fläche in der Form S = S1 ∪ . . . ∪ Sm aus kleineren Stücken zusammensetzen, die sich injektiv parametrisieren lassen. Eine Orientierung von S ist dann ein Satz von Orientierungen der einzelnen Si , die auf den Überlappungen kompatibel sind in dem Sinne, dass Si und Sj auf Si ∩ Sj dieselbe Orientierung erzeugen. Damit entspricht eine Orientierung von S wieder einem auf ganz S definierten und stetigen EinheitsNormalenvektorfeld. So haben wir in der vorhergehenden Ergänzung die Sphären durch die äußere Einheitsnormale orientiert, und das kann man immer machen, wenn S der Rand eines Green’schen Bereichs ist. Es gibt aber auch Flächen, die nicht orientierbar sind, z. B. das berühmte Möbius-Band. ⎞ ⎛ (R + t cos ϕ/2) cos ϕ |ϕ| ≤ π, |t| ≤ 1 , M : F (ϕ, t) := ⎝ (R + t cos ϕ/2) sin ϕ ⎠ , t sin ϕ/2
Abb. 12.2. Möbius-Band
344
12 Integralsätze
wobei R > 1 gegeben ist. Man sieht anschaulich ein, dass es auf M kein stetiges Einheits-Normalenfeld geben kann, und man kann das auch mithilfe des Zwischenwertsatzes exakt beweisen (vgl. etwa [11], p. 244f.)
Aufgaben zu §12 12.1. Man berechne den Flächeninhalt der Torusfläche ⎡ ⎤ (a + b cos v) cos u a > b > 0, T : x = F (u, v) = ⎣ (a + b cos v) sin u ⎦ , 0 ≤ u , v ≤ 2π . b sin v 12.2. Die Sphäre x2 + y 2 + z 2 = 1 soll durch zwei parallele Ebenen in drei Stücke mit gleichem Flächeninhalt geschnitten werden Wie ist dies zu bewerkstelligen? 12.3. Man beweise, dass der Flächeninhalt gegen euklidische Bewegungen invariant ist. Genauer: Ist S ⊆ R3 eine glatte parametrisierte Fläche und y = Ax + b eine euklidische Bewegung im R3 (vgl. Aufg. 11.15), so ist A(S ) = A(S) für S := {Ax + b | x ∈ S}. Außerdem beweise man: Für S := {λx | x ∈ S} ist A(S ) = λ2 A(S) für jedes λ = 0. 12.4. Man beweise, dass die Oberfläche, die auf einer Kugel vom Radius R von einem Kreiskegel mit Winkel δ ausgeschnitten wird, 2πR2 (1 − cos δ) ist. Die Spitze des Kegels soll dabei mit dem Kugelmittelpunkt zusammenfallen. 12.5. a. Sei z = f (x), 0 < a ≤ x ≤ b, differenzierbar und sei f (x) ≥ 0 auf [a, b]. Durch Rotation des Graphen von f um die z-Achse entsteht eine Rotationsfläche S. Man zeige b
A(S) = 2π x 1 + f (x) dx . a
b. Als Anwendung löse man Aufg. 12.1 erneut. Ferner berechne man den Flächeninhalt der Rotationsfläche, die durch Rotation der Funktionsgra√ √ phen von z = ln(x + x2 − 1) und z = − ln(x + x2 − 1) um die z-Achse entsteht, wobei x ∈ [1, (e + e−1 )/2] ist. c. Sei f wie in Teil a. gegeben. Durch Rotation des Graphen von f um die x-Achse entsteht die Fläche S˜ = {(x, y, z) | y 2 + z 2 = f (x)2 } . Man beweise:
˜ = 2π A(S) a
b
f (x) 1 + f (x)2 dx .
Aufgaben
345
12.6. Man berechne das skalare Flächenintegral . x dσ , S
wobei a. S die Fläche des Paraboloids z = 2 − (x2 + y 2 ) oberhalb der (x, y)-Ebene ist, b. S das Stück der Sphäre x2 + y 2 + z 2 = 1, x ≥ 0, y ≥ 0, z ≥ 0 ist. 12.7. a. Man beweise, dass der Flächeninhalt eines Green’schen Bereichs B in der Ebene gegeben ist durch @ @ @ 1 v2 (B) = x dy = − y dx = x dy − y dx . (12.48) 2 ∂B ∂B ∂B b. Mittels a berechne man den Inhalt v2 (Bn ) des Gebietes Bn ⊆ R2 innerhalb der Kurve √
n n x2 y2 + =1 2 2 a b für n = 1, 2, 3, . . . (Hinweis: Wer das Problem für allgemeines n lösen möchte, greife auf Rekursionsformeln wie die aus Aufg. 3.12a zurück.) 12.8. Sei Ω ⊆ R3 ein Gebiet und seien f , g : Ω −→ R C 1 -Funktionen. Sei B ⊆ R3 ein Normalbereich mit B ⊆ Ω, sodass für x ∈ ∂B.
g(x) = 0 Man zeige:
∂f (x) ∂g(x) 3 g(x) d3 x = − f (x) d x, ∂xi ∂xi
B
i = 1, 2, 3 .
B
12.9. a. Es seien ϕ : R → R ein C 1 -Skalarfeld und K : R3 → R3 ein C 1 -Vektorfeld sowie B ⊆ R3 ein Green’scher Bereich. Man zeige @ grad ϕK · d3 x = ϕ · KdΣ − ϕ div K d3 x . 3
B
∂B
B
b. Es sei B ⊆ R ein Green’scher Bereich. Man beweise die Vektorgleichung @ 5 x dΣ = 5x3 x d3 x . 3
∂B
B
12.10. Man zeige: Für das Volumen eines Green’schen Bereichs B ⊆ R3 gilt 1 v3 (B) = (x − a) · dΣ , (12.49) 3 ∂B
wobei a ∈ R ein beliebiger Punkt ist. 3
346
12 Integralsätze
12.11. Sei c > 0 und A ⊆ R3 ein Green’scher Bereich mit dem äußeren Normaleneinheitsvektor n = (n1 , n2 , n3 )T auf ∂A. Sei {e1 , e2 , e3 } die Standardbasis des (x, y, z)-Raums, und sei T K = (K1 , K2 , K3 ) := czn dσ , ∂A
wobei dieses vektorwertige Integral komponentenweise aufzufassen ist. Man wende den Gauß’schen Integralsatz auf die Vektorfelder F i (x, y, z) := czei ,
(i = 1, 2, 3)
an und beweise so das Archimedische Prinzip K1 = K2 = 0 ,
K3 = cv3 (A) .
Bemerkung: Für die physikalische Interpretation stelle man sich A als einen festen Körper der konstanten Dichte ρ vor, der in eine Flüssigkeit eingetaucht ist. Die Flüssigkeitsoberfläche liege bei z = 0, sodass alle bei den Integralen vorkommenden z-Werte negativ sind. Man nehme c = ρg, wo g die Erdanziehung ist. 12.12. Gegeben seien eine Rechts-ONB {a1 , a2 , a3 } von R3 (also a3 = a1 × a2 ) und eine Zahl ω ≥ 0. Die Drehbewegung um die Achse a3 mit der konstanten Winkelgeschwindigkeit ω wird dann beschrieben durch die Schar Rt , t ∈ R von linearen Abbildungen Rt : R3 −→ R3 mit Rt (a1 ) = a1 cos ωt + a2 sin ωt , Rt (a2 ) = −a1 sin ωt + a2 cos ωt , Rt (a3 ) = a3 . Das Vektorfeld K sei auf R3 definiert durch ∂ Rt (x) K(x) := . ∂t t=0 a. Man berechne K(x) und rot K(x) explizit. b. Nun sei S ein Green’scher Bereich in der x − y-Ebene. Man zeige: @ K = 2ωa33 A(S) . ∂S
Dabei wird der Rand von S so durchlaufen, dass S zur Linken liegt, und a33 bezeichnet die z-Komponente des Vektors a3 .
Teil IV
Grenzprozesse
13 Konvergenz
In den ersten zwölf Kapiteln dieses Buches haben wir uns bemüht, möglichst schnell alle diejenigen Rechenmethoden zu entwickeln, die man als Physiker von Anfang an benötigt. Was die theoretischen Grundlagen betrifft, sind wir dabei manchmal auf recht dünnem Eis gegangen, und gewisse Themen wie z. B. die Theorie der unendlichen Reihen oder die Frage, wann man Grenzprozesse vertauschen darf, haben wir ganz außer Acht gelassen. Es gibt also einiges nachzuholen und das soll in diesem und den nächsten beiden Kapiteln geschehen. Zunächst (Abschn. A.–C.) befassen wir uns mit dem Begriff der Konvergenz und etlichen damit zusammenhängenden Begriffen im Kontext allgemeiner metrischer Räume. Wie schon bei Gruppen, Körpern und Vektorräumen, handelt es sich auch beim Begriff des metrischen Raums darum, dass mittels eines Axiomensystems viele verschiedene Situationen unter einen Hut gebracht werden, sodass alles, was für metrische Räume definiert und bewiesen werden kann, in jeder dieser Situationen zur Verfügung steht. In den Abschn. D. und E. beginnen wir dann die Untersuchung der unendlichen Reihen – ein Thema, das uns im weiteren Verlauf noch öfters beschäftigen wird.
A. Metrische Räume Um einen Begriff wie Konvergenz einzuführen, benötigt man eine Abstandsfunktion. Definition 13.1. Eine Menge M = ∅ heißt ein metrischer Raum, wenn eine Metrik ( = Abstandsfunktion) d : M × M −→ R gegeben ist, sodass für alle x, y, z ∈ M
350
13 Konvergenz
(M 1) d(x, y) ≥ 0 und
d(x, y) = 0
⇐⇒
x=y,
(M 2) d(x, y) = d(y, x) , (M 3) d(x, z) ≤ d(x, y) + d(y, z) (Dreiecksungleichung) . Wir schreiben (M, d) für den metrischen Raum M mit der Abstandsfunktion d. Beispiele: (1) R
mit Betragsmetrik
: d(x, y) = |x − y|
(2) C
mit Betragsmetrik
: d(z, w) = |z − w|
(3) Rn
mit euklidischer Metrik : d2 (x, y) =
n
1/2 (xi − yi )2
i=1
(4) Rn
mit Summenmetrik
: d1 (x, y) =
n
|xi − yi |
i=1
(5) Rn
mit Maximummetrik
: d∞ (x, y) = max |xi − yi | . 1≤i≤n
Ein normierter linearer Raum X mit Normmetrik d(x, y) = x−y ist stets ein metrischer Raum, und alle obigen Beispiele sind Spezialfälle hiervon. Wann immer wir es mit einem normierten Raum (insbes. mit einem Prähilbertraum) zu tun haben, betrachten wir ihn in diesem Sinne als metrischen Raum. Außerdem ist natürlich jede Teilmenge eines metrischen Raumes selbst ein metrischer Raum (mit derselben Metrik). So lässt sich alles, was wir im Folgenden für metrische Räume definieren und beweisen werden, sofort auf beliebige normierte und Prähilberträume sowie auf deren Teilmengen anwenden. Definitionen 13.2. Sei (M, d) ein metrischer Raum. a. Für ein x0 ∈ M und ein ε > 0 heißt Uε (x0 ) = {x ∈ M | d(x0 , x) < ε}
(13.1)
die ε-Umgebung von x0 . b. Ein Punkt x0 heißt innerer Punkt der Menge A ⊆ M , wenn es ein ε > 0 gibt mit Uε (x0 ) ⊆ A. Der Punkt x0 ∈ M berührt A (oder ist ein Berührpunkt von A), wenn Uε (x0 ) ∩ A = ∅
∀ε > 0 .
Ein Randpunkt von A ist einer, der sowohl A als auch M \ A berührt. Die Menge aller Randpunkte von A heißt der Rand ∂A von A, und A := A∪∂A (= Menge der Berührpunkte von A) heißt der Abschluss von A. Die Menge ◦
A := A \ ∂A (= Menge der inneren Punkte) heißt das Innere von A.
B. Konvergenz von Folgen
351
c. Eine Teilmenge A ⊆ M heißt offen, wenn jeder Punkt von A auch innerer Punkt von A ist. B ⊆ M heißt abgeschlossen, wenn M \ B offen ist. B ⊆ M heißt beschränkt, wenn es ein x0 ∈ M und ein R > 0 gibt, sodass B ⊆ UR (x0 ). d. x0 ∈ A heißt isolierter Punkt von A, wenn x0 für genügend kleines δ > 0 der einzige Punkt von A ∩ Uδ (x0 ) ist. Ein Berührpunkt von A, der kein isolierter Punkt von A ist, heißt Häufungspunkt von A. Einige dieser Vokabeln hatten wir in Def. 9.8 schon für den Rn eingeführt, und es handelt sich hier um direkte Verallgemeinerungen der dort getroffenen Definitionen. Die wichtigsten Eigenschaften sind in folgendem Satz zusammengestellt: Satz 13.3. a. b. c. d.
Die Vereinigung beliebig vieler offener Mengen ist offen. Der Durchschnitt endlich vieler offener Mengen ist offen. A ist offen ⇐⇒ A ∩ ∂A = ∅. A ist abgeschlossen ⇐⇒ ∂A ⊆ A ⇐⇒ A = A.
Beweis.
G a. Seien Vi , i ∈ I, offen und sei V = i Vi . Dann: x ∈ V =⇒ x ∈ Vi für ein i =⇒ ∃ ε > 0 : Uε (x) ⊆ Vi =⇒ Uε (x) ⊆ V . Also ist V offen. Hn b. Seien V1 , . . . , Vn offen, V = i=1 Vi . Dann: x ∈ V =⇒ x ∈ Vi ∀ i = 1, . . . , n =⇒ ∃ εi > 0 : Uεi (x) ⊆ Vi =⇒ Uε (x) ⊆ Vi ∀i für ε = min {ε1 , . . . , εn } =⇒ Uε (x) ⊆ V . Also ist V offen. c. Nach Definition sind die inneren Punkte von A genau diejenigen, die die Menge M \ A nicht berühren. Also: A offen =⇒ kein Punkt von A berührt M \ A =⇒ kein Punkt von A gehört zu ∂A. Umgekehrt: Ist A ∩ ∂A = ∅ und x0 ∈ A beliebig, so ist x0 Berührpunkt von A, aber kein Randpunkt, also kein Berührpunkt von M \A. Daher ist x0 innerer Punkt, wie gewünscht. d. Nach Definition ist ∂A = ∂(M \ A). Also folgt die Behauptung durch Anwenden des vorigen Teils auf die Menge M \ A.
B. Konvergenz von Folgen Eine Folge (xn ) in einem metrischen Raum (M, d) ist eine Vorschrift, die jedem n ∈ N ein Element xn ∈ M zuordnet. Gegenüber den in Kap. 2 eingeführten Zahlenfolgen handelt es sich also um nichts Neues, außer dass die Folgenglieder xn jetzt Punkte unseres allgemeinen metrischen Raums M sind. Auch die mit Folgen verbundenen Begriffe werden ohne wesentliche Änderung
352
13 Konvergenz
auf die allgemeinere Situation übertragen – man ersetzt einfach die vertrauten Abstände |x − y| durch die auf M gegebene Abstandsfunktion d(x, y): Definitionen 13.4. a. Eine Folge (xn ) in (M, d) heißt beschränkt, wenn es ein x0 ∈ M und eine Konstante C > 0 gibt mit d(x0 , xn ) ≤ C
für alle n ∈ N,
(13.2)
d. h. wenn die Menge {xn |n ∈ N} beschränkt ist. b. Eine Folge (xn ) in (M, d) heißt konvergent gegen x0 ∈ M (mit Limes oder Grenzwert x0 ), geschrieben lim xn = x0
n−→∞
oder xn −→ x0 für n −→ ∞ ,
wenn es zu jedem ε > 0 ein n0 ∈ N gibt, sodass d(x0 , xn ) < ε
∀ n ≥ n0
xn ∈ Uε (x0 )
∀ n ≥ n0 .
(13.3)
oder äquivalent Mit anderen Worten, wir haben: x0 = lim xn n→∞
⇐⇒
lim d(xn , x0 ) = 0 .
n→∞
(13.4)
c. Eine Folge (xn ) in (M, d) heißt eine Cauchy-Folge, wenn es zu jedem ε > 0 ein n0 ∈ N gibt, sodass d(xn , xm ) < ε
∀ n, m ≥ n0 .
(13.5)
Satz 13.5. a. Jede konvergente Folge ist eine Cauchy-Folge. b. Jede Cauchy-Folge, und damit jede konvergente Folge ist beschränkt. Beweis. a. Gelte xn −→ x0 , d. h. zu jedem ε > 0 gibt es ein n0 ∈ N mit d(x0 , xn ) < ε/2 ∀ n ≥ n0 . Aus der Dreiecksungleichung (M 3) in Definition 13.1 folgt dann für n, m ≥ n0 d(xn , xm ) ≤ d(xn , x0 ) + d(x0 , xm ) < ε . b. Sei (xn ) eine Cauchy-Folge. Zu ε = 1 gibt es dann ein n0 ∈ N mit d(xn0 , xm ) < 1
∀ m ≥ n0 .
B. Konvergenz von Folgen
353
Setzen wir d0 =
max d (xn0 , xk )
und C = max {d0 , 1} ,
d(xn0 , xm ) ≤ C
für alle m ∈ N .
k=1,...,n0
so folgt Zwar ist nach Satz 13.5a jede konvergente Folge eine Cauchy-Folge, doch gilt das Umgekehrte i. Allg. nicht. Daher definiert man: Definitionen 13.6. a. Ein metrischer Raum (M, d) heißt vollständig, wenn in M jede CauchyFolge konvergiert. b. Ein vollständiger normierter linearer Raum (bzw. Prähilbertraum) heißt Banach-Raum (bzw. Hilbert-Raum). (Wie immer, ist hier die Normmetrik zugrundegelegt.) Mithilfe konvergenter Folgen kann man den Abschluss einer Teilmenge A ⊆ M beschreiben: Satz 13.7. x0 ∈ M ist Berührpunkt von A ⊆ M für eine Folge (xn ) von Punkten xn ∈ A.
⇐⇒
x0 = limn→∞ xn
Beweis. Sei x0 = limn→∞ xn , wobei xn ∈ A für alle n. Ist ε > 0 gegeben, so ist xn ∈ A ∩ Uε (x0 ) für alle genügend großen n, insbesondere x0 also ein Berührpunkt von A. Ist umgekehrt x0 ∈ A ein Berührpunkt, so finden wir zu jedem n ∈ N einen Punkt xn ∈ A ∩ U1/n (x0 ). Dann ist offenbar x0 = limn→∞ xn . Für Folgen in einem normierten linearen Raum, z. B. im Rn oder Cn usw. können wir Rechenoperationen ausführen, wie wir es von Zahlenfolgen gewöhnt sind: Satz 13.8. Sei V ein normierter linearer Raum über K, λ ∈ K, und seien xn −→ x0 , yn −→ y0 konvergente Folgen in V . Dann gilt: a. b. c. d. e.
xn −→ x0 , λxn −→ λx0 , xn + yn −→ x0 + y0 . Ist x0 = 0 so gibt es ein n0 ∈ N : xn = 0 ∀ n ≥ n0 . xn |yn −→ x0 |y0 , falls V ein Prähilbertraum.
Beweis. a. Folgt aus:
|xn − x0 | ≤ xn − x0 .
354
b. c. d. e.
13 Konvergenz
Folgt aus: λxn − λx0 = |λ|xn − x0 . Folgt aus: (xn + yn ) − (x0 + y0 ) ≤ xn − x0 + yn − y0 . Folgt sofort aus Teil a und Satz 2.2c. Nach Satz 13.5b sind konvergente Folgen beschränkt, d. h. es gibt eine Konstante C ≥ 0 mit xn ≤ C
und yn ≤ C
∀n ∈ N .
Mit Dreiecksungleichung und der Schwarz’schen Ungleichung aus Satz 6.11 folgt dann | xn |yn − x0 |y0 | = | xn |yn − y0 + xn − x0 |y0 | ≤ xn yn − y0 + y0 xn − x0 ≤ C(yn − y0 + xn − x0 ) , woraus die Behauptung folgt. Anmerkung 13.9. Hat man auf einem Vektorraum V zwei verschiedene Normen · und · , so ergeben die entsprechenden Normmetriken, genau genommen, zwei verschiedene metrische Räume. Häufig lässt sich aber jede der beiden Normen durch ein Vielfaches der anderen Norm abschätzen, und in diesem Fall spielt es für die Analysis keine Rolle, welche der beiden man zugrundelegt. Genauer: Man sagt, die beiden Normen seien äquivalent, wenn es Konstanten c1 ≥ c0 > 0 gibt so, dass gilt: c0 x ≤ x ≤ c1 x
∀x ∈ V .
(13.6)
In diesem Fall gilt für Folgen (xn ) in V xn −→ x0 bzgl. ·
⇐⇒
xn −→ x0 bzgl. · ,
(xn ) Cauchy-Folge bzgl. ·
⇐⇒
(xn ) Cauchy-Folge bzgl. · ,
wie man sofort nachrechnet. Ebenso leicht prüft man nach, dass für Punkte x0 ∈ V und Teilmengen A ⊆ V gilt:
⇐⇒
x0 innerer Punkt (bzw. Randpunkt bzw. Berührpunkt) von A bzgl. · x0 innerer Punkt (bzw. Randpunkt bzw. Berührpunkt) von A bzgl. · , ⇐⇒
A offen (bzw. abgeschlossen) bzgl. · A offen (bzw. abgeschlossen) bzgl. ·
und ebenso für alle in diesem Kapitel behandelten Begriffe. Deshalb ist der Übergang zu einer äquivalenten Norm für Konvergenzbetrachtungen unerheblich.
C. Kompaktheit und Vollständigkeit
355
Dass wir uns mit der Äquivalenz von Normen befassen, liegt vor allem an dem folgenden Beispiel: Beispiele 13.10. Die im Anschluss an Thm. 6.12 auf V = RN eingeführten Normen · 1 , · 2 und · ∞ sind alle äquivalent. Betrachte nämlich x = (x1 , . . . , xN ) ∈ RN . Für Zahlen p1 , . . . , pN ≥ 0 gilt offenbar N pk ≤ N max pk . max pk ≤ 1≤k≤N
1≤k≤N
k=1
Verwenden wir dies mit pk := |xk |, so ergibt sich x∞ ≤ x1 ≤ N x∞ .
(13.7)
Verwenden wir es mit pk := |xk |2 und ziehen anschließend die Wurzel, so ergibt sich √ x∞ ≤ x2 ≤ N x∞ . (13.8) Zusammen folgt z. B. √ 1 x1 ≤ x2 ≤ N x1 . N
(13.9)
Diese Konstanten sind zwar nicht optimal (vgl. Ergänzung 13.26), aber sie genügen für unsere Zwecke. Die am Beginn dieses Kapitels aufgeführten Beispiele (3) – (5) von metrischen Räumen führen also alle zu demselben Konvergenzbegriff, nämlich N zur komponentenweisen Konvergenz : Sind xn = (x1n , x2n , . . . , xN n) ∈ R (n = 0, 1, 2, . . .), so sagen wir, die Folge (xn ) konvergiere komponentenweise gegen x0 , wenn gilt: xk0 = lim xkn n→∞
Nun haben wir: lim xn − x0 ∞ = 0 n→∞
=⇒
=⇒
lim xn − x0 1 = 0
n→∞
für k = 1, . . . , N .
(13.10)
(13.10) gilt =⇒
lim xn − x0 ∞ = 0 .
n→∞
Daher ist die komponentenweise Konvergenz in RN (und damit auch in CN = R2N ) äquivalent zur Konvergenz bzgl. einer der drei hier betrachteten Normen. Bemerkung: In Wirklichkeit ist sie sogar äquivalent zur Konvergenz bzgl. irgendeiner Norm auf RN , denn auf RN sind alle Normen zueinander äquivalent (vgl. Ergänzung 14.23).
C. Kompaktheit und Vollständigkeit Wir sind – vor allem in Kap. 11 – schon öfters auf kompakte Teilmengen von Rn und ihre besonderen Eigenschaften gestoßen. Jetzt ist es an der Zeit, die fundamentalen Begriffe von Vollständigkeit und Kompaktheit etwas näher zu untersuchen. Dazu müssen wir uns zunächst mit Teilfolgen beschäftigen:
356
13 Konvergenz
Definition 13.11. Sei (an ) eine Folge in (M, d). Wird aus N eine unendliche Folge n1 < n2 < n3 < · · · ausgewählt, so heißt die Folge (bk ) mit bk := ank eine Teilfolge von (an ). Satz 13.12. a. Ist (an ) konvergent mit an −→ a0 , so ist jede Teilfolge (bk ) konvergent mit bk −→ a0 . b. Ist (an ) eine Cauchy-Folge und konvergiert eine Teilfolge (bk ) gegen b0 , so gilt an −→ b0 . Beweis. a. Sei bk = ank mit n1 < n2 < · · · . Nach Voraussetzung gibt es zu ε > 0 ein n0 ∈ N mit: d(a0 , an ) < ε ∀ n ≥ n0 . Zu n0 gibt es ein k0 ∈ N mit nk > n0 für alle k ≥ k0 . Daher d(a0 , bk ) = d(a0 , ank ) < ε
für alle k ≥ k0 .
b. Zu ε > 0 gibt es nach Voraussetzung n0 , k0 ∈ N mit d(an , am ) < ε ∀ n, m ≥ n0 , d(b0 , ank ) < ε ∀ k ≥ k0 . Für alle n ≥ max(n0 , nk0 ) gilt daher d(b0 , an ) ≤ d(b0 , ank0 ) + d(ank0 , an ) < 2ε .
Definition 13.13. In einem metrischen Raum (M, d) heißt eine Teilmenge K ⊆ M kompakt, wenn jede Folge (xn ) aus K eine konvergente Teilfolge (xnk ) enthält mit xnk −→ x0 ∈ K. Satz 13.14. Jede kompakte Teilmenge eines metrischen Raums ist beschränkt und abgeschlossen. Beweis. Sei K kompakte Teilmenge des metrischen Raums (M, d). Die Grenzwerte aller Folgen aus K sind gerade die Berührpunkte von K und diese liegen nach Definition 13.13 sämtlich in K. Also ist K abgeschlossen nach Satz 13.3d. Wähle x0 ∈ M beliebig. Wäre K nicht beschränkt, so könnte man eine Folge (xn ) in K mit d(x0 , xn ) ≥ n finden, und solch eine Folge enthält offenbar keine beschränkte und damit erst recht keine konvergente Teilfolge. Betrachten wir speziell die Situation in Rn (und damit auch in Cn = R2n ). Theorem 13.15 (Bolzano-Weierstraß). Im Rn (bzw. Cn ) sind genau die beschränkten abgeschlossenen Mengen kompakt. Insbesondere gilt: Jede beschränkte Folge im Rn enthält eine konvergente Teilfolge, und jede beschränkte unendliche Teilmenge von Rn besitzt (mindestens) einen Häufungspunkt. Bemerkung: Wir brauchen uns bei diesem Satz nicht auf eine Norm oder Metrik auf Rn festzulegen. Die Gründe hierfür wurden in Beispiel 13.10 erläutert.
D. Konvergenz von unendlichen Reihen
357
Beweis. Wegen Satz 13.14 brauchen wir nur noch zu zeigen, dass eine beschränkte abgeschlossene Teilmenge K ⊆ Rn kompakt ist. Wir werden in Ergänzung 13.27 zeigen, dass jede beschränkte Folge in Rn eine konvergente Teilfolge besitzt. Ist nun (xn ) eine Folge in der beschränkten abgeschlossenen Menge K, so hat sie also eine konvergente Teilfolge, etwa xnk −→ x0 ∈ Rn
für
k −→ ∞ .
Nach Satz 13.7 ist dann x0 ∈ K. Aber K ist abgeschlossen, d. h. K = K und damit x0 ∈ K. Die Bedingung aus Def. 13.13 ist somit für K erfüllt. Um für eine beschränkte unendliche Menge A ⊆ Rn die Existenz eines Häufungspunktes nachzuweisen, wählen wir aus A eine Folge (xn ) aus, bei der für n = m stets xn = xm ist. Der Grenzwert einer konvergenten Teilfolge von (xn ) ist dann offensichtlich ein Häufungspunkt von A. Satz 13.16 (Cauchy-Kriterium). Im Rn (bzw. Cn ) ist jede CauchyFolge konvergent, d. h. Rn (bzw. Cn ) ist vollständig. Beweis. Eine Cauchy-Folge (xm ) im Rn ist nach Satz 13.5b eine beschränkte Folge. Diese enthält nach Satz 13.15 eine konvergente Teilfolge. Nach Satz 13.12b konvergiert dann aber die ganze Folge (xm ).
D. Konvergenz von unendlichen Reihen Sei (an )n∈N eine Folge in R oder C. Daraus bilden wir die Folge (Sn )n∈N mit Sn =
∞
ak = a1 + · · · + an
(13.11)
k=1
und bezeichnen die Folge (Sn ) als die unendliche Reihe Glied an und der n-ten Partialsumme Sn . Definitionen 13.17. a. Eine unendliche Reihe
∞
ak mit dem n-ten
k=1
ak heißt konvergent, wenn
k
S := lim Sn = lim n−→∞
n−→∞
n k=1
ak =:
∞
ak
(13.12)
k=1
existiert. S heißt Grenzwert oder Summe der Reihe. Nicht konvergente Reihen heißen divergent. ∞ |ak | konb. Die Reihe k ak heißt absolut konvergent, wenn die Reihe k=1
vergiert. Sie heißt unbedingt konvergent, wenn jede Umordnung der Summanden dieselbe Summe liefert. Konvergente, aber nicht unbedingt konvergente Reihen heißen bedingt konvergent.
358
13 Konvergenz
Beispiele 13.18. a. Geometrische Reihe. Für q ∈ C mit |q| < 1 ist ∞
qk =
k=0
1 , 1−q
denn nach Satz 1.11b ist Sn =
n
qk =
k=0
wegen q b. Es gilt:
n+1 ∞ n=1
1 1 − q n+1 −→ 1−q 1−q
−→ 0 für |q| < 1 nach 2.3 c. 1 n(n+1)
= 1, denn
1 1 1 = − und daher n(n + 1) n n+1 1 1 1 1 1 1 Sn = 1 − − − −→ 1 . + + ··· + =1− 2 2 3 n n+1 n+1 ∞ 1 c. Die harmonische Reihe n ist divergent, denn n=1
3 3 1 1 1 , S4 − S 1 = + + > , 4 2 3 4 4 1 3 1 S16 − S4 = + · · · + > ,... 5 16 4
S1 = 1 >
Also S4k = (S4k − S4k−1 ) + · · · + (S4 − S1 ) + S1 > (k + 1)
3 −→ +∞ . 4
Die folgenden Aussagen sind dann aufgrund der Definitionen und der entsprechenden Eigenschaften von Zahlenfolgen klar: Satz 13.19. a. Eine konvergente Reihe bleibt konvergent, wenn man endlich viele Summanden abändert, hinzufügt oder weglässt. b. Linearkombinationen konvergenter Reihen sind konvergent, d. h. sind ak k und bk beide konvergent, so gilt k ∞ k=1
(αak + βbk ) = α
∞ k=1
ak + β
∞ k=1
bk ,
α, β ∈ C .
D. Konvergenz von unendlichen Reihen
c. Cauchy-Kriterium: Die Reihe
359
ak ist genau dann konvergent, wenn es
k
zu jedem ε > 0 ein n0 ∈ N gibt, sodass n ak < ε
für alle n > m ≥ n0 .
(13.13)
k=m+1
d. Für eine konvergente Reihe
ak gilt:
k
lim an = 0
n−→∞
und
lim rn = lim
∞
n−→∞
n−→∞
ak = 0 .
(13.14)
k=n+1
e. Jede absolut konvergente Reihe ist konvergent. ak ist genau dann absolut konvergent, wenn die Folge (S=n ) f. Eine Reihe k
mit S=n =
n
|ak |
k=1
beschränkt ist. Beweis. a. Ist klar. Man beachte jedoch, dass sich die Summe ändert, wenn man Summanden verändert. b. Folgt aus Satz 13.12b, c. c. Folgt aus Definition 13.4c und Satz 13.16, denn eine Cauchy-Folge (Sn ) in K ist konvergent, und (Sn ) ist eine Cauchy-Folge, wenn es zu ε > 0 ein n0 ∈ N gibt, sodass n ak < ε |Sn − Sm | =
∀ n > m ≥ n0 .
k=m+1
d. Setzt man in (13.13) n = m + 1, so folgt |am+1 | < ε
∀ m > n0 ,
d. h. am −→ 0. Gleichung (13.14) folgt aus (13.13) für n −→ ∞. e. Folgt aus dem Cauchy-Kriterium und n n ak ≤ k=m+1
|ak | .
k=m+1
f. Folgt aus Satz 2.4, weil (S=n ) eine monoton wachsende Folge ist.
360
13 Konvergenz
Satz 13.20 (Leibniz-Kriterium). Sind an > 0, n ∈ N, so ist die alternierende Reihe ∞ (−1)n an = a0 − a1 + a2 − a3 + · · · n=0
konvergent, falls an ≥ an+1 ∀ n
und lim an = 0 . n−→∞
Beweis. Aus der Monotonie der Summanden folgt S2n+2 − S2n
= a2n+2 − a2n+1 ≤ 0 ,
S2n+3 − S2n+1 = −a2n+3 + a2n+2 ≥ 0 und daher S1 ≤ S2n+1 = S2n − a2n+1 ≤ S2n ≤ S0 = a0 , d. h. (S2n ) ist monoton fallend und nach unten beschränkt, (S2n+1 ) ist monoton wachsend und nach oben beschränkt. Daher sind beide Partialsummenfolgen konvergent nach Satz 2.4. Wegen S2n+1 − S2n = −a2n+1 −→ 0
haben sie denselben Grenzwert S. Beispiel: Die alternierende Reihe
∞ n=1
(−1) n
n
ist nach Satz 13.20 konvergent,
aber nach 13.18c nicht absolut konvergent. Die Wichtigkeit der absoluten Konvergenz rührt davon her, dass man mit absolut konvergenten Reihen im Prinzip so umgehen kann, als ob es endliche Summen wären. Dies ist in den nächsten beiden Sätzen durch konkrete Rechenregeln ausgedrückt. Bei Reihen, die konvergent, aber nicht absolut konvergent sind, ist jedoch wirklich Vorsicht geboten, denn bei einer solchen Reihe kann man durch Umordnen der Glieder erreichen, dass sie divergiert oder dass sie gegen eine beliebige andere Zahl als Summe konvergiert („Riemann’scher Umordnungssatz“). Satz 13.21. Jede absolut konvergente Reihe ist unbedingt konvergent. Satz 13.22 (Cauchy-Produktformel). Sind ∞
ak = α
k=0
und
∞
bk = β
k=0
absolut konvergent, so gilt ∞ ∞ n ∞ αβ = ak · bk = am bn−m . k=0
k=0
n=0
m=0
E. Konvergenzkriterien
361
Die Beweise dieser beiden Sätze sind etwas knifflig und werden in den Ergänzungen geführt. Die Cauchy’sche Produktformel ist jedoch sehr plausibel, wenn man sich vorstellt, dass man nach Auflösen der Klammern lauter Summanden der Form aj bk aufzuaddieren hat (j, k = 0, 1, 2, . . .). Für jede natürliche Zahl n fasst man nun alle Summanden zusammen, für die j + k = n ist.
E. Konvergenzkriterien Wir wollen nun einige Tests auf absolute Konvergenz herleiten. Sie beruhen alle darauf, dass man die zu untersuchende Reihe gliedweise mit einer Reihe vergleicht, deren Konvergenzverhalten bekannt ist („Vergleichskriterien“). Da es aber für die Frage der Konvergenz auf endlich viele Summanden nicht ankommt, kann man bei diesen Vergleichen endlich viele Ausnahmen zulassen. Wir sagen im Folgenden, eine Aussage gelte für fast alle n ∈ N, wenn sie für alle bis auf endlich viele n gilt. ∞ an , an ∈ C eine gegebene Satz 13.23 (Majorantenkriterium). Sei n=1
Reihe. a. Gibt es eine konvergente Reihe
∞
cn mit nichtnegativen Gliedern cn ≥ 0,
n=1
sodass |an | ≤ cn
∞
so ist
für fast alle n ∈ N, (13.15) ∞ an absolut konvergent, und cn heißt eine konvergente Majo-
n=1
∞
rante für
n=1
an .
n=1
b. Gibt es eine divergente Reihe
∞
dn mit nichtnegativen Gliedern dn ≥ 0,
n=1
sodass |an | ≥ dn
so ist
∞
für fast alle n ∈ N, (13.16) ∞ an nicht absolut konvergent, und dn heißt eine divergente
n=1
Minorante für
∞
n=1
an .
n=1
Beweis. a. Nach Voraussetzung gibt es n0 so, dass (13.15) für alle n ≥ n0 erfüllt ist. Wegen S=n :=
n k=1
|ak | ≤
n 0 −1 k=1
|ak | +
n
ck
für alle n ≥ n0
k=n0
ist (S=n ) beschränkt, und die Behauptung folgt aus Satz 13.19 f.
362
13 Konvergenz
b. Jetzt gibt es n0 so, dass (13.16) für alle n ≥ n0 erfüllt ist. Wegen S=n =
n
|aj | ≥
j=1
n 0 −1
|aj | +
j=1
n
dj −→ ∞ für n −→ ∞
j=n0
ist (S=n ) unbeschränkt, und die Behauptung folgt wieder aus 13.19 f.
Beispiele: a.
b.
∞ ∞ 1 1 ist eine konvergente Majorante ist konvergent, denn 2 n n(n − 1) n=1 n=2 ∞ 1 für . 2 n n=1 ∞ ∞ 1 1 √ ist divergent, denn ist eine divergente Minorante. n n n=1 n=1
Wählt man in Satz 13.23a cn = |q|n für |q| < 1, so bekommt man mit 13.18a den Teil a des folgenden Satzes. Teil b ergibt sich sofort aus Satz 13.19d. Satz 13.24 (Wurzelkriterium). Sei
∞
an , an ∈ K, eine Reihe.
n=1
a. Gibt es eine Konstante q mit 0 < q < 1, sodass
n |an | ≤ q für fast alle n ∈ N, so ist
∞
(13.17)
an absolut konvergent.
n=1
b. Gilt
so ist
n |an | ≥ 1 ∞
für fast alle n ∈ N,
(13.18)
an divergent.
n=1
Bemerkung: Es genügt nicht: n |an | < 1 zu überprüfen, denn es ist n n1 < 1 ∞ ∞ 1 1 1 n divergent, für alle n ∈ N, aber n n2 < 1 für alle n ∈ N, aber n2 n=1
n=1
konvergent. Nutzt man die geometrische Reihe auf etwas andere Weise als Vergleichsreihe, so bekommt man: an eine Reihe mit an = 0 für Satz 13.25 (Quotientenkriterium). Sei n
fast alle n.
Ergänzungen
363
a. Gibt es dann ein q ∈ R mit 0 < q < 1, sodass |an+1 | ≤q |an | so ist
für fast alle n ∈ N,
(13.19)
für fast alle n ∈ N ,
(13.20)
an absolut konvergent.
n
b. Gilt dagegen
so ist
|an+1 | ≥1 |an |
an nicht konvergent.
n
Beweis. a. Angenommen, (13.19) gilt für n ≥ n0 . Dann ist |an0 +1 | ≤ |an0 | q , |an0 +2 | ≤ |an0 +1 | q ≤ |an0 | q 2 , usw. Durch Induktion folgt allgemein für n ≥ n0 : |an | ≤ |an0 | q n−n0 = Kq n mit K := |an0 |q −n0 > 0. Also ist die Reihe ∞
Kq n = K
n=0
eine konvergente Majorante. b. Folgt wieder direkt aus 13.19d.
∞ n=0
qn =
K 1−q
Ergänzungen zu §13 Eine Vertiefung der allgemeinen Theorie der metrischen Räume wäre für die mathematische Analysis von zentraler Bedeutung, soll hier jedoch unterbleiben. In dem Umfang, in dem sie für die Bedürfnisse der theoretischen Physik eine Rolle spielt, soll sie in dem geplanten Fortsetzungsband [14] stattfinden. Hier geben wir einen kleinen Einblick in die Kunst des Abschätzens, holen den Beweis des Satzes von Bolzano-Weierstrass nach und entwickeln eine neue Sichtweise der absolut konvergenten Reihen, die es uns leicht machen wird, die Sätze 13.21 und 13.22 zu beweisen. 13.26 Normenvergleich. Der Vergleich von ·1 und ·2 in (13.9) ist nicht optimal, denn es gilt sogar √ ∀ x ∈ RN . (13.21) x2 ≤ x1 ≤ N x2
364
13 Konvergenz
Für x = 0 ist das klar. Für x = 0 setze α := x1 = |x1 | + · · · + |xN |. Dann ist |xk /α| ≤ 1, also |xk /α|2 ≤ |xk /α| für alle k, und somit N N 1 1 xk 2 xk 2 x = ≤ = x1 = 1 . 2 2 α α α α k=1
k=1
Hieraus folgt x2 ≤ α, also die erste Ungleichung in (13.21). Die zweite folgt, wenn man die Schwarz’sche Ungleichung für das euklidische Skalarprodukt, also N yk zk ≤ y2 · z2 k=1
mit den speziellen Vektoren y := (1,√1, . . . , 1) und z := (|x1 |, |x2 |, . . . , |xN |) anwendet und beachtet, dass y2 = N und z2 = x2 ist. Abschätzung (13.21) ist scharf, d. h. sie kann nicht verbessert werden. Für den Vektor e1 = (1, 0, . . . , 0) ergibt sich nämlich e1 2 = 1 = e1 1 , und für den gerade betrachteten Vektor y hat man Gleichheit in der zweiten Ungleichung. Für unsere Zwecke ist natürlich (13.9) gut genug, aber in der mathematischen Analysis ist es oft entscheidend, möglichst genaue Abschätzungen zu haben, und sehr viel Intelligenz und Raffinesse wird in trickreiche Beweise dafür investiert. Unsere Herleitung von (13.21) war ein bescheidenes Beispiel hiervon. 13.27 Beweis des Satzes von Bolzano-Weierstraß. Im Beweis von Thm. 13.15 wurden Sie für die Kernaussage, dass jede beschränkte Folge in RN eine konvergente Teilfolge besitzt, auf diese Ergänzung vertröstet. Hier also ein Beweis: (i) Zunächst betrachten wir nur den Fall N = 1. Sei also (xn ) eine beschränkte Folge reeller Zahlen, etwa a ≤ xn ≤ b
∀n .
Wir setzen ym := inf{xn |n ≥ m}
für
m∈N.
Das ist möglich, weil die Folge (xn ) nach unten beschränkt ist, und es ergibt sich eine monoton wachsende Folge (ym ), die durch b nach oben beschränkt ist. Nach Satz 2.4 konvergiert sie also gegen ihr Supremum s. Wir konstruieren jetzt durch Induktion eine Teilfolge (xnk ) mit |xnk − s| < 1/k
(13.22)
für alle k. Es ist klar, dass dann s = limk→∞ xnk ist. k = 1: Wegen s = limm→∞ ym gibt es m1 mit 0 ≤ s − ym1 < 1/2. Nach Definition der ym gibt es dann n1 ≥ m1 mit 0 ≤ xn1 − ym1 < 1/2. Mit der Dreiecksungleichung folgt |s − xn1 | < 1/2 + 1/2 = 1, wie gewünscht.
Ergänzungen
365
k − 1 → k: Seien xn1 , . . . , xnk−1 schon konstruiert. Wegen s = limm→∞ ym gibt es mk > nk−1 mit 0 ≤ s − ymk < 1/(2k). Nach Definition der ym gibt es dann nk ≥ mk mit 0 ≤ xnk − ymk < 1/(2k). Mit der Dreiecksungleichung folgt |s − xnk | < 1/(2k) + 1/(2k) = 1/k, wie gewünscht, und wir haben auch nk > nk−1 . Wir erhalten also wirklich eine Teilfolge, für die (13.22) gilt, und unsere Aussage ist für N = 1 bewiesen. (ii) Den allgemeinen Fall folgern wir durch Induktion nach der Dimension N . Den Induktionsanfang haben wir schon unter (i) erledigt. Sei die Aussage also für die Dimension N − 1 bekannt, und sei (xn ) eine beschränkte Folge in RN . Wir verwenden auf RN die Maximumsnorm · ∞ , und wir schreiben N xn = (x1n , . . . , xN n ) = (xn , xn ) −1 ) ∈ RN −1 . Dann ist (xn ) eine beschränkte Folge mit xn = (x1n , . . . , xN n N −1 , hat nach Induktionsvoraussetzung also eine konvergente Teilfolge in R (xnk ). Die Folge (xN nk )k=1,2,... ist eine beschränkte Folge in R, hat nach (i) also ihrerseits eine konvergente Teilfolge (xN nkj )j=1,2,... . Eine Teilfolge einer konvergenten Folge konvergiert aber nach Satz 13.12a ebenfalls (gegen denselben Grenzwert). Also ist auch die Folge (xnk )j=1,2,... in RN −1 konvergent. Da die j
Konvergenz in RN aber komponentenweise ist (vgl. 13.10), folgt hieraus, dass (xnkj )j=1,2,... eine konvergente Teilfolge von (xn ) ist. Damit ist der Induktionsschritt vollzogen. 13.28 Bedingt konvergente Reihen. Da die Addition schließlich das Kommutativgesetz erfüllt, wird man sich fragen, was bei der Umordnung bedingt konvergenter Reihen eigentlich schiefgeht. Wir demonstrieren das an einem Beispiel: Es sei (an ) eine monoton fallende Nullfolge positiver Zahlen, für die die ∞ Reihe n=0 an divergiert (alsoz. B. an = 1/(n + 1)). Nach dem Leibniz∞ n Kriterium ist dann die Reihe n=0 (−1) an konvergent. Wir werden diese Reihe jetzt so umordnen, dass sie gegen +∞ divergiert. Dazu setze Tn :=
n
a2k ,
Un :=
k=0
n
a2k+1 .
k=0
Die Folgen (Tn ), (Un ) sind monoton wachsend und nach oben unbeschränkt. Wäre z. B. τ := sup Tn < ∞, so wäre wegen der Monotonie von (ak ) stets n≥0 Un ≤ Tn ≤ τ , also wären alle Partialsummen von k ak durch 2τ nach oben beschränkt, und die Reihe könnte nicht divergieren. Weil (Tn ) also monoton und unbeschränkt wächst, gibt es eine streng monoton wachsende Folge 0 = m0 < m1 < m2 < . . . von natürlichen Zahlen, für die gilt: mj+1 −1
k=mj
a2k ≥ 1 + a1
∀j
366
13 Konvergenz
und somit mj+1 −1
a2k − a2j+1 ≥ 1 + a1 − a2j+1 ≥ 1
∀j .
(13.23)
k=mj
Wir ordnen nun die alternierende Reihe folgendermaßen um: Zuerst kommen die Summanden a0 , a2 , . . . , a2(m1 −1) , dann kommt −a1 , dann die Summanden a2m1 , . . . , a2(m2 −1) mit lauter geraden Indizes, dann −a3 , dann das nächste Paket gerader Indizes von k = 2m2 bis k = 2(m3 − 1), dann −a5 usw. Man macht sich mittels (13.23) leicht klar, dass die Partialsummen der so umgeordneten Reihe den Limes +∞ haben. Das Prinzip dabei ist natürlich, dass die geraden Indizes zu großen Paketen zusammengefasst werden, während die ungeraden Indizes nur ab und zu an die Reihe kommen. Bei einer endlichen Indexmenge wäre solch eine Umordnung nicht möglich, da die Anzahlen gerader und ungerader Indizes ja gleich sein müssten. Bei der unendlichen Indexmenge N kommt aber jeder ungerade Index irgendwann an die Reihe, obwohl die geraden so unfair bevorzugt werden. – Natürlich kann man auch die Rollen der geraden und ungeraden Indizes vertauschen und erhält dann eine Umordnung, bei der die Reihe nach −∞ divergiert. Verteilt man die geraden und ungeraden Indizes etwas sorgfältiger, so kann man Konvergenz gegen eine beliebig vorgegebene reelle Zahl erreichen. Ein systematischer Ausbau dieser Gedankengänge führt schließlich zum schon erwähnten Riemann’schen Umordnungssatz. 13.29 Umordnung und absolute Konvergenz. Die klassischen Beweise von Sätzen wie 13.21 und 13.22 sind recht unübersichtlich. Wir geben hier eine moderne Behandlung der Umordnungsfragen, die von der Lebesgue’schen Integrationstheorie inspiriert ist und die wesentlich besser erkennen lässt, was eigentlich vorgeht. Sei I eine beliebige Indexmenge und (ai )i∈I eine gegebene Familie reeller oder komplexer Zahlen, d. h. für jeden Index i ∈ I ist eine Zahl ai gegeben. Für eine endliche Teilmenge H = {i1 , i2 , . . . , im } ⊆ I definiert man i∈H
ai :=
m
ai .
(13.24)
=1
Der Wert dieser Summe hängt natürlich nur von H ab, nicht aber von der Reihenfolge, in der die Summanden ai aufgeschrieben sind. Für den Spezialfall I= N , H = {1, 2, . . . , n} erhalten wir wieder die Partialsummen der Reihe i ai , aber wir betrachten nun eben ganz beliebige endliche Summen, die sich aus den ai zusammenstellen lassen. Der Umgang mit solchen Familien ist wesentlich einfacher, wenn man sich auf reelle Zahlen eines festen Vorzeichens beschränkt. Dies tun wir in einem ersten Schritt und dehnen die Betrachtung später auf beliebige reelle und dann auf komplexe Zahlen aus.
Ergänzungen
(i) Sei also jetzt pi ≥ 0 ∀ i. Wir setzen pi H ⊆ I endlich σ := sup
.
367
(13.25)
i∈H
Dabei ist das Supremum als +∞ zu verstehen, wenn die rechts stehende Menge nicht nach oben beschränkt ist. Ferner nennen wir eine aufsteigende Folge H 1 ⊆ H2 ⊆ . . . ⊆ I von Teilmengen eine Ausschöpfung von I, wenn I =
∞ D
Hm , wenn also jeder
m=1
Index i ∈ I in einer der Mengen Hm vorkommt. Dann gilt: Lemma. Für jede Ausschöpfung (Hm )m∈N von I durch endliche Teilmengen ist σ = sup pi = lim pi . (13.26) m→∞
m∈N i∈H
m
Beweis. Setze σm :=
i∈Hm
pi . Wegen Hm ⊆ Hm+1 und pi ≥ 0 ist (σm ) eine
i∈Hm
monoton wachsende Folge. Also folgt das zweite Gleichheitszeichen in (13.26) für den Fall σ < ∞ aus Satz 2.4. Im Fall σ = ∞ folgt es aus der trivialen Tatsache, dass eine monoton wachsende Folge reeller Zahlen genau dann nach oben unbeschränkt ist, wenn sie den Grenzwert +∞ hat. Wir haben also nur das erste Gleichheitszeichen nachzuweisen und betrachten dazu den Fall σ < ∞ (der andere Fall geht analog!) Für alle m ist σm ≤ σ, da die Hm spezielle endliche Teilmengen sind. Also ist τ := sup σm ≤ σ. Sei andererseits m
ein beliebiges ε > 0 gegeben. Nach Definition von σ gibt es dann ein endliches pi > σ−ε. Weil die Hm eine Ausschöpfung bilden, ist H ⊆ Hm , H ⊆ I mit i∈H
sobald m groß genug ist. Für solch ein m folgt τ ≥ σm ≥ pi > σ − ε . i∈H
Daher muss σ = τ sein. (ii) Nun betrachten wir beliebige reelle Zahlen ai (i ∈ I) und setzen a+ i := max(ai , 0) ,
a− i := −min(ai , 0) .
(13.27)
Die a± i sind ≥ 0, und man prüft ohne weiteres nach, dass − ai = a+ i − ai ,
− |ai | = a+ i + ai
(13.28)
368
13 Konvergenz
und insbesondere 0 ≤ a± i ≤ |ai |. Der entscheidende Gedanke ist nun, Reihen mit reellen Gliedern mittels (13.28) aus solchen mit nichtnegativen Gliedern zusammenzusetzen, und das wird gutgehen, solange dabei keine Terme der Form ∞ − ∞ auftreten. Was das Auftreten dieser üblen Terme verhindert, ist die folgende Eigenschaft: Definition. Eine Familie (ai )i∈I heißt absolut summierbar, wenn |ai | H ⊆ I endlich < ∞ . σ ˆ := sup i∈H
Satz. Sei (ai )i∈I eine Familie reeller oder komplexer Zahlen. a. Wenn für eine Ausschöpfung (Hm )m∈N von I durch endliche Teilmengen die Menge der Zahlen s=m := |ai | i∈Hm
beschränkt ist, so ist die Familie (ai ) absolut summierbar. b. Ist die Familie (ai ) absolut summierbar, so existiert für jede Ausschöpfung (Gm ) von I durch endliche Teilmengen der Grenzwert ai , s = lim m→∞
i∈Gm
und der Wert von s ist von der gewählten Ausschöpfung unabhängig. Im Falle I = N ist insbesondere die Reihe i ai konvergent mit der Summe s. Beweis. Zunächst betrachten wir den Fall ai ∈ R ∀ i ∈ I. Die Größen σ ± ∈ [0, ∞] seien durch (13.25) definiert, wobei pi := a± i gesetzt wird. a. Nach dem obigen Lemma, angewandt auf die Familie der pi := |ai |, ist σ ˆ < ∞, also haben wir absolute Summierbarkeit. b. Ist σ ˆ < ∞, so auch σ ± < ∞ wegen a± i ≤ |ai |. Anwendung des Lemmas auf pi := a± ergibt für die beliebige Ausschöpfung (Gm ) nun i a± σ ± = lim i , m→∞
also auch
i∈Gm
σ + − σ − = lim
m→∞
ai .
i∈Gm
Daher existiert der Limes und hat den Wert s = σ + − σ − unabhängig von der gewählten Ausschöpfung.
Ergänzungen
369
Für Familien komplexer Zahlen machen wir eine Zerlegung in Real- und Imaginärteil, schreiben also ai = bi + ici mit bi := Re ai , ci := Im ai . Wegen |bi |, |ci | ≤ |ai | ≤ |bi | + |ci | folgen dann beide Aussagen sofort aus den entsprechenden Aussagen für Familien reeller Zahlen. Beweis von Satz 13.21: Wir betrachten I = N, also eine Reihe i ai . Eine Umordnung der Indizes ist einfach eine bijektive Abbildung π : N → N, und die umgeordnete Reihe ist a . Die Partialsummen der Reihe i π(i) i ai entsprechen der Ausschöpfung von N durch die Mengen Hm := {1, 2, . . . , m} . Absolute Konvergenz der Reihe impliziert nach Teil a des obigen Satzes also die absolute Summierbarkeit. Ferner ist π(i) ∈ Hm ⇐⇒ i ∈ π −1 (Hm ), also entsprechen die Partialsummen der umgeordneten Reihe i aπ(i) der Ausschöpfung durch die Mengen π −1 (Hm ). Teil b des Satzes ergibt daher ∞
aπ(i) = s =
i=1
∞
ai ,
i=1
womit Satz 13.21 bewiesen ist.
Beweis von Satz 13.22: ∞ ∞ Wir betrachten zwei absolut konvergente Reihen j=0 aj , k=0 bk mit den Summen α bzw. β wie in Satz 13.22. Da wir die Indizes im Moment von Null ab laufen lassen, entsprechen die Partialsummen jetzt der Ausschöpfung von N0 := N ∪ {0} durch die endlichen Mengen Gm := {0, 1, 2, . . . , m} . Nun ist nach Satz 2.2d.
αβ = lim
m→∞
= lim
m→∞
= lim
m
aj
j=0 m
m k=0
aj b k
j,k=0
m→∞ (j,k)∈Qm
aj b k
bk
370
13 Konvergenz
mit Qm := Gm × Gm , und eine analoge Umrechnung ist möglich für das Produkt der beiden Zahlen α ˆ :=
∞
βˆ :=
|aj | und
j=0
∞
|bk | .
k=0
Die endlichen Mengen Qm bilden offenbar eine Ausschöpfung der Indexmenge I = N0 ×N0 . Also zeigt Teil a des Satzes, dass die Familie (aj bk )(j,k)∈I absolut summierbar ist. Eine weitere Ausschöpfung ist gegeben durch die endlichen Mengen Cm := {(j, k) ∈ I|j + k ≤ M } . Teil b. des Satzes liefert also
αβ = lim
m→∞
aj b k .
(j,k)∈Cm
Für alle n ≥ 1 ist aber Cn die disjunkte Vereinigung von Cn−1 und {(j, k) ∈ I|j + k = n} = {(n − k, k) ∈ I|k = 0, 1, . . . , n}. Also ist
aj b k =
(j,k)∈Cn
aj b k +
(j,k)∈Cn−1
n
an−k bk .
k=0
Verwenden wir dies für n = 1, . . . , m, so ergibt sich n m an−k bk , αβ = lim m→∞
n=0
k=0
also die Cauchy’sche Produktformel. Auf ähnliche Weise kann man mühelos den folgenden wichtigen Satz herleiten: Theorem 13.30 (Großer Umordnungssatz). Es sei (ajk ) eine doppelt unendliche Matrix reeller oder komplexer Zahlen (d. h. eine Familie mit der Indexmenge N × N). Angenommen, für jedes j ist die Reihe k ajk absolut konvergent, also ∞ |ajk | < ∞ . sˆj := Ferner sei die Reihe
j
k=1
sˆj absolut konvergent. Dann gilt:
ist absolut summierbar. a. Die Familie (ajk ) b. Auch die Reihen j ajk (k ∈ N) sind alle absolut konvergent. c. Die Summen ∞ ∞ ajk , tk := ajk sj := k=1
j=1
Aufgaben
bilden absolut konvergente Reihen ∞
∞
d. h.
j=1
j
sj =
j=1 ∞
ajk
∞ k=1
=
k=1
sj ,
∞ k=1
k tk ,
371
und es ist
tk ,
∞
ajk
.
j=1
Bemerkung: In vielen Lehrbüchern wird betont, dass analoge Aussagen auch für die |ajk | gelten. Das versteht sich aber von selbst, denn mit (ajk ) erfüllt ja auch die Familie (|ajk |) die Voraussetzungen des Satzes.
Aufgaben zu §13 13.1. Man beweise: In jedem metrischen Raum (M, d) gilt die Vierecksungleichung |d(x1 , y1 ) − d(x2 , y2 )| ≤ d(x1 , x2 ) + d(y1 , y2 ) für beliebige Punkte x1 , x2 , y1 , y2 ∈ M . (Hinweis: |s| ≤ t ist äquivalent zu „s ≤ t und −s ≤ t“.) 13.2. Sei V ein normierter linearer Raum mit Norm · . Man zeige: a. d(x, y) := x − y definiert eine Metrik auf V . b. x − y ≤ x − y für alle x, y ∈ V . ◦
13.3. Man bestimme A, A¯ und ∂A für die folgenden ebenen Mengen: A1 = {(x, y) | 0 < (x, y) − (1, 2) ≤ 3} , A2 = {(x, y) | (x, y) − (1, 2) = 3} , A3 = {(1, 2), (3, 4), (5, 6)} , A4 = {(1, y) | y = 1/k, k ∈ N} , A5 = {(x, y) | 0 < y < x + 1 , x > −1} . Dabei ist eine der Metriken d1 , d2 oder d∞ zu Grunde gelegt. Welche dieser Mengen sind offen, welche abgeschlossen? 13.4. Für S := {(x, y) ∈ R2 | x2 + y 2 < 1} \ ([0, 1) × {0}) bestimme und skizziere man ∂S,
S,
◦
S,
◦
S,
∂(S).
13.5. Sei (xn ) eine Cauchy-Folge in einem metrischen Raum (M, d). Man zeige: Es gibt eine Teilfolge (xnk ), sodass d (xnk , xnk+1 )
0, 0 < p < 1,
n2 ∞ n+1 1 . 3n n n=1
∞ k=1
(−1)k (21/k − 21/(k+1) ),
Aufgaben
373
13.11. a. Man untersuche die folgenden Reihen auf Konvergenz. ∞ n t n! n=0
1−
t4 (−1)n t2n t2 + − ... + + ... 2! 4! (2n)!
b. Man untersuche die Reihe ∞ (−1)n +n 1/2 n=0
mithilfe der Wurzel- und Quotientenkriterien auf Konvergenz oder Divergenz. 13.12. Man zeige: ∞
(n!)2 konvergent. (1 + p)n2 n=1 b. Für jedes feste k ∈ N ist die Reihe a. Für jedes p > 0 ist die Reihe
∞ n=1
n! nn−k
konvergent. 13.13. Man zeige, dass die unendliche Reihe ∞ n=1
1 n1+1/n
divergent ist. (Hinweis: Es gilt limn→∞
√ n n = 1 (wieso?).)
13.14. Seien an = 0 und gelte an −→ a = 0. Man zeige, dass die beiden Reihen ∞ ∞ 1 1 |an+1 − an | und an+1 − an n=1
n=1
entweder beide konvergent oder beide divergent sind. 13.15. Man zeige: Wenn lim an = 0 ist, dann sind die beiden Reihen n−→∞
∞ n=1
an
und
∞
(an+1 + an )
n=1
entweder beide konvergent oder beide divergent.
374
13 Konvergenz
13.16. Sei cn > 0 und an = 0 für alle n, wobei die an reell oder komplex sein können. Man zeige: Ist die Reihe n cn konvergent und gilt an+1 cn+1 für fast alle n , a n ≤ cn so ist die Reihe n an absolut konvergent. (Hinweis: Für cn = q n ist dies das Quotientenkriterium. Ein Beweis lässt sich daher durch Verallgemeinern des Beweises des Quotientenkriteriums gewinnen.)
14 Stetigkeit
Wir setzen die im vorigen Kapitel begonnene Vertiefung der Grundlagen nun mit der Betrachtung von stetigen Abbildungen zwischen metrischen Räumen fort (Abschn. A.-C.). Spätestens hier müssen auch Konvergenzbegriffe für Folgen und Reihen von Funktionen diskutiert werden, vor allem im Hinblick auf die praktisch sehr wichtige Frage, wann Grenzübergänge miteinander vertauscht werden dürfen. Dies geschieht in den letzten beiden Abschnitten.
A. Definition der Stetigkeit Wir betrachten Abbildungen zwischen metrischen Räumen. Wieder sind die nachstehend definierten Begriffe eigentlich nichts Neues, sondern direkte Übertragungen der entsprechenden Begriffe aus Kap. 2 auf die jetzt betrachtete allgemeinere Situation. Definitionen 14.1. Seien (M1 , d1 ), (M2 , d2 ) metrische Räume, D ⊆ M1 , f : D −→ M2 eine Funktion. a. f hat in x0 ∈ D den Limes y0 ∈ M2 , geschrieben lim f (x) = y0 ,
x−→x0
(14.1)
wenn es zu jedem ε > 0 ein δ > 0 gibt, sodass d2 (f (x), y0 ) < ε
falls d1 (x, x0 ) < δ .
(14.2)
b. f heißt stetig in x0 ∈ D, wenn lim f (x) = f (x0 ). f heißt stetig in D, x−→x0
wenn f in jedem x0 ∈ D stetig ist.
Man überzeugt sich leicht, dass der Limes eindeutig bestimmt ist, d. h. es kann nicht zwei verschiedene y0 geben, die beide die Bedingung aus 14.1a
376
14 Stetigkeit
erfüllen. Es kann aber vorkommen, dass
lim f (x) = y0 existiert, jedoch
x−→x0
f (x0 ) = y0 ist oder sogar f in x0 gar nicht definiert ist. Setzt man dann y0 für x = x0 , g(x) = f (x) für x = x0 , so wird g(x) stetig in x0 . Man sagt: f (x) wird in x0 durch den Wert y0 stetig ergänzt. Satz 14.2 (Folgenkriterium). Eine Funktion f : D −→ M2 , D ⊆ M1 , ist genau dann stetig in x0 ∈ D, wenn für jede Folge (xn ) in D xn −→ x0 =⇒ f (xn ) −→ f (x0 ) .
Kurz: lim f (xn ) = f
n−→∞
(14.3)
lim xn
n−→∞
.
(14.4)
Beweis. (Wörtlich wie Satz 2.7) a. Sei zunächst f stetig in x0 im Sinne von Definition 14.1b, d. h. zu ε > 0 existiert ein δ > 0, sodass d2 (f (x), f (x0 )) < ε falls d1 (x, x0 ) < δ .
(14.5)
Sei (xn ) eine Folge in D mit xn −→ x0 . Dann gibt es ein n0 ∈ N, sodass d1 (xn , x0 ) < δ
falls n ≥ n0
und daher auch d2 (f (xn ), f (x0 )) < ε
falls n ≥ n0 .
Also folgt f (xn ) −→ f (x0 ), wie behauptet. b. Gelte umgekehrt: f (xn ) −→ f (x0 ) für jede Folge xn −→ x0 . Wäre f unstetig in x0 , so gäbe es ein ε > 0 und zu jedem δ = n1 ein xn ∈ D, sodass 1 d1 (xn , x0 ) < , aber d2 (f (xn ), f (x0 )) ≥ ε n im Widerspruch zur Voraussetzung. Satz 14.3. Die Komposition stetiger Funktionen ist stetig, d. h. sind (Mi , di ), i = 1, 2, 3, metrische Räume, D1 ⊆ M1 , D2 ⊆ M2 , f : D1 −→ M2 , g : D2 −→ M3 mit f (D1 ) ⊆ D2 , Funktionen. Ist dann f stetig in x0 ∈ D1 und g stetig in y0 = f (x0 ) ∈ D2 , so ist g ◦ f : D1 −→ M3 stetig in x0 .
A. Definition der Stetigkeit
377
Beweis. (Wörtlich wie Satz 2.8) Sei (xn ) eine Folge in D1 mit xn −→ x0 . Dann gilt yn := f (xn ) −→ y0 := f (x0 ) , g(yn ) −→ g(y0 )
,
da f stetig in x0 , da g stetig in y0 .
Also (g ◦ f )(xn ) = g(f (xn )) = g(yn ) −→ g(y0 ) = (g ◦ f )(x0 ) . Genau wie bei Satz 2.9 können wir nun das Folgenkriterium verwenden, um Aussagen über stetige Funktionen aus entsprechenden Aussagen über Folgen herzuleiten. Mittels Satz 13.8 und Beispiel 13.10 ergibt sich so: Satz 14.4. Sei (M, d) ein metrischer Raum, D ⊆ M , x0 ∈ D. Dann gilt: a. f = u + iv : D −→ C ist stetig in x0 ∈ D genau dann, wenn u, v : D −→ R stetig in x0 sind. b. F = (f1 , . . . , fn )T : D −→ Rn ist stetig in x0 genau dann, wenn f1 , . . . , fn : D −→ R stetig in x0 sind. c. Ist E ein normierter linearer Raum, λ ∈ K, und sind f, g : D −→ E stetig in x0 , so sind die Funktionen f +g,
λf ,
f
stetig in x0 . Ebenso die Funktion f |g, wenn E sogar ein Prähilbertraum ist. d. Ist E ein normierter linearer Raum und ist f : D −→ E stetig in x0 mit f (x0 ) = 0, so gibt es ein δ > 0 sodass f (x) = 0 für alle x ∈ D mit d(x, x0 ) < δ. e. Ist K = R oder C und sind f, g : D −→ K stetig in x0 , so sind f ·g
und
f , falls g(x0 ) = 0 g
stetig in x0 . Bemerkung: Bisher (schon ab Kap. 8) hatten wir die Stetigkeit vektorwertiger Funktionen immer komponentenweise definiert. Teil b des obigen Satzes zeigt, dass F = (f1 , . . . , fn )T genau dann in x0 komponentenweise stetig ist, wenn F als Abbildung des metrischen Raums M in den metrischen Raum Rn (mit irgendeiner Normmetrik) stetig ist. Unser jetziger Stetigkeitsbegriff ist also nicht verschieden von dem bisherigen, sondern eine Verallgemeinerung.
378
14 Stetigkeit
B. eitere Eigenschaften stetiger Funktionen Während wir im vorigen Abschnitt die Stetigkeit in einem einzelnen Punkt betrachtet haben, soll es jetzt um die besonderen Eigenschaften von Abbildungen gehen, die in jedem Punkt ihres Definitionsbereichs stetig sind. Die folgende äquivalente Definition der Stetigkeit ist nützlich: Satz 14.5. Eine Abbildung f : M1 −→ M2 ist genau dann stetig in M1 , wenn für jede offene Menge V ⊆ M2 das Urbild U = f −1 (V ) offen in M1 ist. Beweis. a. Sei f stetig in M1 , V ⊆ M2 offen, p ∈ M1 mit f (p) ∈ V . Da V offen ist, gibt es ein ε > 0, sodass {q ∈ M2 | d2 (f (p), q) < ε} = Uε (f (p)) ⊆ V . Da f stetig ist, gibt es ein δ > 0, sodass f (Uδ (p)) ⊆ Uε (f (p)) ⊆ V , also Uδ (p) ⊆ f −1 (V ). Der beliebige Punkt p ∈ f −1 (V ) ist also ein innerer Punkt, d. h. f −1 (V ) ist offen. b. Sei nun f −1 (V ) offen für jedes offene V ⊆ M2 . Sei p ∈ M1 , ε > 0 und sei V = {y ∈ M2 | d2 (f (p), y) < ε} = Uε (f (p)). Dann ist V offen in M2 und daher f −1 (V ) offen in M1 . Daher gibt es ein δ > 0, sodass Uδ (p) = {x ∈ M1 |d1 (x, p) < δ} ⊆ f −1 (V ) , also f (Uδ (p)) ⊆ Uε (f (p)). Das bedeutet aber gerade Stetigkeit von f in p. Theorem 14.6. Das stetige Bild kompakter Mengen ist kompakt, d. h. ist f : M1 −→ M2 stetig und ist C ⊆ M1 eine kompakte Menge, so ist f (C) ⊆ M2 kompakt. Beweis. Sei (yn ) eine Folge in f (C). Dann gibt es xn ∈ C mit f (xn ) = yn . Da C kompakt ist, gibt es eine Teilfolge xnK −→ x0 ∈ C. Da f stetig ist, gilt ynk := f (xnk ) −→ f (x0 ) = y0 ∈ f (C). Also enthält (yn ) eine konvergente Teilfolge, d. h. f (C) ist kompakt. Als Konsequenz bekommen wir die folgende Verallgemeinerung von Thm. 2.12: Theorem 14.7 (Satz vom Maximum). Sei (M, d) ein metrischer Raum, K ⊆ M kompakt, f : M −→ R stetig. Dann nimmt f auf K Maximum und Minimum an, d. h. es gibt x1 , x2 ∈ K: f (x1 ) = inf f (x) , x∈K
f (x2 ) = sup f (x) . x∈K
C. Fixpunktsatz von Banach
379
Beweis. Nach Satz 14.6 ist f (K) ⊆ R kompakt, also nach Satz 13.14 beschränkt und abgeschlossen. Daher existieren y1 = inf f (K) , y2 = sup f (K), und sie gehören zu f (K). Daher gibt es x1 , x2 ∈ K mit yi = f (xi ) (i = 1, 2). Satz 14.8. Sei f : M1 −→ M2 stetig und bijektiv, und sei M1 kompakt. Dann ist die inverse Abbildung f −1 : M2 −→ M1 ebenfalls stetig. Beweis. Nach Satz 14.5 ist f −1 genau dann stetig auf M2 , wenn für jede offene Menge U ⊆ M1 das Urbild (f −1 )−1 (U ) ≡ f (U ) offen in M2 ist. Sei also U ⊆ M1 offen und damit M1 \ U abgeschlossen und daher kompakt, weil M1 kompakt ist. Nach Satz 14.6 ist dann f (M1 \ U ) kompakt in M2 , d. h. insbesondere abgeschlossen, und daher M2 \ f (M1 \ U ) offen. Aber M2 \ f (M1 \ U ) = f (U ), da f bijektiv ist. Die nächste Aussage haben wir schon gebraucht, um die Integrierbarkeit von stetigen Funktionen nachzuweisen (vgl. den Beweis von Satz 11.4): Satz 14.9. Sei f : M1 −→ M2 stetig und sei M1 kompakt. Dann ist f gleichmäßig stetig auf M1 , d. h. zu jedem ε > 0 gibt es ein universelles δ > 0 (unabhängig von den x ∈ M1 ) mit: d2 (f (x), f (y)) < ε ,
falls d1 (x, y) < δ.
Beweis. Ist f nicht gleichmäßig stetig, so gibt es ein ε > 0 und Folgen (xn ), (yn ) in M1 , sodass d1 (xn , yn ) −→ 0 ,
aber d2 (f (xn ), f (yn )) ≥ ε
∀ n.
(14.6)
Da M kompakt ist, gibt es Teilfolgen xnk −→ x0 , ynk −→ y0 . Wegen d1 (xnk , ynk ) −→ 0 muss x0 = y0 sein. Die Stetigkeit von f erzwingt dann f (xnk ) −→ f (x0 ) ←− f (ynk ) , also d2 (f (xnk ) , f (ynk )) −→ 0. Dies ist ein Widerspruch zu (14.6).
(14.7)
C. Fixpunktsatz von Banach Dieser Satz ermöglicht es, bei vielen nicht explizit lösbaren Gleichungen die Existenz einer eindeutigen Lösung zu garantieren und sogar eine Folge von Näherungslösungen zu konstruieren, die gegen die gesuchte Lösung konvergiert. Sei (M, d) ein metrischer Raum, A : M −→ M eine stetige Abbildung. Dann betrachten wir Gleichungen der Form A(x) = x . Viele Typen von Gleichungen – auch Differenzialgleichungen, Integralgleichungen usw. – lassen sich nämlich durch geeignete Umformungen auf diese Gestalt bringen.
380
14 Stetigkeit
Definitionen 14.10. Sei A : M −→ M eine Abbildung eines metrischen Raumes. a. x ¯ ∈ M heißt ein Fixpunkt von A, wenn A(¯ x) = x ¯. b. A heißt kontrahierend, wenn es ein q ∈ R, 0 < q < 1, gibt, sodass d(A(x), A(y)) ≤ qd(x, y)
∀ x, y ∈ M .
(14.8)
Kriterien für die Existenz von Fixpunkten nennt man Fixpunktsätze. Theorem 14.11 (Banach’scher Fixpunktsatz). Sei (M, d) ein vollständiger metrischer Raum, und sei A : M −→ M eine kontrahierende Abbildung. Dann hat A genau einen Fixpunkt in M . Beweis. a. Wir zeigen zunächst die Existenz eines Fixpunktes mit der Methode der sukzessiven Approximation: Für einen beliebigen Punkt x0 ∈ M definieren wir die Folge x1 = A(x0 ) , x2 = A(x1 ), . . . , xn+1 = A(xn ), . . .
(14.9)
Wegen (14.8) gilt dann d(xn , xn+1 ) = d(A(xn−1 ), A(xn ))
≤ qd(xn−1 , xn )
= qd(A(xn−2 ), A(xn−1 ) ≤ q 2 d(xn−2 , xn−1 ) · · · , also d(xn , xn+1 ) ≤ q n d(x0 , x1 ) .
(14.10)
Daraus folgt dann mit der Dreiecksungleichung d(xn , xn+k ) ≤ d(xn , xn+1 ) + d(xn+1 , xn+2 ) + · · · + d(xn+k−1 , xn+k ) ≤ (q n + q n+1 + · · · + q n+k−1 ) d(x0 , x1 ) = q n (1 + q + · · · + q k−1 ) d(x0 , x1 ) und daher mit Satz 1.11b (endliche geometrische Reihe!) d(xn , xn+k ) ≤ q n
1 − qk d(x0 , x1 ) , 1−q
(14.11)
woraus wegen 0 < q < 1 mit Beispiel 2.3c folgt, dass (xn ) eine Cauchy¯. Folge ist. Da M vollständig ist, gibt es ein x ¯ ∈ M , sodass xn −→ x Kontrahierende Abbildungen sind offensichtlich stetig. Also ergibt das Folgenkriterium (Satz 14.2) ¯, A(¯ x) = A lim xn = lim A(xn ) = lim xn+1 = x n→∞
d. h. x ¯ ist ein Fixpunkt.
n→∞
n→∞
D. Funktionenfolgen und -reihen
381
b. Um die Eindeutigkeit zu zeigen, nehmen wir an, es gäbe zwei Fixpunkte, etwa y, z ∈ M , d. h. A(y) = y
und
A(z) = z .
Dann folgt aber aus (14.8) d(y, z) = d(A(y), A(z)) ≤ q d(y, z) , was wegen 0 < q < 1 nur gelten kann, wenn d(y, z) = 0, also y = z ist.
D. Funktionenfolgen und -reihen Wir betrachten nun Folgen (fn ) und Reihen n fn von reell- oder komplexwertigen Funktionen mit einem gemeinsamen Definitionsbereich D. Dieser kann ein beliebiger metrischer Raum sein, wird aber i. Allg. eine Teilmenge von Rm oder Cm sein (m ≥ 1). Die Beschränkung auf skalare Funktionen geschieht dabei nur der Einfachheit halber – alles hier Gesagte gilt sinngemäß auch für Folgen bzw. Reihen von Funktionen mit Werten in RN oder CN . Wir schreiben wieder K für den Skalarbereich R oder C. Definitionen 14.12. Seien fn : D −→ K gegebene Funktionen. a. Die Folge (fn )n∈N heißt (auf D) punktweise konvergent gegen eine Funktion f : D −→ K, wenn f (x) = lim fn (x) n→∞
b. Die Reihe
∞
für alle x ∈ D .
(14.12)
fn (x) heißt (auf D) punktweise konvergent gegen f : D −→
n=1
K, wenn die Folge der Partialsummen punktweise auf D gegen f (x) konvergiert. Punktweise Konvergenz ist keine allzu gute Eigenschaft, wie folgende Beispiele zeigen: Beispiele: a. Die stetigen Funktionen fn (x) = xn , 0 ≤ x ≤ 1, konvergieren punktweise auf [0, 1] gegen die unstetige Funktion 0 für 0 ≤ x < 1, f (x) = 1 für x = 1 (vgl. Beispiel 2.3c).
382
14 Stetigkeit
b. Die stetigen Funktionen fn,k (x) := (cos(k!πx))2n , 0 ≤ x ≤ 1, erfüllen auf [0, 1] die Beziehung 1, falls x rational lim lim fn,k (x) = (14.13) k→∞ n→∞ 0, falls x irrational. (Beweis als Übung!) Nach zweimaligem punktweisem Grenzübergang ist also eine nirgends stetige Funktion erreicht. Will man solche Effekte vermeiden, benötigt man einen stärkeren Konvergenzbegriff: Definitionen 14.13. Seien f, fn : D −→ K beschränkte Funktionen auf D (n ≥ 1). a. Die Folge (fn ) konvergiert gleichmäßig auf D gegen die Funktion f : D −→ K, geschrieben fn ⇒ f , wenn (14.14) lim sup |f (x) − fn (x)| = 0 . n→∞
b. Die Reihe
∞
x∈D
fn (x) konvergiert gleichmäßig auf D gegen f , wenn die
n=1
Folge der Partialsummen gleichmäßig gegen f konvergiert. Bemerkung: Setzt man hier die Definition des Grenzwertes einer Zahlenfolge ein, so ergibt sich die folgende explizite Beschreibung der punktweisen bzw. gleichmäßigen Konvergenz: • fn −→ f auf D bedeutet: Zu jedem ε > 0 und jedem x ∈ D gibt es n0 = n0 (ε, x) mit |f (x) − fn (x)| < ε
(14.15)
für alle n ≥ n0 . • fn ⇒ f auf D bedeutet: Zu jedem ε > 0 gibt es ein n0 = n0 (ε) so, dass (14.15) für alle n ≥ n0 und alle x ∈ D gilt. Das Besondere an der gleichmäßigen Konvergenz ist also, dass die Zahl n0 bei gegebenem ε > 0 unabhängig von x gewählt werden kann. Folgende Aussagen können nun als Übung bewiesen werden: Satz 14.14. Seien fn : D −→ K gegebene Funktionen. Dann gilt: a. Ist (fn ) auf D gleichmäßig konvergent gegen f , so ist (fn ) auf D punktweise konvergent gegen f .
D. Funktionenfolgen und -reihen
383
b. Ist (fn ) eine punktweise Cauchy-Folge auf D, d. h. für jedes x ∈ D ist (fn (x))n∈N eine Cauchy-Folge in K, so ist (fn ) punktweise konvergent auf D. c. Ist (fn ) eine gleichmäßige Cauchy-Folge auf D, d. h. zu jedem ε > 0 gibt es ein n0 = n0 (ε) ∈ N (unabhängig von den x ∈ D), sodass sup |fn (x) − fm (x)| < ε
für alle n, m ≥ n0 ,
x∈D
(14.16)
so ist (fn ) gleichmäßig konvergent auf D. Die grundlegenden Tatsachen über gleichmäßige Konvergenz formuliert man am bequemsten in der Sprache der normierten linearen Räume (vgl. Abschn. 6B. und 13A.): Satz 14.15. a. Die Menge B(D) der beschränkten Funktionen f : D −→ K bildet bezüglich f ∞ := sup |f (x)|
(14.17)
x∈D
einen normierten linearen Raum. b. Sei K ein kompakter metrischer Raum (z. B. eine kompakte Teilmenge von Rm ). Die Menge C 0 (K) der stetigen Funktionen f : K −→ K bildet einen linearen Teilraum von B(K) und mit (14.17) einen normierten Raum. c. Die Normkonvergenz fn − f ∞ −→ 0 in B(D) bzw. C 0 (K) ist gerade die gleichmäßige Konvergenz auf D bzw. auf K. d. B(D) ist vollständig, also ein Banach-Raum, d. h. insbesondere: Der gleichmäßige Limes beschränkter Funktionen ist beschränkt. e. Der gleichmäßige Limes stetiger Funktionen ist stetig. Insbesondere ist C 0 (K) vollständig, also ein Banach-Raum. Beweis. a. Summe und skalare Vielfache von beschränkten Funktionen sind beschränkt, sodass B(K) ein R-Vektorraum ist. Ferner folgt für f, g ∈ B(K), α∈K αf ∞ = sup |αf (x)| = |α| sup |f (x)| = |α| f ∞ , x
x
f + g∞ = sup |f (x) + g(x)| ≤ sup(|f (x)| + |g(x)|) x
x
≤ sup |f (x)| + sup |g(x)| = f ∞ + g∞ . x
x
Schließlich ist f ∞ = 0 ⇐⇒ |f (x)| = 0 ∀ x ∈ D ⇐⇒ f ≡ 0. Durch (14.17) ist also eine Norm definiert, und B(K) ist ein normierter Raum.
384
14 Stetigkeit
b. Summe und skalare Vielfache von stetigen Funktionen sind stetig nach Satz 14.4c, und nach dem Satz 14.7 vom Maximum ist jede stetige Funktion f : K −→ K beschränkt, weil K kompakt ist, d. h. C 0 (K) ist ein normierter Unterraum von B(K). c. Wegen f − fn ∞ = sup |f (x) − fn (x)| x
ist die Normkonvergenz die gleichmäßige Konvergenz nach Definition 14.13. d. Da nach Satz 13.5b jede konvergente Folge beschränkt ist, ist wegen c. der gleichmäßige Limes beschränkter Funktionen eine beschränkte Funktion. Da nach Satz 14.14c gleichmäßige Cauchy-Folgen gleichmäßig konvergieren, ist B(D) vollständig. e. Wegen Satz 14.15d genügt es zu zeigen, dass der gleichmäßige Limes stetiger Funktionen stetig ist. Gelte also fn ∈ C 0 (D)
mit fn ⇒ f auf D.
Die Metrik auf D bezeichnen wir wieder mit d. Zu ε > 0 gibt es ein m ∈ N, sodass für alle x ∈ D . |fm (x) − f (x)| < ε Sei x0 ∈ D fest. Wegen der Stetigkeit von fm gibt es ein δ > 0 mit |fm (x) − fm (x0 )| < ε
für d(x, x0 ) < δ.
Mit der Dreiecksungleichung folgt dann: |f (x) − f (x0 )| ≤ |f (x) − fm (x)| + |fm (x) − fm (x0 )| + |fm (x0 ) − f (x0 )| < 3ε für alle x mit d(x, x0 ) < δ, d. h. f ist stetig in x0 .
Jetzt geben wir noch ein Kriterium für die gleichmäßige Konvergenz einer Reihe an, das aus dem Majorantenkriterium in Satz 13.23 folgt: Satz 14.16 (Weierstraß’scher M -Test). Seien fn : D −→ K Funktionen mit fn ∞ = sup |fn (x)| ≤ Mn , n ∈ N . x∈D
Ist dann
∞ n=1
Mn konvergent, so ist
∞
fn (x) gleichmäßig konvergent auf K.
n=1
Zum Schluss befassen wir uns noch kurz mit der Konvergenz von Folgen von linearen Abbildungen A : Kn −→ Km . Diese beschreiben wir – wie üblich bezüglich der Standardbasen – durch Matrizen. Es ist also A(x) = Ax das Matrizenprodukt der Matrix A ∈ Km×n mit dem Spaltenvektor x ∈ Kn×1 . Natürlich ist eine lineare Abbildung A = 0 nicht auf ganz Kn beschränkt, und deshalb ist es nicht sinnvoll, die gleichmäßige Konvergenz von Folgen solcher Abbildungen zu betrachten. An ihre Stelle tritt die gleichmäßige Konvergenz auf beschränkten Teilmengen, und auch diese ist durch eine Norm gegeben:
D. Funktionenfolgen und -reihen
385
Satz 14.17. Für zwei beliebige Normen · im Kn bzw. Km und Matrizen A ∈ Km×n ist durch (14.18) A := sup { Ax x ∈ Kn , x = 1} eine Norm gegeben, die man als die Operatornorm von A bezeichnet. Diese Norm hat die folgenden zusätzlichen Eigenschaften: a. Ax ≤ A x
∀ A ∈ Km×n , x ∈ Kn .
(14.19)
b. Ist auf K ebenfalls eine Norm vorgegeben und bilden wir die entsprechende Operatornorm auch für Kn×p , so gilt p
∀ A ∈ Km×n , B ∈ Kn×p .
A · B ≤ A · B
(14.20)
Beweis. Die Normeigenschaften sowie die Abschätzungen (14.19), (14.20) können leicht als Übung nachgerechnet werden. Wir müssen uns nur davon überzeugen, dass die Menge auf der rechten Seite von (14.18) tatsächlich nach oben beschränkt ist. Dazu vergleichen wir die gegebenen Normen auf Kn und Km mit der Maximumsnorm: Wir wissen (vgl. Ergänzung 14.23), dass es Konstanten c1 , c2 > 0 gibt, sodass für alle x ∈ Kn , y ∈ Km gilt: x∞ ≤ c1 x ,
y ≤ c2 y∞ .
Sei A = (ajk ) und y = Ax. Für j = 1, . . . , m haben wir |yj | ≤
n
|ajk | |xk |
k=1
≤
n
|ajk | x∞
k=1
≤ c(A)c1 x
mit c(A) := max
1≤j≤m
n
|ajk |
.
k=1
Für x = 1 folgt nun Ax ≤ c2 Ax∞ ≤ c2 c1 c(A) , und somit ist das Supremum in (14.18) tatsächlich endlich. (N ) ∈ Km×n Matrizen (N = 0, 1, 2, . . .), und Satz 14.18. Seien AN = ajk seien AN : Kn −→ Km die durch sie (bzgl. der Standardbasen) definierten linearen Abbildungen. Auf Kn , Km seien beliebige Normen vorgegeben, und auf Km×n werde die entsprechende Operatornorm betrachtet. Folgende drei Aussagen sind äquivalent:
386
14 Stetigkeit
a. lim A0 − AN = 0. N →∞
b. A0 (x) = lim AN (x) gleichmäßig auf jeder beschränkten Teilmenge von N →∞
Kn . (0) (N ) c. Für alle Indizes j, k ist ajk = lim ajk . N →∞
Beweis. Zu a =⇒ b: Ist S ⊆ Kn beschränkt, etwa x ≤ σ (14.19) für alle x ∈ S:
∀ x ∈ S, so folgt mit
A0 (x) − AN (x) = (A0 − AN )x ≤ A0 − AN · x ≤ σA0 − AN , also die gleichmäßige Konvergenz auf S. Zu b =⇒ a: Da S := {x ∈ Kn | x = 1} beschränkt ist, folgt dies unmittelbar aus der Definition von A0 − AN . Zu a ⇐⇒ c: Den Raum Km×n können wir mit Kmn identifizieren, und deswegen lässt sich die Schlussbemerkung aus Beispiel 13.10 auch auf ihn anwenden. Die Konvergenz im Sinne der Operatornorm ist also gleichbedeutend mit der komponentenweisen Konvergenz der Matrizen.
E. Differenziation und Integration von Folgen und Reihen In diesem Abschnitt untersuchen wir die Frage, inwieweit man konvergente Funktionenfolgen und -reihen gliedweise integrieren und differenzieren darf. Satz 14.19. Sei I ⊆ Rm ein kompaktes Intervall, und seien fn : I −→ R Riemann-integrierbare Funktionen auf I (n ∈ N). a. Wenn die Folge (fn ) gleichmäßig auf I gegen eine Funktion f : I −→ R konvergiert, so ist f ebenfalls Riemann-integrierbar, und es gilt f dm x = lim fn dm x . (14.21) n→∞
I
I
b. Wenn die Reihe n fn (x) gleichmäßig auf I gegen eine Funktion g : I −→ R konvergiert, so ist g ebenfalls Riemann-integrierbar, und g dm x = I
∞ n=1
fn dm x .
(14.22)
I
Beweis. a. Wir drücken die Riemann-Integrierbarkeit durch die in 11.3b gegebene Bedingung aus. Sei also ε > 0 beliebig vorgegeben. Aus den Definitionen folgt leicht, dass für jede Zerlegung Z von I gilt:
E. Differenziation und Integration von Folgen und Reihen
387
OS(f, Z) ≤ OS(fn , Z) + f − fn ∞ vm (I) , U S(f, Z) ≥ U S(fn , Z) − f − fn ∞ vm (I) , also OS(f, Z) − U S(f, Z) ≤ OS(fn , Z) − U S(fn , Z) + 2vm (I)f − fn ∞ . Wegen fn ⇒ f können wir n0 wählen, für das f − fn0 ∞ < ε/(4vm (I)) ist. Nach Voraussetzung ist fn0 integrierbar, also gibt es δ > 0 so, dass OS(fn0 , Z) − U S(fn0 , Z) < ε/2 ist für jede Zerlegung Z mit Feinheit < δ. Für jede solche Zerlegung ergibt sich dann OS(f, Z) − U S(f, Z) ≤
ε ε + 2vm (I) =ε. 2 4vm (I)
Also ist f nach 11.3b integrierbar. Mit (11.20) ergibt sich nun f dm x − fn dm x ≤ |f − fn | dm x ≤ f − fn ∞ vm (I) −→ 0 I
I
I
für n → ∞. Daraus folgt (14.21). b. Folgt sofort, indem man Teil a auf die Partialsummen anwendet.
Anmerkung 14.20. Es sei (fn ) eine Folge Riemann-integrierbarer Funktionen, die punktweise auf I gegen eine Riemann-integrierbare Funktion f konvergiert. Dann gilt (14.21) schon unter der Voraussetzung, dass die Normen fn ∞ beschränkt bleiben, alsodass es eine reelle Konstante M gibt so, dass |fn (x)| ≤ M
∀ x ∈ I, n ∈ N .
Dies mit elementaren Mitteln zu beweisen, ist zwar recht schwierig, doch ergibt sich die Aussage sofort aus der Lebesgue’schen Integrationstheorie, und wir führen sie wegen ihrer großen praktischen Nützlichkeit hier an. Will man gliedweise differenzieren, so muss man ähnliche Voraussetzungen an die Ableitungen machen: Satz 14.21. Seien fn : [a, b] −→ R stetig differenzierbar. a. Es gelte fn −→ f
und
fn −→ g
punktweise auf [a, b]. Dabei soll g stetig sein, und die Normen fn ∞ sollen beschränkt bleiben (was insbesondere dann erfüllt ist, wenn fn ⇒ g!) Dann ist f ∈ C 1 ([a, b]) und für alle x ∈ [a, b] gilt f (x) =
d lim fn (x) = g(x) = lim fn (x) . n−→∞ dx n−→∞
388
14 Stetigkeit
b. Gilt f (x) = g(x) =
∞
n=1 fn (x) ∞ fn (x) n=1
punktweise, gleichmäßig
auf [a, b]. so ist f ∈ C 1 , und für alle x ∈ [a, b] gilt f (x) =
∞ ∞ d fn (x) = g(x) = fn (x) . dx n=1 n=1
Beweis. Es genügt wieder, die x Behauptung für Folgen zu beweisen. Nach Thm. 3.4 ist fn (x) − fn (a) = a fn (t) dt für alle n. Es folgt dann mit Anmerkung 14.20 (im Falle gleichmäßiger Konvergenz der fn kann man auch Satz 14.19 verwenden): f (x) − f (a) = lim (fn (x) − fn (a)) n−→∞
x = lim
n−→∞
fn (t)dt
x =
a
lim f (t)dt n−→∞ n
a
x =
g(t)dt , a
d. h. nach Satz 3.3b, dass f ∈ C 1 ([a, b]) und f (x) = g(x)
∀x
gilt.
Durch mehrfache Anwendung dieses Satzes kann man leicht die folgende wichtige Tatsache beweisen: Satz 14.22. Der R-Vektorraum C s ([a, b]), s ≥ 1, ist mit f ∞,s = max
sup |f (k) (x)|
0≤k≤s x∈[a,b]
ein Banach-Raum.
Ergänzungen zu §14 Wir wollen den Satz von der Äquivalenz aller Normen auf Kn beweisen, der in Beispiel 13.10 erwähnt und im Zusammenhang mit der Operatornorm auch nutzbringend verwendet wurde. Außerdem zeigen wir an einem möglichst einfachen Beispiel, wie der Banach’sche Fixpunktsatz in der Analysis typischerweise ausgenutzt wird.
Ergänzungen
389
14.23 Die Äquivalenz aller Normen auf Rn . Am Schluss von Beispiel 13.10 haben wir bemerkt, dass auf Rn alle Normen zueinander äquivalent sind, und dass sie alle die komponentenweise Konvergenz erzeugen. Um dies zu beweisen, genügt es, zu zeigen, dass eine beliebige Norm · zur Maximumsnorm · ∞ äquivalent ist. Denn zwei beliebige Normen sind dann beide zu · ∞ äquivalent und damit auch untereinander äquivalent. Für unsere beliebige Norm · und die Standardbasis {e1 , . . . , en } von Rn haben wir F F n n n F F F F xk ek F ≤ |xk | · ek ≤ max |xk | ek , x = F F 1≤k≤n F k=1
k=1
k=1
also x ≤ c1 x∞
∀x
(14.23)
mit c1 := e1 + . . . + en < ∞. Für Normen gilt stets | x − y | ≤ x − y, wie man leicht aus der Dreiecksungleichung folgert. Daher ergibt (14.23) | x − y | ≤ c1 x − y∞ und somit die Stetigkeit der Norm · , die ja eine reellwertige Funktion auf dem metrischen Raum (Rn , d∞ ) ist. (Dabei ist d∞ die Normmetrik zur Maximumsnorm.) Die Menge S := {x ∈ Rn | x∞ = 1} ist offenbar beschränkt und abgeschlossen in Rn , nach Theorem 13.15 also kompakt. Nach Theorem 14.7 nimmt die Normfunktion daher auf S ihr Minimum an, d. h. es gibt v ∈ S mit c0 := min x = v . x∈S
Wir haben v ∈ S =⇒ c0 > 0. Aber es gilt:
v∞ = 1 x ≥ c0 x∞
=⇒
v = 0 ∀x .
=⇒
v > 0, also (14.24)
Für x = 0 ist das klar, und für x = 0 beachten wir, dass y := x/x∞ ∈ S, also y ≥ c0 . Durch Multiplizieren mit x∞ folgt (14.24). Zusammen ergeben die Abschätzungen (14.23), (14.24) die zu beweisende Normäquivalenz. 14.24 Eine Anwendung des Banach’schen Fixpunktsatzes. Wir betrachten nichtlineare Gleichungssysteme der Form x1 − f1 (x1 , . . . , xn ) = b1 ......................... xn − fn (x1 , . . . , xn ) = bn
390
14 Stetigkeit
mit gegebenen C 1 -Funktionen f1 , . . . , fn : Rn −→ R und gegebenen reellen Zahlen b1 , . . . , bn . Mit F := (f1 , . . . , fn ) , X := (x1 , . . . , xn ) und B := (b1 , . . . , bn ) können wir solch ein Gleichungssystem in der vektoriellen Kurzform X − F (X) = B (14.25) anschreiben. Wir nehmen an, dass die Funktionen f1 , . . . , fn nicht sehr stark schwanken. Genauer setzen wir voraus: (V)
Für eine gewisse Zahl q mit 0 ≤ q < 1 ist n ∂fj ≤ q (x) ∂xk
(14.26)
k=1
für alle x ∈ Rn und j = 1, . . . , n. Satz. Ist Voraussetzung (V) erfüllt, so hat Gl. (14.25) für jedes B ∈ Rn eine eindeutige Lösung. Diese ergibt sich als Grenzwert einer Folge (Xν ) mit Xν+1 = F (Xν ) + B
für
ν ∈ N0
und beliebigem Startwert X0 ∈ Rn . Beweis. Mit der Normmetrik d∞ zur Maximumsnorm ist Rn ein vollständiger metrischer Raum, wie wir aus 13.16 wissen. Wir definieren A : Rn −→ Rn durch A(X) := F (X) + B und haben dann nur zu zeigen, dass A kontrahierend ist, denn Gl. (14.25) ist ja offensichtlich zur Fixpunktgleichung A(X) = X äquivalent. Betrachten wir also zwei beliebige Punkte X = (x1 , . . . , xn ) , Y = (y1 , . . . , yn ) in Rn . Nach dem Mittelwertsatz der Differenzialrechnung (vgl. (9.40)) haben wir dann für j = 1, . . . , n fj (X) − fj (Y ) =
n ∂fj (Zj ) (xk − yk ) ∂xk k=1
mit einem Zwischenpunkt Zj auf der Verbindungsstrecke von X nach Y . Mit (14.26) folgt hieraus n ∂fj |fj (X) − fj (Y )| ≤ ∂xk (Zj ) |xk − yk | ≤ qX − Y ∞ k=1
und weiter A(X) − A(Y )∞ = F (X) − F (Y )∞ ≤ qX − Y ∞ , was wir zeigen wollten.
Bemerkung: Eine technische Verfeinerung dieser Schlussweise führt zu einem Beweis des Satzes über inverse Funktionen (vgl. Ergänzung 10.24).
Aufgaben
391
Aufgaben zu §14 14.1. Man untersuche, welchen Grenzwert die Funktion f (x, y) =
x2 − y 2 , x2 + y 2
(x, y) = (0, 0)
für (x, y) −→ (0, 0) hat, und zwar a. längs der Geraden y = αx, b. längs der Parabel y = βx2 , c. längs der Parabel y 2 = γx. Wie steht es mit der Existenz des Limes der Definition 14.1a) ?
lim
(x,y)−→(0,0)
f (x, y) (im Sinne
14.2. Sei (M, d) ein metrischer Raum. Für eine Teilmenge A ⊆ M definieren wir den Abstand eines Punktes x von A durch αA (x) ≡ dist (x, A) := inf d(x, y) . y∈A
Man beweise nacheinander: a. |αA (x1 ) − αA (x2 )| ≤ d(x1 , x2 ) für alle x1 , x2 ∈ M . b. αA : M → R ist stetig (sogar gleichmäßig stetig!). c. αA (x) = 0 ⇐⇒ x ∈ A. d. Ist A abgeschlossen und K ⊆ M kompakt mit A ∩ K = ∅, so haben A und K positive Distanz, d. h. dist(K, A) :=
inf
x∈K, y∈A
d(x, y) > 0 .
(Hinweis: Man wende Thm. 14.7 auf αA an.) 14.3. Sei f (x, y) in einer Umgebung von (0, 0) im R2 definiert, und sei g(r, ϕ) = f (r cos ϕ , r sin ϕ) , Dann existiert
lim
(x,y)−→(0,0)
r2 = x2 + y 2 .
f (x, y) genau dann, wenn die auf [0, 2π] definierten
Funktionen gr (ϕ) := g(r, ϕ) für r −→ 0 gleichmäßig gegen eine konstante Funktion konvergieren. Man beweise dieses Kriterium und wende es an auf die Funktionen a. f (x, y) =
x2 − y 2 , x2 + y 2
(x, y) = (0, 0) ,
f (x, y) =
x2 y 2 , x2 + y 2
(x, y) = (0, 0) .
b.
392
14 Stetigkeit
14.4. Sei M = {x ∈ R | x ≥ 1} mit der Betragsmetrik versehen und so als metrischer Raum aufgefasst. Man zeige: a. Die Abbildung f : M −→ M mit f (x) =
x 1 + , x 2
x∈M
ist kontrahierend und hat den eindeutigen Fixpunkt x0 = b. Die Abbildung g : M −→ M mit g(x) =
1 + x, x
√ 2.
x∈M
erfüllt die Ungleichung d (g(y), g(x)) < d (y, x)
für alle x, y ∈ M mit x = y ,
besitzt jedoch keinen Fixpunkt. (Hinweis: Für die Ungleichung hilft der Mittelwertsatz!) 14.5. Man beweise Gl. (14.13). Hinweise: Zuerst überlege man sich Folgendes: (i) Ist x ∈ Q, so ist cos2 k!πx = 1 für alle genügend großen k. (ii) Ist x ∈ Q, so ist cos2 k!πx < 1 für alle k. 14.6. Sei
fn (x) =
−n3 x4 + 0
1 n
für für
|x| ≤ |x| >
1 n 1 n
, n∈N. ,
Man zeige, dass die Folge (fn ) gleichmäßig auf [−1, 1] konvergiert. Man bestimme die Grenzfunktion f . 14.7. Für die Folge (fn ) mit fn (x) = 2−n enx
2
bestimme man möglichst große Intervalle [a, b] ⊆ R, auf denen die Konvergenz gleichmäßig ist. 14.8. Auf I := [0, ∞[ seien Funktionen fn definiert durch fn (x) := xn e−nβx (β > 0 gegeben). Man berechne die Normen fn ∞ . Dann folgere man: fn ⇒ 0
⇐⇒
β > 1/e .
Aufgaben
393
14.9. Sei
xn , x ≥ 0, n ∈ N . 1 + xn a. Man bestimme den punktweisen Limes von (fn ), x ≥ 0. b. Man zeige, dass die Folge (fn ) auf den Intervallen fn (x) =
[0, c]
für 0 < c < 1 ,
[b, +∞[
für b > 1 ,
gleichmäßig konvergiert. c. Man zeige, dass auf [1, +∞[ keine gleichmäßige Konvergenz vorliegt. 14.10. Man zeige die gleichmäßige Konvergenz der folgenden Reihen und berechne die Summe: ∞ 1 auf [a, ∞[ mit a > 1, a. n x (1 + x)n n=0 ∞ (1 − x)n b. auf [0, 2]. 3n n=0 14.11. Sei f (x), 0 ≤ x ≤ 1, definiert durch f (x) =
∞ n=1
1 . (x + n)2
Man zeige, dass f stetig auf [0, 1] ist, und dass 1 f (x) dx = 1 . 0
14.12. Sei fn (x) = nx(1 − x)n ,
0 ≤ x ≤ 1,
n∈N.
Man zeige: a. Der punktweise Limes der Folge auf [0, 1] ist stetig, obwohl die Konvergenz nicht gleichmäßig ist. b. Die Folge darf gliedweise integriert werden. 14.13. Für 0 ≤ x ≤ 1 und n ∈ N setzen wir n sin nπx , wenn x ≤ 1/n , fn (x) := 0 sonst. Man beweise: fn (x) → 0 punktweise, aber die Integrale nicht nach Null.
1
fn (x) dx gehen 0
394
14 Stetigkeit
14.14. Man gebe eine Folge (fn ) von differenzierbaren Funktionen an, die gleichmäßig gegen Null konvergiert, für die aber die Folge (fn ) der Ableitungen noch nicht einmal punktweise konvergent ist. (Hinweis: Man denke an hochfrequente Schwingungen mit kleiner Amplitude.)
15 Uneigentliche Integrale und Integrale mit Parameter
Die in Kap. 13 begonnene Vertiefung der reellen Analysis findet nun ihren vorläufigen Abschluss mit der Diskussion des Einflusses diverser Grenzprozesse auf Integrale. Wieder steht dabei die Frage der Vertauschbarkeit von Grenzprozessen im Vordergrund.
A. Uneigentliche Integrale in R In den Anwendungen benötigt man Integrale über unbeschränkte Intervalle und auch über unbeschränkte Integranden. Definitionen 15.1. a. Sei f : R −→ R stetig, a, c ∈ R. Dann definiert man die uneigentlichen Integrale ∞ b f (x)dx := lim f (x)dx , (15.1) b−→+∞
a
a
c
c f (x)dx :=
−∞
lim
f (x)dx ,
b−→−∞
+∞ c ∞ f (x)dx := f (x)dx + f (x)dx , −∞
(15.2)
b
−∞
(15.3)
c
falls die jeweiligen Grenzwerte existieren. (Der Wert der rechten Seite von (15.3) hängt nicht von dem gewählten Punkt c ab, wie man mittels 3.2a leicht nachrechnet.) b. Sei a < c < b und sei f : [a, b] \ {c} −→ R stetig. Dann definiert man die uneigentlichen Integrale
396
15 Uneigentliche Integrale und Integrale mit Parameter
c− f (x)dx :=
t lim
t−→c−0
a
a
b
b f (x)dx :=
lim
t−→c+0
c+
b
f (x)dx ,
(15.4)
f (x)dx ,
(15.5)
t
c− b f (x)dx := f (x)dx + f (x)dx ,
a
a
(15.6)
c+
falls die jeweiligen Grenzwerte existieren. Beispiele: a.
∞ e
−x
b d x = lim
0
b.
0
∞
b cos x dx = lim
cos x dx = lim sin b
b−→∞
0
c.
dx = lim b−→∞ xα
b
1
Also:
1−α b dx 1−α − = lim b−→∞ ln b xα
∞
1
1 1−α
, α = 1 ,α = 1 .
1
dx = xα
1
dx = lim t−→0+ xα
1 t
0+
Also:
existiert nicht.
b−→∞
0
∞
d.
e−x dx = lim (1 − e−b ) = 1 . b−→∞
b−→∞
1
für α > 1 , divergent für α ≤ 1 .
1 dx 1−α − = lim t−→0+ − ln t xα
dx = xα
0
1 α−1
1 1−α
für α < 1 , divergent für α ≥ 1 .
e. Das uneigentliche Integral ∞
t1−α 1−α
dx = xα
0+
ist also für kein α ∈ R existent.
1 0+
dx + xα
∞ 1
dx xα
, α = 1 , ,α = 1.
A. Uneigentliche Integrale in R
397
Wir formulieren im Folgenden alle Definitionen und Sätze für Integrale +∞ c−0 vom Typ und . Sie gelten dann entsprechend für die beiden anderen c
a
Integraltypen. Aus der Grenzwertdefinition und dem Cauchy-Kriterium in Satz 13.16 bekommen wir zunächst: Satz 15.2 (Cauchy-Kriterium). a. Für eine stetige Funktion f : [a, ∞[ −→ R existiert das uneigentliche ∞ Integral f (x)dx genau dann, wenn es zu jedem ε > 0 ein b0 > a gibt, a
sodass
b2 f (x)dx < ε
für alle b2 > b1 ≥ b0 .
b1
b. Für eine stetige Funktion f : [a, b[ −→ R existiert das uneigentliche Inteb−0 gral f (x)dx genau dann, wenn es zu jedem ε > 0 ein c0 , a < c0 < b a
gibt, sodass c2 f (x)dx < ε
für alle c0 ≤ c1 < c2 < b .
c1
Wie bei unendlichen Reihen hat man auch bei uneigentlichen Integralen den Begriff der absoluten Konvergenz. Definition 15.3. Man nennt eines der uneigentlichen Integrale +∞ f (x)dx , a
a f (x)dx , −∞
b−0 f (x)dx , a
b f (x)dx a+0
absolut konvergent und f absolut integrierbar über das jeweilige Intervall, wenn das zugehörige Integral +∞
a |f (x)| dx ,
a
b−0
|f (x)| dx , −∞
b |f (x)| dx ,
a
|f (x)| dx a+0
konvergiert. Aus dem Cauchy-Kriterium in Satz 15.2 und Satz 3.2e folgt dann sofort: Satz 15.4. Ein absolut konvergentes uneigentliches Integral ist konvergent.
398
15 Uneigentliche Integrale und Integrale mit Parameter
Umgekehrt zeigt das Beispiel (Aufg. 15.4) ∞
sin x x
0
ein konvergentes, aber nicht absolut konvergentes Integral.
∞
Bei unendlichen Reihen haben wir in Satz 13.19d gezeigt: Ist
an kon-
n=1
vergent, so gilt lim an = 0. Bei uneigentlichen Integralen ist die Situation n−→∞ ∞ anders: Aus |f (x)|dx < ∞ folgt i. Allg. nicht lim f (x) = 0. In den Übunx−→∞
a
gen wird dazu ein Beispiel konstruiert. Jedoch überträgt sich das Majorantenkriterium aus Satz 13.23 auf uneigentliche Integrale. Satz 15.5 (Majoranten–Minoranten-Kriterium). Sei a < b ≤ +∞ und f, g, h : [a, b[ −→ R stetig mit 0 ≤ h(x) ≤ |f (x)| ≤ g(x) Dann gilt b−0
|f (x)| dx a
⎧ ⎪ ⎪ ⎨konvergent,
falls
⎪ ⎪ ⎩divergent,
falls
für a ≤ x < b. b−0 a b−0
g(x)dx
konvergent
h(x)dx
divergent
a
Der Beweis folgt aus Satz 3.2d und dem Cauchy-Kriterium in Satz 15.2.
B. Parameterabhängige Integrale Wenn man bei Funktionen mehrerer Variabler nur über einige, aber nicht über alle Variablen integriert, so hängt der Wert des Integrals natürlich noch von den restlichen Variablen ab, ist also eine Funktion von diesen restlichen Variablen. Man bezeichnet die Variablen, über die nicht integriert wird, oft als „Parameter“und wir wollen die Abhängigkeit der Integrale von diesen Parametern nun untersuchen. Hauptsächlich geht es dabei um die Frage, wann man Grenzprozesse bei den Parametern mit der Integration vertauschen darf. Schon beim Beweis von Satz 10.15 war eine solche Vertauschung der wesentliche Schritt gewesen. Sei also I ⊆ Rn ein kompaktes n-dimensionales Intervall, und sei ∅ = J ⊆ m R eine beliebige Teilmenge. Ist nun auf Q := I × J ⊆ Rn+m eine stetige reelle Funktion f gegeben, so können wir die Funktion ϕ(ξ1 , . . . , ξm ) := f (x1 , . . . , xn , ξ1 , . . . , ξm ) dn (x1 , . . . , xn ) (15.7) I
B. Parameterabhängige Integrale
oder kürzer:
399
ξ∈J
f (x, ξ) dn x ,
ϕ(ξ) := I
bilden. Dieses Integral hängt also von den reellen Parametern ξ1 , . . . , ξm ab, die man aber auch zu einem einzigen (vektoriellen) Parameter ξ = (ξ1 , . . . , ξm ) zusammenfassen kann. Satz 15.6. Für ein kompaktes Intervall I ⊆ Rn und eine nichtleere Teilmenge J ⊆ Rm sei Q := I × J ⊆ Rn+m , und sei f : Q −→ R eine gegebene Funktion. Dann gilt: a. Ist f stetig auf Q, so ist das durch (15.7) gegebene „partielle Integral“ ϕ stetig auf J. b. Es sei speziell m = 1 , J ⊆ R ein Intervall. Auf Q existiere die partielle ∂f , und die Funktionen f und fξ seien auf ganz Q stetig. Ableitung fξ = ∂ξ 1 Dann ist ϕ ∈ C (J), und für alle ξ ∈ J gilt d ∂ f (x, ξ)dn x = (15.8) f (x, ξ)dn x . ϕ (ξ) ≡ dξ ∂ξ I
I
Beweis. a. Wir verwenden das Folgenkriterium (Satz 14.2). Seien also ξ0 , ξ1 , ξ2 , . . . ∈ J, wobei ξ0 = limk→∞ ξk . Man überzeugt sich leicht, dass die Menge K := {(x, ξk ) | x ∈ I , k ∈ N0 } kompakt ist. Durch Einschränken von f auf K erhält man also nach Satz 14.9 eine gleichmäßig stetige Funktion. Daher haben wir gleichmäßige Konvergenz gk (x) := f (x, ξk ) −→ g0 (x) := f (x, ξ0 ) auf I, wie man aus den Definitionen abliest. Satz 14.19a ergibt also n ϕ(ξ0 ) = g0 (x) d x = lim gk (x) dn x = lim ϕ(ξk ) , I
k→∞
I
wie gewünscht.
b. Die Funktion
fξ (x, ξ) dn x
ψ(ξ) := I
k→∞
400
15 Uneigentliche Integrale und Integrale mit Parameter
ist nach Teil a stetig. Wähle α ∈ J fest. Die Theoreme 11.12 und 3.4 ergeben also für alle τ ∈ J: τ τ n ψ(ξ) dξ = d x fξ (x, ξ) dξ α
α
I
(f (x, τ ) − f (x, α)) dn x
= I
= ϕ(τ ) − ϕ(α) , also ϕ(τ ) = ϕ(α) +
τ
ψ(ξ) dξ. Nach Thm. 3.4 ist somit ϕ ∈ C 1 (J) und
α
ϕ (τ ) = ψ(τ ), was gerade (15.8) bedeutet.
Wir wollen dies jetzt auf uneigentliche Integrale ausdehnen. Sei dazu S = {(x, ξ) | a ≤ x < +∞ ,
ξ ∈ J} ⊆ Rm+1
(15.9)
mit einer nichtleeren Teilmenge J ⊆ Rm (typischerweise einem Intervall J ⊆ R), und sei f : S −→ R stetig. Dann betrachten wir Integrale der Form ∞ f (x, ξ)dx := ϕ(ξ) .
(15.10)
a
Definitionen 15.7. Sei f : S −→ R eine gegebene Funktion. Eine integrierbare Majorante für f ist eine Funktion g : [a, ∞[, für die das uneigentliche ∞ Integral g(x) dx existiert und für die gilt: a
|f (x, ξ)| ≤ g(x)
∀ (x, ξ) ∈ S .
Nehmen wir an, f sei stetig und besitze eine integrierbare Majorante g. Sei bn −→ ∞ eine Zahlenfolge in [a, ∞[. Nach Satz 15.6a ist dann jede der Funktionen bn (15.11) ϕn (ξ) := f (x, ξ)dx a
stetig. Nach dem Majorantenkriterium (Satz 15.5) existiert für jedes ξ ∈ J das uneigentliche Integral (15.10). Aber dieses ist der gleichmäßige Limes der ϕn (ξ), denn ∞ |ϕ(ξ) − ϕn (ξ)| ≤ |f (x, ξ)| dx bn ∞ g(x) dx ≤ bn ∞
=
a
g(x) dx − a
bn
g(x) dx −→ 0
für
n→∞.
C. Mehrdimensionale uneigentliche Integrale
401
Nach Satz 14.15e ist damit auch die Grenzfunktion ϕ(ξ) stetig. Nehmen wir zusätzlich an, J wäre ein eindimensionales Intervall und fξ wäre vorhanden und ebenfalls stetig. Außerdem setzen wir voraus, dass es für fξ (x, ξ) eine integrierbare Majorante h : [a, ∞[ −→ [0, ∞[ gibt. Die Folge bn ψn (ξ) :=
fξ (x, ξ)dx a
ist dann wieder gleichmäßig konvergent gegen ψ(ξ) := Satz 15.6b ist jedes ψn ∈ C 1 (J) und es gilt ψn (ξ) =
∞
f (x, ξ)dx auf J. Nach
a
bn
ϕn (ξ)
=
fξ (x, ξ)dx . a
Nach Satz 14.21 ist dann ψ ∈ C 1 (J) und ψ = ϕ . Wir fassen zusammen: Satz 15.8. Sei f (x, ξ) stetig auf S = [a, +∞[ × J. a. Hat f auf J ⊆ Rm eine integrierbare Majorante, so ist das uneigentliche Integral ∞ ϕ(ξ) = f (x, ξ)dx a
stetig auf J. b. Ist zusätzlich J ein Intervall in R, hat f eine stetige partielle Ableitung fξ (x, ξ) und besitzen f und fξ integrierbare Majoranten, so ist ϕ ∈ C 1 (J), und seine Ableitung ist das uneigentliche Integral ∞ fξ (x, ξ)dx ,
ψ(ξ) = a
d. h. es gilt d ϕ (ξ) ≡ dξ
∞
∞ f (x, ξ)dx =
a
∂ f (x, ξ)dx = ψ(ξ) . ∂ξ
(15.12)
a
C. Mehrdimensionale uneigentliche Integrale Auch Funktionen mehrerer Variabler müssen oft in Situationen integriert werden, wo der Definitions- oder der Wertebereich unbeschränkt ist. Wegen der großen Vielfalt der möglichen Formen der Definitionsbereiche und der
402
15 Uneigentliche Integrale und Integrale mit Parameter
Funktionsverläufe ist hier aber nur eine Diskussion von absolut konvergenten uneigentlichen Integralen sinnvoll. In der modernen Integrationstheorie von Lebesgue wird gar nicht zwischen eigentlichen und absolut konvergenten uneigentlichen Integralen unterschieden, sondern gewissermaßen alles auf einen Schlag erledigt. Wir borgen uns aus dieser Theorie einige Ideen, mit deren Hilfe wir ohne großen Aufwand absolut konvergente uneigentliche Integrale für Funktionen in Rn einführen und diskutieren können. Sei BR (x0 ) = {x ∈ Rn | x − x0 ≤ R} (15.13) eine Kugel mit Radius R um x0 ∈ Rn (in Bezug auf die euklidische Norm). Eine (möglicherweise unbeschränkte) Teilmenge G ⊆ Rn soll Jordan-messbar genannt werden, wenn für jedes R > 0 die Menge ∂G ∩ BR (0) eine Jordan’sche Nullmenge ist (vgl. die Definitionen in 11.5). Definitionen 15.9. Sei G ⊆ Rn eine Jordan-messbare Teilmenge. a. Für eine nichtnegative stetige Funktion g : G −→ [0, ∞[ definieren wir das Integral durch g(x) dn x G n := sup g(x) d x K ⊆ G kompakt und Jordan-messbar , K
wobei das Supremum als +∞ aufzufassen ist, wenn die Menge auf der rechten Seite nach oben unbeschränkt ist. b. Für jede reellwertige Funktion f : G −→ R definieren wir den positiven (bzw. negativen) Teil f + (bzw. f − ) durch 1 (|f (x)| + f (x)) , (15.14) 2 1 (15.15) f − (x) := − min(f (x), 0) = (|f (x)| − f (x)) . 2 c. Eine stetige reelle Funktion f : G −→ R heißt absolut integrierbar über G, wenn |f (x)| dn x < ∞ f + (x) := max(f (x), 0) =
G
im Sinne von Teil a. In diesem Falle definiert man ihr Integral durch f dn x := f + dn x − f − dn x . (15.16) G
G
G
d. Eine Ausschöpfung von G ist eine aufsteigende Folge K1 ⊆ K2 ⊆ . . . ⊆ Km ⊆ Km+1 ⊆ . . . ⊆ G von kompakten Jordan-messbaren Teilmengen von G mit der Eigenschaft, dass jede kompakte Teilmenge von G in einer der Km enthalten ist.
C. Mehrdimensionale uneigentliche Integrale
403
Für Teil c sollte man beachten, dass die Stetigkeit von f auch die Stetigkeit von f + , f − nach sich zieht. Außerdem ergeben die Definitionen sofort f ± ≥ 0 sowie |f | = f + + f − (15.17) f = f+ − f− , und insbesondere 0 ≤ f ± ≤ |f |. Daher ist die Bedingung G |f | dn x < ∞ äquivalent zu f + dn x < ∞ und f − dn x < ∞ . G
G
Absolute Integrierbarkeit von f sorgt also dafür, dass auf der rechten Seite von (15.16) nicht ∞ − ∞, sondern die Differenz zweier reeller Zahlen steht. Für den Umgang mit den so definierten uneigentlichen Integralen ist der folgende Satz entscheidend: Satz 15.10. Sei G ⊆ Rn eine Jordan-messbare Teilmenge, und sei f : G −→ R stetig. a. f ist absolut integrierbar über G, wenn es eine Ausschöpfung (Km ) von n |f | d x beschränkt ist. G gibt, für die die Folge Km
b. Wenn f absolut integrierbar über G ist, so gilt für jede Ausschöpfung (Lm ) von G n f (x) d x = lim f (x) dn x (15.18) G
m→∞
Lm
und analog für |f | statt f . Der Beweis ist leicht und kann als Übung geführt werden (vgl. auch den Beweis des Satzes in Ergänzung 13.29). Die Darstellung des Integrals in der Form (15.18) zeigt, dass sich die Rechenregeln aus Thm. 11.10 auf Integrale von absolut integrierbaren Funktionen übertragen. Satz 15.10 ermöglicht es außerdem, konkrete uneigentliche Integrale zu berechnen oder zumindest abzuschätzen. Im Folgenden tun wir dies für gewisse wichtige Spezialfälle, in denen Kugeln benutzt werden, um geeignete Ausschöpfungen anzugeben. Wir wollen dabei die Transformationsformel aus Satz 11.22 benutzen, um Integrale über Kugeln und Kugelschalen abzuschätzen. Wir beschränken uns bei den genauen Rechnungen auf die Dimensionen n = 2, 3, formulieren die Sätze jedoch für beliebiges n. Sei BR (X0 ) durch (15.13) gegeben, und sei f : BR (X0 ) −→ R eine stetige Funktion. (I) Im Falle n = 2 können wir schreiben, wenn wir Polarkoordinaten um X0 einführen x0 cos ϕ cos ϕ X = X0 + rω := +r , ω= , (15.19) y0 sin ϕ sin ϕ
404
15 Uneigentliche Integrale und Integrale mit Parameter
wobei ω = 1 ist, sodass wir ω als einen Punkt auf der Einheitssphäre S1 (0) auffassen können. Aus der Transformationsformel in Satz 11.22 folgt dann R 2π f (X)d2 x = f (X0 + rω)r dϕ dr 0 0
BR (X0 )
≡
R
A
0 ω =1
(15.20) f (X0 + rω)r dω dr .
(II) Im Falle n = 3 können wir schreiben, wenn wir Kugelkoordinaten um X0 einführen ⎡ ⎤ ⎡ ⎤ ⎡ ⎤ cos ϕ sin θ cos ϕ sin θ x0 (15.21) X = X0 + rω = ⎣ y0 ⎦ + r ⎣ sin ϕ sin θ ⎦ , ω = ⎣ sin ϕ sin θ ⎦ , cos θ cos θ z0 wobei wieder ω = 1, d. h. ω ∈ S1 (0) ist. Wieder folgt mit der Transformationsformel in Satz 11.22
f (X)d3 x =
BR (X0 )
≡
R π 2π
f (X0 + rω)r2 sin θ dϕ dθ dr
0 0 0 R A
(15.22)
0 ω =1
wobei wir mit dω :=
f (X0 + rω)r2 dω dr ,
dϕ, sin θ dϕ dθ,
n=2 n=3
(15.23)
das skalare Bogen- bzw. Flächenelement auf der Einheitssphäre S1 (0) bezeichnen (vgl. 9.7 und 12.5). Es ist dann noch 2π, n = 2 ωn := dω = (15.24) 4π, n = 3 S1 (0)
die Bogenlänge des Einheitskreises bzw. der Flächeninhalt der Einheitssphäre. Jetzt nehmen wir an, dass f (X) rotationssymmetrisch bezüglich X0 ist, d. h. es gibt eine stetige Funktion ϕ : [0, R] −→ R, sodass f (X) = ϕ(X − X0 )
für X ∈ BR (X0 ),
(15.25)
und daher ist f (X0 + rω) = ϕ(r)
(15.26)
wegen ω = 1. Auch für höhere Dimensionen kann man derartige Umrechnungen vornehmen, wobei die Kunst hauptsächlich darin besteht, das Flächenelement dω zu
C. Mehrdimensionale uneigentliche Integrale
405
definieren. (Vgl. Kap. 22, insbes. Satz 22.11.) Außerdem kann man die Kugeln auch durch Kugelschalen SR,ρ (x0 ) := {x ∈ Rn | ρ ≤ x − x0 ≤ R}
(0 ≤ ρ < R)
(15.27)
ersetzen. So erhält man: Satz 15.11. Für eine stetige Funktion f : SR,ρ (x0 ) −→ R gilt R @
n
rn−1 f (x0 + rω) dω dr .
f (x)d x =
(15.28)
ρ ω =1
SR,ρ (x0 )
Ist insbesondere f (x) = ϕ(x − x0 ), so gilt
R n
rn−1 ϕ(r)dr
f (x)d x = ωn
(15.29)
ρ
SR,ρ (x0 )
mit festen Zahlen ωn > 0, die man als den n − 1-dimensionalen Flächeninhalt von S1 (0) ⊆ Rn interpretieren kann. Diesen Satz wenden wir an, um die Existenz des Integrals einer Funktion zu untersuchen, die in einem beschränkten Gebiet eine Singularität hat. Satz 15.12. Sei Ω ⊆ Rn ein beschränktes Jordan-messbares Gebiet, x0 ∈ Ω ein Punkt und f : Ω \ {x0 } −→ R eine stetige Funktion. Ferner gebe es ein ε0 > 0 und Konstanten M ≥ 0, p ∈ R, sodass |f (x)| ≤
M x − x0 p
für 0 < x − x0 < ε0 .
(15.30)
Dann ist f absolut integrierbar über Ω, falls p < n, und es gilt f (x)dn x = lim f (x) dn x .
(15.31)
ε−→0 Ω\Bε (x0 )
Ω
Beweis. Wir wählen eine monoton fallende Nullfolge ε0 > ε1 > ε2 > . . . positiver Zahlen und setzen Km := Ω \ Uεm (x0 )
(m ∈ N0 ) ,
wobei U (x0 ) := {x | x − x0 < ε} ist. Diese Km bilden eine Ausschöpfung von G := Ω \ {x0 }, und wir folgern die Behauptungen mittels dieser Ausschöpfung aus Satz 15.10. Dazu schreiben wir |f | dn x = |f | dn x + |f | dn x . Km
K0
Bε0 (x0 ) \Uεm (x0 )
406
15 Uneigentliche Integrale und Integrale mit Parameter
Es genügt also, das Integral über Bε0 (x0 ) \ Uε (x0 ) = Sε0 ,ε (x0 ) zu betrachten. Aus (15.28), (15.29) in Satz 15.11 und der Abschätzung (15.30) folgt dann
|f (x)| dn x =
Bε0 (x0 )\Uε (x0 )
≤
ε0
rn−1 |f (x0 + rω)| dω dr
ε Ω =1 ε0 n−1 M r rp ε
dω dr =
Mωn n−p
n−p − ε εn−p , 0
sodass die Integrale für ε −→ 0 beschränkt bleiben, wenn p < n ist.
Als Nächstes betrachten wir das Integral über einen unbeschränkten Bereich: Satz 15.13. Sei Ω ⊆ Rn ein unbeschränktes Jordan-messbares Gebiet und sei f : Ω −→ R eine stetige Funktion. Ferner gebe es Konstanten R0 > 0, M ≥ 0, p ∈ R, sodass M xp
für alle x ∈ Ω mit x > R0 .
(15.32)
Dann ist f absolut integrierbar über Ω, falls p > n, und es gilt n f (x) d x = lim f (x) dn x .
(15.33)
|f (x)| ≤
R−→∞ Ω∩BR (0)
Ω
Beweis. Für jede monoton wachsende und nach +∞ divergierende Folge R0 < R1 < R2 < . . . erhält man eine Ausschöpfung von G := Ω durch Km := G ∩ BRm (0)
(m ∈ N0 ) .
Die Behauptungen folgen also aus Satz 15.10, wenn wir zeigen können, dass die Integrale n n |f | d x = |f | d x + |f | dn x Km
K0
G∩SRm ,R0 (0)
für m → ∞ beschränkt bleiben. Aber nach (15.32) und Satz 15.11 haben wir für alle R ≥ R0 : M n |f | dn x ≤ d x p G∩SR,R0 (0) SR,R0 (0) x R n−1 r M ωn n−p (R = M ωn dr = − R0n−p ) , p n−p R0 r und das bleibt beschränkt für R → ∞, wenn p > n ist.
Als eine Anwendung für mehrdimensionale uneigentliche Integrale zeigen wir noch:
D. Die Euler’sche Gammafunktion
Satz 15.14.
∞
2
e−x dx =
407
√ π . 2
0 2
Beweis. Dieses Integral kann nicht elementar berechnet werden, weil e−x keine elementare Stammfunktion hat. Die Idee ist die folgende Zurückführung des Integrals ∞ 2 J := e−x dx −∞
auf ein zweidimensionales Integral: Man kann die Ebene R2 sowohl durch Quadrate QR := [−R, R] × [−R, R] als auch durch Kreisscheiben BR (0) ausschöpfen. Das ergibt: 2 R 2 −x2 e dx J = lim R→∞
= 11.13
=
15.10
=
=
−R
I
R
lim
R→∞
e
lim
R→∞
−R
J
R
e
2
−y 2
d2 (x, y)
15.10
−y 2
dy
=
e−x
2
−y 2
R2
QR
e BR (0) R
lim 2π
R→∞
dx ·
−R
e−x
lim
R→∞
−x2
−x2 −y 2
2
d (x, y)
(15.20)
=
d2 (x, y) R
lim
R→∞
0
2π
2
e−r r dϕdr
0
2
e−r rdr = π ,
0
wobei zuletzt die Substitution s = r2 verwendet wurde. Also J = 2 daraus folgt die Behauptung weil e−x eine gerade Funktion ist.
√
π, und
D. Die Euler’sche Gammafunktion Als eine weitere Anwendung betrachten wir das parameterabhängige uneigentliche Integral ∞ (15.34) Γ (x) := e−t tx−1 dt 0
für x > 0, das in der Mathematik und ihren Anwendungen an den verschiedensten Stellen auftaucht. Satz 15.15. a. Für alle x > 0 existiert die Euler’sche Gammafunktion (15.34) und stellt eine C ∞ -Funktion dar, d. h. sie ist beliebig oft differenzierbar.
408
15 Uneigentliche Integrale und Integrale mit Parameter
b. Die Γ -Funktion erfüllt die Funktionalgleichung Γ (x + 1) = xΓ (x) .
(15.35)
c. Ferner gilt Γ (1) = 1 , Γ
1 2
=
Γ (n + 1) = n!
für n = 0, 1, 2, . . . ,
1 1 · 3 · 5 . . . (2n − 1) √ = Γ n+ π, 2 2n
√ π,
(15.36) n = 0, 1, . . . (15.37)
Beweis. a. Für die uneigentlichen Integrale, die durch Differentiation nach x unter dem Integralzeichen entstehen, lassen sich mittels der bekannten Asymptotik von Exponentialfunktion und Logarithmus leicht integrierbare Majoranten finden. Satz 15.8 b liefert dann die Behauptungen. (Details in Ergänzung 15.18.) b. Mit partieller Integration folgt ∞
−t x
e t dt =
Γ (x + 1) =
+∞ −e−t tx 0
∞ +x
0
e−t tx−1 dt = xΓ (x) .
0
c. Wegen
∞ Γ (1) =
e−t dt = 1
0
folgt (15.36) aus (15.35) durch Induktion. Wegen Γ
1 2
=
∞ 0
=2
e−t t−1/2 dt =
∞ 0
e
−s2
ds =
∞
0 √ 2 2π
2
e−s s−1 · 2s ds nach 15.14
folgt (15.37) aus (15.35) mit Induktion.
Ergänzungen zu §15 Wir überzeugen uns an zwei wichtigen Beispielen von der Nützlichkeit uneigentlicher Integrale. Außerdem wird ein spezielles uneigentliches Integral berechnet und der Einsatz von Satz 15.8 wird durch den ausführlichen Beweis von Satz 15.15a illustriert. Am Schluss berechnen wir Volumen und Oberfläche von Kugeln in beliebig hoher Dimension. Diese Größen sind von fundamentaler Bedeutung für die statistische Mechanik.
Ergänzungen
409
15.16 Das Integralkriterium für Reihen. Mittels uneigentlicher Integrale lässt sich ein sehr brauchbares Konvergenzkriterium für unendliche Reihen formulieren: Satz. Sei f : [1, ∞[ −→ [0, ∞[ eine monoton fallende, stetige und nichtnegative Funktion. Dann ist ∞ ∞ f (n) konvergent ⇐⇒ f (x) dx konvergent. 1
n=1
t Beweis. Wegen f (x) ≥ 0 ist die Stammfunktion ϕ(t) := 1 f (x) dx monoton wachsend, und daher ist das uneigentliche Integral genau dann konvergent, wenn ϕ(t) n für t −→ ∞ beschränkt bleibt. Ebenso sind die Partialsummen sn := k=1 f (k) monoton wachsend, also ist die Reihe genau dann konvergent, wenn die Folge (sn ) beschränkt ist. Aus k ≤ x ≤ k + 1 folgt aber nach Voraussetzung f (k) ≥ f (x) ≥ f (k + 1). Schreiben wir also ϕ(n) =
n−1 k+1 k=1
f (x) dx ,
k
so können wir die einzelnen Integrale in dieser Summe nach oben und unten abschätzen. Das ergibt: sn−1 ≥ ϕ(n) ≥
n−1
f (k + 1) = sn − f (1) .
k=1
Für n ≤ x ≤ n + 1 ist also sn − f (1) ≤ ϕ(x) ≤ sn . Also ist die Beschränktheit der Funktion ϕ äquivalent zur Beschränktheit der Folge (sn ). ∞ 1 ist für s = 1 divergent, aber für jedes s > 1 s n n=1 konvergent. Mittels des obigen Integralkriteriums sieht man das sofort, denn die entsprechenden Integrale x−s dx lassen sich ja explizit berechnen. ∞ π sin x dx = . In Aufg. 15.4 zeigen wir einen einfachen Weg 15.17 x 2 0 ∞ auf, die Konvergenz des uneigentlichen Integrals 0 sinx x dx nachzuweisen. Mit etwas mehr Aufwand und Raffinesse kann man seinen Wert sogar genau berechnen. Dazu betrachten wir für festes b > 0 die Hilfsfunktion b sin x dx (t ≥ 0) , e−tx h(t) := x 0
Beispiel: Die Reihe ζ(s) :=
wobei x−1 sin x in x = 0 stetig ergänzt ist. Nach 15.6b ist h ∈ C 1 ([0, ∞[) und b e−tx sin x dx . g(t) := −h (t) = 0
410
15 Uneigentliche Integrale und Integrale mit Parameter
Dieses Integral lässt sich aber explizit berechnen. Zweimalige Produktintegration ergibt nämlich: g(t) = 1 − e−tb cos b − te−tb sin b − t2 g(t) , also
1 (1 − e−tb (cos b + t sin b)) . 1 + t2
g(t) =
(15.38)
Außerdem haben wir lim h(t) = 0 .
(15.39)
t→∞
Dies ergibt sich sofort aus einer etwas allgemeineren Version der Anmerkung 14.20, aus der hervorgeht, dass der eine Ausnahmepunkt x = 0, wo der Integrand für t −→ ∞ nicht nach Null geht, eigentlich keine Rolle spielt. Wer nicht mit derartigen unbewiesenen Behauptungen es folgender xoperieren will, kann x maßen direkt einsehen: Es ist | sin x| = | 0 cos ξ dξ| ≤ 0 | cos ξ| dξ ≤ |x|, also b b −tx sin x |h(t)| ≤ e e−tx dx x dx ≤ 0 0 =
1 1 − e−bt < −→ 0 t t
für
t→∞
und somit gilt (15.39). Aus (15.38), (15.39) ergibt sich: b t
sin x dx = h(0) = lim h(0) − h(t) = lim g(s) ds t→∞ t→∞ 0 x 0 ∞ ∞ −bs ds e (cos b + s sin b) = − ds . 2 1+s 1 + s2 0 0 Das erste Integral ist bekannt, denn ∞ ds π , = arctan x|∞ 0 = 2 1+s 2 0 und das zweite Integral kürzen wir mit F (b) ab. Es konvergiert absolut aufgrund der folgenden Abschätzung: −bs e (cos b + s sin b) ≤ e−bs 1 + s ≤ Ce−bs 1 + s2 1 + s2 1+s mit einer Konstanten C > 0. (Hier ist zu beachten, dass die Funktion 1+s 2 für s → ∞ gegen Null geht, also für 0 ≤ s < ∞ beschränkt bleibt.) Die Abschätzung zeigt auch ∞ e−bs ds = C/b −→ 0 für b → ∞ . |F (b)| ≤ C 0
Ergänzungen
411
Damit können wir in der Gleichung b π sin x dx = − F (b) x 2 0 den Grenzübergang b → ∞ vornehmen und erhalten die behauptete Beziehung ∞ π sin x dx = . x 2 0 15.18 Existenz und Differenzierbarkeit der Gammafunktion. Um Satz 15.15a zu beweisen, wählen wir 0 < a < b < ∞ beliebig und weisen nach, dass Γ (x) auf dem Intervall ]a, b[ existiert und C ∞ ist. Dazu betrachten wir die Integrale 1 ∞ −t x−1 Γ1 (x) := e t dt , Γ2 (x) := e−t tx−1 dt 0
1
getrennt und wenden mehrfach Satz 15.8b bzw. dessen Variante für das Intervall ]0, 1] statt [1, ∞[ an. Differentiation des Integranden nach dem Parameter x ergibt für m = 0, 1, 2, . . . m dm x−1 −t e =: hm (t, x) . t = e−t tx−1 ln t m dx Für 0 < t ≤ 1, a ≤ x ≤ b lässt sich dies wie folgt abschätzen: a
|hm (t, x)| ≤ ta−1 | ln t|m ≤ C1 t 2 −1 mit einer Konstanten C1 > 0, denn für m ≥ 1 ist nach Satz 2.33b. m m a ln s a/2 m 2m lim t (ln t) = lim t ln t = lim − a =0, s→∞ t→0+ t→0+ s 2m a also ist diese Funktion auf ]0, 1] beschränkt. Mit C1 t 2 −1 haben wir also eine integrierbare Majorante für das uneigentliche Integral 1 hm (t, x) dt 0
auf [a, b] gefunden, und die entsprechende Variante von Satz 15.8b. zeigt, dass Γ1 auf diesem Intervall existiert und aus C ∞ ist. Für t ≥ 1 und a ≤ x ≤ b schätzen wir ab: m ln t · t−2 ≤ C2 t−2 0 ≤ hm (t, x) ≤ e−t tb−1 (ln t)m = e−t tb+m+1 · t mit einer Konstanten C2 > 0, denn nach 2.32b und 2.33b ist lim e−t tb+m+1 = 0 = lim (t−1 ln t)m ,
t→∞
t→∞
und damit ist das Produkt dieser Funktionen auf [1, ∞[ beschränkt. Das un∞ eigentliche Integral 1 hm (t, x) dt hat also für a ≤ x ≤ b die integrierbare Majorante C2 t−2 . Satz 15.8b zeigt nun, dass Γ2 auf [a, b] definiert und C ∞ ist.
412
15 Uneigentliche Integrale und Integrale mit Parameter
15.19 Volumen und Oberfläche der n-dimensionalen Kugel. Anwendung von (15.29) auf die konstante Funktion f ≡ 1 liefert
R
dn x = ωn
rn−1 dr = 0
BR (x0 )
ωn n R . n
Für das Volumen einer n-dimensionalen Kugel ergibt sich also vn (BR (x0 )) =
ωn n R . n
(15.40)
Es müssen also die Zahlen ωn berechnet werden, die man als die Oberfläche der (n − 1)-dimensionalen Einheitssphäre interpretieren kann (vgl. Kap. 22). Zu diesem Zweck berechnen wir das Integral exp(−x2 ) dn x Rn
auf zwei Arten, indem wir den Rn einmal mit Würfeln QR = [−R, R]n und einmal mit Kugeln BR (0) ausschöpfen. Die Rechnung verläuft genauso wie die im Beweis von Satz 15.14 und ergibt: ∞ n ωn ∞ −s n −1 −ξ 2 e dξ = e s 2 ds . 2 0 −∞ Nach Satz 15.14 und der Definition der Gammafunktion heißt das ωn Γ (n/2) , π n/2 = 2 also ωn =
2π n/2 . Γ (n/2)
(15.41)
Man kann die Gammafunktion explizit auswerten, wenn man zwischen geraden und ungeraden n unterscheidet. Mittels (15.36), (15.37) ergibt sich: ω2m =
2π m , (m − 1)!
2π m ω2m+1 = Km 1 . k=1 k − 2
(15.42)
Aufgaben zu §15 15.1. Man untersuche die folgenden uneigentlichen Integrale auf Konvergenz: ∞ 2 −x a. x e dx . 0
b.
1 0
dx ex −cos x
.
Aufgaben
413
15.2. Sei f (x) ≥ 0 und stetig für x ≥ 0. Man zeige: a. Wenn lim xp f (x) = L ist, so gilt: x−→∞
∞ Für p > 1 und L < +∞ ist
f (x) dx konvergent. a
∞ Für p ≤ 1 und L > 0 ist
f (x) dx divergent. a
b. Wenn
lim (x − a) f (x) = L ist, so gilt: p
x−→a+0
b Für p < 1 und L < +∞ ist
f (x) dx konvergent. a+
b Für p ≥ 1 und L > 0 ist
f (x) dx divergent. a+
15.3. Mithilfe der Kriterien in Aufg. 15.2 untersuche man folgende Integrale auf Konvergenz: a.
2 1+
b.
dx √ (x + 1) x2 − 1 ∞ 2
x √ dx 3 x −1
∞ und 2
2 und 1+
dx √ . (x + 1) x2 − 1
x √ dx . 3 x −1
15.4. a. Man zeige, dass für alle n ∈ N gilt: nπ n−1 1 sin x dx ≥ 2 x π k π k=1
und folgere, dass das uneigentliche Integral konvergent ist.
0 ∞
∞
sin x dx nicht absolut x
1 − cos x dx absolut konx2 0 vergent ist. (Der Integrand ist bei x = 0 stetig zu ergänzen!) c. Mittels Produktintegration folgere man ausb (ohne Ergänzung 15.17 zu ∞ sin x benutzen!), dass das uneigentliche Integral dx konvergent ist. x 0
b. Man zeige, dass das uneigentliche Integral
414
15 Uneigentliche Integrale und Integrale mit Parameter
15.5. Mithilfe des Integralkriteriums in 15.16 untersuche man die Konvergenz ∞ 1 s in Abhängigkeit von s > 0. der unendlichen Reihen n=2 n ln n
15.6. Man zeige:
∞
1 − cos x π dx = . x2 2
0
Man greife dazu auf Ergänzung 15.17 zurück. 15.7. Für jedes p > 0 definieren wir eine Funktion Jp : R → R durch
π/2
sin2p t sin(x cos t) dt .
Jp (x) := 0
a. Man beweise, dass Jp ∈ C ∞ (R) und berechne die erste und die zweite Ableitung. b. Man beweise: Jp (x) =
1 (1 − xJp+1 (x)) 2p + 1
und
Jp (x) = Jp+1 (x) − Jp (x) .
c. Man folgere, dass y = Jp (x) eine Lösung der folgenden Differenzialgleichung ist: 2p + 1 1 y + y +y = . x x 15.8. Die Funktion
f (t) :=
1
ln(x2 + t2 )dx
0
ist in ]0, ∞[ differenzierbar. Man zeige dies und berechne die Ableitung. 15.9. a. Die Funktion f : R2 → R sei definiert durch x−y falls x, y ∈ [0, 1] , x + y > 0 , 3 , f (x, y) := (x+y) 0 sonst. Man zeige, dass die Doppelintegrale (iterierte Integrale) ∞ ∞ ∞ ∞ f (x, y)dy dx und f (x, y)dx dy −∞
−∞
−∞
−∞
existieren und berechne diese. Was bedeutet das Ergebnis in Bezug auf den Satz von Fubini? b. Man beweise: Ist f : R2 −→ R absolut integrierbar, so existieren auch die beiden iterierten Integrale, und es gilt
Aufgaben
∞
∞
f (x, y)dy dx = −∞
415
−∞
f (x, y) d(x, y) R2
∞
∞
= −∞
f (x, y)dx dy .
−∞
(Hinweis: Man verwende Satz 15.10 und eine Ausschöpfung durch Quadrate.) 15.10. Man berechne die nachstehenden Integrale und zeige dabei auch durch geeignete Ausschöpfungen, dass absolute Integrierbarkeit vorliegt: d(x, y)
. a. 2 2 R (0) ∞x +y B∞ 2 2 e−(x +2xy cos α+y ) d(x, y) für 0 < α < π. b. 0
0
(Hinweis: Transformation x = u , y = uv.) 1 1
c. d(x, y, z) mit + z x2 + y 2 Ω Ω := {(x, y, z) | 0 < x2 + y 2 + z 2 < 1 , 0 < x2 + y 2 < z 2 , z > 0}. (Hinweis: Kugelkoordinaten!) 15.11. Mit Hilfe der Gammafunktion zeige man: √ ∞ √ −x3 xe dx = 3π . a. 0
b. c.
∞ 0 1 0
2
3−4x dx = √ dx − ln x
=
√ π 4 ln 3
.
√ π.
15.12. Man zeige: a. Für s > 0 , a > 0 gilt:
0
b. Für s > 1 gilt:
∞
∞
xs−1 e−ax dx =
1 Γ (s) . as
e−x xs−1 dx = Γ (s)ζ(s) , 1 − e−x 0 wobei ζ(s) die am Schluss von Ergänzung 15.16 definierte Zeta-Funktion bezeichnet. (Hier sollte man sich eventuell mit der Bestätigung der Formel durch formale Rechnung zufrieden geben. Die dabei durchgeführte Vertauschung von Grenzprozessen lässt sich rechtfertigen, indem man die Integrale zunächst über Intervalle der Form [δ, b] erstreckt und dann δ → 0+ , b → ∞ schickt. Das lohnt aber kaum die Mühe, denn mit der Theorie von Lebesgue ist die Rechtfertigung ganz problemlos.)
Literaturverzeichnis
1. T. M. Apostol: Mathematical Analysis – A Modern Approach To Advanced Calculus (Addison–Wesley, Reading, Mass. 1969) 2. V. I. Arnold: Ordinary Differential Equations, 3. Aufl. (Springer, Berlin Heidelberg 1992) 3. A. Beutelspacher: Lineare Algebra, 6. Aufl. (Vieweg, Wiesbaden 2003) 4. F. Brauer, J. A. Nohel: Ordinary Differential Equations. A First Course (Benjamin, New York 1969) 5. M. Braun: Differential Equations with Applications (Springer, New York 1978) 6. I. N. Bronstein: Taschenbuch der Mathematik, 6. Aufl. (Frankfurt a. M. 2005) 7. G. Fischer: Lineare Algebra, 15. Aufl. (Vieweg, Wiesbaden 2005) 8. H. Fischer, H. Kaul: Mathematik für Physiker 1: Grundkurs, 5. Aufl. (Teubner, Stuttgart 2005) 9. O. Forster: Analysis 1, 8. Aufl. (Vieweg, Braunschweig-Wiesbaden 2006) 10. O. Forster: Analysis 2, 6. Aufl. (Vieweg, Braunschweig-Wiesbaden 2005) 11. O. Forster: Analysis 3, 3. Aufl. (Vieweg, Braunschweig-Wiesbaden 1992) 12. P. Furlan: Das gelbe Rechenbuch, (Furlan-Verlag, Dortmund 1995) 13. F. R. Gantmacher: Matrizenrechnung, 2 Bde. (VEB Deutscher Verlag der Wissenschaften, Berlin 1958/59) 14. K.-H. Goldhorn, H.-P. Heinz: Moderne mathematische Methoden der Physik, (Springer, in Vorbereitung) 15. V. Guillemin, A. Pollack: Differential Topology, (Prentice–Hall, Englewood Cliffs, N. J. 1974) 16. P. R. Halmos: Finite Dimensional Vector Spaces, 2. Aufl. (van Nostrand, Princeton, N. J. 1958) 17. G. H. Hardy: The Integration Of Functions Of A Single Variable, 2nd edn. (Cambridge University Press, Cambridge 1958) 18. H. Heuser: Lehrbuch der Analysis – Teil 1, 4. Aufl. (B. G. Teubner, Stuttgart 1986) 19. H. Heuser: Lehrbuch der Analysis – Teil 2, 4. Aufl. (B. G. Teubner, Stuttgart 1988) 20. M. W. Hirsch, S. Smale: Differential Equations, Dynamical Systems And Linear Algebra, (Academic Press, New York 1974) 21. B. Huppert: Angewandte lineare Algebra, (de Gruyter, Berlin 1990) 22. B. Huppert, W. Willems: Lineare Algebra, (Teubner, Wiesbaden 2006)
418
Literaturverzeichnis
23. E. L. Ince: Integration gewöhnlicher Differentialgleichungen, (BI, Mannheim 1965) 24. K. Jänich: Mathematik 1. Geschrieben für Physiker, 2. Aufl. (Springer 2005) 25. K. Jänich: Mathematik 2. Geschrieben für Physiker, (Springer 2002) 26. E. Kamke: Differentialgleichungen: Lösungsmethoden und Lösungen I, (Akadem. Verlagsges., Wiesbaden 1959) 27. H. Kerner, W. v. Wahl: Mathematik für Physiker, (Springer, Berlin 2006) 28. K. Königsberger: Analysis I, 6. Aufl. (Springer, Berlin 2004) 29. K. Königsberger: Analysis II, 5. Aufl. (Springer, Berlin 2004) 30. Ch. B. Lang, N. Pucker: Mathematische Methoden in der Physik, 2. Aufl. (Spektrum Akademischer Verlag, München 2005) 31. C.D. Meyer: Matrix Analysis And Applied Linear Algebra (SIAM, Philadelphia 2000) 32. P. J. Olver: Applications Of Lie Groups To Differential Equations, (Springer, New York 1986) 33. J. F. Ritt: Integration in finite terms, (Columbia Univ. Press, New York 1948) 34. S. Roman: Amer. Math. Monthly 87, 805 (1980) 35. W. Rudin: Analysis (München, Oldenbourgh 1998) 36. G. F. Simmons: Differential Equations With Applications And Historical Notes Differential Equations With Applications And Historical Notes (McGraw–Hill, New York 1972) 37. W. Walter: Analysis I, 5. Aufl. (Springer, Berlin 1999) 38. W. Walter: Analysis II, 2. Aufl. (Springer, Berlin 1990) 39. W. Walter: Gewöhnliche Differentialgleichungen – Eine Einführung, 7. Aufl. (Springer, Berlin 2000)
Sachverzeichnis
Abbildung, 5 stetige 375 Abel’sche Gruppe, 7 abgeschlossen, 351 Ableitung, 42 einer Vektorfunktion 220 höhere 47, 232 linksseitige 43 rechtsseitige 43 totale 228 Abschluss, 224, 350 absolut integrierbar, 397, 402 absolut konvergent, 357, 397 absolut summierbar, 368 Abstandsfunktion, 349 Addition, 14, 115 Additionstheoreme, 19, 23 adjungierte Abbildung, 176 adjungierte Matrix, 115 Adjunkte, 130 Ähnlichkeit (von Matrizen), 171 Ähnlichkeitstransformation, 171 Äquivalenz (von Normen), 354 affine Transformationen, 303 affiner Teilraum, 321 algebraische Gleichung, 17 algebraische Vielfachheit, 175 allgemeine Lösung, 86, 92 eines homogenen Systems von Differenzialgleichungen 201 eines inhomogenen Systems von Differenzialgleichungen 201 alternierende Reihe, 360
Anfangsbedingung, 86, 91, 198 Anfangspunkt (einer Kurve), 221 Anfangswertaufgabe, 86, 198 angeordneter Körper, 9 Arcus-Cosinus, 20 Arcus-Cotangens, 20 Arcus-Sinus, 20 Arcus-Tangens, 20 Area Cosinus hyperbolicus, 24 Area Sinus hyperbolicus, 24 Area Tangens hyperbolicus, 24 Argument, 16 Assoziativgesetz, 7 Aussagen, 3 Ausschöpfung, 367, 402 Banach-Raum, 353 Banach’scher Fixpunktsatz, 380 Basis, 143 Basistransformation, 147 bedingt konvergent, 357 Begleitmatrix, 211 Berührpunkt, 350 Bernoulli’sche Ungleichung, 11 beschränkt, 12, 35, 351, 352 nach oben 35 nach unten 35 Betrag, 10, 15 Betrag der Geschwindigkeit, 222 Betragsmetrik, 350 Bewegung, euklidische, 321 bijektiv, 6 Bild
420
Sachverzeichnis
einer linearen Abbildung 166 einer Menge 5 eines Elements 5 Binomialkoeffizient, 10 binomische Formel, 11 Bogen- bzw. Flächenelement auf der Einheitssphäre, 404 Bogenelement, 223 Bogenlänge, 223 Bogenlänge des Einheitskreises, 404 Cauchy-Folge, 352 Cauchy-Kriterium, 357 Cauchy-Kriterium (für Reihen), 359 Cauchy-Kriterium (für uneigentliche Integrale), 397 charakteristische Funktion, 295 charakteristisches Polynom, 173 Cosinus hyperbolicus, 22 Cotangens hyperbolicus, 23 Cramer’sche Regel, 133 Defekt (einer linearen Abbildung), 166 Definitionsbereich, 5 Determinante, 123 Determinanten-Multiplikationssatz, 129 Diagonalmatrix, 172 Diffeomorphismus, 266 Differenz (von Mengen), 4 Differenzial, 228 Differenzialgleichung, 85 gewöhnliche erster Ordnung 86 lineare 88, 91 vom Euler–Cauchy-Typ 104 Differenzialoperator, 186 Differenzialtopologie, 277 differenzierbar, 42, 220 k-mal 47 partiell 225, 226 total 228 Dimension, 144 unendliche 144 Dimensionsformel, 167 direkte Summe, 154, 159, 187 direkte Zerlegung, 154 disjunkt, 4 divergente Minorante, 361 Divergenz, 257 Divergenzsatz, 332
Dreiecksmatrix, 130 Dreiecksungleichung, 151, 350 Durchmesser (eines mehrdimensionalen Intervalls), 290 Durchschnitt, 4 Eigenvektor, 172 Eigenwert, 172 einfach zusammenhängend, 264 Einheitsmatrix, 115 Einheitswurzeln, n-te, 18 Einschränkung (einer Abbildung), 5 Element (einer Menge), 4 elementare Funktionen, 19, 52 elementare Matrixoperationen, 119 Ellipsoid, 321 endliche geometrische Reihe, 11 Endomorphismus, 166 Endpunkt (einer Kurve), 221 Entwicklung einer Determinante nach Zeilen oder Spalten, 130 erweiterte Matrix, 118 euklidische Metrik, 350 euklidische Norm, 151 euklidischer Raum, 149 euklidisches Skalarprodukt, 152 Euler’sche Gamma-Funktion, 407 Euler’sche Winkel, 184 Euler’sche Zahl, 45 Existenz einer Eins (neutrales Element), 7 Existenz eines inversen Elementes, 7 explizite allgemeine Lösung, 87 Exponentialansatz, 203 Exponentialdarstellung (einer komplexen Zahl), 16 Exponentialfunktion, 20 Extremstelle, 237 Fakultät, 10 Feinheit (einer Zerlegung), 68, 291 Fixpunkt, 380 Fixpunktsätze, 380 Flächenelement skalares 328 vektorielles 328 Flächeninhalt, 328 Flächeninhalt der Einheitssphäre, 404 Flächenintegral, 328, 329
Sachverzeichnis Folge, 35, 351 beschränkte 35, 352 konvergente 36, 352 monotone 35 Folgenkriterium, 39, 376 Formel von de Moivre, 17 Fortsetzung (einer Abbildung), 5 Fourier-Koeffizienten, 153 Fundamentalmatrix, 200 Fundamentalsystem, 91, 200, 211 Funktion, 5 integrierbare 69, 292 stetige 39, 225, 375 (streng) monotone 42 Funktionswert, 5 Gamma-Funktion, 407 ganze Zahlen, 8 Gauss’scher Integralsatz, 332 Gebiet, 224 Geometrische Reihe, 358 geometrische Vielfachheit, 175 geordnetes Paar, 5 gestufte Form einer Matrix 120 eines linearen Gleichungssystems 120 gleichmäßig stetig, 379 gleichmäßige Cauchy-Folge, 383 gleichmäßige Konvergenz, 382 Grad (eines Polynoms), 28 Gradient, 226 Graph, 5 Green’sche Formeln, 335 Green’scher Bereich, 330, 331 Grenzwert, 36, 39, 219, 225, 352, 357 Gruppe, 7 Gruppenaxiome, 7 harmonische Funktion, 257 harmonische Reihe, 358 Häufungspunkt, 351 Hauptachsentransformation, 180 Hermite’sch, 177 Hesse’sche Matrix, 238 Hilbert-Raum, 353 hinreichende Bedingung, 3 homogene lineare Differenzialgleichung, 91
421
homogenes Polynom, 242 Homomorphismus, 165 homotop, 276 Homotopie, 276 imaginäre Achse, 15 imaginäre Einheit, 14 Imaginärteil, 15 implizite allgemeine Lösung, 87 implizite Darstellungen (von Kurven und Flächen), 325 implizite Funktionen, Satz über, 256 implizite reguläre Fläche, 326 implizite reguläre Kurve, 326 Induktionsanfang, 11 Induktionsannahme, 11 Induktionsbehauptung, 11 Infimum, 12 Inhalt, 295 injektiv, 6 innerer Punkt, 350 Inneres (einer Menge), 330, 350 Integrabilitätsbedingungen, 258 Integralsatz von Gauss, 332 Integralsatz von Stokes, 336 integrierbar über S, 295 integrierbare Majorante, 400 Intervall abgeschlossenes 38 kompaktes 38 mehrdimensionales 290 offenes 38 Intervalle, 9 invarianter Unterraum, 178 inverse Abbildung (Umkehrfunktion), 6 inverse Funktionen, Satz über, 254 inverse Matrix, 131, 132 inverses Bild, 5 isolierter Punkt, 351 isomorph, 166 Isomorphismus, 166 Jacobi-Determinante, 227 Jacobi-Identität (für das Vektorprodukt), 164 Jacobi-Matrix, 226 Jordan-Block, 189 Jordan-Inhalt, 295 Jordan-messbar, 294, 402
422
Sachverzeichnis
Jordan-Kurve, 221 kanonische Basis, 145 kartesisches Produkt, 5 Kegel, 319 Kern (einer linearen Abbildung), 166 Kettenregel, 44, 230 Koeffizientenmatrix, 118 Körper, 7 Körper der komplexen Zahlen, 14 Körperaxiome, 7 Kommutativgesetz, 7 kompakt, 305, 356 komplexe Ebene, 15 komplexe Eins, 14 komplexe Null, 14 komplexe Zahlen, 14 Komponenten (bei direkten Zerlegungen), 154 Komposition (von Funktionen), 6 konjugiert komplexe Zahl, 15 konjugierte Matrix, 115 konservativ, 257 kontrahierend, 380 konvergente Majorante, 361 Konvergenz gleichmäßige 382 komponentenweise 355 von Folgen 36, 352 von Reihen 357 konvex, 224 konvexe Hülle, 163 Konvexkombination, 163 Koordinatentransformation, 266 orthogonale 267 kritischer Punkt, 237 Kronecker-Symbol, 115 Kugelschalen, 405 Kurve glatte 221 orientierte 221 reguläre 221 stetige 221 Kurvenintegral, 260 Lösung einer Differenzialgleichung, 86 Laplace-Gleichung, 257 Laplace-Operator, 257 leere Menge, 4
Leibniz-Kriterium, 360 Limes, 36, 39, 219, 225, 352 linksseitiger 40 rechtsseitiger 40 linear abhängig, 91, 117 linear unabhängig, 91, 117 lineare Abbildung, 165 lineare Differenzialgleichung 1. Ordnung 88 2. Ordnung 91 lineare Hülle, 117 linearer Teilraum, 114 lineares Differenzialgleichungssystem 1. Ordnung, 198 lineares Gleichungssystem homogenes 118 inhomogenes 118 Linearkombination, 91, 117 linksstetig, 40 Liouville’sche Formel, 200 Lösung einer Differenzialgleichung, 85 lokales Maximum, 237 lokales Minimum, 237 Majoranten–Minoranten-Kriterium, 398 Majorantenkriterium, 361 Maßstabsfaktor, 267 Matrix m × n- 114 Hermite’sche 177 Hesse’sche 238 Jacobi- 226 quadratische 115 reguläre bzw. singuläre 132 symmetrische 177 Matrixlösung, 198 Maximum, 10, 12 Maximummetrik, 350 Menge, 4 abgeschlossene 351 beschränkte 351 kompakte 356 messbare 294, 402 offene 351 vom Jordan-Maß Null 294 Methode der sukzessiven Approximation, 380 Metrik, 349 euklidische 350
Sachverzeichnis metrischer Raum, 349 Minimum, 10, 12 Mittelwertsatz der Differenzialrechnung 46, 236 der Integralrechnung 70, 296 zweiter 59 monoton wachsend (fallend), 35 monotone Funktion, 42 Multiindex, 234 Multiplikation, 14 nach oben (unten) beschränkt, 12 natürliche Zahlen, 8 natürlicher Logarithmus, 22 negativ definit, 238 negativ semidefinit, 238 negativer Teil (einer Funktion), 402 Norm, 151 euklidische 151 normal, 177 Normalableitung, 335 Normalen-Einheitsvektor, 325 Normalenvektor, 324 Normalgebiet, 302, 329, 331 Normaxiome, 151 normierter linearer Raum, 151 Normmetrik, 350 notwendige Bedingung, 3 Nullfolge, 37 Nullmatrix, 115 Nullmenge, 294 obere (untere) Schranke, 12 Obersumme, 291 offen, 224, 351 Operatornorm, 385 Ordnung einer Differenzialgleichung 85 eines Multiindex 234 Orientierung, 341 orthogonal, 152 orthogonale Gruppe, 181 orthogonale Koordinaten, 267 orthogonales Komplement, 154 Orthogonalisierungsverfahren, 153 Orthogonalsystem, 152 Orthonormalbasis, 152 Orthonormalsystem, 152
Parallelepiped, 305 Parallelogrammgleichung, 162 Parameterdarstellung der Tangentialebene 324 einer Fläche 323, 324 einer Kurve 221 Partialbruchzerlegung, 76 partiell differenzierbar, 225, 226 partielle Ableitung, 225 partielle Integration, 71 Permutation, 126 gerade 127 ungerade 127 Polardarstellung, 16 Polarisationsgleichungen, 162 Polarkoordinatenabbildung, 255 positiv definit, 193, 238 positiv semidefinit, 194, 238 positiver Teil (einer Funktion), 402 Potenzregeln, 13 Prähilbertraum, 149 Prinzip von Cavalieri, 300 Produktintegration, 71 Produktregel, 44 Projektionsoperator, 188 Projektor, 187, 194 punktweise Cauchy-Folge, 383 punktweise konvergent, 381 quadratische Form, 238 Quantoren, 6 quellenfrei, 257 Quotientenkriterium, 362 Quotientenregel, 44 Rand, 224, 294, 350 Randpunkt, 224, 294, 350 Rang einer linearen Abbildung 166 einer Matrix 134 rationale Zahlen, 8 Realteil, 15 rechtsstetig, 40 reelle Achse, 15 reelle Zahlen, 9 reguläre Fläche, 328 reguläre Matrix, 132 Reihe absolut konvergente 357
423
424
Sachverzeichnis
alternierende 360 divergente 357 konvergente 357 (un)bedingt konvergente 357 Richtungsableitung, 250 Riemann-Integral, 292 Riemann-Integral, 69 Riemann-integrierbar, 69, 292 Riemann’sche Zwischensumme, 69, 291 Rotation, 257 rotationssymmetrisch, 404 Sattelpunkt, 237 Satz über implizite Funktionen, 256 Satz über inverse Funktionen, 254 Satz vom Maximum, 378 Satz von Euler, 285 Satz von H. A. Schwarz, 233 Satz von Rolle, 46 Satz von Stokes, 336 Satz von Taylor, 47, 236 Schraubenlinie, 221 Schwarz’sche Ungleichung, 150 selbstadjungiert, 177 Signum, 127 Simplex, 318 Standard- 318 singuläre Matrix, 132 Singularitätentheorie, 237 Sinus hyperbolicus, 22 skalares Flächenelement, 328 skalares Potenzial, 257 skalares Vielfaches eines Vektors, 113 Skalarfeld, 257 Skalarmultiplikation, 113, 115 Skalarprodukt, 149 euklidisches 152 Spaltenvektoren, 114 Spatprodukt, 155 spezielle unitäre Gruppe, 181 Spur, 115 Stammfunktion, 70, 257 Standardbasis, 145 sternförmig, 264 stetig, 39, 40, 220, 225, 375 stetig differenzierbar, 226 stetig differenzierbar, k-mal, 47 Stokes’scher Integralsatz, 336 streng monotone Funktion, 42
Stützstellenmenge, 68, 291 Substitutionsregel, 71 Summe einer unendlichen Reihe von Vektoren 113 Summenmetrik, 350 Superpositionsprinzip, 91 Supremum, 12 surjektiv, 6
357
Tangens hyperbolicus, 23 Tangenteneinheitsvektor, 222, 223 Tangentenvektor, 222, 324 Tangentialraum, 324 Taylor-Formel, 47, 236 Taylor-Polynom, 47 Taylor’scher Rest, 48 Teilfolge, 356 Teilmenge, 4 total differenzierbar, 228 totale Ableitung, 228 totales Differenzial, 228 Transformationsformel, 306 Transformationsmatrizen, 147 transponierte Matrix, 115 Transposition, 126 Tripel, 5 triviale Lösung, 118 Tupel (n-Tupel), 5 Umgebung, 61, 254, 350 unbedingt konvergent, 357 unbestimmtes Integral, 71 uneigentliche Integrale, 395 unendliche Reihe, 357 unitär, 177 unitäre Gruppe, 181 unitärer Raum, 149 Unterraum, 114 von einem Vektorsystem aufgespannter 117 Untersumme, 291 Urbild, 5 Vektorfeld, 257 vektorielles Flächenelement, 328 Vektorpotenzial, 258 Vektorprodukt, 155 Vektorraum, 113
Sachverzeichnis Vektorraum-Endomorphismus, 166 Vektorraum-Homomorphismus, 165 Vektorraum-Isomorphismus, 166 Vektorraumaxiome, 113 Vereinigung, 4 Vielfachheit einer Nullstelle 29, 61 eines Eigenwerts 175 Vierecksungleichung, 371 vollständig, 353 Volumen, 295 eines mehrdimensionalen Intervalls 290 wegunabhängig, 261 Wellengleichung, 251 Wertebereich, 5 Windungszahl, 277 Wirbelfeld, 258 wirbelfrei, 258
Wronski-Determinante, 92, 198 Wurzel, n-te, 13, 18 Wurzelkriterium, 362 Zahlen ganze 8 komplexe 14 natürliche 8 rationale 8 reelle 9 Zahlengerade, 9 Zeilenvektoren, 114 Zerlegung, 68, 291 direkte 154 Zeta-Funktion, 415 zusammenhängend, 224 zweimal differenzierbar, 47 Zwischensumme, 69, 291 Zwischenwertsatz, 41
425