W
Norbert Kusolitsch
Maß- und Wahrscheinlichkeitstheorie Eine Einführung
SpringerWienNewYork
Ao. Univ.-Prof. Norbert Kusolitsch Institut für Statistik und Wahrscheinlichkeitstheorie, Technische Universität Wien, Österreich
Das Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdruckes, der Entnahme von Abbildungen, der Funksendung, der Wiedergabe auf photomechanischem oder ähnlichem Wege und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Buch berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürfen. Produkthaftung: Sämtliche Angaben in diesem Fachbuch/wissenschaftlichen Werk erfolgen trotz sorgfältiger Bearbeitung und Kontrolle ohne Gewähr. Eine Haftung des Autors oder des Verlages aus dem Inhalt dieses Werkes ist ausgeschlossen. © 2011 Springer-Verlag/Wien Printed in Germany SpringerWienNewYork ist ein Unternehmen von Springer Science + Business Media springer.at Satz/Layout: Reproduktionsfertige Vorlage des Autors Druck: Strauss GmbH, 69509 Mörlenbach, Deutschland Gedruckt auf säurefreiem, chlorfrei gebleichtem Papier SPIN 80034812 Mit 20 Abbildungen Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
ISBN 978-3-7091-0684-6 SpringerWienNewYork
Tibor Nemetz zum Gedenken
Vorwort
Dieses Buch ist aus Vorlesungen über „Maß- und Wahrscheinlichkeitstheorie“ entstanden, die ich in den letzten Jahren an der TU Wien für drittsemestrige Studenten mit grundlegenden Kenntnissen aus Analysis im Anschluss an eine elementare Einführung in die Wahrscheinlichkeitsrechnung gehalten habe. Es ist daher empfehlenswert, wenn der Leser ein entsprechendes Wissen mitbringt, aber, um auch für das Selbststudium geeignet zu sein, ist das Buch so konzipiert, dass es für sich alleine gelesen werden kann (die dafür notwendigen Begriffe und Resultate sind im Anhang zusammengestellt). Es sei betont, dass es sich um ein Lehrbuch handelt, das sich an einen Leserkreis wendet, der sich einen ersten Überblick über die wesentlichsten Themen und Problemstellungen der Maß- und Integrationstheorie, sowie der auf maßtheoretischen Konzepten aufbauenden Wahrscheinlichkeitstheorie verschaffen möchte. Keinesfalls ist es für Experten gedacht, die nach einer umfassenden Darstellung mit Verweisen auf die Originalliteratur suchen, oder die sich einen Überblick über die neuesten Entwicklungen verschaffen möchten. Diejenigen Leserinnen und Leser, denen dieses Buch als Einstiegsdroge dient - ich hoffe es gibt welche - und die sich eingehender mit einem oder beiden Fachgebieten auseinandersetzen wollen, finden in der Literaturliste eine Reihe empfehlenswerter Werke. Zur Maß- und Integrationstheorie hervorheben möchte ich das gleichnamige Buch von J. Elstrodt, Neben einer umfangreichen Bibliographie an Originalarbeiten enthält es zahlreiche Bemerkungen über die historischen Entwicklungen und etliche Kurzbiographien von Mathematikern, die bedeutende Beiträge zu diesem Themenkreis geleistet haben. Ein ausgezeichnetes Buch, das beide Gebiete sehr ausführlich und umfassend behandelt, ist P. Billingsley’s „Probability and Measure“, und zur Wahrscheinlichkeitstheorie seien neben den klassichen zwei Bänden von W. Feller vor allem die Bücher von L. Breiman und D. Williams erwähnt. Der Zielsetzung des Buches entsprechend habe ich nicht immer die kürzeste und eleganteste Darstellung gewählt, sondern um des besseren Verständnisses willen mitunter auch Umwege in Kauf genommen oder auf Beweisideen zurückgegriffen, die mir intuitiver schienen. So wird etwa Lebesgues
viii
Vorwort
Satz über die Differenzierbarkeit monotoner Funktionen nicht, wie meist üblich, mit Hilfe von Vitali-Überdeckungen bewiesen, sondern ich habe dazu den geometrisch so anschaulichen Satz von Riesz über die aufgehende Sonne verwendet. Für einen einsemestrigen kombinierten Kurs über Maß- und Wahrscheinlichkeitstheorie ist der Umfang wohl zu groß. Da wird man eine Auswahl treffen müssen, etwa durch Verzicht auf die Abschnitte 6.6 - 6.8, 7.4 , 7.7, 7.8, 8.4, 10.3, 10.4, 13.3, 13.4, 14.3, 15.4, 17.3 - 17.5 sowie das gesamte Kapitel 16. Die Auswahl für einen Semesterkurs, der nur Maß- und Integrationstheorie behandelt, ergibt sich von selbst, und in zwei Semestern sollte es möglich sein den gesamten Stoff durchzuarbeiten. Mein besonderer Dank gilt den Studentinnen und Studenten, die bei der Verfassung des Manuskripts und der Erstellung der Grafiken mitgeholfen haben. Danken möchte ich aber auch jenen die mit Anregungen, Ratschlägen und Berichtigungen zur Verbesserung des Textes und der Beseitigung zahlreicher Fehler beigetragen haben. Für die verbleibenden Fehler und Unklarheiten ist selbstverständlich der Autor verantwortlich. Den Leserinnen und Lesern danke ich im Voraus, wenn sie mich darauf aufmerksam machen oder mir sonstige Verbesserungsvorschläge mailen (an
[email protected]). Und zu guter Letzt danke ich dem Team des Springer-Verlages, Wien, insbesondere Frau Schilgerius und Frau Mag. Martiska für die wohlwollende Unterstützung und kompetente technische Hilfe, mit der sie zur Verwirklichung und Fertigstellung des Buches beigetragen haben.
Wien, Oktober 2010
Norbert Kusolitsch
Inhaltsverzeichnis
1
Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 Ein Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 1
2
Mengen und Mengensysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Elementare Mengenlehre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Algebren und σ-Algebren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Semiringe, Ringe und σ-Ringe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Erzeugte Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Monotone Systeme und Dynkin-Systeme . . . . . . . . . . . . . . . . . . . .
5 5 10 13 19 22
3
Mengenfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Inhalte und Maße auf Semiringen . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Die Fortsetzung von Inhalten und Maßen auf Ringe . . . . . . . . . . 3.3 Eigenschaften von Inhalten und Maßen . . . . . . . . . . . . . . . . . . . . . 3.4 Additionstheorem und verwandte Sätze . . . . . . . . . . . . . . . . . . . .
27 27 30 32 35
4
Fortsetzung von Maßen auf σ–Algebren . . . . . . . . . . . . . . . . . . . . . . . 4.1 Äußere Maße und Carathéodory-Messbarkeit . . . . . . . . . . . . . . . 4.2 Fortsetzungs- und Eindeutigkeitssatz . . . . . . . . . . . . . . . . . . . . . . . 4.3 Vervollständigung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41 41 43 46
5
Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 5.1 Die durch ein Ereignis bedingte Wahrscheinlichkeit . . . . . . . . . . 51 5.2 Unabhängigkeit von Ereignissystemen . . . . . . . . . . . . . . . . . . . . . . 53
6
Lebesgue-Stieltjes-Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Definition und Regularität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Verteilungsfunktionen auf R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Das Lebesgue-Maß auf R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4 Diskrete und stetige Verteilungsfunktionen . . . . . . . . . . . . . . . . . . 6.5 Wahrscheinlichkeitsverteilungen auf R . . . . . . . . . . . . . . . . . . . . .
57 57 59 61 63 66
x
Inhaltsverzeichnis
6.6 Verteilungsfunktionen auf Rk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 6.7 Wahrscheinlichkeitsverteilungen auf (Rk , Bk ) . . . . . . . . . . . . . . . 76 6.8 Das k-dimensionale Lebesgue-Maß . . . . . . . . . . . . . . . . . . . . . . . . . 81 7
Messbare Funktionen - Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . 87 7.1 Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 7.2 Erweitert reellwertige Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . 90 7.3 Treppenfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 7.4 Baire-Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 7.5 Subsigmaalgebren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 7.6 Unabhängige Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 7.7 Verallgemeinertes Null-Eins-Gesetz von Kolmogoroff . . . . . . . . . 101 7.8 Cantor-Menge und nichtmessbare Mengen . . . . . . . . . . . . . . . . . . 103 7.9 Konvergenzarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
8
Die Verteilung einer Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . 113 8.1 Das induzierte Maß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 8.2 Gemeinsame Verteilung und Randverteilungen . . . . . . . . . . . . . . 114 8.3 Die inverse Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 8.4 Maßtreue Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
9
Das Integral - Der Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 9.1 Definition des Integrals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 9.2 Konvergenzsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 9.3 Das unbestimmte Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 9.4 Zusammenhang zwischen Riemann- und Lebesgues-Integral . . . 145 9.5 Das Integral transformierter Funktionen . . . . . . . . . . . . . . . . . . . . 149
10 Produkträume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 10.1 Die Produktsigmaalgebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 10.2 Der Satz von Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 10.3 Maße auf unendlich-dimensionalen Produkträumen . . . . . . . . . 176 10.4 Null-Eins-Gesetz von Hewitt- Savage . . . . . . . . . . . . . . . . . . . . . . . 182 10.5 Stetige Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 10.6 Die Faltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 11 Zerlegung und Integraldarstellung signierter Maße . . . . . . . . . . . . 195 11.1 Die Hahn-Jordan-Zerlegung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 11.2 Die Lebesgue-Zerlegung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 11.3 Der Satz von Radon-Nikodym . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 12 Integral und Ableitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 12.1 Funktionen von beschränkter Variation . . . . . . . . . . . . . . . . . . . . . 203 12.2 Absolut stetige Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 12.3 Der Hauptsatz der Differential- und Integralrechnung . . . . . . . . 210
Inhaltsverzeichnis
xi
13 Lp - Räume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 13.1 Integralungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 13.2 Vollständigkeit der Lp -Räume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 13.3 Gleichmäßige Integrierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 13.4 Der Dualraum zu Lp (Ω, S, μ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 14
Bedingte Erwartungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 14.1 Der Satz von der vollständigen Erwartung . . . . . . . . . . . . . . . . . . 231 14.2 Die durch eine σ-Algebra bedingte Erwartung . . . . . . . . . . . . . . . 234 14.3 Reguläre, bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . 242
15 Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 15.1 Die Varianz und andere Momente . . . . . . . . . . . . . . . . . . . . . . . . . 249 15.2 Schwache Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . 254 15.3 Starke Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . 256 15.4 Ergodensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264 16
Martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271 16.1 Definition und grundlegende Eigenschaften . . . . . . . . . . . . . . . . . 271 16.2 Transformation von Submartingalen . . . . . . . . . . . . . . . . . . . . . . 277 16.3 Konvergenzsätze für Submartingale . . . . . . . . . . . . . . . . . . . . . . . 282
17
Verteilungskonvergenz und Grenzwertsätze . . . . . . . . . . . . . . . . . . 289 17.1 Schwache Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289 17.2 Der klassische zentrale Grenzverteilungssatz . . . . . . . . . . . . . . . 293 17.3 Schwache Kompaktheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296 17.4 Charakteristische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 17.5 Der Grenzverteilungssatz von Lindeberg-Feller . . . . . . . . . . . . . . . 309
A
Anhang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 A.1 Das Diagonalisierungsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 A.2 Das Auswahlaxiom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318 A.3 Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318 A.4 Topologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323 A.5 Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328 A.6 Konvexe Mengen und Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . 329 A.7 Eindeutigkeit der Exponentialfunktion . . . . . . . . . . . . . . . . . . . . . . 333 A.8 Trigonometrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334 A.9 Komplexe Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336 A.10 Funktionalanalysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339 A.11 Drehung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343 Stichwortverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
1 Einführung
1.1 Ein Beispiel Wirft man einen Würfel bis zur ersten Sechs, so kann man die Wahrscheinlichkeit, dass dies gerade beim n-ten Wurf passiert, berechnen, indem man die Menge Ωn := {1, . . . , 6}n aller n-Tupel betrachtet, die man mit den Augenzahlen 1, . . . , 6 bilden kann. Ωn besteht aus |Ωn | = 6n Elementen und bei einem fairen Würfel sollte jedes n-Tupel gleich wahrscheinlich sein. Die erste Sechs erscheint gerade dann beim n-ten Wurf, wenn das n-Tupel der Wurfergebnisse in An := {(x1 , . . . , xn−1 , 6) : xi ∈ {1, . . . , 5} ∀i = 1, . . . , n − 1} liegt. Wegen |An | = 5n−1 folgt dann aus der klassischen Wahrscheinlichkeitsdefinition günstige Fälle 5n−1 P (An ) = = n . mögliche Fälle 6 Um die Wahrscheinlichkeiten der einzelnen Ausgänge zu bestimmen, haben wir für jedes n einen anderen Wahrscheinlichkeitsraum Ωn verwendet. Man kann dies nur umgehen, wenn man als Raum der Versuchsausgänge die Menge Ω := {(x1 , x2 , . . . ) : xi ∈ {1, . . . , 6} ∀ i ∈ N} aller Folgen, die mit den Zahlen 1, . . . , 6 gebildet werden können, betrachtet. Ersetzt man in diesen Folgen jede Sechs durch eine Null, so kann man die ∞ entsprechende Folge (x1 , x2 , . . . ) interpretieren als Zahl x := xi 6−i , ani=1 n
geschrieben im 6-adischen Zahlensystem. Bei Zahlen der Form xn = 0 , die auch periodisch als
n−1 i=1
xi 6−i + (xn − 1) −n + 5
i=1 ∞
xi 6−i mit 6−i ange-
i=n+1
schrieben werden können, wollen wir immer die endliche Form verwenden. Dadurch entspricht jeder Zahl aus [0, 1) eine eindeutige Folge. Wir werden etwas später sehen, dass es praktisch keine Rolle spielt, wenn wir damit den Folgen (x1 , . . . , xn , 5, 5, . . . ), xn < 5 keine Zahl zuordnen kön-
2
1 Einführung
nen. Aber auf Grund der obigen Ausführungen ist klar, dass unser Raum Ω überabzählbar sein muss. Wir haben angenommen, dass jedes konkrete n-Tupel (x1 , . . . , xn ) ∈ Ωn mit der gleichen Wahrscheinlichkeit P ((x1 , . . . , xn )) := 6−n auftreten kann. Die Menge aller Folgen, deren erste n Würfe durch das n-Tupel (x1 , . . . , xn ) festgelegt sind, bezeichnen wir mit A(x1 , . . . , xn ) , d.h. A(x1 , . . . , xn ) := {(x1 , . . . , xn , xn+1 , . . . ) : xn+i ∈ {0, . . . , 5} Der Folge (x1 , . . . , xn , 0, . . . ) entspricht die Zahl x :=
n
∀ i ∈ N} .
xi · 6−i und der Folge
i=1
(x1 , . . . , xn , 5, . . . ) ist die Zahl x + 6−n zugeordnet. Da wir keine periodischen Darstellungen der Form (x1 , . . . , xn , 5, . . . ) zulassen, entsprechen den Folgen aus A(x1 , . . . , xn ) die Zahlen aus dem Intervall [x, x + 6−n ) , und die Länge dieses Intervalls ist gerade die Wahrscheinlichkeit von A(x1 , . . . , xn ) , d.h. P (A(x1 , . . . , xn )) = 61n . Von einem sinnvollen Wahrscheinlichkeitsbegriff wird man verlangen, dass keine Untermenge wahrscheinlicher als eine sie enthaltende Obermenge sein sollte. Man nennt das die Monotonie der Wahrscheinlichkeit. Da für jede Folge (x1 , x2 , . . . ) gilt (x1 , x2 , . . . ) ∈ A(x1 , . . . , xn ) ∀ n ∈ N , muss daraus folgen P ({(x1 , x2 , . . . )}) ≤ 61n ∀ n ∈ N , d.h. jede Folge hat Wahrscheinlichkeit P ((x1 , x2 , . . . )) = 0 . Damit ist klar, dass die Wahrscheinlichkeitsverteilung P nicht durch die Wahrscheinlichkeiten der einzelnen Punkte von Ω festgelegt werden kann. Außerdem kann man überabzählbar viele Terme nicht aufsummieren, d.h. eine Summe der Form P ((x1 , x2 . . .)) ergibt keinen Sinn. (x1 ,x2 ,...)∈ A(x1 ,x2 ,...,xn )
Die Menge der Folgen (x1 , . . . , xn , 5, 5, . . . ), xn < 5, n ∈ N ist abzählbar. Daher kann man die Summe der Wahrscheinlichkeiten der einzelnen Punkte dieser Menge bilden und erhält Wahrscheinlichkeit 0 , was durchaus unserer Intuition entspricht, denn man wird es für ausgeschlossen halten, dass bei einem fairen Würfel ab einem bestimmten Zeitpunkt nur mehr Sechsen geworfen werden. Somit ist es praktisch irrelevant sich mit dieser Menge zu beschäftigen. ∞ Ist nun [a, b) ein beliebiges Teilintervall von [0, 1) mit a = ai 6−i und b=
∞
i=1 −i
bi 6
, und bezeichnet man die auf n Stellen abgerundeten Werte von
i=1
a und b mit a ˆn bzw. ˆbn (d.h. a ˆn =
n i=1
ai 6−i bzw. ˆbn =
n
bi 6−i ), so bilden die
i=1
ˆn +6−n ), [ˆ an +6−n , a ˆn +2·6−n ), . . . , [ˆbn , ˆbn +6−n ) eine disjunkte Intervalle [ˆ an , a Überdeckung von [a, b) , deren Wahrscheinlichkeit der Summe ˆbn + 6−n − a ˆn der Längen der Teilintervalle entspricht. Ohne die beiden Randintervalle [ˆ an , a ˆn + 6−n ) , [ˆbn , ˆbn + 6−n ) reduziert sich die Gesamtlänge der Vereinigung an −6−n und diese Vereinigung liegt nun der verbleibenden Intervalle auf ˆbn −ˆ zur Gänze in [a, b) . Wegen der Monotonie der Wahrscheinlichkeitsverteilung
1.1 Ein Beispiel
3
sollte daher gelten ˆbn − a ˆn − 6−n ≤ P ([a, b)) ≤ ˆbn − a ˆn + 6−n . Daraus folgt −n ˆ ˆn = a, lim bn = b und lim 6 = 0 wegen lim a n→∞
n→∞
n→∞
P ([a, b)) = b − a . Diese Verteilung, die jedem Teilintervall [a, b) ⊆ [0, 1), a ≤ b seine Länge b − a als Wahrscheinlichkeit zuordnet, wird stetige Gleichverteilung auf [0, 1) genannt. Der Name rührt daher, dass jedes Teilintervall mit einer gegebenen Länge dieselbe Wahrscheinlichkeit besitzt, unabhängig von seiner Lage in [0, 1) . Man sagt auch, die stetige Gleichverteilung ist translationsinvariant. Wir zeigen nun, dass es unmöglich ist, durch P jeder Teilmenge von [0, 1) eine Wahrscheinlichkeit zuzuordnen, wenn man fordert, dass man die Wahrscheinlichkeiten abzählbar vieler disjunkter Mengen aufsummieren darf, und, wenn man die Forderung der Translationsinvarianz aufrecht erhalten möchte. Mit den Bezeichnungen x := max{z ∈ Z : z ≤ x}, x mod 1 := x − x ist x ∼ y ⇔ (x − y) mod 1 ∈ Q ∩ [0, 1) eine Äquivalenzrelation. und bestimmt daher eine Klassenzerlegung von [0, 1) . Man nimmt nun aus jeder Klasse genau ein Element und bildet damit eine Menge A (das Auswahlaxiom A.2 besagt, dass dies möglich ist). Somit gilt x = y , x, y ∈ A ⇒ (x − y) mod 1 ∈ / Q. Ist A + x := {y = (a + x) mod 1 : a ∈ A} , dann bilden die {A + q : q ∈ Q} eine disjunkte Zerlegung von [0, 1) , denn für q1 = q2 , qi ∈ Q gilt klarerweise A + q1 ∩ A + q2 = ∅ , und für jedes x ∈ [0, 1) gibt es ein y ∈ A , sodass A+q . x ∼ y ⇒ ∃ q : x−y mod 1 = q ∈ Q ⇒ x ∈ A+q. Also [0, 1) = q∈Q ∩[0,1)
Die Translationsinvarianz bedeutet P (A + q) = P (A) ∀ q ∈ Q . Darf man nun die Wahrscheinlichkeiten der A + q aufsummieren, so gilt 0 , wenn P (A) = 0 P ([0, 1)) = ∞ , wenn P (A) > 0 . Das widerspricht P ([0, 1)) = 1 , womit unsere Behauptung bewiesen ist. Wir müssen also für die stetige Gleichverteilung einen kleineren Definitionsbereich als die Potenzmenge von [0, 1) suchen.
2 Mengen und Mengensysteme
2.1 Elementare Mengenlehre Mit P(Ω) := {A : A ⊆ Ω} bezeichnen wir die Potenzmenge von Ω = ∅ . Die mengentheoretischen Operationen werden als bekannt vorausgesetzt. A∪B A∩B A \ B := A ∩ B c A B := (A \ B) ∪ (B \ A)
die Vereinigung vonA und B der Durchschnitt vonA und B die Differenz vonA und B die symmetrische Differenz vonA und B .
Definition 2.1. Ist f : Ω1 → Ω2 eine beliebige Abbildung und A ⊆ Ω1 , so nennt man die Abbildung f |A : A → Ω2 , definiert durch f |A (ω) := f (ω) ∀ ω ∈ A die Einschränkung oder Restriktion von f auf A . Definition 2.2. Ist f : Ω1 → Ω2 eine beliebige Abbildung, so nennt man f −1 (A) := {ω ∈ Ω1 : f (ω) ∈ A} das Urbild von A ⊆ Ω2 . In der Wahrscheinlichkeitstheorie ist auch die Schreibweise [f ∈ A]für das Urbild gebräuchlich. Für ∅ = C ⊆ P(Ω2 ) bezeichnet f −1 (C) := f −1 (C) : C ∈ C das System der Urbilder von C . Lemma 2.3 (Operationstreue des Urbilds). Ist f : Ω1 → Ω2 eine beliebige Abbildung, so gilt 1. f −1 (∅) = ∅, 2. f −1 (Ω2 ) = Ω1 , c −1 c 3. f −1 (A ) =f (A) , Ai = (f −1 (Ai )), 4. f −1 i i −1 −1 5. f Ai = (f (Ai )) . i
i
Beweis. Die obigen Aussagen folgen unmittelbar aus Definition 2.2.
6
2 Mengen und Mengensysteme
Definition 2.4. Ist (Ωi )i∈I eine Familie von Mengen mit einer beliebigen Indexmenge I , so nennt man
Ωi := {ω : I → Ωi : ω(i) ∈ Ωi ∀ i ∈ I} i
i∈I
I das kartesische Produkt der Ωi . Gilt Ωi = Ω ∀ i ∈ I , schreibt man dafür Ω . Ist J ⊆ I und bezeichnet man die Elemente von ΩJ := Ωj mit ωJ , so j∈J
wird durch prI,J (ω) := ωJ : ωJ (j) = ω(j) ∀ j ∈ J eine surjektive Funktion prI,J : ΩI := Ωi → ΩJ definiert, die man Projektion von ΩI auf ΩJ nennt. i∈I
Statt prI,J schreibt man auch prJ bzw. prj , wenn J = {j} , wenn I gegeben ist. Bemerkung 2.5.
Ωi der Raum der n-Tupel (ω1 , . . . , ωn ) , d. h. es gilt 1. Für |I| = n ist i∈I Ωi = {(ω1 , . . . , ωn ) : ωi ∈ Ωi ∀ i} . i∈I Ωi = {(ω1 , ω2 , . . .) : ωi ∈ Ωi n∀ i} als 2. Bei abzählbarem I kann i∈I
Folgenraum angeschrieben werden. Ωi . 3. Ist A ⊆ ΩJ , J ⊂ I , so gilt klarerweise pr−1 J (A) = A × i∈J c
Lemma 2.6. Sind A, B und C beliebige Teilmengen einer Menge Ω , so gilt: 1. A ∩ B = B ∩ A , 2. A ∩ (B ∩ C) = (A ∩ B) ∩ C , 3. A B = B A , 4. A B = Ac B c , 5. A ∅ = A , 6. A A = ∅ , 7. A B = (A ∪ B) \ (A ∩ B) , 8. (A B)c = (A ∩ B) ∪ (Ac ∩ B c ) , 9. A (B C) = (A B) C , 10. A ∩ (B C) = (A ∩ B) (A ∩ C) , 11. A C ⊆ (A B) ∪ (B C) , 12. (A ∩ B) (C ∩ D) ⊆ (A C) ∪ (B D) . Beweis. ad 1. -6. Diese Punkte sind trivial. ad 7. A B = (A∩ B c ) ∪ (B ∩ Ac ) = (A∪ B) ∩ (B ∪ B c ) ∩ (A ∪ Ac ) ∩ (Ac ∪ B c ) = (A ∪ B) ∩ (Ac ∪ B c ) = (A ∪ B) ∩ (A ∩ B)c = (A ∪ B) \ (A ∩ B) . ad 8. Aus Punkt 7. folgt (A B)c = (A∪B)c ∪(A∩B) = (Ac ∩B c )∪(A∩B) . ad 9. (B C)\A = Ac ∩[(B ∩C c )∪(B c ∩C)] = (Ac ∩B ∩C c )∪(Ac ∩B c ∩C) . Aus Punkt 8. folgt A \ (B C) = A ∩ [(B ∩ C) ∪ (Ac ∩ B c )] = (A ∩ B ∩ C) ∪ (A ∩ B c ∩ C c ) .
2.1 Elementare Mengenlehre
7
Die beiden obigen Gleichungen zusammen ergeben A (B C) = (A ∩ B ∩ C) ∪ (A ∩ B c ∩ C c ) ∪ (Ac ∩ B ∩ C c ) ∪ (Ac ∩ B c ∩ C). Da die rechte Seite dieser Gleichung symmetrisch in A, B und C ist, muss gelten A (B C) = (A B) C . ad 10. Durch Umformen erhält man (A ∩ B) (A ∩ C) = [(A ∩ B) ∩ (A ∩ C)c ] ∪ [(A ∩ B)c ∩ (A ∩ C)] = [(A ∩ B) ∩ (Ac ∪ C c )] ∪ [(Ac ∪ B c ) ∩ (A ∩ C)] = (A ∩ B ∩ C c ) ∪ (A ∩ B c ∩ C) = A ∩ [(B ∩ C c ) ∪ (B c ∩ C)] = A ∩ (B C) . ad 11. Auch dies ergibt sich durch einfache Umformung A C = (A ∩ C c ) ∪ (Ac ∩ C) = (A ∩ B ∩ C c ) ∪ (A ∩ B c ∩ C c ) ∪ (Ac ∩ B ∩ C) ∪ (Ac ∩ B c ∩ C) ⊆ (B ∩ C c ) ∪ (A ∩ B c ) ∪ (Ac ∩ B) ∪ (B c ∩ C) = (A B) ∪ (B C) . ad 12. (A ∩ B) \ (C ∩ D) = (A ∩ B) ∩ (C c ∪ D c ) = (A ∩ B ∩ C c ) ∪ (A ∩ B ∩ D c ) ⊆ (A ∩ C c ) ∪ (B ∩ Dc ) ⊆ (A C) ∪ (B D) . Aus Symmetriegründen gilt auch (C ∩ D) \ (A ∩ B) ⊆ (A C) ∪ (B D) . Lemma 2.7.
⎛
⎝
Ai
i∈I
⎞ Bj ⎠ ⊆
j∈I
(Ai Bi ) .
(2.1)
i∈I
Beweis. ⎞c ⎛ ⎞
⎛ ⎝Ai ∩ Ai ∩ ⎝ Bj ⎠ = Bjc ⎠ ⊆ (Ai ∩ Bic ) ⊆ (Ai Bi ). i
j
i
Analog zeigt man
Bj
j
j
∩
i
c Ai
i
⊆
i
(Ai Bi ) .
i
Lemma 2.8. Sind I1 , . . . , In endliche Indexmengen, so gilt für beliebige Mengen Ai,j i = 1, . . . , n, j ∈ Ii : n
Ai,j =
i=1 j∈Ii
und
n i=1 j∈Ii
(j1 ,...,jn )∈
Ai,j =
n n
Ii
(2.2)
Ai,ji
(2.3)
i=1
(j1 ,...,jn )∈
Ai,ji
i=1
n n i=1
Ii
i=1
8
2 Mengen und Mengensysteme
Beweis. Es genügt (2.2) zu beweisen. (2.3) folgt dann wegen der Regeln von de Morgan. ω∈
n
Ai,j
⇔
∀ i ∈ {1, . . . , n}
∃ ji ∈ Ii :
ω ∈ Ai,ji
i=1 j∈Ii
⇔ ∃ (j1 , . . . , jn ) ∈
n
Ii :
ω∈
i=1
n
Ai,ji
⇔
ω∈
i=1
(j1 ,...,jn )∈
n n
Ii
Ai,ji .
i=1
i=1
Bemerkung 2.9. Die Floskel „im Zeichen“ wird meist durch i.Z. abgekürzt. Definition 2.10. Unter dem limes superior einer Mengenfolge (An ) versteht man Ak , und als limes inferior der Foldie Menge limAn := lim sup An := n∈N k≥n ge bezeichnet man die Menge limAn := lim inf An := Ak . Wenn gilt n∈N k≥n
limAn = limAn , so nennt man A := lim An := limAn = limAn den Grenzwert n
der Folge, und sagt An konvergiert gegen A (i.Z. An → A). Lemma 2.11. Ist (An ) eine Mengenfolge, so gilt: 1. lim sup An = A := {ω : ω liegt in unendlich vielen An } 2. lim inf An = A := {ω : ω liegt in fast allen An } . Beweis. Für ω ∈ A existiert eine Teilfolge (ki ), sodass: ω∈ Aki ∀ i ∈ N. Ak . Somit gilt Daher gibt es für ∀ n ∈ N ein ki ≥ n : ω ∈ Aki ⊆ k≥n ω∈ Ak , d.h. A ⊆ lim sup An . n∈N k≥n
Gilt umgekehrt ω ∈ lim sup An , so konstruiert man eine Teilfolge (kn ), mit ω ∈ Akn ∀ n ∈ N folgendermaßen: k1 := min{k ≥ 1 : ω ∈ Ak } k2 := min{k ≥ k1 + 1 : ω ∈ Ak } .. . kn := min{k ≥ kn−1 + 1 : ω ∈ Ak } .. . Daher gilt auch lim sup An ⊆ A , und damit ist Punkt 1. des Lemmas gezeigt. Aus Punkt 1. folgt mit Hilfe der de Morgan’schen Regeln ⎛ ⎞c Ak ⎠ = Ack (lim inf An )c = ⎝ n∈N k≥n
= {ω :
n∈N k≥n
ω in unendlich vielen Acn } = {ω :
Somit gilt (lim inf An )c = Ac
⇒
ω in fast allen An }c .
lim inf An = A .
2.1 Elementare Mengenlehre
9
Lemma 2.12. Für jede Mengenfolge (An ) gilt lim inf An ⊆ lim sup An . Beweis. Obwohl das Lemma unmittelbar aus dem vorigen Lemma folgt, wollen wir einen Beweis auf Lemma 2.11 stützt. geben, der sich nicht Ak ⊆ Ak ⊆ Ak . Ist hingegen m < n , so führt Für m ≥ n gilt k≥n k≥m k≥m dies zu Ak ⊆ Ak ⊆ Ak . Somit gilt Ak ⊆ Ak ∀ m ∈ N . k≥n k≥n k≥m k≥n k≥m Ak ⊆ Ak , ∀ n ∈ N ⇒ Ak ⊆ Ak . Daraus folgt k≥n
m∈N k≥m
n∈N k≥n
m∈N k≥m
Definition 2.13. 1. Eine Funktion f : A → R mit A ⊆ R ist monoton steigend oder wachsend , wenn x < y ⇒ f (x) ≤ f (y) ∀ x, y ∈ A (i.Z. fn ). Die Funktion f : A → R ist strikt (streng) monoton steigend, wenn x < y ⇒ f (x) < f (y), ∀ x, y ∈ A. 2. Eine Funktion f : A → R mit A ⊆ R ist monoton fallend, wenn gilt x < y ⇒ f (x) ≥ f (y) ∀ x, y ∈ A (i.Z. fn ). Die Funktion f : A → R ist strikt (streng) monoton fallend, wenn x < y ⇒ f (x) > f (y) ∀ x, y ∈ A. 3. Eine reelle Zahlenfolge (xn ) wird monoton steigend genannt, wenn n < m ⇒ xn ≤ xm ∀ n, m ∈ N (i.Z. xn ). Die Folge ist strikt monoton steigend, wenn n < m ⇒ xn < xm ∀ n, m ∈ N. 4. Eine reelle Zahlenfolge (xn ) wird monoton fallend genannt, wenn n < m ⇒ xn ≥ xm ∀ n, m ∈ N (i.Z. xn ). Die Folge ist strikt monoton fallend, wenn n < m ⇒ xn > xm ∀ n, m ∈ N. 5. Eine Mengenfolge (An ) ist monoton steigend, wenn n < m ⇒ An ⊆ Am ∀ n, m ∈ N (i.Z. An ). Die Folge ist strikt monoton steigend, wenn: n < m ⇒ An ⊂ Am ∀ n, m ∈ N. 6. Eine Mengenfolge (An ) ist monoton fallend, wenn n < m ⇒ An ⊇ Am ∀ n, m ∈ N (i.Z. xn ). Die Folge ist strikt monoton fallend, wenn n < m ⇒ An ⊃ Am ∀ n, m ∈ N. Definition 2.14. Die Funktion sgn : R → {−1, 0, 1} definiert durch ⎧ ⎪ ⎨−1, x < 0 sgn(x) := 0, x = 0 ⎪ ⎩ 1, x > 0 wird Signum-Funktion oder Vorzeichenfunktion genannt. Definition 2.15. Der Indikator einer Menge A ⊆ Ω ist die Funktion 1, ω∈A 1A (ω) := 0 , ω ∈ Ac .
10
2 Mengen und Mengensysteme
Definition 2.16. δi,j :=
1, 0,
i=j sonst
wird Kronecker-Symbol genannt. Lemma 2.17. Ist (An ) eine endliche oder abzählbare n−1 Mengenfolge aus Ω und Ai A0 := ∅ , so gilt für die Mengen Bn := An \ ∀n∈N: 1.
n
2. 3.
An =
i=0
Bn ,
n
m = n ⇒ Bn ∩ Bm = ∅ , Bn ⊆ An ∀ n .
Beweis. Die Aussagen 2. und 3. folgen sofort aus der Definition der Bn , und 3. impliziert klarerweise Bn ⊆ An . n n Andererseits kommt jedes ω ∈ An in mindestens einer Menge An vor. n∈N
/ Ai , ∀ i < n0 ⇒ ω ∈ Bn0 . Mit n0 := min{n : ω ∈An } gilt ω ∈ An0 ∧ ω ∈ Daher gilt auch An ⊆ B n . n
n
Bemerkung 2.18. Für (An ) gilt: Bn = An \ An−1 . Lemma 2.19. Monoton steigende Mengenfolgen (An ) konvergieren gegen während monoton fallende Folgen gegen ihren Durchschnitt An gehen.
A k = An ⇒ Beweis. (An ) ⇒ k≥n Weiters gilt Ak = Ak ∀ n ∈ N ⇒ k≥1
k≥n
An ,
n
n
Ak = An . n∈N k≥n n∈N Ak = Ak . n∈N k≥n
k≥1
Die 2-te Aussage folgt aus der ersten, angewendet auf (Acn ) und den de Morgan’schen Regeln.
2.2 Algebren und σ-Algebren Wie schon früher erwähnt, kann man die Gleichverteilung nicht auf P([0, 1)) definieren. Man braucht also einen kleineren Definitionsbereich Aσ , der gewisse Bedingungen erfüllen sollte: 1. Da man Ω die Wahrscheinlichkeit 1 zuordnet, sollte gelten Ω ∈ Aσ . 2. Mit A ∈ Aσ und P (A) = p ∈ [0, 1] , wird man Ac die Wahrscheinlichkeit 1 − p zuordnen. Somit: A ∈ Aσ ⇒ Ac ∈ Aσ . 3. Da man einer abzählbaren Vereinigung disjunkter Mengen die Summe der Wahrscheinlichkeiten der einzelnen Mengen zuordnet, sollte gelten: An ∈ Aσ ∀ n ∈ N ⇒ An ∈ Aσ Ai ∩ Aj = ∅ ∀ i = j n∈N
2.2 Algebren und σ-Algebren
11
4. Sind A, B Mengen, die mit gewissen Wahrscheinlichkeiten auftreten können, so wird man auch A ∩ B eine Wahrscheinlichkeit zuordnen wollen, also A, B ∈ Aσ ⇒ A ∩ B ∈ Aσ . Definition 2.20. Ein Mengensystem C , das mit je zwei Mengen A , B auch deren Durchschnitt A ∩ B enthält, wird als durchschnittsstabil bezeichnet. Definition 2.21. Ist Ω eine Menge, so nennt man ein System Aσ ⊆ P(Ω) eine σ-Algebra (auf Ω), wenn gilt: 1. Ω ∈ Aσ 2. A ∈ Aσ ⇒ Ac ∈ Aσ 3. An ∈ Aσ ∀ n ∈ N, Ai ∩ Aj = ∅
∀ i = j ⇒
An ∈ Aσ
n∈N
4. A, B ∈ Aσ ⇒ A ∩ B ∈ Aσ
Schwächt man Bedingung 3. ab auf endliche Vereinigungen, so spricht man von einer Algebra. Definition 2.22. A ⊆ P(Ω) heißt Algebra, wenn 1. Ω ∈ A 2. A ∈ A ⇒ Ac ∈ A 3. A1 , . . . , An ∈ A, Ai ∩ Aj = ∅ 4. A, B ∈ A ⇒ A ∩ B ∈ A
∀ i = j ⇒
n
Ai ∈ A
i=1
Äquivalent zu obiger Definition sind die Bedingungen des nächsten Lemmas. Lemma 2.23. A = ∅ ist eine Algebra genau dann, wenn 1. A ∈ A ⇒ Ac ∈ A 2. A, B ∈ A ⇒ A ∪ B ∈ A . Beweis. Aus den Eigenschaften 2. und 4. der Algebra folgt: A, B ∈ A ⇒ Ac , B c ∈ A ⇒ Ac ∩ B c ∈ A ⇒ (Ac ∩ B c )c = A ∪ B ∈ A Somit folgen aus der Definition die Aussagen des Lemmas. Gelten umgekehrt die Bedingungen des Lemmas, so enthält A = ∅ eine Menge A und daher auch das Komplement Ac . Daraus folgt A ∪ Ac = Ω ∈ A . Mit A, B ∈ A gilt Ac ∪ B c ∈ A ⇒ (Ac ∪ B c )c = A ∩ B ∈ A . aus A , so folgt durch vollständige Induktion, dass gilt Sind A1 , .. . An Mengen n n−1 Ai = Ai ∪ An ∈ A . i=1
i=1
Lemma 2.24. Ist A eine Algebra, so gilt A, B ∈ A ⇒ A \ B = A ∩ B c ∈ A . Beweis. trivial Damit lässt sich auch leicht das folgende Lemma zeigen.
12
2 Mengen und Mengensysteme
Lemma 2.25. Aσ = ∅ ist eine σ- Algebra genau dann, wenn 1. A ∈ Aσ ⇒ Ac ∈ Aσ 2. (An ) ∈ Aσ ∀ n ∈ N ⇒
n∈ N
An ∈ Aσ .
Beweis. Aus den Bedingungen 1., 2. und Lemma 2.23 folgt, dass Aσ eine Algebra ist, die außerdem die abzählbaren Vereinigungen beinhaltet. daher ist Aσ eine σ-Algebra nach Definition 2.21. Ist umgekehrt Aσ eine σ-Algebra und (An ) eine Folge aus Aσ , so ist die Vereinigung An wegen Lemma 2.17 als disjunkte Vereinigung von Mengen n∈N n−1 Ai , ( A0 := ∅ ) darstellbar und die Bn liegen alle in Aσ . Bn = An \ i=1
Damit folgt die obige Bedingung 2. aus Punkt 3. der Definition der σ-Algebra. Beispiel 2.26. 1. Aσ = {∅, Ω} ist eine σ-Algebra. 2. Aσ =P(Ω) ist eine σ-Algebra. n [ai , bi ), n ∈ N, 0 ≤ ai ≤ bi ≤ 1 ist eine Algebra auf [0, 1) . 3. A = A = i=1
Dass die Beispiele 1. und 2. σ-Algebren sind, ist offensichtlich. Beispiel 3. erfüllt klarerweise Bedingung 2. von Lemma 2.23. Punkt 1. des Lemmas zeigen wir mit vollständiger Induktion. n = 1: [a1 , b1 ) ⊆[0, 1) ⇒ [a1, b1 )c = [0, a1 ) ∪ [b1 , 1) ∈ Aσ . c n m [ai , bi ) = [cj , dj ) folgt unter Verwendung der Ben → n + 1: Aus i=1
j=1
zeichnungen a ∧ b := min{a, b} und a ∨ b := max{a, b} c n c
n+1 [ai , bi ) = [ai , bi ) ∩ [an+1 , bn+1 )c i=1 m
i=1
[cj , dj ) ∩ ( [0, an+1 ) ∪ [bn+1 , 1) ) =
j=1
m
[cj , dj ∧ an+1 ) ∪ [cj ∨ bn+1 , dj ) .
j=1
Satz 2.27. Ist (An ) eine Folge aus einer σ- Algebra Aσ , so gilt Beweis.
n∈N
An =
c Acn
N
An ∈ Aσ .
.
n∈N
[ai , bi ), 0 ≤ ai ≤ bi ≤ 1} ist keine σ-Algebra N c auf [0, 1) , denn es gilt [x + n1 , 1) = (x, 1) ⇒ [x + n1 , 1) = [0, x] . n n Angenommen es gäbe Intervalle [ai , bi ) , sodass [0, x] = [ai , bi ) , dann folgte Beispiel 2.28. S := {A =
i∈N
2.3 Semiringe, Ringe und σ-Ringe
13
daraus [ai , bi ) ⊆ [0, x]
∀ i . Somit müsste gelten b := sup bi ≤ x , und dies i würde zum Widerspruch [0, x] = [ai , bi ) ⊆ [0, b) ⊆ [0, x) führen. i
Man kann also mit Intervallen leicht eine Algebra konstruieren, aber es ist nicht trivial, die σ- Algebra zu finden, die alle Intervalle enthält.
2.3 Semiringe, Ringe und σ-Ringe Jedem Intervall [a, b) ⊆ R kann man seine Länge λ([a, b)) := b − a zuordnen. n [ai , bi ), n ∈ N , ai ≤ bi ∈ R} keine Algebra, denn Nun ist R := {A = i=1
R ∈ / R . Da R und λ in der Analysis eine wichtige Rolle spielen, definieren wir: Definition 2.29. Ein Mengensystem R = ∅,
R ⊆ P(Ω) heißt Ring, wenn
1. A, B ∈ R ⇒ B \ A ∈ R 2. A, B ∈ R ⇒ A ∪ B ∈ R . Bemerkung 2.30. 1. Wegen 1. gilt ∅ = A \ A ∈ R , sodass man R = ∅ durch ∅ ∈ R ersetzen kann. 2. Die Intervalle bilden keinen Ring, da [a, b) ∪ [c, d) für b < c kein Intervall ist. Definition 2.31. Ein Mengensystem Rσ = ∅,
Rσ ⊆ P(Ω) heißt σ-Ring, wenn
Rσ 1. A, B ∈ Rσ ⇒ B \ A ∈ 2. An ∈ Rσ ∀ n ∈ N ⇒ An ∈ R σ . n
Lemma 2.32. Ist (An ) eine Folge aus einem σ-Ring Rσ , so gilt
An ∈ R σ .
n
An ∈ Rσ folgt Bn := A \ An ∈ Rσ ∀ n ∈ N . Daher gilt ⇒ A\ Bn = A ∩ Bnc = [A ∩ (Ac ∪ An )] = An ∈ Rσ .
Beweis. Aus A :=
n
B n ∈ Rσ
n
n
n
n
n
Bemerkung 2.33. Klarerweise ist jeder σ-Ring, der Ω enthält, eine σ-Algebra. Definition 2.34. T = ∅ ⊆ P(Ω) heißt Semiring, wenn gilt 1. A, B ∈ T ⇒ A ∩ B ∈ T 2. A, B ∈ T, A ⊆ B ⇒ ∃ n ∈ N, k A∪ Ci ∈ T, k = 1, . . . , n i=1
C1 , . . . , Cn ∈ T : Ci ∩ Cj = ∅ n ∧ B\A= Ci . i=1
∀ i = j,
14
2 Mengen und Mengensysteme
Bemerkung 2.35. Die Forderung 2. in der obigen Definition bedeutet, dass man, bildlich gesprochen, innerhalb des Semirings eine „Leiter“ von der Unterzur Obermenge bilden kann. Sie wird oft durch die schwächere Bedingung n Ci , C1 , . . . , Cn ∈ T, Ci ∩ Cj = ∅ ∀ i = j ersetzt. Wir sprechen B \A = i=1
dann von einem Semiring im weiteren Sinn (i.w.S.). Wollen wir hingegen betonen, dass es sich um einen Semiring gemäß Definition 2.34 handelt, so werden wir auch die Formulierung „Semiring im engeren Sinn“ (i.e.S.) verwenden. Die obige Definition des Semirings geht auf John von Neumann zurück; wir werden später sehen, dass sie eine Reihe von Vorteilen bringt. Lemma 2.36. Jeder Semiring T i.w.S. enthält ∅ . Beweis. T = ∅ ⇒ ∃A ∈ T . Wegen A ⊆ A muss es disjunkte Mengen n C1 , . . . , Cn aus T geben mit ∅ = A \ A = Ci ⇒ ∅ = C1 ∈ T . i=1
Satz 2.37. Sind Ti ,
i = 1, 2 Semiringe auf Ωi ,
i = 1, 2 , so ist
T1 ⊗ T2 := {A1 × A2 : Ai ∈ Ti } ein Semiring auf Ω1 × Ω2 .
Abb. 2.1. T1 ⊗ T2 ist ein Semiring
2.3 Semiringe, Ringe und σ-Ringe
15
Beweis. Dass die Durchschnitte in T1 ⊗ T2 liegen, ist leicht zu sehen: (A1 × A2 ) ∩ (B1 × B2 ) = (A1 ∩ B1 ) × (A2 ∩ B2 ) ∈ T1 ⊗ T2 . Da aus A1 ×A2 ⊆ B1 ×B2 folgt A1 ⊆ B1 ∧ A2 ⊆ B2 , gibt es disjunkte Mengen n h C1 , . . . , Cn ∈ T1 , sodass B1 \ A1 = Ci ∧ A1 ∪ Ci ∈ T1 , h = 1, . . . , n . i=1
i=1
Damit kann man von A1 × A2 innerhalb des Semirings nach B1 × A2 gehen, denn für h = 1, . . . , n gilt (A1 ∪
h
Ci ) × A2 ∈ T1 ⊗ T2 ∧ (Ci × A2 ) ∩ (Cj × A2 ) = ∅
∀ i = j . (2.4)
i=1
Es gibt aber auch disjunkte Mengen D1 , . . . , Dm aus T2 , sodass B2 \ A2 =
m
Di ∧ A2 ∪
i=1
h
Di ∈ T2 ,
h = 1, . . . , m .
i=1
Damit kommen wir von B1 × A2 nach B1 × B2 , weil für h = 1, . . . , m gilt B1 × (A2 ∪
h
Di ) ∈ T1 ⊗ T2 ∧ (B1 × Di ) ∩ (B1 × Dj ) = ∅
∀ i = j . (2.5)
i=1
Aus (2.4) und (2.5) folgt, dass T1 ⊗ T2 auch Eigenschaft 2. eines Semirings erfüllt, da wegen Dj ∩ A2 = ∅ auch (Ci × A2 ) ∩ (B1 × Dj ) = ∅ ∀ i, j gilt. Folgerung 2.38. Sind Ti Semiringe auf Ωi , i = 1, . . . , n , so ist n n
Ti := Ai : Ai ∈ Ti i=1
ein Semiring auf
n
i=1
Ωi .
i=1
Beweis. Nimmt man an, dass Satz, angewendet auf
n−1 i=1
n−1
Ti ein Semiring ist, so folgt aus dem obigen
i=1
Ti und Tn , dass auch
n
Ti ein Semiring ist und
i=1
damit ist die Folgerung durch vollständige Induktion bewiesen. Satz 2.39. Sind T1 und T2 zwei Semiringe auf Ω , so ist das Mengensystem D := {A ∩ B : A ∈ T1 , B ∈ T2 } ebenfalls ein Semiring. Beweis. ∅ = ∅ ∩ ∅ ∈ D ⇒ D = ∅ . Sind A1 ∩ B1 und A2 ∩ B2 Mengen aus D mit A1 , A2 ∈ T1 und B1 , B2 ∈ T2 , so gilt A1 ∩ B1 ∩ A2 ∩ B2 = (A1 ∩ A2 ) ∩ (B1 ∩ B2 ) ∈ D wegen A1 ∩ A2 ∈ T1
16
2 Mengen und Mengensysteme
und B1 ∩ B2 ∈ T2 . D ist also durchschnittsstabil. Ist nun A1 ∩ B1 enthalten in A2 ∩ B2 , so gilt A1 ∩ B1 = (A1 ∩ A2 ) ∩ (B1 ∩ B2 ) . Da T1 ein Semiring ist, gibt es disjunkte Mengen C1 , . . . , Cn aus T1 , sodass n k A2 \ (A1 ∩ A2 ) = Ci und (A1 ∩ A2 ) ∪ Ci ∈ T1 ∀ k = 1, . . . , n . i=1 i=1 k Ci ∩ B1 ∩ B2 ∈ D ∀ k = 1, . . . , n und Daraus folgt (A1 ∩ A2 ) ∪ i=1 n Ci ∩ B1 ∩ B2 = A2 ∩ B1 ∩ B2 . Diese Mengen bilden al(A1 ∩ A2 ) ∪ i=1
so eine „Leiter“ von A1 ∩ B1 nach A2 ∩ B1 ∩ B2 . Da auch T2 ein Semiring ist, gibt es weiters disjunkte Mengen D1 , . . . , Dm aus T2 , sodass m k B2 \ (B1 ∩ B2 ) = Dj und (B1 ∩ B2 ) ∪ Dj ∈ T2 ∀ k = 1, . . . , m . j=1 j=1 k Daraus folgt A2 ∩ (B1 ∩ B2 ) ∪ Dj ∈ D ∀ k = 1, . . . , m , aber auch j=1 m A2 ∩ (B1 ∩ B2 ) ∪ Dj = A2 ∩ B2 . Damit haben wir auch eine „Leij=1
ter“ von A2 ∩ B1 ∩ B2 nach A2 ∩ B2 , womit der Satz bewiesen ist. Satz 2.40. Sind A, A1 , . . . , An Mengen aus einem Semiring T , so gibt es disn k Ai = Cj . junkte Mengen C1 , . . . , Ck in T , sodass A \ i=1
j=1
Beweis. Der Beweis wird mit vollständiger Induktion geführt. n = 1 : Wegen A ∩ A1 ∈ T und A \ A1 = A \ (A ∩ A1 ) ergibt sich die Aussage des Satzes für n = 1 unmittelbar aus der Definition des Semirings. n → n + 1 : Auf Grund der Induktionsannahme gibt es disjunkte Mengen k n n Ai = Cj . Weiters gilt: C1 , . . . , Ckn in T mit A \ i=1
A\
n+1
Ai = (A \
i=1
j=1 n
Ai ) \ An+1 =
i=1
kn
(Cj \ An+1 ) .
(2.6)
j=1
Aus der Definition des Semirings folgt für jedes j = 1, . . . , kn die Existenz m j Cj,h . Dies disjunkter Mengen Cj,1 , . . . , Cj,mj in T , sodass Cj \An+1 = und (2.6)) liefert A \
n+1 i=1
Ai =
k n m j j=1 h=1
da klarerweise gilt Ci,h1 ∩ Cj,g2 = ∅,
h=1
Cj,h . Damit ist der Satz bewiesen, ∀ h1 , g2 ,
i = j .
Satz 2.41. Sind A1 , . . . , An Mengen aus einem Semiring T , so gibt es disjunkte n k Mengen C1 , . . . , Ck in T mit Ai = Cj und für jedes i = 1, . . . , n existiert i=1 j=1 eine Teilmenge Ii ⊆ {1, . . . , k} , sodass Ai = Cj . j∈Ii
2.3 Semiringe, Ringe und σ-Ringe
17
Beweis. Auch diesen Satz beweisen wir mit vollständiger Induktion. n = 1 : Für n = 1 sind die obigen Aussagen trivialerweise richtig. n → n + 1: Gilt der Satz für n ∈ N , so gibt es gemäß der Induktionsvorausn k setzung disjunkte Mengen C1 , . . . , Ck aus T , sodass Ai = Cj und i=1 j=1 Cj , ∀ i mit geeignetem Ii ⊆ {1, . . . , k} . Für jedes j ∈ {1, . . . , k} Ai = j∈Ii
existieren disjunkte Mengen Cj,1 , . . . , Cj,mj ∈ T mit Cj \An+1 =
m j
Cj,k .
k=1
Damit erhält man
n mj k k Ai \ An+1 = (Cj \ An+1 ) = Cj,h , i=1
j=1
(2.7)
j=1 h=1
wobei klarerweise Cj1 ,k1 ∩ Cj2 ,k2 ⊆ Cj1 ∩ Cj2 = ∅, ∀ j1 = j2 . Weiters gilt:
n k Ai ∩ An+1 = (Cj ∩ An+1 ), Cj ∩ An+1 ∈ T, ∀ j . (2.8) i=1
j=1
Wegen Satz 2.40 gibt es disjunkte Mengen B1 , . . . , Bh in T , sodass:
n h Ai = Bl . (2.9) An+1 \ i=1
l=1
Mit den Mengen Cj,h , Cj ∩ An+1 und Bl aus (2.7) , (2.8) und (2.9) gilt die Aussage des Satzes nun auch für A1 , . . . , An+1 . Beispiel 2.42. 1. a) J := {(a, b] : a ≤ b} ist ein Semiring auf R. (a1 , b1 ] ∩ (a2 , b2 ] = (max(a1 , a2 ), min(b1 , b2 )]. (a1 , b1 ] ⊆ (a2 , b2 ] ⇒ (a2 , b2 ] \ (a1 , b1 ] = (a2 , a1 ] ∪ (b1 , b2 ] mit (a1 , b1 ] ∪ (a2 , a1 ] = (a2 , b1 ] ∈ J. b) J1,Q := {(a, b] : a ≤ b, a, b ∈ Q} ist ein Semiring auf R . k 2. a) Jk := { (ai , bi ] := {(x1 , . . . , xk ) : ai < xi ≤ bi , ∀ i = 1, . . . , k} i=1
ist wegen Satz 2.37 und Punkt 1a . oben ein Semiring auf Rk . k b) Jk,Q := { (ai , bi ] : ai ≤ bi , ai , bi ∈ Q} ist ein Semiring auf Rk . i=1
Definition 2.43. Die achsenparallelen Quader
k
(ai , bi ] , die Elemente des Se-
i=1
mirings Jk , werden auch (linkshalboffene) Zellen des Rk genannt.
18
2 Mengen und Mengensysteme
Bemerkung 2.44. Sind a := (a1 , . . . , ak ) und b := (b1 , . . . , bk ) Punkte aus Rk , so werden wir im Folgenden a < b schreiben, wenn gilt ai < bi ∀ 1 ≤ i ≤ k und a ≤ b wird in analoger Weise verwendet. Weiters definieren wir a ± b := (a1 ± b1 , . . . , am ± bm ) bzw. a · b := (a1 · b1 , . . . , am · bm ) und a ± c := (a1 ± c, . . . , am ± c) , sowie c a := (c a1 , . . . , c am ) für c ∈ R und a ∈ Rk . Außerdem verwenden wir für 2 Vektoren a, b ∈ Rk auch die Kurzschreibweise a ∧ b := (min{a1 , b1 }, . . . , min{ak , bk }) , a ∨ b := (max{a1 , b1 }, . . . , max{ak , bk }) . k (ai , bi ] und Analoges gilt für Gilt a ≤ b , so schreiben wir (a, b] für die Zelle i=1
die Bezeichnungsweisen (a, b) , [a, b] und [a, b). Definition 2.45. Ein Semiring, der Ω enthält, heißt eine Semialgebra. Satz 2.46. Ein Ring, der Ω enthält, ist eine Algebra. Beweis. Dies ergibt sich sofort aus der Ringdefinition 2.29 und Lemma 2.23. Ringe sind bezüglich der Operationen und ∩ abgeschlossen. Satz 2.47. R = ∅ ist genau dann ein Ring, wenn mit A, B ∈ R auch A B und A ∩ B in R liegen. Beweis. ⇒ : A, B ∈ R ⇒ A \ B ∈ R ∧ B \ A ∈ R . Daraus folgt weiters A B = (A \ B) ∪ (B \ A) ∈ R . Dies wiederum impliziert A ∩ B = (A ∪ B) \ (A B) ∈ R. ⇐ : Sind A, B aus R , so liegt der Durchschnitt A ∩ B in R , und damit gilt B \ A = B (A ∩ B) ∈ R . Sind A, B ∈ R disjunkt, so gilt A ∪ B = A B (vgl. Lemma 2.6 Punkt 7.), also A ∪ B ∈ R . Wegen B ∩ (A \ B) = ∅ erhält man daraus aber für beliebige Mengen A, B ∈ R , dass A ∪ B = B ∪ (A \ B) ∈ R . Bemerkung 2.48. Der Name Ring kommt daher, dass R bezüglich der Operationen und ∩ abgeschlossen ist und deshalb (R, , ∩) einen Ring im algebraischen Sinn bildet (siehe Lemma 2.6) . Man kann einen Ring auch folgendermaßen charakterisieren. Satz 2.49. R = ∅ ist genau dann ein Ring, wenn 1. A, B ∈ R ∧ A ∩ B = ∅ ⇒ A ∪ B ∈ R 2. A, B ∈ R ∧ A ⊆ B ⇒ B \ A ∈ R 3. A, B ∈ R ⇒ A ∩ B ∈ R . Beweis. ⇒ : Aus der Definition des Ringes folgen klarerweise die Punkte 1. und 2., und in Satz 2.47 haben wir gezeigt, dass auch Punkt 3. aus der Definition folgt. ⇐ : Aus 2. und 3. folgt B \ A = B \ (A ∩ B) ∈ R . Darüber hinaus gilt A ∪ B = (A \ B) ∪ (B \ A) ∪ (A ∩ B) , wobei alle drei Mengen auf der rechten Seite disjunkt sind. Daher liegt auch A ∪ B in R .
2.4 Erzeugte Systeme
19
2.4 Erzeugte Systeme Wir haben in Abschnitt 1.1 den Intervallen Wahrscheinlichkeiten zugeordnet und wir haben gesehen, dass diese Wahrscheinlichkeiten nicht auf ganz P([0, 1)) definiert werden können. Die Intervalle bilden aber nur einen Semiring, während der natürliche Definitionsbereich einer Wahrscheinlichkeitsverteilung eine σ-Algebra ist. Es fragt sich nun, wie die „kleinste“ σ-Algebra aussieht, die die Intervalle enthält. Leider kann man diese σ- Algebra nicht konstruktiv beschreiben. Aber es gilt der folgende Satz. Satz 2.50. Sind Ri , i ∈ I beliebige Ringe aus P(Ω) , so ist auch Ri ein Ring. I
Für σ-Ringe, Algebren und σ-Algebren gelten analoge Aussagen. Beweis. Der Beweis ist trivial. Bemerkung 2.51. Der Durchschnitt von Semiringen ist im Allgemeinen kein Semiring, wie das folgende Beispiel zeigt. Beispiel 2.52. Auf Ω := {0, 1, 2} istT1 := ∅, {0}, {1, 2}, Ω ein Semiring. T2 := ∅, {0}, {1}, {2}, {0, 1}, Ω} ist ebenfalls ein Semiring i.e.S., denn Ω \ {0} = {1} ∪ {2} mit {0}∪{1} = {0, 1} ∈ T2 und {0}∪{1}∪{2} = Ω ∈ T2 , Ω \ {1} = {0} ∪ {2} mit {1}∪{0} = {0, 1} ∈ T2 und {1}∪{0}∪{2} = Ω ∈ T2 , Ω \ {2} = {0, 1} ∈ T2 , Ω \ {0, 1} = {2} ∈ T2 , {0, 1}\ {0} = {1} ∈ T2 und {0, 1} \ {1} = {0} ∈ T2 . Aber T1 ∩ T2 = ∅, Ω, {0} ist kein Semiring. Die Potenzmenge P(Ω) ist ein Ring. Daher gibt es zu jedem beliebigen Mengensystem C = ∅, C ⊆ P(Ω) mindestens einen Ring, der C enthält, d.h. R ist ein Ring. R(C) := {R ⊇ C, R ist ein Ring} = ∅ und R(C) := R∈R(C)
Definition 2.53. Ist C = ∅ , so nennt man R(C) := R(C) := {R ⊇ C,
R∈R(C)
R mit
R ist ein Ring} den von C erzeugten Ring.
Da die Potenzmenge auch ein σ-Ring, eine Algebra und σ-Algebra ist, gilt Rσ (C) := {Rσ ⊇ C, Rσ ist ein σ-Ring} = ∅ A(C) := {A ⊇ C, A ist eine Algebra} = ∅ Aσ (C) := {Aσ ⊇ C, Aσ ist eine σ-Algebra} = ∅ , Rσ ein σ-Ring, A(C) := A und dementsprechend ist Rσ (C) := A∈A(C) Rσ ∈Rσ (C) eine Algebra und Aσ (C) := Aσ eine σ-Algebra. Man definiert daher Aσ ∈Aσ (C)
mit den obigen Bezeichnungen: Definition 2.54. Ist C = ∅ , so nennt man Rσ den von C erzeugten σ-Ring, Rσ (C) := Rσ ∈Rσ (C)
20
2 Mengen und Mengensysteme
A(C) :=
A∈A(C)
Aσ (C) :=
A die von C erzeugte Algebra,
Aσ ∈Aσ (C)
Aσ die von C erzeugte σ-Algebra.
Lemma 2.55. Ist C = ∅ , so gilt 1. C ⊆ R 2. C ⊆ A 3. C ⊆ Rσ 4. C ⊆ Aσ
∧ ∧ ∧ ∧
R ist ein Ring A ist eine Algebra Rσ ist ein σ-Ring Aσ ist eine σ-Algebra
⇒ ⇒ ⇒ ⇒
R(C) ⊆ R, A(C) ⊆ A, Rσ (C) ⊆ Rσ , Aσ (C) ⊆ Aσ .
Beweis. Der Beweis folgt sofort aus den Definitionen 2.53 und 2.54. Definition 2.56. Ist Ω = Rk , so nennt man Bk := Aσ (Jk ) , die durch die Zellen aus Jk erzeugte σ-Algebra, die σ-Algebra der k-dimensionalen Borelmengen. Für k = 1 schreibt man einfach B statt B1 . (−n , n] gilt natürlich auch Bk := Rσ (Jk ) . Bemerkung 2.57. Wegen Rk = n∈Nk
Lemma 2.58. Das System {(a, b) : a, b ∈ Rk , a ≤ b} der offenen Zellen erzeugt Bk genauso, wie das System der abgeschlossenen Zellen oder das System der rechtshalboffenen Zellen oder auch Jk,Q . Beweis. Wegen (a, b) = (a, b − n1 ] enthält Bk alle offenen Zellen und daher n
auch die von den offenen Zellen gebildete σ-Algebra. Umgekehrt gilt (a, b] = (a, b+ n1 ) und daher enthält die von den offenen n
Zellen gebildete σ-Algebra das System Jk und deshalb auch Bk = Aσ (Jk ). Für die abgeschlossenen, die rechtshalboffenen Zellen oder Jk,Q verläuft der Beweis in analoger Weise. Aber die σ-Algebra der Borelmengen wird auch durch das System der offenen Mengen aus Rk und das System der abgeschlossenen Mengen aus Rk erzeugt. Lemma 2.59. Das System der offenen Mengen erzeugt Bk genauso, wie das System der abgeschlossenen Mengen. Beweis. Jede offene Menge U muss wegen Satz A.29 in der von den offenen Zellen erzeugten σ-Algebra, also Bk liegen und daher muss auch die von den offenen Mengen erzeugte σ-Algebra in Bk liegen. Umgekehrt enthält die von den offenen Mengen erzeugte σ-Algebra die offenen Zellen und damit auch Bk . Dass auch die abgeschlossenen Mengen Bk erzeugen, ergibt sich nun einfach aus der Tatsache, dass jede abgeschlossene Menge das Komplement einer offenen Menge ist. Den durch einen Semiring erzeugten Ring kann man explizit beschreiben.
2.4 Erzeugte Systeme
Satz 2.60. Ist T ein Semiring, so gilt n R(T) = R1 := Ai : Ai ∈ T, = R2 :=
i=1 n
21
n∈N
Ai :
Ai ∈ T,
n ∈ N,
Ai ∩ Aj = ∅
∀ i = j
.
i=1
Beweis. Sind B1 =
n i=1
Ai,1 , B2 =
m
Aj,2 Mengen aus R2 , so gibt es wegen
j=1
Satz 2.41 disjunkte Mengen C1 , . . . , Ck ∈ T , sodass B1 ∪ B2 =
k
Ci . Daraus
i=1
folgt B1 ∪ B2 ∈ R2 . Aus Satz 2.41 folgt aber auch, dass B1 und B2 darstellbar Ci , B2 = Ci , für geeignete Indexmengen sind in der Form B1 = i∈I1 i∈I2 I1 , I2 ⊆ {1, . . . , k}. Deshalb gilt B1 \ B2 = Ci ∈ R2 . Somit ist R2 ein i∈I1 \I2
Ring. Da R2 offensichtlich T enthält, folgt daraus R(T) ⊆ R2 . Zusammen mit R2 ⊆ R1 ergibt das R(T) ⊆ R2 ⊆ R1 . Aber R1 ist in jedem Ring R mit T ⊆ R enthalten. Somit gilt R(T) ⊆ R2 ⊆ R1 ⊆ R(T) ⇒ R(T) = R2 = R1 . Auch die von einem Ring erzeugte Algebra ist leicht zu bestimmen. Satz 2.61. Ist R ein Ring, so gilt A(R) = S := {A ⊆ Ω : A ∈ R ∨ Ac ∈ R} . Beweis. Da Algebren die Komplemente ihrer Mengen enthalten, muss S ein Teilsystem jeder Algebra A mit R ⊆ A sein. Daher gilt S ⊆ A(R) . Umgekehrt gilt R ⊆ S , und A ∈ S ⇔ Ac ∈ S . Zudem gilt für A, B ∈ S einer der folgenden Fälle • • • •
A, B ∈ R ⇒ A ∪ B ∈ R ⊆ S , A, B c ∈ R ⇒ B c \ A = B c ∩ Ac ∈ R ⇒ A ∪ B = (Ac ∩ B c )c ∈ S , Ac , B ∈ R Dieser Fall ist symmetrisch zu A, B c ∈ R , Ac , B c ∈ R ⇒ Ac ∩ B c ∈ R ⇒ A ∪ B = (Ac ∩ B c )c ∈ S .
S enhält deshalb mit je zwei Mengen deren Vereinigung. Somit ist S eine Algebra, die überdies R enthält. Daraus folgt A(R) ⊆ S . Also gilt A(R) = S . Die Vereinigung von zwei Algebren ist i.A. nicht einmal durchschnittsstabil, aber es gilt folgendes Lemma. Lemma 2.62. Sind A1 und A2 zwei Algebren auf Ω , so wird A(A1 ∪ A2 ) ergilt zeugt durch dieSemialgebra D := {A1 ∩ A2 : A1 ∈ A1 , A2 ∈ A2 } , also n A(A1 ∪ A2 ) = Di : n ∈ N , Di ∈ D , 1 ≤ i ≤ n , Di ∩ Dj = ∅ ∀ i = j . i=1
Beweis. D ist nach n Satz 2.39 ein Semiring und wegen Ω ∈ D sogar eine Semi Di : n ∈ N , Di ∈ D , 1 ≤ i ≤ n , Di ∩ Dj = ∅ ∀ i = j algebra. A := i=1
22
2 Mengen und Mengensysteme
ist laut Satz 2.60 die von D erzeugte Algebra. Aus C = C ∩ Ω ∈ D ∀ C ∈ A1 und D = Ω ∩ D ∈ D ∀ D ∈ A2 folgt A1 ∪ A2 ⊆ D ⇒ A(A1 ∪ A2 ) ⊆ A . Umgekehrt enthält A(A1 ∪A2 ) alle Mengen aus A . Somit gilt A(A1 ∪A2 ) = A . Satz 2.63. Ist f : Ω1 → Ω2 eine Abbildung und C = ∅ ein beliebiges Mengensystem auf Ω2 , so gilt R(f −1 (C)) = f −1 (R(C)) , A(f −1 (C)) = f −1 (A(C)) , Rσ (f −1 (C)) = f −1 (Rσ (C)) , Aσ (f −1 (C)) = f −1 (Aσ (C)) . Beweis. f −1 (R(C)) ist ein Ring, denn für je 2 Mengen A , B ∈ R(C) gilt f −1 (A) \ f −1 (B) = f −1 (A \ B) und f −1 (A) ∪ f −1 (B) = f −1 (A ∪ B) . Zusammen mit f −1 (C) ⊆ f −1 (R(C)) ergibt dasR(f −1 (C)) ⊆ f −1 (R(C)) . Wegen f −1 (C) ⊆ R(f −1 (C)) enthält S := A ⊆ Ω2 : f −1 (A) ∈ R(f −1 (C)) andererseits C , und S ist ein Ring, denn A , B ∈ S ist gleichbedeutend zu f −1 (A), f −1 (B) ∈ R(f −1 (C)) . Da R(f −1 (C)) ein Ring ist, folgt daraus f −1 (A \ B) = f −1 (A) \ f −1 (B) ∈ R(f −1 (C)) , also A \ B ∈ S , aber auch f −1 (A ∪ B) = f −1 (A) ∪ f −1 (B) ∈ R(f −1 (C)) , d.h. A ∪ B ∈ S . Somit gilt R(C) ⊆ S . Dies entspricht f −1 (R(C)) ⊆ R(f −1 (C)) . Damit ist f −1 (R(C)) = R(f −1 (C)) bewiesen. Die anderen Aussagen des Satzes zeigt man auf ganz ähnliche Art, sodass es sich erübrigt diese Beweise im Detail auszuführen. Definition 2.64. Ist C ⊆ P(Ω) ein beliebiges Mengensystem, so bezeichnet man C ∩ A := {B = C ∩ A : C ∈ C} als die Spur (oder Restriktion) von C auf A . Satz 2.65. Ist C = ∅ , so gilt Rσ (C ∩ A) = Rσ (C) ∩ A . Beweis. Mit Ω1 := A, Ω2 := Ω, f (ω) := ω, ∀ ω ∈ A erhält man f −1 (C) = C∩A und f −1 (Rσ (C)) = Rσ (C) ∩ A . Unter Berücksichtigung von Satz 2.63 ergibt das Rσ (C) ∩ A = Rσ (C ∩ A) .
2.5 Monotone Systeme und Dynkin-Systeme Die folgenden Mengensysteme haben vor allem beweistechnische Bedeutung. Definition 2.66. Ein Mengensystem M = ∅ wird monoton genannt, wenn für jede monotone Mengenfolge (An ) aus M die Grenzmenge lim An in M liegt. n
Definition 2.67. D ⊆ P(Ω) heißt Dynkin-System, wenn 1. Ω ∈ D 2. D ∈ D ⇒ Dc ∈ D 3. (Dn ) aus D ∧ Dn ∩ Dm = ∅
∀ n = m
⇒
Analog zu Satz 2.50 gilt die folgende Aussage.
N
Dn ∈ D .
2.5 Monotone Systeme und Dynkin-Systeme
23
Satz 2.68. Die Potenzmenge P(Ω) ist ein monotones Dynkin-System. Mi monoton. Sind die Mi , i ∈ I monoton, so ist i∈I Di ein Dynkin-System. Sind die Di , i ∈ I Dynkin-Systeme, so ist i∈I
Beweis. Der Beweis ist trivial. Wegen des obigen Satzes sind die folgenden Definitionen sinnvoll. Definition 2.69. Ist C = ∅ , so nennt man 1. M(C) := M mit M(C) := {M ⊇ C,
M ist ein monotones System}
M∈M(C)
das von C erzeugte monotone System, 2. D(C) := D mit D(C) := {D ⊇ C, D∈D(C)
D ist ein Dynkin-System} das
von C erzeugte Dynkin-System. Lemma 2.70. Ist M monoton und ∅ = C ⊆ M , so gilt M(C) ⊆ M . Ist D ein Dynkin-System und ∅ = C ⊆ D , so gilt D(C) ⊆ D . Beweis. Das Lemma ergibt sich unmittelbar aus der obigen Definition. Lemma 2.71. Jeder monotone Ring R ist ein σ-Ring. Beweis. Ist (An ) eine Mengenfolge in R , so bilden die Bn := monotone Folge aus R mit Bn
∞ n=1
An ⇒
∞
n
Ai eine
i=1
An ∈ R .
n=1
Bemerkung 2.72. Aus Definition 2.31 und Lemma 2.32 folgt umgekehrt sofort, dass jeder σ-Ring monoton ist. Satz 2.73. Ist R ein Ring, so gilt M(R) = Rσ (R). Beweis. Da R ⊆ Rσ (R) und Rσ (R) monoton ist, gilt M(R) ⊆ Rσ (R) . Definiert man umgekehrt zu jeder beliebigen Menge A das Mengensystem MA := {B ∈ M(R) : B \ A ∈ M(R) ∧ A \ B ∈ M(R) ∧ A ∪ B ∈ M(R)} , so gilt offenbar B ∈ MA ⇔ A ∈ MB , ∀ A, B . Zudem ist MA monoton, denn mit (Bn ) sind auch die Folgen (A \ Bn ), (Bn \ A) und (Bn ∪ A) monoton. Für A ∈ R und beliebiges B ∈ R gilt aber B \ A ∈ M(R), A \ B ∈ M(R) sowie A ∪ B ∈ M(R) . Daraus folgt R ⊆ MA ∀A ∈ R . Da MA monoton ist, impliziert dies aber auch M(R) ⊆ MA ∀ A ∈ R . Dies bedeutet, dass gilt B ∈ MA ∀ A ∈ R, B ∈ M(R) . Damit gilt auch R ⊆ MB ∀ B ∈ M(R) . Da MB monoton ist, folgt daraus wiederum M(R) ⊆ MB ∀ B ∈ M(R) . Also gilt B \ C ∈ M(R), C \ B ∈ M(R), B ∪ C ∈ M(R) ∀ B, C ∈ M(R) . Somit ist M(R) ein Ring und nach Lemma 2.71 auch ein σ-Ring, der natürlich R enthält. Daraus folgt M(R) ⊇ Rσ (R) . Somit gilt schließlich M(R) = Rσ (R) .
24
2 Mengen und Mengensysteme
Bemerkung 2.74. Das im obigen Beweis verwendete Verfahren wird oft als „Prinzip der guten Menge “ bezeichnet, da man dabei eine Menge MA definiert, die gerade die gewünschten Eigenschaften besitzt. Ein anderer Name für diese Beweistechnik ist „ Steigbügelmethode“, da MA quasi als Steigbügel dient. Satz 2.75. D ist genau dann ein Dynkin-System, wenn 1. Ω ∈ D 2. D1 , D2 ∈ D ∧ D1 ⊆ D2 ⇒ D2 \ D1 ∈ D 3. D ist monoton. Beweis. ⇒:
Aus den Bedingungen 1. und 2. der Definition 2.67 folgt ∅ ∈ D . Sind D1 ⊆ D2 zwei Mengen aus D , so bilden die durch A1 := D2c , A2 := D1 , An := ∅ ∀ n ≥ 3 definierten Mengen wegen D1 ∩ D2c = ∅ eine disjunkte Folge in D , sodass aus Bedingung 3. der Definition folgt An ∈ D , und wieder nach Bedingung 2. führt dies zu D2c ∪ D1 = n∈N
D2 \ D1 = D2 ∩ D1c = (D2c ∪ D1 )c ∈ D . Damit ist Punkt 2. gezeigt. Ist (Dn ) aus D monoton steigend, so gilt wegen der eben gezeigten Aussa ge mit D0 := ∅ auch Dn := Dn \ Dn−1 ∈ D ∀ n ∈ N .Da die D n disjunkt sind, folgt deshalb nach Bedingung 3 . der Definition Dn = Dn ∈ D . Ist (Dn ) aus D monoton fallend, so gilt Dnc Dnc . Daraus folgt n∈N c c c Dn ∈ D . Damit gilt aber Dn = Dn ∈ D nach Bedinn∈N
n∈N
n∈N
gung 2. der Definition. Somit ist auch der obige Punkt 3. bewiesen. ⇐: Aus den obigen Punkten 1. und 2. folgen klarerweise die ersten beiden Bedingungen der Definition eines Dynkin-Systems. Sind D1 , D2 ∈ D, D1 ∩D2 = ∅, so gilt D1 ⊆ D2c . Aus Punkt 2. des Satzes folgt deshalb D1c ∩ D2c = D2c \ D1 ∈ D ⇒ D1 ∪ D2 = Ω \ (D2c \ D1 ) ∈ D . Ist nun D1 , . . . , Dn eine Klasse disjunkter Mengen aus D , so liefert volln Di ∈ D ∀ n ∈ N . Zusammen mit Punkt 3. ergibt ständige Induktion das
∞
i=1
Dn ∈ D . Damit ist auch diese Richtung bewiesen.
n=1
Satz 2.76. Ein Dynkin-System D ist genau dann eine σ-Algebra, wenn D durchschnittsstabil ist. Beweis. Die eine Richtung ist klar, denn jede σ-Algebra ist ein Dynkin-System und durchschnittsstabil. Umgekehrt ist jedes durchschnittsstabile DynkinSystem D wegen Definition 2.21 auch eine σ-Algebra. Satz 2.77. Ist C = ∅ durchschnittsstabil, so gilt D(C) = Aσ (C) .
2.5 Monotone Systeme und Dynkin-Systeme
25
Beweis. Da jede σ-Algebra ein Dynkin System ist, gilt D(C) ⊆ Aσ (C) . Definiert man umgekehrt zu jedem D ∈ D(C) ein Mengensystem DD durch DD := {E ⊆ Ω : E ∩ D ∈ D(C)} , so ist DD offensichtlich monoton und es gilt Ω ∈ DD . Aus D1 , D2 ∈ DD und D1 ⊆ D2 folgt weiters D2 ∩ D ∈ D(C), D1 ∩ D ∈ D(C) und D1 ∩ D ⊆ D2 ∩ D . Daher gilt auch (D2 \ D1 ) ∩ D = (D2 ∩ D) \ (D1 ∩ D) ∈ D(C) , d.h. D1 , D2 ∈ DD und D1 ⊆ D2 impliziert D2 \ D1 ∈ DD . Somit ist DD ein Dynkin-System. Daraus folgt aber D(C) ⊆ DC , ∀ C ∈ C , denn für C ∈ C gilt C ⊆ DC . Für C ∈ C und D ∈ D(C) gilt also D ∩ C ∈ D(C) . Dies bedeutet C ∈ DD ∀ C ∈ C , oder anders ausgedrückt C ⊆ DD ∀ D ∈ D(C) . Da DD ein Dynkin-System ist, liefert dies D(C) ⊆ DD ∀ D ∈ D(C) . Somit ist D(C) durchschnittsstabil und daher nach Satz 2.76 eine σ-Algebra. Damit gilt aber auch Aσ (C) ⊆ D(C) .
3 Mengenfunktionen
3.1 Inhalte und Maße auf Semiringen Die wesentliche Eigenschaft von Wahrscheinlichkeitsverteilungen ist die σ-Additivität. Wir wollen uns daher in diesem Abschnitt mit additiven und σ-additiven Mengenfunktionen beschäftigen. Definition 3.1. Eine Mengenfunktion μ auf einem Mengensystem C = ∅ mit Werten aus (−∞, ∞] oder [−∞, ∞) heißt additiv, wenn für beliebige disjunkte n Mengen A1 , . . . , An aus C mit Ai ∈ C gilt i=1
μ
n
Ai
=
i=1
n !
μ(Ai ) .
(3.1)
i=1
μ heißt σ-additiv oder abzählbar additiv, wenn für jede Folge (An ) disjunkter Mengen aus C mit An ∈ C gilt n∈N
μ
n∈N
An
=
!
μ(An ) .
(3.2)
n∈N
Bemerkung 3.2. Der Wert der Reihe in (3.2) ist unabhängig von der Anordnung der An . Nach Satz A.14 kann die Reihe deshalb nicht bedingt konvergieren. Definition 3.3. Als Inhalt bezeichnet man eine nichtnegative, additive Mengenfunktion μ auf einem Semiring T mit μ(∅) = 0 . Auf Semiringen i.e.S. kann man Bedingung (3.1) etwas abschwächen. Satz 3.4. Ist T ein Semiring i.e.S. und μ eine nichtnegative Mengenfunktion auf T mit μ(∅) = 0 , so ist μ ein Inhalt genau dann, wenn für je zwei disjunkte Mengen A1 , A2 aus T gilt A1 ∪ A2 ∈ T ⇒ μ(A1 ∪ A2 ) = μ(A1 ) + μ(A2 ) .
(3.3)
28
3 Mengenfunktionen
Beweis. Da (3.3) aus (3.1) folgt, muss man nur die andere Richtung zeigen, die wir zunächst unter der einschränkenden Voraussetzung beweisen, dass die disjunkten Mengen A1 , . . . , An aus T so indiziert werden können, dass k gilt Ai ∈ T ∀ 1 ≤ k ≤ n . Wir zeigen das mit vollständiger Induktion. i=1
Für n = 2 ist nichts zu beweisen, und unter der Induktionsannahme, dass (3.1) für n Mengen, die die obige Bedingung erfüllen, gilt, erhält man
n
n
n+1 Ai = μ Ai ∪ An+1 = μ Ai + μ(An+1 ) μ i=1
i=1
=
n !
i=1
μ(Ai ) + μ(An+1 ) =
i=1
n+1 !
μ(Ai ) .
i=1
Damit ist die Gültigkeit von (3.1) unter der obigen Voraussetzung gezeigt. Auch den allgemeinen Fall zeigen wir mit vollständiger Induktion und nehmen an, dass (3.1) für n Mengen gilt. n+1 Ai ∈ T , Sind nun A1 , . . . , An+1 disjunkte Mengen aus T mit A := i=1
dann gibt es wegen An+1 ⊆ A disjunkte Mengen C1 , . . . , Ck ∈ T mit A \ An+1 =
n i=1
Ai =
k
Cj ,
An+1 ∪
j=1
l
Cj ∈ T ∀ 1 ≤ l ≤ k .
(3.4)
j=1
An+1 , C1 , . . . , Ck erfüllen demnach die obige Annahme und daher gilt μ(A) = μ(An+1 ) +
k !
μ(Cj )
(3.5)
j=1
Da Semiringe durchschnittsstabil sind und gilt Ai ∩ An+1 = ∅ ∀ 1 ≤ i ≤ n, folgt aus (3.4) auch ⎛ ⎛ ⎞ ⎞ l l l (Ai ∩ Cj ) = Ai ∩ ⎝ Cj ⎠ = Ai ∩ ⎝An+1 ∪ Cj ⎠ ∈ T ∀ 1 ≤ l ≤ k . j=1
j=1
j=1
Somit trifft die obige, einschränkende Voraussetzung für jedes i auf die Menk μ(Ai ∩Cj ) ∀ i = 1, . . . , n . gen Ai ∩Cj , 1 ≤ j ≤ k zu, und es gilt μ(Ai ) = j=1
Daraus folgt n !
μ(Ai ) =
i=1
Umgekehrt gilt wegen (3.4)
k n ! !
μ(Ai ∩ Cj ) .
(3.6)
i=1 j=1
Cj =
n
(Ai ∩ Cj )
∀ j = 1, . . . , k . Damit kann
i=1
die Induktionsvoraussetzung auf die Cj angewendet werden, und man erhält
3.1 Inhalte und Maße auf Semiringen
μ(Cj ) =
n
μ(Ai ∩ Cj )
29
∀ j = 1, . . . , k . Daraus folgt sofort
i=1 k !
μ(Cj ) =
j=1
n k ! !
μ(Ai ∩ Cj ) .
(3.7)
j=1 i=1
Setzt man (3.7) in (3.5) ein, so ergibt das unter Berücksichtigung von (3.6) μ(A) = μ(An+1 ) +
n k ! !
(Ai ∩ Cj ) = μ(An+1 ) +
j=1 i=1
n !
μ(Ai ) ,
i=1
womit auch der allgemeine Fall bewiesen ist. Definition 3.5. Ist T ein Semiring, so wird μ : T → R ein Maß oder eine Maßfunktion genannt, wenn gilt 1. μ(∅) = 0 , 2. μ(A) ≥ 0 ∀ A ∈ T , 3. μ ist σ-additiv . Bemerkung 3.6. Ein Maß ist auch stets additiv, denn es gilt wenn man Ai := ∅
n
Ai =
i=1
∀ i > n setzt.
∞
Ai ,
i=1
Definition 3.7. Ein Maß P auf einer Semialgebra mit P (Ω) = 1 wird als Wahrscheinlichkeitsverteilung (Wahrscheinlichkeitsmaß) bezeichnet. Bemerkung 3.8. Man sagt eine Mengenfunktion P auf einer Semialgebra T erfüllt das Kolmogoroff’sche Axiomensystem, wenn gilt 1. P (Ω) = 1 , 2. P (A) ≥ 0 ∀ A ∈ T , 3. P ist σ-additiv. Aus dem Kolmogoroff’schen Axiomensystem folgt
! 1 = P (Ω) = P Ω ∪ ∅ = P (Ω) + P (∅) ⇒ P (∅) = 0 , n∈N
n∈N
und P ist daher ein Wahrscheinlichkeitsmaß. Definition 3.9. Ein Maß μ auf einem Semiring T heißt endlich, wenn für alle A ∈ T gilt μ(A) < ∞ . Wenn es eine Folge (An ) aus T gibt mit Ω = An ∧ μ(An ) < ∞ ∀ n ∈ N , so N
nennt man μ σ-endlich. Wenn die Maße der obigen Folge (An ) eine konvergente Reihe bilden, wenn also μ(An ) < ∞ , so nennt man μ total-endlich. n∈N
30
3 Mengenfunktionen
Beispiel 3.10. Ω = N, T = P(N), genannt und ist σ-endlich auf T .
ζ(A) := |A|
∀ A ∈ T wird Zählmaß
Definition 3.11. Ist μ ein Maß auf einem Semiring T , so nennt man den Semiring μ- vollständig (vollständig bezüglich μ), wenn zu jeder Menge A ∈ T mit μ(A) = 0 auch alle Teilmengen B ⊆ A in T liegen. Lemma 3.12. Ist μ auf dem Semiring T additiv, dann gilt für A , B , B \ A ∈ T A ⊆ B ∧ |μ(A)| < ∞ ⇒ μ(B \ A) = μ(B) − μ(A) (Subtraktivität) . (3.8) Beweis. Aus B = A ∪ (B \ A) folgt μ(B) = μ(A) + μ(B \ A) , und wegen μ(A) ∈ R kann man μ(A) von beiden Seiten subtrahieren und erhält so (3.8). Lemma 3.13. Ist μ ein Inhalt auf einem Semiring T , so gilt für A, B ∈ T A ⊆ B ⇒ μ(A) ≤ μ(B)
(Monotonie) .
(3.9)
Beweis. Da es disjunkte Mengen C1 , . . . , Ck in T gibt, die auch zu A disjunkt k k sind, sodass B = A ∪ Cj , gilt μ(A) ≤ μ(A) + μ(Cj ) = μ(B) . j=1
j=1
Folgerung 3.14. Ist μ ein endlicher Inhalt auf einem Semiring T , so gilt für alle A, B ∈ T mit B \ A ∈ T μ(B) − μ(A) ≤ μ(B \ A) .
(3.10)
Liegen auch A \ B und A B in T , so gilt |μ(A) − μ(B)| ≤ μ(A B) .
(3.11)
Beweis. Aus A, B ∈ T folgt A∩B ∈ T und daher gilt nach dem obigen Lemma μ(B \ A) = μ(B \ (A ∩ B)) = μ(B) − μ(A ∩ B) ≥ μ(B) − μ(A) . Gilt außerdem A B ∈ T und A \ B ∈ T , so erhält man μ(A B) ≥ μ(A \ B) ≥ μ(A) − μ(B) ∧ μ(A B) ≥ μ(B \ A) ≥ μ(B) − μ(A) . Daraus folgt sofort μ(A B) ≥ |μ(A) − μ(B)| .
3.2 Die Fortsetzung von Inhalten und Maßen auf Ringe Wir werden sehen, dass es ausreicht, eine Maßfunktion auf einem Semiring festzulegen, da das auf dem Semiring T definierte Maß unter sehr allgemeinen Voraussetzungen in eindeutiger Weise auf Rσ (T) fortgesetzt werden kann. Als ersten Schritt wollen wir die Fortsetzung auf R(T) betrachten und zeigen das folgende Lemma.
3.2 Die Fortsetzung von Inhalten und Maßen auf Ringe
31
Lemma 3.15. Ist μ ein Inhalt auf einem Semiring T und sind B1 , . . . , Bn und n m Bi = Cj , so gilt C1 , . . . , Cm zwei Familien disjunkter Mengen aus T mit i=1 n !
μ(Bi ) =
i=1
m !
j=1
(3.12)
μ(Cj ) .
j=1
Beweis. Da T durchschnittsstabil ist, liegen die Bi ∩ Cj in T ∀ i, j und es gilt m n (Bi ∩ Cj ) ∀ i = 1, . . . , n ∧ Cj = (Bi ∩ Cj ) ∀ j = 1, . . . , m . Bi = j=1
i=1
Daraus folgt wegen der Additivität von μ n !
μ(Bi ) =
i=1
m n ! !
μ(Bi ∩ Cj ) =
i=1 j=1
n m ! !
μ(Bi ∩ Cj ) =
j=1 i=1
m !
μ(Cj ).
j=1
Satz 3.16. Ist μ ein Inhalt auf einem Semiring T , so gibt es einen eindeutig bestimmten Inhalt μ auf R(T) , sodass μ(A) = μ(A) ∀ A ∈ T . Ist μ ein Maß, so ist auch μ ein Maß. Ist μ endlich, so ist μ endlich, und, wenn μ σ–endlich ist, dann ist auch μ σ-endlich. Beweis. Ist A ∈ R(T) , so gibt es wegen Satz 2.60 disjunkte Mengen B1 , . . . , Bn n aus T mit A = Bi . Durch i=1
μ(A) :=
n !
(3.13)
μ(Bi )
i=1
wird A ein Wert zugewiesen, der wegen des obigen Lemmas unabhängig von der Zerlegung B1 , . . . , Bn ist. (3.13) definiert demnach eine Mengenfunktion μ auf R(T) , die klarerweise nichtnegativ und additiv ist. Natürlich gilt auch μ(B) = μ(B) ∀ B ∈ T , weshalb μ eine Fortsetzung von μ ist. Es bleibt nur noch die σ–Additivität von μ zu zeigen, wenn μ ein Maß ist. Liegt für eine Folge (An ) disjunkter Mengen aus R(T) auch die VereiniAn in R(T) , so gibt es disjunkte Mengen B1 , . . . , Bm in T , gung A := sodass A =
n∈N m
Bi und daher auch μ(A) :=
i=1
m
μ(Bi ) gilt. Auch für jedes An
i=1
gibt es disjunkte Mengen Cn,1 , . . . , Cn,kn in T , sodass An =
kn
Cn,j =
j=1
Daher gilt μ(An ) =
kn m
(Bi ∩ Cn,j )
mit Bi ∩ Cn,j ∈ T ∀ i, j .
i=1 j=1 kn m i=1 j=1
μ(Bi ∩ Cn,j )
∀ n ∈ N , woraus folgt
(3.14)
32
3 Mengenfunktionen
!
μ(An ) =
(Bi ∩ An ) =
n∈N
μ(Bi ∩ Cn,j ) .
(3.15)
n∈N i=1 j=1
n∈N
Da Bi =
kn m ! !!
kn
(Bi ∩ Cn,j )
∀ i = 1, . . . , m , und, weil μ auf
n∈N j=1 kn
T σ-additiv ist, gilt andererseits μ(Bi ) = Dies ergibt zusammen mit (3.13) μ(A) =
μ(Bi ∩Cn,j )
n∈N j=1 m
μ(Bi ) =
i=1
∀ i = 1, . . . , m .
kn m
μ(Bi ∩Cn,j ) .
i=1 n∈N j=1
Da die Summanden in dieser Gleichung alle nichtnegativ sind, kann man die Summationsreihenfolge auf Grund von Satz A.16 vertauschen. Damit stimmt ihre rechte Seite mit der rechten Seite von (3.15) überein. Also gilt ! μ(A) = μ(An ) . n∈N
Definition 3.17. Ist μ ein Inhalt auf einem Semiring T , so nennt man die gemäß Satz 3.16 auf R(T) definierte Funktion μ die Fortsetzung von μ und schreibt üblicherweise einfach μ statt μ .
3.3 Eigenschaften von Inhalten und Maßen Satz 3.18. Ist μ ein Inhalt auf einem Semiring T und sind A, A1 , . . . , AN N Mengen aus T mit A ⊆ An , so gilt n=1
μ(A) ≤
N !
μ(An )
(Subadditivität) .
(3.16)
n=1
Ist μ ein Maß auf T , so gilt (3.16) auch für abzählbar viele Mengen An aus T . Man spricht in diesem Fall von der σ-Subadditivität von μ . Beweis. Da man μ gemäß Satz 3.16 eindeutig auf R(T) fortsetzen kann, genügt es die obige Aussage für Ringe zu beweisen. N An , dann Sind A, A1 , . . . , AN Mengen aus einem Ring R mit A ⊆ n−1 n=1 liegen auch die Mengen B1 := A ∩ A1 , Bn := A ∩ An \ Ai , n≥2 i=1
in R . Von Lemma 2.17 wissen wir, dass die Bn ⊆ An disjunkt sind, und, dass N N N A= Bn . Daraus folgt μ(A) = μ(Bn ) ≤ μ(An ) . n=1
n=1
n=1
Ist μ ein Maß und (An ) eine abzählbare Überdeckungen von A , so geht der Beweis völlig analog zu oben, wenn man nur N durch ∞ ersetzt.
3.3 Eigenschaften von Inhalten und Maßen
33
Lemma 3.19. Ist μ ein Inhalt auf einem Semiring T und (An ) eine Folge disAn ⊆ A ∈ T , dann gilt junkter Mengen aus T mit n∈N
!
μ(An ) ≤ μ(A) .
(3.17)
n∈N
Beweis. Wir zeigen, dass (3.17) auf R(T) gilt, wenn man μ auf R(T) fortsetzt. Da An ∈ R(T) ∧ An ⊆ A ∀ N ∈ N , folgt aus Lemma 3.13 n≤N
n≤N
(Monotonie) und der Additivität von μ ⎛ ⎞ N ! μ(An ) = μ ⎝ An ⎠ ≤ μ(A) n=1
∀N ∈N ⇒
∞ !
μ(An ) ≤ μ(A) .
n=1
n≤N
σ-additive Mengenfunktionen haben gewisse Stetigkeitseigenschaften Satz 3.20. Ist μ ein Maß auf einem Semiring T und (An ) eine monoton steigende An ∈ T, so gilt Folge von Mengen aus T mit n∈N
μ
An
" # = μ lim An = lim μ(An ) n
n∈N
n
(stetig von unten) .
(3.18)
Beweis. Wie gewohnt setzen wir μ zunächst auf den Ring R(T)fort. Mit A0 := ∅ und Bn := An \ An−1 , n ∈ N gilt A = An = Bn , und die Bn sind disjunkt. Weiters gilt An =
n
n
Bk
n
∀ n ∈ N , und daraus folgt
k=1
μ
Ak
=μ
k∈N
Bk
=
k∈N
∞ !
μ(Bk ) = lim n
k=1
n !
μ(Bk ) = lim μ(An ) . n
k=1
Satz 3.21. Ist μ ein Maß auf einem Semiring T und existiert zu einer monoton fallenden Folge (An ) aus T mit An ∈ T ein n0 , sodass μ(An0 ) < ∞ , so gilt n
μ
An
" # = μ lim An = lim μ(An ) .
n∈N
Wir sagen μ ist in A =
n
(3.19)
n
An stetig von oben.
n∈N
Beweis. μ(An0 ) < ∞ ⇒ μ(An ) < ∞
∀ n ≥ n0 ∧ μ
N
An
< ∞.
Wegen An gilt An0 \ An für n ≥ n0 , sodass aus Satz 3.20 und der Subtraktivität des Maßes (Lemma 3.12) folgt
34
3 Mengenfunktionen
μ(An0 ) − μ
An
" # " # = μ An0 \ (lim An ) = μ lim(An0 \ An ) n
N
n
= lim μ(An0 \ An ) = lim [μ(An0 ) − μ(An )] = μ(An0 ) − lim μ(An ) . n
n
n
Subtrahiert man μ(An0 ) < ∞ auf beiden Seiten, so erhält man (3.19). Das folgende Beispiel zeigt, dass auf die Endlichkeitsvoraussetzung im obigen Satz nicht verzichtet werden kann. Beispiel Sei: T = P(0,$$1), μ(∅) $ 3.22. % %% = 0, μ(A) = ∞ ∀ A = ∅, dann gilt lim 0, n1 = ∅ aber lim μ 0, n1 = ∞ . n
n
Der nächste Satz stellt eine Umkehrung der Sätze 3.20 und 3.21 dar. Satz 3.23. Ein endlicher Inhalt μ auf einem Ring R , der bei jedem A ∈ R stetig von unten ist oder der bei der leeren Menge ∅ stetig von oben ist, ist ein Maß. Beweis. Ist (An ) eine Folge disjunkter Mengen aus R mit A := An ∈ R , so N An ) . Da μ stetig von unten bei A ist, folgt daraus gilt A = lim ( N ∈N n≤N
⎛ μ(A) = lim μ ⎝ N ∈N
⎞ An ⎠ = lim N
n≤N
!
μ(An ) =
∞ !
μ(An ) .
n=1
n≤N
Damit ist der Satz gezeigt, wenn der Inhalt stetig von unten ist. An ∅ Ist μ stetig von oben bei ∅ , so folgt aus BN := A \ n≤N
lim μ(BN ) = 0 . Da μ(A) = μ BN ∪ An = μ(BN ) + μ(An ) für alle N
n≤N
N ∈ N gilt, führt dies zu μ(A) = lim
N n≤N
n≤N
μ(An ) + lim μ(BN ) = N
∞
μ(An ) .
n=1
Wie in Satz 3.21 kann auch für die zweite Aussage von Satz 3.23 nicht auf die Endlichkeit von μ verzichtet werden. Beispiel 3.24. A = {A ⊂ N : |A| < ∞∨|Ac | < ∞}, ist eine Algebra auf Ω = N , 0, |A| < ∞ und die Mengenfunktion μ(A) := ist bei ∅ stetig von oben, ∞, sonst aber sie ist nicht σ–additiv. Anders als in den Sätzen 3.20 und 3.21 benötigt man in 3.23 als Definitionsbereich für μ einen Ring, wie das folgende Gegenbeispiel zeigt: Beispiel 3.25. Auf Ω := Q ∩ (0, 1] bilden die Aba := (a, b] ∩ Ω, 0 ≤ a ≤ b ≤ 1 einen Semiring T , auf dem durch μ(Aba ) := b − a ein endlicher Inhalt definiert wird, der, wie man leicht sieht, stetig von unten und von oben ist.
3.4 Additionstheorem und verwandte Sätze
35
Ist (qn ) eine Durchnummerierung von Ω und ε > 0 , so bilden die Mengen Abaii mit ai := max(0, qi − 2εi ) und bi = min(1, qi + 2εi ) ∀ i ∈ N eine Überdeckung Ω . Wäre μ σ-additiv, so müsste wegen Satz 3.18 gelten von μ(Ω) ≤ μ(Abaii ) ≤ 2 ε . Dies steht im Widerspruch zu μ(Ω) = 1 . μ kann i∈N
also nicht σ-additiv sein. Die Sätze 3.20 und 3.21 können in folgender Weise verallgemeinert werden. Satz 3.26. Ist μ ein endliches Maß auf einem σ–Ring Rσ und (An ) eine Mengenfolge aus Rσ , dann gilt " # μ lim inf An ≤ lim inf μ(An ) ≤ lim sup μ(An ) ≤ μ lim sup An . (3.20) n
n
n
n
Ak gilt Bn lim inf An , folgt aus Satz 3.20 und n # " wegen Bn ⊆ An , dass gilt μ lim inf An = lim μ(Bn ) ≤ lim inf μ(An ) . n n n Ak gilt Cn lim sup An . Da μ endlich ist und gilt Cn ⊇ An , Für Cn := k≥n n folgt daraus nach Satz 3.21 μ lim sup An = lim μ(Cn ) ≥ lim sup μ(An ) . Beweis. Da für Bn :=
k≥n
n
n
n
Dass lim inf μ(An ) ≤ lim sup μ(An ) gilt, ist klar. n
n
Der folgende Satz ist ein wichtiges Hilfsmittel der Wahrscheinlichkeitstheorie. Satz 3.27 (1-tes Lemma von Borel-Cantelli). Ist μ ein Maß auf einem σ–Ring Rσ und (An ) eine Folge von Mengen aus Rσ , dann gilt ∞ !
μ(An ) < ∞
⇒
= 0.
μ lim sup An
(3.21)
n
n=1
Beweis. Aus Satz 3.18 (Subadditivität) und lim sup An ⊆ Ak ∀ n ∈ N n k≥n
Ak ≤ μ(Ak ) ∀ n ∈ N . Damit aber ist folgt μ lim sup An ≤ μ n
k≥n ∞
der Satz bewiesen, denn aus
n=1
k≥n
μ(An ) < ∞ folgt lim
n k≥n
μ(Ak ) = 0 .
3.4 Additionstheorem und verwandte Sätze Dieser Abschnitt enthält einige wichtige Sätze der Wahrscheinlichkeitstheorie. Satz 3.28 (verallgemeinertes Additionstheorem). n Ist μ ein Inhalt auf einem Ring R und sind A1 , . . . , An Mengen aus R mit μ Ai < ∞ , so gilt i=1
36
3 Mengenfunktionen
μ
n
Ai
=
i=1
n !
(−1)
n
μ
1≤i1 0 Mengen Cn ∈ R ∀ n ∈ N mit A ⊆ C := Cn gibt, für die gilt n μ∗ (A) = μ(A) ≤ μ(A) + μ(C \ A) = μ(C) ≤ μ(Cn ) ≤ μ∗ (A) + 2ε . Daraus n∈N μ(Cn ) < ∞, existiert auch ein Nε ∈ N , sodass folgt μ(C \ A) ≤ 2ε . Wegen n>Nε
n∈N
μ(Cn )
Nε
ε 2
.
Es gilt also μ(A Cε ) ≤ ε . Damit ist die erste Aussage des Satzes bewiesen. Ist umgekehrt A ⊆ Ω , ε > 0 , Cε ∈ R mit μ∗ (A Cε ) < ε , und B ⊆ Ω , eine beliebige Menge, so gelten folgende Ungleichungen μ∗ (B ∩ A) ≤ μ∗ (B ∩ A ∩ Cε ) + μ∗ (B ∩ A ∩ Cεc ) ≤ μ∗ (B ∩ Cε ) + μ∗ (A ∩ Cεc ) ≤ μ∗ (B ∩ Cε ) + ε ,
(4.12)
μ∗ (B ∩ Ac ) ≤ μ∗ (B ∩ Ac ∩ Cε ) + μ∗ (B ∩ Ac ∩ Cεc ) ≤ μ∗ (Ac ∩ Cε ) + μ∗ (B ∩ Cεc ) ≤ μ∗ (B ∩ Cεc ) + ε . (4.13) Aus (4.12), (4.13) und wegen der Messbarkeit von Cε folgt μ∗ (B ∩ A) + μ∗ (B ∩ Ac ) ≤ μ∗ (B ∩ Cε ) + μ∗ (B ∩ Cεc ) + 2 ε ≤ μ∗ (B) + 2 ε . Damit ist A ∈ Mμ gezeigt, da ε > 0 beliebig klein sein kann. Definition 4.25. Ein Tripel (Ω, S, μ) bestehend aus einer nichtleeren Menge Ω , einer σ–Algebra S von Teilmengen von Ω und einer Maßfunktion μ auf S , nennt man einen Maßraum. Der Maßraum heißt endlich bzw. σ-endlich, wenn μ endlich bzw. σ-endlich ist. Ein Paar (Ω, S) , bestehend aus einer Menge Ω = ∅ und einer σ–Algebra S von Teilmengen von Ω , heißt Messraum. Die Elemente von S werden manchmal auch messbare Mengen genannt (nicht zu verwechseln mit den messbaren Mengen im Sinne des Fortsetzungssatzes). Falls P ein Wahrscheinlichkeitsmaß ist, nennt man das Tripel (Ω, S, P ) einen Wahrscheinlichkeitsraum und die Mengen aus S werden Ereignisse genannt.
5 Unabhängigkeit
5.1 Die durch ein Ereignis bedingte Wahrscheinlichkeit Da die Begriffe und Ergebnisse dieses Abschnitts üblicherweise in Kursen über elementare Wahrscheinlichkeitsrechnung behandelt werden, stellen wir sie hier nur in aller Kürze vor. Definition 5.1. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und sind A, B ∈ S Ereignisse mit P (B) > 0 , so nennt man P (A | B) =
P (A ∩ B) P (B)
(5.1)
die durch B bedingte Wahrscheinlichkeit von A . Die Wahrscheinlichkeitsverteilung, die jedem A ∈ S die Wahrscheinlichkeit P (A | B) zuordnet, wird die durch B bedingte Wahrscheinlichkeitsverteilung genannt und mit P (. | B) bezeichnet. Bemerkung 5.2. 1. Der Nachweis, dass P (. | B) tatsächlich eine Wahrscheinlichkeitsverteilung auf (Ω, S) ist, ist trivial und kann dem Leser überlassen werden. 2. Aus der obigen Definition folgt sofort die als Multiplikationsregel bekannte Beziehung P (A ∩ B) = P (B) P (A | B) , (5.2) die mit der Vereinbarung P (B)P (A | B) := 0 bei P (B) = 0 für beliebige Ereignisse A, B gilt. 3. Die bedingte Wahrscheinlichkeit gibt an, mit welcher Wahrscheinlichkeit das Ereignis A eintreten wird, wenn man weiß, dass B eingetreten ist. Dementsprechend bedeutet P (A | B) < P (A) , dass B den Eintritt von A eher behindert, während bei P (A | B) > P (A) das Ereignis B den Eintritt von A begünstigt, und bei P (A | B) = P (A) hat B keinerlei Einfluss auf A . Im letzten Fall gilt nach der Multiplikationsregel P (A ∩ B) = P (A) P (B) ,
52
5 Unabhängigkeit
und diese Gleichung wird zur Definition der Unabhängigkeit von Ereignissen verwendet, da sie auch bei P (B) = 0 sinnvoll ist. Definition 5.3. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, so nennt man die Ereignisse (Ai ) i∈I paarweise unabhängig, wenn gilt P (Ai ∩ Aj ) = P (Ai ) P (Aj )
∀ i = j .
(5.3)
Sie heißen unabhängig, wenn für alle endlichen Teilmengen {i1 , . . . , in } ⊆ I gilt ⎛ ⎞ n n
P⎝ Aij ⎠ = P (Aij ) . (5.4) j=1
j=1
Für die Praxis wichtig sind die beiden folgenden Resultate, für die wir noch eine Definition einführen. Definition 5.4. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, so versteht man unter einem vollständigen Ereignissystem eine höchstens abzählbare Zerlegung von Ω durch Mengen Hi ∈ S , d.h. Hi ∩ Hj = ∅ ∀ i = j ∧ Hi = Ω . i
Die Ereignisse Hi werden manchmal auch Hypothesen genannt. Satz 5.5 (Satz von der vollständigen Wahrscheinlichkeit). Ist A ein beliebiges Ereignis und (Hi )i∈I ein vollständiges Ereignissystem auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so gilt ! P (A) = P (Hi )P (A|Hi ) . (5.5) i∈I
Beweis. Da die Mengen Hi ein vollständiges Ereignissystem bilden, folgt aus der σ-Additivität von P und der Multiplikationsregel (5.2)
! ! P (A) = P (A ∩ Ω) = P A ∩ Hi = P (A ∩ Hi ) = P (Hi ) P (A|Hi ) . i∈I
i∈I
i∈I
Satz 5.6 (Bayes’sches Theorem). Ist (Hi )i∈I ein vollständiges Ereignissystem auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und A ein Ereignis mit positiver Wahrscheinlichkeit P (A) > 0 , so gilt P (Hi ) P (A | Hi ) . P (Hi | A) = P (Hj ) P (A | Hj )
(5.6)
j∈I
Beweis. Aus Definition 5.1, der Multiplikationsregel (5.2) und Satz 5.5 folgt P (Hi | A) =
P (A ∩ Hi ) P (Hi ) P (A | Hi ) P (Hi ) P (A | Hi ) = = . P (A) P (A) P (Hj ) P (A | Hj ) j∈I
5.2 Unabhängigkeit von Ereignissystemen
53
5.2 Unabhängigkeit von Ereignissystemen Als nächstes soll der Begriff der Unabhängigkeit auf Familien von Ereignissystemen ausgedehnt werden. Definition 5.7. Eine Familie von Ereignissystemen (Ci )i∈I auf einem Wahrscheinlichkeitsraum (Ω, S, P ) ist unabhängig, wenn für jede endliche Teilmenge {i1 , . . . , in } ⊆ I gilt ⎞ ⎛ n n
P⎝ Aij ⎠ = P (Aij ) ∀ Aij ∈ Cij , j = 1, . . . , n. j=1
j=1
Satz 5.8. Ist (Ci )i∈I eine unabhängige Familie durchschnittsstabiler Systeme auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so sind auch die von den Ci erzeugten σ–Algebren Ai := Aσ (Ci )i∈I unabhängig. Beweis. Wir nehmen o.E.d.A. I ⊆ N an und beweisen den Satz durch vollständige Induktion nach |I| . |I|= 2 : Zu B ∈ S definiert man DB := {A ∈ S : P (A ∩ B) = P (A) P (B)} . Klarerweise gilt Ω ∈ DB , und aus A ∈ DB folgt Ac ∈ DB , denn P (Ac ∩ B) = P (Ω ∩ B) − P (A ∩ B) = P (B)(1 − P (A)) = P (B)P (Ac ) . Ist (An ) eine Folge disjunkter Mengen aus DB , so gilt
! ! P An ∩ B = P (An ∩B) = P (B) P (An ) = P (B)P An . n
n
Daher gilt auch
n
n
An ∈ DB . Somit ist DB ein Dynkin - System.
n
Ist A2 ∈ C2 , so gilt C1 ⊆ DA2 . Daraus folgt D(C1 ) ⊆ DA2 . Wegen Satz 2.77 gilt aber A1 = Aσ (C1 ) = D(C1 ) . Somit gilt für alle A1 ∈ A1 und A2 ∈ C2 , dass P (A1 ∩ A2 ) = P (A1 ) P (A2 ) ⇒ C2 ⊆ DA1 ∀ A1 ∈ A1 . Daraus folgt A2 = Aσ (C2 ) = D(C2 ) ⊆ DA1 ∀ A1 ∈ A1 . Somit gilt P (A1 ∩ A2 ) = P (A1 ) P (A2 )
∀ A1 ∈ A1 , A2 ∈ A2 .
|I|=n → |I|+1 : Die Mengensysteme C˜i := Ci ∪{Ω}, i = 1, . . . , n sind n Ci : Ci ∈ C˜i durchdurchschnittsstabil und daher ist auch Cn1 := i=1
schnittsstabil. Da Cn1 unabhängig von Cn+1 ist, impliziert dies wegen der für |I| = 2 bewiesenen Aussage, dass Aσ (Cn1 ) unabhängig von An+1 ist. ⊆ Cn1 ∀ i = 1, . . . , n und daher auch Ai ⊆ Aσ (Cn1 ). DarNun gilt aber Ci n aus folgt An1 := Ai : Ai ∈ Ai ⊆ Aσ (Cn1 ) . An1 ist deshalb ebenfalls i=1
54
5 Unabhängigkeit
unabhängig von An+1 . Daraus erhält man schließlich unter Berücksichtigung der Induktionsvoraussetzung für alle Ai ∈ Ai
n+1
n n n+1
P Ai = P (An+1 ) P Ai = P (An+1 ) P (Ai ) = P (Ai ) . i=1
i=1
i=1
i=1
Folgerung 5.9. Sind die Ereignisse A1 , . . . , An unabhängig, so sind für jede Menge {i1 , . . . ik } ⊆ {1, . . . , n} auch die Ereignisse Aci1 , . . . , Acik , Aj1 , . . . , Ajn−k mit {j1 , . . . , jn−k } := {1, . . . , n} \ {i1 , . . . ik } unabhängig. Beweis. Das folgt aus Satz 5.8 mit Ci := {Ai } und Aσ (Ci ) = {∅, Ai , Aci , Ω} . Beispiel 5.10 (Eulersche ϕ-Funktion). Die Eulersche ϕ-Funktion ϕ(m) ist für jedes m ∈ N definiert als die Anzahl der zu m teilerfremden Zahlen aus {1, . . . , m} . Wir werden ihren Wert mit Hilfe des obigen Satzes bestimmen. n hj phi i , so gibt es pihi −1 pj = pmi Hat m die Primfaktorzerlegung m = i=1
j =i
Zahlen aus {1, . . . , m} , die durch pi teilbar sind. Bezeichnet man die Menge dieser Zahlen mit Ai und ist P die Gleichverteilung auf {1, . . . , m} , so gilt
phi i −1 P (Ai ) =
n
j=1
Daraus folgt P (Ai1 ∩ . . . ∩ Aik ) = nach Satz 5.8 P
n i=1
Aci
=
n
1 pi
=
h pj j
Aber es gilt auch |Ai1 ∩ . . . ∩ Aik | =
h
pj j
j =i
∀ i = 1, . . . , n.
g ∈{i / 1 ,...,ik }
k
1
j=1
P (Aci ) =
i=1
k
=
pij
h
pg g
h −1
j∈{i1 ,...,ik }
pj j
=
m k pij
.
j=1
P (Aij ) , und dies impliziert
j=1 n "
1−
i=1
1 pi
# .
n
Aci ist aber gera-
i=1
de die Menge der zu m teilerfremden Zahlen aus {1, . . . , m} und wir erhalten + +
n n n + +
1 + c+ c Ai = m ϕ(m) = + Ai + = mP 1− . + + pi i=1 i=1 i=1 Es gibt noch ein 2-tes Lemma von Borel-Cantelli für unabhängige Ereignisse. Satz 5.11 (2-tes Lemma von Borel-Cantelli). Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und sind die Ereignisse (An )n∈N unabhängig voneinander, so gilt ∞ ! n=1
P (An ) = ∞ ⇒ P
lim sup An n
= 1.
5.2 Unabhängigkeit von Ereignissystemen
55
c Ack = Bn mit Bn := Ak und n n k≥n k≥n n P (Bn ) . Aus der Subadditivität (Satz 3.18) folgt P (lim sup An )c ≤
Beweis. Aus (lim sup An )c =
∞
P (An ) = ∞ folgt aber
n=1
∞
n
P (Ak ) = k=n ∞ ln(1−P (Ak ))
∞
n
∀ n ∈ N . Damit erhält man nun −
∞
P (Ak )
= e−∞ = 0 ∀ n ∈ N . c Also gilt P (lim sup An ) = 0 bzw. äquivalent dazu P lim sup An = 1 .
P (Bn ) =
P (Ack )
=e
k=n
≤e
k=n
k≥n
n
n
Definition 5.12. Ist (An )n∈N eine Folge von Ereignissen in einem Wahrschein∞ Aσ (An , An+1 , . . . ) , lichkeitsraum (Ω, S, P ) , so bezeichnet man S∞ := n=1
den Durchschnitt der durch die Teilfolgen (An , An+1 , . . . ) erzeugten σ–Algebren Aσ (An , An+1 , . . . ) , als σ–Algebra der terminalen Ereignisse oder σ–Algebra der asymptotischen Ereignisse (klarerweise ist S∞ eine σ–Algebra). Dementsprechend heißen die Elemente von S∞ terminale oder asymptotische Ereignisse. Terminale Ereignisse sind beispielsweise lim inf An und lim sup An . Ereignisse aus S∞ sind entweder sicher oder unmöglich. Satz 5.13 (Kolmogoroff’sches Null-Eins-Gesetz). Ist (An ) eine Folge unabhängiger Ereignisse in einem Wahrscheinlichkeitsraum (Ω, S, P ) , so gilt A ∈ S∞ ⇒ P (A) = 0 ∨ P (A) = 1 . k n Beweis. Die Ereignissysteme C1 := Aij : {i1 , . . . , ik } ⊆ {1, . . . , n} und j=1 k ∞ Aij : {i1 , . . . , ik } ⊆ {n + 1, n + 2, . . . } sind durchschnittsstaCn+1 := j=1
bil und unabhängig voneinander. Daher ist Aσ (Cn1 ) unabhängig von Aσ (C∞ n+1 ) . ) ist S deshalb unabhängig Wegen S∞ ⊆ Aσ (An+1 , An+2 , . . . ) ⊆ Aσ (C∞ ∞ n+1 n von Cn1 ∀ n ∈ N und daher auch unabhängig von C := C1 . n∈N
Da S∞ und C durchschnittsstabil sind, folgt aus Satz 5.8, dass auch S∞ und Aσ (C) = Aσ (A1 , A2 , . . .) unabhängig sind. Damit ist S∞ ⊆ Aσ (A1 , A2 . . .) unabhängig zu sich selbst. Für A ∈ S∞ gilt daher P (A) = P (A ∩ A) = P (A)2 . Daraus folgt P (A) = 0 ∨ P (A) = 1 .
6 Lebesgue-Stieltjes-Maße
6.1 Definition und Regularität In diesem Abschnitt betrachten wir Maßfunktionen, die auf der σ-Algebra Bk der k-dimensionalen Borelmengen des Rk definiert sind. Definition 6.1. Unter $einer Lebesgue-Stieltjes’schen Maßfunktion versteht man % eine Maßfunktion auf Rk , Bk , die jeder beschränkten Menge aus Bk ein endliches Maß zuordnet. Das System Jk der Zellen des Rk ist bekanntlich ein Semiring. Es genügt also eine Lebesgue-Stieltjes’sche Maßfunktion μ auf diesem Semiring zu definieren. Die Fortsetzung auf Bk ist dann eindeutig. $ % Definition 6.2. Ist μ ein Lebesgue-Stieltjes’sches Maß auf Rk , Bk , so nennt *k von Bk (bzw. Lμ := B , bei k = 1) bezügman die Vervollständigung Lμk := B lich μ das System der μ-Lebesgue-Stieltjes-messbaren Mengen. Da Lebesgue-Stieltjes’sche Maße σ-endlich sind, stimmt Lμk wegen Folgerung 4.22 mit der σ-Algebra Mμ der bezüglich μ messbaren Mengen überein und hängt deshalb im Unterschied zu Bk von μ ab. Zunächst betrachten wir ein paar Regularitätsaussagen, also Sätze über die Approximation des Maßes Lebesgue-Stieltjes-messbarer Mengen durch die Maße offener und abgeschlossener Mengen. $ % Satz 6.3. Ist μ ein Lebesgue-Stieltjes-Maß auf Rk , Lμk , so existieren zu jedem B ∈ Lμk und > 0 eine offene Menge U und eine abgeschlossene Menge A mit A ⊆ B ⊆ U ∧ μ (B \ A) < ∧ μ (U \ B) < . Beweis. Da die endlichen Vereinigungen von linkshalboffenen Zellen einen Ring bilden (siehe Satz 2.60) und auf Grund der Definition des induzierten äußeren Maßes (Def. 4.1) gibt es für jedes B ∈ Lμk mit μ (B) < ∞, und jedes ε > 0 eine Überdeckung durch halboffene Zellen (an , bn ] mit
58
6 Lebesgue-Stieltjes-Maße
μ(B) ≤
!
μ ((an , bn ]) < μ (B) +
n
ε . 2
(6.1)
1 Ist n ∈ N fest, so gilt (an , bn + m ) (an , bn ] und da μ stetig von oben ist (vgl. Satz 3.21), muss es zu jedem ε > 0 ein δn > 0 geben, sodass
μ((an , bn ]) ≤ μ ((an , bn + δn )) ≤ μ ((an , bn ]) + U :=
ε 2n+1
.
(6.2)
(an , bn + δn ) ist offen, B ⊆ U und wegen (6.1) und (6.2) gilt
n
μ(B) ≤ μ(U ) ≤
!
!
μ ((an , bn + δn )) ≤
n
μ ((an , bn ])+
n
! n
ε ≤ μ (B)+ε . 2n+1
Da μ(B) ≤ μ(U ) < ∞ , folgt daraus μ (U \ B) = μ (U ) − μ (B) ≤ ε . Gilt hingegen μ (B) = ∞ , so kann man B wegen der σ-Endlichkeit der Lebesgue-Stieltjes-Maße in Mengen Bn mit μ(Bn ) < ∞ ∀ n ∈ N zerlegen, und, wie oben gezeigt, gibt es zu jedem Bn eine offene Obermenge Un mit μ(Un \ Bn ) ≤ 2εn . Un ist daher eine offene Obermenge von B und es gilt n
μ
Un \ B
≤
n
!
μ (Un \ B) ≤
n
! n
μ (Un \ Bn ) ≤
! ε = ε. 2n n
Damit ist die Aussage über die Approximation von μ(B) durch die Maße offener Obermengen gezeigt. Daher existiert aber auch zu B c ein offenes V mit B c ⊆ V und ε ≥ μ(V \ B c ) = μ(V ∩ B) = μ(B \ V c ) . Da A := V c ⊆ B abgeschlossen ist, beweist dies auch den zweiten Teil des Satzes. Folgerung 6.4. Ist μ ein Lebesgue-Stieltjes-Maß auf (Rk , Lμk ) ,so sind die folgenden Bedingungen äquivalent 1. B ∈ Lμk . 2. Es gibt eine Folge (An ) abgeschlossener Teilmengen und eine Folge (Un ) offe1 ner Obermengen von B , mit μ(U n \ An ) ≤ n . 3. Es gibt eine Vereinigung A := An abzählbar vieler abgeschlossener Menn gen und einen Durchschnitt U := Un abzählbar vieler offener Mengen n
mit A ⊆ B ⊆ U ∧ μ(U \ A) = 0. Beweis.
1 . 1. ⇒ 2. : Dies folgt unmittelbar aus dem vorigen Satz 6.3 mit ε = 2n 1 ⊆ B ⊆ U mit μ(U \ A ) ≤ aus Punkt 2. 2. ⇒ 3. : Für die Mengen A n n n n n gilt An ⊆ A := An ⊆ B ⊆ U := Un ⊆ Un ∀ n ∈ N . Daraus folgt n
μ(U \ A) ≤ μ(Un \ An ) ≤
n
1 n
∀ n ∈ N ⇒ μ(U \ A) = 0 .
6.2 Verteilungsfunktionen auf R
59
3. ⇒ 1. : Da nach Lemma 2.59 alle offenen und abgeschlossenen Mengen Borel-messbar sind, gilt A, U ∈ Bk . Daraus folgt wegen B \ A ⊆ U \ A *k = Lμ . und μ(U \ A) = 0 sofort B = A ∪ (B \ A) ∈ B k Folgerung 6.5. Für jedes B ∈ Lμk gilt μ (B) = inf{μ (U ) : B ⊆ U, U ist offen} = sup{μ (A) : A ⊆ B, A ist abgeschlossen} = sup{μ (C) : C ⊆ B, C ist kompakt} .
(6.3) (6.4) (6.5)
Beweis. Es bleibt nur μ (B) = sup{μ (C) : C ⊆ B , C kompakt} zu zeigen. Zu jedem M < μ (B) existiert eine abgeschlossene Menge AM ⊆ B mit μ (AM ) > M. Die Mengen AM ∩[−n, n] , n ∈ Nk sind alle kompakt und bilden eine mit n monoton gegen AM steigende Folge. Wegen Satz 3.20 gibt es daher ein n0 ∈ Nk , sodass μ (AM ∩ [−n0 , n0 ]) > M, woraus folgt μ (B) = sup{μ (C) : C ⊆ B ,
C ist kompakt}.
Bemerkung 6.6. Man nennt Mengen, für die (6.3) gilt, oft von außen regulär und Mengen, die (6.5) erfüllen, von innen regulär. Gelten beide Beziehungen heißt die Menge regulär, und das Maß μ ist regulär, wenn alle Elemente der σ-Algebra, auf der μ definiert ist, regulär sind.
6.2 Verteilungsfunktionen auf R Als erstes wollen wir nun die Lebesgue-Stieltjes-Maße auf (R, B) untersuchen. Ist μ eine derartige Maßfunktion, so wird durch μ ((0, x]) , x ≥ 0 F (x) := sgn(x) μ ((0 ∧ x, 0 ∨ x]) = (6.6) −μ ((x, 0]) , x < 0 eine Funktion F : R → R definiert mit μ ((a, b]) = F (b)−F (a)
∀ a ≤ b ∈ R.
Definition 6.7. Ist μ ein Lebesgue-Stieltjes-Maß auf (R, B) , so bezeichnet man eine Funktion F : R → R als Verteilungsfunktion von μ , wenn gilt μ ((a, b]) = F (b) − F (a)
∀ a ≤ b ∈ R.
(6.7)
Wie wir gesehen haben, gibt es zu μ mindestens eine Verteilungsfunktion F . Das nächste Lemma zeigt, welcher Zusammenhang zwischen verschiedenen Verteilungsfunktionen F und G von μ besteht Lemma 6.8. Sind F und G zwei Verteilungsfunktionen eines Lebesgue-StieltjesMaßes μ auf (R, B) , so gibt es eine Konstante c ∈ R , sodass gilt F − G = c . Beweis. Aus μ ((a, b]) = F (b) − F (a) = G(b) − G(a) folgt F (b) − G(b) = c := F (a) − G(a)
∀ a < b.
60
6 Lebesgue-Stieltjes-Maße
Verteilungsfunktionen haben folgende Eigenschaften. Satz 6.9. Ist F die Verteilungsfunktion eines Lebesgue-Stieltjes-Maßes μ auf (R, B) , so gilt 1. F ist monoton steigend, d.h. x < y ⇒ F (x) ≤ F (y) , 2. F ist rechtsstetig, d.h. F+ (x) := lim F (x + hn ) = F (x) hn 0
∀ x ∈ R.
Beweis. ad 1. Für x < y gilt F (y) − F (x) = μ((x, y]) ≥ 0 . ad 2. Mit hn 0 gilt (x, x + hn ] (x, x] = ∅ , woraus wegen Satz 3.21 folgt lim (F (x + hn ) − F (x)) = lim μ((x, x + hn ]) = μ(∅) = 0 .
n→∞
n→∞
Bemerkung 6.10. Bezeichnet man mit F− (x) := lim F (x−h) den linksseitigen h 0 Grenzwert von F im Punkt x , so gilt wegen {x} = (x − n1 , x] und Satz 3.21 n
μ({x}) = lim μ (x − n
1 , x] n
= F (x) − F− (x)
∀ x ∈ R.
(6.8)
F ist daher in x genau dann linksstetig und damit auch stetig, wenn μ ({x}) = 0 . Wir zeigen nun, dass die beiden, im vorigen Satz aufgelisteten Eigenschaften Verteilungsfunktionen auf R charakterisieren. Satz 6.11. Ist F : R → R monoton steigend und in allen Punkten rechtsstetig, so gibt es eine eindeutig bestimmte Lebesgue-Stieltjes’sche Maßfunktion μF auf (R, B) , für die gilt μF ((a, b]) = F (b) − F (a) ∀ a ≤ b . Beweis. Mit μF ((a, b]) := F (b) − F (a) wird eine Mengenfunktion auf dem System J der linkshalboffenen Intervalle definiert, für die gilt μF (∅) = μF ((x, x]) = F (x) − F (x) = 0 , μF ((x, y]) = F (y) − F (x) ≥ 0 ∀ (x, y] ∈ J .
(6.9) (6.10)
Sind (a1 , b1 ] , (a2 , b2 ] zwei disjunkte Intervalle, deren Vereinigung wieder ein Intervall ist, so muss gelten b1 = a2 ∨ b2 = a1 . Nimmt man o.E.d.A. an, dass b1 = a2 , so gilt (a1 , b1 ] ∪ (a2 , b2 ] = (a1 , b2 ] , und daraus folgt μF ((a1 , b1 ] ∪ (a2 , b2 ]) = F (b2 ) − F (a1 ) = F (b2 ) − F (a2 ) + F (a2 ) − F (a1 ) = F (b2 ) − F (a2 ) + F (b1 ) − F (a1 ) = μF ((a2 , b2 ]) + μF ((a1 , b1 ]) . (6.11) Gemäß (6.9), (6.10), (6.11) und Satz 3.4 ist μF ein Inhalt auf J und es bleibt nur noch die σ-Additivität zu zeigen. Ist ((an , bn ]) eine Folge disjunkter Intervalle, mit (a, b] = (an , bn ], so n∈N
gilt wegen Lemma 3.19
6.3 Das Lebesgue-Maß auf R
F (b)−F (a) = μF ((a, b]) ≥
!
μF ((an , bn ]) =
n∈N
!
61
(F (bn ) − F (an )) . (6.12)
n∈N
Umgekehrt gibt es wegen der Rechtsstetigkeit von F zu jedem ε > 0 positive Zahlen δ, δn , sodass F (a) ≤ F (a + δ) ≤ F (a) + ε ∧ F (bn ) ≤ F (bn + δn ) ≤ F (bn ) +
ε 2n
∀ n ∈ N. (6.13) (an , bn ] ⊆ (an , bn + δn ) und dem Satz von HeineAus [a + δ, b] ⊆ n∈N
n∈N
Borel (Satz A.32) folgt, dass es ein n0 ∈ N gibt mit (a + δ, b] ⊆ [a + δ, b] ⊆
no
no
(an , bn + δn ) ⊆
n=1
(an , bn + δn ] .
n=1
Somit gilt wegen der Subadditivität von μF (Satz 3.18) und (6.13) μF ((a, b]) = F (b) − F (a) ≤ F (b) − F (a + δ) + ε = μF ((a + δ, b]) + ε n0 n0 ! ! μF ((an , bn + δn ]) + ε = (F (bn + δn ) − F (an )) + ε ≤ n=1
≤
!
n∈N
n=1
! ε (F (bn ) − F (an )) + + ε. 2n
(6.14)
n∈N
Da ε > 0 beliebig ist, folgt aus (6.12) und (6.14) μF ((a, b]) =
μF ((an , bn ]) .
n∈N
6.3 Das Lebesgue-Maß auf R Das wichtigste Lebesgue-Stieltjes-Maß ist das Lebesgue-Maß. Definition 6.12. Das Lebesgue-Stieltjes-Maß λ , das den Intervallen ihre Länge zuordnet, für das also gilt λ((a, b]) = b − a ∀ a ≤ b ,
(6.15)
wird als Lebesgue-Maß bezeichnet. Die σ-Algebra L := Lλ nennt man das System der Lebesgue-messbaren Mengen. Bemerkung 6.13. Dem Lebesgue-Maß entsprechen die Verteilungsfunktionen F (x) = x + c, x, c ∈ R und da diese stetig sind, gilt gemäß Bemerkung 6.10 λ ({x}) = 0 ∀ x ∈ R , sodass (6.15) auch für offene, abgeschlossene und rechtshalboffene Intervalle richtig bleibt. Das Lebesgue’sche Maß hat eine geometrisch interessante Eigenschaft. Es ist translationsinvariant. Es gilt sogar ein wenig mehr.
62
6 Lebesgue-Stieltjes-Maße
Satz 6.14. Für Abbildungen T : R → R der Form T (x) = α x + β mit α = 0 gilt 1. T (B) = {y = α x + β : x ∈ B} ∈ B ⇔ B ∈ B , 2. T (B) ∈ L ⇔ B ∈ L , 3. λ (T (B)) = |α| λ (B) ∀ B ∈ L . Beweis. ad 1. T ist stetig. Daher ist das Urbild T −1 (U ) jeder offenen Menge U offen. Bezeichnet man das System der offenen Mengen mit O , so gilt demnach T −1 (O) ⊆ O . Wegen α = 0 existiert die Umkehrabbildung T −1 , und diese ist ebenfalls stetig. Damit gilt für jede offene Menge U , dass auch (T −1 )−1 (U ) = T (U ) offen ist, d.h. T (O) ⊆ O . Daraus folgt O = T −1 (T (O)) ⊆ T −1 (O) . Somit gilt T −1 (O) = O , woraus nach Lemma 2.59 und Satz 2.63 folgt B = Aσ (O) = Aσ (T −1 (O)) = T −1 (Aσ (O)) = T −1 (B) .
(6.16)
−1 Demnach gilt T (B) ∈B ⇒ % T (T (B)) = B ∈ B . Aber (6.16) impliziert $ −1 auch T (B) = T T (B) = B , sodass auch gilt B ∈ B ⇒ T (B) ∈ B . ad 2. und 3. Die Maße μ1 ((a, b]) := λ (T (a, b]) und μ2 ((a, b]) := |α| λ ((a, b]) stimmen offensichtlich auf dem System J der linkshalboffenen Intervalle überein und damit auch auf B , Demnach gilt
λ (T (B)) = |α| λ (B)
∀ B ∈ B.
(6.17)
Aus B = C ∪ M ∈ L mit C ∈ B, M ⊆ N ∈ B, λ (N ) = 0 folgt T (B) = T (C) ∪ T (M ) ∧ T (M ) ⊆ T (N ) ∧ λ (T (N )) = |α| λ (N ) = 0 . Also gilt B ∈ L ⇒ T (B) ∈ L und λ(T (B)) = λ(T (C)) . Daraus folgt nun λ(T (B)) = λ(T (C)) = |α| λ(C) = |α| λ(B) . Ersetzt man in den obigen Überlegungen T durch T −1 , so führt dies zu B ∈ L ⇒ T −1 (B) ∈ L . Angewendet auf T (B) ergibt sich daraus schließlich T (B) ∈ L ⇒ T −1 (T (B)) = B ∈ L . Das Lebesguesche Maß ist bis auf eine multiplikative Konstante das einzige translationsinvariante Lebesgue-Stieltjes Maß auf (R, B) . Satz 6.15. Ist μ ein translationsinvariantes Lebesgue-Stieltjes Maß auf (R, B) , so gibt es eine Konstante k ≥ 0 , sodass μ (B) = k λ (B)
∀ B ∈ L.
Beweis. Ist A + c := {x + c : x ∈ A} , so gilt für alle m, n ∈ N und q ∈ Q m−1 $ % $$ 1- i q, q + m = 0, n + n + q . Daraus folgt wegen der Translationsn i=0 -% $$ -% $$ invarianz k := μ((0, 1]) = n μ 0, n1 bzw. μ 0, n1 = nk ∀ n ∈ N , was
6.4 Diskrete und stetige Verteilungsfunktionen
weiters zu μ
$$
q, q +
m n
-%
=
m−1 i=0
μ
$$
0, n1 + q +
i m
%
=
mk n
= kλ
$$
q, q +
63 m n
-%
führt. Die beiden Maße μ und k λ stimmen also auf J1,Q dem System der halboffenen Intervalle mit rationalen Endpunkten überein und, da dieses System gemäß Lemma 2.58 B erzeugt, müssen sie auch auf B identisch sein und dementsprechend die gleiche Vervollständigung besitzen, d.h. Lμ = Lk λ . Ist k = 0 , so sind alle B ⊆ R Nullmengen, und es gilt Lμ = Lk λ = P(R) . Für k > 0 gilt nach Satz 6.14 Lμ = Lk λ = L . Bemerkung 6.16. Auch das Zählmaß ζ(A) := |A| ist translationsinvariant, aber ζ ist wegen ζ((a, b]) = ∞ für a < b kein Lebesgue-Stieltjes-Maß. Bemerkung 6.17. Im Abschnitt 1.1 wurde (mit Hilfe des Auswahlaxioms A.2) gezeigt, dass es kein translationsinvariantes Maß auf P(R) geben kann, das den Intervallen ihre Länge als Maß zuordnet. Damit ist klar, dass L ein echtes Teilsystem von P(R) ist, also L ⊂ P(R), L = P(R) . Wir werden später sehen, dass L seinerseits eine echte Obermenge von B ist.
6.4 Diskrete und stetige Verteilungsfunktionen Definition 6.18. Ein Lebesgue-Stieltjes-Maß μ auf (Rk , Bk ) wird diskret genannt, wenn es eine Teilmenge D ⊆ Rk , |D| ≤ ℵ0 gibt, mit μ(D c ) = 0 . Wie das folgende Lemma zeigt, kann man diskrete Lebesgue-Stieltjes-Maße ohne Probleme auf die Potenzmenge fortsetzen. Lemma 6.19. Ist μ ein diskretes Lebesgue-Stieltjes-Maß auf (Rk , Bk ) , so gilt Lμk = P(Rk ) , d.h. alle Mengen sind μ-messbar. 1 (x − , x] in Bk liegen und n n D höchstens abzählbar ist, liegen alle Teilmengen von D in Bk ⊆ Lμk . Voraussetzungsgemäß liegen aber auch alle Teilmengen von D c als μ-Nullmengen in Lμk , und, da Lμk eine σ-Algebra ist, liegen auch alle Vereinigungen einer Teilmenge von D und einer Teilmenge von D c in Lμk . Beweis. Da alle einpunktigen Mengen {x} =
Die Verteilungsfunktionen diskreter Lebesgue-Stieltjes-Maße auf (R, B) können folgendermaßen charakterisiert werden. Lemma 6.20. Eine Funktion F : R → R ist genau dann die Verteilungsfunktion eines diskreten Lebesgue-Stieltjes-Maßes μ auf (R, B) , wenn es eine höchstens abzählbare Menge D und eine Funktion p : D → (0, ∞) gibt mit ! F (b) − F (a) = p(x) < ∞ ∀ a ≤ b . (6.18) x∈(a,b]∩D
64
6 Lebesgue-Stieltjes-Maße
Beweis. ⇒ : Ist μ ein diskretes Lebesgue-Stieltjes-Maß mit |D| ≤ ℵ0 und μ(Dc ) = 0 , so gilt für jede zu μ gehörige Verteilungsfunktion F ! μ({x}) < ∞ ∀ a ≤ b , F (b) − F (a) = μ((a, b]) = μ((a, b] ∩ D) = x∈(a,b]∩D
und p(x) := μ({x}) > 0 ∀ x ∈ D ist die gesuchte Funktion. ⇐: Gilt für F die Gleichung (6.18), so ist F klarerweise monoton und bis auf eine additive Konstante bestimmt. Außerdem gilt für a ∈ R und h > 0 ! F (a + h) − F (a) = p(x) < ∞ . (6.19) x∈(a,a+h]∩D
Mit (a, a + h] ∩ D = {x i : i ∈ I ⊆ N}, gibt es wegen (6.19) zu jedem ε > 0 ein n0 ∈ N , sodass p(xi ) < ε . Mit 0 < δ < min{|a − xi | : 1 ≤ i ≤ n0 } i>n0 p(xi ) < ε , d.h. F ist in jedem Punkt gilt dann F (a + δ) − F (a) ≤ i>n0
rechtsstetig. Deshalb gibt es ein Lebesgue-Stieltjes-Maß μ mit ! p(x) ∀ a ≤ b . μ((a, b]) = F (b) − F (a) =
(6.20)
x∈(a,b]∩D
: i ∈ I1 ⊆ N}, gibt es wegen (6.19) Für x ∈ D und (x − h, x) ∩ D = {xi zu jedem ε > 0 ein n1 ∈ N , sodass p(xi ) < ε . Wählt man δ1 > 0 so, i>n1
dass δ1 < min{|x − xi | : 1 ≤ i ≤ n1 } , dann gilt ! p(xi ) < p(x) + ε . p(x) ≤ F (x) − F (x − δ1 ) ≤ p(x) + i>n1
Daraus und aus (6.8) folgt p(x) = F (x) − F− (x) = μ({x}) ∀ x ∈ D . Desp(x) = μ((a, b]) ∀ a ≤ b . Dies implihalb gilt μ((a, b] ∩ D) = x∈(a,b]∩D
ziert μ((a, b] ∩ D c ) = 0
∀ a ≤ b ⇒ μ(D c ) = lim μ((−n, n] ∩ Dc ) = 0 . n
Demnach ist μ diskret, und wegen F (x) − F− (x) = μ({x}) = 0 hat F nur Unstetigkeitsstellen in D , sodass gilt p(x) , x ∈ D F (x) − F− (x) = μ({x}) = 0, x ∈ Dc .
∀ x ∈ Dc
(6.21)
Definition 6.21. Eine Funktion F : R → R nennt man eine diskrete Verteilungsfunktion, wenn es eine höchstens abzählbare Menge D und eine Funktion p : D → (0, ∞) gibt mit ! F (b) − F (a) = p(x) < ∞ ∀ a ≤ b . (6.22) x∈(a,b]∩D
6.4 Diskrete und stetige Verteilungsfunktionen
65
Bemerkung 6.22. Setzt man F (0) := 0 , so ist (6.22) äquivalent zu ! p(x) ∈ R ∀ b ∈ R . F (b) = sgn(b) x∈(0∧b, 0∨b]∩D
Lemma 6.23. Ist μ ein Lebesgue-Stieltjes-Maß auf (R, B) , so ist die Menge D := {x : μ({x}) > 0} höchstens abzählbar. Beweis. Da Dn := {x ∈ [−n, n] : μ({x}) > n1 } eine beschränkte Menge ist, gilt n1 |Dn | ≤ μ(Dn ) ≤ μ([−n, n]) < ∞ +. Daraus + folgt |Dn | < ∞ ∀ n ∈ N , + + ! + + und daraus ergibt sich schließlich |D| = + Dn + ≤ |Dn | ≤ ℵ0 . + + n
n
Folgerung 6.24. Ist F : R → R eine Verteilungsfunktion, so ist die Anzahl der Sprungstellen D := {x : F (x) − F− (x) > 0} höchstens abzählbar. Beweis. Ist μ das Lebesgue-Stieltjes-Maß von F , so gilt D = {x : μ({x}) > 0} . Satz 6.25. Ist F : R → R eine Verteilungsfunktion, so gibt es eine diskrete Verteilungsfunktion Fd und eine stetige Verteilungsfunktion Fs , sodass (6.23)
F = Fd + Fs . Fd und Fs sind bis auf eine additive Konstante eindeutig bestimmt.
Beweis. Ist μ das zu F gehörige Lebesgue-Stieltjes-Maß, so ist laut Lemma 6.23 D := {x : μ({x}) > 0} = {x : F (x) − F− (x) > 0} höchstens abzählbar, und dementsprechend ist μd (B) := μ(B ∩ D) ∀ B ∈ B ein diskretes Lebesgue-Stieltjes-Maß. Nach Lemma 6.20 ist jede Verteilungsfunktion Fd von μd ebenfalls diskret, wobei entsprechend Gleichung (6.21) gilt μd ({x}) = μ({x}) , x ∈ D (6.24) Fd (x) − Fd− (x) = 0, x ∈ Dc . Auch μs (B) := μ(B ∩ Dc ) ist ein Lebesgue-Stieltjes-Maß. Ist Fs eine Verteilungsfunktion von μs so muss wegen μ = μd + μs klarerweise gelten F (b)−F (a) = Fd (b)−Fd (a)+Fs (b)−Fs (a) ≥ Fs (b)−Fs (a)
∀ a ≤ b , (6.25)
Aus (6.25) folgt Fs (x) − Fs− (x) ≤ F (x) − F− (x) ∀ x ∈ R , und deshalb gilt Fs (x) − Fs− (x) = 0 ∀ x ∈ D c . Weil aber für alle Punkte x ∈ D ebenfalls gilt Fs (x) − Fs− (x) = μ({x} ∩ Dc ) = μ(∅) = 0 , ist Fs auf ganz R stetig. Somit ist (6.23) gezeigt, und es bleibt uns nur noch der Nachweis der Eindeutigkeit. Ist Gd eine diskrete Verteilungsfunktion der Gestalt ! Gd (b) − Gd (a) = q(x) ∀ a ≤ b, q : E → (0, ∞), |E| ≤ ℵ0 x∈(a,b]∩E
66
6 Lebesgue-Stieltjes-Maße
und existiert dazu eine stetige Verteilungsfunktion Gs , mit der zusammen gilt Gd + Gs = F = Fd + Fs , so folgt daraus Gd − Fd = Fs − Gs ist stetig auf R . Das zusammen mit Gleichung (6.24) ergibt μd ({x}) = μ({x}) , x ∈ D Gd (x) − Gd− (x) = Fd (x) − Fd− (x) = (6.26) 0, x ∈ Dc . q(x) , x ∈ E Da andererseits nach (6.21) gilt Gd (x) − Gd− (x) = muss 0, x ∈ Ec , daraus folgen E = D und q(x) = μ({x}) ∀ x ∈ D . Demnach müssen Gd und Fd bis auf eine additive Konstante übereinstimmen. Dann aber muss dies auch für Fs und Gs gelten.
6.5 Wahrscheinlichkeitsverteilungen auf R Ist μ ein endliches Maß auf dem Raum (R, B) , so gilt für alle Punkte x ∈ R F (x) := μ((−∞, x]) ≤ μ(R) < ∞ , und aus F (b) − F (a) = μ((a, b]) ∀ a ≤ b folgt, dass F eine Verteilungsfunktionen von μ ist. Für diese Verteilungsfunktion gilt wegen (−∞, −n] ∅ und (−∞, n] R zusätzlich F (−∞) := lim F (−n) = 0 und F (∞) := lim F (n) = μ(R) . n
n
Insbesondere für Wahrscheinlichkeitsverteilungen P auf (R, B) ist es üblich nur die oben definierten Verteilungsfunktionen zu betrachten. Definition 6.26. Eine Verteilungsfunktion F : R → R , für die zusätzlich gilt F (−∞) := lim F (x) = 0 ,
(6.27)
F (∞) := lim F (x) = 1 ,
(6.28)
x→−∞ x→∞
wird als Verteilungsfunktion im engeren Sinn (i.e.S.) oder als wahrscheinlichkeitstheoretische Verteilungsfunktion bezeichnet. Derartige Verteilungsfunktionen sind offensichtlich eindeutig festgelegt, sodass eine bijektive Beziehung zwischen der Menge der Wahrscheinlichkeitsverteilungen auf (R, B) und den Verteilungsfunktionen i.e.S. besteht. Als nächstes formulieren wir das Analogon von Satz 6.25 für Verteilungen. Satz 6.27. Jede Wahrscheinlichkeitsverteilung P auf (R, B) kann dargestellt werden als Mischung einer diskreten Wahrscheinlichkeitsverteilung Pd und einer Wahrscheinlichkeitsverteilung Ps mit stetiger Verteilungsfunktion P = α Pd + (1 − α) Ps , 0 ≤ α ≤ 1 . Jede Verteilungsfunktion i.e.S. F ist Mischung einer diskreten Verteilungsfunktion i.e.S. Fd und einer stetigen Verteilungsfunktion i.e.S. Fs F = α Fd + (1 − α) Fs , 0 ≤ α ≤ 1 .
6.5 Wahrscheinlichkeitsverteilungen auf R
67
Beweis. Zerlegt man die Verteilung P in ein diskretes Maß μd und ein Maß μs mit stetiger Verteilungsfunktion, also P = μd +μs , so gilt 0 ≤ α := μd (R) ≤ 1 . Für α = 0 hat P selbst eine überall stetige Verteilungsfunktion und man kann P in der Form P = 0 Pd + 1 P anschreiben, wobei Pd ein beliebiges diskretes Wahrscheinlichkeitsmaß ist. Bei α = 1 ist P diskret, und es gilt P = 1 P +0 Ps für jede Wahrscheinlichkeitsverteilung Ps mit stetiger Verteilungsfunktion. Gilt hingegen 0 < α < 1 , so ist Pd := μαd eine diskrete Wahrscheinlichkeitsμs verteilung und Ps := 1−α ist ein Wahrscheinlichkeitsmaß mit stetiger Verteilungsfunktion. Weiters gilt P = α Pd +(1−α) Ps . Sind Fd und Fs die zu Pd und Ps gehörigen Verteilungsfunktionen i.e.S., so gilt auch F = α Fd + (1 − α) Fs . Bemerkung 6.28. Der obige Satz bedeutet, dass man sich jeden Versuch mit Ausgängen aus R als zweistufiges Experiment denken kann, bei dem in der ersten Stufe mit den Wahrscheinlichkeiten α und 1 − α eine der beiden Verteilungen Pd oder Ps ausgewählt wird, und man dann im zweiten Schritt den Versuchsausgang gemäß dieser Verteilung bestimmt. Diskrete Wahrscheinlichkeitsverteilungen Beispiele für diskrete Wahrscheinlichkeitsverteilungen sind Beispiel 6.29 (Alternativ- oder Bernoulliverteilung Bp , 0 ≤ p ≤ 1 ). Bei der Alternativverteilung ist die gesamte Wahrscheinlichkeit auf die Punkte 0, 1 konzentriert, d.h. D = {0, 1}, p (1) = p , p (0) = 1 − p , 0 ≤ p ≤ 1 . Ist p = 0 oder p = 1 , so spricht man von einer Kausalverteilung, einer DiracVerteilung oder auch einer deterministischen Verteilung. Beispiel 6.30 (diskrete Gleichverteilung Dm , m ∈ N ). Bei der diskreten Gleichverteilung haben alle Punkte einer m-elementigen 1 1 , also p(x) = m , x ∈ D. Menge D die gleiche Wahrscheinlichkeit m Beispiel 6.31 (Binomialverteilung Bn,p , n ∈ N , 0 ≤ p ≤ 1 ). Die Binomialverteilung Bn,p gibt die Anzahl der „Einsen“ bei n Ziehungen mit Zurücklegen aus einer Urne mit einem Anteil p an „Einsen“ und einem Anteil 1 − p an „Nullen“ an und ist daher auf die Punkte D = {0, . . . , n} konzentriert mit den Punktwahrscheinlichkeiten n x n−x , x = 0, 1, . . . , n . p (1 − p) p(x) = x Die Bernoulliverteilung ist der Sonderfall der Binomialverteilung mit n = 1 . Beispiel 6.32 (Poissonverteilung Pθ , θ > 0). Die Poissonverteilung ist auf D = N0 konzentriert mit p(x) =
θx −θ e , x!
x ∈ N0 .
Sie dient unter anderem zur Approximation der Binomialverteilung. Wir werden später näher auf diesen Zusammenhang eingehen.
68
6 Lebesgue-Stieltjes-Maße
Beispiel 6.33 (Hypergeometrische Verteilung HA,N −A,n ). Hier enthält die Urne A „Einsen“ und N − A „Nullen“ und die n Ziehungen erfolgen ohne Zurücklegen. Die Anzahl der „Einsen“ in den Ziehungen kann natürlich n und A nicht übersteigen. Andererseits muss diese Anzahl nichtnegativ sein, und die Anzahl der „Nullen“ n − x in den Ziehungen kann nicht größer als N − A werden. Somit D = {max{0, n − N + A}, . . . , min{n, A}} . Man zieht x „Einsen“ gerade dann, wenn bei den Ziehungen aus den A „Einsen“ x Elemente $ %ausgewählt werden und aus den N − A „Nullen“ n − x Elemente. Da es N n Möglichkeiten gibt n Elemente aus N zu wählen, gilt $A% $N −A% p (x) =
x
, $Nn−x %
x ∈ D.
n
Beispiel 6.34 (negative Binomialverteilung neg Bn,p , n ∈ N, 0 ≤ p ≤ 1 ). Die Anzahl der „Nullen“ , die man mit Zurücklegen zieht, bis man n „Einsen“ gezogen hat, wobei die Urne wieder mit einem Anteil p an „Einsen“ und einem Anteil 1 − p an „Nullen“ gefüllt ist. Daher ist in diesem Fall D = N0 . n+x−1 n x (6.29) p (1 − p) , x ∈ N0 . p (x) = n−1 Die negative Binomialverteilung mit n = 1 wird geometrische Verteilung genannt und man verwendet für sie auch die Bezeichnung Gp . Für sie gilt x
p (x) = p (1 − p) ,
x ∈ N0 .
(6.30)
Verteilungen mit stetiger Verteilungsfunktion Viele Verteilungsfunktionen F von Wahrscheinlichkeitsmaßen lassen sich als Integral einer (bis auf endlich viele Punkte) stetigen, nichtnegativen Funktion .x f darstellen, also F (x) = f (t) dt . Die Funktion f wird Dichte genannt, ein −∞
Begriff, der erst später in allgemeinerer Weise definiert wird. Aus der Analysis ist bekannt, dass F dann differenzierbar ist mit F = f . .∞ Wegen F (∞) = 1 muss natürlich auch gelten f (t) dt = 1 . −∞
Beispiel 6.35 (stetige Gleichverteilung auf (a, b) , Ua,b , a < b). 1 Zu f (t) := b−a 1[a,b] (t) erhält man die Verteilungsfunktion ⎧ x 0 und liefert die Verteilungsfunktion 0, x j bezeichnet xji einfach eine leere Teilfolge, also bspw. (x12 , x3 , x4 ) = (x3 , x4 ) . Bei der Betrachtung mehrdimensionaler Verteilungsfunktionen empfiehlt sich die Verwendung des folgenden Begriffs. Definition 6.37. Ist F : Rk → R , i
a, b ∈ Rk , so wird $ i−1 % bi i−1 k k ai F (x) := F ((x1 , bi , xi+1 )) − F (x1 , ai , xi+1 )
als Differenzenoperator (in der i-ten Koordinate) bezeichnet. Für k = 1 schreibt man einfach ba F . Die nächsten Hilfssätze beinhalten wichtige Eigenschaften von
b a
.
Lemma 6.38. Sind F : Rk → R , G : Rk → R Funktionen auf Rk , so gilt i
bi ai (F
+ G) =
i
bi ai F
+
i
bi ai G .
(6.31)
Beweis. Das folgt unmittelbar aus der Definition des Differenzenoperators.. k Lemma der Koordinate xi $ i−16.39. kHängt % F : R → R nicht von F (x1 , xi , xi+1 ) = c ∀ xi ∈ R , so gilt abii F = 0 . i
Beweis. Klar.
ab, d.h.
70
6 Lebesgue-Stieltjes-Maße
Die Operatoren
i
,
j
∀ i = j sind vertauschbar.
Lemma 6.40. Ist F : Rk → R , so gilt ∀ ai , aj , bi , bj ∈ Rk i
bi ai
bj aj F
j
=
j
bj aj
i
bi ai F
.
Beweis. Da nur die Koordinaten i und j betroffen sind, kann man sich auf k = 2 beschränken. 1
b1 a1
2
b2 a2 F
=
1
b1 a1
( F (x1 , b2 ) − F (x1 , a2 ) )
= F (b1 , b2 ) − F (b1 , a2 ) − F (a1 , b2 ) + F (a1 , a2 )
= F (b1 , b2 ) − F (a1 , b2 ) − F (b1 , a2 ) + F (a1 , a2 ) = ab22 ( F (b1 , x2 ) − F (a1 , x2 ) ) = ab22 ab11 F . 2
2
1
Definition 6.41. Ist F : R → R , a, b ∈ R , so bezeichnet man k
k
b aF
:=
k
bk ak
...
1
b1 a1 F
(6.32)
als k-fachen Differenzenoperator. Lemma 6.42. Sind F : Rk → R , G : Rk → R, a, b ∈ Rk , so gilt b a (F
b aF
+ G) =
b aG .
+
Beweis. Dies folgt unmittelbar aus Lemma 6.38. Lemma 6.43. Hängt F : Rk → R von höchstens k − 1 Koordinaten ab, so gilt b aF
= 0.
Beweis. Ist F unabhängig von xi , so gilt
i
bi ai F
= 0 , Daraus folgt
b aF
= 0.
Folgerung 6.44. Sind F : Rk → R, und Hi : Rk → R , i = 1 . . . , k , Funktionen auf Rk , wobei jedes Hi unabhängig vom jeweiligen xi ist, so gilt
k ! b b Hi F+ ∀ a, b ∈ Rk . aF = a i=1
Beweis. Klar. Im Beweis von Lemma 6.40 sieht man, dass in
1
b1 a1
2
b2 a2 F
das Argument von
F alle Vektoren (x1 , x2 ) durchläuft, die mit den Werten a1 oder b1 für x1 und a2 oder b2 für x2 gebildet werden können, wobei das Vorzeichen davon abhängt, ob (x1 , x2 ) eine gerade oder ungerade Anzahl von a-Koordinaten enthält. Beim Übergang zu ab11 ab22 ba33 F muss jeder dieser Vektoren (x1 , x2 ) 1
2
3
einmal um die Koordinate x3 = b3 und einmal um x3 = a3 erweitert werden, wobei sich bei x3 = a3 das Vorzeichen des Summanden umkehrt. Somit
6.6 Verteilungsfunktionen auf Rk
durchläuft das Argument auch in
1
b1 a1
2
b2 a2
3
b3 a3 F
71
alle Vektoren (x1 , x2 , x3 ) ,
die mit xi = ai oder xi = bi , i = 1, 2, 3 gebildet werden können und wieder hängt das Vorzeichen davon ab, ob (x1 , x2 , x3 ) eine gerade oder ungerade Anzahl von a-Koordinaten enthält. Damit ist es nun leicht eine explizite Formel für b a F anzugeben. Satz 6.45. Ist F : Rk → R , a, b ∈ Rk , so gilt b aF
k
!
=
βi
(−1)
i=1
F ( β a + (1 − β) b ) .
(6.33)
β∈{0,1}k
Beweis. b1 k=1 : a1 F (x) = F (b1 ) − F (a1 ) . Damit ist (6.33) trivialerweise erfüllt. k –1 → k : Wegen der Induktionsvoraussetzung gilt " k−1 # b1 bk b F ak aF = ak−1 k 1 ⎛ ⎞ k−1 ! βi %% $$ = abk ⎝ (−1) i=1 F β k−1 ak−1 + (1 − β k−1 )bk−1 , xk ⎠ 1 1 1 1 k
k
β k−1 ∈{0,1}k−1 1 k−1
!
=
(−1) i=1
βi
F
$$
β k−1 ak−1 + (1 − β k−1 ) bk−1 , bk 1 1 1 1
%%
β k−1 ∈{0,1}k−1 1 k−1
!
−
(−1) i=1
βi
F
$$
β k−1 ak−1 + (1 − β k−1 ) bk−1 , ak 1 1 1 1
%%
β k−1 ∈{0,1}k−1 1 k
!
=
(−1)
βi
i=1
F (β a + (1 − β) b) .
β∈{0,1}k
Hilfssatz 6.46.
b aF
=
b aG
∀ a ≤ b ∈ Rk ⇒
Beweis. Für jede Funktion H gilt folgt
b aF
=
k
sgn(bi − ai )
i=1
voraussetzungsgemäß gilt
i
a∨b a∧b F a∨b a∧b F
=
bi ai H
und
b aF
=
b aG
∀ a, b ∈ Rk .
i = sgn(bi − ai ) bbii ∨a H . Daraus i ∧ai k
b sgn(bi − ai ) a∨b aG = a∧b G . Da
a∨b a∧b G
i=1
ist der Hilfssatz damit bewiesen.
Folgerung 6.47. Sind F : Rk → R und G : Rk → R zwei Funktionen mit b b k aF = a G ∀ a ≤ b ∈ R , so gibt es zu jedem i ∈ {1, . . . , k} eine von xi k unabhängige Funktion Hi : Rk → R , sodass gilt F − G = Hi . i=1
72
6 Lebesgue-Stieltjes-Maße
Beweis. Aus der Voraussetzung, dem obigen Hilfssatz 6.46 und Satz 6.45 folgt, dass für jedes x ∈ Rk gilt 0=
x 0 (F
− G)
!
= F (x) − G(x) +
β∈{0,1}k :
!
= F (x) − G(x) +
(−1) βi ≥1
(−1)
βi
k−1 β1 =1, β k 2 ∈{0,1}
(F − G)(β 0 + (1 − β) x)
01
/
+
(F − G)(β 0 + (1 − β) x)
βi
−H1 (x)
k !
!
i=2
k−i β i−1 =0,βi =1,βk 1 i+1 ∈{0,1}
(−1)
/
βi
2
(F − G)(β 0 + (1 − β) x) .
01
−Hi (x)
2
% $ Wegen β 0 + (1 − β) x = xi−1 , 0 , (1 − β ki+1 ) xki+1 ist jeder Summand in 1 Hi (x) unabhängig von xi . Hilfssatz 6.48. Ist μ ein Lebesgue-Stieltjes-Maß auf (Rk , Bk ) , so gilt ⎞ ⎛ k
⎝ sgn(xj ) μ ((0 ∧ x, 0 ∨ x])⎠ ∀ a ≤ b . μ ((a, b]) = b a
(6.34)
j=1
Beweis. Für jedes B ∈ Bk−1 wird durch μB (A) := μ(A × B) , A ∈ B ein Lebesgue-Stieltjes-Maß auf (R, B) definiert. Damit gilt wegen (6.6) und (6.7) μ((a, b] × B) = μB ((a, b]) = sgn(b)μB ((0 ∧ b, 0 ∨ b]) − sgn(a)μB ((0 ∧ a, 0 ∨ a]) (6.35) = ba sgn(x) μB ((0 ∧ x, 0 ∨ x]) = ba sgn(x) μ ((0 ∧ x, 0 ∨ x] × B) . Ist a ≤ b , so ergibt (6.35) mit (ak , bk ] und B := (ak−1 , bk−1 ] 1 1 % $ % $ , bk−1 ] = abkk sgn(xk ) μ (0 ∧ xk , 0 ∨ xk ] × (ak−1 , bk−1 ] . μ (ak , bk ] × (ak−1 1 1 1 1 k
Aus (6.35) mit (ak−1 , bk−1 ] und B := (0 ∧ xk , 0 ∨ xk ] × (ak−2 , bk−2 ] folgt 1 1 μ((a, b]) =
k
bk ak
bk−1 ak−1
k−1
k
$ % sgn(xj )μ (0 ∧ xkk−1 , 0 ∨ xkk−1 ] × (ak−2 , bk−2 ] . 1 1
j=k−1
Unter der Annahme, dass gilt μ ((a, b]) =
k
bk ak
. . . abi+1 i+1 i+1
k
$ % sgn(xj ) μ (0 ∧ xki+1 , 0 ∨ xki+1 ] × (ai1 , bi1 ] ,
j=i+1
i−1 liefert (6.35) angewandt auf (ai , bi ] und B := (0∧xki+1 , 0∨xki+1 ]×(ai−1 1 , b1 ]
6.6 Verteilungsfunktionen auf Rk
μ ((a, b]) =
k
bk ak
...
i
bi ai
k
73
$ % i−1 sgn(xj ) μ (0 ∧ xki , 0 ∨ xki ] × (ai−1 1 , b1 ] ,
j=i
und Induktion von k nach 1 führt schließlich zu ⎞ ⎛ k
⎝ μ ((a, b]) = b sgn(xj ) μ ((0 ∧ x, 0 ∨ x])⎠ . a j=1
Definition 6.49. Eine Funktion F : Rk → R heißt rechtsstetig im Punkt x , wenn zu jedem ε > 0 ein δ > 0 existiert, sodass für alle y ≥ x gilt !y − x! < δ ⇒ |F (y) − F (x)| < ε . Die Funktion heißt rechtsstetig, wenn sie rechtsstetig für alle x ∈ Rk ist. Beispiel 6.50. f (x, y) := xy 1{0<x≤y} (x, y)+ xy 1{0 0 Werte δ , δˆ > 0 , sodass + + + + + b + + b+δˆ + ∧ + b F+ < ε. (6.38) + aF − b a+δ F + < ε aF − a Beweis. Weil F rechtsstetig ist, gibt es zu jedem β ∈ {0, 1}k und ε > 0 ein δ(β) > 0 , sodass | F (β a + (1 − β) b ) − F ( β (a + δ (β) ) + ( 1 − β) b ) | < 2εk . Mit δ := min{δ(β) : β ∈ {0, 1}k } ergibt sich daraus unter Berücksichtigung von Satz 6.45 und der Dreiecksungleichung die linke Ungleichung in (6.38). Die rechte Ungleichung beweist man völlig analog.
6.6 Verteilungsfunktionen auf Rk
75
Satz 6.56. Ist F eine Verteilungsfunktion auf Rk , so wird durch μ((a, b]) :=
b aF
∀a≤b
ein Lebesgue-Stieltjes-Maß auf (Rk , Bk ) definiert. Beweis. Klarerweise gilt μ(∅) = μ((a, a]) = aa F = 0 . Sind (a, b], (c, d] zwei disjunkte Zellen, deren Vereinigung wieder eine Zelle ist, dann kann nach Lemma 6.54 o.B.d.A. angenommen werden, dass gilt a1 ≤ b1 = c1 ≤ d1 ∧ ak2 = ck2 ∧ bk2 = dk2 . Die Vereinigung ergibt sich daher zu (a, b] ∪ (c, d] = (a1 , d1 ] × (ak2 , bk2 ] , und es gilt bk bk 3 μ((a, b] ∪ (c, d]) = ak2 ad11 F = ak2 F ((d1 , xk2 )) − F ((a1 , xk2 )) 2 1 2 bk 3 bk 3 = ak2 F ((d1 , xk2 )) − F ((c1 , xk2 )) + ak2 F ((b1 , xk2 )) − F ((a1 , xk2 )) 2
=
bk d1 2 c1 F ak 2 1
2
+
bk b1 2 a1 F ak 2 1
(6.39)
= μ((c, d]) + μ((a, b]) .
Gemäß Satz 3.4 ist damit die Additivität von μ auf Jk bewiesen. Sind nun (an , bn ] , n ∈ N disjunkte Zellen mit (a , b] = (an , bn ] , so n
gibt es nach Lemma 6.55 zu jedem ε > 0 und n ∈ N ein δn > 0 mit μ((an , bn ]) ≤ μ((an , bn +δn )) ≤ μ((an , bn +δn ]) ≤ μ((an , bn ])+
ε . (6.40) 2n
Außerdem gibt es dann auch ein δ > 0 , sodass μ((a, b]) ≥ μ([a + δ, b]) ≥ μ((a + δ, b]) ≥ μ((a, b]) − ε . (6.41) Nun gilt [a + δ, b] ⊆ (an , bn + δn ) und wegen des Satzes von Heine-Borel n
(Satz A.32) gibt es ein N ∈ N , sodass (a + δ, b] ⊆ [a + δ, b] ⊆
N
(an , bn + δn ) ⊆
n=1
N
(an , bn + δn ] .
n=1
Daraus folgt unter Berücksichtigung von (6.40) und (6.41) μ((a, b]) − ε ≤ μ([a + δ, b]) ≤
N !
μ((an , bn + δn ]) ≤
n=1
Deshalb gilt μ((a, b]) ≤
!
μ((an , bn ]) + ε .
n∈N
μ((an , bn ]) . Damit ist die σ-Additivität von μ μ((an , bn ]) gilt. gezeigt, da nach Lemma 3.19 auch μ((a, b]) ≥ n∈N
n∈N
76
6 Lebesgue-Stieltjes-Maße
Bemerkung 6.57. 1. Sind Fi , i = 1, . . . , k Verteilungsfunktionen auf R , so ist ihr Produkt k F (x) := Fi (xi ) , x ∈ Rk eine Verteilungsfunktionen auf Rk , denn klai=1
rerweise ist F rechtsstetig, und es gilt b aF
=
k
(Fi (bi ) − Fi (ai )) ≥ 0
∀ a ≤ b.
i=1
2. F (x1 , x2 ) = x1 x2 erzeugt das 2-dimensionale Lebesgue-Maß λ2 auf (R2 , B2 ). Man beachte, dass F für x2 < 0 in x1 monoton fällt und umgekehrt. 3. Das Lebesgue-Maß λ2 auf ([0, 1]2 , B2 ∩ [0, 1]2 ) kann man erzeugen durch ⎧ 0, x 1 < 0 ∨ x2 < 0 ⎪ ⎪ ⎪ ⎪ ⎨ x1 x2 , 0 ≤ xi ≤ 1 0 ≤ x1 ≤ 1 , x2 > 1 F (x1 , x2 ) = x1 , ⎪ ⎪ , x1 > 1 , 0 ≤ x2 ≤ 1 x ⎪ 2 ⎪ ⎩ 1, x1 > 1 , x 2 > 1 . Aber gemäß Folgerung 6.44 ist auch G(x1 , x2 ) = F (x1 , x2 ) − x1 − x2 eine Verteilungsfunktion von λ2 und G ist auf [0, 1]2 in jeder Variablen monoton fallend. Dementsprechend müssen mehrdimensionale Verteilungsfunktionen in keiner Koordinate monoton wachsend sein.
6.7 Wahrscheinlichkeitsverteilungen auf (Rk , Bk ) Der Zusammenhang zwischen k-dimensionalen Wahrscheinlichkeitsmaßen und ihren Verteilungsfunktionen wird im untenstehenden Satz beschrieben. Satz 6.58. Ist P eine Wahrscheinlichkeitsverteilung auf (Rk , Bk ) , so ist die Funktion FP (x) := P ((−∞, x]) eine Verteilungsfunktion von P , für die gilt 1.
lim
min xi →−∞
FP (x1 , . . . , xk ) = 0 ,
i
2.
lim
min xi →∞
FP (x1 , . . . , xk ) = 1 ,
i
3. FP ist monoton wachsend, d.h. x ≤ y ⇒ F (x) ≤ F (y) . FP ist die einzige Verteilungsfunktion von P mit Eigenschaft 1. Ist umgekehrt F eine Verteilungsfunktion mit den Eigenschaften 1. und 2., so definiert P ((−∞, x]) := F (x) ein Wahrscheinlichkeitsmaß auf (Rk , Bk ) . Beweis. Die Punkte 1. und 2. ergeben sich unmittelbar aus den Sätzen 3.21 und 3.20 (Stetigkeit von oben bzw. von unten), da aus min xi → −∞ folgt i
lim(−∞, x] = ∅ , und min xi → ∞ andererseits lim(−∞, x] = Rk impliziert. i
6.7 Wahrscheinlichkeitsverteilungen auf (Rk , Bk )
77
Punkt 3. ist auf die Monotonie von P zurückzuführen, und die Rechtsstetigkeit von FP folgt aus Satz 3.21, da gilt yn x ⇒ (−∞, yn ] (−∞, x] . k
F, (x) := sgn(xi ) P ( (0 ∧ x, 0 ∨ x] ) ist bekanntlich eine Verteilungsfunki=1
tion von P , und aus (6.34) zusammen mit (6.33) folgt FP (x) = lim P ((−n, x]) = lim x−n F, n→∞ n→∞ ! = F, (x) + lim (−1) βi F,(−β n + (1 − β) x) (6.42) n→∞
β∈{0,1}k :
/
βi ≥1
01
2
S
Wegen
βi ≥ 1 ist kein Summand in S von allen Koordinaten xi abhängig
i
b b, und daher liefert Folgerung 6.44 a FP = a F ≥ 0 ∀ a ≤ b . Somit ist F eine Verteilungsfunktion von P . Ist F umgekehrt eine Verteilungsfunktion von P , so gilt für alle x ∈ Rk
P ( ( −∞ , x ]) = lim P ( ( −n , x ]) = lim x−n F n→∞ n→∞ ! (−1) βi F (−β n + (1 − β) x) . (6.43) = F (x) + lim n→∞
β∈{0,1}k :
/
βi ≥1
01
2
S
Erfüllt F Bedingung 1., so konvergieren sämtliche Summanden in S gegen 0 , da mindestens eine Koordinate gegen −∞ strebt. Daher folgt aus (6.43) F (x) = P ( ( −∞ , x ]) ∀ x ∈ Rk , und damit ist dieses F die einzige Verteilungsfunktion von P , die Bedingung 1. erfüllt. Ist F eine beliebige Verteilungsfunktion, so gibt es bekanntlich ein zu F gehöriges Lebesgue-Stieltjes-Maß P . Wenn nun F der Bedingung 1. genügt, so gilt, wie wir oben gesehen haben, F (x) = P ( ( −∞ , x ]) ∀ x ∈ Rk . Daraus folgt P (Rk ) = lim P ((−∞ , n ] ) = lim F (n) , d.h. P ist ein Wahrscheinn→∞
n→∞
lichkeitsmaß, wenn F auch noch Bedingung 2. erfüllt. Lemma 6.59. Eine monoton steigende Funktion F : Rk → R ist genau dann rechtsstetig, wenn F in jeder Variablen rechtsstetig ist. Beweis. Rechtsstetige Funktionen sind auch in jeder Variablen rechtsstetig. Ist andererseits F in jeder Variablen rechtsstetig und a ∈ Rk , so gibt es wegen der Rechtsstetigkeit von F in x1 zu ε > 0 ein δ˜1 > 0 , sodass + + ε + + +F (a) − F ((a1 + δ˜1 , ak2 ))+ < . k Da F auch in x2 rechtsstetig ist, gibt es auch ein δ˜2 > 0 , sodass + ε + + + +F ((a1 + δ˜1 , ak2 )) − F ((a1 + δ˜1 , a2 + δ˜2 , ak3 ))+ < . k
78
6 Lebesgue-Stieltjes-Maße
Setzt man dieses Verfahren fort, erhält man schließlich ein δ˜k > 0 , sodass + + + ˜k−1 , ak )) − F ((ak1 + δ˜k1 ))++ < ε . + δ +F ((ak−1 1 1 k Aus der Dreiecksungleichung zusammen mit den obigen Ungleichungen folgt k + + + ! + + + + ˜i−1 , aki ))++ < ε . + δ +F ((ai1 + δ˜i1 , aki+1 )) − F ((ai−1 +F ((a + δ˜k1 )) − F (a)+ ≤ 1 1 i=1
Auf Grund der Monotonie von F gilt damit auch ∀ y mit 0 ≤ yi ≤ δ := min δ˜j
|F ((a + y)) − F (a)| < ε
1≤j≤k
∀ i = 1, . . . , k .
Lemma 6.60. Eine Funktion F : Rk → R , für die gilt 1. a ≤ b ⇒ b aF ≥ 0 , 2. F ist in jeder Variablen rechtsstetig, F (x1 , . . . , xk ) = 0 , 3. lim min xi →−∞ i
ist eine Verteilungsfunktion auf Rk . Beweis. Aus (6.33) und Punkt 3. folgt für alle x ∈ Rk lim
n→∞
x −n F
!
= F (x) + lim
n→∞
β∈{0,1}k :
/
(−1) βi ≥1
βi
F (−β n + (1 − β) x) = F (x),(6.44)
01
2
S
da in jedem Summanden von S mindestens eine Koordinate gegen −∞ strebt. ∀ a ≤ b wird, wie in Satz 6.56 gezeigt, ein Durch μ( (a, b] ) := b aF Inhalt auf Jk definiert. Da μ gemäß Lemma 3.13, monoton ist, folgt aus x ≤ y auch x−n F = μ( (−n, x] ) ≤ μ( (−n, y] ) = y−n F ∀ n ∈ N mit −n ≤ x . Daraus folgt unter Berücksichtigung von (6.44) weiters F (x) = lim
n→∞
x −n F
≤ lim
n→∞
y −n F
= F (y)
∀ x ≤ y.
(6.45)
Demnach ist F monoton, und, da es auch Bedingung 2. erfüllt, ist es nach Lemma 6.59 rechtsstetig. Somit ist F eine Verteilungsfunktion. Wegen des obigen Lemmas definiert man in der Wahrscheinlichkeitstheorie Verteilungsfunktionen meistens folgendermaßen. Definition 6.61. Eine Funktion F : Rk → R wird als Verteilungsfunktion im engeren Sinn (i.e.S.) oder als wahrscheinlichkeitstheoretische Verteilungsfunktion bezeichnet, wenn gilt
6.7 Wahrscheinlichkeitsverteilungen auf (Rk , Bk )
79
1. a ≤ b ⇒ b aF ≥ 0 , 2. F ist in jeder Variablen rechtsstetig, F (x1 , . . . , xk ) = 0 , 3. lim min xi →−∞ i
4.
lim
min xi →∞
F (x1 , . . . , xk ) = 1 .
i
Bemerkung 6.62. 1. Nach Satz 6.58 besteht eine bijektive Beziehung zwischen den Verteilungsfunktionen i.e.S. auf Rk und den Wahrscheinlichkeitsmaßen auf (Rk , Bk ) . a ≤ b für FP (x) := P ((−∞, x]) auch mit dem 2. Man kann b a F ≥ 0, verallgemeinerten Additionstheorem beweisen, denn mit B := (−∞, b] und k
(−∞, bj ] gilt (a, b] = B \ Ai . Daraus folgt Ai := (−∞, ai ] × i=1
j =i
0 ≤ P ((a, b]) = P (B) −
k !
(−1)j−1
Wegen P (B) = F (b) und P
P
1≤i1 0 liefert daraus λ2 (Kα ,β ,0 ,r ) = β−α 2 r für den Kreisringsektor Kα ,β ,r1 ,r2 = Kα ,β ,0 ,r2 \ Kα ,β ,0 ,r1 mit 0 ≤ r1 ≤ r2 und 0 ≤ α ≤ β ≤ 2 π bekommt man schließlich λ2 (Kα ,β ,r1 ,r2 ) =
(β − α) (r22 − r12 ) 2
(6.53)
Es sei noch erwähnt,dass die Kreisringsektoren einen Semiring i.e.S. K auf R2 bilden, denn ∅ = Kα ,β ,r ,r , der Durchschnitt zweier Kreisringsektoren ist ein Kreisringsektor und für Kα ,β ,r1 ,r2 ⊆ Kγ ,δ ,R1 ,R2 mit γ ≤ α ≤ β ≤ δ und R1 ≤ r1 ≤ r2 ≤ R2 bilden C1 := Kγ ,α ,r1 ,r2 , C2 := Kβ ,δ ,r1 ,r2 und C3 := Kγ ,δ ,R1 ,r1 , C4 := Kγ ,δ ,r2 ,R2 eine „Leiter“, sodass für 1 ≤ m ≤ 4 gilt m 4 Ci ∈ K ∧ Kα ,β ,r1 ,r2 ∪ Ci = Kγ ,δ ,R1 ,R2 . Kα ,β ,r1 ,r2 ∪ i=1
i=1
Abb. 6.3. Semiring der Kreisringsektoren: B\A =
4 i=1
Ci
7 Messbare Funktionen - Zufallsvariable
7.1 Definition und Eigenschaften Bei der Durchführung eines Versuches interessieren uns oft nicht alle Einzelheiten des Ausgangs, stattdessen will man häufig nur ein bestimmtes Merkmal betrachten. So wird beispielsweise bei „6 aus 45“ den Spieler weniger sein konkreter Tipp, als vielmehr die Anzahl X der richtigen Zahlen auf seinem Tipp interessieren. Bei einer Gesundenuntersuchung könnten wieder Größe und Gewicht der untersuchten Personen von Bedeutung sein. Ist der Wahrscheinlichkeitsraum (Ω, S, P ) ein Modell für unseren Versuch, so kann man das wesentliche Merkmal durch eine Funktion X von Ω in einen Bildraum Ω beschreiben. Dabei ist Ω meist eine Teilmenge von R oder Rk . Natürlich wird man einer Aussage der Art „X liegt zwischen a und b “ , der die Menge {ω : X(ω) ∈ (a, b)} = X −1 ((a, b)) entspricht, eine Wahrscheinlichkeit zuordnen wollen. Das setzt aber voraus, dass das Urbild X −1 ((a, b)) des Intervalls (a, b) in S liegt für alle a ≤ b . Wegen Lemma 2.58 und Satz 2.63 liegt dann das Urbild X −1 (B) jeder Borelmenge B in S . Man definiert daher: Definition 7.1. Sind (Ωi , Si ) i = 1, 2 zwei Messräume, so nennt man die Funktion f : Ω1 → Ω2 S1 |S2 -messbar, wenn f −1 (A) ∈ S1 ∀ A ∈ S2 . Um auszudrücken, dass eine Funktion f : Ω1 → Ω2 S1 |S2 -messbar ist, werden wir auch die Notation f : (Ω1 , S1 ) → (Ω2 , S2 ) verwenden. Eine wesentliche Voraussetzung für die von Lebesgue stammende Verallgemeinerung des Riemann-Integrals einer Funktion f ist, wie wir in einem späteren Kapitel sehen werden, dass das Lebesgue-Maß der Urbilder von beliebigen Intervallen (oder Zellen – im mehrdimensionalen Fall) gebildet werden kann. Dies veranlasst uns zu folgender Definition. Definition 7.2. Eine Funktion f : Ω → Rk2 , Ω ∈ Lk1 wird Lebesgue-messbar genannt, falls sie Lk1 ∩ Ω|Bk2 -messbar ist. Die Funktion heißt Borel-messbar, wenn sie Bk1 ∩ Ω|Bk2 -messbar ist.
88
7 Messbare Funktionen - Zufallsvariable
Bemerkung 7.3. Da es, wie oben erwähnt, für die Verallgemeinerung des Integralbegriffs ausreicht, den Urbildern der Intervalle und damit den Urbildern der Borelmengen ein Lebesgue-Maß zuzuordnen, verwendet man, sowohl bei der Definition Lebesgue-messbarer Funktionen als auch bei der von Borel-messbaren Funktionen, auf dem Bildraum immer die σ-Algebra Bk2 der Borelmengen. Definition 7.4. ] Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, so nennt man X : (Ω, S) → (Rk , Bk ) eine k-dimensionale Zufallsvariable oder auch einen k-dimensionalen Zufallsvektor. Bei k = 1 spricht man von einer Zufallsvariablen. Bemerkung 7.5. Dem allgemeinen Gebrauch folgend werden wir messbare Funktionen i.A. mit Kleinbuchstaben f, g, h, . . . bezeichnen und Zufallsvariable mit Großbuchstaben X, Y, . . . . Weiters schreiben wir [f ∈ B] für f −1 (B) , [f ≤ x] für f −1 ( (−∞, x] ) , etc., und μ([f ∈ B]) wird oft durch die abgekürzte Form μ(f ∈ B) ersetzt. Lemma 7.6. Ist (Ω, S) ein Messraum, so ist 1A , der Indikator einer Menge A S|B-messbar genau dann, wenn A ∈ S . Beweis. Für jedes B ∈ B gilt
⎧ Ω, ⎪ ⎪ ⎪ ⎨A , 1−1 A (B) := ⎪ c A , ⎪ ⎪ ⎩ ∅,
{0, 1} ⊆ B 1∈B ∧ 0∈ /B 0∈B ∧ 1∈ /B 1 ∈ B ∧ 0 ∈ /B.
Beim Nachweis der Messbarkeit einer Funktion hilft oft der folgende Satz. Satz 7.7. Sind (Ωi , Si ) zwei Messräume und wird S2 durch ein Mengensystem C aus Ω2 erzeugt, also S2 = Aσ (C) , so gilt f : (Ω1 , S1 ) → (Ω2 , S2 ) ⇐⇒ f −1 (C) ⊆ S1 . Beweis. Die eine Richtung ist klar. Wegen Satz 2.63 gilt aber auch Aσ (f −1 (C)) = f −1 (Aσ (C)) = f −1 (S2 ) und damit folgt aus f −1 (C) ⊆ S1 sofort f −1 (S2 ) ⊆ S1 . Folgerung 7.8. Ist (Ω, S) ein Messraum, so ist f : Ω → Rk genau dann, wenn eine der folgenden Bedingungen erfüllt ist 1. 2. 3. 4.
[f [f [f [f
S|Bk -messbar
≤ c] ∈ S ∀ c ∈ Rk , < c] ∈ S ∀ c ∈ Rk , ≥ c] ∈ S ∀ c ∈ Rk , > c] ∈ S ∀ c ∈ Rk .
Beweis. Jede der obigen Bedingungen folgt natürlich aus der S|Bk -Messbarkeit von f . Umgekehrt erzeugt jedes der Mengensysteme {(−∞, c] : c ∈ Rk }, {(−∞, c) : c ∈ Rk }, {[c, ∞) : c ∈ Rk }, {(c, ∞) : c ∈ Rk }, die σ-Algebra Bk . Wegen Satz 7.7 folgt daher auch aus jeder der obigen Bedingungen die S|Bk -Messbarkeit von f .
7.1 Definition und Eigenschaften
89
Folgerung 7.9. Ist f : Rk1 → Rk2 stetig, so ist f Borel-messbar, d.h. f : (Rk1 , Bk1 ) → (Rk2 , Bk2 ) . Beweis. Gemäß Lemma 2.59 erzeugen die offenen Mengen Bk2 und da f stetig ist, ist das Urbild f −1 (U ) jeder offenen Menge U selbst wieder offen und damit ein Element von Bk1 , was wegen Satz 7.7 die Folgerung impliziert. Folgerung 7.10. Ist f : R → R monoton, so ist f Borel-messbar. Beweis. Ist f monoton steigend, so ist das Urbild [f ≤ c] entweder (−∞, a] oder (−∞, a) mit a := sup{ω : f (ω) ≤ c} , und liegt daher in jedem Fall in B . Wegen Folgerung 7.8 reicht dies zum Nachweis der Borel-Messbarkeit von f . Ähnlich verläuft der Beweis für monoton fallendes f . Satz 7.11. f := (f1 , . . . , fk ) : (Ω, S) → (Rk , Bk ) gilt genau dann, wenn fi : (Ω, S) → (R, B) ∀ i = 1, . . . , k . Beweis. Wir verwenden für beide Richtungen Bedingung 1. aus Folgerung 7.8.
k −1 ⇒: f : (Ω, S) → (R , Bk ) ⇒ [fi ≤ ai ] = f R ∈ S. [−∞, ai ] × j =i
⇐ : fi : (Ω, S) → (R, B)
∀ i = 1, . . . , k ⇒ [f ≤ a] =
k
[fi ≤ ai ] ∈ S .
i=1
Die Zusammensetzung messbarer Funktionen ist wieder messbar. Satz 7.12. Sind (Ωi , Si ), i = 1, 2, 3 drei Messräume, so folgt aus f : (Ω1 , S1 ) → (Ω2 , S2 ) und g : (Ω2 , S2 ) → (Ω3 , S3 ) die S1 |S3 -Messbarkeit von g ◦ f , d.h. g ◦ f : (Ω1 , S1 ) → (Ω3 , S3 ). $ % Beweis. B ∈ S3 ⇒ g −1 (B) ∈ S2 ⇒ f −1 g −1 (B) ∈ S1 . Bemerkung 7.13. Ist f : Rk1 → Rk2 Lebesgue-messbar und g : Rk2 → Rk3 Borel-messbar, so ist g ◦ f Lebesgue-messbar. Wenn aber g Lebesgue-messbar ist, so muss g◦f nicht einmal dann Lebesgue-messbar sein, wenn f stetig ist, da dann die Voraussetzungen des obigen Satzes nicht erfüllt sind, denn f ist in diesem Fall Bk1 |Bk2 -messbar und g ist Lk2 |Bk3 -messbar. Folgerung 7.14. Aus fi : (Ω, S) → (R, B),
i = 1, 2
folgt
1. f1 + f2 : (Ω, S) → (R, B), 2. f1 f2 : (Ω, S) → (R, B), 3. f1 ∧ f2 : (Ω, S) → (R, B), 4. f1 ∨ f2 : (Ω, S) → (R, B) . Beweis. Nach Satz 7.11 gilt (f1 , f2 ) : (Ω, S) → (R2 , B2 ) . Die Funktionen s(x1 , x2 ) := x1 + x2 , p(x1 , x2 ) := x1 x2 , min(x1 , x2 ) := x1 ∧ x2 und max(x1 , x2 ) := x1 ∨ x2 sind stetig von R2 → R und daher Borel-messbar. Daraus zusammen mit Satz 7.12 folgen die obigen Aussagen unmittelbar.
90
7 Messbare Funktionen - Zufallsvariable
Definition 7.15. Ist f : Ω → R eine beliebige Funktion, so wird f + := f ∨ 0 als Positivteil von f bezeichnet. f − := −(f ∧ 0) = (−f ) ∨ 0 heißt der Negativteil. Bemerkung 7.16. Klarerweise gilt f = f + − f − , und mit f sind auch f + , f − , |f | := f + + f − , etf , ln(f ) etc. S|B-messbar.
7.2 Erweitert reellwertige Funktionen Es ist oft zweckmäßig Funktionen mit der erweiterten Zahlengeraden R := R ∪ {−∞, ∞} als Wertebereich zu betrachten, wobei für die Rechenoperationen auf R folgende Vereinbarungen getroffen werden: a + ∞ = ∞, a ∈ R ∪ {∞} , a − ∞ = −∞, a ∈ R ∪ {−∞} , ∞ − ∞ = undefiniert ⎧ ⎪ ⎨±∞, a > 0 , a · (±∞) = 0 a = 0, ⎪ ⎩ ∓∞ a < 0 .
(7.1) (7.2) (7.3) (7.4)
Lemma 7.17. B := {B ∪ C : B ∈ B, C ⊆ {−∞, ∞}} ist eine σ-Algebra auf R , deren Spur auf R mit B übereinstimmt, d.h. B ∩ R = B . Beweis.Da offensichtlich gilt R ∈ B , aus Bn ∪ Cn ∈ B ∀ n ∈ N folgt Bn ∪ Cn ∈ B und für B ∪ C ∈ B, B ∈ B, C ⊆ {−∞, ∞} gilt n
n
(B ∪ C)c = (R \ B) ∪ ( {−∞, ∞} \ C ) ∈ B , ist B eine σ-Algebra. Aus der Definition von B folgt sofort B∩ R ⊆ B . Aus B ⊆ B folgt umgekehrt B = B ∩ R ⊆ B ∩ R . Also gilt B = B ∩ R . Definition 7.18. B := {B ∪ C : B ∈ B, C ⊆ {−∞, ∞}} wird als System der erweiterten Borelmengen bezeichnet. Folgerung 7.19. Ist (Ω, S) ein Messraum, so ist f : Ω → R messbar genau dann, wenn eine der folgenden Bedingungen erfüllt ist 1. 2. 3. 4.
[f [f [f [f
≤ c] ∈ S ∀ c ∈ R , < c] ∈ S ∀ c ∈ R , ≥ c] ∈ S ∀ c ∈ R , > c] ∈ S ∀ c ∈ R .
Beweis. Jede der obigen Bedingungen folgt sofort aus der Messbarkeit von f . Aus J := {[−∞, c] : c ∈ R} ⊆ B folgt Aσ (J) ⊆ B . Umgekehrt folgt aus (a, b] = [−∞ , b] \ [−∞ , a] ∈ Aσ (J) ∀ a, b aber B ⊆ Aσ (J) , und wegen {−∞} = [−∞, −n] bzw. {∞} = [−∞, n]c liegen alle C ⊆ {−∞, ∞} n
n
ebenfalls in Aσ (J) , d.h. B ⊆ Aσ (J) . Also gilt B = Aσ (J) .
7.2 Erweitert reellwertige Funktionen
91
Analog zeigt man, dass auch { [−∞ , c) : c ∈ R } , { [c , ∞] : c ∈ R } und {(c , ∞] : c ∈ R } B erzeugen. Damit folgt andererseits nach Satz 7.7 aus jeder der obigen Bedingungen die Messbarkeit von f . Satz 7.20. Zu jeder Folge (fn ) messbarer Funktionen auf einem Messraum (Ω, S) sind sup fn , inf fn , limfn := lim sup fn , limfn := lim inf fn messbar. Beweis. Da für jedes c ∈ R gilt [sup fn ≤ c] = [fn ≤ c] ∈ S und n [inf fn ≥ c] = [fn ≥ c] ∈ S sind sup fn und inf fn messbar. Damit sind auch n lim inf fn = sup inf fk und lim sup fn = inf sup fk messbar. n
k≥n
n
k≥n
Folgerung 7.21. Ist (fn ) eine Folge messbarer Funktionen auf (Ω, S) , so gilt M := [ lim inf fn = lim sup fn ] ∈ S . Beweis. E := [−∞ < limfn < ∞] ∩ [−∞ < limfn < ∞] liegt in S und lim inf fn und lim sup fn sind auf E reellwertige, S ∩ E|B-messbare Funktionen. Wegen Folgerung 7.14 ist auch lim sup fn − lim inf fn S ∩ E|B-messbar. Daher gilt E := [−∞ < limfn = limfn < ∞] = E ∩ [limfn − limfn = 0] ∈ S . M− := [limfn = −∞] , M+ := [ limfn = ∞] liegen auch in S , und dies führt zu M = M− ∪ M+ ∪ E ∈ S . Definition 7.22. Gilt für eine Folge (an ) aus R lim inf an = lim sup an , so bezeichnet man lim an := lim inf an = lim sup an als den Grenzwert der Folge und sagt in diesem Fall, dass der Grenzwert der Folge existiert. Bemerkung 7.23. M := [ ∃ lim fn ] := {ω : lim inf fn (ω) = lim sup fn (ω } , die Menge , auf der der Limes existiert, ist messbar, also M ∈ S , und die Grenzfunktion lim fn ist auf (M, S ∩ M ) messbar. Wir verallgemeinern Folgerung 7.14 auf erweitert reellwertige Funktionen. Satz 7.24. Aus fi : (Ω, S) → (R, B), i = 1, 2 1. 2. 3. 4.
folgt
f1 ∨ f2 : (Ω, S) → (R, B) , f1 ∧ f2 : (Ω, S) → (R, B) , f1 f2 : (Ω, S) → (R, B) , f1 + f2 : (Ω , S ∩ Ω ) → (R, B) mit Ω := [ ∃ f1 + f2 ] := {ω : ( f1 (ω) ∧ f2 (ω) > −∞ ) ∨ ( f1 (ω) ∨ f2 (ω) < ∞ )} ∈ S .
Beweis. 1. und 2. folgen aus Satz 7.20 mit f1 := f1 , fn := f2 , ∀ n ≥ 2 . Damit sind auch die reellwertigen Funktionen fi,n := ( (fi ∨ −n) ∧ n ) , i = 1, 2 messbar für alle n ∈ N . Somit folgt aus 7.14 die Messbarkeit von f1,n f2,n bzw. f1,n + f2,n und dies impliziert wegen Satz 7.20 die Messbarkeit von f1 f2 = lim(f1,n f2,n ) bzw. von f1 + f2 = lim(f1,n + f2,n ) , wobei die n
n
Summe natürlich nur auf Ω sinnvoll ist. Somit sind auch 3. und 4. bewiesen.
92
7 Messbare Funktionen - Zufallsvariable
7.3 Treppenfunktionen Definition 7.25. Ist Ω eine beliebige Menge, so nennt man eine Funktion t : Ω → R Treppenfunktion, wenn es eine endliche Zerlegung A1 , . . . , An von Ω n αi 1Ai (ω) ∀ ω ∈ Ω . und reelle Zahlen α1 , . . . , αn gibt mit t(ω) = i=1
Lemma 7.26. Ist Ω eine beliebige Menge, so ist eine Funktion t : Ω → R genau dann eine Treppenfunktion, wenn es Mengen B1 , . . . , Bm und reelle Zahlen m βj 1Bj . β1 , . . . , βm gibt, sodass t = j=1
Beweis. Die eine Richtung ist klar. Ist umgekehrt B1 , . . . , Bm eine Familie von Mengen mit t = kann man eine disjunkte Zerlegung von Ω bilden mit D(∅) :=
m
βj 1Bj , so
j=1 m
Bjc und
j=1
D(j1 , . . . , jk ) :=
k
Bjh ∩
h=1
g∈{j1 ,...,jk
{j1 , . . . , jk } ⊆ {1, . . . , m} .
Bgc , }c
Sind D1 , . . . , Dn die nichtleeren Elemente dieser Zerlegung, so gilt ⎛ ⎞ m m n ! ! ! ! ! βj 1Bj = βj 1Di = 1Di ⎝ βj ⎠ , j=1
und mit αi := lung t =
n
j: Di ⊆Bj
j=1
i: Di ⊆Bj
βj ,
i = 1, . . . , n erhält man die gewünschte Darstel-
i=1
j: Di ⊆Bj
αi 1Di durch eine endliche Zerlegung.
i=1
Sind die Bj messbar, so natürlich auch die Durchschnitte Di . Bemerkung 7.27. Sind die Mengen Ai bzw. Bj alle messbar, so ist auch die damit gebildete Treppenfunktion messbar. Es ist aber durchaus möglich, dass man eine messbare Treppenfunktion mit Hilfe einer nichtmessbaren Zerlegung darstellen kann, bspw. t ≡ 0 = 0 1A + 0 1Ac mit A ∈ / S . Ist aber {x1 , . . . , xk } mit xi = xj ∀ i = j der Wertebereich einer messbaren Treppenfunktion, so k gilt klarerweise t = xi 1[t=xi ] mit Ai := [t = xi ] ∈ S ∀ 1 ≤ i ≤ k und Ai ∩ Aj = ∅
i=1
∀ i = j , d.h. zu jeder messbaren Treppenfunktion t gibt es eine k eindeutig bestimmte Darstellung der Form t = xi 1Ai mit xi = xj ∀ i = j i=1
und Ai ∈ S
∀ i = 1, . . . , k ; Ai ∩ Aj = ∅
∀ i = j und Ω =
k i=1
Ai .
7.3 Treppenfunktionen
93
Definition 7.28. Ist (Ω, S) ein Messraum und t eine messbare Treppenfunktion darauf mit dem Wertebereich {x1 , . . . , xk }, xi = xj ∀ i = j , so nennt man k t= xi 1[t=xi ] die kanonische Darstellung von t . i=1
Bemerkung 7.29. Von nun an werden folgende Bezeichnungen verwendet, wobei (Ω, S) immer ein Messraum ist. Dabei unterbleibt der Bezug auf (Ω, S) , wenn klar ist, um welchen Messraum es sich handelt M := M(Ω, S) := {f : (Ω, S) → (R, B)} , M+ := M+ (Ω, S) := {f ∈ M : f ≥ 0} , T := T(Ω, S) := {t ∈ M : t ist eine Treppenfunktion} , T + := T + (Ω, S) := {t ∈ T : t ≥ 0} , C := C(Rk ) := {f : Rk → R : f ist stetig} , C+ := C+ (Rk ) := {f ∈ C : f ≥ 0} , Während man in der klassischen Differential- und Integralrechnung Funktionen so durch Treppenfunktionen approximiert, dass man die x-Achse, also den Definitionsbereich, in kleine Intervalle zerlegt und allen Punkten eines jeden dieser Teilintervalle einen konstanten Funktionswert zuordnet, wird bei der im folgenden Satz beschriebenen Approximation der messbaren Funktionen die y-Achse, also der Wertebereich, unterteilt, und es werden jeweils alle Punkte des Definitionsbereichs zu einer Menge zusammengefasst, deren Funktionswerte im selben Intervall der y-Achse liegen. Diese Urbilder können wesentlich komplexer als Intervalle sein. Darin liegt der Schlüssel für die Lebesgue’sche Verallgemeinerung des Integralbegriffs. Satz 7.30. Zu jedem f ∈ M+ (Ω, S) gibt es eine monoton steigende Folge (tn ) aus T + (Ω, S) , sodass f (ω) = lim tn (ω) ∀ ω ∈ Ω . n
Zu jedem f ∈ M(Ω, S) gibt es eine Folge (tn ) aus T(Ω, S) , sodass f (ω) = lim tn (ω) ∀ ω ∈ Ω und | tn | ≤ | f | ∀ n ∈ N . n
Wenn f beschränkt ist, konvergiert (tn ) gleichmäßig gegen f . Beweis. Ist f ∈ M+ , so gilt für die Folge tn , definiert durch n, f (ω) ≥ n tn (ω) := k−1 k−1 , ≤ f (ω) < 2kn , k = 1, . . . , n 2n , 2n 2n tn ≤ tn+1
∀ n ∈ N und lim tn (ω) = f (ω) n
∀ω ∈Ω.
Für f ∈ M kann man den ersten Teil des Satzes auf f + und f − anwenden − + + und und erhält damit Folgen von Treppenfunktionen t+ n und tn mit tn f − + − + − + + t− f . Daraus folgt lim (t − t ) = f − f = f . Wegen t ≤ f und n n n n n
− − + − t− ∀ n ∈ N gilt auch |tn | = t+ = |f | ∀ n ∈ N . n ≤f n + tn ≤ f + f Wenn f durch M beschränkt wird, so gilt |f (ω) − tn (ω)| ≤ 21n ∀ ω ∈ Ω und n ≥ M , d.h. tn konvergiert dann gleichmäßig gegen f .
94
7 Messbare Funktionen - Zufallsvariable
Abb. 7.1. Approximation einer Funktion durch Treppenfunktionen
7.4 Baire-Funktionen Die stetigen Funktionen f : R → R sind gemäß Folgerung 7.9 Borel-messbar. Hat eine Funktionenfolge fn : (R, B) → (R, B) , n ∈ N in jedem Punkt einen Grenzwert f (ω) := lim fn (ω) ∈ R ∀ ω ∈ R , so ist gemäß Bemerkung 7.23 n
die Grenzfunktion f messbar auf (R, B) . Das System der Borel-messbaren Funktionen ist also gegen punktweise Konvergenz abgeschlossen. Zudem enthält es die stetigen Funktionen. Definition 7.31. Das kleinste Funktionensytem B auf R mit C ⊆ B , das zu jeder punktweise konvergenten Funktionenfolge auch die Grenzfunktion enthält, wird als System der Baire-Funktionen bezeichnet. Satz 7.32. Das System B der Baire-Funktionen stimmt mit dem System der Borel-messbaren Funktionen auf R überein. Beweis. Auf Grund der bisherigen Ausführungen ist klar, dass B im System der Borel-messbaren Funktionen enthalten ist. Um die andere Richtung zu zeigen, definiert man zu jedem f ∈ B das System Bf := {g ∈ B : g f ∈ B, g + f ∈ B} , das wegen g ≡ 0 ∈ Bf ∀ f ∈ B stets nichtleer ist. Aus f, g ∈ C ⇒ f g , f + g ∈ C ⊆ B folgt zudem C ⊆ Bf ∀ f ∈ C . Ist nun (gn ) eine punktweise gegen eine Funktion g konvergierende Folge aus
7.5 Subsigmaalgebren
95
Bf , so konvergieren die Folgen (f gn ) und (f +gn ) gegen f g bzw. f +g . Daher liegen diese Funktionen in B , und daraus folgt g ∈ Bf . Somit ist Bf gegen punktweise Konvergenz abgeschlossen. Da Bf für stetiges f auch C enthält, gilt deshalb Bf = B ∀ f ∈ C . Wegen g ∈ Bf ⇔ f ∈ Bg impliziert dies aber C ⊆ Bf ∀ f ∈ B , woraus wieder wegen der Abgeschlossenheit von Bf gegen punktweise Konvergenz folgt Bf = B ∀ f ∈ B , oder anders gesagt, f, g ∈ B ⇒ f g ∈ B ∧ f + g ∈ B . Wegen h ≡ α ∈ B ∀ α ∈ R gilt sogar f, g ∈ B ⇒ α f g + β f + γ g + δ ∈ B ∀ α, β, γ, δ ∈ R .
(7.5)
Demnach ist S := {A : 1A ∈ B} eine Algebra, denn aus (7.5) folgt 1R ≡ 1 ∈ B und 1A , 1B ∈ B ⇒ 1Ac = 1 − 1A ∈ B ∧ 1A∩B = 1A 1B ∈ B . Für jede Folge (An ) aus S gilt daher BN := wegen 1 An = lim 1BN letztlich folgt n
N
∞
N
An ∈ S ∀ N ∈ N , woraus
1
An ∈ S . Somit ist S eine σ-Algebra.
1
1 eine stetige Funktion fn durch Definiert man zu a < b und alle n > b−a ⎧ 0, ω ≤ a ∨ ω > b + n1 ⎪ ⎪ ⎪ ⎨n (ω − a), a < ω ≤ a + n1 fn (ω) := ⎪ 1, a + n1 < ω ≤ b ⎪ ⎪ ⎩ n (b + n1 − ω) b < ω ≤ b + n1 ,
so gilt lim fn = 1(a,b] . Daraus folgt J ⊆ S und damit auch B ⊆ S , d.h. n
1A ∈ B ∀ A ∈ B . Zusammen mit (7.5) impliziert das T ⊆ B . Damit ist der Satz bewiesen, denn gemäß Satz 7.30 gibt es zu jedem f : (R, B) → (R, B) eine Folge (tn ) aus T mit lim tn = f . n
7.5 Subsigmaalgebren Oft kann man den Ausgang eines Versuches nicht direkt beobachten und man muss aus den Werten einer Zufallsvariablen auf den Versuch zurückschließen. Beispielsweise wird ein Arzt versuchen aus verschiedenen Indikatoren, also Zufallsvariablen, wie etwa Körpertemperatur, Blutdruck etc. Rückschlüsse auf die Krankheit eines Patienten zu gewinnen. Es liegt in der Natur der Sache, dass dies je nach Art der Zufallsvariablen zu mehr oder minder starken Informationsverlusten führt. Beispiel 7.33. Der Wurf mit einem Würfel kann beschrieben werden durch (Ω, S, P ) mit Ω = {1, . . . , 6}, S = P(Ω), P (i) = 16 . Angenommen man weiß nur, ob eine gerade oder ungerade Augenzahl gewürfelt wurde, also
96
7 Messbare Funktionen - Zufallsvariable
X(ω) :=
0, 1,
ω ∈ {2, 4, 6} ω ∈ {1, 3, 5} ,
dann kann man aus der Kenntnis von X nicht zwischen {1, 3, 5} und nicht zwischen 2, 4 und 6 unterscheiden. Dies deshalb, weil aus dem Wert von X nur die entsprechende Urbildmenge ermittelt werden kann, aber nicht welcher Ausgang aus dieser Menge zum beobachteten Wert der Zufallsvariablen geführt hat. In unserem Beispiel kommen dafür nur die Mengen ∅ , Ω , {2, 4, 6} , {1, 3, 5} in Betracht. Die Urbilder bilden eine σ-Algebra S(X) , die wesentlich gröber als S ist. Kennt man auch den Wert der Zufallsvariable Y mit 0, ω ≤ 3 Y (ω) := 1, ω > 3 , so kann man etwa aus X = 0 und Y = 0 schließen, dass der Würfel die Augenzahl 2 gezeigt hat, aber bei X = 1 und Y = 0 , kann man nicht zwischen 1 und 3 unterscheiden. Die „kleinsten Mengen“ der σ-Algebra S(X, Y ) sind die Urbilder [ X = 0 , Y = 0 ] = {2} , [ X = 0 , Y = 1 ] = {4, 6} , sowie [ X = 1 , Y = 0 ] = {1, 3} und [ X = 1 , Y = 1 ] = {5} . Alle anderen Elemente von S(X, Y ) sind Vereinigungen dieser Mengen. Daher gilt für jedes A ∈ S(X, Y ) beispielsweise 4 ∈ A ⇔ 6 ∈ A oder 1 ∈ A ⇔ 3 ∈ A . Definition 7.34. Ist S eine σ-Algebra auf Ω , so nennt man ω und ω S-äquivalent, wenn ω ∈ A ⇔ ω ∈ A ∀ A ∈ S . Wie man leicht sieht, wird dadurch eine Äquivalenzrelation auf Ω definiert, und intuitiv ist klar, dass die zugehörige Klassenzerlegung umso feiner wird, je „reichhaltiger“ S ist. Ist Ω1 eine beliebige Menge, (Ω2 , S2 ) ein Messraum und f : Ω1 → Ω2 , so ist die σ-Algebra f −1 (S2 ) in jeder σ-Algebra S enthalten, bezüglich der f S|S2 -messbar ist, d.h. aus f : (Ω, S) → (Ω2 , S2 ) folgt f −1 (S2 ) ⊆ S . Definition 7.35. Ist Ω1 eine Menge, (Ω2 , S2 ) ein Messraum und f : Ω1 → Ω2 , so nennt man S(f ) := f −1 (S2 ) die von f erzeugte σ-Algebra. Beispiel 7.33 hat veranschaulicht, dass eine Zufallsvariable X auf einem Messraum (Ω1 , S1 ) umso weniger Information über (Ω1 , S1 ) enthält, je „gröber“ S(X) im Vergleich zu S1 ist. Beispiel 7.36. Bei einem zweistufigen Versuch wird zunächst gewürfelt. Die Augenzahl X des Würfels bestimmt dann, wie oft eine Münze geworfen wird. Mit Y wird die Anzahl der „Adler“ im Verlauf dieser Münzwürfe bezeichnet. Diesen Versuch kann man in geeigneter Weise beschreiben durch den Messraum (Ω, P(Ω)) mit Ω := {(x, y) : x ∈ {1, . . . , 6} , y ∈ {0, . . . , x} } . Ein Beobachter, der nur y kennt, kann nicht entscheiden, welcher Ausgang aus [Y = y] = {(y, y), . . . , (6, y)} zum Ergebnis y geführt hat. Da S(Y ) aus den Vereinigungen der Ereignisse [Y = y], 0 ≤ y ≤ 6 besteht, sind diese gerade die Äquivalenzklassen der S(Y )-äquivalenten Ausgänge.
7.5 Subsigmaalgebren
97
Das folgende Beispiel zeigt, wie sich der Informationsverlust, der entsteht, wenn man Messwerte einer Versuchsreihe der Größe nach ordnet, in der Struktur der entsprechenden Subsigmaalgebra widerspiegelt, wobei wir der Einfachheit halber annehmen, dass nur zwei Messwerte erhoben werden. Beispiel 7.37. Auf (Ω, S) := (R2 , B2 ) ist die Funktion f : (R2 , B2 ) → (R2 , B2 ) definiert durch f ((ω1 , ω2 )) := (ω1 ∧ ω2 , ω1 ∨ ω2 ) ∀ ω := (ω1 , ω2 ) ∈ R2 . Ein Beobachter, der f kennt, kennt zwar die Werte der Koordinaten von ω ∈ R2 , aber er weiß nicht in welcher Reihenfolge sie auftreten. Bezeichnet man für eine Teilmenge A ⊆ R2 mit AS die an der Geraden ω2 = ω1 gespiegelte Menge, also AS = {(ω1 , ω2 ) : (ω2 , ω1 ) ∈ A} , so gilt 01 S A = T (A) , wobei der nichtsingulären Transformation T die Matrix 10 S entspricht. Gemäß Satz 6.68 gilt daher A ∈ B2 genau dann, wenn A ∈ B2 . Offensichtlich gilt f ((ω1 , ω2 )) ∈ B ⇔ f ((ω2 , ω1 )) ∈ B ∀ B ∈ B2 , oder anders ausgedrückt ω ∈ f −1 (B) ⇔ ω ∈ (f −1 (B))S .Dies ist gleichbedeutend zu f −1 (B) = (f −1 (B))S ∀ B ∈ B2 ⇒ S(f ) ⊆ C := {A ∈ B2 : A = AS } . Ist A ∈ C und definiert man H durch H := {(ω1 , ω2 ) : ω1 ≤ ω2 } , so gilt (A ∩ H)S = AS ∩ H S = A ∩ H S ⊇ A ∩ H c . Daraus folgt A = A ∪ AS ⊇ (A ∩ H) ∪ (A ∩ H)S ⊇ (A ∩ H) ∪ (A ∩ H c ) = A , und dies impliziert f −1 (A ∩ H) = (A ∩ H) ∪ (A ∩ H)S = A ⇒ C ⊆ S(f ) . Somit ist S(f ) gerade die σ-Algebra C , der zur 45◦ -Geraden symmetrischen Borelmengen, und zwei Punkte sind S(f )-äquivalent, wenn sie durch Spiegelung an dieser Geraden ineinander übergehen Definition 7.38. Ist Ω eine beliebige Menge, (Ωi , Si ), i ∈ I eine Familie von Messräumen und fi : Ω → Ωi , i ∈ I eine Familie von Funktionen auf Ω , so nennt man die kleinste σ-Algebra S(fi : i ∈ I) , bezüglich der alle fi S(fi : i ∈ I)|Si -messbar sind, die von (fi )i∈I erzeugte σ-Algebra. Bemerkung 7.39. Offensichtlich gilt die folgende Beziehung
S(fi ) = Aσ fi−1 (Si ) . S(fi : i ∈ I) = Aσ i∈I
(7.6)
i∈I
Man kann die σ-Algebren S(fi ) = fi−1 (Si ) in (7.6) durch die Urbilder von Erzeugendensystemen Ci ersetzen, wie der folgende Satz zeigt.
fi−1 (Ci )
Satz 7.40. Sind (fi )i∈I Abbildungen von Ω in Messräume (Ωi , Si ), i ∈ I und gilt für die Mengensysteme Ci , i ∈ I jeweils Si = Aσ (Ci ) , dann gilt
−1 fi (Ci ) . S := S(fi : i ∈ I) = Aσ i∈I
98
7 Messbare Funktionen - Zufallsvariable
Beweis. Wegen
fi−1 (Ci )
i∈I
⊆
fi−1 (Si )
gilt Aσ
i∈I
%
$
fj−1 (Sj ) = fj−1 (Aσ (Cj )) = Aσ fj−1 (Cj ) ⊆ Aσ
fj−1 (Sj )
fi−1 (Ci )
⊆ S.
i∈I
Umgekehrt folgt aus Satz 2.63
fi−1 (Ci )
fi−1 (Ci )
∀j ∈ I.
i∈I
Deshalb gilt ⊆ Aσ . Daraus folgt unmittelbar j∈I i∈I
−1 −1 S = Aσ fj (Sj ) ⊆ Aσ fi (Ci ) , womit der Satz bewiesen ist. j∈I
i∈I
Wie der nächste Satz zeigt, ist jede S(f )-messbare, reellwertige Abbildung eine Funktion von f und enthält deshalb nicht mehr Information als f selbst. Satz 7.41. Für f : (Ω1 , S1 ) → (Ω2 , S2 ) und g : Ω1 → R gilt g : (Ω1 , f −1 (S2 )) → (R, B) ⇔ ∃ h : (Ω2 , S2 ) → (R, B) : g = h ◦ f . Beweis. Dass die Zusammensetzung g = h ◦ f einer S2 |B-messbaren Funktion h mit f f −1 (S2 )|B-messbar ist, folgt unmittelbar aus Satz 7.12. Ist hingegen g eine f −1 (S2 )-messbare Treppenfunktion mit der kanonin schen Darstellung g := αi 1Ai , Ai ∈ f −1 (S2 ) ∀ 1 ≤ i ≤ n , so gibt es zu i=1
jedem Ai ein Cˆi ∈ S2 : Ai = f −1 (Cˆi ) . Gäbe es zu ω ∈ Cˆj ∩ Cˆk , j = k ein ω ∈ Ω1 mit f (ω) = ω , so müsste wegen Ai = f −1 (Cˆi ) gelten ω ∈ Aj und ω ∈ Ak . Das wäre ein Widerspruch zu Aj ∩ Ak = ∅ . Daher sind die Ai auch i−1 ˆ Urbilder der disjunkten Mengen C1 := Cˆ1 und Ci := Cˆi \ Cj , i ≥ 2 , d.h. j=1
Ai = f
−1
(Ci )
∀ 1 ≤ i ≤ n , Definiert man h durch h :=
n
αi 1Ci , so gilt
i=1
h(f (ω)) =
n ! i=1
αi 1Ci (f (ω)) =
n !
αi 1f −1 (Ci ) (ω) =
i=1
n !
αi 1Ai (ω) = g(ω) .
i=1
Damit ist die andere Richtung für Treppenfunktionen gezeigt. Zu jeder f −1 (S2 )-messbaren Funktion g gibt es eine Folge von Treppenfunktionen (tn ) aus T(Ω1 , f −1 (S2 )) mit g(ω) = lim tn (ω) , und zu jedem tn n
gibt es ein hn : (Ω2 , S2 ) → (R, B) mit tn = hn ◦f . Dies bedeutet aber, dass gilt g(ω) = lim tn (ω) = lim hn (f (ω)) , d.h. für ω2 := f (ω) konvergiert (hn (ω2 ) ) . n n 8 9 Daraus folgt f (Ω1 ) ⊆ M := ω2 ∈ Ω2 : ∃ lim hn (ω2 ) . Nach Folgerung 7.21 n ˆ := lim hn gilt, wie in Bemerkung 7.23 festggeliegt M in S2 , und für h n ˆ 2 ), ω2 ∈ M h(ω ˆ stellt, h : (M, S2 ∩ M ) → (R, B) . Somit ist h(ω2 ) := /M 0, ω2 ∈
7.6 Unabhängige Zufallsvariable
99
die gesuchte, auf ganz Ω2 definierte, S2 |B-messbare Funktion, für die gilt ˆ (ω)) = h ◦ f (ω) ∀ ω ∈ Ω1 . g(ω) = lim hn (f (ω)) = h(f n
7.6 Unabhängige Zufallsvariable Die folgende Definition ist konsistent zu Definition 5.7. Definition 7.42. Eine Familie von Zufallsvektoren (Xi )i∈I auf einem Wahrscheinlichkeitsraum (Ω, S, P ) wird als unabhängig bezeichnet, wenn die Subsigmaalgebren S(Xi ), i ∈ I unabhängig sind. Bemerkung 7.43. Die Koordinaten der Xi müssen nicht unabhängig sein. Satz 7.44. Sind Xi : (Ω, S) → (Rki , Bki ), i ∈ I unabhängige Zufallsvektoren auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und sind die Funktionen Ti : (Rki , Bki ) → (Rgi , Bgi ) ∀ i ∈ I messbar, so sind die zusammengesetzten Abbildungen Ti ◦ Xi , i ∈ I unabhängig. Beweis. Die obige Aussage folgt sofort aus S(Ti ◦ Xi ) ⊆ S(Xi )
∀i∈I.
Satz 7.45. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, so ist die Familie der Zufallsvariablen (Xi )i∈I auf (Ω, S, P ) unabhängig genau dann, wenn eine der untenstehenden Bedingungen für alle {i1 , . . . , im } ⊆ I erfüllt ist ⎛ ⎞ m m
% $ ∀ Bj ∈ B , 1. P ⎝(Xi1 , . . . , Xim ) ∈ Bj ⎠ = P Xij ∈ Bj j=1
⎛ 2. P ⎝(Xi1 , . . . , Xim ) ∈
m
j=1
⎞
(aj , bj ]⎠ =
j=1
m
$ % P Xij ∈ (aj , bj ]
∀ aj ≤ bj ,
j=1
3. P (Xi1 ≤ a1 , . . . , Xim ≤ am ) =
m
$ % P Xij ≤ aj
∀ aj ∈ R .
j=1
Beweis. Wegen (Xi1 , . . . , Xim ) ∈
m j=1
Bj =
m
[Xij ∈ Bj ] entspricht Punkt 1.
j=1
gerade der Definition der Unabhängigkeit der S(Xi ) . Bedingung 2. folgt aus Bedingung 1. und Bedingung 3. aus Bedingung 2. Schließlich folgt aus Punkt 3. nach Satz 5.8 die Unabhängigkeit der Xi , da die Ci := [Xi−1 (−∞, a] ] durchschnittsstabil sind und die S(Xi ) erzeugen. Lemma 7.46. Eine Folge von Zufallsvariablen Xn auf einem Wahrscheinlichfür alle n ≥ 2 von keitsraum (Ω, S, P ) ist genau dann unabhängig, wenn Xn−1 1 Xn unabhängig ist.
100
7 Messbare Funktionen - Zufallsvariable
Beweis. Die Notwendigkeit der obigen Bedingung ist klar. Um die umgekehrte Richtung zu beweisen, zeigen wir mit vollständiger Induktion, dass gilt
n n
n = P X1 ∈ Bi P ([Xi ∈ Bi ]) . (7.7) i=1
i=1
Wegen P ( (X1 , X2 ) ∈ B1 × B2 ) = P ([X1 ∈ B1 ] ∩ [X2 ∈ B2 ]) =
2
P (Xi ∈ Bi )
i=1
ist (7.7) für n = 2 richtig und, wenn (7.7) für n − 1 gilt, so folgt daraus
n n−1 n
n−1 n X1 ∈ P X1 ∈ Bi = P Bi ∩ [Xn ∈ Bn ] = P (Xi ∈ Bi ) . i=1
i=1
i=1
Damit ist die Gültigkeit von Gleichung (7.7) für alle n ∈ N gezeigt. Ist nun {i1 , . . . , im } eine Teilmenge von N , so wird aus (7.7) mit n := max ij 1≤j≤m
und Bg := R für alle Indizes aus {1, . . . , n} \ {i1 , . . . , im } die Gleichung aus Punkt 1. des vorigen Satzes. Damit ist auch die andere Richtung bewiesen. Definition 7.47. Ein Zufallsvektor X : Ω → Rk auf einem Wahrscheinlichkeitsraum (Ω, S, P ) heißt diskret, wenn sein Wertebereich höchstens abzählbar ist. Lemma 7.48. Ist X ein diskreter Zufallsvektor auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so gilt S(X) = Aσ ({[X = xn ] : n ∈ N}) . [X = xn ] ∀ B ∈ Bk . Beweis. [X ∈ B] = xn ∈B
Für Familien von diskreten Zufallsvariablen kann man Satz 7.45 durch ein einfacheres Unabhängigkeitskriterium ersetzen. Satz 7.49. Eine Familie (Xi )i∈I diskreter Zufallsvariabler auf einem Wahrscheinlichkeitsraum (Ω, S, P ) ist genau dann unabhängig, wenn für alle endlichen Teilmengen {i1 , . . . , im } ⊆ I gilt P ( Xi1 = x1 , . . . , Xim = xm ) =
m
% $ P Xij = xj
∀ xj ∈ R .
j=1
Beweis. Diese Aussage folgt direkt aus Satz 5.8 und Lemma 7.48. Lemma 7.50. Eine Folge diskreter Zufallsvariabler Xn auf einem Wahrscheinlichkeitsraum (Ω, S, P ) ist genau dann unabhängig, wenn P ( X1 = x1 , . . . , Xn = xn ) =
n
j=1
P ( Xi = xi )
∀ xi ∈ R, n ∈ N .
(7.8)
7.7 Verallgemeinertes Null-Eins-Gesetz von Kolmogoroff
Beweis. Sind die Xn unabhängig, so gilt (7.8) gemäß Satz 7.49. und Xn Aus (7.8) folgt andererseits die Unabhängigkeit von Xn−1 1 und damit ist nach Lemma 7.46 auch die Folge (Xn ) unabhängig.
101
∀ n ≥ 2,
Beispiel 7.51 (Unabhängigkeit der Ziffern einer gleichverteilten Zufallszahl). Für b ∈ N, b ≥ 2 und xi ∈ Zb := {0, . . . , b − 1} ∀ i besteht das Intervall n n xi xi 1 , + bn gerade aus den Zahlen ω ∈ [0, 1) , die in der Zahlendarbi bi i=1
i=1
stellung zur Basis b in den ersten n Nachkommastellen die Ziffern x1 , . . . , xn besitzen. Dabei wird die endliche Entwicklung verwendet, wenn ω eine endliche und eine Darstellung besitzt. Daher besteht die Vereinigung n periodische n xi xi 1 , + bn aus allen Zahlen, bei denen die Ziffer xn an bi bi xn−1 ∈Zbn−1 1
i=1
i=1
der n-ten Stelle, die wir mit Xn bezeichnen, steht. n n xi xi Wegen [Xn = xn ] = bi , bi + xn−1 ∈Zbn−1 1
i=1
i=1
∀ xn ∈ Zb sind die
1 bn
Xn messbar auf ([0, 1), B ∩ [0, 1)) und damit Zufallsvariablen auf dem Wahrscheinlichkeitsraum. ([0, 1), B ∩ [0, 1), P = λ) . Weiters gilt für alle xn ∈ Zb
n n ! ! xi ! 1 1 xi bn−1 P (Xn = xn ) = λ , + n = n = . i i b b b b b n−1 n−1 i=1 i=1 x1
∈Zb
Aus [X1 = x1 , . . . , Xn = xn ] =
n i=1
xi bi
P (X1 = x1 , . . . , Xn = xn ) = λ
,
n i=1
xi bi
+
1 bn
folgt
n n ! xi ! xi 1 , + n i i b i=1 b b i=1
und daher gilt P (X1 = x1 , . . . , Xn = xn ) =
n
P (Xi = xi )
=
1 , bn
∀ xi ∈ Zb . Nach
i=1
Lemma 7.50 impliziert dies die Unabhängigkeit der Folge (Xn ) . Die Ziffern einer aus [0, 1) gleichverteilt ausgewählten Zahl, angeschrieben in einem Zahlenssystem mit Basis b ≥ 2 , sind also voneinander unabhängig und nehmen alle möglichen Werte mit gleicher Wahrscheinlichkeit an. Bemerkung 7.52. Bereits in Kapitel 1.1 haben wir für b = 6 gezeigt, dass umgekehrt die Zahl, deren Ziffern aus einer Folge unabhängiger, auf {0, . . . , b − 1} gleichverteilter Zufallsvariabler gebildet werden, auf [0, 1) gleichverteilt ist. Dass dies auch für jede andere Basis b ≥ 2 gilt, sieht man, indem man der in 1.1 beschriebenen Vorgangsweise folgt und dort einfach 6 durch b ersetzt.
7.7 Verallgemeinertes Null-Eins-Gesetz von Kolmogoroff Definition 7.53. Eine einen Maßraum (Ω, S, μ) betreffende Aussage A gilt μ-fast überall (i.Z. μ–fü ), wenn sie bis auf eine μ-Nullmenge gilt. Ist P ein Wahrscheinlichkeitsmaß, so sagt man A gilt P -fast sicher (i.Z. P -fs).
102
7 Messbare Funktionen - Zufallsvariable
Dies bedeutet, dass A jedenfalls auf dem Komplement N c einer Menge N ∈ S mit μ(N ) = 0 gilt, aber A kann auch für einzelne Punkte ω ∈ N gelten, sodass weder die Menge der Punkte, für die A gilt, noch die Menge der Punkte, für die A nicht gilt, messbar sein muss, wenn S nicht μ-vollständig ist. Wie bei Folgen unabhängiger Ereignisse kann man auch für Folgen unabhängiger Zufallsvariabler terminale Ereignisse definieren, für die eine verallgemeinerte Form des Kolmogoroff’schen 0-1-Gesetzes (Satz 5.13) gilt. Definition 7.54. Ist (Xn ) eine Folge unabhängiger Zufallsvariabler auf einem ∞ S(Xn , Xn+1 , ...) Wahrscheinlichkeitsraum (Ω, S, P ), so nennt man S∞ := n=1
die σ-Algebra der terminalen Ereignisse (bzw. der asymptotischen Ereignisse). Satz 7.55 (verallgemeinertes Null-Eins-Gesetz von Kolmogoroff). Ist (Xn ) eine Folge unabhängiger Zufallsvariabler auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so gilt P (A) = 0 ∨ P (A) = 1 ∀ A ∈ S∞ . Beweis. Aus S(X1 , . . . , Xn ) ⊆ S := S(X1 , X2 , . . .) ∀ n ∈ N folgt
∞ ∞ , := Aσ S(X1 , . . . , Xn ) ⊆ S ⇒ S S(X1 , . . . , Xn ) ⊆ S . n=1
(7.9)
n=1
Umgekehrt gilt S(Xn ) ⊆ S(X1 , . . . , Xn ) ∀ n ∈ N ⇒ ∞ , , d.h. S = S ,. S(Xn ) ⊆ S aus folgt S = Aσ
, . DarS(Xn ) ⊆ S
n
n=1
Da S(X1 , . . . , Xn ) und S(Xn+1 , Xn+2 . . . ) voneinander unabhängig sind, ist auch S∞ ⊆ S(Xn+1 , Xn+2 . . . ) unabhängig von S(X1 , . . . , Xn ) ∀ n ∈ N . ∞ ∞ Somit ist S(X1 , . . . , Xn ) unabhängig von S∞ . Da S(X1 , . . . , Xn ) n=1
n=1
durchschnittsstabil ist, folgt daraus nach Satz 5.8, die Unabhängigkeit von S und S∞ . Demnach ist S∞ ⊆ S zu sich selbst unabhängig, also gilt P (A) = P (A ∩ A) = P (A)2 ⇒ P (A) = 0 ∨ P (A) = 1 ∀ A ∈ S∞ . Definition 7.56. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, so nennt man eine σ-Algebra A ⊆ S P -fs trivial, wenn P (A) = 0 ∨ P (A) = 1 ∀ A ∈ A . Lemma 7.57. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, so ist die σ-Algebra A ⊆ S genau dann P -fs trivial, wenn alle A-messbaren Zufallsvariablen X : (Ω, A) → (R, B) P -fs konstant sind. Beweis. Ist A trivial und X A-messbar, so gilt [X < a] ∈ A ∀ a ∈ R , d.h. P (X < a) = 0 ∨ P (X < a) = 1 . Definiert man c durch c := sup {a ∈ R : P (X < a) = 0} , so ist c = −∞ gleichbedeutend zu X = −∞ P –fs und aus c = ∞ folgt X = ∞ P –fs . Für c := sup {a : P (X < a) = 0} ∈ R gilt schließlich P (X < c + n1 ) = 1 ∧ P (X < c − n1 ) = 0
∀ n ∈ N ⇒ P (X = c) = 1 .
7.8 Cantor-Menge und nichtmessbare Mengen
103
Sind umgekehrt die X : (Ω, A) → (R, B) P -fs konstant, so gilt für A ∈ A 1A = 1 P -fs, d.h. P (A) = 1 , oder 1A = 0 P -fs, d.h. P (A) = 0 . Folgerung 7.58. Alle S∞ -messbaren Zufallsvariablen X sind P -fs konstant. Beweis. Dies ergibt sich unmittelbar aus Satz 7.55 und Lemma 7.57. Beispiel 7.59. Wir betrachten die Stichprobenmittelwerte X n := ner Folge von unabhängigen Zufallsvariablen Xn . m ai = 0 Ist (an ) eine Folge aus R , so gilt lim n1 n
lim sup X n ≤ c = n
k∈N nk >m n≥nk
1 n
n
Xi ei-
i=1
∀ m ∈ N . Daraus folgt
i=1
n 1 ! 1 Xi ≤ c + n i=m k
∈ S(Xm , Xm+1 , . . .)
für alle m ∈ N und c ∈ R . Deshalb ist lim sup X n S∞ -messbar. n
In analoger Weise zeigt man, dass lim inf X n ebenfalls terminal ist. Somit n
sind lim sup X n und lim inf X n P -fs konstante Funktionen, weshalb auch gilt n
n
P
lim inf X n = lim sup X n n
" =P
n
# " # ∃ lim X n = 0 ∨ P ∃ lim X n = 1 . n
n
7.8 Cantor-Menge und nichtmessbare Mengen In diesem Abschnitt betrachten wir den Raum [0, 1], λ ) . n−1( [0, 1], B ∩n−1 xi xi + 31n , + 32n ist die Die Vereinigung Cnc := 3i 3i xn−1 ∈{0,1,2}n−1 1
i=1
i=1
Menge aller Zahlen aus [0, 1] , deren n-te Ziffer in jeder triadischen Entwicklung 1 ist. So gehört bspw. 13 = 0.1 = 0.02˙ nicht zu C1c , da die periodische Form eine 0 als erste Ziffer besitzt. Cnc stimmt bis auf die linken Randpunkte seiner Intervalle mit [Xn = 1] aus Beispiel 7.51 überein. Daher unterscheiden n n sich auch die Durchschnitte Cic und [Xi = 1] nur in endlich vielen Punki=1 i=1 n n Cic = λ [Xi = 1] . ten, und es gilt λ (Cnc ) = λ(Xn = 1) bzw. λ Definition 7.60. Die Menge C :=
i=1
i=1
Cn heißt Cantorsche Menge.
n
Die Cantorsche Menge ist also die Menge aller Zahlen aus [0, 1] , die zumindest eine triadische Entwicklung ohne Ziffer 1 besitzen. Satz 7.61. C ist eine überabzählbare, abgeschlossene und nirgends dichte (siehe Definition A.20) Lebesgue-Nullmenge.
104
7 Messbare Funktionen - Zufallsvariable
Abb. 7.2. Iterative Konstruktion der Cantorschen Menge
Beweis. Da die Cnc offen sind, ist C ein Durchschnitt abgeschlossener Mengen und deshalb selbst abgeschlossen. Aus Satz 3.21 und der in Beispiel 7.51 gezeigten Unabhängigkeit der Xi folgt
n
n n 2 λ(C) = lim λ Ci = lim λ [Xi = 1] = lim = 0. n n n 3 i=1 i=1 C ist nirgends dicht, denn jedes Intervall (a, b) mit b − a > 0 enthält für n−1 n−1 xi xi 3 ein Intervall + 31n , + 32n , das in Cnc ⊆ C c liegt. n > b−a 3i 3i Jedem x :=
∞ i=1
i=1
xi 3i
i=1
, xi ∈ {0, 2} aus C wird durch FC (x) :=
eine Zahl aus [0, 1] zugeordnet. Daher ist C überabzählbar.
Abb. 7.3. Graph der Cantorschen Funktion FC
∞ i=1
xi /2 2i
bijektiv
7.9 Konvergenzarten
105
Man kann nun die Existenz nicht-messbarer Mengen zeigen. Satz 7.62. Das Auswahlaxiom vorausgesetzt gilt B ⊂ L ⊂ P(R) . Beweis. Bereits in Kapitel 1.1 wurde, das Auswahlaxiom vorausgesetzt, gezeigt, dass es eine Menge A ⊂ [0, 1] gibt, für die weder λ(A) > 0 noch λ(A) = 0 gelten kann. Daraus folgt A ∈ / L. ∞ yi Ist y := 2i , yi ∈ {0, 1} die Binärdarstellung von y ∈ [0, 1] , so wird i=1
durch
FC−1 (y)
=
∞ i=1
2yi 3i
die Umkehrfunktion von FC gebildet. Wie man leicht
sieht, sind FC und FC−1 monoton und damit nach Satz 7.10 Borel-messbar. Wegen FC−1 : [0, 1] → C gilt FC−1 (A) ⊆ C ⇒ λ(FC−1 (A)) = 0 , d.h. −1 FC (A) ∈ L . Aus FC−1 (A) ∈ B müsste auf Grund der Borel-Messbarkeit von %−1 $ −1 $ $ % % FC−1 folgen FC−1 FC (A) = FC FC−1 (A) = A ∈ B ⊆ L , was im Widerspruch zu A ∈ / L steht.
7.9 Konvergenzarten Auf einem Maßraum (Ω, S, μ) spielt das Verhalten von Funktionen auf einer μ-Nullmenge i.A. keine Rolle. Deshalb werden in diesem Abschnitt die aus der Analysis bekannten Konvergenzarten in geeigneter Weise angepasst. Bemerkung 7.63. Unterscheidet man nicht zwischen Funktionen, die μ–fü gleich sind, so wird dadurch eine Äquivalenzrelation f ∼ g := f = g μ–fü auf M(Ω, S) festgelegt. M(Ω, S, μ) bezeichnet den Raum der damit gebildeten Äquivalenzklassen. Üblicherweise wird in der Notation nicht zwischen Funktionen und den sie enthaltenden Äquivalenzklassen differenziert, d.h. f steht sowohl für eine Funktion, als auch für ihre zugehörige Äquivalenzklasse. Bemerkung 7.64. Manchmal wird auch der Begriff der μ-fast überall messbaren Funktion f verwendet, das ist entsprechend Definition 7.53 eine Funktion, die auf (N c , S ∩ N c ) mit μ(N ) = 0 messbar ist. M(Ω, S, μ) bzw. Mμ , wenn der Bezug auf (Ω, S) klar ist, bezeichnet die Menge der μ-fü messbaren Funktionen. + Entsprechend definiert man M+ μ := M (Ω, S, μ) := {f ∈ Mμ : f ≥ 0 μ–fü} . Dieser Begriff ist jedoch ohne große praktische Bedeutung, da einerseits f˜ := f 1N c auf (Ω, S, μ) messbar ist und μ-fast überall mit f übereinstimmt, und andererseits auf vollständigen Räumen jede μ–fü messbare Funktion auch messbar ist, sodass dort beide Begriffe zusammenfallen. Hinzu kommt, dass auf den besonders wichtigen σ-endlichen Räumen die Voraussetzung der Vollständigkeit wegen Folgerung 4.22 keine wirkliche Einschränkung darstellt. Der Begriff ist manchmal in Integralaussagen zu finden. Als erstes betrachten wir die gleichmäßige Konvergenz.
106
7 Messbare Funktionen - Zufallsvariable
Definition 7.65. Ist (Ω, S, μ) ein Maßraum, so konvergiert eine Folge (fn ) messbarer Funktionen auf diesem Raum gleichmäßig μ-fast überall (bzw. P –fs), wenn es eine μ-Nullmenge N gibt, sodass (fn ) auf N c gleichmäßig konvergiert. Die Folge (fn ) ist eine μ–fü gleichmäßig konvergente Cauchyfolge, wenn sie auf N c eine gleichmäßig konvergente Cauchyfolge ist. Wichtig im Zusammenhang mit dieser Konvergenzart ist der folgende Begriff. Definition 7.66. Eine messbare Funktion f auf einem Maßraum (Ω, S, μ) heißt μ-fast überall beschränkt, wenn es ein c ∈ R gibt mit μ( |f | > c ) = 0 . !f !∞ := ess sup f := inf{ c ∈ R : μ( |f | > c ) = 0 } wird als das essentielle Supremum von f bezeichnet. L∞ := L∞ (Ω, S, μ) := {f ∈ M(Ω, S, μ) : !f !∞ < ∞} , L∞ := L∞ (Ω, S, μ) ist der Raum der Äquivalenzklassen μ–fü gleicher Funktionen aus L∞ . Bemerkung 7.67. Klarerweise gilt |f | ≤ !f !∞
μ-fü.
Wir werden zeigen, dass ! !∞ , wie die Bezeichnungsweise schon vermuten lässt, eine Norm auf L∞ darstellt und die gleichmäßige Konvergenz μ-fü gerade der Konvergenz bezüglich dieser Norm entspricht. Satz 7.68. Ist (Ω, S, μ) ein Maßraum, so ist L∞ (Ω, S, μ) ein Banachraum (siehe Definition A.69), d.h. auf L∞ (Ω, S, μ) gelten folgende Aussagen 1. 2. 3. 4.
!f !∞ = 0 ⇔ f = 0 μ − fü , f ∈ L∞ , α ∈ R ⇒ α f ∈ L∞ ∧ !α f !∞ = |α| !f !∞ , f , g ∈ L∞ ⇒ f + g ∈ L∞ ∧ !f + g!∞ ≤ !f !∞ + !g!∞ , (fn ) konvergiert gleichmäßig μ-fü ⇔ lim !fn − fm !∞ = 0 ,
5.
lim !fn − fm !∞ = 0 ⇔ ∃ f ∈ L∞ : lim !fn − f !∞ = 0 .
n,m→∞
n,m→∞
n→∞
Beweis. ad 1.: Aus f = 0 μ-fü folgt μ( |f | > c ) = $ 0 ∀ c1 >% 0 ⇒ !f !∞ = 0. andererseits μ [|f | > k ] = 0 ∀ k ∈ N . Daher gilt Aus !f !∞ = 0. folgt μ ( [f = 0] ) = μ [ |f | > k1 ] = 0 , also f = 0 μ-fü. k
ad 2.: Dieser Punkt ist offensichtlich. ad 3.: Gemäß Bemerkung 7.67 gilt |f + g| ≤ |f | + |g| ≤ !f !∞ + !g!∞ μ-fü . Daraus folgt f + g ∈ L∞ und !f + g!∞ ≤ !f !∞ + !g!∞ . ad 4.: Konvergiert (fn ) gleichmäßig μ–fü , so gibt es eine μ-Nullmenge N und zu jedem ε > 0 ein nε , sodass für alle ω ∈ N c und n, m ≥ nε gilt |fn (ω) − fm (ω)| ≤ ε ⇒ !fn − fm !∞ ≤ ε . D.h. lim !fn − fm !∞ = 0 . n,m→∞
lim !fn − fm !∞ = 0 , dass es zu jedem k ∈ N n,m→∞ % $ gilt μ |fn −- fm | > k1 = 0 ∀ n, m ≥ nk . Daher ist ein nk gibt, sodass 3 |fn − fm | > k1 eine μ-Nullmenge. Aber auf N c bilden N := Umgekehrt folgt aus
k n,m≥nk
die fn offensichtlich eine gleichmäßig konvergente Cauchy-Folge.
7.9 Konvergenzarten
ad 5.: Gilt
107
lim !fn −fm !∞ = 0 , so gibt es wegen 4. eine μ-Nullmenge N ,
n,m→∞
sodass (fn ) auf N c eine gleichmäßig konvergente Cauchyfolge ist. Daher haben die Folgen (fn (ω)) , ω ∈ N c einen Grenzwert f (ω) := lim fn (ω) . n
Auf Grund der gleichmäßigen Konvergenz von fn auf N c gibt es zu jedem ε > 0 ein nε , sodass |fn (ω) − fm (ω)| < ε ∀ ω ∈ N c ; n, m ≥ nε . Da c der Betrag | | stetig +ist, folgt daraus, dass + für alle ω ∈ N und n ≥ nε + + gilt |f (ω) − fn (ω)| = +lim fm (ω) − fn (ω)+ = lim |fm (ω) − fn (ω)| ≤ ε , d.h. m
m
(fn ) konvergiert auf N c gleichmäßig gegen f . Damit konvergiert (fn ) aber auch gleichmäßig μ-fü gegen+ f˜ :=+ f 1N c . Diese Funktion ist μ–fü + + beschränkt, denn es gilt einerseits +f˜(ω)+ = 0 ∀ ω ∈ N und andererseits + + +˜ + +f (ω)+ = |f (ω)| ≤ |f (ω) − fn (ω)| + |fn (ω)| ≤ ε + !fn !∞ < ∞ ∀ ω ∈ N c . Der Beweis der umgekehrten Implikation ist trivial, denn, wenn es ein f ∈ L∞ mit lim !fn − f !∞ = 0 gibt, so gilt nach Punkt 3. n
!fn − fm !∞ = !fn − f + f − fm !∞ ≤ !fn − f !∞ + !f − fm !∞ → 0 . Das nächste hier vorgestellte Konvergenzkonzept ist die sogenannte μ-fast gleichmäßige Konvergenz, die etwas schwächer als die gleichmäßige Konvergenz μ–fü ist und mit dieser nicht verwechselt werden darf. Definition 7.69. Eine Folge (fn ) messbarer Funktionen auf einem Maßraum (Ω, S, μ) konvergiert μ-fast gleichmäßig, wenn es zu jedem ε > 0 ein Nε ∈ S gibt mit μ(Nε ) ≤ ε , sodass (fn ) auf Nεc gleichmäßig konvergiert. Beispiel 7.70. Auf ([0, 1], B ∩ [0, 1], λ) konvergiert fn (ω) := ω n , n ∈ N nicht gleichmäßig gegen 0 λ-fü, aber die Folge konvergiert auf jedem Intervall [0, 1 − ε], 0 < ε < 1 gleichmäßig. Weil gilt λ((1 − ε, 1]) ≤ ε , konvergiert sie somit λ-fast gleichmäßig gegen 0 . Im folgenden Satz wird eine hinreichende Bedingung für die μ-fast gleichmäßige Konvergenz einer Funktionenfolge vorgestellt. Satz 7.71. Eine Folge (fn ) messbarer, reellwertiger Funktionen auf einem Maßraum (Ω, S, μ) konvergiert μ-fast gleichmäßig, wenn für all ε > 0 gilt ⎛ ⎞ [ |fi − fj | > ε ] ⎠ = 0 . (7.10) lim μ ⎝ m
i,j≥m
Beweis. Zu jedem δ > 0 und alle k ∈ N gibt
es (7.10) zufolge ein mk, sodass
3 3 |fi − fj | > k1 < 2δk ⇒ μ |fi − fj | > k1 < δ. μ i,j≥mk k i,j≥mk 3 Aber auf dem Komplement von Nδ := |fi − fj | > k1 konvergiert k i,j≥mk
108
7 Messbare Funktionen - Zufallsvariable
Abb. 7.4. Fast gleichmäßige Konvergenz von fn (ω) = ω n
(fn ) gleichmäßig, denn zu jedem k ∈ N gibt es ein nur von k abhängiges mk , sodass für alle ω ∈ Nδc gilt |fi (ω) − fj (ω)| ≤ k1 , wenn i, j ≥ mk . Somit konvergiert (fn ) μ-fast gleichmäßig. Die μ-fast gleichmäßige Konvergenz hängt eng mit dem zur punktweisen Konvergenz analogen Konvergenzbegriff zusammen, den wir nun definieren. Definition 7.72. Eine Folge (fn ) messbarer Funktionen auf einem Maßraum (Ω, S, μ) ist eine Cauchy-Folge μ–fü (konvergiert μ–fü), wenn es ein N c ∈ S mit μ(N ) = 0 gibt, sodass die (fn (ω)) für alle ω ∈ N c Cauchy-Folgen sind. Die Folge (fn ) konvergiert μ–fü gegen eine Funktion f , wenn für alle ω ∈ N c gilt lim fn (ω) = f (ω) (i.Z. lim fn = f μ–fü bzw. fn → f μ–fü). n
n
Auf Wahrscheinlichkeitsräumen (Ω, S, P ) sagt man stattdessen die Folge (Xn ) ist eine Cauchy-Folge P –fs , konvergiert P –fs oder konvergiert P –fs gegen X (i.Z. lim Xn = X P –fs bzw. Xn → X P –fs). n
Lemma 7.73. Eine Folge (fn ) messbarer, reellwertiger Funktionen auf einem Maßraum (Ω, S, μ) ist eine Cauchy-Folge μ–fü genau dann, wenn es ein f ∈ M gibt, sodass lim fn = f μ–fü . f ist μ–fü eindeutig bestimmt. n
Beweis. Ist (fn ) eine Cauchy-Folge auf dem Komplement der μ-Nullmenge N , so gibt es nach dem Cauchyschen Konvergenzkriterium für alle ω ∈ N c einen Grenzwert f˜(ω) := lim fn (ω) . Somit gilt f := f˜ 1N c = lim fn μ–fü mit f ∈ M . n
n
Gibt es ein g und eine μ-Nullmenge N1 mit lim fn (ω) = g(ω) n
∀ ω ∈ N1c , so
gilt f (ω) = g(ω) ∀ ω ∈ N c ∩ N1c , und N ∪ N1 ist ebenfalls eine μ-Nullmenge. Umgekehrt folgt aus lim fn (ω) = f (ω) ∀ ω ∈ N c mit μ(N ) = 0 wegen n
|fn (ω) − fm (ω)| ≤ |fn (ω) − f (ω)| + |f (ω) − fm (ω)| , dass (fn ) eine CauchyFolge auf N c , also μ–fü ist.
7.9 Konvergenzarten
Bemerkung 7.74.
109
Für erweitert reellwertige fn ist lim fn = f μ–fü so zu n
verstehen, dass es eine μ-Nullmenge N gibt und für alle ε > 0 und ω ∈ N c ein n0 (ε, ω) ∈ N existiert, sodass für alle n ≥ n0 (ε, ω) gilt fn (ω) < − 1ε falls f (ω) = −∞ , fn (ω) > 1ε falls f (ω) = ∞ und |fn (ω) − f (ω)| < ε falls f (ω) ∈ R . Gleichmäßige Konvergenz μ–fü impliziert natürlich μ-fast gleichmäßige Konvergenz. Aus dieser folgt, wie nun gezeigt wird, die Konvergenz μ–fü . Satz 7.75. Ist (Ω, S, μ) ein Maßraum, so bilden die messbaren Funktionen fn genau dann eine μ-fast gleichmäßig konvergente Cauchy-Folge, wenn es eine messbare Funktion f gibt, sodass (fn ) μ-fast gleichmäßig gegen f konvergiert. f ist μ–fü eindeutig bestimmt, und es gilt lim fn = f μ–fü . n
Beweis. Gibt es ein f ∈ M gegen das (fn ) μ-fast gleichmäßig konvergiert, so ist (fn ) natürlich auch eine μ-fast gleichmäßig konvergente Cauchy-Folge. Falls (fn ) μ-fast gleichmäßig konvergiert, existiert zu jedem k ∈ N ein konvergiert. Nk ∈ S mit μ(Nk ) ≤ k1 , sodass (fn ) auf Nkc gleichmäßig c Daher konvergiert (fn (ω)) für jedes ω ∈ N c := Nk . Klarerweise folgt k 1 Nk = μ(N ) ∀ k ∈ N , dass N eine μ-Nullmenge ist. aus k ≥ μ(Nk ) ≥ μ k
Deshalb ist (fn ) eine Cauchy-Folge μ–fü , und nach Lemma 7.73 existiert eine messbare Grenzfunktion f mit lim fn = f μ–fü . n
Auf jeder Menge Nkc gibt es für alle ε > 0 ein nε , sodass für alle m, n ≥ nε gilt |fm (ω) − fn (ω)| + ≤ ε . Daraus folgt + wegen der Stetigkeit des Betrags | | + + |f (ω) − fn (ω)| = +lim fm (ω) − fn (ω)+ = lim |fm (ω) − fn (ω)| ≤ ε ∀ n ≥ nε . m
m
Somit konvergiert fn μ-fast gleichmäßig gegen f . Gibt es ein weiteres g ∈ M gegen das (fn ) μ-fast gleichmäßig konverˆk ) ≤ 1 , sodass (fn ) ˆk ∈ S mit μ(N giert, so existiert zu jedem k ∈ N ein N k ˆ c gleichmäßig gegen g konvergiert. Daher konvergiert (fn (ω)) für jeauf N k ˆ c := N ˆ = N ˆ c gegen g(ω) . Da N ˆk eine μ-Nullmenge ist, gilt des ω ∈ N k k
k
demnach lim fn = g μ–fü , und aus Lemma 7.73 folgt f = g n
μ–fü .
Aus der Konvergenz μ-fü folgt die μ-fast gleichmäßige Konvergenz i.A. nicht. Beispiel 7.76. Auf (N, P(N), ζ) mit ζ(A) = |A| ∀A ∈ P(N) konvergieren die Funktionen fn := 1{1,...,n} punktweise, und damit auch ζ-fü gegen f ≡ 1 . Da aus ζ(A) < ε < 1 folgt A = ∅ , entspricht die ζ-fast gleichmäßige Konvergenz in diesem Beispiel der gleichmäßigen Konvergenz. Doch (fn ) konvergiert auf N zweifellos nicht gleichmäßig gegenf ≡ 1 . Die μ–fü-Konvergenz kann man folgendermaßen charakterisieren. Lemma 7.77. Sind f und fn , n ∈ N messbare, reellwertige Funktionen auf einem Maßraum (Ω, S, μ) , so gelten die untenstehenden Beziehungen
110
7 Messbare Funktionen - Zufallsvariable
⎛ lim |fm − fn | = 0 μ–fü ⇔ μ ⎝
n,m
⎞ [ |fm − fn | > ε ] ⎠ = 0
∀ ε > 0,
n m≥n
⎛ lim fn = f μ–fü ⇔ μ ⎝
n
(7.11)
⎞ [ |fm − f | > ε ] ⎠ = 0
∀ ε > 0.
(7.12)
n m≥n
Beweis. Es gilt N
c
:=
3
|fm − fn | ≤
k n m≥n
1 k
-
=
lim |fn − fm | = 0
m ,n
,
denn ω ∈ N c ⇔ ∀ k : ∃ n ∀ m ≥ n : |fm (ω) − fn (ω)| ≤ k1 . Somit gilt lim |fm − fn | = 0 μ–fü genau dann, wenn μ(N ) = 0 . n,m 3 |fm − fn | > k1 ist genau dann eine μ-Nullmenge, Aber N =
k n m≥n 3 1 |fm − fn | > k = 0 ∀ k ∈ N . Das beweist (7.11). wenn gilt μ n m≥n
Zum Beweis der zweiten Beziehung (7.12) genügt es, in den obigen Ausführungen fn einfach durch f zu ersetzen. Lemma 7.78. Sind fn und f messbare, reellwertige Funktionen auf einem Maßraum (Ω, S, μ) , so gelten die folgenden Aussagen ⎛ ⎞ lim μ ⎝ [ |fm − fn | > ε ] ⎠ = 0 ∀ ε > 0 ⇒ lim |fn − fm | = 0 μ–fü , n
⎛ lim μ ⎝ n
n ,m
m≥n
(7.13)
⎞ [ |fm − f | > ε ] ⎠ = 0
∀ ε > 0 ⇒ lim fn = f μ–fü . n
m≥n
(7.14)
Ist (Ω, S, μ) ein endlicher Maßraum, so gelten auch die Umkehrungen ⎛ ⎞ lim |fn −fm | = 0 μ–fü ⇒ lim μ ⎝ [ |fm − fn | > ε ] ⎠ = 0 ∀ ε > 0 ,
n ,m→∞
n→∞
⎛ lim fn = f μ–fü ⇒ lim μ ⎝
n→∞
n→∞
m≥n
(7.15)
⎞ [ |fm − f | > ε ] ⎠ = 0
∀ ε > 0 . (7.16)
m≥n
[ |fm − fn | > ε ] = 0 ∀ ε > 0 folgt wegen der
Stetigkeit von oben (Satz 3.21) μ [ |fm − fn | > ε ] = 0 ∀ ε > 0 . Beweis. Aus lim μ n→∞
m≥n
n m≥n
Dies ist nach Lemma 7.78 äquivalent zu
lim
n ,m→∞
|fn − fm | = 0 μ–fü .
7.9 Konvergenzarten
111
Umgekehrt folgt aus lim |fn − fm | = 0 μ–fü nach Lemma 7.78 m ,n→∞
[ |fm − fn | > ε ] = 0 ∀ ε > 0 . Das impliziert auf endlichen Räuμ n m≥n
men nach Satz 3.21 lim μ [ |fm − fn | > ε ] = 0 ∀ ε > 0 . n→∞
m≥n
Analog zeigt man (7.14) und (7.16). Satz 7.79 (Satz von Egoroff). Auf einem endlichen Maßraum (Ω, S, μ) konvergiert jede μ–fü-konvergente Funktionenfolge (fn ) auch μ-fast gleichmäßig. Beweis. Dies folgt unmittelbar aus dem obigen Lemma und Satz 7.71.
[ |fm − fn | > ε ] = 0 ∀ ε > 0 Schwächt man die Bedingung lim μ n
m≥n
etwas ab, so führt dies zu einem von F. Riesz eingeführten Konvergenzbegriff, der vor allem in der Wahrscheinlichkeitstheorie sehr wichtig ist. Definition 7.80. Eine Folge (fn ) messbarer, reellwertiger Funktionen auf einem Maßraum (Ω, S, μ) konvergiert im Maß (bzw. in Wahrscheinlichkeit), wenn lim μ ( |fm − fn | > ε ) = 0 ∀ ε > 0 .
n,m→∞
Die Folge fn konvergiert im Maß (bzw. in Wahrscheinlichkeit) gegen f ∈ M (i.Z. μ μ − lim fn = f bzw. fn → f ), wenn gilt n
lim μ ( |fn − f | > ε ) = 0 ∀ ε > 0 .
n→∞
Satz 7.81. Konvergiert eine Folge (fn ) auf einem Maßraum (Ω, S, μ) gleichmäßig, so konvergiert sie auch im Maß.
μ-fast
Beweis. Aus der μ-fast gleichmäßigen Konvergenz folgt für jedes ε > 0 die Existenz einer Menge Nε ∈ S mit μ(Nε ) < ε , sodass (fn ) auf Nεc gleichmäßig konvergiert. Daher gibt es ein nε , sodass für alle m, n ≥ nε und alle ω ∈ Nεc gilt |fn (ω) − fm (ω)| ≤ ε . Daraus folgt [ |fn − fm | > ε ] ⊆ Nε . Somit gilt μ( |fn − fm | > ε ) ≤ μ(Nε ) < ε ∀ n, m ≥ nε . Satz 7.82. Konvergiert eine Folge (fn ) auf einem endlichen Maßraum (Ω, S, μ) μ–fü , so konvergiert sie auch im Maß. Beweis. Dies folgt unmittelbar aus Lemma 7.78 und Definition 7.80. Bemerkung 7.83. Die Aussage des obigen Satzes ist für beliebige Maßräume i.A. nicht richtig, so konvergiert die Folge aus Beispiel 7.76 punktweise aber nicht gleichmäßig. Doch auf (N, P(N), ζ) mit ζ(A) = |A| ∀ A ∈ P(N) ist die Konvergenz im Maß äquivalent zur gleichmäßigen Konvergenz, da aus lim ζ ( |fn − f | > ε ) = 0 folgt [ |fn − fm | > ε ] = ∅ für n, m hinreichend groß. n,m
112
7 Messbare Funktionen - Zufallsvariable
Aber auf endlichen Räumen ist die Konvergenz im Maß schwächer als die Konvergenz μ–fü , wie das folgende Beispiel zeigt. Beispiel 7.84. Auf dem Raum ([0, 1], ": B ∩ [0, 1], λ) konvergieren ;# die Funktionen √ √ n−[ n]2 n+1−[ n]2 1 √ 2 √ 2 im Maß, weil λ √ √ , → 0. 1 n−[ = 2[√n]+1 n] n+1−[ n] 2[ n]+1 2[ n]+1 √ √ , 2[
n]+1
2[
n]+1
Da die Trägerintervalle der obigen Indikatoren zwischen je 2 aufeinanderfolgenden Quadratzahlen m2 und (m + 1)2 das Intervall [0, 1] von links nach rechts durchlaufen, gilt fn(m) (ω) = 1 ∀ m ∈ N mit n(m) := m2 + [ω(2m+1)] . 2m+1 Daher konvergiert (fn ) in keinem einzigen Punkt von [0, 1] . Satz 7.85. Ist (Ω, S, μ) ein Maßraum, so bilden die messbaren,reellwertigen Funktionen fn genau dann eine Cauchy-Folge im Maß, wenn es eine messbare Funktion f gibt, für die gilt μ − lim fn = f . f ist μ–fü eindeutig bestimmt. n
Zudem enthält (fn ) eine Teilfolge, die μ-fast gleichmäßig gegen f konvergiert. Beweis. Die eine Richtung, dass jede Folge (fn ) eine Cauchy-Folge im Maß ist, wenn es ein f ∈ M gibt, sodass gilt μ − lim fn = f , ergibt sich sofort aus n - 3 3 ∀ ε > 0. [|fn − fm | > ε ] ⊆ |fn − f | > 2ε ∪ |f − fm | > 2ε Gilt μ − lim fn = g für ein weiteres g ∈ M , so folgt ähnlich wie oben aus n 3 - 3 ∀ ε > 0 sofort f = g μ–fü . [|f − g| > ε ] ⊆ |f − fn | > 2ε ∪ |fn − g| > 2ε Damit ist auch die Eindeutigkeitsaussage bewiesen. Wir zeigen nun, dass jede Cauchy-Folge im Maß eine μ-fast gleichmäßige Teilfolge enthält, und werden daraus auf die Existenz einer Funktion f mit μ−lim fn = f schließen. n
Zu jedem k ∈ N existiert ein n(k) , sodass für alle n , m ≥ n(k) gilt μ( |fn − fm | > 21k ) < 21k . Mit den rekursiv definierten Indices n1 := n(1), ∀ k ≥ 2 bildet-man die Teilfolge (fnk ) , sowie nk := max{(nk−1 + 1), n(k)} 3 die Mengen Nm := |fnk+1 − fnk | > 21k , deren Maß man abschätzen k≥m ∞
kann durch μ(Nm ) ≤ + + +fnj (ω) − fni (ω)+ ≤
k=m j−1 +
+fn
k=i
1 2k
k+1
=
1 2m−1
c ∀ m ∈ N . Nun gilt für alle ω ∈ Nm
∞ + (ω) − fnk (ω)+ ≤ k=m
1 2k
=
1 2m−1
∀m≤i<j,
c gleichmäßig. Somit ist (fnk ) eine μ-fast gleichd.h. (fnk ) konvergiert auf Nm mäßig konvergente Cauchy-Folge, und auf Grund von Satz 7.75 gibt es ein f ∈ M gegen das (fnk ) μ-fast gleichmäßig konvergiert. Nach Satz 7.81 gilt deshalb auch μ − lim fnk = f , und schließlich folgt 3 - 3 k aus [|fn − f | > ε ] ⊆ |f − fnk | > 2ε ∪ |fnk − fn | > 2ε ∀ ε > 0 , dass die gesamte Folge (fn ) im Maß gegen f konvergiert.
8 Die Verteilung einer Zufallsvariablen
8.1 Das induzierte Maß Wir haben schon in Abschnitt 7.1 festgestellt, dass eine Zufallsvariable das wesentliche Merkmal eines Versuches beschreibt und so zu einer Datenreduktion führt. Wenn wir nur an Aussagen über dieses Merkmal interessiert sind, wird es sinnvoll sein, den messbaren Teilmengen des Bildraums (des „Merkmalraums“) jene Wahrscheinlichkeiten zuzuordnen, mit denen die Zufallsvariable Werte aus der entsprechenden Menge annimmt. Dadurch wird der Bildraum selbst mit einer Wahrscheinlichkeitsverteilung ausgestattet und man kann sich in weiterer Folge mit diesem „einfacheren“ Raum beschäftigen, ohne immer wieder auf den ursprünglichen Grundraum (Ω, S, P ) zurückgreifen zu müssen. Das folgende Beispiel soll dies veranschaulichen. Beispiel 8.1 (die maximale Augenzahl beim Würfeln). Ein fairer Würfel wird 5mal geworfen. Der Spieler erhält einen Gewinn X in der Höhe der größten geworfenen Augenzahl. Man kann dieses Spiel durch die Menge der 5-Tupel Ω = { ω := (ω1 , . . . , ω5 ) : ωi ∈ {1, . . . , 6 } , 1 ≤ i ≤ 5 } mit S := P(Ω) und der diskreten Gleichverteilung P ( ω ) = 615 ∀ ω ∈ Ω , beschreiben. Der aus 65 = 7776 Punkten bestehende Raum Ω wird durch X mit X(ω) = max ωi 1≤i≤5
in den nur mehr 6 Werte umfassenden Bildraum Ω = {1, . . . , 6} abgebildet. In Hinblick auf den Gewinn kann sich der Spieler auf die Betrachtung des Bildraums beschränken, sobald er für jedes A ⊆ Ω die Wahrscheinlichkeit berechnet hat, dass der Gewinn in A liegt. Anders gesagt, er muss die Wahrscheinlichkeiten der Urbilder [X ∈ A ] bestimmen. Im Beispiel sind die Urbilder der einpunktigen Mengen {x} , 1 ≤ x ≤ 6 nicht auf den ersten Blick zu erkennen. Aber die Urbilder der Mengen Ax := {1, . . . , x} sind gegeben durch X −1 (Ax ) = [X ≤ x] = {ω ∈ Ω : ωi ∈ {1, . . . , x} ∀ 1 ≤ i ≤ 5} . 5 Daher gilt P (Ax ) = P ( X ≤ x ) = x65 , 1 ≤ x ≤ 6 . Daraus folgt mit A0 := ∅ 5
5
, 1 ≤ x ≤ 6 , da P ({x}) = P (Ax \ Ax−1 ) = P (Ax ) − P (Ax−1 ) = x −(x−1) 65 gilt Ax−1 ⊆ Ax ∀ 1 ≤ x ≤ 6 . Damit ist P festgelegt.
114
8 Die Verteilung einer Zufallsvariablen
Die obige Vorgangsweise kann man auf beliebige Räume verallgemeinern. Satz 8.2. Ist T eine S|S -messbare Abbildung von einem Maßraum (Ω, S, μ) in einen Messraum (Ω , S ) , so wird durch μT −1 (A ) := μ( T −1 (A ) )
∀ A ∈ S
(8.1)
ein Maß μT −1 auf (Ω , S ) definiert. μT −1 ist endlich, wenn μ endlich ist, und μT −1 ist eine Wahrscheinlichkeitsverteilung, wenn μ eine ist. Beweis. μT −1 ist natürlich nichtnegativ, und aus Lemma 2.3 Punkt 1. und 2. folgt sofort μT −1 (∅)) = μ(∅) = 0 und μT −1 (Ω )) = μ(Ω) . Daher ist μT −1 endlich, wenn μ endlich ist und μT −1 (Ω )) = 1 , wenn μ(Ω) = 1 . Sind die An ∈ S disjunkt, so sind nach Lemma 2.3 Punkt 5. auch die T −1 (An ) disjunkt. Mit Punkt 4. des Lemmas folgt daraus die σ-Additivität von μT −1 :
−1 −1 −1 =μ An = μ T An T (An ) μT n
=
! n
n
μ(T
−1
(An ))
=
!
n
μT
−1
(An ) .
n
Definition 8.3. Ist (Ω, S, μ) ein Maßraum, (Ω , S ) ein Messraum und T : (Ω, S) → (Ω , S ) , so nennt man das durch (8.1) auf (Ω , S ) definierte Maß μT −1 das (durch T ) induzierte Maß (die induzierte Wahrscheinlichkeitsverteilung) oder einfach das Maß (die Wahrscheinlichkeitsverteilung) von T . Bemerkung 8.4. Wenn μ σ-endlich ist, muss μT −1 nicht σ-endlich sein. Ist etwa (Ω, S, μ) := (R, B, λ) , (Ω , S ) := (R, {∅, R}) , so induziert jede Funktion T : (Ω, S) → (Ω , S ) das Maß λT −1 (∅) = 0, λT −1 (R) = ∞ , das nicht σ-endlich sein kann, weil S keine anderen Mengen enthält.
8.2 Gemeinsame Verteilung und Randverteilungen Definition 8.5. Ist X := (X1 , . . . , Xk ) ein k-dimensionaler Zufallsvektor auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so bezeichnet man P X−1 als die gemeinsame Verteilung von X1 , . . . , Xk . Die zugehörige Verteilungsfunktion FX : Rk → [0, 1] ist die gemeinsame Verteilungsfunktion von X1 , . . . , Xk . Bemerkung 8.6. Ein Zufallsvektor wird immer nach seiner induzierten Verteilung benannt, unabhängig vom Wahrscheinlichkeitsraum (Ω, S, P ) , auf dem er definiert ist, so spricht man etwa von einer Weibull-verteilten Zufallsvariablen X , wenn X auf (R, B) eine Weibull-Verteilung induziert. Für die Aussage: „X ist verteilt nach . . . “ werden wir die Schreibweise X ∼ gefolgt vom Symbol der entsprechenden Verteilung verwenden, so bedeutet etwa X ∼ Bn,p , dass X binomialverteilt mit den Parametern n und p ist. Wir werden etwas später sehen, dass es zu jeder Verteilungsfunktion i.e.S. eine Zufallsvariable auf ([0, 1], B ∩ [0, 1], λ) gibt, die gerade die zu dieser Verteilungsfunktion gehörige Verteilung induziert.
8.2 Gemeinsame Verteilung und Randverteilungen
115
Ist X := (X1 , . . . , Xk ) ein Zufallsvektor, so sind nach Satz 7.11 sowohl die einzelnen Komponenten Xj Zufallsvariable, als auch für alle Teilmengen I := {i1 , . . . , im } ⊆ {1, . . . , k} die Vektoren XI := Xi1 ,...,im := (Xi1 , . . . , Xim ) messbar, also XI : (Ω, S) → (Rm , Bm ) . Definition 8.7. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, X := (X1 , . . . , Xk ) ein Zufallsvektor auf diesem Raum und I := {i1 , . . . , im } ⊆ {1, . . . , k} , so wird die durch XI := Xi1 ,...,im = (Xi1 . . . Xim ) auf (Rm , Bm ) induzierte Verteilung −1 P X−1 I = P Xi1 ,...,im Randverteilung von Xi1 , . . . , Xim genannt. Beispiel 8.8 (multivariate hypergeometrische Verteilung HA1 ,...,Ak ,n ). Eine Grundgesamtheit von N Elementen besteht aus k einander ausschließenden Kategorien, wobei je Ai Elemente zur Kategorie i gehören, und jedes Element k der Grundgesamtheit einer Kategorie zugeordnet ist, d.h N = Ai . i=1
Werden n Elemente aus der Grundgesamtheit durch Ziehungen ohne Zurücklegen ausgewählt und bezeichnet man mit Xi die Anzahl der Elemente der k Kategorie i in der Stichprobe, so gilt [X1 = x1 , . . . , Xk = xk ] , xi = n i=1
gerade dann, wenn je xi Elemente aus den Ai Elementen der Kategorie i ausgewählt wurden. Daher gilt für die Verteilung von X := (X1 , . . . , Xk ) k $ % Ai
P X−1 (x1 , . . . , xk ) =
xi i=1 $N % n
,
k !
0 ≤ xi ≤ n ,
(8.2)
xi = n .
i=1
Da die k-te Koordinate Xk bereits durch (X1 , . . . , Xk−1 ) festgelegt ist, kann k−1 k−1 man (8.2) mit A := Ai und x := xi umformen zu i=1
i=1 k−1 $
P (X1 , . . . , Xk−1 )−1 (x1 , . . . , xk−1 ) =
i=1
Ai xi
% $N −A%
$N %
n−x
(8.3)
.
n
Bei der hypergeometrischen Verteilung, also bei k = 2 , vewendet man üblicherweise diese Form. Die Randverteilung von (Xi1 . . . Xim ) , {i1 , . . . , im } ⊂ {1, . . . , k} erhält m Aij Elemente, die nicht zu den Kategorien man, indem man die N − j=1
i1 , . . . , im gehören, zu einer Klasse zusammenfasst. Das ergibt ⎞ ⎛ m N− A ij m $ % A ij ⎠ ⎝ j=1 m j=1
P (Xi1 , . . . , Xim )
−1
(xi1 , . . . , xim ) =
xij
n−
$N % n
j=1
xij
.
(8.4)
116
8 Die Verteilung einer Zufallsvariablen
Das folgende Lemma besagt, dass man die Randverteilungen von X mit Hilfe der auf (Rk , Bk ) induzierten (gemeinsamen) Verteilung P X−1 bestimmen kann, ohne den Grundraum (Ω, S, P ) selbst kennen zu müssen. Lemma 8.9. Ist X = (X1 , . . . , Xk ) ein Zufallsvektor auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und I := {i1 , . . . , im } ⊆ {1, . . . , k} , so gilt
−1 (B ) = P X (B) mit B := B × R ∀ Bm ∈ Bm , (8.5) P X−1 m m I j ∈I /
xj , j ∈ I (8.6) ∞, sonst .
−1 −1 Bm × Beweis. (8.5) folgt sofort aus XI (Bm ) = X R , und (8.6) ist FXI (xi1 , . . . , xim ) = FX (y1 , . . . , yk ) mit yj =
nur der Spezialfall von (8.5) . für Bm =
m
j ∈I /
(−∞, xij ] .
j=1
Die Umkehrung gilt i.A. nicht, wie das folgende Beispiel zeigt. Beispiel 8.10. Auf (Ω, S, P ) := ([0, 1]2 , B2 ∩ [0, 1]2 , λ2 ) gilt mit ω := (ω1 , ω2 ) , X1 (ω) := ω1 und X2 (ω) := ω2 : P (X1 , X2 )−1 (B) = λ2 (B ∩ Ω) ∀ B ∈ B2 . FX1 (x) = FX2 (x) := x 1[0,1] + 1(1,∞) sind die Randverteilungsfunktionen, und die gemeinsame Verteilungsfunktion FX1 ,X2 ist gegeben durch ⎧ ⎪ 0, x1 ∧ x2 < 0 ⎪ ⎪ ⎪ ⎪ ⎪ x , 0 ≤ x1 , x2 ≤ 1 x ⎨ 1 2 FX1 ,X2 (x1 , x2 ) = x1 , 0 ≤ x1 ≤ 1 ∧ x2 > 1 ⎪ ⎪ ⎪ , 0 ≤ x2 ≤ 1 ∧ x1 > 1 x ⎪ 2 ⎪ ⎪ ⎩1 , sonst . Es gilt offensichtlich FX1 ,X2 = FX1 FX2 . Deshalb ist nach Satz 6.63 die σ−Algebra S(X1 ) = { B × [0, 1] : B ∈ B ∩ [0, 1] } unabhängig von S(X2 ) = { [0, 1] × B : B ∈ B ∩ [0, 1] } , d.h. X1 und X2 sind unabhängig. Für X3 := X1 gilt ebenfalls FX3 = FX1 . Aber wegen [ X1 ≤ x1 , X3 ≤ x2 ] = { ω : X1 (ω) = ω1 ≤ x1 ∧ X3 (ω) = ω1 ≤ x2 } ∩ Ω = { ( ω1 , ω2 ) : ω1 ≤ x1 ∧ x2 } ∩ [0, 1]2 , erhält man als gemeinsame Verteilungsfunktion von X1 , X3 ⎧ ⎪ x1 ∧ x 2 < 0 ⎪ ⎪0 , ⎪ ⎪ ⎪ ⎨x1 ∧ x2 , 0 ≤ x1 , x2 ≤ 1 FX1 ,X3 (x1 , x2 ) = x1 , 0 ≤ x1 ≤ 1 ∧ x2 > 1 ⎪ ⎪ ⎪x2 , 0 ≤ x2 ≤ 1 ∧ x1 > 1 ⎪ ⎪ ⎪ ⎩1 , sonst .
8.3 Die inverse Verteilungsfunktion
117
Ob, bzw. in welcher Weise Abhängigkeiten zwischen verschiedenen Zufallsvariablen bestehen, drückt sich also in der gemeinsamen Verteilung aus. Die Randverteilungen alleine liefern dazu keine Information. So, wie man die Randverteilungen bestimmen kann ohne den Grundraum kennen zu müssen, so kann man die Unabhängigkeit von Zufallsvariablen alleine durch auf dem Bildraum gegebene Bedingungen charakterisieren. Satz 8.11. Die Familie der Zufallsvariablen (Xi )i∈I auf dem Wahrscheinlichkeitsraum (Ω, S, P ) ist unabhängig genau dann, wenn eine der untenstehenden Bedingungen für alle {i1 , . . . , im } ⊆ I erfüllt ist ⎛ ⎞ m m
1. P (Xi1 , . . . , Xim )−1 ⎝ Bj ⎠ = P Xi−1 (Bj ) ∀ Bj ∈ B , j ⎛ 2. P (Xi1 , . . . , Xim )−1 ⎝
j=1 m
j=1
⎞
(aj , bj ]⎠ =
j=1
3. FXi1 ,...,Xim (x1 , . . . , xm ) =
m
P Xi−1 ( ( aj , bj ] ) j
∀ aj ≤ bj ,
j=1 m
∀ xj ∈ R .
FXij (xj )
j=1
Beweis. Der Beweis ergibt sich sofort aus Satz 7.45 und Definition8.3. Satz 8.12. Die Familie diskreter Zufallsvariabler (Xi )i∈I auf dem Wahrscheinlichkeitsraum (Ω, S, P ) ist unabhängig dann und nur dann, wenn für alle {i1 , . . . , im } ⊆ I gilt P (Xi1 , . . . , Xim )−1 ( (x1 , . . . , xm ) ) =
m
P Xi−1 (xj ) j
∀ xj ∈ R .
j=1
Beweis. Dies folgt aus Satz 7.49 und Definition 8.3.
8.3 Die inverse Verteilungsfunktion Die Verteilungsfunktion gibt an, mit welcher Wahrscheinlichkeit eine Zufallsvariable X eine gegebene Schranke x nicht überschreitet. Aber oft wird umgekehrt eine bestimmte Wahrscheinlichkeit fixiert, und man möchte den Wert bestimmen, den die Zufallsvariable mit dieser Wahrscheinlichkeit nicht übersteigen soll, etwa, wenn eine Versicherung wissen möchte, wie hoch sie die für Schadensauszahlungen vorgesehenen Reserven ansetzen muss, sodass sie damit mit bspw. 99 %-ger Sicherheit das Auslangen findet. Definition 8.13. Ist F eine Verteilungsfunktion i.e.S. auf R , so wird die durch F −1 (p) := inf{ x ∈ R : p ≤ F (x) } , 0 < p ≤ 1 definierte Funktion als (verallgemeinerte) inverse Verteilungsfunktion von F bezeichnet. Der Funktionswert xp := F −1 (p) an der Stelle p heißt p-Fraktil oder p-Quantil. Das 0.5-Fraktil nennt man Median.
118
8 Die Verteilung einer Zufallsvariablen
Bemerkung 8.14. 1. Manche Autoren definieren das p-Fraktil als 1 − p-Quantil. Doch ist diese Unterscheidung nicht allgemein üblich, und wir werden die beiden Begriffe daher synonym verwenden. 2. Wegen der Rechtsstetigkeit von F kann man das Infimum in der obigen Definition durch das Minimum ersetzen, also F −1 (p) := min{ x : p ≤ F (x) } . 3. Die verallgemeinerte Inverse existiert immer, selbst dann, wenn F , wie etwa bei diskreten Verteilungen, keine Inverse im üblichen Sinn besitzt. Falls es zu F eine Inverse gibt, stimmt diese, wie weiter unten gezeigt wird, mit der verallgemeinerten Inversen überein. Dies rechtfertigt Namen und Notation. 4. Aus F (x) < p ∀ x < xp folgt F− (x) = P (X < xp ) ≤ p . Daher gilt P (X < xp ) ≤ p ≤ P (X ≤ xp ),
(8.7)
bzw. umgeformt P (X < xp ) ≤ p
∧
P (X > xp ) ≤ 1 − p.
(8.8)
Dies bedeutet, dass die Werte von X höchstens mit Wahrscheinlichkeit p kleiner als xp sind, dass sie aber auch höchstens mit Wahrscheinlichkeit 1 − p größer als xp sind. Häufig werden die beiden Ungleichungen in (8.8) zur Definition des Fraktils verwendet. Man beachte aber, dass das Fraktil dann, im Unterschied zu Definition 8.13, nicht eindeutig bestimmt sein muss. Im nächsten Satz werden die wichtigsten Eigenschaften von F −1 beschrieben und einige Zusammenhänge zwischen F und F −1 aufgelistet. Satz 8.15. Ist F eine Verteilungsfunktion auf R und F −1 die verallgemeinerte Inverse, so gelten die folgenden Aussagen: 1. p ≤ F (x) ⇔ F −1 (p) ≤ x . $ %−1 ( (−∞ , x ] ) = ( 0 , F (x) ] . 2. F −1 3. 0 < p ≤ q ≤ 1 %⇒ F −1 (p) ≤ F −1 (q) . $ −1 4. p ≤ F F (p) ∀ p ∈ (0, 1] ∧ F −1 ( F (x) ) ≤ x ∀ x ∈ R . −1 5. F ist linksstetig. $ % 6. Gibt es zu p ∈ (0, 1] ein x ∈ R mit p = F (x) , so gilt F F −1 (p) = p . 7. Ist F strikt monoton in x , so gilt F −1 ( F (x) ) = x , d.h. F −1 ist die Inverse zu F , falls F auf R streng monoton wächst. Beweis. ad 1. Dies folgt aus der Definition von F −1 und Bemerkung 8.14 Punkt 2. ad 2. Aus Punkt 1. folgt $
F −1
%−1
( (−∞ , x] ) =
p : F −1 (p) ≤ x
= { p : p ≤ F (x) } = (0, F (x)].
ad 3. Die Monotonie ergibt sich unmittelbar aus Definition 8.13.
8.3 Die inverse Verteilungsfunktion
119
ad 4. Ist p ∈ (0, 1] gegeben, so gilt für x := F −1 klarerweise F −1 (p) ≤ x, % $ (p) −1 woraus wegen Punkt 1. folgt p ≤ F (x) = F F (p) . Für gegebenes x und p := F (x) gilt, ähnlich wie oben, p ≤ F (x), und dies ist gemäß Punkt 1. gleichbedeutend mit x ≥ F −1 (p) = F −1 ( F (x) ) . ad 5. Für x := F −1 (p) und ε > 0 gilt F (x − ε) < p . Daher gibt es zu jeder Folge (pn ) aus (0, 1] mit pn p ein nε ∈ N , sodass für alle n ≥ nε gilt F (x − ε) < pn ≤ p . Nach Punkt 1. und Punkt 3. folgt daraus für n ≥ nε F −1 (p) − ε = x − ε ≤ F −1 (pn ) ≤ F −1 (p) ⇒ lim F −1 (pn ) = F −1 (p) . n
mit ad 6. Aus F (x) $= p folgt% F −1 (p) ≤ x . Zusammen $ % den Punkten $ %3. und 4. ergibt das F F −1 (p) ≤ F (x) = p ≤ F F −1 (p) ⇒ F F −1 (p) = p . ad 7. Da F in x strikt monoton ist, gilt p := F (x) > F (x − n1 ) ∀ n ∈ N , woraus nach Punkt 1. und unter Berücksichtigung von Punkt 4. folgt x − n1 ≤ F −1 (p) = F −1 (F (x)) ≤ x ∀ n ∈ N ⇒ x = F −1 ( F (x) ) . Satz 8.16. Ist F eine Verteilungsfunktion i.e.S. auf R , so wird auf dem Wahrscheinlichkeitsraum ((0, 1], B ∩ (0, 1], λ) durch X(ω) := F −1 (ω) ∀ ω ∈ (0, 1] eine Zufallsvariable mit der Verteilungsfunktion FX = F definiert. Beweis. Nach Satz 8.15 Punkt 1. gilt {ω : F −1 (ω) ≤ x} = {ω : ω ≤ F (x)} , d.h. [X ≤ x] = {ω : ω ≤ F (x)} = (0, F (x)] . Daraus folgt nun offensichtlich FX (x) = λ ( X ≤ x ) = λ ( (0, F (x)] ) = F (x) . Bemerkung 8.17. ((0, 1], B ∩ (0, 1], λ) kann als Bildraum einer auf einem beliebigen Wahrscheinlichkeitsraum (Ω, S, P ) definierten Zufallsvariablen U angesehen werden, die auf (0, 1] stetig gleichverteilt ist, und daher kann man die Aussage von Satz 8.16 auch so formulieren : Ist F eine Verteilungsfunktion auf R mit der verallgemeinerten Inversen F −1 und U ∼ U0,1 , so gilt X := F −1 ◦ U ∼ F . Folgerung 8.18. Ist (Fn ) eine Folge von Verteilungsfunktionen i.e.S. auf R , so gibt es auf ((0, 1], B∩ (0, 1], λ) eine Folge unabhängiger Zufallsvariabler Xn , für die gilt Xn ∼ Fn ∀ n ∈ N . Beweis. Beispiel 7.51 zufolge sind die Ziffern Zn von ω ∈ (0, 1] im binären Zahlensystem unabhängige, B 12 - verteilte Zufallsvariable. Mit Hilfe des Diagonalisierungsverfahrens (Satz A.1) ordnet man jedem n bijektiv ein (i, j) ∈ N2 zu und erhält so unabhängige Folgen (Z1,j ), (Z2,j ), . . . . Wie in Bemerkung 7.52 ausgeführt, kann man aus jeder dieser Folgen je eine auf (0, 1] ∞ Zi,j gleichverteilte Zufallsvariable Ui := 2j generieren. Nach Folgerung 7.14 Punkt 1. sind die
n j=1
j=1
Zi,j 2j
S(Zi,1 , Zi,2 , . . .)-messbar und damit auch die Ui
(Satz 7.20). Da die S(Zi,1 , Zi,2 , . . .) unabhängig sind, sind die Ui ebenfalls unabhängig. Die Xn := Fn−1 ◦ Un bilden nun die gesuchte Folge.
120
8 Die Verteilung einer Zufallsvariablen
Bemerkung 8.19. In vielen Programmpaketen hat man Prozeduren, die Pseudozufallszahlen erzeugen, welche man als auf (0, 1] gleichverteilt ansehen kann. Hat man damit Zufallszahlen u1 , . . . , un generiert und transformiert man diese mit Hilfe einer verallgemeinerten Inversen F −1 zu xi := F −1 (ui ), i = 1, . . . , n , so sind die xi gemäß F verteilt. Dieses Verfahren nennt man Inversenmethode. Beispiel 8.20 (Exponentialverteilung Exτ , τ > 0). Die Dichte und Verteilungsfunktion der Exponentialverteilung Exτ sind gegeben durch % $ f (x) = τ e−τ x 1(0,∞) (x) , F (x) = 1 − e−τ x 1(0,∞) (x) . . F wächst auf R+ strikt und hat die Umkehrfunktion F −1 (p) = x = − ln(1−p) τ ln(1−U ) Ist U ∼ U0,1 , so gilt deshalb X := − τ ∼ Exτ . Es gilt aber auch ) Y := − ln(U ∼ Ex , da U ∼ U ⇔ 1 − U ∼ U τ 0,1 0,1 . τ Ist X ∼ Exτ , so gilt wegen [X > x + y] ⊆ [X > x] für alle x, y > 0 P (X > x + y | X > x) =
P (X > x + y) e−τ (x+y) = = P (X > y) . P (X > x) e−τ x
(8.9)
Fasst man X als Wartezeit bis zum Ausfall eines Systems auf, so bedeutet die obige Gleichung, dass ein System, das im Zeitpunkt x noch funktioniert, genau so wahrscheinlich eine weitere Zeitspanne y übersteht, wie ein System, das gerade zu arbeiten begonnen hat. Die vergangene Zeitspanne hat also keinen Einfluss auf die zukünftige Funktionsdauer. Man spricht in diesem Zusammenhang von der „Gedächtnislosigkeit“ der Exponentialverteilung. Die Gedächtnislosigkeit charakterisiert die Exponentialverteilung, denn, gilt für die Zufallsvariable X > 0 mit der stetigen Verteilungsfunktion FX (8.9) für alle x, y > 0 , so folgt daraus wegen der Multiplikationsregel 5.2 P (X > x + y) = P (X > x) P (X > x + y | X > x) = P (X > x) P (X > y) . Die Funktion G(x) := P (X > x) = 1 − FX (x) erfüllt demnach die Funktionalgleichung (A.16) aus Satz A.52 und ist stetig, da FX stetig ist. Daher existiert nach Satz A.52 ein γ ∈ R , sodass FX (x) = 1 − eγ x . Wegen 0 ≤ FX ∧ lim FX (x) = 1 ist γ < 0 . Somit gilt X ∼ Exτ mit τ := − γ > 0 . x→∞
Bemerkung 8.21. Ist X ∼ Gp , 0 < p < 1 (siehe Beispiel 6.34), so gilt ∞ p (1 − p)i = (1 − p)n . Daraus folgt G(n) := P (X ≥ n) = i=n
P (X ≥ n + m|X ≥ m) =
G(n + m) = (1 − p)n = G(n) = P (X ≥ n) . (8.10) G(m)
Erfüllt eine Zufallsvariable X mit Werten in N0 Gleichung (8.10), so folgt daraus G(n + m) = G(n) G(m) ∀ n, m ∈ N0 , und nach Satz A.53 führt das zu G(n) = G(1)n ⇒ P (X = n) = G(n) − G(n + 1) = G(1)n (1 − G(1) ) ∀ n , d.h. X ∼ Gp mit p := 1 − G(1) . Die geometrische Verteilung ist somit die einzige gedächtnislose Verteilung auf (N0 , P(N0 )) , also das diskrete Gegenstück zur Exponentialverteilung.
8.3 Die inverse Verteilungsfunktion
121
Beispiel 8.22 (Cauchyverteilung t1 ). Die Dichte und Verteilungsfunktion der Cauchyverteilung sind gegeben durch 1 1 + arctan(x) , x ∈ R . 2 π % % $$ Die inverse ist F −1 (p) = tan p − 12 π . Daher ist $ $ Verteilungsfunktion % % X := tan U − 12 π cauchyverteilt, wenn U ∼ U0,1 . Die Cauchyverteilung gehört zur Familie der t-Verteilungen, auf die wir hier nicht näher eingehen werden. f (x) =
1 , π(1 + x2 )
F (x) =
Beispiel 8.23 (Paretoverteilung). Die in den Wirtschaftswissenschaften verwendete Paretoverteilung hat als Dichte und Verteilungsfunktion f (x) = β
αβ , xβ+1
F (x) = 1 −
" α #β x
,
α > 0, β > 0, x > α .
1
1
F besitzt die Inverse F −1 (p) = α (1 − p)− β . Daher ist X := α (1 − U )− β mit 1 U ∼ U0,1 Pareto-verteilt aber auch Y := α U − β , da U ∼ U0,1 ⇔ 1−U ∼ U0,1 Im nächsten Beispiel wird eine diskrete Zufallsvariable generiert Beispiel 8.24. Verteilungsfunktion und verallgemeinerte Inverse der B2, 12 sind ⎧ 0, ⎪ ⎪ ⎪ ⎨ 0.25, F (x) = ⎪ 0.75, ⎪ ⎪ ⎩ 1,
x 0 gibt % mit PN (Cn ) > ε ∀ n ∈ N , nichtleer sein muss. n C solche Zylinder mit den Basen Cn,Nmn ∈ Sm Sind Cn = pr−1 n,N m 1 , Nmn n so kann o.E.d.A. mn < mn+1 ∀ n ∈ N angenommen werden. Fügt man den Zylinder ΩN (m1 − 1)-mal vor C1 in die Folge ein, und schiebt man zwischen Ck und Ck+1 mk+1 − mk − 1 Wiederholungen von Ck , so erhält man eine neue, ebenfalls monoton fallende Folge mit demselben Durchschnitt wie (Cn ) , für die mn = n ∀ n ∈ N gesetzt werden kann. Wir nehmen daher Sn ∀ n ∈ N . an, dass gilt Cn = pr−1 Nn (Cn,Nn ) , Cn,Nn ∈ . 1 n=1 1C (ω1 ) P1 (dω1 ) , Nun gilt ε < PN (Cn ) = P1n (Cn,Nn ) = . 2 1,N1 In 1Cn,Nn (ω1 ) P1 (dω1 ) , n > 1 . Cn ⊇ Cn+1 ⇒ Cn,Nn × Ωn+1 ⊇ Cn+1,Nn+1 ,d.h. 1Cn,Nn 1Ωn+1 ≥ 1Cn+1,Nn+1 . $ % k k Daraus folgt Ink 1Cn,Nn = In+1 1Cn,Nn 1Ωn+1 ≥ In+1 1Cn+1,Nn+1 für alle k ≥ 2 2 und n ≥ k . Da die In 1Cn,Nn nichtnegativ sind und eine monoton fallende Folge bilden, gibt es eine die Grenzfunktion f1 := lim In2 1Cn,Nn aus n
M+ (Ω1 , S1 ) ,.und aus dem Satz . über die Konvergenz durch Majorisierung ,1 mit ε ≤ f1 (, ω1 ) , folgt ε ≤ lim In2 1Cn,Nn dP1 = f1 dP1 . Daher gibt es ein ω n≥2
das wegen ε ≤ f1 (, ω1 ) ≤ In2 1Cn,Nn (, ω1 ) ≤ 1C1,N1 (, ω1 ) in C1,N1 liegt. . 2 ω1 ) = 1C2,N2 (, ω1 , ω2 ) P2 (, ω1 , dω2 ) Aber es gilt bekanntlich auch I2 1C2,N2 (, . ω1 ) = In3 1Cn,Nn (, ω1 , ω2 ) P2 ((, ω1 , dω2 ) für n > 2 . Da die Inteund In2 1Cn,Nn (, granden in diesen Integralen, wie oben gezeigt, ebenfalls eine monoton fallenω1 , . ) := lim In3 1Cn,Nn (, ω1 , . ) . de Folge aus M+ (Ω2 , S2 ) bilden, existiert f2 (, n≥3
Aus .dem Satz über die Konvergenz durch Majorisierung folgt nun wieder ε ≤ f2 (, ω1 , ω2 ) P2 (, ω1 , dω2 ) . Deshalb gibt es auch einen Punkt ω ,2 ∈ Ω2 mit ε ≤ f2 (, ω2 ) ≤ In3 1Cn,Nn (, ω1 , ω ,2 ) ≤ 1C2,N2 (, ω1 , ω ,2 ) ⇒ (, ω1 , ω ,2 ) ∈ C2,N2 . , k−1 := (, ω1 , . . . , ω ,k−1 ) aus Wir nehmen nun an, dass es einen Vektor ω 1 k−1 k , 1 ) ≤ 1Ck−1,Nk−1 (ω , k−1 ) ∀ n ≥ k. Ck−1,Nk−1 gibt mit ε ≤ In 1Cn,Nn (ω 1 . k−1 k−1 k−1 k , 1 , ωk ) Pk (ω , 1 , dωk ) bzw. ω 1 ) = 1Ck,Nk (ω Wie wir wissen, gilt Ik 1Ck,Nk (, . k+1 k−1 k−1 k−1 k In 1Cn,Nn (, ω1 ) = In 1Cn,Nn (, ω1 , ωk ) Pk ((, ω1 , dωk ) für n > k . Die Integranden bilden eine monoton fallende Folge nichtnegativer Funktionen, , k−1 ω k−1 , . ) := lim Ink+1 1Cn,Nn (ω , . ) ∈ M+ (Ωk , Sk ) . also existiert fk (, 1 1 n≥k+1
Wie zuvor. folgt aus dem Satz über die Konvergenz durch Majorisierung, dass ε ≤ fk (, ω k−1 , ωk ) Pk (, ω k−1 , dωk ) . Daher gibt es einen Punkt ω ,k mit 1 1 k−1 , k1 ) ∀ n ≥ k + 1 . Daher ω1 , ω ,k ) ≤ Ink+1 1Cn,Nn (, ω k1 ) ≤ 1Ck,Nk (ω ε ≤ fk (, , := (ω1 , ω2 , . . .) mit , k1 ∈ Ck,Nk . Somit kann man rekursiv eine Folge ω gilt ω , ∈ Ck ∀ k ∈ N folgt Ck = ∅ . (ω1 , . . . , ωk ) ∈ Ck,Nk ∀ k ∈ N bilden. Aus ω k
PN ist schließlich nach Satz 4.13 eindeutig bestimmt, da SN bekanntlich durch die Algebra der messbaren Zylinder erzeugt wird.
178
10 Produkträume
Ist (Ωi , Si ) , i ∈ I eine Familie von Messräumen und existiert eine Wahrscheinlichkeitsverteilung P auf dem Produktraum (ΩI , SI ) , so werden durch die Projektionen prJ , J ⊆ I , die ja gemäß Folgerung 10.4 SI |SJ -messbar sind, Verteilungen PJ := P pr−1 J auf den Teilräumen (ΩJ , SJ ) induziert. Definition 10.40. Ist (Ωi , Si ) , i ∈ I eine Familie von Messräumen und P eine Wahrscheinlichkeitsverteilung auf dem Produktraum (ΩI , SI ) , so nennt man die auf den Teilräumen (ΩJ , SJ ) , J ⊆ I induzierten Verteilungen PJ := P pr−1 J die Randverteilungen von P . Zwischen den Randverteilungen von P besteht folgender Zusammenhang. Lemma 10.41. Ist (Ωi , Si ) , i ∈ I eine Familie von Messräumen und P ein Wahrscheinlichkeitsmaß auf dem Produktraum (ΩI , SI ) , so gilt für AK ∈ SK und AJ ∈ SJ , K , J ⊆ I −1 pr−1 (10.22) J (AJ ) = prK (AK ) ⇒ PJ (AJ ) = PK (AK ) . $ −1 % $ −1 % Beweis. Das gilt, da PJ (AJ ) = P prJ (AJ ) und P prK (AK ) = PK (AK ).
(10.22) ist also eine notwendige Konsistenzbedingung dafür, dass zu einer Familie {PJ , J ⊆ I , |J| < ∞} von Wahrscheinlichkeitsmaßen eine Produktverteilung existiert, deren endlich-dimensionale Randverteilungen die PJ sind. Lemma 10.42. Ist (Ωi , Si ) , i ∈ I eine Familie von Messräumen und sind PJ Verteilungen auf den Räumen (ΩJ , SJ ) , J ⊆ I , |J| < ∞ , so erfüllen die PJ Beziehung 10.22 genau dann, wenn J ⊂ K ⇒ PJ = PK pr−1 K,J . Beweis. ⇒ : Für A = pr−1 J (AJ ) , AJ ∈ SJ , J ⊆ I , |J| < ∞ aus ZN gilt gemäß (pr−1 )) ∀ K ⊃ J , und aus (10.22) folgt daher (10.2) A = pr−1 K,J (A #J "K ∀ AJ ∈ SJ , d.h. PJ = PK pr−1 PJ (AJ ) = PK pr−1 K,J (AJ ) K,J . −1 −1 ⇐ : Aus A = pr "J (AJ ) = pr#K (AK ) , AJ ∈ S " J , AK ∈ SK#, |J| , |K| < ∞ −1 −1 −1 folgt prJ∪K prJ∪K,J (AJ ) = A = pr−1 J∪K prJ∪K,K (AK ) . Daraus folgt −1 nach Lemma 10.38 pr−1 J∪K,J (AJ ) = prJ∪K,K (AK ) . Weil voraussetzungsP pr−1 impliziert dies gemäß gilt PJ = PJ∪K pr−1 J∪K,J# und PK = " " J∪K J∪K,K # −1 −1 PJ (AJ ) = PJ∪K prJ∪K,J (AJ ) = PJ∪K prJ∪K,K (AK ) = PK (AK ) .
Man definiert daher: Definition 10.43. Ist (Ωi , Si ) , i ∈ I eine Familie von Messräumen und sind PJ Verteilungen auf den Räumen (ΩJ , SJ ) , J ⊆ I , |J| < ∞ , so nennt man die PJ konsistent, wenn PJ = PK pr−1 ∀ J ⊂ K ⊆ I , |J| , |K| < ∞ . K,J Der nächste Satz zeigt, dass aus der Konsistenz der endlich-dimensionalen Verteilungen PJ zumindest für den Fall Ωi = R ∀ i ∈ I , die Existenz einer entsprechenden Produktverteilung auf (RI , BI ) folgt.
10.3 Maße auf unendlich-dimensionalen Produkträumen
179
Satz 10.44 (Existenzsatz von Kolmogoroff). Ist I = ∅ eine beliebige Indexmenge, gibt es zu jedem J ⊆ I , |J| < ∞ eine Wahrscheinlichkeitsverteilung PJ auf (RJ , BJ ) und sind diese Verteilungen konsistent, dann gibt es ein eindeutig bestimmtes Wahrscheinlichkeitsmaß P auf (RI , BI ) , dessen endlichdimensionale Randverteilungen die PJ sind. Beweis. Auf den Zylindern C = pr−1 J (CJ ) , CJ ∈ BJ , J ⊆ I , |J| < ∞ wird durch P (C) := PJ (CJ ) eine nichtnegative Mengenfunktion P festgelegt, die nach den obigen Lemmata wegen der Konsistenz der PJ unabhängig von der Wahl der Basis und daher auch wohldefiniert ist. Klarerweise gilt P (∅) = 0 und P (RI ) = 1 . −1 Sind C = pr−1 J (CJ ) , CJ ∈ BJ und D = prK (DK ) , DK ∈ BK , zwei disjunkte Zylinder, so kann bekanntlich o.E.d.A. J = K angenommen werden. Da die Basen CJ und DJ ebenfalls disjunkt sein müssen, ergibt sich daraus P (C ∪ D) = PJ (CJ ∪ DJ ) = PJ (CJ ) + PJ (DJ ) = P (C) + P (D) . Wie im Beweis von Satz 10.39 zeigen wir schließlich, dass P bei ∅ stetig von oben und damit σ-additiv ist. Dazu beweisen wir, dass für jede monoton fallende Folge messbarer Zylinder Cn = pr−1 Jn (C n,Jn ) , Cn,Jn ∈ BJn , für die ein ε > 0 mit P (Cn ) > ε ∀ n ∈ N existiert, gilt Cn = ∅ . n Da nur die Indices aus Jn mit | Jn | ≤ ℵ0 für den weiteren Beweisvern
n
lauf relevant sind, kann nun o.E.d.A. I = N angenommen werden, und aus den bereits im Beweis von Satz 10.39 angeführten Gründen können die Indexmengen Jn nicht nur als monoton wachsend vorausgesetzt werden, sondern man kann sogar Jn = Nn ∀ n ∈ N setzen. Laut Folgerung 6.5 gibt es zu jeder Basis Cn,Nn eine kompakte Menge ε . Bildet man damit die DurchKn,Nn ⊆ Cn,Nn mit PNn (Cn,Nn \ Kn,Nn ) < 2n+1 −1 schnitte Kn := prNi (Ki,Ni ) , so erhält man eine monoton fallende Meni≤n
genfolge aus BI , für die gilt Kn ⊆ Cn ∀ n ∈ N . Weiters gilt ⎛ ⎞ c P (Cn \ Kn ) = P ⎝pr−1 (Cn,Nn ) ∩ pr−1 (Ki,Ni ) ⎠ Nn
⎛ =P⎝
Ni
⎞
i≤n
⎠≤ pr−1 Ni (Ci,Ni \ Ki,Ni )
i≤n
!
PNi (Ci,Ni \ Ki,Ni ) ≤
i≤n
ε . 2
Daraus folgt P (Kn ) ≥ 2ε ∀ n ∈ N , und deshalb existiert für alle n ∈ N ein (n) (n) Punkt x(n) := (x1 , x2 , . . .) ∈ Kn . Wegen Kn gilt x(n) ∈ K1 oder anders (n) Teilmenge von ausgedrückt x1 ∈ K1,N1 ∀ n ∈ N . Da K1,N " 1 eine#kompakte " # (n1,m )
R ist, existiert eine konvergente Teilfolge x1 x1 :=
(n ) lim x1 1,m m
∈ K1,N1 .
(n)
von x1
, für die gilt
180
10 Produkträume
# " (n ) (n ) Weiters gilt x(n1,m ) ∈ K2 , m ≥ 2 ⇒ x1 1,m , x2 1,m ∈ K2,N2 , m ≥ 2 . # " # " (n ) (n ) (n ) (n ) Also gibt es in x1 1,m , x2 1,m eine konvergente Subfolge x1 2,m , x2 2,m , " " # # (n ) (n ) (n ) für die gilt (ˆ x1 , x2 ) := lim x1 2,m , x2 2,m ∈ K2,N2 . x1 2,m ist aber eine #m " (n1,m ) ⇒ x ˆ1 = x1 ⇒ (x1 , x2 ) ∈ K2,N2 . Teilfolge von x1 ) immer eine TeilHat man nun Teilfolgen nj,m , j ≤ "k − 1 , sodass (nj,m# (n
)
(n
)
folge von (nj−1,m ) ist und die j-Tupel x1 j,m , . . . , xj j,m ∈ Kj,Nj konver" # (n ) (n ) gieren mit (x1 , . . . , xj ) := lim x1 j,m , . . . , xj j,m ∈ Kj,Nj ∀ j ≤ k − 1 , so # " m (n ) (n ) (nk−1,m ) gilt x ∈ Kk ⇒ x1 k−1,m , . . . , xk k−1,m ∈ Kk,Nk , m ≥ k . Da Kk,Nk # " (n ) (n ) kompakt ist, existiert eine konvergente Teilfolge x1 k,m , . . . , xk k,m von " # " # (n ) (n ) (n ) (n ) x1 k−1,m , . . . , xk k−1,m mit (x1 , . . . , xk−1 , xk ) = lim x1 k,m , . . . , xk k,m , m # " # " (n ) (nk,m ) (n ) (nk−1,m ) Teilfolge von x1 k−1,m , . . . , xk−1 ist. weil auch x1 k,m , . . . , xk−1 Für jedes k ∈ N bilden die „Diagonalindices “ nj $:= nj,j% mit j ≥ k eine Teilfolge von (nk,m ) , und deshalb gilt für die Teilfolge x(nj ) der Punkte x(n) " # (n ) (n ) lim x1 j , . . . , xk j = (x1 , . . . , xk ) ∈ Kk,Nk ⊆ Ck,Nk ∀ k ∈ N . j
Dies aber bedeutet, dass der Vektor x := (x1 , x2 , . . .) der Grenzwerte in jedem Ck , k ∈ N liegt, oder anders ausgedrückt: x ∈ Ck = ∅ . k
Die Eindeutigkeit von P ergibt sich wieder aus Satz 4.13. Definition 10.45. Ein stochastischer Prozess auf einem Wahrscheinlichkeitsraum (Ω, S, P ) ist eine Familie {Xi , i ∈ I} von Zufallsvariablen auf (Ω, S, P ) . Bemerkung 10.46. Die Projektionen Yi := pri , i ∈ I bilden auf (RI , BI , P ) einen stochastischen Prozess, der diesen Raum identisch auf sich selbst abbildet, deshalb ist die durch die Projektionen induzierte Verteilung einfach P selbst. Ist umgekehrt {Xi , i ∈ I} ein stochastischer Prozess auf einem beliebigen Raum (Ω, S, P ) , so wird für jedes ω ∈ Ω durch X(ω)(i) := Xi (ω) ∀ i ∈ I eine I Funktion X(ω) aus RI definiert, d.h.$X : Ω → Aus der Definition von X % R . −1 −1 −1 folgt pri ◦X = Xi ∀ i ∈ I ⇒ X pri (B) = Xi (B) ∀ i ∈ I ∀B ∈ B . −1 pri (B) . Da die Xi S|B-messbar sind, gilt demnach X−1 (C) ∈ S ∀ C ∈ i∈I −1 pri (B) ist aber ein Erzeuger von BI , d.h. X ist S|BI -messbar. i∈I n n = Ist J := {j1 , . . . , jn } ⊆ I und A := pr−1 A pr−1 jk jk (Ajk ) ein J k=1
messbarer Pfeiler mit Ajk ∈ B ∀ jk ∈ J , so gilt X−1 (A) =
n k=1
k=1
n n % $ −1 X−1 pr−1 (A ) = X (A ) = [Xjk ∈ Ajk ] , j j k k jk jk k=1
k=1
10.3 Maße auf unendlich-dimensionalen Produkträumen
181
und dies ergibt für die durch X auf (RI , BI ) induzierte Verteilung P X−1
n
−1 −1 PX A jk prJ = P ( X j1 ∈ A j1 , . . . , X jn ∈ A jn ) , k=1
von P X−1 stimmen d.h. die endlich-dimensionalen Randverteilungen P X−1 J mit den endlich-dimensionalen Randverteilungen des Prozesses überein, oder anders ausgedückt: die Projektionen Yi := pri , i ∈ I bilden einen stochastischen Prozess auf (RI , BI , P X−1 ) , dessen endlich-dimensionale Randverteilungen mit denen des ursprünglichen Prozesses übereinstimmen. Deshalb kann man (RI , BI , P X−1 ) als „kanonischen Raum“ von {Xi , i ∈ I} betrachten. Bemerkung 10.47. Ist J := {j1 , . . . , jn } eine endliche Teilmenge von I und π := π1 , . . . , πn eine Permutation von 1, . . . , n , so kann man den Bildraum RJ = {f : J → R} der Projektion prJ durch Gπ (f ) := (f (jπ1 ), . . . , f (jπn ) ) bijektiv auf Rn abbilden. Je nachdem, welche Permutation man wählt, werden dadurch unterschiedliche Verteilungen auf (Rn , Bn ) induziert, die aber folgendermaßen zusammenhängen: Bezeichnet man mit G die zur identischen Permutation gehörige Abbildung und ist Π : Rn → Rn definiert durch Π((x1 , . . . , xn ) ) := (xπ1 , . . . , xπn ) , so gilt Gπ = Π ◦ G , und daraus folgt $ −1 % −1 Π (A) ∀ A ∈ Bn . (10.23) P G−1 π (A) = P G Ist A := A1 × · · · × An , Ai ∈ B und π −1 die zu π inverse Permutation, so ist wegen πi = k ⇔ i = πk−1 , die Aussage f (jπi ) ∈ Ai ∀ 1 ≤ i ≤ n äquivalent zu f (jk ) ∈ Aπ−1 ∀ 1 ≤ k ≤ n , und deshalb wird Gleichung (10.23) zu k
P G−1 π
n
i=1
Ai
−1
= PG
n
Aπ−1 k
∀ Ai ∈ B .
(10.24)
k=1
Der Existenzsatz von Kolmogoroff kann daher auch so formuliert werden: Satz 10.48 (Existenzsatz von Kolmogoroff - 2.-te Fassung). Gibt es zu jedem n ∈ N und jedem n-Tupel (i1 , . . . , in ) verschiedener Indices aus I eine Verteilung Pi1 ,...,in auf (Rn , Bn ) , sodass die Konsistenzbedingungen Pi1 ,...,in ,in+1 (A × R) = Pi1 ,...,in (A)
∀ n ∈ N , A ∈ Bn ,
(10.25)
gelten, und, sodass für jede Permutation π := π1 , . . . , πn mit der oben definierten Funktion Π die zusätzlichen Konsistenzbedingungen % $ Piπ1 ,...,iπn (A) = Pi1 ,...,in Π −1 (A) ∀ n ∈ N , A ∈ Bn , (10.26) erfüllt sind, dann existiert ein Wahrscheinlichkeitsraum (Ω, S, P ) und ein stochastischer Prozess {Xi : i ∈ I} auf diesem Raum, sodass gilt Pi1 ,...,in (A) = P (Xi1 , . . . , Xin )−1 (A) ∀ n ∈ N , A ∈ Bn .
(10.27)
182
10 Produkträume
Beweis. Für jedes J := {j1 , . . . , jn } ⊆ I und alle Ak ∈ B , k = 1, . . . , n ist n Ak eine sinnvolPJ ({f : f (jk ) ∈ Ak , 1 ≤ k ≤ n} ) := Pj1 ,...,jn k=1
∀ k , π und wele Definition, denn f (jk ) ∈ Ak ∀ k ⇔ f (jπk ) ∈ Aπ k n n gen (10.26) gilt Pj1 ,...,jn Ak = Pjπ1 ,...,jπn Aπk . Damit sind auf k=1
k=1
(R|J| , B|J| ) , |J| < ∞ , J ⊆ I Verteilungen PJ definiert, die die Voraussetzungen von Satz 10.44 erfüllen.
10.4 Null-Eins-Gesetz von Hewitt- Savage Betrachtet man eine Folge (X n ) von unabhängigen Zufallsvariablen, so ist das ∞ Xi ≤ c nicht terminal, da es für jedes n ∈ N offensichtEreignis A := i=1
lich auch von den ersten n Gliedern X1 , . . . , Xn der Folge beeinflusst wird. Aber eine Permutation der X1 , . . . , Xn ist bei einer identisch verteilten Folge für den Eintritt von A ohne Bedeutung. Derartige Ereignisse nennt man symmetrisch und das Null-Eins-Gesetz lässt sich für unabhängig identisch verteilte Zufallsvariable auf solche Ereignisse verallgemeinern. Formal werden symmetrische Ereignisse als Urbilder bestimmter Teilmengen des Folgenraums (RN , BN ) definiert. Lemma 10.49. Ist Ω = ∅ eine beliebige Menge und f := (f1 , f2 , . . .) eine Folge von Funktionen fn : Ω → R , so gilt f −1 (BN ) = S(f ) := S(f1 , f2 , . . .) . Beweis. Aus f : Ω → RN , fi = pri ◦f ∀ i ∈ N und Satz 7.40 folgt
−1 −1 −1 −1 −1 pri (B) = Aσ f pri (B) f (BN ) = f Aσ
= Aσ
i∈N
i∈N
f
−1
$
pr−1 i (B)
%
= Aσ
i∈N
fi−1 (B)
= S(f1 , f2 , . . .) .
i∈N
Definition 10.50. Ist f := (f1 , f2 , . . .) eine Folge reellwertiger Funktionen auf einer Menge Ω = ∅ , so nennt man A ∈ S(f ) symmetrisch, wenn es für jedes n ∈ N und jede Permutation π1 , . . . , πn von 1, . . . , n ein B ∈ BN gibt, sodass A = (f1 , f2 , . . .)−1 (B) = (fπ1 , . . . , fπn , fn+1 , . . .)−1 (B) . Bemerkung 10.51. Terminale Ereignisse sind vom Verhalten endlich vieler Komponenten unabhängig und daher stets symmetrisch. Lemma 10.52. Ist X := (X1 , X2 , . . .) eine Folge unabhängig, identisch verteilter Zufallsvariabler auf einem Wahrscheinlichkeitsraum (Ω, S, P ), so gilt für jedes n ∈ N, jede Permutation π1 , . . . , πn von 1, . . . , n und jedes B ∈ BN $ % $ % P X−1 (B) = P (Xπ1 , . . . , Xπn , Xn+1 , . . .)−1 (B) . (10.28)
10.4 Null-Eins-Gesetz von Hewitt- Savage
183
Beweis. Mit der Bezeichnung Xπ := (Xπ1 , . . . , Xπn , Xn+1 , . . .) gilt für jeden n Bi × R messbaren Pfeiler B = i=1
$
P X
−1
%
(B) = P
i>n
(X1 , . . . , Xn )
−1
n
Bi
=
i=1
=
n
i=1
$
%
P X1−1 (Bi ) =
n
$
%
n
P Xi−1 (Bi )
i=1
$
% P Xπ−1 (Bi ) = P X−1 π (B) . i
i=1
Wegen des Eindeutigkeitssatzes gilt (10.28) damit für alle B ∈ BN . Satz 10.53 (Null-Eins-Gesetz von Hewitt- Savage). Ist X := (X1 , X2 , . . .) eine Folge unabhängig, identisch verteilter Zufallsvariabler auf einem Wahrscheinlichkeitsraum (Ω, S, P ), so gilt für jedes symmetrische Ereignis A ∈ S(X) P (A) = 0 ∨ P (A) = 1 . Beweis. Wir werden im Folgenden die Bezeichnung Xn1 := (X1 , . . . , Xn ) bzw. Xn1,π := (Xπ1 , . . . , Xπn ) und Xπ := (Xπ1 , . . . , Xπn , Xn+1 , . . .) , wenn π1 , . . . , πn eine Permutation von 1, . . . ,n ist, verwenden. Zu jeder Menge A ∈ S(X) = Aσ S(Xn1 ) und ε > 0 gibt es nach n∈N
Satz 4.24 ein n ∈ N und ein Aε ∈ S(Xn1 ) , sodass gilt P (A Aε ) ≤ ε . n −1 Zu Aε ∈ S(Xn1 ) existiert aber ein Bε,n ∈ Bn mit Aε = (X ε,n ) bzw. 1 ) (B−1 −1 R = prNn (Bε,n ) . Aε = X (Bε ) für den zugehörigen Zylinder Bε := Bε,n × i>n i + n, 1 ≤ i ≤ n Ist A symmetrisch und definiert man durch πi := i − n, n < i ≤ 2n eine Permutation π von 1, . . . , 2 n , so gibt es eine Menge B ∈ BN , für die gilt A = X−1 (B) = X−1 π (B) . Aus Lemma 10.52 folgt P (Aε ) = P (X−1 (Bε ) ) = P (X−1 π (Bε ) ) . Aus dieπ := X−1 sem Lemma folgt $unter Verwendung der Bezeichnung A ε π (Bε ) auch % $ −1 % π −1 P (A Aε ) = P Xπ (B Bε ) = P X (B Bε ) = P (A Aε ) ≤ ε . Aus dieser Beziehung erhält man mit Hilfe von Lemma 2.6 Punkt 12. P (A (Aε ∩Aπε ) ) = P ((A∩A) (Aε ∩Aπε ) ) ≤ P (A Aε )+P (A Aπε ) ≤ 2 ε . Wegen |P (A) − P (B)| ≤ P (A B) (siehe Folgerung 3.14) gelten deshalb folgende Ungleichungen |P (A) − P (Aε )| ≤ ε , |P (A) − P (Aπε )| ≤ ε , |P (A) − P (Aε ∩ Aπε )| ≤ 2 ε .
(10.29) (10.30) (10.31)
Da die Xi unabhängig sind, ist Aπε = X−1 π (Bε ) = [ (Xn+1 , . . . , X2 n ) ∈ Bε,n ] unabhängig von Aε = [ (X1 , . . . , Xn ) ∈ Bε,n ] , und dies impliziert seinerseits P (Aε ∩ Aπε ) = P (Aε ) P (Aπε ) = P (Aε )2 . Eingesetzt in (10.31) ergibt das
184
10 Produkträume
+ + +P (A) − P (Aε )2 + ≤ 2 ε .
(10.32)
Aus (10.29) , (10.30), (10.32) und der Dreiecksungleichung folgt nun + + +P (A) − P (A)2 + + + + + + + ≤ +P (A) − P (Aε )2 + + +P (Aε )2 − P (A) P (Aε )+ + +P (A) P (Aε ) − P (A)2 + ≤ 2 ε + P (Aε ) |P (Aε ) − P (A)| + P (A) |P (Aε ) − P (A)| ≤ 4 ε . Da ε > 0 beliebig ist, gilt somit P (A) = P (A)2 ⇒ P (A) = 0 ∨ P (A) = 1 .
10.5 Stetige Zufallsvariable Wir haben schon in den Abschnitten 6.5 und 6.6 erwähnt, dass Verteilungen sehr wichtig sind, deren Verteilungsfunktionen sich als Integrale nichtnegativer Funktionen f , die wir als Dichten bezeichnet haben, darstellen lassen (vgl. etwa Bemerkung 6.65). Dies soll nun präzisiert werden. Definition 10.54. Ein Zufallsvektor X := (X1 , . . . , Xk ) auf einem Wahrschein+ k lichkeitsraum (Ω, S, P . ) heißt stetig, wenn es ein fX ∈ M (R , Bk , λk ) gibt, −1 sodass P X (B) = B fX dλk ∀ B ∈ Bk , wenn also die induzierte Verteilung P X−1 auf (Rk , Bk ) als λk -Integral darstellbar ist. fX nennt man dann die gemeinsame Dichte des Zufallsvektors (oder auch Dichte von P X−1 ). Bemerkung 10.55. Diese Bezeichnungsweise ist sinnvoll, da Folgerung 9.47 besagt, dass die Dichte λk -fü eindeutig bestimmt ist. Lemma 10.56. Ist X := (X1 , . . . , Xk ) ein stetiger Zufallsvektor mit der Dichte fX und ist J := {j1 , . . . , jh } eine Teilmenge von Nk mit J c := {i1 , . . . , ik−h } , so ist der Zufallsvektor XJ := (Xj1 , . . . , Xjh ) ebenfalls stetig und besitzt die Dichte 7 7 fJ (xj1 , . . . , xjh ) := · · · fX (x1 , . . . , xk ) dλ(xi1 ) · · · dλ(xik−h ) . (10.33) Beweis. Mit Hilfe von Satz 10.24 erhält man für jedes B ∈ Bh 7 −1 k−h P X−1 (B) = P X (B × R ) = fX (x) dλk (x) J 7 = B
⎡ ⎣
B×Rk−h
7
7 ···
R
⎤
fX (x) dλ(xi1 ) · · · dλ(xik−h )⎦ dλh (xj1 , . . . , xjh ) .
R
Der Ausdruck in der eckigen Klammer ist gerade f.J (xj1 , . . . , xjh ) , und damit ist das Lemma bewiesen, da klarerweise auch gilt Rh fJ dλh = 1 . Definition 10.57. Mit den Bezeichnungen und unter den Voraussetzungen von Lemma 10.56 werden die fJ Randdichten der Zufallsvektoren XJ genannt.
10.5 Stetige Zufallsvariable
185
Beispiel 10.58 (Fortsetzung von Beispiel 10.17 und 10.20). Nach dem Satz von Fubini.stimmt das iterierte Integral in Gleichung 10.7 aus Beipiel 10.20 überein mit C τ 2 e−τ t 1[s,∞) (t) dλ2 (s, t) , d.h. es gilt 7 μ(C) = τ 2 e−τ t 1[s,∞) (t) dλ2 (s, t) ∀ C ∈ B2 . C
Die Zufallsvariablen T1 und T2 aus Beispiel 10.17 sind demnach stetig mit der gemeinsamen Dichte fT1 ,T2 (s, t) = 1[s,∞) (t) τ 2 e−τ t = 1[0,t] (s) τ 2 e−τ t , und ihre Randdichten fT1 und fT2 ergeben sich gemäß +∞ Lemma 10.56 zu . . 2 −τ t −τ t + τ e dλ(t) = −τ e fT1 (s) = f (s, t) dλ(t) = + = τ e−τ s , s > 0 s R [s,∞) . . und fT2 (t) = fT1 ,T2 (s, t) dλ(s) = [0,t] τ 2 e−τ t dλ(s) = τ 2 t e−τ t , t > 0 . R
T2 ist also erlangverteilt mit den Parametern n = 2 und τ . f (s,t) Da μ1 ( fT1 = 0 ) = 0 , ist fT2 |T1 (t|s) := Tf1T,T2(s) μ1 –fü definiert und man 1 kann P ([T1 ∈ A] ∩ [T2 ∈ B]) für A, B ∈ B anschreiben in der Form 7 7 P ([T1 ∈ A] ∩ [T2 ∈ B]) = μ(A × B) = fT2 |T1 (t|s) dλ(t) fT1 (s) dλ(s) 7 =
⎡ ⎣
A
7
⎤
A B
1[s,∞) (t) τ e−τ (t−s) dλ(t) ⎦ 1[0,∞) (s) τ e−τ s dλ(s) .
(10.34)
B
Die Integrale in den eckigen Klammern von (10.34) entsprechen gerade den Wahrscheinlichkeitsmaßen μ2 (s, .) aus Beispiel 10.20 , von denen wir in Beispiel 10.17 angenommen haben, dass sie die Verteilungen von T2 bei jeweils gegebenem T1 = s bilden sollten. Definiert man fT1 |T2 (s|t) :=
fT1 ,T2 (s,t) fT2 (t)
=
1[0,t] (s) τ 2 e−τ t 1[0,∞) (t) τ 2 t e−τ t
7 P ([T1 ∈ A] ∩ [T2 ∈ B]) = μ(A × B) = 7 = B
⎡ ⎣
7
⎤
B
⎡ ⎣
7
=
1 t
1[0,t] (s) , so gilt ⎤
fT1 |T2 (s|t) dλ(s)⎦ fT2 (t) dλ(t)
A
1 1[0,t] (s) dλ(s) ⎦ 1[0,∞) (t) τ 2 t e−τ t dλ(t) , t
(10.35)
A
Man gelangt also auch dann zur Verteilung μ auf dem Produktraum, wenn T2 ∼ Er2,τ und, wenn T1 bei gegebenem T2 = t auf [0, t] gleichverteilt ist. Allgemein wird das im Beispiel zuletzt beschriebene Konzept so formuliert: Definition 10.59. Ist (X, Y) , X : Ω → Rm , Y : Ω → Rn , ein stetiger Zufallsvektor auf einem Wahrscheinlichkeitsraum (Ω, S, P ) mit der Dichte fX,Y und den Randdichten fX , fY , so nennt man die P X−1 –fü definierte Funktion
186
10 Produkträume
fY|X (y|x) :=
fX,Y (x, y) fX (x)
die durch X = x bedingte Dichte von Y . Die zugehörige Verteilung 7 −1 P Y (B|X = x) := fY|X (y|x) dλn (y) , B ∈ Bn B
heißt die durch X = x bedingte Verteilung von Y . Bemerkung 10.60. 1. Dass P Y −1 ( . |X = x) tatsächlich eine Wahrscheinlichkeitsverteilung ist, folgt sofort aus . 7 fX,Y (x, y) n fX,Y (x, y) dλn (y) −1 n dλn (y) = .R = 1. P Y (R |X = x) = fX (x) f (x, y) dλn (y) Rn X,Y Rn
2. Besitzt X eine stetige Dichte fX , so gilt fX (x) − ε ≤ fX (u) ≤ fX (x) + ε für ε > 0 und u ∈ [x − Δ,. x] , wenn Δ hinreichend klein ist, und daraus folgt x P (X ∈ [x − Δ , x] ) = x−Δ fX (u) du ≈ fX (x) Δ . Dies impliziert nun lim
Δ→0
P (X ∈ [x − Δ , x] ) = f (x) . Δ
Man kann daher die Dichte interpretieren als Grenzwert des Quotienten der Wahrscheinlichkeit, mit der X Werte in einem kleinen Intervall annimmt, und der Länge dieses Intervalls. Sind die Dichten von X und Y und von (X, Y ) wie in Beispiel 10.58 stetig, so gilt sowohl fX,Y (x, y) − ε ≤ fX,Y (u, v) ≤ fX,Y (x, y) + ε , als auch fX (x) − ε ≤ fX (u) ≤ fX (x) + ε für ε > 0 und jeden Punkt (u, v) aus [x − Δ, x] × [y − Δ, y] , wenn Δ hinreichend klein ist. Daraus folgt P ([X ∈ [x − Δ, x] ∩ [Y ∈ [y − Δ, y]) P (Y ∈ [y − Δ, y]|X ∈ [x − Δ, x]) = P (X ∈ [x − Δ, x]) .x .y f (s, t) ds dt fX,Y (x, y) Δ2 x−Δ y−Δ X,Y .x = ≈ . fX (x) Δ f (s) ds x−Δ X bzw. fX,Y (x, y) P (Y ∈ [y − Δ, y]|X ∈ [x − Δ, x]) fX,Y (x, y)Δ2 = = lim . 2 Δ 0 Δ Δ fX (x) Δ fX (x) lim
Man kann daher diesen Grenzwert unter den oben erwähnten Voraussetzungen als die durch X = x bedingte Dichte von Y auffassen. Der Ansatz bedingte Wahrscheinlichkeiten für Bedingungen mit Wahrscheinlichkeit 0 durch einen Grenzübergang, bei dem die Wahrscheinlichkeit der Bedingung gegen 0 geht, einzuführen erweist sich aber i. A. als nicht zielführend. Das Konzept, das sich für eine allgemeine Definition der bedingten Wahrscheinlichkeiten eignet, wird erst in einem späteren Kapitel behandelt.
10.6 Die Faltung
187
Satz 10.61 (Multiplikationsregel). Ist (X, Y) ein stetiger Zufallsvektor mit der gemeinsamen Dichte fX,Y und den Randdichten fX bzw. fY , so gilt fX,Y (x, y) = fX (x) fY|X (y|x) = fY (y) fX|Y (x|y)
∀ x, y .
Beweis. Der Satz folgt unmittelbar aus Definition 10.59. Zusätzlich zu den in den Sätzen 7.45 bzw. 8.11 formulierten Unabhängigkeitskriterien gilt für stetige Zufallsvektoren der folgende Satz. Satz 10.62. Sind X : Ω → Rm und Y : Ω → Rn unabhängige, stetige Zufallsvektoren auf einem Wahrscheinlichkeitsraum (Ω, S, P ) mit den Dichten fX bzw. fY , so ist auch (X, Y) stetig mit der Dichte fX,Y = fX fY λm+n –fü . Gilt umgekehrt für einen stetigen Zufallsvektor (X, Y) fX,Y = fX fY λm+n –fü , dann sind X und Y unabhängig. Beweis. Aus der Unabhängigkeit, dem Satz von Fubini und Satz 10.33 folgt P (X, Y)−1 (A × B) = P ([X ∈ A] ∩ [Y ∈ B]) = P ([X ∈ A]) P ([Y ∈ B]) 7 7 7 = fX dλm fY dλn = fX fY dλn+m ∀ A ∈ Bm , B ∈ Bn . A
B
A×B
. Da P (X, Y)−1 auf den messbaren Rechtecken mit ν(C) := C fX fY dλn+m übereinstimmt und diese Rechtecke Bn+m erzeugen, gilt P (X, Y)−1 = ν . Somit ist fX fY die Dichte von (X, Y) . Ist umgekehrt fX fY die Dichte von (X, Y) , so gilt wegen Satz 10.33 7 7 7 P (X, Y)−1 (A × B) = fX fY dλn+m = fX dλm fY dλn A×B
= PX
A −1
(A) P Y
−1
(B)
B
∀ A ∈ Bm , B ∈ Bn ,
d.h. X und Y sind unabhängig. Bemerkung 10.63. Aus dem obigen Satz folgt sofort, dass bei unabhängigen Zufallsvektoren die bedingten Dichten stets mit den jeweiligen Randdichten übereinstimmen, dass also gilt fY|X (y|x) = fY (y) bzw. fX|Y (x|y) = fX (x) , ∀ x, y . d.h. die bedingten Verteilungen sind ident mit den Randverteilungen und daher unbeeinflusst vom Wert des jeweils anderen Zufallsvektors.
10.6 Die Faltung Definition 10.64. Die Faltung der σ-endlichen Maße μ1 und μ2 auf (R, B) ist das durch die Addition S(x, y) := x + y ∀ (x, y) ∈ R2 vom Produktraum (R2 , B2 , μ1 ⊗ μ2 ) auf (R, B) induzierte Maß μ1 ∗ μ2 := μ1 ⊗ μ2 S −1 .
188
10 Produkträume
Lemma 10.65. Sind μ1 , μ2 zwei σ-endliche Maße auf (R, B) , so gilt 7 7 μ1 ∗ μ2 (A) = μ1 (A − y) μ2 (dy) = μ2 (A − x) μ1 (dx) ∀ A ∈ B . (10.36) Beweis. Die Schnitte von S −1 (A) = (x, y) ∈ R2 : x + y ∈ A , A ∈ B sind gegeben durch S −1 (A)y = A − y := {a − y : a ∈ A} und S −1 (A)x = A − x . Gemäß Gleichung (10.17) aus Satz 10.25 gilt deshalb für alle A ∈ B 7 7 $ % μ1 ∗ μ2 (A) = μ1 ⊗ μ2 S −1 (A) = μ1 (A − y) dμ2 (y) = μ2 (A − x) dμ1 (x) . Satz 10.66. Sind μ1 , μ2 , μ3
σ-endliche Maße auf (R, B) , so gilt
1. μ1 ∗ μ2 = μ2 ∗ μ1 , 2. (μ1 ∗ μ2 ) ∗ μ3 = μ1 ∗ (μ2 ∗ μ3 ) , 3. μ1 (R) = μ2 (R) = 1 ⇒ μ1 ∗ μ2 (R) = 1 . Beweis. ad 1. : Dies folgt sofort aus Lemma 10.65. ad 2. : Mit Hilfe des Satzes von Fubini erhält man (μ1 ∗ μ2 ) ∗ μ3 (A) 7 7 7 μ2 (A − z − x) dμ1 (x) dμ3 (z) = μ1 ∗ μ2 (A − z) dμ3 (z) = 7 7 7 = μ2 (A − z − x) dμ3 (z) dμ1 (x) = μ2 ∗ μ3 (A − x) dμ1 (x) = (μ2 ∗ μ3 ) ∗ μ1 (A) = μ1 ∗ (μ2 ∗ μ3 )(A) . ad 3. : Aus R − y = R ∀ y ∈ R und μ1 (R) = μ2 (R) = 1 folgt sofort 7 7 7 μ1 ∗μ2 (R) = μ1 (R−y)dμ2 (y) = μ1 (R)dμ2 (y) = 1dμ2 = μ2 (R) = 1. Bemerkung 10.67. Punkt 3 im obigen Satz besagt, dass μ1 ∗μ2 ein Wahrscheinlichkeitsmaß ist, wenn die μi , i = 1, 2 Wahrscheinlichkeitsverteilungen sind. Dies ist auch intuitiv klar, denn sind X1 und X2 unabhängige Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und sind die μi die zugehörigen induzierten Verteilungen P Xi−1 , so stimmt μ1 ⊗ μ2 mit der gemeinsamen Verteilung P (X1 , X2 )−1 von (X1 , X2 ) überein, und μ1 ∗ μ2 ist die durch X1 + X2 induzierte Verteilung P (X1 + X2 )−1 und daher ebenfalls ein Wahrscheinlichkeitsmaß. Gerade aus dieser Beziehung, dass die Faltung die Verteilung der Summe unabhängiger Zufallsvariabler ist, ergibt sich auch ihre besondere Bedeutung. Satz 10.68. Sind die beiden Maße μ1 , μ2 unbestimmte Integrale bezüglich λ mit reellwertigen Dichten f, g , so gilt
10.6 Die Faltung
7 μ1 ∗ μ2 (A) = A
7 = A
⎡ ⎣ ⎡ ⎣
7
f (s − y) g(y) dλ(y)⎦ dλ(s)
R
7
189
⎤
⎤ g(s − x) f (x) dλ(x)⎦ dλ(s) .
(10.37)
R
Beweis. Für die Abbildungen Ty (x) = x − y , y ∈ R gilt wegen der Translationsinvarianz des Lebesgue-Maßes λTy−1 = λ . Zudem gilt Ty−1 (A − y) = A . Daher folgt aus Lemma 10.65, Satz 9.62 und dem Satz von Fubini ⎡ ⎤ 7 7 7 μ1 ∗ μ2 (A) = μ1 (A − y) dμ2 (y) = ⎣ f (x) λ(dx)⎦ g(y) dλ(y) 7 = R
7 = R
⎡ ⎣
R
7
⎤
⎣
7
A−y
f (x) dλTy−1 (x)⎦ g(y) dλ(y) =
A−y
⎡
R
⎤
f (s − y) dλ(s)⎦ g(y) dλ(y) =
A
⎡
7
⎣
R
7
⎡ ⎣
⎤
7
f ◦ Ty (s) dλ(s)⎦ g(y) dλ(y)
A
7
⎤
f (s − y) g(y) dλ(y)⎦ dλ(s) .
R
A
Die zweite Gleichung in (10.37) folgt aus Symmetriegründen. Definition 10.69. Sind f , g ∈ M+ (R, B) reellwertig, so nennt man 7 7 f ∗ g(s) = f (s − y) g(y) dλ(y) = g(s − x) f (x) dλ(x) R
R
die Faltung oder Faltungsdichte von f und g .
. Bemerkung 10.70. Man beachte, dass die zugehörigen Maße μ1 (A) = A f dλ . und μ2 (A) = A g dλ wegen der Reellwertigkeit von f , g σ-endlich sind (vgl. hiezu die Argumentation im Beweis der Kettenregel – Folgerung 9.50). Satz 10.71. Sind μ1 und μ2 zwei diskrete Lebesgue-Stieltjes-Maße auf (R, B) mit μi (Dic ) = 0 , |Di | ≤ ℵ0 , i = 1, 2 , so ist μ1 ∗ μ2 ebenfalls diskret mit dem Träger D∗ = {x + y : x ∈ D1 , y ∈ D2 } , d.h. μ1 ∗ μ2 (D∗c ) = 0 , und es gilt ! ! μ1 ∗ μ2 ({s}) = μ1 ({s − y}) μ2 ({y}) = μ2 ({s − x}) μ1 ({x}) ∀ s ∈ R. y∈D2
Beweis. μ1 ∗ μ2 (A) =
. D2
x∈D1
μ1 (A − y) dμ2 (y) =
y∈D2
μ1 (A − y) μ2 ({y}) . Da
c c gilt D∗c − y ⊆ D 1 ∀ y ∈ D2 , und D1 eine μ1 - Nullmenge ist, folgt daraus c c μ1 ∗ μ2 (D∗ ) = μ1 (D∗ − y) μ2 ({y}) = 0 . y∈D2 Für A = {s} erhält man μ1 ∗ μ2 ({s}) = μ1 ({s − y}) μ2 ({y}) , und aus y∈D 2 Symmetriegründen gilt auch μ1 ∗ μ2 ({s}) = μ2 ({s − x}) μ1 ({x}) . x∈D1
190
10 Produkträume
Im Folgenden wird die Faltung einiger spezieller Verteilungen untersucht. Dabei verwenden wir bei diskreten Verteilungen die Bezeichnung P (x) statt P ({x}) , wobei P durch das Symbol der jeweiligen Verteilung ersetzt wird, etwa durch Bn,p , wenn eine Binomialverteilung betrachtet wird. Beispiel 10.72 (Faltung von Binomialverteilungen). Bn,p ∗ Bm,p = Bn+m,p , d.h. sind X ∼ Bn,p , Y ∼ Bm,p unabhängig, dann folgt daraus X + Y ∼ Bn+m,p . Für μ1 := Bn,p und μ2 := Bp gilt D1 = {0, . . . , n} und D2 = {0, 1} . Daraus folgt D∗ = {0, . . . , n + 1} , und Satz 10.71 angewendet auf Bn,p und Bp ergibt Bn,p ∗ Bp (k) = Bp (0) Bn,p (k) + Bp (1) Bn,p (k − 1) n k n p (1 − p)n−k + p = (1 − p) pk−1 (1 − p)n−k+1 k k−1 n n + = pk (1 − p)n+1−k = Bn+1,p (k). k−1 k 01 2 / (n+1 k ) Insbesondere gilt B2,p = Bp ∗ Bp und vollständige Induktion führt schließlich zu Bn,p = Bp ∗ Bp ∗ . . . ∗ Bp , d.h. ist X Bn,p - verteilt, so ist X darstellbar / 01 2 n-mal n als Summe X = Xi unabhängiger Zufallsvariabler Xi mit Xi ∼ Bp ∀ i . 1=1
Aus Bn,p ∗ Bp = Bn+1,p und der Annahme Bn,p ∗ Bm−1,p = Bn+m−1,p folgt aber auch Bn,p ∗ Bm,p = Bn,p ∗ Bm−1,p ∗ Bp = Bn+m−1,p ∗ Bp = Bn+m,p , womit diese Beziehung ebenfalls durch vollständige Induktion bewiesen ist. Beispiel 10.73 (Faltung von negativen Binomialverteilungen). Es gilt neg Bn,p ∗neg Bm,p =neg Bn+m,p . Im ersten Schritt zeigen wir, dass neg Bn,p ∗ Gp =neg Bn+1,p .
10.6 Die Faltung
k ! n+i−1
pn (1 − p)i p (1 − p)k−i n − 1 i=0 n+k−1 n+k−2 n n−1 n+1 k + + ... + + =p (1 − p) n−1 n−1 n−1 n−1 n+k−1 n+1 n n = pn+1 (1 − p)k +. . .+ + + n−1 n−1 n−1 n
neg Bn,p
∗ Gp (k) =
191
B B n+k−1 n+2 n+1 n+1 n+1 k =p +. . .+ + + (1 − p) n−1 n−1 n−1 n n+k−1 n+3 n+2 n+2 + ... + + = pn+1 (1 − p)k + n−1 n−1 n−1 n .. . n+1 k n+k =p = neg Bn+1,p (k) . (1 − p) n Der Rest verläuft völlig analog zu Beispiel (10.72) mit der geometrischen Verteilung in der Rolle der Bernoulliverteilung. Somit ist X ∼ neg Bn,p darstellbar n Xi von unabhängigen, Gp - verteilten Zufallsvariablen Xi . als Summe X = i=1
Beispiel 10.74 ( Faltung von Poissonverteilungen ). Pτ ∗ Pρ = Pτ +ρ , d.h. X ∼ Pτ , Y ∼ Pρ , X, Y unabhängig ⇒ X + Y ∼ Pτ +ρ . Pτ ∗ Pρ (k) =
k k ! e−(τ +ρ) ! τ i e−τ ρk−i e−ρ k! = τ i ρk−i i! (k − i)! k! i! (k − i)! i=0
i=0
(τ + ρ)k e−(τ +ρ) = = Pτ +ρ (k) . k! Beispiel 10.75 (Faltung von Gammaverteilungen). Es gilt Γ (a1 , b) ∗ Γ (a2 , b) = Γ (a1 + a2 , b) . Da die Dichte f (x) einer Gammaverteilung für negative x verschwindet, kann das Produkt f1 (x) f2 (s − x) der Dichten f1 , f2 der Gammaverteilungen Γ (a1 , b) , Γ (a2 , b) nur für 0 ≤ x ≤ s von Null verschieden sein. Daher gilt 7s f1 ∗ f2 (s) = 0
xa1 −1 e− b (s−x)a2 −1 e− ba1 Γ (a1 ) ba2 Γ (a2 ) x
e− b = a1 +a2 b Γ (a1 ) Γ (a2 ) s
7s 0
s−x b
dx
xa1 −1 (s−x)a2 −1 dx .
192
10 Produkträume
Die Substitution y =
x s
führt das über in
sa1 +a2 −1 e− b f1 ∗f2 (s) = a1 +a2 b Γ (a1 )Γ (a2 ) s
71
sa1 +a2 −1 e− b B(a1 , a2 ) dy = . ba1 +a2 Γ (a1 ) Γ (a2 ) s
y
a1 −1
(1−y)
a2 −1
0
(a1 ,a2 ) mit der Dichte f einer Dies stimmt bis auf den konstanten Faktor Γ B (a .1 ) Γ (a2 ) . Γ (a1 + a2 , b)-Verteilung überein. Da aber gilt f1 ∗ f2 (s) ds = 1 = f (s) ds , müssen damit auch die konstanten Faktoren von f und f1 ∗ f2 gleich sein. Somit ist Γ (a1 , b) ∗ Γ (a2 , b) = Γ (a1 + a2 , b) gezeigt, und als Nebenprodukt wurde die folgende, aus der Analysis bekannte Gleichung bewiesen
B(a1 , a2 ) =
Γ (a1 ) Γ (a2 ) . Γ (a1 + a2 )
(10.38)
Die Summe von 2 unabhängig Γ (a1 , b) , bzw. Γ (a2 , b) verteilten Zufallsvariablen ist also Γ (a1 + a2 , b) verteilt. Daraus folgt natürlich sofort, dass die Summe einer χ2n -verteilten Zufallsvariablen und einer davon unabhängigen χ2m -verteilten Zufallsvariablen χ2n+m verteilt ist. Unter Berücksichtigung der Tatsache, dass das Quadrat einer N (0, 1)-verteilten Zufallsvariablen χ21 -verteilt ist (siehe Beispiel 9.82), kann man demnach χ2n -verteilte Zufallsvariable immer als Summe der Quadrate von n unabhängigen N (0, 1)-verteilten Zufallsvariablen interpretieren. Ebenso ist die Summe von unabhängigen Ern,τ - und Erm,τ -verteilten Zufallsvariablen Ern+m,τ verteilt und eine Ern,τ -verteilte Zufallsvariable als Summe von n unabhängigen exponentialverteilten Summanden darstellbar. Beispiel 10.76 (Faltung von Normalverteilungen). N (μ1 , σ12 ) ∗ N (μ2 , σ22 ) = N (μ1 + μ2 , σ12 + σ22 ) . Wir beweisen zunächst N (0, 1) ∗ N (0, σ 2 ) = N (0, 1 + σ 2 ) . Sind f1 , f2 die Dichten dieser beiden Normalverteilungen, so gilt 7∞ f1 ∗ f2 (s) = −∞
(s−x)2 1 e− 2σ2 − 2π σ
x2 2
7∞ dx = −∞
(s−x)2 +x2 σ 2 1 2σ 2 e− dx . 2π σ
Formt man den Exponenten im obigen Integral um zu < s2 s2 s 1 − , + 2 − 2 x2 (σ 2 + 1) − 2x σ 2 + 1 √ 2 2σ 2(σ + 1) σ2 + 1 σ + 1 so ergibt das 2
f1 ∗ f2 (s) = √
− 2(σs2 +1)
e √ 2π σ 2 + 1
7∞ −∞
− 2σ12
e
x
√ σ 2 +1− √
√
2π σ
s σ 2 +1
2
< σ 2 + 1 dx ,
10.6 Die Faltung
und die Substitution y = x
√
σ 2 + 1 führt zu
2 − 2(σs2 +1)
e f1 ∗ f2 (s) = √ √ 2π σ 2 + 1
193
7∞
e−
y− √ s σ 2 +1 2σ 2
√
−∞
2π σ
2
−
s2
e 2 (σ2 +1) dy = √ √ . 2π σ 2 + 1
(10.39) Das rechte Gleichheitszeichen in (10.39) gilt, da im Integral die Dichte einer N ( √σs2 +1 , σ 2 )-Verteilung steht, weshalb das Integral den Wert 1 annimmt. Sind also X ∼ N (0, 1) , Y ∼ N (0, σ 2 ) unabhängig, so ist X +Y ∼ N (0, 1+σ 2 ) . Gilt nun X ∼ N (μ1 , σ12 ) , Y ∼ "N (μ2 ,#σ22 ) , X , Y unabhängig, so sind auch X−μ1 σ1
∼ N (0, 1) und
Y −μ2 σ1
X − μ1 + Y − μ 2 ∼N σ1
σ2
∼ N 0, σ22
1
σ2 0, 1 + 22 σ1
unabhängig, und daraus folgt
⇒ X + Y ∼ N (μ1 + μ2 , σ12 + σ22 ) .
11 Zerlegung und Integraldarstellung signierter Maße
11.1 Die Hahn-Jordan-Zerlegung Ist ν das unbestimmte Integral einer Funktion f bezüglich μ, so gilt klarerweise ν(B) ≥ 0 ∀ B ⊆ [f ≥ 0] ∧ ν(B) ≤ 0 ∀ B ⊆ [f < 0] . Wir zeigen in diesem Abschnitt, dass es zu jedem signierten Maß ν eine Menge P ∈ S gibt mit ν(B) ≥ 0 ∀ B ⊆ P , B ∈ S ∧ ν(B) ≤ 0 ∀ B ⊆ N := P c , B ∈ S . Definition 11.1. Ist (Ω, S, ν) ein signierter Maßraum, so nennt man A ∈ S eine ν-positive Menge, wenn ν(B) ≥ 0 ∀ B ⊆ A , B ∈ S , man bezeichnet A als ν-negativ, wenn ν(B) ≤ 0 ∀ B ⊆ A , B ∈ S , und A ist eine ν−Nullmenge, wenn ν(B) = 0 ∀ B ⊆ A , B ∈ S . Definition 11.2. Ist (Ω, S, ν) ein signierter Maßraum, so bilden P ∈ S und P c eine Hahn-Zerlegung {P, P c } von Ω , wenn P positiv ist und P c negativ. Lemma 11.3. Ist (Ω, S, ν) ein signierter Maßraum und ist B ∈ S von endlichem signierten Maß, so haben alle messbaren Teilmengen von B ebenfalls endliches signiertes Maß, d.h. A, B ∈ S ∧ A ⊆ B ∧ |ν(B)| < ∞ ⇒ |ν(A)| < ∞ . Beweis. Dies folgt sofort aus ν(B) = ν(A) + ν(B \ A) für A ⊆ B . Als nächstes verallgemeinern wir die Sätze 3.20 und 3.21 auf signierte Maße. Lemma 11.4. Auf einem signierten Maßraum (Ω, S, ν) gilt für jede monoton An = lim ν(An ) (Stetigkeit von unten). steigende Folge (An ) aus S ν n
n
Ist (An ) monoton fallend und gibt es ein n0 mit |ν(An0 )| < ∞ , so gilt An = lim ν(An ) (Stetigkeit von oben). ν n
n
Beweis. Ist (An ) eine monoton steigende Folge aus S , so gilt mit A0 := ∅
196
11 Zerlegung und Integraldarstellung signierter Maße
ν
=ν
An
n
= lim N
(An \ An−1 )
n N !
ν(An \ An−1 ) = lim ν
n=1
N
=
!
ν(An \ An−1 )
n∈N N
(An \ An−1 )
= lim ν(AN ) . N
n=1
Für An und |ν(An0 )| < ∞ ist die Folge Bn := An0 \ An , n ≥ n0 monoton steigend, und es gilt |ν(Bn )| ≤ |ν(An0 )| < ∞ ∀ n ≥ n0 . Daraus folgt ⎞ ⎛
ν(An0 ) − ν An = ν ⎝ Bn ⎠ = lim ν(Bn ) = ν(An0 ) − lim ν(An ) , n
n
n≥n0
n
Weil ν(An0 ) endlich ist, kann man dies umformen zu ν
An
n
= lim ν(An ) . n
Lemma 11.5. Die negativen Mengen eines signierten Maßraums (Ω, S, ν) bilden einen σ-Ring S− . Beweis. Sind N1 , N2 negativ, so sind N1 ∩ N2 und N1 N2 ebenfalls negativ, da jedes B ⊆ N1 ∩ N2 bzw. B ⊆ N1 N2 Teilmenge von N1 oder N2 ist, und deshalb für solche B ∈ S gilt ν(B) ≤ 0 . Da auch ∅ ∈ S− , ist S− ein Ring. n Für Ni ∈ S− ∀ i ∈ N und B ⊆ Ni , B ∈ S gilt Bn := B ∩ Ni B . i∈N i=1 Ni ist negativ. Daraus folgt nach Lemma 11.4 ν(B) = lim ν(Bn ) ≤ 0 , d.h. n
i∈N
Satz 11.6 (Zerlegungssatz von Hahn). Zu jedem signierten Maßν auf einem Messraum (Ω, S) gibt es eine Hahn-Zerlegung. Beweis. Wir nehmen o.E.d.A. ν : S → (−∞, ∞] , sonst betrachtet man −ν . Ist S− das System der negativen Mengen, γ := inf ν(N ) und (γn ) eine N ∈S−
Folge mit γn > γ ∀ n ∈ N und γn γ , so gibt es zu jedem n ∈ N ein Nn ∈ S− mit ν(Nn ) ≤ γn . Nach Lemma 11.5 ist N := Nn negativ. Daher n
gilt ν(N ) ≤ γn ∀ n ∈ N . Daraus folgt ν(N ) = γ . Somit gilt γ > −∞ . P := N c kann keine negative Menge A mit ν(A) < 0 enthalten, denn sonst stünde ν(A ∪ N ) = ν(A) + ν(N ) < γ im Widerspruch zur Definition von γ . Falls es ein A ⊆ P , A ∈ S mit ν(A) < 0 gibt, muss demnach gelten ε1 := sup{ν(B) : B ∈ S , B ⊆ A} > 0 . Ist ε1 < ∞ , so gibt es ein B1 ⊆ A mit ν(B1 ) ≥ ε21 , ist hingegen ε1 = ∞ , so existiert ein B1 ⊆ A mit ν(B1 ) ≥ 1 . Daher gibt es jedenfalls ein B1 ⊆ A mit ν(B1 ) ≥ δ1 := min ε21 , 1 > 0 . Daraus folgt ν(A \ B1 ) = ν(A) − ν(B1 ) < ν(A) < 0 , und wegen A \ B1 ∈ / S− gilt ε2 := sup{ν(B) : B ∈ S , B ⊆ A \ B 1 } > 0 . Somit existiert eine Menge B2 ⊆ A \ B1 mit ν(B2 ) ≥ δ2 := min ε22 , 1 > 0 . Klarerweise gilt auch ν(A \ B1 \ B2 ) = ν(A \ B1 ) − ν(B2 ) < ν(A \ B1 ) < ν(A) < 0 .
11.1 Die Hahn-Jordan-Zerlegung
197
n−1 Gibt es disjunkte Mengen B1 , . . . , Bn−1 , mit ν A \ Bi < 0 , so folgt i=1 n−1 n−1 − aus A\ Bi ∈ / S wieder εn := sup ν(B) : B ∈ S , B ⊆ A \ Bi > 0 . i=1
εn
i=1
Also existiert ein Bn ⊆ A \ Bi mit ν(Bn ) ≥ δn := min 2 , 1 > 0 und i=1 n n−1 n−1 Bi = ν A \ Bi − ν(Bn ) < ν A \ Bi < 0 . ν A\ n−1
i=1
i=1
i=1
Teilmengen Demnach muss es eine Folge (Bn ) disjunkter, messbarer von A mit ν(Bn ) ≥ δn > 0 ∀ n ∈ N geben. Mit D := A \ Bn gilt A = Bn ∪ D , n∈N n∈N und aus ν(A) = ν(Bn ) + ν(D) folgt sowohl ν(D) < ν(A) < 0 als auch n∈N δn ≤ ν(Bn ) < ∞ . Somit gilt lim δn = 0 , und daraus folgt lim εn = 0 . n∈N
n
n∈N
Aus C ⊆ D ⊆ A\
n
Bi
∀ n ∈ N folgt ν(C) ≤ εn+1
n
∀ n ∈ N , d.h. ν(C) ≤ 0 .
i=1
D ist also negativ mit ν(D) < 0 . Weil P aber keine derartigen Teilmengen enthalten kann, hat damit die Annahme, dass ein A ⊆ P , A ∈ S mit ν(A) < 0 existiert, zu einem Widerspruch geführt. Das bedeutet P ist positiv. Beispiel 11.7. Ω = {−1, 0, 1}, S = P(Ω), ν({ω}) := ω ∀ ω ∈ Ω . Sowohl {{0, 1}, {−1}} , also auch {{1}, {−1, 0}} sind Hahn-Zerlegungen von Ω . Hahn-Zerlegung sind also i.A. nicht eindeutig, aber es gilt der folgende Satz. Satz 11.8. Sind {P1 , P1c } , {P2 , P2c } Hahn-Zerlegungen des signierten Maßraums (Ω, S, ν) mit den positiven Mengen P1 und P2 , so ist die symmetrische Differenz P1 P2 = P1c P2c eine ν-Nullmenge. Beweis. Aus A ⊆ P1 \ P2 = P1 ∩ P2c , A ∈ S folgt ν(A) ≥ 0 ∧ ν(A) ≤ 0 . d.h. ν(A) = 0 . Für A ⊆ P2 \ P1 gilt die Behauptung aus Symmetriegründen. Definition 11.9. Unter einer Jordan-Zerlegung eines signierten Maßes ν auf (Ω, S) , versteht man ein Paar ν + , ν − von singulären Maßen mit ν = ν + − ν − . Die Maße einer Jordan-Zerlegung erfüllen folgende Minimalitätsbedingung. Satz 11.10. Ist ν + , ν − eine Jordan-Zerlegung eines signierten Maßes ν auf (Ω, S) und sind ν1 , ν2 zwei beliebige Maße mit ν = ν1 − ν2 , so gilt ν + (A) ≤ ν1 (A) ∧ ν − (A) ≤ ν2 (A)
∀ A ∈ S.
Beweis. Da es zu ν + ⊥ ν − ein C ∈ S mit ν − (C) = ν + (C c ) = 0 gibt, gilt ν + (A) = ν + (A ∩ C) − ν − (A ∩ C) = ν(A ∩ C) und ν − (A) = −ν(A ∩ C c ) . Daraus folgt ν + (A) = ν(A ∩ C) = ν1 (A ∩ C) − ν2 (A ∩ C) ≤ ν1 (A ∩ C) ≤ ν1 (A) und ν − (A) = −ν(A ∩ C c ) = ν2 (A ∩ C c ) − ν1 (A ∩ C c ) ≤ ν2 (A ∩ C c ) ≤ ν2 (A) . Satz 11.11 (Zerlegungssatz von Jordan). Jedes signierte Maß ν auf einem Messraum (Ω, S) besitzt genau eine Jordan-Zerlegung ν + und ν − .
198
11 Zerlegung und Integraldarstellung signierter Maße
Beweis. Nach Satz 11.6 gibt es eine Hahn-Zerlegung {P, P c } , und die Maße ν + (A) := ν(A ∩ P ) und ν − (A) := −ν(A ∩ P c ) sind singulär mit ν = ν + − ν − . Damit ist die Existenz einer Jordan-Zerlegung gezeigt. Bilden μ+ ⊥ μ− eine weitere Jordan-Zerlegung von ν , so folgt aus Satz 11.10 sowohl ν + ≤ μ+ ∧ ν − ≤ μ− als auch μ+ ≤ ν + ∧ μ− ≤ ν − . Also gilt ν + = μ+ ∧ ν − = μ− , d.h. die Jordan Zerlegung ist eindeutig. Bemerkung 11.12. Man beachte, dass nur die Darstellung eines signierten Maßes als Differenz singulärer Maße eindeutig ist. Hat ν : S → R die JordanZerlegung ν + , ν − , so gilt beispielsweise auch ν = 2ν + − (ν + + ν − ) . Definition 11.13. Die Maße ν + und ν − der Jordan-Zerlegung eines signierten Maßes ν bezeichnet man als seine obere bzw. untere Variation, und das Maß |ν| := ν + + ν − wird Variation oder Totalvariation genannt. Lemma 11.14. Für signierte Maßräume (Ω, S, ν) gilt |ν(A)| ≤ |ν| (A) ∀ A ∈ S. Beweis. |ν(A)| = |ν + (A) − ν − (A)| ≤ ν + (A) + ν − (A) = |ν|(A) . Definition 11.15. Ist (Ω, S, μ) ein signierter Maßraum, so nennt man ein weiteres signiertes Maß ν absolut stetig bezüglich μ , wenn |ν| % |μ| , und μ und ν heißen singulär zueinander, wenn |ν| ⊥ |μ| .
11.2 Die Lebesgue-Zerlegung In diesem Abschnitt wird gezeigt, dass jedes σ-endliche Maß ν auf einem σ-endlichen Maßraum (Ω, S, μ) in ein bezüglich μ absolut stetiges Maß νc und ein zu μ singuläres Maß νs zerlegt werden kann. Definition 11.16. Unter der Lebesgue-Zerlegung eines σ-endlichen Maßes ν auf einem σ-endlichen Maßraum (Ω, S, μ) versteht man zwei Maße νc und νs , für die gilt νc % μ , νs ⊥ μ und ν = νc + νs . Satz 11.17 (Zerlegungssatz von Lebesgue). Zu jedem σ-endlichen Maß ν auf einem σ-endlichen Maßraum (Ω, S, μ) gibt es genau eine Lebesgue-Zerlegung. Beweis. Man darf o.E.d.A. μ und ν als endlich annehmen, da Ω in messbare Teilmengen zerlegt werden kann, auf denen beide Maße endlich sind. n P,i Sind {P,n , P,c } Hahn-Zerlegungen von ν − n μ , so ist die Menge Pn := n
i=1
(ν −n μ)-positiv. Aber da aus (ν −i μ)(A) ≤ 0 für i ≤ n folgt (ν − n μ)(A) ≤ 0 , sind alle P,ic (ν − n μ)-negativ. Daher ist nach Lemma 11.5 das Komplement n P,ic (ν − n μ)-negativ. Somit bilden die {Pn , Pnc } Hahn-Zerlegungen Pnc = i=1 c Pn und Pnc P c = Pn . der signierten Maße ν − n μ mit Pn P := n∈N
n∈N
Für die Maße νc (A) := ν(A ∩ P c ) und νs (A) := ν(A ∩ P ) gilt ν = νc + νs .
11.3 Der Satz von Radon-Nikodym
199
Aus μ(A) = 0 folgt μ(A∩Pnc ) = 0 ⇒ 0 = n μ(A∩Pnc ) ≥ ν(A∩Pnc ) ∀ n ∈ N . Daher gilt auch 0 = ν(A ∩ P c ) = νc (A) . νc ist also absolut stetig bezüglich μ . Aber aus ∞ > ν(Ω) ≥ ν(P ) ≥ n μ(P ) ∀ n ∈ N folgt μ(P ) = 0 , d.h. μ ⊥ νs . Ist ν,c % μ , ν,s ⊥ μ eine zweite Lebesgue-Zerlegung von ν , so folgt aus νc + νs = ν = ν,c + ν,s natürlich νs − ν,s = ν,c − νc . Zudem gibt es eine Menge P, ∈ S mit μ(P, ) = 0 und ν,s (P,c ) = 0 . Aus μ(P ∪ P,) = 0 , und νc % μ , ν,c % μ folgt deshalb ν,c (A) − νc (A) = 0 ∀ A ⊆ P ∪ P, , A ∈ S . Da für jedes A ⊆ P c ∩ P,c , A ∈ S klarerweise νs (A) − ν,s (A) = 0 gilt, ist damit νs (A) − ν,s (A) = ν,c (A) − νc (A) = 0 ∀ A ∈ S , also die Eindeutigkeit, gezeigt.
11.3 Der Satz von Radon-Nikodym . Jedes unbestimmte Integral ν(A) := A f dμ ist absolut stetig bezüglich μ . Daher ist die absolute Stetigkeit eine notwendige Bedingung für die Darstellung eines Maßes als Integral. Nun zeigen wir, dass sie auch hinreichend ist. Ist f eine Funktion auf einem Raum Ω , so folgt aus x < y natürlich Nx := [f ≤ x] ⊆ Ny := [f ≤ y] . Intuitiv kann man den Rand von Nx als Höhenschichtlinie interpretieren, die das Gebiet, in dem f unter der „Höhe “ x liegt, abgrenzt von dem Gebiet, wo f > x ist. So wie man aus den Höhenschichtlinien einer Landkarte Rückschlüsse auf das Landschaftsprofil ziehen kann, so lässt sich die Funktion f aus den Nx rekonstruieren. Lemma 11.18. Zu jeder Familie {Nq : q ∈ Q} messbarer Mengen auf einem Messraum (Ω, S) , für die gilt Nq1 ⊆ Nq2 ∀ q1 < q2 , gibt es eine Funktion f ∈ M(Ω, S) , sodass f ≤ q auf Nq und f ≥ q auf Nqc . Beweis. Für f (ω) := inf{q : ω ∈ Nq } ( inf ∅ = ∞ ) gilt f (ω) ≤ q ∀ ω ∈ Nq , / Np ∀ p ≤ q , gilt auch f (ω)≥ q ∀ ω ∈ Nqc , und, weil aus ω ∈ Nqc folgt ω ∈ Aus ω ∈ Np mit p < q folgt f (ω) < q . Deshalb gilt Np ⊆ [f < q] . pν (N ) ≥ q μ (N ) ∀ q ∈ Q , Nq ist f reellwertig. dass gilt μ (N c ) = 0 . Aber auf N = q∈Q+
Ist umgekehrt f reellwertig μ–fü , so ist N c wegen f (ω) = ∞ ∀ ω ∈ Nc eine Nq μ-Nullmenge, sodass aus ν % μ folgt ν(N c ) = 0 . Nun gilt Ω = N c ∪ q∈Q+
mit ν(N c ) = 0 und ν(Nq ) ≤ q μ(Nq ) < ∞
∀ q ∈ Q+ . Somit ist ν
σ-endlich.
Bemerkung 11.20. Schon in Definition 9.48 wurde f als Radon-Nikodymdν eingeführt. Dichte bezeichnet und dafür die Schreibweise f = dμ Wenn μ nicht σ-endlich ist, muss eine Dichte nicht existieren, und andererseits kann es dann auch mehrere Dichten geben, wie das folgende Beispiel zeigt. Beispiel 11.21. Auf (Ω, {∅, Ω}, μ) mit Ω = ∅ , μ(∅) = 0 und μ(Ω) = ∞ gilt . μ(A) = A c dμ ∀ c ∈ R , c > 0 , wie bereits in Bsp 9.45 gezeigt wurde. Andererseits kann es auf diesem Raum zu ν(∅) := 0, ν(Ω) := 1 keine . Funktion f ≥ 0 μ–fü geben mit ν(Ω) = Ω f dμ , obwohl ν % μ . Die Differentiationsregel
dx dy
=
1
dy dx
hat ein Analogon für Dichten.
Lemma 11.22. Sind μ und ν zwei σ-endliche Maße auf einem Messraum (Ω, S) mit ν % μ und μ % ν , so gilt dμ = dν Beweis. Wegen μ(A) =
. A
dν dμ
−1 (11.4)
μ–fü .
1 dμ ∀ A ∈ S gilt natürlich
dμ dμ
tenregel angewendet auf ρ := μ % ν % μ liefert nun 1 =
=1 dμ dμ
=
μ–fü . Die Ketdμ dν dν dμ
μ–fü .
12 Integral und Ableitung
Wie aus der Differential- und Integralrechnung bekannt, ist das unbestimmte .x Riemann-Integral F (x) := c + f (t) dt einer stetigen Funktion f : [a, b] → R a .x ∂ stetig differenzierbar mit F (x) = ∂x f (t) dt = f (x) , d.h. F ist eine a Stammfunktion von f . Ist F umgekehrt auf [a, b] stetig differenzierbar, . x so ist F das unbestimmte Integral seiner Ableitung, also F (x) = F (a) + a F (t) dt . Das Lebesgue-Integral betreffend stellen sich nun folgende Fragen: 1. Unter welchen Voraussetzungen ist F : [a, b] → R darstellbar als Lebesgue. f dλ mit f ∈ L1 ([a, b], B∩[a, b], λ) und welcher Integral F (x) = F (a)+ [a,x]
Zusammenhang besteht zwischen der Ableitung F von F und f ? 2. Welche λ-fü differenzierbaren Funktionen F sind das Lebesgue-Integral ihrer Ableitung F ? Die zur Beantwortung der obigen Fragen benötigten Begriffe stellen wir in den nächsten beiden Abschnitten vor.
12.1 Funktionen von beschränkter Variation Definition 12.1. f : [a, b] → R ist eine Funktion von beschränkter Variation, wenn es eine endliche obere Schranke M gibt, sodass für jede endliche Partition n a = x0 < x1 < · · · < xn = b, n ∈ N von [a, b] gilt |f (xi ) − f (xi−1 )| ≤ M . Vab f
:= sup
i=1 n !
|f (xi ) − f (xi−1 )| : a = x0 < x1 < · · · < xn = b, n ∈ N
i=1
heißt die Totalvariation (oder vollständige Variation) von f auf [a, b] . Das System der Funktionen von beschränkter Variation bezeichnet man mit BV(a, b) := f : [a, b] → R : Vab f < ∞ .
204
12 Integral und Ableitung
Lemma 12.2. Ist f ∈ BV(a, b) , so gilt Vab f = Vac f + Vcb f
∀ c ∈ (a, b) .
Beweis. Ist a = x0 < x1 < · · · < xm = c eine Partition des Intervalls [a, c] und ist c = xm < xm+1 < · · · < xm+n = b eine Partition des Intervalls [c, b] , so ist a = x0 < · · · < xm+n = b eine Partition von [a, b] und es gilt m !
m+n !
|f (xi ) − f (xi−1 )| +
i=1
|f (xj ) − f (xj−1 )| ≤ Vab f .
j=m+1
Da die obigen Partitionen von [a, c] und [c, b] beliebig sind, folgt daraus Vac f + Vcb ≤ Vab f .
(12.1)
Umgekehrt gibt es zu ε > 0 eine Partition a = x0 < · · · < xn = b , sodass n |f (xk ) − f (xk−1 )| . Mit j := min{k : xk ≥ c} gilt Vab f − ε ≤ k=1
Vab f − ε ≤
0 beliebig ist, folgt aus (12.1) und (12.2) die Aussage des Lemmas. Lemma 12.3. Ist f ∈ BV(a, b) , so sind die Funktionen v(x) := Vax f und w(x) := v(x) − f (x) monoton wachsend. Beweis. Aus Lemma 12.2 folgt sofort, dass v monoton wachsend ist. Für a < x < y < b gilt f (y) − f (x) ≤ |f (y) − f (x)| ≤ Vxy f = v(y) − v(x) . Daraus folgt w(x) = v(x) − f (x) ≤ v(y) − f (y) = w(y) . Der folgende Satz zeigt, dass eine Analogie zwischen den signierten Maßen und den Funktionen von beschränkter Variation besteht, denn er besagt, dass diese Funktionen Differenzen monotoner Funktionen sind. Satz 12.4. Die Funktion f : [a, b] → R ist von beschränkter Variation genau dann, wenn es zwei monoton wachsende Funktionen v , w gibt mit f = v − w . Beweis. Die eine Richtung ergibt sich aus dem obigen Lemma. Ist umgekehrt f = v − w , so gilt für jede Partition a = x0 < · · · < xn = b n ! i=1
|f (xi ) − f (xi−1 )| ≤
n !
( v(xi ) − v(xi−1 ) ) +
i=1
= v(b) − v(a) + w(b) − w(a) < ∞ .
n ! i=1
( w(xi ) − w(xi−1 ) )
12.2 Absolut stetige Funktionen
205
Lemma 12.5. Ist f : [a, b] → R monoton, so existieren die rechts- und linksseitigen Grenzwerte f+ (x), f− (x) ∀ x ∈ (a, b) und es gilt f− (x) ≤ f (x) ≤ f+ (x) . Zudem hat f höchstens abzählbar viele Unstetigkeitsstellen. Beweis. Für monoton wachsendes f , x ∈ (a, b) und hn 0 sind die Funktionswerte f (x + hn ) monoton fallend und von unten durch f (x) beschränkt. Daher existiert der Grenzwert lim f (x + hn ) ≥ f (x) . Die f (x − hn ) n
wachsen monoton mit f (x − hn ) ≤ f (x) , sodass auch f− (x) ≤ f (x) existiert. Da die Menge D = {x ∈ (a, b) : |f+ (x) − f− (x)| > 0} der Unstetigkeitsstellen darstellbar ist in der Form D = x ∈ (a, b) : |f+ (x) − f− (x)| > n1 n
und jede Menge in der Vereinigung endlich ist, gilt |D| ≤ ℵ0 . Definition 12.6. Eine Funktion f : R → R hat in x eine Unstetigkeit 1.ter Art, wenn f+ (x) und f− (x) existieren, aber f+ (x) = f (x) ∨ f− (x) = f (x) gilt. Folgerung 12.7. Jede Funktion f von beschränkter Variation hat höchstens abzählbar viele Unstetigkeitsstellen 1.ter Art und ist daher stetig λ–fü . Beweis. Dies folgt unmittelbar aus Satz 12.4 zusammen mit Lemma 12.5. Bemerkung 12.8. 1. Ist f ∈ BV(a, b) mit f = F − G , wobei F und G monoton wachsend sind und ersetzt man in jeder Unstetigkeitsstelle von F bzw. G den Funktionswert durch den rechtsseitigen Grenzwert, so erhält man zwei Lebesgue-StieltjesVerteilungsfunktionen F+ , G+ und f stimmt mit f+ := F+ − G+ λ–fü überein. f ist also λ–fü die „Verteilungsfunktion“ eines signierten LebesgueStieltjes-Maßes. Dies bedeutet, dass der Begriff der Funktion von beschränkter Variation im Wesentlichen mit dem des signierten Maßes übereinstimmt. 2. Da man die Verteilungsfunktionen F+ und G+ darstellen kann als Summen F+ = Fc + Fd , G+ = Gc + Gd stetiger und diskreter Verteilungsfunktionen Fc , Gc bzw. Fd , Gd , so ist auch f+ = (Fc − Gc ) + (Fd − Gd ) darstellbar als Summe einer stetigen und einer diskreten Funktion.
12.2 Absolut stetige Funktionen Definition 12.9. + Eine Funktion f : [a, b] → R heißt absolut stetig, wenn zu jedem ε > 0 ein δ > 0 existiert, sodass für jede endliche Familie von disjunkten Intervallen (ai , bi ) , i = 1, . . . , n aus [a, b] gilt n ! i=1
(bi − ai ) < δ ⇒
n !
|f (bi ) − f (ai )| < ε .
(12.3)
i=1
Lemma 12.10. Jede auf einem Intervall [a, b] absolut stetige Funktion f ist stetig und von beschränkter Variation.
206
12 Integral und Ableitung
Beweis. Dass eine absolut stetige Funktion stetig ist, ist klar. n n (bi − ai ) < δ ⇒ |f (bi ) − f (ai )| < ε . Zu ε > 0 gibt es ein δ > 0 , sodass i=1
i=1
Für jede Partition a = x0 < · · · < xn = b mit max (xi − xi−1 ) < δ gilt dann 1≤i≤n
i Vxxi−1 f
< ε , und daraus folgt nach Lemma 12.2 Vab f =
n i=1
i Vxxi−1 f ≤ nε.
Satz 12.11. Ist f : [a, b] → R absolut stetig, so ist v(x) := Vax f absolut stetig. Beweis. Wählt man zu ε > 0 ein δ > 0 , sodass disjunkten Intervalle (ai , bi ) , i = 1, . . . , n mit
n
|f (bi ) − f (ai )| < ε für alle
i=1 n
(bi −ai ) < δ und zerlegt man
i=1
jedes (ai , bi ) durch eine beliebige Partition ai = xi,0 < · · · < xi,mi = bi , so gilt mi mi n n n |f (xi,j ) − f (xi,j−1 )| < ε , da (xi,j − xi,j−1 ) = (bi − ai ) < δ . i=1 j=1
i=1 j=1
i=1
Daraus folgt schließlich ⎧ ⎫ mi n ⎨! ⎬ ! sup |f (xi,j ) − f (xi,j−1 )| : ai ≤ xi,0 < . . . < xi,mi = bi ⎩ ⎭ i=1
j=1
=
n !
Vabii f =
i=1
n !
|v(bi ) − v(ai )| < ε .
i=1
Folgerung 12.12. Jede absolut stetige Funktion f : [a, b] → R ist die Differenz zweier monoton wachsender Funktionen F und G , die beide absolut stetig sind. Beweis. Mit f und v ist auch u := v − f absolut stetig. Ist (Ω, S, μ) ein Maßraum, ν ein weiteres Maß auf (Ω, S) , für das es zu jedem ε > 0 ein δ > 0 gibt, sodass μ(A) < δ ⇒ ν(A) < ε ∀ A ∈ S , so ist ν natürlich absolut stetig bezüglich μ . Für endliches ν gilt auch die Umkehrung. Satz 12.13. Ist ν ein endliches Maß auf einem Maßraum (Ω, S, μ) , so gibt es für alle ε > 0 ein δ > 0 mit μ(A) < δ ⇒ ν(A) < ε genau dann, wenn ν % μ . Beweis. Wie oben erwähnt, ist die eine Richtung klar, es genügt daher zu zeigen, dass aus ν % μ die ε, δ- Bedingung folgt. Wir nehmen an, dass die Bedingung nicht gilt, obwohl ν % μ . Dann existiert ein ε > 0 und zu jedem n ∈N ein An ∈ S mit μ(An ) < 21n und Ak gilt dann nach dem ersten Lemν(An ) > ε . Für A := lim sup An = n
n k≥n
ma von Borel-Cantelli (Satz
3.27)μ(A) = 0 . Aber aus Satz 3.21 (Stetigkeit von oben) folgt wegen ν Ak ≥ ν(An ) > ε ∀ n ∈ N , dass ν(A) ≥ ε k≥n
gelten muss. Dies steht im Widerspruch zu ν % μ .
12.2 Absolut stetige Funktionen
207
Folgerung 12.14. Ist F die Verteilungsfunktion eines Lebesgue-Stieltjes-Maßes μ auf ([a, b], B ∩ [a, b]) , so ist F genau dann absolut stetig, wenn μ % λ . Beweis. Da μ als Lebesgue-Stieltjes-Maß endlich auf [a, b] ist, folgt auf Grund des obigen Satzes aus μ % λ , dass es zu jedem ε > 0 ein δ > 0 gibt, son (ai , bi ] eine Vereinigung disdass λ(A) < δ ⇒ μ(A) < ε . Ist nun A = i=1
junkter Intervalle (ai , bi ] , i = 1, . . . , n mit λ(A) = μ(A) =
n
(F (bi ) − F (ai )) =
i=1
n
n
(bi − ai ) < δ , so gilt
i=1
|F (bi ) − F (ai )| < ε , d.h. F ist absolut stetig.
i=1
Ist umgekehrt die Verteilungsfunktion F absolut stetig, so gibt es zu jedem ε > 0 ein δ > 0 , sodass für beliebige disjunkte Intervalle (ai , bi ] , i = 1, . . . , n n n aus (bi − ai ) < δ folgt (F (bi ) − F (ai )) < ε . Da für alle A ∈ B ∩ [a, b] gilt i=1 i=1 ∞ (bi − ai ) : A ⊆ (ai , bi ] (ai , bi ] ∩ (aj , bj ] = ∅ ∀ i = j , gibt λ(A) = inf i=1
i∈N
es zu jeder λ-Nullmenge N disjunkte Intervalle (ai , bi ] mit
∞
(bi − ai ) < δ
i=1
n (ai , bi ] . Damit gilt ( F (bi ) − F (ai ) ) < ε ∀ n ∈ N , und daraus i i=1 ∞ ∞ ( F (bi ) − F (ai ) ) = μ (ai , bi ] ≥ μ(N ) . Also gilt μ(N ) = 0 . folgt ε >
und N ⊆
i=1
i=1
Aus λ(N ) = 0 folgt demnach μ(N ) = 0 , d.h. μ ist absolut stetig bezüglich λ . Wir können nun die erste Frage beantworten. Satz 12.15. Eine Funktion F : [a, b] → R ist genau dann das Lebesgue-Integral einer Funktion f ∈ L1 ([a, b], B ∩ [a, b], λ) , wenn F absolut stetig ist. Beweis. Ist F absolut stetig, so gibt es monoton steigende, absolut stetige Funktionen G und H mit F = G − H . Da für die zu G und H gehörigen Lebesgue-Stieltjes-Maße μG , μH gilt μF % λ , μG % λ , gibt .es RadonG H und h := dμ , sodass μG (A) = g dλ und Nikodym-Dichten g := dμ dλ dλ . .A μH (A) = h dλ ∀ A ∈ B ∩ [a, b] . Daraus folgt F (x) − F (a) = g − h dλ . A
(a,x]
Ist umgekehrt f eine Lebesgue-integrierbare Funktion, so werden durch . . μ+ (A) := f+ dλ und μ− (A) := f− dλ zwei bezüglich λ absolut stetige A
A
Maße μ+ , μ− definiert, deren Verteilungsfunktionen wir mit G und H bezeichnen. Nach Folgerung 12.14 sind G und H . absolut stetig und daher ist f dλ absolut stetig. auch F (x) := G(x) − H(x) − G(a) + H(a) = (a,x]
Definition 12.16. Ist (Ω, S, μ) ein Maßraum, so heißt A ∈ S ein μ-Atom, wenn μ(A) > 0 und wenn für jedes B ∈ S , B ⊆ A gilt μ(B) = 0 ∨ μ(A \ B) = 0 . Gibt es keine μ-Atome in S , so nennt man μ atomlos. Ist μ σ-endlich und
208
12 Integral und Ableitung
existiert eine Folge c von Atomen An , n ∈ N , die auch leer oder endlich sein darf, An = 0 , so wird μ als rein atomar bezeichnet. mit μ n
Satz 12.17. Ein Lebesgue-Stieltjes-Maß auf (R, B) ist genau dann atomlos, wenn seine Verteilungsfunktion F stetig ist. Beweis. Ist F in x nicht stetig, so gilt μ({x}) = F (x) = F− (x) > 0 , aber {x} hat nur ∅ und {x} als Teilmengen und muss daher ein Atom sein. Ist umgekehrt A ein Atom von μ , so gilt An := A ∩ [−n, n] A mit n → ∞ , n ∈ N . Da μ stetig von unten ist, folgt daraus lim μ(An ) = μ(A) > 0 . n
Demnach muss ein N ∈ N existieren mit 0 < μ(AN ) ≤ μ([−N, N ]) < ∞ . Für B ∈ B , B ⊆ AN ⊆ A gilt μ(B) = 0 oder 0 = μ(A \ B) ≥ μ(AN \ B) ≥ 0 . Somit ist auch AN ein Atom und eine der beiden Teilmengen AN ∩ [−N, 0] oder AN ∩ [0, N ] muss dasselbe Maß wie AN besitzen. Man definiert nun I1 := [−N, 0] oder I1 := [0, N ] , je nachdem welche der beiden Teilmengen das Maß μ(AN ) hat (wenn die Maße beider Mengen mit μ(AN ) übereinstimmen, ist es egal 3welches Intervall nimmt). Dann teilt man [a1 , b1 ] := I1 in die 3 aman 1 1 +b1 und . Der Durchschnitt von AN mit einem , b Intervalle a1 , a1 +b 1 2 2 dieser Teilintervalle muss das Maß μ(AN ∩ I1 ) = μ(AN ) besitzen. Auf diese Art erhält man eine monoton fallende Folge von abgeschlossenen Intervallen In mit μ(AN ∩ In ) = μ(AN ) ∀ n ∈ N . In enthält nach Hilfssatz A.31 n 2N mindestens einen Punkt a . Aber wegen λ(In ) = 2n kann kein anderer Punkt in In liegen, d.h. In = {a} . Aber aus ∞ > μ(In ) ≥ μ(AN ) ∀ n ∈ N folgt n
n
F (a) − F− (a) = μ({a}) = lim μ(IN ) ≥ μ(AN ) > 0 , d.h. F ist in a unstetig. n
Bemerkung 12.18. Gemäß Satz 6.25 kann man jede Verteilungsfunktion F darstellen als Summe einer diskreten und einer stetigen Verteilungsfunktion Fd und Fs , sodass für das durch F definierte Maß μ gilt μ = μd + μs , wobei μd das durch Fd bestimmte Maß diskret ist während das zu Fs gehörige Maß μs atomlos ist. μs kann weiter zerlegt werden in μss ⊥ λ und μsc % λ . So erhält man schließlich μ = μd + μss + μsc bzw. F = Fd + Fss + Fsc , wobei Fss die Verteilungsfunktion von μss ist und Fsc die zu μsc gehörige Verteilungsfunktion. Fsc ist absolut stetig, während Fss zwar stetig ist, aber nicht absolut stetig sein kann. Man kann also jede Verteilungsfunktion darstellen als Summe einer Sprungfunktion, einer stetigen Verteilungsfunktion, die nicht absolut stetig ist, und einer absolut stetigen Verteilungsfunktion. Die Verteilungsfunktion F eines endlichen , atomlosen Maßes auf (R, B) ist, wie oben gezeigt, stetig. Da F natürlich monoton ist, ist es surjektiv von R auf [0, μ(R)] . Daher ist auch μ : B → [0, μ(R)] surjektiv. Der nächste Satz zeigt, dass dies für atomlose Maße auf beliebigen Messräumen (Ω, S) gilt. Satz 12.19. Ist μ ein endliches, atomloses Maß auf einem Messraum (Ω, S) , so ist μ : S → [0, μ(Ω)] surjektiv.
12.2 Absolut stetige Funktionen
209
Beweis. Wir beweisen zunächst, dass für jedes A ∈ S mit μ(A) > 0 gilt 0 < r < μ(A) ⇒ ∃ B ∈ S : B ⊂ A ∧ 0 < μ(B) < r .
(12.4)
Würde das nicht stimmen, so müsste für jedes B ⊂ A mit μ(B) > 0 gelten μ(B) ≥ r . Da A kein Atom ist, müsste es eine Menge B1 ⊂ A geben mit 0 < μ(B1 ) < μ(A) ⇒ r ≤ μ(B1 ) < μ(A) ⇒ μ(A \ B1 ) > 0 . Da auch A \ B1 kein Atom ist, müsste ein B2 ⊂ A \ B1 existieren mit 0 < μ(B2 ) < μ(A \ B1 ) . Aber wegen B2 ⊂ A müsste dann sogar gelten r ≤ μ(B2 ) < μ(A\B1 ) . Daraus folgt μ(A \ (B1 ∪ B2 )) > 0 , und, da auch A \ (B1 ∪ B2 ) kein Atom sein kann, müsste ein B3 ⊂ A \ (B1 ∪ B2 ) existieren mit r ≤ μ(B3 ) < μ(A \ (B1 ∪ B2 )) . Auf diese Art könnte man rekursiv eine Folge disjunkter Mengen Bn ⊂ A konstruieren mit r ≤ μ(Bn ) ∀ n ∈ N ⇒ μ(A) = ∞ . Dies widerspricht der Endlichkeitsvoraussetzung, und damit ist unsere obige Behauptung bewiesen. Wir nehmen nun an, dass es ein 0 < a < M := μ(Ω) gibt, sodass gilt μ(A) = a ∀ A ∈ S (0 und M sind klarerweise die zu ∅ und Ω gehörigen Bildpunkte), oder anders ausgedrückt, dass ein 0 < a < M existiert, sodass A ∈ S ⇒ μ(A) < a ∨ μ(A) > a .
(12.5)
Wegen (12.4) gilt 0 < γ1 := sup{μ(A) : A ∈ S ∧ μ(A) < a} . Daher muss es ein A1 ∈ S geben, sodass a > μ(A1 ) ≥ γ21 , und aus Beziehung (12.5) folgt 0 < d1 := a − μ(A1 ) . Also gibt es nach (12.4) ein A ⊂ Ω \ A1 mit 0 < μ(A) < d1 , d.h. 0 < γ2 := sup{μ(A) : A ⊆ Ω \ A1 ∧ μ(A) < d1 } . Daher existiert ein A2 ⊆ Ω \ A1 mit d1 > μ(A2 ) ≥ γ22 . Auch in diesem Fall muss gelten 0 < d2 := a − μ(A1 ) − μ(A2 ) , da ja sonst μ(A1 ∪ A2 ) = a im Widerspruch zu (12.5) stünde. Daher existiert ein A ⊂ Ω \ (A1 ∪ A2 ) mit 0 < μ(A) < d2 ⇒ 0 < γ3 := sup{μ(A) : A ⊆ Ω \ (A1 ∪ A2 ) ∧ μ(A) < d2 } . Demnach existiert ein A3 ⊆ Ω \ (A1 ∪ A2 ) mit d2 > μ(A3 ) ≥ γ23 . Hat man derart die Existenz disjunkter Mengen , . . . , Ak−1 A1k−1 nachgewiek−1 μ(Ai ) < μ Ω \ Ai sen, für die gilt 0 < dk−1 := a − , dann muss i=1 i=1 k−1 Ai geben, für das gilt 0 < μ(A) < dk−1 . Daraus folgt es ein A ⊆ Ω \ i=1 k−1 Ai ∧ μ(A) < dk−1 . Daher gibt aber 0 < γk := sup μ(A) : A ⊆ Ω \ i=1 k−1 Ai mit dk−1 > μ(Ak ) ≥ γ2k , und wegen (12.5) es eine Menge Ak ⊆ Ω \ i=1 k k . muss wieder gelten 0 < dk := a − μ(Ai ) < μ Ω \ Ai i=1
i=1
Demnach muss eine Folge disjunkter Mengen Ak ∈ S existieren, sodass n ∞ μ(Ak ) < a ∀ n ∈ N ⇒ μ Ak = μ(Ak ) ≤ a . Für die Menge k=1 k∈N k=1 ∞ ∞ Ai gilt daher μ(D) = μ(Ω) − μ(Ak ) ≥ μ(Ω) − a > 0 . D := Ω \ i=1
k=1
210
12 Integral und Ableitung
Da aus B ⊆ D folgt B ⊆ Ω \
k−1
Ai
∀ k ≥ 2 , gilt für jedes beliebige
i=1
k ≥ 2 entweder μ(B) ≤ γk oder μ(B) dk−1 γ≥ . k ≤ μ(Ak ) ≤ μ(Ω) < ∞ gegen 0 , Die γk konvergieren aber wegen 2 k
sodass aus μ(B) ≤ γk
k
∀ k ≥ 2 folgt μ(B) = 0 . Gibt es hingegen ein k ∈ N ∞ μ(Ak ) , d.h. für alle B ⊆ D , B ∈ S mit μ(B) ≥ dk , so gilt μ(B) ≥ d := a − k=1
gilt μ(B) = 0 ∨ μ(B) ≥ d . Damit würde d > 0 (12.4) widersprechen, und ∞ bei d = 0 wäre a = μ(Ak ) = μ Ak im Widerspruch zu (12.5). Unsere k=1
k
Annahme führt also in jedem Fall zu einem Widerspruch, und daher muss es zu jedem 0 ≤ a ≤ μ(Ω) ein A ∈ S mit μ(A) = a geben.
12.3 Der Hauptsatz der Differential- und Integralrechnung Wir wenden uns nun der eingangs gestellten zweiten Frage zu, und betrachten zunächst die Ableitungen monotoner Funktionen. (x) , Lemma 12.20. Ist f : [a, b] → R monoton, so sind ∂ r f (x) := lim sup f (y)−f y−x y x
∂r f (x) := lim inf y x
∂l f (x) := lim inf yx
f (y)−f (x) y−x
f (y)−f (x) y−x
und
(x) ∂ l f (x) := lim sup f (y)−f y−x
wie auch
yx
messbar.
Beweis. Die oben definierten Ableitungen existieren, da f monoton ist, Die Menge U der Unstetigkeitsstellen von f ist höchstens abzählbar, daher ist C := (Q ∪ U ) ∩ [a, b] ebenfalls abzählbar aber dicht in [a, b] . Deshalb gilt f (c)−f (x) (x) dn (x) := sup f (y)−f = sup . Nach Satz 7.20 ist daher y−x c−x 1 x 0 gibt es δ1 , δ2 > 0 , sodass aus x < y < x + δ1 folgt |f+ (x) − f (y)| < ε während aus x − δ2 < y < x folgt |f− (x) − f (y)| < ε . Ist x ∈ Uf+ , z > x mit fˆ(x) < f (z) , ε < f (z) − fˆ(x) und δ := δ1 ∧ δ2 , so gilt demnach f (y) < fˆ(x) + ε ∀ y ∈ (x − δ, x + δ) . Daraus folgt fˆ(y) ≤ fˆ(x) + ε < f (z) ∀ y ∈ (x − δ, x + δ) , d.h. (x − δ, x + δ) ⊆ Uf+ . Somit ist Uf+ offen, also Uf+ = (an , bn ) mit disjunkten (an , bn ) (Satz A.30). n
Ist f+ (an ) > fˆ(bn ) , so gibt es ein x0 ∈ (an , bn ) mit f (x0 ) > fˆ(bn ) . Auch ∗ x := sup{x ∈ (an , bn ) : f (x) ≥ f (x0 )} muss in (an , bn ) liegen, denn aus x∗ = bn würde folgen f− (bn ) ≥ f (x0 ) im Widerspruch zu f (x0 ) > fˆ(bn ) . Zudem gilt fˆ(x∗ ) ≥ f− (x∗ ) ≥ f (x0 ) > fˆ(bn ) . Da x∗ ∈ (an , bn ) und deshalb unsichtbar von rechts ist, existiert ein z ∈ (x∗ , b] mit f (z) > fˆ(x∗ ) > fˆ(bn ) . Da aus z > bn folgen würde bn ∈ Uf+ , bn aber definitionsgemäß sichtbar ist, muss gelten z < bn . Wegen f (z) > f (x0 ) und x∗ < z < bn widerspricht das aber der Definition von x∗ . Daraus folgt notwendigerweise f+ (an ) ≤ fˆ(bn ) . Ersetzt man f durch g(x) := f (a + b − x) , so erhält man die 2-te Aussage über Uf− , denn die Punkte aus Uf− , sind von rechts unsichtbar für g . Satz 12.23. Die Verteilungsfunktion F eines Lebesgue-Stieltjes-Maßes μ ist auf jeder μ-Nullmenge N λ–fü differenzierbar mit F (x) = 0 λ–fü . (x) = μ(x∧y,x∨y] ≥ 0 folgt ∂F := min{∂l F , ∂r F } ≥ 0 . Es Beweis. Aus F (y)−F y−x λ(x∧y,x∨y] $ 3 -% r genügt daher λ (N ∩ [∂ F > 0]) = λ N ∩ ∂ l F > 0 = 0 zu zeigen. Nun gilt [∂ r F > q] bzw. [∂ l F > 0] = [∂ l F > q] , sodass es [∂ r F > 0] = q∈Q ,q>0
q∈Q ,q>0
sogar reicht λ(N ∩ ([∂ r F > q] ∪ [∂ l F > q]) ) = 0 für q > 0 zu beweisen. Wegen μ(N ) = 0 gibt es zu jedem ε > 0 disjunkte Intervalle (an , bn ] mit N ⊆ (an , bn ] und μ((an , bn ]) = (F (bn ) − F (an )) < ε . n
n
n
Aus ∂ r F (x) > q folgt, dass es in jeder offenen Umgebung um x ein y > x (x) mit F (y)−F > q gibt. Daher sind alle x ∈ [an , bn ] ∩ [∂ r F > q] von rechts y−x unsichtbar für g(x) := F (x) − q x . Daher gibt es nach Satz12.22 disjunkte Intervalle (an,k , bn,k ) ⊆ [an , bn ] mit [an , bn ] ∩ [∂ r F > q] ⊆ (an,k , bn,k ) und k
212
12 Integral und Ableitung
g ˆ(bn,k ) = F (bn,k ) − q bn,k ≥ g+ (an,k ) = F (an,k ) − q an,k ∀ k Daraus folgt (bn,k − an,k ) ≤ 1q (F (bn,k ) − F (an,k ) ) ≤ F (bn ) − F (an ) , und man erhält k k
schließlich λ (an,k , bn,k ) ≤ 1q (F (bn )−F (an ) ) ≤ 1q ε ∀ ε > 0 . Somit n n,k muss N ∩ [∂ r F > q] ⊆ (an,k , bn,k ) für alle q > 0 eine λ-Nullmenge sein. n,k
Die x ∈ [an , bn ]∩[∂ l F > q] sind von links unsichtbar für h(x) := q x − F (x) . Daher gibt es disjunkte Intervalle (cn,k , dn,k ) ⊆ [an , bn ], die [an , bn ] ∩ [∂ l F > q] ˆ überdecken, mit h(cn,k ) = q cn,k1 − F− (cn,k ) ≥ h− (dn,k ) = q dn,k − F− (dn,k ) . Daraus folgt (dn,k − cn,k ) ≤ q (F− (dn,k ) − F− (cn,k ) ) ≤ F (bn ) − F (an ) , k
k (cn,k , dn,k ) ≤ 1q (F (bn ) − F (an ) ) ≤ 1q ε . Deshalb ist auch sodass λ n
n,k
N ∩ [∂ l F > q] für alle q > 0 eine λ-Nullmenge. Damit ist der Satz bewiesen. Folgerung 12.24. Die Verteilungsfunktion F eines zu λ singulären LebesgueStieltjes-Maßes μ ist λ–fü differenzierbar, wobei gilt F = 0 λ–fü . Beweis. Da μ ⊥ λ , gibt es ein N ∈ B mit μ(N ) = 0 und λ(N c ) = 0 . Gemäß Satz 12.23 gilt F = 0 λ–fü auf N . Aber wegen λ(N c ) = 0 ist das äquivalent zu F = 0 λ–fü . Beispiel 12.25. Wir verwenden die Bezeichnungen aus Abschnitt 7.8, d.h C ist die Cantormenge und ihr Komplement auf [0, 1] ist gegeben durch
n−1 n−1 ! xi 1 ! xi 2 [0, 1] \ C = + n, + n . 3i 3 3i 3 n−1 n−1 n∈N x
1
∈{0,1,2}
i=1
i=1
Die Funktion FC : C → [0, 1] aus Satz 7.61, definiert durch
∞ ∞ ! xi ! xi /2 FC := , xi ∈ {0, 2} ∀ i ∈ N i 3 2i i=1 i=1 ist bekanntlich monoton und surjektiv. Die Funktion F* C , definiert durch ⎧ x≤0 ⎨0, x∈C FC (x) , F* C (x) := ⎩ sup{F (y) : y ∈ C , y ≤ x} , x ∈ / C, setzt FC zu einer Funktion auf R fort, die ebenfalls monoton und surjektiv ist. Daher ist F* C stetig und damit Verteilungsfunktion einer Maßfunktion μ mit μ(R) = 1 . Weil F* C aber auf jedem Intervall von [0, 1] \ C , auf (−∞, 0] und [1, ∞) konstant ist, ist jedes dieser Intervalle eine μ-Nullmenge, und deshalb gilt auch μ(C c ) = 0 . Andererseits gilt λ(C) = 0 und daraus folgt μ ⊥ λ , sowie * F* C ist λ–fü differenzierbar mit FC = 0 λ–fü . Offensichtlich gilt
12.3 Der Hauptsatz der Differential- und Integralrechnung
* 1 = F* C (1) − FC (0) >
7
213
F* C dλ = 0 .
[0,1]
F* C wird Cantor-Funktion genannt. Satz 12.26. Ist μ oder −μ ein bezüglich λ absolut stetiges Lebesgue-StieltjesMaß, so ist seine Verteilungsfunktion F λ–fü differenzierbar mit F = dμ λ–fü . dλ " # Beweis. Wir zeigen zunächst, dass gilt λ ∂F := ∂ r F ∨ ∂ l F > dμ = 0 , und dλ ; : ; " # : dμ dμ = genügt es λ = 0 für wegen ∂F > dμ ∂F > q > ∂F > q > dλ dλ dλ q∈Q
alle q ∈ Q zu beweisen. " # . dμ Durch ν(A) := − q dλ ∀ A ∈ B wird ein Lebesgue-Stieltjesdλ A∩ [ dμ ≥q ] dλ # " = 0 . Daher folgt aus Satz 12.23, Maß auf R definiert, für das gilt ν dμ dλ < q : ; < q . dass für die Verteilungsfunktion Fν von ν gilt Fν = 0 λ–fü- auf dμ dλ # # . " dμ . " dμ Nun gilt μ(A) − q λ(A) = dλ − q dλ ≤ dλ − q dλ = ν(A) für A A∩ [ dμ dλ ≥q ] alle beschränkten A ∈ B (beschränkt, damit (μ − q λ)(A) wohldefiniert ist). (x∧y,x∨y] ) (x) ν (x) = F (y)−F − q ≤ Fν (y)−F ∀ x, y ∈ R . Daraus folgt (μ−qλ)( λ((x∧y,x∨y] ) y−x y−x : ; dμ Daher gilt ∂F − q ≤ Fν = 0 λ–fü bzw. ∂F ≤ q λ–fü auf dλ < q . Das ist # " = 0. aber gleichbedeutend mit λ dμ dλ < q < ∂F " # Das obige Ergebnis angewendet auf −μ liefert λ ∂(−F ) > − dμ = 0 . Da dλ # " = 0 . Somit gilt F = dμ −∂(−F ) = ∂F , folgt daraus λ ∂F < dμ λ–fü . dλ dλ Folgerung 12.27. Die Verteilungsfunktion F eines Lebesgue-Stieltjes-Maßes μ c λ–fü , wobei μc das bezüglich λ ist λ–fü differenzierbar mit F = Fc = dμ dλ absolut stetige Mass der Lebesgue-Zerlegung von μ bezeichnet und Fc die zugehörige Verteilungsfunktion. Beweis. Sind Fc und Fs die Verteilungsfunktionen der Maße μc % λ , μs ⊥ λ der Lebesgue-Zerlegung von μ , so gilt F = Fc + Fs . Nach Satz 12.26, und c Folgerung 12.24 gilt weiters Fc = dμ λ–fü und Fs = 0 λ–fü, . Demnach dλ c λ–fü . ist F λ–fü differenzierbar mit F = Fc + Fs = Fc = dμ dλ Wir können nun Folgerung 12.24 umkehren und zeigen, dass ein zum Lebesgue-Maß singuläres Maß durch eine λ–fü verschwindende Ableitung ihrer Verteilungsfunktion charakterisiert wird. Folgerung 12.28. Ein Lebesgue-Stieltjes-Maß μ , für dessen Verteilungsfunktion F gilt F = 0 λ–fü , ist zu λ singulär.
214
12 Integral und Ableitung
Beweis. Nach Folgerung 12.27 gilt mit den dort Bezeichnungen . verwendeten dμc c λ–fü . Daraus folgt μ (A) = λ = 0 ∀ A ∈ B , d.h. 0 = F = dμ c dλ A dλ μc ≡ 0 . Somit gilt μ = μs , und damit ist μ singulär zu λ . Folgerung 12.27 besagt im Wesentlichen, dass monotone Funktionen (bzw. ihre rechtsstetigen Versionen) λ–fü differenzierbar sind. Daraus lässt sich leicht der Satz von Lebesgue über die Differenzierbarkeit von Funktionen von beschränkter Variation herleiten. Satz 12.29 (Satz von Lebesgue über die Differenzierbarkeit von Funktionen mit beschränkter Variation). Ist F : [a, b] → R von beschränkter Variation, so ist F λ–fü differenzierbar. Ist F : [a, b] → R monoton steigend, so ist F λ–fü differenzierbar, und es gilt 7 F (b) − F (a) ≥ F dλ . (12.7) [a,b]
Beweis. F ist als Funktion von beschränkter Variation die Differenz zweier monotoner Funktionen G, H und hat daher nur höchstens abzählbar viele Unstetigkeitsstellen. Die rechtsstetigen Versionen f+ , G+ , H+ stimmen also λ–fü mit F, G, H überein. Da laut Folgerung 12.27 G+ , H+ und damit auch f+ λ–fü differenzierbar sind, sind daher auch F , G , H λ–fü differenzierbar. Ist F monoton steigend, so ist F+ die Verteilungsfunktion eines LebesgueStieltjes-Maßes Lebesgue-Zerlegung μc % λ , μs ⊥ λ besitzt, und . μ , das eine . dμ c für das gilt F dλ = dλ dλ = μc ( (a, b] ) ≤ μ( (a, b] ) = F (b) − F (a) . [a,b]
[a,b]
Der nächste Satz ist eine Verschärfung von Satz 12.15. Satz 12.30 (Hauptsatz der Differential- und Integralrechnung für das Lebesgue-Integral). Ist f : [a, b] → R eine Lebesgue-integrierbare Funktion, so . f dλ absolut stetig und λ–fü differenzierbar mit F = f λ–fü . ist F (x) := [a,x]
Ist F : [a, b] → R absolut stetig, so besitzt F λ–fü eine Ableitung F , die Lebesgue-integrierbar ist und für die gilt 7 F (x) − F (a) = F (t) dλ ∀ x ∈ [a , b] . (12.8) [a,x]
Beweis. Da man f in Positivteil f + und Negativteil f − zerlegen kann und F als Differenz zweier monoton wachsender Funktionen darstellbar ist, darf o.E.d.A. angenommen . werden, dass f ≥ 0 gilt und F monoton wächst. Wegen μ(A) := f dλ % λ ist F als zugehörige Verteilungsfunktion absoA
= f λ–fü . lut stetig und laut Folgerung 12.27 gilt F = dμ dλ Ist F absolut stetig, so ist auch das zugehörige stetig, und . Maß μ.absolut dμ Folgerung 12.27 besagt F = dμ λ–fü ⇒ F dλ = dλ = μ(A) für dλ dλ alle A ∈ B . Mit A := [a , x] ergibt das (12.8).
A
A
13 Lp - Räume
13.1 Integralungleichungen Eine der wichtigsten Integralungleichungen ist die Jensen’sche Ungleichung über den Erwartungswert konvexer Transformationen (siehe Anhang A.6) von Zufallsvariablen. Satz 13.1 (Ungleichung von Jensen). Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, X : Ω → (a, b) eine P - integrierbare Zufallsvariable und ϕ : (a, b) → R konvex, so existiert der Erwartungswert von ϕ ◦ X und es gilt ϕ( EX ) ≤ E( ϕ ◦ X ) .
(13.1)
Beweis. Ist a = −∞, so gilt a = −∞ < EX , da X integrierbar ist; für a ∈ R gilt hingegen wegen X(Ω) ⊆ (a, b) , dass X − a > 0 P –fs ⇒ EX > a . Analog zeigt man EX < b , somit EX ∈ (a , b) ⇒ ϕ( EX ) ∈ R . Ungleichung (A.14) ergibt mit y := X(ω) und x := E X ϕ( X(ω) ) ≥ ϕ( EX ) + ∂ r ϕ( EX ) ( X(ω) − EX )
∀ω ∈Ω.
(13.2)
Da die rechte Seite von (13.2) integrierbar ist (ϕ(EX) , ∂ r ϕ(EX) und EX sind Konstante und X ∈ L1 (Ω, S, P )), existiert das Integral von ϕ ◦ X bezüglich P und Integration von (13.2) ergibt 7 E( ϕ ◦ X ) = ( ϕ ◦ X ) dP 7 7 7 r X dP − EX dP ≥ ϕ( EX ) dP + ∂ ϕ( EX ) = ϕ(EX) + ∂ r ϕ( EX )( EX − EX ) = ϕ(EX) . Bemerkung 13.2. Es ist klar, dass sich die Jensen’sche Ungleichung für konkave Funktionen umkehrt, dass also für konkaves ϕ gilt ϕ( EX ) ≥ E( ϕ ◦ X ) .
(13.3)
13 Lp - Räume
216
Beispiel 13.3. Ein bekannter Spezialfall der Jensen’schen Ungleichung ist die Mittelungleichung ? @ n n ! @
n xi n A , x1 , . . . , xn ∈ R+ . ≤ x ≤ (13.4) i n n 1 i=1
i=1
xi
i=1
ϕ(x) := − ln x ist nach Lemma A.50 auf (0, ∞) konvex, da ϕ (x) = x12 > 0 . Mit Ω := {x1 , . . . , xn } , P (xi ) := n1 , i = 1, . . . , n ergibt (13.1) ⎛
n
n n1 ⎞ n n ! xi
! xi 1 ! ⎝ ⎠ ⇒ ln . (− ln xi ) ≥ − ln xi ≤ ln n i=1 n n i=1 i=1 i=1 Da ln x monoton steigt, folgt daraus die rechte Ungleichung in (13.4). Die linke Ungleichung aus (13.4) erhält man, indem man die rechte Ungleichung auf yi := x1i ∈ R+ , i = 1, . . . , n anwendet. Auch die Hölder’sche Ungleichung lässt sich leicht aus Satz 13.1 herleiten. Satz 13.4 (Ungleichung von Hölder). Sind f , g messbare Funktionen auf einem Maßraum (Ω, S, μ) , so gilt für 1 < p, q < ∞ und p1 + 1q = 1 7
7 |f g| dμ ≤
p
|f | dμ
p1 7
q
|g| dμ
1q .
(13.5)
. . Beweis. Aus |f |p dμ = 0 ∨ |g|q dμ =. 0 folgt f = 0 bzw. g = . 0 q μ–fü , und p dμ = ∞ oder |g| dμ = ∞ . dann ist (13.5) trivial, ebenso wie bei |f | Ansonst ist P (A) := 7
p
|f | q dP = |g|
|g|q dμ A q |g| dμ
7
∀ A ∈ S ein Wahrscheinlichkeitsmaß. Wegen . 7 p p p q |f | dμ |f | |g| |f | . . dμ = 0] 1
| p ist |f |g|q bezüglich P integrierbar. Da außerdem ϕ := x konkav auf (0, ∞) ist, q folgt unter Berücksichtigung von (13.3) und q − 1 = p p
7
p 7 7 q |f | |g| |f | |g| |f | p dμ = dμ q dP q q−1 . q ( |g| dμ) |g| ( |g| dμ) |g| p %1 $. 7 p1 7 p p1 p p |f | dμ p |f | |f | = dP ≤ = $. q q dP %1 . |g| |g| |g|q dμ p
.
Daraus erhält man sofort p1 7 1− p1 7 p1 7 q1 7 7 p q p q |g| dμ |g| dμ = |f | dμ . |f g| dμ ≤ |f | dμ
13.1 Integralungleichungen
217
Bemerkung 13.5. Der Spezialfall der Hölder’schen Ungleichung für p = q = 2 B7 B7 7 |f |2 dμ
|f | |g| dμ ≤
|g|2 dμ
(13.6)
ist als Cauchy- Schwarz’sche Ungleichung bekannt. Definition 13.6. Die Menge der Funktionenf ∈ M(Ω , S , μ) , für die f p , p ≥ 1 integrierbar ist, wird mit Lp := Lp (μ) := Lp (Ω, S, μ) bezeichnet. Derarti$. %1 p |f | dμ p heißt ge Funktionen werden Lp -integrierbar genannt, !f !p := Lp -Norm von f , und unter einem Lp -Raum Lp := Lp (μ) := Lp (Ω, S, μ) versteht man das System der Äquivalenzklassen μ-fü gleicher Funktionen aus Lp . Bemerkung 13.7. Mit der obigen Bezeichnung kann man die Hölder’sche Ungleichung anschreiben als !f g!1 ≤ !f !p !g!q ,
(13.7)
und in dieser Form gilt sie, wie man leicht sieht, auch für p = 1 und q = ∞ . Die nächste Ungleichung rechtfertigt die Bezeichnung Lp -Norm. Satz 13.8 (Ungleichung von Minkowski). Ist (Ω, S, μ) ein Maßraum, so gilt für 1 ≤ p ≤ ∞ und alle f , g ∈ M , deren Summe f + g μ–fü wohldefiniert ist, !f + g!p ≤ !f !p + !g!p .
(13.8)
Beweis. Gemäß Bemerkung 9.38 bzw. Satz 7.68 Punkt 3. gilt der Satz für p = 1 bzw. p = ∞ , und für !f !p = ∞ oder !g!p = ∞ ist nichts zu beweisen. Aus f, g ∈ Lp mit 1 < p < ∞ , folgt zunächst p
p
p
p
p
p
|f + g| ≤ 2p (|f | ∨ |g|) = 2p (|f | ∨ |g| ) ≤ 2p (|f | + |g| ) .
(13.9)
Daher ist f +g Lp -integrierbar. Aber aus der Dreiecksungleichung folgt weiters 7 7 7 |f + g|p dμ ≤ |f + g|p−1 |f | dμ + |f + g|p−1 |g| dμ . (13.10) " #q p−1 p−1 p p ist |f + g| wegen |f + g| = |f + g| aus Lq , und Für q := p−1 Satz 13.4 angewendet auf die Integrale der rechten Seite von (13.10) ergibt # . $. % 1q " p p |f + g| dμ ≤ !f !p + !g!p . Daraus folgt sofort |f + g| dμ 7 !f + g!p =
p
|f + g| dμ
p1
7 =
p
|f + g| dμ
1− q1
≤ !f !p + !g!p .
218
13 Lp - Räume
Der obige Satz zeigt, dass die Lp (Ω, S, μ) lineare Räume mit einer Seminorm !.!p sind. Deshalb sind die Lp -Räume normiert mit der Norm !.!p . Wir werden im nächsten Abschnitt sehen, dass sie sogar vollständig sind. Die folgenden Ungleichungen spielen vor allem in der Wahrscheinlichkeitstheorie eine wichtige Rolle. Satz 13.9 (Markoff’sche Ungleichung). Ist (Ω, S, μ) ein Maßraum, so gilt für jede Funktion f aus M+ und C > 0 . . f dμ f dμ [ f ≥C ] μ( f ≥ C ) ≤ ≤ . (13.11) C C . . Beweis. C 1[f ≥C] ≤ f ⇒ C μ( f ≥ C ) = C 1[f ≥C] dμ ≤ f dμ . Folgerung 13.10 (Tschebyscheff’sche Ungleichung). Ist f ∈ M(Ω, S, μ) , ϕ : [0, ∞) → [0, ∞) monoton steigend, ϕ(x) > 0 ∀ x > 0 und C > 0 , so gilt . . ϕ ◦ |f | dμ ϕ ◦ |f | dμ [ |f |≥C ] μ( |f | ≥ C ) ≤ ≤ . (13.12) ϕ(C) ϕ(C) Beweis. Da ϕ monoton wächst, gilt [|f | ≥ C] = [ϕ ◦ |f | ≥ ϕ(C)] . Somit folgt (13.12) aus Satz 13.9 angewendet auf g := ϕ ◦ |f | . Bemerkung 13.11. Für ϕ(x) = xk , x ≥ 0 , k > 0 erhält man die Ungleichung . μ( |f | ≥ C ) ≤
.
k
[ |f |≥C ]
|f | dμ
Ck
≤
k
|f | dμ . Ck
(13.13)
Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und X ∈ L2 (Ω, S, P ) , so gilt wegen der Cauchy-Schwarz’schen Ungleichung B7 B7 7 7 √ |X|2 dP 12 dP = EX 2 < ∞ , |X| dP = |X| 1 dP ≤ d.h. X ∈ L1 (Ω, S, P ) , und aus (13.13) mit f := (X − EX) und k = 2 folgt . (X − EX)2 dP E(X − EX)2 [ |X−EX|≥C ] ≤ . P ( |X − EX| ≥ C ) ≤ 2 C C2 (13.14) Mit σ 2 := E(X − EX)2 und C := γ σ erhält man (13.14) in der Form P ( |X − EX| ≥ γ σ ) ≤
1 . γ2
(13.15)
Bemerkung 13.12. Die Namensgebung für die obigen Ungleichungen ist nicht einheitlich. So wird oft (13.13) als Markoff’sche Ungleichung bezeichnet, und mit Tschebyscheff’scher Ungleichung ist (13.14) bzw. (13.15) gemeint.
13.2 Vollständigkeit der Lp -Räume
219
13.2 Vollständigkeit der Lp -Räume Definition 13.13. Eine Folge (fn ) aus Lp (Ω, S, μ) ist eine Cauchyfolge im p-ten Mittel (konvergiert im p-ten Mittel), wenn lim !fn − fm !p = 0 ,
(13.16)
m,n→∞
sie konvergiert im p-ten Mittel gegen f ∈ Lp (i.Z. Lp − lim fn = f ), wenn n
lim !fn − f !p = 0 .
(13.17)
n
Bei p = 1 spricht man von Konvergenz im Mittel und bei p = 2 von quadratischer Konvergenz. Die Konvergenz im p-ten Mittel wird auch Lp -Konvergenz genannt. Bemerkung 13.14. Aus der Konvergenz im p−ten Mittel folgt i.A. keine Konvergenz μ–fü . Die Funktionen fn aus Beispiel 7.84 konvergieren bekanntlich in keinem Punkt von [0, 1] gegen 0 . Aber für 1 ≤ p < ∞ gilt
√ 2 √ 2 n − n n + 1 − n p √ √ , → 0. !fn !p = λ 2 n + 1 2 n + 1 Daher konvergieren die fn im p-ten Mittel gegen 0 . Umgekehrt folgt nicht einmal aus gleichmäßiger Konvergenz, dass eine Folge im p-ten Mittel konvergiert. Die 1 Folge fn (ω) := √ 1 (ω) konvergiert gleichmäßig gegen 0 , aber es gilt p n [0,n] !fn !p = 1
∀ n ∈ N ⇒ lim !fn − 0!p = 0 . n
Aber aus der Konvergenz im p-ten Mittel folgt Konvergenz im Maß. Satz 13.15. Auf jedem Maßraum (Ω, S, μ) gelten für alle p ∈ [1, ∞] und f, fn aus Lp (Ω, S, μ) folgende Beziehungen lim !fn − fm !p = 0
⇒
lim !fn − f !p = 0 ⇒
n→∞
n,m→∞ n→∞
lim μ( |fn − fm | > ε ) = 0 ∀ ε > 0
n,m→∞
lim μ( |fn − f | > ε ) = 0 ∀ ε > 0 .
Beweis. p = ∞ ist trivial, sonst folgt aus (13.13) mit C = ε > 0 und k = p μ( |fn − fm | > ε ) ≤
!fn − fm !pp εp
∧ μ( |fn − f | > ε ) ≤
!fn − f !pp εp
.
Satz 13.16 (Satz von Riesz-Fischer). Für alle p ∈ [1, ∞] besitzt jede auf einem Maßraum (Ω, S, μ) Lp -konvergente Folge (fn ) aus Lp eine Grenzfunktion f ∈ Lp , sodass lim !fn − f !p = 0 , d.h. die Lp (Ω, S, μ) sind Banachräume. n
13 Lp - Räume
220
Beweis. Für p = ∞ wurde die Behauptung bereits in Satz 7.68 bewiesen. Ist 1 ≤ p < ∞ und (fn ) eine Cauchyfolge im p-ten Mittel, so ist (fn ) nach dem obigen Satz auch eine Cauchyfolge im Maß. Auf Grund von Satz 7.85 gibt es daher eine messbare Funktion f und eine Teilfolge (fnk ) , die μ-fast gleichmäßig und daher auch μ-fü (siehe Satz 7.75) gegen f konvergiert. p Ist ε > 0 , so gibt es ein nε : !fn − fm !p < ε ∀ n , m ≥ nε . Daher gilt für p festes n ≥ nε und alle nk ≥ nε !fn − fnk !p < ε , und aus dem Lemma von Fatou (Folgerung 9.32) folgt 7 7 7 |fn − f |p dμ = lim inf |fn − fnk |p dμ ≤ lim inf |fn − fnk |p dμ ≤ ε . k
k
Daher gilt lim !fn − f !p = 0 . Aber aus der obigen Ungleichung und Satz 13.8 n
(Ungleichung von Minkowski) folgt auch !f !p ≤ !fn !p + !f − fn !p < ∞ . . Bemerkung 13.17. Auf L2 (Ω, S, μ) ist )f, g* := f g dμ ein inneres Produkt, und L2 (Ω, S, μ) ist daher ein Hilbert-Raum (siehe Definitionen A.74 und A.80). Bemerkung 13.18. In der Literatur wird häufig folgende Aussage als Satz von Riesz-Fischer bezeichnet: Ist {ei }i∈I ein Orthonormalsystem (siehe Definition A.81) auf einem Hilbertraum H und {αi }i∈I eine Familie komplexer Zahlen, so existiert ein h ∈ H mit den Fourier-Koeffizienten αi , d.h. αi = )h, ei * ∀ i ∈ I , 2 αi < ∞ . genau dann, wenn i∈I
Dies ist insoferne irreführend, als dabei die Vollständigkeit des Raumes vorausgesetzt wird. Riesz hat aber beim Beweis seines entsprechenden Satzes über die Fourier-Koeffizienten im L2 die Vollständigkeit des Raumes L2 erst nachgewiesen. Als nächstes wird ein Kriterium für die Lp -Konvergenz vorgestellt. Das folgende auf Riesz zurückgehende Resultat dient dazu als Hilfsmittel. Satz 13.19. Ist (Ω, S, μ) ein Maßraum und 1 ≤ p < ∞ , so gilt für jede Lp −integrierbare Folge (fn ) lim fn = f n
μ–fü ∧ lim !fn !p = !f !p < ∞ ⇒ lim !f − fn !p = 0 . n
n
p
p
p
Beweis. Da nach (13.9) gilt |f − fn | − 2p (|f | + |fn | ) ≤ 0 ∀ n ∈ N , folgt aus dem Lemma von Fatou 7 7 7 |f |p dμ + |f |p dμ = lim sup (|f − fn |p − 2p (|f |p + |fn |p ) ) dμ −2p n 7 7 7 |f − fn |p dμ − 2p |f |p dμ − 2p |fn |p dμ ≥ lim sup n 7 7 7 p p p |f | dμ − 2p lim |fn | dμ = lim sup |f − fn | dμ − 2p n n 7 7 7 p p p p |f | dμ + |f | dμ . = lim sup |f − fn | dμ − 2 n
13.2 Vollständigkeit der Lp -Räume
221
$. % . |f.|p dμ + |f |p dμ zu beiden Seiten Addiert man 2p er. der Ungleichung, p p gibt das 0 ≥ lim sup |f − fn | dμ ≥ 0 . Somit gilt lim |f − fn | dμ = 0 . n
n
Satz 13.20. Ist (Ω, S, μ) ein Maßraum und 1 ≤ p < ∞ , so konvergiert eine Folge (fn ) aus Lp genau dann im p-ten Mittel, wenn (fn ) im Maß gegen ein f ∈ Lp konvergiert und gilt lim !fn !p = !f !p . n
Beweis. Konvergiert (fn ) im p-ten Mittel, so gibt es nach Satz 13.16 ein f ∈ Lp mit lim !fn − f !p = 0 , und aus Satz 13.15 folgt μ − lim fn = f . n
n
Da aus !f !p ≤ !f − fn !p + !fn !p und !fn !p ≤ !f − fn !p + !f !p aber folgt | !f !p − !fn !p | ≤ !f − fn !p , gilt auch lim !fn !p = !f !p . n
Konvergiert umgekehrt (fn ) im Maß gegen f , so existiert nach Satz 7.85 eine Teilfolge (fnk ) mit lim fnk = f μ–fü . Da voraussetzungsgemäß gilt k
f ∈ Lp und lim !fnk !p = !f !p , folgt aus Satz 13.19 lim !f − fnk !p = 0 . k
k
Würde (fn ) nicht im p-ten Mittel C gegen f Ckonvergieren, so müsste es ein ε > 0 und eine Teilfolge (fmj ) mit Cf − fmj Cp ≥ ε ∀ j geben. Aber wegen C C " # C C μ − lim fmj = f müsste (fmj ) eine Subfolge fmjh mit lim Cf − fmjh C = 0 j
h
p
haben. Da das der Definition von (fmj ) widerspricht, gilt lim !f − fn !p = 0. n
Auch das folgende Ergebnis, das einen Zusammenhang zwischen der Konvergenz von Verteilungen und der Konvergenz ihrer Dichten herstellt, hat Riesz mit Satz 13.19 in wesentlich allgemeinerer Form vorweggenommen. Satz 13.21 (Satz von Scheffé). Sind νn , ν Maße auf einem σ-endlichen Maßraum (Ω, S, μ) mit νn , ν % μ und νn (Ω) = ν(Ω) < ∞ ∀ n ∈ N , so gilt dνn dν = μ–fü ⇒ lim sup |νn (A) − ν(A)| = 0 . n A∈S dμ dμ + + + +. . dν + . ++ dνn . ++ dνn dν + n +≤ + dμ − dμ − dμ ≤ Beweis. Wegen ++ dν + + dμ − dμ dμ dμ dμ + lim n
A
A
(13.18) +
dν + dμ +
dμ ist
A
das nur ein Sonderfall von Satz 13.19 für fn , f ≥ 0
μ–fü und p = 1 .
Beispiel 13.22 (Poisson-Approximation der Binomialverteilung). Auf (N0 , P(N0 ), ζ) mit ζ(A) := |A| sind die fn , definiert durch $ % n pn ω (1 − pn )n−ω , 0 ≤ ω ≤ n ω fn (ω) := 0, sonst mit 0 < pn < 1 ∀ n Dichten von Binomialverteilungen Bn,pn bezüglich ζ . Aus lim n pn = θ > 0 (d.h. die Erwartungswerte n pn der Bn,pn konvergieren n
gegen eine Konstante θ) folgt lim pn = 0 und man erhält n
13 Lp - Räume
222
ω−1 n 1
pn ω (1 − pn )n−ω = lim fn (ω) = lim lim [(n − i) pn ] lim(1 − pn )n−ω n n n ω ω! i=0 n =
θω θ ω lim θ ω −θ [−pn (n−ω)] lim e(n−ω) ln(1−pn ) = en e = ω! n ω! ω!
∀ ω ∈ N0 .
ω
Für f (ω) := θω! e−θ ∀ ω ∈ N0 gilt somit lim fn = f ζ–fü . n ∞ . θ ω −θ θ −θ Wegen f dζ = e = e e = 1 ist das unbestimmte Integral Pθ ω! N0
ω=0
von f ein Wahrscheinlichkeitsmaß, und daher folgt aus dem obigen Satz sup | Bn,pn (A) − Pθ (A) | → 0 , wobei sich die Notation von selbst erklärt. A⊆N0
Die Grenzverteilung Pθ kennen wir bereits aus Beispiel 6.32, es ist die Poissonverteilung mit dem Parameter θ > 0 . Wegen lim n pn = θ sollte X ∼ Pθ die Erwartung θ haben. Tatsächlich gilt n
EX =
∞ !
x
x=0
∞ ∞ ! ! θx −θ θ x−1 −θ θy e =θ e = θ e−θ = θ e−θ eθ = θ . x! (x − 1)! y! x=1 y=0
Ist 1 ≤ p < q , so folgt aus f ∈ Lq i.A. nicht f ∈ Lp und aus !fn − f !q → 0 folgt nicht !fn − f !p → 0 , wie die folgenden Beispiele zeigen. Beispiel 13.23. Auf ( [1, ∞), B ∩ [1, ∞), λ) ist f (x) := x1 , + x ≥ 1 quadratisch . .∞ ∞ integrierbar, denn es gilt [1,∞) f 2 dλ = 1 x12 dx = − x1 +1 = 1 , aber f ist + . .∞ ∞ wegen [1,∞) f dλ = 1 x1 dx = ln(x) +1 = ∞ nicht integrierbar. Beispiel 13.24. Auf (R, B, λ) gilt für fn :=
1 n
1[0,n] , n ∈ N
1 lim !fn − 0!2 = lim √ = 0 , aber !fn − 0!1 = 1 n n n
∀ n ∈ N.
Anders sieht die Situation auf endlichen Maßräumen, also insbesondere auf Wahrscheinlichkeitsräumen aus, denn dann gilt der folgende Satz. Satz 13.25. Auf endlichen Maßräumen (Ω, S, μ) gilt für 1 ≤ p ≤ q Lq ⊆ Lp , zudem konvergiert jede Lq -konvergente Folge (fn ) aus Lq auch im p-ten Mittel, und aus lim !fn − f !q = 0 folgt lim !fn − f !p = 0 . n
n
Beweis. Der Fall q = ∞ ist trivial, und bei q = p gibt es nichts zu beweisen. q Für 1 ≤ p < q ergibt die Hölder’sche Ungleichung mit r := pq > 1 und s := q−p 7
7 p
|f | |1| dμ ≤
p r
(|f | ) dμ
r1 7
s
|1| dμ
1s
7 =
q−p
q
|f | dμ
pq
1
(μ(Ω)) s .
Für f ∈ Lq gilt daher !f !p ≤ !f !q μ(Ω) p q < ∞ , d.h. f ∈ Lp . Ersetzt man in dieser Ungleichung f durch fn − fm bzw. durch fn − f ,
13.3 Gleichmäßige Integrierbarkeit
so folgt daraus 0 ≤ lim sup !fn − fm !p ≤ lim !fn − fm !q μ(Ω) n,m
n,m
0 ≤ lim sup !fn − f !p ≤ lim !fn − f !q μ(Ω)
q−p pq
n
n
q−p pq
223
und
, Damit ist der Satz bewiesen.
Für endliche Maßräume lässt sich auch folgende Aussage treffen. Satz 13.26. Ist (Ω, S, μ) ein endlicher Maßraum, so gilt lim !f !p = !f !∞ . p→∞
Beweis. Bei μ(Ω) = 0 ist nichts zu beweisen, und für μ(Ω) > 0 folgt aus . 1 |f |p dμ ≤ !f !p∞ μ(Ω) !f !p ≤ !f !∞ μ(Ω) p . Somit gilt die Ungleichung lim sup !f !p ≤ !f !∞
1
lim μ(Ω) p
p→∞
= !f !∞ .
. p Umgekehrt gilt nach der Ungleichung von Markoff |f | dμ ≥ C p μ(|f | ≥ C) 1 für alle C > 0 . Daraus folgt lim inf !f !p ≥ C lim μ(|f | ≥ C) p . Da für p→∞
p→∞
p→∞
0 < C < !f !∞ gilt μ ( |f | ≥ C) > 0 , ergibt sich daraus lim inf !f !p ≥ !f !∞ . p→∞
Man beachte, dass der obige Beweis und damit der Satz auch für !f !∞ = ∞ gilt, aber die Endlichkeit von μ ist, wie das folgende Beispiel zeigt, wesentlich. Beispiel 13.27. Auf (R , B , λ) gilt !1R !∞ = 1 ∧ !1R !p = ∞ ∀ 1 ≤ p < ∞ .
13.3 Gleichmäßige Integrierbarkeit Ein 2-tes Kriterium für die Lp -Konvergenz beruht auf dem Konzept der gleichmäßigen Integrierbarkeit, das wir hier nur für endliche Maßräume vorstellen. Definition 13.28. Eine Familie {fi , i ∈ I} messbarer Funktionen auf einem endlichen Maßraum (Ω, S, .μ) heißt gleichmäßig integrierbar, wenn es zu jedem ε > 0 ein c gibt, sodass sup [|fi |≥c] |fi | dμ < ε . i
Satz 13.29. Auf einem endlichen Maßraum (Ω, S, μ) ist eine Familie messbarer Funktionen {fi , i ∈ I} genau dann gleichmäßig integrierbar, wenn die untenstehenden Bedingungen 1. und 3. oder 2. und 3. gelten. . 1. C := sup |fi | dμ < ∞ . i
2. lim sup μ ( |fi | ≥ c ) = 0 .
c→∞ i . 3. ∀ ε > 0 ∃ δ > 0 : μ(A) < δ ⇒ sup A |fi | dμ < ε , d.h. die Maße i . νi (A) := A |fi | dμ sind gleichmäßig absolut stetig bezüglich μ .
Beweis. Punkt 1. folgt aus der gleichmäßigen Integrierbarkeit, denn 7 7 7 |fi | dμ+ |fi | dμ ≤ c μ ( |fi | < c )+ε ≤ c μ(Ω)+ε |fi | dμ = [|fi | 0 so gewählt, dass sup [|fi |≥c] |fi | dμ < 2ε , so gilt für A ∈ S mit μ(A) < δ := 2εc und alle i i
7
7
7
|fi | dμ =
|fi | dμ + A∩[|fi |≥c]
A
|fi | dμ ≤
ε ε ε + c μ(A) = + = ε . 2 2 2
A∩[|fi | 0 ein c ≥ 0 mit sup n
7
7
7
fn dμ =
fn dμ + [fn ≥−c]
. [|fn |≥c]
|fn | dμ < ε , so gilt
7 fn dμ ≥
fn dμ − ε
∀ n ∈ N.
[fn ≥−c]
[fn 0 beliebig ist, impliziert das die linke Ungleichung in Punkt 1. Unter Berücksichtigung von − lim inf (−fn ) = lim sup fn ergibt sich daraus, n
n
angewendet auf (−fn ) die. rechte Ungleichung in Punkt 1. Damit gilt auch . lim fn = f μ–fü ⇒ lim fn dμ = f dμ , also der 1-te Teil von Punkt 2. n
n
Konvergiert (fn ) hingegen im Maß gegen f , so gibt es nach Satz 7.85 eine Teilfolge (fnk ) mit lim fnk = f μ–fü , woraus, wie eben gezeigt, folgt k . . . . lim fnk dμ = f dμ . Würde fn dμ nicht gegen f dμ konvergieren, so k +. + $ % . + fm dμ − f dμ+ > ε für müsste es ein ε > 0 und eine Teilfolge f mit m j j % $ f konvergiert, müsste alle j ∈ N geben. " Da # aber$auch% fmj im Maß gegen . . eine Subfolge fmjh von fmj existieren mit lim fmjh dμ = f dμ . Das h % . $ . widerspricht der Definition von fmj , also gilt lim fn dμ = f dμ . n
Wir können nun das zweite Kriterium für die Lp -Konvergenz formulieren. Satz 13.32. Auf einem endlichen Maßraum (Ω, S, μ) konvergiert eine Folge p (fn ) aus Lp , 1 ≤ p < ∞ genau dann im p-ten Mittel, wenn die |fn | gleichmäßig integrierbar sind und (fn ) im Maß konvergiert. Beweis. Konvergiert (fn ) im p-ten Mittel, so gibt es nach Satz 13.20 ein f ∈ Lp , sodass lim !fn − f !p = 0 ∧ lim !fn !p = !f !p < ∞ . Daher gilt n n . p C := sup |fn | dμ < ∞ . Deshalb existiert aber auch zu jedem ε > 0 ein n
1
nε ∈ N , sodass für alle n > nε gilt !fn − f !p ≤ 12 ε p . Außerdem gibt es . p ein δ > 0 , sodass aus μ(A) < δ folgt A |f | dμ ≤ 2−p ε . Daraus und aus !fn 1A !p ≤ !f 1A !p + !(fn − f ) 1A !p ≤ !f 1A !p + !fn − f !p folgt, dass für A ∈ S mit μ(A) < δ und n > nε gilt p 7 1 p1 1 1 p ε + εp |fn | dμ ≤ = ε. 2 2 A
Da . es pfür alle i mit 1 ≤ i ≤ nε ein δi > 0 gibt, sodass aus μ(A) < δi folgt .A |fi | p dμ ≤ ε . gilt für jedes A ∈ S mit μ(A) p< min{δ, δ1 , . . . , δnε } natürlich |f | dμ ≤ ε ∀ n ∈ N . Somit sind die |fn | nach Satz 13.29 gleichmäßig A n integrierbar. Aus Satz 13.15 folgt schließlich μ − lim fn = f . n
Konvergiert andererseits (fn ) im Maß, so gibt es nach Satz 7.85 ein f ∈ M p p μ–fü . und eine Teilfolge (fnk ) mit lim fnk = f μ–fü ⇒ lim |fnk | = |f | k
k
226
13 Lp - Räume p
Da die (|fnk | ) gleichmäßig integrierbar sind, folgt nach Satz 13.31 Punkt 2. lim !fnk !p = !f !p . Nach Satz 13.19 gilt dann auch lim !fnk − f !p = 0 . k
k
Würde !fn − f !p nicht gegen 0 konvergieren, so müsste es ein ε > 0 und C C % $ eine Teilfolge fmj mit Cfmj − f Cp > ε ∀ j ∈ N geben. Aber wegen " # % $ μ − lim fmj = f müsste eine Subfolge fmjh von fmj existieren mit j C C C C lim Cfmjh − f C = 0 . Das ist ein Widerspruch, also gilt lim !fn − f !p = 0 . h
n
p
Bemerkung 13.33. Konvergiert eine Folge Lp -integrierbarer Funktionen fn auf p einem endlichen Maßraum im Maß, so sind die |fn | auf Grund der Sätze 13.20 und 13.32 genau dann gleichmäßig integrierbar, wenn die Grenzfunktion f Lp -integrierbar ist und gilt lim !fn !p = !f !p < ∞ . n
13.4 Der Dualraum zu Lp (Ω, S, μ) In diesem Abschnitt wird gezeigt, dass der Dualraum (siehe Definition A.73) zu Lp (Ω, S, μ) , 1 ≤ p < ∞ gerade der Raum Lq (Ω, S, μ) mit p1 + 1q = 1 ist. Für 1 < p < ∞ gilt dies auf beliebigen Maßräumen und für p = 1 , wenn das Maß σ-endlich ist. Wir beweisen zunächst ein paar Hilfssätze. Lemma 13.34. Ist (Ω, S, μ) ein Maßraum, so gibt es zu f ∈ Lp , 1 ≤ p ≤ ∞ eine Folge (tn ) aus T(Ω, S) mit !tn !p ≤ !f !p ∀ n ∈ N und lim !f − tn !p = 0 . n
Beweis. Für die im Beweis von Satz 7.30 konstruierte Folge (tn ) gilt offensichtlich |tn | ≤ |f | ∀ n ∈ N und lim tn = f μ–fü . Daraus folgt klan
rerweise !tn !p ≤ !f !p , 1 ≤ p ≤ ∞ und |f − tn |p ≤ (2 |f |)p sowie lim |f − tn |p = 0 μ–fü für 1 ≤ p < ∞ . Somit impliziert der Satz über die n
Konvergenz durch Majorisierung lim !f − tn !p = 0 für 1 ≤ p < ∞ . n
Ist p = ∞ , so konvergieren die tn bekanntlich gleichmäßig gegen f , sodass in diesem Fall lim !f − tn !∞ = 0 trivialerweise gilt. n
Lemma 13.35. Ist (Ω, S, μ) ein Maßraum, p ∈ (1 , ∞) und q := 1 1 p + q = 1 , so wird zu jedem g ∈ Lq (Ω, S, μ) durch
p p−1
, d.h.
7 Tg (f ) :=
f g dμ ,
f ∈ Lp (Ω, S, μ)
(13.21)
ein beschränktes, lineares Funktional auf Lp (Ω, S, μ) mit !Tg ! = !g!q definiert. Ist μ σ-endlich, so gilt die obige Aussage auch für p = 1 und q = ∞ . Beweis. Ist. p = 1 , q =. ∞ , f ∈ L1 und g ∈ L∞ , so gilt offensichtlich |Tg (f )| ≤ |f | |g| dμ ≤ |f | !g!∞ dμ ≤ !g!∞ !f !1 ⇒ !Tg ! ≤ !g!∞ . Um !Tg ! ≥ !g!∞ zu zeigen, nehmen wir zunächst μ(Ω) < ∞ an. Dann sind
13.4 Der Dualraum zu Lp (Ω, S, μ)
227
die Funktionen gM := (sgn g) 1[ |g|≥M ] , M ≥ 0 wegen |gM | ≤ 1 integrierbar, und es gilt |gM | = 1[ |g|≥M ] , sowie !gM !1 = μ( |g| ≥ M ) . Daraus folgt +7 + + + + gM g dμ+ ≤ !Tg ! !gM !1 = !Tg ! μ( |g| ≥ M ) . (13.22) + + Aber wegen gM g = |g| 1[ |g|≥M ] ≥ 0 und der Markoff’schen Ungleichung gilt +7 + 7 7 + + + gM g dμ+ = gM g dμ = |g| dμ ≥ M μ( |g| ≥ M ) . (13.23) + + [ |g|≥M ]
Aus 13.22 und 13.23 folgt, dass M > !Tg ! nur dann gelten kann, wenn μ( |g| ≥ M ) = 0 . Somit ist g μ–fü beschränkt mit !g!∞ ≤ !Tg ! . Ist μ σ-endlich und bilden die En , n ∈ N eine messbare Zerlegung von Ω mit μ(En ) < ∞ ∀ n ∈ N , so muss !g 1En !∞ ≤ !Tg 1En ! ∀ n ∈ N gelten. Aber aus !f !1 ≤ 1 folgt !f 1En !1 ≤ 1 ∀ n ∈ N , und dies impliziert + +7 + + !Tg 1En ! = sup ++ (f 1En ) g dμ++ : !f !1 ≤ 1 + +7 + + ≤ sup ++ f g dμ++ : !f !1 ≤ 1 = !Tg ! ∀ n ∈ N . Damit gilt !g 1En !∞ ≤ !Tg ! ∀ n ∈ N ⇒ !g!∞ ≤ !Tg ! . Für 1 < p, q < ∞ folgt aus der Hölder’schen Ungleichung +7 + 7 + + + f g dμ+ ≤ |f g| dμ ≤ !f !p !g!q ⇒ !Tg ! ≤ !g!q . + + q
q
q−1
(13.24) q
p p g) g = |g| |g| = |g| ≥ 0 , und Mit f := (sgn +. g) |g| + gilt. f g = |g| (sgn + + daraus folgt f g dμ = f g dμ = !g!qq . Aber wegen |f |p = |g|q gilt f ∈ Lp q $. q %1 q−1 |g| dμ p = !g!qp = !g!q , und man erhält schließlich mit !f !p = +7 + + + q + ⇒ !g!q ≤ !Tg ! . !g!q = + f g dμ++ ≤ !Tg ! !f !p = !Tg ! !g!q−1 q
Bemerkung 13.36. Aus f , g ∈ Lq , f = g folgt 0 < !f − g!q = !Tf −g ! = !Tf − Tg ! ⇒ Tf = Tg . Daher ist die im obigen Lemma gemachte Zuordnung g → Tg injektiv. Dass sie auch surjektiv ist, zeigt der nächste Satz. Satz 13.37 (Darstellungssatz von Riesz). Ist (Ω, S, μ) ein Maßraum und T ein beschränktes, lineares Funktional auf Lp (Ω, S, μ) , 1 < p < ∞ , so gibt es p ein eindeutig bestimmtes g ∈ Lq (Ω, S, μ) , für das gilt zu q := p−1 7 T (f ) = f g dμ ∀ f ∈ Lp und !T ! = !g!q . (13.25) Auf σ-endlichen Maßräumen gilt die obige Aussage auch für p = 1 mit q = ∞ .
13 Lp - Räume
228
Beweis. Wir beweisen den Satz zunächst für μ(Ω) < ∞ . Ist T ein beschränktes, lineares Funktional auf Lp , so kann man durch ν(A) := T (1A ) , A ∈ S eine Mengenfunktion ν auf S definieren. Wegen 1∅ = 0 gilt natürlich ν(∅) := T (1∅ ) = T (0) = 0 . Für A , B ∈ S disjunkt gilt 1A∪B = 1A + 1B . Da T linear ist, folgt daraus ν(A ∪ B) = T (1A + 1B ) = T (1A ) + T (1B ) = ν(A) + ν(B) , d.h. ν ist additiv. Sind die An ∈ S , n ∈ N disjunkt, so gilt auf Grund der Beschränktheit von T ⎞+ +
N + ++ ⎛ + ∞ + + + + + + ⎝ + + ⎠ An − ν An + = +T 1 ∞ −1 +ν N + An + + + An + n=1 n=1 n=1 n=1 + ⎛ C C ⎞+ p1
∞ + C + C + C + C C ⎠+ ≤ !T ! C1 ∞ = ++T ⎝1 ∞ An . C An C = !T ! μ An ++ + C C n=N +1 n=N +1 n=N +1 p
Weil μ stetig von oben ist und
∞
An ∅ mit N → ∞ , folgt daraus
n=N +1
ν
∞
= lim ν
An
N
n=1
N n=1
An
= lim N
N !
ν(An ) =
n=1
∞ !
ν(An ) .
n=1
Somit ist ν σ-additiv. ν ist aber auch endlich und absolut stetig bezüglich 1 1 μ , da |ν(A)| = |T (1A )| ≤ !T ! !1A !p = !T ! μ(A) p ≤ !T ! μ(Ω) p < ∞ . Nach dem Satz von Radon-Nikodym existiert daher ein eindeutig bestimmtes . . g ∈ L1 mit T (1A ) = ν(A) = A g dμ = 1A g dμ ∀ A ∈ S . Da sowohl T , als auch das Integral linear sind, folgt daraus 7 T (t) = t g dμ ∀ t ∈ T(Ω , S) . (13.26) Ist nun p = 1 , so liegt jedes tA := (sgn g) 1A , A ∈ S in T , und es gilt +7 + 7 7 7 + + + 0 ≤ |g| dμ = tA gdμ = + tA gdμ++ ≤ !T ! !1A !1 = !T ! μ(A) = !T ! dμ. A
A
.
.
Aber aus A |g| dμ ≤ A !T ! dμ ∀ A ∈ S folgt |g| ≤ !T ! μ–fü . Dies bedeutet, dass in diesem Fall g in L∞ liegt mit !g!∞ ≤ !T ! . q p , so gibt es zu |g| ∈ M+ nach Satz 7.30 eine Ist 1 < p < ∞ und q := p−1 1
Folge (tn ) aus T + mit tn |g|q . Klarerweise gilt dann tnq ≤ |g| 1 p
∀ n ∈ N,
und sn := (sgn g) tn ∈ T ∀ n ∈ N . Damit erhält man 7 1 1 7 1 7 7 1 0 ≤ tn dμ = tnp tnq dμ ≤ tnp |g| dμ = (sgn g) tnp g dμ 7 =
+7 + 7 p1 + + + + tn dμ . sn g dμ = + sn g dμ+ ≤ !T ! !sn !p = !T !
13.4 Der Dualraum zu Lp (Ω, S, μ)
229
$. %1− p1 $. %1 tn dμ tn dμ q ≤ !T ! ∀ n ∈ N , und damit Daraus .folgt 0 ≤ = gilt lim tn dμ ≤ !T !q . Wegen 0 ≤ tn |g|q folgt aber aus dem Satz von Levi .n . q lim tn dμ = |g| dμ , sodass für 1 < p < ∞ gilt g ∈ Lq und !g!q ≤ !T ! . n . Wegen g ∈ Lq mit p1 + 1q = 1 , ist Tg (f ) = f g dμ nach Lemma 13.35 ein beschränktes lineares Funktional auf Lp mit !Tg ! = !g!q , und gemäß (13.26) gilt T (t) = Tg (t) ∀ t ∈ T . Ist nun f ∈ Lp , so gibt es laut Lemma 13.34 eine Folge (tn ) aus T mit !tn !p ≤ !f !p und lim !f − tn !p = 0 . Für jedes ε > 0 n
existiert daher ein nε , sodass !f − tnε !p ≤ ε . Daraus aber folgt |T (f ) − Tg (f )| ≤ |T (f ) − T (tnε )| + |Tg (tnε ) − Tg (f )| ≤ ( !T ! + !Tg ! ) !f − tnε !p ≤ ( !T ! + !Tg ! ) ε , d.h. T (f ) = Tg (f ) ∀ f ∈ Lp ⇒ T = T.g ∧ !T ! = !Tg ! = !g!q . . Gilt für ein g1 ∈ .Lq ebenfalls T (f ) = f g1 dμ ∀ f ∈ Lp , so folgt daraus g dμ = T (1A ) = A g1 dμ ∀ A ∈ S , und Folgerung 9.47 impliziert daher A g = g1 μ–fü . Damit ist der Satz für endliche Maßräume bewiesen. Ist μ σ-endlich, so gibt es En ∈ S mit μ(En ) < ∞ ∀ n ∈ N und En Ω . Die Räume Lp,n := Lp (En , S ∩ En , μ|En ) bzw. Lq,n := Lq (En , S ∩ En , μ|En ) können gleichgesetzt werden mit den Teilräumen {f 1En : f ∈ Lp } ⊆ Lp bzw. {g 1En : g ∈ Lq } ⊆ Lq . Ist nun T ein beschränktes, lineares Funktional auf Lp , so gilt nach Bemerkung A.71 für die Einschränkungen Tn := T |Lp,n von T auf die Räume Lp,n !Tn ! ≤ !T ! ∀ n ∈ N . Auf Grund der oben bewiesenen Aussage für endliche Maßräume existiert zu . . jedem n ∈ N ein gn ∈ Lq,n mit T (f 1En ) = Tn (f 1En ) = (f 1En ) gn dμ = (f 1En ) (gn 1En ) dμ ∀f ∈ Lp und !gn !q = !Tn ! ≤. !T ! . Aber Lp,n ist .ein Teilraum von Lp,n+1 , sodass auch gilt T (f 1En ) = (f 1En ) gn+1 dμ = (f 1En ) (gn+1 1En ) dμ ∀ f ∈ Lp . Deshalb impliziertdie Eindeutigkeitsaussage gn = gn+1 1En μ–fü auf En . Für g := g1 1E1 + gn 1En \En−1 gilt daher g 1En = gn ∀ n ∈ N . n≥2
Für p = 1 gilt !gn !∞ ≤ !T ! < ∞ ∀ n ∈ N . Daraus folgt für alle M > !T !
! [ |g| ≥ M ] ∩ En ≤ μ ( |gn | ≥ M ) = 0 . μ ( |g| ≥ M ) = μ n
n
In diesem Fall gilt deshalb g ∈ L∞ und !g!∞ ≤ !T ! . 1 < p < .∞ , so gilt |g 1En |q |g|q , und aus dem Satz von Levi folgt . Ist q q |g| dμ = lim |g 1En | dμ = lim !gn !qq ≤ !T !q ⇒ g ∈ Lq ∧ !g!q ≤ !T ! . n
n
Für f ∈ Lp gilt lim |f − f 1En |p = 0 μ–fü , |f − f 1En |p ≤ 2p |f |p ∀ n ∈ N n . p und 2p |f | dμ < ∞ . Das führt nach dem Satz über die Konvergenz durch Majorisierung zu lim !f − f 1En !p = 0 . Da T beschränkt ist, folgt daraus n
7 T (f ) = lim T (f 1En ) = lim n
n
7 (f 1En ) gn dμ = lim n
(f 1En ) g dμ .
(13.27)
230
13 Lp - Räume
Da auch gilt lim f 1En g = f g μ–fü und |f 1En g| ≤ |f g| ∀ n ∈ N mit n . |f g| dμ ≤ !f !p !g!q < ∞ , folgt aus dem Satz über die Konvergenz durch . . Majorisierung weiters f g dμ = lim (f 1En ) g dμ . Eingesetzt in (13.27) ern . gibt das T (f ) = f g dμ , womit der Satz für σ-endliche Maße bewiesen ist. Es bleibt nur noch zu zeigen, dass der Satz für 1 < p < ∞ auf beliebigen Maßräumen gilt. Für jedes A ∈ S können die Räume Lp,A := Lp (A, S ∩ A, μ|A ) bzw. Lq,A := Lq (A, S ∩ A, μ|A ) gleichgesetzt werden mit {f 1A : f ∈ Lp } ⊆ Lp bzw. {g 1A : g ∈ Lq } ⊆ Lq , und für die Einschränkungen TA := T |Lp,A gilt !TA ! ≤ !T ! ∀ A ∈ S sowie A ⊆ B , A , B ∈ S ⇒ !TA ! ≤ !TB ! . Das System C der σ-endlichen Mengen aus S ist nichtleer ( ∅ ∈ C ). Ist A ∈ C , so gibt es, wie oben gezeigt, ein eindeutig bestimmtes gA = gA 1A ∈ Lq,A mit q !gA !q = !TA ! ≤ !T ! . Daraus folgt 0 ≤ γ := sup !gA !q ≤ !T !q < ∞ . Nun A∈C gibt es eine Folge (Cn ) aus C mit lim !gCn !qq = γ , und es gilt C := Cn ∈ C . n n . Für A ∈ C gilt zudem T.(f 1A ) = f 1A. gA dμ ∀ f ∈ Lp . Ist A ⊆ B ∈ C , so gilt auch T (f 1A ) = f 1A gB dμ = f 1A gB 1A dμ ∀ f ∈ Lp , und aus der Eindeutigkeit folgt gA = gB 1A μ–fü . Das impliziert !gA !q ≤ !gB !q , q und wegen Cn ⊆ C ∀ n ∈ N folgt daraus γ = !gC !q . Für B ∈ C gilt Cq Cq C C q q C ∪ B ∈ C ⇒ γ = !gC∪B !q = !gC !q + CgB\C Cq = γ + CgB\C Cq . Daraus +q .+ folgt +gB\C + dμ = 0 ⇒ gB\C = 0 μ–fü bzw. gC∪B = gC μ–fü . Nun $ 1 %p gilt$ für jedes % f ∈ Lpp nach der Markoff’schen % Ungleichung (Satz 13.9) $ 1 1 ≤ !f ! < ∞ ∀ n ∈ N , sodass μ |f | ≥ < ∞ ⇒ μ |f | ≥ p 3 n n n 1 |f | ≥ n ∈ C . Wegen f = f 1Af ∪C gilt deshalb Af := {ω : |f (ω)| > 0 } = n
7 T (f ) = T (f 1Af ∪C ) =
7 f gAf ∪C dμ =
f gC dμ ,
(13.28)
. d.h. T (f ) = TgC (f ) := f gC dμ ∀ f ∈ Lp und gC ∈ Lq . Daraus und aus Lemma 13.35 folgt !T ! = !TgC ! = !gC !q . Somit ist der Satz auch auf beliebigen Maßräumen für 1 < p < ∞ bewiesen.
14 Bedingte Erwartungen
14.1 Der Satz von der vollständigen Erwartung Definition 14.1. Ist X eine diskrete Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) mit P (X ∈ D) = 1 , |D| ≤ ℵ0 , P (X = x) > 0 ∀ x ∈ D , , A∈S so wird für jedes x ∈ D durch hA (x) := P (A|X = x) := P (A∩[X=x]) P ( X=x ) eine Wahrscheinlichkeitsverteilung P ( . |X = x) definiert, die durch [X = x] bedingte Verteilung P ( . |X = x) . Die obige Definition ist natürlich konsistent mit Definition 5.1. Lemma 14.2. Unter den Voraussetzungen und mit den Bezeichnungen von Definition 14.1 liegt jede integrierbare Zufallsvariable Y für alle x ∈ D auch in L1 (Ω, S, P ( . |X = x) ) , und es gilt . 7 Y 1[X=x] dP . (14.1) hY (x) := E(Y |X = x) := Y (ω) P (dω|X = x) = P(X = x) Beweis. Für Y := 1A , A ∈ S stimmt (14.1) überein mit Definition 14.1. Wegen der Additivität des Integrals gilt (14.1) damit auch für jedes t ∈ T + . Ist Y ∈ M+ (Ω, S) , so gibt es tn ∈ T + mit tn Y und die Gültigkeit von (14.1) folgt aus dem Satz über die Konvergenz durch Monotonie. Ein beliebiges Y ∈ L1 braucht man nur in Y + und Y − zerlegen. Bemerkung 14.3. hY ist eine Funktion auf D , die durch die willkürliche Vereinbarung hY (x) := EY , x ∈ Dc auf R fortgesetzt werden kann. Da hY nur höchstens abzählbar viele Werte annimmt, ist es messbar, und deshalb ist E(Y |X) := hY ◦ X eine Zufallsvariable auf (Ω, S, P ) , die wegen Satz 7.41 sogar S(X)-messbar ist. Definition 14.4. Unter den Voraussetzungen und mit den Bezeichnungen von Definition 14.1 und Lemma 14.2 nennt man E(Y |X) := hY ◦ X , Y ∈ L1 die durch X bedingte Erwartung von Y . Ist Y = 1A , A ∈ S , so verwendet man die Bezeichnung P (A|X) = h1A ◦ X = hA ◦ X und spricht von der durch X bedingten Wahrscheinlichkeit von A .
232
14 Bedingte Erwartungen
Mit Hilfe von Definition 14.4 kann man den Satz von der vollständigen Wahrscheinlichkeit (Satz 5.5) folgendermaßen verallgemeinern. Satz 14.5 (Satz von der vollständigen Erwartung). Unter den Voraussetzungen und mit den Bezeichnungen von Definition 14.1 und Lemma 14.2 gilt 7 7 ! Y dP = E(Y |X = x) P (X = x) = E(Y |X) dP . (14.2) [X∈B]
x∈B∩D
[X∈B]
Beweis. Aus dem Transformationssatz (Satz 9.62), Gleichung (14.1) sowie P (X ∈ D) = 1 und P ( X = x ) > 0 ∀ x ∈ D folgt 7 7 ! E(Y |X) dP = E(Y |X = x) dP X −1 (x) = hY (x) P X −1 (x) B
[X∈B]
=
!
. P(X = x)
x∈B∩D
[X=x]
x∈B∩D
7
Y dP
P(X = x)
=
Y dP . [X∈B]
Beispiel 14.6. Jeder von 2 Spielern S1 und S2 erhält 13 Karten aus einem Paket von 52 Karten zu 4 Farben. Die Anzahl X der „Piks“ für Spieler S1 ist daher eine H13,39,13 -verteilte Zufallsvariable auf einem fiktiven Wahrscheinlichkeitsraum (Ω, S, P ) , ebenso wie die Anzahl Y der „Piks“ für Spieler S2 . Weiß man nun, dass S1 x „Piks“ bekommen hat, so verbleiben noch 13−x „Piks“ im Restpaket von 39 Karten, und daher muss Y unter dieser Bedingung H13−x,26+x,13 -verteilt sein, d.h. es gilt für jedes B ∈ B $13−x% $26+x% ! y 13−y $39% . P (Y ∈ B|X = x) = y∈B∩{0,...,13−x}
13
Diese Formel kann natürlich auch aus Definition 5.1 hergeleitet werden, denn aus (X, Y ) ∼ H13,13,26, 13 (vgl. Beispiel 8.8) folgt klarerweise, dass gilt (13) (13) ( 26 ) P ([X = x] ∩ [Y = y]) = x y 5213−x−y . Damit erhält man schließlich (13) $13% $13% $ 26 % P(Y = y |X = x) =
x
$13y% $ x
13−x−y % 39 13−x
13! 26! (13 − x)! (26 + x)! = = y! (13 − y)! (13 − x − y)! (13 + x + y)! 39!
$13−x% $26+x% y
13−y
$39%
.
13
Da in unserem Beispiel P (Y ∈ . |X = x) einer H13−x,26+x,13 -Verteilung A entspricht und für Y ∼ HA,N −A,n gilt EY = n N (siehe Beispiel 9.65), erhält 13−x 13−x . Mittelt man über man E(Y |X = x) = 13 39 = 3 bzw. E(Y |X) = 13−X 3 die Werte E(Y |X = x) , x = 0, . . . , 13 gemäß der Verteilung von X , so ergibt das in Übereinstimmung mit Satz 14.5
14.1 Der Satz von der vollständigen Erwartung
7
233
$13% $ 39 % 13 ! 13 − x x 13−x $52% E(Y |X) dP = 3 13 x=0 $13% $ 39 % $13% $ 39 % 7 13 13 ! ! 13 1 13 EX 13 x 13−x x 13−x $ % $ % x = − = − = = Y dP . 52 52 3 x=0 3 x=0 3 3 4 13 13
Aber nach Satz 14.5 muss sogar für jedes B ∈ B gelten $13% $ 39 % 7 7 ! 13 − x x 13−x $52% = E(Y |X) dP = 3 13 [X∈B]
x∈B∩{0,...,13}
Y dP =
=
[X∈B]
7
7
[X∈B,Y ∈R]
Y dP
y dP (X, Y )
−1
=
!
13−x !
x∈B∩D y=0
B×R
$13% $13% $
y
x
y
26 13−x−y
$52%
% ,
13
und die Summe in der 1-ten Zeile der obigen Gleichung wird meistens leichter zu berechnen sein, als die Doppelsumme unten. Sind die Maße im verallgemeinerten Satz von Fubini (Satz 10.21) Wahrscheinlichkeitsverteilungen P1 auf (Ω1 , S1 ) bzw. P2 (ω1 , . ) , ω1 ∈ Ω1 auf (Ω2 , S2 ) , so kann man dies so interpretieren, dass in einem ersten Schritt ein Ausgang ω1 ∈ Ω1 ausgewählt wird und dann je nach Ausgang ein Versuch mit Ausgängen aus Ω2 durchgeführt wird, dessen Verteilung P2 (ω1 , . ) entspricht. Der Produktraum (Ω1 × Ω2 , S1 ⊗ S2 , P ) (P wird entsprechend Satz 10.19 gebildet) ist dann ein Modell für das zusammengesetzte Experiment. Entsprechend dieser Interpretation wird man P (ω1 , . ) als die durch ω1 bedingte Wahrscheinlichkeitsverteilung ansehen und man wird für eine Zufallsvariable Y ∈ L1 (Ω1 × Ω2 , S1 ⊗.S2 , P ) den durch ω1 bedingten Erwartungswert festlegen als E(Y |ω1 ) := Y (ω1 , ω2 ) P2 (ω1 , dω2 ) , selbst dann, wenn P1 ({ω1 }) = 0 (dass E(Y | . ) S1 -messbar und P1 -integrierbar ist wurde bereits in Satz 10.21 gezeigt). Man kann ω1 auch als Wert der Projektion pr1 : Ω1 × Ω2 → Ω1 ansehen und E(Y | pr1 = ω1 ) statt E(Y |ω1 ) schreiben. Da pr1 S1 ⊗ S2 |S1 -messbar ist, ist die zusammengesetzte Abbildung E(Y | pr1 ) := E(Y | pr1 = . ) ◦ pr1 , die durch pr1 bedingte Erwartung von Y , eine pr−1 1 (S1 )-messbare Zufallsvariable, für die wegen Satz 10.21 und dem Transformationssatz (Satz 9.62) gilt 7 7 7 7 Y dP = Y dP = Y (ω1 , ω2 ) P2 (ω1 , dω2 ) P1 (dω1 ) [pr1 ∈A]
7
A×Ω2
A
7
E(Y | pr1 = ω1 ) P1 (dω1 ) =
= A
E(Y | pr1 ) dP .
(14.3)
[pr1 ∈A]
Es gilt also auch in diesem Fall eine zu (14.2) völlig analoge Beziehung zwischen den Integralen von Y und E(Y | pr1 ) , und wieder ist E(Y | pr1 ) messbar bezüglich der durch die bedingende Funktion erzeugten Subsigmaalgebra.
234
14 Bedingte Erwartungen
Sind X , Y Zufallsvariable mit der gemeinsamen Dichte fX,Y , so induzieren die beiden Zufallsvariablen auf (R2 , B2 ) die gemeinsame Verteilung . −1 P (X, Y ) (C) = C fX,Y (x, y) λ2 (dx, dy) , C. ∈ B2 , X induziert auf (Ω1 , S1 ) = (R, B) die Verteilung P X −1 (B) = B fX (x) λ(dx) , B ∈ B , und . zu jedem x ∈ R gibt es eine Verteilung P Y −1 (B|X = x) = B fY |X (y|x) λ(dy) auf (Ω2 , S2 ) = (R, B) . Daher wird (14.3) in diesem Sonderfall zu 7 7 7 y fY |X (y|x) λ(dy) fX (x) λ(dx) y 1B (x) fX,Y (x, y) dλ2 (x, y) = B
7 E(Y |X = x) fX (x) λ(dx)
=
∀ B ∈ B,
(14.4)
B
und es ist offensichtlich, dass dies ebenfalls eine Verallgemeinerung des Satzes von der vollständigen Erwartung darstellt. Zur Illustration betrachten wir nochmals die Zufallsvariablen T1 , T2 aus den Beispielen 10.17, 10.20 und 10.58. Beispiel 14.7. Wir haben in den oben erwähnten Beispielen gesehen, dass die bedingte Verteilung von T2 unter T1 = s sinnvollerweise durch die Dichte fT2 |T1 (t|s) = τ e−τ (t−s) 1[s,∞) (t) bestimmt sein sollte. Daher sollte gelten .∞ E(T2 |T1 = s) = s t τ e−τ (t−s) dt = s + τ1 bzw. E(T2 |T1 ) = T1 + τ1 . .∞ Aus (14.4) muss deshalb folgen ET2 = 0 (s + τ1 ) τ e−τ s ds = τ2 , in Übereinstimmung mit der Tatsache, dass T2 Er2,τ -verteilt ist. Natürlich kann man T2 auch darstellen als Summe von T1 und einer davon unabhängigen Wartezeit Tˆ vom 1-ten bis zum 2-ten Unfall, die beide exponentialverteilt mit Parameter τ sind, sodass aus der Additivität des Erwartungswertes ebenfalls folgt ET2 = ET1 + ETˆ = τ2 .
14.2 Die durch eine σ-Algebra bedingte Erwartung Sind die Maße im verallgemeinerten Satz von Fubini Wahrscheinlichkeitsverteilungen, so geht aus der Beschreibung der Grundsituation hervor, dass man die μ2 (ω1 , . ) als bedingte Verteilungen interpretieren kann, und damit ist auch klar, wie die bedingten Erwartungswerte aussehen müssen. Damit ist aber keineswegs das Problem gelöst, wie bedingte Erwartungen im Allgemeinen definiert werden können, wenn die Bedingungen Wahrscheinlichkeit 0 besitzen. Aber die Ausführungen des vorigen Abschnitts geben wichtige Hinweise, wie eine sinnvolle Definition beschaffen sein sollte. Natürlich muss ein sinnvoller bedingter Erwartungswert vom Wert von X abhängen und damit variieren, er muss also eine Funktion von X sein. Dann besagen Gleichung (14.2) im Satz von der vollständigen Erwartung bzw. die dazu analoge Beziehung (14.3), dass dasselbe Ergebnis herauskommen
14.2 Die durch eine σ-Algebra bedingte Erwartung
235
sollte, wenn man einerseits Y über ein durch X beschriebenes Ereignis mittelt, und wenn man andererseits zuerst dieses Ereignis in „Elementarbedingungen “ zerlegt, Y unter diesen Elementarbedingungen mittelt und zuletzt diese Mittelwerte - gewichtet entsprechend der Verteilung von X- wieder zusammensetzt. Mathematisch ausgedrückt, es sollte gelten E(Y |X) = h ◦ X bzw. äquivalent dazu E(Y |X) ist S(X)-messbar (siehe Satz 7.41) und 7 7 Y dP = E(Y |X) dP ∀ B ∈ B . [X∈B]
[X∈B]
Dadurch aber ist . E(Y |X) , zumindest P –fs , eindeutig bestimmt, denn durch ν( X ∈ B ) := [X∈B] Y dP wird für Y ≥ 0 ein Maß auf S(X) mit ν % P definiert. Ist P |S(X) die Restriktion von P auf S(X) , so gibt es nach dem Satz von Radon-Nikodym (Satz 11.19) eine P |S(X) –fs eindeutig bestimmte, S(X). dν , für die gilt ν( X ∈ B ) = dP |S(X) . messbare Funktion dP |dν [X∈B] dP |S(X) S(X) Daraus folgt E(Y |X) = dP |dν P |S(X) –fs . Eine beliebige Funktion Y ∈ L1 S(X) + − zerlegt man einfach in Y und Y . Erzeugen X1 und X2 dieselbe σ-Algebra S(X) := S(Xi ) , i = 1, 2 , so ist E(Y |X1 ) S(X2 )-messbar, und es gilt 7 7 7 E(Y |X1 ) dP = Y dP = E(Y |X2 ) dP ∀ A ∈ S(X) = S(X2 ) . A
A
A
Daraus folgt E(Y |X1 ) = E(Y |X2 ) P |S(X)–fs (siehe Folgerung 9.47). Dies ist nicht weiter verwunderlich, denn nach Satz 7.41 ist X2 eine Funktion von X1 und umgekehrt. Die für den bedingten Erwartungswert relevante Information wird demnach eigentlich durch die erzeugte Subsigmaalgebra bereit gestellt, und nicht durch die Zufallsvariable. Wir fassen die obigen Ausführungen nochmals in einem Satz zusammen. Satz 14.8. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, Y eine Zufallsvariable, deren Erwartungswert existiert, und ist A eine Subsigmaalgebra von S , so gibt es eine A-messbare Funktion E(Y |A) , für die gilt 7 7 Y dP = E(Y |A) dP |A ∀ A ∈ A . (14.5) A
A
E(Y |A) wird durch die obige Gleichung P |A –fs eindeutig bestimmt. . Beweis. Ist Y ∈ M+ , so wird durch ν(A) := A Y dP , A ∈ A ein Maß auf A mit ν % P definiert. Nach dem Satz von Radon-Nikodym gibt es daher eine P |A –fs eindeutig bestimmte, A-messbare Funktion E(Y |A) := dPdν|A , für die . gilt ν(A) = A dPdν|A dP |A ∀ A ∈ A . . Existiert EY , Y ∈ M , so zerlegt man das signierte Maß ν(A) = A Y dP in dν + dν − ν + und ν − und bildet E(Y |A) := dP |A − dP |A .
236
14 Bedingte Erwartungen
Definition 14.9. Unter den Voraussetzungen und mit den Bezeichnungen des obigen Satzes nennt man E(Y |A) , die durch A bedingte Erwartung von Y . Ist Y = 1C , C ∈ S , so spricht man von der durch A bedingten Wahrscheinlichkeit von C und schreibt P (C|A) statt E(1C |A) . Ist (Ω , S ) ein Messraum und X : (Ω, S) → (Ω , S ) , so schreibt man E(Y |X) statt E(Y |X −1 (S )) und nennt das die durch X bedingte Erwartung von Y . Wenn Y nicht A-messbar ist, stimmt E(Y |A) natürlich nicht mit Y überein. Da aus dem Zusammenhang klar sein sollte, wo P und wo die Restriktion P |A zu verwenden ist, werden wir, der Kürze halber, im weiteren Verlauf meist nicht mehr zwischen P und P |A unterscheiden. Satz 14.10. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und sind A, C ⊆ S σ-Algebren , so gilt für Zufallsvariable X, Y , deren Erwartungswerte existieren: 1. E(E(Y |A) ) = EY . 2. Aus der A-Messbarkeit von Y folgt E(Y |A) = Y P –fs . Damit gilt insbesondere E(Y |S) = Y und E(c|A) = c für alle c ∈ R . 3. E(a X + b Y |A) = a E(X|A) + b E(Y |A) ∀ a, b ∈ R , wenn die Summen auf beiden Seiten sinnvoll sind. Somit gilt E(Y |A) = E(Y + |A) + E(Y − |A) . 4. X ≤ Y P –fs ⇒ E(X|A) ≤ E(Y |A) P –fs . Daraus folgt weiters |E(Y |A)| ≤ E(|Y | |A) und 0 ≤ E(Y |A) P –fs für Y ∈ M+ . 5. A ⊆ C ⇒ E(E(Y |A)|C) = E(E(Y |C)|A) = E(Y |A) P –fs . Beweis. ad 1.: Wegen .Ω ∈ A folgt. dies sofort aus Definition 14.9 ad 2.: Es gilt A Y dP = A Y dP ∀ A ∈ A und Y ist A-messbar. Y ist S-messbar, und Y ≡ c ist sogar {∅, Ω}-messbar also auch A-messbar. ad 3.: a E(X|A) + b E(Y |A) ist A-messbar und es gilt 7 7 7 ( a E(X|A) + b E(Y |A) ) dP = a E(X|A) dP + b E(Y |A) dP A
7
7 X dP + b
=a A
A
7 Y dP =
A
7
E(a X + b Y |A)dP ,
(a X + b Y ) dP = A
A
A
sodass Folgerung 9.47 zu E(a X + b Y |A) = a E(X|A) + b E(Y |A) führt. ad 4.: Folgt aus Satz 9.46 wegen 7 7 7 7 E(X|A) dP = X dP ≤ Y dP = E(Y |A) dP ∀ A ∈ A . A
A
A
A
ad 5.: Da E(Y |A) wegen A ⊆ C auch C-messbar ist folgt aus Punkt 2. sofort E(E(Y |A)|C) = E(Y |A) P –fs . Andererseits gilt 7 7 7 7 E(E(Y |C)|A) dP = E(Y |C) dP = Y dP = E(Y |A) dP ∀ A ∈ A. A
A
A
Daraus folgt E(E(Y |C)|A) = E(Y |A) dP
A
P –fs .
14.2 Die durch eine σ-Algebra bedingte Erwartung
237
Satz 14.11 (Konvergenz durch Monotonie für bedingte Erwartungen). Ist (Yn ) eine monoton steigende Folge von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , zu der es ein Z mit Yn ≥ Z ∀ n ∈ N und EZ − < ∞ gibt, so gilt für Y := lim Yn und jede Subsigmaalgebra A ⊆ S n
lim E(Yn |A) = E(Y |A) .
(14.6)
n
(14.6) gilt auch, wenn Yn und Yn ≤ Z
∀ n ∈ N mit EZ + < ∞ .
Beweis. Aus −Z − ≤ −Z − 1A ≤ Yn 1A Y 1A , n ∈ N , A ∈ A und dem verallgemeinerten Satz von B. Levi (Satz 9.31) folgt 7 7 7 Y dP = lim Yn dP = lim E(Yn |A) dP ∀ A ∈ A . (14.7) n
n
A
A
A
Da nach Satz 14.10 Punkt 1. gilt E(E(−Z − |A) ) = EZ − < ∞ und aus Punkt 4. folgt E(−Z − |A) ≤ E(Yn |A) P –fs ∀ n ∈ N sowie E(Yn |A) P –fs , |A) 1 ) angewendet werden. Dakann Satz 9.31 auch auf die Folge (E(Y n A . . her gilt A lim E(Yn |A) dP = lim A E(Yn |A) dP . Eingesetzt in (14.7) ergibt n n . . das A Y dP = A lim E(Yn |A) dP ∀ A ∈ A . Da lim E(Yn |A) als Grenzwert n
n
A-messbarer Funktionen selbst A-messbar ist, folgt daraus (14.6). Für Yn wendet man die eben bewiesene Aussage auf −Yn und −Z an. Satz 14.12 (Lemma von Fatou für bedingte Erwartungen). Für Zufallsvariable Yn , n ∈ N auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , zu denen es ein Z mit Yn ≥ Z ∀ n ∈ N und EZ − < ∞ gibt, und jede σ-Algebra A ⊆ S gilt E(lim inf Yn |A) ≤ lim inf E(Yn |A) n
Aus Yn ≤ Z
n
P –fs .
(14.8)
P –fs .
(14.9)
∀ n ∈ N mit EZ + < ∞ folgt lim sup E(Yn |A) ≤ E(lim sup Yn |A) n
Beweis. Aus Yn ≥ Z
n
∀ n folgt Xn := inf Yk ≥ Z k≥n
wächst und gilt Xn ≤ Yn
∀ n . Da Xn monoton
∀ n folgt aus Satz 14.11 und Satz 14.10 Punkt 4.
E(limYn |A) = E(lim Xn |A) = lim E(Xn |A) ≤ limE(Yn |A) n
n
P –fs .
(14.8) mit −Yn , −Z ergibt E(lim (−Yn )|A) ≤ lim E(−Yn |A) . Daraus folgt lim E(Yn |A) = −lim E(−Yn |A) ≤ −E(lim (−Yn )|A) = E(lim Yn |A) . Satz 14.13 (Majorisierte Konvergenz für bedingte Erwartungen). Ist (Yn ) eine P –fs konvergente Folge auf einem Wahrscheinlichkeitsraum (Ω, S, P ) mit |Yn | ≤ Z ∀ n ∈ N , Z ∈ L1 (Ω, S, P ) und ist A ⊆ S eine σ-Algebra, so gilt E(lim Yn |A) = lim E(Yn |A) n
n
P –fs .
(14.10)
238
14 Bedingte Erwartungen
Beweis. Mit Y := lim Yn folgt aus Satz 14.12 wegen −Z ≤ Yn ≤ Z n
E(Y |A) = E(lim inf Yn |A) ≤ lim inf E(Yn |A) ≤ lim sup E(Yn |A) n
n
n
≤ E(lim sup Yn |A) = E(Y |A) ⇒ E(Y |A) = lim E(Yn |A) . n
n
Das nächste Lemma schwächt die Definitionsgleichung (14.5) ein wenig ab. Lemma 14.14. Ist Y eine integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und A ⊆ S eine Subsigmaalgebra, die von einer Semialgebra T erzeugt wird, so gilt für alle A-messbaren Funktionen Z 7 7 Y dP = Z dP ∀ C ∈ T ⇒ Z = E(Y |A) P –fs . (14.11) C
C
. . Beweis. Das System C := C ∈ A : C Y dP = C Z dP enthält T und, wegen der Additivität des Erwartungswertes, mit endlich vielen disjunkten Mengen auch deren Vereinigung. Da R(T) aus den endlichen, disjunkten Vereinigungen von Mengen aus T besteht (siehe Satz 2.60), gilt auch R(T) ⊆ C . Zudem folgt aus Satz 9.33 (Konvergenz durch Majorisierung), dass C ein monotones System ist, weshalb gemäß Satz 2.73 gilt C = Rσ (R(T) ) = A . Satz 14.15. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, C ⊆ S eine σ-Algebra und Y eine von C unabhängige Zufallsvariable, deren Erwartungswert existiert, so gilt für jede von C unabhängige Subsigmaalgebra A ⊆ S E(Y |Aσ (A ∪ C) ) = E (Y |A) P –fs .
(14.12)
Für A := {∅ , Ω} ergibt das E (Y |C) = E Y P –fs . Beweis. Wir beweisen (14.12) zunächst für integrierbare Zufallsvariable Y . Da die Semialgebra D := {A ∩ C : A ∈ A , C ∈ C} nach Lemma 2.62 Aσ (A ∪ C) erzeugt und E (Y .|A) Aσ (A ∪ C)-messbar ist, genügt es gemäß . Lemma 14.14 A∩C Y dP = A∩C E (Y |A) dP ∀ A ∈ A , C ∈ C zu zeigen. Weil aber Y 1A und E (Y |A) 1A unabhängig von 1C sind, ergibt sich das aus Folgerung 10.34 und der Definition der bedingten Erwartung E (Y |A) 7 7 7 7 Y dP = Y 1A 1C dP = Y 1A dP 1C dP A∩C
=
7
7 E (Y |A) 1A dP
7 1C dP =
7 E (Y |A)1A 1C dP =
E (Y |A) dP . A∩C
Ist Y ∈ M+ unabhängig von C , so sind auch die Yn := Y 1[Y ≤n] , n ∈ N unabhängig von C . Daher gilt E(Yn |Aσ (A ∪ C) ) = E (Yn |A) P –fs ∀ n ∈ N . Da klarerweise gilt Yn Y , ergibt das zusammen mit Satz 14.11
14.2 Die durch eine σ-Algebra bedingte Erwartung
239
E(Y |Aσ (A ∪ C) ) = lim E(Yn |Aσ (A ∪ C) ) = lim E (Yn |A) = E (Y |A) P –fs . n
n
Existiert E Y , so wendet man das obige Ergebnis auf Y + und Y − an. Die σ-Algebra A := {∅ , Ω} ist offensichtlich unabhängig von jeder anderen σ-Algebra C , und es gilt E Y = E (Y |A) P –fs sowie A ∪ C = C . Daraus folgt E Y = E (Y |A) = E (Y |Aσ (A ∪ C)) = E (Y |C) P –fs . Wie man die Eigenschaften der bedingten Erwartung anwendet, wird im Beweis des folgenden Lemmas illustriert. Lemma 14.16. Ist X1 , X2 , . . . eine Folge unabhängig, identisch verteilter Zufallsvariabler mit endlichem Erwartungswert auf einem Wahrscheinlichkeitsn raum (Ω, S, P ) und sind Sn := Xi die akkumulierten Summen, so gilt i=1
E (Xi |Sn , Sn+1 , . . .) = E (Xi |Sn ) =
Sn n
P –fs 1 ≤ i ≤ n .
(14.13)
Beweis. Mit Sn , Sn+1 , . . . kennt man auch Sn , Xn+1 , Xn+2 , . . . und umgekehrt. Daher gilt S(Sn , Sn+1 , . . .) = S(Sn , Xn+1 , Xn+2 , . . .) . Da Xi , 1 ≤ i ≤ n und Sn unabhängig sind von Xn+1 , Xn+2 , . . . folgt aus dem vorigen Satz E (Xi |Sn , Sn+1 , . . .) = E (Xi |Sn ) . Die Punkte 2. und 3. von Satz 14.10 imn plizieren Sn = E (Sn |Sn ) = E (Xi |Sn ) , sodass es zum Beweis des Lemmas i=1
reicht E (Xi |Sn ) = E (Xk |Sn ) für alle 1 ≤ i , k ≤ n zu zeigen. Da die Xj unabhängig, identisch verteilt sind, ergibt sich aus Satz 9.33 und dem Satz von Fubini (Satz 10.24) für B ∈ B unter Verwendung der Bezeichn xj und A := s−1 (B) nungen s(x1 , . . . , xn ) := j=1
7
7 Xi dP =
[Sn ∈B]
7
x ⎡ x⎣
P Xj−1 (Ax ) P Xi−1 (dx) =
j =i
7
Ax
d
P Xj−1 (dxn1 ) =
j=1
A
7
=
xi
n
⎡
7
x⎣
7 d
Ax
7 x
⎤ P Xj−1 ⎦ P Xi−1 (dx)
j =i
P Xj−1 (Ax ) P Xk−1 (dx)
j =k
⎤ P Xj−1 ⎦ P Xk−1 (dx) =
j =k
7 xk A
n j=1
7
P Xj−1 (dxn1 ) =
Xk dP . [Sn ∈B]
Nun gibt es zu jedem C ∈ S(Sn ) ein B ∈ B mit C = [Sn ∈ B] und es gilt auf Grund der Definition der bedingten Erwartung und der obigen Gleichung 7 7 7 7 E (Xi |Sn ) dP = Xi dP = Xk dP = E (Xk |Sn ) dP ∀ C ∈ S(Sn ) . C
C
C
Damit ist E (Xi |Sn ) = E (Xk |Sn )
C
P –fs
∀ 1 ≤ i, k ≤ n gezeigt.
240
14 Bedingte Erwartungen
Satz 14.17. Sind X und Y Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , für die die Erwartungswerte von Y und X Y existieren, und ist A eine Subsigmaalgebra von S , bezüglich der X messbar ist, so gilt E(X Y |A) = X E(Y |A)
P –fs .
(14.14)
Beweis. Indikatoren X = 1A , A ∈ A sind A-messbar und es gilt 7 7 7 7 1A Y dP = Y dP = E(Y |A) dP = 1A E(Y |A) dP ∀ C ∈ A . C
A∩C
A∩C
C
Somit gilt (14.14) für messbare Indikatoren. Auf Grund von Satz 14.10 Punkt 3. gilt (14.14) damit auch für messbare Treppenfunktionen t ∈ T . Ist X ≥ 0 A-messbar, so gibt es nach Satz 7.30 eine Folge von Treppenfunktionen tn aus T + mit tn X . Für Y ∈ M+ gilt daher auch tn Y X Y und tn E(Y |A) X E(Y |A) . Aus Satz 14.11 und der Gültigkeit von (14.14) für Treppenfunktionen folgt daher E(X Y |A) = lim E(tn Y |A) = lim tn E(Y |A) = X E(Y |A) n
n
P –fs .
(14.15)
Wir betrachten nun den allgemeinen Fall für A-messbares X , beliebiges, messbares Y und existierenden Erwartungswerten EY und EX Y . Da EX Y existiert, folgt aus der Additivität der bedingten Erwartung (Satz 14.10 Punkt 3.) E(X Y |A) = E( (X Y )+ |A) − E( (X Y )− |A) . Nun gilt (X Y )+ = X + Y + + X − Y − und (X Y )− = X + Y − + X − Y + , wobei sämtliche Terme nichtnegativ sind. Daher folgt aus Satz 14.10 Punkt 3. und (14.15) E((XY )+ |A) = E(X + Y + |A) + E(X − Y − |A) = X + E(Y + |A) + X − E(Y − |A) E((XY )− |A) = E(X + Y − |A) + E(X − Y + |A) = X + E(Y − |A) + X − E(Y + |A) . Fasst man diese Gleichungen zusammen, so erhält man unter Berücksichtigung der Existenz von EY und nochmaliger Anwendung der Additivität E(X Y |A) = (X + − X − ) E( Y + |A) − (X + − X − ) E( Y − |A) $ % = X E( Y + |A) − E( Y − |A) = X E( Y |A) . Folgerung 14.18. Ist (Ω, S, P ) , ein Wahrscheinlichkeitsraum, A eine Subsigmaalgebra von S , X ∈ L2 (Ω, A, P ) und Y ∈ L2 (Ω, S, P ) , so gilt 7 X [ Y − E (Y |A) ] dP = 0 ∀ A ∈ A , (14.16) .
A
also insbesondere X [ Y − E (Y |A) ] dP = 0 , d.h. Y − E (Y |A) ist orthogonal (siehe Definition A.81) zum Teilraum L2 (Ω, A, P ) . Beweis. Aus der Ungleichung von Hölder (Satz 13.4) folgt, dass die Zufallsvariable X ( Y.− E(Y |A) ) integrierbar ist. Gleichung (14.15) entspricht aber . X Y dP = A X E (Y |A) dP ∀ A ∈ A , was umgeformt (14.16) ergibt. A
14.2 Die durch eine σ-Algebra bedingte Erwartung
241
Der nächste Satz besagt, dass E(Y |A) in L2 die beste Approximation von Y unter allen A-messbaren Zufallsvariablen im Sinne der L2 -Norm ist. Satz 14.19 (Minimalitätseigenschaft der bedingten Erwartung). Ist Y eine quadratisch integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und A eine Subsigmaalgebra von S , so gilt für alle X ∈ L2 (Ω, A, P ) E( Y − X )2 = E( Y − E(Y |A) )2 + E( E(Y |A) − X )2 . und
E( Y − E(Y |A) )2 =
min X∈L2 (Ω,A,P )
E( Y − X )2 .
(14.17) (14.18)
Beweis. Für X ∈ L2 (Ω, A, P ) gilt 2
E( Y − X )2 = E [ ( Y − E(Y |A) ) + ( E(Y |A) − X ) ]
= E(Y − E(Y |A))2 + E(E(Y |A) − X)2 + 2E [(E(Y |A) − X)(Y − E(Y |A))] . Da E(Y |A) − X eine Funktion aus L2 (Ω, A, P ) ist, gilt jedoch gemäß der obigen Folgerung E [ ( E(Y |A) − X ) ( Y − E(Y |A) ) ] = 0 , und man erhält E( Y − X )2 = E( Y − E(Y |A) )2 + E( E(Y |A) − X )2 . Daraus folgt Beziehung (14.18) unmittelbar. Satz 14.20 (Ungleichung von Jensen für bedingte Erwartungen). Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, Y : Ω → (a, b) eine P - integrierbare Zufallsvariable und ϕ : (a, b) → R konvex, so gilt ϕ( E(Y |A) ) ≤ E( ϕ ◦ Y |A )
P –fs .
(14.19)
Beweis. Im Beweis der Ungleichung von Jensen (Satz 13.1) wurde die Existenz von E ϕ ◦ Y > −∞ bewiesen, sodass E( ϕ ◦ Y |A ) sinnvoll ist. Voraussetzungsgemäß gilt a < Y < b P –fs . Daraus folgt 7 7 ( E(Y |A) − a ) dP = ( Y − a ) dP ≥ 0 mit Y − a > 0, 0≥ [E(Y |A)≤a]
[E(Y |A)≤a]
sodass P ( [E(Y |A) ≤ a] ) = 0 bzw. E(Y |A) > a P –fs . Analog zeigt man E(Y |A) < b P –fs . Daher ist ϕ( E(Y |A) ) P –fs sinnvoll definiert. Nach dem Tangentensatz (Satz A.49) gibt es reelle Zahlen cn und dn mit ϕ( E(Y |A) ) = sup{cn E(Y |A) + dn } und ϕ(Y ) = sup{cn Y + dn } . Somit gilt n
n
ϕ(Y ) ≥ cn Y + dn ∀ n ∈ N ⇒ E(ϕ(Y )|A) ≥ cn E(Y |A) + dn ∀ n ∈ N . Daraus folgt nun E(ϕ(Y )|A) ≥ sup{cn E(Y |A) + dn } = ϕ( E(Y |A) . n
Satz 14.21. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, A ⊆ S eine σ-Algebra und Y eine Zufallsvariable, für die EY existiert, so gilt auf jedem Atom A ∈ A
242
14 Bedingte Erwartungen
. E(Y |A) =
Y dP . P (A)
A
(14.20)
Ist A rein atomar mit den Atomen Ai , i ∈ I ⊆ N , so gilt . ! A Y dP i 1 Ai . E(Y |A) = P (Ai ) i
(14.21)
Beweis. Ist A ein Atom, so ist die Spur A ∩ A natürlich trivial bezüglich ∀ C ∈ A ∩ A . Nach Lemma 7.57 ist daher E(Y |A) P,–fs P,(C) := PP (C) (A) konstant auf . A . Damit ist E(Y |A) auch P –fs konstant auf A . Deshalb gilt . Y dP = E(Y |A) dP = E(Y |A) P (A) , woraus (14.20) sofort folgt. A A Wendet man (14.20) auf die einzelnen Ai an, erhält man (14.21). Bemerkung 14.22. Im Grunde ist der obige Satz nur eine andere Formulierung von Satz 14.5, von dem unsere Überlegungen ihren Ausgang genommen haben.
14.3 Reguläre, bedingte Wahrscheinlichkeiten Mit Hilfe der bisher bewiesenen Sätze über bedingte Erwartungen lassen sich leicht die folgenden Eigenschaften bedingter Wahrscheinlichkeiten herleiten. Satz 14.23. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und A eine Subsigmaalgebra von S , so gilt: 1. P (∅|A) = 0 P –fs , P (Ω|A) = 1 P –fs . 2. 0 ≤ P (A|A) ≤ 1 P –fs ∀ A ∈ S . 3. Ist (An ) eine disjunkte Folge aus S , so gilt
! P An |A = P (An |A) n
P –fs .
(14.22)
n
Beweis. ad 1. : Folgt aus Satz 14.10 Punkt 2. mit 1∅ = 0 bzw. 1Ω = 1 . ad 2. : Folgt aus Satz 14.10 Punkt 4. wegen 0 ≤ 1A ≤ 1 . ad 3. : Folgt aus Satz 14.10 Punkt 3. und Satz 14.11 (Konvergenz durch Mon n = 1 Ai . notonie für bedingte Erwartungen) mit Yn := 1 Ai
i=1
i=1
Der obige Satz lässt vermuten, dass die bedingten Wahrscheinlichkeiten alle von den Maßen μ2 (ω1 , A2 ) im verallgemeinerten Satz von Fubini (Satz 10.21) geforderten Eigenschaften besitzen, dass also P (A|A)( . ) für jedes A ∈ S als Funktion von ω A-messbar ist, und dass P ( . |A)(ω) für jedes ω ∈ Ω eine Wahrscheinlichkeitsverteilung auf (Ω, S) darstellt.
14.3 Reguläre, bedingte Wahrscheinlichkeiten
243
Die Nullmenge, auf der (14.22) nicht gilt, hängt aber von der Folge (An ) ab. Da es i.A. überabzählbar viele disjunkte Folgen gibt, kann man nicht sagen, ob ihre Vereinigung Wahrscheinlichkeit 0 besitzt oder, ob sie überhaupt messbar ist. In der Tat lassen sich Gegenbeispiele konstruieren, in denen (14.22) auf einer Menge von positivem Maß nicht für jede disjunkte Folge gilt, sodass P ( . |A)(ω) für die ω aus dieser Menge kein Wahrscheinlichkeitsmaß ist. Definition 14.24. Sind A , C Subsigmaalgebren auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so heißt P, ( . |A)( . ) : C × Ω → [0, 1] eine reguläre durch A bedingte Wahrscheinlichkeitsverteilung auf C , wenn für jedes C ∈ C gilt P,(C|A)( . ) = P (C|A) P –fs und, wenn P, ( . |A)(ω) für jedes ω ∈ Ω eine Wahrscheinlichkeitsverteilung auf C ist. Satz 14.25. Unter den Voraussetzungen und mit den Bezeichnungen der obigen Definition gilt für jedes C-messbare Y , dessen Erwartungswert existiert, 7 (14.23) E(Y |A)(ω) = Y (ω ) P, (dω |A)(ω) P –fs . Beweis. Ist Y = 1C , C ∈ C ein messbarer Indikator, so gilt 7 1C (ω ) P, (dω |A)(ω) = P, (C|A)(ω) = P (C|A)(ω) = E(1C |A)(ω)
P –fs .
Auf Grund der Additivität des Integrals und der bedingten Erwartung gilt (14.23) aber auch für Y ∈ T + (Ω, C) . Da es zu Y ∈ M+ (Ω, C) eine Folge (tn ) aus T + (Ω, C) gibt mit tn Y , folgt aus den Sätzen über die Konvergenz durch Monotonie (Satz 9.20 und 14.11) 7 7 Y (ω ) P, (dω |A)(ω) = lim tn (ω ) P, (dω |A)(ω) n
= lim E(tn |A)(ω) = E(Y |A)(ω) n
P –fs .
Ist Y ∈ M(Ω, C) und existiert EY , so zerlegt man in Y + und Y − . Bemerkung 14.26. Wir haben bereits in Abschnitt 14.1 die im verallgemeinerten Satz von Fubini beschriebenen Voraussetzungen als Modell eines zweistufigen Experiments interpretiert, wenn die entsprechenden Maße Wahrscheinlichkeitsverteilungen P1 bzw. P2 (ω1 , . ) sind. Der betrachtete Grundraum ist dort der Produktraum (Ω1 × Ω2 , S1 ⊗ S2 , P ) , pr−1 1 (S1 ) = {A × Ω2 : A1 ∈ S1 } entspricht der σ-Algebra A . hC (ω1 ) := P, (C|pr1 = ω1 ) := P2 (ω1 , Cω1 ) , C ∈ S1 ⊗ S2 ist als Funktion von ω1 S1 -messbar und als Funktion von C eine Wahrscheinlichkeitsverteilung für jedes ω1 ∈ Ω1 . Daher ist auch P,(C|pr1 ) := hC ◦ pr1 als Funktion von C eine Wahrscheinlichkeitsverteilung für jedes ω := (ω1 , ω2 ) aus Ω1 × Ω2 . Für festes C ist P, (C|pr1 ) als Zusammensetzung von pr1 und hC klarerweise pr−1 1 (S1 )-messbar und es gilt nach Satz 10.21 und Satz 9.62
244
14 Bedingte Erwartungen
7
7 1C dP = A1 ×Ω2
7
=
A1
⎛ ⎝
7
⎞ 1Cω1 P2 (ω1 , dω2 )⎠ P1 (dω1 ) =
Ω2
P2 (ω1 , Cω1 ) P1 (dω1 ) A1
7
hC (ω1 ) P pr−1 1 (dω1 ) =
7
P, (C| pr1 )(ω) P (dω) .
pr−1 1 (A1 )=A1 ×Ω2
A1
Somit ist P,( . |pr1 ) eine reguläre durch pr1 bedingte Wahrscheinlichkeitsverteilung auf C := S1 ⊗ S2 . P, (C|pr1 )(ω) = P2 (pr1 (ω) , Cpr1 (ω) ) = P2 (ω1 , Cω1 ) ist mit ω := (ω1 , ω2 ) für alle C ∈ S1 ⊗ S2 äquivalent zu 7 7 1C (ω ) P, (dω |pr1 )(ω) = 1Cpr1 (ω) (ω2 ) P2 (pr1 (ω), dω2 ) 7 7 (14.24) = 1Cω1 (ω2 ) P2 (ω1 , dω2 ) = 1C (ω1 , ω2 ) P2 (ω1 , dω2 ) . Man beachte, dass ω und ω2 in der obigen Gleichung Integrationsvariable sind, während ω1 , ω2 die Argumente der Funktion darstellen. Da (14.24) für alle messbaren Indikatoren gilt, muss es wegen der Additivität auch für alle Treppenfunktionen t ∈ T(Ω1 × Ω2 , S1 ⊗ S2 ) gelten. Konvergenz durch Monotonie liefert die Gültigkeit von (14.24) für messbare Y ≥ 0 . Beliebige Y ∈ M mit existierendem EY zerlegt man in Y + und Y − und erhält schließlich 7 7 , Y (ω ) P (dω |pr1 )(ω) = Y (ω1 , ω2 ) P2 (ω1 , dω2 ) . . Da die rechte Seite hY (pr1 (ω) ) = hY (ω1 ) := Y (ω1 , ω2 ) P2 (ω1 , dω2 ) der obigen Gleichung nur von ω1 abhängt und deshalb in Bezug auf ω2 wie eine Konstante zu behandeln ist, ergibt Integration auf A1 × Ω2 , A1 ∈ S1 und Anwendung des verallgemeinerten Satzes von Fubini ⎞ ⎛ 7 7 7 hY (pr1 (ω)) dP (ω) = ⎝ hY (ω1 ) P2 (ω1 , dω2 ) ⎠ dP1 (ω1 ) A1 ×Ω2
A1
7
Ω2
7
hY (ω1 ) P2 (ω1 , Ω2 ) dP1 (ω1 ) =
= A1
7 7
= A1
Y (ω1 , ω2 ) P2 (ω1 , dω2 )
hY (ω1 ) dP1 (ω1 ) A1
7
dP1 (ω1 ) =
Y (ω1 , ω2 ) dP (ω1 , ω2 ) .
A1 ×Ω2
# ". Damit ist Y (ω ) dP, (ω |pr1 ) tatsächlich eine Version von E(Y | pr1 ) und stimmt überein mit dem in Gleichung (14.3) intuitiv verwendeten Ausdruck für die bedingte Erwartung.
14.3 Reguläre, bedingte Wahrscheinlichkeiten
245
Für Zufallsvariable X, Y mit der gemeinsamen Dichte fX,Y erhält man als Spezialfall aus den obigen Ausführungen den in Gleichung (14.4) verwendeten . . f (x,y) y fY |X (y|x) λ(dy) . Ausdruck E(Y |X = x) = y X,Y fX (x) λ(dy) = Definition 14.27. Ist Y eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und A ⊆ S eine σ-Algebra, so heißt F (y|A)(ω) : R × Ω → [0, 1] eine reguläre durch A bedingte Verteilungsfunktion von Y , wenn für jedes y ∈ R gilt F (y|A)( . ) = P (Y ≤ y|A) P –fs und wenn F ( . |A)(ω) eine Verteilungsfunktion auf R für alle ω ∈ Ω ist. Satz 14.28. Unter den Voraussetzungen und mit den Bezeichnungen der obigen Definition existiert eine reguläre durch A bedingte Verteilungsfunktion von Y . Beweis. Wir definieren zunächst F (q|A) := P (Y ≤ q|A) ∀ q ∈ Q . Aus Satz 14.13 und 1[Y ≤−n] 0 , 1[Y ≤n] 1 folgt, dass die beiden Mengen N−∞ := {ω : lim F (−n|A)(ω) = 0 } und N∞ := {ω : lim F (n|A)(ω) = 1 } n→∞
n→∞
P -Nullmengen sind. Aus Satz 14.13 und 1[Y ≤q+ n1 ] 1[Y ≤q] folgt , dass auch für alle Mengen Nq := {ω : lim F (q + n1 |A)(ω) = F (q|A)(ω) } mit q ∈ Q gilt P (Nq ) = 0 . n→∞ Nq ebenfalls eine P -Nullmenge. Somit ist NR := q∈Q
Für p < q haben schließlich die Mengen Np,q := {ω : F (q|A)(ω) < F (p|A)(ω)} nach Satz 14.10 Punkt 4. P -Maß 0 . Für NM := Np,q gilt daher P (NM ) = 0 . p 0 ein n
q ∈ Q mit y < q und F (q|A)(ω) ≤ F, (y|A)(ω) + ε . Für alle yn ≤ q gilt daher F, (yn |A)(ω) ≤ F, (y|A)(ω) + ε . Daraus folgt lim F,(yn |A)(ω) ≤ F,(y|A)(ω) + ε . n
Also gilt F, (y|A)(ω) = lim F, (yn |A)(ω) , d.h. F,( . |A)(ω) ist rechtsstetig und yn y
erfüllt damit für ω ∈ N c alle Eigenschaften einer Verteilungsfunktion i.e.S. Für q ∈ Q gilt vereinbarungsgemäß F (q|A) = P (Y ≤ q|A) P –fs . Ist y ∈ R , so gibt es eine Folge (qn ) in Q mit qn y , sodass 1[Y ≤qn ] 1[Y ≤y] . Daraus ergibt sich nach Satz 14.13 und der Rechtsstetigkeit von F,(y|A)(ω)
246
14 Bedingte Erwartungen
F, (y|A) = lim F (qn |A) = lim P (Y ≤ qn |A) = P (Y ≤ y|A) n
n
P –fs .
Demnach ist F, (y|A) für jedes y ∈ R eine Version von P (Y ≤ y|A) . Die nächsten Sätze zeigen, dass reguläre Verteilungen zumindest für die in der Praxis wichtigsten Fälle existieren, nämlich dann, wenn die Verteilungen durch Zufallsvariable oder Zufallsvektoren induziert werden. Satz 14.29. Unter den Voraussetzungen und mit den Bezeichnungen von Definition 14.27 existiert eine reguläre durch A bedingte Wahrscheinlichkeitsverteilung P,( . |A) auf Y −1 (B) , d.h. P, (Y ∈ B|A) = P (Y ∈ B|A) P –fs ∀ B ∈ B und für jedes ω ∈ Ω ist P, ( . |A)(ω) eine Wahrscheinlichkeitsverteilung auf Y −1 (B) . Man nennt P,(Y ∈ . |A)( . ) die durch A bedingte, reguläre Verteilung von Y . Beweis. Für jedes ω ∈ Ω wird von der durch A bedingten, regulären Verteilungsfunktion F, ( . |A)(ω) von Y aus dem vorigen Satz eine Wahrscheinlichkeitsverteilung P Y −1 ( . |A)(ω) auf (R, B) bestimmt.
Nun sind in G := {B ∈ B : P Y −1 (B|A) = P (Y ∈ B|A) P –fs} auf Grund des vorigen Satzes die Intervalle (−∞, y] , y ∈ R enthalten, und wegen Satz 14.10 Punkt 3. liegen damit auch alle Intervalle (a, b] , a, b ∈ R , sowie alle Vereinigungen von endlich vielen, disjunkten Intervallen in G . Da das System der endlichen Vereinigungen disjunkter Intervalle einen Ring bildet, und, da aus Satz 14.13 folgt, dass G ein monotones System ist, ergibt sich aus Satz 2.73 und Bemerkung 2.57 G = B , Damit ist P, (Y ∈ B|A)(ω) := P Y −1 (B|A)(ω) einerseits für jedes ω ∈ Ω eine Wahrscheinlichkeitsverteilung auf Y −1 (B) und stimmt andererseits für jedes [Y ∈ B] aus Y −1 (B) mit P (Y ∈ B|A) P –fs überein. P,( . |A)( . ) ist somit die gesuchte durch A bedingte reguläre Verteilung von Y . Definition 14.30. Ein Messraum (Ω, S) heißt Borel-Raum, wenn es ein B ∈ B und eine bijektive Abbildung ϕ : Ω → B gibt, sodass ϕ : (Ω, S) → (B , B ∩ B) und ϕ−1 : (B , B ∩ B) → (Ω, S) . Die Abbildung ϕ wird als Borel-Äquivalenz zwischen (Ω, S) und (B, B ∩ B) bezeichnet.
Satz 14.31. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, A ⊆ S eine Subsigmaalgebra, (Ω , S ) ein Borel-Raum und X : (Ω, S) → (Ω , S ) , so existiert eine reguläre durch A bedingte Wahrscheinlichkeitsverteilung P,( . |A) auf X −1 (S ) , d.h. P,(X ∈ C|A) = P (X ∈ C|A) P –fs ∀ C ∈ S und für jedes ω ∈ Ω ist P,( . |A)(ω) eine Wahrscheinlichkeitsverteilung auf X −1 (S ) . Beweis. Ist ϕ eine Borel-Äquivalenz auf (Ω , S ) , so gibt es zu jedem C ∈ S ein B ∈ B mit C = ϕ−1 (B) bzw. B = (ϕ−1 )−1 (C) = ϕ(C) . Damit gilt [X ∈ C] = [X ∈ ϕ−1 (B)] = [ϕ ◦ X ∈ B] . Y := ϕ ◦ X ist aber eine Zufallsvariable, und daher existiert eine reguläre durch A bedingte Verteilung P, (Y ∈ . |A)( . ) von Y , d.h. für jedes C ∈ S mit B := ϕ(C) gilt
14.3 Reguläre, bedingte Wahrscheinlichkeiten
247
P, (X ∈ C|A) = P, (Y ∈ B|A) = P (Y ∈ B|A) = P (X ∈ C|A) P –fs , und für jedes ω ist P, ( . |A)(ω) eine Wahrscheinlichkeitsverteilung auf den Mengen [Y = ϕ(C)] = [X ∈ C] , die bekanntlich X −1 (S ) bilden. Wir zeigen zum Abschluss noch, dass die Abbildung X aus dem obigen Satz ein Zufallsvektor und sogar eine Folge von Zufallsvariablen sein kann. Satz 14.32. (Rk , Bk ) , k ∈ N und (R∞ , B∞ ) sind Borel-Räume. Beweis. Durch die Funktion F (x) := 12 ex 1(−∞,0] (x) + (1 − 12 e−x ) 1(0,∞) (x) wird R auf (0, 1) abgebildet. Da F strikt monoton wachsend und stetig ist, sind sowohl F als auch F −1 messbar. Daher genügt es zu zeigen, dass eine Borel-Äquivalenz zwischen ( (0, 1), B ∩ (0, 1) ) und ( (0, 1)∞ , B∞ ∩ (0, 1)∞ ) bzw. ( (0, 1)k , Bk ∩ (0, 1)k ) besteht. Ist ω ∈ (0, 1) und Xn (ω) die n-te Ziffer von ω in seiner Binärdarstellung, so ist Xn messbar, wie in Beispiel 7.51 bewiesen wurde. Im Beweis von Folgerung 8.18 wurde gezeigt, dass die Folge (Xn (ω)) in bijektiver Weise (mit Hilfe des Diagonalisierungsverfahrens) in Teilfolgen (Xi,j (ω))j∈N aus {0, 1}∞ aufgespalten werden kann, und entsprechend den Ausführungen aus Bemerkung 10.46 sind mit den Xi,j auch die Vektoren ∞ Xi,j (ω) wird jedem Xi := (Xi,1 , Xi,2 , . . .) messbar. Durch Z(Xi (ω)) := 2j j=1
Xi (ω) in messbarer und eindeutiger Weise eine Zahl aus (0, 1) zugeordnet. Damit bildet aber nach den Ausführungen aus Bemerkung 10.46 die Funktion ϕ(ω) := (Z(X1 (ω)), Z(X2 (ω)), . . .) das Intervall (0, 1) messbar auf (0, 1)∞ ab. Umgekehrt wird jede Folge x := (x1 , x2 , . . . , ) aus (0, 1)∞ durch die Projektionen pri messbar auf Zahlen xi ∈ (0, 1) abgebildet, denen wieder auf messbare Art Binärfolgen (bj (pri (x))) zugeordnet werden können. Diese Folgen werden wieder mit dem Diagonalisierungsverfahren zu einer einzigen Folge b(x) := (b1 (x), b2 (x), . . .) zusammengefasst, und klarerweise ist auch ∞ bn (x) die Abbildung b : (0, 1)∞ → {0, 1}∞ messbar. Z(b(x) ) := ordnet 2n n=1
schließlich jeder Binärfolge messbar ein ω ∈ (0, 1) zu. Die Borel-Äquivalenz zwischen ( (0, 1), B∩(0, 1) ) und ( (0, 1)k , Bk ∩(0, 1)k ) zeigt man wobei es hier genügt die Ziffernfolge Xn in die k Teil" ganz ähnlich, # folgen Xi, n−1 +1 , i = 0, . . . , k − 1 mit i ≡ n mod k aufzuspalten. k
15 Gesetze der großen Zahlen
15.1 Die Varianz und andere Momente Oft lassen sich Aussagen über bestimmte Ereignisse machen ohne die Verteilung einer Zufallsvariablen X zu kennen, wenn man gewisse Kenngrößen dieser Zufallsvariablen bestimmen oder schätzen kann. So liefert etwa Ungleichung (13.14) bzw. (13.15) eine obere Schranke für die Wahrscheinlichkeit der Abweichungen vom Mittelwert, wenn man den Erwartungswert E X und 2 σX := E(X − EX)2 kennt. Ungleichung (13.15) besagt bspw. konkret, dass höchstens γ12 ∗100% der Ausgänge eines Experiments einen größeren Abstand als γ σ vom Erwartungswert haben. Definition 15.1. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und X eine Zufalls2 2 := Var X := variable aus L2 , so nennt man σX < die Varianz von √ E (X − EX) X . Als Streuung von X bezeichnet man σX := Var X = E(X − EX)2 . Bemerkung 15.2. 1. Aus Satz 13.25 folgt, dass jedes X ∈ L2 (Ω, S, P ) einen endlichen Erwartungswert E X besitzt, sodass die obige Definition sinnvoll ist. 2. Da die Varianz einer Zufallsvariablen, wie oben erwähnt, angibt, wie stark die Ausgänge eines Zufallsexperiments um den Mittelwert streuen, wird sie als Streuungsparameter bezeichnet. Kenngrößen, die die Lage der Werte einer Zufallsvariablen charakterisieren, nennt man hingegen Lageparameter. Dazu gehören Erwartungswert und Median. Der folgende Satz beinhaltet eine Minimalitätseigenschaft des Erwartungswerts und erleichtert oft die Berechnung der Varianz. Satz 15.3. Ist X eine quadratisch integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so gilt E(X − a)2 = E(X − EX)2 + (EX − a)2
∀ a ∈ R,
(15.1)
woraus folgt E( X − EX )2 = min E( X − a )2 und Var X = EX 2 − (EX)2 . a∈R
250
15 Gesetze der großen Zahlen
Beweis. Dieser Satz ist nichts anderes, als der Spezialfall von Satz 14.19 für A := {∅ , Ω} . Mit a = 0 erhält man Var X = EX 2 − (EX)2 . Bemerkung 15.4. (15.1) ist auch als Steiner’scher Verschiebungssatz bekannt. Man beachte aber E |X − EX| = min E |X − a| . wie der folgender Satz zeigt. a∈R
Satz 15.5 (Minimalitätseigenschaft des Medians). Ist X eine integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und m ein Median gemäß Bemerkung 8.14 Punkt 4, d.h. P (X < m) ≤ 12 ≤ P (X ≤ m) , so gilt E |X − m| = min E |X − a| . a∈R
(15.2)
Beweis. Ist a ≥ m, so gilt ⎧ ⎪ ⎨m − a, |X − a| − |X − m| = m + a − 2X, ⎪ ⎩ a − m,
X>a m<X≤a X ≤ m,
d.h. |X − a| − |X − m| ≥ (a − m) 1[X≤m] + (m − a) 1[X>m] . Daraus folgt 3 E( |X − a| − |X − m| ) ≥ E (a − m) 1[X≤m] + (m − a) 1[X>m] 1 1 − ≥ 0. = (a − m) ( P ( X ≤ m ) − P ( X > m ) ) ≥ (a − m) 2 2 Für a < m führt man den Beweis analog. Erwartungswert und Median einer Zufallsvariablen aus L2 können höchstens um die Streuung differieren, wie der folgende Satz zeigt. Satz 15.6. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und X ∈ L2 (Ω, S, P ) eine Zufallsvariable mit dem Median m und der Streuung σ , so gilt | m − EX |≤ σ.
(15.3)
Beweis. Aus der Jensen’schen Ungleichung (Satz 13.1), dem obigen Satz und der Cauchy-Schwarz’schen Ungleichung (13.6) folgt | E X − m | = | E (X − m) | ≤ E | X − m | ≤ E | X − E X | √ < = E | X − E X | | 1 | ≤ E(X − E X)2 E 12 = σ . Definition 15.7. Als Kovarianz der quadratisch integrierbaren Zufallsvariablen X, Y bezeichnet man den Ausdruck Cov( X , Y ) := E(X −EX ) ( Y −EY ) , und ) ist der Korrelationskoeffizient von X und Y . ρ := ρ(X , Y ) := Cov(X,Y σX σY Man sagt X , Y sind unkorreliert, wenn Cov( X , Y ) = 0 . Der nächste Satz listet elementare Eigenschaften der Varianz auf.
15.1 Die Varianz und andere Momente
251
Satz 15.8. Sind X , Y quadratisch integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so gilt 1. Var(X + a) = Var X ∀ a ∈ R , 2. Var(a X) = a2 Var X ∀ a ∈ R , 3. Var(X + Y ) = Var X + Var Y + 2 Cov(X , Y ) , 4. Var(X + Y ) = Var X + Var Y für X , Y unkorreliert. Beweis. ad 1 : ad 2 : ad 3 : ad 4 :
Var(X + a) = E[ X + a − E(X + a) ]2 = E(X − EX)2 = Var X . Var(a X) = E( a X − a EX)2 = a2 E(X − EX)2 = a2 Var X . Var(X + Y ) = E[ (X − EX ) + (Y − EY ) ]2 = Var X + Var Y + 2 E( X − EX ) ( Y − EY ) . Dies folgt sofort aus Punkt 3.
Beispiel 15.9. In Beispiel 9.78 wurde gezeigt, dass X ∼ N (μ, σ2 ) den Erwartungswert EX = μ besitzt. Für X ∼ N (0, 1) gilt also EX = 0 ∧ Var X = EX 2 . Aus X ∼ N (0, 1) folgt aber Y := X 2 ∼ χ21 ⇒ Var X = EY = 1 (siehe Beispiel 9.82). Z := σ X + μ ist dann bekanntlich N (μ, σ 2 )- verteilt, und aus Satz 15.8 Punkt 1. und 2. folgt Var Z = σ2 . Die Parameter einer Normalverteilung sind also der Erwartungswert und die Varianz. Lemma 15.10. Sind X , Y quadratisch integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so gilt Cov( X , Y ) = E(X Y ) − EX EY .
(15.4)
Beweis. Cov( X , Y ) = E(X − EX ) ( Y − EY ) = E(X Y ) − 2 EX EY + EX EY = E(X Y ) − EX EY . Lemma 15.11. Unabhängige, quadratisch integrierbare Zufallsvariable X , Y auf einem Wahrscheinlichkeitsraum (Ω, S, P ) sind immer unkorreliert. Beweis. Nach Folgerung 10.34 gilt für unabhängige Zufallsvariable X , Y E( X − EX ) ( Y − EY ) = E( X − EX ) E( Y − EY ) = 0 . Die Umkehrung gilt i.A. nicht, wie das folgende Beispiel zeigt. Beispiel 15.12. Nimmt X die Werte −1 , 0 , 1 mit den Wahrscheinlichkeiten 1 1 1 2 4 , 2 , 4 an und ist Y := 1 − X , so wird Y durch X deterministisch festgelegt. Aber wegen X Y ≡ 0 gilt E(X Y ) = 0 . Zusammen mit EX = 0 ergibt das Cov(X , Y ) = E(X Y ) − EX EY = 0 . Lemma 15.13. Sind X , Y quadratisch integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so gilt −1 ≤ ρ(X , Y ) ≤ 1 . Beweis. Unter Berücksichtigung der Cauchy-Schwarz’sche Ungleichung (Ungleichung (13.6)) gilt |Cov(X , Y )| ≤ E |X − EX | | Y − EY | ≤ σX σY .
252
15 Gesetze der großen Zahlen
Beispiel 15.14. < Sind X1 , X2 N (0, 1)-verteilte, unabhängige Zufallsvariable, Z1 := σ1 1 − ρ2 X1 + σ1 ρ X2 + μ1 und Z2 := σ2 X2 + μ2 , so gilt, wie in Beispiel 9.80 gezeigt wurde, (Z1 , Z2 ) ∼ N (μ1 , μ2 , σ12 , σ22 , ρ) . Daraus folgt # :" < ; Cov(Z1 , Z2 ) = E σ1 1 − ρ2 X1 + σ1 ρX2 + μ1 (σ2 X2 + μ2 ) − μ1 μ2 # ; :" < = E σ1 1 − ρ2 X1 + σ1 ρX2 σ2 X2 :< ; = σ1 σ2 1 − ρ2 EX1 EX2 + ρ EX22 = σ1 σ2 ρ . Somit ist ρ der Korrelationskoeffizient von Z1 , Z2 . Beispiel 15.15 (Fortsetzung von Beispiel 10.17 , 10.20 und 10.58). In Beispiel 10.58 wurde gezeigt, dass für die Zufallsvariablen T1 und T2 aus Beispiel 10.20 gilt T1 ∼ Exτ , T2 ∼ Er2,τ ⇒ ET1 = τ1 , ET2 = τ2 . E(T1 T2 ) kann man mit dem Satz von Fubini ausrechnen ⎞ ⎛ ∞ ⎞ ⎛ 7∞ 7∞ 7∞ 7 E(T1 T2 ) = ⎝ x y τ 2 e−τ y dy ⎠ dx = x ⎝ y τ (τ e−τ y ) dy ⎠ dx 7∞ = 7∞
0
⎛
+∞ x ⎝ −τ y e−τ y +x +
7∞
$
−τ x
+e
0
−τ x
%
x
0
⎞
τ e−τ y dy ⎠ dx =
x
0
x τ xe
=
x
2 dx = 2 τ
7∞ 0
7∞
+∞ % $ x τ x e−τ x − e−τ y +x dx
0 3
2 −τ x
τ x e 2
1 dx + 2 τ
7∞
τ 2 x e−τ x dx =
3 . τ2
0
Die letzte Gleichung oben gilt, da im vorletzten Integral der obigen Gleichung die Dichte einer Er3,τ -Verteilung steht und im letzten Integral die Dichte einer Er2,τ -Verteilung, sodass beide Integrale den Wert 1 haben. Die Kovarianz von T1 und T2 ergibt sich nun zu Cov(T1 , T2 ) = E(T1 T2 ) − ET1 ET2 = τ12 . Definition 15.16. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und X eine Zufallsvariable aus Lk (Ω, S, P ) mit k ∈ N , so nennt man EX k das k-te Moment k von X , E |X| heißt k-tes absolutes Moment, E(X − EX)k ist das k-te zentrale Moment, und E |X − EX|k ist das k-te absolute, zentrale Moment. Gemäß obiger Definition ist der Erwartungswert EX das 1-te Moment einer Zufallsvariablen X , und die Varianz ist das 2-te zentrale Moment von X . Für das 1-te zentrale Moment gilt klarerweise immer E(X −EX) = EX −EX = 0 . Bemerkung 15.17. 1. Obwohl EX k für gerades k immer existiert, spricht man von der Existenz des k-ten Moments nur dann, wenn EX k ∈ R . In diesem Sinn existiert das k-te Moment genau dann, wenn das k-te absolutes Moment existiert.
15.1 Die Varianz und andere Momente
253
2. Aus der Existenz des k-ten Moments folgt nach Satz 13.25 die Existenz der Momente EX g mit 1 ≤ g ≤ k . k $ % k 3. Wegen (X −EX)k = X i (EX)k−i und Punkt 2. folgt aus der Existenz i i=0
des k-ten Moments die Existenz des k-ten zentralen Moments. Definition 15.18. Eine Zufallsvariable X auf einem Wahrscheinlichkeitsraum (Ω, S, P ) heißt symmetrisch um a , wenn X − a dieselbe Verteilung wie a − X besitzt, wenn also gilt P (X ≤ a − x) = P (X ≥ a + x) ∀ x ∈ R . Ist F die zu X gehörige Verteilungsfunktion, so ist dies äquivalent zu F (a−x) = 1−F− (a+x) . Hat X eine Dichte f , so ist auch f (a−x) = f (a+x) eine äquivalente Bedingung. Bemerkung 15.19. Das Symmetriezentrum a einer symmetrischen Zufallsvariablen X ist ein Median von X gemäß Bemerkung 8.14 Punkt 4, denn mit x = 0 gilt F (a) = 1 − F− (a) . Daraus folgt 2 F (a) ≥ F (a) + F− (a) = 1 und 1 = F (a) + F− (a) ≥ 2 F− (a) , was umgeformt F (a) ≥ 12 ≥ F− (a) ergibt. Lemma 15.20. Existiert für n ≥ 0 das 2 n + 1-te Moment der um a symmetrischen Zufallsvariablen X , so gilt E (X − a)2 n+1 = 0 . Beweis. Aus (X − a)2 n+1 ∼ (a − X)2 n+1 = −(X − a)2 n+1 folgt unmittelbar E (X − a)2 n+1 = −E (X − a)2 n+1 ⇒ E (X − a)2 n+1 = 0 . Beispiel 15.21. X ∼ N (0, 1) ist symmetrisch um 0 . Außerdem müssen alle x2
− √x
Momente existieren, denn für alle n ∈ N und x ≥ 0 gilt xn e− 2 ≤ xn e 2 , und die rechte Seite dieser Ungleichung ist integrierbar, √ da sie bis auf eine multiplikative Konstante mit der Dichte einer Γ (n + 1, 2)-Verteilung übereinstimmt. Demnach gilt E X 2n−1 = 0 ∀ n ∈ N . In Beispiel 15.9 wurde bereits gezeigt, dass gilt E X 2 = 1 . Damit folgt aus n (2 i − 1) durch partielle Integration der Induktionsannahme E X 2 n = i=1
7∞ EX
2 (n+1)
$
2 n+1
x
= −∞ 7∞
= (2n + 1)
$
x
−∞
2n
%
%
x2 1 √ x e− 2 2π
x2 1 √ e− 2 2π
Somit hat X die Momente E X 2 n =
dx
dx = (2n + 1) E X 2 n =
n+1
(2 i − 1) .
i=1 n
(2 i − 1) ∧ E X 2n−1 = 0
∀ n ∈ N.
i=1
Der Vollständigkeit halber erwähnen wir noch 2 Kenngrößen, die über die Gestalt der Dichten stetiger Zufallsvariabler Auskunft geben und daher in der Statistik oft gebraucht werden. Man kann diese beiden Parameter aber für beliebige Zufallsvariable, deren 3-te bzw. 4-te Momente existieren, definieren.
254
15 Gesetze der großen Zahlen
Definition 15.22. Ist X eine Zufallsvariable auf einem Wahrscheinlichkeits3 die raum (Ω, S, P ) , deren 3-tes Moment existiert, so nennt man E(X−EX) σ3 Schiefe von X . Für X ∈ L4 (Ω, S, P ) heißt
E(X−EX)4 (Var X)2
X
Exzeß(Wölbung,Kurtosis).
15.2 Schwache Gesetze der großen Zahlen Definition 15.23. Ist X eine integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so heißt Y := X − EX die zugehörige zentrierte als standardisiert. Zufallsvariable, und für X ∈ L2 bezeichnet man Z := X−EX σX Für zentrierte Zufallsvariable Y gilt natürlich immer EY = 0 , und für standardisierte Zufallsvariable gilt EZ = 0 ∧ Var Z = 1 . Definition 15.24. Ist X = (X1 , . . . , Xn ) ein Zufallsvektor auf einem Wahrn Xi den Mittelwert scheinlichkeitsraum (Ω, S, P ) , so nennt man X n := n1 i=1
der Xi . Sind die Xi unabhängig, identisch verteilt, so spricht man auch vom Stichprobenmittelwert der Stichprobe (X1 , . . . , Xn ) . Bemerkung 15.25. Sind X1 , . . . , Xn unabhängig, identisch verteilte Zufallsva2 riable aus L2 (Ω, S, P ) mit der gemeinsamen Varianz σX , so folgt aus Satz 15.8 n 2 2 n σ σ Var Xi = n2X = nX . Dies deckt sich durchPunkt 2. und 4. Var X n = n12 i=1
aus mit unserer Intuition, denn man wird erwarten, dass einzelne Messergebnisse stärker streuen, als die Mittelwerte mehrerer Versuchsreihen. Schwache Gesetze der großen Zahlen sind Aussagen darüber, unter welchen Voraussetzungen Mittelwerte in Wahrscheinlichkeit konvergieren, wie sie etwa in den nächsten Sätzen formuliert sind. Im Folgenden werden wir auch die Abkürzungen GGZ für Gesetz der großen Zahlen und iid (independent, identically distributed) für unabhängig, identisch verteilt verwenden. Satz 15.26 (Schwaches Gesetz der großen Zahlen). Ist (Xn ) eine Folge unkorrelierter Zufallsvariabler auf einem Wahrscheinlichkeitsraum (Ω, S, P ) mit M := sup Var Xn < ∞ , so konvergieren die Mitelwerte Y n der zentrierten Zun∈N
fallsvariablen Yi := Xi − EXi in Wahrscheinlichkeit gegen Null, d.h. es gilt +
+ n +1 ! + + + ( Xi − EXi )+ > ε = 0 ∀ ε > 0 . (15.5) lim P + n→∞ +n + i=1
Beweis. Es gilt EY n = 0 und Var Y n =
1 n2
n i=1
Var Yi =
1 n2
n i=1
Var Xi ≤
M n
.
Die Tschebyscheff’sche (Ungleichung (13.14)), angewendet auf + $ + Ungleichung % Y n ergibt daher P + Y n + > ε ≤ nMε2 ∀ n ∈ N , woraus (15.5) sofort folgt.
15.2 Schwache Gesetze der großen Zahlen
255
Satz 15.27 (Schwaches GGZ für iid Zufallsvariable). Die Stichprobenmittel n X n := n1 Xi einer jeden Folge unabhängig, identisch verteilter Zufallsvariai=1
bler aus L2 (Ω, S, P ) konvergieren in Wahrscheinlichkeit gegen den gemeinsamen Erwartungswert EX der Zufallsvariablen, es gilt also +
+ n +1 ! + + + Xi − E X + > ε = 0 ∀ ε > 0 . (15.6) lim P + n→∞ +n + i=1
Beweis. Da unabhängige Zufallsvariable unkorreliert sind und für die Varian2 < ∞ ∀ n ∈ N , folgt dies unmittelbar aus Satz 15.26. zen gilt Var Xn = σX Bemerkung 15.28. 1. Für die Praxis wichtig ist allerdings die spezielle Gestalt von Ungleichung (13.14), angewendet auf das Stichprobenmittel unabhängig, identisch verteilter Zufallsvariabler, die unter Berücksichtigung von Bemerkung 15.25 zu + $+ % σ2 P +X n − E X + ≥ ε ≤ X2 nε
(15.7)
führt. Man kann damit bei vorgegebener Genauigkeit ε und vorgegebener oberer Schranke α für die Wahrscheinlichkeit größerer Abweichungen des Stichprobenmittels vom Erwartungswert (der Irrtumswahrscheinlichσ2 keit) durch Auflösung der Gleichung n X ε2 = α nach n den für die Erfüllung dieser Vorgaben erforderlichen Stichprobenumfang n ermitteln. Umgekehrt kann man die Schranke für die Irrtumswahrscheinlichkeit bestimmen, wenn ε und n gegeben sind, oder man kann ε berechnen bei fixem n und α . 2. Wir werden etwas später sehen, dass bei unabhängig, identisch verteilten Zufallsvariablen Xn die Integrierbarkeit der Xn für die Gültigkeit des schwachen Gesetzes der großen Zahlen ausreicht, aber man benötigt die Existenz der Varianz für die Abschätzung (15.7). die 3. Wie aus (15.7) leicht ersichtlich, gibt es Nullfolgen (εn ) , bspw. + % Folge $+ 1 εn := n−( 2 −δ) , δ > 0 , für die sogar gilt lim P +X n − E X + > εn = 0 . n→∞
Mit Hilfe des Gesetzes der großen Zahlen lassen sich Integrale, wie im nächsten Beispiel gezeigt, auf einfache Weise numerisch berechnen. Beispiel 15.29 (Numerische Integration). Ist f : [a, b] → R eine integrierbare .b .b Funktion, von der man weiß, dass I := a |f | dx < ∞ , deren Integral a f dx aber nicht explizit bestimmt werden kann, so gibt es folgende Möglichkeit I numerisch zu approximieren. Sind U1 , U2 , . . . unabhängige Zufallsvariable mit Ui ∼ Ua,b ∀ i ∈ N , so haben die transformierten Zufallsvariablen Yi := f (Ui ) bekanntlich .b 1 I den Erwartungswert EYi = a f (x) b−a dx = b−a . Deshalb konvergien Yi ren die mit b − a multiplizierten Stichprobenmittel Y,n := b−a n i=1
256
15 Gesetze der großen Zahlen
in Wahrscheinlichkeit gegen I (wie später gezeigt wird, konvergieren sie sogar P –fs), und wegen + + + # "+ + I ++ ε σ 2 (b − a)2 + + ≤α P +Y,n − I + ≥ ε = P ++Y n − ≥ ≤ Y + b−a b−a n ε2 σ 2 (b−a)2
den notwendigen Stichprobenumfang erhält man aus n ≥ Y α ε2 (also die Mindestanzahl an zu erzeugenden Zufallszahlen), wenn das numerische Ergebnis mit einer Wahrscheinlichkeit von mindestens 1 − α um nicht mehr als ε vom wahren Wert I abweichen darf. Wenn I nicht explizit angegeben werden kann, ist es meist auch schwierig oder unmöglich σY2 auszurechnen. Aber in der Praxis genügt eine Schranke für die Varianz, wobei natürlich klar ist, dass n umso größer wird, je schlechter diese Schranke ist. Wir wollen nun bestimmen, wieviele Zufallszahlen man zur Berechnung .π des Integrals π2 cosx x dx benötigt, damit das Ergebnis mit 90-prozentiger Si4 cherheit um nicht mehr als ε = 0.01 vom wahren Wert2 abweicht. 2 2 π σY 105 π 2 σY . In die obige Formel eingesetzt erhält man n ≥ 16·0.1·0.01 2 = 16 Schätzt man die Varianz σY2 etwa ab durch 2 7 π 2 cos2 x 4 cos U cos U 2 ≤E dx σY = Var = π U U x2 π 4 + π4 7 π2 + 4 8 π 4 2 π −2 2 π −1 + x dx = ≤ cos cos x + = 2 cos2 , π π 4 4 π 4 π 4 π 2
so ergibt das n ≥ 30843 . Das mag auf den ersten Blick viel erscheinen, aber gleichverteilte Zufallszahlen kann man sehr schnell generieren. Außerdem lässt sich das Verfahren ohne zusätzlichen Programmieraufwand auf mehrdimensionale Integrale übertragen; der einzige Unterschied besteht darin, dass man statt der auf [a, b] gleichverteilten Zufallsvariablen Ui Zufallsvektoren Ui nimmt, die auf mehrdimensionalen Quadern [a, b] gleichverteilt sind.
15.3 Starke Gesetze der großen Zahlen Natürlich interessiert auch die Frage unter welchen Voraussetzungen Mittelwerte P –fs konvergieren. Aussagen dieser Art werden als starke Gesetze der großen Zahlen bezeichnet. Lemma 7.78, wahrscheinlichkeitstheoretisch formuliert, besagt, dass eine Folge von Zufallsvariablen Xn gerade
dann gegen ein X P –fs konvergiert, [ |Xm − X| > ε ] = 0 ∀ ε > 0 . Die im folgenden Satz wenn lim P n→∞
m≥n
vorgestellte Kolmogoroff’sche Ungleichung stellt eine in diese Richtung gehende Verschärfung der Tscheyscheff’schen Ungleichung dar.
15.3 Starke Gesetze der großen Zahlen
257
Satz 15.30 (Ungleichung von Kolmogoroff). Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und (Xn ) eine Folge unabhängiger Zufallsvariabler aus L2 , so gilt + +
n k +! + 1 ! + + P max + ( Xi − EXi )+ ≥ ε ≤ 2 Var Xi ∀ ε > 0 . (15.8) + 1≤k≤n + ε i=1 i=1 k Yi , k ≥ 1, Beweis. Mit den Bezeichnungen Yi := Xi − EXi , S0 := 0, Sk := i=1 A := max |Sk | ≥ ε und Bk := |Sk | ≥ ε > max |Si | , 1 ≤ k ≤ n gilt 1≤k≤n
n
A=
0≤i≤k−1
Bk . Da die Bk disjunkt sind, folgt daraus und aus Satz 13.9
k=1
ε2 P (A) = ε2
n !
P (Bk ) ≤
k=1
n 7 !
Sk2 dP
∀ ε > 0.
(15.9)
k=1B k
Andererseits gilt E Sn2 ≥
n 7 !
Sn2 dP =
k=1B k
≥
n 7 !
n 7 ! 3
Sk2 + 2 Sk (Sn − Sk ) + (Sn − Sk )2 dP
k=1B k
Sk2 dP + 2
k=1B k
n−1 !7
(Sk 1Bk ) (Sn − Sk ) dP .
(15.10)
k=1
Sk und 1Bk sind als Funktionen von X1 , . . . , Xk für 1 ≤ k ≤ n − 1 unabhängig n Yi Daher gilt für alle Integrale im letzten Term auf der von Sn − Sk = i=k+1
rechten Seite von (15.10) 7
⎛ (Sk 1Bk ) (Sn − Sk ) dP = ⎝
7
⎞ Sk dP ⎠ ( ESn − ESk ) = 0 .
(15.11)
Bk
Somit erhält man aus (15.10)
n .
n
k=1
i=1
S 2 dP ≤ E Sn2 = Var Sn = Bk k
Var Xi .
Dies, eingesetzt in (15.9), liefert (15.8). Mit der Kolmogoroff’schen Ungleichung lässt sich der folgende Satz beweisen. Satz 15.31. Ist (Xn ) eine Folge unabhängiger, quadratisch integrierbarer Zufallsvariabler auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , für die zusätzlich ∞ ∞ gilt Var Xn < ∞ , so konvergiert (Xn − E Xn ) P –fs . n=1
n=1
258
15 Gesetze der großen Zahlen
Beweis. Mit Yn := Xn − E Xn und Sn :=
n
Yi erhält man aus der Kolmogo-
i=1
roff’schen Ungleichung für beliebiges ε > 0 und festes m ∈ N + +
k +! + + + P max |Sm+k − Sm | ≥ ε = P max + Ym+i + ≥ ε + 1≤k≤n 1≤k≤n + i=1
≤
m+n !
∞ !
m+n !
Var Yj Var Xj Var Xj = ≤ 2 2 ε ε ε2 j=m+1 j=m+1 j=m+1
∀ n ∈ N.
(15.12)
∞ ∞ Var Xj Var Xj < ∞ sup |Sm+k − Sm | ≥ ε ≤ ε2 . Wegen k∈N j=m+1 j=1 folgt daraus lim P sup |Sm+k − Sm | ≥ ε = 0 ∀ ε > 0 , sodass die Sn Daher gilt P
m→∞
k∈N
nach Lemma 7.78 eine Cauchyfolge P –fs bilden. Da jede derartige Folge eine Grenzfunktion S mit lim Sn = S P –fs besitzt, ist der Satz damit bewiesen. n
Die folgenden Lemmata werden zum Beweis des starken GGZ benötigt. ∞ 1 2 ∀ k ∈ N. Lemma 15.32. n2 ≤ k n=k
Beweis. Für k ≥ 2 und jedes m ∈ N gilt k+m ! n=k
k+m k+m ! ! 1 1 1 1 2 1 1 1 = − )= − ≤ ≤ . ≤ ( 2 n n (n − 1) n−1 n k−1 k+m k−1 k n=k
n=k
∞
Daraus folgt
n=k ∞
1 n2
Für k = 1 gilt
n=1
≤
1 n2
2 k
für k ≥ 2 .
=1+
∞ n=2
1 n2
≤1+
Lemma 15.33. lim an = a ∈ R ⇒ lim n1 n
n
2 2
=2=
n
2 1
.
ai = a .
i=1
Beweis. Ist ε > 0 und nε ∈ N , sodass |an − a| ≤ ε ∀ n ≥ nε , so gilt nε nε n 1 ! 1 ! n − nε 1 ! n − nε (a − ε) ≤ (a + ε). ai + ai ≤ ai + n i=1 n n i=1 n i=1 n
für n > nε . Aus lim n1 n
nε i=1
ε ai = 0 und lim n−n = 1 folgt nun lim n1 n
n
Lemma 15.34 (Kroneckers Lemma). Aus bn > 0
n
∞
n
ai = a.
i=1
ai = a ∈ R , bn ∞ und
i=1
∀ n ∈ N folgt lim n
n 1 ! ai bi = 0 . bn i=1
(15.13)
15.3 Starke Gesetze der großen Zahlen ∞
Beweis. Da
ai ∈ R, muss für rn :=
i=1
∞
259
ai gelten lim |rn | = 0 , und daraus n
i=n
folgt R := max |rn | < ∞ . Mit b0 := 0 erhält man dann n∈N
n !
ai bi =
i=1
= b1 r1 +
n ! i=1 n !
bi (ri − ri+1 ) =
n !
bi ri −
i=1
n !
bi ri+1 =
i=1 n !
ri (bi − bi−1 ) − bn rn+1 =
i=2
n !
b i ri −
i=1
n+1 !
bj−1 rj
j=2
ri (bi − bi−1 ) − bn rn+1 .
i=1
Ist ε > 0 und wählt man nε so, dass |rn | < ε ∀ n ≥ nε , dann gilt für n > nε + + + + +n + n n ε + + +1 ! + 1 ++ ! 1 ++! + + + + ai b i + ≤ ri (bi − bi−1 )+ + ri (bi − bi−1 )+ + |rn+1 | + + + + bn + + + bn + bn + i=1
i=1
i=nε +1
nε 1 R! (bi − bi−1 ) + ≤ bn i=1 bn
n !
|ri | (bi − bi−1 ) + ε ≤
i=nε +1
Rbnε bn − bnε +ε + ε. bn bn
+ + n + +1 + Für hinreichend großes n gilt < ε . Daraus folgt + bn ai bi ++ ≤ 3 ε . Da i=1 ε > 0 beliebig gewählt werden kann, impliziert dies (15.13). R bn ε bn
Satz 15.35 (Kolmogoroffs 1-tes Gesetz der großen Zahlen). Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und (Xn ) eine Folge unabhängiger Zufallsvariabler ∞ Var Xn < ∞ , so gilt aus L2 (Ω, S, P ) mit n2 n=1
n 1 ! (Xi − E Xi ) = 0 P –fs . n→∞ n i=1
(15.14)
lim
Beweis. Für Zn :=
Xn −E Xn n
gilt E Zn = 0 ∧
Daher folgt aus Satz 15.31 ∃ S :
∞
∞ n=1
Zi = lim
n
n→∞ i=1
i=1
∞
Var Zn =
n=1
Zi = S
Var Xn n2
< ∞.
P –fs . Nach
Kroneckers Lemma, angewendet auf ai := Zi , bi := i , i ∈ N , gilt deshalb n n (Xi − E Xi ) = lim n1 i Zi = 0 P –fs . lim n1
n→∞
n→∞
i=1
i=1
Für unabhängig, identisch verteilte Zufallsvariable gilt das Gesetz der großen Zahlen bereits, wenn nur der Erwartungswert endlich ist. Ein einfaches Lemma über den Erwartungswert erleichtert den Beweis. Lemma 15.36. Ist X eine nichtnegative Zufallsvariable auf (Ω, S, P ) , so gilt ∞ ! k=1
P(X > k ) ≤ EX ≤
∞ ! k=1
P(X > k ) + 1.
(15.15)
260
15 Gesetze der großen Zahlen
Beweis. Für die Zufallsvariable Y :=
∞ j=1
EY = =
∞ !
j 1[ j<X≤j+1 ] gilt
j P(j < X ≤ j + 1) =
j=1 ∞ ! ∞ !
j ∞ ! !
P(j < X ≤ j + 1)
j=1 k=1 ∞ !
P(j < X ≤ j + 1) =
k=1 j=k
P(X > k ).
k=1
Daraus und aus Y ≤ X ≤ Y + 1
P –fs folgt (15.15) unmittelbar.
Folgerung 15.37. Ist X eine Zufallsvariable auf (Ω, S, P ), so gilt E |X| < ∞ ⇔
∞ !
P ( |X| > k ) < ∞ .
k=1
Beweis. Dies ergibt sich sofort aus dem obigen Lemma. Satz 15.38 (Kolmogoroffs 2-tes Gesetz der großen Zahlen). Besitzen die auf einem Wahrscheinlichkeitsraum (Ω, S, P ) unabhängig, identisch verteilten Zufallsvariablen Xn , n ∈ N einen Erwartungswert E X := E Xn , n ∈ N , so gilt lim
n→∞
n 1 ! Xi = E X n i=1
P –fs .
(15.16)
Beweis. Wir beweisen den Satz zunächst für integrierbare Zufallsvariable. Die gestutzten Zufallsvariablen Yn := Xn 1[ |Xn |≤n ] sind beschränkt. Deshalb sind+ sie+ natürlich quadratisch integrierbar. Für Y,n := X1 1[|X1 |≤n] ∀ n ∈ N + + gilt +Y,n + ≤ |X1 | ∈ L1 ∀ n ∈ N und lim Y,n = X1 P –fs , sodass aus dem n→∞
Satz über die Konvergenz durch Majorisierung folgt lim E Y,n = E X P –fs . n n 1 , E Yi = E X P –fs . Da aber die Xn Nach Lemma 15.33 gilt daher lim n n
i=1
identisch verteilt sind, haben Yn und Y,n dieselbe Verteilung für jedes n ∈ N , sodass mit der obigen Gleichung auch gilt lim n
n 1 ! E Yi = E X n i=1
P –fs .
(15.17)
Nun gilt unter Berücksichtigung von Lemma 15.32 i n n n n ! ! ! ! Var Yi Var Y,i E Y,i2 1 ! 2 = ≤ ≤ k P ( k − 1 < |X1 | ≤ k ) i2 i2 i2 i2 i=1 i=1 i=1 i=1 k=1
= ≤
n ! k=1 ∞ ! k=1
n n ! ! 2 1 2 k P ( k − 1 < |X1 | ≤ k ) ≤ k 2 P ( k − 1 < |X1 | ≤ k ) i2 k i=k
k=1
2 k P ( k − 1 < |X1 | ≤ k ) ≤ 2 E( |X1 | + 1 ) < ∞ .
15.3 Starke Gesetze der großen Zahlen
261
Damit erfüllen die Yn die Voraussetzungen von Kolmogoroffs 1-tem Gesetz der n (Yi − E Yi ) = 0 P –fs . Zusammen großen Zahlen, und deshalb gilt lim n1 n
i=1
mit (15.17) ergibt das lim n
n n n 1 ! 1 ! 1 ! Yi = lim (Yi − E Yi ) + lim E Yi = E X n n n n n i=1 i=1 i=1 ∞
∞
n=1
P ( |Xn | > n ) =
∞
P ( |X1 | > n ) ≤ E |X1 | < ∞ folgt nach dem 1-ten Lemma von Borel-Cantelli P lim sup[Yn = Xn ] = 0
Aus
P ( Yn = Xn ) =
P –fs . (15.18)
n=1
n=1
n
bzw. äquivalent dazu P ({ω : Xn (ω) = Yn (ω) für fast alle n} ) = 1 . Daher n n gilt lim n1 Xi = lim n1 Yi P –fs , und zusammen mit (15.18) ergibt das n
i=1
n
i=1
n 1 ! Xi = EX n i=1
lim n
P –fs .
(15.19)
Sind die Xn alle nichtnegativ mit EX = ∞ und ist N ∈ N fest, so haben die Zufallsvariablen Xn,N := Xn 1[ Xn ≤N ] den gemeinsamen Erwartungswert 0 ≤ EXn,N = EX1,N < ∞ . Nach dem im ersten Schritt Bewiesenen gilt n Xi,N = EX1,N P –fs . Aus Xn,N ≤ Xn ∀ n ∈ N folgt aber daher lim n1 n
lim inf n
1 n
i=1
n i=1
Xi ≥ lim n1 n
n i=1
ergibt sich daraus lim inf n
1 n
Xi,N . Da N ∈ N beliebig gewählt werden kann, n i=1
Xi ≥ EX1,N
P –fs ∀ N ∈ N .
Aber die Folge (X1,N ) , N ∈ N wächst monoton gegen X1 , sodass aus dem Satz über die Konvergenz durch Monotonie folgt lim EX1,N = EX1 = ∞ . N n Xi ≥ EX1 = ∞ P –fs . Damit erhält man letztlich lim inf n1 n
i=1
Sind die Xn beliebige iid Zufallsvariable mit EXn = ∞ , so konvergieren n Xi− der Negativteile gegen EX1− ∈ R , die Mittel die Stichprobenmittel n1 1 n
n i=1
i=1
Xi+
der Positivteile streben gegen ∞ , und damit gilt lim n1 n
n
Xi = ∞ .
i=1
Ist (Xn ) eine iid Folge mit EXn = −∞ , so ergibt sich die Aussage des Satzes aus dem bisher Gezeigten, angewandt auf (−Xn ) . Zum obigen Satz existiert folgende Umkehrung. Satz 15.39. Ist (Xn ) eine Folge unabhängiger, identisch verteilter Zufallsvariabler auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , deren Stichprobenmittelwern te X n := n1 Xi gegen einen endlichen Grenzwert c konvergieren, so sind die i=1
Xn integrierbar mit EXn = c
∀ n ∈ N.
262
15 Gesetze der großen Zahlen
Beweis. Gilt lim X n (ω) = c , so gibt es zu jedem ε > 0 ein nε ∈ N mit n + + +X n (ω) − X m (ω)+ < ε ∀ n , m ≥ nε . Da dann aber gilt lim X n (ω) = 0 , n n + + + X n (ω) + gibt es auch ein mε , sodass + n + < ε ∀ n > mε , und für n > nε ∨ mε gilt + n + n−1 + + + + + + X (ω) − Xi (ω) + + + +n − 1 $ + Xn (ω) + + i=1 i % X n (ω) + i=1 +=+ +=+ + + X n (ω) − X n−1 (ω) + + + n + n + + n n + + + + + + + + + X n (ω) + n − 1 ++ + ≤ 2ε. ≤ X n (ω) − X n−1 (ω)+ + ++ n n + ": ;# lim Xnn = 0 = 1 , und das imAus lim X n (ω) = c P –fs folgt daher P n n pliziert P lim sup[ |Xn | > n ] = 0 , denn |Xn (ω)| > n kann nur für endlich n
viele n gelten, wenn Xnn(ω) gegen 0 konvergiert. Wäre E |Xn | = E |X1 | = ∞ , so müsste wegen Folgerung 15.37 auch gel∞ ten P ( |X1 | > n ) = ∞ . Da die Xn identisch verteilt sind, gilt jedoch n=1
∞ n=1
P ( |X1 | > n ) =
∞ n=1
P ( |Xn | > n ) , sodass
∞
P ( |Xn | > n ) = ∞ dar-
n=1
aus folgen müsste. Wegen der Unabhängigkeit der Ereignisse [|Xn | > n] würde dies aber nach dem 2-ten Lemma von Borel-Cantelli (Satz 5.11) zu P lim sup[ |Xn | > n ] = 1 und damit zu einem Widerspruch führen. Daher n
gilt E |X1 | = E |Xn | < ∞ . Aus Satz 15.38 folgt nun EX1 = lim n1 n
n
Xi = c .
i=1
Zur Formulierung des nächten Satzes benötigen wir folgenden Begriff. Definition 15.40. Ist X1 , X2 , . . . eine iid Folge von Zufallsvariablen , so bezeichn 1(−∞,x] (Xi ) als (n-te) empirische Verteilungsfunktion. net man Fn (x) := n1 i=1
Bemerkung 15.41. Hat man n gleichartige Versuche unabhängig voneinander durchgeführt und die Beobachtungswerte x1 , . . . , xn erhalten, so gibt Fn (x) den relativen Anteil der Beobachtungswerte ≤ x an. Natürlich wird sich Fn als Funktion von (X1 , . . . , Xn ) mit den Beobachtungswerten ändern, aber man wird intuitiv vermuten, dass Fn (x) für großes n nahe bei F (x) = P (X ≤ x) liegen wird. Dies bestätigt der folgende Satz. Satz 15.42 (Satz von Glivenko-Cantelli - Fundamentalsatz der Statistik). Ist (Xn ) eine Folge von unabhängigen, identisch verteilten Zufallsvariablen mit Verteilungsfunktion F und empirischen Verteilungsfunktionen Fn , so gilt
15.3 Starke Gesetze der großen Zahlen
P
263
lim
n→∞
sup |Fn (x) − F (x)| = 0
= 1,
x∈R
d.h. die Fn konvergieren gleichmäßig gegen F
P –fs .
Beweis. Die Zufallsvariablen Yi := 1(−∞,x] (Xi ) , x ∈ R sind bernoulli-verteilt mit p = F (x) und als Funktionen der Xi unabhängig. Daher folgt aus Kolmogoroffs 2-tem Gesetz der großen Zahlen (Satz 15.38) lim Fn (x) = lim n
n
n 1 ! Yi = EY1 = P ( X1 ≤ x ) = F (x) n i=1
P –fs .
(15.20)
Die Zi := 1(−∞,x) (Xi ) ∼ BF− (x) sind ebenfalls unabhängig , sodass auch gilt lim Fn− (x) = lim n
n
n 1 ! Zi = P ( X1 < x ) = F− (x) . n i=1
(15.21)
Bildet man zu N ∈ N die Fraktile x Ni := F −1 ( Ni ) , i = 0, 1, . . . , N , so gelten die Gleichungen (15.20) und (15.21) natürlich auch für diese Fraktile. " # " # i−1 Für x i−1 < x < x i gilt i−1 ≤ F x (x) ≤ F (x) ≤ F ≤ F ≤ Ni , − − x i N N N N " N# " # aber auch Fn x i−1 ≤ Fn− (x) ≤ Fn (x) ≤ Fn− x Ni . N Ist F (x) ≥ Fn (x) , so folgt daraus " # " # + " # " #+ + + |F (x) − Fn (x)| ≤ F− x i − Fn x i−1 = +F− x i − Fn x i−1 + N N N N + " # " #+ + " # " #+ + + + + ≤ +F− x i − F x i−1 + + +F x i−1 − Fn x i−1 + N N N N + " # " #+ # " #+ 1 i − 1 ++ " i + + + − + +F x i−1 − Fn x i−1 + = + +F x i−1 − Fn x i−1 + . ≤ N N N N N N N Ist F (x) < Fn (x) , so folgt in ähnlicher Weise " # " # + " # " #+ + + |F (x) − Fn (x)| ≤ Fn− x i − F x i−1 = +Fn− x i − F x i−1 + N N N N + " # " #+ + " # " #+ + + + + ≤ +Fn− x Ni − F− x Ni + + +F− x Ni − F x i−1 + N + " # " #+ " # " #+ i 1 i − 1 ++ + + + ≤ +Fn− x Ni − F− x Ni + + − = +Fn− x Ni − F− x Ni + + . N N N Daher gilt für Dn := sup |Fn (x) − F (x)| x∈R
8+ " # " #+ + " # " #+9 1 + + + + Dn ≤ + max +Fn x Ni − F x Ni + , +Fn− x Ni − F− x Ni + . N 0≤i≤N Damit ist die gleichmäßige Konvergenz bewiesen.
264
15 Gesetze der großen Zahlen
Bemerkung 15.43. Ist F stetig und hat man n konkrete Beobachtungswerte x1 , . . . , xn gegeben, so kann der maximale Abstand Dn = sup |Fn (x) − F (x)| x∈R
nur bei den Sprungstellen von Fn , also den Beobachtungswerten, auftreten. Daher reicht es max {|Fn (xi ) − F (xi )| , |Fn− (xi ) − F− (xi )| } zu berechnen. 1≤i≤n
Kolmogoroff und Smirnoff haben die asymptotische Verteilung von Dn bestimmt und damit die Grundlage für einen der wichtigsten statistischen Tests, den Kolmogoroff-Smirnoff-Test, geschaffen.
15.4 Ergodensätze Wir haben in Abschnitt 8.4 gesehen, dass jede maßtreue Transformation T auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , die diesen Raum in sich abbildet, zusammen mit einer Zufallsvariablen X : (Ω, S) → (R, B) einen stationären Prozess (Xn := X ◦T n )n∈N0 bildet. Nun wird gezeigt, dass für X ∈ L1 die Mitn−1 telwerte X n := n1 Xi dieses Prozesses fast sicher konvergieren, und die i=0
Grenzfunktion mit dem Erwartungswert EX übereinstimmt, wenn die Transformation T ergodisch ist. Wir beginnen mit einem Lemma. Lemma 15.44. Ist X eine integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und T : (Ω, S) → (Ω, S) maßtreu, so gilt ∀ n ∈ N0 .
EX = EX ◦ T n
(15.22)
Beweis. Aus Satz 9.62 (Transformationssatz) und der Maßtreue von T folgt 7 7 7 X ◦ T dP = X dP T −1 = X dP . Für n > 1 ergibt sich das Lemma durch vollständige Induktion. Die nächste Ungleichung spielt in der Ergodentheorie eine zentrale Rolle. Satz 15.45 (Maximaler Ergodensatz). Ist X eine integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , T : (Ω, S) → (Ω, S) maßtreu und ist Y ebenfalls integrierbar und P –fs invariant, so gilt 7 7 X dP ≥ Y dP . (15.23)
sup
k∈N
1 k
k−1
X◦T i >Y
sup
k∈N
i=0
Beweis. Ist Sk :=
k−1
1 k
k−1
X◦T i >Y
i=0
X ◦ T i , UN := max Sk und U := sup Sk , so gilt 1≤k≤N
i=0
+ X + UN ◦ T = X + max 0, X ◦ T, . . . ,
N +1 ! i=1
k∈N
X ◦ Ti
=
max
1≤k≤N +1
Sk = UN +1 .
15.4 Ergodensätze
265
+ + Daraus folgt X = UN +1 − UN ◦ T ≥ UN − UN ◦ T , also auch + + + ◦ T 1[UN >0] = UN − UN ◦ T 1[UN >0] . X 1[UN >0] ≥ UN 1[UN >0] − UN . . + + + Da aus UN ◦T ≥ 0 folgt UN ◦T dP ≥ UN ◦T dP , ergibt das mit (15.22)
7
7 X dP ≥
[UN >0]
7 + UN dP −
[UN >0]
7
+ UN ◦ T dP ≥
7 + UN dP −
+ UN ◦ T dP = 0 .
[UN >0]
(15.24) Aus [UN > 0] [U > 0] folgt lim X 1[UN >0] = X 1[U >0] . Da zudem gilt N + + +X 1[U >0] + ≤ |X| ∈ L1 ∀ N ∈ N , impliziert der Satz über die Konvergenz N durch Majorisierung 7 7 X dP = lim X dP ≥ 0 . (15.25) N
[U >0]
[UN >0]
k−1 Da für alle i gilt Y ◦T i = Y P –fs , kann man A := sup (X − Y ) ◦ T i > 0 k∈N i=0 k−1 k−1 1 i i X ◦ T − k Y > 0 = sup k X ◦T >Y . umformen zu A = sup k∈N
k∈N
i=0
i=0
Deshalb erhält man, wenn X in Gleichung (15.25) durch X − Y ersetzt wird, 7 7 0≤ (X − Y ) dP = (X − Y ) dP .
sup
k−1
k∈N i=0
(X−Y )◦T i >0
sup
k∈N
Bemerkung 15.46. Da gilt sup k1
k−1
k∈N
1 k
k−1
X◦T i >Y
i=0
k−1 1 X k k∈N i=0
(−X) ◦ T i = − inf
i=0
Gleichung (15.23), angewendet auf −X und −Y zu 7 7 X dP ≤
k−1 inf 1 X◦T i Ln,A
i=0
k−1 k−1 Wegen sup k1 (1A X) ◦ T i > Ln,A = 1A sup k1 X ◦ T i > Ln,A = A k∈N i=0 . k∈N i=0 . und A E (X|I) dP = A X dP folgt daraus 7 7 7 E (X|I) dP = X dP ≥ Ln,A dP ∀ n ∈ N . (15.28) A
A
A
Weil die Ln,A von unten durch −1 beschränkt sind und Ln,A monoton gegen L(1A X) = 1A L(X) wächst, folgt aus dem verallgemeinerten Satz von B. Levi (Satz 9.31) und (15.28) 7 7 E (X|I) dP ≥ L(X) dP (15.29) A
A
Da diese Ungleichung für beliebiges A ∈ I richtig ist, und weil E (X|I) wie auch L(X) I-messbar sind, muss E (X|I) ≥ L(X) P –fs gelten. Dies zusammen mit 0 ≤ L(X) ≤ L(X) , impliziert die Integrierbarkeit von L(X) und L(X) . Somit kann man Bemerkung 15.46 auf X und L(X) + ε mit ε > 0 anwenden und erhält 7 7 X dP ≤ ( L(X) + ε ) dP .
k−1 1 X◦T i 1 . Satz 15.50 (Mittel-Ergodensatz). Ist X auf einem Wahrscheinlichkeitsraum (Ω, S, P ) Lp -integrierbar mit 1 ≤ p < ∞ , T : (Ω, S) → (Ω, S) maßtreu und I die σ-Algebra der bezüglich T invarianten Mengen, so gilt C C C 1 k−1 C C ! C i X ◦ T − E(X|I)C = 0 . (15.31) lim C C k Ck i=0
p
268
15 Gesetze der großen Zahlen
Beweis. Zu jedem ε > 0 existiert nach Lemma 13.34 ein t ∈ T , sodass !t!p ≤ !X!p und !X − t!p ≤ ε . Ist I die σ-Algebra der invarianten Menk−1 gen und bezeichnet man die Mittelwerte mit X k := k1 X ◦ T i und tk :=
1 k
k−1
i=0
t ◦ T i , so gilt wegen der Minkowski’schen Ungleichung
i=0
C C C C C C CX k − E(X|I)C ≤ CX k − tk C + Ctk − E(t|I)C + !E(t|I) − E(X|I)! . p p p p (15.32) Da T maßtreu ist, gilt für den ersten Term auf der rechten Seite von (15.32) k−1 !C C C C C X k − tk C ≤ 1 CX ◦ T i − t ◦ T i C = !X − t! ≤ ε . p p p k i=0
(15.33)
C C t ist als Treppenfunktion beschränkt, und es gilt Ctk C∞ ≤ !t!∞ ∀ k ∈ N und + +p p E(t|I) ≤ !t!∞ . Daraus folgt +tk − E(t|I)+ ≤ 2p !t!∞ ∀ k ∈ N . Zudem gilt nach dem Ergodensatz (Satz15.47) lim tk = E(t|I) P –fs , und damit auch k + +p lim +tk − E(t|I)+ = 0 P –fs . Daher ergibt sich aus dem Satz über die Konverk
genz durch Majorisierung für alle hinreichend großen k C C Ctk − E(t|I)C ≤ ε . p
(15.34)
Der Jensen’schen Ungleichung für bedingte Erwartungswerte (Satz 14.20) zufolge gilt |E(X|I) − E(t|I)|p = |E(X − t|I)|p ≤ E (|X − tp |I)| P –fs , da p ϕ(x) := |x| , 1 ≤ p < ∞ konvex ist. Daraus folgt 7 !E(X|I) − E(t|I)!pp = |E(X − t|I)|p dP 7 7 p p (15.35) ≤ E (|X − t| |I) dP = |X − t| dP ≤ εp . C C Wegen (15.32), (15.33), (15.34) und (15.35) gilt CX k − E(X|I)Cp ≤ 3 ε für jedes ε > 0 und alle hinreichend großen k . Damit ist der Satz bewiesen. Gemäß Bemerkung 10.46 kann jeder stochastische Prozess (Xn )n∈N0 auf einem beliebigen Raum (Ω, S, P $ ) ersetzt werden% durch den Prozess der Projektionen prn , n ∈ N0 auf RN0 , BN0 , P X−1 , wobei X die in Bemerkung 10.46 beschriebene Abbildung von Ω in RN0 ist und die endlich dimensionalen Randverteilungen von (Xn )n∈N0 und von (prn )n∈N0 ident sind. Für jeden stationären Prozess (Xn )n∈N0 und alle Zylinder pr−1 Nn (B) gilt daher "
0
#
$ % P X−1 pr−1 (B) = P (Xn0 )−1 (B) Nn 0 " # $ % = P (Xn+1 )−1 (B) = P X−1 pr−1 . n+1 (B) 1 N 1
(15.36)
15.4 Ergodensätze
269
Definiert man auf RN0 einen Verschiebeoperator (oder Shift-Operator) sh durch sh( (x0 , x1 , . . .) ) := (x1 , x2 , . . .) , so erhält man # 8 9 8 9 " −1 −1 (B) = x : sh(x) ∈ pr (B) = x : (x , x , . . .) ∈ pr (B) sh−1 pr−1 n n n 1 2 N N N 0
0
= {x : (x1 , . . . , xn+1 ) ∈ B} =
0
pr−1 (B) Nn+1 1
∀
pr−1 (B) , Nn 0
B ∈ Bn+1 .
Da die pr−1 (B) , B ∈ Bn+1 , n ∈ N eine Algebra bilden, die BN0 erNn 0 % $ N % $ N 0 0 zeugt, "folgt daraus # sh : R" , B"N0 → R# #, BN0 , und (15.36) wird zu (B) = P X−1 sh−1 pr−1 (B) ∀ pr−1 (B) . Damit gilt aber P X−1 pr−1 Nn Nn Nn 0 0 0 $ % −1 −1 −1 sh $ (C) ∀ C ∈ B auch P X (C) = P X % N0 . Für stationäre Prozesse N0 −1 ist sh demnach maßtreu auf R , BN0 , P X . Weiters gilt offensichtlich prn .= pr0 ◦ shn ., n ∈ N0 . Ist .X0 integrierbar, so ist auch pr0 integrierbar, da gilt X0 dP = pr0 ◦X dP = pr0 dP X−1 . Bezeichnet IN0 die σ-Algebra der sh-invarianten Mengen in (RN0 , BN0 , P X−1 ) , so folgt demnach aus Satz 15.47 k−1 E(pr0 |IN0 ) = lim k1 pri P X−1 –fs , und das impliziert k
i=0
E(pr0 |IN0 ) ◦ X = lim k
k−1 k−1 1 ! 1 ! pri ◦X = lim Xi k k k i=0 i=0
P –fs .
(15.37)
I := X−1 (IN0 ) ist wegen Lemma 2.3 (Operationstreue des Urbilds) eine σAlgebra auf Ω . Man bezeichnet ihre Elemente als invariante Mengen. Definition 15.51. Ist (Xn )n∈N0 ein stationärer stochastischer Prozess auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so nennt man eine Menge A ∈ S invariant, wenn es ein shift-invariantes B ∈ BN0 gibt mit A = X−1 (B) . Für jedes A = X−1 (B) mit B ∈ IN0 gilt auf Grund des Transformationssatzes 7 7 7 7 X0 dP = pr0 dP X−1 = E(pr0 |IN0 ) dP X−1 = E(pr0 |IN0 ) ◦ X dP . A
B
B
A
Daraus folgt E(X0 |I) = E(pr0 |IN0 ) ◦ X E(X0 |I) = lim k
P –fs und (15.37) wird zu
k−1 1 ! Xi k i=0
P –fs .
(15.38)
Definition 15.52. Einen stationären stochastischen Prozess (Xn )n∈N0 auf einem Wahrscheinlichkeitsraum (Ω, % ergodisch, wenn der Verschiebe$ S, P ) nennt man operator sh ergodisch auf RN0 , BN0 , P X−1 ist. Bemerkung 15.53. Klarerweise ist der Prozess (Xn )n∈N0 genau dann ergodisch, wenn für jede invariante Menge A ∈ S gilt P (A) = 0 ∨ P (A) = 1 .
270
15 Gesetze der großen Zahlen
Wir können mit diesen Begriffen den Ergodensatz von Birkhoff für stationäre Prozesse formulieren ohne auf den Folgenraum Bezug nehmen zu müssen. Satz 15.54. Ist (Xn )n∈N0 ein stationärer Prozess auf einem Wahrscheinlichkeitsraum (Ω, S, P ) mit integrierbarem X0 (d.h. EX0 = EXn ∈ R ∀ n), so gilt k−1 1 ! lim Xi = E(X0 |I) k k i=0
P –fs ,
(15.39)
wobei I das System der invarianten Mengen ist. Ist der Prozess ergodisch, gilt lim k
k−1 1 ! Xi = EX0 k i=0
P –fs .
(15.40)
Der Mittel-Ergodensatz (Satz 15.50) lautet dementsprechend Satz 15.55. Ist (Xn )n∈N0 ein stationärer Prozess auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und ist X0 für ein p ∈ [1, ∞) Lp -integrierbar, so gilt C C C C 1 k−1 C C ! Xi − E(X0 |I)C = 0 . (15.41) lim C C k Ck i=0
p
Bemerkung 15.56. A ∈ S ist definitionsgemäß gerade dann invariant, wenn B = sh%−n (B) ∀ n ∈ N0 und A = X−1 (B) . Also ein B ∈ BN0 existiert, sodass $ −n −1 −1 gilt A = X (B) = X sh (B) ∀ n ∈ N0 . Explizit angeschrieben ergibt −1 , X , . . .) (B) = (X , X , . . .)−1 (B) ∀ n ∈ N0 . Daraus folgt das A = (X 0 1 n n+1 A ∈ S(Xn , Xn+1 , . . .) ∀ A ∈ I . Somit ist jede invariante Menge terminal. n
Lemma 15.57. Jede unabhängig, identisch verteilte Folge (Xn ) von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, S, P ) ist ergodisch. Beweis. Dies folgt sofort aus Bemerkung 15.56 und dem verallgemeinerten 0-1-Gesetz von Kolmogoroff (Satz 7.55). Bemerkung 15.58. Auf Grund des obigen Lemmas ist Satz 15.54 eine Verallgemeinerung von Kolmogoroffs 2-tem Gesetz der großen Zahlen (Satz 15.38).
16 Martingale
16.1 Definition und grundlegende Eigenschaften Ist X1 , X2 , . . . eine Folge unabhängiger Zufallsvariabler mit EXn = 0 ∀ n ∈ N, n Xi nicht mehr unabhängig. so sind die akkumulierten Summen Sn := i=1
Die Xn können etwa die Gewinne eines Spielers in einer Serie von fairen Spielen, die einander nicht beeinflussen, darstellen, und man wird intuitiv annehmen, dass der Spieler bei derartigen Spielen seinen Spielstand aus den vergangenen Spielen nach jedem neuen Spiel im Schnitt halten sollte, ohne, dass ihm die Information, die er aus dem bisherigen Spielverlauf erhalten hat, weiterhilft. Diese Information wird beschrieben durch die σ-Algebren S(Xn1 ) := S(X1 , . . . , Xn ) , n ∈ N , die übereinstimmen mit den σ-Algebren S(Sn1 ) := S(S1 , . . . , Sn ) , da die Summen S1 , . . . , Sn durch die X1 , . . . , Xn festgelegt sind und umgekehrt. Mathematisch kann man unsere intuitive Annahme so formulieren. E(Sn+1 |S(Xn1 ) ) = E(Sn+1 |Xn1 ) = Sn
P –fs
∀ n ∈ N.
(16.1)
Tasächlich folgt aus Satz 14.15 und Satz 14.10 Punkt 2. E(Sn+1 |Sn1 ) = E(Xn+1 + Sn |Sn1 ) = E(Xn+1 |Sn1 ) + E(Sn |Sn1 ) = E(Xn+1 |Xn1 ) + Sn = EXn+1 + Sn = Sn ∀ n ∈ N . (16.2) Die folgenden Begriffe dienen zur Formalisierung der obigen Überlegungen. Definition 16.1. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, so versteht man unter einer Filtration eine Folge monoton wachsender σ-Algebren An ⊆ S . Die Filtration beschreibt also die mit fortschreitendem Spielverlauf zunehmende Information des Spielers. Definition 16.2. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum mit einer Filtration (An ) , so nennt man eine Folge von Zufallsvariablen (Sn ) adaptiert an die Filtration (oder adaptiert an die An ), wenn jedes Sn An -messbar ist.
272
16 Martingale
Adaptierte Zufallsvariable werden somit durch die σ-Algebren der Filtration bestimmt. Ist etwa der Spielverlauf bekannt, so weiß man auch über die Gewinne Bescheid. Bemerkung 16.3. Ist eine Folge (Sn ) an eine Filtration (An ) adaptiert, so gilt natürlich S(Sn1 ) ⊆ An ∀ n . Die S(Sn1 ) bilden insofern die „kleinste“ Filtration an die die Sn adaptiert sind. Definition 16.4. Ist (Sn ) eine Folge von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so nennt man die Folge von σ-Algebren S(Sn1 ) , n ∈ N die kanonische (oder natürliche) Filtration zu den Sn . Definition 16.5. Eine Folge (Sn , An ) bestehend aus integrierbaren Zufallsvariablen Sn und den σ-Algebren An einer Filtration heißt ein Martingal (in Bezug auf (An )), wenn die Sn an die An adaptiert sind und, wenn gilt E(Sn+1 |An ) = Sn
P –fs ∀ n .
(16.3)
(Sn , An ) ist ein Submartingal, wenn (16.3) ersetzt wir durch die Ungleichung E(Sn+1 |An ) ≥ Sn
P –fs ∀ n ,
(16.4)
und man nennt (Sn , An ) ein Supermartingal, wenn statt (16.3) gilt E(Sn+1 |An ) ≤ Sn
P –fs ∀ n .
(16.5)
Ein Submartingal ist also für den Spieler günstig und ein Supermartingal ist für ihn ungünstig. Es genügt Submartingale zu betrachten, denn (−Sn , An ) ist ein Submartingal für jedes Supermartingal (Sn , An ) . Beispiel 16.6. Sind X1 , X2 , . . . unabhängige Zufallsvariable mit EXn = 1 ∀ n, n so bilden die Sn := Xi ein Martingal bezüglich S(Sn1 ) := S(S1 , . . . , Sn ) , i=1
denn aus Satz 14.17 und Satz 14.15 folgt E(Sn+1 |Sn1 ) = E(Xn+1 Sn |Sn1 ) = Sn E(Xn+1 |Sn1 ) = Sn EXn+1 = Sn
P –fs .
Bemerkung 16.7. 1. Ist (Sn , An ) ein Martingal, so sind auch die Differenzen Xn+1 := Sn+1 − Sn an die An adaptiert und aus (16.3) und Satz 14.10 Punkt 2. folgt E(Xn+1 |An ) = E(Sn+1 |An ) − E(Sn |An ) = Sn − Sn = 0
P –fs . (16.6)
Ist umgekehrt (Xn ) eine an die An adaptierte Folge integrierbarer Funktion nen, für die (16.6) gilt, so bilden die Sn := Xi mit den An ein Martingal, i=1
denn jedes Sn ist klarerweise An -messbar und es gilt E(Sn+1 |An ) = E(Xn+1 |An ) + E(Sn |An ) = Sn . Man kann also jedes Martingal entsprechend den einleitenden Ausführungen als Folge akkumulierter Gewinne in einer Serie fairer Spiele interpretieren.
16.1 Definition und grundlegende Eigenschaften
273
2. Aus der Definition der bedingten Erwartung folgt sofort, dass die Beziehungen (16.3), (16.4) bzw. (16.5) äquivalent sind zu 7 7 Sn+1 dP = Sn dP ∀ A ∈ An , (16.7) A
A
7
7
Sn+1 dP ≥ A
∀ A ∈ An ,
(16.8)
Sn dP
∀ A ∈ An .
(16.9)
A
7
7
Sn+1 dP ≤ A
Sn dP
A
Also gilt insbesondere ESn = ES1 ∀ n bei einem Martingal, ESn bei einem Submartingal und ESn bei einem Supermartingal. Lemma 16.8. Ist (Sn , An ) ein Submartingal, Supermartingal oder Martingal auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so ist auch (Sn , S(Sn1 ) ) eines. Beweis. Da die S(Sn1 ) eine Filtration mit S(Sn1 ) ⊆ An ∀ n bilden (siehe Bemerkung 16.3) gilt für Submartingale gemäß Satz 14.10 Punkt 5. und 2. E(Sn+1 |Sn1 ) = E (E(Sn+1 |An )|Sn1 ) ≥ E(Sn |Sn1 ) = Sn P –fs . Für Supermartingale gilt die Aussage, weil (−Sn , An ) ein Submartingal ist, und für Martingale, weil sie sowohl Sub- als auch Supermartingale sind. Lemma 16.9. Ist (Sn , An ) ein Martingal auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so gilt E(Sn+k |An ) = Sn
P –fs
∀ n,k ≥ 1.
(16.10)
Bei einem Submartingal wird das Gleichheitszeichen in der obigen Beziehung durch ≥ und bei einem Supermartingal durch ≤ ersetzt. Beweis. Für k = 1 entspricht (16.10) gerade der Definitionsgleichung (16.3), sodass nur der Schritt von k nach k + 1 zu zeigen bleibt. Aber aus An+k ⊇ An , Satz 14.10 Punkt 5. und der Induktionsannahme folgt E(Sn+k+1 |An ) = E (E(Sn+k+1 |An+k )|An ) = E(Sn+k |An ) = Sn P –fs . Der Beweis für Sub- bzw. Supermartingale verläuft völlig analog. Die folgenden Überlegungen zeigen, dass Kolmogoroffs 1-tes Gesetz der großen Zahlen sehr leicht auf Folgen von Zufallsvariablen verallgemeinert werden kann, die nicht unabängig sind, sondern nur Gleichung (16.6) genügen, also auf Martingaldifferenzen.
274
16 Martingale
Lemma 16.10. Ist (Sn , An ) ein quadratisch integrierbares Martingal auf einem Wahrscheinlickeitsraum (Ω, S, P ) , so gilt mit S0 := 0 für l ≤ k ≤ m ≤ n 7 7 7 2 (Sk − Sl ) (Sn − Sm ) dP = 0 ∧ Sk2 dP ≤ Sm dP ∀ Ak ∈ Ak . (16.11) Ak
Ak
Ak
Somit sind die Xn := Sn − Sn−1 unkorreliert, und es gilt E Sn2 =
n
E Xi2 .
i=1
Beweis. Wegen Sk − Sl ∈ L2 (Ω, Am , P ) , Sn − Sm = Sn − E (Sn |Am ) , und Ak ∈ Ak ⊆ Am impliziert Folgerung 14.18 die linke Gleichung in (16.11). Damit gilt aber auch die Ungleichung, rechts in (16.11), denn 7 7 2 Sm dP = [ Sk + ( Sm − Sk ) ]2 dP Ak
Ak
7
7
Ak
Ak
Sk2 dP + Ak
( Sk − S0 ) ( Sm − Sk ) dP Ak
7
7
=
7 ( Sm − Sk )2 dP + 2
Sk2 dP +
=
7 ( Sm − Sk )2 dP ≥
Ak
Sk2 dP . Ak
Mit Ak := Ω , l := k − 1, n := m + 1 erhält man E Xk Xn = 0 n aus Satz 15.8 folgt E Sn2 = E Xi2 .
∀ k < n , sodass
i=1
Lemma 16.11 (verallgemeinerte Ungleichung von Kolmogoroff). Für jedes quadratisch integrierbare Martingal (Sn , An ) auf einem Wahrscheinlichkeitsraum (Ω, S, P ) gilt mit X1 := S1 , Xn := Sn − Sn−1 , n ≥ 2 n 1 1 ! P max |Si | ≥ ε ≤ 2 E Sn2 = 2 EXi2 ∀ ε > 0 . (16.12) 1≤i≤n ε ε i=1 max Si2 ≥ ε2 mit ε > 0 ist die Vereini1≤i≤n 1≤i≤n 3 2 gung der Mengen A1 := S1 ≥ ε2 bzw. Ai := Si2 ≥ ε2 > max Sj2 für
Beweis. A :=
max |Si | ≥ ε
=
1≤j≤i−1
2 ≤ i ≤ n , die natürlich disjunkt sind. Daraus und aus Lemma 16.10 folgt n n 7 n 7 n ! ! ! ! P (Ai ) ≤ Si2 dP ≤ Sn2 dP ≤ E Sn2 = E Xi2 . ε2 P (A) = ε2 i=1
i=1 A
i
i=1 A
i=1
i
Bemerkung 16.12. Da der Beweis von Satz 15.31 nur auf der Ungleichung von Kolmogoroff beruht, kann dieser Satz auch auf Martingaldifferenzen verallgen meinert werden. Somit konvergiert das Martingal Sn = Xi P –fs, wenn i=1
16.1 Definition und grundlegende Eigenschaften n
275
Var Xi2 = sup E Sn2 < ∞ . Sind die Xi Martingaldifferenzen, so erfüllen auch n
i=1 Xi i
Gleichung (16.6) und sind deshalb ebenfalls Martingaldifferenzen. n n Var Xi2 Xi Daher folgt aus < ∞ , dass das Martingal S,n := P –fs koni2 i die Yi :=
i=1
vergiert, was zusammen mit dem Lemma von Kronecker
1 n
n
i=1
Xi → 0 impliziert.
i=1
Wir werden aber etwas später sehen, dass dieses Gesetz der großen Zahlen unmittelbar und viel einfacher aus dem Submartingalkonvergenzsatz folgt. Satz 16.13. Ist X eine integrierbare Zufallsvariable und (An ) eine Filtration auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so ist (E(X|An ) , An ) ein Martingal. Beweis. Aus Satz 14.10 Punkt 5. und An+1 ⊇ An folgt E(Xn+1 |An ) = E (E(X|An+1 )|An ) = E(X|An )
P –fs .
Definition 16.14. Ist (An ) eine Filtration auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und X ∈ L1 (Ω, S, P ) , so heißt (E(X|An ), An ) ein Doob-Martingal. Nicht jedes Martingal ist ein Doob-Martingal, es gibt also nicht zu jedem Martingal (Sn , An ) ein X ∈ L1 mit Sn = E(X|An ) . wie das nächste Beispiel zeigt. Beispiel 16.15. Sind X1 , X2 , . . . unabhängig, identisch verteilte Zufallsvariable n Xi mit P (Xi = 0) = P (Xi = 2) = 12 , so gilt EXi = 1 ∀ i und die Sn := i=1
bilden zusammen mit den S(Sn1 ) ein Martingal, wie in Beispiel 16.6 gezeigt. Daher gilt gemäß Bemerkung 16.7 Punkt 2. ESn = ES1 = 1 . Gäbe es ein X ∈ L1 und eine monoton steigende Folge von Subsigmaalgebren An mit Sn = E(X|An ) , müsste auch gelten EX = E(E(X|An ) ) = ESn = 1 . Aber aus An := [Sn = 0] ∈ An würde folgen 7 7 7 7 Sn dP = E(X|An ) dP = X dP = X 1An dP ∀ n ∈ N . 0= An
An
Nun gilt lim 1An = 1 P –fs n
An
⇒
lim X 1An = X P –fs , sodass aus dem Satz n
über die Konvergenz durch Majorisierung (Satz 9.33) weiters folgen müsste EX = lim E(X 1An ) = 0 . Dies steht im Widerspruch zu EX = 1 . n
Definition 16.16. Ist (An ) eine Filtration mit A0 := {∅, Ω} auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so nennt man die Folge (Yn )n∈N von Zufallsvariablen vorhersagbar (bezüglich (An )), wenn jedes Yn An−1 -messbar ist. Bemerkung 16.17. Sind die Zufallsvariablen eines Martingals (Sn , An ) bezüglich der Filtration vorhersagbar, so gilt nach Satz 14.10 Punkt 2. Sn+1 = E(Sn+1 |An ) = Sn = · · · = S1
P –fs ,
d.h. das Martingal ist insoferne entartet als es nur S1 wiederholt.
276
16 Martingale
Jedes Submartingal lässt sich in ein Martingal und einen vorhersagbaren monoton steigenden stochastischen Prozess zerlegen. Satz 16.18 (Doob-Zerlegung). Ist (Xn , An ) ein Submartingal auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so gibt es ein Martingal (Sn , An ) und eine vorhersagbare, monoton wachsende Folge von Zufallsvariablen Yn mit Y1 = 0 , sodass Xn = Sn + Yn P –fs für alle n . Diese Zerlegung ist eindeutig. Beweis. Mit S1 := X1 und Y1 := 0 gilt X1 = S1 + Y1 , und S1 ist A1 -messbar. Definiert man für n > 1 die Sn rekursiv durch Sn := Sn−1 +Xn −E(Xn |An−1 ) , so folgt unter der Induktionsannahme, dass Sn−1 An−1 -messbar ist, dass auch Sn An -messbar ist. Damit gilt aber wegen Satz 14.10 Punkt 2. E(Sn |An−1 ) = E(Sn−1 |An−1 ) + E(Xn |An−1 ) − E(Xn |An−1 ) = Sn−1
P –fs ,
d.h. (Sn , An ) ist ein Martingal. Yn := E(Xn |An−1 ) − Sn−1 ist An−1 -messbar, und es gilt Xn = Sn + Yn P –fs für alle n . Ersetzt man Sn−1 in der Definition von Yn durch Xn−1 − Yn−1 , so ergibt das Yn = E(Xn |An−1 ) − Xn−1 + Yn−1 . Da (Xn , An ) ein Submartingal ist, folgt daraus sofort Yn ≥ Yn−1 P –fs , und mit der Induktionsannahme Yn−1 ≥ 0 P –fs folgt daraus auch Yn ≥ 0 P –fs . Ist (Tn , An ) ein Martingal und (Zn ) eine Folge von Zufallsvariablen mit Z1 = 0 , Zn , Zn An−1 -messbar für alle n > 1 und Xn = Tn + Zn P –fs , so folgt aus Z1 = 0 = Y1 natürlich T1 = S1 P –fs bzw. S1 −T1 = 0 P –fs . Aus Xn = Sn + Yn = Tn + Zn P –fs folgt aber Sn − Tn = Zn − Yn P –fs ∀ n . Deshalb ist Sn − Tn An−1 -messbar, d.h. das Martingal (Sn − Tn , An ) ist vorhersagbar, und nach Bemerkung 16.17 gilt Sn −Tn = S1 −T1 = 0 P –fs ∀ n ∈ N . Damit gilt aber auch Yn = Zn P –fs , womit die Eindeutigkeit bewiesen ist. Satz 16.19. Ist (Xn , An ) ein Submartingal, ϕ : R → R monoton steigend und konvex mit ϕ(Xn ) ∈ L1 ∀ n , so ist auch (ϕ(Xn ), An ) ein Submartingal. Ist (Xn , An ) ein Submartingal, so ist insbesondere (Xn+ , An ) ein Submartingal. Ist (Xn , An ) ein Martingal, so ist (ϕ(Xn ), An ) ein Submartingal, wenn ϕ : R → R konvex ist und die Funktionen ϕ(Xn ) für alle n integrierbar sind. Für jedes Martingal (Xn , An ) und p ≥ 1 ist daher (|Xn |p , An ) ein Submartingal, wenn Xn ∈ Lp ∀ n (für p = 1 gilt diese Bedingung voraussetzungsgemäß). Beweis. Aus der Jensen’schen Ungleichung für bedingte Erwartungen (Satz 14.20), der Submartingaleigenschaft der Xn und der Monotonie von ϕ folgt E( ϕ(Xn+1 )|An ) ≥ ϕ(E(Xn+1 |An ) ) ≥ ϕ(Xn )
P –fs .
Mit Xn ist Xn+ integrierbar, und ϕ(x) := x+ ist monoton steigend und konvex. Für ein Martingal gilt E(Xn+1 |An ) = Xn ⇒ ϕ(E(Xn+1 |An ) ) = ϕ(Xn ) , sodass aus Satz 14.20 folgt E( ϕ(Xn+1 )|An ) ≥ ϕ(E(Xn+1 |An ) ) = ϕ(Xn ) P –fs. p Die anderen Aussagen sind klar, da ϕ(x) := |x| für p ≥ 1 konvex ist. Abschließend soll noch der Begriff des rückwärts gerichteten Martingals (Sub-, Supermartingals) vorgestellt werden.
16.2 Transformation von Submartingalen
277
Definition 16.20. Ein rückwärts gerichtetes Martingal auf einem Wahrscheinlichkeitsraum (Ω, S, P ) ist eine Folge (Xn , An ) , bestehend aus monoton fallenden Subsigmaalgebren An und An -messbaren Zufallsvariablen Xn ∈ L1 mit E(Xn |An+1 ) = Xn+1
P –fs ∀ n .
(16.13)
Gilt E(Xn |An+1 ) ≥ Xn+1 P –fs ∀ n , so spricht man von einem rückwärts gerichteten Submartingal, und man nennt (Xn , An ) ein rückwärts gerichtetes Supermartingal, wenn E(Xn |An+1 ) ≤ Xn+1 P –fs ∀ n . Bemerkung 16.21. (Xn , An ) ist genau dann ein rückwärts gerichtetes Martingal (Submartingal, Supermartingal), wenn (X−n , A−n ) ein Martingal (Submartingal, Supermartingal) ist, denn damit gilt A−n−1 ⊆ A−n und (16.13) wird zu E(X−n |A−n−1 ) = ( ≥ , ≤ ) X−n−1 .
16.2 Transformation von Submartingalen Es erhebt sich die Frage, ob ein Spieler seine Situation verbessern kann, wenn er vor jedem neuen Spiel entscheidet, ob er nur einen Teil des Einsatzes oder auch gar nicht setzt . Formal kann man dies beschreiben durch Funktionen 0 ≤ Bn ≤ 1 , n ≥ 2 die jeweils An−1 -messbar, also vorhersagbar sind, da wir natürlich annehmen, dass der Spieler keine hellseherischen Fähigkeiten besitzt und er deshalb seine Entscheidung auf Grund der vergangenen Spiele trifft. Statt der ursprünglichen Gewinnsummen Sn sammelt der Spieler bei Verwendung einer derartigen Strategie folgende Summen an Yn := S1 +
n !
Bi (Si − Si−1 )
(16.14)
i=2
Der nächste Satz zeigt, dass diese Vorgangsweise dem Spieler nichts bringt. Ein Submartingal bleibt ein Submartingal und deshalb bleibt ein Supermartingal (also die Art von Spiel, die dem Spieler normalerweise angeboten wird) ein Supermartingal. Einzig und allein der erwartete Gewinn (besser Verlust) verringert sich, wenn er nicht den gesamten Einsatz spielt. Satz 16.22. Ist (Xn , An ) ein Submartingal auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und (Bn ) , n ≥ 2 eine bezüglich (An ) vorhersagbare Folge von Zufallsvariablen, für die gilt 0 ≤ Bn ≤ 1 P –fs ∀ n , so ist auch (Yn , An ) mit n Y1 := X1 und Yn := X1 + Bi (Xi − Xi−1 ) , n ≥ 2 ein Submartingal und es i=2
gilt EYn ≤ EXn . Ist (Xn , An ) ein Martingal, so ist auch (Yn , An ) ein Martingal und dann gilt EYn = EXn . Beweis. Aus der An -Messbarkeit der Yn , der Vorhersagbarkeit der Bn , der Rekursion Yn+1 = Yn + Bn+1 (Xn+1 − Xn ) und E(Xn+1 |An ) ≥ Xn folgt
278
16 Martingale
E(Yn+1 |An ) = Yn + Bn+1 (E(Xn+1 |An ) − Xn ) ≥ Yn
P –fs .
Die Ungleichung EYn ≤ EXn ist für n = 1 klar, sodass es zum Beweis durch vollständige Induktion reicht den Schritt von n nach n + 1 zu zeigen. Aus der obigen Rekursion für die Yn , der Additivität des Erwartungswerts, der Induktionsvoraussetzung, Satz 14.10 Punkt 1, der Vorhersagbarkeit der Bn zusammen mit Satz 14.17 und wegen 0 ≤ Bn+1 ≤ 1 in Verbindung mit E(Xn+1 − Xn |An ) ≥ 0 folgt EYn+1 ≤ EXn + E (E(Bn+1 (Xn+1 − Xn )|An )) = EXn + E(Bn+1 E(Xn+1 − Xn |An ) ) ≤ EXn + E(E(Xn+1 − Xn |An ) ) = EXn + E(Xn+1 − Xn ) = EXn+1 . Falls die Bn nur die Werte 0 und 1 annehmen, wenn also der Spieler vor jedem Spiel nur entscheidet, ob er daran teilnimmt oder nicht, so spricht man von einer optionalen Auswahl (optional sampling) des Spielers. Diese Auswahl kann auch beschrieben werden durch die Zeitpunkte, in denen der Spieler aufhört zu spielen bzw. in denen er wieder zu spielen beginnt. Diese Zeitpunkte hängen vom bisherigen Spielverlauf ab und sind deshalb selbst Zufallsvariable. Derartige Zufallsvariable bezeichnet man als Stoppzeiten. Sie werden folgendermaßen definiert. Definition 16.23. Ist (An ) eine Filtration auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so nennt man eine Funktion T : Ω → N ∪ {∞} eine Stoppzeit, wenn [T ≤ n] ∈ An ∀ n ∈ N . Die Stoppzeit ist endlich, wenn P ( T = ∞ ) = 0 . Bemerkung 16.24. 1. Endliche Stoppzeiten werden auch Stoppregeln genannt. Allerdings sind diese Bezeichnungen nicht einheitlich; manche Autoren nennen T eine Stoppregel, wenn P ( T = ∞ ) > 0 , und sprechen von einer Stoppzeit, wenn T : Ω → N . 2. Die Bedingung [T ≤ n] ∈ An ∀ n in der obigen Definition der Stoppzeit ist n wegen [T = n] = [T ≤ n] \ [T ≤ n − 1] und [T ≤ n] = [T = i] äquivalent i=1
zu [T = n] ∈ An ∀ n . 3. T ≡ n ist trivialerweise eine Stoppzeit. 4. Sind T1 , T2 Stoppzeiten, so sind auch T1 ∨ T2 und T1 ∧ T2 Stoppzeiten wegen [T1 ∨ T2 ≤ n] = [T1 ≤ n] ∩ [T2 ≤ n] und [T1 ∧ T2 ≤ n] = [T1 ≤ n] ∪ [T2 ≤ n] . Lemma 16.25. Ist T eine Stoppzeit bezüglich der Filtration (An ) auf dem Wahrscheinlichkeitsraum (Ω, S, P ) , so ist AT := {A ∈ S : A ∩ [T = n] ∈ An ∀ n} eine σ-Algebra und T ist AT -messbar. Sind T1 , T2 Stoppzeiten mit T1 ≤ T2 P –fs , so gilt AT1 ⊆ AT2 . Insbesondere folgt aus T ≤ n P –fs , dass AT ⊆ An . Beweis. Offensichtlich gilt ∅ ∈ AT und Ω ∈ AT . Ist A ∈ AT , so folgt aus A ∩ [T = n] ∈ An auch Ac ∩ [T = n] = [T = n] \ ( A ∩ [T = n] ) ∈ An . Somit
16.2 Transformation von Submartingalen
279
gilt ∈ AT ⇒ Ac ∈ AT . Ist schließlich (Ai ) eine Folge aus AT , so gilt A Ai ∩ [T = n] = (Ai ∩ [T = n]) ∈ An , d.h. Ai ∈ AT . i i i [T = n] ∈ An , m = n , Wegen [T = m]∩[T = n] = ist T AT -messbar. ∅ ∈ An , m = n Ist T1 ≤ T2 und nA ∈ AT1 , so gilt A ∩ [T1 = i] ∈ An ∀ i ≤ n . Daraus folgt A ∩ [T2 = n] = A ∩ [T1 = i] ∩ [T2 = n] ∈ An , also A ∈ AT2 . i=1
Die letzte Aussage gilt, da aus T2 ≡ n folgt AT2 = An . Lemma 16.26. Mit den Bezeichnungen des vorigen Lemmas gilt für jede an eine Filtration (An ) adaptierte Folge von Zufallsvariablen Xn und jede endliche Stoppzeit T , dass XT := Xn 1[T =n] AT -messbar ist. n
Beweis. Ist B ∈ B , so gilt XT−1 (B) ∩ [T = n] = Xn−1 (B) ∩ [T = n] ∈ An für alle n ∈ N . Daraus folgt XT−1 (B) ∈ AT ∀ B ∈ B , d.h. XT ist AT -messbar. Satz 16.27. Ist (Xi , Ai )1≤i≤n ein Submartingal und sind Tj , j ∈ N Stoppzeiten mit 1 ≤ Tj ≤ Tj+1 ≤ n P –fs ∀ j , so ist (XTj , ATj ) ein Submartingal. Ist (Xi , Ai )1≤i≤n ein Martingal, so ist auch (XTj , ATj ) ein Martingal. + +n n + + + + + + + |Xi | sind die XTj integrierbar. Beweis. Wegen XTj = + Xi 1[Tj =i] ++ ≤ i=1
i=1
n . . XTj dP . Ist A ∈ ATj und Ai := A ∩ [Tj = i] ∈ Ai , so gilt A XTj dP = Ai i=1 . . Es reicht daher Ai XTj dP ≤ Ai XTj+1 dP ∀ i = 1, . . . , n zu zeigen, um . . X dP ≤ A XTj+1 dP zu beweisen. Da A ∈ ATj beliebig ist, impliziert A Tj dies die Submartingaleigenschaft von (XTj , ATj ) . Wegen Tj. ≤ Tj+1 ≤ n stimmen XTj und . . XTj+1 auf An überein mit Xn . Daraus folgt An XTj dP = An XTj+1 dP = An Xn dP . Für i < n ist die Folge Bk := 1[Tj+1 >k−1] , k = i + 1, . . . , n vorhersagbar bezüglich (Ak )i≤k≤n , da gilt [Tj+1 > k − 1] = [Tj+1 ≤ k − 1]c ∈ Ak−1 . (i) (i) (i) Definiert man Yi := Xi 1Ai und Yk := Yk−1 + Bk (Xk 1Ai − Xk−1 1Ai ) (i)
(i)
für k > i , so gilt auf Ai Yi = XTj und Yn = XTj+1 . Nach Satz 16.22 (i) (i) (i) ist (Yk , Ak )i≤k≤n ein Submartingal. Demnach gilt E(Yn |Ai ) ≥ Yi P –fs , . . . . (i) (i) und daraus folgt Ai XTj+1 dP = Ai Yn dP ≥ Ai Yi dP = Ai XTj dP . (i)
Ist (Xi , Ai ) ein Martingal, so ist nach Satz 16.22 (Yk , Ak )i≤k≤n ein Martingal. Deshalb ist auch (XTj , ATj ) ein Martingal. Bemerkung 16.28. Unter den und mit. den Bezeichnungen des . . Voraussetzungen obigen Satzes gilt natürlich XTj dP ≤ XTj+1 dP ≤ Xn dP . Folgerung 16.29. Ist (Xn , An ) ein Submartingal und T eine Stoppzeit, so ist (XT ∧n , An ) ebenfalls ein Submartingal. (XT ∧n , An ) ist ein Martingal, wenn (Xn , An ) eines ist.
280
16 Martingale
Beweis. Auf Tm := T ∧ m und Tn := T ∧ n , m < n treffen die Voraussetzunen von Satz 16.27 zu. Deshalb ist (XTi , ATi )i=m,n ein Submartingal (bzw. ein Martingal, wenn (Xn , An ) ein Martingal ist). Ist A ∈ Am , so liegt A ∩ [T ≥ m] j<m ∅ ∈ Aj , wegen A ∩ [T ≥ m] ∩ [Tm = j] = in ATm , A ∩ [T ≥ m] ∈ Am , j = m . . und daher gilt A∩[T ≥m] XTm dP ≤ A∩ [T ≥m] XTn dP . Auf [T < m] stimmen . . Tm und Tn überein, sodass A∩[T <m] XTm dP = A∩ [T <m] XTn dP . Somit gilt . . X dP ≤ A XTn dP ∀ A ∈ Am , und XTm ist ATm -messbar und demA Tm nach auch Am -messbar. Dies bedeutet E(XTn |Am ) ≥ XTm P –fs (die Ungleichungen werden durch Gleichungen im Martingalfall ersetzt). Also bilden die XTn auch ein Submartingal (Martingal) bezüglich (An ) . Auch die im nächsten Satz formulierten Ungleichungen lassen sich leicht mit Hilfe von Satz 16.27 herleiten Satz 16.30 (Doob’sche Extremal-Ungleichungen). Ist (Xn , An ) ein Submartingal auf einem Wahrscheinlickeitsraum (Ω, S, P ) und ε > 0 , so gilt 1 1 P max Xi ≥ ε ≤ E Xn+ ≤ E |Xn | , (16.15) 1≤i≤n ε ε % 1 $ E Xn+ − E X1 . (16.16) P min Xi ≤ −ε ≤ 1≤i≤n ε min{j : Xj ≥ ε}, ω ∈ A Beweis. Mit A := max Xi ≥ ε und T (ω) := 1≤i≤n n, ω ∈ Ac gilt 1 ≤ T ≤ n P –fs und A = [XT ≥ ε] ∈ AT . Daher folgt aus Satz 16.27 7 7 7 ε P (A) ≤ XT dP ≤ Xn dP ≤ Xn+ dP ≤ E Xn+ ≤ E |Xn | . A
A
A
min{j ≤ n : Xj ≤ −ε} , ω ∈ B n, ω ∈ Bc , 3 so folgt wegen 1 ≤ T, ≤ n und B = XT ≤ −ε ∈ AT abermals aus Satz 16.27 7 7 7 E X1 ≤ E XT = XT dP + XT dP ≤ XT dP − ε P (B) .
Ist B :=
min Xi ≤ −ε und T,(ω) :=
1≤i≤n
Bc
B
Bc
Umgeformt und unter nochmaliger Anwendung von Satz 16.27 ergibt das ⎛ ⎛ ⎞ ⎞ 7 7 1 ⎝ 1 P (B) ≤ XT dP − E X1 ⎠ ≤ ⎝ Xn dP − E X1 ⎠ ε ε Bc Bc ⎛ ⎞ 7 % 1 $ 1 E Xn+ − E X1 . ≤ ⎝ Xn+ dP − E X1 ⎠ ≤ ε ε Bc
16.2 Transformation von Submartingalen
281
Bemerkung 16.31. Aus Ungleichung (16.15) folgt die verallgemeinerte Ungleichung von Kolmogoroff unmittelbar, denn, wenn (Sn , An ) ein Martingal ist, so ist nach Satz 16.19 (Sn2 , An ) ein Submartingal und daher gilt mit S0 := 0
max |Si | ≥ ε
P
1≤i≤n
≤
max Si2 ≥ ε2
=P
1≤i≤n
n 1 1 ! 2 E S = E (Si −Si−1 )2 . n ε2 ε2 i=1
Sind die Stoppzeiten endlich aber unbeschränkt, so gilt folgender Satz. Satz 16.32. Ist (Xn , An )n∈N ein Submartingal und sind + T+j , j = 1, 2, . . . end+XT + < ∞ ∀ j und liche Stoppzeiten mit 1 ≤ T ≤ T P –fs , E j j+1 j . lim inf [Tj >n] |Xn | dP = 0 ∀ j , so ist (XTj , ATj ) ebenfalls ein Submartingal. n
Ist (Xn , An ) ein Martingal, so ist auch (XTj , ATj ) ein Martingal.
Beweis. Wir werden unter Verwendung der Bezeichnungen aus Satz 16.27 . . zeigen, dass gilt Ai XTj+1 dP ≥ Ai XTj dP ∀ i ∈ N , womit der Satz gemäß der Argumentation aus dem Beweis von Satz 16.27 bewiesen ist. Da auf Tj ∧ n und Tj+1 ∧ n Satz 16.27 anwendbar ist, gilt 7 7 7 $ % XTj+1 dP = XTj+1 ∧n dP + XTj+1 − XTj+1 ∧n dP Ai
Ai
7
7
≥
Ai
XTj ∧n dP + Ai
$
% XTj+1 − XTj+1 ∧n dP .
(16.17)
Ai
Auf Ai ∩ [Tj+1 ≤ n] stimmen Tj+1 und Tj+1 ∧ n überein. Daher gilt weiters 7 7 $ % $ % XTj+1 − XTj+1 ∧n dP = XTj+1 − XTj+1 ∧n dP Ai
Ai ∩[Tj+1 >n]
7
7 XTj+1 dP −
= Ai ∩[Tj+1 >n]
Xn dP .
(16.18)
Ai ∩[Tj+1 >n]
Weil Tj+1 eine endliche Stoppzeit ist, gilt [Tj+1 > n] ∅ mit n → ∞ . Daraus folgt Yn := 1Ai ∩[Tj+1 >n] XTj+1 → 0 P –fs , und, da die Yn offensichtlich durch XTj+1 ∈ L1 majorisiert werden, . impliziert dies nach dem Konvergenzsatz von Lebesgue (Satz 9.33) lim Ai ∩[Tj+1 >n] XTj+1 dP = 0 . n
Das 2-te Integral in der 2-ten Zeile von (16.18) konvergiert für eine Teilfolge (nk ) voraussetzungsgemäß gegen 0 . Daher kann das letzte Integral in n = nk beliebig klein gemacht werden. Somit gilt .(16.17) für geeignetes . X dP ≥ X dP . Aber auf Ai = A ∩ [Tj = i] stimmen Tj und T T ∧n j+1 j Ai Ai . . Tj ∧n für n ≥ i überein. Daraus folgt Ai XTj+1 dP ≥ Ai XTj dP . Ist (Xn , An ) ein Martingal, so wird. die Ungleichung . in (16.17) durch eine Gleichung ersetzt, und man erhält Ai XTj+1 dP = Ai XTj dP . Damit ist der Satz gezeigt.
282
16 Martingale
Das nächste Lemma zeigt, dass die gleichmäßige Beschränktheit der Integrale eines Submartingals durch eine schwächere Bedingung ersetzt werden kann. Lemma 16.33. Ist (Xn , An ) ein Submartingal mit sup E Xn+ < ∞ , so gilt n
sup E |Xn | ≤ |EX1 | + 2 n
sup E Xn+ n
< ∞.
(16.19)
Beweis. Aus |Xn | = Xn+ + Xn− = 2 Xn+ − Xn und EX1 ≤ EXn folgt E |Xn | = 2 EXn+ − EXn ≤ 2 EXn+ − EX1 ≤ 2 sup E Xn+ + |EX1 | < ∞ ∀ n . n
Der folgende Satz gibt Bedingungen an, unter denen die Integrale eines durch optionale Auswahl gebildeten Submartingals beschränkt sind. Satz 16.34. Ist (Xn , An )n∈N ein Submartingal, für das gilt sup E |Xn | < ∞ , n
und sind Tj , j+ = 1,+ 2, . . . endliche Stoppzeiten mit.1 ≤ Tj ≤ Tj+1 P –fs , ∀ j , so gilt sup E +XTj + < ∞ . Gilt außerdem lim inf [Tj >n] |Xn | dP = 0 ∀ j , so n j % $ ist XTj , ATj ein Submartingal. Beweis. Nach Satz 16.19 ist (Xn+ , An ) ein Submartingal, und klarerweise gilt C := sup E Xn+ ≤ sup E |Xn | < ∞ . Mit T0 := 1 ist laut Satz 16.27 n
n
(XT+j ∧m , ATj ∧m )j∈N0 ebenfalls ein Submartingal für alle m ∈ N, und wegen + Bemerkung 16.28 gilt E XT+j ∧m ≤ E Xm ≤ C < ∞ ∀ j . Nach Satz 16.27 ist aber auch +(XTj ∧m+, ATj ∧m )j∈N ein Submartingal, für das gemäß Lemma 16.33 gilt sup E +XTj ∧m + ≤ 2 C + |EXT0 ∧m | = 2 C + |E X1 | < ∞ . j
Da die Stoppzeiten Tj endlich sind, gilt lim Tj ∧ m = Tj , und daraus folgt + m + + + lim XTj ∧m = XTj P –fs . also auch lim +XTj ∧m + = +XTj + P –fs . Nach dem m + + +m + Lemma von Fatou gilt daher E +XTj + ≤ lim inf E +XTj ∧m + ≤ 2 C + |E X1 | ∀ j, m + + d.h. sup E +XT + ≤ 2 C + |E X1 | < ∞ . j
j
Die letzte Aussage des Satzes folgt nun unmittelbar aus Satz 16.32.
16.3 Konvergenzsätze für Submartingale Die Konvergenzaussagen dieses Abschnitts beruhen auf dem folgenden Satz. Satz 16.35 (Überquerungssatz von Doob). Ist (Xi , Ai )i=1,...,n ein Submartingal auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und bezeichnet man für zwei gegebene reelle Zahlen a < b mit Un (ω) , ω ∈ Ω die Häufigkeit, mit der die Folge (X1 (ω), . . . , Xn (ω) ) von einem Wert Xi (ω) ≤ a zu einem Wert Xj (ω) ≥ b , j > i wandert, so ist die Funktion Un : Ω → N0 messbar und es gilt E Un ≤
E(Xn − a)+ . b−a
(16.20)
16.3 Konvergenzsätze für Submartingale
Beweis. Ist A0 := Ω und Ak :=
k
1≤j1 T2j (ω) : Yi (ω) = 0 } , n } ∀ ω ∈ Ω , wobei, wie üblich min ∅ = ∞ gesetzt wird. Klarerweise gilt für diese Stoppzeiten 1 ≤ Ti ≤ Tj ≤ n P –fs ∀ 1 ≤ i < j ≤ n und Tn ≡ n P –fs . n n 2$ 2$ % % Aus Yn = YTn ≥ YTn − YT1 = YT2i − YT2i−1 + YT2i+1 − YT2i i=1
i=1
folgt 2 ! $ n
EYn ≥
i=1
%
2 ! $ n
EYT2i − EYT2i−1 +
% EYT2i+1 − EYT2i .
i=1
Da nach Bemerkung 16.28 gilt EYT2i+1 − EYT2i ≥ 0 , impliziert dies ⎛ n ⎞ n 2 2 ! ! $ % $ % EYT2i − EYT2i−1 = E ⎝ YT2i − YT2i−1 ⎠ . (16.21) EYn ≥ i=1
i=1
284
16 Martingale
Nun gilt für alle ω ∈ Ω YT1 (ω) = 0 oder YT1 (ω) = Yn (ω) aber auch YT2Un (ω)+1 (ω) = 0 oder YT2Un (ω)+1 (ω) = Yn (ω) . Daraus folgt Yn − YT1 ≥ 0
und
Yn − YT2Un +1 ≥ 0 .
(16.22)
Auf [Un = 0] gilt T2 = T3 = · · · = Tn = n P –fs . Daraus und aus der linken Ungleichung in (16.22) ergibt sich auf dieser Menge die Beziehung 2 ! $ n
% YT2i − YT2i−1 = Yn − YT1 ≥ 0 = d Un
P –fs .
(16.23)
i=1
Auf [Un > 0] gilt
n 2$
i=1
Un $ % % $ % YT2i − YT2i−1 = YT2i − YT2i−1 + Yn − YT2Un +1 . i=1
Das und die rechte Ungleichung in (16.22) führen auch auf dieser Menge zu 2 ! $ n
Un % ! $ % YT2i − YT2i−1 ≥ YT2i − YT2i−1 ≥ d Un
i=1
P –fs .
(16.24)
i=1
2$ % YT2i − YT2i−1 ≥ d Un P –fs auf ganz Ω , und daraus folgt Somit gilt i=1
n 2 $ % YT2i − YT2i−1 ≥ d EUn . Eingesetzt in (16.21) ergibt das nun E n
i=1
E(Xn − a)+ = EYn ≥ d EUn = (b − a) EUn , also die Behauptung des Satzes. Satz 16.36 (Konvergenzsatz von Doob für Submartingale). Ist (Xn , An ) ein Submartingal auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , für das gilt C := sup EXn+ < ∞ , so konvergiert Xn P –fs gegen ein X ∈ L1 (Ω, S, P ) . n
Beweis. Die Menge, auf der Xn nicht konvergiert, ist darstellbar als Vereinigung der Mengen Aa,b := [lim inf Xn < a < b < lim sup Xn ] , a, b ∈ Q , a < b . n
n
Ist für festes a < b Un definiert wie in Satz 16.35 als Anzahl der Überquerungen des Intervalls [a, b] durch X1 , . . . , Xn und ist U die Anzahl der Überquerungen von [a, b] durch die gesamte Folge (Xi ) , so gilt klarerweise Un U P –fs . Auf Aa,b gilt aber auch U ≡ ∞ , sodass aus P (Aa,b ) > 0 folgen müsste EU = ∞ . + n −a) ≤ C+|a| < ∞ ∀ n , sodass Satz 16.35 besagt jedoch E Un ≤ E(Xb−a b−a aus dem Satz über die Konvergenz durch Monotonie folgt EU ≤ C+|a| b−a < ∞ . Somit gilt P (Aa,b ) = 0 ∀ a < b , a, b ∈ Q , d.h. X := lim Xn existiert P –fs . n
, := sup E |Xn | < ∞ , sodass das Lemma von Aus Lemma 16.33 folgt C n
, < ∞ führt. Daher ist X integrierbar und Fatou zu E |X| ≤ lim inf E |Xn | ≤ C n
P –fs endlich.
16.3 Konvergenzsätze für Submartingale
285
Bemerkung 16.37. Ist (Sn , An ) ein Martingal mit den Differenzen X1 := S1 , Xn := Sn −Sn−1 , n ≥ 2 , so sind die Xnn Differenzen des Martingals (Tn , An ) mit n ∞ Xi Var Xi Tn := . Gilt nun sup E Tn2 = < ∞ , so erfüllt das Submartingal i i2 n
i=1
i=1
(Tn2 , An ) die Voraussetzungen des obigen Satzes. Daher konvergiert Tn2 gegen n Xi ein integrierbares T 2 P –fs . Daraus folgt lim Tn = P –fs . Dies i = T n
impliziert nach dem Lemma von Kronecker lim n
1 n
n
i=1
Xi = 0
P –fs . Somit gilt
i=1
Kolmogoroffs 1-tes Gesetz der großen Zahlen auch für Martingaldifferenzen. auf eiSatz 16.38. Ist (Xn , An ) ein gleichmäßig integrierbares Submartingal An , so gibt es nem Wahrscheinlichkeitsraum (Ω, S, P ) und A∞ := Aσ n
ein X∞ ∈ L1 , sodass (Xn , An )n∈N∪{∞} ein Submartingal ist und gilt lim Xn = X∞ n
P –fs ∧ lim !Xn − X∞ !1 = 0 . n
Falls(Xn , An ) ein Martingal ist, dann ist auch (Xn , An )n∈N∪{∞} eines. In diesem Fall gilt daher Xn = E(X∞ |An ) P –fs ∀ n ∈ N , d.h. jedes gleichmäßig integrierbare Martingal ist ein Doob-Martingal. Beweis. Wegen Satz 13.29 Punkt 1. gilt ∞ > C := sup E |Xn | ≥ sup E Xn+ . n
n
Daher existiert nach dem Konvergenzsatzes von Doob ein X∞ ∈ L1 mit lim Xn = X∞ P –fs . Die Xn konvergieren natürlich auch in Wahrscheinn
lichkeit gegen X∞ , sodass aus Satz 13.32 folgt lim !Xn − X∞ !1 = 0 . n
X∞ ist als Limes der A∞ -messbaren Funktionen Xn ebenfalls A∞ -messbar. Für jedes A ∈ S sind mit den Xn auch die Xn 1A gleichmäßig integrierbar und. konvergieren . P –fs gegen X∞ 1A . Daher folgt aus Satz 13.31 Punkt 2. lim A Xn dP = A X∞ dP . Für A ∈ Am und alle n ≥ m gilt demnach n
7
7
7 Xm dP ≤
A
7
Xn dP ≤ lim
Xi dP =
i
A
A
X∞ dP .
(16.25)
A
Das ist aber äquivalent zu Xm ≤ E (X∞ |Am ) P –fs , d.h. (Xn , An )n∈N∪{∞} ist gleichfalls ein Submartingal. Ist (Xn , An ) ein Martingal, so wird (16.25) zu 7 7 7 7 Xm dP = Xn dP = lim Xi dP = X∞ dP , i
A
A
also gilt Xm = E (X∞ |Am )
A
P –fs
∀ m ∈ N.
Umgekehrt gilt für Doob-Martingale.
A
286
16 Martingale
Satz 16.39. Besitzt die Zufallsvariable X auf dem Wahrscheinlichkeitsraum (Ω, S, P ) einen endlichen Erwartungswert und ist {Ai : i ∈ I} eine Familie von Subsigmaalgebren, so sind die Xi := E (X|A i ) gleichmäßig integrierbar. An und X∞ := E (X|A∞ ) , so ist Ist (An )n∈N eine Filtration A∞ := Aσ n
(Xn , An )n∈N∪{∞} ein Martingal, d.h. Xn = E (X∞ |An ) lim Xn = X∞ n
P –fs und es gilt
P –fs ∧ lim !Xn − X∞ !1 = 0 . n
.
Beweis. ν(A) := A |X| dP ist absolut stetig bezüglich P . Daher gibt es zu jedem ε > 0 ein δ > 0 , sodass aus P (A) ≤ δ folgt ν(A) ≤ ε . Weiters impliziert c P (|Xi | ≥ c) ≤ E |Xi | = E |E(X|Ai )| ≤ E (E (|X| |Ai ) ) = E |X| < ∞ ∀ i ∈ I , sowohl Bedingung 1. aus Satz 13.29, als auch sup P (|Xi | ≥ c) ≤ δ für c>
E |X| δ
i
. Daher und wegen [|Xi | ≥ c] ∈ Ai gilt für solches c und alle i ∈ I 7 7 |X| dP = E(|X| |Ai ) dP ε ≥ ν( |Xi | ≥ c ) = [|Xi |≥c]
7
7
|E(X|Ai )| dP =
≥ [|Xi |≥c]
[|Xi |≥c]
|Xi | dP . [|Xi |≥c]
Somit sind die Xi gleichmäßig integrierbar. Ist (An ) eine Filtration, so folgt bereits aus Satz 16.13, dass die (Xn , An )n∈N ein Martingal bilden. Da dieses Martingal gleichmäßig integrierbar ist, existiert nach Satz 16.38 eine A∞ -messbare Zufallsvariable X∞ , sodass auch (Xn , An )n∈N∪{∞} ein Martingal ist, also gilt Xn = E (X∞ |An ) P –fs , und gegen das die Xn im Mittel und P –fs konvergieren. Wegen Xn = E (X|An ) und Xn = E (X∞ |An ) gilt für jedes A ∈ An und n ∈ N 7 7 7 7 X∞ dP = Xn dP = E (X|An ) dP = X dP . A
A
A
.
A
.
Somit stimmen ρ(A) := A X dP und μ(A) := A X∞ dP auf der AlgeAn überein. Laut Eindeutigkeitsssatz (Satz 4.13) gilt deshalb auch bra n . . X dP = A X∞ dP ∀ A ∈ A∞ ⇒ X∞ = E (X|A∞ ) P –fs . A Bemerkung 16.40. Die Sätze 16.38 und 16.39 zeigen, dass die Doob-Martingale gerade den gleichmäßig integrierbaren Martingalen entsprechen. Wie aus Beispiel 16.15 ersichtlich, ist somit nicht jedes Martingal gleichmäßig integrierbar. Zum Abschluss noch ein Satz über rückwärts gerichtete Submartingale. Satz 16.41. Ist (Xn , An )n∈N ein rückwärts gerichtetes Submartingal und ist A0 := An , so existiert die A0 -messbare Grenzfunktion X∞ := lim Xn P –fs . n
n
16.3 Konvergenzsätze für Submartingale
287
Gilt zudem inf E Xn > −∞ , so ist X∞ integrierbar. n
Ist (Xn , An )n∈N ein rückwärts gerichtetes Martingal, dann gilt lim Xn = X∞ = E (X1 |A0 )
P –fs und lim !Xn − E (X1 |A0 )!1 = 0 .
n
n
Beweis. Für jedes n ∈ N ist (Xi , Ai )i=n,...,1 voraussetzungsgemäß ein Submartingal. Ist Un für a < b , a, b ∈ Q die Anzahl der Überqerungen von [a, b] + 1 −a) durch (Xi , Ai )i=n,...,1 , so gilt nach Satz 16.35 E Un ≤ E (Xb−a < ∞ . Daher muss auch für U die Anzahl aller Überqerungen von [a, b] durch (Xi , Ai )i∈N wegen Un U nach dem Satz über die Konvergenz durch Monotonie gelten + 1 −a) E U ≤ E (Xb−a < ∞ , woraus entsprechend der Argumentation im Beweis von Satz 16.36 folgt, dass X∞ := lim Xn P –fs existiert. n
Für jedes m ∈ N sind alle Xn mit n ≥ m Am -messbar. Somit ist auch X∞ als Grenzfunktion Am -messbar ∀ m ∈ N , d.h. X∞ ist A0 -messbar. Nach Satz 16.19 ist (Xi+ , Ai )i=n,...,1 ebenfalls ein Submartingal, also gilt E Xn+ ≤ E X1+ . Daraus zusammen mit |Xn | = 2 Xn+ − Xn folgt nun E |Xn | = 2 E Xn+ − E Xn ≤ C := 2 E X1+ − inf E Xi < ∞ ∀ n ∈ N . Daher imi
pliziert das Lemma von Fatou E |X∞ | = E lim inf |Xn | ≤ lim inf E |Xn | ≤ sup E |Xn | ≤ C < ∞ . n
n
n
Für rückwärts gerichtete Martingale gilt Xn = E (X1 |An ) ∀ n ∈ N . Daher sind die Xn gemäß Satz 16.39 gleichmäßig integrierbar, sodass aus Satz 13.32 und lim Xn = X∞ P –fs folgt lim !Xn − X∞ !1 = 0 . n
n
Aber auch die Xn 1A sind für alle A ∈ S gleichmäßig integrierbar, und es gilt lim Xn 1A = X∞ 1A P –fs . Aus Satz 13.31 Punkt 2. folgt daher n . . X dP = lim A Xn dP . Dies und A0 ⊆ An ∀ n ∈ N ergibt für A ∈ A0 A ∞ n
7
7 X∞ dP = lim n
A
7 n
A
7 E(X1 |An ) dP = lim
Xn dP = lim
n
A
7 X1 dP =
A
Dies ist äquivalent zu X∞ = E (X1 |A0 )
P –fs , da X∞
X1 dP . A
A0 -messbar ist.
Aus dem obigen Satz kann man sehr leicht Kolmogoroffs 2-tes Gesetz der großen Zahlen herleiten und sogar um die L1 -Konvergenz erweitern. Folgerung 16.42. Ist (Xn ) eine Folge unabhängig, identisch verteilter Zufallsvariabler auf einem Wahrscheinlichkeitsraum (Ω, S, P ) mit endlichem Erwarn Xi tungswert E X , so gilt für die Summen Sn := i=1
lim
n→∞
1 Sn = E X n
P –fs
∧
C C C C1 C = 0. lim C − E X S n C C n→∞ n 1
(16.26)
288
16 Martingale
Beweis. Die bedingten Erwartungen E(X1 |Sn , Sn+1 , . . .) bilden zusammen mit gerichtetes Martingal. Unden σ-Algebren S(Sn , Sn+1 , . . .) ein rückwärts ter Verwendung der Bezeichnung S0 := S(Sn , Sn+1 , . . .) folgt daher aus n
Satz 16.41, dass E (X1 |Sn , Sn+1 , . . .) sowohl P –fs als auch im Mittel gegen E (X1 |S0 ) konvergiert. Da jedoch, wie in Lemma 14.16 gezeigt, gilt 1 S = E (X1 |Sn , Sn+1 , . . .) P –fs , ist dies äquivalent zu n n C C C1 C 1 C lim Sn = E (X1 |S0 ) P –fs ∧ lim C Sn − E (X1 |S0 )C C = 0 . (16.27) n n n n 1 Nun haben wir in Beispiel 7.59 gezeigt, dass lim n1 Sn eine terminale Funktion n
und daher P –fs konstant ist. Wegen E X = E X1 = E ( E (X1 |S0 ) ) muss diese Konstante aber mit E X P –fs übereinstimmen. Bemerkung 16.43. Dass E (X1 |S0 ) konstant ist, kann man auch aus dem NullEins-Gesetz von Hewitt-Savage herleiten, denn die Summen Sn , Sn+1 , . . . ändern sich durch eine Permutation der ersten n Summanden X1 , . . . , Xn nicht. Die Mengen aus S0 = S(Sn , Sn+1 , . . .) werden daher durch keine Permutation n
von endlich vielen Koordinaten beeinflusst und sind somit symmetrisch, d.h. sie haben Wahrscheinlichkeit 0 oder 1 .
17 Verteilungskonvergenz und Grenzwertsätze
17.1 Schwache Konvergenz Häufig muss man in der Wahrscheinlichkeitstheorie Verteilungen approximieren. Dem dient das folgende Konvergenzkonzept, das wir hier nur für den Raum (R , B) vorstellen, obwohl es in einfacher Weise auf metrische Räume verallgemeinert werden kann. Definition 17.1. Eine Folge endlicher Maße μn auf (R , B) bzw. die Folge der zugehörigen Verteilungsfunktionen Fn konvergiert schwach gegen das endliche Maß μ bzw. seine Verteilungsfunktion F (i.Z. μn ⇒ μ bzw. Fn ⇒ F ), wenn für jeden Stetigkeitspunkt x von F (d.h. F− (x) = F (x)) gilt lim Fn (x) = F (x) . n→∞
Werden die Verteilungsfunktionen Fn und F durch Zufallsvariable Xn und X induziert (d.h. die Fn und F sind Verteilungsfunktionen i.e.S.), die nicht auf demselben Wahrscheinlichkeitsraum definiert sein müssen, so sagt man auch die Fn konvergieren in Verteilung (oder stochastisch) gegen F , wobei man diese Ausdrucksweise für die Zufallsvariablen Xn und X ebenfalls verwendet und dann Xn ⇒ X schreibt. Der Limes wird durch die schwache Konvergenz eindeutig bestimmt. Lemma 17.2. Sind Fn , n ∈ N , F und G Verteilungsfunktionen auf R , so folgt aus Fn ⇒ F und Fn ⇒ G , dass gilt F = G . Beweis. F und G haben als Verteilungsfunkionen nur höchstens abzählbar viele Unstetigkeitsstellen. Zudem sind sie rechtsstetig. Daher gibt es zu jedem x ∈ R eine Folge (xk ) mit xk x , die nur aus Stetigkeitspunkten von F und G besteht. Daher gilt F (xk ) = lim Fn (xk ) = G(xk ) ∀ k ∈ N . Daraus folgt n
F (x) = lim F (xk ) = lim G(xk ) = G(x) . k
k
Dass es sinnvoll ist nur Konvergenz in den Stetigkeitspunkten von F zu verlangen, wird durch das folgende Beispiel verdeutlicht.
290
17 Verteilungskonvergenz und Grenzwertsätze
Beispiel 17.3. Die gesamte Masse der Wahrscheinlichkeitsverteilungen Pn mit den Verteilungsfunktionen Fn (x) := n (x − a) 1[a,a+ n1 ] (x) + 1(a+ n1 ,∞) (x) liegt in den Intervallen [a, a + n1 ] , die mit wachsendem n gegen {a} gehen. Daher sollten sie die Kausalverteilung im Punkt a mit der Verteilungsfunktion F (x) := 1[a ,∞) (x) als Grenzverteilung besitzen. Tatsächlich gilt lim Fn (x) = F (x) ∀ x = a . Aber aus Fn (a) = 0 ∀ n ∈ N n
folgt lim Fn (a) = 0 = F (a) = 1 . Der Name wird dadurch gerechtfertigt, dass selbst Konvergenz in Wahrscheinlichkeit schwache Konvergenz impliziert. Satz 17.4. Ist (Xn ) eine Folge von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , die in Wahrscheinlichkeit gegen die Zufallsvariable X konvergiert, so konvergiert die Folge auch in Verteilung gegen X . Beweis. Für alle ε > 0 gilt [ X ≤ x − ε ] \ [ |Xn − X| > ε ] ⊆ [ Xn ≤ x ] und [ Xn ≤ x ] ⊆ [ X ≤ x + ε ] ∪ [ |Xn − X| > ε ] . Daraus folgt für die durch die Xn und X induzierten Verteilungsfunktionen Fn undF F (x − ε) − P (|Xn − X| > ε) ≤ Fn (x) ≤ F (x + ε) + P (|Xn − X| > ε) Ist x ein Stetigkeitspunkt von F ergibt sich demnach lim Fn (x) = F (x) . n
Der obige Satz lässt sich i.A. schon deshalb nicht umkehren, weil die Zufallsvariablen Xn und X bei Verteilungskonvergenz nicht einmal auf demselben Wahrscheinlichkeitsraum definiert sein müssen. Aber wenn die Xn stochastisch gegen eine Konstante konvergieren (d.h. die induzierten Verteilungen konvergieren gegen eine Kausalverteilung), dann gilt folgende Aussage: Satz 17.5. Sind Xn Zufallsvariable auf beliebigen Wahrscheinlichkeitsräumen (Ωn , Sn , Pn ) , dann folgt aus Xn ⇒ a ∈ R auch lim Pn (|Xn − a| > ε) = 0 ∀ ε > 0 . n
Beweis. Bezeichnet man mit Fn jeweils die Verteilungsfunktion von Xn und ist ε > 0 , so folgt aus [ |Xn − a| > ε ] ⊆ [ Xn > a + ε ] ∪ [ Xn ≤ a − ε ] , dass gilt Pn (|Xn − a| > ε) ≤ 1 − Fn (a + ε) + Fn (a − ε) . Aber Xn ⇒ a ist äquivalent zu lim Fn (x) = 0 ∀ x < a und lim Fn (x) = 1 ∀ x > a . Somit impliziert die n
n
eben gezeigte Ungleichung lim Pn (|Xn − a| > ε) = 0 ∀ ε > 0 . n
Wenngleich man aus der Verteilungskonvergenz nicht auf fast sichere Konvergenz schließen kann, so lässt sich doch zu jeder Folge (Fn ) von Verteilungsfunktionen, die stochastisch gegen eine Verteilungsfunktion F konvergieren, ein Wahrscheinlichkeitsraum mit Zufallsvariablen Xn ∼ Fn und X ∼ F konstruieren, sodass lim Xn → X fs. Dies ist der Inhalt des Darstellungssatzes n
von Skorochod mit dessen Hilfe sich viele Sätze über Verteilungskonvergenz stark vereinfacht beweisen lassen. Das Kernstück der Skorochod-Konstruktion bildet die folgende Aussage, die wir als eigenen Satz formulieren.
17.1 Schwache Konvergenz
291
Satz 17.6. Konvergieren die Verteilungsfunktionen Fn stochastisch gegen die Verteilungsfunktion F , so konvergieren die inversen Verteilungsfunktionen Fn−1 auf (0, 1) in jedem Stetigkeitspunkt von F −1 gegen F −1 . Beweis. Da F als monotone Funktion nur höchstens abzählbar viele Unstetigkeitsstellen besitzt (siehe Lemma 12.5), gibt es zu jedem p ∈ (0, 1) und ε > 0 ein x aus CF , der Menge der Stetigkeitspunkte von F mit F −1 (p) − ε < x < F −1 (p) . Wegen Satz 8.15 Punkt 1. gilt F (x) < p und, da die Fn in x gegen F konvergieren, muss deshalb auch für jedes hinreichend große n gelten Fn (x) < p , sodass wieder aus Satz 8.15 Punkt 1. folgt Fn−1 (p) ≥ x . Dies impliziert aber lim inf Fn−1 (p) ≥ x > F −1 (p) − ε . Da ε > 0 n
in dieser Ungleichung beliebig ist, folgt daraus lim inf Fn−1 (p) ≥ F −1 (p) . n
Ist umgekehrt 0 < p < 1 ein Stetigkeitspunkt von F+−1 und ε > 0 , so gibt + es ein δ > 0 , sodass aus |q − p| < δ und q ∈ (0, 1) folgt +F −1 (q) − F −1 (p)+ < ε . Für jedes q mit p < q < min{p + δ, 1} gilt daher F −1 (q) < F −1 (p) + ε , und es gibt ein x ∈ CF mit F −1 (q) < x < F −1 (p) + ε . Wieder folgt daraus nach Satz 8.15 Punkt 1. F (x) ≥ q > p , sodass für alle hinreichend großen n gelten muss Fn (x) > p , was seinerseits Fn−1 (p) ≤ x impliziert. Somit gilt lim sup Fn−1 (p) ≤ x < F −1 (p) + ε ∀ ε > 0 . Daraus folgt n
lim sup Fn−1 (p) ≤ F −1 (p) . Zusammen mit F −1 (p) ≤ lim inf Fn−1 (p) ergibt das n
n
F −1 (p) = lim Fn−1 (p) für jeden Stetigkeitspunkt von F −1 . n
Folgerung 17.7 (Darstellungssatz von Skorochod). Konvergieren die Verteilungsfunktionen Fn stochastisch gegen die Verteilungsfunktion F , so gibt es auf dem Wahrscheinlichkeitsraum ( ( 0, 1), B ∩ (0, 1), λ) eine λ–fs konvergente Folge von Zufallsvariablen Xn mit Xn ∼ Fn ∀ n ∈ N und X := lim Xn ∼ F . n
Beweis. Die auf ( ( 0, 1), B ∩ (0, 1), λ ) definierten Zufallsvariablen Xn := Fn−1 und X := F −1 haben nach Satz 8.16 die Verteilungsfunktionen Fn und F . Zudem konvergieren die Fn−1 , wie eben gezeigt in jedem Stetigkeitspunkt von F −1 gegen F −1 . Nach Lemma 12.5 hat F −1 nur höchstens abzählbar viele Unstetigkeitsstellen. Daher ist die Menge der Sprungstellen von F −1 eine λ-Nullmenge, also gilt lim Xn = lim Fn−1 = F −1 = X λ–fs . n
n
Das englische Wort „ portmanteau “, was soviel wie Handkoffer bedeutet, dient als Namensgeber für den folgenden Satz. Denn, so wie ein Handkoffer notwendige Utensilien für die Reise enthält, beinhaltet er wichtige Kriterien für die Verteilungskonvergenz. Er ist sehr einfach mit Hilfe des Darstellungssatzes herleitbar. Satz 17.8 (Portmanteau-Satz). Sind Pn , n ∈ N und P Wahrscheinlichkeitsmaße auf (R, B) mit den Verteilungsfunktionen Fn und F , so sind die folgenden Aussagen zueinander äquivalent: 1. Pn ⇒ P .
292
2. 3.
17 Verteilungskonvergenz und Grenzwertsätze
.
f dP ≤ lim inf n
.
f dPn für alle beschränkten Funktionen f , die
P –fs von
unten halbstetig sind . (siehe Definition A.26). . f dP ≥ lim sup f dPn für alle beschränkten Funktionen f , die
P –fs
n
4.
von sind (siehe Definition A.26). . oben halbstetig . f dP = lim f dPn für alle beschränkten und P –fs stetigen Funktionen f . n
5. P (U ) ≤ lim inf Pn (U ) für alle offenen Mengen U . n
6. P (A) ≥ lim sup Pn (A) für alle abgeschlossenen Mengen A . n
7. P (A) = lim Pn (A) für alle Mengen A , deren Rand eine P -Nullmenge ist. n . . 8. f dP = lim f dPn für alle beschränkten, 2-fach differenzierbaren Funkn
tionen f mit beschränkten und gleichmäßig stetigen Ableitungen f und f . Beweis. 1. ⇒ 2. ∧ 3. : f ist genau dann von unten halbstetig, wenn −f von oben halbstetig ist (siehe Bemerkung A.27). Daher sind die Aussagen 2. und 3. zueinander äquivalent, sodass es reicht 2. aus 1. herzuleiten. Gilt Pn ⇒ P , so gibt es dem Darstellungssatz von Skorochod zufolge auf ( ( 0, 1), B ∩ (0, 1), λ) Zufallsvariable Xn ∼ Pn und X ∼ P mit lim Xn = X λ–fs . Ist A := {ω ∈ (0, 1) : f (X(ω)) > lim inf f (Xn (ω))} und n
n
B := {x ∈ R : ∃ (xn ) mit lim xn = x ∧ f (x) > lim inf f (xn )} , so gilt n
n
ω ∈ A ⇒ X(ω) ∈ B , d.h. A ⊆ X −1 (B) . B ist aber eine P -Nullmenge. $ % Demnach existiert ein N ∈ B mit B ⊆ N und 0 = P (N ) = λ X −1 (N ) (die Gleichung rechts gilt, da P durch X induziert wird). Somit ist A eine λ-Nullmenge, also gilt f ◦ X ≤ lim inf f ◦ Xn λ–fs . Zudem gilt n
|f ◦ Xn | ≤ C := sup |f (x)| < ∞ ∀ n ∈ N . Deshalb sind f ◦ Xn und x
lim inf f ◦ Xn integrierbar und die Voraussetzungen für das Lemma von n
Fatou (Folgerung 9.32) erfüllt. Damit erhält man in Verbindung mit dem Transformationssatz (Satz 9.62) 7 7 7 7 f dP = f dλX −1 = f ◦ X dλ ≤ lim inf f ◦ Xn dλ n 7 7 7 −1 ≤ lim inf f ◦ Xn dλ = lim inf f dλXn = lim inf f dPn . n
n
n
2. ∧ 3. ⇒ 4. : Ist f P –fs stetig, so ist es P –fs halbstetig von unten und von oben (siehe Bemerkung A.27 Punkt 1.). Daher gilt 7 7 7 7 f dP ≤ lim inf f dPn ≤ lim sup f dPn ≤ f dP . n
n
2. ⇒ 5. ∧ 3. ⇒ 6. : Nach Folgerung A.23 sind die Indikatoren der offenen Mengen halbstetig von unten und die Indikatoren der abgeschlossenen Mengen halbstetig von oben. Daher ist Punkt 5. nur ein Spezialfall von Punkt 2. und Punkt 6. ein Spezialfall von Punkt 3.
17.2 Der klassische zentrale Grenzverteilungssatz
293
◦
5. ∧ 6. ⇒ 7. : Ist A das Innere von A und A¯ seine abgeschlossene Hülle, ◦ ¯ . Daher gilt so folgt aus P (∂A) = 0 offensichtlich P (A) = P (A) = P (A) ◦
◦
P (A) = P (A) ≤ lim inf Pn (A) ≤ lim inf Pn (A) n
n
¯ ≤ P (A) ¯ = P (A) . ≤ lim sup Pn (A) ≤ lim sup Pn (A) n
n
7. ⇒ 1. : Der Rand von (−∞, x] besteht nur aus dem Punkt x . Ist nun x ein Stetigkeitspunkt von F , so gilt P ({x}) = F (x) − F − (x) = 0 , und aus Punkt 7. folgt F (x) = P ( (−∞, x] ) = lim Pn ( (−∞, x] ) = lim Fn (x) . n
4. ⇒ 8. : Dies ist trivial. 8. ⇒ 1. : Ist y < z , so hat die Funktion fyz , definiert durch
fyz (x) :=
die Ableitungen fyz (x) =
⎪ ⎪ ⎪ ⎩
1−
"
x−y z−y
#3 3
x≤y ,
(17.1)
y<x 0 , so konvergieren die standardisierten Sumn Yi√ −μ men Tn := in Verteilung gegen N (0, 1) . σ n i=1
Beweis. Nach Folgerung 8.18 existiert auf einem Wahrscheinlichkeitsraum (Ω, S, P ) eine iid Folge (Xn ) mit Xn ∼ N (0, 1) ∀ n ∈ N . Für die Sumn Xi √ gilt dann Sn ∼ N (0, 1) ∀ n ∈ N (vgl. Beispiel 10.76), men Sn := n i=1 " # woraus trivialerweise folgt P Sn−1 ⇒ N (0, 1) . Wegen E Ynσ−μ = 0 und # " Var Ynσ−μ = 1 gilt daher nach dem vorigen Satz auch P Tn−1 ⇒ N (0, 1) .
17.3 Schwache Kompaktheit Wir haben bisher, entweder immer angenommen oder es hat sich aus den Satzvoraussetzungen ergeben, dass das Grenzmaß gegen das eine Folge von Wahrscheinlichkeitsverteilungen konvergiert, selbst eine Wahrscheinlichkeitsverteilung ist. Das muss i.A. nicht der Fall sein, wie das nächste Beispiel zeigt.
17.3 Schwache Kompaktheit
297
Beispiel 17.11. Für die Verteilungsfunktionen Fn (x) := 1[n,∞) (x) gilt Fn ⇒ 0. Aber es gilt die folgende Aussage, die von grundlegender Bedeutung ist. Satz 17.12 (Satz von Helly). Jede Folge (Fn ) von Verteilungsfunktionen auf R , die gleichmäßig beschränkt ist, für die also Konstante a, b ∈ R existieren mit a ≤ Fn (−∞) ≤ Fn (∞) ≤ b ∀ n ∈ N , enthält eine Teilfolge (Fnk ) , die schwach gegen eine Verteilungsfunktion F mit a ≤ F (−∞) ≤ F (∞) ≤ b konvergiert. Beweis. Wir betrachten die Verteilungsfunktionen zunächst auf den durchnummerierten rationalen $ %Zahlen q1 , q2 , . . . . Da die Folge Fn (q1 ) beschränkt ist, gibt es eine konvergente Teilfolge $ % Fn(1) (q1 ) mit F, (q1 ) := lim Fn(1) (q1 ) (siehe Folgerung A.38). k k k % $ Fn(1) (q2 ) ist ebenfalls beschränkt und daher gibt es eine konvergente Teilk $ % $ % folge Fn(2) (q2 ) von Fn(1) (q2 ) mit F, (q2 ) := lim Fn(2) (q2 ) . Da aber auch k k k k % $ % $ Fn(2) (q1 ) eine Teilfolge von Fn(1) (q1 ) ist, gilt weiters F,(q1 ) = lim Fn(2) (q1 ) . k k k " # k (j) Im j-ten Schritt erhält man auf diese Art eine Teilfolge nk , die in allen # " (i) Folgen nk , i < j enthalten ist. Daher gilt lim Fn(j) (qi ) = F,(qi ) ∀ i ≤ j . k " k # (k) Da für jedes j ∈ N die Glieder der Diagonalfolge nk mit Indices k ≥ j in # " (j) der Folge nm enthalten sind, gilt lim Fn(k) (qj ) = F, (qj ) ∀ j ∈ N . k
k
Die Funktion F, : Q → [a, b] ist monoton steigend, denn aus qi < qj folgt Fn (qi ) ≤ Fn (qj ) ∀ n ∈ N und damit auch F, (qi ) ≤ F, (qj ) . Durch F (x) := inf F, (q) wird nun eine Funktion F : R → [a, b] definiert, x qˆ zwar folgt F,(ˆ q ) ≤ F (ˆ q ) , dass , aber nicht gelten muss F (ˆ q ) = F (ˆ q ) . Aber die obige Definition garantiert die Rechtsstetigkeit von F , denn auf Grund der Definition von F gibt es für alle ε > 0 ein rationales q > x , für das gilt F (x) ≤ F,(q) < F (x) + ε . Nun existiert für jede Folge (xn ) , die von rechts gegen x konvergiert, ein n0 , sodass xn < q ∀ n ≥ n0 ⇒ F (xn ) ≤ F, (q) < F (x) + ε ∀ n ≥ n0 . Andererseits gilt F (x) ≤ F (xn ) ∀ n ∈ N . Das ergibt insgesamt lim F (xn ) = F (x) . n
Ist nun x ein Stetigkeitspunkt von F , so existiert zu jedem ε > 0 ein δ > 0 , sodass aus |x − y| < δ folgt |F (x) − F (y)| < ε . Wählt man q , q ∈ Q und y ∈ R so, dass x − δ < y < q < x < q < x + δ , so gilt F (x) − ε < F (y) ≤ F, (q ) ≤ F (x) ≤ F, (q ) ≤ F (q ) < F (x) + ε .
(17.10)
Mit limFn(k) (x) := lim inf Fn(k) (x) und limFn(k) (x) := lim sup Fn(k) (x) gilt k
k
k
k
k
k
F,(q ) = lim Fn(k) (q ) ≤ limFn(k) (x) ≤ limFn(k) (x) ≤ lim Fn(k) (q ) = F, (q ) . k
k
k
k
k
k
(17.11)
298
17 Verteilungskonvergenz und Grenzwertsätze
Da ε > 0 beliebig gewählt werden kann, folgt aus (17.10) und (17.11) F (x) = lim inf Fn(k) (x) = lim sup Fn(k) (x) = lim Fn(k) (x) . k
k
k
k
k
k
Damit ist der Satz bewiesen. Um sicherzustellen, dass eine schwach konvergente Folge von Verteilungsfunktionen i.e.S. gegen eine Verteilungsfunktion i.e.S. konvergiert, benötigt man die folgende, zusätzliche Bedingung. Definition 17.13. Eine Menge {Fi : i ∈ I} von Verteilungsfunktionen i.e.S. heißt straff, wenn es zu jedem ε > 0 eine Konstante 0 < M < ∞ gibt, für die gilt inf [Fi (M ) − Fi (−M )] > 1 − ε . i∈I
Damit gilt: Satz 17.14 (Satz von Prochorov). Eine Menge F := {Fi : i ∈ I} von Verteilungsfunktionen i.e.S. ist straff genau dann, wenn jede Folge daraus eine Teilfolge enthält, die schwach gegen eine Verteilungsfunktion i.e.S. konvergiert. Beweis. ⇒ : Ist (Fn ) eine Folge aus F , so folgt aus dem Satz von Helly, dass eine Teilfolge (Fnk ) existiert, die schwach gegen eine Verteilungsfunktion F mit 0 ≤ F (−∞) ≤ F (∞) ≤ 1 konvergiert. Da F straff ist, gibt es zu jedem ε > 0 ein 0 < M < ∞ , sodass sup Fi (−M ) < ε und inf Fi (M ) > 1 − ε . Sind nun x < −M und y > M i
i
zwei Stetigkeitspunkte vonF , so gelten folgende Beziehungen F (−∞) ≤ F (x) = lim Fnk (x) ≤ sup Fi (x) ≤ sup Fi (−M ) < ε k
i
i
F (∞) ≥ F (y) = lim Fnk (y) ≥ inf Fi (y) ≥ inf Fi (M ) > 1 − ε . i
k
i
Daraus folgt sofort F (−∞) = 0 und F (∞) = 1 . ⇐ : Ist F nicht straff, so existiert ein ε > 0 , für das gilt ε ∀ n ∈ N. inf [ Fi (n) − Fi (−n) ] ≤ 1 − ε < 1 − i∈I 2 Daher gibt es zu jedem n ein Fin mit Fin (n) − Fin (−n) < 1 − 2ε . Nach dem Satz von Helly enthält (Fin ) aber eine Teilfolge (Fink ) mit Fink ⇒ F . Sind x < 0 < y beliebige Stetigkeitspunkte von F , so gilt (x, y] ⊆ (−nk , nk ] für fast alle k . Daraus folgt " # F (y) − F (x) = lim Fink (y) − Fink (x) k # " ε ≤ lim sup Fink (nk ) − Fink (−nk ) ≤ 1 − . 2 k Dies impliziert F (∞) − F (−∞) = lim F (y) − lim F (x) ≤ 1 − y∞
F ist keine Verteilungsfunktion i.e.S.
x −∞
ε 2
, d.h.
17.4 Charakteristische Funktionen
299
17.4 Charakteristische Funktionen Bevor wir uns mit charakteristischen Funktionen beschäftigen können, müssen wir den Integralbegriff auf komplexwertige Funktionen verallgemeinern. Definition 17.15. Ist f eine komplexwertige Funktion auf einem Maßraum (Ω, S, μ) und existieren die Integrale von +f hiezu Anhang Defi. . und ,f (siehe . nition A.60), so bezeichnet man f dμ := +f dμ + i ,f dμ als Integral von μ . Man nennt f integrierbar, wenn +f und ,f integrierbar sind. Lemma 17.16. Eine komplexwertige Funktion f auf einem Maßraum (Ω, S, μ) ist genau dann integrierbar, wenn |f | integrierbar ist. Beweis. Dies folgt unmittelbar aus |+f | ∨ |,f | ≤ |f | ≤ |+f | + |,f | (siehe Bemerkung A.63 Punkt 3.) Lemma 17.17. Existiert das Integral von f , so existiert auch das Integral der . . konjugierten Funktion f = +f − i ,f und es gilt f dμ = f dμ . Beweis. Dies folgt sofort aus Definition 17.15. Bemerkung 17.18. Auf Grund der obigen Definition ist klar, dass wichtige Eigenschaften und Aussagen, wie etwa die Linearität des Integrals oder der Satz über die Konvergenz durch Majorisierung für Integrale komplexwertiger Funktionen weiterhin gültig bleiben. Nur die Verallgemeinerung der Ungleichung aus Lemma 9.27 erfordert einen neuen Beweis. Lemma 17.19. Ist f eine komplexwertige Funktion auf einem Maßraum +. + . (Ω, S, μ) , deren Integral existiert, so gilt + f dμ+ ≤ |f | dμ . + +. . Beweis. Für + f dμ+ = 0 ist die Ungleichung trivial, ebenso für |f | dμ = ∞ .
f dμ
Ansonsten definiert man c := | f dμ| ∈ C . Weil der Absolutbetrag immer reellwertig ist (Bemerkung A.63 Punkt 2.), wegen Bemerkung A.63 Punkt 3. und wegen |c| = 1 gilt dann +7 + 7 7 7 7 + + + f dμ+ = c f dμ = c f dμ = +(c f ) dμ ≤ |+(c f )| dμ + + 7 7 7 ≤ |c f | dμ = |c| |f | dμ = |f | dμ . Definition 17.20. Ist μ ein endliches Maß auf (R, B) , so nennt man 7 ϕ(t) := ei t x dμ(x) , t ∈ R die Fouriertransformierte von μ . Ist (Ω, S, μ) ein endlicher Maßraum und f eine reellwertige, messbare Funktion darauf, so wird die Fouriertransformierte des induzierten Maßes μf −1 auch Fouriertransformierte von f genannt. Ist X eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so spricht man von der charakteristischen Funktion von P X −1 bzw. von X .
300
17 Verteilungskonvergenz und Grenzwertsätze
.
Klarerweise gilt ϕ(t) =
ei t x dP X −1 (x) =
.
ei t X dP = E ei t X .
Beispiel 17.21. X ∼ U0,1 hat die charakteristische Funktion 71 ϕ(t) =
ei t x dx =
0
+1 i − i ei t ei t x ++ ei t − 1 = . = + it 0 it t
Beispiel 17.22. X ∼ Ex1 hat die charakteristische Funktion 7∞ ϕ(t) =
e
i t x −x
0
e
+∞ e(i t−1) x ++ 1 dx = = . + (i t − 1) 0 1 − it −|x|
Beispiel 17.23. Eine Zufallsvariable X mit der Dichte f (x) := e 2 , x ∈ R wird Laplace-verteilt genannt. Ihre charakteristische Funktion ist ⎞ ⎛∞ 7 70 1 1 ⎝ 1 1 1 i t x−x i t x+x ⎠ e dx + e dx = . ϕ(t) = + = 2 2 1 − it 1 + it 1 + t2 0
−∞
(17.12)
In den folgenden Sätzen sind einige elementare Eigenschaften der Fouriertransformierten aufgelistet. Satz 17.24. Ist (Ω, S, μ) ein endlicher Maßraum, f eine messbare Funktion darauf und ϕf die zugehörige Fouriertransformierte, so gilt: 1. ϕa f +b (t) = ei t b ϕf (a t) ∀ a, b ∈ R . 2. Ist f symmetrisch um 0 , d.h. f und −f induzieren dasselbe Maß auf (R, B) (vgl. Definition 15.18) so ist die Fouriertransformierte ϕf reellwertig. Beweis.
. . ad 1. : ϕa f +b (t) = ei t (a f (x)+b) dμ(x) = ei b t ei a t f (x) dμ(x) = ei b t ϕf (a t). ad 2. gilt für. jedes μf −1 -integrierbare g . : Auf Grund . der Voraussetzungen . −1 g ◦ f dμ = g dμf = g dμ(−f )−1 = g ◦ (−f ) dμ . Daraus folgt . itf . −i t f . dμ = e dμ = ei t f dμ = ϕf (t) ⇒ ϕf (t) ∈ R . ϕf (t) = e
Satz 17.25. Sind μ und ν endliche Maße auf (R, B) mit den Fouriertransformierten ϕμ und ϕν , so gilt ϕμ∗ν = ϕμ ϕν . Sind X und Y unabhängige Zufallsvariable, so gilt insbesonders ϕX+Y = ϕX ϕY . . . . . Beweis. Aus ei t s dμ∗ν(s) = ei t (x+y) dμ⊗ν(x, y) = ei t x dμ(x) ei t y dν(y) folgt unmittelbar ϕμ∗ν (t) = ϕμ (t) ϕν (t) . Satz 17.26. Ist μ ein endliches Maß auf (R, B) , so ist die Fouriertransformierte ϕ gleichmäßig stetig und es gilt |ϕ(t)| ≤ ϕ(0) = μ(R) ∀ t ∈ R .
17.4 Charakteristische Funktionen
301
+ + itx Beweis. Nach Satz A.65 Punkt 4. gilt +ei t x + = 1 ∀ t , x ∈ R .+ Daher + ist e i t x+ + für jedes t integrierbar, und aus Lemma 17.19 zusammen mit e = 1 folgt + 7 +7 7 + + + + |ϕ(t)| = ++ ei t x dμ++ ≤ +ei t x + dμ = μ(R) = ei 0 dμ = ϕ(0) . + + Aus Satz A.65 Punkt 2. folgt lim +ei h x − 1+ = 0 ∀ x ∈ R . Da außerdem gilt h→0 + ihx + + + +e der − 1+ ≤ +ei h x + + 1 = 2 impliziert + Satz über die Konvergenz durch .+ Majorisierung (Satz 9.33) lim +ei h x − 1+ dμ(x) = 0 . Daraus folgt nun h→0
+ +7 + + % $ 0 ≤ lim sup |ϕ(t + h) − ϕ(t)| = lim sup ++ ei t x ei h x − 1 dμ(x)++ h→0 h→0 7 7 + i t x+ + i h x + + + ≤ lim sup +e + +e − 1+ dμ(x) ≤ lim +ei h x − 1+ dμ(x) = 0 . h→0
h→0
Da der letzte Ausdruck in der obigen Ungleichung unabhängig von t ist, ist damit die gleichmäßige Stetigkeit von ϕ gezeigt. Zwischen der Existenz der Momente einer Zufallsvariablen und der Differenzierbarkeit der charakteristischen Funktion besteht folgender Zusammenhang Satz 17.27. Existiert das n-te Moment einer Zufallsvariablen X , so ist ihre charakteristische Funktion ϕ n-fach differenzierbar und es gilt % $ (17.13) ϕ(k) (t) = ik E X k ei t X ⇒ ϕ(k) (0) = ik E X k 1 ≤ k ≤ n . + + Ist umgekehrt ϕ in 0 für ein n ∈ N 2 n-fach differenzierbar mit +ϕ(2 n) (0)+ < ∞ , k so sind die Momente E |X| endlich und es gilt (17.13) für alle k ≤ 2 n . Beweis. Den Beweis, dass aus der Existenz des n-ten Moments die n-fache Differenzierbarkeit folgt, führen wir durch vollständige Induktion und betrachten zunächst den Fall n = 1 . Dafür gilt ihX i (t+h) X − ei t X −1 e e ϕ(t + h) − ϕ(t) =E = E i Xei t X . h h ihX + + " ihX # + + Aus Satz A.65 Punkt 5. und 9. folgt +ei t X e i h X−1 i X + ≤ |X| ∀ h ∈ R , " ihX # und Punkt 2. dieses Satzes impliziert lim i X ei t X e i h X−1 = i X ei t X . Weh→0
gen E |X| < ∞ folgt aus dem Satz über die Konvergenz durch Majorisierung ihX ϕ(t + h) − ϕ(t) −1 e itX = lim E i X e ϕ (t) = lim h→0 h→0 h ihX ihX $ % e − 1 = E lim i X ei t X = E i X ei t X . h→0 ihX
302
17 Verteilungskonvergenz und Grenzwertsätze
Ist nun (17.13) für ein k < n richtig, so gilt ihX −1 e ϕ(k) (t + h) − ϕ(k) (t) k k itX =E i X e h h ihX e −1 k+1 k+1 i t X , X e =E i ihX + " i h X #+ + + k+1 k+1 wobei +ik+1 X k+1 ei t X e i h X−1 + ≤ |X| mit E |X| < ∞ . Nochmalige Anwendung des Satzes über die Konvergenz durch Majorisierung ergibt daher ϕ(k+1) (t) = ik+1 E X k+1 ei t X , womit die eine Richtung bewiesen ist. Auch die Umkehrung beweisen wir durch vollständige Induktion. Für n = 1 gilt 2ihX h) ϕ(2 h)−ϕ(0) − ϕ(0)−ϕ(−2 e − 2 + e−2 i h X 2h 2h = lim E ϕ (0) = lim h→0 h→0 2h 4 h2 ⎡
$ i h X % 2 ⎤ 2 ihX 2 i , e − e− i h X e ⎦ = lim E = lim E ⎣X 2 h→0 h→0 2h 2hX 2 2 sin (h X) sin ( h X) 2 2 2 = lim E i X = − lim E X . (17.14) h→0 h→0 hX hX Da die X 2
"
sin(h X) hX
E lim inf X h→0
2
#2
nichtnegativ sind, gilt nach dem Lemma von Fatou
sin (h X) hX
2
≤ lim E X
2
h→0
Aus Satz A.65 Punkt 10. folgt aber lim X 2 h→0 2
"
sin (h X) hX sin(h X) hX
2
#2
= |ϕ (0)| < ∞ .
= X 2 . Eingesetzt in
folgt nun, wie die obige Ungleichung ergibt dies E X ≤ |ϕ (0)|$< ∞ . Daraus % im ersten Teil des Beweises gezeigt, ϕ (t) = −E X 2 ei t X ∀ t ∈ R. % $ Aus der Annahme, dass für k−1 gilt ϕ(2 k−2) (t) = (−1)k−1 E X 2 k−2 ei t X , folgt aber unter nochmaliger Anwendung der oben gemachten Umformungen ϕ(2 k−2) (2 h)−ϕ(2 k−2) (0) 2h
(2 k−2)
(2 k−2)
(0)−ϕ (−2 h) −ϕ 2h h→0 2h 2ihX − 2 + e−2 i h X e = lim (−1)k−1 E X 2 k−2 h→0 4 h2 2 sin (h X) = lim (−1)k E X 2 k . h→0 hX
ϕ(2 k) (0) = lim
Daraus folgt unter Anwendung des Lemmas von Fatou und, weil bekanntlich " #2 X) = X2 k gilt (Satz A.65 Punkt 10.) lim X 2 k sin(h hX h→0
17.4 Charakteristische Funktionen
303
2 + + sin (h X) + (2 k) + 2k ≥ E X2 k . ∞ > +ϕ (0)+ = lim E X h→0 hX % $ ∀ t ∈ R nach der ersten Daraus folgt wieder ϕ(2 k) (t) = (−1)k E X 2 k ei t X Aussage des Satzes. Damit ist auch die Umkehrung bewiesen. Folgerung 17.28. Existiert das n-te Moment einer Zufallsvariablen X , so gilt für ihre charakteristische Funktion ϕ ϕ(t) =
n !
(i t)k
k=0
E Xk + o(tn ) k!
mit
o(tn ) = 0. t→0 tn "
Sind alle Momente endlich, so folgt aus C := lim sup k
ϕ(t) =
∞ !
(i t)k
k=0
E Xk k!
(17.15)
lim
E|X|k k!
∀ t : |t| < ρ :=
# k1
1 . C
0 mit sn := k=1
1
lim
n→∞
n !
s2+δ n k=1
2+δ
E |Xk − EXk |
= 0.
(17.25)
Die obige Beziehung wird Lyapunov-Bedingung genannt, aber, da sie die Existenz der Momente der Ordnung 2 + δ voraussetzt, stellt Lyapunovs Resultat keine echte Verallgemeinerung von Satz 17.10 dar. Erst Lindeberg konnte 1922 eine schwächere, hinreichende Bedingung, die nach ihm benannte Lindeberg-Bedingung finden, welche für unabhängige, identisch verteilte Zufallsvariable mit endlicher Varianz σ 2 > 0 immer gilt. Definition 17.39. Eine Folge unabhängiger Zufallsvariabler Xk auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , deren Varianzen σk2 endlich und nicht alle 0 sind, n erfüllt die Lindeberg-Bedingung, wenn mit s2n := σk2 gilt k=1
lim
n→∞
n 1 ! s2n
k=1
7 ( Xk − EXk )2 dP = 0
∀ ε > 0.
(17.26)
[|Xk −EXk |≥ε sn ]
Lemma 17.40. Jede unabhängig, identisch verteilte Folge von Zufallsvariablen Xk auf einem Wahrscheinlichkeitsraum (Ω, S, P ) erfüllt die Lindeberg-Bedingung, wenn gilt 0 < σ 2 := E(Xk − EXk )2 < ∞ .
310
17 Verteilungskonvergenz und Grenzwertsätze
Beweis. Da für ε > 0 gilt (X1 − EX1 )2 ≥ 1[|X1 −EX1 |≥ε σ √n ] (X1 − EX1 )2 0 folgt aus dem Satz über die Konvergenz durch Majorisierung . ( X1 − EX1 )2 dP lim
√
[|X1 −EX1 |≥ε σ
n]
∀ ε > 0.
=0
σ2
n→∞
Diese Beziehung stimmt aber für iid Folgen mit (17.26) überein. Lemma 17.41. Gilt für eine Folge (Xk ) von unabhängigen Zufallsvariablen die Lyapunov-Bedingung (17.25), so gilt auch die Lindeberg-Bedingung. n σk2 , Beweis. Ist (17.25) für δ > 0 erfüllt und definiert man s2n durch s2n := k=1 . so gilt E |Xk − EXk |2+δ ≥ εδ sδn ( Xk −EXk )2 dP . Daraus folgt [|Xk −EXk |≥ε sn ]
1
n !
s2+δ n
k=1
E |Xk − EXk |
2+δ
n εδ ! ≥ 2 sn k=1
7 ( Xk − EXk )2 dP . [|Xk −EXk |≥ε sn ]
woraus sich die Aussage des Lemmas unmittelbar ergibt. Lemma 17.42. Erfüllt eine Folge (Xk ) unabhängiger Zufallsvariabler die Lindeberg-Bedingung, so gilt mit den Bezeichnungen von Definition 17.39 max σk2
1≤k≤n lim n→∞ s2n
und lim
max P
n→∞ 1≤k≤n
(17.27)
=0
+ + + Xk − EXk + + + ≥ ε = 0. + + sn
(17.28)
Beweis. Da die Folge (Xk ) die Lindeberg-Bedingung genau dann erfüllt, wenn sie auch für die Folge der zentrierten Zufallsvariablen Xk − EXk gilt, kann o.E.d.A. EXk = 0 ∀ k ∈ N angenommen werden. Für alle k mit 1 ≤ k ≤ n und jedes beliebige ε > 0 gilt σk2 = s2n
7 [|Xk | 0 . Beweis. Aus σk2 ≥ 0
∀ k ∈ N folgt S :=
setzungsgemäß existiert zudem ein j mit 2 max σk
1≤k≤n s2n
≥
σj2 S
∞
σk2 ≥ s2n ∀ n k=1 σj2 > 0 . Daher gilt
. Zusammen mit (17.27) ergibt das 0 = lim
n→∞
∈ N . Vorausfür alle n ≥ j 2 max σk
1≤k≤n s2n
≥
σj2 S
.
Daraus folgt S = ∞ , und klarerweise gilt dann σk2 > 0 für unendlich viele k . Die Gleichungen (17.27) und (17.28) zeigen, dass in einer Folge von Zufallsvariablen, die der Lindeberg-Bedingung genügt, die Abweichungen der einzelnen Variablen von ihrem jeweiligen Mittelwert unwesentlich in Bezug auf die Varianz der Summe sind. Man definiert daher: Definition 17.44. Eine Folge (Xk ) unabhängiger, quadratisch integrierbarer Zufallsvariabler auf einem Wahrscheinlichkeitsraum (Ω, S, P ) heißt gleichmäßig asymptotisch vernachlässigbar, wenn (17.28) gilt. Das folgende Beispiel zeigt, dass es Folgen gibt, die nicht gleichmäßig asymptotisch vernachlässigbar sind und die daher auch nicht die Lindeberg-Bedinn Xk −EXk gung erfüllen , deren standardisierte Summen aber in Verteilung sn k=1
gegen N (0, 1) konvergieren. Somit stellt die Lindeberg-Bedingung keine notwendige Voraussetzung für die schwache Konvergenz gegen Normalverteilung dar. Wir werden aber später sehen, dass (17.26) für gleichmäßig asymptotisch vernachlässigbare Folgen nicht nur hinreichend, sondern auch notwendig ist. Beispiel 17.45. Sind die Xk ∼ N (0, 2k−1 ) , k ∈ N unabhängig, so gilt n Xk ∼ N (0, 1) ∀ n ∈ N . Damit ist s2n = 1 + · · · + 2n−1 = 2n − 1 und s1n k=1
die Verteilungskonvergenz gegen N (0, 1) trivialerweise gegeben. Aber es gilt + + + + + Xk + + Xk + sn + + + + ≥ ε = lim max P + ≥ε lim max P + n 1≤k≤n n 1≤k≤n sn + σk + σk
D " # n √ 2 −1 = 2 − 2 lim Φ ε = 2 − 2Φ ε 2 > 0 ∀ ε > 0. n 2n−1 Um zu zeigen, dass die Lindeberg-Bedingung hinreichend ist, werden zumeist Logarithmen mit komplexen Argumenten verwendet. Dies lässt sich mit dem folgenden Lemma vermeiden. Lemma 17.46. Sind x1 , . . . , xn und y1 , . . . , yn komplexe Zahlen mit |xi | ≤ 1 sowie |yi | ≤ 1 für alle 1 ≤ i ≤ n , so gilt
312
17 Verteilungskonvergenz und Grenzwertsätze
+ + n n n +
+ !
+ + xi − yi + ≤ | xi − y i | . + + + i=1
i=1
(17.29)
i=1
Beweis. Für n = 1 ist (17.29) klar. Gilt (17.29) aber für n − 1 , so folgt daraus + + + n−1 + + n
n−1 + n n−1 + + + + + +
+ + + + + + xi − yi + ≤ + xn xi − y i + + | xn − y n | + yi + + + + + + + + i=1 i=1 i=1 i=1 i=1 + + n−1 n−1 n−1 +
++ ! + ≤ |xn | + xi − yi + + | xn − yn | ≤ | xi − yi | + | xn − yn | . + + i=1
i=1
i=1
Damit ist das Lemma durch vollständige Induktion bewiesen. Zudem benötigt man ein paar Näherungsformeln für die Exponentialfunktion, die im nächsten Lemma zusammengefasst sind. Lemma 17.47. Für x ∈ R und z ∈ C gelten folgende Ungleichungen: 1. 2. 3. 4. 5.
1 z |e + i x− 1 − + z| ≤ |z| , wenn |z| ≤ 2 , +e − 1+ ≤ min{2 , |x|} , + + n + ix + |x|n+1 |x|n+2 ik xk + +e − für x2 ≤ (n + 2) (n + 3) , k! + ≤ (n+1)! + (n+2)! + k=0 + ix + + + |x| , x2 } , + +e − 1 − i x ≤ min{2 2+ + ix 3 +e − 1 − i x + x2 + ≤ min{x2 , |x| } . 2
Beweis. ad 1.: Aus |z| ≤
1 2
folgt
|ez − 1 − z| ≤ |z|
2
∞ ! k=0
k 2 ∞ 2 ∞ |z| |z| ! k |z| ! −k 2 ≤ |z| ≤ 2 = |z| . (k + 2)! 2 2 k=0
k=0
+ + + + ad 2.: Aus Satz A.65 Punkt 2. folgt +ei +x − 1+ ≤+ +ei x + + 1 = 2 ∀ x ∈ R , und aus Punkt 9. desselben Satzes folgt +ei x − 1+ ≤ |x| ∀ x ∈ R . ad 3.: Unter Berücksichtigung von Lemma A.5 gilt für x2 ≤ (n + 2) (n + 3) + + + + ++ + + ∞ n ∞ + k k+ 2k 2k ++ 2k+1 2k+1 ++ ! ! ! + + i x + + i x + + i x + ix + +≤ +e − +++ + k! + ++ (2 k)! (2 k + 1)! ++ + +k= n k=0 k= n +1 2 2 + + + + + ∞ + + ∞ 2k 2k+1 ++ ! + ! + + |x| + |x| + + = ++ (−1)k (−1)k + + +i (2 k)! (2 k + 1)! ++ + + + n n k= 2 +1
≤
2n 2 +2
k= 2
2n 2 +1
n+1 n+2 |x| |x| |x| |x| + = + , (17.30) n n (2 2 + 2)! (2 2 + 1)! (n + 1)! (n + 2)!
da die Absolutbeträge der Glieder der beiden alternierenden Reihen in der 2-ten Zeile für x2 ≤ (n + 2) (n + 3) monoton fallen.
17.5 Der Grenzverteilungssatz von Lindeberg-Feller
313
+ + + + ad 4.: Zunächst gilt ++ei x − 1 − i x++≤ +ei x − 1+ + |x| ≤ 2 |x| wegen Punkt 2. Daraus folgt auch +ei x − 1 − i x+ ≤ x2 für |x| ≥ 2 . Aber"für |x| < # 2 gilt + ix + x2 |x|3 |x| 1 2 + + gemäß (17.30) ebenfalls e − 1 − i x ≤ 2 + 6 = x 2 + 6 ≤ x2 . √ 2 3 ad 5.: Da aus |x| ≥ 1 + 5 folgt 2 + |x| ≤ x2 ≤ |x| , erhält man für diese x + + 2+ 2 2 + ix + + +e − 1 − i x + x + ≤ +ei x + + 1 + |x| + x = 2 + |x| + x ≤ x2 ≤ |x|3 . + + 2 2 2 √ √ Andererseits gilt für |x| < 1 + 5 < 20 auf Grund von (17.30) + + 3 2+ 4 2 + ix +e − 1 − i x + x + ≤ |x| + x = |x|3 1 + |x| = x2 |x| + x + 2+ 3! 4! 6 24 6 24 √
2
√
√
√
2
5 mit 16 + |x| ≤ 16 + 1+24 5 < 1 und |x| + x24 ≤ 1+6 5 + (1+24 5) = 5+3 < 1. 24 6 12 Demnach ist die Ungleichung von Punkt 5. für alle x ∈ R bewiesen.
Wir können nun den zentralen Grenzverteilungssatz von Lindeberg beweisen. Satz 17.48 (Zentraler Grenzverteilungssatz von Lindeberg). Erfüllt eine Folge (Xk ) unabhängiger Zufallsvariabler auf einem Wahrscheinlichkeitsraum n (Ω, S, P ) die Lindeberg-Bedingung, so gilt mit s2n := E(Xk − EXk )2 k=1 n ! Xk − EXk sn
⇒ N (0, 1) .
(17.31)
k=1
Beweis. Mit den Bezeichnungen σk2 := E(Xk − EXk )2 , Zn :=
n k=1
Xk −EXk sn
und
ϕX für die charakteristische Funktion einer Zufallsvariablen X gilt (17.31) t2 nach Satz 17.38 genau dann, wenn lim ϕZn (t) = e− 2 ∀ t ∈ R , n
Das zeigen wir nun, und nehmen o.E.d.A. EXk = 0 ∀ k ∈ N an. Unter Berücksichtigung von Lemma 17.46 erhält man für jedes t ∈ R + + t2 + + +ϕZn (t) − e− 2 + + + + + n
2 + 2 + n n + +
t2 σk t 2 σk ! t t − − + + + + ϕXk e 2 s2n + ≤ − − e 2 s2n + =+ +ϕXk + + + + sn sn k=1 k=1 k=1 + + + 2 + n + n t 2 σk ! + t2 σk2 t t2 σk2 ++ ! ++ − + 2 s2 +ϕX n − e 1 − ≤ + − 1 + + + (17.32) + k sn + + 2 s2n + 2 s2n k=1
Da aus (17.27) folgt
k=1
2 t2 σk 2 s2n
≤
1 2
für alle 1 ≤ k ≤ n , wenn n groß genug ist,
ergibt Lemma 17.47 Punkt 1. angewendet auf x := −
2 t2 σk 2 s2n
mit Mn :=
2 max σk
1≤k≤n s2n
314
17 Verteilungskonvergenz und Grenzwertsätze
+ n + ! + − +e +
+ 2 n n t4 ! σk2 t2 σk2 ++ t4 Mn ! σk2 t4 Mn ≤ . −1+ ≤ = + 2 s2n + 4 s2n 4 s2n 4
2 t2 σk 2 2 sn
k=1
k=1
k=1
Gemäß (17.27) strebt daher die letzte Summe in (17.32) für jedes t gegen 0 . Die Summanden der vorletzten Summe in (17.32) kann man wegen EXk = 0 und Lemma 17.47 Punkt 5. für alle ε > 0 abschätzen durch + + + + + i t Xk i t Xk t2 Xk2 ++ t t2 σk2 ++ ++ +ϕX s + k sn − 1 + 2 s2 + = +E e n − 1 − sn + 2 s2 + n n + + 3 3 2 2+ 2 2 + i t Xk i t X t |t| X X |X | t k k k+ k + , ≤ E ++e sn − 1 − ≤ E min sn 2 s2n + s2n s3n 7 7 3 3 |t| |Xk | t2 Xk2 dP + dP ≤ s3n s2n [|Xk |≤ε sn ]
≤
|t| ε sn s3n
≤ε
σ2 |t|3 2k sn
[|Xk |>ε sn ]
7
3
Xk2 dP + [|Xk |≤ε sn ] 2
t + 2 sn
7 Xk2
[|Xk |>ε sn ]
t2 s2n
7 Xk2 dP
[|Xk |>ε sn ]
t2 dP ≤ ε |t| + 2 sn
7
3
Xk2 dP . [|Xk |>ε sn ]
Da die Lindeberg-Bedingung erfüllt ist und ε > 0 beliebig, gilt demnach + 7 n n + ! + t t2 ! t2 σk2 ++ + 0≤ Xk2 dP → 0 . +ϕXk sn − 1 + 2 s2 + ≤ s2 n n k=1
k=1 [|X |>ε s ] n k
Somit konvergieren beide Summen in der 2-ten Zeile von (17.32) gegen 0 , und damit ist der Satz bewiesen. Der zentrale Grenzverteilungssatz kann unter gewissen Voraussetzungen auch auf Folgen abhängiger Zufallsvariabler verallgemeinert werden. Damit werden wir uns nicht beschäftigen. Aber zum Abschluss dieses Kapitels wollen wir noch Fellers Umkehrung des Satzes von Lindeberg für asymptotisch gleichmäßig vernachlässigbare Folgen zeigen. Satz 17.49 (Satz von Feller). Eine Folge (Xk ) asymptotisch gleichmäßig vernachlässigbarer Zufallsvariabler auf einem Wahrscheinlichkeitsraum (Ω, S, P ) erfüllt die Lindeberg-Bedingung. wenn Gleichung (17.31) gilt. Beweis. Wir werden den Beweis mit den Bezeichnungen des vorigen Satzes und der o.E.d.A. gemachten Voraussetzung EXk = 0 ∀ k ∈ R in zwei Schritten führen. Im ersten Schritt wird gezeigt, dass gilt n ! t t2 lim ∀ t ∈ R. (17.33) −1 =− + ϕXk n sn 2 k=1
17.5 Der Grenzverteilungssatz von Lindeberg-Feller
Dazu betrachtet man + + n ( ϕX ( t )−1 ) k sn + k=1 − e− +e +
315
+ + + + + + + + n ( ϕX ( t )−1 ) t2 + k sn + + + + k=1 − ϕZn (t)+ + +ϕZn (t) − e− 2 + . + ≤ +e + + + (17.34) + + n t2 + + Xk Wegen Zn = ⇒ N (0, 1) gilt nach Satz 17.38 lim +ϕZn (t) − e− 2 + = 0. sn n k=1 + " + " # #+ " #+ + + + t t + Klarerweise gilt ++ ϕXk sn + ≤ +ϕXk sn + ≤ 1 , und daraus folgt we+ + t + ϕXk ( stn )−1 + gen Satz A.65 Punkt 8. +e + = e(ϕXk ( sn ) )−1 ≤ 1 . Außerdem gilt " # n ϕXk stn . Somit kann man auf den ersten Term auf der rechϕZn (t) = t2 2
k=1
ten Seite von (17.34) Lemma 17.46 anwenden und erhält + + + n + + ! + n ( ϕX ( t )−1 ) + ϕ ( t )−1 t ++ k sn + + k=1 Xk sn + e . − ϕ (t) ≤ − ϕ e + + Zn Xk + + + sn +
(17.35)
k=1
Unter Berücksichtigung von Lemma 17.47 Punkt 2. gilt nun für alle ε > 0 + + + + itX + + t +ϕX + ≤ E ++e sn k − 1++ ≤ E min 2 , |t| |Xk | − 1 + k sn + sn + + 7 7 + Xj + |t| |Xk | dP + 2 dP ≤ ε |t| + 2 max P ++ ++ ≥ ε . ≤ 1≤j≤n sn sn [|Xk | 0 : K(x, ε) ⊆ A} , die Menge A¯ := {x : ∃ y ∈ A ∩ K(x, ε) ∀ ε > 0 } wird als abgeschlossene Hülle ◦ von A bezeichnet, und ∂A := A¯ \ A ist der Rand von A . A ist dicht, wenn A¯ = Rk . A ist nirgends dicht, wenn das Innere von A¯ leer ist. ◦
Lemma A.21. Ist A ⊆ Rk , so ist A offen und A¯ sowie ∂A sind abgeschlossen.
324
A Anhang ◦
Beweis. Ist x ∈ A und K(x, ε) ⊆ A mit ε > 0 , so gilt für jedes y ∈ K(x, ε) ◦
natürlich K(y, ε − !y − x!) ⊆ K(x, ε) ⊆ A ⇒ K(x, ε) ⊆ A, . Für jedes x ∈ A¯c gibt es definitionsgemäß ein ε > 0 mit K(x, ε) ⊆ Ac , und für jedes y ∈ K(x, ε) gilt K(y, ε − !y − x!) ⊆ K(x, ε) ⊆ Ac . Daraus folgt K(x, ε) ⊆ A¯c , d.h. A¯c ist offen. Somit ist A¯ abgeschlossen. Daraus folgt aber auch, dass ∂A = A¯ ∩
c
◦
als Durchschnitt abgeschlossener Mengen
A
ebenfalls abgeschlossen ist. Lemma A.22. U ⊆ Rk ist genau dann offen, wenn fast alle Glieder einer jeden Folge (xn ) mit lim xn = x ∈ U in U liegen. n
Beweis. ⇒ : Ist x ∈ U , so gibt es ein ε > 0 mit K(x, ε) ⊆ U . Gilt nun lim xn = x , so n
gibt es zu diesem ε ein nε ∈ N , sodass !xn − x! < ε ∀ n ≥ nε . Daraus folgt xn ∈ U ∀ n ≥ nε . ⇐ : Ist U nicht offen, so existiert ein x ∈ U , sodass es für alle n ∈ N ein / U ∀ n ∈ N. xn ∈ K(x, n1 ) ∩ U c gibt. Somit gilt lim xn = x und xn ∈ n
Folgerung A.23. Es gelten die beiden zueinander äquivalenten Beziehungen lim xn = x ⇒ 1U (x) ≤ lim inf 1U (xn )
∀U
offen ,
(A.3)
lim xn = x ⇒ 1A (x) ≥ lim sup 1A (xn )
∀A
abgeschlossen .
(A.4)
n
n
n
n
Beweis. Für offenes U, x ∈ U und lim xn = x folgt aus dem obigen Lemma n
1U (xn ) = 1 für fast alle n . Daher gilt lim inf 1U (xn ) = 1 = 1U (x) . Für x ∈ U c n
gilt 1U (x) ≤ lim inf 1U (xn ) wegen 1U (x) = 0 . Damit ist (A.3) gezeigt. n
Die Äquivalenz von (A.3) und (A.4) folgt einfach aus 1A (x) = 1 − 1Ac (x) , lim sup 1A (xn ) = 1 − lim inf 1Ac (xn ) und Ac offen ⇔ A abgeschlossen. n
n
Lemma A.24. A ⊆ Rk ist genau dann abgeschlossen, wenn der Grenzwert einer jeden konvergenten Folge (xn ) aus A ebenfalls in A liegt. Beweis. Für jede Folge (xn ) aus A gilt 1A (xn ) = 1 ∀ n ∈ N , woraus folgt lim sup 1A (xn ) = 1 . Ist nun A abgeschlossen und gilt lim xn = x , so folgt aus n
n
Ungleichung (A.4) 1A (x) ≥ lim sup 1A (xn ) = 1 ⇒ x ∈ A . n
Ist andererseits A nicht abgeschlossen, so ist Ac nicht offen und daher gibt es, wie im Beweis von Lemma A.22 gezeigt ein x ∈ Ac und eine Folge (xn ) aus A mit lim xn = x . Damit ist auch die Umkehrung bewiesen. n
Lemma A.25. Für jede Menge A ⊆ Rk stimmt die Menge der Unstetigkeitsstellen von 1A überein mit dem Rand ∂A .
A.4 Topologie
325
◦
Beweis. Gilt x ∈ A und lim xn = x , so liegen nach Lemma A.22 fast alle ◦
n
Glieder von (xn ) in A . Daher gilt lim 1A (xn ) = 1 = 1A (x) . Aus x ∈ A¯c und n
lim xn = x folgt mit demselben Argument lim 1A (xn ) = 0 = 1A (x) . Daher n
n
◦
gilt A ∪ A¯c ⊆ S , der Menge der Stetigkeitspunkte von 1A , bzw. S c ⊆ ∂A . ◦
Gilt umgekehrt x ∈ A ∩ ∂A , so liegt x nicht in A . Daher gilt für alle n ∈ N K(x, n1 ) ∩ Ac = ∅ . Somit gibt es zu jedem n ein xn ∈ Ac mit !xn − x! < n1 . Für die Folge (xn ) gilt demnach lim xn = x und lim 1A (xn ) = 0 = 1A (x) = 1 . n n Gilt x ∈ Ac ∩ ∂A , so gibt es wegen x ∈ A¯ zu jedem n ein xn ∈ A mit !xn − x! < n1 . Somit gilt lim xn = x und lim 1A (xn ) = 1 = 1A (x) = 0 . n
n
Damit ist auch ∂A ⊆ S c bewiesen.
Definition A.26. Eine Funktion f : Rk → R heißt halbstetig von unten, wenn aus lim xn = x folgt f (x) ≤ lim inf f (xn ) , und sie heißt halbstetig von oben, n
n
wenn aus lim xn = x folgt f (x) ≥ lim sup f (xn ) . n
n
Bemerkung A.27. 1. f ist genau dann stetig, wenn es halbstetig von unten und von oben ist. 2. Gemäß der obigen Definition ist der Indikator einer jeden offenen Menge halbstetig von unten und der Indikator einer jeden abgeschlossenen Menge ist halbstetig von oben. 3. f ist genau dann von unten halbstetig, wenn −f von oben halbstetig ist. Satz A.28. f : Rk → R ist genau dann halbstetig von unten, wenn [f > a] für jedes a ∈ R offen ist. f : Rk → R ist genau dann halbstetig von oben, wenn [f ≥ a] für jedes a ∈ R abgeschlossen ist. Beweis. Wir beweisen zunächst die erste Aussage. ⇒: Ist x ∈ [f > a] und lim xn = x , so folgt aus a < f (x) ≤ lim inf f (xn ) , n
n
dass fast alle Folgenglieder xn in [f > a] liegen. Nach Lemma A.22 ist [f > a] daher offen. ⇐: Ist x ∈ Rk und ε > 0 , so ist [f > f (x) − ε] offen und enthält deshalb eine offene Kugel K(x, δ) , δ > 0 . Gilt lim xn = x , so liegen fast alle xn in n
dieser Kugel, woraus folgt lim inf f (xn ) > f (x) − ε . Da ε > 0 beliebig ist, n
impliziert das lim inf f (xn ) ≥ f (x) . n
Wendet man das eben Bewiesene auf −f an, so ergibt sich die zweite Aussage. Satz A.29. Ist U ⊆ Rk eine offene Menge, so gibt es eine Folge ((an , bn )) mit U = (an , bn ). n
326
A Anhang
Beweis. Die Familie der offenen Würfel (q − δ, q + δ) ⊆ U mit q ∈ Qk , δ ∈ Q ist abzählbar und ihre Vereinigung ist klarerweise eine Teilmenge von U . Da U offen ist, gibt es umgekehrt zu jedem x ∈ U ein > 0 und einen offenen Würfel (x − , x + ) ⊆ U. Wählt man nun einen Punkt q ∈ Qk , sodass max |xi − qi | < 2 und ein δ ∈ Q : max |xi − qi | < δ < 2 , so gilt 1≤i≤k
1≤i≤k
x ∈ (q − δ, q + δ) ⊆ (x − , x + ) ⊆ U . Daher überdeckt die obige Familie ihrerseits U , d.h. ihre Vereinigung stimmt mit U überein. Satz A.30. Jede offene Menge U ⊆ R ist Vereinigung von höchstens abzählbar vielen disjunkten offenen Intervallen (an , bn ) . Beweis. Für U = ∅ ist nichts zu beweisen. Zu x ∈ U gibt es ein ε > 0 , sodass (x − ε, x + ε) ⊆ U , und es gibt ein q ∈ Q mit |q − x| < 2ε . Daraus folgt x ∈ (q − 2ε , q + 2ε ) ⊂ U . Definiert man zu q das (a, b) . System Iq := {(a , b) ⊆ U : q ∈ (a , b) } , dann gilt also x ∈ Iq := (a,b)∈Iq Iq . Da x ∈ U beliebig ist, impliziert dies U = Für q ∈ U ∩ Q und aq :=
q∈U ∩Q
inf (a ,b)∈Iq
sup b gilt nun Iq ⊆ (aq , bq ) .
a bzw. bq :=
(a ,b)∈Iq
Umgekehrt gibt es zu aq < x ≤ q ein a < x mit (a, b) ∈ Iq , und aus q ∈ (a, b) folgt x ∈ (a, b) ⇒ x ∈ Iq . Ähnlich zeigt man, dass für alle q < x < bq ebenfalls gilt x ∈ Iq . Daraus folgt (aq , bq ) = Iq ⊆ U und (aq , bq ) ∈ Iq . Aus x ∈ (ap , bp ) ∩ (aq , bq ) , p, q ∈ Q folgt nun p, q ∈ (ap ∧ aq , bp ∨ bq ) ⊆ U . Damit aber muss gelten ap = ap ∧ aq = aq und bp = bp ∨ bq = bq , d.h. die Iq , q ∈ Q ∩ U sind entweder disjunkt oder identisch. Hilfssatz A.31. Ist (In ) eine monoton fallende Folge nichtleerer abgeschlossener Zellen aus Rk , so gilt: In = ∅. n
Beweis. Mit In := [an , bn ], ∀ n ∈ N folgt aus In+1 ⊆ In an ≤ an+1 ≤ bn+1 ≤ bn ≤ b1 . (an ) ist also eine monoton steigende, von oben beschränkte Folge und besitzt daher einen Grenzwert a := lim an (d.h. ist an = (an,1 , . . . , an,k ), so n
sind sämtliche Koordinaten an,i , i = 1, . . . , k mit n monoton steigend und beschränkt und konvergieren daher gegen einen Grenzwert ai ). Klarerweise gilt (A.5) an ≤ a ∀ n ∈ N . Andererseits gilt auch an+m ≤ bn+m ≤ bn ∀ n, m ∈ N ⇒ a = lim an+m ≤ bn ∀ n ∈ N . m
Wegen (A.5) und (A.6) gilt a ∈ [an , bn ] ∀n ∈ N ⇒ a ∈
n
In .
(A.6)
A.4 Topologie
327
Satz A.32 (Satz von Heine-Borel). Ist I := [a, b] eine abgeschlossene Zelle aus Rk und (Ij )j∈J eine Überdeckung von I durch offene Zellen, so gibt es eine m I jk . endliche Teilfamilie {j1 , . . . , jm } ⊆ J mit I ⊆ k=1
Beweis. Man führt den Beweis indirekt und nimmt an, dass es keine endliche Überdeckung von Iˆ1 := I gibt. Dann gibt es auch für mindestens eine der 2k Teilzellen die durch Halbierung der Kanten von Iˆ1 entstehen keine endliche Überdeckung, da man ansonsten einen Widerspruch zur Annahme hätte. Für Iˆ2 wählt man eine dieser Teilzellen ohne endliche Überdeckung und unterteilt Iˆ2 wieder in 2k Teilzellen durch Halbierung der Kanten. Auch von diesen Teilzellen kann mindestens eine nicht durch eine endliche Teilfamilie überdeckt werden. Eine derartige Teilzelle nimmt man dann für Iˆ3 . Auf diese Weise erhält man eine monoton fallende Folge (Iˆn ) von abgeschlossenen Zellen, von denen keine durch eine endliche Teilfamilie überdeckt werden kann . Wegen des obigen Hilfssatzes A.31 gibt es ein x ∈ Iˆn ⊆ I und, da (Ij )j∈J n
eine Überdeckung von I ist, existiert ein i ∈ J mit x ∈ Ii . Ii ist aber offen und daher gibt es ein > 0, sodass (x − , x + ) ⊆ Ii . Ist nun n so groß, dass die Kantenlänge von Iˆn kleiner als ist, so muss wegen x ∈ Iˆn gelten Iˆn ⊆ (x − , x + ) ⊆ Ii . Dies ist ein Widerspruch zur Aussage, dass keines der Folgenglieder Iˆn durch eine endliche Teilfamilie überdeckt werden kann. Definition A.33. f : Rk → R heißt gleichmäßig stetig, wenn es zu jedem ε > 0 ein δ > 0 gibt sodass !x − y! < δ ⇒ |f (x) − f (y)| < ε . Satz A.34. Jedes stetige f : [a, b] → R ist gleichmäßig stetig und beschränkt. Beweis. Weil f stetig ist, gibt es zu jedem ε > 0 und jedem x ∈ [a, b] ein ⇒ |f (x) − f (y)| < ε . Nun bilden die δx > 0 , sodass !x − y! < δx Zellen Ix := ( x − 3δ√xk , x + 3δ√xk ) , x ∈ [a, b] eine offene Überdeckung von [a, b] . und nach dem Satz von Heine-Borel existieren endlich viele Punkte n Ixi . Somit gibt es für alle x, y ∈ [a, b] Punkte x1 , . . . , xn , sodass [a, b] ⊆ i=1 δ xi 1≤i≤n 3
xi , xj mit x ∈ Ixi und y ∈ Ixj . Gilt !x − y! < δ := min
und o.E.d.A.
δxi ≤ δxj , so folgt daraus !xi − xj ! ≤ !xi − x! + !x − y! + !y − xj ! < δxj , und dies impliziert |f (xi ) − f (xj )| < ε . Damit gilt jedoch |f (x) − f (y)| ≤ |f (x) − f (xi )| + |f (xi ) − f (xj )| + |f (xj ) − f (y)| < 3 ε . Dies beweist die gleichmäßige Stetigkeit von f . Beschränkt ist f , weil offensichtlich gilt min f (xi ) − ε < f (x) < max f (xi ) + ε ∀ x ∈ [a, b] . 1≤i≤n
1≤i≤n
Definition A.35. Ein Punkt x ∈ Rk heißt Häufungspunkt der Menge A ⊆ Rk , wenn K(x, ε) ∩ A \ {x} = ∅ ∀ ε > 0 .
328
A Anhang
Bemerkung A.36. Offensichtlich ist x genau dann ein Häufungspunkt von A , wenn es eine eine Folge (xn ) aus A \ {x} gibt, die gegen x konvergiert. Satz A.37 (Satz von Bolzano-Weierstraß). Jede beschränkte unendliche Menge A ⊆ Rk besitzt einen Häufungspunkt. Beweis. Da A beschränkt ist, gibt es eine Zelle I1 := [a, b] mit A ⊆ I1 . Man unterteilt nun I1 , wie im Beweis des Satzes von Heine-Borel, durch Halbierung der Kanten in 2k abgeschlossene Teilzellen, und nimmt als I2 eine dieser Teilzellen, die unendlich viele Punkte von A enthält. Setzt man dieses Verfahren ad infinitum fort, so erhält man eine monoton fallende Folge In von abgeschlossenen Zellen, deren Durchschnitt nach Hilfssatz A.31 einen Punkt Da die Kantenlängen gegen 0 gehen, ist x0 das einzige Element x0 enthält. von In und offensichtlich Häufungspunkt von A . n
Folgerung A.38. Jede beschränkte Folge (xn ) enthält eine konvergente Teilfolge. Beweis. Ist die Menge A := {xn : n ∈ N} endlich, so gibt es einen Index m , sodass xm = xn ∀ n ≥ m , und (xn )n≥m ist die gesuchte Teilfolge. Ist A unendlich, so gibt es nach dem Satz von Bolzano-Weierstraß einen Häufungspunkt y von A und damit auch eine Teilfolge (xnk ) , die gegen y konvergiert (siehe Bemerkung A.36).
A.5 Analysis Satz A.39. Jede stetige Funktion f : [a, b] → R nimmt ihre Extremwerte an. Beweis. Da f nach Satz A.34 beschränkt ist, sind m :=
inf f (x) und
a≤x≤b
M := sup f (x) beide reellwertig. Es genügt, zu zeigen, dass ein x ∈ [a, b] a≤x≤b
existiert, sodass M = f (x) , denn das Ergebnis für das Minimum ergibt sich dann durch Übergang von f zu −f . Die Folge (xn ) mit f (xn ) ≥ M − n1 ∀ n ∈ N enthält gemäß Folgerung A.38 eine konvergente Teilfolge (xnk ) , für die gilt y := lim xnk ∈ [a, b] , da das k
Intervall abgeschlossen ist. Klarerweise gilt M = f (y) . Satz A.40 (Mittelwertsatz). Ist f auf [a, b] , a < b stetig und auf (a, b) diffe(a) = f (x) . renzierbar, so gibt es einen Punkt x ∈ (a, b) , sodass f (b)−f b−a (a) Beweis. Für g(x) := f (x) − f (a) − f (b)−f (x − a) ≡ 0 ist die Aussage trivial. b−a Ansonsten muss es ein y ∈ (a, b) geben mit g(y) > 0 oder g(y) < 0 . Man kann o.E.d.A. g(y) > 0 annehmen, da man ansonsten einfach g durch −g ersetzt. Wie im vorigen Satz gezeigt, gibt es dann ein a ≤ x ≤ b mit g(x) = max g(y) . a≤y≤b
Wegen g(a) = g(b) = 0 muss sogar a < x < b gelten. Nun gilt g(y) ≤ g(x)
A.6 Konvexe Mengen und Funktionen
329
f (b)−f (a) (y − x) für alle y = x , was b−a f (y)−f (x) f (b)−f (a) ≤ ist, während sich die wiederum für y > x äquivalent zu y−x b−a f (y)−f (x) f (b)−f (a) Ungleichung für y < x umkehrt und zu ≥ b−a wird. Daraus y−x f (b)−f (a) (a) und andererseits f (x) ≥ f (b)−f . Da folgt aber einerseits f (x) ≤ b−a b−a (a) . f in x differenzierbar ist, gilt somit f (x) = f (b)−f b−a
bzw. äquivalent dazu f (y) − f (x) ≤
Satz A.41 (Satz von Taylor). Hat f auf [a, b] , a < b ∈ R eine stetige n − 1-te Ableitung f (n−1) und existiert f (n) auf (a, b) , so gibt es ein x ∈ (a, b) , sodass f (b) =
n−1 ! i=0
f (n) (x) f (i) (a) (b − a)i + (b − a)n . i! n!
Beweis. Für n = 1 entspricht die obige Aussage gerade dem Mittelwertsatz. n−1 f (i) (a) n! (x − a)i , Δ := (f (b) − P (b)) (b−a) Definiert man P (x) := n und i! i=0
n
für n > 1 , so ist g stetig auf [a, b] , und es gilt g(x) := f (x) − P (x) − Δ (b−a) n! g(a) = g(b) = 0 , sowie g (i) (a) = 0 ∀ i = 1, . . . , n − 1 . Daher folgt aus dem Mittelwertsatz zunächst die Existenz eines Punktes x1 ∈ (a, b) mit g (x1 ) = 0 . Wegen g (a) = g (x1 ) = 0 muss aber dem Mittelwertsatz, angewandt auf g im Intervall [a, x1 ] , zufolge ein x2 ∈ (a, x1 ) existieren mit g (x2 ) = 0 . Wiederholt man diese Argumentation, so zeigt sich nach n − 1 Schritten, dass ein xn−1 ∈ (a, b) existieren muss mit g (n−1) (xn−1 ) = 0 . Aus dem Mittelwertsatz, angewandt auf g (n−1) im Intervall [a, xn−1 ] , ergibt sich daher die Existenz eines Punktes xn ∈ (a, xn−1 ) ⊆ (a, b) , für den gilt g (n) (xn ) = f (n) (xn ) − Δ = 0 . n−1 (n) f (i) (a) (b−a)i + f n!(xn ) (b−a)n mit a < xn < b . Daraus folgt sofort f (b) = i! i=0
A.6 Konvexe Mengen und Funktionen Definition A.42. Eine Menge A ⊆ Rk heißt konvex, wenn für alle x , y ∈ A und α ∈ [0, 1] gilt α x + (1 − α) y ∈ A . Definition A.43. Ist A ⊆ Rk eine konvexe Menge, so nennt man die Funktion ϕ : A → R konvex, wenn gilt ϕ(α x + (1 − α) y) ≤ α ϕ(x) + (1 − α) ϕ(y)
∀ x , y ∈ A , α ∈ [0, 1] . (A.7)
Gilt hingegen ϕ(α x + (1 − α) y) ≥ α ϕ(x) + (1 − α) ϕ(y)
∀ x, y ∈ A , α ∈ [0, 1] , (A.8)
so nennt man ϕ konkav. Für unsere Zwecke reicht es aus konvexe Funktionen auf R zu betrachten. In diesem Fall ist der Definitionsbereich ein Intervall I .
330
A Anhang
Abb. A.1. Graph einer konvexen Funktion
Satz A.44. Eine Funktion ϕ : (a, b) → R ist genau dann konvex, wenn für alle x = (x1 , x2 ), y = (y1 , y2 ) mit x1 < x2 , y1 < y2 und x ≤ y gilt ϕ(y2 ) − ϕ(y1 ) ϕ(x2 ) − ϕ(x1 ) ≤ . x2 − x 1 y2 − y1
(A.9)
Beweis. ⇒: Aus x1 < x2 ≤ y2 folgt mit α := x2 =
y2 −x2 y2 −x1
∈ [0, 1]
y2 − x2 x2 − x1 x1 + y2 = α x1 + (1 − α) y2 . y2 − x1 y2 − x1
Daher gilt ϕ(x2 ) ≤ α ϕ(x1 ) + (1 − α) ϕ(y2 ) . Analog zeigt man, dass aus x1 ≤ y1 < y2 mit β :=
y2 −y1 y2 −x1
(A.10) gilt
ϕ(y1 ) ≤ β ϕ(x1 ) + (1 − β) ϕ(y2 ) .
(A.11)
(A.10) ergibt umgeformt ϕ(x2 ) − ϕ(x1 ) ≤ (1 − α) (ϕ(y2 ) − ϕ(x1 )) , also ϕ(y2 ) − ϕ(x1 ) ϕ(x2 ) − ϕ(x1 ) ≤ . x2 − x1 y2 − x1
(A.12)
(A.11) impliziert ϕ(y2 ) − ϕ(y1 ) ≥ β (ϕ(y2 ) − ϕ(x1 )) , und daraus folgt ϕ(y2 ) − ϕ(y1 ) ϕ(y2 ) − ϕ(x1 ) ≥ . y2 − y1 y2 − x1 (A.12) führt nun in Verbindung mit (A.13) zu Ungleichung (A.9).
(A.13)
A.6 Konvexe Mengen und Funktionen
331
⇐: Ist x1 < y2 und 0 < α < 1 , so gilt x1 < x2 := α x1 + (1 − α) y2 < y2 , und 1) 2) ≤ ϕ(yy22)−ϕ(x , daher folgt aus (A.9) mit y1 := x2 , dass gilt ϕ(xx22)−ϕ(x −x1 −x2 bzw. ϕ(x2 ) (y2 − x2 ) − ϕ(x1 ) (y2 − x2 ) ≤ ϕ(y2 ) (x2 − x1 ) − ϕ(x2 ) (x2 − x1 ) . Umgeformt ergibt das ϕ(x2 ) (y2 − x1 ) ≤ (y2 − x2 ) ϕ(x1 ) + (x2 − x1 )ϕ(y2 ) , x2 −x1 2 bzw. ϕ(x2 ) ≤ yy22 −x −x1 ϕ(x1 ) + y2 −x1 ϕ(y2 ) = α ϕ(x1 ) + (1 − α) ϕ(y2 ) . Damit ist auch die umgekehrte Richtung gezeigt. Lemma A.45. Ist ϕ : (a, b) → R konvex, so ist ϕ auf jedem abgeschlossenen Intervall [c, d] ⊂ (a, b) absolut stetig. Beweis. Sind (ci , di ) , i = 1, ..., n disjunkte Intervalle aus [c, d] , für die gilt n (di − ci ) < δ , so folgt aus (A.9) mit 0 < Δ < min{(c − a) , (b − d)} i=1
Cu :=
ϕ(di ) − ϕ(ci ) ϕ(c) − ϕ(a + Δ) ϕ(b − Δ) − ϕ(d) ≤ . ≤ Co := c−a−Δ di − ci b−Δ−d
Daher gilt |ϕ(di ) − ϕ(ci )| ≤ max{|Co |, |Cu |} (di − ci ) n |ϕ(di ) − ϕ(ci )| ≤ max{|C0 |, |Cn |} δ . daraus folgt
∀ i = 1, . . . , n , und
i=1
Lemma A.46. Ist ϕ : (a, b) → R konvex, so sind die linksseitigen Differenzenquotienten in jedem Punkt x ∈ (a, b) monoton fallend, die rechtsseitigen Differenzenquotienten sind monoton steigend, und es gilt stets ϕ(y) − ϕ(x) ϕ(z) − ϕ(x) ≤ y−x z−x
∀ y < x < z,
d.h. ein linksseitiger Differenzenquotient in x kann nie größer als ein rechtsseitiger Differenzenquotient in diesem Punkt sein. Beweis. Alle Aussagen des Lemmas folgen unmittelbar aus Ungleichung (A.9). Folgerung A.47. Ist ϕ : (a, b) → R konvex, so existieren in jedem x ∈ (a, b) die und die rechtsseitige Ableitung linksseitige Ableitung ∂ l ϕ(x) := lim ϕ(y)−ϕ(x) y−x yx
ϕ(y)−ϕ(x) y−x y x
∂ r ϕ(x) := lim
, wobei gilt ∂ l ϕ(x) ≤ ∂ r ϕ(x) .
Die Ableitung ϕ existiert bis auf höchstens abzählbar viele Punkte und sie wächst monoton. Aus a < x < y < b folgt außerdem ∂ r ϕ(x) ≤ ∂ l ϕ(y) . Beweis. Dass ∂ l ϕ , ∂ r ϕ existieren und dass ∂ l ϕ ≤ ∂ r ϕ gilt, folgt unmittelbar aus dem obigen Lemma. Ist x < y, so gilt ∂ r ϕ(x) ≤ ϕ(y)−ϕ(x) ≤ ∂ l ϕ(y) ≤ ∂ r ϕ(y) . Daher ist die Funky−x r tion g(x) := ∂ ϕ(x) monoton und hat somit nur höchstens abzählbar viele Unstetigkeiten mit g(x) − g− (x) > 0 . Wegen ∂ r ϕ(x) − ∂ l ϕ(x) ≤ g(x) − g− (x) gibt es deshalb auch nur höchstens abzählbar viele x mit ∂ r ϕ(x)−∂ l ϕ(x) > 0 .
332
A Anhang
Abb. A.2. unterschiedliche links- und rechtsseitige Ableitungen in x0
Folgerung A.48. Ist ϕ : (a, b) → R konvex, so gilt für jedes x ∈ (a, b) 3 ϕ(y) ≥ ϕ(x) + k (y − x) ∀ y ∈ (a , b ) , k ∈ ∂ l ϕ(x) , ∂ r ϕ(x) ,
(A.14)
d.h. die Funktion ϕ liegt stets oberhalb ihrer Tangenten. Beweis. Aus den obigen Ausführungen folgt sofort, dass für y < x < z gilt ϕ(x)−ϕ(y) ≤ ∂ l ϕ(x) ≤ ∂ r ϕ(x) ≤ ϕ(z)−ϕ(x) . Die rechte Ungleichung impliziert x−y z−x ϕ(z) ≥ ϕ(x) + ∂ r ϕ(x) (z − x) ≥ ϕ(x) + k (z − x) ∀ z > x , k ≤ ∂ r ϕ(x) . ϕ(y) ≥ ϕ(x) + ∂ l ϕ(x) (y − x) ≥ ϕ(x) + k (y − x) ∀ y < x , k ≥ ∂ l ϕ(x) . folgt aus der linken Ungleichung, und damit gilt für jedes k ∈ [∂ l ϕ(x) , ∂ r ϕ(x) ] ϕ(y) ≥ ϕ(x) + k (y − x) ∀ y ∈ (a , b ) . Satz A.49 (Tangentensatz). Ist ϕ : (a, b) → R konvex, so gibt es Folgen (cn ) und (dn ) aus R , sodass ϕ(y) = sup{cn y + dn } n
∀ y ∈ (a, b) .
Beweis. Definiert man für die rationalen Zahlen qn aus (a, b) und dn := ϕ(qn ) − ∂ r ϕ(qn ) qn , so gilt nach Folgerung A.48 ϕ(y) ≥ ϕ(qn ) + ∂ r ϕ(qn ) (y − qn ) = cn y + dn Somit gilt ϕ(y) ≥ sup{cn y + dn } n
(A.15) cn := ∂ r ϕ(qn )
∀ y ∈ (a, b) , ∀ n ∈ N .
∀ y ∈ (a, b) . Aber für jede Teilfolge (qnk )
mit a < qnk y gilt wegen Lemma A.45 und Folgerung A.47
A.7 Eindeutigkeit der Exponentialfunktion
333
|ϕ(y) − cnk y − dnk | = |ϕ(y) − ϕ(qnk ) − ∂ r ϕ(qnk ) (y − qnk )| ≤ |ϕ(y) − ϕ(qnk )| + max {|∂ r ϕ(qn1 )| , |∂ r ϕ(y)|} |y − qnk | → 0 . Damit ist der Satz bewiesen. Lemma A.50. Ist ϕ auf (a, b) differenzierbar und ist ϕ monoton wachsend, so ist ϕ konvex. Speziell ist ϕ konvex, wenn es 2- mal differenzierbar mit ϕ ≥ 0 ist. Beweis. Ist x < y < z, so folgt aus dem Mittelwertsatz ( Satz A.40 ), dass ein u ∈ [x , y] und ein v ∈ [y , z] existieren mit ϕ(z) − ϕ(y) ϕ(y) − ϕ(x) = ϕ (u) ≤ ϕ (v) = . y−x z−y Umgeformt ergibt das ϕ(y) [(z −y)+(y −x)] ≤ (z −y) ϕ(x)+(y −x) ϕ(z) , worz−y z−y aus folgt ϕ(y) ≤ z−x ϕ(x) + y−x ϕ(z) . F ür α := z−x gilt y = α x + (1 − α) z , z−x sodass dies äquivalent ist zu ϕ(α x + (1 − α) z) ≤ α ϕ(x) + (1 − α) ϕ(z) . Bemerkung A.51. Ist ϕ konkav, so ist −ϕ konvex, daher erübrigt sich eine gesonderte Betrachtung konkaver Funktionen.
A.7 Eindeutigkeit der Exponentialfunktion ∀τ,
Es ist bekannt, dass eτ (x+y) = eτ x eτ y umgekehrt
x, y ∈ R . Aber es gilt auch
Satz A.52. Gilt für eine stetige Funktion f : R+ → R, f = 0 die Funktionalgleichung (A.16) f (x + y) = f (x) f (y) ∀ x, y ∈ R+ , ∀ x ∈ R+ .
so existiert ein τ ∈ R , sodass f (x) = eτ x
Beweis. Aus f (x + y) = f (x) f (y) ∀ x, y ∈ R+ folgt für festes aber beliebiges m∈N 2 2 1 1 1 1 1 f =f + =f f =f . m m m m m m $ 1 %n $n% =f m folgt weiters Unter der Annahme, dass gilt f m f
n+1 m
Damit gilt f
=f "n# m
"n# m
=f
f
1 m
1 m
=f
1 m
n+1 .
n ∀n∈N.
(A.17)
334
A Anhang
$ 1 %m $ % $1% 1 = f (1) m . Dies eingesetzt f (1) = f m ergibt umgeformt f m m = f m in (A.17) führt zu "n# n f = f (1) m ∀ n, m ∈ N . m Also gilt mit τ := ln f (1) f (q) = f (1)q = eτ q
∀ q ∈ Q+ .
(A.18)
Ist x ∈ R+ , so gibt es wegen der Stetigkeit von f und ex zu jedem ε > 0 ein q ∈ Q+ , q > x : |eτ x −eτ q | < 2ε ∧ |f (x)−f (q)| < 2ε ⇒ |eτ x −f (x)| < ε . Somit gilt f (x) = eτ x ∀ x ∈ R+ . Satz A.53. Gilt für f : N0 → R, f = 0 f (m + n) = f (m) f (n) so folgt daraus f (n) = f (1)n = en ln f (1) n ∈ N0 .
∀ m, n ∈ N0 ,
Beweis. f (0) = f (0 + 0) = f (0) f (0) ⇒ f (0) = 1 . f (2) = f (1 + 1) = f (1) f (1) = f (1)2 . Gilt f (n) = f (1)n , so gilt auch f (n + 1) = f (n) f (1) = f (1)n+1 . Damit ist der Satz bewiesen.
A.8 Trigonometrie Wir begnügen uns hier mit der üblichen elementargeometrischen Definition der Winkelfunktionen, wobei Winkel im Bogenmaß angegeben werden. Definition A.54. Die x-Koordinate des Punktes x des Kreisbogens der Länge α , der auf dem Einheitskreis im Punkt 1 := (1, 0) beginnt und gegen den Uhrzeigersinn führt, wird mit cos α bezeichnet. Die y-Koordinate von x nennt man sin α . Wenn man den Kreisumfang mit 2 π bezeichnet, so ergeben sich unmittelbar aus der Definition die folgenden Beziehungen: sin(−α) = − sin(α), cos(−α) = cos(α), cos(α ± π) = − cos α . Vertauschung der x- und y-Achse liefert # " "π π# − α = cos α − . sin α = cos 2 2
(A.19)
(A.20)
Da der Punkt x = (cos α, sin α) definitionsgemäß auf dem Einheitskreis liegt, gilt natürlich auch sin2 α + cos2 α = 1 . (A.21) Satz A.55 (Additionssatz für Sinus und Kosinus). cos(α ± β) = cos α cos β ∓ sin α sin β ,
(A.22)
sin(α ± β) = sin α cos β ± cos α sin β .
(A.23)
A.8 Trigonometrie
335
Beweis. Sind w := (w1 , w2 ) und v := (v1 , v2 ) die zu den Winkeln α und β gehörigen Punkte auf dem Einheitskreis, so ist α − β der Winkel zwischen w und v und man erhält cos(α − β) indem man die x-Achse in die Gerade durch den Ursprung 0 = (0, 0) und v verdreht und die x-Koordinate von w im neuen Koordinatensystem berechnet. Das ist aber nichts anderes als die Strecke 0 s zwischen dem Ursprung und dem Schnittpunkt der Geraden g(x) := vv21 x und der darauf Normalen durch den Punkt w , die durch die Gleichung h(x) := − vv12 x + vv12 w1 + w2 bestimmt wird. Der Schnittpunkt hat die Koordinaten s1 = (v1 w1 + v2 w2 ) v1 und s2 = (v1 w1 + v2 w2 ) v2 , und daher ist v1 w1 + v2 w2 die gesuchte Strecke 0 s . Somit gilt cos(α − β) = v1 w1 + v2 w2 .
(A.24)
Wegen v1 = cos β, v2 = sin β, w1 = cos α, w2 = sin α ergibt das cos(α − β) = cos α cos β + sin α sin β . Ersetzt man β durch −β , so liefert das die Formel für cos(α + β) . Mit Hilfe der Gleichungen (A.19) und (A.20) kann man die Beziehung (A.23) auf (A.22) zurückführen. Satz A.56. lim
α→0
sin α =1. α
Abb. A.3. Beweisskizze zu lim
α→0
(A.25)
sin α α
=1
Beweis. Der Abstand zwischen den Punkten (cos α, sin α) und (1, 0) beträgt E (1 − cos α)2 + sin2 α und ist kleiner als die Länge α des Kreisbogens zwischen diesen Punkten. Daraus folgt sin2 α ≤ α2 bzw. |sin α| ≤ |α| . Zusamsin α men mit α ≤ tan α führt dies zu sin α < α < tan α = cos α . Daraus folgt sin α sin α cos α < α < 1 ⇒ 1 = lim cos α ≤ lim inf α ≤ lim sup sinα α ≤ 1 . α→0
α→0
α→0
336
A Anhang
Folgerung A.57. cos α = 1 − 2 sin2 Beweis. Aus Satz A.55 folgt cos α = cos2 cos α + 2 sin2 Wegen sin2
α 2
≤
α2 4
α α2 ≥1− . 2 2 α 2
− sin2
α 2
(A.26)
. Daraus erhält man
α α α α = cos2 + sin2 = 1 ⇒ cos α = 1 − 2 sin2 . 2 2 2 2 (siehe im Beweis oben) gilt damit auch cos α ≥ 1 −
α2 2
.
Lemma A.58. sin α = cos α , cos α = − sin α . Beweis. Aus Satz A.55 folgt h sin(α + h) = sin (α + ) + 2 h sin α = sin (α + ) − 2
h h h h h = sin α + cos + cos α + sin 2 2 2 2 2 h h h h h = sin α + cos − cos α + sin . 2 2 2 2 2 % $ Daraus erhält man sin(α + h) − sin α = 2 cos α + h2 sin h2 . Unter Berücksichtigung von Satz A.56 folgt daraus schließlich sin h h sin(α + h) − sin α = lim cos α + lim h 2 = cos α . lim h→0 h→0 h 2 h→0 2 % % $ $ Aus cos α = sin α + π2 folgt cos α = cos α + π2 = − sin α .
Satz A.59. sin α =
∞ i=0
(−1)i
α2 i+1 (2 i+1)!
, cos α =
∞
(−1)i
i=0
α2 i (2 i)!
.
Beweis. Der Beweis folgt sofort aus dem Satz+ von Taylor mit a = + (Satz +A.41) n+ + (n) + 0 , b = α , weil in beiden Fällen gilt 0 ≤ lim + f n!(x) αn + ≤ lim + αn! + = 0 . Wie n
n
leicht zu sehen, konvergieren die beiden obigen Reihen absolut.
A.9 Komplexe Analysis Definition A.60. Die Punkte der Zahlenebene R2 zusammen mit der durch (x1 , x2 ) + (y1 , y2 ) := (x1 + y1 , x2 + y2 ) definierten Addition und der durch (x1 , x2 ) (y1 , y2 ) := (x1 y1 − x2 y2 , x1 y2 + x2 y1 ) definierten Multiplikation werden als Körper der komplexen Zahlen bezeichnet. Für die Menge der komplexen Zahlen verwenden wir die Notation C anstatt R2 . Ist x := (x1 , x2 ) , so nennt man x1 den Realteil von x und bezeichnet ihn mit + x , x2 wird Imaginärteil genannt und durch , x dargestellt.
A.9 Komplexe Analysis
337
Bemerkung A.61. 1. Man kann leicht nachprüfen, dass die Körperaxiome tatsächlich erfüllt sind, wobei 0 := (0, 0) das Nullelement und 1 := (1, 0) das Einselement darstellt, und das zu x := (x1 , x2 )= 0 bezüglich derMultiplikation inverse Element √
gegeben ist durch x−1 =
x1 , x21 +x22
2 √−x 2
x1 +x22
.
2. Fasst man C als Vektorraum über R auf und definiert man i als i := (0, 1) , so gilt x := (x1 , x2 ) = x1 1 + i x2 , bzw., wenn man die Multiplikation mit dem Einselement nicht anschreibt, x = x1 + i x2 . Das ist die für komplexe Zahlen übliche Notation, die auch hier von nun an√verwendet wird. 3. Mit der obigen Bezeichnung gilt i2 = −1 bzw. i = −1 . Definition A.62. Ist x ∈ C , so heißt x := +x − i ,x die zu x Konjugierte. Bemerkung A.63. 1. Offensichtlich gilt x + y = x + y , x y = x y , x + x = 2 +x , x − x = 2 i ,x . eines inneren Produkts 2. Die Abbildung )x, y* := x y hat alle Eigenschaften √ (siehe Definition A.74), deshalb wird durch |x| := x x eine Norm auf C definiert. Man nennt |x| den Absolutbetrag von x . Klarerweise gilt |x| ∈ R . 3. Es gilt max{|+x| , |,x|} ≤ |x| ≤ |+x| + |,x| . 4. Aus Punkt 3 folgt lim xn = x ⇔ ( lim +xn = +x ∧ lim ,xn = ,x ) . n
n
n
x 5. Mit den obigen Bezeichnungen gilt x−1 = |x| . x x 6. Mit θ := arg x := arctan x = arccos |x| = arcsin x |x| kann man x = 0 in trigonometrischer Form x = |x| (cos θ + i sin θ) darstellen. θ wird als Argument von x bezeichnet. Auf Grund von Satz A.55 ergibt sich damit für die Multiplikation zweier komplexer Zahlen x = |x| (cos α + i sin α) und y = |y| (cos β + i sin β) die folgende Beziehung
x y = ( |x| (cos α + i sin α) ) ( |y| (cos β + i sin β) ) = |x| |y| (cos(α + β) + i sin(α + β)) . Lemma A.64. Die Reihe durch ex :=
∞ n=0
∞ n=0
xn n!
xn n!
(A.27)
konvergiert auf C absolut, sodass jedem x ∈ C
ein endlicher Wert zugewiesen wird. Die entsprechende Funk-
tion wird (komplexe) Exponentialfunktion genannt. Beweis. Aus
|x|n+1 (n+1)! |x|n n!
=
|x| n+1
2 |x| folgt nach dem Quotientenkri-
terium die absolute Konvergenz der Reihe. Nach Satz A.7 konvergiert daher ∞ xn auch die Reihe n! . n=0
338
A Anhang
Satz A.65. 1. ex+y = ex ey ∀ x, y ∈ C . x 2. lim e x−1 = 1 . x→0
3. (ex ) = ex . 4. +ei x = + cos x + i sin x ∀ x ∈ R (Euler’sche Formel). 5. +ei x + = 1 ∀ x ∈ R . 6. (ei x ) = e−i x . 7. ex = ex ei (x) = ex ( cos (,x) + i sin (,x) ) . 8. |ex | = ex . |ei x −1| 9. |x| ≤ 1 ∀ x ∈ R . (ei x ) 10. lim x = lim sinx x = 1 . x→0 +x→0 + + (ei x ) + + sin x + 11. ++ x ++ = + x + ≤ 1 . Beweis. ad 1. : Dies folgt aus Satz A.17 wegen n ∞ ∞ ! ! ! (x + y)n xk yn−k = n! k! (n − k)! n=0 n=0 k=0 ∞
∞ ! xn ! ym = ex ey . = n! m! n=0 m=0
ex+y =
∞ xn−2 = 1+x n! . Daraus folgt die Behauptung unmittel+ + n=2 ∞ ∞ ∞ + + |x|n−2 xn−2 + 1 + bar, da für |x| ≤ 1 gilt +x n! + ≤ |x| (n−2)! ≤ |x| m! = |x| e .
ad 2. : Es gilt
ex −1 x
n=2
n=2
m=0
ad 3. : Aus den Punkten 1. und 2. folgt
ex+h − ex eh − 1 = ex lim = ex . h→0 h→0 h h
(ex ) = lim
ad 4. : Dies folgt aus Lemma A.10 in Zusammenhang mit Satz A.59, denn die Summe der Reihen für cos x und i sin x ergibt die Reihe für ei x . + +2 ad 5. : Wegen Punkt 4. gilt +ei x + = cos2 x + sin2 x = 1 . ad 6. : Dies folgt aus Punkt 4. und cos(−x) = cos x , sin(−x) = − sin x . ad 7. : Wegen x = +x + i ,x folgt dies sofort aus den Punkten 1. und 4. ad 8. : Dies folgt + sofort+ aus+ den+ Punkten 5. und 7. ad 9. : Wegen +ei x − 1+ ≤ +ei x + + 1 = 2 ist die Aussage trivial für |x| ≥ 2 . Für 0 ≤ |x| ≤ 2 gilt + + ix $ %$ % +e − 1+2 = ei x − 1 e−i x − 1 = 1 − ei x − e−i x + 1 ∞ k k ∞ ∞ ! ! ! i x (−1)k ik xk x2 n = 2− − =2 . (−1)n−1 k! k! (2 n)! n=1 k=0
k=0
A.10 Funktionalanalysis 2
Daraus folgt Glieder
|ei x −1| 2
|x|
= 1−2
∞
(−1)n
n=2
2 n−2
x2 n−2 (2 n)!
339
. Da für 0 ≤ |x| ≤ 2 die
x (2 n)!
der Reihe auf der rechten Seite der Gleichung monoton ∞ 2 n−2 2 (−1)n x(2 n)! ≤ x4! ≤ 16 , gegen 0 fallen, impliziert Lemma A.5 0 ≤ n=2
|ei x −1|
sodass auch in diesem Fall |x| ≤ 1 gelten muss. " ix ix −i x (ei x ) e −1 1 ad 10. : lim x = lim e 2−e = lim ix 2 ix + x→0
x→0
folgt nach Punkt 2.
ad
lim sin x = 1 . x→0 x+ + + (ei x ) + + 11. : + x ++
(ei x ) lim x x→0
+ i x −i x + + + = + e 2−e +≤ ix
x→0
e−i x −1 −i x
# . Daraus
= 1 . Dies ist ein anderer Beweis für
"+ i x + + −i x +# + e −1 + + e −1 + + i x + + + −i x + ≤ 1 nach Punkt 9. + sin x + Dies ist ein anderer Beweis für + x + ≤ 1 . 1 2
A.10 Funktionalanalysis Definition A.66. Eine nichtleere Menge V heißt Vektorraum oder linearer Raum über K := R oder K := C , wenn es eine Abbildung + : V2 → V gibt mit folgenden Eigenschaften 1. x , y ∈ V ⇒ x + y = y + x , 2. x , y , z ∈ V ⇒ (x + y) + z = x + (y + z) , 3. ∃ 0 ∈ V : x + 0 = x ∀ x ∈ V , 4. x ∈ V ⇒ ∃ −x ∈ V : x − x := x + (−x) = 0 , und, wenn es eine „Multiplikation “ · gibt, die K × V abbildet in V und die die folgenden Eigenschaften hat 1. α , β ∈ K , x ∈ V ⇒ α · (β · x) = (α β) · x , 2. 1 · x = x ∀ x ∈ V , 3. α , β ∈ K , x ∈ V ⇒ (α + β) · x = α · x + β · x , 4. α ∈ K , x , y ∈ V ⇒ α · (x + y) = α · x + α · y . Ist K := R , so spricht man von einem reellen Vektorraum, und einen Vektorraum über K := C nennt man einen komplexen Vektorraum. Statt α · x schreibt man üblicherweise α x . Definition A.67. Ist V ein Vektorraum über K , so nennt man eine Abbildung T : V → K ein lineares Funktional, wenn T (α x + β y) = α T (x) + β T (y)
∀ α,β ∈ K, x,y ∈ V .
(A.28)
Definition A.68. Eine Seminorm !.! ist eine Abbildung von einem Vektorraum V über K in R , für die gilt
340
A Anhang
1. !α x! = |α| !x! ∀ α ∈ K , x ∈ V , 2. !x + y! ≤ !x! + !y! ∀ x , y ∈ V . Punkt 1. impliziert !0! = 0 . Gilt zusätzlich !x! = 0 man von einer Norm.
⇒
x = 0 , so spricht
Definition A.69. Ein Vektorraum V zusammen mit einer Norm ist ein normierter, linearer Raum. Ist der Raum V vollständig, wenn also zu jeder Cauchyfolge aus V ein Grenzwert in V existiert, so nennt man V einen Banachraum. Definition A.70. Ist V ein normierter, linearer Raum, so nennt man ein lineares Funktional T auf V beschränkt, wenn !T ! := sup{!T (x)! : !x! ≤ 1 } < ∞ . !T ! wird als Norm von T bezeichnet. Bemerkung A.71. Ist W ⊆ V ebenfalls ein normierter, linearer Raum, also ein Teilraum von V , so ist T |W ein lineares Funktional auf W , für das klarerweise gilt !T |W ! ≤ !T ! , d.h. die Norm der Einschränkung eines beschränkten, linearen Funktionals auf einen Teilraum ist nie größer als die Norm des Funktionals selbst. Bemerkung A.72. Es ist leicht zu sehen, dass die beschränkten, linearen Funktionale auf einem Banachraum V auch einen normierten, linearen Raum bilden. Definition A.73. Unter dem zu einem Banachraum V dualen Raum versteht man den Raum der beschränkten, linearen Funktionale auf V . Definition A.74. Ist V ein Vektorraum über K := R oder K := C , so nennt man eine Abbildung ). , . * von V2 in K ein inneres Produkt, wenn 1. )α x + β y , z* = α )x , z* + β )y , z* ∀ α , β ∈ K , x , y , z ∈ V , 2. )x , y* = )y , x* ∀ x , y ∈ V (in der obigen Gleichung bezeichnet α , α ∈ C die zu α konjugiert komplexe Zahl; dementsprechend gilt )x , y* = )y , x* , wenn K := R), 3. )x , x* ≥ 0 ∀ x ∈ V , 4. )x , x* = 0 ⇔ x = 0 . Räume mit innerem Produkt werden auch als Prähilberträume bezeichnet. Beispiel A.75. Wie man leicht sieht, wird durch )v, w* :=
k !
vi wi ,
v := (v1 , . . . , vk ) , w := (w1 , . . . , wk ) ∈ Rk
(A.29)
i=1
ein inneres Produkt auf Rk definiert. Bemerkung A.76. Sind v und w zwei Vektoren aus R2 , so stimmt nach Gleichung (A.24) der Kosinus cos(v, w) des Winkels zwischen v und w überein mit dem inneren Produkt der entsprechenden Einheitsvektoren, also cos(x, y) =
)v, w* . !v! !w!
(A.30)
A.11 Drehung
341
Satz A.77 (Cauchy-Schwarz’sche Ungleichung). Ist V ein Prähilbertraum, < so gilt mit !x! := )x , x* , x ∈ V |)x , y*| ≤ !x! !y!
∀ x,y ∈ V.
(A.31)
Beweis. Wegen )x , 0* = )x , 0 + 0* = )x , 0* + )x , 0* gilt )x , 0* = 0 . Daher ist die obige Gleichung für y = 0 trivial. Ist y = 0 , so gilt 0 ≤ )x −
)x , y* !y!
2
= !x! − 2
2
y,x −
)x , y* !y!
)x , y* )x , y* !y!
2
2
+
y*
)x , y* )x , y* !y!
2
2
= !x! −
Folgerung A.78. Ist V ein Prähilbertraum, so ist !x! := Norm auf V .