Wahrscheinlichkeitstheorie German

Klenke Wahrscheinlichkeitstheorie Achim Klenke Wahrscheinlichkeitstheorie Mit 34 Abbildungen 123 Prof. Dr. Achim K...

Author: Achim Klenke

65 downloads 1572 Views 3MB Size Report

This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form

DOWNLOAD PDF

Klenke Wahrscheinlichkeitstheorie

Achim Klenke

Wahrscheinlichkeitstheorie Mit 34 Abbildungen

123

Prof. Dr. Achim Klenke Institut für Mathematik Johannes Gutenberg-Universität Mainz Staudingerweg 9 55099 Mainz, Deutschland e-mail: [email protected]

Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.ddb.de abrufbar.

Mathematics Subject Classification (2000): 60-01, 28-01, 60G05, 60J10, 60H05

ISBN-10 3-540-25545-1 Springer Berlin Heidelberg New York ISBN-13 978-3-540-25545-1 Springer Berlin Heidelberg New York Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Springer ist ein Unternehmen von Springer Science+Business Media springer.de © Springer-Verlag Berlin Heidelberg 2006 Printed in Germany Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, daß solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Text und Abbildungen wurden mit größter Sorgfalt erarbeitet. Verlag und Autor können jedoch für eventuell verbliebene fehlerhafte Angaben und deren Folgen weder eine juristische Verantwortung noch irgendeine Haftung übernehmen. Umschlaggestaltung: design & production GmbH, Heidelberg Herstellung: LE-TEX Jelonek, Schmidt & Vöckler GbR, Leipzig Satz: Datenerstellung durch den Autor unter Verwendung eines Springer TEX-Makropakets Gedruckt auf säurefreiem Papier 44/3100YL - 5 4 3 2 1 0

Vorwort

Das vorliegende Buch basiert auf den vierstündigen Vorlesungen Stochastik I und Stochastik II, die ich in den vergangenen Jahren an der Universität zu Köln und an der Johannes Gutenberg-Universität in Mainz gehalten habe, und die an eine Vorlesung u¨ ber elementare Stochastik anschließen. Eine gewisse Vertrautheit mit den Ideen der elementaren Stochastik wird zwar nicht formal vorausgesetzt, dem Leser jedoch empfohlen. Ziel dieses Buches ist es, die zentralen Objekte und Konzepte der Wahrscheinlichkeitstheorie vorzustellen: Zufallsvariablen, Unabhängigkeit, Gesetze der großen Zahl und zentrale Grenzwertsätze, Martingale, Austauschbarkeit und unbegrenzte Teilbarkeit, Markovketten und -prozesse sowie den Zusammenhang mit der diskreten Potentialtheorie, Kopplung, Ergodentheorie, die Brown’sche Bewegung und das Itô-Integral (nebst stochastischen Differentialgleichungen), den Poisson’schen Punktprozess, Perkolation und die Theorie der großen Abweichungen, sowie stochastische Differentialgleichungen. Die Maß- und Integrationstheorie wird entwickelt, soweit sie für das Verständnis und die Formulierung der Wahrscheinlichkeitstheorie notwendig ist: Konstruktion von Maßen und Integralen, Satz von Radon-Nikodym und reguläre bedingte Verteilungen, Konvergenzsätze für Funktionen (Lebesgue) und Maße (Prohorov) und Konstruktion von Maßen in Produkträumen. Die einzelnen maßtheoretischen Kapitel kommen nicht als Block am Anfang des Buches, obwohl sie so geschrieben sind, dass das möglich wäre, nämlich unabhängig von den wahrscheinlichkeitstheoretischen Kapiteln, sondern abwechselnd mit wahrscheinlichkeitstheoretischen Kapiteln, die so gebaut sind, dass sie mit den gerade zur Verfügung stehenden Begriffen auskommen (beispielsweise kann man Perkolation studieren, ohne einen Integralbegriff an der Hand zu haben). Als einzige Ausnahme wird die systematische Konstruktion von unabhängigen Zufallsvariablen erst im 14ten Kapitel nachgeliefert. Ich verspreche mir von diesem Vorgehen eine Auflockerung des maßtheoretischen Stoffes, der von manchen als etwas trocken empfunden wird. Letztlich ist dieses genauso eine Geschmacksfrage wie diejenige, welches der beiden Themen als linke und welches als rechte Hand anzusehen ist. Wer eine maßtheoretische Grundbildung hat, kann insbesondere das erste Kapitel beim ersten Lesen zunächst u¨ berspringen und braucht eventuell nur Einzelnes darin nachzuschlagen. Das Gleiche gilt für das vierte Kapitel (Integrationstheorie).

VI

Vorwort

In den ersten acht Kapiteln wird das Fundament gelegt, das in allen weiteren Kapiteln benötigt wird. Danach können die sieben inhaltlichen Einheiten von Kapitel 9–12, 13, 14, 15–16, 17–19, 20, und 23 einigermaßen unabhängig voneinander gelesen werden. Das Kapitel zur Brown’schen Bewegung (21) greift auf die Kapitel 9–15 zurück. Danach sind unabhängig voneinander die Blöcke 22, 24 und 25–26 lesbar. Ich danke all denjenigen, die das Manuskript gelesen und zahlreiche Verbesserungsvorschläge und Korrekturen angebracht haben: Den Mitarbeitern und Studenten Roland Alkemper, Dirk Brüggemann, Anne Eisenbürger, Ortwin Lorenz, Mario Oeler, Marcus Schölpen, den Kollegen Wolfgang Bühler und Wolfgang König sowie besonders dem Münchener Kollegen Hans-Otto Georgii. Für weitere Hinweise auf Fehler unter [email protected] wäre ich dankbar. Außerdem möchte ich mich beim Springer-Verlag für die gute Zusammenarbeit bedanken.

Mainz, November 2005

Achim Klenke

Inhaltsverzeichnis

1

Grundlagen der Maßtheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.1

Mengensysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.2

Mengenfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.3 Fortsetzung von Maßen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2

3

1.4

Messbare Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

1.5

Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.1

Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.2

Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.3

Kolmogorov’sches 0-1 Gesetz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

2.4

Beispiel: Perkolation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

Erzeugendenfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.1 Definition und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4

3.2

Poisson-Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

3.3

Verzweigungsprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

Das Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.1 Konstruktion und einfache Eigenschaften . . . . . . . . . . . . . . . . . . . . . . 83

5

4.2

Monotone Konvergenz und Lemma von Fatou . . . . . . . . . . . . . . . . . . 91

4.3

Lebesgue-Integral versus Riemann-Integral . . . . . . . . . . . . . . . . . . . . . 93

Momente und Gesetze der Großen Zahl . . . . . . . . . . . . . . . . . . . . . . . . . 97 5.1 Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 5.2

Schwaches Gesetz der Großen Zahl . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

VIII

Inhaltsverzeichnis

5.3 Starkes Gesetz der Großen Zahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.4 Konvergenzrate im starken GGZ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 5.5 6

7

Der Poissonprozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

Konvergenzsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 6.1

Fast-überall- und stochastische Konvergenz . . . . . . . . . . . . . . . . . . . . . 125

6.2

Gleichgradige Integrierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

6.3

Vertauschung von Integral und Ableitung . . . . . . . . . . . . . . . . . . . . . . . 136

Lp -Räume und Satz von Radon-Nikodym . . . . . . . . . . . . . . . . . . . . . . . 139 7.1 Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

8

9

7.2

Ungleichungen und Satz von Fischer-Riesz . . . . . . . . . . . . . . . . . . . . . 141

7.3

Hilberträume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

7.4

Lebesgue’scher Zerlegungssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

7.5

Ergänzung: Signierte Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

7.6

Ergänzung: Dualräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

Bedingte Erwartungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 8.1

Elementare bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . 165

8.2

Bedingte Erwartungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

8.3

Reguläre Version der bedingten Verteilung . . . . . . . . . . . . . . . . . . . . . 175

Martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 9.1

Prozesse, Filtrationen, Stoppzeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

9.2 Martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

10

9.3

Diskretes stochastisches Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

9.4

Diskreter Martingaldarstellungssatz und CRR Modell . . . . . . . . . . . . 194

Optional Sampling Sätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 10.1 Doob-Zerlegung und quadratische Variation . . . . . . . . . . . . . . . . . . . . 199 10.2 Optional Sampling und Optional Stopping . . . . . . . . . . . . . . . . . . . . . . 203 10.3 Gleichgradige Integrierbarkeit und Optional Sampling . . . . . . . . . . . . 207

11

Martingalkonvergenzsätze und Anwendungen . . . . . . . . . . . . . . . . . . . 209

Inhaltsverzeichnis

IX

11.1 Die Doob’sche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 11.2 Martingalkonvergenzsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 11.3 Beispiel: Verzweigungsprozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 12

¨ Ruckw¨ artsmartingale und Austauschbarkeit . . . . . . . . . . . . . . . . . . . . . 221 12.1 Austauschbare Familien von Zufallsvariablen . . . . . . . . . . . . . . . . . . . 221 12.2 Rückwärtsmartingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 12.3 Satz von de Finetti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228

13

Konvergenz von Maßen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 13.1 Wiederholung Topologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 13.2 Schwache und vage Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240 13.3 Der Satz von Prohorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248 13.4 Anwendung: Satz von de Finetti – anders angeschaut . . . . . . . . . . . . . 257

14

W-Maße auf Produkträumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 14.1 Produkträume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260 ¨ 14.2 Endliche Produkte und Ubergangskerne . . . . . . . . . . . . . . . . . . . . . . . . 263 14.3 Satz von Ionescu-Tulcea und Projektive Familien . . . . . . . . . . . . . . . . 272 14.4 Markov’sche Halbgruppen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276

15

Charakteristische Funktion und Zentraler Grenzwertsatz . . . . . . . . . 281 15.1 Trennende Funktionenklassen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281 15.2 Charakteristische Funktionen: Beispiele . . . . . . . . . . . . . . . . . . . . . . . . 288 15.3 Der Lévy’sche Stetigkeitssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294 15.4 Charakteristische Funktion und Momente . . . . . . . . . . . . . . . . . . . . . . 299 15.5 Der Zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304 15.6 Mehrdimensionaler Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . 312

16

Unbegrenzt teilbare Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315 16.1 Die Lévy-Khinchin Formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315 16.2 Stabile Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327

17

Markovketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333

X

Inhaltsverzeichnis

17.1 Begriffsbildung und Konstruktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333 17.2 Diskrete Markovketten, Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340 17.3 Diskrete Markovprozesse in stetiger Zeit . . . . . . . . . . . . . . . . . . . . . . . 344 17.4 Diskrete Markovketten, Rekurrenz und Transienz . . . . . . . . . . . . . . . . 349 17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten . . . . . . . . . . . . 353 17.6 Invariante Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360 18

Konvergenz von Markovketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365 18.1 Periodizität von Markovketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365 18.2 Kopplung und Konvergenzsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369 18.3 Markovketten Monte Carlo Methode . . . . . . . . . . . . . . . . . . . . . . . . . . 376 18.4 Konvergenzgeschwindigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383

19

Markovketten und elektrische Netzwerke . . . . . . . . . . . . . . . . . . . . . . . 389 19.1 Harmonische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389 19.2 Reversible Markovketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392 19.3 Elektrische Netzwerke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393 19.4 Rekurrenz und Transienz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399 19.5 Netzwerkreduktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405 19.6 Irrfahrt in zufälliger Umgebung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412

20

Ergodentheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415 20.1 Begriffsbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415 20.2 Ergodensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418 20.3 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421 20.4 Anwendung: Rekurrenz von Irrfahrten . . . . . . . . . . . . . . . . . . . . . . . . . 423 20.5 Mischung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426

21

Die Brown’sche Bewegung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429 21.1 Stetige Modifikationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429 21.2 Konstruktion und Pfadeigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . 436 21.3 Starke Markoveigenschaft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441 21.4 Ergänzung: Feller Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444

Inhaltsverzeichnis

XI

21.5 Konstruktion durch L2 -Approximation . . . . . . . . . . . . . . . . . . . . . . . . 447 21.6 Der Raum C([0, ∞)) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451

21.7 Konvergenz von W-Maßen auf C([0, ∞)) . . . . . . . . . . . . . . . . . . . . . . 453

21.8 Satz von Donsker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456

21.9 Pfadweise Konvergenz von Verzweigungsprozessen∗ . . . . . . . . . . . . . 460 21.10Quadratische Variation und lokale Martingale . . . . . . . . . . . . . . . . . . . 465 22

Gesetz vom iterierten Logarithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477 22.1 Iterierter Logarithmus für die Brown’sche Bewegung . . . . . . . . . . . . . 477 22.2 Skorohod’scher Einbettungssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 480 22.3 Satz von Hartman-Wintner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486

23

Große Abweichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489 23.1 Satz von Cramér . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 490 23.2 Prinzip der großen Abweichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494 23.3 Satz von Sanov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 498 23.4 Varadhan’sches Lemma und Freie Energie . . . . . . . . . . . . . . . . . . . . . . 502

24

Der Poisson’sche Punktprozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509 24.1 Zufällige Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509 24.2 Eigenschaften des Poisson’schen Punktprozesses . . . . . . . . . . . . . . . . 513 24.3 Die Poisson-Dirichlet-Verteilung∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519

25

Das Itô-Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 527 25.1 Das Itô-Integral bezüglich der Brown’schen Bewegung . . . . . . . . . . . 527 25.2 Itô-Integral bezüglich Diffusionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 535 25.3 Die Itô-Formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 538 25.4 Dirichlet-Problem und Brown’sche Bewegung . . . . . . . . . . . . . . . . . . 546 25.5 Rekurrenz und Transienz der Brown’schen Bewegung . . . . . . . . . . . . 548

26

Stochastische Differentialgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . 551 26.1 Starke Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 551 26.2 Schwache Lösungen und Martingalproblem . . . . . . . . . . . . . . . . . . . . 560 26.3 Eindeutigkeit schwacher Lösungen via Dualität . . . . . . . . . . . . . . . . . 567

XII

Inhaltsverzeichnis

Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583 ¨ Glossar englischer Ausdrucke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 587 Namensregister . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 589 Sachregister . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593

1 Grundlagen der Maßtheorie

In diesem Kapitel führen wir die Mengensysteme ein, die eine systematische Betrachtung von Ereignissen und zufälligen Beobachtungen in der Wahrscheinlichkeitstheorie erlauben. Ferner sollen Maße, insbesondere Wahrscheinlichkeitsmaße, auf solchen Mengensystemen konstruiert werden. Schließlich werden wir Zufallsvariablen als messbare Abbildungen definieren.

1.1 Mengensysteme Im Folgenden ist stets Ω = ∅ eine Menge und A ⊂ 2Ω (Potenzmenge von Ω) eine Familie von Teilmengen. Später wird die Menge Ω als Raum von Elementarereignissen interpretiert werden und A als ein System von beobachtbaren Ereignissen. Wir wollen in diesem Abschnitt Mengensysteme, die abgeschlossen sind unter einfachen mengentheoretischen Verknüpfungen, mit Namen versehen und einfache Beziehungen zwischen solchen Systemen herstellen. Definition 1.1. Das Mengensystem A heißt – ∩-stabil (sprich: schnittstabil) oder ein π-System, falls für je zwei Mengen A, B ∈ A gilt, dass auch A ∩ B ∈ A,

– σ-∩-stabil (sigma-schnittstabil), falls für je abzählbar unendlich viele Mengen ∞ An ∈ A, A1 , A2 , . . . ∈ A gilt, dass auch n=1

– ∪-stabil (vereinigungsstabil), falls für je zwei Mengen A, B ∈ A gilt, dass auch A ∪ B ∈ A,

– σ-∪-stabil (sigma-vereinigungsstabil), falls für je abzählbar unendlich viele Men∞ An ∈ A, gen A1 , A2 , . . . ∈ A gilt, dass auch n=1

– \-stabil (differenzmengenstabil), falls für je zwei Mengen A, B ∈ A gilt, dass auch A \ B ∈ A,

– komplementstabil, falls mit jeder Menge A ∈ A auch Ac := Ω \ A ∈ A gilt.

2


Definition 1.2 (σ-Algebra). Ein Mengensystem A ⊂ 2Ω heißt σ-Algebra, falls die folgenden drei Bedingungen erfüllt sind. (i) Ω ∈ A,

(ii) A ist komplementstabil,

(iii) A ist σ-∪-stabil.

σ-Algebren sind die natürlichen Mengensysteme für zufällige Ereignisse, denn wie wir sehen werden, können wir diesen Ereignissen in konsistenter Weise Wahrscheinlichkeiten zuordnen. ¨ Satz 1.3. Ist A komplementstabil, so gelten die beiden folgenden Aquivalenzen. A ist ∩ -stabil

⇐⇒

A ist ∪ -stabil,

A ist σ- ∩ -stabil

⇐⇒

A ist σ- ∪ -stabil.

Beweis. Dies folgt direkt aus den de Morgan’schen Regeln (Erinnerung: ( Ai )c = c Ai ). Ist beispielsweise A σ-∩-stabil und sind A1 , A2 , . . . ∈ A, so ist auch ∞ c ∞ c An = An ∈ A. n=1

n=1

Also ist A auch σ-∪-stabil. Die anderen Fälle folgen analog.

2

Satz 1.4. Ist A \-stabil, so gelten die folgenden Aussagen. (i) A ist ∩-stabil.

(ii) Falls A σ-∪-stabil ist, dann ist A auch σ-∩-stabil.

(iii) Jede abzählbare (beziehungsweise endliche) Vereinigung von Mengen aus A lässt sich als abzählbare (beziehungsweise endliche), disjunkte Vereinigung von Mengen in A schreiben. Beweis. (i) Seien A, B ∈ A. Dann ist auch A ∩ B = A \ (A \ B) ∈ A. (ii) Seien A1 , A2 , . . . ∈ A. Dann ist ∞

n=1

An =

∞

(A1 ∩ An ) =

n=2

∞

n=2

A1 \ (A1 \ An ) = A1 \

(iii) Seien A1 , A2 , . . . ∈ A. Dann ist gung in A darstellbar durch

∞

n=1

∞

(A1 \ An ) ∈ A.

n=2

An als abzählbare, disjunkte Vereini-

1.1 Mengensysteme ∞

n=1

3

An = A1 ⊎ (A2 \ A1 ) ⊎ ((A3 \ A1 ) \ A2 ) ⊎ (((A4 \ A1 ) \ A2 ) \ A3 ) ⊎ . . . 2

Bemerkung 1.5. Manchmal bezeichnen wir, wie imobigen Beweis, die Vereinigung paarweise disjunkter Mengen mit dem Symbol . Dies soll lediglich der optischen Verdeutlichung dienen und ist keine neue Verknüpfung. 3 Definition 1.6. Ein Mengensystem A ⊂ 2Ω heißt Algebra, falls gilt: (i) Ω ∈ A,

(ii) A ist \-stabil,

(iii) A ist ∪-stabil. Offenbar ist in einer Algebra stets ∅ = Ω \ Ω enthalten. Diese Eigenschaft ist im Allgemeinen jedoch schwächer als (i) in Definition 1.6. Satz 1.7. Ein Mengensystem A ⊂ 2Ω ist genau dann eine Algebra, wenn es folgende drei Eigenschaften hat: (i) Ω ∈ A,

(ii) A ist komplementstabil,

(iii) A ist ∩-stabil. ¨ Beweis. Ubung!

2

Definition 1.8. Ein Mengensystem A ⊂ 2Ω heißt Ring, falls gilt: (i) ∅ ∈ A,

(ii) A ist \-stabil,

(iii) A ist ∪-stabil. Ein Ring heißt σ-Ring, falls er σ-∪-stabil ist. Definition 1.9. Ein Mengensystem A ⊂ 2Ω heißt Semiring (oder Halbring), falls gilt: (i) ∅ ∈ A,

(ii) für je zwei Mengen A, B ∈ A ist B \ A endliche Vereinigung von paarweise disjunkten Mengen aus A,

(iii) A ist ∩-stabil.

4


Definition 1.10. Ein Mengensystem A ⊂ 2Ω heißt Dynkin-System (oder λ-System), falls gilt: (i) Ω ∈ A,

(ii) für je zwei Mengen A, B ∈ A mit A ⊂ B ist B \ A ∈ A,

(iii) f¨ ur je abzählbar viele, paarweise disjunkte Mengen A1 , A2 , . . . ∈ A gilt ∞ n=1 An ∈ A.

Beispiele 1.11. (i) Ist Ω eine beliebige nichtleere Menge, so sind A = {∅, Ω} und A = 2Ω die trivialen Beispiele für Algebren, σ-Algebren und Dynkin-Systeme. Hingegen sind A = {∅} und A = 2Ω die trivialen Beispiele für Semiringe, Ringe und σ-Ringe. (ii) Sei Ω = R. Dann ist A = {A ⊂ R : A ist abzählbar} ein σ-Ring. (iii) A = {(a, b] : a, b ∈ R, a ≤ b} ist ein Semiring u¨ ber Ω = R (aber kein Ring). (iv) Die Menge endlicher Vereinigungen von beschränkten Intervallen ist ein Ring u¨ ber Ω = R (aber keine Algebra). (v) Die Menge endlicher Vereinigungen beliebiger (auch unbeschränkter) Intervalle ist eine Algebra u¨ ber Ω = R (aber keine σ-Algebra). (vi) Sei E eine endliche, nichtleere Menge und Ω := E N die Menge aller Folgen ω = (ωn )n∈N mit Werten in E. Für ω1 , . . . , ωn ∈ E sei [ω1 , . . . , ωn ] := {ω ′ ∈ Ω : ωi′ = ωi für jedes i = 1, . . . , n}

die Menge aller Folgen, die mit den Werten ω1 , . . . , ωn beginnen. Sei A0 = {∅}. Für n ∈ N setze Dann ist A :=

∞

An := {[ω1 , . . . , ωn ] : ω1 , . . . , ωn ∈ E}.

n=0

(1.1)

An ein Semiring, aber kein Ring (falls #E > 1).

(vii) Sei Ω eine beliebige nichtleere Menge. Dann ist A := {A ⊂ Ω : A oder Ac ist endlich} eine Algebra. Ist #Ω = ∞, so ist A jedoch keine σ-Algebra. (viii) Sei Ω eine beliebige nichtleere Menge. Dann ist A := {A ⊂ Ω : A oder Ac ist abzählbar} eine σ-Algebra. (ix) Jede σ-Algebra ist auch ein Dynkin-System.

(x) Sei Ω = {1, 2, 3, 4} und A = ∅, {1, 2}, {1, 4}, {2, 3}, {3, 4}, {1, 2, 3, 4} . Dann ist A ein Dynkin-System, aber keine Algebra. 3

1.1 Mengensysteme

5

Satz 1.12 (Inklusionen zwischen Mengensystemen). (i) Jede σ-Algebra ist ein Dynkin-System, eine Algebra und ein σ-Ring. (ii) Jeder σ-Ring ist ein Ring, jeder Ring ein Semiring. (iii) Jede Algebra ist auch ein Ring. Eine Algebra auf einer endlichen Menge Ω ist auch eine σ-Algebra. Beweis. (i) Das ist klar. (ii) Sei A ein Ring. Nach Satz 1.4 ist A schnittstabil und damit ein Semiring. (iii) Sei A eine Algebra, und seien A, B ∈ A. Dann ist A \ B = (Ac ∪ B)c ∈ A, also ist A ein Ring. Ist zudem Ω endlich, so ist A endlich und damit jede abzählbare Vereinigung in A schon eine endliche Vereinigung. 2 Definition 1.13 (liminf und limsup). Es seien A1 , A2 , . . . Teilmengen von Ω. Dann heißen ∞ ∞ ∞ ∞ Am und lim sup An := Am lim inf An := n→∞

n→∞

n=1 m=n

n=1 m=n

Limes inferior beziehungsweise Limes superior der Folge (An )n∈N . Bemerkung 1.14. (i) Es gilt

lim inf An = ω ∈ Ω : #{n ∈ N : ω ∈ An } < ∞ , n→∞

lim sup An = ω ∈ Ω : #{n ∈ N : ω ∈ An } = ∞ . n→∞

Der Limes inferior ist also das Ereignis, dass schließlich alle der An eintreten, der Limes superior hingegen das Ereignis, dass unendlich viele der An eintreten. Insbesondere ist A∗ := lim inf n→∞ An ⊂ A∗ := lim supn→∞ An .

(ii) Bezeichnen wir mit A (x)

:=

1, 0,

falls x ∈ A, falls x ∈ A,

(1.2)

die Indikatorfunktion auf der Menge A, so gilt A∗

= lim inf n→∞

An ,

A∗

= lim sup n→∞

An .

(iii) Ist A ⊂ 2Ω eine σ-Algebra und An ∈ A für jedes n ∈ N, so ist A∗ ∈ A und 3 A∗ ∈ A. ¨ Beweis. Ubung!

2

6


Satz 1.15 (Schnitt von Mengensystemen). Ist I eine beliebige Indexmenge und Ai eine σ-Algebra für jedes i ∈ I, so ist

AI := A ⊂ Ω : A ∈ Ai für jedes i ∈ I = Ai i∈I

eine σ-Algebra. Dies gilt analog für: Ringe, σ-Ringe, Algebren und Dynkin-Systeme; nicht aber für Semiringe. Beweis. Wir führen den Beweis hier nur für σ-Algebren durch. Wir prüfen für A die Punkte (i)-(iii) aus Definition 1.2. (i) Für jedes i ∈ I ist Ω ∈ Ai . Also ist Ω ∈ A.

(ii) Sei A ∈ A. Dann ist A ∈ Ai für jedes i ∈ I. Also ist auch Ac ∈ Ai für jedes i ∈ I. Mithin ist Ac ∈ A.

(iii) Seien A1 , A2 , . . . ∈ A. Dann ist An ∈ Ai für jedes n ∈ N und jedes i ∈ I. Also ∞ ist auch A := n=1 An ∈ Ai für jedes i ∈ I und damit A ∈ A. Gegenbeispiel für Semiringe: Seien Ω = {1, 2, 3, 4}, A1 = {∅, Ω, {1}, {2, 3}, {4}} und A2 = {∅, Ω, {1}, {2}, {3, 4}}. Dann sind A1 und A2 Semiringe, aber A1 ∩ A2 = {∅, Ω, {1}} ist keiner. 2

Satz 1.16 (Erzeugte σ-Algebra). Sei E ⊂ 2Ω . Dann existiert eine kleinste σAlgebra σ(E) mit E ⊂ σ(E): A. σ(E) := A⊂2Ω ist σ-Algebra A⊃E

σ(E) heißt die von E erzeugte σ-Algebra. E heißt Erzeuger von σ(E). Analog wird das von E erzeugte Dynkin-System δ(E) definiert. Beweis. A = 2Ω ist eine σ-Algebra mit E ⊂ A. Also ist der Schnitt nicht leer. Nach Satz 1.15 ist σ(E) eine σ-Algebra, und dies ist offenbar die kleinste σ-Algebra, die E enthält. Für Dynkin-Systeme geht der Beweis genauso. 2 Bemerkung 1.17. Es gelten die folgenden einfachen Aussagen. (i) E ⊂ σ(E).

(ii) Gilt E1 ⊂ E2 , so ist σ(E1 ) ⊂ σ(E2 ).

(iii) A ist genau dann σ-Algebra, wenn σ(A) = A. Die analogen Aussagen gelten für Dynkin-Systeme. Ferner ist stets δ(E) ⊂ σ(E).3

1.1 Mengensysteme

7

Satz 1.18 (Schnittstabiles Dynkin-System). Ist D ⊂ 2Ω ein Dynkin-System, so gilt D ist ∩-stabil Beweis. ”

=⇒ “

”

⇐= “

⇐⇒

D ist eine σ-Algebra.

Dies ist klar.

Wir prüfen die Eigenschaften (i)-(iii) aus Definition 1.2.

(i) Offensichtlich ist Ω ∈ D.

(ii) (Komplementstabilität) Sei A ∈ D. Da Ω ∈ D gilt, und nach Eigenschaft (ii) des Dynkin-Systems, ist Ac = Ω \ A ∈ D.

(iii) (σ-∪-Stabilität) Seien A, B ∈ D. Nach Voraussetzung ist A ∩ B ∈ D, und es gilt trivialerweise A ∩ B ⊂ A. Also ist A \ B = A \ (A ∩ B) ∈ D. Mithin ist D \-stabil. Seien nun A1 , A2 , . . . ∈ D. Nach Satz 1.4(iii) existieren paarweise ∞ ∞ disjunkte Mengen B1 , B2 , . . . ∈ D mit An = Bn ∈ D. 2 n=1

n=1

Satz 1.19 (Dynkin’scher π–λ–Satz). Sei E ⊂ 2Ω ein ∩-stabiles Mengensystem. Dann gilt σ(E) = δ(E). Beweis. ⊃“ Dies ist klar nach Bemerkung 1.17. ” ⊂“ Zu zeigen ist: δ(E) ist eine σ-Algebra. Nach Satz 1.18 reicht es zu zeigen, ” dass δ(E) ∩-stabil ist. Für B ∈ δ(E) sei DB := {A ∈ δ(E) : A ∩ B ∈ δ(E)}. Für die Schnittstabilität von δ(E) reicht es zu zeigen, dass δ(E) ⊂ DB

für jedes B ∈ δ(E).

(1.3)

Wir zeigen, dass DE für jedes E ∈ δ(E) ein Dynkin-System ist, indem wir (i)-(iii) aus Definition 1.10) prüfen: (i) Offenbar ist Ω ∩ E = E ∈ δ(E), also ist Ω ∈ DE .

(ii) Für A, B ∈ DE mit A ⊂ B ist (B \ A) ∩ E = (B ∩ E) \ (A ∩ E) ∈ δ(E).

(iii) Seien A1 , A2 , . . . ∈ DE paarweise disjunkt. Dann ist ∞ ∞ An ∩ E = (An ∩ E) ∈ δ(E). n=1

n=1

8


Nach Voraussetzung ist für A ∈ E auch A ∩ E ∈ E, also ist E ⊂ DE , falls E ∈ E gilt. Nach Bemerkung 1.17(ii) ist daher auch δ(E) ⊂ DE für E ∈ E. Für B ∈ δ(E) und E ∈ E ist also B ∩ E ∈ δ(E). Mithin gilt E ∈ DB für jedes B ∈ δ(E), also E ⊂ DB für jedes B ∈ δ(E), und damit gilt (1.3). 2 Von besonderer Bedeutung sind σ-Algebren, die von Topologien erzeugt werden. Hier wiederum spielt natürlich der euklidische Raum Rn die prominenteste Rolle, aber wir wollen auch den (unendlichdimensionalen) Raum C([0, 1]) der stetigen Funktionen [0, 1] → R im Blick haben. Auf diesem Raum wird durch die Norm f ∞ = supx∈[0,1] |f (x)| eine Topologie erzeugt. Zur Erinnerung bringen wir hier das Axiomensystem der Topologie. Definition 1.20 (Topologie). Sei Ω = ∅ eine beliebige Menge. Ein Mengensystem τ ⊂ Ω heißt Topologie auf Ω, falls folgende drei Eigenschaften gelten. (i) ∅, Ω ∈ τ .

(ii) Sind A, B ∈ τ , so ist auch A ∩ B ∈ τ .

(iii) Ist F ⊂ τ eine beliebige Familie, so ist auch

A∈F

A ∈ τ.

Das Paar (Ω, τ ) heißt dann topologischer Raum. Die Mengen A ∈ τ heißen offen, die Mengen A ⊂ Ω mit Ac ∈ τ heißen abgeschlossen. Anders als bei σ-Algebren sind bei Topologien nur endliche Schnitte, jedoch auch u¨ berabzählbare Vereinigungen erlaubt. Ist d eine Metrik auf Ω, und bezeichnet Br (x) = {y ∈ Ω : d(x, y) < r} die offene Kugel um x ∈ Ω mit Radius r > 0, so wird eine Topologie erzeugt durch τ= Br (x) : F ⊂ Ω × (0, ∞) . (x,r)∈F

Dies ist das gewöhnliche System offener Mengen, das man in den meisten Analysisbüchern findet. Definition 1.21 (Borel’sche σ-Algebra). Sei (Ω, τ ) ein topologischer Raum. Die von den offenen Mengen erzeugte σ-Algebra B(Ω) := B(Ω, τ ) := σ(τ ) heißt Borel’sche σ-Algebra auf Ω. Die Elemente A ∈ B(Ω, τ ) heißen Borel’sche Mengen oder Borel-messbare Mengen.

Bemerkung 1.22. Wir sind meistens an B(Rn ) interessiert, wobei wir auf Rn den euklidischen Abstand annehmen:

1.1 Mengensysteme

9

n d(x, y) = x − y2 = (xi − yi )2 . i=1

n

(i) Es gibt Teilmengen von R , die keine Borel’schen Mengen sind. Diese sind kompliziert herzustellen, wie beispielsweise die Vitali-Mengen, die man in Analysisbüchern findet (siehe etwa [7]). Wir wollen hier auf diesen Aspekt nicht näher eingehen, sondern lediglich die - mathematisch unpräzise - Feststellung treffen, dass jede Menge, die man sich konstruktiv herstellen kann, auch Borel’sch ist. (ii) Jede abgeschlossene Menge C ⊂ Rn ist in B(Rn ), denn es ist C c ∈ τ , also ist C = (C c )c ∈ σ(τ ). Speziell ist {x} ∈ B(Rn ) für jedes x ∈ Rn . (iii) B(Rn ) ist keine Topologie. Sei nämlich V ⊂ Rn , V ∈ B(Rn ). Wäre B(Rn ) eine Topologie, so wären beliebige Vereinigungen Borel’scher Mengen wieder Borel’sch, also auch V = x∈V {x} ∈ B(Rn ). 3

Das Mengensystem der offenen Mengen, das die Borel’sche σ-Algebra erzeugt, ist in vielen Fällen unhandlich groß. Wir wollen daher andere Mengensysteme als Erzeuger von B(Rn ) identifizieren, mit denen wir in der Praxis besser arbeiten können. Hierzu wollen wir einerseits Mengen von einfacher Struktur, Quader etwa, betrachten, andererseits aber auch die Größe des Systems einschränken, indem wir abzählbare Mengensysteme betrachten. Wir führen folgende Notationen ein. Mit Q bezeichnen wir die Menge der rationalen Zahlen, mit Q+ die Menge der strikt positiven rationalen Zahlen. Für a, b ∈ Rn schreiben wir a < b,

falls ai < bi

für jedes i = 1, . . . , n.

(1.4)

Wir definieren für a < b den offenen Quader als das kartesische Produkt n

(a, b) :=

×(a , b ) := (a , b ) × (a , b ) × · · · × (a , b ) i

i

1

1

2

2

n

n

(1.5)

i=1

n

und analog [a, b], (a, b] und [a, b). Ferner schreiben wir (−∞, b) := ×i=1 (−∞, bi ) und definieren analog (−∞, b] und so fort. Wir führen die folgenden Mengensysteme ein: E1 := {A ⊂ Rn : A ist offen},

E3 := {A ⊂ Rn : A ist kompakt}, E5 := {(a, b) : a, b ∈ Qn , a < b}, E7 := {(a, b] : a, b ∈ Qn , a < b}, E9 := {(−∞, b) : b ∈ Qn },

E11 := {(a, ∞) : a ∈ Qn },

E2 := {A ⊂ Rn : A ist abgeschlossen}, E4 := {Br (x) : x ∈ Qn , r ∈ Q+ }, E6 := {[a, b) : a, b ∈ Qn , a < b},

E8 := {[a, b] : a, b ∈ Qn , a < b}, E10 := {(−∞, b] : b ∈ Qn }, E12 := {[a, ∞) : a ∈ Qn }.

Satz 1.23. Die Borel’sche σ-Algebra B(Rn ) wird von jedem der Mengensysteme E1 , . . . , E12 erzeugt: B(Rn ) = σ(Ei ) für jedes i = 1, . . . , 12.

10


Beweis. Wir zeigen nur exemplarisch ein paar der Identitäten. (1)

B(Rn ) = σ(E1 ) gilt per Definition.

(2) Sei A ∈ E1 . Dann ist Ac ∈ E2 , also A = (Ac )c ∈ σ(E2 ). Daher gilt E1 ⊂ σ(E2 ) und dann (wegen Bemerkung 1.17) auch σ(E1 ) ⊂ σ(E2 ). Analog folgt aber σ(E2 ) ⊂ σ(E1 ) und damit die Gleichheit. (3) Jede kompakte Menge ist abgeschlossen. Also gilt σ(E3 ) ⊂ σ(E2 ). Sei nun A ∈ E2 . Dann sind die Mengen AK := A ∩ [−K, K]n , K ∈ N, kompakt, also ist ∞ die abzählbare Vereinigung A = K=1 AK in σ(E3 ). Es gilt also E2 ⊂ σ(E3 ) und damit σ(E2 ) = σ(E3 ). (4) Offenbar ist E4 ⊂ E1 , also σ(E4 ) ⊂ σ(E1 ). Sei nun A ⊂ Rn offen. Für x ∈ A sei R(x) = min(1, sup{r > 0 : Br (x) ⊂ A}). Da A offen ist, folgt R(x) > 0. Sei r(x) ∈ (R(x)/2, R(x)) ∩ Q. Für jedes y ∈ A und x ∈ BR(y)/3 ∩ Qn ist nun 2 1 R(x) ≥ R(y) − x − y2 > 3 R(y), also r(x) > 3 R(y), also y ∈ Br(x) (x). Also ist A = x∈A∩Qn Br(x) (x) eine abzählbare Vereinigung von Mengen aus E4 und damit in σ(E3 ). Es gilt also auch σ(E1 ) ⊂ σ(E4 ).

¨ (5-12) Ahnliche Ausschöpfungsargumente wie in (4) funktionieren auch für die Quader. In (4) können statt der offenen Kugeln Br (x) offene Quader genommen werden. So folgt die Gleichheit mit σ(E5 ). Man bemerke beispielsweise, dass n

×

[ai , bi ) =

i=1

∞

n

×

k=1 i=1

ai −

1 , bi ∈ σ(E5 ). k

Die anderen Inklusionen Ei ⊂ σ(Ej ) zeigt man analog.

2

Bemerkung 1.24. Jedes der Mengensystem E1 , E2 , E3 , E5 , . . . , E12 (nicht aber E4 ) ist schnittstabil, mithin ist die Borel’sche σ-Algebra jeweils gleich dem erzeugten Dynkin-System: B(Rn ) = δ(Ei ) für i = 1, . . . , 12. Die Mengensysteme E4 , . . . , E12 sind zudem abzählbar. Dies ist eine Eigenschaft, die wir an späterer Stelle wieder benötigen werden. 3 Definition 1.25 (Spur eines Mengensystems). Es sei A ⊂ 2Ω ein beliebiges System von Teilmengen von Ω und A ∈ 2Ω \ {∅}. Das Mengensystem A := {A ∩ B : B ∈ A} ⊂ 2A (1.6) A

heißt Spur von A auf A, oder Einschränkung von A auf A.

Satz 1.26. Ist A eine σ-Algebra, oder eines der Mengensysteme aus den Definitio nen 1.6 – 1.10 auf Ω, so ist A ein Mengensystem vom selben Typ, allerdings auf A A statt Ω. ¨ Beweis. Ubung!

2

1.2 Mengenfunktionen

11

¨ Ubung 1.1.1. Sei A ein Semiring. Man zeige: Jede abzählbare (beziehungsweise endliche) Vereinigung von Mengen aus A lässt sich als abzählbare (beziehungsweise endliche), disjunkte Vereinigung von Mengen in A schreiben. ♣ ¨ Ubung 1.1.2. Man zeige durch ein Gegenbeispiel, dass im die Allgemeinen die Vereinigung A ∪ A′ zweier σ-Algebren keine σ-Algebra ist. ♣ ¨ Ubung 1.1.3. Seien (Ω1 , d1 ) und (Ω2 , d2 ) metrische Räume, f : Ω1 → Ω2 eine beliebige Abbildung und Uf = x ∈ Ω1 : f ist unstetig in x die Menge der Unstetigkeitsstellen. Man zeige: Uf ∈ B(Ω1 ). Hinweis: Man zeige zunächst, dass für ε > 0 und δ > 0 die Menge

Ufδ,ε := x ∈ Ω1 : es gibt y, z ∈ Bε (x) mit d2 (f (y), f (z)) > δ

(wobei Bε (x) = {y ∈ Ω1 : d1 (x, y) < ε}) offen ist und konstruiere dann Uf aus solchen Mengen. ♣ ¨ Ubung 1.1.4. Sei Ω eine u¨ berabzählbare Menge und A = σ({ω} : ω ∈ Ω). Zeige:

A = A ⊂ Ω : A ist abzählbar oder Ac ist abzählbar . ♣

¨ Ubung 1.1.5. Sei A ein Ring auf der Menge Ω. Man zeige: A erfüllt die Axiome eines kommutativen Rings (im Sinne der Algebra) mit ∩“ als Multiplikation und ” △“ als Addition. ♣ ”

1.2 Mengenfunktionen Definition 1.27. Sei A ⊂ 2Ω und μ : A → [0, ∞] eine Mengenfunktion. μ heißt (i) monoton, falls für je zwei Mengen A, B ∈ A mit A ⊂ B gilt, dass μ(A) ≤ μ(B), (ii) additiv, falls für je endlich viele disjunkte Mengen A1 , . . . , An ∈ A n paarweise n n Ai = Ai ∈ A gilt, dass μ μ(Ai ), mit i=1

i=1

i=1

(iii) σ-additiv, falls für je abzählbar viele disjunkte Mengen A1 , A2 , . . . ∞paarweise ∞ ∞ μ(Ai ), Ai = Ai ∈ A gilt, dass μ aus A mit i=1

i=1

i=1

(iv) subadditiv, falls für je endlich viele Mengen A, A1 , A2 , . . . , An ∈ A mit A ⊂ n n Ai gilt, dass μ(A) ≤ μ(Ai ), i=1

i=1

12


(v) σ-subadditiv, falls für je abzählbar viele A, A1 , A2 , . . . ∈ A mit A ⊂ gilt, dass μ(A) ≤

∞

μ(Ai ).

∞

Ai

i=1

i=1

Definition 1.28. Sei A ein Semiring und μ : A → [0, ∞] eine Mengenfunktion mit μ(∅) = 0. μ heißt – Inhalt, falls μ additiv ist, – Prämaß, falls μ σ-additiv ist, – Maß, falls μ ein Prämaß ist und A eine σ-Algebra,

– Wahrscheinlichkeitsmaß (kurz W-Maß), falls μ ein Maß ist und μ(Ω) = 1. Definition 1.29. Sei A ein Semiring. Ein Inhalt μ auf A heißt (i) endlich, falls μ(A) < ∞ für jedes A ∈ A, (ii) σ-endlich, falls es Mengen Ω1 , Ω2 , . . . ∈ A gibt mit Ω = μ(Ωn ) < ∞ für jedes n ∈ N.

∞

Ωn und

n=1

Beispiel 1.30 (Inhalte, Maße). (i) Sei ω ∈ Ω und δω (A) = A (ω) (siehe (1.2)). Dann ist δω ein Wahrscheinlichkeitsmaß auf jeder σ-Algebra A ⊂ 2Ω und heißt Dirac-Maß im Punkt ω, oder Einheitsmasse. (ii) Sei Ω eine endliche, nichtleere Menge. Durch μ(A) :=

#A #Ω

für A ⊂ Ω,

wird ein Wahrscheinlichkeitsmaß auf A = 2Ω definiert. μ heißt Gleichverteilung oder uniforme Verteilung auf Ω. Wir führen hierfür das Symbol UΩ := μ ein. Der so definierte Wahrscheinlichkeitsraum (Ω, A, UΩ ) wird auch Laplace-Raum genannt. (iii) Sei Ω abzählbar unendlich und A := {A ⊂ Ω : #A < ∞ oder #Ac < ∞}. Dann ist A eine Algebra. Die durch μ(A) =

0, ∞,

falls A endlich, falls Ac endlich,

auf Mengenfunktion ist

A definierte ein Inhalt, aber kein Prämaß, denn es gilt μ ω∈Ω {ω} = μ(Ω) = ∞, aber ω∈Ω μ ({ω}) = 0.


13

(iv) Sei (μn )n∈N eine Folge von Maßen (Prämaßen, Inhalten) ∞ und (αn )n∈N eine Folge von nichtnegativen Zahlen. Dann ist auch μ := n=1 αn μn ein Maß (Prämaß, Inhalt). Ω (v) Sei Ω eine (höchstens) abzählbare, nichtleere Menge und A = 2 . Ferner seien (pω )ω∈Ω nichtnegative Zahlen. Dann wird durch μ(A) := ω∈A pω für jedes A ⊂ Ω, ein σ-endliches Maß auf 2Ω definiert. Wir nennen p = (pω )ω∈Ω die Gewichtsfunktion von μ. (vi) Ist in (v) speziell ω∈Ω pω = 1, so ist μ ein Wahrscheinlichkeitsmaß. Wir interpretieren dann pω als Wahrscheinlichkeit des Elementarereignisses ω und nennen p = (pω )ω∈Ω auch einen Wahrscheinlichkeitsvektor.

(vii) Ist in (v) speziell pω = 1 für jedes ω ∈ Ω, so heißt μ das Zählmaß auf Ω. Ist Ω endlich, so ist auch μ endlich. (viii) Sei A der Ring endlicher Vereinigungen von Intervallen (a, b] ⊂ R. Für n (ai , bi ] setzen wir a1 < b1 < a2 < b2 < . . . < bn und A = i=1

μ(A) =

n

|bi − ai |.

i=1

μ ist ein σ-endlicher Inhalt auf A (sogar ein Prämaß), denn es ist und μ((−n, n]) = 2n < ∞ für jedes n ∈ N.

∞

n=1 (−n, n]

=R

(ix) Sei f : R → [0, ∞) stetig. Analog zu (viii) setze μf (A) =

n i=1

bi

f (x) dx.

ai

μf ist ein σ-endlicher Inhalt auf A (sogar ein Prämaß). Die Funktion f heißt Dichte und spielt hier eine a¨ hnliche Rolle wie die Gewichtsfunktion p in (v). 3 Lemma 1.31 (Eigenschaften von Inhalten). Sei A ein Semiring und μ ein Inhalt auf A. Dann gelten die folgenden Aussagen. (i) Ist A ein Ring, so ist μ(A∪B)+μ(A∩B) = μ(A)+μ(B) für je zwei Mengen A, B ∈ A.

(ii) μ ist monoton. Ist A ein Ring, so gilt genauer μ(B) = μ(A) + μ(B \ A) für je zwei Mengen A, B ∈ A mit A ⊂ B.

(iii) μ ist subadditiv. Ist μ sogar σ-additiv, so ist μ auch σ-subadditiv.

(iv) Ist A ein Ring, so gilt für je abzählbar viele, paarweise disjunkte Mengen ∞ ∞ ∞ An ∈ A stets μ(An ) ≤ μ An . A1 , A2 , . . . ∈ A mit n=1

n=1

n=1

14


Beweis. (i) Es ist A ∪ B = A ⊎ (B \ A) und B = (A ∩ B) ⊎ (B \ A). Da μ additiv ist, folgt μ(A ∪ B) = μ(A) + μ(B \ A)

und

μ(B) = μ(A ∩ B) + μ(B \ A).

Hieraus folgt sofort (i). (ii) Sei A ⊂ B. Wegen A ∩ B = A folgt μ(B) = μ(A ⊎ (B \ A)) = μ(A) + μ(B \ A), falls B \ A ∈ A ist,insbesondere also, falls A ein Ring ist. Ist nun A nur n ein Semiring, so ist B \ A = i=1 Ci für gewisses n ∈ N und disjunkte paarweise n Mengen C1 , . . . , Cn ∈ A. In diesem Fall ist μ(B) = μ(A) + i=1 μ(Ci ) ≥ μ(A), also ist μ monoton. n (iii) Seien n ∈ N und A, A1 , . . . , An ∈ A mit A ⊂ i=1 Ai . Setze B1 = A1 und Bk = Ak \

k−1

k−1

Ai =

i=1

i=1

(Ak \ (Ak ∩ Ai ))

für k = 2, . . . , n.

Per Definition des Semirings ist jedes Ak \ (Ak ∩ Ai ) disjunkte Vereinigung endlich vieler ck Mengen in A, also existiert ein ck ∈ N und Mengen Ck,1 , . . . , Ck,ck ∈ A mit B ⊂ Ak . Analog existieren dk ∈ N und Dk,1 , . . . , Dk,dk ∈ A mit i=1 Ck,i = dkk Ak \ Bk = i=1 Dk,i . Da μ additiv ist, gilt μ(Ak ) =

ck

μ(Ck,i ) +

dk i=1

i=1

μ(Dk,i ) ≥

ck

μ(Ck,i ).

i=1

Wiederum aufgrund von Additivität und Monotonie gilt n c ck n k μ(A) = μ μ(Ck,i ∩ A) (Ck,i ∩ A) = k=1 i=1

k=1 i=1

≤

ck n

k=1 i=1

μ(Ck,i ) ≤

n

μ(Ak ).

k=1

Also ist μ subadditiv. Die σ-Subadditivität folgt aus der σ-Additivität in analoger Weise. (iv)

∞

Sei A ein Ring und A =

n=1

gilt nach (ii) m

μ(An ) = μ

n=1

Also ist

∞

n=1

μ(An ) ≤ μ(A).

m

n=1

An ∈ A. Da μ additiv (und damit monoton) ist,

An

≤ μ(A)

für jedes m ∈ N. 2


15

Bemerkung 1.32. In (iv) kann strikte Ungleichheit herrschen (siehe etwa Beispiel 1.30(iii)). Mit anderen Worten: Es gibt Inhalte, die keine Prämaße sind. 3 Satz 1.33 (Einschluss- Ausschlussformel). Sei A ein Ring und μ ein Inhalt. Dann gelten für n ∈ N und A1 , . . . , An ∈ A die Einschluss- Ausschlussformeln μ(A1 ∪ . . . ∪ An ) = μ(A1 ∩ . . . ∩ An ) =

n

k=1 n

(−1)k−1

{i1 ,...,ik }⊂{1,...,n}

(−1)k−1

k=1

{i1 ,...,ik }⊂{1,...,n}

μ(Ai1 ∩ . . . ∩ Aik ), μ(Ai1 ∪ . . . ∪ Aik ),

wobei sich die Summen u¨ ber alle k-elementigen Teilmengen von {1, . . . , n} erstrecken. ¨ Beweis. Ubung! Hinweis: Man verwende vollständige Induktion u¨ ber n.

2

Wir wollen die σ-Subadditivität durch eine Stetigkeitseigenschaft charakterisieren (Satz 1.36). Hierzu verabreden wir die folgende Sprechweise und Notation. Definition 1.34. Sind A, A1 , A2 , . . . Mengen, so schreiben wir – An ↑ A, falls A1 ⊂ A2 ⊂ . . . und

∞

An = A, ∞ – An ↓ A, falls A1 ⊃ A2 ⊃ A3 ⊃ . . . und n=1 An = A. n=1

Wir sagen dann, dass (An )n∈N gegen A aufsteigt beziehungsweise absteigt. Definition 1.35 (Stetigkeit von Inhalten). Sei μ ein Inhalt auf dem Ring A. (i) μ heißt stetig von unten, falls für jedes A ∈ A und jede Folge (An )n∈N in A n→∞ mit An ↑ A gilt: μ(An ) −→ μ(A).

(ii) μ heißt stetig von oben, falls für jedes A ∈ A und jede Folge (An )n∈N in A n→∞ mit An ↓ A sowie μ(An ) < ∞ für jedes n ∈ N gilt: μ(An ) −→ μ(A).

(iii) μ heißt ∅-stetig, falls (ii) für A = ∅ gilt.

Bei der Stetigkeit von oben wurde die Endlichkeitsbedingung eingeführt, weil sogar für das Zählmaß μ auf (N, 2N ) und An := {n, n+1, . . .} ↓ ∅ sonst keine Gleichheit gelten kann.

16


Satz 1.36 (Stetigkeit und Prämaß). Sei μ ein Inhalt auf einem Ring A. Betrachte die folgenden fünf Eigenschaften. (i) μ ist σ-additiv (also ein Prämaß). (ii) μ ist σ-subadditiv. (iii) μ ist stetig von unten. (iv) μ ist ∅-stetig.

(v) μ ist stetig von oben.

Dann gelten die Implikationen (i) ⇐⇒ (ii) ⇐⇒ (iii) =⇒ (iv) ⇐⇒ (v). Ist μ endlich, so gilt auch (iv) =⇒ (iii).

∞ Beweis. (i) =⇒ (ii)“ Seien A, A1 , A2 , . . . ∈ A mit A ⊂ i=1 Ai . Setze B1 = ” n−1 ∞ A1 und Bn = An \ i=1 Ai ∈ A für n = 2, 3, . . . Dann ist A = n=1 (A ∩ Bn ), also wegen der Monotonie von μ und der σ-Additivität von μ μ(A) =

∞

n=1

μ(A ∩ Bn ) ≤

∞

μ(An ).

n=1

Damit ist μ als σ-subadditiv erkannt. (ii) =⇒ (i)“ Dies folgt aus Lemma 1.31(iv). ” (i) =⇒ (iii)“ Sei μ ein Prämaß und A ∈ A sowie (An )n∈N eine Folge in A mit ” An ↑ A sowie A0 = ∅. Dann gilt μ(A) =

∞ i=1

μ(Ai \ Ai−1 ) = lim

n→∞

n i=1

μ(Ai \ Ai−1 ) = lim μ(An ). n→∞

(iii) =⇒ (i)“ Gelte nun (iii). Seien B1 , B2 , . . . ∈ A paarweise disjunkt, und ” ∞ n Bi für jedes n ∈ N. Dann folgt aus (iii) gelte B = Bn ∈ A. Setze An = n=1

i=1

μ(B) = lim μ(An ) = n→∞

∞

μ(Bi ).

i=1

Also ist μ σ-additiv und damit ein Prämaß. (iv) =⇒ (v)“ Seien A, A1 , A2 , . . . ∈ A mit An ↓ A und μ(A1 ) < ∞. Setze ” Bn = An \ A ∈ A für jedes n ∈ N. Dann gilt Bn ↓ ∅. Es gilt also μ(An ) − μ(A) = n→∞ μ(Bn ) −→ 0. (v) =⇒ (iv)“ ”

Dies ist trivial.

1.3 Fortsetzung von Maßen

17

(iii) =⇒ (iv)“ Seien A1 , A2 , . . . ∈ A mit An ↓ ∅ und μ(A1 ) < ∞. Dann gilt ” A1 \ An ∈ A für jedes n ∈ N und A1 \ An ↑ A1 , also μ(A1 ) = lim μ(A1 \ An ) = μ(A1 ) − lim μ(An ). n→∞

n→∞

Wegen μ(A1 ) < ∞ ist lim μ(An ) = 0. n→∞

(iv) =⇒ (iii)“ (für den Fall μ endlich) Es gelte nun μ(A) < ∞ für jedes A ∈ A, ” und μ sei ∅-stetig. Seien A, A1 , A2 , . . . ∈ A mit An ↑ A. Dann gilt A \ An ↓ ∅ und n→∞

μ(A) − μ(An ) = μ(A \ An ) −→ 0. Also gilt (iii).

2

Beispiel 1.37. (Vergleiche Beispiel 1.30(iii).) Sei Ω abzählbar und A = {A ⊂ Ω : #A < ∞ oder #Ac < ∞}, 0, falls A endlich, μ(A) = ∞, falls A unendlich. Dann ist μ ein ∅-stetiger Inhalt, aber kein Prämaß.

3

Definition 1.38. (i) Ein Paar (Ω, A), bestehend aus einer nichtleeren Menge Ω und einer σ-Algebra A ⊂ 2Ω , heißt Messraum. Die Mengen A ∈ A heißen messbare Mengen. Ist Ω höchstens abzählbar und A = 2Ω , so heißt der Messraum (Ω, 2Ω ) diskret. (ii) Ein Tripel (Ω, A, μ) heißt Maßraum, wenn (Ω, A) ein Messraum ist und μ ein Maß auf A.

(iii) Ist zudem μ(Ω) = 1, so heißt (Ω, A, μ) ein Wahrscheinlichkeitsraum. In diesem Fall heißen die Mengen A ∈ A auch Ereignisse.

(iv) Den Raum aller endlichen Maße auf (Ω, A) bezeichnen wir mit Mf (Ω) := Mf (Ω, A), den der W-Maße mit M1 (Ω) := M1 (Ω, A), schließlich den der σ-endlichen Maße mit Mσ (Ω, A).

1.3 Fortsetzung von Maßen In diesem Abschnitt wollen wir Maße konstruieren, indem wir zunächst auf einem einfachen Mengensystem, nämlich einem Semiring, plausible Werte für einen Inhalt angeben und dann, nach Möglichkeit, diesen Inhalt zu einem Maß auf der erzeugten σ-Algebra fortsetzen. Bevor wir zu den konkreten Bedingungen kommen, unter denen das machbar ist, bringen wir zwei Beispiele.

18


Beispiel 1.39 (Lebesgue-Maß). Sei n ∈ N und A = {(a, b] : a, b ∈ Rn , a < b} der Semiring der halboffenen Quader (a, b] ⊂ Rn (vergleiche (1.5)). Das n-dimensionale Volumen des Quaders ist μ((a, b]) =

n

(bi − ai ).

i=1

Können wir μ zu einem (eindeutig bestimmten) Maß auf der Borel’schen σ-Algebra B(Rn ) = σ(A) fortsetzen? Wir werden sehen, dass dies möglich ist. Das resultierende Maß heißt Lebesgue-Maß (manchmal auch Lebesgue-Borel-Maß) λ auf (R, B(R)). 3 Beispiel 1.40 (Produktmaß, Bernoulli-Maß). Wir wollen ein Wahrscheinlichkeitsmaß konstruieren für die unendliche, unabhängige Wiederholung eines Zufallsexperiments mit endlich vielen möglichen Ausgängen. Die Menge der Ausg¨ ange sei E. Für e ∈ E sei pe die Wahrscheinlichkeit, dass e eintritt. Es gilt also e∈E pe = 1. Die Ergebnisse dieser Experimente seien ω1 , ω2 , . . . ∈ E. Der Raum des gesamten Experiments ist daher Ω = E N . Wie in Beispiel 1.11(vi) definieren wir [ω1 , . . . , ωn ] := {ω ′ ∈ Ω : ωi′ = ωi für jedes i = 1, . . . , n}

(1.7)

als die Menge aller Folgen, die mit den Werten ω1 , . . . , ωn beginnen. Sei A0 = {∅}. Für n ∈ N definieren wir das Mengensystem der Zylindermengen, die nur von den ersten n Koordinaten abhängen, An := {[ω1 , . . . , ωn ] : ω1 , . . . , ωn ∈ E}, ∞ und setzen A := n=0 An .

(1.8)

Wir interpretieren [ω1 , . . . , ωn ] als das Ereignis, dass im ersten Experiment der Wert ω1 herauskommt, im zweiten ω2 und schließlich im n-ten Experiment der Wert ωn . Die Ergebnisse der weiteren Experimente spielen für das Eintreten des Ereignisses keine Rolle. Für ω1 , . . . , ωn ∈ E soll die Wahrscheinlichkeit für [ω1 , . . . , ωn ] das Produkt der einzelnen Wahrscheinlichkeiten sein (das verstehen wir intuitiv unter Unabhängigkeit“) ” n p ωi . μ([ω1 , . . . , ωn ]) = i=1

Hierdurch wird ein Inhalt auf A definiert, und unser Ziel ist es, μ in eindeutiger Weise zu einem Wahrscheinlichkeitsmaß auf σ(A) fortzusetzen.

Bevor wir dies tun, treffen wir noch die folgenden Definition. Wir definieren eine (Ultra-)Metrik auf Ω durch

1.3 Fortsetzung von Maßen ′

d(ω, ω ) =

′

ωn } 2− inf{n∈N: ωn = ,

0,

falls ω = ω ′ ,

falls ω = ω ′ .

19

(1.9)

Dann ist (Ω, d) ein kompakter, metrischer Raum. Offenbar ist [ω1 , . . . , ωn ] = B2−n (ω) = {ω ′ ∈ Ω : d(ω, ω ′ ) < 2−n }. Das Komplement von [ω1 , . . . , ωn ] ist die Vereinigung von (#E)n − 1 offenen Kugeln [ω1 , . . . , ωn ]c = [ω1′ , . . . , ωn′ ], ′ ) =(ω ,...,ω ) (ω1′ ,...,ωn 1 n

also offen. Damit ist [ω1 , . . . , ωn ] abgeschlossen und kompakt, weil Ω kompakt ist. ¨ Ahnlich wie in Satz 1.23 kann man zeigen, dass σ(A) = B(Ω, d). ¨ Ubung: Man zeige die obigen Aussagen. 3 Das Hauptergebnis dieses Kapitels ist der Fortsetzungssatz für Maße, den wir hier in der Form von Carathéodory formulieren. Satz 1.41 (Carathéodory). Sei A ⊂ 2Ω ein Ring und μ ein σ-endliches Prämaß auf A. Dann kann μ auf genau eine Weise zu einem Maß μ auf σ(A) fortgesetzt werden, und μ ˜ ist σ-endlich.

Den Beweis dieses Satzes müssen wir mit einigen Lemmata vorbereiten. Wir zeigen dann in Satz 1.53 eine etwas stärkere Aussage. Dort wird auch die griffige Formulierung kann fortgesetzt werden“ präzisiert. ” Lemma 1.42 (Eindeutigkeit durch schnittstabilen Erzeuger). Sei (Ω, A, μ) ein σ-endlicher Maßraum und E ⊂ A ein schnittstabiler Erzeuger von A. Es gebe E1 , E2 , . . . ∈ E mit En ↑ Ω und μ(En ) < ∞ für jedes n ∈ N. Dann ist μ durch die Werte μ(E), E ∈ E, eindeutig festgelegt.

Ist μ ein W-Maß, so gilt die Folgerung auch ohne die Existenz der Folge (En )n∈N . Beweis. Sei ν ein weiteres σ-endliches Maß auf (Ω, A) mit der Eigenschaft μ(E) = ν(E)

für jedes E ∈ E.

Sei E ∈ E mit μ(E) < ∞. Betrachte das Mengensystem DE = {A ∈ A : μ(A ∩ E) = ν(A ∩ E)}. Um zu zeigen, dass DE ein Dynkin-System ist, prüfen wir die Eigenschaften aus Definition 1.10: (i) Offensichtlich ist Ω ∈ DE .

20


(ii) Seien A, B ∈ DE mit A ⊃ B. Dann ist μ ((A \ B) ∩ E) = μ(A ∩ E) − μ(B ∩ E) = ν(A ∩ E) − ν(B ∩ E) = ν ((A \ B) ∩ E) . Also ist A \ B ∈ DE . (iii) Seien A1 , A2 , . . . ∈ DE paarweise disjunkt sowie A = μ(A ∩ E) =

∞

n=1

μ(An ∩ E) =

∞

n=1

∞

An . Dann ist

n=1

ν(An ∩ E) = ν(A ∩ E),

also A ∈ DE . Offenbar ist E ⊂ DE , also δ(E) ⊂ DE . Da E schnittstabil ist, ist nach Satz 1.19 A ⊃ DE ⊃ δ(E) = σ(E) = A. Also ist DE = A.

Für jedes A ∈ A und E ∈ E mit μ(E) < ∞ gilt also μ(A ∩ E) = ν(A ∩ E). Seien nun E1 , E2 , . . . ∈ E mit En ↑ Ω und μ(En ) < ∞ für jedes n ∈ N. Da μ und ν von unten stetig sind, gilt für A ∈ A μ(A) = lim μ(A ∩ En ) = lim ν(A ∩ En ) = ν(A). n→∞

n→∞

Der Zusatz ist trivial, denn E˜ := E ∪ {Ω} ist ebenfalls ein schnittstabiler Erzeuger von A, und der Wert μ(Ω) = 1 ist bekannt. Es kann also die konstante Folge En = Ω, n ∈ N, gewählt werden. Man beachte jedoch, dass es nicht reicht zu fordern, dass μ endlich ist, weil dann im Allgemeinen die Gesamtmasse μ(Ω) nicht eindeutig festgelegt ist (siehe Beispiel 1.45(ii)). 2

Beispiel 1.43. Sei Ω = Z und E = En : n ∈ Z , wobei En = (−∞, n] ∩ Z. E ist schnittstabil und σ(E) = 2Ω . Also ist ein endliches Maß μ auf (Ω, 2Ω ) eindeutig festgelegt durch die Werte μ(En ), n ∈ N.

Ein σ-endliches Maß auf Z ist jedoch durch die Werte auf E noch nicht eindeutig bestimmt: Sei μ das Zählmaß auf Z und ν = 2μ. Dann ist μ(E) = ∞ = ν(E) für jedes E ∈ E. Um μ und ν zu unterscheiden, brauchen wir also einen Erzeuger, der Mengen endlichen Maßes (für μ) enthält. Tun es die Mengen Fñ = [−n, n] ∩ Z, n ∈ N? In der Tat ist für jedes σ-endliche Maß μ jetzt μ(Fñ ) < ∞ für jedes n ∈ N. Allerdings erzeugen die Fñ nicht 2Ω (sondern welche σ-Algebra?). Wir können aber die Definition so modifizieren: Fn = [−n/2, (n + 1)/2] ∩ Z. Dann ist σ({Fn , n ∈ N}) = 2Ω , also E = {Fn , n ∈ N} ein schnittstabiler Erzeuger von 2Ω und μ(Fn ) < ∞ für jedes n ∈ N. Wegen Fn ↑ Ω sind die Bedingungen des Satzes erfüllt. 3


21

Beispiel 1.44 (Verteilungsfunktion). Ein W-Maß μ auf dem Raum (Rn , B(Rn )) ist n durch Angabe der Werte μ((−∞, b]) auf den Mengen (−∞, b] = ×i=1 (−∞, bi ], b ∈ Rn , eindeutig festgelegt, da diese Mengen einen schnittstabilen Erzeuger bilden (Satz 1.23). Speziell ist ein W-Maß μ auf R durch Angabe der Verteilungsfunktion F : R → [0, 1], x → μ((−∞, x]) eindeutig bestimmt. 3

Beispiel 1.45. (i) Sei Ω = {1, 2, 3, 4} und E = { 1, 2}, {2, 3} . Offenbar gilt σ(E) = 2Ω , jedoch ist E nicht schnittstabil. Tatsächlich ist hier ein W-Maß μ durch Angabe der Werte μ({1, 2}) = μ({2, 3}) = 21 nicht eindeutig festgelegt. Es gibt beispielsweise die Möglichkeiten μ = 12 δ1 + 12 δ3 oder μ′ = 21 δ2 + 21 δ4 . (ii) Sei Ω = {1, 2} und E = {{1}}. Dann ist E ein schnittstabiler Erzeuger von 2Ω , und ein W-Maß μ ist durch Angabe von μ({1}) eindeutig festgelegt. Allerdings gilt dies nicht für endliche Maße im Allgemeinen, denn μ = 0 und ν = δ2 sind zwei endliche Maße, die auf E u¨ bereinstimmen. 3 ¨ Definition 1.46 (Außeres Maß). Eine Mengenfunktion μ∗ : 2Ω → [0, ∞] heißt a¨ ußeres Maß, falls gilt: (i) μ∗ (∅) = 0, (ii) μ∗ ist monoton, (iii) μ∗ ist σ-subadditiv. Lemma 1.47. Sei A ⊂ 2Ω ein beliebiges Mengensystem mit ∅ ∈ A und μ eine monotone Mengenfunktion auf A mit μ(∅) = 0. Für A ⊂ Ω sei U(A) = F ⊂ A : F ist höchstens abzählbar und A ⊂ F F ∈F

¨ die Menge der abzählbaren Uberdeckungen F von A mit Mengen F aus A. Setze ∗ μ (A) := inf μ(F ) : F ∈ U(A) , F ∈F

wobei inf ∅ = ∞. Dann ist μ∗ (A) = μ(A) für jedes A ∈ A, und μ∗ ist ein a¨ ußeres Maß. Beweis. Wir weisen die Eigenschaften (i)-(iii) des a¨ ußeren Maßes nach. (i) Wegen ∅ ∈ A ist {∅} ∈ U(∅), also ist μ∗ (∅) = 0.

(ii) Ist A ⊂ B, so ist U(A) ⊃ U(B), also ist μ∗ (A) ≤ μ∗ (B). ∞ (iii) Sei An ⊂ Ω für jedes n ∈ N und A ⊂ n=1 An . Wir müssen zeigen, dass ∞ ∗ ankung sei μ∗ (An ) < ∞ und damit μ∗ (A) ≤ n=1 μ (An ). Ohne Einschr¨

22


U(An ) = ∅ für jedes n ∈ N. Wähle ε > 0 und zu jedem n ∈ N eine ¨ Uberdeckung Fn ∈ U(An ) mit μ(F ) ≤ μ∗ (An ) + ε 2−n . Dann ist F :=

∞

F ∈Fn

n=1

μ∗ (A) ≤

Fn ∈ U(A) und

F ∈F

μ(F ) ≤

∞

n=1 F ∈Fn

μ(F ) ≤

∞

μ∗ (An ) + ε.

2

n=1

Definition 1.48 (μ∗ -messbare Mengen). Sei μ∗ ein a¨ ußeres Maß. Eine Menge A ∈ 2Ω heißt μ∗ -messbar, falls μ∗ (A ∩ E) + μ∗ (Ac ∩ E) = μ∗ (E)

für jedes E ∈ 2Ω .

(1.10)

Wir schreiben M(μ∗ ) = {A ∈ 2Ω : A ist μ∗ -messbar}. Lemma 1.49. Es ist A ∈ M(μ∗ ) genau dann, wenn μ∗ (A ∩ E) + μ∗ (Ac ∩ E) ≤ μ∗ (E)


Beweis. Da μ∗ subadditiv ist, gilt stets die andere Ungleichung.

2

Lemma 1.50. M(μ∗ ) ist eine Algebra. Beweis. Wir prüfen die Eigenschaften (i)-(iii) der Algebra aus Satz 1.7. (i) Ω ∈ M(μ∗ ) ist klar.

(ii) (Komplementstabilität) (iii) (Schnittstabilität)

Per Definition ist A ∈ M(μ∗ ) ⇐⇒ Ac ∈ M(μ∗ ).

Seien A, B ∈ M(μ∗ ) und E ∈ 2Ω . Dann ist

μ∗ ((A ∩ B) ∩ E) + μ∗ ((A ∩ B)c ∩ E)

= μ∗ (A ∩ B ∩ E) + μ∗ (Ac ∩ B ∩ E) ∪ (Ac ∩ B c ∩ E) ∪ (A ∩ B c ∩ E) ≤ μ∗ (A ∩ B ∩ E) + μ∗ (Ac ∩ B ∩ E) + μ∗ (Ac ∩ B c ∩ E) + μ∗ (A ∩ B c ∩ E)

= μ∗ (B ∩ E) + μ∗ (B c ∩ E) = μ∗ (E).

Dabei haben wir in der vorletzten Gleichung A ∈ M(μ∗ ) benutzt und in der letzten B ∈ M(μ∗ ). 2 Lemma 1.51. Ein a¨ ußeres Maß μ∗ ist σ-additiv auf M(μ∗ ).


23

Beweis. Seien A, B ∈ M(μ∗ ) mit A ∩ B = ∅. Dann ist μ∗ (A ∪ B) = μ∗ (A ∩ (A ∪ B)) + μ∗ (Ac ∩ (A ∪ B)) = μ∗ (A) + μ∗ (B). Induktiv folgt die (endliche) Additivität. Da μ∗ per Definition σ-subadditiv ist, folgt nach Satz 1.36, dass μ∗ auch σ-additiv ist. 2 Lemma 1.52. Ist μ∗ ein a¨ ußeres Maß, so ist M(μ∗ ) eine σ-Algebra. Speziell ist μ∗ ein Maß auf M(μ∗ ). Beweis. Nach Lemma 1.50 ist M(μ∗ ) eine Algebra, also insbesondere schnittstabil. Nach Satz 1.18 reicht es zu zeigen, dass M(μ∗ ) ein Dynkin-System ist. ∞ Seien also A1 , A2 , . . . ∈ M(μ∗ ) paarweise disjunkt und A := An . Zu zeigen n=1

ist A ∈ M(μ∗ ), also

μ∗ (A ∩ E) + μ∗ (Ac ∩ E) ≤ μ∗ (E) Setze Bn =

n

i=1


(1.11)

Ai für jedes n ∈ N. Es gilt für jedes n ∈ N

μ∗ (E ∩ Bn+1 ) = μ∗ (E ∩ Bn+1 ) ∩ Bn + μ∗ (E ∩ Bn+1 ) ∩ Bnc

= μ∗ (E ∩ Bn ) + μ∗ (E ∩ An+1 ), n und induktiv μ∗ (E ∩ Bn ) = i=1 μ∗ (E ∩ Ai ). Wegen der Monotonie von μ∗ folgt μ∗ (E) = μ∗ (E ∩ Bn ) + μ∗ (E ∩ Bnc ) ≥ μ∗ (E ∩ Bn ) + μ∗ (E ∩ Ac ) =

n i=1

μ∗ (E ∩ Ai ) + μ∗ (E ∩ Ac ).

Indem wir n → ∞ gehen lassen, folgt mit der σ-Subadditivität von μ∗ μ∗ (E) ≥

∞ i=1

μ∗ (E ∩ Ai ) + μ∗ (E ∩ Ac ) ≥ μ∗ (E ∩ A) + μ∗ (E ∩ Ac ).

Also gilt (1.11), und der Beweis ist komplett.

2

Wir zeigen nun einen Satz, der mit schwächeren Voraussetzungen auskommt als der Satz von Carathéodory (Satz 1.41) und diesen impliziert. ¨ Maße). Sei A ein Semiring und μ : A → [0, ∞] Satz 1.53 (Fortsetzungssatz fur eine additive, σ-subadditive, σ-endliche Mengenfunktion mit μ(∅) = 0. Dann existiert ein eindeutig bestimmtes, σ-endliches Maß μ : σ(A) → [0, ∞] mit μ (A) = μ(A) für jedes A ∈ A.

24


Beweis. Da A schnittstabil ist, folgt die Eindeutigkeit aus Lemma 1.42.

Um die Existenz zu zeigen, definieren wir wie in Lemma 1.47 ∗ μ (A) := inf μ(F ) : F ∈ U(A) für jedes A ∈ 2Ω . F ∈F

Nach Lemma 1.31(ii) ist μ monoton, also ist μ∗ nach Lemma 1.47 ein a¨ ußeres Maß und μ∗ (A) = μ(A) für jedes A ∈ A. Wir müssen zeigen, dass M(μ∗ ) ⊃ σ(A) gilt. Da M(μ∗ ) eine σ-Algebra ist (Lemma 1.52), reicht es, A ⊂ M(μ∗ ) zu zeigen.

Seien also A ∈ A und E ∈ 2Ω mit μ∗ (E) < ∞. Sei ε > 0. Dann gibt es E1 , E2 , . . . ∈ A mit E⊂

∞

En

∞

und

n=1

n=1

μ(En ) ≤ μ∗ (E) + ε.

Setze Bn := En ∩ A ∈ A . Da A ein Semiring ist, gibt es zu jedem n ∈ N ein m n k mn ∈ N sowie Cn1 , . . . , Cnmn ∈ A mit En \ A = En \ Bn = Cn . Also ist k=1

E∩A⊂

∞

n=1

Bn ,

E ∩ Ac ⊂

∞

n=1

m n

Cnk

und

En = Bn ⊎

k=1

m n

Cnk .

k=1

μ∗ ist σ-subadditiv, und nach Voraussetzung ist μ additiv. Wegen μ∗ ≤ μ (es gilt A sogar Gleichheit, wie wir gleich sehen) folgt μ∗ (E ∩ A) + μ∗ (E ∩ Ac ) ≤ ≤ =

∞

n=1 ∞

∞

∞

n=1

∞

μ∗

n=1

μ(Bn ) +

n=1

n=1

=

μ∗ (Bn ) +

m n

k=1

mn ∞

μ(Cnk )

μ(Cnk )

n=1 k=1

μ(Bn ) +

mn

μ(Cnk )

k=1

μ(En ) ≤ μ∗ (E) + ε.

Daher ist μ∗ (E ∩ A) + μ∗ (E ∩ Ac ) ≤ μ∗ (E) und damit A ∈ M(μ∗ ), also ist A ⊂ M(μ∗ ). Setze nun μ : σ(A) → [0, ∞], A → μ∗ (A). Nach Lemma 1.51 ist μ ein Maß und μ ist σ-endlich, weil μ σ-endlich ist. 2

Beispiel 1.54 (Lebesgue-Maß, Fortsetzung von Beispiel 1.39). Wir wollen das auf den Quadern A = {(a, b] : a, b ∈ Rn , a < b} eingeführte Volumen μ((a, b]) =


25

n

− ai ) zu einem Maß auf der Borel’schen σ-Algebra B(Rn ) fortsetzen. Um die Voraussetzungen von Satz 1.53 zu prüfen, müssen wir nur noch zeigen, dass μ σ-subadditiv ist. Seien also (a, b], (a(1), b(1)], (a(2), b(2)], . . . ∈ A mit i=1 (bi

(a, b] ⊂

∞

(a(k), b(k)].

k=1

Wir müssen zeigen, dass μ((a, b]) ≤

∞

(1.12)

μ((a(k), b(k)]).

k=1

Hierzu benutzen wir ein Kompaktheitsargument, um (1.12) auf die endliche Additivität zurück zu führen. Sei also ε > 0, und sei für jedes k ∈ N ein bε (k) > b(k) so gewählt, dass μ((a(k), bε (k)]) ≤ μ((a(k), b(k)]) + ε 2−k−1 . Ferner sei aε ∈ (a, b) so gewählt, dass μ((aε , b]) ≥ μ((a, b]) − 2ε . Nun ist [aε , b] kompakt und ∞

(a(k), bε (k)) ⊃

k=1

∞

(a(k), b(k)] ⊃ (a, b] ⊃ [aε , b].

k=1

K0 (a(k), bε (k)) ⊃ (aε , b]. Da μ (endlich) subadditiv Also existiert ein K0 mit k=1 ist (Lemma 1.31(iii)), folgt K

μ((a, b]) ≤

0 ε ε + μ((aε , b]) ≤ + μ((a(k), bε (k)]) 2 2

k=1

K0 ∞

−k−1 ε ≤ + ε2 + μ((a(k), b(k)]) ≤ ε + μ((a(k), b(k)]). 2 k=1

k=1

Da ε > 0 beliebig war, folgt (1.12) und damit die σ-Subadditivität von μ.

3

Zusammen mit Satz 1.53 haben wir den folgenden Satz gezeigt. Satz 1.55 (Lebesgue-Maß). Es existiert ein eindeutig bestimmtes Maß λn auf (Rn , B(Rn )) mit der Eigenschaft λn ((a, b]) =

n

(bi − ai )

i=1

für alle a, b ∈ Rn mit a < b.

λn heißt Lebesgue-Maß auf (Rn , B(Rn )), oder Lebesgue-Borel-Maß.

26


Beispiel 1.56 (Lebesgue-Stieltjes-Maß). Sei Ω = R und A = {(a, b] : a, b ∈ R, a ≤ b}. A ist ein Semiring und σ(A) = B(R), wo B(R) die Borel’sche σAlgebra auf R ist. Ferner sei F : R → R monoton wachsend und rechtsseitig stetig. Wir definieren eine Mengenfunktion μ ˜F : A → [0, ∞),

(a, b] → F (b) − F (a).

˜F ist additiv. Offensichtlich ist μ ˜F (∅) = 0, und μ

∞ Seien (a, b], (a(1), b(1)], (a(2), b(2)], . . . ∈ A mit (a, b] ⊂ n=1 (a(n), b(n)]. Sei ε > 0, und sei aε ∈ (a, b) so gewählt, dass F (aε ) − F (a) < ε/2. Dies geht, weil F als rechtsstetig angenommen wurde. Ferner sei für jedes k ∈ N ein bε (k) > b(k) so gewählt, dass F (bε (k)) − F (b(k))< ε 2−k−1 . Wie in Beispiel 1.54 kann man ∞ ˜F ((a(k), b(k)]). Es folgt, dass μ ˜F σjetzt zeigen, dass μ ˜F ((a, b]) ≤ ε + k=1 μ subadditiv ist. Nach Satz 1.53 können wir μ ˜F auf eindeutige Weise zu einem σ3 endlichen Maß μF auf B(R) fortsetzen. Definition 1.57 (Lebesgue-Stieltjes-Maß). Das Maß μF auf (R, B(R)) mit μF ((a, b]) = F (b) − F (a)

für alle a, b ∈ R mit a < b

heißt Lebesgue-Stieltjes-Maß zur Funktion F . Beispiel 1.58. Wichtige Spezialfälle für das Lebesgue-Stieltjes-Maß sind: (i) Ist F (x) = x, so ist μF = λ1 das Lebesgue-Maß auf R. x f (t) dt für x ∈ R. Dann ist μF (ii) Sei f : R → [0, ∞) stetig und F (x) = 0

die Fortsetzung des in Beispiel 1.30(ix) definierten Prämaßes mit Dichte f . ∞ (iii) Sind x1 , x2 , . . . ∈ R und αn ≥ 0 für n ∈ N mit n=1 αn < ∞, so gehört zu ∞ ∞ F = n=1 αn [xn ,∞) das endliche Maß μF = n=1 αn δxn . ∞ (iv) Sind x1 , x2 , . . . ∈ R, so ist μ = n=1 δxn ein σ-endliches Maß. μ ist genau dann ein Lebesgue-Stieltjes-Maß, wenn die Folge (xn )n∈N keinen Häufungspunkt hat. Hat nämlich (xn )n∈N keinen Häufungspunkt, so ist nach dem Satz von BolzanoWeierstraß #{n ∈ N : xn ∈ [−K, K]} < ∞ für jedes K > 0. Setzen wir F (x) = #{n ∈ N : xn ∈ [0, x]} für x ≥ 0 und F (x) = −#{n ∈ N : xn ∈ [x, 0)}, so ist μ = μF . Ist nun andererseits μ ein Lebesgue-Stieltjes-Maß, also μ = μF für ein F , dann ist #{n ∈ N : xn ∈ (−K, K]} = F (K) − F (−K) < ∞ für jedes K > 0, also hat (xn )n∈N keinen Häufungspunkt. (v)

Gilt lim F (x) − F (−x) = 1, so ist μF ein W-Maß. x→∞

Den Fall, wo μF ein W-Maß ist, wollen wir noch weiter untersuchen.

3


27

Definition 1.59 (Verteilungsfunktion). Eine rechtsseitig stetige, monoton wachsende Funktion F : R → [0, 1] mit F (−∞) := lim F (x) = 0 und F (∞) := x→−∞

lim F (x) = 1 heißt Verteilungsfunktion. Gilt statt F (∞) = 1 lediglich F (∞) ≤ x→∞ 1, so heißt F uneigentliche Verteilungsfunktion. Ist μ ein (Sub-)W-Maß auf (R, B(R)), so heißt Fμ : x → μ((−∞, x]) die Verteilungsfunktion von μ.

Offenbar ist Fμ rechtsseitig stetig und F (−∞) = 0, weil μ stetig von oben und endlich ist (Satz 1.36). Auf Grund der Stetigkeit von unten ist F (∞) = μ(R), also ist Fμ tatsächlich eine (uneigentliche) Verteilungsfunktion, wenn μ ein (Sub-)WMaß ist. Die Argumentation aus Beispiel 1.56 liefert nun den folgenden Satz. Satz 1.60. Die Abbildung μ → Fμ ist eine Bijektion von der Menge der W-Maße auf (R, B(R)) auf die Menge der Verteilungsfunktionen, beziehungsweise von der Menge der Sub-W-Maße auf die der uneigentlichen Verteilungsfunktionen. Wir sehen also, dass jedes endliche Maß auf (R, B(R)) ein Lebesgue-Stieltjes-Maß für eine gewisse Funktion F ist. Für σ-endliche Maße ist dies im Allgemeinen falsch, wie wir in Beispiel 1.58(iv) gesehen haben. Wir kommen nun zu einem Satz, der Satz 1.55 mit dem Lebesgue-Stieltjes-Maß kombiniert. Später werden wir sehen, dass dieser Satz in größerer Allgemeinheit gültig ist. Speziell kann man auf die Bedingung verzichten, dass die einzelnen Faktoren vom Lebesgue-Stieltjes-Typ sind. Satz 1.61 (Endliche Produkte von Maßen). Sei n ∈ N, und seien μ1 , . . . , μn endliche Maße oder, allgemeiner, Lebesgue-Stieltjes-Maße auf (R, B(R)). Dann existiert ein eindeutig bestimmtes, σ-endliches Maß μ auf (Rn , B(Rn )) mit μ((a, b]) =

n

i=1

μi ((ai , bi ])

für alle a, b ∈ Rn mit a < b.

n

Wir nennen μ =:

μi das Produktmaß zu den Maßen μ1 , . . . , μn . i=1

Beweis. Dies geht völlig analog zum Beweis von Satz 1.55. Man muss sich vergewissern, dass die Intervalle (a, bε ] und so weiter, so gewählt werden können, dass μ((a, bε ]) < μ((a, b]) + ε. Hierzu wird die Rechtsstetigkeit der zu den μi gehörigen ¨ wachsenden Funktion Fi verwendet. Wir u¨ berlassen die Details zur Ubung. 2 Bemerkung 1.62. Wir werden später in Satz 14.14 sehen, dass die Aussage auch für beliebige σ-endliche Maße μ1 , . . . , μn auf beliebigen (auch unterschiedlichen)

28


Messräumen gilt. Wir können auch unendliche (sogar u¨ berabzählbare) Produkte betrachten, wenn wir voraussetzen, dass alle Faktoren Wahrscheinlichkeitsräume sind (Satz 14.36). 3 Beispiel 1.63 (Unendliches Produktmaß, Fortsetzung von Beispiel 1.40). Sei E eine endliche Menge und Ω = E N der Raum der Folgen mit Werten in E. Ferner sei (pe )e∈E ein Wahrscheinlichkeitsvektor. Der auf A = {[ω1 , . . . , ωn ] : ω1 , . . . , ωn ∈ E, n ∈ N} definierte Inhalt μ([ω1 , . . . , ωn ]) =

n

p ωi

i=1

soll nun zu einem Maß auf σ(A) fortgesetzt werden. Um die Voraussetzungen von Satz 1.53 zu prüfen, müssen wir zeigen, dass μ σ-subadditiv ist. Wie im vorangehenden Beispiel geht dies mit Hilfe eines Kompaktheitsarguments. ∞ Seien also A, A1 , A2 , . . . ∈ A und A ⊂ n=1 An . Es reicht zu zeigen, dass es ein N ∈ N gibt mit der Eigenschaft A⊂

N

An .

(1.13)

n=1

Dann ist nämlich aufgrund der endlichen Subadditivität von μ (Lemma 1.31(iii)) N ∞ schon μ(A) ≤ μ(An ) ≤ μ(An ), also ist μ σ-subadditiv. n=1

n=1

Wir geben nun zwei Beweise für (1.13) an.

1. Beweis Wie in Beispiel 1.40 angemerkt, ist Ω mit der von der Metrik d in (1.9) erzeugten Produkttopologie kompakt, und jedes A ∈ A ist abgeschlossen und damit auch kompakt. Da jedes der An zugleich offen ist, gibt es eine endliche Teilüberdeckung von A, mithin gilt (1.13). 2. Beweis Wir zeigen nun auf elementare Weise die Gültigkeit von (1.13). Das Vorgehen imitiert den Beweis dafür, dass Ω kompakt ist. Wir setzen Bn := n A \ i=1 Ai , nehmen an, dass Bn = ∅ für jedes n ∈ N und führen dies zum Widerspruch. Nach dem Dirichlet’schen Schubfachprinzip (E ist endlich) können wir ein ω1 ∈ E auswählen, sodass [ω1 ] ∩ Bn = ∅ für unendlich viele n ∈ N. Wegen B1 ⊃ B2 ⊃ . . . folgt [ω1 ] ∩ Bn = ∅

für jedes n ∈ N.

Wähle nun sukzessive ω2 , ω3 , . . . ∈ E so aus, dass [ω1 , . . . , ωk ] ∩ Bn = ∅

für alle k, n ∈ N.

Bn ist disjunkte Vereinigung von gewissen Mengen Cn,1 , . . . , Cn,mn ∈ A. Daher existiert zu jedem n ∈ N ein in ∈ {1, . . . , mn } mit [ω1 , . . . , ωk ] ∩ Cn,in = ∅ für unendlich viele k ∈ N. Wegen [ω1 ] ⊃ [ω1 , ω2 ] ⊃ . . . folgt


[ω1 , . . . , ωk ] ∩ Cn,in = ∅

29

für alle k, n ∈ N.

Für festes n ∈ N und großes k ist [ω1 , . . . , ωk ] ⊂ Cn,in , also ist ω = (ω1 , ω2 , . . .) ∈ ∞ Cn,in ⊂ Bn . Es folgt im Widerspruch zur Annahme, dass n=1 Bn = ∅. 3 Zusammen mit Satz 1.53 haben wir den folgenden Satz gezeigt.

Satz 1.64 (Produktmaß, Bernoulli-Maß). Sei E eine endliche, nichtleere Menge und Ω = E N sowie (pe )e∈E ein Wahrscheinlichkeitsvektor. Dann gibt es ein eindeutig bestimmtes W-Maß μ auf σ(A) = B(Ω) mit μ([ω1 , . . . , ωn ]) =

n

p ωi

i=1

für alle ω1 , . . . , ωn ∈ E und n ∈ N.

Wir nennen μ das Produktmaß oder Bernoulli-Maß auf Ω mit Gewichten (pe )e∈E . ⊗N

Wir schreiben auch := μ. e∈E pe δe E ⊗N Ferner nennen wir (2 ) := σ(A) die Produkt-σ-Algebra auf Ω. Auf Produktmaße gehen wir systematisch noch einmal in Kapitel 14 ein. Der Fortsetzungssatz liefert uns einen abstrakten Existenz- und Eindeutigkeitssatz für Maße, die wir zuvor nur auf einem Semiring A definiert hatten. Der folgende Satz zeigt, wie gut wir das Maß von σ(A)-messbaren Mengen durch endliche, beziehungsweise abzählbare Operationen mit Mengen aus A annähern können. Wir schreiben

A △ B := (A \ B) ∪ (B \ A),

für A, B ⊂ Ω,

(1.14)

für die symmetrische Differenz zweier Mengen A und B. ¨ Maße). Sei A ⊂ 2Ω ein Semiring und μ ein Satz 1.65 (Approximationssatz fur Maß auf σ(A), das σ-endlich auf A ist. (i) Zu A ∈ σ(A) und ε > 0gibt es paarweise disjunkte Mengen A1 , A2 , . . . ∈ A ∞ ∞ mit A ⊂ An und μ An \ A < ε. n=1

n=1

(ii) Zu A ∈ σ(A) mit μ(A) < ∞ und ε > 0 gibt es n ∈ N und paarweise n disjunkte Mengen A1 , . . . , An ∈ A mit μ A △ Ak < ε. k=1

∗

(iii) Zu jedem A ∈ M(μ ) gibt es A− , A+ ∈ σ(A) mit A− ⊂ A ⊂ A+ und μ(A+ \ A− ) = 0.

Bemerkung 1.66. Nach (iii) gelten (i) und (ii) auch für A ∈ M(μ∗ ) (mit μ∗ statt μ). Ist A eine Algebra, so gilt in (ii) für jedes A ∈ A sogar inf μ(A △ B) = 0. 3 B∈A

30


Beweis. (ii) Da μ auf σ(A) mit dem a¨ ußeren Maß μ∗ u¨ bereinstimmt und μ(A) ¨ endlich ist, gibt es nach Definition von μ∗ (siehe Lemma 1.47) eine Uberdeckung B1 , B2 , . . . ∈ A von A mit ∞

μ(A) ≥ Sei n ∈ N mit

∞

μ(Bi )
0 abzählbar viele A1 , A2 , . . . ∈ A mit ∞ λn Ai \ A < ε/2. i=1

Zu jedem Ai existiert ein offener Quader Bi ⊃ Ai mit λn (Bi \ Ai ) < ε 2−i−1 ∞ n (Stetigkeit von oben von λ ). Daher ist U = i=1 Bi eine offene Menge U ⊃ A mit λn (U \ A) < ε. Diese Eigenschaft von λn heißt Regularität von außen.

Ist λn (A) endlich, so gibt es zu ε > 0 eine kompakte Menge K ⊂ Rn mit λn (A \ K) < ε. Diese Eigenschaft von λn heißt Regularität von innen. In der Tat: Sei N > 0 mit λn (A)−λn (A∩[−N, N ]n ) < ε/2. Wähle eine offene Menge U ⊃ (A∩[−N, N ]n )c mit λn (U \ (A ∩ [−N, N ]n )c ) < ε/2 und setze K := [−N, N ]n \ U ⊂ A. 3 Definition 1.68 (Nullmenge). Sei (Ω, A, μ) ein Maßraum.

(i) Eine Menge A ∈ A heißt μ-Nullmenge, oder kurz Nullmenge, falls μ(A) = 0. Mit Nμ bezeichnen wir das System aller Teilmengen von μ-Nullmengen. (ii) Sei E(ω) eine Eigenschaft, die dem Punkt ω ∈ Ω zukommen kann. Wir sagen, dass E μ-fast uberall (f.ü.) gilt oder für fast alle ω, falls es eine Nullmenge N gibt, ¨ sodass E(ω) für jedes ω ∈ Ω \ N gilt. Ist A ∈ A, so sagen wir, dass E fast u¨ berall auf A gilt, falls es eine Nullmenge N gibt, sodass E(ω) für jedes ω ∈ A \ N gilt. Ist μ = P ein W-Maß, so sagen wir dann auch, dass E P -fast sicher (f.s.) gilt, beziehungsweise fast sicher auf A.

(iii) Sind A, B ∈ A, so schreiben wir A = B N gibt mit A △ B ⊂ N .

(mod μ), falls es eine Nullmenge

32


Definition 1.69. Ein Maßraum (Ω, A, μ) heißt vollständig, falls Nμ ⊂ A. Bemerkung 1.70 (Vervollständigung eines Maßraums). Sei (Ω, A, μ) ein Maßraum. Es gibt genau eine kleinste σ-Algebra A∗ ⊃ A und eine Fortsetzung μ∗ von μ auf A∗ , sodass (Ω, A∗ , μ∗ ) vollständig ist. (Ω, A∗ , μ∗ ) heißt die Vervollständigung von (Ω, A, μ). In der Notation des Beweises von Satz 1.53 ist Ω, M(μ∗ ), μ∗ M(μ∗ )

diese Vervollständigung.

Ferner ist M(μ∗ ) = σ(A ∪ Nμ ) = {A ∪ N : A ∈ A, N ∈ Nμ } und μ∗ (A ∪ N ) = μ(A) für jedes A ∈ A und N ∈ Nμ .

Da wir diese Aussagen im Folgenden nicht benötigen werden, verzichten wir auf den Beweis und verweisen auf die gängigen Maßtheoriebücher, etwa [43]. Beispiel 1.71. Ist λ das Lebesgue-Maß (genauer: das Lebesgue-Borel-Maß) auf (Rn , B(Rn )), so lässt sich λ eindeutig fortsetzen zu einem Maß λ∗ auf B ∗ (Rn ) = σ(B(Rn ) ∪ N ),

wo N die Menge der Teilmengen der Lebesgue-Borel’schen Nullmengen bezeichnet. B ∗ (Rn ) heißt σ-Algebra der Lebesgue-messbaren Mengen. Zur Unterscheidung wird manchmal λ das Lebesgue-Borel-Maß genannt und λ∗ das LebesgueMaß. Wir werden diese Unterscheidung im Folgenden aber nicht benötigen. 3 Beispiel 1.72. Sei μ = δω auf einem Messraum (Ω, A). Ist {ω} ∈ A, so ist die Vervollständigung A∗ = 2Ω , μ∗ = δω . Im Extremfall der trivialen σ-Algebra A = {∅, Ω} hingegen ist Nμ = {∅}, also die Vervollständigung A∗ = {∅, Ω}, μ∗ = δω . Man beachte, dass man auf dieser trivialen σ-Algebra die Dirac-Maße zu verschiedenen Punkten aus Ω nicht unterscheiden kann. 3 Definition 1.73. Sei (Ω, A, μ) ein Messraum und Ω ′ ∈ A. Dann wird durch μ ′ (A) := μ(A) für A ∈ A mit A ⊂ Ω ′ Ω

ein Maß auf der Spur-σ-Algebra A ′

schränkung von μ auf Ω .

Ω′

definiert. Dieses Maß nennen wir die Ein-

Beispiel 1.74. Die Einschränkung des Lebesgue-Borel-Maßes λ von (R, B(R)) auf ). Allgemeiner nennen wir für messbares [0, 1] ist ein W-Maß auf ([0, 1], B(R) [0,1] A ∈ B(R) die Einschränkung λ das Lebesgue-Maß auf A. Oftmals wird als SymA bol wieder λ verwendet, weil wir nicht zu viele kleinliche Unterscheidungen treffen wollen. Wir sehen später (Korollar 1.84), dass B(R) = B(A), wobei B(A) die Borel’sche A σ-Algebra auf A ist, die von den in A (relativ) offenen Mengen erzeugt wird. 3

1.4 Messbare Abbildungen

33

Beispiel 1.75 (Gleichverteilung). Ist A ∈ B(Rn ) mit n-dimensionalem LebesgueMaß λn (A) ∈ (0, ∞), so wird durch μ(B) :=

λn (B) λn (A)

für B ∈ B(Rn ), B ⊂ A,

ein W-Maß auf B(Rn ) definiert. Wir nennen μ die uniforme Verteilung oder A Gleichverteilung auf A und schreiben UA := μ. 3

¨ Ubung Man zeige die folgende Verallgemeinerung von Beispiel 1.58(iv): Ein 1.3.1. ∞ Maß n=1 αn δxn ist genau dann ein Lebesgue-Stieltjes Maß zu einer geeigneten Funktion F , wenn n: |xn |≤K αn < ∞ für jedes K > 0 gilt. ♣

¨ Ubung 1.3.2. Sei Ω eine u¨ berabzählbare Menge und ω0 ∈ Ω ein beliebiges Element. Sei A = σ({ω} : ω ∈ {ω0 }). ¨ (i) Charakterisiere A a¨ hnlich wie in Ubung 1.1.4 (Seite 11).

(ii) Zeige, dass (Ω, A, δω0 ) vollständig ist.

♣

¨ Ubung 1.3.3. Sei (μn )n∈N eine Folge von endlichen Maßen auf dem Messraum (Ω, A). Für jedes A ∈ A existiere der Grenzwert μ(A) := lim μn (A). n→∞

Man zeige: μ ist ein Maß auf (Ω, A).

Hinweis: Zu zeigen ist insbesondere die ∅-Stetigkeit von μ.

♣

1.4 Messbare Abbildungen Eine Zwangshandlung in der Mathematik ist es, Homomorphismen zwischen Objekten anzugeben, also strukturerhaltende Abbildungen. Für topologische Räume sind dies die stetigen Abbildungen, für Messräume die messbaren Abbildungen. Seien im Folgenden stets (Ω, A) und (Ω ′ , A′ ) Messräume. Definition 1.76 (Messbare Abbildungen). (i) Eine Abbildung X : Ω → Ω ′ heißt A – A′ -messbar (oder kurz: messbar), falls X −1 (A′ ) := {X −1 (A′ ) : A′ ∈ A′ } ⊂ A ist, falls also X −1 (A′ ) ∈ A

für jedes A′ ∈ A′ .

Ist X messbar, so schreiben wir auch X : (Ω, A) → (Ω ′ , A′ ).

(ii) Ist Ω ′ = R und A′ = B(R) die Borel’sche σ-Algebra auf R, so heißt X : (Ω, A) → (R, B(R)) kurz eine reelle A-messbare Abbildung.

34


Beispiel 1.77. (i) Die Identität id : Ω → Ω ist A – A-messbar.

(ii) Ist A = 2Ω oder A′ = {∅, Ω ′ }, so ist jede Abbildung X : Ω → Ω ′ schon A – A′ -messbar. (iii) Sei A ⊂ Ω. Die Indikatorfunktion 2{0,1} -messbar, wenn A ∈ A.

A

: Ω → {0, 1} ist genau dann A – 3

Satz 1.78 (Erzeugte σ-Algebra). Sei (Ω ′ , A′ ) ein Messraum und Ω eine nichtleere Menge sowie X : Ω → Ω ′ eine Abbildung. Das Urbild X −1 (A′ ) := {X −1 (A′ ) : A′ ∈ A′ }

(1.15)

ist die kleinste σ-Algebra, bezüglich der X messbar ist. Wir nennen σ(X) := X −1 (A′ ) die von X erzeugte σ-Algebra auf Ω. ¨ Beweis. Ubung!

2

Wir wollen nun σ-Algebren betrachten, die von mehreren Abbildungen erzeugt werden. Definition 1.79 (Erzeugte σ-Algebra). Sei Ω eine nichtleere Menge. Sei I eine beliebige Indexmenge, und für jedes i ∈ I sei (Ωi , Ai ) ein Messraum sowie Xi : Ω → Ωi eine beliebige Abbildung. Dann heißt −1 Xi (Ai ) σ(Xi ) = σ σ(Xi , i ∈ I) := σ i∈I

i∈I

die von (Xi , i ∈ I) erzeugte σ-Algebra auf Ω. Dies ist die kleinste σ-Algebra, bezüglich der jedes Xi messbar ist. Wie bei stetigen oder linearen Abbildungen gibt es eine Verknüpfungseigenschaft. ¨ Satz 1.80 (Verknupfung von Abbildungen). Sind (Ω, A), (Ω ′ , A′ ) und (Ω ′′ , A′′ ) Messräume sowie X : Ω → Ω ′ messbar und X ′ : Ω ′ → Ω ′′ messbar, so ist die Abbildung Y := X ′ ◦ X : Ω → Ω ′′ , ω → X ′ (X(ω)) messbar bezüglich A – A′′ . Beweis. Es ist Y −1 (A′′ ) = X −1 ((X ′ )−1 (A′′ )) ⊂ X −1 (A′ ) ⊂ A.

2

Praktisch kann man die Messbarkeit einer Abbildung X kaum prüfen, indem man sämtliche Urbilder X −1 (A′ ), A′ ∈ A′ auf Messbarkeit hin untersucht. Dafür sind die meisten σ-Algebren A′ einfach zu groß. Glücklicherweise reicht hier die Betrachtung eines Erzeugers von A′ aus:


35

Satz 1.81 (Messbarkeit auf einem Erzeuger). Für jedes System E ′ ⊂ A′ von A′ -messbaren Mengen gilt σ(X −1 (E ′ )) = X −1 (σ(E ′ )) und damit X ist A – σ(E ′ )-messbar ⇐⇒ X −1 (E ′ ) ∈ A

für jedes E ′ ∈ E ′ .

Ist speziell σ(E ′ ) = A′ , dann gilt X ist A – A′ -messbar ⇐⇒ X −1 (E ′ ) ⊂ A. Beweis. Offenbar ist X −1 (E ′ ) ⊂ X −1 (σ(E ′ )) = σ(X −1 (σ(E ′ ))). Also ist auch σ(X −1 (E ′ )) ⊂ X −1 (σ(E ′ )).

Für die andere Inklusion betrachten wir das Mengensystem

A′0 := A′ ∈ σ(E ′ ) : X −1 (A′ ) ∈ σ(X −1 (E ′ ))

und zeigen zunächst, dass A′0 eine σ-Algebra ist, indem wir die Punkte (i)-(iii) aus Definition 1.2 prüfen: (i) Offensichtlich ist Ω ′ ∈ A′0 .

(ii) (Komplementstabilität)

Ist A′ ∈ A′0 , so ist

X −1 ((A′ )c ) = (X −1 (A′ ))c ∈ σ(X −1 (E ′ )),

also (A′ )c ∈ A′0 .

(iii) (σ-∪-Stabilität) Seien A′1 , A′2 , . . . ∈ A′0 . Dann ist ∞ ∞ −1 ′ X An = X −1 (A′n ) ∈ σ(X −1 (E ′ )), also ist

∞

′ n=1 An

n=1

∈

n=1

A′0 .

Wegen E ′ ⊂ A′0 ist A′0 = σ(E ′ ), also X −1 (A′ ) ∈ σ(X −1 (E ′ )) für jedes A′ ∈ σ(E ′ ) und damit X −1 (σ(E ′ )) ⊂ σ(X −1 (E ′ )). 2 ¨ Korollar 1.82 (Messbarkeit von verknupften Abbildungen). Sei I eine nichtleere Indexmenge sowie (Ω, A), (Ω ′ , A′ ) und (Ωi , Ai ) Messräume, i ∈ I. Sei ferner (Xi : i ∈ I) eine Familie messbarer Abbildungen Xi : Ω ′ → Ωi mit der Eigenschaft A′ = σ(Xi : i ∈ I). Dann gilt: Eine Abbildung Y : Ω → Ω ′ ist genau dann A-A′ messbar, wenn Xi ◦ Y messbar ist bezüglich A-Ai für jedes i ∈ I. Beweis. Ist Y messbar, so ist nach Satz 1.80 jedes Xi ◦ Y messbar. Sei nun jede der zusammengesetzten Abbildungen Xi ◦ Y messbar bezüglich A-Ai . Die Menge E ′ := {Xi−1 (A′′ ) : A′′ ∈ Ai , i ∈ I} ist nach Voraussetzung ein Erzeuger von A′ , und es gilt Y −1 (A′ ) ∈ A für jedes A′ ∈ E ′ wegen der Messbarkeit aller Xi ◦ Y . Nach Satz 1.81 ist also Y messbar. 2

36


Wir erinnern an den Begriff der Spur eines Mengensystems aus Definition 1.25. Korollar 1.83 (Spur der erzeugten σ-Algebra). Ist E ⊂ 2Ω und A ⊂ Ω nichtleer, so gilt σ E = σ(E) A

A

Beweis. Sei X : A ֒→ Ω, ω → ω die Inklusionsabbildung. Dann ist X −1 (B) = A ∩ B für jedes B ∈ Ω. Nach Satz 1.81 ist

σ E = σ({E ∩ A : E ∈ E}) A

= σ({X −1 (E) : E ∈ E}) = σ(X −1 (E))

= X −1 (σ(E)) = {A ∩ B : B ∈ σ(E)} = σ(E) .

2

A

Zur Erinnerung: Für eine Teilmenge A ⊂ Ω eines topologischen Raums (Ω, τ ) ist τ die Topologie der in A relativ offenen Mengen. Mit B(Ω, τ ) = σ(τ ) bezeichnen A wir die Borel’sche σ-Algebra auf (Ω, τ ). Korollar 1.84 (Spur der Borel’schen σ-Algebra). Sei (Ω, τ ) ein topologischer Raum und A ⊂ Ω eine beliebige Teilmenge von Ω. Dann gilt

B(Ω, τ ) = B A, τ . A

A

′

Beispiel 1.85. (i) Ist Ω ′ abzählbar, so ist X : Ω → Ω ′ genau dann A – 2Ω messbar, wenn X −1 ({ω ′ }) ∈ A für jedes ω ′ ∈ Ω ′ . Für u¨ berabzählbare Ω ′ ist dies im Allgemeinen falsch. (Man betrachte etwa Ω = Ω ′ = R, A = B(R), X(ω) = ω für jedes ω ∈ Ω. Offenbar ist X −1 (ω) = {ω} ∈ B(R). Ist andererseits A ⊂ R nicht in B(R), so ist A ∈ 2R , jedoch X −1 (A) ∈ B(R).)

(ii) Für x ∈ R verabreden wir folgende Schreibweisen für das Ab- und Aufrunden ⌊x⌋ := max{k ∈ Z : k ≤ x}

und

⌈x⌉ :== min{k ∈ Z : k ≥ x}.

(1.16)

Die Abbildungen R → Z, x → ⌊x⌋ und x → ⌈x⌉ sind messbar bezüglich B(R) – 2Z , denn für jedes k ∈ Z sind die Urbilder {x ∈ R : ⌊x⌋ = k} = [k, k + 1) und {x ∈ R : ⌈x⌉ = k} = (k − 1, k] in B(R). Nach dem Verknüpfungssatz (Satz 1.80) sind dann für jede messbare Abbildung f : (Ω, A) → (R, B(R)) auch die Abbildungen ⌊f ⌋ und ⌈f ⌉ messbar bezüglich A – 2Z . (iii) Eine Abbildung X : Ω → Rd ist genau dann A – B(Rd )-messbar, wenn X −1 ((−∞, a]) ∈ A

für jedes a ∈ Rd ,

denn σ((−∞, a], a ∈ Rd ) = B(Rd ) nach Satz 1.23. Analog gilt dies auch für die anderen Mengensysteme E1 , . . . , E12 aus Satz 1.23. 3


37

Beispiel 1.86. Sei d(x, y) = x − y2 der gewöhnliche euklidische Abstand auf Rn und B(Rn , d) = B(Rn ) die Borel’sche σ-Algebra zu der von d erzeugten Topologie. 3 Für jede Teilmenge A von Rn ist dann B(A, d) = B(Rn , d) . A

Wir wollen die reellen Zahlen um die Punkte −∞ und +∞ erweitern und definieren R := R ∪ {−∞, +∞}.

Topologisch wollen wir R als die so genannte Zweipunktkompaktifizierung ansehen, indem wir R als topologisch isomorph zu [−1, 1] betrachten, beispielsweise vermöge der Abbildung ⎧ ⎪ ⎨ tan(πx/2), falls x ∈ (−1, 1), −∞, falls x = −1, x → ϕ : [−1, 1] → R, ⎪ ⎩ ∞, falls x = +1. ¯ y) = ϕ−1 (x)−ϕ−1 (y) für x, y ∈ R eine Metrik auf R In der Tat wird durch d(x, definiert, sodass ϕ und ϕ−1 stetig sind (also ist ϕ ein topologischer Isomorphismus). Mit τ¯ bezeichnen wir die induzierte Topologie auf R, mit τ die gewöhnliche Topologie auf R. Korollar 1.87. Es gilt τ¯ = τ , und daher gilt B(R) = B(R). R

R

Ist speziell X : (Ω, A) → (R, B(R)) messbar, so ist X in kanonischer Weise auch eine R-wertige messbare Abbildung. Mit R haben wir also eine echte Erweiterung der reellen Zahlen geschaffen, und die Inklusion R ֒→ R ist messbar. Satz 1.88 (Messbarkeit stetiger Abbildungen). Sind (Ω, τ ) und (Ω ′ , τ ′ ) topologische Räume und f : Ω → Ω ′ stetig, dann ist f auch B(Ω) – B(Ω ′ )-messbar. Beweis. Wegen B(Ω ′ ) = σ(τ ′ ) reicht es nach Satz 1.81 zu zeigen, dass f −1 (A′ ) ∈ σ(τ ) für jedes A′ ∈ τ ′ . Da f stetig ist, gilt aber sogar f −1 (A′ ) ∈ τ für jedes 2 A′ ∈ τ ′ . Für x, y ∈ R verabreden wir folgende Notationen x ∨ y = max(x, y) x ∧ y = min(x, y) x+ = max(x, 0) x− = max(−x, 0) |x| = max(x, −x) = x− + x+ sign(x) = {x>0} − {x 0 (nicht notwendigerweise ganzzahlig) und p ∈ (0, 1]. Mit b− r,p

:=

∞ −r

k=0

k

(−1)k pr (1 − p)k δk

(1.17)

bezeichnen wir die negative Binomialverteilung oder Pascal-Verteilung mit Pa rametern r und p. (Hierbei ist xk = x(x−1)···(x−k+1) für x ∈ R und k ∈ N der k! 1

Obacht: Manche Autoren nennen die um Eins verschobene Verteilung auf N die geometrische Verteilung.

1.5 Zufallsvariablen

45

¨ hnlich wie im vorangeverallgemeinerte Binomialkoeffizient.) Für r ∈ N ist b− r,p , a henden Beispiel, die Verteilung der Wartezeit auf den r-ten Erfolg bei unabhängigen Versuchen. Wir werden hierauf in Beispiel 3.4(iv) zurückkommen. (v)

Ist λ ∈ [0, ∞) und X : Ω → N0 mit P[X = n] = e−λ

λn n!

für jedes n ∈ N0 ,

so heißt PX =: Poiλ die Poisson-Verteilung mit Parameter λ. (vi)

Die hypergeometrische Verteilung mit Parametern S, W, n ∈ N

S W n−s HypS,W,n ({s}) = sS+W , n

s ∈ {0, . . . , n},

(1.18)

gibt die Wahrscheinlichkeit an, aus einer Urne mit S schwarzen und W weißen Kugeln bei n-maligen Ziehen ohne Zurücklegen genau s schwarze Kugeln zu ziehen. (vii) Seien μ ∈ R, σ 2 > 0 und X reell mit x (t−µ)2 1 √ P[X ≤ x] = e− 2σ2 dt 2πσ 2 −∞

für x ∈ R,

Dann heißt PX =: Nμ,σ2 Gauß’sche Normalverteilung mit Parametern μ und σ 2 . (viii) Ist X ≥ 0 reell und θ > 0, sowie P[X ≤ x] = P[X ∈ [0, x]] =

x 0

θe−θt dt

für x ≥ 0,

so heißt PX Exponentialverteilung mit Parameter θ (kurz: expθ ). (ix) Ist X Rd -wertig, μ ∈ Rd , Σ eine positiv definite d × d Matrix und 1% & t − μ, Σ −1 (t − μ) λd (dt) P[X ≤ x] = det(2π Σ)−1/2 exp − 2 (−∞,x] für x ∈ Rd (wobei · , · ! das Skalarprodukt im Rd bezeichnet), so heißt PX =: Nμ,Σ die d-dimensionale Normalverteilung mit Parametern μ und Σ. 3 Definition 1.106. Hat die Verteilungsfunktion F : Rn → [0, 1] die Gestalt x1 xn F (x) = dt1 · · · dtn f (t1 , . . . , tn ) für x = (x1 , . . . , xn ) ∈ Rn , −∞

−∞

für eine integrierbare Funktion f : Rn → [0, ∞), so heißt f die Dichte der Verteilung.

46


Beispiel 1.107.

(i) Für θ, r > 0 heißt die Verteilung Γθ,r auf [0, ∞) mit Dichte x →

θr xr−1 e−θx Γ (r)

(wo Γ die Gamma-Funktion bezeichnet) Gamma-Verteilung mit Größenparameter θ und Formparameter r. (ii) Für r, s > 0 heißt die Verteilung βr,s auf [0, 1] mit Dichte x →

Γ (r + s) r−1 x (1 − x)s−1 Γ (r)Γ (s)

Beta-Verteilung mit Parametern r und s. (iii) Für a > 0 heißt die Verteilung Caua auf R mit Dichte x →

1 1 aπ 1 + (x/a)2

Cauchy-Verteilung mit Parameter a.

3

¨ Ubung 1.5.1. Man leite (1.17) nach als Wartezeit kombinatorisch

der Interpretation

n+k−1 k her unter Benutzung der Identität −n . ♣ k (−1) = k ¨ Ubung 1.5.2. Man gebe ein Beispiel an für zwei normalverteilte X und Y , sodass (X, Y ) nicht (zweidimensional) normalverteilt ist. ♣ ¨ Ubung 1.5.3. Man zeige mit Hilfe von Satz 1.101 (Transformationsformel für Dichten): (i) Ist X ∼ Nμ,σ2 und sind a ∈ R\{0} und b ∈ R, so ist (aX +b) ∼ Naμ+b,a2 σ2 .

(ii) Ist X ∼ expθ und a > 0, so ist aX ∼ expθ/a .

♣

2 Unabhängigkeit

Die Maßtheorie aus dem vorigen Kapitel ist eine lineare Theorie, die keine Abhängigkeitsstrukturen zwischen Ereignissen oder Zufallsvariablen kennt. Wir betreten das Gebiet der Wahrscheinlichkeitstheorie genau an dieser Stelle mit der Definition der Unabhängigkeit von Ereignissen und schließlich von Zufallsvariablen. Die Unabhängigkeit ist ein zentraler Begriff der Wahrscheinlichkeitstheorie, die Quantifizierung von Abhängigkeiten eines ihrer wichtigen Anliegen. Fortan ist stets (Ω, A, P) ein Wahrscheinlichkeitsraum, und die Mengen A ∈ A sind die Ereignisse. Sobald wir die Phase hinter uns gelassen haben, in der wir WRäume explizit konstruieren, wird der konkrete W-Raum in den Hintergrund treten, und die beobachtbaren Größen, also Zufallsvariablen, werden an Bedeutung gewinnen. Das fett gedruckte P steht dann für das universelle Objekt des W-Maßes, und Wahrscheinlichkeiten P[ · ] bezüglich P werden stets mit eckigen Klammern geschrieben.

2.1 Unabhängigkeit von Ereignissen Wir wollen zwei Ereignisse A und B als (stochastisch) unabhängig betrachten, wenn das Eintreten von A nicht die Wahrscheinlichkeit beeinflusst, dass zudem B eintritt. Etwas formaler können wir diesen intuitiven Begriff fassen, indem wir A und B als unabhängig betrachten, wenn P[A ∩ B] = P[A] · P[B].

(2.1)

¨ Beispiel 2.1 (Zweifacher Wurfelwurf). Wir betrachten das Zufallsexperiment des zweifachen Würfelwurfes. Es ist also Ω = {1, . . . , 6}2 mit der σ-Algebra A = 2Ω und der Gleichverteilung P = UΩ (siehe Beispiel 1.30(ii)).

(i) Zwei Ereignisse A und B sollten unabhängig sein, wenn A nur vom Ergebnis des ersten Wurfes abhängt, B hingegen nur vom Ergebnis des zweiten Wurfes. Formal beschreiben wir diese Situation, indem wir annehmen, dass es Mengen ˜ B ˜ ⊂ {1, . . . , 6} gibt mit A, A = A˜ × {1, . . . , 6}

und

˜ B = {1, . . . , 6} × B.

48

2 Unabhängigkeit

Wir prüfen jetzt, dass A und B tatsächlich (2.1) erfüllen. Dazu berechnen wir ˜ ˜ #A #B #B P[A] = #A 36 = 6 und P[B] = 36 = 6 . Ferner ist P[A ∩ B] =

˜ ˜ #A˜ #B #(A˜ × B) = · = P[A] · P[B]. 36 6 6

(ii) Stochastische Unabhängigkeit kann auch in weniger augenfälligen Situationen auftreten. Sei hierzu A das Ereignis, dass die Augensumme ungerade ist, A = (ω1 , ω2 ) ∈ Ω : ω1 + ω2 ∈ {3, 5, 7, 9, 11} , und B das Ereignis, dass

der erste Wurf höchstens eine Drei bringt, B = {(ω1 , ω2 ) ∈ Ω : ω1 ∈ {1, 2, 3} . Obwohl beide Ereignisse anscheinend etwas miteinander zu tun haben, sind sie stochastisch unabhängig, denn es gilt, wie man leicht prüft, P[A] = P[B] = 21 und P[A ∩ B] = 41 . 3 Wann sind nun drei Ereignisse A1 , A2 , A3 unabhängig? Hierzu muss natürlich jedes der Paare (A1 , A2 ), (A1 , A3 ) und (A2 , A3 ) unabhängig sein. Jedoch wollen wir auch sicherstellen, dass beispielsweise das Eintreten von A1 und A2 nicht die Wahrscheinlichkeit für das zusätzliche Eintreten von A3 beeinflusst. Wir müssen also mehr als nur Paare betrachten. Formal nennen wir daher drei Ereignisse A1 , A2 und A3 (stochastisch) unabhängig, falls P[Ai ∩ Aj ] = P[Ai ] · P[Aj ] für alle i, j ∈ {1, 2, 3}, i = j, (2.2) und

(2.3)

P[A1 ∩ A2 ∩ A3 ] = P[A1 ] · P[A2 ] · P[A3 ].

Man beachte, dass (2.3) nicht aus (2.2) folgt (und (2.2) nicht aus (2.3)). ¨ Beispiel 2.2 (Dreifacher Wurfelwurf). Wir betrachten den dreifachen Wurf eines Würfels. Sei also Ω = {1, . . . , 6}3 ausgestattet mit der diskreten σ-Algebra A = 2Ω und der Gleichverteilung P = UΩ (siehe Beispiel 1.30(ii)). (i) Hängt für i = 1, 2, 3 das Ereignis Ai nur vom i-ten Wurf ab, so sind die Ereignisse A1 , A2 und A3 unabhängig. In der Tat können wir sie wie im vorangehenden Beispiel für gewisse Mengen A˜1 , A˜2 , A˜3 ⊂ {1, . . . 6} schreiben als A1 = A˜1 × {1, . . . , 6}2 , A2 = {1, . . . , 6} × A˜2 × {1, . . . , 6}, A3 = {1, . . . , 6}2 × A˜3 .

Die Gültigkeit von (2.2) folgt wie in Beispiel 2.1(i). Um (2.3) zu zeigen, berechnen wir 3

P[A1 ∩ A2 ∩ A3 ] =

3

#(A˜1 × A˜2 × A˜3 ) #A˜i = = P[Ai ]. 216 6 i=1 i=1

(ii) Wir betrachten nun die folgenden drei Ereignisse

2.1 Unabhängigkeit von Ereignissen

49

A1 := {ω ∈ Ω : ω1 = ω2 },

A2 := {ω ∈ Ω : ω2 = ω3 }, A3 := {ω ∈ Ω : ω1 = ω3 }.

Dann ist #A1 = #A2 = #A3 = 36, also P[A1 ] = P[A2 ] = P[A3 ] = 61 . Ferner 1 . Daher gilt (2.2). Jedoch ist ist #(Ai ∩ Aj ) = 6, falls i = j, also P[Ai ∩ Aj ] = 36 1 #(A1 ∩ A2 ∩ A3 ) = 6, also P[A1 ∩ A2 ∩ A3 ] = 36 = 16 · 16 · 61 , mithin ist (2.3) verletzt, und die Ereignisse A1 , A2 , A3 sind nicht unabhängig. 3 Um für größere Familien von Ereignissen Unabhängigkeit zu definieren, müssen wir die Gültigkeit von Produktformeln wie (2.2) und (2.3) nunmehr nicht nur für Paare und Tripel fordern, sondern für alle endlichen Teilfamilien. Wir treffen daher die folgende Definition. Definition 2.3 (Unabhängigkeit von Ereignissen). Sei I eine beliebige Indexmenge, und sei (Ai )i∈I eine beliebige Familie von Ereignissen. Die Familie (Ai )i∈I heißt unabhängig, falls für jede endliche Teilmenge J ⊂ I gilt, dass ' ( P Aj = P[Aj ]. j∈J

j∈J

Das wichtigste Beispiel für eine unendlich große, unabhängige Familie von Ereignissen wird durch die unendliche (unabhängige) Wiederholung eines Zufallsexperiments gegeben. Beispiel 2.4. Sei E eine endliche Menge (die möglichen Ausgänge des einzelnen Experiments) und (pe )e∈E ein Wahrscheinlichkeitsvektor auf E. Sei (wie in Satz 1.64) der Wahrscheinlichkeitsraum Ω = E N ausgestattet mit der σ-Algebra

⊗N A = σ({[ω1 , . . . , ωn ] : ω1 , . . . , ωn ∈ E, n ∈ N}) und P = das e∈E pe δe n * ) Produktmaß (oder Bernoulli-Maß) auf (Ω, A), also P [ω1 , . . . , ωn ] = pωi . Sei i=1

A˜i ⊂ E für jedes i ∈ N, und Ai das Ereignis, dass A˜i im i-ten Durchgang des Experiments auftritt, also

Ai = ω ∈ Ω : ωi ∈ A˜i = [ω1 , . . . , ωi ]. ˜i (ω1 ,...,ωi )∈E i−1 ×A

Nach unserer Intuition sollte die Familie (Ai )i∈N unabhängig sein, wenn die Definition der Unabhängigkeit sinnvoll sein soll. Wir weisen jetzt nach, dass dies in der Tat richtig ist. Sei J ⊂ N endlich mit k := #J und n := max J. Wir setzen formal ˜j = A˜j für j ∈ J und Bj = Ω und B ˜j = E für j ∈ {1, . . . , n} \ J. Bj = Aj und B Dann ist

50

2 Unabhängigkeit

P

+

j∈J

, + , + , n Aj = P Bj = P Bj j=1

j∈J

=

˜1 e1 ∈ B

···

n

p ej =

˜ n j=1 en ∈ B

n

j=1

pe

˜j e∈B

Dies gilt speziell natürlich für #J = 1, also ist P[Ai ] = Es folgt + , P[Aj ]. Aj = P

=

˜i e∈A

j∈J

˜j e∈A

pe .

pe für jedes i ∈ N. (2.4)

j∈J

j∈J

Da dies für alle endlichen J ⊂ N gilt, ist die Familie (Ai )i∈N unabhängig.

3

Sind A und B unabhängig, so sind auch Ac und B unabhängig, denn P[Ac ∩ B] = P[B] − P[A ∩ B] = P[B] − P[A]P[B] = (1 − P[A])P[B] = P[Ac ]P[B]. Wir wollen diese Beobachtung etwas verallgemeinern und als Satz festhalten. Satz 2.5. Sei I eine beliebige Indexmenge, und sei (Ai )i∈I eine Familie von Ereignissen. Setze Bi0 = Ai und Bi1 = Aci für i ∈ I. Dann sind folgende drei Aussagen a¨ quivalent. (i) Die Familie (Ai )i∈I ist unabhängig. (ii) Es gibt ein α ∈ {0, 1}I , sodass die Familie (Biαi )i∈I unabhängig ist.

(iii) Für jedes α ∈ {0, 1}I ist die Familie (Biαi )i∈I unabhängig. ¨ Beweis Ubung!

Beispiel 2.6 (Euler’sche Primzahlformel). Die Riemann’sche Zetafunktion ist definiert durch die Dirichlet-Reihe ζ(s) :=

∞

n−s

n=1

für s ∈ (1, ∞).

Die Euler’sche Primzahlformel ist die Produktdarstellung −1 ζ(s) = 1 − p−s ,

(2.5)

p∈P

wobei P := {p ∈ N : p ist Primzahl} ist.

Wir beweisen die Produktdarstellung probabilistisch. Sei Ω = N und (für festes s) P definiert durch P[{n}] = ζ(s)−1 n−s für n ∈ N.

Sei pN = {pn : n ∈ N} und Pn = {p ∈ P : p ≤ n}. Wir fassen pN ⊂ Ω als Ereignis auf und bemerken, dass (pN, p ∈ P) unabhängig ist. In der Tat: Für k ∈ N k und unterschiedliche p1 , . . . , pk ∈ P ist i=1 pi N = (p1 · · · pk )N, also


P

-

k

.

(pi N) =

i=1

∞ ) * P {p1 · · · pk n}

51

n=1

= ζ(s)−1 (p1 · · · pk )−s = (p1 · · · pk )−s =

k

∞

n−s

n=1

P[ pi N ].

i=1

Nach Satz 2.5 ist nun auch ((pN)c , p ∈ P) unabhängig. Deshalb gilt , + c −1 ζ(s) = P[{1}] = P (pN) = lim P n→∞

'

p∈P

(pN)c

p∈Pn

(

= lim 1 − P[ pN ] = 1 − p−s . n→∞

p∈Pn

p∈P

Damit ist (2.5) gezeigt.

3

Wenn wir einen Würfel unendlich oft werfen, wie groß ist die Wahrscheinlichkeit, dass unendlich oft (also: immer wieder mal) eine Sechs geworfen wird? Diese Wahrscheinlichkeit sollte Eins sein, denn sonst gäbe es einen letzten Zeitpunkt, zu dem eine Sechs fällt und danach nicht wieder. Dies wäre zumindest nicht sehr plausibel. Man erinnere sich daran, wie wir mit Hilfe des Limes superior (Definition 1.13) formalisiert hatten, dass unendlich viele Ereignisse aus einer Familie von Ereignissen eintreten. Der folgende Satz bestätigt nun unsere oben geäußerte Vermutung und gibt zudem Auskunft darüber, unter welchen Bedingungen wir nicht erwarten können, dass unendlich viele der Ereignisse eintreten. Satz 2.7 (Lemma von Borel-Cantelli). Seien A1 , A2 , . . . Ereignisse, und sei A∗ = lim sup An . n→∞

(i) Ist

∞

n=1

P[An ] < ∞, so ist P[A∗ ] = 0. (Hier kann P ein beliebiges Maß

auf (Ω, A) sein.)

(ii) Ist (An )n∈N unabhängig und

∞

n=1

P[An ] = ∞, so ist P[A∗ ] = 1.

Beweis. (i) Da P stetig von oben und σ-subadditiv ist, ist nach Voraussetzung - ∞ . ∞ ∗ P[A ] = lim P P[Am ] = 0. Am ≤ lim n→∞

m=n

n→∞

m=n

52

2 Unabhängigkeit

(ii) Offensichtlich ist log(1 − x) ≤ −x für x ∈ [0, 1]. Nach den de Morgan’schen Regeln und der Stetigkeit von P von unten gilt daher - ∞ ∞ . - ∞ . ) ∗ c* c c P (A ) = P An = lim P An . m→∞

m=1 n=m

n=m

Nun ist aber für jedes m ∈ N

+ , ∞ ∞

P Acn = 1 − P[An ] n=m

n=m

= exp

∞

n=m

log 1 − P[An ]

≤ exp

−

∞

n=m

P[An ] = 0.

2

Beispiel 2.8. Wir betrachten den unendlich oft wiederholten Würfelwurf und fragen nach der Wahrscheinlichkeit, dass unendlich oft die Sechs auftritt. Es ist also Ω = {1, . . . , 6}N , A = (2{1,...,6} )⊗N die Produkt-σ-Algebra und P = ⊗N

1 das Bernoulli-Maß (vergleiche Satz 1.64). Ferner sei An = 6 δe e∈{1,...,6}

{ω ∈ Ω : ωn = 6} das Ereignis, dass beim n-ten Wurf eine Sechs auftritt. Dann ist A∗ = lim sup An das Ereignis, dass unendlich oft eine Sechs auftritt (sien→∞

he Beispiel 1.14). Ferner ist (An )n∈N eine unabhängige Familie mit ∞

n=1

∞

P[An ] =

n=1 1 6

= ∞ und deshalb nach dem Lemma von Borel-Cantelli P[A∗ ] = 1.

3

Beispiel 2.9. Wir werfen einen Würfel nur einmal und definieren An für jedes n ∈ N als das Ereignis, dass bei diesem (einen) Wurf eine Sechs geworfen wurde. Man bemerke, dass A1 = A2 = A3 = . . . Dann ist n∈N P[An ] = ∞, jedoch P[A∗ ] = P[A1 ] = 16 . Dies zeigt, dass in Teil (ii) des Lemmas von Borel-Cantelli nicht ohne weiteres auf die Unabhängigkeit verzichtet werden kann. 3 Beispiel 2.10. Sei Λ ∈ (0, ∞) und 0 ≤ λn ≤ Λ für n ∈ N. Ferner seien Xn , n ∈ N, Poisson-verteilte Zufallsvariablen mit Parametern λn . Dann gilt ) * P Xn ≥ n für unendlich viele n = 0. Es ist nämlich ∞

n=1

P[Xn ≥ n] = =

∞ ∞

n=1 m=n ∞ m m=1 n=1

P[Xn = m] = e−λn

λm n ≤ m!

∞ m

m=1 n=1 ∞ m

m

m=1

P[Xn = m]

Λ = Λ eΛ < ∞. m!

3


53

Da im obigen Satz, zumindest im Falle unabhängiger Ereignisse, nur die Wahrscheinlichkeiten P[A∗ ] = 0 und P[A∗ ] = 1 auftreten können, zählt das Lemma von Borel-Cantelli zu den so genannten 0-1 Gesetzen. Wir werden später weitere 0-1 Gesetze kennen lernen (siehe beispielsweise Satz 2.37). Wir wollen jetzt den Begriff der Unabhängigkeit von Familien von Ereignissen auf Familien von Ereignissystemen ausdehnen. Definition 2.11 (Unabhängigkeit von Mengensystemen). Sei I eine beliebige Indexmenge und Ei ⊂ A für jedes i ∈ I. Die Familie (Ei )i∈I heißt unabhängig, falls für jede endliche Teilmenge J ⊂ I und für jede Wahl von Ej ∈ Ej , j ∈ J, gilt, dass + , Ej = P[Ej ]. (2.6) P j∈J

j∈J

Beispiel 2.12. Sei (Ω, A, P) wie in Beispiel 2.4 der Produktraum der unendlichen Wiederholung des Experiments mit Ausgängen in der endlichen Menge E mit Wahrscheinlichkeitsvektor p = (pe )e∈E . Setze für i ∈ N

Ei = {ω ∈ Ω : ωi ∈ A} : A ⊂ E . Dann ist für jede Wahl von Ai ∈ Ei , i ∈ N, die Familie (Ai )i∈N unabhängig, also ist (Ei )i∈N unabhängig. 3

Satz 2.13. gilt

(ii) (Ei )i∈I

(i) Sei I endlich, und für jedes i ∈ I sei Ei ⊂ A mit Ω ∈ Ei . Dann (Ei )i∈I ist unabhängig ⇐⇒ (2.6) gilt für J = I.

ist unabh. ⇐⇒ (Ej )j∈J ist unabh. für alle endlichen J ⊂ I .

(iii) Ist (Ei ∪ {∅}) ∩-stabil, dann gilt (Ei )i∈I ist unabhängig

⇐⇒ (σ(Ei ))i∈I ist unabhängig.

(iv) Sei K eine beliebige Menge und (Ik )k∈K paarweise

disjunkte Teilmengen von I. Ist (Ei )i∈I unabhängig, dann ist auch E angig. i∈Ik i k∈K unabh¨ Beweis. (i) =⇒ “ Dies ist trivial. ” (i) ⇐= “ Für J ⊂ I und j ∈ I \ J wähle Ej = Ω. ” (ii) Dies ist trivial. (iii) ⇐= “ ”

Dies ist trivial.

54

2 Unabhängigkeit

(iii) =⇒ “ Sei J ⊂ I endlich. Wir zeigen: Für je zwei endliche Mengen J und ” J ′ mit J ⊂ J ′ ⊂ I gilt + , Ei ∈ σ(Ei ), falls i ∈ J, (2.7) P Ei = P[Ei ] für jede Wahl Ei ∈ Ei , falls i ∈ J ′ \ J. i∈J ′ i∈J ′ Mit J ′ = J ist dies genau die zu zeigende Aussage. Wir führen den Beweis von (2.7) durch vollständige Induktion nach #J. Für #J = 0 gilt (2.7) nach Voraussetzung des Satzes. Es gelte nun (2.7) für jedes J mit #J = n und jedes endliche J ′ ⊃ J. Sei solch ein J gewählt und j ∈ I \ J. Sei J ′ ⊃ J˜ := J ∪ {j}. Wir zeigen nun die Gültigkeit von (2.7) mit J˜ statt mit J. Wegen #J˜ = n + 1 ist damit der Induktionsschritt gezeigt. Sei Ei ∈ σ(Ei ) für jedes i ∈ J und Ei ∈ Ei für jedes i ∈ J ′ \ (J ∪ {j}). Wir definieren Maße μ und ν auf (Ω, A) durch + , μ : Ej → P Ei und ν : Ej → P[Ei ]. i∈J ′

i∈J ′

Nach Induktionsvoraussetzung (2.7) gilt μ(Ej ) = ν(Ej ) für jedes Ej ∈ Ej ∪{∅, Ω}. Da Ej ∪ {∅} schnittstabil ist, gilt nach Lemma 1.42 auch μ(Ej ) = ν(Ej ) für jedes Ej ∈ σ(Ej ), das heißt, es gilt (2.7) mit J ∪ {j} statt J. (iv)

Dies ist trivial, weil (2.6) nur für J ⊂ I mit #(J ∩ Ik ) ≤ 1

für jedes k ∈ K,

nachgewiesen werden muss.

2

2.2 Unabhängigkeit von Zufallsvariablen Nachdem wir Unabhängigkeit von Ereignissen behandelt haben, wollen wir auch Unabhängigkeit von Zufallsvariablen betrachten. Auch hier läuft die Definition auf eine Produktformel hinaus. Formal können wir jedoch die Unabhängigkeit der von Zufallsvariablen erzeugten σ-Algebren als Definition heranziehen. Wir können dann Verteilungen von Summen unabhängiger Zufallsvariablen vermittels Faltung ausrechnen. Da wir an dieser Stelle noch keinen allgemeinen Integralbegriff zur Verfügung haben, bringen wir die Faltung zunächst nur für Zufallsvariablen mit ganzzahligen Werten. Sei I eine beliebige Indexmenge, und für jedes i ∈ I sei (Ωi , Ai ) ein Messraum sowie Xi : (Ω, A) → (Ωi , Ai ) eine Zufallsvariable mit erzeugter σ-Algebra σ(Xi ) = Xi−1 (Ai ).

2.2 Unabhängigkeit von Zufallsvariablen

55

Definition 2.14 (Unabhängigkeit von Zufallsvariablen). Die Familie (Xi )i∈I von Zufallsvariablen heißt unabhängig, falls die Familie (σ(Xi ))i∈I von σAlgebren unabhängig ist. Wir schreiben, dass (Xi )i∈I u.i.v.“ ist, für unabhängig und identisch verteilt“ ” ” (englisch: i.i.d.“ für independent and identically distributed“), falls (Xi )i∈I un” ” abhängig ist und PXi = PXj für alle i, j ∈ I gilt. Bemerkung 2.15. (i) Ist (A˜i )i∈I eine unabhängige Familie von σ-Algebren und ist jedes Xi messbar bezüglich A˜i – Ai , so ist (Xi )i∈I unabhängig. Dies ist klar, weil σ(Xi ) ⊂ A˜i , also die Bedingung an die Unabhängigkeit von (Xi )i∈I schwächer ist als die Bedingung an die Unabhängigkeit von (A˜i )i∈I . (ii) Für jedes i ∈ I sei (Ωi′ , A′i ) ein weiterer Messraum, sowie fi : (Ωi , Ai ) → (Ωi′ , A′i ) eine messbare Abbildung. Ist (Xi )i∈I unabhängig, so ist (fi ◦ Xi )i∈I unabhängig. Diese Aussage ist ein Spezialfall von (i), weil fi ◦Xi messbar ist bezüglich σ(Xi ) – A′i (siehe Satz 1.80). 3 Satz 2.16 (Unabhängigkeit von Erzeugern). Für jedes i ∈ I sei Ei ⊂ Ai ein schnittstabiler Erzeuger von Ai . Ist (Xi−1 (Ei ))i∈I unabhängig, so ist (Xi )i∈I unabhängig. Beweis. Nach Satz 1.81(iii) ist Xi−1 (Ei ) ist ein schnittstabiler Erzeuger der σAlgebra Xi−1 (Ai ) = σ(Xi ). Mit Satz 2.13 folgt die Aussage. 2 Beispiel 2.17. Sei E eine höchstens abzählbare Menge, und seien (Xi )i∈I Zufallsvariablen mit Werten in (E, 2E ). In diesem Falle ist (Xi )i∈I genau dann unabhängig, wenn für jede endliche Teilmenge J ⊂ I und jede Wahl von xj ∈ E, j ∈ J, gilt, dass ) * P Xj = xj für jedes j ∈ J = P[Xj = xj ]. j∈J

Dies ist klar, weil {x} : x ∈ E ∪ {∅} ein schnittstabiler Erzeuger von 2E ist,

also Xi−1 ({xi }) : xi ∈ E ∪ {∅} ein schnittstabiler Erzeuger von σ(Xi ) ist (Satz 1.81). 3 Beispiel 2.18. Sei E eine endliche Menge und p = (pe )e∈E ein Wahrscheinlichkeitsvektor. Wir wollen das zu E und p gehörige Zufallsexperiment unendlich oft unabhängig wiederholen (siehe Beispiel 1.40 und Satz 1.64). Sei Ω = E N der unendliche Produktraum und A die von den endlichen Zylindermengen (siehe (1.8))

⊗N erzeugte σ-Algebra, sowie P = das Bernoulli-Maß. Ferner sei für e∈E pe δe jedes n ∈ N

56

2 Unabhängigkeit

Xn : Ω → E,

(ωm )m∈N → ωn ,

die Projektion auf die n-te Koordinate. Mit anderen Worten: Zu jedem Elementarereignis ω ∈ Ω liefert Xn (ω) das Ergebnis des n-ten Experiments. Dann gilt nach (2.4) (in Beispiel 2.4) für n ∈ N und x ∈ E n + , n ) * ) * −1 P Xj = xj für jedes j = 1, . . . , n = P [x1 , . . . , xn ] = P Xj ({xj }) j=1

=

n

j=1

n ) * P Xj−1 ({xj }) = P[Xj = xj ], j=1

sowie P[Xj = xj ] = pxj . Nach Satz 2.13(i) sind also (X1 , . . . , Xn ) unabhängig und nach Satz 2.13(ii) auch (Xn )n∈N . 3 Speziell haben wir den folgenden Satz gezeigt. Satz 2.19. Sei E eine endliche Menge und (pe )e∈E ein Wahrscheinlichkeitsvektor auf E. Dann existiert ein Wahrscheinlichkeitsraum (Ω, A, P) und eine unabhängige Familie (Xn )n∈N von E-wertigen Zufallsvariablen auf (Ω, A, P) mit P[Xn = e] = pe für jedes e ∈ E. Wir werden später sehen, dass wir auf die Endlichkeit von E verzichten können und auch unterschiedliche Verteilungen zulassen können. Für den Moment gibt uns dieser Satz aber genügend Beispiele für abzählbare Familien von unabhängigen Zufallsvariablen an die Hand. Wir wollen nun einfache Kriterien zur Prüfung der Unabhängigkeit von Zufallsvariablen herleiten, die sich mit Hilfe von Verteilungsfunktionen beziehungsweise Dichten ausdrücken lassen. Definition 2.20. Für jedes i ∈ I sei Xi eine reelle Zufallsvariable. Für jede endliche Teilmenge J ⊂ I sei FJ := F(Xj )j∈J : RJ → [0, 1],

, +

* ) −1 Xj (−∞, xj ] . x → P Xj ≤ xj für jedes j ∈ J = P j∈J

Dann heißt FJ die gemeinsame Verteilungsfunktion von (Xj )j∈J . Das W-Maß P(Xj )j∈J auf RJ heißt gemeinsame Verteilung von (Xj )j∈J . Satz 2.21. Eine Familie (Xi )i∈I reeller Zufallsvariablen ist genau dann unabhängig, wenn für jedes endliche J ⊂ I und jedes x = (xj )j∈J ∈ RJ gilt, dass FJ (x) = F{j} (xj ). (2.8) j∈J


57

Beweis. Das Mengensystem {(−∞, b], b ∈ R} ist ein schnittstabiler Erzeuger der Borel’schen σ-Algebra B(R) (siehe Satz 1.23). Die Gleichung (2.8) besagt nun aber, dass für jede Wahl von reellen Zahlen (xi )i∈I die Ereignisse (X −1 ((−∞, xi ]))i∈I unabhängig sind. Nach Satz 2.16 folgt daher die Aussage dieses Satzes. 2 Korollar 2.22. Zusätzlich zur Situation von Satz 2.21 nehmen wir an, dass jedes FJ eine stetige Dichte fJ = f(Xj )j∈J hat, das heißt, es gibt eine stetige Abbildung fJ : RJ → [0, ∞) mit xj1 xjn FJ (x) = dt1 · · · dtn fJ (t1 , . . . , tn ) für jedes x ∈ RJ , −∞

−∞

(wobei J = {j1 , . . . , jn }). Dann ist die Familie (Xi )i∈I genau dann unabhängig, wenn für jedes endliche J ⊂ I gilt fj (xj ) für jedes x ∈ RJ . (2.9) fJ (x) = j∈J

Korollar 2.23. Seien n ∈ N und μ1 , . . . , μn W-Maße auf (R, B(R)). Dann existiert ein W-Raum (Ω, A, P) und eine unabhängige Familie von Zufallsvariablen (Xi )i=1,...,n auf (Ω, A, P) mit PXi = μi für jedes i = 1, . . . , n. /n Beweis. Sei Ω = Rn und A = B(Rn ) sowie P = i=1 μi das Produktmaß der μi (siehe Satz 1.61). Ferner sei Xi : Rn → R, (x1 , . . . , xn ) → xi die Projektion auf die i-te Koordinate für jedes i = 1, . . . , n. Dann ist für jedes i = 1, . . . , n ) * F{i} (x) = P[Xi ≤ x] = P Ri−1 × (−∞, x] × Rn−i−1

= μi (−∞, x] · μj (R) = μi (−∞, x] . j =i

Also gilt tatsächlich PXi = μi . Ferner ist für x1 , . . . , xn ∈ R F{1,...,n} (x1 , . . . , xn ) = P

+

n

, n n

F{i} (xi ). (−∞, xi ] = μi (−∞, xi ] =

× i=1

i=1

i=1

Nach Satz 2.21 (und Satz 2.13(i)) folgt die Unabhängigkeit von (Xi )i=1,...,n .

2

Beispiel 2.24. Seien X1 , . . . , Xn unabhängige, exponentialverteilte Zufallsvariab0x len mit Parametern θ1 , . . . , θn ∈ (0, ∞). Dann ist F{i} (x) = 0 θi exp(−θi t) dt = 1 − exp(−θi x) für x ≥ 0 und daher F{1,...,n}

n

(x1 , . . . , xn ) = 1 − e−θi xi . i=1

Betrachte nun die Zufallsvariable Y = max(X1 , . . . , Xn ). Dann ist

58

2 Unabhängigkeit

) * FY (x) = P Xi ≤ x für jedes i = 1, . . . , n n

1 − e−θi x . = F{1,...,n} (x, . . . , x) = i=1

Für die Zufallsvariable Z := min(X1 , . . . , Xn ) hat die Verteilungsfunktion eine schöne geschlossene Form FZ (x) = 1 − P[Z > x] ) * = 1 − P Xi > x für jedes i = 1, . . . , n n

=1− e−θi x = 1 − exp − (θ1 + . . . + θn ) x . i=1

Mit anderen Worten: Z ist exponentialverteilt mit Parameter θ1 + . . . + θn .

3

Beispiel 2.25. Seien μi ∈ R und σi2 > 0, i ∈ I, sowie (Xi )i∈I reell mit gemeinsamen Dichtefunktionen (für endliches J ⊂ I) 1 (xj − μj )2 2 −2 exp − fJ (x) = 2πσj für x ∈ RJ . 2σj2 j∈J

j∈J

Dann sind die (Xi )i∈I unabhängig und normalverteilt mit Parametern (μi , σi2 ). Für jedes endliche I = {i1 , . . . , in } (mit paarweise unterschiedlichen i1 , . . . , in ) ist der Vektor Y = (Xi1 , . . . , Xin ) n-dimensional normalverteilt mit μ = μI := (μi1 , . . . , μin ) und Σ = Σ I die Diagonalmatrix mit Einträgen σi21 , . . . , σi2n (vergleiche Beispiel 1.105(ix)). 3

Satz 2.26. Sei K eine beliebige Menge und Ik , k ∈ K, beliebige paarweise disjunkte Indexmengen sowie I = Ik . k∈K

Ist die Familie (Xi )i∈I unabhängig, dann sind auch die σ-Algebren (σ(Xj , j ∈ Ik ))k∈K unabhängig.

Beweis. Sei für k ∈ K 2 1 Zk = Aj : Aj ∈ σ(Xj ), #{j ∈ Ik : Aj = Ω} < ∞ j∈Ik

der Ring der endlichdimensionalen Zylinder. Offenbar ist Zk schnittstabil und σ(Zk ) = σ(Xj , j ∈ Ik ). Also reicht es nach Satz 2.13(iii) zu zeigen, dass (Zk )k∈K unabhängig ist. Nach Satz 2.13(ii) können wir sogar annehmen, dass K endlich ist. Für k ∈ K seien nun Bk ∈ Zkund Jk ⊂ Ik endlich mit Bk = j∈Jk Aj für gewisse Aj ∈ σ(Xj ). Setze J = k∈K Jk . Dann ist


+ , + , P[Aj ] = P[Aj ] = P[Bk ]. P Aj = Bk = P j∈J

k∈K

j∈J

k∈K j∈Jk

59

2

k∈K

Beispiel 2.27. Sind (Xn )n∈N unabhängige, reelle Zufallsvariablen, dann sind auch (Yn )n∈N = (X2n − X2n−1 )n∈N unabhängig. In der Tat ist für jedes n ∈ N die Zufallsvariable Yn schon messbar bezüglich σ(X2n , X2n−1 ) nach Satz 1.91, und (σ(X2n , X2n−1 ))n∈N ist unabhängig nach Satz 2.26. 3 Beispiel 2.28. Seien (Xm,n )(m,n)∈N2 unabhängige Bernoulli-Zufallsvariablen mit Parameter p ∈ (0, 1). Sei

Ym := inf n ∈ N : Xm,n = 1 − 1

die Wartezeit auf den ersten Erfolg“ in der m-ten Zeile der Matrix (Xm,n )m,n . ” Dann sind (Ym )m∈N unabhängige, geometrisch verteilte Zufallsvariablen mit Parameter p (siehe Beispiel 1.105(iii)). Denn: {Ym ≤ k} =

k+1 l=1

{Xm,l = 1} ∈ σ(Xm,l , l = 1, . . . , k + 1) ⊂ σ(Xm,l , l ∈ N).

Also ist Ym messbar bezüglich σ(Xm,l , l ∈ N), und damit ist (Ym )m∈N unabhängig. Ferner ist P[Ym > k] = P[Xm,l = 0, l = 1, . . . , k + 1] =

k+1 l=1

P[Xm,l = 0] = (1 − p)k+1 .

Es folgt P[Ym = k] = P[Ym > k − 1] − P[Ym > k] = p(1 − p)k .

3

Definition 2.29 (Faltung). Seien μ und ν W-Maße auf (Z, 2Z ). Wir definieren die Faltung μ ∗ ν als das W-Maß auf (Z, 2Z ) mit (μ ∗ ν)({n}) =

∞

m=−∞

μ({m}) ν({n − m}).

Wir definieren die n-te Faltungspotenz rekursiv durch μ∗1 = μ und μ∗(n+1) = μ∗n ∗ μ. Bemerkung 2.30. Es gilt μ ∗ ν = ν ∗ μ Satz 2.31. Sind X und Y unabhängige Z-wertige Zufallsvariablen, so gilt PX+Y = PX ∗ PY .

3

60

2 Unabhängigkeit

Beweis. Für jedes n ∈ Z gilt PX+Y ({n}) = P[X + Y = n] + , =P {X = m} ∩ {Y = n − m} m∈Z

=

m∈Z

=

m∈Z

) * P {X = m} ∩ {Y = n − m}

PX [{m}] PY [{n − m}] = (PX ∗ PY )[{n}].

2

Auf Grund dieses Satzes liegt es nahe, die Faltung von zwei Wahrscheinlichkeitsmaßen auf Rn (oder allgemeiner: auf abelschen Gruppen) als die Verteilung der Summe zweier unabhängiger Zufallsvariablen mit den entsprechenden Verteilungen zu definieren. Wir werden später eine andere Definition kennen lernen, die natürlich zu dieser a¨ quivalent ist, jedoch auf den Integralbegriff zurückgreift, der hier noch nicht verfügbar ist (siehe Definition 14.17). Definition 2.32 (Faltung von Maßen). Seien μ und ν W-Maße auf Rn , und seien X und Y unabhängige Zufallsvariablen mit PX = μ und PY = ν. Dann definieren wir die Faltung von μ und ν durch μ ∗ ν = PX+Y . Iterativ definieren wir die Faltungspotenzen μ∗k für k ∈ N, sowie μ∗0 = δ0 .

Beispiel 2.33. Seien X und Y unabhängig und Poisson-verteilt mit Parametern μ, λ ≥ 0. Dann gilt P[X + Y = n] = e−μ e−λ

−(μ+λ)

=e

n μm λn−m m! (n − m)! m=0

n (μ + λ)n 1 n m n−m μ λ = e−(μ+λ) . n! m=0 m n!

Also ist Poiμ ∗ Poiλ = Poiμ+λ .

3

¨ Ubung 2.2.1. Seien X und Y unabhängige Zufallsvariablen mit X ∼ expθ und Y ∼ expρ für gewisse θ, ρ > 0. Man zeige: P[X < Y ] =

θ . θ+ρ

♣

¨ Ubung 2.2.2 (Box-Muller Methode). Seien U und V unabhängige, uniform auf [0, 1] verteilte Zufallsvariablen. Setze

2.3 Kolmogorov’sches 0-1 Gesetz

X :=

3

−2 log(U ) cos(2πV )

und

Y :=

61

3

−2 log(U ) sin(2πV ).

Man zeige: X und Y sind unabhängig und N0,1 -verteilt. 3 Hinweis: Man berechne zunächst die Verteilung von −2 log(U ) und benutze die Transformationsformel für Dichten (Satz 1.101) sowie Polarkoordinatentransformation. ♣

2.3 Kolmogorov’sches 0-1 Gesetz Mit dem Lemma von Borel-Cantelli haben wir bereits ein 0-1 Gesetz für unabhängige Ereignisse kennen gelernt. Wir kommen jetzt zu einem weiteren 0-1 Gesetz für unabhängige Ereignisse, beziehungsweise σ-Algebren. Um dies zu formulieren, müssen wir zunächst den Begriff der terminalen σ-Algebra einführen. Definition 2.34 (Terminale σ-Algebra). Sei I eine abzählbar unendliche Indexmenge und (Ai )i∈I eine Familie von σ-Algebren. Dann heißt

Aj σ T (Ai )i∈I := J⊂I #J 0. Nach dem Approximationssatz für Maße (Satz 1.65) existiert ein n ∈ N und ein Fn = F˜1 ⊎ . . . ⊎ FÑ mit F˜1 , . . . , FÑ ∈ Fn ∞ und mit P[A △ Fn ] < ε. Offenbar ist A ∈ σ( m=n+1 Am ), also ist A unabhängig von Fn . Daher ist ε > P[A \ Fn ] = P[A ∩ (Ω \ Fn )] = P[A](1 − P[Fn ]) ≥ P[A](1 − P[A] − ε). Da ε > 0 beliebig war, folgt 0 = P[A](1 − P[A]).

2

Korollar 2.38. Sei (An )n∈N eine Folge unabhängiger Ereignisse. Dann gilt ' ( ' ( P lim sup An ∈ {0, 1} und P lim inf An ∈ {0, 1}. n→∞

n→∞

Beweis. Dies ist im Grunde eine Schlussfolgerung aus dem Lemma von BorelCantelli. Allerdings folgt es auch direkt aus dem Kolmogorov’schen 0-1 Gesetz, da Limes superior und Limes inferior in der terminalen σ-Algebra liegen. 2 Korollar 2.39. Sei (Xn )n∈N eine unabhängige Familie von R-wertigen Zufallsvariablen. Dann sind X∗ := lim inf n→∞ Xn und X ∗ := lim supn→∞ Xn fast sicher konstant, das heißt, es gibt x∗ , x∗ ∈ R mit P[X∗ = x∗ ] = 1 und P[X ∗ = x∗ ] = 1.

Falls alle Xi sogar reellwertig sind, so sind auch die Cesàro-Limiten n

lim inf n→∞

fast sicher konstant.

1 Xi n i=1

n

und

lim sup n→∞

1 Xi n i=1

64

2 Unabhängigkeit

Beweis. Sei X∗ := lim inf Xn . Für jedes x ∈ R ist {X∗ ≤ x} ∈ T ((Xn )n∈N ), n→∞

also P[X∗ ≤ x] ∈ {0, 1}. Setze

x∗ := inf{x ∈ R : P[X∗ ≤ x] = 1} ∈ R. Ist x∗ = ∞, so ist offenbar P[X∗ < ∞] = lim P[X∗ ≤ n] = 0. n→∞

Ist x∗ ∈ R, so ist

und

' 1( P[X∗ ≤ x∗ ] = lim P X∗ ≤ x∗ + =1 n→∞ n

' 1( P[X∗ < x∗ ] = lim P X∗ ≤ x − = 0. n→∞ n Ist x∗ = −∞, so ist P[X∗ > −∞] = lim P[X∗ > −n] = 0. n→∞

Für den Limes superior sowie für die Cesàro-Limiten geht dies analog.

2

¨ Ubung 2.3.1. Man zeige: Ist (Xn )n∈N eine unabhängige Familie von Zufallsvariablen mit P[Xn = −1] = P[Xn = +1] = 12 , und ist Sn = X1 + . . . + Xn für jedes n ∈ N, so ist lim supn→∞ Sn = ∞ fast sicher. ♣

2.4 Beispiel: Perkolation Wir betrachten das d-dimensionale Gitter Zd , wobei jeder Punkt durch je eine Kante mit seinen 2d nächsten Nachbarpunkten verbunden ist. Sind x, y ∈ Zd nächste Nachbarn, das heißt x − y2 = 1, so schreiben wir k = x, y! = y, x! für die Kante, die x und y verbindet. Formal ist die Kantenmenge eine Teilmenge der zweielementigen Teilmengen von Zd :

K = {x, y} : x, y ∈ Zd mitx − y2 = 1 .

Etwas allgemeiner ist ein (ungerichteter) Graph G ein Paar G = (V, K), wobei V eine Menge ist (die Menge der Knoten oder Punkte des Graphen) und K ⊂ {{x, y} : x, y ∈ V, x = y} eine Teilmenge aller zweielementigen Teilmengen von V (die Menge der Kanten). Da wir unter einer Kante intuitiv eine Verbindung zwischen zwei Punkten x und y verstehen (und nicht das ungeordnete Paar {x, y}), verwenden wir ein anderes Symbol als die Mengenklammern und schreiben x, y! statt {x, y}.

2.4 Beispiel: Perkolation

65

Dieses Gitter ist für uns der Ausgangspunkt für ein stochastisches Modell eines porösen Mediums. Wir stellen uns die Kanten als Röhren vor, entlang derer Wasser fließen kann. Nun soll das Medium allerdings nicht völlig homogen wasserdurchlässig sein, sondern eine amorphe Struktur besitzen, etwa wie Bimsstein. Zu diesem Zweck wollen wir zufällig einen gewissen Anteil 1 − p (wobei p ∈ [0, 1] ein Parameter ist) der Kanten zerstören, sodass das Wasser nur durch die verbliebenen Kanten fließen kann. Die Frage, die sich stellt, ist, bei welchen Werten von p die intakten Röhren unendlich große verbundene Systeme bilden und bei welchen Werten alle verbundenen Systeme nur endliche Größe haben. Wir kommen jetzt zur formalen Beschreibung des Modells. Wir wählen einen Parameter p ∈ [0, 1] und eine unabhängige Familie identisch verteilter Zufallsvariablen (Xkp )k∈K mit Xkp = Berp , also P[Xkp = 1] = 1 − P[Xkp = 0] = p für jedes k ∈ K. Dann definieren wir (2.10) K p := {k ∈ K : Xkp = 1}

als die Menge der intakten (oder offenen) Kanten. Entsprechend nennen wir die Kanten K \ K p defekt (oder geschlossen). Auf diese Weise haben wir einen (zufälligen) Teilgraphen (Zd , K p ) von (Zd , K) hergestellt. Wir nennen (Zd , K) auch ein Perkolationsmodell (genauer: ein Modell für Kantenperkolation, im Gegensatz zu Punktperkolation, wo die einzelnen Punkte geschlossen oder offen sind). Ein (offener) Pfad (der Länge n) in diesem Teilgraphen ist eine Folge π = (x0 , x1 , . . . , xn ) von Punkten in Zd mit xi−1 , xi ! ∈ K p für jedes i = 1, . . . , n. Wir sagen, dass zwei Punkte x, y ∈ Zd durch einen offenen Pfad verbunden werden können, wenn es ein n ∈ N und einen offenen Pfad (x0 , x1 , . . . , xn ) mit x0 = x und xn = y gibt. In die¨ jesem Fall schreiben wir x ←→p y. Offenbar ist ←→p“ eine Aquivalenzrelation, ” doch eine zufällige, weil sie von den Werten der Zufallsvariablen (Xkp )k∈K abhängt. Für x ∈ Zd nennen wir C p (x) := {y ∈ Zd : x ←→p y}

(2.11)

den (zufälligen) offenen Cluster von x, also die Zusammenhangskomponente von x in dem Graphen (Zd , K p ). Lemma 2.40. Für je zwei Punkte x, y ∈ Zd ist {x←→p y} eine Zufallsvariable. Insbesondere ist #C p (x) eine Zufallsvariable für jedes x ∈ Zd . Beweis. Ohne Einschränkung können wir annehmen, dass x = 0 ist. Wir setzen fn (y) = 1, falls es einen offenen Pfad von 0 nach y der Länge höchstens n gibt, und fn (y) = 0 sonst. Offenbar ist fn (y) ↑ {0←→p y} , also reicht es, die Messbarkeit von fn zu zeigen. Sei Bn := {−n, −n + 1, . . . , n − 1, n}d und Kn := {k ∈ K : k ∩ Bn = ∅}. Dann ist Yn := (Xkp : k ∈ Kn ) : Ω → {0, 1}Kn messbar Kn (bezüglich 2({0,1} ) ) nach Satz 1.90. Nun ist aber fn eine Funktion von Yn , sagen wir fn = gn ◦Yn für gewisses gn : {0, 1}Kn → {0, 1}. Nach dem Verknüpfungssatz (Satz 1.80) ist daher fn messbar. 2 Der Zusatz folgt, weil #C p (x) = y∈Zd {x←→p y} .

66

2 Unabhängigkeit

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

Abb. 2.1. Perkolation auf einem 15 × 15 Gitter, p = 0.42

Definition 2.41. Wir sagen, dass Perkolation eintritt, falls es (wenigstens) einen unendlich großen, offenen Cluster gibt und nennen ψ(p) := P[es gibt einen unendlich großen, offenen Cluster] ( ' =P {#C p (x) = ∞} x∈Zd

die Perkolationswahrscheinlichkeit. Wir definieren weiterhin die Funktion θ(p) := P[#C p (0) = ∞] als die Wahrscheinlichkeit, dass der Ursprung in einem unendlich großen, offenen Cluster liegt. Auf Grund der Translationsinvarianz des Gitters ist θ(p) = P[#C p (y) = ∞]

für jedes y ∈ Zd .

(2.12)


67

Die Grundfrage lautet: Wie groß sind θ(p) und ψ(p) in Abhängigkeit von p? Wir machen die folgende, intuitiv leicht einsehbare Beobachtung. Satz 2.42. Die Abbildung [0, 1] → [0, 1], p → θ(p) ist monoton wachsend. Beweis. Obwohl die Aussage offensichtlich erscheint, wollen wir einen formalen Beweis geben, weil er ein wichtiges Beweisprinzip, das der Kopplung, verwendet. Seien p, p′ ∈ [0, 1] mit p < p′ . Es sei (Yk )k∈K eine unabhängige Familie von Zufallsvariablen mit P[Yk ≤ q] = q für jedes k ∈ K und q ∈ {p, p′ , 1}. Wir könnten an dieser Stelle zum Beispiel annehmen, dass jedes Yk ∼ U[0,1] uniform auf [0, 1] verteilt ist. Da der Existenzbeweis für unabhängige Familien mit solcher Verteilung noch aussteht, und da wir die reichhaltigere Struktur der uniformen Verteilung hier nicht benötigen, begnügen wir uns damit, dass jedes Yk nur Werte in {p, p′ , 1} annimmt, dass also gilt ⎧ p, falls q = p, ⎨ P[Yk = q] = p′ − p, falls q = p′ , ⎩ 1 − p′ , falls q = 1.

Eine solche Familie (Yk )k∈K existiert nach Satz 2.19. Wir setzen dann für q ∈ {p, p′ } und k ∈ K 1 1, falls Yk ≤ q, Xkq := 0, sonst.

Offenbar ist für q ∈ {p, p′ } die Familie (Xkq )k∈K unabhängig (Bemerkung 2.15(ii)) ′ und Xkq ∼ Berq . Ferner ist Xkp ≤ Xkp für jedes k ∈ K. Wir nennen dieses Verfahren, zwei Familien von Zufallsvariablen auf einem Wahrscheinlichkeitsraum herzustellen eine Kopplung. ′

Offenbar gilt nun C p (x) ⊂ C p (x) für jedes x ∈ Zd , also auch θ(p) ≤ θ(p′ ).

2

Mit Hilfe des Kolmogorov’schen 0-1 Gesetzes können wir folgenden Satz zeigen. 0, falls θ(p) = 0, Satz 2.43. Für jedes p ∈ [0, 1] gilt ψ(p) = 1, falls θ(p) > 0. Beweis. Ist θ(p) = 0, so ist nach (2.12) ψ(p) ≤ P[#C p (y) = ∞] = θ(p) = 0. y∈Zd

y∈Zd

p ¨ ndert es nichts am EintreSei nun A = y∈Zd {#C (y) = ∞}. Offenbar a ten von A, wenn endlich viele Kanten ihren Zustand verändern. Das heißt A ∈ σ((Xkp )k∈K\Kn ) für jedes n ∈ N. Nach Satz 2.35 ist A also in der terminalen σAlgebra T ((Xkp )k∈K ). Nach dem Kolmogorov’schen 0-1 Gesetz (Satz 2.37) gilt also ψ(p) = P[A] ∈ {0, 1}. Ist nun θ(p) > 0, so folgt wegen ψ(p) ≥ θ(p) schon ψ(p) = 1. 2

68

2 Unabhängigkeit

Aufgrund der Monotonie können wir nun die folgende Definition treffen. Definition 2.44. Der kritische Wert pc für das Auftreten von Perkolation wird definiert als pc = inf{p ∈ [0, 1] : θ(p) > 0} = sup{p ∈ [0, 1] : θ(p) = 0}

= inf{p ∈ [0, 1] : ψ(p) = 1} = sup{p ∈ [0, 1] : ψ(p) = 0}.

Wir kommen zu einem Hauptsatz dieses Abschnitts. Satz 2.45. Für d = 1 ist pc = 1. Für d ≥ 2 ist pc (d) ∈

)

2 1 2d−1 , 3

* .

p = 0 für ein n < 0} Beweis. Sei zunächst d = 1 und p < 1. Sei A− := {Xn,n+1 p und A+ := {Xn,n+1 = 0 für ein n > 0} sowie A = A− ∩ A+ . Nach dem Lemma von Borel-Cantelli gilt P[A− ] = P[A+ ] = 1. Also ist θ(p) = P[Ac ] = 0.

Wir betrachten nun den Fall d ≥ 2.

1 Wir zeigen zunächst pc ≥ 2d−1 . Offenbar gilt für jedes n ∈ N ) * P[#C p (0) = ∞] ≤ P es gibt ein x ∈ C p (0) mit x∞ = n .

Untere Schranke

Wir wollen nun die Wahrscheinlichkeit, dass ein Punkt x ∈ C p (0) im Abstand n vom Ursprung existiert, abschätzen. Jeder solche Punkt wird durch einen selbstu¨ berschneidungsfreien Pfad π, der im Ursprung beginnt und eine Länge m ≥ n hat, an den Ursprung angebunden. Sei Π0,m die Menge solcher Pfade. Offenbar ist #Π0,m ≤ 2d · (2d − 1)m−1 , denn im ersten Schritt gibt es 2d Möglichkeiten für den Pfad, in jedem weiteren Schritt höchstens 2d − 1, da der Schritt zurück zu einer Selbstüberschneidung führt. Weiter ist für jedes π ∈ Π0,m die Wahrscheinlichkeit, dass π nur offene Kanten benutzt P[π ist offen] = pm . Also ist für p
32

70

2 Unabhängigkeit

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

1 r

r

r

r

r

r

r

r

r

r

r

0 r

r

r

r

r

r

r

r

r

r

r

−1 r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r −1

r r r r r r bppp p p p p p p p bp p p p p p p p bp p p p p p p p bp p p p p p p p bppp r ppp r r r r pppp r r bppp p p p p p p p pbpp bpp p p p p p p p pb ppp r r r r r r ppppp r pbpp p p p p p p p bp p p p p p p p bp p p p p p p p bp p p p p p p p bppp bpppp r r r r pppp r r ppppp r bppp bppp r r r r ppppp r r ppppp r bppp bpp p p p p p p p pbp r r r r ppppp r r r ppppp bppp bpp p p p p p p p pbp bppp r r r r ppppp r ppppp r ppppp r ppppp bpp p p p p p p p pbp bppp bppp r r r r r r ppppp r ppppp ppbp p p p p p p pbp r r r r r r r 0

1

5

Abb. 2.2. Kontur des Clusters C5

P[#CN < ∞] = ≤ Es folgt pc ≤ 32 .

∞

n=2N ∞

n=2N

) * P es gibt einen geschlossenen Kreis γ ∈ Γn

n n · 3(1 − p)

N →∞

−→

0. 2

Im Allgemeinen ist der Wert von pc nicht bekannt und extrem schwer zu bestimmen. Im Fall der Kantenperkolation in Z2 ist allerdings ein genaues Ergebnis bekannt, da man hier das starke Hilfsmittel der Selbstdualität des Graphen (Z2 , K) zur Verfügung hat. (Ist G = (V, K) ein planarer Graph, also einer, den man mit u¨ berschneidungsfreien Kanten in den R2 einbetten kann, so hat der duale Graph als Punktmenge die Menge der Flächen von G und als Kante zwischen zwei solchen Punkten, diejenige Kante aus K, die die beiden Flächenstücke trennt. Offenbar ist das zweidimensionale Gitter als Graph isomorph zu seinem dualen Graphen. Man beachte, dass man die Kontur in Abb. 2.2 als geschlossenen Pfad im dualen Graphen auffassen kann.) Wir zitieren hier den Satz von Kesten [93]. Satz 2.46 (Kesten (1980)). Für Kantenperkolation in Z2 ist die kritische Wahrscheinlichkeit pc = 12 , und es gilt θ(pc ) = 0. Beweis. Siehe etwa das Buch von Grimmett [62, Seite 287ff].

2


71

Es wird vermutet, dass θ(pc ) = 0 in jeder Dimension d ≥ 2 gilt. Rigoros bewiesen ist dies allerdings nur für d = 2 und d ≥ 19 (siehe [66]). Eindeutigkeit des unendlichen Clusters∗ Es sei p so gewählt, dass θ(p) > 0 ist. Wir haben gesehen, dass es mit Wahrscheinlichkeit 1 mindestens einen unendlich großen, offenen Cluster gibt. Wir wollen nun zeigen, dass es genau einen gibt. Sei also N ∈ {0, 1, . . . , ∞} die (zufällige) Anzahl von unendlich großen Clustern. Satz 2.47 (Eindeutigkeit des unendlichen großen Clusters). Für jedes p ∈ [0, 1] gilt Pp [N ≤ 1] = 1. Beweis. Diese Aussage wurde erstmals von Aizenman, Kesten und Newman gezeigt [1, 2]. Wir folgen der einfacheren Beweisidee von Burton und Keane [25], wie sie etwa in [62, Abschnitt 8.2] beschrieben wird. In den Fällen p = 1 und θ(p) = 0 (speziell also im Fall p = 0) ist die Aussage trivial. Seien nun also p ∈ (0, 1) und θ(p) > 0. 1. Schritt

Wir zeigen zunächst:

Pp [N = m] = 1

für ein m = 0, 1, . . . , ∞.

(2.13)

Wir benötigen ein 0-1 Gesetz, a¨ hnlich dem Kolmogorov’schen. Allerdings ist N nicht messbar bezüglich der terminalen σ-Algebra, wir müssen also etwas subtiler vorgehen. Sei e1 = (1, 0, . . . , 0) der erste Einheitsvektor in Zd . Auf der Kantenmenge K definieren wir die Translation τ : K → K durch τ ( x, y!) = x + e1 , y + e1 !. Sei

K0 := (x1 , . . . , xd ), (y1 , . . . , yd )! ∈ K : x1 = 0, y1 ≥ 0

die Menge aller Kanten in Zd , die zwei Punkte in {0} × Zd−1 verbinden oder einen d−1 Punkt aus {0}×Zd−1 mit einem aus {1}×Z verbinden. Offenbar sind die Men gen (τ n (K0 ), n ∈ Z) disjunkt und K = n∈Z τ n (K0 ). Daher sind die Zufallsvariablen Yn := (Xτpn (k) )k∈K0 , n ∈ Z, unabhängig und identisch verteilt (mit Werten in {0, 1}K0 ). Setze Y = (Yn )n∈Z und τ (Y ) = (Yn+1 )n∈Z . Sei Am ∈ {0, 1}K definiert durch {Y ∈ Am } = {N = m}. Offenbar a¨ ndert sich der Wert von N nicht, wenn wir alle Kanten gleichzeitig verschieben. Es gilt also {Y ∈ Am } = {τ (Y ) ∈ Am }. Ein Ereignis mit dieser Eigenschaft nennen wir invariant. Mit einem Argument a¨ hnlich dem für das Kolmogorov’sche 0-1 Gesetz kann man zeigen, dass invariante Ereignisse (die durch u.i.v. Zufallsvariablen definiert werden) nur die Wahrscheinlichkeiten 0 oder 1 haben können (für einen formalen Beweis siehe Beispiel 20.26).

72

2 Unabhängigkeit

2. Schritt

Wir zeigen: Pp [N = m] = 0

für jedes m ∈ N \ {1}.

(2.14)

Sei also m = 2, 3, . . . Wir nehmen an, dass P[N = m] = 1 gilt und führen dies zum Widerspruch. Für L ∈ N setzen wir BL := {−L, . . . , L}d und bezeichnen mit KL = {k = x, y! ∈ K : x, y ∈ BL } die Menge der Kanten, deren beide Endpunkte in BL i liegen. Für i = 0, 1 sei DL := {Xkp = i für alle k ∈ KL }. Sei NL1 die Anzahl der unendlichen Cluster, wenn wir (unabhängig vom Wert von Xkp ) jede Kante k in KL als offen betrachten. Analog definieren wir NL0 , wobei wir hier die Kanten in KL i als geschlossen betrachten. Wegen Pp [DL ] > 0, und wegen N = m fast sicher, gilt i NL = m fast sicher für i = 0, 1. Sei A2L:=

x1 ,x2 ∈BL \BL−1

C p (x1 ) ∩ C p (x2 ) = ∅ ∩ #C p (x1 ) = #Cp (x2 ) = ∞

das Ereignis, dass es zwei Punkte auf dem Rand von BL gibt, die in unterschiedlichen, unendlich großen, offenen Clustern sitzen. Offenbar gilt A2L ↑ {N ≥ 2} für L → ∞.

Sei A2L,0 a¨ hnlich wie A2L definiert, jedoch wollen wir alle Kanten k ∈ KL als geschlossen betrachten, egal ob Xkp = 1 oder Xkp = 0 ist. Tritt A2L ein, so gibt es zwei Punkte x1 , x2 auf dem Rand von BL und zu jedem i = 1, 2 einen unendlich langen selbstüberschneidungsfreien, offenen Pfad πxi , der in xi startet und x3−i vermeidet. Es gilt also A2L ⊂ A2L,0 . Wähle nun L so groß, dass P[A2L,0 ] > 0 ist.

Tritt A2L,0 ein und werden alle Kanten in BL geöffnet, so werden mindestens zwei der unendlich großen, offenen Cluster durch Kanten in BL verbunden, die Gesamtzahl der unendlich großen, offenen Cluster also um mindestens Eins verringert. Es folgt Pp [NL1 ≤ NL0 − 1] ≥ Pp [A2L,0 ] > 0, was einen Widerspruch bedeutet. 3. Schritt Da wir im zweiten Schritt bereits gezeigt haben, dass N fast sicher keinen endlichen Wert größer als 1 annimmt, brauchen wir nun nur noch zu zeigen, dass N fast sicher nicht den Wert ∞ annimmt. Wir zeigen hier, dass in der Tat gilt: Pp [N ≥ 3] = 0.

(2.15)

Dieses ist der schwierigste Teil. Wir nehmen an, dass Pp [N ≥ 3] > 0 gilt und führen dies zum Widerspruch. Wir nennen einen Punkt x ∈ Zd einen Trifurkationspunkt, falls x in einem unendlich großen, offenen Cluster C p (x) liegt, genau drei offene Kanten zu x führen und die Wegnahme dieser drei Kanten C p (x) in drei unendlich große, disjunkte Cluster zerteilt. Mit T bezeichnen wir die Menge der Trifurkationspunkte und schreiben TL := T ∩ BL . Sei r := Pp [0 ∈ T ]. Aufgrund der Translationsinvarianz gilt (#BL )−1 Ep [#TL ] = r für jedes L.


73

Sei A3L:=

x1 ,x2 ,x3 ∈BL \BL−1

i=

j

3 p i {C (x ) ∩ C (x ) = ∅} ∩ {#C (x ) = ∞} p

i

p

j

i=1

das Ereignis, dass es drei Punkte auf dem Rand von BL gibt, die in unterschiedlichen, unendlich großen, offenen Clustern sitzen. Offenbar gilt A3L ↑ {N ≥ 3} für L → ∞.

Analog zu A2L,0 definieren wir A3L,0 als das Ereignis, dass es drei Punkte auf dem Rand von BL gibt, die in unterschiedlichen unendlich großen, offenen Clustern sitzen, wenn wir alle Kanten in KL als geschlossen ansehen. Wie oben ist A3L ⊂ A3L,0 . Für drei unterschiedliche Punkte x1 , x2 , x3 ∈ BL \BL−1 sei Fx1 ,x2 ,x3 das Ereignis, dass es zu jedem i = 1, 2, 3 einen unendlich langen selbstüberschneidungsfreien, offenen Pfad πxi gibt, der in xi startet, nur Kanten aus K p \ KL benutzt und die anderen xj , j = i, vermeidet. Dann gilt A3L,0 ⊂ Fx1 ,x2 ,x3 . x1 ,x2 ,x3 ∈BL \BL−1

paarweise unterschiedlich

Sei L so groß, dass Pp [A3L,0 ] ≥ Pp [N ≥ 3]/2 > 0 gilt. Wähle drei unterschiedliche Punkte x1 , x2 , x3 ∈ BL \ BL−1 mit Pp [Fx1 ,x2 ,x3 ] > 0.

Tritt Fx1 ,x2 ,x3 ein, so können wir einen Punkt y ∈ BL finden, von dem aus drei disjunkte (nicht notwendigerweise offene) Pfade π1 , π2 und π3 zu den Punkten x1 , x2 und x3 führen. Sei Gy,x1 ,x2 ,x3 das Ereignis, dass in KL genau diejenigen Kanten offen sind, die zu diesen Pfaden gehören, und alle anderen geschlossen. Die Ereignisse Fx1 ,x2 ,x3 und Gy,x1 ,x2 ,x3 sind unabhängig, und y ist ein Trifurkationspunkt, falls beide eintreten. Daher ist

#KL r = Pp [y ∈ T ] ≥ Pp [Fx1 ,x2 ,x3 ] · p ∧ (1 − p) > 0. Wir zeigen nun, dass r = 0 sein muss, was die Annahme Pp [N ≥ 3] > 0 ad absurdum führt. Wir machen die Menge TL zu einem Graphen, indem wir zwei Punkte x, y ∈ TL als benachbart betrachten, falls es einen offenen Pfad von x nach y gibt, der keinen anderen Punkt in T trifft. Wir schreiben dann x ∼ y. Eine Schleife ist ein selbstüberschneidungsfreier, endlicher Pfad, der zu seinem Startpunkt zurückkehrt. Der Graph (TL , ∼) ist schleifenfrei. In der Tat: gäbe es einen in x ∈ TL startenden selbstüberschneidungsfreien Pfad, der, sagen wir, die beiden Punkte y, z ∈ TL trifft, so entstünden durch die Wegnahme der drei Kanten k ∈ K p , die an x angrenzen, höchstens zwei Cluster - wobei einer y und z enthält.

(x) für die Anzahl der Nachbarn von x in TL . Da TL schleifenWir schreiben degT L frei ist, ist #TL − 21 x∈TL degTL (x) die Anzahl der Zusammenhangskomponenten von TL , also insbesondere nichtnegativ. Andererseits ist 3 − degTL (x) die Anzahl

74

2 Unabhängigkeit

von Kanten k ∈ K p , die an x angrenzen und deren Wegnahme einen unendlich großen, offenen Cluster erzeugt, in dem kein weiterer Punkt von TL liegt. Sei ML die Anzahl der unendlich großen, offenen Cluster, die entstehen, wenn wir von allen Punkten in TL die drei benachbarten offenen Kanten wegnehmen. Es ist dann ML = (3 − degTL (x)) ≥ #TL . x∈TL

Zu jedem dieser Cluster gehört aber (mindestens) ein Punkt auf BL \BL−1 . Es folgt #(BL \ BL−1 ) d L→∞ #TL −→ 0. ≤ ≤ #BL #BL L Wegen r = (#BL )−1 E[#TL ] ≤ d/L folgt r = 0. (Man beachte, dass wir hier im Vorgriff auf Kapitel 5 den Erwartungswert E[#TL ] benutzt haben.) 2

3 Erzeugendenfunktion

Ein wichtiges Prinzip in der Mathematik ist es, eine Klasse von Objekten, die man betrachten möchte, in eine andere Klasse von Objekten, mit denen man besser rechnen kann, hinein abzubilden. Diese Abbildung kann eineindeutig sein, etwa bei der Zuordnung von Matrizen zu linearen Abbildungen, oder auch nur manche Eigenschaften eindeutig abbilden, etwa bei Determinanten. Zu der zweiten Kategorie gehören in der Wahrscheinlichkeitstheorie die Kenngrößen wie Median, Erwartungswert und Varianz von Zufallsvariablen. Zur ersten Kategorie hingegen charakteristische Funktionen, Laplace-Transformierte und Erzeugendenfunktionen, die enge Verwandte sind und ihre Nützlichkeit daraus ziehen, dass Addition von unabhängigen Zufallsvariablen in Multiplikation u¨ bergeht. Bevor wir in späteren Kapiteln insbesondere die charakteristischen Funktionen ausgiebig behandeln, wollen wir wichtige Grundideen in der einfacheren Situation der Erzeugendenfunktionen, deren Anwendung auf N0 -wertige Zufallsvariablen beschränkt ist, kennen lernen.

3.1 Definition und Beispiele Definition 3.1 (Erzeugendenfunktion). Sei X eine N0 -wertige Zufallsvariable. Die Abbildung ψPX = ψX , die erklärt wird durch ψX : [0, 1] → [0, 1],

z →

∞

P[X = n] z n ,

(3.1)

n=0

heißt Erzeugendenfunktion von PX (oder etwas lax: von X). Satz 3.2. (i) ψX ist stetig und in (0, 1) unendlich oft stetig differenzierbar. Es (n) gilt für n ∈ N und die n-te Ableitung ψX (n)

lim ψX (z) = z↑1

∞

k=n

P[X = k] · k(k − 1) · · · (k − n + 1),

wobei beide Seiten = +∞ sein können.

(3.2)

76


(ii) Die Verteilung PX von X ist durch ψX eindeutig charakterisiert. (iii) ψX ist durch die Angabe von abzählbar vielen Werten ψX (xi ), xi ∈ [0, 1], i ∈ N, eindeutig festgelegt. Konvergiert die Reihe in (3.1) auch für ein z > 1, so gilt (n) (n) lim ψX (z) = ψX (1) < ∞ für n ∈ N, z↑1

(n)

und ψX ist durch Angabe von ψX (1), n ∈ N, eindeutig charakterisiert. Beweis. Das folgt aus der elementaren Theorie der Potenzreihen.

2

Satz 3.3 (Multiplikativität der Erzeugendenfunktion). Sind X1 , . . . , Xn unabhängig und N0 -wertig, so ist n ψX1 +...+Xn = ψXi . i=1

Beweis. Für z ∈ [0, 1) können wir ψX1 (z) ψX2 (z) als Cauchy-Produkt schreiben ∞ ∞ n n ψX1 (z) ψX2 (z) = P[X1 = n] z P[X2 = n] z n=0

=

∞

z

n

n=0

=

∞

n=0

=

∞

zn

n=0

n

m=0

n

m=0

P[X1 = m] P[X2 = n − m]

P[X1 = m, X2 = n − m]

P[X1 + X2 = n] z n = ψX1 +X2 (z).

n=0

Induktiv folgt die Aussage für jedes n ≥ 2.

2

Beispiel 3.4. (i) Sei X bn,p -verteilt für gewisse n ∈ N und p ∈ [0, 1]. Dann ist n

n n m ψX (z) = p (1 − p)n−m z m = pz + (1 − p) . (3.3) m m=0

(ii) Sind X, Y unabhängig und bm,p beziehungsweise bn,p -verteilt, so ist nach Satz 3.3

m n

m+n ψX+Y (z) = pz + (1 − p) pz + (1 − p) = pz + (1 − p) . Also ist nach Satz 3.2(ii) X + Y bm+n,p -verteilt und damit (nach Satz 2.31)

3.1 Definition und Beispiele

77

bm,p ∗ bn,p = bm+n,p . (iii) Seien X und Y unabhängig und Poisson-verteilt mit Parametern λ ≥ 0 und μ ≥ 0, also P[X = n] = e−λ λn /n! für n ∈ N0 . Dann ist ∞

ψPoiλ (z) =

e−λ

n=0

(λz)n = eλ(z−1) . n!

(3.4)

Also hat X + Y die Erzeugendenfunktion ψPoiλ (z) · ψPoiµ (z) = eλ(z−1) eμ(z−1) = ψPoiλ+µ (z), und daher ist X + Y ∼ Poiλ+μ . Es folgt Poiλ ∗ Poiμ = Poiλ+μ .

(3.5)

(iv) Seien X1 , . . . , Xn ∼ γp unabhängig und geometrisch verteilt mit Parameter p ∈ (0, 1). Wir setzen Y = X1 + . . . + Xn . Es ist für z ∈ [0, 1] ψX1 (z) =

∞

k=0

p(1 − p)k z k =

p . 1 − (1 − p)z

(3.6)

Nach der verallgemeinerten binomischen Formel (siehe Lemma 3.5 mit α = −n), Satz 3.3 und (3.6) ist pn (1 − (1 − p)z)n ∞ −n (−1)k (1 − p)k z k = pn k

ψY (z) = ψX1 (z)n =

k=0

=

∞

k b− n,p ({k}) z ,

k=0

wobei für beliebiges r ∈ (0, ∞) und p ∈ (0, 1] b− r,p

=

∞ −r

k=0

k

(−1)k pr (1 − p)k δk

(3.7)

die negative Binomialverteilung mit Parametern r und p ist. Nach dem Eindeutigkeitssatz für Erzeugendenfunktionen ist damit Y ∼ b− n,p , also (siehe Definition 2.29 ∗n . 3 für die n-te Faltungspotenz) b− = γ n,p p Lemma 3.5 (Verallgemeinerter binomischer Lehrsatz). Für α ∈ R und k ∈ N0 definieren wir den Binomialkoeffizienten

78


α α · (α − 1) · · · (α − k + 1) := . k k!

(3.8)

Es gilt die erweiterte binomische Formel: ∞ α

xk

für jedes x ∈ C mit |x| < 1.

(3.9)

∞ 1 2n −n n = 4 x 1 − x n=0 n

für jedes x ∈ C mit |x| < 1.

(3.10)

(1 + x)α =

k=0

k

Speziell gilt √

Beweis. Die Abbildung f : x → (1 + x)α ist holomorph bis auf eventuell eine Singularität bei x = −1, ist also um 0 in eine Potenzreihe entwickelbar mit Radius mindestens 1: ∞ f (k) (0) k x für |x| < 1. f (x) = k! k=0

Für k ∈ N0 ist die k-te Ableitung f (k) (0) = α(α − 1) · · · (α − k + 1), also folgt (3.9). 2n

= n (−4)−n . 2 Der Zusatz folgt, weil für α = −1/2 gilt, dass −1/2 n − − ¨ Ubung 3.1.1. Man zeige b− ur r, s ∈ (0, ∞) und p ∈ (0, 1]. r,p ∗ bs,p = br+s,p f¨

♣

3.2 Poisson-Approximation Lemma 3.6. Seien μ und (μn )n∈N W-Maße auf (N0 , 2N0 ) mit Erzeugendenfunktionen ψμ und ψμn , n ∈ N. Dann sind a¨ quivalent (i) (ii) (iii) (iv)

n→∞

μn ({k}) −→ μ({k}) für jedes k ∈ N0 , n→∞

μn (A) −→ μ(A)

für jedes A ⊂ N0 ,

ψn (z) −→ ψ(z)

für jedes z ∈ [0, 1],

ψn (z) −→ ψ(z)

für jedes z ∈ [0, η) für ein η > 0.

n→∞

n→∞

n→∞

Gilt eine der vier Bedingungen, so schreiben wir μn −→ μ und sagen (μn )n∈N konvergiere schwach gegen μ. Beweis. (i) =⇒ (ii) Sei ε > 0 und N ∈ N so gewählt, dass μ({N + 1, N + 2, . . .}) < 4ε . Für hinreichend großes n0 ∈ N ist ferner

3.2 Poisson-Approximation N μn ({k}) − μ({k}) < ε 4

79

für jedes n ≥ n0 .

k=0

Speziell ist für n ≥ n0 auch μn ({N + 1, N + 2, . . .}) < 2ε . Also ist für n ≥ n0 μn (A) − μ(A) ≤ μn ({N + 1, N + 2, . . .}) + μ({N + 1, N + 2, . . .}) μn ({k}) − μ({k}) + k∈A∩{0,...,N }

< ε.

(ii) =⇒ (i)

Dies ist trivial. Dies folgt aus elementarer Theorie der Potenzreihen. 2

(i) ⇐⇒ (iii) ⇐⇒ (iv)

Seien (pn,k )n,k∈N Zahlen mit pn,k ∈ [0, 1], sodass der Grenzwert λ := lim

n→∞

existiert und so, dass lim

n→∞

∞

k=1

∞

k=1

(3.11)

pn,k ∈ (0, ∞)

p2n,k = 0 ist (beispielsweise pn,k = λ/n für

k ≤ n und pn,k = 0 für k > n). Für jedes n ∈ N sei (Xn,k )k∈N eine unabhängige Familie von Zufallsvariablen mit Xn,k ∼ Berpn,k . Setze S n :=

∞ l=1

Xn,l

und

Skn :=

k l=1

Xn,l

für k ∈ N.

Satz 3.7 (Poisson-Approximation). Unter den obigen Annahmen konvergieren die Verteilungen (PS n )n∈N schwach gegen die Poisson-Verteilung Poiλ . Beweis. Die Poisson-Verteilung hat die Erzeugendenfunktion ψ(z) = eλ(z−1) (siehe (3.4)). Andererseits sind S n − Skn und Skn unabhängig für jedes k ∈ N, also ψS n = ψSkn · ψS n −Skn . Nun ist für jedes z ∈ [0, 1] 1≥

∞ ψS n (z) k→∞ = ψS n −Skn (z) ≥ 1 − P[S n − Skn ≥ 1] ≥ 1 − pn,l −→ 1, ψSkn (z) l=k+1

80


also ψS n (z) = lim ψSkn (z) = k→∞

∞ (pn,l z + (1 − pn,l )) l=1

= exp Für |x|
1 ⇐⇒ z↑1

∞

kpk > 1.

k=1

Beweis. ψ ist strikt konvex und monoton wachsend und ψ(1) = 1. Ist lim ψ ′ (z) ≤ z↑1

1, so ist ψ(z) > z für jedes z ∈ [0, 1). Ist lim ψ ′ (z) > 1, so gibt es genau ein z↑1

r ∈ [0, 1) mit ψ(r) = r. Offenbar ist

q = 0 ⇐⇒ p0 = 0 ⇐⇒ ψ(0) = 0 ⇐⇒ ψ(z) < z

für jedes z ∈ (0, 1).

Sei nun also p0 > 0 angenommen. Offenbar gilt qn = ψn (0) = ψ(qn−1 ). Wir wissen, dass qn ↑ q. Da ψ stetig ist, gilt ψ(q) = ψ( lim qn ) = lim ψ(qn ) = lim qn+1 = q. n→∞

n→∞

n→∞

Also ist q ein Fixpunkt von ψ, und wir müssen im Fall ψ ′ (1) > 1 noch ausschließen, dass q = 1 ist. Ist r = ψ(r), so ist r ≥ ψ(0) = q0 , also r = ψ(r) ≥ ψ(q0 ) = q1 und induktiv r ≥ qn für jedes n ∈ N0 , also r ≥ q. Mithin ist q die kleinste Lösung in [0, 1] von ψ(r) = r. ¨ Die zweite Aquivalenz in (ii) folgt aus (3.2). 2

4 Das Integral

Nach dem Begriff des Maßraums und der messbaren Abbildung ist das Integral messbarer reeller Abbildungen bezüglich allgemeiner Maße, nicht nur des Lebesgue-Maßes, wie es in den meisten Analysis-Vorlesungen behandelt wird, ein Eckstein der systematischen Wahrscheinlichkeitstheorie, der es uns beispielsweise erlaubt, Erwartungswerte und höhere Momente zu definieren. In diesem Kapitel definieren wir das Integral durch Approximation mit Elementarfunktionen und leiten einfache Eigenschaften her wie das Lemma von Fatou. Die anderen Konvergenzsätze für Integrale folgen in den Kapiteln 6 und 7.

4.1 Konstruktion und einfache Eigenschaften Sei im Folgenden stets (Ω, A, μ) ein Maßraum. Wir bezeichnen mit E den Vektorraum der Elementarfunktionen (siehe Definition 1.93) auf (Ω, A) und mit E+ := {f ∈ E : f ≥ 0} den Kegel (woher der Name?) der nichtnegativen Elementarfunktionen. Gilt m (4.1) αi Ai f= i=1

für gewisses m ∈ N und für α1 , . . . , αm ∈ (0, ∞) sowie paarweise disjunkte Mengen A1 , . . . , Am ∈ A, so sagen wir, dass (4.1) eine Normaldarstellung der Elementarfunktion f ist.

m Lemma 4.1. Sind f = i=1 αi lungen von f ∈ E+ , so gilt m i=1

Ai

und f =

αi μ(Ai ) =

n

n

j=1

βj

Bj

zwei Normaldarstel-

βj μ(Bj ).

j=1

Beweis. Ist μ(Ai ∩ Bj ) > 0 für gewisse i und j, so ist Ai ∩ Bj = ∅,und für jedes n ω ∈ Ai ∩ Bj ist f (ω) = αi = βj . Außerdem ist offenbar Ai ⊂ j=1 Bj , falls m αi = 0 und Bj ⊂ i=1 Ai , falls βj = 0. Es folgt

84

4 Das Integral m

αi μ(Ai ) =

i=1

m n

αi μ(Ai ∩ Bj )

m n

βj μ(Ai ∩ Bj ) =

i=1 j=1

=

i=1 j=1

n

βj μ(Bj ).

2

j=1

Dieses Lemma erlaubt uns, die folgende Definition zu treffen (weil der definierte Wert I(f ) von der gewählten Normaldarstellung nicht abhängt). Definition 4.2. Wir definieren eine Abbildung I : E+ → [0, ∞] durch I(f ) =

m

αi μ(Ai ),

i=1

falls f die Normaldarstellung f =

m

i=1

αi

Ai

hat.

Lemma 4.3. Die Abbildung I ist positiv linear und monoton: Seien f, g ∈ E+ und α ≥ 0. Dann gelten die folgenden Aussagen. (i) I(αf ) = α I(f ). (ii) I(f + g) = I(f ) + I(g). (iii) Ist f ≤ g, so ist I(f ) ≤ I(g). ¨ Beweis. Ubung.

2

Definition 4.4 (Integral). Ist f : Ω → [0, ∞] messbar, so definieren wir das Integral von f bezüglich μ durch

f dμ := sup I(g) : g ∈ E+ , g ≤ f .

0 Bemerkung 4.5. Nach Lemma 4.3(iii) ist I(f ) = f dμ für jedes f ∈ E+ . Also ist das Integral eine Fortsetzung der Abbildung I von E+ auf die Menge der nichtnegativen messbaren Funktionen. 3 Sind f, g : Ω → R Abbildungen, so schreiben wir f ≤ g, falls f (ω) ≤ g(ω) für jedes ω ∈ Ω gilt. Analog verwenden wir die Schreibweise f ≥ 0 und so fort. Hingegen schreiben wir f ≤ g fast u¨ berall“, falls die schwächere Bedingung gilt, ” dass eine μ-Nullmenge N existiert mit f (ω) ≤ g(ω) für jedes ω ∈ N c .

4.1 Konstruktion und einfache Eigenschaften

85

Lemma 4.6. Seien f, g, f1 , f2 , . . . messbare Abbildungen Ω → [0, ∞]. Dann gilt 0 0 (i) (Monotonie) Ist f ≤ g, dann ist f dμ ≤ g dμ.

(ii) (Monotone 0 Konvergenz) Gilt fn ↑ f , dann konvergieren auch die Integrale 0 fn dμ ↑ f dμ.

(iii) (Linearität) Sind α, β ∈ [0, ∞], so gilt (αf + βg) dμ = α f dμ + β g dμ, wobei wir die Konvention ∞ · 0 := 0 benutzen. Beweis. (i) Dies folgt direkt aus der Definition des Integrals. (ii) Nach (i) gilt lim

n→∞

Wir müssen also nur noch

0

fn dμ = sup

n∈N

f dμ ≤ sup

n∈N

0

fn dμ ≤

f dμ.

fn dμ zeigen.

Sei g ∈ E+ mit g ≤ f . Es reicht zu zeigen, dass sup fn dμ ≥ g dμ.

(4.2)

n∈N

N Die Elementarfunktion g habe die Normaldarstellung g = i=1 αi Ai , wobei α1 , . . . , αN ∈ (0, ∞) sind und A1 , . . . , AN ∈ A paarweise disjunkt sind. Für jedes ε > 0 und n ∈ N definieren wir die Menge Bnε = {fn ≥ (1 − ε) g}. Wegen fn ↑ f ≥ g gilt Bnε ↑ Ω für jedes ε > 0. Also gilt nach (i) für ε > 0

fn dμ ≥ (1 − ε) g Bnε dμ =

N i=1

n→∞

−→

(1 − ε) αi μ(Ai ∩ Bnε ) N i=1

(1 − ε) αi μ(Ai ) = (1 − ε)

g dμ.

Da ε > 0 beliebig war, folgt (4.2) und damit die Aussage (ii). (iii) Nach Satz 1.96 ist jede nichtnegative messbare Abbildung monotoner Limes von Elementarfunktionen. Es gibt also Folgen (fn )n∈N und (gn )n∈N in E+ mit

86

4 Das Integral

fn ↑ f und gn ↑ g. Es gilt dann aber auch (αfn + βgn ) ↑ αf + βg. Nach (ii) und Lemma 4.3 gilt daher (αf + βg) dμ = lim (αfn + βgn ) dμ n→∞

= α lim

n→∞

fn dμ + β lim

n→∞

gn dμ = α

f dμ + β

g dμ.

2

0 ± + − 0 + f dμ ≤ 0Für messbares f : Ω0→ R ist f ≤ |f | und f 0 ≤−|f |, also gilt auch |f | dμ. Ist speziell |f | dμ < ∞, so ist auch f dμ < ∞ und f dμ < ∞. Daher können wir die folgende Definition treffen, die abschließend das Integral für messbare Funktionen erklärt. ¨ messbare Definition 4.7 (Integral fur 0 Funktionen). Eine messbare Funktion f : Ω → R heißt μ-integrierbar, falls |f | dμ < ∞. Wir schreiben 0 |f | dμ < ∞ . L1 (μ) := L1 (Ω, A, μ) := f : Ω → R : f ist messbar und Für f ∈ L1 (μ) definieren wir das Integral von f bezüglich μ durch + f (ω) μ(dω) := f dμ := f dμ − f − dμ.

(4.3)

0 0 0 Ist lediglich f − dμ < ∞ oder f + dμ < ∞, so definieren wir ebenfalls f dμ durch (4.3), wobei wir dann die Werte +∞ beziehungsweise −∞ zulassen. f dμ := (f A ) dμ. Ist A ∈ A, so schreiben wir A

Satz 4.8. Sei f : Ω → [0, ∞] messbar.

0 (i) Es ist f = 0 fast u¨ berall genau dann, wenn f dμ = 0 gilt. 0 (ii) Ist f dμ < ∞, so gilt f < ∞ fast u¨ berall.

Beweis. (i) =⇒ “ Es gelte f = 0 fast u¨ berall. Sei N = {ω : f (ω) > 0}. Dann ” ist f ≤ ∞ · N und n N ↑ ∞ · N . Es folgt nach Lemma 4.6(i) und (ii) n N dμ = 0. 0 ≤ f dμ ≤ (∞ · N ) dμ = lim n→∞

”

⇐= “

Sei Nn = {f ≥ n1 }, n ∈ N. Dann ist Nn ↑ N und μ(Nn ) 1 . 0 = f dμ ≥ Nn dμ = n n

Also gilt μ(Nn ) = 0 für jedes n ∈ N und damit μ(N ) = 0.


87

(ii) Sei A = {ω : f (ω) = ∞}. Für n ∈ N ist n1 f {f ≥n} ≥ {f ≥n} , also nach Lemma 4.6(i) 1 1 n→∞ f {f ≥n} dμ ≤ f dμ −→ 0. 2 μ(A) = A dμ ≤ {f ≥n} dμ ≤ n n Satz 4.9 (Eigenschaften des Integrals). Seien f, g ∈ L1 (μ). 0 0 (i) (Monotonie) Ist f ≤ g fast u¨ berall, so ist f dμ ≤ g dμ. 0 0 Ist speziell f = g fast u¨ berall, so ist f dμ = g dμ. 0 0 (ii) (Dreiecksungleichung) Es gilt stets f dμ ≤ |f | dμ. Sind α, β ∈ R, dann ist αf + βg ∈ L1 (μ) und (αf + βg) dμ = α f dμ + β g dμ.

(iii) (Linearität)

Diese Gleichung gilt auch, wenn höchstens eines der Integrale 0 g dμ einen der Werte ±∞ annimmt.

0

f dμ und

Beweis. (i) Es gilt f + ≤ g + und f − ≥ g − f.ü., also ist nach Lemma 4.6(i) f + dμ ≤ g + dμ und f − dμ ≥ g − dμ. Es folgt

f dμ =

f + dμ −

f − dμ ≤

g + dμ −

g − dμ =

(ii) Wegen f + + f − = |f | ist nach Lemma 4.6(iii) f dμ = f + dμ − f − dμ ≤ f + dμ + f − dμ =

+ f + f − dμ =

g dμ.

|f | dμ.

(iii) Wegen |αf + βg| ≤ |α| · |f | + |β| · |g| ist nach Lemma 4.6(i) und (iii) auch αf + βg ∈ L1 (μ). Um die Linearität zu zeigen, reicht es die drei folgenden Eigenschaften zu prüfen. 0 0 0 (a) (f + g) dμ = f dμ + g dμ. 0 0 (b) Für α ≥ 0 ist αf dμ = α f dμ. 0 0 (c) (−f ) dμ = − f dμ.

88

4 Das Integral

Zu (a): Es ist (f + g)+ − (f + g)− = f + g = f + − f − + g + − g − , also ist (f + g)+ + f − + g − = (f + g)− + f + + g + . Nach Lemma 4.6(iii) gilt + − − − + (f + g) dμ + f dμ + g dμ = (f + g) dμ + f dμ + g + dμ, also ist

(f + g) dμ − (f + g)− dμ = f + dμ − f − dμ + g + dμ − g − dμ = f dμ + g dμ.

(f + g) dμ =

+

Zu (b): Für α ≥ 0 ist αf dμ = αf + dμ − αf − dμ = α f + dμ − α f − dμ = α f dμ. Zu (c):

Es ist

(−f ) dμ − (−f )− dμ = f − dμ − f + dμ = − f dμ.

(−f ) dμ =

+

¨ Der Zusatz ist simpel und verbleibt zur Ubung.

2

Satz 4.10 (Bildmaß). Seien (Ω, A) und (Ω ′ , A′ ) Messräume, μ ein Maß auf (Ω, A) und X : Ω → Ω ′ messbar. Sei μ′ = μ ◦ X −1 das Bildmaß von μ unter X und f : Ω ′ → R integrierbar bezüglich μ′ . Dann ist f ◦ X ∈ L1 (μ) und (f ◦ X) dμ = f d(μ ◦ X −1 ).

Ist speziell X eine Zufallsvariable auf (Ω, A, P), so ist f (x) P[X ∈ dx] := f (x) PX [dx] = f dPX = f (X(ω)) P[dω]. ¨ Beweis. Ubung!

2

Beispiel 4.11 (Diskreter Maßraum). Sei (Ω, A) ein diskreter Messraum und μ = αω δω für gewisse Zahlen αω ≥ 0, ω ∈ Ω. Eine Abbildung f : Ω → R ist ω∈Ω genau dann integrierbar, wenn |f (ω)| αω < ∞ ist. In diesem Fall gilt

ω∈Ω

f dμ =

ω∈Ω

f (ω) αω .

3


89

Definition 4.12 (Lebesgue-Integral). Sei λ das Lebesgue-Maß auf Rn und f : Rn → R messbar bezüglich B∗ (Rn ) – B(R) (wobei B∗ (Rn ) die Lebesgue’sche σ-Algebra ist, siehe Beispiel 1.71) und λ-integrierbar. Dann nennen wir f dλ das Lebesgue-Integral von f . Ist A ∈ B(Rn ) und f : Rn → R messbar (oder f : A → R messbar bezüglich B∗ (Rn ) – B(R) und damit f A messbar bezüglich A

B∗ (Rn ) – B(R)), so schreiben wir f dλ := f

A

dλ.

A

Definition 4.13. Sei μ ein Maß auf (Ω, A) und f : Ω → [0, ∞) messbar. Wir sagen, dass das durch ν(A) := ( A f ) dμ für A ∈ A definierte Maß f μ := ν die Dichte f bezüglich μ hat.

Bemerkung 4.14. Wir müssen noch zeigen, dass ν ein Maß ist und prüfen hierzu die Bedingung von Satz 1.36 nach. Offenbar ist ν(∅) = 0. Endliche Additivität folgt aus der Additivität des Integrals (Lemma 4.6(iii)) und Stetigkeit von unten aus dem Satz von der monotonen Konvergenz (Satz 4.20). 3 Satz 4.15. Es ist g ∈ L1 (f μ) genau dann, wenn (gf ) ∈ L1 (μ). In diesem Fall gilt g d(f μ) = (gf ) dμ. Beweis. Die Aussage gilt zunächst für Indikatorfunktionen und wird dann mit den u¨ blichen Argumenten auf Elementarfunktionen, nichtnegative Funktionen sowie schließlich auf messbare Funktionen fortgesetzt. 2 Definition 4.16. Für messbares f : Ω → R definieren wir f p := und

|f |p dμ

1/p

,

falls p ∈ [1, ∞),

f ∞ := inf K ≥ 0 : μ({|f | > K}) = 0 .

Ferner definieren wir für jedes p ∈ [1, ∞] den Vektorraum Lp (μ) := f : Ω → R ist messbar und f p < ∞ .

90

4 Das Integral

Satz 4.17. Die Abbildung · 1 ist eine Pseudonorm auf L1 (μ), das heißt, es gilt für f, g ∈ L1 (μ) und α ∈ R αf 1 = |α| · f 1 (4.4)

f + g1 ≤ f 1 + g1 f 1 ≥ 0 für alle f und f 1 = 0,

falls f = 0 f.ü.

Beweis. Die erste und dritte Aussage folgen aus Satz 4.9(iii) und Satz 4.8(i). Die zweite folgt aus Satz 4.9(i), denn es ist |f + g| ≤ |f | + |g|, also f + g1 = |f + g| dμ ≤ |f | dμ + |g| dμ = f 1 + g1 . 2 Bemerkung 4.18. Tatsächlich ist · p für jedes p ∈ [1, ∞] eine Pseudonorm auf Lp (μ). Linearität und Positivität sind klar, und die Dreiecksungleichung ist die Minkowski’sche Ungleichung, die wir in Satz 7.17 zeigen werden. 3 ′

Satz 4.19. Seien μ(Ω) < ∞ und 1 ≤ p′ ≤ p ≤ ∞. Dann ist Lp (μ) ⊂ Lp (μ), und ′ die kanonische Inklusion i : Lp (μ) ֒→ Lp (μ), f → f ist stetig. ′

′

Beweis. Sei f ∈ L∞ (μ) und p′ ∈ [1, ∞). Dann ist |f |p ≤ f p∞ fast u¨ berall, also ′ ′ ′ |f |p dμ ≤ f p∞ dμ = f p∞ · μ(Ω) < ∞. ′

Für f, g ∈ L∞ (μ) ist also f − gp′ ≤ μ(Ω)1/p f − g∞ und damit ist i stetig. ′

Seien nun p, p′ ∈ [1, ∞) mit p′ < p sowie f ∈ Lp (μ). Dann ist |f |p ≤ 1 + |f |p , also gilt ′ |f |p dμ ≤ μ(Ω) + |f |p dμ < ∞. Seien schließlich f, g ∈ Lp (μ). Für jedes c > 0 ist ′

′

′

|f − g|p = |f − g|p

{|f −g|≤c}

+ |f − g|p

{|f −g|>c}

′

′

≤ cp + cp −p |f − g|p .

Speziell erhalten wir mit c = f − gp 1/p′ ′ ′ ′ f − gp′ ≤ cp μ(Ω) + cp −p f − gpp = (1 + μ(Ω))1/p f − gp . Also ist i auch in diesem Falle stetig.

2

¨ Ubung 4.1.1 (Folgenräume). Wir nehmen jetzt nicht mehr an, dass μ(Ω) < ∞ ist. Man zeige: Gibt es ein a > 0, sodass für jedes A ∈ A entweder μ(A) = 0 oder μ(A) ≥ a gilt, so gilt die zu Satz 4.19 umgekehrte Inklusion ′

Lp (μ) ⊂ Lp (μ),

falls 1 ≤ p′ ≤ p ≤ ∞.

(4.5) ♣

4.2 Monotone Konvergenz und Lemma von Fatou

91

¨ Ubung 4.1.2. Sei 1 ≤ p′ < p ≤ ∞ und μ σ-endlich, aber nicht endlich. Man zeige, ′ p ♣ dass L (μ) \ Lp (μ) = ∅.

4.2 Monotone Konvergenz und Lemma von Fatou Unter welchen Bedingungen ist die Vertauschbarkeit von Limes und Integral zulässig? Wir geben hier zwei einfache Kriterien für die Vertauschbarkeit an, die uns wichtige Anwendungen wie Gesetze der großen Zahl (Kapitel 5) ermöglichen. Allgemeinere Kriterien werden in Kapitel 6 hergeleitet. Satz 4.20 (Monotone Konvergenz, Satz von Beppo Levi). Seien f1 , f2 , . . . ∈ L1 (μ) und f : Ω → R messbar. Es gelte fn ↑ f f.ü. für n → ∞. Dann gilt fn dμ = f dμ, lim n→∞

wobei beide Seiten den Wert +∞ annehmen können. Beweis. Sei N ⊂ Ω eine Nullmenge, sodass fn (ω) ↑ f (ω) für alle ω ∈ N c . Die Funktionen fn′ := (fn − f1 ) N c und f ′ := (f − f1 ) N c sind nichtnegativ und 0 n→∞ 0 ′ f dμ. Wegen fn = erfüllen fn′ ↑ f ′ . Nach Lemma 4.6(ii) gilt fn′ dμ −→ fn′ + f1 f.ü. und f = f ′ + f1 f.ü. folgt nach Satz 4.9(iii) n→∞ f1 dμ + f ′ dμ = f dμ. 2 fn dμ = f1 dμ + fn′ dμ −→ Satz 4.21 (Lemma von Fatou). Seien f ∈ L1 (μ) und f1 , f2 , . . . messbar mit fn ≥ f f.ü. für jedes n ∈ N. Dann gilt lim inf fn dμ ≤ lim inf fn dμ. n→∞

n→∞

Beweis. Indem wir (fn − f )n∈N betrachten, können wir annehmen, dass fn ≥ 0 f.ü. für jedes n ∈ N. Setze gn := inf fm . m≥n

Dann gilt gn ↑ lim inf fm , also nach dem Satz von der monotonen Konvergenz m→∞ 0 0 (Lemma 4.6(ii)) sowie der Monotonie gn ≤ fn (also gn dμ ≤ fn dμ) lim inf fn dμ = lim gn dμ ≤ lim inf fn dμ. 2 n→∞

n→∞

n→∞

92

4 Das Integral

Beispiel 4.22 (Petersburger Spiel). Wir wollen durch ein Beispiel zeigen, dass auf die Voraussetzung der Existenz einer integrierbaren Minorante im Lemma von Fatou nicht verzichtet werden kann. Wir betrachten ein Glücksspiel in einem Casino, bei dem in jeder Runde ein vom Spieler gewählter Einsatz entweder verdoppelt zurückgezahlt wird oder verloren geht. Dies ist etwa beim Roulette der Fall, wo der Spieler zum Beispiel auf Rot“ setzen kann. Kommt eine rote Zahl, so gewinnt der ” Spieler seinen Einsatz verdoppelt zurück, ansonsten verliert er ihn. Es gibt 37 Felder, von denen 18 rot sind und 18 schwarz, sowie die Null, die grün ist. Die Gewinn18 < 12 betragen. Dieses Glücksspiel werde unendlich oft unchance sollte also p = 37 abhängig hintereinander ausgeführt. Wir können es also auf einem Wahrscheinlichkeitsraum (Ω, A, P) realisieren, wobei (Ω = {−1, 1}N , A = (2{−1,1} )⊗N die von ⊗N den Zylindern [ω1 , . . . , ωn ] erzeugte σ-Algebra ist und P = ((1 − p)δ−1 + pδ1 ) das Produktmaß. Wir bezeichnen mit Dn : Ω → {−1, 1}, ω → ωn das Ergebnis der n-ten Runde für jedes n ∈ N. Macht der Spieler in der n-ten Runde den (zufälligen) Einsatz Hn , so beträgt die Summe der Gewinne nach der n-ten Runde Sn =

n

Hn Dn .

i=1

Wir nehmen nun an, dass der Spieler die folgende Strategie verfolgt: In der ersten Runde ist der Einsatz H1 = 1. Gewinnt er, so setzt er in den folgenden Spielen gar nicht mehr, also ist Hn = 0 für jedes n ≥ 2, falls D1 = 1. Verliert er hingegen, so setzt er in der zweiten Runde den doppelten Einsatz, also ist H2 = 2, falls D1 = −1. Gibt die zweite Runde einen Gewinn, so setzt er ab der dritten Runde gar nicht mehr, andernfalls verdoppelt er wiederum seinen Einsatz in der dritten Runde und so weiter. Wir erhalten also als Strategie 0, falls es ein i ∈ {1, . . . , n − 1} gibt mit Di = 1, Hn = n−1 2 , sonst. Man beachte, dass Hn nur von D1 , . . . , Dn−1 abhängt, also messbar ist bezüglich σ(D1 , . . . , Dn−1 ). Dies ist offenbar ein wichtige Forderung an jede Spielstrategie, da man die Entscheidung u¨ ber den Einsatz aufgrund der vorhandenen Kenntnis zum jeweiligen Zeitpunkt treffen muss und nicht in die Zukunft blicken kann. Die Wahrscheinlichkeit, dass bis zum Zeitpunkt n kein Spiel gewonnen wurde ist (1 − p)n , also ist P[Sn = 1 − 2n ] = (1 − p)n und P[Sn = 1] = 1 − (1 − p)n . Man erwartet also im Mittel einen Gewinn von

n Sn dP = (1 − p)n (1 − 2n ) + (1 − (1 − p)n ) = 1 − 2 (1 − p) ≤ 0, da p ≤

1 2

ist (in den profitablen Spielbanken). Wir setzen nun −∞, falls − 1 = D1 = D2 = . . . , S= 1, sonst.

4.3 Lebesgue-Integral versus Riemann-Integral

93

0 0 n→∞ Dann gilt Sn −→ S f.s., jedoch ist limn→∞ Sn dP < S dP = 1, weil S = 1 fast sicher gilt. Nach dem Lemma von Fatou ist dies nur möglich, wenn es keine integrierbare Minorante zur Folge (Sn )n∈N gibt. Setzen wir S˜ := inf{Sn : n ∈ N}, n−1 so gilt in der Tat P[0S˜ = 1 − 2 ] = P[D1 = . . . = Dn−1 = −1 undDn = 1}] = ∞ n−1 ˜ p(1 − p) , also S dP = n=1 (1 − 2n−1 ) p(1 − p)n−1 = −∞, weil p ≤ 12 .3

1 ¨ Ubung 4.2.1. Sei (Ω, A, μ) ein Maßraum und zeige: Zu jedem 0 f ∈ L (μ). 0 Man ♣ ε > 0 gibt es ein A ∈ A mit μ(A) < ∞ und A f dμ − f dμ < ε.

0 ¨ Ubung 4.2.2. Seien f1 , f2 , . . . ∈ L1 (μ) nichtnegativ und so, dass limn→∞ fn dμ n→∞ existiert. Es gebe ein messbares f mit fn −→ f μ-fast u¨ berall. Man zeige: Es gilt 1 f ∈ L (μ) und fn − f dμ = lim fn dμ − f dμ. ♣ n→∞

4.3 Lebesgue-Integral versus Riemann-Integral Wir zeigen, dass für Riemann-integrierbare Funktionen das Lebesgue-Integral und das Riemann-Integral u¨ bereinstimmen. Sei I = [a, b] ⊂ R ein Intervall und λ das Lebesgue-Maß auf I. Ferner betrachten wir Folgen t = (tn )n∈N von Partitionen tn = (tni )i=0,...,n von I, also a = tn0 < tn1 < . . . < tnn = b, die immer feiner werden, das heißt, mit max{tni − tni−1 : i = n→∞ n+1 1, . . . , n} −→ 0. Wir nehmen an, dass N die Partition eine

t n für jedes

n ∈n+1 n+1 n n Verfeinerung von t ist, dass also gilt t0 , . . . , tn ⊂ t0 , . . . , tn+1 .

Für jede Funktion f : I → R und jedes n ∈ N definieren wir die n-te Untersumme beziehungsweise Obersumme durch Unt (f ) :=

n i=1

Ont (f ) :=

n i=1

(tni − tni−1 ) inf f [tni−1 , tni ) ,

(tni − tni−1 ) sup f [tni−1 , tni ) .

Bekanntlich heißt eine Funktion f : I → R Riemann-integrierbar, wenn es ein t gibt, sodass die Limiten von Obersummen und Untersummen u¨ bereinstimmen und endlich sind. Der Grenzwert hängt dann nicht vom gewählten t ab, und man definiert b f (x) dx := lim Unt (f ) = lim Ont (f ) (4.6) a

n→∞

als das Riemann-Integral von f (siehe etwa [141]).

n→∞

94

4 Das Integral

Satz 4.23 (Riemann-Integral und Lebesgue-Integral). Sei f : I → R Riemannintegrierbar auf I = [a, b]. Dann ist f Lebesgue-integrierbar auf I mit Integral

f dλ =

b

f (x) dx.

a

I

Beweis. Sei t so gewählt, dass (4.6) gilt. Nach Voraussetzung gibt es ein n ∈ N mit |Unt (f )| < ∞ und |Ont (f )| < ∞. Also ist f beschränkt. Indem wir f durch f + f ∞ ersetzen, können wir annehmen, dass f ≥ 0 gilt. Setze gn := f (b)

hn := f (b)

{b} +

n

{b} +

n

(inf f ([tni−1 , tni )))

n , [tn i−1 ,ti )

i=1

(sup f ([tni−1 , tni )))

n . [tn i−1 ,ti )

i1

Da tn+1 eine Verfeinerung von tn ist, gilt gn ≤ gn+1 ≤ hn+1 ≤ hn . Also existieren g und h mit gn ↑ g und hn ↓ h. Nach Konstruktion gilt g ≤ h und g dλ = lim gn dλ = lim Unt (f ) I

n→∞

I

n→∞

= lim Ont (f ) = lim n→∞

n→∞

hn dλ =

I

h dλ.

I

Also ist λ-fast u¨ berall h = g. Nach Konstruktion ist g ≤ f ≤ h, und g und h sind als Limiten von Elementarfunktionen messbar bezüglich B(I) – B(R). Es folgt, dass für jedes α ∈ R

{f ≤ α} = {g ≤ α} ∩ {g = h} ⊎ {f ≤ α} ∩ {g = h}

die Vereinigung einer B(I)-Menge mit einer Teilmenge einer Nullmenge ist, also in B(I)∗ (der Lebesgue’schen Vervollständigung von B(I)) liegt. Mithin ist f messbar bezüglich B(I)∗ . Nach dem Satz u¨ ber monotone Konvergenz (Satz 4.20) ist

I

f dλ = lim

n→∞

I

gn dλ =

b

f (x) dx.

2

a

Beispiel 4.24. Sei f : [0, 1] → R, x → Q . Dann ist f offenbar nicht Riemannintegrierbar, weil Un (f ) = 0 und 0On (f ) = 1 für jedes n ∈ N. Andererseits ist f Lebesgue-integrierbar mit Integral [0,1] f dλ = 0, denn Q ∩ [0, 1] ist eine Nullmenge. 3

4.3 Lebesgue-Integral versus Riemann-Integral

95

Bemerkung 4.25. Eine uneigentlich Riemann-integrierbare Funktion f auf einem halboffenen Intervall I = (a, b] oder I = [0, ∞) ist nicht notwendigerweise auch 0∞ Lebesgue-integrierbar. Hier wird nämlich das uneigentliche Integral 0 f (x) dx := 0n limn→∞ 0 f (x) dx durch eine Grenzwertprozedur definiert, die Rücksicht auf die Geometrie von R nimmt. Dies tut das Lebesgue-Integral nicht. So ist die Funktion 1 sin(x) (uneigentlich) Riemann-integrierbar, jedoch nicht f : [0, ∞) → R, x → 1+x 0 Lebesgue-integrierbar, weil [0,∞) |f | dλ = ∞ ist. 3

Wir haben schon gesehen, dass uneigentlich Riemann-integrierbare Funktionen nicht notwendigerweise auch Lebesgue-integrierbar sind. Andererseits gibt es Lebesgue-integrierbare Funktionen, die nicht Riemann-integrierbar sind (wie etwa asst sich dies so interpretieren, dass das Riemann-Integral die Q ). Geometrisch l¨ Geometrie des Integrationsbereiches respektiert, indem es als Grenzwert von Flächen schmaler senkrechter Streifen entsteht, während das Lebesgue-Integral als Grenzwert mit flachen waagerechten Streifen gedacht werden kann. Insbesondere macht dieses Integral gar keine Annahmen an den Definitionsbereich des Integranden, weshalb es eben universeller einsetzbar ist. Um dies zu unterstreichen, bringen wir einen Satz, der uns auch ansonsten noch nützlich sein wird. Satz 4.26. Sei f : Ω → R messbar und f ≥ 0 fast u¨ berall. Dann gelten ∞

n=1

μ({f ≥ n}) ≤

und

f dμ =

0

∞

f dμ ≤ ∞

(4.7)

μ({f > n})

n=0

(4.8)

μ({f ≥ t}) dt.

′ ′′ ′ ′′ Beweis. Setze 0 f =0 ⌊f′′⌋ und f = ⌈f ⌉. Dann ist f ≤ f ≤ f und deshalb 0 ′ f dμ ≤ f dμ ≤ f dμ. Nun ist

f ′ dμ =

∞

k=1

μ({f ′ = k}) · k = = =

k ∞

μ({f ′ = k})

k=1 n=1 ∞ ∞

μ({f ′ = k})

n=1 k=n ∞ n=1

μ({f ′ ≥ n}) =

∞

n=1

μ({f ≥ n}).

Analog ist

f ′′ dμ =

∞

n=1

μ({f ′′ ≥ n}) =

∞

n=1

μ({f > n − 1}).

96

4 Das Integral

Hieraus folgt (4.7). Gilt g(t) := μ({f ≥ t}) = ∞ für ein t > 0, so sind beide Seiten in (4.8) gleich ∞. Sei im Folgenden also g(t) < ∞ für alle t > 0. Für ε > 0 und k ∈ N setze f ε := f

{f ≥ε}

αkε := 2−k

∞

n=1 k→∞

Dann gilt αkε −→ αkε = 2−k

∞

n=1

≤ 2−k

∞

n=0

0∞ ε

sowie fkε = 2k f ε und

μ({f ε ≥ n2−k }).

g(t) dt. Ferner gilt nach (4.7) (mit fkε statt f )

μ({fkε ≥ n}) ≤

f ε dμ

μ({fkε > n}) = 2−k

∞

n=0

μ({f ε > n2−k }) ≤ αkε + 2−k g(ε).

0∞ 0 k→∞ Wegen 2−k g(ε) −→ 0 folgt ε g(t) dt = f ε dμ. Wegen f ε ↑ f für ε ↓ 0 folgt (4.8) aus dem Satz u¨ ber monotone Konvergenz. 2 ¨ Ubung 4.3.1. Sei f : [0, 1] → R beschränkt. Zeige: f ist genau dann (eigentlich) Riemann-integrierbar, wenn f λ-f.ü. stetig ist. ♣ ¨ Ubung 4.3.2. Ist f : [0, 1] → R Riemann-integrierbar, so ist f Lebesgue-messbar. Man zeige durch ein Beispiel, dass f nicht Borel-messbar sein muss. (Hinweis: Man verwende ohne Beweis die Existenz einer Teilmenge von [0, 1], die nicht Borelmessbar ist und konstruiere hieraus eine nicht-Borel’sche Menge, deren Abschluss eine Nullmenge ist.) ♣

5 Momente und Gesetze der Großen Zahl

Die wichtigsten Kenngrößen für Zufallsvariablen sind Median, Erwartungswert und Varianz. Der Erwartungswert beschreibt für großes n den typischen ungefähren Wert des arithmetischen Mittels (X1 + . . . + Xn )/n von u.i.v. Zufallsvariablen (Gesetz der Großen Zahl). In Kapitel 15 werden wir sehen, wie die Varianz hingegen die typischen Abweichungen des arithmetischen Mittels vom Erwartungswert determiniert.

5.1 Momente Im Folgenden sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Definition 5.1. Sei X eine Zufallsvariable. (i) Ist X ∈ L1 (P), so heißt X integrierbar, und wir nennen E[X] := X dP den Erwartungswert von X. Ist E[X] 0 = 0, so heißt X zentriert. Etwas allgemeiner schreiben wir auch E[X] = X dP, falls nur X − oder X + integrierbar ist.

(ii) Ist n ∈ N und X ∈ Ln (P), so heißen die Größen ) * ) * mk := E X k , Mk := E |X|k für jedes k = 1, . . . , n, die k-ten Momente beziehungsweise absoluten Momente von X.

(iii) Ist X ∈ L2 (P), so heißt X quadratintegrierbar, und wir nennen ) * Var[X] := E X 2 − E[X]2 √ die Varianz von X. Die Zahl σ := Var[X] heißt die Streuung oder Standardabweichung von X. Formal setzen wir manchmal Var[X] = ∞, falls E[X 2 ] = ∞ ist.

98


(iv) Sind X, Y ∈ L2 (P), so definieren wir die Kovarianz von X und Y durch ) * Cov[X, Y ] := E X − E[X] Y − E[Y ] . X und Y heißen unkorreliert, falls Cov[X, Y ] = 0 ist.

Bemerkung 5.2. (i) Die Definition in (ii) ist sinnvoll, denn für X ∈ Ln (P) ist nach Satz 4.19 Mk < ∞ für jedes k = 1, . . . , n. (ii) Sind X, Y ∈ L2 (P), so ist wegen |XY | ≤ X 2 + Y 2 auch XY ∈ L1 (P). Deshalb ist die Definition in (iv) sinnvoll, und es gilt Cov[X, Y ] = E[XY ] − E[X] E[Y ]. Speziell ist Var[X] = Cov[X, X].

3

Wir fassen die wichtigsten Rechenregeln für Erwartungswerte als Satz zusammen. Alle aufgeführten Eigenschaften folgen direkt aus den Eigenschaften des Integrals. ¨ den Erwartungswert). Seien X, Y, Xn , Yn , n ∈ N, Satz 5.3 (Rechenregeln fur reelle integrierbare Zufallsvariablen auf (Ω, A, P). Dann gilt (i) Ist PX = PY , so ist E[X] = E[Y ]. (ii) (Linearität) Sei c ∈ R. Dann gelten cX ∈ L1 (P) und X + Y ∈ L1 (P) sowie E[cX] = cE[X]

und

E[X + Y ] = E[X] + E[Y ].

(iii) Ist X ≥ 0 fast sicher, so gilt E[X] = 0

⇐⇒

X = 0 fast sicher.

(iv) (Monotonie) Gilt X ≤ Y fast sicher, so gilt E[X] ≤ E[Y ] mit Gleichheit genau dann, wenn X = Y fast sicher. ) * (v) (Dreiecksungleichung) Es ist E[X] ≤ E |X| . ' ( ∞ ∞ (vi) Ist Xn ≥ 0 fast sicher für jedes n ∈ N, so ist E Xn = E[Xn ]. n=1

n=1

(vii) Gilt Yn ↑ Y , so gilt E[Y ] = limn→∞ E[Yn ].

Die Wahrscheinlichkeitstheorie beginnt wieder an der Stelle, wo die Unabhängigkeit ins Spiel kommt, wir also den Bereich der linearen Integrationstheorie verlassen. Satz 5.4 (Unabhängige Zufallsvariablen sind unkorreliert). Seien X, Y ∈ L1 (P) unabhängig. Dann ist (X Y ) ∈ L1 (P) und E[XY ] = E[X] E[Y ]. Speziell sind unabhängige Zufallsvariablen unkorreliert.

5.1 Momente

99

Beweis. Wir nehmen zunächst an, dass X und Y nur endlich viele Werte annehmen. Dann nimmt auch XY nur endlich viele Werte an, speziell ist offenbar XY ∈ L1 (P). Es folgt E[XY ] = z P[XY = z] z∈R\{0}

=

x

z∈R\{0} x∈R\{0}

=

z P[X = x, Y = z/x] x

xy P[X = x] P[Y = y]

y∈R\{0} x∈R\{0}

=

x∈R

x P[X = x] y P[Y = y] y∈R

= E[X] E[Y ].

4

5 F¨ r N4∈ N sind auch die Zufallsvariablen XN := 2−N 2N |X| ∧ N und YN :=

u−N 5 2N |Y | ∧ N , die nur endlich viele Werte annehmen, unabhängig, und es 2 gilt XN ↑ |X| sowie YN ↑ |Y |. Nach dem Satz von der monotonen Konvergenz (Satz 4.20) ist daher E[|XY |] = lim E[XN YN ] = lim E[XN ] E[YN ] N →∞ N →∞ lim E[YN ] = E[|X|] E[|Y |] < ∞. = lim E[XN ] N →∞

N →∞

Also ist XY ∈ L1 (P). Außerdem haben wir damit den Satz gezeigt für den Fall, wo X und Y nichtnegativ sind. Daher (und weil jede der Familien {X + , Y + }, {X − , Y + }, {X + , Y − } und {X − , Y − } unabhängig ist) gilt E[XY ] = E[(X + − X − )(Y + − Y − )]

= E[X + Y + ] − E[X − Y + ] − E[X + Y − ] + E[X − Y − ]

= E[X + ] E[Y + ] − E[X − ] E[Y + ] − E[X + ] E[Y − ] + E[X − ] E[Y − ]

= E[X + − X − ] E[Y + − Y − ] = E[X] E[Y ].

2

Satz 5.5 (Wald’sche Identität). Seien T, X1 , X2 , . . . unabhängige, reelle Zufallsvariablen in L1 (P). Es sei P[T ∈ N0 ] = 1, und es seien X1 , X2 , . . . identisch verteilt. Wir setzen T Xi . ST := i=1

1

Dann ist ST ∈ L (P) und E[ST ] = E[T ] E[X1 ].

n ∞ Beweis. Setze Sn = ur n ∈ N0 . Dann ist ST = i=1 Xi f¨ n=1 Sn {T =n} . Nach Bemerkung 2.15 sind Sn und {T =n} unabhängig für jedes n ∈ N und damit unkorreliert. Es folgt (mit Hilfe der Dreiecksungleichung, siehe Satz 5.3(v))

100

5 Momente und Gesetze der Großen Zahl ∞ ) * ) E |ST | = E |Sn |

≤

n=1 ∞

n=1

{T =n}

*

=

∞ ) * ) E |Sn | E

n=1

{T =n}

) * E |X1 | n P[T = n] = E[|X1 |] E[T ].

*

Die selbe Rechnung ohne Betragstriche liefert den Rest der Behauptung.

2

Wir stellen hier ein paar einfache Eigenschaften der Varianz zusammen. Satz 5.6. Sei X ∈ L2 (P). Dann gilt: * ) (i) Var[X] = E (X − E[X])2 ≥ 0,

(ii) Var[X] = 0 ⇐⇒ X = E[X] fast sicher, ) * (iii) Die Abbildung f : R → R, x → E (X −x)2 ist minimal genau in x0 = E[X] mit f (E[X]) = Var[X].

Beweis. (i) Klar nach Bemerkung 5.2(ii). * ) (ii) Nach Satz 5.3(iii) ist E (X − E[X])2 = 0 ⇐⇒ (X − E[X])2 = 0 f.s. (iii) Es ist f (x) = E[X 2 ] − 2x E[X] + x2 = Var[X] + (x − E[X])2 .

2

Satz 5.7. Die Abbildung Cov : L2 (P) × L2 (P) → R ist eine positiv semidefinite symmetrische Bilinearform, und es gilt Cov[X, Y ] = 0, falls Y fast sicher konstant ist. Ausgeschrieben heißt dies: Für X1 , . . ., Xm , Y1 , . . ., Yn ∈ L2 (P) und α1 , . . . , αm , β1 , . . . , βn ∈ R, sowie d, e ∈ R gilt ⎤ ⎡ m n βj Yj ⎦ = αi βj Cov[Xi , Yj ]. (5.1) αi Xi , e + Cov ⎣d + i=1

j=1

i,j

Speziell gilt die Bienaymé-Gleichung -m . m m Var Cov[Xi , Xj ]. Xi = Var[Xi ] + i=1

i=1

Für unkorrelierte X1 , . . . , Xm gilt Var [

m

i=1

i,j=1 i=

j

Xi ] =

m

i=1

Var[Xi ].

(5.2)

5.1 Momente

101

Beweis. + , m n Cov d + αi Xi , e + βj Yj i=1

j=1

, + n m =E βj (Yj − E[Yj ]) αi (Xi − E[Xi ]) i=1

=

n m

) * αi βj E (Xi − E[Xi ])(Yj − E[Yj ])

m n

αi βj Cov[Xi , Yj ].

i=1 j=1

=

j=1

2

i=1 j=1

Satz 5.8 (Cauchy-Schwarz’sche Ungleichung). Sind X, Y ∈ L2 (P), so gilt

2 Cov[X, Y ] ≤ Var[X] Var[Y ].

Es gilt genau dann Gleichheit, wenn es a, b, c ∈ R gibt aX + bY + c = 0 f.s. Beweis. Die Cauchy-Schwarz’sche Ungleichung gilt für jede positiv semidefinite Bilinearform · , · ! auf einem Vektorraum V . Es gilt jeweils genau dann Gleichheit x, y!2 = x, x! y, y!, wenn es Zahlen a, b ∈ R gibt mit ax − by, ax − by! = 0. Wenden wir dies auf die positiv semidefinite Bilinearform Cov[ · , · ] auf L2 (P) an, so erhalten wir die Cauchy-Schwarz’sche Ungleichung für X, Y ∈ L2 (P) mit Gleichheit genau dann, wenn Var[aX + bY ] = 0, also genau dann, wenn (vergleiche Satz 5.6(ii)) aX + bY = c := E[aX + bY ] fast sicher. Zeigen wir nun also die Aussage für die allgemeine positiv semidefinite Bilinearform auf R. Ohne Einschränkung gilt y, y! > 0 (sonst ist die Aussage trivial). Es gilt dann mit θ = − x,y y,y : ; 0 ≤ x + θy, x + θy y, y! = x, x! + 2θ x, y! + θ2 y, y! y, y! = x, x! y, y! − x, y!2 .

2

Beispiel 5.9. (i) Es sei p ∈ [0, 1] und X ∼ Berp . Dann ist E[X 2 ] = E[X] = P[X = 1] = p und damit Var[X] = p(1 − p). (ii) Seien n ∈ N und p ∈ [0, 1] sowie X binomialverteilt X ∼ bn,p . Dann ist

102


E[X] =

n

kP[X = k] =

k=0

n n k k p (1 − p)n−k k

k=0

= np ·

n n−1

k=1

k−1

pk−1 (1 − p)(n−1)−(k−1) = np.

Ferner ist E[X(X − 1)] = =

n

k=0 n

k=0

= np ·

k(k − 1) P[X = k] n k k(k − 1) p (1 − p)n−k k n

n − 1 k−1 (k − 1) p (1 − p)(n−1)−(k−1) k−1

k=1

2

= n(n − 1)p ·

n n−2

k=2

k−2

pk−2 (1 − p)(n−2)−(k−2)

= n(n − 1)p2 . Also ist E[X 2 ] = E[X(X − 1)] + E[X] = n2 p2 + np(1 − p) und damit Var[X] = np(1 − p).

Etwas einfacher als durch die direkte Berechnung sehen wir dies ein, indem wir bemerken (siehe nach Beispiel 3.4(ii)), dass bn,p = b∗n 1,p . Das heißt, es gilt (siehe Satz 2.31) PX = PY1 +...+Yn , wo Y1 , . . . , Yn unabhängig sind und Yi ∼ Berp für jedes i = 1, . . . , n. Es folgt E[X] = nE[Y1 ] = np

(5.3)

Var[X] = nVar[Y1 ] = np(1 − p). (iii) Seien μ ∈ R und σ 2 > 0 sowie X normalverteilt X ∼ Nμ,σ2 . Dann ist ∞ 2 2 1 x e−(x−μ) /(2σ ) dx E[X] = √ 2 2πσ −∞ ∞ 2 2 1 = √ (x + μ) e−x /(2σ ) dx (5.4) 2 2πσ −∞ ∞ 2 2 1 = μ+ √ x e−x /(2σ ) dx = μ 2 2πσ −∞ ¨ Ahnlich folgt Var[X] = E[X 2 ] − μ2 = . . . = σ 2 .

5.1 Momente

103

(iv)

Sei θ > 0 und X exponentialverteilt X ∼ expθ . Dann ist ∞ 1 E[X] = θ x e−θx dx = , θ 0 ∞ ∞ 2 −x 2 −θx −2 −2 −1 + Var[X] = −θ + θ x e dx = θ−2 . 3 x e dx = θ 0

0

Satz 5.10 (Blackwell-Girshick). Seien T, X1 , X2 , . . . unabhängige, reelle Zufallsvariablen in L2 (P). Es sei P[T ∈ N0 ] = 1, und es seien X1 , X2 , . . . identisch verteilt. Wir setzen T Xi . ST := i=1

Dann ist ST ∈ L2 (P) und

Var[ST ] = E[X1 ]2 Var[T ] + E[T ] Var[X1 ]. n Beweis. Wir setzen Sn = i=1 Xi für n ∈ N. Dann sind (wie beim Beweis der Wald’schen Identität) Sn und {T =n} unabhängig, also Sn2 und {T =n} unkorreliert und damit ∞ ) ) * E E ST2 =

= = =

n=0 ∞

n=0 ∞

n=0 ∞

n=0

E[

{T =n}

Sn2

{T =n} ] E

*

) 2* Sn

P[T = n] Var[Sn ] + E[Sn ]2

P[T = n] n Var[X1 ] + n2 E[X1 ]2

) * = E[T ] Var[X1 ] + E T 2 E[X1 ]2 .

Nach der Wald’schen Identität (Satz 5.5) ist E[ST ] = E[T ] E[X1 ], also ist ) *

) * Var[ST ] = E ST2 − E[ST ]2 = E[T ] Var[X1 ] + E T 2 − E[T ]2 E[X1 ]2 .

Dies ist aber die Behauptung.

2

¨ Ubung 5.1.1. Man zeige (mit Satz 4.15): Ist X eine integrierbare reelle Zufallsvariable, deren Verteilung PX die Dichte f (bezüglich des Lebesgue-Maßes λ) besitzt, so gilt xf (x) λ(dx).

E[X] =

R

♣

104


¨ Ubung 5.1.2. Sei X ∼ βr,s eine Beta-verteilte Zufallsvariable mit Parametern r, s > 0 (vergleiche Beispiel 1.107(ii)). Man zeige n

E[X ] =

n−1 k=0

r+k r+s+k


♣

¨ Ubung 5.1.3. Es seien X1 , X2 , . . . u.i.v. nichtnegative Zufallsvariablen. Man zeige mit Hilfe des Lemmas von Borel-Cantelli: 0 f.s., falls E[X1 ] < ∞, 1 ♣ lim sup Xn = n→∞ n ∞ f.s., falls E[X1 ] = ∞. ¨ Ubung 5.1.4. Es seien X1 , X2 , . . . u.i.v. nichtnegative Zufallsvariablen Man zeige mit Hilfe des Lemmas von Borel-Cantelli: Für jedes c ∈ (0, 1) gilt ∞ < ∞ f.s., falls E[X1 ] < ∞, ♣ eXn cn lim sup n→∞ = ∞ f.s., falls E[X1 ] = ∞. n=1

5.2 Schwaches Gesetz der Großen Zahl Satz 5.11 (Markov’sche Ungleichung, Chebyshev’sche Ungleichung). Sei X eine Zufallsvariable und f : [0, ∞) → [0, ∞) monoton wachsend. Dann gilt für jedes ε > 0 mit f (ε) > 0 die Markov’sche Ungleichung ) * E[f (|X|)] . P |X| ≥ ε ≤ f (ε) ) * ) * Im Spezialfall f (x) = x2 erhalten wir P |X| ≥ ε ≤ ε−2 E X 2 und, falls X ∈ L2 (P), insbesondere die Chebyshev’sche Ungleichung ) * P |X − E[X]| ≥ ε ≤ ε−2 Var[X]. Beweis. Es gilt * ) E[f (|X|)] ≥ E f (|X|) {f (|X|)≥f (ε)} ) * ≥ E f (ε) {f (|X|)≥f (ε)} ) * ≥ f (ε) P |X| ≥ ε .

2

5.2 Schwaches Gesetz der Großen Zahl

105

Definition 5.12. Sei (Xn )n∈N eine Folge reeller Zufallsvariablen in L1 (P) und n Sn = i=1 (Xi − E[Xi ]). (i) Wir sagen, (Xn )n∈N genüge dem schwachen Gesetz der großen Zahl, falls , + 1 lim P Sn > ε = 0 für jedes ε > 0. n→∞ n

(ii) Wir sagen, (Xn )n∈N genüge dem starken Gesetz der großen Zahl, falls , + 1 P lim sup Sn = 0 = 1. n n→∞

Bemerkung 5.13. impliziert das schwache. Ist Das starke Gesetz dergroßen Zahl 1 1 ε nämlich An := n Sn > ε und A = lim sup n Sn > 0 , so gilt offenbar A=

n→∞

lim sup A1/m , n

m∈N

n→∞

( ' also P lim sup Aεn = 0 für ε > 0. Nach dem Lemma von Fatou (Satz 4.21) ist n→∞

)

(Aεn )c

≤ 1 − E lim inf

(Aεn )c

lim sup P [Aεn ] = 1 − lim inf E n→∞

n→∞

'

n→∞

*

(

+

= E lim sup n→∞

Aεn

,

= 0.

2

Satz 5.14. Seien X1 , X2 , . . . unkorrelierte Zufallsvariablen in L2 (P) mit V := supn∈N Var[Xn ] < ∞. Dann genügt (Xn )n∈N dem schwachen Gesetz der großen Zahl. Es gilt sogar für jedes ε > 0 , + 1 V für jedes n ∈ N. (5.5) P Sn ≥ ε ≤ 2 n ε n

Beweis. Ohne Einschränkung sei E[Xi ] = 0 für jedes i ∈ N und damit Sn = X1 + · · · + Xn . Nach der Formel von Bienaymé (Satz 5.7) ist , + n V 1 Sn = n−2 Var [Xi ] ≤ . Var n n i=1 Nach der Chebyshev’schen Ungleichung (Satz 5.11) gilt für ε > 0 ) * V n→∞ P |Sn /n| > ε ≤ 2 −→ 0. ε n

2

106


Beispiel 5.15 (Weierstraß’scher Approximationssatz). Sei f : [0, 1] → R eine stetige Abbildung. Nach dem Weierstraß’schen Approximationssatz existieren Polynome fn vom Grad höchstens n, sodass n→∞

fn − f ∞ −→ 0, wobei f ∞ := sup{|f (x)| : x ∈ [0, 1]} die Supremumsnorm von f ∈ C([0, 1]) bezeichnet. Wir führen hier einen probabilistischen Beweis dieser Aussage vor. Für n ∈ N sei das Polynom fn definiert durch fn (x) :=

n

f (k/n)

k=0

n k x (1 − x)n−k k

für x ∈ [0, 1].

Dieses Polynom heißt Bernstein-Polynom der Ordnung n. Sei ε > 0 fest gewählt. Da f auf [0, 1] stetig ist, ist f sogar gleichmäßig stetig. Es existiert also ein δ > 0, sodass |f (x) − f (y)| < ε

für alle x, y ∈ [0, 1] mit |x − y| < δ.

Sei nun p ∈ [0, 1] fest gewählt, und seien X1 , X2 , . . . unabhängige Zufallsvariablen mit Xi ∼ Berp , i ∈ N. Dann ist Sn := X1 + . . . + Xn ∼ bn,p und deshalb E[f (Sn /n)] =

n

f (k/n) P[Sn = k] = fn (p).

k=0

Wir erhalten |f (Sn /n) − f (p)| ≤ ε + 2f ∞

{|(Sn /n)−p|≥δ}

und daher (nach Satz 5.14 mit V = p(1 − p) ≤ 14 ) |fn (p) − f (p)| ≤ E[|f (Sn /n) − f (p)|] , + Sn − p ≥ δ ≤ ε + 2f ∞ P n ≤ε+

f ∞ , 2 δ2 n

n→∞

für jedes p ∈ [0, 1]. Also gilt fn − f ∞ −→ 0.

3

¨ Ubung 5.2.1 (Bernstein-Chernov Abschätzung). Seien n ∈ N und p1 , . . . , pn ∈ [0, 1] sowie X1 , . . . , Xn unabhängige Zufallsvariablen mit Xi = Berpi für jedes i = 1, . . . , n. Setze Sn = X1 + . . . + Xn und m := E[Sn ]. Man zeige, dass für jedes δ > 0 die beiden folgenden Abschätzungen gelten

5.3 Starkes Gesetz der Großen Zahl

und

) * P Sn ≥ (1 + δ)m ≤

eδ (1 + δ)1+δ

107

m

2 ) * δ m P Sn ≤ (1 − δ)m ≤ exp − . 2

Hinweis: Verwende für Sn die Markov’sche Ungleichung mit f (x) = eλx für gewisses λ > 0 und finde dasjenige λ, das die Abschätzung optimiert. ♣

5.3 Starkes Gesetz der Großen Zahl Wir kommen nun zu einem starken Gesetz der großen Zahl, nämlich dem in der Form von Etemadi für identisch verteilte, paarweise unabhängige Zufallsvariablen. Es gibt viele verschiedene Formen von starken Gesetzen der großen Zahl, die unterschiedliche Voraussetzungen machen. So kann man darauf verzichten, dass die Zufallsvariablen identisch verteilt sind, wenn man stärkere Annahmen, etwa beschränkte Varianzen, macht und so weiter. Wir werden hier nicht bis in alle Tiefen gehen, sondern nur exemplarisch ein paar Aussagen vorstellen. Um die Methode für den Beweis des Satzes von Etemadi zu illustrieren, stellen wir zunächst ein Starkes Gesetz der großen Zahl unter stärkeren Annahmen vor. Satz 5.16. Sind X1 , X2 , . . . ∈ L2 (P) paarweise unabhängig (das heißt, Xi und Xj sind unabhängig für alle i, j ∈ N mit i = j) und identisch verteilt, so genügt (Xn )n∈N dem starken Gesetz der großen Zahl. Beweis. Es sind (Xn+ )n∈N und (Xn− )n∈N wieder paarweise unabhängige Familien quadratintegrierbarer Zufallsvariablen (vergleiche Bemerkung 2.15(ii)). Es reicht daher, (Xn+ )n∈N zu betrachten. Wir nehmen also im Folgenden an, dass Xn ≥ 0 ist fast sicher für jedes n ∈ N.

Sei Sn = X1 + . . . + Xn für n ∈ N. Wähle ε > 0. Für jedes n ∈ N setzen wir kn = ⌊(1 + ε)n ⌋ ≥ 12 (1 + ε)n . Dann ist nach der Chebyshev’schen Ungleichung (Satz 5.11) + , ∞ ∞ Sk n ) * −n/4 P − E[X1 ] ≥ (1 + ε) ≤ (1 + ε)n/2 Var kn−1 Skn kn n=1 n=1 =

∞

(1 + ε)n/2 kn−1 Var[X1 ]

n=1

≤ 2 Var[X1 ]

∞

n=1

(1 + ε)−n/2 < ∞.

(5.6)

108


Nach dem Lemma von Borel-Cantelli gibt es daher für P-f.a. ω ein n0 = n0 (ω) mit Skn −n/4 für jedes n ≥ n0 . kn − E[X1 ] < (1 + ε) Also gilt

lim sup kn−1 Skn − E[X1 ] = 0

fast sicher.

n→∞

Für hinreichend großes n ∈ N ist kn+1 ≤ (1 + 2ε)kn . Für l ∈ {kn , . . . , kn+1 } ist dann 1 −1 −1 k −1 Skn ≤ kn+1 Skn+1 . Skn ≤ l−1 Sl ≤ kn−1 Skn+1 ≤ (1 + 2ε) kn+1 1 + 2ε n Wegen 1 − (1 + 2ε)−1 ≤ 2ε folgt lim sup l−1 Sl − E[X1 ] ≤ lim sup kn−1 Skn − E[X1 ] + 2ε lim sup kn−1 Skn n→∞

n→∞

l→∞

≤ 2ε E[X1 ] fast sicher,

und damit gilt das starke Gesetz der großen Zahl.

2

¨ Die Ahnlichkeit der Varianzabschätzungen im schwachen Gesetz der großen Zahl und in (5.6) legen nahe, dass im vorangehenden Satz auf die Bedingung verzichtet werden kann, dass die Zufallsvariablen X1 , X2 , . . . identisch verteilt sind, wenn ¨ man nur fordert, dass die Varianzen beschränkt sind (siehe Ubung 5.3.1). Wir können die Bedingung in Satz 5.16 in anderer Weise abschwächen, indem wir nur Integrierbarkeit statt Quadratintegrierbarkeit der Zufallsvariablen fordern. Satz 5.17 (Starkes Gesetz der großen Zahl von Etemadi (1981)). Es seien X1 , X2 , . . . ∈ L1 (P) paarweise unabhängig und identisch verteilt. Dann genügt (Xn )n∈N dem starken Gesetz der großen Zahl. Wir folgen dem Beweis in [38]. Setze im Folgenden μ = E[X1 ]. Zur Vorbereitung des Beweises stellen wir ein paar Lemmata bereit. Lemma 5.18. Für n ∈ N seien Yn := Xn {|Xn |≤n} und Tn = Y1 + · · · + Yn . Die n→∞ Folge (Xn )n∈N erfüllt das starke Gesetz der großen Zahl, falls Tn /n −→ μ f.s. Beweis. Nach Satz 4.26 ist

∞

n=1

) * ) * P |Xn | > n ≤ E |X1 | < ∞. Nach dem Lemma

von Borel-Cantelli ist daher * ) P Xn = Yn für unendlich viele n = 0.

Es gibt also ein n0 = n0 (ω) mit Xn = Yn für jedes n ≥ n0 . Daher gilt für n ≥ n0 Tn0 − Sn0 Tn − Sn = n n

n→∞

−→ 0.

2

5.3 Starkes Gesetz der Großen Zahl

Lemma 5.19. Für jedes x ≥ 0 ist 2x

n>x

109

n−2 ≤ 4.

Beweis. Für m ∈ N ist nach dem Integralvergleichskriterium ∞

n=m

n−2 ≤ m−2 +

∞

m

t−2 dt = m−2 + m−1 ≤

2 . m

2

) * ∞ E Yn2 Lemma 5.20. Es gilt ≤ 4 E[|X1 |]. n2 n=1 ) * * 0∞ ) Beweis. Nach Satz 4.26 ist E Yn2 = 0 P Yn2 > t dt. Mit der Substitution √ x = t erhalten wir ∞ n ) * E Yn2 = 2x P[|Yn | > x] dx ≤ 2x P[|X1 | > x] dx. 0

0

Nach dem Satz u¨ ber monotone Konvergenz und Lemma 5.19 gilt für m → ∞ m n−2 {x x] ↑ f (x) ≤ 4 P[|X1 | > x]. fm (x) = n=1

Wir können also Summation und Integral vertauschen und erhalten ) * ∞ ∞ ∞ E Yn2 −2 ≤ n {x x] dx n2 0 n=1 n=1 =

∞

0

≤ 4

∞

n=1

0

∞

−2

n

{x x] dx

P[|X1 | > x] dx = 4 E[|X1 |].

2

Beweis von Satz 5.17 Wie im Beweis von Satz 5.16 reicht es, Xn ≥ 0 zu betrachten. Wähle ε > 0 und setze α = 1 + ε. Für n ∈ N setzen wir kn = ⌊αn ⌋ und haben speziell kn ≥ αn /2. Es ist also (mit n0 = ⌈log m/ log α⌉)

n: kn ≥m

kn−2 ≤ 4

∞

n=n0

α−2n = 4 α−2n0 (1 − α−2 )−1 ≤ 4(1 − α−2 )−1 m−2 . (5.7)

Unser Ziel ist es, mit Hilfe von Lemma 5.20 die Abschätzung (5.6) für (Yn )n∈N und (Tn )n∈N zu verfeinern. Die Chebyshev’sche Ungleichung liefert (zusammen mit (5.7)) wiederum für δ > 0

110


∞ ∞ * * ) ) Var [Tkn ] P Tkn − E Tkn > δ kn ≤ δ −2 kn2 n=1 n=1

=δ

−2

∞

kn−2

n=1

kn

Var[Ym ] = δ

∞

Var[Ym ]

m=1

m=1

≤ 4(1 − α−2 )−1 δ −2

−2

∞

m=1

kn−2

n: kn ≥m

) * m−2 E Ym2 < ∞ nach Lemma 5.20.

(Im dritten Schritt durften wir die Summationsreihenfolge vertauschen, weil alle Summanden nichtnegativ sind.) Da δ > 0 beliebig war, folgt (mit dem Lemma von Borel-Cantelli) Tkn − E [Tkn ] (5.8) = 0 fast sicher. lim n→∞ kn Nach dem Satz u¨ ber monotone Konvergenz (Satz 4.20) gilt * n→∞ ) E[Yn ] = E X1 {|X1 |≤n} −→ E[X1 ]. n→∞

n→∞

Also gilt E[Tkn ]/kn −→ E[X1 ] und wegen (5.8) auch Tkn /kn −→ E[X1 ] f.s. Wie im Beweis von Satz 5.16 gilt jetzt auch (weil Yn ≥ 0) lim

l→∞

Tl = E[X1 ] fast sicher. l

Nach Lemma 5.18 folgt hieraus die Behauptung von Satz 5.17.

2

Beispiel 5.21 (Monte Carlo Integration). Betrachte eine Funktion f : [0, 1] → R, 01 deren Integral I := 0 f (x) dx numerisch bestimmt werden soll. Wir nehmen an, dass uns der Computer Zahlen X1 , X2 , . . . generiert, die wir als unabhängige Zufallszahlen auffassen können, die auf [0, 1] gleichverteilt sind. Für n ∈ N definieren wir den Schätzwert n 1 f (Xi ). I s ≥ 0 ist Nt − Ns Poisson-verteilt mit Parameter α(t − s), also P[Nt − Ns = k] = e−α(t−s)

(α(t − s))k k!

für jedes k ∈ N0 .

Die Existenz eines Poissonprozesses ist an dieser Stelle noch nicht gesichert. Darauf kommen wir in Satz 5.35 zurück. Satz 5.34. Erfüllt (NI , I ∈ I) die Bedingungen (P1) – (P5), so ist (N(0,t] , t ≥ 0) ein Poissonprozess mit Intensität α := E[N(0,1] ]. Ist umgekehrt (Nt , t ≥ 0) ein Poissonprozess, so erfüllt (Nt − Ns , (s, t] ∈ I) die Bedingungen (P1)–(P5). Beweis. Sei zunächst (Nt , t ≥ 0) ein Poissonprozess mit Intensität α ≥ 0. Dann ist für I = (a, b] offenbar PNI = Poiα(b−a) = Poiαℓ(I) . Also gilt (P2). Wegen (i) gilt (P3). Offenbar ist E[NI ] = α ℓ(I) < ∞, also gilt (P4). Schließlich ist P[Nε ≥ 2] = 1 − e−αε − α ε e−αε = f (0) − f (αε), wobei f (x) := e−x + xe−x . Wir bilden die Ableitung f ′ (x) = −xe−x . Dann ist offenbar lim ε−1 P[Nε ≥ 2] = −αf ′ (0) = 0. ε↓0

Also gilt auch (P5). Erfülle nun (NI , I ∈ I) die Bedingungen (P1) – (P5). Setze α(t) := E[Nt ]. Dann ist (wegen (P2)) * ) * ) * ) α(s + t) = E N(0,s] + N(s,s+t] = E N(0,s] + E N(0,t] = α(s) + α(t).

Da t → α(t) monoton wachsend ist, folgt hieraus sogar α(t) = t α(1) für jedes t ≥ 0. Wir setzen α := α(1) und erhalten E[NI ] = α ℓ(I). Wir müssen nur noch zeigen, dass PNt = Poiαt gilt. Um den Satz u¨ ber die Poissonapproximation (Satz 3.7) zu verwenden, zerlegen wir für festes n ∈ N, das Intervall (0, t] in 2n disjunkte gleich lange Intervalle

* I n (k) := (k − 1)2−n t, k2−n t , k = 1, . . . , 2n , und setzen X n (k) := NI n (k) sowie 1 1, X n (k) := 0,

falls X n (k) ≥ 1, sonst.

5.5 Der Poissonprozess

121

Nach den Annahmen (P2) und (P3) sind (X n (k), k = 1, . . . , 2n ) unabhängig und identisch verteilt. Daher ist auch (X n (k), k = 1, . . . , 2n ) unabhängig und identisch verteilt, nämlich X n (k) ∼ Berpn , wobei pn = P[N2−n t ≥ 1]. 2n Schließlich setzen wir Ntn := k=1 X n (k). Dann ist Ntn ∼ b2n ,pn . Offenbar ist Ntn+1 − Ntn ≥ 0. Nun gilt nach (P5) n

P [Nt = Ntn ] ≤

2

k=1

n→∞

P [X n (k) ≥ 2] = 2n P [N2−n t ≥ 2] −→ 0.

(5.15)

' ( Also ist P Nt = lim Ntn = 1. Nach dem Satz u¨ ber monotone Konvergenz gilt n→∞

α t = E [Nt ] = lim E [Ntn ] = lim pn 2n . n→∞

n→∞

Nach dem Satz u¨ ber Poisson-Approximation (Satz 3.7) gilt daher für jedes l ∈ N0 P[Nt = l] = lim P [Ntn = l] = Poiαt ({l}). n→∞

Also ist PNt = Poiα t .

2

Bislang steht noch der Nachweis aus, dass es u¨ berhaupt Poissonprozesse gibt. In Kapitel 24 werden wir ein allgemeines Konstruktionsprinzip kennen lernen, das auch ¨ für allgemeinere Räume als [0, ∞) funktioniert (siehe auch Ubung 5.5.1). Eine weitere, instruktive Konstruktion basiert auf den Wartezeiten zwischen den Klicks, oder formal zwischen den Unstetigkeitsstellen der Abbildung t → Nt (ω). Wie groß ist die Wahrscheinlichkeit, dass wir zur Zeit s auf den nächsten Klick des Zählers länger als t Zeiteinheiten warten müssen? Wenn wir die Klicks als Poissonprozess mit Intensität α modellieren, ist diese Wahrscheinlichkeit * ) P N(s,s+t] = 0 = e−αt .

Mithin ist die Wartezeit auf den nächsten Klick exponentialverteilt mit Parameter α. Außerdem sollten die Wartezeiten unabhängig voneinander sein. Wir nehmen nun die Wartezeiten als Startpunkt der Betrachtung und konstruieren hieraus den Poissonprozess. Sei W1 , W2 , . . . eine unabhängige Familie von exponentialverteilten Zufallsvariablen mit Parameter α > 0, also P[Wn > x] = e−αx . Wir setzen Tn :=

n

Wk

k=1

und interpretieren Wn als die Wartezeit zwischen dem (n − 1)-ten und dem nten Klick. Tn ist der Zeitpunkt des n-ten Klicks. In Anlehnung an diese Intuition definieren wir

122


Nt := #{n ∈ N0 : Tn ≤ t} als die Anzahl der Klicks bis zur Zeit t. Es ist dann {Nt = k} = {Tk ≤ t < Tk+1 }. Speziell ist also Nt eine Zufallsvariable. Satz 5.35. Die Familie (Nt , t ≥ 0) ist ein Poissonprozess mit Intensität α. Beweis. (Wir folgen dem Beweis in [58].) Wir müssen zeigen, dass für jedes n ∈ N und jede Folge 0 = t0 < t1 < . . . < tn gilt: (Nti − Nti−1 , i = 1, . . . , n) ist unabhängig und Nti − Nti−1 = Poiα(ti −ti−1 ) . Wir wissen zwar, dass es nicht ausreicht, dies nur für n = 2 zu zeigen. Allerdings wird der Schreibaufwand für n ≥ 3 extrem groß, und das Prinzip, wie man den Beweis für allgemeines n ∈ N führt, wird klar, wenn man n = 2 untersucht hat. Daher beschränken wir uns hier auf den Fall n = 2. Wir zeigen also, für 0 < s < t und l, k ∈ N0 (α(t − s))l (αs)k e−α(t−s) . P[Ns = k, Nt − Ns = l] = e−αs k! l!

(5.16)

Hieraus folgt, dass Ns und (Nt − Ns ) unabhängig sind. Außerdem folgt, indem wir u¨ ber k ∈ N0 summieren, dass Nt − Ns ∼ Poiα(t−s) . Nach Korollar 2.22 hat die Verteilung P(W1 ,...,Wk+l+1 ) die Dichte x → αk+l+1 e−αSk+l+1 (x) , wobei Sn (x) := x1 + . . . + xn . Es reicht nun, l ≥ 1 zu betrachten, da wir den (l = 0)-Term durch die Normierung des W-Maßes erhalten. Sei also l ≥ 1. Wir erhalten P[Ns = k, Nt − Ns = l] = P[Tk ≤ s < Tk+1 , Tk+l ≤ t < Tk+l+1 ] ∞ ∞ = ··· dx1 · · · dxk+l+1 0

α

0 k+l+1 −αSk+l+1 (x)

e

{Sk (x)≤s<Sk+1 (x)}

{Sk+l (x)≤t<Sk+l+1 (x)} ,

Wir integrieren nun sukzessive, mit xk+l+1 beginnend. Im ersten Schritt substituieren wir z = Sk+l+1 (x) und erhalten ∞ ∞ dxk+l+1 α e−αSk+l+1 (x) {Sk+l+1 (x)>t} = dz α e−αz = e−αt . 0

t

Nun halten wir x1 , . . . , xk fest und erhalten für die restlichen Variablen durch die Substitution y1 = Sk+1 (x) − s, y2 = xk+2 , . . . , yl = xk+l

5.5 Der Poissonprozess

0

∞

···

123

∞

dxk+1 · · · dxk+l {s<Sk+1 (x)≤Sk+l ≤t} ∞ ∞ (t − s)l . = ··· dy1 · · · dyl {y1 +...+yl ≤t−s} = l! 0 0 0

(Dies erhält man zum Beispiel per Induktion u¨ ber l.) Wir integrieren nun u¨ ber die verbleibenden Variablen x1 , . . . , xk und erhalten ∞ ∞ sk ··· dx1 · · · dxk {Sk (x)≤s} = . k! 0 0 Insgesamt erhalten wir P[Ns = k, Nt − Ns = l] = e−αt αk+l

sk (t − s)l , k! l!

also (5.16).

2

¨ Ubung 5.5.1. Seien Rn , Ykn , k, n ∈ N unabhängige Zufallsvariablen mit Rn ∼ Poiα und Ykn ∼ U(n−1,n] (Gleichverteilung auf (n − 1, n]) für alle k, n ∈ N. Setze

Nt := # (k, n) ∈ N2 : k ≤ Rn und Ykn ≤ t .

Man zeige, dass (Nt )t≥0 ein Poissonprozess mit Intensität α ist.

♣

6 Konvergenzsätze

Im starken und schwachen Gesetz der großen Zahl hatten wir implizit schon die Begriffe von fast sicherer und stochastischer Konvergenz von Folgen von Zufallsvariablen kennen gelernt und gesehen, dass die fast sichere die stochastische Konvergenz impliziert. In diesem Kapitel definieren wir die Begriffe von fast sicherer und stochastischer Konvergenz sowie Konvergenz im Mittel von Folgen messbarer Abbildungen und setzen sie in Beziehung zueinander. Eine Schlüsselrolle kommt dabei dem Konzept der gleichgradigen Integrierbarkeit zu.

¨ 6.1 Fast-uberallund stochastische Konvergenz Im Folgenden ist (Ω, A, μ) stets ein σ-endlicher Maßraum. Wir definieren zunächst Fast-überall-Konvergenz und stochastische Konvergenz in metrischen Räumen und vergleichen dann beide Konzepte miteinander. Hierfür benötigen wir zunächst zwei Lemmata, die sicher stellen, dass die Abstandsfunktion zweier messbarer Abbildungen wieder messbar ist. Sei im Folgenden (E, d) ein separabler, metrischer Raum mit Borel’scher σ-Algebra B(E). Separabel“ heißt dabei bekanntlich, dass es ei” ne abzählbare, dichte Teilmenge gibt. Für x ∈ E und r > 0 bezeichnen wir mit Br (x) = {y ∈ E : d(x, y) < r} die offene Kugel um x mit Radius r. Lemma 6.1. Seien f, g : Ω → E messbar bezüglich A – B(E). Dann ist die Abbildung H : Ω → [0, ∞), ω → d(f (ω), g(ω)) messbar bezüglich A – B([0, ∞)). Beweis. Sei F ⊂ E abzählbar und dicht. Nach der Dreiecksungleichung ist d(x, z) + d(z, y) ≥ d(x, y) für alle x, y ∈ E und für z ∈ F . Sei (zn )n∈N eine n→∞ n→∞ Folge in F mit zn −→ x. Da d stetig ist, gilt d(x, zn ) + d(zn , y) −→ d(x, y). Insgesamt haben wir inf z∈F (d(x, z) + d(z, y)) = d(x, y). Da x → d(x, z) stetig ist, also messbar, sind auch fz , gz : Ω → [0, ∞) mit fz (ω) = d(f (ω), z) und gz (ω) = d(g(ω), z) messbar, also auch fz + gz sowie H = inf z∈F (fz + gz ). (Etwas systematischer lässt sich der Satz zeigen, wenn wir benutzen, dass (f, g) messbar ist bezüglich A – B(E × E) (dies folgt aus Satz 14.8) und d : E × E → [0, ∞) stetig also messbar bezüglich B(E ×E) – B([0, ∞)). Als Verknüpfung messbarer Abbildungen ist dann auch ω → d(f (ω), g(ω)) messbar.) 2

126

6 Konvergenzsätze

Seien f, f1 , f2 , . . . : Ω → E messbar bezüglich A – B(E). Definition 6.2. Wir sagen: (fn )n∈N konvergiert gegen f stoch

(i) μ-stochastisch (oder dem Maße nach), in Formeln fn −→ f , wenn für jedes A ∈ A mit μ(A) < ∞ und für jedes ε > 0 gilt, dass n→∞

μ({d(f, fn ) > ε} ∩ A) −→ 0. f.ü.

(ii) μ-fast uberall, in Formeln fn −→ f , wenn es eine μ-Nullmenge N ∈ A gibt, ¨ sodass für jedes ω ∈ Ω \ N gilt, dass n→∞

d(f (ω), fn (ω)) −→ 0. Ist μ ein W-Maß, so sagen wir in diesem Fall auch, dass (fn )n∈N fast sicher f.s. konvergiert und schreiben fn −→ f . Gelegentlich werden die Hinweise fast ” u¨ berall“ und fast sicher“ auch weglassen. ” Bemerkung 6.3. Fast-überall-Konvergenz ist a¨ quivalent zur Fast-überall-Konvergenz auf allen Mengen endlichen Maßes. 3 Bemerkung 6.4. Fast-überall-Konvergenz impliziert die stochastische: Sei zu ε > 0 Dn (ε) = {d(f, fm ) > ε für ein m ≥ n}. ∞ Dann gilt D(ε) := n=1 Dn (ε) ⊂ N , wobei N die Nullmenge aus der Definition der F.ü.-Konvergenz ist. Die σ-Stetigkeit von oben von μ impliziert μ(Dn (ε) ∩ n→∞ A) −→ μ(D(ε) ∩ A) = 0 für jedes A ∈ A mit μ(A) < ∞. 3 Bemerkung 6.5. Stochastische oder Fast-überall-Konvergenz legen den Grenzwert stoch stoch eindeutig fest bis auf Gleichheit fast u¨ berall. In der Tat: Sei fn −→ f und fn −→ g. Seien A1 , A2 , . . . ∈ A mit An ↑ Ω und μ(An ) < ∞ für jedes n ∈ N. Dann ist (wegen d(f, g) ≤ d(f, fn ) + d(g, fn )) für jedes m ∈ N und ε > 0

μ Am ∩ {d(f, g) > ε}

n→∞

≤ μ Am ∩ {d(f, fn ) > ε/2} + μ Am ∩ {d(g, fn ) > ε/2} −→ 0.

Also ist μ {d(f, g) > 0} = 0. 3

Bemerkung 6.6. Im Allgemeinen impliziert stochastische Konvergenz nicht F.ü.Konvergenz. In der Tat: Sei (Xn )n∈N eine unabhängige Familie von Zufallsvaristoch ablen mit Xn ∼ Ber1/n . Dann gilt Xn −→ 0, jedoch ist nach dem Lemma von Borel-Cantelli lim supn→∞ Xn = 1 fast sicher. 3

6.1 Fast-überall- und stochastische Konvergenz

127

Satz 6.7. Seien A1 , A2 , . . . ∈ A mit AN ↑ Ω und μ(AN ) < ∞ für jedes N ∈ N. Für messbare f, g : Ω → E setze ˜ g) := d(f,

∞

2−N 1 + μ(AN )

N =1

AN

1 ∧ d(f (ω), g(ω)) μ(dω).

(6.1)

Dann ist d˜ eine Metrik, die die stochastische Konvergenz erzeugt: Sind f, f1 , f2 , . . . messbar, so gilt stoch ˜ fn ) n→∞ fn −→ f ⇐⇒ d(f, −→ 0. Beweis. Für N ∈ N setze dÑ (f, g) :=

AN

n→∞

1 ∧ d(f (ω), g(ω)) μ(dω). n→∞

˜ fn ) −→ 0, wenn dÑ (f, fn ) −→ 0 für jedes N ∈ N. Genau dann gilt d(f, ”

=⇒ “

stoch

Es gelte fn −→ f . Dann ist für jedes ε ∈ (0, 1)

n→∞ dÑ (f, fn ) ≤ μ AN ∩ {d(f, fn ) > ε} + ε μ(AN ) −→ ε μ(AN ).

n→∞ Da ε ∈ (0, 1) beliebig war, gilt dÑ (f, fn ) −→ 0.

˜ fn ) n→∞ ⇐= “ Es gelte d(f, −→ 0. Sei B ∈ A mit μ(B) < ∞. Wähle δ > 0 und ” N ∈ N so groß, dass μ(B \ AN ) < δ. Dann ist für ε ∈ (0, 1)

μ B ∩ {d(f, fn ) > ε} ≤ δ + μ AN ∩ {d(f, fn ) > ε} n→∞ ≤ δ + ε−1 dÑ (f, fn ) −→ δ.

n→∞ stoch Da δ > 0 beliebig war, folgt μ B ∩ {d(f, fn ) > ε} −→ 0, also fn −→ f .

2

Wir betrachten nun den wichtigen Fall E = R mit der euklidischen Metrik. Hier haben wir durch das Integral einen weiteren Konvergenzbegriff zur Verfügung. Definition 6.8 (Konvergenz im Mittel). Seien f, f1 , f2 , . . . ∈ L1 (μ). Wir sagen (fn )n∈N konvergiere im Mittel gegen f , in Formeln L1

fn −→ f, n→∞

falls fn − f 1 −→ 0. L1

Bemerkung 6.9. Gilt fn −→ f , so gilt insbesondere

0

n→∞

fn dμ −→

0

f dμ.

3

128

6 Konvergenzsätze L1

L1

Bemerkung 6.10. Gilt fn −→ f und fn −→ g, so ist f = g fast u¨ berall. In der Tat n→∞ ist nach der Dreiecksungleichung f − g1 ≤ fn − f 1 + fn − g1 −→ 0. 3 Bemerkung 6.11. L1 -Konvergenz und F.ü.-Konvergenz implizieren jeweils stochastische Konvergenz. Alle anderen Implikationen sind im Allgemeinen falsch. 3 Satz 6.12 (Schnelle Konvergenz). Sei (E, d) ein separabler, metrischer Raum. Damit die Folge (fn )n∈N messbarer Abbildungen Ω → E fast u¨ berall konvergiert, ist hinreichend, dass eine der folgenden Bedingungen gilt. (i) Es gilt E = R, es gibt ein p ∈ [1, ∞) mit fn ∈ Lp (μ) für jedes n ∈ N, und ∞ es gibt ein f ∈ Lp (μ) mit fn − f p < ∞. n=1

(ii) Es gibt ein messbares f mit

∞

n=1

μ(A ∩ {d(f, fn ) > ε}) < ∞ für jedes ε > 0

und für jedes A ∈ A mit μ(A) < ∞. n→∞

In beiden Fällen gilt fn −→ f fast u¨ berall. (iii) E ist vollständig, und es gibt eine summierbare Folge (εn )n∈N , sodass ∞

n=1

μ(A ∩ {d(fn , fn+1 ) > εn }) < ∞

für jedes A ∈ A mit μ(A) < ∞.

Beweis. Offenbar impliziert (i) schon (ii), denn nach der Markov’schen Ungleichung ist μ({|f − fn | > ε}) ≤ ε−p f − fn pp . Nach Bemerkung 6.3 reicht es, den Fall μ(Ω) < ∞ zu betrachten.

Gelte nun (ii). Sei Bn (ε) = {d(f, fn ) > ε} und B(ε) = lim sup Bn (ε). Das ∞ n→∞ Lemma von Borel-Cantelli liefert μ(B(ε)) = 0. Sei N = n=1 B (1/n). Dann gilt n→∞ μ(N ) = 0 und fn (ω) −→ f (ω) für jedes ω ∈ Ω \ N. Gelte (iii). Sei Bn = {d(fn+1 , fn ) > εn } und B = lim sup Bn . Dann ist μ(B) = n→∞

0, und für jedes ω ∈ Ω\B ist (fn (ω))n∈N eine Cauchy-Folge in E. Da E vollständig ist, existiert der Limes f (ω) := limn→∞ fn (ω). Für ω ∈ B setze f (ω) = 0. 2 Korollar 6.13. Sei (E, d) vollständig und separabel. Seien f, f1 , f2 , . . . messbare Abbildungen Ω → E. Dann sind die beiden folgenden Aussagen a¨ quivalent. n→∞

(i) fn −→ f stochastisch,

(ii) Zu jeder Teilfolge von (fn )n∈N existiert eine gegen f fast u¨ berall konvergente Teilfolge.

6.1 Fast-überall- und stochastische Konvergenz

129

Beweis. (ii) =⇒ (i)“ Wir nehmen an, dass (i) nicht gilt. Dann gibt es ein ε > 0 ” ˜ n,k , f ) > ε für jedes k ∈ N. Offenbar konverund eine Teilfolge (fnk )k∈N mit d(f giert keine Teilfolge von (fnk )k∈N stochastisch gegen f , also auch nicht f.ü. (i) =⇒ (ii)“ Gelte nun (i). Nach Bemerkung 6.3 können wir ohne Einschrän” stoch kung annehmen, dass μ(Ω) < ∞ gilt. Sei nk ↑ ∞ beliebig. Wegen fnk −→ f für k → ∞, können wir eine Teilfolge (fnkl )l∈N wählen, sodass ∞ 1 μ |f − fnkl | > < ∞. l l=1

Nach Satz 6.12(ii) konvergiert (fnkl )l∈N fast u¨ berall gegen f .

2

Korollar 6.14. Ist (Ω, A, μ) ein Maßraum, bei dem stochastische und F.ü.-Konvergenz nicht zusammenfallen, so gibt es keine Topologie auf der Menge der messbaren Abbildungen Ω → E, die die F.ü.-Konvergenz erzeugt. Beweis. Wir nehmen an, dass es eine Topologie gibt, die die F.ü.-Konvergenz erstoch zeugt. Seien f, f1 , f2 , . . . messbare Abbildungen mit der Eigenschaft, dass fn −→ n→∞ f , jedoch nicht fn −→ f fast u¨ berall. Sei nun U eine offene Menge, die f enthält, für die jedoch fn ∈ U für unendlich viele n ∈ N gilt. Sei also (fnk )k∈N eine Teilk→∞

folge mit fnk ∈ U für jedes k ∈ N. Wegen fnk −→ f stochastisch, gibt es nach l→∞

Korollar 6.13 wiederum eine Teilfolge (fnkl )l∈N von (fnk )k∈N mit fnkl −→ f fast u¨ berall. Es ist dann aber fnkl ∈ U für alle bis auf endlich viele l, was einen Widerspruch darstellt. 2

Korollar 6.15. Sei (E, d) ein separabler, vollständiger metrischer Raum. Es sei (fn )n∈N eine stochastische Cauchy-Folge in E, das heißt, für jedes A ∈ A mit μ(A) < ∞ und jedes ε > 0 gilt

μ A ∩ {d(fn , fm ) > ε} −→ 0 für m, n → ∞.

Dann konvergiert (fn )n∈N stochastisch.

Beweis. Ohne Einschränkung kann μ(Ω) < ∞ angenommen werden. Wähle eine Teilfolge (fnk )k∈N , sodass

μ d(fn , fnk ) > 2−k < 2−k für jedes n ≥ nk . k→∞

Nach Satz 6.12(iii) gibt es ein f mit fnk −→ f fast u¨ berall, also insbesondere k→∞

μ({d(fnk , f ) > ε/2}) −→ 0 für jedes ε > 0. Nun ist aber

μ({d(fn , f ) > ε}) ≤ μ({d(fnk , fn ) > ε/2}) + μ({d(fnk , f ) > ε/2}). Ist k so groß, dass 2−k < ε/2 ist und n ≥ nk , so ist der erste Summand kleiner als n→∞ stoch 2−k , also gilt μ({d(fn , f ) > ε}) −→ 0, das heißt, es gilt fn −→ f . 2

130

6 Konvergenzsätze

¨ Ubung 6.1.1. Man zeige: Ist Ω höchstens abzählbar, so folgt aus stochastischer Konvergenz schon F.ü.-Konvergenz. ♣ ¨ Ubung 6.1.2. Man gebe jeweils ein Beispiel an für eine Folge, die (i) in L1 konvergiert, aber nicht fast u¨ berall, (ii) fast u¨ berall konvergiert, aber nicht in L1 .

♣

¨ Ubung 6.1.3. (Satz von Egorov (1911)) Sei (Ω, A, μ) ein endlicher Maßraum, und seien f1 , f2 , . . . messbare Funktionen, die fast u¨ berall gegen ein f konvergieren. Man zeige: Zu jedem ε > 0 gibt es eine Menge A ∈ A mit μ(Ω \ A) < ε und n→∞ supω∈A |fn (ω) − f (ω)| −→ 0. ♣ ¨ Ubung 6.1.4. Man zeige: Sind X1 , X2 , . . . unabhängige, ∞quadratintegrierbare Zufallsvariablen mit E[Xi ] = 0 für jedes i ∈ N und i=1 Var[Xi ] < ∞, dann n existiert ein quadratintegrierbares X mit X = limn→∞ i=1 Xi fast sicher. ♣

6.2 Gleichgradige Integrierbarkeit Wie bekommt man nun die Konvergenz im Mittel aus der F.ü.-Konvergenz? Das notwendige Additiv ist die gleichgradige Integrierbarkeit. Definition 6.16. Eine Familie F ⊂ L1 (μ) heißt gleichgradig integrierbar, falls

+ inf1 sup |f | − g dμ = 0. (6.2) 0≤g∈L (μ) f ∈F

Satz 6.17. Die Familie F ⊂ L1 (μ) ist genau dann gleichgradig integrierbar, wenn inf 1 sup |f | dμ = 0. (6.3) 0≤ g ∈L (μ) f ∈F

{|f |> g}

Ist μ(Ω) < ∞, so ist die gleichgradige Integrierbarkeit a¨ quivalent zu jeder der beiden folgenden Bedingungen (i) inf sup (|f | − a)+ dμ = 0, a∈[0,∞) f ∈F

(ii)

inf

sup

a∈[0,∞) f ∈F

{|f |>a}

|f | dμ = 0.

6.2 Gleichgradige Integrierbarkeit

Beweis. Offenbar gilt (|f | − g)+ ≤ |f | · gradige Integrierbarkeit.

{|f |>g} ,

131

also impliziert (6.3) die gleich-

Gelte nun (6.2). Für jedes ε > 0 sei gε ∈ L1 (μ) so gewählt, dass sup (|f | − gε )+ dμ ≤ ε.

(6.4)

f ∈F

Setze gε = 2gε/2 . Dann ist für f ∈ F |f | dμ ≤ (|f | − gε/2 )+ dμ + {|f |>gε }

0

{|f |>gε }

gε/2 dμ.

{|f |>gε }

Per Konstruktion ist {|f |>gε } (|f | − gε/2 )+ dμ ≤ ε/2 und gε/2 {|f |>gε } ≤ (|f | − 0 0 gε/2 )+ {|f |>gε } , also auch {|f |>gε } gε/2 dμ ≤ |f |>gε (|f | − gε/2 )+ dμ ≤ ε/2. Insgesamt haben wir also |f | dμ ≤ ε. (6.5) sup f ∈F

{|f |>gε }

Offenbar impliziert (ii) schon (i), und (i) impliziert die gleichgradige Integrierbarkeit von F, denn das Infimum wird hier ja u¨ ber die kleinere Menge der konstanten Funktionen gebildet. Wir müssen noch zeigen, dass gleichgradige Integrierbarkeit (ii) impliziert. Sei also F gleichgradig integrierbar und μ(Ω) 0 < ∞. Zu gegebenem ε > 0 (und gε und g˜ε wie oben) wählen wir aε so, dass {gε/2 >aε } gε/2 dμ < 2ε . Dann ist |f | dμ ≤ |f | dμ + gε/2 dμ < ε. 2 {|f |>aε }

{|f |> gε/2 }

{ gε/2 >aε }

Satz 6.18. (i) Ist F ⊂ L1 (μ) eine endliche Menge, so ist F gleichgradig integrierbar. (ii) Sind F, G ⊂ L1 (μ) gleichgradig integrierbar, dann sind auch (f + g : f ∈ F, g ∈ G) und (f − g : f ∈ F, g ∈ G) sowie {|f | : f ∈ F } gleichgradig integrierbar. (iii) Ist F gleichgradig integrierbar und existiert zu jedem g ∈ G ein f ∈ F mit |g| ≤ |f |, so ist auch G gleichgradig integrierbar. ¨ Beweis. Der einfache Beweis verbleibt zur Ubung.

2

Der folgende Satz beschreibt ein sehr gut anwendbares Kriterium für gleichgradige Integrierbarkeit. Wir werden diesen Satz an vielen Stellen einsetzen.

132

6 Konvergenzsätze

Satz 6.19. Für endliches μ ist F ⊂ L1 (μ) genau dann gleichgradig integrierbar, wenn es eine Funktion H : [0, ∞) → [0, ∞) gibt mit limx→∞ H(x)/x = ∞ und sup H(|f |) dμ < ∞. f ∈F

H kann sogar monoton wachsend und konvex gewählt werden. Beweis. ⇐= “ Es existiere H mit den angegebenen Eigenschaften. Dann gilt ” ↑ ∞, wenn a ↑ ∞. Also ist für a > 0 Ka := inf x≥a H(x) x 1 H(|f |) dμ sup |f | dμ ≤ sup Ka f ∈F {|f |≥a} f ∈F {|f |≥a} 1 a→∞ ≤ sup H (|f |) dμ −→ 0. Ka f ∈F =⇒ “ Sei F gleichgradig integrierbar. Da μ(Ω) < ∞ gilt, gibt es (nach ” Satz 6.17) eine Folge an ↑ ∞ mit sup (|f | − an )+ dμ < 2−n . f ∈F

Wir setzen H(x) =

∞

(x − an )+

n=1

für jedes x ≥ 0.

Dann ist H als Summe konvexer nFunktionen konvex. Ferner gilt für jedes n ∈ N und x ≥ 2an , dass H(x)/x ≥ k=1 (1 − ak /x)+ ≥ n/2, also gilt H(x)/x ↑ ∞. Schließlich ist nach dem Satz u¨ ber monotone Konvergenz für jedes f ∈ F

H(|f (ω)|) μ(dω) =

∞

n=1

+

(|f | − an ) dμ ≤

∞

2−n = 1.

3

n=1

Zur Notation · p erinnere man sich an Definition 4.16. Definition 6.20. Sei p ∈ [1, ∞]. Eine Familie F ⊂ Lp (μ) heißt beschränkt in Lp (μ), falls sup{f p : f ∈ F} < ∞ gilt. Korollar 6.21. Ist μ(Ω) < ∞ und p > 1 sowie F beschränkt in Lp (μ), dann ist F gleichgradig integrierbar. Beweis. Wende Satz 6.19 an mit der konvexen Abbildung H(x) = xp .

2


133

Korollar 6.22. Ist (Xi )i∈I eine Familie von Zufallsvariablen mit sup{|E[Xi ]| : i ∈ I} < ∞ und sup{Var[Xi ] : i ∈ I} < ∞, dann ist (Xi )i∈I gleichgradig integrierbar. Beweis. Dies folgt aus Korollar 6.21 mit p = 2, denn E[Xi2 ] = E[Xi ]2 + Var[Xi ] ist in i ∈ I beschränkt. 2 Lemma 6.23. Es existiert eine Abbildung h ∈ L1 (μ) mit h > 0 fast u¨ berall. Beweis. Seien A1 , A2 , . . . , ∈ A mit An ↑ Ω und μ(An ) < ∞ für n ∈ N. Setze h=

∞

n=1

Dann ist h > 0 fast u¨ berall und

0

2−n 1 + μ(An ))−1 h dμ ≤

∞

n=1

An .

μ(An ) 2−n 1+μ(A ≤ 1. n)

2

Satz 6.24. Eine Familie F ⊂ L1 (μ) ist genau dann gleichgradig integrierbar, wenn die beiden folgenden Bedingungen erfüllt sind. (i) C := sup |f | dμ < ∞. f ∈F

(ii) Es gibt eine Funktion 0 ≤ h ∈ L1 (μ), sodass für jedes ε > 0 ein δ(ε) > 0 existiert mit |f | dμ ≤ ε für jedes A ∈ A mit h dμ < δ(ε). sup f ∈F

A

A

Ist μ(Ω) < ∞, so ist (ii) gleichwertig mit (iii): (iii) Für jedes ε > 0 gibt es ein δ(ε) > 0, sodass |f | dμ ≤ ε für jedes A ∈ A mit μ(A) < δ(ε). sup f ∈F

A

Beweis. =⇒ “ Sei F gleichgradig integrierbar. Sei h ∈ L1 (μ) mit h > 0 ” fast u¨ berall. Sei ε > 0 und gε/3 eine ε/3–Schranke für F (wie in (6.5)). Wegen gε/3 ≥ αh ↓ ∅ für α → ∞, gilt für hinreichend großes α = α(ε) ε gε/3 dμ < . 3 g ε/3 ≥αh Mit δ(ε) :=

ε 3α(ε)

gilt dann für jedes A ∈ A mit

0

A

h dμ < δ(ε) und jedes f ∈ F

134

6 Konvergenzsätze

|f | dμ ≤

A

|f | dμ +

A

{|f |> gε/3 }

≤

ε + α 3

h dμ +

A

gε/3 dμ

g ε/3 ≥αh

gε/3 dμ ≤ ε.

Damit ist (ii) gezeigt. Setzen wir in die Rechnung A = Ω ein, so erhalten wir 2ε + α h dμ < ∞. |f | dμ ≤ 3 Damit ist auch (i) gezeigt. ⇐= “ Es gelten (i) und (ii). Sei ε > 0. Wähle h und δ(ε) > 0 wie in (ii) und C ” C wie in (i). Setze h = δ(ε) h. Dann ist

δ(ε) h dμ = C

{|f |> h}

also nach Voraussetzung

h} {|f |>

δ(ε) h dμ ≤ C

|f | dμ ≤ δ(ε),

|f | dμ < ε.

{|f |> h}

(ii) =⇒ (iii)“ Es gelte (ii).0 Sei ε > 0 und δ = δ(ε) wie in (ii) gewählt. Sei ” K < ∞ so groß gewählt, dass {h≥K} h dμ < δ/2. Für A ∈ A mit μ(A) < δ/(2K) ist dann h dμ ≤ Kμ(A) + h dμ < δ, also

0

{h≥K}

A

A

|f | dμ ≤ ε für jedes f ∈ F.

(iii) =⇒ (ii)“ ”

Gelten (iii) und μ(Ω) < ∞, so leistet h ≡ 1 das Gewünschte. 2

Wir kommen zum Hauptsatz dieses Abschnittes. Satz 6.25. Sei {fn : n ∈ N} ⊂ L1 (μ). Die folgenden Aussagen sind a¨ quivalent. n→∞

(i) Es gibt ein f ∈ L1 (μ) mit fn −→ f in L1 .

(ii) (fn )n∈N ist L1 (μ)-Cauchy-Folge, also fn − fm 1 −→ 0 für m, n → ∞.

(iii) (fn )n∈N ist gleichgradig integrierbar, und es gibt eine messbare Abbildung f stoch mit fn −→ f . Die Limiten in (i) und (iii) stimmen u¨ berein.


135

Beweis. (i) =⇒ (ii)“ Dies ist klar. ” (ii) =⇒ (iii)“ Für jedes ε > 0 gibt es ein nε ∈ N, sodass fn − fnε 1 < ε für ” jedes n ≥ nε gilt. Also ist für jedes n ≥ nε auch (|fn | − |fnε |)+ 1 < ε. Mithin ist gε = max{|f1 |, . . . , |fnε |} eine ε-Schranke für (fn )n∈N (wie in (6.4)). Für ε > 0 ist μ({|fm − fn | > ε}) ≤ ε−1 fm − fn 1 −→ 0 für m, n → ∞.

Deshalb ist (fn )n∈N auch eine stochastische Cauchy-Folge, also stochastisch konvergent nach Korollar 6.15. (iii) =⇒ (i)“ Sei f der stochastische Grenzwert der Folge (fn )n∈N . Wir nehmen ” an, dass (fn )n∈N nicht in L1 gegen f konvergiert. Dann gibt es ein ε > 0 und eine Teilfolge (fnk )k∈N mit f − fnk 1 > 2ε

für jedes k ∈ N,

(6.6)

1

wobei wir f − fnk 1 = ∞ setzen, falls f ∈ L (μ) ist. Nach Korollar 6.13 gibt k→∞

es eine Teilfolge (fn′k )k∈N von (fnk )k∈N mit fn′k −→ f fast u¨ berall. Nach dem Lemma von Fatou (Satz 4.21) mit 0 als Minorante gilt daher |f | dμ ≤ lim inf |fn′k | dμ < ∞. k→∞

1

Also ist f ∈ L (μ). Nach Satz 6.18(ii) (mit G = {f }) ist (f −fn′k )n∈N gleichgradig 0 integrierbar, also gibt es ein 0 ≤ g ∈ L1 (μ), sodass (|f − fn′k | − g)+ dμ < ε. Setze gk = |fn′k − f | ∧ g für jedes k ∈ N. k→∞

Dann gilt gk −→ 0 fast u¨ berall und g − gk ≥ 0. Nach dem Lemma von Fatou ist lim sup gk dμ = g dμ − lim inf (g − gk ) dμ k→∞ k→∞ ≤ g dμ − lim (g − gk ) dμ = 0. k→∞

Wegen {|f − fn′k | > gk } = {|f − fn′k | > g} ist also lim sup f − fn′k 1 ≤ lim sup |f − fn′k | dμ + lim sup gk dμ ≤ ε, k→∞

k→∞

{|f −fn′ |>g}

k→∞

k

im Widerspruch zu (6.6).

2

Korollar 6.26 (Lebesgue’scher Konvergenzsatz, majorisierte Konvergenz). Sei n→∞ f messbar und (fn )n∈N eine Folge in L1 (μ) mit fn −→ f stochastisch. Es existiere eine integrierbare Majorante 0 ≤ g ∈ L1 (μ) mit |fn | ≤ g fast u¨ berall für n→∞ jedes n ∈ N. Dann gilt f ∈ L1 (μ) und fn −→ f in L1 , also insbesondere 0 n→∞ 0 fn dμ −→ f dμ.

136

6 Konvergenzsätze

Beweis. Das folgt aus Satz 6.25, weil die Majorante die gleichgradige Integrierbarkeit der Folge (fn )n∈N sichert. 2 ¨ Ubung 6.2.1. Sei H ∈ L1 (μ) mit H > 0 μ-f.ü. (siehe Lemma 6.23) und (E, d) ein separabler metrischer Raum. Man zeige: (i) Durch dH (f, g) :=

1 ∧ d(f (ω), g(ω)) H(ω) μ(dω)

wird eine Metrik definiert, die die stochastische Konvergenz erzeugt. (ii) Ist (E, d) vollständig, so ist dH vollständig.

♣

6.3 Vertauschung von Integral und Ableitung Wir wollen untersuchen, wie sich Eigenschaften wie Stetigkeit und Differenzierbarkeit von Zweiparameterfunktionen unter Integration nach einer Variablen erhalten. Satz 6.27 (Stetigkeitslemma). Sei (E, d) ein metrischer Raum, x0 ∈ E und f : Ω × E → R eine Abbildung mit den Eigenschaften (i) für jedes x ∈ E ist die Abbildung ω → f (ω, x) in L1 (μ),

(ii) für fast alle ω ∈ Ω ist die Abbildung x → f (ω, x) stetig im Punkte x0 ,

(iii) die Abbildung h : ω → supx∈E |f (ω, x)| ist in L1 (μ). Dann ist die Abbildung F : E → R, x → f (ω, x) μ(dω) stetig in x0 .

Beweis. Sei (xn )n∈N eine Folge in E mit lim xn = x0 . Setze fn = f ( · , xn ). n→∞ n→∞

Nach Voraussetzung ist |fn | ≤ h und fn −→ f ( · , x0 ) fast u¨ berall. Nach dem Satz von der majorisierten Konvergenz (Korollar 6.26) ist n→∞ F (xn ) = fn dμ −→ f ( · , x0 ) dμ = F (x0 ). Also ist F stetig in x0 .

2

6.3 Vertauschung von Integral und Ableitung

137

Satz 6.28 (Differentiationslemma). Sei I ⊂ R ein nichttriviales, offenes Intervall und f : Ω × I eine Abbildung mit den Eigenschaften (i) für jedes x ∈ I ist (ω → f (ω, x)) ∈ L1 (μ),

(ii) für fast alle ω ∈ Ω ist I → R, x → f (ω, x) differenzierbar, wobei wir die Ableitung mit f ′ bezeichnen, (iii) h := supx∈I |f ′ ( · , x)| ∈ L1 (μ). Dann gilt: Für jedes x ∈ I ist f ′ ( · , x) ∈ L1 (μ). Die Funktion F : x → 0 f (ω, x) μ(dω) ist differenzierbar mit Ableitung F ′ (x) = f ′ (ω, x) μ(dω). Beweis. Sei x0 ∈ I und (xn )n∈N eine Folge in I mit xn = x0 für jedes n ∈ N, sowie lim xn = x0 . Wir zeigen, dass entlang der Folge (xn )n∈N die Differenzenn→∞ quotienten konvergieren. Setze gn (ω) =

f (ω, xn ) − f (ω, x0 ) xn − x0

für jedes ω ∈ Ω.

Nach Voraussetzung (ii) gilt n→∞

gn −→ f ′ ( · , x0 )

μ − fast u¨ berall.

Nach dem Zwischenwertsatz der Differentialrechnung existiert zu jedem n ∈ N und fast jedem ω ∈ Ω ein yn (ω) ∈ I mit gn (ω) = f ′ (ω, yn (ω)). Speziell ist |gn | ≤ h für jedes n ∈ N. Nach dem Satz von der majorisierten Konvergenz (Korollar 6.26) ist also die Grenzfunktion f ′ ( · , x0 ) in L1 (μ) und F (xn ) − F (x0 ) lim = lim gn (ω) μ(dω) = f ′ (ω, x0 ) μ(dω). 2 n→∞ n→∞ xn − x0 Beispiel 6.29. (Laplace-Transformation) Sei X eine nichtnegative Zufallsvariable auf (Ω, A, P), I = [0, ∞) und f (x, λ) = e−λx für λ ∈ I. Dann ist * ) F (λ) = E e−λX

in (0, ∞) unendlich oft differenzierbar. Die ersten Ableitungen sind F ′ (λ) = −E[Xe−λX ] und F ′′ (λ) = E[(X 2 )e−λX ]. Sukzessive erhalten wir die n-te Ableitung F (n) (λ) = E[(−X)n e−λX ]. Es gilt (monotone Konvergenz) E[X] = − lim F ′ (λ) λ↓0

(6.7)

138

6 Konvergenzsätze

und E[X n ] = (−1)n lim F (n) (λ) λ↓0

In der Tat: Für ε > 0 und I = (ε, ∞) ist

sup x≥0, λ∈I


d dλ f (x, λ)

=

(6.8) sup

x e−λx =

x≥0, λ∈I

ε−1 e−1 < ∞. Damit gelten die Voraussetzungen für F . Iterativ erhalten des Satzes dn n −n < ∞ für x ≥ 0 und wir die Aussage für F (n) , denn dλ n f (x, λ) ≤ (n/ε) e λ ≥ ε. 3 ¨ Ubung 6.3.1. Sei X eine Zufallsvariable auf (Ω, A, P) und

) * Λ(t) := log E etX für jedes t ∈ R.

Man zeige, dass D := {t ∈ R : Λ(t) < ∞} ein nichtleeres Intervall ist, und dass Λ im Inneren von D unendlich oft differenzierbar ist. ♣

7 Lp -Räume und Satz von Radon-Nikodym

In diesem Kapitel wollen wir die Räume der Funktionen untersuchen, deren p-te Potenz integrierbar ist. Wir leiten in Abschnitt 7.2 zunächst wichtige Ungleichungen her (Hölder, Minkowski, Jensen) und untersuchen dann in Abschnitt 7.3 den Fall p = 2, wo wir Hilberträume vorliegen haben, im Detail. Neben den genannten Ungleichungen sind die wichtigsten Ergebnisse für die Stochastik der Zerlegungssatz von Lebesgue sowie der Satz von Radon-Nikodym in Abschnitt 7.4. Der Leser mag beim ersten Lesen die anderen, eher analytisch als stochastisch ausgerichteten, Teile dieses Kapitels u¨ berschlagen.

7.1 Definitionen In Definition 4.16 hatten wir für messbares f : Ω → R definiert 1/p p f p := |f | dμ für p ∈ [1, ∞), und

f ∞ := inf K ≥ 0 : μ(|f | > K) = 0 .

Ferner hatten wir die Räume definiert, wo diese Ausdrücke endlich sind Lp (Ω, A, μ) = Lp (A, μ) = Lp (μ) = {f : Ω → R ist messbar und f p < ∞}. Wir hatten gesehen, dass · 1 eine Pseudonorm auf L1 (μ) ist. Unser erstes Ziel ist es hier, · p zu einer echten Norm zu machen, und zwar für jedes p ∈ [1, ∞]. Abgesehen davon, dass die Dreiecksungleichung noch zu zeigen ist, müssen wir zu diesem Zwecke auch den Raum verändern, denn es gilt nur f − gp = 0

⇐⇒

f =g

μ-f.ü.

Bei einer echten (also nicht nur Pseudo-)Norm muss aus der linken Seite schon Gleichheit (nicht nur f.ü.) von f und g gelten. Wir sehen daher f und g als a¨ quivalent an, falls f = g fast u¨ berall. Sei also N = {f ist messbar und f = 0 μ-f.ü.}.


140

Für jedes p ∈ [1, ∞] ist N ein Untervektorraum von Lp (μ). Wir können also formal den Quotientenraum bilden. Dies ist das Standardverfahren, um aus einer Pseudonorm, eine Norm zu machen. Definition 7.1 (Quotientenraum). Für jedes p ∈ [1, ∞] definieren wir Lp (Ω, A, μ) := Lp (Ω, A, μ)/N = {f¯ := f + N : f ∈ Lp (μ)}. = = 0 0 Für f¯ ∈ Lp (μ) setzen wir =f¯=p = f p für ein f ∈ f¯ und f¯ dμ = f dμ, falls dieser Ausdruck für f definiert ist. = = Man beachte, dass =f¯=p nicht von der Wahl des Repräsentanten f ∈ f¯ abhängt.

Wir wollen jetzt zunächst die Konvergenz bezüglich · p untersuchen und erweitern dazu den entsprechenden Satz (Satz 6.25) u¨ ber die Konvergenz bezüglich · 1 . n→∞

Definition 7.2. Seien p ∈ [1, ∞] und f, f1 , f2 , . . . ∈ Lp (μ). Falls fn − f p −→ 0 gilt, so sagen wir, dass (fn )n∈N im p-ten Mittel gegen f konvergiere und schreiben Lp

fn −→ f. Satz 7.3. Seien p ∈ [1, ∞] und f1 , f2 , . . . ∈ Lp (μ). Dann sind a¨ quivalent: Lp

(i) Es gibt ein f ∈ Lp (μ) mit fn −→ f .

(ii) (fn )n∈N ist eine Cauchy-Folge in Lp (μ). Ist p < ∞ so sind (i) und (ii) zudem a¨ quivalent zu (iii) (|fn |p )n∈N ist gleichgradig integrierbar, und es gibt ein messbares f mit stoch fn −→ f . Die Limiten in (i) und (iii) stimmen u¨ berein. ¨ Beweis. Für p = ∞ ist die Aquivalenz von (i) und (ii) eine einfache Schlussfolgerung aus der Dreiecksungleichung. Sei nun p ∈ [1, ∞). Der Beweis verläuft a¨ hnlich wie der Beweis von Satz 6.25. Für x, y ∈ R ist |x + y|p ≤ 2p (|x|p + |y|p ). Also ist

n→∞ fm − fn pp ≤ 2p fm − f pp + fn − f pp −→ 0 für m, n → ∞.

(i) =⇒ (ii)“ ”

(ii) =⇒ (iii)“ Das geht genauso wie im Beweis von Satz 6.25 ” n→∞ (iii) =⇒ (i)“ Wegen |fn |p −→ |f |p stoch., gilt |f |p ∈ L1 (μ) nach Satz 6.25, ” n→∞ p und damit f ∈ L (μ). Setze gn = |fn − f |p für n ∈ N. Dann ist gn −→ 0

7.2 Ungleichungen und Satz von Fischer-Riesz

141

stochastisch, und (gn )n∈N ist gleichgradig integrierbar, da gn ≤ 2p (|fn |p + |f |p ). n→∞ Also gilt (nach Satz 6.25) fn − f pp = gn 1 −→ 0. 2 ¨ Ubung 7.1.1. Seien (Xi )i∈N unabhängige, quadratintegrierbare Zufallsvariablen mit E[Xi ] = 0 für jedes i ∈ N. ∞ (i) Man zeige: Gilt i=1 Var[Xi ] < ∞, so existiert eine reelle Zufallsvariable n n→∞ X mit i=1 Xi −→ X fast sicher.

(ii) Gilt in (i) auch die Umkehrung?

♣

¨ Ubung 7.1.2. Sei f : Ω → R messbar. Zeige: (i) Gilt

0

p→∞

|f |p dμ < ∞ für ein p ∈ (0, ∞), so gilt f p −→ f ∞ .

(ii) Auf die Integrierbarkeitsbedingung in (i) kann nicht verzichtet werden.

♣

¨ Ubung 7.1.3. Sei p ∈ (1, ∞), f ∈ Lp (λ), wobei λ das Lebesgue-Maß auf R ist, und T : R → R, x → x + 1. Man zeige: n−1 1 n→∞ f ◦ T k −→ 0 n

in Lp (λ).

k=0

♣

7.2 Ungleichungen und Satz von Fischer-Riesz Wir wollen eine der wichtigsten Ungleichungen der Wahrscheinlichkeitstheorie, die Jensen’sche Ungleichung für konvexe Funktionen, herleiten. Aus dieser kann man die Hölder’sche Ungleichung und die Minkowski’sche Ungleichung folgern, die uns die Dreiecksungleichung für · p liefern sowie den Dualraum zu bestimmen helfen. Allerdings geben wir hier direkte (und einfachere) Beweise für die beiden letztgenannten Ungleichungen. Bevor wir zur Jensen’schen Ungleichung kommen, wiederholen wir kurz Grundsätzliches zur Konvexität von Mengen und Funktionen. Definition 7.4. Eine Teilmenge G eines Vektorraums (beziehungsweise eines affinlinearen Raums) heißt konvex, falls für je zwei Punkte x, y ∈ G und jedes λ ∈ [0, 1] auch λx + (1 − λ)y ∈ G ist. Beispiele 7.5.

(i) Die konvexen Teilmengen von R sind die Intervalle.

(ii) Ein linearer Unterraum eines Vektorraums ist konvex. (iii) Die Menge aller W-Maße auf einem Messraum ist eine konvexe Menge

3

142


Definition 7.6. Sei G eine konvexe Menge. Eine Abbildung ϕ : G → R heißt konvex, falls für je zwei Punkte x, y ∈ G und jedes λ ∈ [0, 1] gilt ϕ(λx + (1 − λ)y) ≤ λϕ(x) + (1 − λ)ϕ(y). f heißt konkav, falls −f konvex ist. Ist I ⊂ R ein Intervall und ϕ : I → R stetig und im Inneren I ◦ zweimal stetig differenzierbar mit zweiter Ableitung ϕ′′ , so ist ϕ genau dann konvex, wenn ϕ′′ (x) ≥ 0 ist für alle x ∈ I ◦ . Anders ausgedrückt: Die erste Ableitung ϕ′ einer konvexen Funktion ist eine monoton wachsende Funktion. Wir werden im nächsten Satz sehen, dass dies auch dann noch gilt, wenn ϕ nicht zweimal stetig differenzierbar ist, wenn wir zur rechtsseitigen Ableitung D+ ϕ u¨ bergehen (oder zur linksseitigen), von der wir zeigen, dass sie immer existiert. Satz 7.7. Sei I ⊂ R ein Intervall mit Innerem I ◦ , sowie ϕ : I → R eine konvexe Abbildung. Dann gilt: (i) ϕ ist stetig in I ◦ und insbesondere messbar bezüglich B(I).

(ii) Für x ∈ I ◦ definiere die Funktion der Differenzenquotienten gx (y) :=

ϕ(y) − ϕ(x) y−x

für y ∈ I \ {x}.

Dann ist gx monoton wachsend, und es existieren die links- und rechtsseitigen Ableitungen D− ϕ(x) := lim gx (y) = sup{gx (y) : y < x} y↑x

und D+ ϕ(x) := lim gx (y) = inf{gx (y) : y > x}. y↓x

(iii) Für x ∈ I ◦ gilt D− ϕ(x) ≤ D+ ϕ(x) und ϕ(x) + (y − x)t ≤ ϕ(y) für jedes y ∈ I

⇐⇒

t ∈ [D− ϕ(x), D+ ϕ(x)].

D− ϕ(x) und D+ ϕ(x) sind also die minimale und die maximale Tangentensteigung in x. (iv) Die Abbildungen x → D− ϕ(x) und x → D+ ϕ(x) sind monoton wachsend. x → D− ϕ(x) ist linksstetig und x → D+ ϕ(x) ist rechtsstetig. Es gilt D− ϕ(x) = D+ ϕ(x) in allen Stetigkeitspunkten von D− ϕ und D+ ϕ. (v) ϕ ist genau dann in x differenzierbar, wenn D− ϕ(x) = D+ ϕ(x) ist. In diesem Fall ist die Ableitung ϕ′ (x) = D+ ϕ(x). 0b (vi) ϕ ist fast u¨ berall differenzierbar, und es gilt ϕ(b) − ϕ(a) = a D+ ϕ(x) dx für a, b ∈ I ◦ .


143

Beweis. (i) Sei x ∈ I ◦ . Wir nehmen an, dass lim inf n→∞ ϕ(x−1/n) ≤ ϕ(x)−ε für ein ε > 0 gilt. Da ϕ konvex ist, gilt ϕ(y) ≥ ϕ(x) + n(y − x)(ϕ(x) − ϕ(x − 1/n))

für jedes y > x und n ∈ N.

Zusammen mit der obigen Annahme folgt ϕ(y) = ∞ für jedes y > x. Mithin ¨ war die Annahme falsch. Die analoge Uberlegung für die rechte Seite liefert die Stetigkeit von ϕ in x. (ii)

Die Monotonie folgt aus der Konvexität. Die anderen Aussagen sind klar.

(iii) Aufgrund der Monotonie von gx gilt D− ϕ(x) ≤ D+ ϕ(x). Per Konstruktion ist ϕ(x) + (y − x)t ≤ ϕ(y) für alle y < x genau dann, wenn t ≥ D− ϕ(x) ist und für alle y > x genau dann, wenn t ≤ D+ ϕ(x) ist.

(iv) Für ε > 0 ist aufgrund der Konvexität x → gx (x + ε) monoton wachsend und nach (i) stetig. Als Infimum monotoner, stetiger Funktionen ist x → D+ ϕ(x) monoton wachsend und rechtsstetig. Analog folgt die Aussage für D− ϕ. Da x → gx (y) monoton ist, folgt D+ ϕ(x′ ) ≥ D− ϕ(x′ ) ≥ D+ ϕ(x) für x′ > x. Ist D+ ϕ stetig in x, so ist D− ϕ(x) = D+ ϕ(x). (v) Dies ist klar, da D− ϕ und D+ ϕ die Limiten der linksseitigen und rechtsseitigen Sekantensteigungsfolgen sind. (vi) Für ε > 0 sei Aε = {x ∈ I : D+ ϕ(x) ≥ ε + limy↑x D+ ϕ(y)} die Menge der Unstetigkeitsstellen der Höhe mindestens ε. Für je zwei Punkte a, b ∈ I mit a < b ist #(Aε ∩ (a, b)) ≤ ε−1 (D+ ϕ(b) − D+ ϕ(a)), also Aε∩ (a, b) eine endliche ∞ Menge. Daher ist Aε höchstens abzählbar. Also ist auch A = n=1 A1/n höchstens abzählbar und damit eine Nullmenge. Nach (iv) und (v) ist ϕ differenzierbar in I ◦ \A mit Ableitung D+ ϕ. 2 Ist I ein Intervall, so heißt eine Abbildung g : I → R affin linear, falls es Zahlen a, b ∈ R gibt mit g(x) = ax + b für alle x ∈ I. Ist ϕ : I → R eine Abbildung, so schreiben wir L(ϕ) := {g : I → R ist affin linear und g ≤ ϕ}. Wir schreiben kurz sup L(ϕ) für die Abbildung x → sup{f (x) : f ∈ L(ϕ)}. Korollar 7.8. Sei I ⊂ R ein offenes Intervall und ϕ : I → R eine Abbildung. Dann sind a¨ quivalent (i) ϕ ist konvex. (ii) Zu jedem x0 ∈ I existiert ein g ∈ L(ϕ) mit g(x0 ) = ϕ(x0 ).

(iii) L(ϕ) ist nichtleer und ϕ = sup L(ϕ).

(iv) Es existiert eine Folge (gn )n∈N in L(ϕ) mit ϕ = limn→∞ max{g1 , . . . , gn }.

144


Beweis. (ii) =⇒ (iii) ⇐⇒ (iv)“ Dies ist klar. ” (iii) =⇒ (i)“ Das Supremum konvexer Funktionen ist konvex, und jede affin ” lineare Funktion ist konvex. Also ist sup L(ϕ) konvex, falls L(ϕ) = ∅. (i) =⇒ (ii)“ Nach Satz 7.7(iii) ist für jedes x0 ∈ I die Abbildung x → ϕ(x0 ) + ” (x − x0 )D+ ϕ(x0 ) in L(ϕ). 2 Satz 7.9 (Jensen’sche Ungleichung). Sei I ⊂ R ein Intervall und X eine Zufallsvariable mit Werten in I und E[|X|] < ∞. Ist ϕ konvex, dann gilt E[ϕ(X)− ] < ∞ und E[ϕ(X)] ≥ ϕ(E[X]). Beweis. Da nach Korollar 7.8(iii) L(ϕ) = ∅ ist, können wir a, b ∈ R so wählen, dass ax + b ≤ ϕ(x) gilt für alle x ∈ I. Es ist dann E[ϕ(X)− ] ≤ E[(aX + b)− ] ≤ |b| + |a| · E[|X|] < ∞. Wir unterscheiden die Fälle, wo E[X] im Inneren I ◦ oder am Rand ∂I liegt. 1. Fall Ist E[X] ∈ I ◦ , so sei t+ := D+ ϕ(E[X]) die maximale Tangentensteigung von ϕ in E[X]. Dann ist ϕ(x) ≥ t+ · (x − E[X]) + ϕ(E[X]) für jedes x ∈ I, also E[ϕ(X)] ≥ t+ E[X − E[X]] + E[ϕ(E[X])] = ϕ(E[X]). 2. Fall Ist E[X] ∈ ∂I, so ist X = E[X] f.s., also E[ϕ(X)] = E[ϕ(E[X])] = ϕ(E[X]). 2 Die Jensen’sche Ungleichung lässt sich auf den Rn ausweiten. Hierfür benötigen wir eine Darstellung konvexer Funktionen mehrerer Veränderlicher als Supremum von affin linearen Funktionen. Dabei heißt eine Funktion g : Rn → R affin linear, wenn es ein a ∈ Rn und ein b ∈ R gibt mit g(x) = a, x! + b für jedes x. Hierbei bezeichnet · , · ! das gewöhnliche Skalarprodukt auf Rn . Satz 7.10. Sei G ⊂ Rn offen und konvex und ϕ : G → R eine Abbildung. Dann gilt Korollar 7.8 sinngemäß mit I = G. Ist ϕ konvex, so ist ϕ stetig und insbesondere messbar. Ist ϕ zweimal stetig differenzierbar, so ist ϕ genau dann konvex, wenn die Hesse-Matrix positiv semidefinit ist. Beweis. Da wir die Aussagen nur für den Beweis der mehrdimensionalen Jensen’schen Ungleichung benötigen, die aber im weiteren Verlaufe keine tragende Bedeutung hat, geben wir nur die Literatur an: Im Buch von Rockafellar [138] folgt die Stetigkeit aus Theorem 10.1, die Aussage von 7.8 aus Theorem 12.1 beziehungsweise Theorem 18.8. Die Aussage u¨ ber die Hesse-Matrix steht in Theorem 4.5. 2


145

Satz 7.11 (Jensen’sche Ungleichung im Rn ). Sei G ⊂ Rn konvex, und seien X1 , . . . , Xn integrierbare reelle Zufallsvariablen mit P[(X1 , . . . , Xn ) ∈ G] = 1. Sei ferner ϕ : G → R konvex. Dann ist E[ϕ(X1 , . . . , Xn )− ] < ∞ und ) * E ϕ(X1 , . . . , Xn ) ≥ ϕ(E[X1 ], . . . , E[Xn ]).

Beweis. Wir betrachten zunächst den Fall, wo G offen ist. Die Argumentation läuft hier a¨ hnlich wie beim Beweis von Satz 7.9. Sei g ∈ L(ϕ) mit g(E[X1 ], . . . , E[Xn ]) = ϕ(E[X1 ], . . . , E[Xn ]). Da g ≤ ϕ linear ist, folgt * ) E ϕ(X1 , . . . , Xn ) ≥ E[g(X1 , . . . , Xn )] = g(E[X1 ], . . . , E[Xn ]).

Die Integrierbarkeit von ϕ(X1 , . . . , Xn )− folgt völlig analog wie im eindimensionalen Fall. Sei jetzt der allgemeine Fall betrachtet, das heißt derjenige, wo G nicht notwendigerweise offen ist. Hier ist das Problem, wenn (E[X1 ], . . . , E[Xn ]) ∈ ∂G liegt, etwas kniffliger als im eindimensionalen Fall, weil ∂G flache Stücke haben kann, die aber selbst notwendigerweise wieder konvex sind. Man kann also nicht schließen, dass (X1 , . . . , Xn ) fast sicher gleich dem Erwartungswert ist. Wir skizzieren nur das Argument: Zunächst kann man nur folgern, dass (X1 , . . . , Xn ) fast sicher in einem solchen flachen Stück liegt. Dieses ist dann notwendigerweise von Dimension kleiner als n ist (oder Null, falls das Stück schon ein Punkt ist). Jetzt muss man ϕ auf das flache Stück einschränken und sich iterativ in der Dimension herunter arbeiten. Die Details finden sich beispielsweise in [37, Theorem 10.2.6].2

Beispiel 7.12. Sei X eine reelle Zufallsvariable mit E[X 2 ] < ∞, I = R und ϕ(x) = x2 . Aus der Jensen’schen Ungleichung folgt Var[X] = E[X 2 ] − (E[X])2 ≥ 0.

3

Beispiel 7.13. G = [0, ∞) × [0, ∞), und α ∈ (0, 1), sowie ϕ(x, y) = xα y 1−α . ¨ ϕ ist konkav (Ubung!), daher gilt für nichtnegative Zufallsvariablen X und Y mit endlicher Erwartung (nach Satz 7.11) * ) E X α Y 1−α ≤ (E[X])α (E[Y ])1−α . 3

Beispiel 7.14. und Y wie in Beispiel 7.13. Sei p ∈ (1, ∞). Dann ist

Seien G, X p ψ(x, y) = x1/p + y 1/p konkav. Daher gilt (nach Satz 7.11) p p ( ' E[X]1/p + E[Y ]1/p . 3 ≥ E X 1/p + Y 1/p Wir kommen nun zu den beiden weiteren wichtigen Ungleichungen, der Hölder’schen Ungleichung und der Minkowski’schen Ungleichung. Zur Vorbereitung bringen wir ein Lemma.

146


Lemma 7.15 (Young’sche Ungleichung). Für p, q ∈ (1, ∞) mit x, y ∈ [0, ∞) gilt yq xp + . xy ≤ p q

1 p

+ 1q = 1 und für (7.1)

xp yq + − xy für p q x ∈ [0, ∞). f ist zweimal stetig differenzierbar in (0, ∞) mit Ableitungen f ′ (x) = xp−1 − y und f ′′ (x) = (p − 1)xp−2 . Speziell ist f strikt konvex und besitzt daher p eine eindeutige Minimalstelle bei x0 = y 1/(p−1) . Nach Voraussetzung ist q = p−1 , p q also x0 = y und daher 1 1 f (x0 ) = + 2 y q − y 1/(p−1) y = 0. p q Beweis. Wir halten y ∈ [0, ∞) fest und definieren f (x) :=

Satz 7.16 (Hölder’sche Ungleichung). Seien p, q ∈ [1, ∞] mit f ∈ Lp (μ), g ∈ Lq (μ). Dann gilt (f g) ∈ L1 (μ) und

1 p

+

1 q

= 1 und

f g1 ≤ f p · gq . Beweis. Die Fälle p = 1 und p = ∞ sind trivial. Sei also nun p ∈ (1, ∞) und f ∈ Lp (μ) und g ∈ Lq (μ) nicht fast u¨ berall Null. Indem wir zu f /f p und g/gq u¨ bergehen, können wir f p = gq = 1 annehmen. Nach Lemma 7.15 ist 1 1 |f |p dμ + |g|q dμ f g1 = |f | · |g| dμ ≤ p q 1 1 = + = 1 = f p · gq . 2 p q Satz 7.17 (Minkowski’sche Ungleichung). Für p ∈ [1, ∞] und f, g ∈ Lp (μ) gilt f + gp ≤ f p + gp .

(7.2)

Beweis. Der Fall p = ∞ ist wiederum trivial. Sei also p ∈ [1, ∞). Die linke Seite in (7.2) wird nicht kleiner, wenn wir f und g durch |f | und |g| ersetzen. Wir können also ohne Einschränkung annehmen, dass f ≥ 0 und g ≥ 0 gelten. Nun ist (f + g)p ≤ 2p (f p ∨ g p ) ≤ 2p (f p + g p ), also ist f + g ∈ Lp (μ). Mit Hilfe der Hölder’schen Ungleichung, angewandt auf f · (f + g)p−1 und auf g · (f + g)p−1 , erhalten wir f + gpp = (f + g)p dμ = f (f + g)p−1 dμ + g(f + g)p−1 dμ ≤ f p · (f + g)p−1 q + gp · (f + g)p−1 q

= (f p + gp ) · f + gp−1 , p

7.3 Hilberträume

147

wobei wir im letzten Schritt ausgenutzt haben, dass p − p/q = 1 ist. Teilen wir nun beide Seiten durch f + gp−1 , so folgt (7.2). 2 p Wir haben in Satz 7.17 die Dreiecksungleichung gezeigt und damit, dass · p eine Norm ist. In Satz 7.3 wurde hingegen gezeigt, dass diese Norm vollständig ist (jede Cauchy-Folge konvergiert). Ein vollständiger normierter Vektorraum heißt Banachraum. Wir haben also den folgenden Satz gezeigt: Satz 7.18 (Fischer-Riesz). Für p ∈ [1, ∞] ist (Lp (μ), · p ) ein Banachraum. ¨ Ubung 7.2.1. Zeige die Hölder’sche Ungleichung mit Hilfe der Jensen’schen Ungleichung mit der Funktion aus Beispiel 7.13. ♣ ¨ Ubung 7.2.2. Zeige die Minkowski’sche Ungleichung mit Hilfe der Jensen’schen Ungleichung mit der Funktion aus Beispiel 7.14. ♣ ¨ Ubung 7.2.3. Sei X eine reelle Zufallsvariable und p, q ∈ (1, ∞) mit p1 + 1q = 1. Zeige: X ist genau dann in Lp (P), wenn es ein C < ∞ gibt, sodass |E[XY ]| ≤ C Y q für jede beschränkte Zufallsvariable Y . ♣

7.3 Hilberträume In diesem Abschnitt betrachten wir nur den Fall p = 2. Ziel ist der Darstellungssatz von Riesz-Fréchet für stetige lineare Funktionale auf Hilberträumen. Dieser Satz stellt einen Baustein für einen funktionalanalytischen Beweis des Satzes von RadonNikodym dar. Definition 7.19. Sei V ein reeller Vektorraum. Eine Abbildung · , · ! : V ×V → R heißt Skalarprodukt, falls (i) (Linearität) (ii) (Symmetrie)

x, α y + z! = α x, y! + x, z! für alle x, y, z ∈ V und α ∈ R. x, y! = y, x! für alle x, y ∈ V .

(iii) (Positive Definitheit)

x, x! > 0 für jedes x ∈ V \ {0}.

Gelten lediglich (i), (ii) und x, x! ≥ 0 für jedes x, so heißt · , · ! eine positiv semidefinite symmetrische Bilinearform. Ist · , · ! ein Skalarprodukt, so heißt (V, · , · !) ein (reeller) Hilbertraum, falls die durch x := x, x!1/2 definierte Norm vollständig ist, falls also (V, · ) ein Banachraum ist.

148


Definition 7.20. Für f, g ∈ L2 (μ) definieren wir f, g! := f g dμ. Für f¯, g¯ ∈ L2 (μ) definieren wir f¯, g¯! := f, g!, wobei f ∈ f¯ und g ∈ g¯. Man beachte, dass diese Definition unabhängig von der Wahl der Repräsentanten f und g ist. Satz 7.21. · , · ! ist ein Skalarprodukt auf L2 (μ) und eine positiv semidefinite symmetrische Bilinearform auf L2 (μ). Es gilt f 2 = f, f !1/2 . ¨ Beweis. Ubung!

2

Als Korollar zu Satz 7.18 erhalten wir: Korollar 7.22. (L2 (μ), · , · !) ist ein reeller Hilbertraum. Lemma 7.23. Ist · , · ! eine positiv semidefinite Bilinearform auf dem reellen Vektorraum V , so ist · , · ! : V × V → R stetig (bezüglich der Produkttopologie der Topologie auf V , die von der Pseudometrik d(x, y) = x − y, x − y!1/2 erzeugt wird). Beweis. Klar.

2

Definition 7.24 (Orthogonales Komplement). Sei V ein reeller Vektorraum mit Skalarprodukt · , · !. Ist W ⊂ V , so bezeichnen wir den Untervektorraum

W ⊥ := v ∈ V : v, w! = 0 für alle w ∈ W als das orthogonale Komplement von W .

Satz 7.25 (Orthogonale Zerlegung). Sei (V, · , · !) ein Hilbertraum und W ⊂ V ein abgeschlossener linearer Unterraum. Für jedes x ∈ V existiert eine eindeutige Darstellung x = y + z, wobei y ∈ W und z ∈ W ⊥ ist. Beweis. Sei x ∈ V und c := inf{x − w : w ∈ W }. Sei ferner (wn )n∈N eine n→∞ Folge in W mit x − wn −→ c. Die Parallelogrammgleichung ergibt = =2 =1 = = . wm − wn 2 = 2 wm − x2 + 2 wn − x2 − 4 = (w + w ) − x n =2 m =

Da W linear ist, ist (wm + wn )/2 ∈ W , also 12 (wm + wn ) − x ≥ c. Also ist (wn )n∈N eine Cauchy-Folge: wm − wn −→ 0, falls m, n → ∞.

7.3 Hilberträume

149

Da V vollständig ist und W abgeschlossen, ist auch W vollständig, also gibt es ein n→∞ y ∈ W mit wn −→ y. Setze nun z := x−y. Dann ist z = limn→∞ wn −x = c aufgrund der Stetigkeit der Norm (Lemma 7.23). Betrachte ein beliebiges w ∈ W \ {0}. Wir setzen ̺ := − z, w!/w2 und erhalten y + ̺w ∈ W , also c2 ≤ x − (y + ̺ w)2 = z2 + ̺2 w2 + 2̺ z, w! = c2 − ̺2 w2 . Folglich ist z, w! = 0 für alle w ∈ W und damit z ∈ W ⊥ .

Die Eindeutigkeit der Darstellung klar: Ist x = y ′ + z ′ eine weitere orthogonale Zerlegung, so ist y − y ′ ∈ W und z − z ′ ∈ W ⊥ sowie y − y ′ + z − z ′ = 0, also ist 0 = y − y ′ + z − z ′ 2 = y − y ′ 2 + z − z ′ 2 + 2 y − y ′ , z − z ′ ! = y − y ′ 2 + z − z ′ 2 .

Es folgt y = y ′ und z = z ′ .

2

Satz 7.26 (Darstellungssatz von Riesz-Fréchet). Sei (V, · , · !) ein Hilbertraum und F : V → R eine Abbildung. Dann sind a¨ quivalent: (i) F ist stetig und linear. (ii) Es gibt ein f ∈ V mit F (x) = x, f ! für alle x ∈ V . Das Element f ∈ V in (ii) ist eindeutig bestimmt. Beweis. (ii) =⇒ (i)“ Für jedes f ∈ V ist per Definition des Skalarprodukts die ” Abbildung x → x, f ! linear. Nach Lemma 7.23 ist diese Abbildung auch stetig. (i) =⇒ (ii)“ Ist F ≡ 0, so wähle f = 0. Sei nun F nicht identisch Null. Da F ” stetig ist, ist der Kern W := F −1 ({0}) ein abgeschlossener echter linearer Unterraum von V . Sei v ∈ V \ W und v = y + z für y ∈ W und z ∈ W ⊥ die orthogonale Zerlegung von v. Dann ist z = 0, und F (z) = F (v) − F (y) = F (v) = 0, und wir können u := z/F (z) ∈ W ⊥ definieren. Offenbar ist F (u) = 1, und für jedes x ∈ V ist F (x − F (x)u) = F (x) − F (x)F (u) = 0, also x − F (x)u ∈ W und damit x − F (x)u, u! = 0. Folglich ist F (x) = x, u!/u2 . Setzen wir nun f := u/u2 , so ist F (x) = x, f ! für alle x ∈ V . Eindeutigkeit“ Sei x, f ! = x, g! für alle x ∈ V . Setzen wir x = f − g, so ” erhalten wir 0 = f − g, f − g!, also f = g. 2 Wir werden den Darstellungssatz im folgenden Abschnitt für den Raum L2 (μ) brauchen statt für den Hilbertraum L2 (μ). Mit ein bisschen abstract nonsense lässt sich aber der vorangehende Satz auf diese Situation anwenden. Wir erinnern daran, dass N = {f ∈ L2 (μ) : f, f ! = 0} der Unterraum der Funktionen ist, die fast sicher Null sind, und L2 (μ) = L2 (μ)/N der Quotientenraum. Dies ist ein Spezialfall der

150


Situation, wo (V, · , · !) ein linearer Raum mit vollständiger positiv semidefiniter symmetrischer Bilinearform ist. In diesem Fall ist N := {v ∈ V : v, v! = 0} und V0 = V /N := {f + N : f ∈ V }. Wir schreiben v + N , w + N !0 := v, w! und erhalten so einen Hilbertraum (V0 , · , · !0 ). Korollar 7.27. Sei (V, · , · !) ein linearer Vektorraum mit vollständiger positiv semidefiniter symmetrischer Bilinearform. Die Abbildung F : V → R ist genau dann stetig und linear, wenn es ein f ∈ V gibt mit F (x) = x, f ! für alle x ∈ V . Beweis. Die eine Implikation ist trivial. Sei also F stetig und linear. Dann ist F (0) = 0, weil F linear ist, und für jedes v ∈ N ist F (v) = F (0) = 0, weil F stetig ist (klar: v liegt in jeder offenen Umgebung von 0, also muss F in v denselben Wert annehmen wie in 0). Also induziert F eine stetige lineare Abbildung F0 : V0 → R durch F0 (x + N ) = F (x). Nach Satz 7.26 existiert ein f + N ∈ V0 mit F0 (x + N ) = x + N , f + N !0 für jedes x + N ∈ V0 . Nach Definition von F0 und · , · !0 ist nun aber F (x) = x, f ! für jedes x ∈ V . 2 Korollar 7.28. Die Abbildung F : L2 (μ) 0 → R ist genau dann stetig und linear, wenn es ein f ∈ L2 (μ) gibt mit F (g) = gf dμ für alle g ∈ L2 (μ). Beweis. Der Raum L2 (μ) erfüllt die Bedingungen des vorangehenden Korollars.2

7.4 Lebesgue’scher Zerlegungssatz In diesem Abschnitt benutzen wir die eben gewonnen Aussagen u¨ ber Hilberträume, um ein Maß zu zerlegen in einen singulären und einen absolutstetigen Anteil bezüglich eines zweiten Maßes. Für den absolutstetigen Anteil zeigen wir, dass er eine Dichte besitzt. Seien μ und ν Maße auf (Ω, A). Nach Definition 4.13 heißt eine messbare Funktion f : Ω → [0, ∞) eine Dichte von ν bezüglich μ, falls (7.3) ν(A) := f A dμ für jedes A ∈ A. Andererseits definiert für jedes messbare f : Ω → [0, ∞) Gleichung (7.3) ein Maß ν auf (Ω, A). Wir schreiben in diesem Fall auch ν = fμ

und

f=

dν . dμ

Beispielsweise hat die Normalverteilung ν = N0,1 die Dichte f (x) = bezüglich des Lebesgue-Maßes μ = λ auf R. Ist g : Ω → [0, ∞] messbar, so gilt (nach Satz 4.15)

(7.4) 2 √1 e−x /2 2π

7.4 Lebesgue’scher Zerlegungssatz

g dν =

gf dμ.

151

(7.5)

Wir erhalten so, dass genau dann g ∈ L1 (ν) ist, wenn gf ∈ L1 (μ) gilt, und in diesem Fall ist (7.5) erfüllt. Gilt ν = f μ, so ist offenbar ν(A) = 0 für jedes A ∈ A mit μ(A) = 0. In gewissem Sinne komplementär ist die Situation beispielsweise bei der Poissonverteilung μ = Poi̺ mit Parameter ̺ > 0 und ν = N0,1 . Hier ist N0 ⊂ R eine ν-Nullmenge mit μ(R \ N0 ) = 0. Wir sagen, dass ν singulär zu μ ist.

Das Ziel dieses Kapitels ist es, im allgemeinen Fall zu zeigen, dass ein beliebiges σ-endliches Maß ν auf einem Messraum (Ω, A) zerlegt werden kann in einen Teil, der singulär zum σ-endlichen Maß μ ist, und einen Teil, der eine Dichte bezüglich μ hat (Lebesgue’scher Zerlegungssatz, Satz 7.33). Satz 7.29 (Eindeutigkeit der Dichte). Sei ν σ-endlich. Sind f1 und f2 Dichten von dν ν bezüglich μ, so gilt f1 = f2 μ-fast u¨ berall. Speziell ist die Dichtefunktion dμ eindeutig bis auf Gleichheit μ-fast u¨ berall. Beweis. Sei En ↑ Ω mit ν(En ) < ∞, n ∈ N. Sei An = En ∩ {f1 > f2 } für n ∈ N. Dann ist ν(An ) < ∞, also f1 − f2 dμ. 0 = ν(An ) − ν(An ) = An

Nach Satz 4.8(i) gilt f2 An = f1 An μ–f.ü., also μ(An ) = 0 und μ({f1 > f2 }) = 2 μ( n∈N An ) = 0. Analog folgt μ({f1 < f2 }) = 0, also f1 = f2 μ–f.ü. Definition 7.30. Seien μ und ν zwei Maße auf (Ω, A). (i) ν heißt absolutstetig bezüglich μ (kurz ν ≪ μ), falls ν(A) = 0

für jedes A ∈ A mit μ(A) = 0.

(7.6)

Die Maße μ und ν heißen a¨ quivalent (kurz μ ≈ ν), falls ν ≪ μ und μ ≪ ν.

(ii) μ heißt singulär zu ν (kurz μ ⊥ ν), falls es ein A ∈ A gibt mit μ(A) = 0 und ν(Ω \ A) = 0. Bemerkung 7.31. Offenbar gilt μ ⊥ ν ⇐⇒ ν ⊥ μ.

3

Beispiel 7.32. (i) Sei μ ein Maß auf (R, B(R)) mit Dichte f bezüglich des Le0 besgue-Maßes λ. Dann ist für A ∈ A mit λ(A) = 0 0schon μ(A) = A f dλ = 0, also μ ≪ λ. Ist λ-fast u¨ berall f > 0, so ist μ(A) = A f dλ > 0 falls λ(A) > 0, also μ ≈ λ. Ist λ({f = 0}) > 0, so ist (wegen μ({f = 0}) = 0) λ ≪ μ.

152


(ii) Betrachte die Bernoulli-Verteilungen Berp und Berq für p, q ∈ [0, 1]. Ist p ∈ (0, 1), so gilt Berq ≪ Berp . Ist p ∈ {0, 1}, so ist Berq ≪ Berp genau dann, wenn p = q, und Berq ⊥ Berp genau dann, wenn q = 1 − p.

(iii) Betrachte die Poisson-Verteilungen Poiα und Poiβ für α, β ≥ 0. Es ist genau dann Poiα ≪ Poiβ , wenn β > 0 oder α = 0.

(iv) Betrachte die unendlichen Produktmaße (siehe Satz 1.64) Ber⊗N und Ber⊗N p q ⊗N , falls p = q. In der Tat: Sei ⊥ Ber auf Ω = {0, 1}N . Dann ist Ber⊗N q p Xn ((ω1 , ω2 , . . .)) = ωn für jedes n ∈ N die Projektion von Ω auf die n-te Koordinate. Dann ist (Xn )n∈N unabhängig und Bernoulli-verteilt (siehe Beispiel 2.18) mit Parameter r unter Ber⊗N r . Nach dem starken Gesetz der großen Zahl gibt es also für r ∈ {p, q} eine messbare Menge Ar ⊂ Ω mit Ber⊗N r (Ω \ Ar ) = 0 und n

1 Xi (ω) = r n→∞ n i=1 lim

für jedes ω ∈ Ar .

⊗N Speziell ist also Ap ∩ Aq = ∅, falls p = q, und damit Ber⊗N p ⊥ Berq .

3

Satz 7.33 (Zerlegungssatz von Lebesgue). Seien μ und ν σ-endliche Maße auf (Ω, A). Dann lässt sich ν auf eindeutige Weise zerlegen in den (bezüglich μ) absolutstetigen Anteil νa und den singulären Anteil νs : ν = νa + νs , wobei νa ≪ μ und νs ⊥ μ. νa hat eine Dichte bezüglich μ, und

dνa ist A-messbar und μ–f.ü. endlich. dμ

Korollar 7.34 (Satz von Radon-Nikodym). Seien μ und ν σ-endliche Maße auf (Ω, A). Dann gilt ν hat eine Dichte bezüglich μ

⇐⇒

dν In diesem Fall ist dμ A-messbar und μ–f.ü. endlich. Ableitung von ν nach μ.

dν dμ

ν ≪ μ. heißt Radon-Nikodym-

Beweis. Die eine Richtung ist trivial. Sei also ν ≪ μ. Mit Satz 7.33 bekommen wir, dass ν = νa eine Dichte bezüglich μ hat. 2 Beweis (Satz 7.33). Die Idee geht auf v. Neumann zurück, wir folgen der Darstellung in [37]. Wir können uns durch die u¨ blichen Ausschöpfungsargumente auf den Fall beschränken wo μ und ν endlich sind. Nach Satz 4.19 ist die kanonische Inklusion

7.4 Lebesgue’scher Zerlegungssatz

153

i : L2 (Ω, A, μ + ν) ֒→ L1 (Ω, A, μ + ν) stetig. 0 Wegen ν ≤ μ + ν ist also auch die Linearform L2 (Ω, A, μ + ν) → R, h → h dν stetig. Nach dem Satz von Riesz-Fréchet (hier: Korollar 7.28) existiert daher ein g ∈ L2 (Ω, A, μ + ν) mit h dν = hg d(μ + ν) für jedes h ∈ L2 (Ω, A, μ + ν), (7.7) oder a¨ quivalent dazu f (1 − g) d(μ + ν) = f dμ

für jedes f ∈ L2 (Ω, A, μ + ν).

(7.8)

Wählen wir in (7.7) speziell h = {g1} , in (7.8) dass (μ + ν)-fast u¨ berall g ≤ 1 gilt, also ist 0 ≤ g ≤ 1. Sei nun f ∈ L1 (Ω, A, μ + ν), und seien (fn )n∈N nichtnegative Funktionen in L2 (Ω, A, μ + ν) mit fn ↑ f . Nach dem Satz von der monotonen Konvergenz (angewandt auf das Maß (1 − g)(μ + ν), dem Maß mit Dichte (1 − g) bezüglich μ + ν) erhalten wir, dass (7.8) für alle messbaren f ≥ 0 gilt. Analog folgt die Gültigkeit von (7.7) für alle messbaren h ≥ 0. Sei E := g −1 ({1}). Setzen wir f = E in (7.8) ein, so erhalten wir μ(E) = 0. Wir definieren jetzt zwei Maße νa und νs für A ∈ A durch νa (A) := ν(A \ E)

und

νs (A) := ν(A ∩ E).

Offenbar gilt ν = νa 0+ νs und νs (Ω \ E) = 0, also νs 0⊥ μ. Ist nun A ∩ E = ∅ und μ(A) = 0, so ist A dμ = 0, also nach (7.8) auch A (1 − g) d(μ + ν) = 0. Andererseits ist 1−g > 0 auf A, also μ(A)+ν(A) = 0 und damit νa (A) = ν(A) = 0. Ist allgemeiner B messbar mit μ(B) = 0, so ist μ(B \ E) = 0, also nach dem Gezeigten νa (B) = νa (B \ E) = 0. Folglich ist νa ≪ μ und ν = νa + νs die gewünschte Zerlegung. g ur Um die Dichte von νa bezüglich μ zu erhalten, setzen wir f := Ω\E . F¨ 1−g jedes A ∈ A ist nun nach (7.8) und (7.7) mit h = A\E

f dμ =

A

Also ist f =

dνa dμ .

A∩E c

g d(μ + ν) = ν(A \ E) = νa (A). 2

¨ Ubung 7.4.1. Wir definieren eine Abbildung F : (0, 1] → (0, 1] an der Stelle x ∈ (0, 1] mit nicht abbrechender Binärdarstellung x = (0, x1 x2 x3 . . .) := ∞ −n durch n=1 xn 2 F (x) = (0, x1 x1 x2 x2 x3 x3 . . .) =

∞

3 xn 4−n .

n=1

Man zeige, dass F die stetige Verteilungsfunktion eines W-Maßes μ auf B((0, 1]) ist. ♣ ist, und dass μ singulär zum Lebesgue-Maß λ (0,1]

154


¨ Ubung 7.4.2. Sei n ∈ N und p, q ∈ [0, 1]. Unter welchen Bedingungen gilt für die Binomialverteilungen bn,p ≪ bn,q ? Man bestimme die Radon-Nikodym Ableitung dbn,p ♣ dbn,q .

7.5 Ergänzung: Signierte Maße In diesem Abschnitt bringen wir die Zerlegungssätze für signierte Maße (Hahn, Jordan) und liefern einen alternativen Beweis für den Lebesgue’schen Zerlegungssatz. Definition 7.35. Seien μ und ν zwei Maße auf (Ω, A). ν heißt totalstetig bezüglich μ, falls es für jedes ε > 0 ein δ > 0 gibt, sodass für jedes A ∈ A gilt μ(A) < δ

(7.9)

impliziert ν(A) < ε.

Bemerkung 7.36. Die Definition der Totalstetigkeit ist sehr a¨ hnlich der der gleichgradigen Integrierbarkeit (siehe Satz 6.24(iii)), jedenfalls für endliches μ. Auf diesen Zusammenhang kommen wir im Rahmen des Martingalkonvergenzsatzes zurück, der einen alternativen Beweis für den Satz von Radon-Nikodym (Korollar 7.34) liefert. 3 Satz 7.37. Seien μ und ν Maße auf (Ω, A). Ist ν totalstetig bezüglich μ, dann ist ν ≪ μ. Ist ν(Ω) < ∞, so gilt auch die umgekehrte Implikation. Beweis. =⇒ “ Sei ν totalstetig bezüglich μ. Sei A ∈ A mit μ(A) = 0. Für ” jedes ε > 0 ist nach Voraussetzung ν(A) < ε, also ν(A) = 0 und damit ν ≪ μ. ⇐= “ Sei ν endlich, aber nicht totalstetig bezüglich μ. Dann existiert ein ε > 0 ” und Mengen An ∈ A mit μ(An ) < 2−n , aber ν(An ) ≥ ε für jedes n ∈ N. Setze ∞ ∞ A := lim sup An = Ak . Dann ist n→∞

n=1 k=n

μ(A) ≤ lim μ n→∞

∞

Ak

k=n

= lim

n→∞

∞

k=n

μ(Ak ) ≤ lim

n→∞

∞

2−k = 0.

k=n

Da ν endlich ist, ist ν stetig von oben (Satz 1.36), also ∞ ν(A) = lim ν Ak ≥ inf ν(An ) ≥ ε > 0. n→∞

Also ist ν ≪ μ.

k=n

n∈N

2

7.5 Ergänzung: Signierte Maße

155

Beispiel 7.38. Die Endlichkeitsannahme ist für die Umkehrung im vorigen Satz essenziell. Sei beispielsweise μ = N0,1 die Standardnormalverteilung auf R und ν √ 2 das Lebesgue-Maß auf R. Dann hat ν bezüglich μ die Dichte f (x) = 2π ex /2 . n→∞ Speziell gilt ν ≪ μ. Andererseits gilt μ([n, ∞)) −→ 0 und ν([n, ∞)) = ∞ für jedes n ∈ N. Mithin ist ν nicht totalstetig bezüglich μ. 3 Beispiel 7.39. Sei (Ω, A) ein Messraum, und seien μ und ν endliche Maße auf (Ω, A). Mit Z bezeichnen wir die Menge der endlichen Zerlegungen von Ω in disjunkte, messbare Mengen. Das heißt, Z ∈ Z ist eine endliche Teilmenge von A so, dass die Mengen C ∈ Z paarweise disjunkt sind und C∈Z C = Ω für jedes Z. Für Z ∈ Z definieren wir eine Funktion fZ : Ω → R durch fZ (ω) =

C∈Z: μ(C)>0

ν(C) μ(C)

C (ω).

Wir zeigen, dass die folgenden drei Aussagen a¨ quivalent sind: (i) 0Die Familie (fZ : Z ∈ Z) ist gleichgradig integrierbar in L1 (μ) und fZ dμ = ν(Ω) für jedes Z ∈ Z.

(ii) Es gilt ν ≪ μ.

(iii) ν ist totalstetig bezüglich μ. ¨ Die Aquivalenz von (ii) und (iii) wurde im vorigen Satz bewiesen. Gilt (ii), so ist für jedes Z ∈ Z fZ dμ = ν(C) = ν(Ω), C∈Z: μ(C)>0

weil ν(C) = 0 ist für diejenigen C, die in der Summe nicht auftauchen. Sei nun ε > 0 gegeben. Da aus (iii) aus (ii) folgt, gibt es ein δ ′ > 0, sodass ν(A) < ε/2 ist für jedes A ∈ A mit μ(A) ≤ δ ′ . Sei K := ν(Ω)/δ ′ und δ < ε/(2K). Dann ist ⎛ ⎞ 1 μ⎝ ν(Ω) = δ ′ , C⎠ = μ(C) ≤ K C∈Z: Kμ(C)≤ν(C)

also

C∈Z: Kμ(C)≤ν(C)


⎛

ν(C) = ν ⎝


⎞

C⎠
0

=

0ν(C)

ν(C) + μ(C)

K μ(A ∩ C) ≤

Kμ(C)>ν(C)

μ(A ∩ C)

ν(C) μ(C)

ε + K μ(A) < ε. 2

Also ist (fZ , Z ∈ Z) gleichgradig integrierbar nach Satz 6.24(iii). 0 Gelte nun (i). Ist μ = 0, so ist f dμ = 0 für jedes f , also ν(Ω) = 0 und damit ν ≪ μ. Sei also μ = 0. Sei A ∈ A mit μ(A) = 0. Dann ist Z0 = {A, Ac } ∈ Z und fZ = Ac ν(Ac )/μ(Ac ). Nach Voraussetzung ist ν(Ω) = f dμ = ν(Ac ), also ν(A) = 0 und damit ν ≪ μ. 3 Definition 7.40 (Ladungsverteilung, signiertes Maß). Eine Mengenfunktion ϕ : A → R heißt signiertes Maß oder Ladungsverteilung auf (Ω, A), falls sie σ– additiv ist, falls also für jede Folge paarweise disjunkter Mengen A1 , A2 , . . . ∈ A gilt, dass ∞ ∞ An = ϕ(An ). (7.10) ϕ n=1

n=1

Die Menge aller Ladungsverteilungen bezeichnen wir mit LV = LV(Ω, A). Bemerkung 7.41. (i) Ist ϕ ein signiertes Maß, so liegt in (7.10) automatisch schon absolute Konvergenz vor. Tatsächlich a¨ ndert sich ja der Wert der linken Seite nicht, wenn wir die Mengen A1 , A2 , . . . umnummerieren. Damit dies für die rechte Seite auch gilt, muss nach dem Weierstraß’schen Umordnungssatz die Reihe absolut konvergieren. Speziell gilt für jede Folge (An )n∈N paarweise disjunkter Mengen ∞ |ϕ(Ak )| = 0. lim k=n n→∞ (ii) Ist ϕ ∈ LV, so ist ϕ(∅) = 0, da R ∋ ν(∅) = n∈N ν(∅). (iii) ϕ ∈ LV ist im Allgemeinen nicht σ-subadditiv.

3

Beispiel 7.42. Sind μ+ , μ− endliche Maße, so ist ϕ := μ+ −μ− ∈ LV. Wir werden sehen, dass jedes signierte Maß eine solche Darstellung besitzt. 3 Satz 7.43 (Zerlegungssatz von Hahn). Sei ϕ ein signiertes Maß. Dann gibt es eine Menge Ω + ∈ A mit ϕ(A) ≥ 0 für jedes A ∈ A, A ⊂ Ω + und ϕ(A) ≤ 0 für jedes A ∈ A, A ⊂ Ω − := Ω \ Ω + . Eine solche Darstellung Ω = Ω − ⊎ Ω + wird auch Hahn-Zerlegung von Ω (bezüglich ϕ) genannt.


157

Beweis. Sei α := sup ϕ(A) : A ∈ A . Wir müssen zeigen, dass ϕ das Maximum α tatsächlich annimmt, dass es also ein Ω + ∈ A gibt mit ϕ(Ω + ) = α. Dann ist nämlich α ∈ R, und für A ⊂ Ω + , A ∈ A gilt α ≥ ϕ(Ω + \ A) = ϕ(Ω + ) − ϕ(A) = α − ϕ(A),

also ϕ(A) ≥ 0. Für A ⊂ Ω − , A ∈ A ist ϕ(A) ≤ 0, denn

α ≥ ϕ(Ω + ∪ A) = ϕ(Ω + ) + ϕ(A) = α + ϕ(A).

+ Wir konstruieren nun Ω + mit ϕ(Ω ∞ ) = α. Sei (An )n∈N eine Folge in A mit α = lim ϕ(An ). Setze A := n=1 An . Da jedes An noch Anteile mit negati” n→∞ ver Masse“ enthalten kann, können wir nicht einfach Ω + = A wählen. Vielmehr müssen wir Schicht für Schicht die negativen Anteile abfischen.

Setze A0n := An und A1n := A \ An sowie n s(i) n Pn := Ai : s ∈ {0, 1} i=1

die Partition von A, die von A1 , . . . , An erzeugt wird. Offensichtlich gilt für B, C ∈ Pn entweder B = C oder B ∩ C = ∅. Außerdem gilt An = B. Setze B∈Pn B⊂An

Pn− := {B ∈ Pn : ϕ(B) < 0}, und Cn :=

Pn+ := Pn \ Pn− ,

B.

+ B∈Pn

Wegen der endlichen Additivität von ϕ ist ϕ(B) = ϕ(Cn ). ϕ(An ) = ϕ(B) ≤ ϕ(B) ≤ B∈Pn B⊂An

+ B∈Pn

+ B∈Pn B⊂An

n n n−1 Für m ≤ n setze Em = Cm ∪ . . . ∪ Cn . Für m < n ist Em \ Em ⊂ Cn , also n n−1 Em \ Em = B. + B∈Pn n \E n−1 B⊂Em m

n n−1 Speziell ist ϕ(Em \ Em ) ≥ 0. Für Em := (n → ∞) und

n≥m

m m ϕ(Am ) ≤ ϕ(Cm ) = ϕ(Em ) ≤ ϕ(Em )+

= ϕ

m Em

∪

∞

n (Em n=m+1

\

n−1 Em )

n Cn gilt außerdem Em ↑ Em

∞

n=m+1

= ϕ

n n−1 ϕ(Em \ Em )

∞

n=m

n Em

= ϕ(Em ).

158


Wir setzen jetzt Ω + =

∞

Em , also Em ↓ Ω + . Dann ist ⎞ ⎛ (En \ En+1 )⎠ ϕ(Em ) = ϕ ⎝Ω + ⊎ m=1

n≥m

= ϕ(Ω + ) +

∞

n=m

m→∞

ϕ(En \ En+1 ) −→ ϕ(Ω + ),

wobei wir im letzten Schritt Bemerkung 7.41(i) ausgenutzt haben. Insgesamt ist α = lim ϕ(Am ) ≤ lim ϕ(Em ) = ϕ(Ω + ). m→∞

m→∞

Per Definition ist aber α ≥ ϕ(Ω + ), also α = ϕ(Ω + ), was zu zeigen war.

2

Korollar 7.44 (Zerlegungssatz von Jordan). Sei ϕ ∈ LV(Ω, A) ein signiertes Maß. Dann gibt es eindeutig bestimmte endliche Maße ϕ+ , ϕ− mit ϕ = ϕ+ − ϕ− und ϕ+ ⊥ ϕ− . Beweis. Sei Ω = Ω + ⊎ Ω − die Hahn-Zerlegung. Setze ϕ+ (A) := ϕ(A ∩ Ω + ) und ϕ− (A) := −ϕ(A ∩ Ω − ). Die Eindeutigkeit der Zerlegung ist trivial.

2

Korollar 7.45. Sei ϕ ∈ LV(Ω, A) und ϕ = ϕ+ − ϕ− die Jordan-Zerlegung von ϕ, sowie Ω = Ω + ⊎ Ω − die Hahn-Zerlegung von Ω. Dann definiert

ϕT V := sup ϕ(A) − ϕ(Ω \ A) : A ∈ A = ϕ(Ω + ) − ϕ(Ω − ) = ϕ+ (Ω) + ϕ− (Ω)

eine Norm auf LV(Ω, A), die so genannte Totalvariationsnorm. Beweis. Zu zeigen ist nur die Dreiecksungleichung. Seien ϕ1 , ϕ2 ∈ LV. Sei Ω = Ω + ⊎ Ω − die Hahn-Zerlegung bezüglich ϕ := ϕ1 + ϕ2 und Ω = Ωi+ ⊎ Ωi− die bezüglich ϕi , i = 1, 2. Dann gilt ϕ1 + ϕ2 T V = ϕ1 (Ω + ) − ϕ1 (Ω − ) + ϕ2 (Ω + ) − ϕ2 (Ω − )

≤ ϕ1 (Ω1+ ) − ϕ1 (Ω1− ) + ϕ2 (Ω2+ ) − ϕ2 (Ω2− ) = ϕ1 T V + ϕ2 T V .

2

Wir wollen jetzt einen alternativen Beweis des Zerlegungssatzes von Lebesgue (Satz 7.33) angeben und bereiten dies mit einem Lemma vor.


159

Lemma 7.46. Seien μ, ν endliche Maße auf (Ω, A), die nicht singulär zueinander sind, kurz: μ ⊥ ν. Dann gibt es ein A ∈ A mit μ(A) > 0 und ein ε > 0 mit εμ(E) ≤ ν(E)

für jedes E ∈ A mit E ⊂ A.

Beweis. F¨ sei Ω = Ωn+ ⊎Ωn− eine Hahn-Zerlegung zu (ν− n1 μ) ∈ LV. Setur n ∈ N − ze M := n∈N Ωn . Offenbar ist (ν − n1 μ)(M ) ≤ 0, also ν(M ) ≤ n1 μ(M ) fürjedes n ∈ N und deshalb ν(M ) = 0. Wegen μ ⊥ ν folgt μ Ω \ M ) = μ( n∈N Ωn+ > 0, also μ(Ωn+0 ) > 0 für ein n0 ∈ N. Setze A := Ωn+0 und ε := n10 . Damit ist dann μ(A) > 0 und (ν − εμ)(E) ≥ 0 für jedes E ⊂ A, E ∈ A. 2 Alternativer Beweis von Satz 7.33 Wir zeigen hier nur die Existenz der Zerlegung. Indem wir eine geeignete Folge Ωn ↑ Ω betrachten, können wir annehmen, dass ν schon endlich ist. Betrachte die Menge der Funktionen 1 2 G := g : Ω → [0, ∞] : g ist messbar und g dμ ≤ ν(A) für alle A ∈ A A

und setze γ := sup

g dμ : g ∈ G .

Unser Ziel ist es, ein maximales Element f in G zu konstruieren (also eines mit 0 f dμ = γ), das dann die gesuchte Dichte von νa ist.

Offenbar ist 0 ∈ G, also G = ∅. Weiter gilt

impliziert

f, g ∈ G

f ∨ g ∈ G.

(7.11)

Mit E := {f ≥ g} ist nämlich für A ∈ A f ∨ g dμ = f dμ + g dμ ≤ ν(A ∩ E) + ν(A \ E) = ν(A). A

A∩E

A\E

0 n→∞ Wähle eine Folge (gn )n∈N in G mit gn dμ −→ γ und setze fn = g1 ∨ . . . ∨ gn . Wegen (7.11) ist fn ∈ G. Der Satz von der monotonen Konvergenz liefert für f := sup{fn : n ∈ N} f dμ = sup fn dμ ≤ ν(A) für jedes A ∈ A, A

n∈N

A

(das heißt f ∈ G) und weiter f dμ = sup fn dμ ≥ sup gn dμ = γ, n∈N

also

0

n∈N

f dμ = γ ≤ ν(Ω). Wir definieren nun für jedes A ∈ A


160

νa (A) :=

f dμ,

A

νs (A) := ν(A) − νa (A).

Nach Konstruktion ist nun νa ≪ μ0ein endliches Maß mit Dichte f bezüglich μ. Wegen f ∈ G ist νs (A) = ν(A) − A f dμ ≥ 0 für jedes A ∈ A, also ist auch νs ein endliches Maß. Es bleibt zu zeigen, dass νs ⊥ μ.

An dieser Stelle benutzen wir Lemma 7.46. Wir nehmen an, dass νs ⊥ μ gälte. Dann gäbe es ein ε > 0 und ein A ∈ A mit μ(A) > 0 so, dass εμ(E) ≤ νs (E) für jedes E ⊂ A, E ∈ A. Für B ∈ A wäre dann (f + ε A ) dμ = f dμ + εμ(A ∩ B) B

B

≤ νa (B) + νs (A ∩ B) ≤ νa (B) + νs (B) = ν(B). 0 Mit anderen Worten: (f + ε A ) ∈ G und damit (f + ε A ) dμ = γ + εμ(A) > γ, 2 was im Widerspruch zur Definition von γ steht. Also ist tatsächlich νs ⊥ μ.

¨ Ubung 7.5.1. Sei μ ein σ-endliches Maß auf (Ω, A) und ϕ ein signiertes Maß auf (Ω, A). Man zeige, dass, analog zum Satz von Radon-Nikodym, die beiden folgenden Aussagen a¨ quivalent sind: (i) Für jedes A ∈ A mit μ(A) = 0 ist ϕ(A) = 0. 0 (ii) Es gibt ein f ∈ L1 (μ) mit ϕ = f μ, also A f dμ = ϕ(A) für jedes A ∈ A. ♣

¨ Ubung 7.5.2. Seien μ, ν, α endliche Maße auf (Ω, A) mit ν ≪ μ ≪ α.

(i) Zeige, dass die Kettenregel für die Radon-Nikodym-Ableitung gilt: dν dμ dν = dα dμ dα (ii) Zeige, dass f :=

dν d(μ+ν)

α-f.ü.

existiert und dass μ-f.ü.

dν dμ

=

f 1−f

gilt.

♣

7.6 Ergänzung: Dualräume Nach dem Darstellungssatz von Riesz-Fréchet (Satz 7.26) hat jede stetige Linearform F : L2 (μ) → R eine Darstellung F (g) = f, g! für ein f ∈ L2 (μ). Andererseits ist für jedes f ∈ L2 (μ) die Abbildung L2 (μ) → R, g → f, g! stetig und linear. Daher ist L2 (μ) in kanonischer Weise isomorph zu seinem topologischen Dualraum (L2 (μ))′ . Dieser ist allgemein wie folgt definiert. Definition 7.47 (Dualraum). Sei (V, · ) ein Banachraum. Der Dualraum V ′ von V ist definiert durch

7.6 Ergänzung: Dualräume

161

V ′ := {F : V → R ist stetig und linear}. Für F ∈ V ′ setzen wir F ′ := sup{|F (f )| : f = 1}. Bemerkung 7.48. Da F stetig ist, existiert für jedes δ > 0 ein ε > 0, sodass 3 |F (f )| < δ gilt für jedes f ∈ V mit f < ε. Also ist F ′ ≤ δ/ε < ∞. Wir sind nun an dem Fall V = Lp (μ) für p ∈ [1, ∞] interessiert. Betrachten wir speziell V = L2 (μ), so ist also F ′2 = f 2 . Dies lässt sich verallgemeinern: Lemma 7.49. Seien p, q ∈ [1, ∞] mit p1 + 1q = 1. Dann ist die kanonische Abbildung κ : Lq (μ) → (Lp (μ))′ κ(f )(g) = f g dμ

für f ∈ Lq (μ), g ∈ Lp (μ)

eine Isometrie, das heißt κ(f )′p = f q . Beweis. Wir zeigen die Gleichheit, indem wir beide Ungleichungen zeigen. ≤“ Dies folgt direkt aus der Hölder’schen Ungleichung. ” q p ≥“ Für jedes zulässige Paar p, q und 0 f ∈ L (μ), g ∈ L (μ) gilt per Definition ” der Operatornorm κ(f )′p gp ≥ f g dμ. Wir definieren die Vorzeichenfunktion sign(x) = (0,∞) (x)− (−∞,0) (x). Indem wir g durch g˜ := |g| sign(f ) ersetzen (beachte ˜ g p = gp ), erhalten wir κ(f )′p gp ≥ f g˜ dμ = f g1 . (7.12) Sei zunächst q = 1 und f ∈ L1 (μ). Mit g ≡ 1 ∈ L∞ (μ) in (7.12) folgt κ(f )′∞ ≥ f 1 . Sei nun q ∈ (1, ∞). Wähle g = |f |q−1 . Wegen

q−1 q

=

1 p

ist dann

= f q · gp . κ(f )′p · gp ≥ f g1 = |f |q ||1 = f qq = f q · f q−1 q Sei schließlich q = ∞. Ohne Einschränkung sei f ∞ ∈ (0, ∞). Sei ε > 0. Dann existiert ein Aε ∈ A mit 0 < μ(Aε ) < ∞, sodass

Aε ⊂ |f | > (1 − ε)f ∞ . Setzen wir g =

1 μ(Aε )

Aε ,

so ist g1 = 1 und κ(f )′1 ≥ f g1 ≥ (1 − ε)f ∞ . 2

Satz 7.50. Für p ∈ [1, ∞) und p1 + 1q = 1 ist Lq (μ) isomorph zu (Lp (μ))′ vermöge der Isometrie κ.

162


Beweis. Für den Beweis greifen wir zurück auf den Satz von Radon-Nikodym (Korollar 7.34). Allerdings skizzieren wir den Beweis nur, weil wir die Theorie der signierten Maße und Inhalte nicht vertiefen wollen. Ein signierter Inhalt ν ist eine additive Mengenfunktion, die sich als Differenz ν = ν + − ν − zweier endlicher Inhalte darstellen lässt, also auch negative Werte annehmen kann. (Diese Begriffsbildung ist analog zu der des signierten Maßes, das sich ja als Differenz zweier Maße darstellen lässt.) Da κ eine Isometrie ist, ist κ insbesondere injektiv. Wir müssen also nur noch zeigen, dass κ surjektiv ist. Sei F ∈ (Lp (μ))′ . Dann ist ν(A) = F ( A ) ein signierter Inhalt auf A, und es gilt |ν(A)| ≤ F ′p (μ(A))1/p . Da μ ∅-stetig ist, ist also auch ν ∅-stetig und daher ein signiertes Maß auf A. Es gilt sogar ν ≪ μ. Nach dem Satz von Radon-Nikodym (Korollar 7.34) (angewandt auf ¨ 7.5.1) besitzt ν eine Dichte bezüglich μ, die Maße ν − und ν + , vergleiche Ubung also eine messbare Funktion f mit ν = f μ. Sei Ee := {g : g ist Elementarfunktion mit μ(g = 0) < ∞} und E+ e := {g ∈ Ee : g ≥ 0}. Dann ist für g ∈ Ee F (g) = gf dμ. (7.13) Um zu zeigen, dass (7.13) für alle g ∈ Lp (μ) gilt, müssen wir zunächst zeigen, dass f ∈ Lq (μ) liegt. Wir unterscheiden zwei Fälle. Fall 1: p = 1.

Für jedes α > 0 ist

1 ν({|f | > α}) α 1 1 = F ( {|f |>α} ) ≤ F ′1 · α α

μ({|f | > α}) ≤

{|f |>α} 1

=

1 F ′1 · μ({|f | > α}). α

Es folgt μ({|f | > α}) = 0, falls α > F ′1 , also f ∞ ≤ F ′1 < ∞. Fall 2: p ∈ (0, ∞). Nach Satz 1.96 existieren g1 , g2 , . . . ∈ E+ e so, dass gn ↑ |f | μ–f.ü. Setzen wir hn = sign(f )(gn )q−1 ∈ Ee , so gilt gn qq ≤ hn f dμ = F (hn ) ≤ F ′p · hn p = F ′p · (gn q )q−1 ,

also ist gn q ≤ F ′p . Monotone Konvergenz (Satz 4.20) liefert nun f q ≤ F ′p < ∞ also f ∈ Lq (μ). 0 Daher ist die Abbildung F : g → gf dμ in (Lp (μ))′ und F(g) = F (g) für jedes g ∈ Ee . Da F stetig ist und Ee ⊂ Lp (μ) dicht liegt, gilt schon F = F . 2

7.6 Ergänzung: Dualräume

163

Bemerkung 7.51. Die Aussage von Satz 7.50 ist für p = ∞ im Allgemeinen falsch. (Für endliches A ist die Aussage trivialerweise auch für p = ∞ richtig.) Sei beispielsweise Ω = N, A = 2Ω und μ das Zählmaß. Wir betrachten also Folgenräume ℓp = Lp (N, 2N , μ). Für den Unterraum ℓK ⊂ ℓ∞ der konvergenten Folgen ist F : ℓK → R, (an )n∈N → lim an ein stetiges lineares Funktional. Nach den n→∞ Hahn-Banach Sätzen der Funktionalanalysis (siehe etwa [73] oder [156]) kann F zu einem stetigen linearen Funktional auf ℓ∞ fortgesetzt werden. Offenbar gibt es ∞ jedoch kein (bn )n∈N ∈ ℓ1 mit F ((an )n∈N ) = am bm . 3 m=1

¨ Ubung 7.6.1. Man zeige, dass Ee ⊂ Lp (μ) dicht liegt, falls p ∈ [1, ∞).

♣

8 Bedingte Erwartungen

Wenn u¨ ber den Ausgang eines Zufallsexperimentes eine Teilinformation vorhanden ist, a¨ ndern sich die Wahrscheinlichkeiten für die möglichen Ereignisse. Das Konzept der bedingten Wahrscheinlichkeiten und bedingten Erwartungen formalisiert den zugehörigen Kalkül.

8.1 Elementare bedingte Wahrscheinlichkeiten Beispiel 8.1. Wir werfen einen fairen sechsseitigen Würfel und betrachten die Ereignisse A := {Augenzahl drei oder kleiner}, B := {Augenzahl ungerade}. Offenbar ist P[A] = 12 und P[B] = 12 . Wie groß ist aber die Wahrscheinlichkeit, dass B eintritt, wenn wir schon wissen, dass A eintritt? Wir modellieren das Experiment auf einem Wahrscheinlichkeitsraum (Ω, A, P), wobei Ω = {1, . . . , 6}, A = 2Ω und P die Gleichverteilung auf Ω ist. Dann ist A = {1, 2, 3}

und

B = {1, 3, 5}.

Wenn wir nur wissen, dass A eingetreten ist, liegt es nahe, auf {1, 2, 3} die Gleichverteilung zu vermuten. Wir definieren also auf (A, 2A ) ein neues W-Maß PA durch PA [C] =

#C #A

für C ⊂ A.

Indem wir Punkten in Ω \ A die Wahrscheinlichkeit Null geben (die können ja nicht eingetreten sein, wenn A eingetreten ist), können wir PA auf Ω fortsetzen durch P[C |A] := PA [C ∩ A] = So erhalten wir P[B |A] =

#(C ∩ A) #A

#{1, 3} 2 = . #{1, 2, 3} 3

für C ⊂ Ω. 3

166


Durch das Beispiel motiviert treffen wir die folgende Definition. Definition 8.2 (Bedingte Wahrscheinlichkeit). Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und A ∈ A. Dann definieren wir die bedingte Wahrscheinlichkeit gegeben A für jedes B ∈ A durch ⎧ ⎨ P[A ∩ B] , falls P[A] > 0, P[A] P[B |A] = (8.1) ⎩ 0, sonst. Bemerkung 8.3. Die genaue Festsetzung in (8.1) für den Fall P[A] = 0 ist willkürlich und unerheblich. 3 Satz 8.4. Ist P[A] > 0, so ist P[ · |A] ein W-Maß auf (Ω, A). Beweis. Trivial!

2

Satz 8.5. Seien A, B ∈ A mit P[A], P[B] > 0. Dann gilt A, B sind unabhängig

⇐⇒ P[B |A] = P[B] ⇐⇒ P[A|B] = P[A].

Beweis. Trivial!

2

Satz 8.6 (Formel von der totalen Wahrscheinlichkeit). Sei I eine abzählbare Menge und (Bi )i∈I paarweise disjunkte Mengen * ) höchstens mit P i∈I Bi = 1. Dann gilt für jedes A ∈ A P[A] =

P[A|Bi ] P[Bi ].

(8.2)

i∈I

Beweis. Wegen der σ-Additivität von P ist . P[A] = P (A ∩ Bi ) = P[A ∩ Bi ] = P[A|Bi ]P[Bi ]. i∈I

i∈I

2

i∈I

Satz 8.7 (Bayes’sche Formel). Sei I eine h¨ ochstens* abzählbare Menge sowie ) (Bi )i∈I paarweise disjunkte Mengen mit P i∈I Bi = 1. Dann gilt für jedes A ∈ A mit P[A] > 0 und jedes k ∈ I P[A|Bk ] P[Bk ] i∈I P[A|Bi ] P[Bi ]

P[Bk |A] =

(8.3)

8.1 Elementare bedingte Wahrscheinlichkeiten

167

Beweis. Es gilt P[Bk |A] =

P[A|Bk ] P[Bk ] P[Bk ∩ A] = . P[A] P[A]

Setze jetzt (8.2) für P[A] ein.

2

Beispiel 8.8. Bei der Produktion gewisser elektronischer Bauteile sind 2% der Ware defekt. Ein schnelles Testverfahren erkennt ein defektes Bauteil mit Wahrscheinlichkeit 95%, meldet aber bei 10% der intakten Bauteile falschen Alarm. Mit welcher Wahrscheinlichkeit ist ein als defekt erkanntes Bauteil wirklich defekt? Wir formalisieren die obige Beschreibung. Seien A := {Bauteil wird als defekt deklariert}, B := {Bauteil ist defekt}, sowie

P[B c ] = 0.98,

P[B] = 0.02, P[A|B] = 0.95,

P[A|B c ] = 0.1.

Die Bayes’sche Formel liefert nun P[B |A] = =

P[A|B] P[B] P[A|B] P[B] + P[A|B c ] P[B c ] 19 0.95 · 0.02 = ≈ 0.162. 0.95 · 0.02 + 0.1 · 0.98 117

Andererseits ist die Wahrscheinlichkeit, dass ein nicht als defekt erkanntes Bauteil dennoch defekt ist P[B |Ac ] =

1 0.05 · 0.02 = ≈ 0.00113. 0.05 · 0.02 + 0.9 · 0.98 883

Sei nun X ∈ L1 (P). Ist A ∈ A, so ist offenbar auch E[X; A] := E[

A

AX

3

∈ L1 (P), und wir setzen

X].

(8.4)

Ist P[A] > 0, so ist P[ · |A] ein W-Maß. Wegen A X ∈ L1 (P) ist auch X ∈ L1 (P[ · |A]). Also können wir den Erwartungswert von X bezüglich P[ · |A] definieren. Definition 8.9. Sei X ∈ L1 (P) und A ∈ A. Dann setzen wir ⎧ ⎨ E[ A X] , falls P[A] > 0, P[A] E[X |A] := X(ω) P[dω |A] = ⎩ 0, sonst.

(8.5)

168


Offenbar ist P[B |A] = E[

B |A]

für jedes B ∈ A.

Wir betrachten nun die Situation, die wir bei der Formel von der totalen Wahrscheinlichkeit untersucht hatten. Sei also I eine h¨ ochstens abzählbare Menge, und Bi = Ω. Wir definieren F := seien (Bi )i∈I paarweise disjunkte Ereignisse mit i∈I

σ(Bi , i ∈ I). Für X ∈ L1 (P) definieren wir eine Abbildung E[X |F] : Ω → R durch ⇐⇒ Bi ∋ ω. (8.6) E[X |F](ω) = E[X |Bi ] Lemma 8.10. Die Abbildung E[X |F] hat die folgenden Eigenschaften: (i) E[X |F] ist F-messbar, 1

(ii) E[X |F] ∈ L (P), und für jedes A ∈ F gilt

A

E[X |F] dP =

X dP.

A

Beweis. (i) Sei f die Abbildung f : Ω → I, mit f (ω) = i

⇐⇒

Bi ∋ ω.

Ferner sei g : I → R, i → E[X |Bi ]. Da I diskret ist, ist g messbar. Da f messbar ist bezüglich F, ist auch E[X |F] = g ◦ f messbar bezüglich F. (ii) Sei A ∈ F und J ⊂ I mit A = j∈J Bj . Sei J ′ := {i ∈ J : P[Bi ] > 0}. Dann ist X dP. 2 E[X |F] dP = P[Bi ] E[X |Bi ] = E[ Bi X] = A

i∈J ′

i∈J ′

A

¨ Ubung 8.1.1 (Gedächtnislosigkeit der Exponentialverteilung). Sei X eine nichtnegative Zufallsvariable und θ > 0. Man zeige: Genau dann ist X exponentialverteilt, wenn P[X > t + s|X > s] = P[X > t]

für alle s, t ≥ 0.

Insbesondere gilt für θ > 0: Genau dann ist X ∼ expθ , wenn P[X > t + s|X > ♣ s] = e−θt für alle s, t ≥ 0 gilt.

8.2 Bedingte Erwartungen Wir nehmen an, dass X eine uniform auf [0, 1] verteilte Zufallsvariable ist, und dass bei Kenntnis des Wertes X = x die Zufallsvariablen Y1 , . . . , Yn unabhängig und Berx -verteilt sind. Mit unserem Apparat können wir bisher bedingte Wahrscheinlichkeiten vom Typ P[ · |X ∈ [a, b]], a < b, ausrechnen. Wie sieht es aber aus

8.2 Bedingte Erwartungen

169

mit P[Y1 = . . . = Yn = 1 X = x]? Intuitiv sollte dies xn sein. Wir brauchen einen Begriff der bedingten Wahrscheinlichkeit, der auch für Ereignisse mit Wahrscheinlichkeit Null in konsistenter Weise unserer Intuition entspricht. Wir werden (im nächsten Abschnitt) sehen, dass dies im vorliegenden Beispiel mit Hilfe von ¨ Ubergangskernen möglich ist. Zunächst aber betrachten wir die allgemeine Situation. Sei im Folgenden stets F ⊂ A eine Unter-σ-Algebra und X ∈ L1 (Ω, A, P). In Anlehnung an Lemma 8.10 treffen wir die folgende Definition. Definition 8.11 (Bedingte Erwartung). Eine Zufallsvariable Y heißt bedingte Erwartung von X gegeben F, symbolisch E[X |F] := Y , falls gilt: (i) Y ist F-messbar.

(ii) Für jedes A ∈ F gilt E[X

A]

Für B ∈ A heißt P[B |F] := E[ gegeben F.

= E[Y

B |F]

A ].

die bedingte Wahrscheinlichkeit von B

Satz 8.12. E[X |F] existiert und ist eindeutig (bis auf Gleichheit fast sicher). Da bedingte Erwartungen nur bis auf Gleichheit f.s. definiert sind, sind alle Gleichheiten mit bedingten Erwartungen immer nur als Gleichheiten f.s. zu verstehen, auch wenn nicht explizit darauf hingewiesen wird. Beweis. Eindeutigkeit. Seien Y und Y ′ Zufallsvariablen, die (i) und (ii) erfüllen. Setze A = {Y > Y ′ } ∈ F. Dann ist nach Bedingung (ii) 0 = E[Y

A]

− E[Y ′

A]

= E[(Y − Y ′ )

A ].

Wegen (Y − Y ′ ) A ≥ 0, ist dann P[A] = 0, also Y ≤ Y ′ fast sicher. Analog folgt Y ≥ Y ′ fast sicher. Existenz.

Seien X + = X ∨ 0 und X − = X + − X. Durch Q± (A) := E[X ±

A]

für jedes A ∈ F,

werden zwei endliche Maße auf (Ω, F) definiert. Offenbar ist Q± ≪ P, also liefert der Satz von Radon-Nikodym (Korollar 7.34) die Existenz von Dichten Y ± , sodass Y ± dP = E[Y ± A ]. Q± (A) = A

Setze nun Y = Y + − Y − .

2

Definition 8.13. Ist Y eine Zufallsvariable und X ∈ L1 (P), so definieren wir E[X |Y ] := E[X |σ(Y )].

170


Satz 8.14 (Eigenschaften der bedingten Erwartung). Seien (Ω, A, P) und X wie oben sowie G ⊂ F ⊂ A σ-Algebren. Ferner sei Y ∈ L1 (Ω, A, P). Dann gilt: (i) (Linearität) E[λX + Y |F] = λE[X |F] + E[ Y |F].

(ii) (Monotonie)

Ist X ≥ Y f.s., so ist E[X |F] ≥ E[ Y |F].

(iii) Ist E[|XY |] < ∞ und Y messbar bezüglich F, dann ist E[XY |F] = Y E[X |F]

E[ Y |F] = E[ Y |Y ] = Y.

und

E[E[X |F]|G] = E[E[X |G]|F] = E[X |G]. (v) (Dreiecksungleichung) E[|X| F] ≥ E[X |F].

(iv) (Turmeigenschaft) (vi) (Unabhängigkeit)

Sind σ(X) und F unabhängig, so ist E[X |F] = E[X].

(vii) Gilt P[A] ∈ {0, 1} für jedes A ∈ F, so ist E[X |F] = E[X].

(viii) (Majorisierte Konvergenz) Ist Y ≥ 0 und ist (Xn )n∈N eine Folge von Zun→∞ fallsvariablen mit |Xn | ≤ Y für n ∈ N sowie Xn −→ X f.s., so gilt lim E[Xn |F] = E[X |F] f.s. und in L1 (P).

(8.7)

n→∞

Beweis. (i) Die rechte Seite ist F-messbar, und für A ∈ F ist ) * ) * ) E A λE[X |F] + E[Y |F] = λE A E[X |F] + E = λE[ A X] + E[ A Y ] * ) = E A (λX + Y ) .

(ii) Sei A = {E[X |F] < E[Y |F]} ∈ F. Wegen X ≥ Y ist E[ also P[A] = 0.

A

* E[Y |F]

A

(X − Y )] ≥ 0,

(iii) Sei zunächst X ≥ 0 und Y ≥ 0. Für n ∈ N setze Yn = 2−n ⌊2n Y ⌋. Dann ist Yn ↑ Y sowie Yn E[X |F] ↑ Y E[X |F] (da E[X |F] ≥ 0 nach (ii)). Es gilt nach dem Satz von der monotonen Konvergenz (Lemma 4.6(ii)) * n→∞ ) * ) E A Yn E[X |F] −→ E A Y E[X |F] . Andererseits ist ) E

∞ * ) E A Yn E[X |F] =

=

k=1 ∞

k=1

) = E

) E A

A

{Yn =k 2−n }

A

{Yn =k 2−n }

Yn X

*

* k 2−n E[X |F] k 2−n X

n→∞

−→ E[

A

Y X].

*


171

Also gilt E[ A Y E[X |F]] = E[ A Y X]. Im allgemeinen Fall schreiben wir X = X + − X − und Y = Y + − Y − und nutzen die Linearität der bedingten Erwartung aus. (iv) Die zweite Gleichung folgt aus (iii) mit Y = E[X |G] und X = 1. Sei nun A ∈ G. Dann ist insbesondere auch A ∈ F, also * ) * ) * ) E A E[E[X |F]|G] = E A E[X |F] = E[ A X] = E A E[X |G] . (v) Das folgt aus (i) und (ii) mit X = X + − X − .

(vi) Trivialerweise ist E[X] messbar bezüglich F. Sei A ∈ F. Dann sind X und angig, also ist E[E[X |F] A ] = E[X A ] = E[X] E[ A ]. A unabh¨ (vii) Für jedes A ∈ F und B ∈ A gilt P[A ∩ B] = 0, falls P[A] = 0 ist, und P[A ∩ B] = P[B], falls P[A] = 1 ist. Also ist F von A unabhängig und damit auch von jeder Teil-σ-Algebra von A. Speziell ist F von σ(X) unabhängig. Die Aussage folgt also aus (vi). n→∞

(viii) Sei |Xn | ≤ Y für jedes n ∈ N und Xn −→ X fast sicher. Setze Zn := f.s. supk≥n |Xk − X|. Dann ist 0 ≤ Zn ≤ 2Y und Zn −→ 0. Nach Korollar 6.26 n→∞ (majorisierte Konvergenz) gilt E[Zn ] −→ 0, also nach der Dreiecksungleichung * ) n→∞ E E[Xn |F]−E[X |F] ≤ E[E[|Xn −X| F]] = E[|Xn −X|] ≤ E[Zn ] −→ 0. Dies ist aber die L1 (P)-Konvergenz in (8.7). Sei Z := lim supn→∞ E[Zn F]. Nach dem Lemma von Fatou ist E[Z] ≤ lim E[Zn ] = 0, n→∞

n→∞ also Z = 0 und damit E[Zn F] −→ 0 fast sicher. Nach (v) ist aber E[Xn F] − E[X F] ≤ E[Zn ].

2

Bemerkung 8.15. Intuitiv ist E[X |F] die beste Vorhersage, die wir für den Wert von X machen können, wenn uns die Information aus der σ-Algebra F zur Verfügung steht. Ist beispielsweise σ(X) ⊂ F, kennen wir also X schon, dann ist E[X |F] = X, wie in (iii) gezeigt. Am anderen Ende der Skala ist der Fall, wo X und F unabhängig sind, wir also durch Kenntnis von F keine Information u¨ ber X gewinnen. Hier ist die beste Vorhersage für X der Erwartungswert selber, also E[X] = E[X |F] wie in (vii) gezeigt.

Was heißt dabei aber eigentlich genau beste Vorhersage“? Wir wollen dies für qua” dratintegrierbare Zufallsvariablen X als diejenige F-messbare Zufallsvariable ver2 stehen, die den L –Abstand zu X minimiert. Dass dies die bedingte Erwartung tatsächlich tut, ist der Inhalt des folgenden Korollars. 3

172


Korollar 8.16 (Bedingte Erwartung als Projektion). Sei F ⊂ A eine σ-Algebra und X eine Zufallsvariable mit E[X 2 ] < ∞. Dann ist E[X |F] die orthogonale Projektion von X auf L2 (Ω, F, P). Es gilt also für jedes F-messbare Y mit E[Y 2 ] < ∞ * ) * ) E (X − Y )2 ≥ E (X − E[X |F])2 mit Gleichheit genau dann, wenn Y = E[X |F].

Beweis. Sei Y messbar E[XY ]= * ) * ) bezüglich* F. Dann ) ist (mit der Turmeigenschaft) E[E[X |F]Y ] und E XE[X |F] = E E[XE[X |F] F] = E E[X |F]2 , also ' ) *2 ( * E (X − Y )2 − E X − E[X |F ( ' = E X 2 − 2XY + Y 2 − X 2 + 2XE[X |F] − E[X |F]2 ( ' = E Y 2 − 2Y E[X |F] + E[X |F]2 ' 2 ( = E Y − E[X |F] ≥ 0. 2 Beispiel 8.17. Seien X, Y ∈ L1 (P) unabhängig. Dann ist

E[X + Y |Y ] = E[X |Y ] + E[Y |Y ] = E[X] + Y.

3

Beispiel 8.18. Seien X1 , . . . , XN unabhängig mit E[Xi ] = 0, i = 1, . . . , N . Setze Fn := σ(X1 , . . . , Xn ) und Sn := X1 + . . . + Xn für n = 1, . . . , N . Dann ist für n≥m E[Sn Fm ] = E[X1 Fm ] + . . . + E[Xn Fm ] = X1 + . . . + Xm + E[Xm+1 ] + . . . + E[Xn ] = Sm

Nach Satz 8.14(iv) ist wegen σ(Sm ) ⊂ Fm auch * ) E[Sn |Sm ] = E E[Sn |Fm ] Sm = E[Sm |Sm ] = Sm .

3

Wir kommen nun zur Jensen’schen Ungleichung für bedingte Erwartungen. Satz 8.19 (Jensen’sche Ungleichung). Sei I ⊂ R ein Intervall, und sei ϕ : I → R konvex und X eine Zufallsvariable auf (Ω, A, P) mit Werten in I. Ferner sei E[|X|] < ∞ und F ⊂ A eine σ-Algebra. Dann gilt ∞ ≥ E[ϕ(X)|F] ≥ ϕ(E[X |F]).

Beweis. (Man erinnere sich der Definition 1.68 zur Sprechweise fast sicher auf ” A“.) Auf dem Ereignis {E[X |F] ist ein Randpunkt von I} ist X = E[X |F] fast


173

sicher, und die Aussage ist trivial. In der Tat: Ohne Einschränkung sei 0 der linke Randpunkt von I und A := {E[X |F] = 0}. Da X Werte in I ⊂ [0, ∞) annimmt, ist 0 ≤ E[X A ] = E[E[X |F] A ] = 0, also ist X A = 0. Der Fall eines rechten Randpunktes geht analog. Sei also nun das Ereignis B := {E[X |F] ist innerer Punkt von I} betrachtet.

Für jeden inneren Punkt x ∈ I sei D+ ϕ(x) die maximale Tangentensteigung von ϕ in x, also der maximale Wert t mit ϕ(y) ≥ (y − x)t + ϕ(x) für alle y ∈ I (siehe Satz 7.7). Die Abbildung x → D+ ϕ(x) ist monoton wachsend, also messbar, und daher ist D+ ϕ(E[X |F]) eine F-messbare Zufallsvariable. Es folgt '

( ) * E ϕ(X)|F ≥ E X − E[X |F] D+ ϕ(E[X |F]) + ϕ E[X |F] F

2 = ϕ E[X |F] f.s auf B.

Korollar 8.20. Sei p ∈ [1, ∞] und F ⊂ A eine Teil-σ-Algebra. Dann ist die Abbildung Lp (Ω, A, P) → Lp (Ω, F, P), X → E[X |F] eine Kontraktion (das heißt: E[X |F]p ≤ Xp ) und damit insbesondere stetig. Es gilt also für n→∞ X, X1 , X2 , . . . ∈ Lp (Ω, A, P) mit Xn − Xp −→ 0 auch = = =E[Xn |F] − E[X |F]= n→∞ −→ 0. p

p Beweis. Für p ∈ [1, ∞) benutze die Jensen’sche Ungleichung mit ϕ(x) = |x| . Für 2 p = ∞ beachte, dass |E[X |F]| ≤ E[|X||F] ≤ E[X∞ F] = X∞ .

Korollar 8.21. Ist (Xi , i ∈ I) gleichgradig integrierbar und (Fj , j ∈ J) eine Familie von Teil-σ-Algebren von A, sowie Xi,j := E[Xi Fj ], dann ist (Xi,j , (i, j) ∈ I × J) gleichgradig integrierbar. Insbesondere ist für X ∈ L1 (P) die Familie (E[X |Fj ], j ∈ J) gleichgradig integrierbar. Beweis. Nach Satz 6.19 existiert eine wachsende, konvexe Funktion f mit der Eigenschaft f (x)/x → ∞, x → ∞ und L := supi∈I E[f (|Xi |)] < ∞. Dann ist x → f (|x|) konvex, also nach der Jensen’schen Ungleichung * * ) ) E f (|Xi,j |) = E f E[Xi |Fj ] ≤ L < ∞. Nach Satz 6.19 ist daher (Xi,j , (i, j) ∈ I × J) gleichgradig integrierbar.

2

Beispiel 8.22. Seien μ und ν endliche Maße mit ν ≪ μ. Sei f = dν/dμ die RadonNikodym-Ableitung, und sei I = {F ⊂ A : F ist eine σ-Algebra}. Betrachte die auf F eingeschränkten Maße μ und ν . Dann ist ν ≪ μ (klar, denn in F F F F F gibt es ja weniger μ–Nullmengen), also existiert die Radon-Nikodym-Ableitung fF := dν /dμ . Dann ist (fF : F ∈ I) gleichgradig integrierbar (bezüglich F F μ). (Für endliche σ-Algebren F wurde dies schon in Beispiel 7.39 gezeigt.) In der

174


Tat: Sei P = μ/μ(Ω) und Q = ν/μ(Ω). Dann ist fF = dQ /dP . Für jedes F F 0 0 F ∈ F ist also E[fF F ] = F fF dP = Q(F ) = F f dP = E[f F ], also fF = E[f |F]. Nach dem vorangehenden Korollar ist (fF : F ∈ I) gleichgradig integrierbar bezüglich P und damit auch bezüglich μ. 3 ¨ Ubung 8.2.1. (Bayes’sche Formel) Seien A ∈ A und B ∈ F. Man zeige 0 P[A|F] dP . P[B |A] = 0B P[A|F] dP

Wird F von paarweise disjunkten Mengen B1 , B2 , . . . erzeugt, so ist dies gerade die Bayes’sche Formel aus Satz 8.7. ♣ ¨ Ubung 8.2.2. Man zeige durch ein Beispiel, dass E[E[X |F]|G] = E[E[X |G]|F] gelten kann. ♣ ¨ Ubung 8.2.3. Man zeige die bedingte Markov’sche Ungleichung: Für monoton wachsendes f : [0, ∞) → [0, ∞) und ε > 0 mit f (ε) > 0 ist * ) ) * E f (|X|) F . ♣ P |X| ≥ ε|F ≤ f (ε)

¨ Ubung 8.2.4. Man zeige die bedingte Cauchy-Schwarz’sche Ungleichung: Für quadratintegrierbare Zufallsvariablen X, Y gilt E[XY |F]2 ≤ E[X 2 |F] E[Y 2 |F].

♣

¨ Ubung 8.2.5. Seien X1 , . . . , Xn integrierbar, unabhängig und identisch verteilt. Sei Sn = X1 + . . . + Xn . Zeige: E[Xi |Sn ] =

1 Sn n

für jedes i = 1, . . . , n.

♣

¨ Ubung 8.2.6. Seien X1 und X2 unabhängig und exponentialverteilt mit Parameter ♣ θ > 0. Man bestimme E[X1 ∧ X2 |X1 ]. ¨ Ubung 8.2.7. Seien X und Y reelle Zufallsvariablen mit gemeinsamer Dichte f , und sei h : R → R messbar mit E[|h(X)|] < ∞. Es bezeiche λ das Lebesgue-Maß auf R. (i) Zeige, dass fast sicher gilt: E[h(X)|Y ] =

0

h(x)f (x, Y ) λ(dx) 0 . f (x, Y ) λ(dx)

(ii) Seien speziell X und Y unabhängig und expθ -verteilt für ein θ > 0. Bestimme E[X |X + Y ] und P[X ≤ x|X + Y ] für x ≥ 0. ♣

8.3 Reguläre Version der bedingten Verteilung

175

8.3 Reguläre Version der bedingten Verteilung Ist X eine Zufallsvariable mit Werten in einem Messraum (E, E), so können wir mit unserem Apparat bisher für festes A ∈ A die bedingte Wahrscheinlichkeit P[A|X] angeben. Können wir die Situation aber auch so einrichten, dass wir für jedes x ∈ E ein W-Maß P[ · |X = x] angeben können, sodass für jedes A ∈ A gilt P[A|X] = P[A|X = x] auf {X = x}?

Wir sind beispielsweise an einem zweistufigen Zufallsexperiment interessiert: Im ersten Schritt wird eine Münze in zufälliger Weise so gefälscht, dass sie die Erfolgswahrscheinlichkeit X hat. Danach werden unabhängige Würfe Y1 , . . . , Yn mit dieser Münze durchgeführt. Die bedingte Verteilung von (Y1 , . . . , Yn ) gegeben ” {X = x}“ sollte also (Berx )⊗n sein.

Sei X wie oben und Z eine σ(X)-messbare, reelle Zufallsvariable. Nach dem Faktorisierungslemma (Korollar 1.97) existiert eine E – B(R)-messbare Abbildung ϕ : E → R mit ϕ(X) = Z. Ist X surjektiv, so ist ϕ eindeutig festgelegt. Wir schreiben dann Z ◦ X −1 := ϕ (auch wenn die Umkehrabbildung X −1 selber nicht existiert). Definition 8.23. Sei Y ∈ L1 (P) und X : (Ω, A) → (E, E). Dann definieren wir die bedingte Erwartung von Y gegeben X = x, kurz E[Y |X = x], als die Funktion ϕ aus dem Faktorisierungslemma mit Z = E[Y |X]. Wir setzen analog P[A|X = x] = E[ A X = x] für A ∈ A.

Für eine Menge B ∈ A mit P[B] > 0 ist die bedingte Wahrscheinlichkeit P[ · |B] ein W-Maß. Gilt das Gleiche für P[ · |X = x]? Der Fall liegt hier komplizierter, da wir für jedes A ∈ A den Ausdruck P[A|X = x] für x nur bis auf eine Ausnahmemenge, die allerdings von A abhängt, definiert haben. Wenn wir die σ-Algebra A nun durch abzählbar viele A genügend gut approximieren können, besteht Hoffnung, dass die Ausnahmemengen sich zu einer Nullmenge vereinigen. Wir fassen zunächst die Begriffe genauer und zeigen dann das angedeutete Ergebnis. ¨ Definition 8.24 (Ubergangskern, Markovkern). Sind (Ω1 , A1 ), (Ω2 , A2 ) Mess¨ (von Ω1 räume, so heißt κ : Ω1 × A2 → [0, ∞] ein (σ–)endlicher Ubergangskern nach Ω2 ), falls (i) ω1 → κ(ω1 , A2 ) ist A1 -messbar für jedes A2 ∈ A2 .

(ii) A2 → κ(ω1 , A2 ) ist ein (σ–)endliches Maß auf (Ω2 , A2 ) für jedes ω1 ∈ Ω1 . Ist das Maß in (ii) ein W-Maß für jedes ω1 ∈ Ω1 , so heißt κ stochastischer Kern oder Markovkern. Wird in (ii) zusätzlich κ(ω1 , Ω2 ) ≤ 1 für jedes ω1 ∈ Ω1 gefordert, so heißt κ sub-Markov’sch oder substochastisch.

176


Bemerkung 8.25. Es reicht, in Definition 8.24 die Eigenschaft (i) nur für Mengen A2 aus einem schnittstabilen Erzeuger E von A2 , der Ω2 oder eine Folge En ↑ Ω2 enthält, zu fordern. Es ist nämlich stets

D := A2 ∈ A2 : ω1 → κ(ω1 , A2 ) ist A1 -messbar

¨ ein Dynkin-System (Ubung!). Wegen E ⊂ D ist (Satz 1.19) D = σ(E) = A2 .

3

Beispiel 8.26. (i) Sind (Ω1 , A1 ) und (Ω2 , A2 ) diskrete Messräume, so liefert jede Matrix (Kij ) i∈Ω1 mit nichtnegativen Einträgen und endlichen Zeilensummen j∈Ω2

Ki :=

j∈Ω2

Kij < ∞

für i ∈ Ω1 ,

¨ einen endlichen Ubergangskern von Ω1 nach Ω2 vermöge κ(i, A) =

Kij . Der

j∈A

Kern ist stochastisch, falls Ki = 1 für jedes i ∈ N und substochastisch, falls Ki ≤ 1 für jedes i ∈ Ω1 . ¨ (ii) Ist μ2 ein endliches Maß auf Ω2 , dann ist κ(ω1 , · ) ≡ μ2 ein endlicher Ubergangskern. (iii) κ(x, · ) = Poix ist ein stochastischer Kern von [0, ∞) nach N0 (beachte: für jedes A ⊂ N0 ist x → Poix (A) stetig, also insbesondere messbar). (iv) Sei μ eine Verteilung auf Rn und X eine Zufallsvariable mit PX = μ. Dann definiert κ(x, · ) = P[X + x ∈ · ] = δx ∗ μ einen stochastischen Kern von Rn nach Rn . In der Tat: Die Mengen (−∞, y], y ∈ Rn , bilden einen schnittstabilen Erzeuger von B(Rn ) und x → κ(x, (−∞, y]) = μ((−∞, y − x]) ist linksstetig, also messbar. Nach Bemerkung 8.25 ist daher x → κ(x, A) messbar für jedes A ∈ B(Rn ). 3 Definition 8.27. Sei Y eine Zufallsvariable mit Werten in einem Messraum (E, E) und F ⊂ A eine Unter-σ-Algebra. Ein stochastischer Kern κY,F von (Ω, F) nach (E, E) heißt reguläre Version der bedingten Verteilung von Y gegeben F, falls κY,F (ω, B) = P[{Y ∈ B}|F](ω) für P-fast alle ω ∈ Ω und für jedes B ∈ E.

Sei speziell F = σ(X) für eine Zufallsvariable X (in einem beliebigen Messraum (E ′ , E ′ )). Dann heißt der stochastische Kern (x, A) → κY,X (x, A) = P[{Y ∈ A}|X = x] = κY,σ(X) (X −1 (x), A) (die Funktion aus dem Faktorisierungslemma mit beliebiger Festsetzung für x ∈ X(Ω)) eine reguläre Version der bedingten Verteilung von Y gegeben X.

Satz 8.28 (Reguläre bedingte Verteilungen in R). Ist Y : (Ω, A) → (R, B(R)) reellwertig, dann existiert eine reguläre Version κY,F der bedingten Verteilungen P[{Y ∈ · }|F].


177

Beweis. Die Strategie besteht darin, eine messbare Version der Verteilungsfunktion der bedingten Verteilung von Y zu konstruieren, indem diese zunächst für rationale Werte festgelegt wird (bis auf eine Nullmenge) und dann auf die reellen Zahlen fortgesetzt wird. Für r ∈ Q sei F (r, · ) eine Version der bedingten Wahrscheinlichkeit P[Y ∈ (−∞, r]|F]. Für r ≤ s ist offenbar {Y ∈(−∞,r]} ≤ {Y ∈(−∞,s]} , also gibt es nach Satz 8.14(ii) (Monotonie der bedingten Erwartung) eine Nullmenge Ar,s ∈ F mit F (r, ω) ≤ F (s, ω) für jedes ω ∈ Ω \ Ar,s . Nach Satz 8.14(viii) (majorisierte Konvergenz) gibt es Nullmengen (Br )r∈Q ∈ F und C ∈ F, sodass 1 lim F r + , ω = F (r, ω) für jedes ω ∈ Ω \ Br und n→∞ n lim F (−n, ω) = 0,

lim F (n, ω) = 1

n→∞

Setze N :=

r,s∈Q

Ar,s ∪

n→∞

r∈Q

für jedes ω ∈ Ω \ C.

Br ∪ C. Für ω ∈ Ω \ N definieren wir

F˜ (z, ω) := inf F (r, ω) : r ∈ Q, r ≥ z

für alle z ∈ R.

Da F ( · , ω) monoton wachsend ist, ist F˜ ( · , ω) monoton wachsend und rechtsstetig in jedem z ∈ R \ Q. Da F ( · , ω) zudem rechtsstetig ist, ist F˜ ( · , ω) rechtsstetig in jedem z ∈ Q. Also ist F˜ ( · , ω) eine Verteilungsfunktion für jedes ω ∈ Ω \ N . Für ω ∈ N setze F˜ ( · , ω) = F0 , wobei F0 eine beliebige fest gewählte Verteilungsfunktion ist. Für jedes ω ∈ Ω definieren wir κ(ω, · ) als das durch die Verteilungsfunktion F˜ ( · , ω) definierte W-Maß auf (Ω, A). Für r ∈ Q und B = (−∞, r] ist dann ω → κ(ω, B) = P[Y ∈ B |F](ω)

N c (ω)

+ F0 (r)

N (ω)

(8.8)

F-messbar. Nun ist {(−∞, r], r ∈ Q} ein schnittstabiler Erzeuger von B(R). Nach Bemerkung 8.25 gilt die Messbarkeit also für jedes B ∈ B(R), und damit ist κ als stochastischer Kern erkannt. Wir müssen noch zeigen, dass κ eine Version der bedingten Verteilungen ist. Für A ∈ F, r ∈ Q und B = (−∞, r] ist nach (8.8) ) * ) * κ(ω, B) P[dω] = P Y ∈ B |F dP = P A ∩ {Y ∈ B} . A

A

Als Funktion von B sind beide Seiten

endliche Maße auf B(R), die auf dem schnittstabilen Erzeuger (−∞, r], r ∈ Q u¨ bereinstimmen. Nach dem Eindeutigkeitssatz (Lemma 1.42) gilt daher für jedes B ∈ B(R) Gleichheit und damit P-fast sicher 2 κ( · , B) = P[Y ∈ B |F], also κ = κY,F .

178


Beispiel 8.29. Seien Z1 , Z2 unabhängig und Poisson-verteilt mit den Parametern ¨ λ1 , λ2 ≥ 0. Dann kann man zeigen (Ubung!), dass (mit Y = Z1 und X = Z1 + Z2 ) P[Z1 = k Z1 + Z2 = n] = bn,p (k) für k = 0, . . . , n, wobei p =

λ1 λ1 +λ2

ist.

3

Dieses Beispiel ließ sich aber im Grunde genommen auch noch mit elementaren Mitteln bearbeiten. Die volle Stärke des Ergebnisses nutzen wir in den folgenden Beispielen aus. Beispiel 8.30. Seien X und Y reelle Zufallsvariablen mit gemeinsamer Dichtefunktion f (bezüglich des Lebesgue-Maßes λ2 auf R2 ). Für x ∈ R setzen wir fX (x) = f (x, y) λ(dy). R

−1 Offenbar ist fX (x) > 0 für PX -f.a. x ∈ R und fX ist die Dichte des absolutstetigen Anteils des Lebesgue-Maßes λ bezüglich PX . Die reguläre Version der bedingten Verteilung von Y gegeben X hat die Dichte

P[Y ∈ dy |X = x] f (x, y) = fY |X (x, y) := für PX [dx]-f.a. x ∈ R. (8.9) dy fX (x) In 0 der Tat ist nach dem Satz von Fubini (siehe Satz 14.16) die Abbildung x → f (x, y) λ(dy) messbar für jedes B ∈ B(R), und für A, B ∈ B(R) gilt B Y |X P[X ∈ dx] fY |X (x, y) λ(dy) A B −1 = P[X ∈ dx] fX (x) f (x, y) λ(dy) B A = λ(dx) f (x, y) λ(dy) A B = f dλ2 = P[X ∈ A, Y ∈ B]. 3 A×B

.

Beispiel 8.31. Seien μ1 , μ2 ∈ R, σ1 , σ2 > 0 und Z1 , Z2 unabhängig und Nμi ,σi2 verteilt (i = 1, 2). Dann existiert eine reguläre Version der bedingten Verteilung P[Z1 ∈ · |Z1 + Z2 = x]

für x ∈ R.

Setzen wir X = Z1 +Z2 und Y2 = Z12 , so2ist (X, Y ) ∼ Nμ,Σ bivariatnormalverteilt σ1 + σ 2 σ 1 μ1 + μ2 und mit μ := mit Kovarianzmatrix Σ := . Wegen σ12 σ12 μ1


Σ −1 = wo B =

σ1 −σ1 0 σ2

2 2 −1 σ1 σ2

σ12 −σ12 2 2 −σ1 σ1 + σ22

179

= (σ12 σ22 )−1 B T B,

ist, hat (X, Y ) die Dichte (siehe Beispiel 1.105(ix))

= =2 1 = x − (μ1 + μ2 ) = = = f (x, y) = det(2π Σ) exp − 2 2 =B = y − μ1 2σ1 σ2

2 2 2 −1/2 σ12 (y − (x − μ1 ))2 + σ22 (y − μ2 )2 = 4π σ1 σ2 exp − 2σ12 σ22

2 2 = Cx exp − (y − μx ) /2σx , −1/2

wobei Cx eine Normalisierungskonstante ist und μx = μ1 +

σ12 (x − μ1 − μ2 ) σ12 + σ22

und

σx2 =

σ12 σ22 . σ12 + σ22

Nach (8.9) hat P[Z1 ∈ · |Z1 + Z2 = x] die Dichte Cx (y − μx )2 y → fY |X (x, y) = exp − , fX (x) 2σx2 also ist P[Z1 ∈ · |Z1 + Z2 = x] = Nμx ,σx2 für fast alle x ∈ R.

3

Beispiel 8.32. Sind X und Y unabhängige, reelle Zufallsvariablen, so ist für PX fast alle x ∈ R P[X + Y ∈ · |X = x] = δx ∗ PY . 3 Die Situation ist noch nicht vollends zufriedenstellend, da wir die sehr starke Annahme gemacht haben, dass Y reellwertig ist. Ursprünglich waren wir aber auch an einer Situation interessiert, wo Y Werte in Rn annimmt, oder sogar in allgemeineren Räumen. Wir dehnen nun das Ergebnis auf eine größere Klasse von Wertebereichen von Y aus. Definition 8.33. Zwei Messräume (E, E) und (E ′ , E ′ ) heißen isomorph, falls es eine bijektive Abbildung ϕ : E → E ′ gibt, sodass ϕ messbar ist bezüglich E–E ′ und die Umkehrabbildung ϕ−1 messbar ist bezüglich E ′ –E. Wir nennen dann ϕ einen Messraum-Isomorphismus. Sind zudem μ und μ′ Maße auf (E, E) und (E ′ , E ′ ) und gilt μ′ = μ ◦ ϕ−1 , so ist ϕ ein Maßraum-Isomorphismus, und die Maßräume (E, E, μ) und (E ′ , E ′ , μ′ ) heißen isomorph. Definition 8.34. Ein Messraum (E, E) heißt Borel’scher Raum, falls es eine Borel’sche Menge B ∈ B(R) gibt, sodass (E, E) und (B, B(B)) isomorph sind.

180


Ein separabler topologischer Raum, dessen Topologie durch eine vollständige Metrik erzeugt wird, heißt polnischer Raum. Speziell sind Rd , Zd , RN , (C([0, 1]), · ∞ ) und so fort polnisch. Abgeschlossene Teilmengen von polnischen Räumen sind ebenfalls polnisch. Wir kommen auf polnische Räume im Zusammenhang mit der Konvergenz von Maßen in Kapitel 13 zurück. Ohne Beweis bringen wir das folgende topologische Ergebnis (siehe etwa [37, Theorem 13.1.1]). Satz 8.35. Ist E ein polnischer Raum mit Borel’scher σ-Algebra E, dann ist (E, E) ein Borel’scher Raum. Satz 8.36 (Reguläre bedingte Verteilungen). Sei F ⊂ A eine Unter-σ-Algebra. Sei Y eine Zufallsvariable mit Werten in einem Borel’schen Raum (E, E) (also zum Beispiel E polnisch, E = Rd , E = R∞ , E = C([0, 1]) usw.). Dann existiert eine reguläre Version κY,F der bedingten Verteilungen P[{Y ∈ · }|F]. Beweis. Sei B ∈ B(R) und ϕ : E → B ein Messraum-Isomorphismus. Mit Satz 8.28 erhalten wir die regulären bedingten Verteilungen κY ′ ,F der reellen Zufallsvariablen Y ′ = ϕ ◦ Y . Wir setzen nun κY,F (ω, A) = κY ′ ,F (ω, ϕ(A)) für A ∈ E. 2 Abschließend greifen wir das eingangs betrachtete Beispiel wieder auf und können nun die dort in Anführungszeichen gemachte Aussage formal hinschreiben. Sei also X uniform auf [0, 1] verteilt, und gegeben den Wert X = x seien (Y1 , . . . , Yn ) unabhängig Berx –verteilt. Wir setzen Y = (Y1 , . . . , Yn ). Nach Satz 8.36 (mit E = {0, 1}n ⊂ Rn ) existieren die regulären bedingten Verteilungen κY,X (x, · ) = P[Y ∈ · |X = x]

für x ∈ [0, 1].

In der Tat ist für fast alle x ∈ [0, 1] P[Y ∈ · |X = x] = (Berx )⊗n . Satz 8.37. Sei X ein Zufallsvariable auf (Ω, A, P) mit Werten in einem Borel’schen Raum (E, E). Sei F ⊂ A eine σ-Algebra und κX,F eine Version der regulären bedingten Verteilungen von X gegeben F. Sei ferner f : E → R messbar und E[|f (X)|] < ∞. Dann ist E[f (X)|F](ω) = f (x) κY,F (ω, dx) für P-fast alle ω. (8.10) Beweis. Wir rechnen nach, dass die rechte Seite in (8.10) die Eigenschaften des bedingten Erwartungswertes hat. Es reicht, den Fall f ≥ 0 zu betrachten. Indem wir f durch Elementarfunktionen approximieren, sehen wir, dass die rechte Seite in (8.10) messbar bezüglich F ist


181

(siehe Lemma 14.20 für ein formales Argument). Nach Satz 1.96 existieren dann Mengen A1 , A2 , . . . ∈ E und Zahlen α1 , α2 , . . . ≥ 0 mit gn :=

n

αi

i=1

n→∞ Ai

−→ f.

Für jedes n ∈ N und B ∈ F ist nun E[gn (X)

B]

= = =

n

i=1 n

i=1 n

αi P[{X ∈ Ai } ∩ B] αi

B

αi

i=1

=

n B i=1

=

B

P[{X ∈ Ai }|F] P[dω] κX,F (ω, Ai ) P[dω]

B

αi κX,F (ω, Ai ) P[dω] gn (x) κX,F (ω, dx) P[dω].

Nach dem Satz von der 0 monotonen Konvergenz konvergiert für fast jedes ω das innere Integral gegen f (x)κX,F (ω, dx). Erneute Anwendung des Satzes von der monotonen Konvergenz liefert f (x) κX,F (ω, dx) P[dω]. 2 E[f (X) B ] = lim E[gn (X) B ] = n→∞

B

¨ Ubung 8.3.1. Sei (E, E) ein Borel’scher Raum und μ ein atomloses Maß (das heißt, μ({x}) = 0 für jedes x ∈ E). Man zeige: Für jedes A ∈ Eund jedes n ∈ N n existieren paarweise disjunkte Mengen A1 , . . . , An ∈ E mit k=1 Ak = A und ♣ μ(Ak ) = μ(A)/n für jedes k = 1, . . . , n. ¨ Ubung 8.3.2. Seien p, q ∈ (1, ∞) mit p1 + 1q = 1, und seien X ∈ Lp (P) und Y ∈ Lq (μ). Sei F ⊂ A eine σ-Algebra. Man zeige mit Hilfe des vorangehenden Satzes die bedingte Version der Hölder’schen Ungleichung: *1/p ) q *1/q * ) ) E |Y | F fast sicher. ♣ E |XY | F ≤ E |X|p F

¨ Ubung 8.3.3. Sei (X, Y ) uniform verteilt auf B := {(x, y) ∈ R2 : x2 + y 2 ≤ 1} beziehungsweise auf [−1, 1]2 .

(i) Man bestimme jeweils die bedingte Verteilung von Y gegeben X = x. √ (ii) Sei R := X 2 + Y 2 und Θ = arctan(Y /X). Man bestimme jeweils die bedingte Verteilung von Θ gegeben R = r. ♣

182


¨ Ubung 8.3.4. Sei (X, Y ) uniform verteilt auf G := {(x, y) ∈ R2 : x2 + y 2 ≤ 1}. Man bestimme die bedingte Verteilung von Y gegeben X = x. ♣ ¨ Ubung 8.3.5. Sei A ⊂ Rn eine Borel-messbare Menge mit endlichem LebesgueMaß λ(A) ∈ (0, ∞), und sei B ⊂ A messbar mit λ(B) > 0. Zeige: Ist X uniform verteilt (siehe Beispiel 1.75) auf A, so ist die bedingte Verteilung von X gegeben {X ∈ B} die uniforme Verteilung auf B. ♣ ¨ Ubung 8.3.6. (Borel’sches Paradoxon) Wir wollen die Erde als Kugel ansehen und betrachten einen zufälligen uniform auf der Erdoberfläche verteilten Punkt X. Wir wollen die Koordinaten von X durch die geografische Länge Θ und Breite Φ angeben. Allerdings soll, entgegen der u¨ blichen Konvention, Θ die Werte in [0, π) annehmen und Φ in [−π, π). Damit wird für festes Θ ein kompletter Großkreis beschrieben, wenn Φ seinen Wertebereich durchläuft. Ist nun Φ gegeben Θ uniform verteilt auf [−π, π)? Man sollte annehmen, dass jeder Punkt auf dem Großkreis gleich wahrscheinlich ist. Dies ist jedoch nicht der Fall! Der etwas aufgedickte“ ¨” dicker Großkreis, mit Längen zwischen Θ und Θ + ε (für kleines ε) ist am Aquator als an den Polen. Lassen wir ε → 0 gehen, so sollten wir, zumindest intuitiv, die bedingten Wahrscheinlichkeiten erhalten. (i) Man zeige: P[{Φ ∈ · }|Θ = θ] hat für fast alle θ die Dichte 41 | cos(φ)| für φ ∈ [−π, π).

(ii) Man zeige: P[{Θ ∈ · }|Φ = φ] = U[0,π) für fast alle φ.

Hinweis: Man zeige, dass Θ und Φ unabhängig sind und bestimme die Verteilungen von Θ und Φ. ♣ ¨ Ubung 8.3.7 (Verwerfungmethode zur Erzeugung von Zufallsvariablen). Sei E höchstens abzählbar und P und Q Wahrscheinlichkeitsmaße auf E. Es gebe ur jedes e ∈ E mit P ({e}) > 0. Seien ein c > 0 mit f (e) := Q({e}) P ({e}) ≤ c f¨ X1 , X2 , . . . unabhängige Zufallsvariablen mit Verteilung P und U1 , U2 , . . . davon unabhängige u.i.v. Zufallsvariablen, die uniform auf [0, 1] verteilt sind. Wähle N als die (zufällige) kleinste natürliche Zahl n, sodass Un ≤ f (Xn )/c, und setze Y := XN . Man zeige: Y hat die Verteilung Q. Anmerkung: Dieses Verfahren zur Erzeugung einer Zufallsvariable mit einer gewünschten Verteilung Q wird auch Verwerfungsmethode (rejection sampling) genannt, denn man kann es so interpretieren: Die Zufallsvariable X1 ist ein Vorschlag für den möglichen Wert von Y . Dieser Vorschlag wird mit Wahrscheinlichkeit f (X1 )/c angenommen, ansonsten wird X2 betrachtet und so weiter. ♣ ¨ Ubung 8.3.8. Sei E ein polnischer Raum und P, Q ∈ M1 (R), sowie c > 0 mit ¨ f := dQ ♣ dP ≤ c P -fast sicher. Zeige die analoge Aussage zu Ubung 8.3.7.

9 Martingale

Einer der wichtigsten Begriffe der modernen Wahrscheinlichkeitstheorie ist das Martingal, das die Idee eines fairen Spiels (Xn )n∈N0 formalisiert. In diesem Kapitel wird der Begriffsapparat für die Beschreibung allgemeiner stochastischer Prozesse aufgebaut. Danach werden Martingale und das diskrete stochastische Integral eingeführt und auf ein Modell der Finanzmathematik angewandt.

9.1 Prozesse, Filtrationen, Stoppzeiten Wir führen die grundlegenden technischen Begriffe für die Behandlung stochastischer Prozesse, darunter Martingale, ein. Um die Begriffe später in einem anderen Kontext weiter verwenden zu können, streben wir eine größere Allgemeinheit an als für die Behandlung von Martingalen notwendig wäre. Im Folgenden sei stets (E, τ ) ein polnischer Raum mit Borel’scher σ-Algebra E. Weiter sei (Ω, F, P) ein W-Raum und I ⊂ R beliebig. Meistens interessieren uns die Fälle I = N0 , I = Z, I = [0, ∞) und I ein Intervall. Definition 9.1 (Stochastischer Prozess). Sei I ⊂ R. Eine Familie von Zufallsvariablen X = (Xt , t ∈ I) (auf (Ω, F, P)) mit Werten in (E, E) heißt stochastischer Prozess mit Zeitbereich I und Zustandsraum E. Bemerkung 9.2. Etwas allgemeiner werden manchmal auch beliebig indizierte Familien von Zufallsvariablen stochastischer Prozess genannt. Beispielsweise ist dies beim Poisson’schen Punktprozess aus Kapitel 24 der Fall. 3 Bemerkung 9.3. Oftmals werden wir (gewissen Traditionen folgend) einen stochastischen Prozess auch als X = (Xt )t∈I schreiben, wenn wir weniger den Aspekt betonen wollen, dass X eine Familie von Zufallsvariablen ist, sondern den zeitlichen Verlauf der Beobachtungen stärker gewichten. Formal sollen beide Objekte identisch sein. 3 Beispiel 9.4. Sei I = N0 und (Yn , n ∈ N) eine Familie von u.i.v. Zufallsvariablen auf einem W-Raum (Ω, F, P), mit P[Yn = 1] = 1 − P[Yn = −1] = 21 . Setze

184

9 Martingale

E = Z (mit der diskreten Topologie) und Xt =

t

n=1

Yn

für jedes t ∈ N0 .

(Xt , t ∈ N0 ) heißt symmetrische einfache Irrfahrt auf Z.

3

Beispiel 9.5. Der Poissonprozess X = (Xt )t≥0 mit Intensität α > 0 (siehe Kapitel 5.5) ist ein stochastischer Prozess mit Wertebereich N0 . 3 Wir führen weitere Begriffe ein: Definition 9.6. Ist X eine Zufallsvariable (oder ein stochastischer Prozess), so schreiben wir auch L[X] = PX für die Verteilung von X. Ist G ⊂ F eine σAlgebra, so schreiben wir L[X |G] für eine reguläre Version der bedingten Verteilung von X gegeben G. Definition 9.7. Ein stochastischer Prozess X = (Xt )t∈I mit Werten in E heißt (i) reellwertig, falls E = R, (ii) Prozess mit unabhängigen Zuwächsen, falls X reellwertig ist und für jedes n ∈ N und alle t0 , . . . , tn ∈ I mit t0 < t1 < . . . < tn gilt (Xti − Xti−1 )i=1,...,n ist unabhängig, (iii) Gauß’scher Prozess, falls X reellwertig ist und für n ∈ N und t1 , . . . , tn ∈ I gilt (Xt1 , . . . , Xtn ) ist n-dimensional normalverteilt, (iv) integrierbar (beziehungsweise quadratintegrierbar), falls X reellwertig ist und E[|Xt |] < ∞ (beziehungsweise E[(Xt )2 ] < ∞) für jedes t ∈ I gilt. Sei nun zusätzlich I ⊂ R abgeschlossen unter Addition. Dann heißt X ) * ) * (v) stationär, falls L (Xs+t )t∈I = L (Xt )t∈I für jedes s ∈ I,

) (vi) Prozess mit station¨ a ren Zuw¨ a chsen, falls X reellwertig ist und L Xs+t+r − * ) * Xt+r = L Xs+r − Xr für alle r, s, t ∈ I. (Ist 0 ∈ I, so reicht es, r = 0 zu betrachten.)

Beispiel 9.8. (i) Der Poissonprozess mit Intensität θ, sowie die Irrfahrt auf Z sind Prozesse mit stationären, unabhängigen Zuwächsen. (ii) Sind Xt , t ∈ I, u.i.v. Zufallsvariablen, so ist (Xt )t∈I stationär.

9.1 Prozesse, Filtrationen, Stoppzeiten

185

(iii) Sei (Xn )n∈Z reellwertig und stationär, und seien k ∈ N und c1 , . . . , ck ∈ R. Dann definiert k ci Xn−i Yn := i=1

einen stationären Prozess Y = (Yn )n∈Z . Gilt c1 , . . . , ck ≥ 0 und c1 + . . . + ck = 1, 3 so wird Y das gleitende Mittel von X (mit Gewichten c1 , . . . , ck ) genannt. Die beiden folgenden Definitionen sind auch für allgemeinere halbgeordnete Mengen I sinnvoll, wir beschränken uns jedoch weiterhin auf den Fall I ⊂ R. Definition 9.9 (Filtration). Eine Familie F = (Ft , t ∈ I) von σ-Algebren mit Ft ⊂ F für jedes t ∈ I, heißt Filtration, falls Fs ⊂ Ft für alle s, t ∈ I mit s ≤ t. Definition 9.10 (adaptiert). Ein stochastischer Prozess X = (Xt , t ∈ I) heißt adaptiert an die Filtration F, falls Xt bezüglich Ft messbar ist für jedes t ∈ I. Gilt Ft = σ(Xs , s ≤ t) für jedes t ∈ I, so schreiben wir F = σ(X) und nennen F die von X erzeugte Filtration.

Bemerkung 9.11. Offenbar ist ein stochastischer Prozess stets an seine erzeugte Filtration adaptiert. Die erzeugte Filtration ist die kleinste“ Filtration, an die ein ” Prozess adaptiert ist. 3

Definition 9.12 (vorhersagbar / previsibel). Ein stochastischer Prozess X = (Xn , n ∈ N0 ) heißt vorhersagbar (oder previsibel) bezüglich der Filtration F = (Fn , n ∈ N0 ), falls X0 konstant ist und für jedes n ∈ N gilt: Xn ist Fn−1 -messbar. Beispiel9.13. Seien I = N0 , und seien Y1 , Y2 , . . . reelle Zufallsvariablen sowie n Xn := m=1 Ym . Setze F0 = {∅, Ω}

und

Fn = σ(Y1 , . . . , Yn )

für n ∈ N.

Dann ist F = (Fn , n ∈ N0 ) = σ(Y ) die von Y = (Yn )n∈N erzeugte Filtration, und X ist an F adaptiert, also ist σ(X) ⊂ F. Offenbar ist (Y1 , . . . , Yn ) messbar bezüglich σ(X1 , . . . , Xn ), also σ(Y ) ⊂ σ(X), und daher gilt auch F = σ(X). n := n Sei nun X m=1 [0,∞) (Ym ). Dann ist auch X an F adaptiert, jedoch ist im Allgemeinen F σ(X). 3

Beispiel 9.14. Sei I = N0 , und seien D1 , D2 , . . . unabhängig und identisch verteilt mit P[Di = −1] = P[Di = 1] = 21 für jedes i ∈ N. Setze D = (Di )i∈N und

186

9 Martingale

F = σ(D). Wir interpretieren Di als das Ergebnis einer Wette, die uns pro Spielschein einen Gewinn oder Verlust von einer Geldeinheit bringt. Vor jedem Spiel entscheiden wir, wie viele Spielscheine wir einsetzen wollen. Die Anzahl Hn der in der n-ten Runde eingesetzten Spielscheine darf nur von den Ergebnissen der bisherigen Spiele abhängen, nicht aber von Dn und auch nicht von einem Dm für m > n. Mit anderen Worten: Es muss eine Funktion Fn : {−1, 1}n−1 → N geben mit Hn = Fn (D1 , . . . , Dn−1 ). (Für das Petersburger Spiel (Beispiel 4.22) galt beispielsweise Fn (x1 , . . . , xn−1 ) = 2n−1 {x1 =x2 =...=xn−1 =0} .) Damit ist H dann vorhersagbar. Andererseits besitzt jedes vorhersagbare H die Gestalt Hn = Fn (D1 , . . . , Dn−1 ), n ∈ N, für gewisse Funktionen Fn : {−1, 1}n−1 → N, kommt also als Spielstrategie in Betracht. 3

Definition 9.15 (Stoppzeit). Eine Zufallsvariable τ mit Werten in I ∪ {∞} heißt Stoppzeit (bezüglich F), falls für jedes t ∈ I gilt, dass {τ ≤ t} ∈ Ft . Die Idee hinter dieser Definition ist, dass Ft den Kenntnisstand eines Beobachters zur Zeit t wiedergibt. Der Wahrheitsgehalt der Aussage {τ ≤ t} kann also aufgrund der Beobachtungen bis zur Zeit t bestimmt werden. Satz 9.16. Ist I abzählbar, so ist τ genau dann eine Stoppzeit, wenn {τ = t} ∈ Ft für jedes t ∈ I gilt. ¨ Beweis. Ubung!

2

Beispiel 9.17. Seien I ⊂ [0, ∞) abzählbar und K ⊂ R messbar, sowie X ein reeller, adaptierter stochastischer Prozess. Wir betrachten den Zeitpunkt, zu dem X erstmals in K ist: τK := inf{t ≥ 0 : Xt ∈ K}. Intuitiv ist klar, dass τK eine Stoppzeit ist, denn ob {τ ≤ t} eintritt oder nicht, können wir aufgrund der Beobachtungen von X bis zur Zeit t entscheiden. Formal können wir argumentieren, indem wir bemerken, dass {Xs ∈ K} ∈ Fs ⊂ Ft für s ≤ t gilt. Also ist auch die abzählbare Vereinigung dieser Mengen wieder in Ft : {Xs ∈ K} ∈ Ft . {τK ≤ t} = s∈I∩[0,t]

Betrachte nun den zufälligen Zeitpunkt τ := sup{t ≥ 0 : Xt ∈ K} des letzten Aufenthalts von X in K. Zu fester Zeit t können wir aufgrund der bisherigen Beobachtungen nicht entscheiden, ob X bereits das letzte Mal in K war. Hierzu bedürfte es der Prophetie. Also ist τ im Allgemeinen keine Stoppzeit. 3

9.1 Prozesse, Filtrationen, Stoppzeiten

187

Lemma 9.18. Seien σ und τ Stoppzeiten. Dann gilt: (i) σ ∨ τ und σ ∧ τ sind Stoppzeiten.

(ii) Gilt σ, τ ≥ 0, dann ist auch σ + τ eine Stoppzeit.

(iii) Ist s ≥ 0, dann ist τ + s eine Stoppzeit, jedoch im Allgemeinen nicht τ − s. Bevor wir zum einfachen formalen Beweis kommen, wollen wir festhalten, dass insbesondere (i) und (iii) Eigenschaften sind, die wir von Stoppzeiten erwarten konnten: Bei (i) ist die Interpretation klar. Für (iii) beachte man, dass τ − s um s in die Zukunft blickt (denn {τ −s ≤ t} ∈ Ft+s ), während τ +s um s in die Vergangenheit schaut. Stoppzeiten ist aber nur der Blick in die Vergangenheit erlaubt. Beweis. (i) Für t ∈ I ist {σ ∨ τ ≤ t} = {σ ≤ t} ∩ {τ ≤ t} ∈ Ft und {σ ∧ τ ≤ t} = {σ ≤ t} ∪ {τ ≤ t} ∈ Ft . (ii) Sei t ∈ I. Nach (i) sind τ ∧ t und σ ∧ t Stoppzeiten für jedes t ∈ I. Speziell ist für jedes s ≤ t dann {τ ∧ t ≤ s} ∈ Fs ⊂ Ft . Andererseits ist für s > t stets τ ∧ t ≤ s. Also sind τ ′ := (τ ∧ t) + {τ >t} und σ ′ := (σ ∧ t) + {σ>t} messbar bezüglich Ft und damit auch τ ′ + σ ′ . Es folgt {τ + σ ≤ t} = {τ ′ + σ ′ ≤ t} ∈ Ft . (iii) Für τ + s folgt dies aus (ii) (mit der Stoppzeit σ ≡ s). Für τ − s beachte man, dass in der Definition der Stoppzeit für jedes t ∈ I lediglich gefordert wird, dass {τ − s ≤ t} = {τ ≤ t + s} ∈ Ft+s . Im Allgemeinen ist aber Ft+s eine echte 2 Obermenge von Ft , also τ − s keine Stoppzeit. Definition 9.19. Ist τ eine Stoppzeit, so heißt

Fτ := A ∈ F : A ∩ {τ ≤ t} ∈ Ft für jedes t ∈ I die σ-Algebra der τ -Vergangenheit.

Beispiel 9.20. Sei I höchstens abzählbar, X ein adaptierter, reellwertiger stochastischer Prozess, K ∈ R und τ = inf{t : Xt ≥ K} die Stoppzeit des ersten Eintretens in [K, ∞). Betrachte die Ereignisse A = {sup{Xt : t ∈ I} > K − 5} und B = {sup{Xt : t ∈ I} > K + 5}.

Für jedes t ∈ I ist {τ ≤ t} ⊂ A, also ist A ∩ {τ ≤ t} = {τ ≤ t} ∈ Ft . Es folgt / Fτ , denn wir können bis zur Zeit τ eben A ∈ Fτ . Jedoch ist im Allgemeinen B ∈ nicht entscheiden, ob X auch die Hürde K + 5 noch nehmen wird oder nicht. 3 Lemma 9.21. Sind σ und τ Stoppzeiten mit σ ≤ τ , so gilt Fσ ⊂ Fτ . Beweis. Sei A ∈ Fσ und t ∈ I. Dann ist A ∩ {σ ≤ t} ∈ Ft . Da τ eine Stoppzeit ist, ist auch {τ ≤ t} ∈ Ft . Wegen σ ≤ τ ist also

A ∩ {τ ≤ t} = A ∩ {σ ≤ t} ∩ {τ ≤ t} ∈ Ft . 2

188

9 Martingale

Definition 9.22. Ist τ < ∞ Stoppzeit, dann setzen wir Xτ (ω) := Xτ (ω) (ω). Lemma 9.23. Ist I höchstens abzählbar und X adaptiert, sowie τ < ∞ eine Stoppzeit, dann ist Xτ messbar bezüglich Fτ . Beweis. Sei A messbar und t ∈ I. Für jedes s ≤ t ist dann {τ = s} ∩ Xs−1 (A) ∈ Fs ⊂ Ft . Also ist Xτ−1 (A) ∩ {τ ≤ t} = {τ = s} ∩ Xs−1 (A) ∈ Ft . 2 s∈I s≤t

Für u¨ berabzählbares I ist die Abbildung I → E, t → Xt im Allgemeinen nicht messbar, also ist auch die Zusammensetzung Xτ nicht immer messbar. Hier brauchen wir Zusatzannahmen an die Regularität der Pfade t → Xt (ω), zum Beispiel Rechtsstetigkeit. Auf diesen Punkt kommen wir in Kapitel 21 zurück und belassen es hier einstweilen bei der Warnung.

9.2 Martingale Als ein faires Spiel mit mehreren Runden würden wir sicherlich ohne Zögern die sukzessive Auszahlung von Gewinnen Y1 , Y2 , . . . bezeichnen, falls Y1 , Y2 , . . . u.i.v. mit E[Y1 ] = 0 sind. In diesem Fall ist der Prozess X der Partialsummen Xn = Y1 + . . . + Yn integrierbar und E[Xn Fm ] = Xm , wenn m < n ist (wobei F = σ(X)). Wir wollen diese Gleichung als Definitionsgleichung für ein faires Spiel, das wir im Folgenden ein Martingal nennen, heranziehen und so die Bedingungen der Unabhängigkeit und der identisch verteilten Zuwächse erheblich abschwächen. Die Tragweite der folgenden Begriffsbildung wird sich erst nach und nach herausstellen. Definition 9.24. Sei (Ω, F, P) ein Wahrscheinlichkeitsraum, I ⊂ R, und F eine Filtration. Sei X = (Xt )t∈I ein reellwertiger, adaptierter stochastischer Prozess mit E[|Xt |] < ∞ für jedes t ∈ I. X heißt (bezüglich F) ein Martingal, falls E[Xt Fs ] = Xs für alle s, t ∈ I mit t > s, Submartingal, falls E[Xt Fs ] ≥ Xs für alle s, t ∈ I mit t > s, Supermartingal, falls E[Xt Fs ] ≤ Xs für alle s, t ∈ I mit t > s.

Bemerkung 9.25. Offenbar ist für Martingale t → E[Xt ] konstant, für Submartingale monoton wachsend und für Supermartingale monoton fallend. 3 Bemerkung 9.26. Die Etymologie des Begriffs Martingal ist nicht völlig geklärt. Das französische la martingale (ursprünglich provenzalisch martegalo nach der

9.2 Martingale

189

Stadt Martiques) bedeutet im Reitsport einen beim Spring- und Geländereiten ver” wendeten Hilfszügel“ als Teil des Zaumzeugs ([22]). Manchmal wird die verzweigte Form, insbesondere des Jagdmartingals (französisch: la martingale a` anneaux, englisch: running martingale), als sinnbildlich für die Verdoppelungsstrategie im Petersburger Spiel angesehen. Eben diese Verdoppelungsstrategie ist die zweite Bedeutung von la martingale. Von hier aus scheint eine Bedeutungsverschiebung hin zum mathematischen Begriff durchaus möglich. Eine andere Herleitung geht, statt vom Aussehen, von der Funktion des Zaumzeugs aus und nennt das Bestreben einer Spielstrategie, den Zufall im Zaume zu halten. So wird der Begriff des Martingals zunächst auf Spielstrategien im Allgemeinen, dann auf die Verdoppelungsstrategie im Speziellen u¨ bertragen. 3 Bemerkung 9.27. Ist I = N, I = N0 oder I = Z, so reicht es, jeweils nur t = s + 1 zu betrachten, denn nach der Turmeigenschaft der bedingten Erwartung (Satz 8.14(iv)) ist * ) E[Xs+2 Fs ] = E E[Xs+2 Fs+1 ] Fs ,

und wenn die definierende Gleichung (beziehungsweise Ungleichung) in einem Zeitschritt gilt, dann zieht sie sich durch in den zweiten Zeitschritt und so fort. 3 Bemerkung 9.28. Geben wir die Filtration F nicht explizit an, so nehmen wir stillschweigend an, dass F die von X erzeugte Filtration Ft = σ(Xs , s ≤ t) ist. 3 Bemerkung 9.29. Sind F und F′ Filtrationen mit Ft ⊂ Ft′ für jedes t, und ist X an F adaptiert und ein F′ -(Sub-, Super-)Martingal, dann ist X auch ein (Sub-, Super-) Martingal bezüglich der kleineren Filtration F. Es gilt nämlich für s < t und den Fall, wo X ein Submartingal ist, E[Xt Fs ] = E[E[Xt Fs′ ] Fs ] ≤ E[Xs Fs ] = Xs . Speziell ist ein F-(Sub-, Super-)Martingal X also auch stets ein (Sub-, Super-)Martingal bezüglich der von X erzeugten Filtration σ(X). 3 Beispiel 9.30. Seien Y1 , . . . , YN unabhängige Zufallsvariablen mit E[Yt ] = 0 für t Ys . Dann ist X jedes t = 1, . . . , N . Setze Ft := σ(Y1 , . . . , Yt ) und Xt := s=1 adaptiert und integrierbar, und für r > s ist E[Yr Fs ] = 0. Also ist für t > s t E[Yr Fs ] = Xs . E[Xt Fs ] = E[Xs Fs ] + E[Xt − Xs Fs ] = Xs + r=s+1

Es folgt, dass X ein F-Martingal ist.

Analog ist X ein Submartingal, falls E[Yt ] ≥ 0 für jedes t gilt beziehungsweise ein Supermartingal, falls E[Yt ] ≤ 0 für jedes t gilt. 3

190

9 Martingale

Beispiel 9.31. Wir betrachten die Situation des vorangehenden Beispiels, jedoch mit t E[Yt ] = 1 und Xt = s=1 Ys für t ∈ N0 . Nach Satz 5.4 ist Y1 · Y2 integrierbar. Iterativ erhalten wir E[|Xt |] < ∞ für jedes t ∈ N0 . Offenbar ist X an F adaptiert, und für s ∈ N0 gilt E[Xs+1 Fs ] = E[Xs Ys+1 Fs ] = Xs E[Ys+1 Fs ] = Xs . Also ist X ein F-Martingal.

3

Satz 9.32. (i) X ist genau dann ein Supermartingal, wenn (−X) ein Submartingal ist. (ii) Seien X und Y Martingale und a, b ∈ R. Dann ist (aX + bY ) ein Martingal.

(iii) Seien X und Y Supermartingale und a, b ≥ 0. Dann ist (aX + bY ) ein Supermartingal. (iv) Seien X und Y Supermartingale. Dann ist Z := X ∧ Y = (min(Xt , Yt ))t∈I ein Supermartingal. (v) Ist (Xt )t∈N0 ein Supermartingal und E[XT ] ≥ E[X0 ] für ein T ∈ N0 , dann ist (Xt )t∈{0,...,T } ein Martingal. Gibt es eine Folge TN → ∞ mit E[XTN ] ≥ E[X0 ], dann ist X ein Martingal. Beweis. (i), (ii) und (iii)

Dies ist klar.

(iv) Wegen |Zt | ≤ |Xt | + |Yt | ist E[|Zt |] < ∞ für jedes t ∈ I. Wegen der Fs ] ≤ E[Xt Fs ] ≤ Monotonie der bedingten Erwartung (Satz 8.14(ii)) ist E[Z t Xs für t > s und E[Zt Fs ] ≤ E[Yt Fs ] ≤ Ys , also E[Zt Fs ] ≤ Xs ∧ Ys = Zs . (v) Für t ≤ T setze Yt := E[XT Ft ]. Dann ist Y ein Martingal und Yt ≤ Xt . Daher ist E[X0 ] ≤ E[XT ] = E[YT ] = E[Yt ] ≤ E[Xt ] ≤ E[X0 ].

(Die erste Ungleichung gilt hierbei nach Voraussetzung.) Es folgt Yt = Xt fast sicher für jedes t, und daher ist (Xt )t∈{0,...,T } ein Martingal. Sei TN → ∞ mit E[XTN ] ≥ E[X0 ] für jedes N ∈ N. Dann gibt es für t > s ≥ 0 2 ein N ∈ N mit TN > t. Daher ist E[Xt Fs ] = E[Xs ], also X ein Martingal.

Bemerkung 9.33. Viele Aussagen u¨ ber Supermartingale gelten mutatis mutandis auch für Submartingale. So gilt im vorangehenden Satz Aussage (i) mit vertauschten Rollen, Aussage (iv) gilt für Submartingale, wenn das Minimum durch ein Maximum ersetzt wird, und so fort. Wir geben die Aussagen nicht stets sowohl für Submartingale wie für Supermartingale an, sondern wählen pars pro toto einen Fall aus. Man beachte aber, dass die Aussagen, die explizit u¨ ber Martingale gemacht werden, nicht ohne weiteres auf Sub- oder Supermartingale u¨ bertragen werden können (vergleiche etwa (ii) im vorangehenden Satz). 3

9.2 Martingale

191

Korollar 9.34. Sei X ein Submartingal und a ∈ R. Dann ist (X − a)+ ein Submartingal. Beweis. Offenbar sind 0 und Y = X − a Submartingale. Nach (iv) ist daher auch (X − a)+ = Y ∨ 0 ein Submartingal. 2 Satz 9.35. Sei X ein Martingal und ϕ : R → R eine konvexe Funktion. (i) Ist E[ϕ(Xt )+ ] < ∞

für jedes t ∈ I,

(9.1)

dann ist (ϕ(Xt ))t∈I ein Submartingal. (ii) Ist t∗ := sup(I) ∈ I, so impliziert E[ϕ(Xt∗ )+ ] < ∞ schon (9.1).

(iii) Ist speziell p ≥ 1 und E[|Xt |p ] < ∞ für jedes t ∈ I, dann ist (|Xt |p )t∈I ein Submartingal. Beweis. (i) Es ist stets E[ϕ(Xt )− ] < ∞ (Satz 8.19), also nach Voraussetzung E[|ϕ(Xt )|] < ∞ für jedes t ∈ I. Die Jensen’sche Ungleichung (Satz 8.19) liefert für t > s E[ϕ(Xt ) Fs ] ≥ ϕ(E[Xt Fs ]) = ϕ(Xs ). (ii) Da ϕ konvex ist, ist auch x → ϕ(x)+ konvex. Weiter ist nach Voraussetzung E[ϕ(Xt∗ )+ ] < ∞, also gilt nach der Jensen’schen Ungleichung für jedes t ∈ I: * + * ) ) * ) E[ϕ(Xt )+ ] = E ϕ E[Xt∗ Ft ] ≤ E E[ϕ(Xt∗ )+ Ft ] = E ϕ(Xt∗ )+ < ∞. (iii) Dies ist klar, weil x → |x|p konvex ist.

2

Beispiel 9.36. (Siehe Beispiel 9.4.) Die symmetrische einfache Irrfahrt X auf Z ist ein quadratintegrierbares Martingal. Also ist (Xn2 )n∈N0 ein Submartingal. 3 ¨ Ubung 9.2.1. Sei Y eine Zufallsvariable mit E[|Y |] < ∞ und F eine Filtration sowie Xt := E[Y Ft ] für jedes t ∈ I. Man zeige, dass X ein F-Martingal ist.

♣

¨ Ubung 9.2.2. Sei (Xn )n∈N0 ein vorhersagbares F-Martingal. Man zeige, dass dann für jedes n ∈ N0 fast sicher Xn = X0 gilt. ♣ ¨ Ubung 9.2.3. Man zeige, dass die Aussage von Satz 9.35 auch gilt, wenn X nur ein Submartingal, ϕ jedoch zusätzlich monoton wachsend ist. Man zeige durch ein Beispiel, dass hier auf die Monotonie im Allgemeinen nicht verzichtet werden kann. (Vergleiche Korollar 9.34.) ♣

192

9 Martingale

¨ Ubung 9.2.4 (Ungleichung von Azuma). Man zeige: (i) Ist X eine Zufallsvariable mit |X| ≤ 1 f.s., so gibt es eine Zufallsvariable Y mit Werten in {−1, +1} und mit E[Y |X] = X.

(ii) Für X wie in (i) mit E[X] = 0 folgere man (mit Hilfe der Jensen’schen Ungleichung) ) * 2 E eλX ≤ cosh(λ) ≤ eλ /2 für alle λ ∈ R.

(iii) Ist (Mn )n∈N0 ein Martingal mit M0 = 0, und gibt es eine Folge (ck )k∈N nichtnegativer Zahlen mit |Mn − Mn−1 | ≤ cn f.s. für jedes n ∈ N, so gilt n ) λMn * 1 2 2 λ ck . E e ≤ exp 2 k=1

(iv) Unter den Bedingungen von (iii) gilt die Azuma’sche Ungleichung ) * λ2 P |Mn | ≥ λ ≤ 2 exp − n für alle λ ≥ 0. 2 k=1 c2k

Hinweis: Verwende die Markov’sche Ungleichung für f (x) = eγx und wähle γ optimal. ♣

9.3 Diskretes stochastisches Integral Bisher haben wir das Martingal als Partialsummenprozess eines fairen Spiels kennen gelernt. Dies kann beispielsweise auch der Kurs einer Aktie sein, die zu diskreten Zeitpunkten an einer Börse gehandelt wird. Bei dieser Interpretation ist es besonders evident, dass es natürlich ist, neue stochastische Prozesse zu generieren, indem man Anlagestrategien für die entsprechende Aktie betrachtet. Die Wertentwicklung des neuen Prozesses ist dann die mit der jeweilig im Portefeuille befindlichen Anzahl von Aktien zu multiplizierende Wertentwicklung des Aktienkurses. Dies führt zu der folgenden Begriffsbildung. Definition 9.37 (Diskretes Stochastisches Integral). Sei (Xn )n∈N0 ein reeller, Fadaptierter Prozess und (Hn )n∈N reellwertig und F-vorhersagbar. Wir definieren den stochastischen Prozess H ·X durch (H ·X)n :=

n

m=1

Hm (Xm − Xm−1 )

für n ∈ N0 ,

(9.2)

und nennen H·X das diskrete stochastische Integral von H bezüglich X. Ist X ein Martingal, so nennen wir H ·X auch die Martingaltransformierte von X.

9.3 Diskretes stochastisches Integral

193

Bemerkung 9.38. Offenbar ist H ·X adaptiert an F.

3

Sei X ein (möglicherweise unfaires) Spiel, wobei Xn − Xn−1 den Spielgewinn pro Spielschein in der n-ten Runde bezeichnet. Wir interpretieren Hn als die Anzahl der Spielscheine, die für das n-te Spiel eingesetzt werden, und verstehen H als Spielstrategie. Offenbar muss die Entscheidung, wie groß Hn sein soll, zur Zeit n − 1, also vor der Bekanntgabe des Ergebnisses Xn fallen. Das heißt, H muss vorhersagbar sein. Ist nun X ein faires Spiel, also ein Martingal, und ist H lokal beschränkt (das heißt, jedes Hn ist beschränkt), dann ist (wegen E[Xn+1 − Xn Fn ] = 0) E[(H ·X)n+1 Fn ] = E[(H ·X)n + Hn+1 (Xn+1 − Xn ) Fn ] = (H ·X)n + Hn+1 E[Xn+1 − Xn Fn ] = (H ·X)n .

Also ist H · X ein Martingal. Im folgenden Satz zeigen wir, dass auch die Umkehrung gilt, also X ein Martingal ist, wenn für hinreichend viele vorhersagbare Prozesse das stochastische Integral ein Martingal ist. ¨ Stochastische Integrale). Satz 9.39 (Stabilitätssatz fur Sei (Xn )n∈N0 ein adaptierter, reeller stochastischer Prozess mit E[|X0 |] < ∞. (i) X ist genau dann ein Martingal, wenn für jeden lokal beschränkten, vorhersagbaren Prozess H das stochastische Integral H ·X ein Martingal ist. (ii) X ist genau dann ein Submartingal (Supermartingal), wenn H ·X ein Submartingal (Supermartingal) ist für jedes beschränkte, vorhersagbare H ≥ 0. Beweis. (i) =⇒ “ Dies hat die obige Diskussion schon gezeigt. ” ⇐= “ Wähle n0 ∈ N. Setze Hn = {n=n0 } . Dann ist (H ·X)n0 −1 = 0, also ” * * ) ) 0 = E (H ·X)n0 Fn0 −1 = E Xn0 Fn0 −1 − Xn0 −1 . (ii)

Dies geht analog wie in (i).

2

Der vorangehende Satz sagt uns insbesondere, dass wir keine (beschränkte) Spielstrategie finden können, die aus einem Martingal (oder schlimmer: einem Supermartingal) ein Submartingal machte. Genau dies wird einem aber natürlich durch ¨ diverse Aufforderungen zum so genannten Systemlotto“ und Ahnlichem nahe ge” legt. Beispiel 9.40 (Petersburger Spiel). Wir führen Beispiel 9.14 fort (siehe auch Beispiel 4.22). Setzen wir Xn := D1 + . . . + Dn für n ∈ N0 , so ist X ein Martingal. Die Spielstrategie Hn := 2n−1 {D1 =D2 =...=Dn−1 =−1} für n ∈ N und H0 = 1 ist

194

9 Martingale

n vorhersagbar und lokal beschränkt. Sei Sn = i=1 Hi Di = (H·X)n der Zugewinn nach n Runden. Dann ist S nach dem vorangehenden Satz ein Martingal. Speziell erhalten wir das bereits in Beispiel 4.22 gezeigte Ergebnis, dass E[Sn ] = 0 ist für jedes n ∈ N. Dass dies, wie dort gezeigt, in zumindest vordergründigem Kontrast zu n→∞ der Aussage Sn −→ 1 f.s. steht, wird uns später noch einmal beschäftigen (siehe Beispiel 11.6). Für den Moment sei angemerkt, dass das Martingal S ′ = (1 − Sn )n∈N0 wie in Beispiel 9.31 die Struktur eines Produkts nunabhängiger Zufallsvariablen mit Erwartungswert 1 hat. Es gilt nämlich Sn′ = i=1 (1 − Di ). 3

9.4 Diskreter Martingaldarstellungssatz und CRR Modell Wir haben nun gesehen, dass wir vermittels des stochastischen Integrals aus einem Martingal X durch eine Spielstrategie H ein neues Martingal H ·X herstellen können. Welche Martingale Y (mit Y0 = 0) sind nun durch eine geeignete Spielstrategie H = H(Y ) aus X zu gewinnen? Womöglich alle? Dies ist sicher nicht der Fall, wie das folgende Beispiel zeigt. Allerdings sind alle Martingale darstellbar, wenn für die Zuwächse Xn+1 − Xn immer nur zwei Werte in Frage kommen (gegeben X1 , . . . , Xn ). Wir geben für diesen Fall einen Darstellungssatz an und diskutieren in der Folge den fairen Preis der europäischen Kaufoption (europäischer Call) in dem Aktienkursmodell von Cox-Ross-Rubinstein. Wir wollen dabei einen naiven Standpunkt einnehmen und einen in vielerlei Hinsicht idealisierten Markt voraussetzen (keine Handelskosten, gebrochene Anzahlen handelbar, und so fort). Für eine umfassendere Lektüre zum Thema Finanzmathematik eignen sich etwa die Lehrbücher [41], [79], [98], [56], [12] oder [47]. Beispiel 9.41. Wir betrachten ein ganz einfaches Martingal X = (Xn )n=0,1 mit nur zwei Zeitpunkten. Es sei X0 = 0 fast sicher und P[X1 = −1] = P[X1 = 0] = P[X1 = 1] = 13 . Sei Y0 = 0 sowie Y1 = 2, falls X1 = 1 und Y1 = −1 sonst. Dann ist Y offenbar ein σ(X)-Martingal. Allerdings können wir keine Zahl H1 angeben, sodass H1 X1 = Y1 wäre. 3 Sei T ∈ N ein fester Zeitpunkt. Ist (Yn )n=0,1,...,T ein F-Martingal, dann ist Yn = E[YT Fn ] für jedes n ≤ T . Durch die Angabe von YT ist ein F-Martingal Y also eindeutig festgelegt (und umgekehrt). Da (H ·X) ein Martingal ist, falls X ein Martingal ist, reduziert sich das Darstellungsproblem für Martingale auf das Problem, eine integrierbare Zufallsvariable V := YT darzustellen als v0 + (H · X)T , wobei v0 = E[YT ] ist, falls X ein Martingal ist. Wir haben eben schon gesehen, dass dies im Allgemeinen nicht möglich ist, wenn die Differenzen Xn+1 − Xn drei (oder mehr) unterschiedliche Werte annehmen können. Wir betrachten nun also den Fall, wo nur zwei Werte möglich sind. Hier muss in jedem Schritt ein lineares Gleichungssystem mit zwei Gleichungen und

9.4 Diskreter Martingaldarstellungssatz und CRR Modell

195

zwei Unbekannten gelöst werden. Im Falle von drei möglichen Werten von Xn+1 − Xn wären dies drei Gleichungen für zwei Unbekannte, und im Allgemeinen ist dieses Gleichungssystem dann nicht lösbar. Definition 9.42 (Binäres Modell). Ein stochastischer Prozess X0 , . . . , XT heißt binäres Modell, falls es Zufallsvariablen D1 , . . . , DT mit Werten in {−1, +1} gibt und Funktionen fn : Rn−1 × {−1, +1} → R für n = 1, . . . , T , sowie x0 ∈ R, sodass X0 = x0 und Xn = fn (X1 , . . . , Xn−1 , Dn )

für jedes n = 1, . . . , T.

Mit F = σ(X) bezeichnen wir dann die von X erzeugte Filtration. Man beachte, dass Xn nur von X1 , . . . , Xn−1 und Dn abhängt und nicht von der vollen Information der Werte D1 , . . . , Dn . Man mache sich klar, dass im letzteren Fall eine mehr als binäre Aufspaltung der Werte in einem Zeitschritt möglich wäre. Satz 9.43 (Darstellungssatz). Sei X ein binäres Modell und VT eine FT -messbare Zufallsvariable. Dann existiert ein beschränkter, vorhersagbarer Prozess H und ein v0 ∈ R mit VT = v0 + (H ·X)T . Man beachte, dass F die von X erzeugte Filtration ist, nicht die im Allgemeinen größere, von D1 , . . . , DT erzeugte. Für diese ist die Aussage des Satzes im Allgemeinen nicht zutreffend, weil wir eben mit H nicht auf die Di sondern nur auf X wetten können. Beweis. Wir zeigen, dass es FT −1 -messbare Zufallsvariablen VT −1 und HT gibt, sodass VT = VT −1 + HT (XT − XT −1 ). Dies liefert per Rückwärtsinduktion die gewünschte Aussage. Da VT messbar ist bezüglich FT , existiert nach dem Faktorisierungslemma (Korollar 1.97) eine Funktion gT : RT → R mit VT = gT (X1 , . . . , XT ). Wir setzen XT± = fT (X1 , . . . , XT −1 , ±1)

und

VT±

= gT (X1 , . . . , XT −1 , XT± ).

Jede dieser vier Zufallsvariablen ist offenbar FT −1 -messbar. Wir suchen nun also VT −1 und HT , die das folgende lineare Gleichungssystem lösen VT −1 + HT (XT− − XT −1 ) = VT− , VT −1 + HT (XT+ − XT −1 ) = VT+ .

(9.3)

Per Konstruktion ist XT+ − XT− = 0, falls VT+ − VT− = 0. Also können wir (9.3) auflösen und erhalten ⎧ + − ⎨ VT −VT , falls X + = X − , + − T T HT := XT −XT ⎩ 0, sonst, und VT −1 = VT+ − HT (XT+ − XT −1 ) = VT− − HT (XT− − XT −1 ).

2

196

9 Martingale

Wir wollen nun X als Kurs einer Aktie auffassen und VT als Auszahlungsfunktion eines Finanzderivats auf X, eines so genannten Claims. Beispielsweise kann VT eine europäische Kaufoption (Call) mit Fälligkeitszeitpunkt (maturity) T und Ausübungspreis (strike price) K ≥ 0 sein. In diesem Fall wäre VT = (XT − K)+ . ¨ Okonomisch ausgedrückt gibt diese Option dem Käufer das Recht (aber nicht die Pflicht) vom Herausgeber der Option zum Zeitpunkt T die Eingehung eines Kaufvertrages u¨ ber eine Aktie zum Preis K einzufordern. Von diesem Recht macht man sinnvollerweise nur dann Gebrauch, wenn XT ≥ K ist. In diesem Fall kann man die erworbene Aktie zum Preis XT wieder an der Börse verkaufen und hat einen Gewinn von VT gemacht. An den Börsen werden nun aber nicht nur Aktien, sondern auch Derivate auf Aktien gehandelt. Welches ist also der faire Preis π(VT ) für den eine Börsenhändlerin den Claim VT anbieten kann? Gibt es eine Strategie H und ein v0 , sodass VT = v0 + (H ·X)T ist, dann kann die Händlerin gegen Bezahlung von v0 risikolos VT nachbilden, indem sie H als Handelsstrategie an der Börse benutzt. Wir nennen den Claim VT dann replizierbar und die Strategie H einen Hedge. Ein Markt, in dem jeder Claim replizierbar ist, heißt vollständig. In diesem Sinne ist das Binärmodell also ein vollständiger Markt. Gäbe es nun eine zweite Strategie H ′ und ein zweites v0′ mit v0′ + (H ′ ·X)T = VT , so wäre insbesondere v0 − v0′ = ((H ′ − H) · X)T . Wäre v0 > v0′ , so könnte die Händlerin risikolos durch Verfolgen der Strategie H ′ − H einen Gewinn v0 − v0′ machen, im Falle v0 < v0′ hingegen durch die Strategie H − H ′ einen Gewinn v0′ − v0 . Wenn man solche Arbitragemöglichkeiten ausschließt, also einen so genannten arbitragefreien Markt annimmt, so ist der faire Preis π(VT ) eindeutig festgelegt, sobald man eine Strategie H und ein v0 mit VT = v0 + (H ·X)T hat. Wir haben bislang noch nirgends angenommen, dass X ein Martingal sei. Ist nun aber X ein Martingal, so ist (H ·X) ein Martingal mit (H ·X)0 = 0, also offenbar E[(H ·X)T ] = 0. Damit ist dann π(VT ) = v0 = E[VT ].

(9.4)

Da in diesem Fall v0 nicht mehr von der Handelsstrategie abhängt, also eindeutig ist, ist der Markt automatisch arbitragefrei. In endlichen Märkten ist Arbitragefreiheit a¨ quivalent zur Existenz eines a¨ quivalenten Martingals, und in diesem Fall ist die Vollständigkeit a¨ quivalent zur Eindeutigkeit des Martingals (Satz von Harrison¨ Pliska (1981), [67]). In größeren Marktmodellen gilt Aquivalenz nur für einen etwas flexibleren Arbitrage-Begriff (siehe [31]). Ist nun X kein Martingal, so können wir in manchen Fällen X durch einen anderen Prozess X ′ ersetzen, der ein Martingal ist, und so, dass die Verteilungen PX und PX ′ die selben Nullmengen haben, also a¨ quivalent sind. Ein Hedge, der VT bezüglich X nachbildet, bildet VT auch bezüglich X ′ nach. Insbesondere a¨ ndert sich der faire Preis π(VT ) nicht, wenn wir zum Martingal X ′ u¨ bergehen. Wir können π(VT ) also berechnen, indem wir (9.4) auf das a¨ quivalente Martingal anwenden.

9.4 Diskreter Martingaldarstellungssatz und CRR Modell

197

Das Maß PX ′ wird auch a¨ quivalentes Martingalmaß genannt. Während es hier für uns nur von rechnerischem Interesse ist, hat es eine o¨ konomische Interpretation als Maß für die Preisbildung, falls alle Händler sich risikoneutral verhalten, also den Wert einer künftigen Auszahlung allein nach deren Erwartungswert bemessen (was typischerweise nicht der Fall ist; die meisten Anleger sind risikoavers, lassen sich also Unsicherheiten durch einen Aufschlag bezahlen). Nun wollen wir aber ein Modell im Detail betrachten. Definition 9.44. Seien T ∈ N, a ∈ (−1, 0) und b > 0 sowie p ∈ (0, 1). Ferner seien D1 , . . . , DT u.i.v. mit P[D1 = 1] = 1 − P[D1 = −1] = p. Wir definieren X0 = x0 > 0 und für n = 1, . . . , T (1 + b) Xn−1 , falls Dn = +1, Xn = (1 + a) Xn−1 , falls Dn = −1. X heißt mehrstufiges Binomialmodell oder Cox-Ross-Rubinstein’sches Modell (ohne Verzinsung). Nach dem bisher Gezeigten ist das CRR Modell vollständig. Ferner können wir a durch die Wahl p∗ = a−b den Prozess X zu einem Martingal machen. Mithin ist das Modell auch arbitragefrei (für jedes p ∈ (0, 1)). Wir wollen nun den Preis des europäischen Calls VT := (XT − K)+ explizit ausrechnen. Hierzu können wir wieder p = p∗ annehmen. Wir erhalten dann mit A := min{i ∈ N0 : (1 + b)i (1 + a)T −i x0 > K}, π(VT ) = Ep∗ [VT ] =

T i=0

) *+ bT,p∗ ({i}) (1 + b)i (1 + a)T −i x0 − K

T T ) * T = x0 (p∗ )i (1 − p∗ )T −i (1 + b)i (1 + a)T −i − K bT,p∗ ({i}). i i=A

i=A

Setzen wir p′ = (1 + b)p∗ , dann ist p′ ∈ (0, 1) und 1 − p′ = (1 − p∗ )(1 + a). Wir erhalten so die Cox-Ross-Rubinstein’sche Formel π(VT ) = x0 bT,p′ ({A, . . . , T }) − K bT,p∗ ({A, . . . , T }).

(9.5)

Dies ist das diskrete Analogon zur berühmten Black–Scholes Formel für die Optionsbewertung in gewissen zeitkontinuierlichen Märkten.

10 Optional Sampling Sätze

Wir haben im vorigen Kapitel gesehen, dass aus Martingalen wieder Martingale werden, wenn man gewisse Spielstrategien anwendet. Wir wollen in diesem Kapitel a¨ hnliche Stabilitätseigenschaften für zufällig gestoppte Martingale zeigen. Um die Aussagen auch für Submartingale und Supermartingale zu bekommen, geben wir im ersten Abschnitt einen Zerlegungssatz für adaptierte Prozesse an. Im zweiten Abschnitt kommen dann die Optional Sampling und Optional Stopping Sätze.

10.1 Doob-Zerlegung und quadratische Variation Sei X = (Xn )n∈N0 ein adaptierter Prozess mit E[|Xn |] < ∞ für jedes n ∈ N0 . Wir wollen X zerlegen in eine Summe aus einem Martingal und einem vorhersagbaren Prozess. Dazu definieren wir für n ∈ N0 Mn := X0 +

n

k=1

und An :=

Xk − E[Xk Fk−1 ]

(10.1)

n

E[Xk Fk−1 ] − Xk−1 .

k=1

Offenbar ist Xn = Mn + An . Per Konstruktion ist A vorhersagbar mit A0 = 0, und M ist ein Martingal, denn ) * E[Mn − Mn−1 Fn−1 ] = E Xn − E[Xn Fn−1 ] Fn−1 = 0. Satz 10.1 (Doob-Zerlegung). Sei X = (Xn )n∈N0 ein adaptierter, integrierbarer Prozess. Dann existiert eine eindeutige Zerlegung X = M + A, wobei A vorhersagbar ist mit A0 = 0 und M ein Martingal. Diese Darstellung von X heißt Doob–Zerlegung. X ist genau dann ein Submartingal, wenn A monoton wachsend ist. Beweis. Nur die Eindeutigkeit ist zu zeigen. Seien also X = M + A = M ′ + A′ zwei Zerlegungen mit den genannten Eigenschaften. Dann ist M −M ′ = A′ −A ein

200


¨ vorhersagbares Martingal, also ist (siehe Ubung 9.2.2) Mn − Mn′ = M0 − M0′ = 0 für jedes n ∈ N0 . 2 Beispiel 10.2. Sei I = N0 oder I = {0, . . . , N }. Sei (Xn )n∈I ein quadratisch integrierbares F–Martingal (das heißt E[Xn2 ] < ∞ für jedes n ∈ I). Nach Satz 9.32 ist Y := (Xn2 )n∈I ein Submartingal. Sei Y = M + A die Doob-Zerlegung von Y . Es ist dann (Xn2 − An )n∈I ein Martingal. Ferner ist E[Xi−1 Xi Fi−1 ] = 2 Xi−1 E[Xi Fi−1 ] = Xi−1 , also (wie in (10.1)) An =

n i=1

=

n i=1

2 E[Xi2 Fi−1 ] − Xi−1

2 E[(Xi − Xi−1 )2 Fi−1 ] − 2Xi−1 + 2 E[Xi−1 Xi Fi−1 ]

n ) * E (Xi − Xi−1 )2 Fi−1 . =

3

i=1

Definition 10.3. Sei (Xn )n∈I ein quadratisch integrierbares F-Martingal. Der eindeutig bestimmte vorhersagbare Prozess A, mit dem (Xn2 − An )n∈I ein Martingal wird, heißt quadratischer Variationsprozess von X und wird in Formeln mit ( X!n )n∈I := A bezeichnet. Aus dem vorangehenden Beispiel ergibt sich sofort der folgende Satz. Satz 10.4. Sei X wie in Definition 10.3. Dann ist für n ∈ N0 X!n =

n * ) E (Xi − Xi−1 )2 Fi−1

(10.2)

i=1

und

E[ X!n ] = Var[Xn − X0 ].

(10.3)

Bemerkung 10.5. Sind Y und A wie in Beispiel 10.2, dann ist A monoton wachsend, weil (Xn2 )n∈I ein Submartingal ist (vergleiche Satz 10.1). Deshalb wird A manchmal auch der wachsende Prozess von Y genannt. 3 Beispiel 10.6. Seien Y1 , Y2 , . . . unabhängige, quadratisch integrierbare, zentrierte Zufallsvariablen. Dann wird durch Xn := Y1 + . . . + Yn ein quadratisch inn 2 tegrierbares Martingal definiert mit X! = n i=1 E[Yi ], denn es ist An = n n 2 2 i=1 E[Yi Y1 , . . . , Yi−1 ] = i=1 E[Yi ] (wie in Beispiel 10.2). Man beachte, dass es für diese einfache Darstellung von X! nicht ausreicht, dass die Y1 , Y2 , . . . unkorreliert sind. 3

10.1 Doob-Zerlegung und quadratische Variation

201

Beispiel 10.7. Seien Y1 , Y2 , . . . unabhängige, quadratisch n integrierbare Zufallsvariablen mit E[Yn ] = 1 für n ∈ N. Setze Xn := ur n ∈ N0 . Dann i=1 Yi f¨ ist X = (Xn )n∈N0 ein quadratisch integrierbares Martingal (warum?) bezüglich F = σ(X) und ) * ) * 2 2 Fn−1 = Var[Yn ] Xn−1 E (Xn − Xn−1 )2 Fn−1 = E (Yn − 1)2 Xn−1 . n 2 Also ist X!n = i=1 Var[Yi ] Xi−1 . Wir sehen, dass der quadratische Variationsprozess also durchaus ein echt zufälliger Prozess sein kann. 3 Beispiel 10.8. Sei (Xn )n∈N0 die eindimensionale symmetrische einfache Irrfahrt: Xn =

n

Ri

i=1

für jedes n ∈ N0 ,

wobei R1 , R2 , R3 , . . . u.i.v. sind mit P[Ri = 1] = 1 − P[Ri = −1] = 12 .

Offenbar ist X ein Martingal, also |X| ein Submartingal. Sei |X| = M + A die Doob-Zerlegung von |X|. Dann ist n

E[|Xi | Fi−1 ] − |Xi−1 | . An = i=1

Nun ist

Also gilt

Mithin ist

⎧ |X | + Ri , ⎪ ⎪ ⎨ i−1 |Xi | = |Xi−1 | − Ri , ⎪ ⎪ ⎩ 1,

E[|Xi | Fi−1 ] =

falls Xi−1 > 0, falls Xi−1 < 0, falls Xi−1 = 0.

|Xi−1 |,

falls |Xi−1 | = 0,

1,

falls |Xi−1 | = 0.

An = # i ≤ n − 1 : |Xi | = 0

die Lokalzeit von X in 0. Es folgt (wegen P[X2j = 0] = 0] = 0): ) * E[|Xn |] = E #{i ≤ n − 1 : Xi = 0} =

n−1 i=0

P[Xi = 0] =

2j j

4−j und P[X2j+1 =

⌊(n−1)/2⌋

j=0

2j −j 4 . j

3

Beispiel 10.9. Wir wollen das vorangehende Beispiel jetzt noch etwas verallgemeinern. Offenbar brauchten wir (außer in der letzten Formel) nicht, dass X eine Irrfahrt ist, sondern lediglich, dass die Differenzen (ΔX)n := Xn − Xn−1 nur die Werte

202


−1 und +1 annehmen können. Sei also jetzt X ein Martingal mit |Xn − Xn−1 | = 1 fast sicher für jedes n ∈ N und mit X0 = x0 ∈ Z fast sicher. Sei f : Z → R eine beliebige Abbildung. Dann ist Y := (f (Xn ))n∈N0 ein integrierbarer, adaptierter Prozess (weil |f (Xn )| ≤ maxx∈{x0 −n,...,x0 +n} |f (x)|). Um die Doob-Zerlegung von Y zu bestimmen, definieren wir die erste und zweite (diskrete) Ableitung von f f ′ (x) :=

f (x + 1) − f (x − 1) 2

und f ′′ (x) := f (x − 1) + f (x + 1) − 2f (x).

Wir setzen noch Fn′ := f ′ (Xn−1 ) und Fn′′ := f ′′ (Xn−1 ). Durch Unterscheidung der Fälle Xn = Xn−1 − 1 und Xn = Xn−1 + 1 sehen wir, dass für jedes n ∈ N f (Xn−1 + 1) − f (Xn−1 − 1) (Xn − Xn−1 ) 2 1 1 + f (Xn−1 − 1) + f (Xn−1 + 1) − f (Xn−1 ) 2 2 1 ′ = f (Xn−1 )(Xn − Xn−1 ) + f ′′ (Xn−1 ) 2 1 ′′ ′ = Fn · (Xn − Xn−1 ) + Fn . 2

f (Xn ) − f (Xn−1 ) =

Insgesamt erhalten wir also die diskrete Itô-Formel f (Xn ) = f (x0 ) +

n i=1

′

f ′ (Xi−1 )(Xi − Xi−1 ) +

= f (x0 ) + (F ·X)n +

n 1 i=1

2

n 1 i=1

2

f ′′ (Xi−1 ) (10.4)

Fi′′ .

Hierbei ist F ′ ·X das diskrete stochastische Integral (siehe Definition 9.37). Nun ist F ′ vorhersagbar ist (und M := f (x0 ) + F ′ ·X ein Martingal nach Satz 9.39,

weil n 1 ′′ ′ ′ |Fn | ≤ maxx∈{x0 −n,...,x0 +n} |F (x)|), und A := i=1 2 Fi n∈N0 ist vorhersagbar. Also ist f (X) := (f (Xn ))n∈N0 = M + A die Doob-Zerlegung von f (X). Speziell ist natürlich f (X) ein Submartingal, wenn f ′′ (x) ≥ 0 für alle x ∈ Z, wenn also f konvex ist. Dies wussten wir zwar schon aus Satz 9.35, allerdings haben wir hier auch noch quantifiziert, wie weit f (X) von einem Martingal abweicht. In den Spezialfällen f (x) = x2 und f (x) = |x| ist f ′′ (x) = 2 beziehungsweise f ′′ (x) = 2 · {0} (x), und wir erhalten aus (10.4) die Aussagen von Satz 10.4 und Beispiel 10.8. Später werden wir eine zu (10.4) vergleichbare Formel auch für stochastische Prozesse in stetiger Zeit herleiten (siehe Kapitel 25.3). 3

10.2 Optional Sampling und Optional Stopping

203

10.2 Optional Sampling und Optional Stopping Lemma 10.10. Sei I ⊂ R höchstens abzählbar, (X t )t∈I ein Martingal, T ∈ I und τ eine Stoppzeit mit τ ≤ T . Dann gilt Xτ = E[XT Fτ ] und speziell E[Xτ ] = E[X0 ].

Beweis. Es reicht zu zeigen, dass E[XT A ] = E[Xτ A ] für jedes A ∈ Fτ gilt. Nach der Definition von Fτ ist {τ = t} ∩ A ∈ Ft für jedes t ∈ I, also ) * E[Xt {τ =t}∩A ] = E E[XT Ft ] {τ =t}∩A E[Xτ A ] = t≤T

=

t≤T

E[XT

A

t≤T

{τ =t} ]

= E[XT

A ].

2

Satz 10.11 (Optional Sampling Theorem). Sei X = (Xn )n∈N0 ein Supermartingal, und seien σ ≤ τ Stoppzeiten. (i) Gibt es ein T ∈ N mit τ ≤ T , dann ist

Xσ ≥ E[Xτ Fσ ]

und speziell E[Xσ ] ≥ E[Xτ ]. Ist X ein Martingal, so gilt jeweils Gleichheit.

(ii) Ist X nichtnegativ und τ < ∞ f.s., so gelten E[Xτ ] ≤ E[X0 ] < ∞, E[Xσ ] ≤ E[X0 ] < ∞ und Xσ ≥ E[Xτ Fσ ].

(iii) Ist allgemeiner X lediglich adaptiert und integrierbar, so ist X genau dann ein Martingal, wenn E[Xτ ] = E[X0 ] für jede beschränkte Stoppzeit τ gilt. Beweis. (i) Sei X = M + A die Doob-Zerlegung von X, also A vorhersagbar und monoton fallend, A0 = 0, und M ein Martingal. Dann ist nach Lemma 10.10, angewandt auf M , Xσ = Aσ + Mσ = E[Aσ + MT Fσ ] ≥ E[Aτ + MT Fσ ] = E[Aτ + E[MT Fτ ] Fσ ] = E[Aτ + Mτ Fσ ] = E[Xτ Fσ ].

Wir haben dabei Fτ ⊃ Fσ , die Turmeigenschaft und die Monotonie der bedingten Erwartung (Satz 8.14) ausgenutzt. n→∞

(ii) Es gilt Xτ ∧n −→ Xτ fast sicher. Nach (i) gilt E[Xτ ∧n ] ≤ E[X0 ] für jedes n ∈ N. Nach dem Lemma von Fatou ist also E[Xτ ] ≤ lim inf E[Xτ ∧n ] ≤ E[X0 ] < ∞. n→∞

Analog zeigt man E[Xσ ] ≤ E[X0 ].

204


Seien nun m, n ∈ N mit m ≥ n. Teil (i) mit den beschränkten Stoppzeiten τ ∧ m ≥ σ ∧ n liefert Xσ∧n ≥ E[Xτ ∧m Fσ∧n ]. Für A ∈ Fσ ist {σ < n} ∩ A ∈ Fσ∧n , also ist * ) * ) ) E Xσ {σ 0, also X0 < E Xτb F0 = b. Die Aussage des Optional Sampling Theorems gilt also im Allgemeinen nicht, falls die Stoppzeit unbeschränkt ist. 3 Beispiel 10.19 (Gambler’s Ruin Problem). Wir betrachten ein Spiel zwischen zwei Personen A und B. In jeder Runde wird eine Münze geworfen. Je nach Ergebnis erhält A von B eine Geldeinheit oder B von A. Gespielt wird so lange, bis

206


einer der beiden Spieler ruiniert ist. Wir nehmen der Einfachheit halber an, dass A zum Spielbeginn kA ∈ N Geldeinheiten hat, B hingegen kB = N − kA , wobei N ∈ N, N ≥ kA . Gesucht ist die Ruinwahrscheinlichkeit von B. In Beispiel 10.16 haben wir für den Fall einer fairen Münze bereits ausgerechnet, dass die Ruinwahrscheinlichkeit kA /N ist. Nun wollen wir den Fall einer unfairen Münze betrachten. Seien also Y1 , Y2 , . . . unabhängig und P[Yi = 1] = 1 − P[Yi = −1] = p für alle n i ∈ N und für gewisses p ∈ (0, 1) \ { 21 }. Mit Xn := kB + i=1 Yi bezeichnen wir den Kontostand von B nach n Runden, wobei wir formal annehmen, dass die Spiele weiter gehen, auch wenn ein Spieler bereits ruiniert ist. Wir definieren noch wie oben τ0 , τN und τ0,N als die ersten Eintreffzeiten von X in 0, N beziehungsweise {0, N }. Die Ruinwahrscheinlichkeit von B ist nun pN B := P[τ0,N = τ0 ]. Da X kein Martingal ist (außer im Falle p = 12 , den wir hier ausschließen wollen), behelfen wir uns nmit einem Trick: Wir definieren einen neuen Prozess Z durch Zn := rXn = rkB i=1 rYi , wobei wir r > 0 noch geeignet wählen müssen, sodass Z ein Martingal wird. Nach Beispiel 9.31 ist dies genau dann der Fall, wenn E[rY1 ] = pr + (1 − p)r−1 = 1 ist, also wenn r = 1 oder r = 1−p p ist. Offen1−p bar ist die Wahl r = 1 nutzlos, also nehmen wir r = p an. Wir erhalten so τ0 = inf{n ∈ N0 : Zn = 1} und τN = inf{n ∈ N0 : Zn = rN }. (Man beachte, dass wir hier nicht wie oben argumentieren können, um zu zeigen, dass τ0 < ∞ und τN < ∞ fast sicher gilt. In der Tat ist für p = 21 auch stets nur genau eine der beiden Aussagen richtig. Allerdings erhält man, beispielsweise durch das starke Gesetz der großen Zahl, dass lim inf n→∞ Xn = ∞ (und damit τN < ∞) fast sicher, falls p > 12 . Analog ist τ0 < ∞ fast sicher, falls p < 12 .) Wie in Beispiel 10.16 liefert der Optional Stopping Satz rkB = Z0 = E[Zτ0,N ] = N N pN B + (1 − pB )r , also ist die Ruinwahrscheinlichkeit von B

pN B =

r kB − r N . 1 − rN

(10.5)

Ist das Spiel vorteilhaft für B, also p > 21 , so ist r < 1, und wir erhalten im Limes N → ∞ (bei konstantem kB ) N kB p∞ . B := lim pB = r N →∞

(10.6) 3

¨ Ubung 10.2.1. Sei X ein quadratisch integrierbares Martingal mit quadratischem Variationsprozess X!. Sei τ eine endliche Stoppzeit. Man zeige: (i) Ist E[ X!] < ∞, so gilt * ) * ) E (Xτ − X0 )2 = E X!τ

und

) * ) * E X τ = E X0 .

(10.7)

(ii) Ist E[ X!τ ] = ∞, so braucht keine der Gleichungen in (10.7) zu gelten.

♣

10.3 Gleichgradige Integrierbarkeit und Optional Sampling

207

¨ Ubung 10.2.2. Wir betrachten hier eine allgemeinere Situation als im vorangehenden Beispiel, indem wir nur noch annehmen, dass Y1 , Y2 , . . . u.i.v. integrierbare Zufallsvariablen sind, die nicht fast sicher konstant sind (und Xn = Y1 + . . . + Yn ). Weiter nehmen wir an, dass es ein δ > 0 gibt mit E[exp(θY1 )] < ∞ für jedes θ ∈ (−δ, δ).Wir definieren eine Abbildung ψ : (−δ, δ) → R durch θ → log E[exp(θY1 )] und setzen Znθ := exp(θXn − nψ(θ)) für n ∈ N0 . Man zeige: (i) Für jedes θ ∈ (−δ, δ) ist Z θ ist ein Martingal.

(ii) ψ ist strikt konvex. )3 * n→∞ (iii) E Znθ −→ 0 für θ = 0. n→∞

(iv) Znθ −→ 0 fast sicher.

Interpretieren wir Yn als die Differenz zwischen Prämieneinnahmen und Schadensauszahlungen einer Versicherungsgesellschaft zur Zeit n, so gibt k0 +Xn den Kontostand der Versicherung zur Zeit n wieder, wenn das Anfangskapital k0 > 0 beträgt. Wir interessieren uns für die Ruinwahrscheinlichkeit ) * p(k0 ) = P inf{Xn + k0 : n ∈ N0 } < 0 in Abhängigkeit vom Startkapital.

Man kann davon ausgehen, dass die Prämien so kalkuliert sind, dass E[Y1 ] > 0. Man zeige: Falls die Gleichung ψ(θ) = 0 eine Lösung θ∗ = 0 hat, so ist θ∗ < 0. Man zeige, dass in diesem Fall die Cramér-Lundberg’sche Ungleichung gilt: p(k0 ) ≤ exp(θ∗ k0 ).

(10.8)

In dem Fall, wo Yi nur die Werte −1 und 1 annimmt und k0 ∈ N ist, gilt Gleichheit, und wir erhalten Gleichung (10.6) mit r = exp(θ∗ ). ♣

10.3 Gleichgradige Integrierbarkeit und Optional Sampling Wir wollen jetzt das Optional Sampling Theorem auf unbeschränkte Stoppzeiten ausweiten. Dies geht, falls das zugrunde liegende Martingal gleichgradig integrierbar ist (vergleiche Definition 6.16). Lemma 10.20. Sei X ein gleichgradig integrierbares Martingal. Dann ist die Familie (Xτ : τ ist endliche Stoppzeit) gleichgradig integrierbar. Beweis. Nach Satz 6.19) eine monoton wachsende, konvexe Funktion f : [0, ∞) → [0, ∞) mit lim inf x→∞ f (x)/x = ∞ und L := supn∈N0 E[f (|Xn |)] < ∞. Ist τ < ∞ eine endliche Stoppzeit, dann ist nach dem Optional Sampling Theorem für beschränkte Stoppzeiten (Satz 10.11 mit τ = n und σ = τ ∧ n) E[Xn Fτ ∧n ] = Xτ ∧n . Wegen {τ ≤ n} ∈ Fτ ∧n liefert die Jensen’sche Ungleichung

208


) E f (|Xτ |)

{τ ≤n}

*

) * = E f (|Xτ ∧n |) {τ ≤n} ) ) * * ≤ E E f (|Xn |) Fτ ∧n {τ ≤n} ) * = E f (|Xn |) {τ ≤n} ≤ L.

Also ist E[f (|Xτ |)] ≤ L. Nach Satz 6.19 ist (Xτ , τ ist endliche Stoppzeit) gleichgradig integrierbar. 2

Satz 10.21 (Optional Sampling und gleichgradige Integrierbarkeit). Ist (Xn , n ∈ N0 ) ein gleichgradig integrierbares Martingal (beziehungsweise Supermartingal), und sind σ ≤ τ Stoppzeiten, dann gilt E[|Xτ |] < ∞ und Xσ = E[Xτ Fσ ] (beziehungsweise Xσ ≥ E[Xτ Fσ ]).

Beweis. Sei zunächst X ein Martingal. Für A ∈ Fσ ist {σ ≤ n} ∩ A ∈ Fσ∧n , also nach dem Optional Sampling Theorem (Satz 10.11) * ) * ) E Xτ ∧n {σ≤n}∩A = E Xσ∧n {σ≤n}∩A .

Nach Lemma 10.20 ist (Xσ∧n , n ∈ N0 ) und damit (Xσ∧n {σ≤n}∩A , n ∈ N0 ) gleichgradig integrierbar. Analog gilt dies für Xτ . Nach Satz 6.25 gilt daher * * ) ) E[Xτ A ] = lim E Xτ ∧n {σ≤n}∩A = lim E Xσ∧n {σ≤n}∩A = E[Xσ A ]. n→∞

n→∞

Es folgt E[Xτ Fσ ] = Xσ .

Sei nun X ein Supermartingal. Dann hat X die Doob-Zerlegung X = M + A, wobei M ein Martingal ist und A ≤ 0 vorhersagbar und fallend. Wegen E[|An |] = E[−An ] ≤ E[|Xn − X0 |] ≤ E[|X0 |] + sup E[|Xm |] < ∞, m∈N0

gilt An ↓ A∞ für ein A∞ ≤ 0 mit E[−A∞ ] < ∞. Also ist A damit auch M = X − A gleichgradig integrierbar (Satz 6.19). Es folgt E[|Xτ |] ≤ E[−Aτ ] + E[|Mτ |] ≤ E[−A∞ ] + E[|Mτ |] < ∞. Ferner ist E[Xτ Fσ ] = E[Mτ Fσ ] + E[Aτ Fσ ]

= Mσ + Aσ + E[(Aτ − Aσ ) Fσ ] ≤ Mσ + Aσ = Xσ .

2

Korollar 10.22. Ist X ein gleichgradig integrierbares Martingal (beziehungsweise Supermartingal), und sind τ1 ≤ τ2 ≤ . . . endliche Stoppzeiten, so ist (Xτn )n∈N ein Martingal (beziehungsweise Supermartingal).

11 Martingalkonvergenzsätze und Anwendungen

Wir haben Martingale X = (Xn )n∈N0 als faire Spiele kennen gelernt und festgestellt, dass sie unter gewissen Transformationen (Optionales Stoppen, diskretes stochastisches Integral) wieder zu Martingalen werden. In diesem Kapitel werden wir sehen, dass unter schwachen Bedingungen (Nichtnegativität oder gleichgradige Integrierbarkeit) Martingale fast sicher konvergieren. Zudem impliziert die Martingalstruktur die Lp -Konvergenz schon unter formal schwächeren Annahmen als denen, die wir in Kapitel 7 gesehen haben. Die grundlegenden Ideen dieses Kapitels liegen in der Doob’schen Ungleichung (Satz 11.2) und in der Aufkreuzungsungleichung (Lemma 11.3).

11.1 Die Doob’sche Ungleichung Wir haben mit der Kolmogorov’schen Ungleichung (Satz 5.28) eine Ungleichung kennen gelernt, die analog zur Chebyshev’schen Ungleichung die Wahrscheinlichkeit für große Werte des Maximums eines quadratisch integrierbaren Prozesses mit unabhängigen, zentrierten Zuwächsen nach oben abschätzt. An dieser Stelle wollen wir die Ungleichung in mehrere Richtungen verbessern. Einerseits wollen wir Martingale betrachten. Andererseits wollen wir mit weniger als zweiten Momenten auskommen, beziehungsweise bei Anwesenheit höherer Momente die Ungleichung verschärfen. Sei I ⊂ N0 und X = (Xn )n∈I ein stochastischer Prozess. Wir schreiben für n ∈ N Xn∗ = sup{Xk : k ≤ n}

und

|X|∗n = sup{|Xk | : k ≤ n}.

Lemma 11.1. Ist X ein Submartingal, dann gilt für jedes λ > 0 * ) * ) * ) λ P Xn∗ ≥ λ ≤ E Xn {Xn∗ ≥λ} ≤ E |Xn | {Xn∗ ≥λ} .

Beweis. Die zweite Ungleichung ist trivial. Für die erste betrachte

τ := inf k ∈ I : Xk ≥ λ ∧ n. Nach Satz 10.11 (Optional Sampling Theorem) ist

210


* ) * ) E[Xn ] ≥ E[Xτ ] = E Xτ {Xn∗ ≥λ} + E Xτ {Xn∗ 0

) * E (|X|∗n ∧ K)p = E =E

-

|X|∗ n ∧K

-

K

pλ

p−1

0

=

K

0

≤

0

{|X|∗ n ≥λ}

dλ

.

p λp−1 P[|X|∗n ≥ λ] dλ

K

) p λp−2 E |Xn | ∗

= p E |Xn | =

p λp−1 dλ

0

.

|X|n ∧K

0

{|X|∗ n ≥λ}

λ

p−2

dλ

*

.

dλ

) * p E |Xn | · (|X|∗n ∧ K)p−1 . p−1

Die Hölder’sche Ungleichung liefert nun

11.2 Martingalkonvergenzsätze

211

) * E (|X|∗n ∧ K)p ≤

) ) *1/p *(p−1)/p p E (|X|∗n ∧ K)p · E |Xn |p . p−1 ) *p−1 Indem wir beide Seiten zur p-ten Potenz erheben und durch E (|X|∗n ∧ K)p teilen (hier wird das Abschneiden bei K gebraucht, damit wir sicher durch eine endliche Zahl teilen), erhalten wir p ) * ) * p ∗ p E (|X|n ∧ K) ≤ E |Xn |p . p−1 Jetzt lassen wir K nach ∞ gehen.

2

¨ Ubung 11.1.1. Sei (Xn )n∈N0 ein Submartingal oder Supermartingal. Man zeige mit Hilfe von Satz 11.2 und der Doob-Zerlegung, dass für jedes n ∈ N und λ > 0 * ) λ P |X|∗n ≥ λ ≤ 12 E[|X0 |] + 9 E[|Xn |]. ♣

11.2 Martingalkonvergenzsätze In diesem Abschnitt zeigen wir die gängigen Martingalkonvergenzsätze und geben ein paar kleinere Beispiele an. Wir beginnen mit dem Herzstück der Martingalkonvergenzsätze, der Aufkreuzungsungleichung.

Sei F = (Fn )n∈N0 eine Filtration und F∞ = σ n∈N0 Fn . Sei (Xn )n∈N0 reellwertig und an F adaptiert. Seien a, b ∈ R mit a < b. Stellen wir uns X als Aktienkurs vor, so wäre es eine sinnvolle Handelsstratgie, immer dann die Aktie zu kaufen, wenn ihr Kurs unter a gefallen ist, und zu verkaufen, sobald der Kurs wieder u¨ ber b gestiegen ist – jedenfalls dann, wenn wir sicher wissen, dass der Kurs immer wieder u¨ ber b steigt. Jedes Mal, wenn der Kurs der Aktie eine solche Aufkreuzung von a nach b macht, erhalten wir einen Gewinn von mindestens b − a. Indem wir den maximal möglichen Gewinn nach oben abschätzen, erhalten wir eine obere Abschätzung für die Zahl der Aufkreuzungen. Ist diese aber endlich für je zwei Werte a < b, so muss der Prozess fast sicher konvergieren. Wir kommen zu den technischen Details. Wir definieren Stoppzeiten σ0 ≡ 0 und τk := inf{n ≥ σk−1 : Xn ≤ a} σk := inf{n ≥ τk : Xn ≥ b}

für k ∈ N, für k ∈ N.

Man beachte, dass τk = ∞ gilt, falls σk−1 = ∞ ist, und σk = ∞, falls τk = ∞. Wir sagen, dass X zwischen τk und σk die k-te Aufkreuzung u¨ ber [a, b] hat, falls σk < ∞. Für n ∈ N definieren wir Una,b := sup{k ∈ N0 : σk ≤ n} als Anzahl der Aufkreuzungen bis zur Zeit n.

212


Lemma 11.3 (Aufkreuzungsungleichung). Es sei (Xn )n∈N0 ein Submartingal. Dann ist ) * E[(Xn − a)+ ] − E[(X0 − a)+ ] E Una,b ≤ . b−a

Beweis. Wir erinnern an das diskrete stochastische Integral (Definition 9.37) H ·X und beschreiben formal die oben angedeutete Handelsstrategie H durch m ∈ N0 1, falls m ∈ {τk + 1, . . . , σk } für ein k ∈ N, Hm := 0, sonst. H ist nichtnegativ und vorhersagbar, denn für m ∈ N ist {Hm = 1} =

∞

{τk ≤ m − 1} ∩ {σk > m − 1} ,

k=1

und jedes der Ereignisse liegt in Fm−1 . Setze Y = max(X, a). Ist k ∈ N und σk < ∞, so ist offenbar Yσi − Yτi = Yσi − a ≥ b − a für jedes i ≤ k , also ist (H ·Y )σk =

σi k

i=1 j=τi +1

(Yj − Yj−1 ) =

k i=1

(Yσi − Yτi ) ≥ k(b − a).

Für j ∈ {σk , . . . , τk+1 } ist (H ·Y )j = (H ·Y )σk , und für j ∈ {τk + 1, . . . , σk } ist (H ·Y )j ≥ (H ·Y )τk = (H ·Y )σk−1 . Für n ∈ N ist daher (H ·Y )n ≥ (b − a)Una,b . Nach Korollar 9.34 ist Y ein Submartingal, und damit (nach Satz 9.39) auch H ·Y und (1 − H)·Y . Nun ist Yn − Y0 = (1·Y )n = (H ·Y )n + ((1 − H)·Y )n , also ) * ) * E[Yn − Y0 ] ≥ E (H ·Y )n ≥ (b − a)E Una,b . 2 Satz 11.4 (Martingalkonvergenzsatz). Sei (Xn )n∈N0 ein Submartingal mit sup{E[Xn+ ] : n ≥ 0} < ∞. Dann existiert n→∞ eine F∞ -messbare Zufallsvariable X∞ mit E[|X∞ |] < ∞ und Xn −→ X∞ fast sicher. Beweis. Für a < b ist (wegen E[(Xn − a)+ ] ≤ |a| + E[Xn+ ]) nach Lemma 11.3 E[Una,b ] ≤

|a| + E[Xn+ ] . b−a

Offensichtlich existiert U a,b := limn→∞ U) na,b . Es gilt* nach ) a,b * der monotone Limes a,b Voraussetzung E U = limn→∞ E[Un ] < ∞. Speziell ist P U a,b < ∞ = 1. Definiere die F∞ -messbaren Ereignisse 2 1

C a,b = lim inf Xn < a ∩ lim sup Xn > b ⊂ U a,b = ∞ n→∞

n→∞


und C=

213

C a,b

a,b∈Q a 1, so folgt dies jedoch aus der Doob’schen Ungleichung. Insbesondere folgt dann aus fast sicherer Konvergenz schon die Konvergenz in Lp . ¨ Martingale). Satz 11.10 (Lp -Konvergenzsatz fur Sei p > 1 und (Xn )n∈N0 ein Lp -beschränktes Martingal. Dann existiert eine F∞ n→∞ messbare Zufallsvariable X∞ mit E[|X∞ |p ] < ∞, sowie Xn −→ X∞ fast sicher und in Lp . Speziell ist (|Xn |p )n∈N0 gleichgradig integrierbar. Beweis. Nach Korollar 6.21 ist X gleichgradig integrierbar. Also existiert der fast sichere Limes X∞ . Nach der Doob’schen Ungleichung (Satz 11.2) ist für n ∈ N p ) * )

* p p E sup |Xk | : k ≤ n ≤ E |Xn |p . p−1 Also ist p ' ) *

( p E sup |Xk |p : k ∈ N0 sup E |Xn |p : n ∈ N0 < ∞. ≤ p−1

Insbesondere ist (|Xn |p )n∈N0 also gleichgradig integrierbar.

Majorisierte Konvergenz liefert (wegen |Xn − X∞ |p ≤ 2p sup{|Xn |p : n ∈ N0 }) ) * ) * n→∞ E |X∞ |p < ∞ und E |Xn − X∞ |p −→ 0. 2


215

Für den Fall quadratintegrierbarer Martingale gibt es ein handliches Kriterium für die L2 -Beschränktheit, das wir hier als Korollar festhalten (siehe Definition 10.3). Korollar 11.11. Sei X ein quadratintegrierbares Martingal X mit quadratischem Variationsprozess X!. Dann sind folgende vier Aussagen a¨ quivalent: (i) supn∈N E[Xn2 ] < ∞,

(ii) limn→∞ E[ X!n ] < ∞,

(iii) X konvergiert in L2 ,

(iv) X konvergiert fast sicher und in L2 . Beweis. (i) ⇐⇒ (ii)“ Wegen Var[Xn − X0 ] = E[ X!n ] (siehe Satz 10.4) ist ” X genau dann in L2 beschränkt, wenn (ii) gilt. (iv) =⇒ (iii) =⇒ (i)“ Dies ist trivial. ” (i) =⇒ (iv)“ Dies ist die Aussage von Satz 11.10. ”

2

Bemerkung 11.12. Die Aussage von Satz 11.10 ist für p = 1 im Allgemeinen ¨ falsch. Siehe Ubung 11.2.1. 3 Lemma 11.13. Sei X ein quadratintegrierbares Martingal mit quadratischem Variationsprozess X!, und sei τ eine Stoppzeit. Dann hat der gestoppte Prozess X τ den quadratischen Variationsprozess X τ ! = X!τ := ( X!τ ∧n )n∈N0 . ¨ Beweis. Ubung!

2

Nehmen wir statt wie in Korollar 11.11 nicht die Beschränktheit der Erwartungswerte der quadratischen Variation an, sondern lediglich die fast sichere Beschränktheit, so erhalten wir immerhin noch fast sichere Konvergenz von X, im Allgemeinen nicht jedoch L2 -Konvergenz. Satz 11.14. Sei X ein quadratintegrierbares Martingal mit supn∈N X!n < ∞ fast sicher. Dann konvergiert X fast sicher. Beweis. Ohne Einschränkung können wir annehmen, dass X0 = 0 ist, sonst betrachten wir das Martingal (Xn − X0 )n∈N0 , das den selben quadratischen Variationsprozess hat. Betrachte für K > 0 τK := inf{n ∈ N : X!n+1 ≥ K}. Dies ist eine Stoppzeit, da X! vorhersagbar ist. Offenbar ist supn∈N X!τK ∧n ≤ K fast sicher. Nach Korollar 11.11 konvergiert der gestoppte Prozess X τK fast sicher τK (und in L2 ) gegen eine Zufallsvariable, die wir X∞ nennen wollen. Nach Voraussetzung gilt P[τK = ∞] → 1 für K → ∞, also konvergiert X fast sicher. 2

216


Beispiel 11.15. Sei X die symmetrische einfache Irrfahrt auf Z, das heißt Xn = n R , wobei R1 , R2 , . . . u.i.v. sind mit P[R1 = 1] = 1 − P[R1 = −1] = 21 . k k=1 Dann ist X ein Martingal, jedoch ist lim supn→∞ Xn = ∞ und lim inf n→∞ Xn = −∞, also X nicht einmal uneigentlich konvergent. Dies geht nach dem Martingalkonvergenzsatz einher damit, dass X nicht gleichgradig integrierbar ist. 3 Beispiel 11.16 (Wählermodell). Wir betrachten ein einfaches Modell zum Verhalten von opportunistischen Wählern, die nur einer von zwei Meinungen (zu einem politischen Thema) fähig sind, sagen wir 0 und 1. Wir betrachten eine Menge Λ ⊂ Zd , die wir als die Menge der Orte auffassen, an denen je ein Individuum sitzt. Zur Einfachheit nehmen wir an, dass Λ = {0, . . . , L − 1}d für ein L ∈ N. Mit x ∈ {0, 1}Λ bezeichnen wir einen generischen Zustand des gesamten Wahlvolkes, wobei x(i) ∈ {0, 1} die Meinung des Individuums i ∈ Λ ist. Wir stellen uns nun vor, dass sich die Meinungen in diskreten Zeitschritten a¨ ndern. Zu jedem Zeitpunkt n vergisst ein zufällig gewähltes Individuum In seine Meinung und u¨ bernimmt stattdessen die Meinung eines zufällig gewählten Nachbarn In + Nn , wobei wir die Addition als komponentenweise modulo L verstehen (manchmal wird dies auch periodische Randbedingungen genannt, weil wir Λ als diskreten Torus auffassen). So erhalten wir eine zufällige Folge (Xn )n∈N0 von Zuständen in {0, 1}Λ , die die zufällige Entwicklung der Meinungen darstellt. Um noch einmal formal zu fassen, was wir gerade beschrieben haben: Wir betrachten unabhängige Zufallsvariablen (In )n∈N und (Nn )n∈N . Für jedes n ∈ N sei In uniform verteilt auf Λ und Nn uniform verteilt auf den 2d direkten Nachbarn des Ursprungs N := {i ∈ Zd : i2 = 1}. Zudem ist x = X0 ∈ {0, 1}Λ der ursprüngliche Zustand. Die weiteren Zustände definieren wir induktiv durch Xn−1 (i), falls In = i, Xn (i) = Xn−1 (In + Nn ), falls In = i. Wir interessieren uns jetzt für das Langzeitverhalten von (Xn )n∈N0 . Wird es auf lange Sicht einen Konsens unter allen Individuen geben, oder können zwei konkurrierende Meinungen koexistieren? Wir betrachten dazu die Gesamtzahl aller Individuen mit Meinung 1 zur Zeit n, nämlich Mn := i∈Λ Xn (i). Sei F die Filtration F = (Fn )n∈N0 , wobei Fn = σ(Ik , Nk : k ≤ n) ist für jedes n ∈ N0 . Dann ist M an F adaptiert und E[Mn Fn−1 ] = Mn−1 − E[Xn−1 (In ) Fn−1 ] + E[Xn−1 (In + Nn ) Fn−1 ] = Mn−1 + P[In = i] Xn−1 (i) − P[In + Nn = i] Xn−1 (i) i∈Λ

i∈Λ

= Mn−1 ,

weil P[In = i] = P[In + Nn = i] = L−d für jedes i ∈ Λ. Also ist M ein beschränktes F-Martingal und damit fast sicher und in L1 konvergent gegen eine Zufallsvariable M∞ . Da M nur ganzzahlige Werte annimmt, gibt es ein (zufälliges)


217

n0 , sodass Mn = Mn0 für jedes n ≥ n0 . Damit ist aber auch Xn = Xn0 für jedes n ≥ n0 . Offenbar ist jedoch kein Zustand x mit x ≡ 0 und x ≡ 1 stabil, denn hier gilt, falls i und j in Λ benachbart sind und x(i) = x(j), P[Xn = Xn−1 Xn−1 = x] ≥ P[In−1 = i, Nn−1 = j − i] = L−d (2d)−1 . Es muss also M∞ ∈ {0, Ld } gelten. Nun ist aber E[M∞ ] = M0 , also gilt * M0 ) P M∞ = Ld = d L

und

* ) M0 P M∞ = 0 = 1 − d . L

Etwas formaler sehen wir den Sachverhalt, dass nur die beiden extremen Zustände stabil sind, so ein: Wir betrachten den quadratischen Variationsprozess M ! von M . Dann ist M !n =

n

k=1

{Mk =

Mk−1 }

=

n

k=1

{Xk−1 (Ik ) =Xk−1 (Ik +Nk )} .

Also ist L2d ≥ Var[Mn ] = E[ M !n ] n = P[Xk−1 (Ik ) = Xk−1 (Ik + Nk )] k=1

≥ (2d)−1 L−d ∞

n

k=1

P[Mk−1 ∈ {0, Ld }].

Es folgt, dass k=1 P[Mk−1 ∈ {0, Ld }] ≤ 2dL3d < ∞, also ist nach dem Lemma 3 von Borel-Cantelli M∞ ∈ {0, Ld }. Beispiel 11.17 (Satz von Radon-Nikodym). Wir wollen mit Hilfe des Martingalkonvergenzsatzes einen alternativen Beweis des Satzes von Radon-Nikodym (Korollar 7.34) angeben. Sei (Ω, F, P) ein W-Raum und Q ein weiteres W-Maß auf (Ω, A). Wir nehmen zudem an, dass F abzählbar erzeugt ist, dass es also (höchstens) abzählbar viele Mengen A1 , A2 , . . . ∈ F gibt, sodass F = σ({A1 , A2 , . . .}). Dies ist beispielsweise dann richtig, wenn F die Borel’sche σ-Algebra auf einem polnischen Raum ist. Speziell können wir für den Fall Ω = Rd offene Kugeln mit rationalen Radien und rationalen Zentren nehmen. Wir bilden nun eine Filtration F = (Fn )n∈N , indem wir Fn := σ({A1 , . . . , An }) es eine endliche setzen. Offenbar ist #Fn < ∞ für jedes n ∈ N. Genauer gilt, dass C für jedes (eindeutig bestimmte) Teilmenge Zn ⊂ Fn \ {∅} gibt mit B = C∈Zn C⊂B

B ∈ Fn . Zn ist die Zerlegung von Fn in Atome“. Schließlich definieren wir einen ” stochastischen Prozess (Xn )n∈N durch

218


Xn :=

C∈Zn : P[C]>0

Q(C) P[C]

C.

Offenbar ist X an F adaptiert. Sei B ∈ Fn und m ≥ n. Für jedes C ∈ Zm gilt entweder C ∩ B = ∅ oder C ⊂ B. Also ist Q(C) P[C ∩B] = Q(C) = Q(B). (11.1) E[Xm B ] = P[C] C∈Zm : P[C]>0

C∈Zm : C⊂B

Insbesondere ist X also ein F-Martingal. Wir nehmen nun an, dass Q absolutstetig bezüglich P ist. Nach Beispiel 7.39 ist X dann gleichgradig integrierbar. Nach dem Martingalkonvergenzsatz konvergiert X fast sicher und in L1 gegen eine Zufallsvariable X∞ . Nach (11.1) ist E[X∞ B ] = Q(B) für jedes B ∈ n∈N Fn , also auch für jedes B ∈ F. Mithin ist X∞ die Radon-Nikodym-Dichte von Q bezüglich P.

Man beachte, dass wir für diesen Beweis des Satzes von Radon-Nikodym nirgends die Existenz bedingter Erwartungen vorausgesetzt haben, also nicht in versteckter Weise auf den Satz selber zurückgegriffen haben. Man könnte einwenden, dass wir hier nur den Spezialfall von W-Maßen behandeln konnten. Dieser Mangel kann jedoch sehr leicht behoben werden: Sind μ und ν beliebige (jedoch von Null verschiedene) σ-endliche Maße, dann gibt es messbare 0 0 Funktionen g, h : Ω → (0, ∞) mit g dμ = 1 und h dν = 1. Wir setzen nun P = gμ und Q = hν. Offenbar gilt genau dann Q ≪ P, wenn ν ≪ μ. In diesem dν . Fall ist hg X∞ eine Version der Radon-Nikodym-Ableitung dμ

Auf die Einschränkung, dass F abzählbar erzeugt werden kann, kann man ebenfalls verzichten. Mit Hilfe der Approximationssätze für Maße kann man zeigen, dass es stets eine abzählbar erzeugte σ-Algebra G ⊂ F gibt, sodass für jedes A ∈ F ein B ∈ G existiert mit P[A △ B] = 0. Hiermit lässt sich der allgemeine Fall beweisen. Wir führen dies hier nicht aus, sondern verweisen auf [157, Kapitel 14.13]. 3 ¨ Ubung 11.2.1. Die Aussage von Satz 11.10 ist für p = 1 im Allgemeinen falsch. Man gebe ein Beispiel an für ein nichtnegatives Martingal X mit E[Xn ] = 1 für n→∞ jedes n ∈ N, aber Xn −→ 0 fast sicher. ♣ ¨ Ubung 11.2.2. Seien X1 , X2 , . . . unabhängige, quadratisch integrierbare Zufallsva∞ riablen mit n=1 n12 Var[Xn ] < ∞. Man zeige mit Hilfe des Martingalkonver♣ genzsatzes das starke Gesetz der großen Zahl für (Xn )n∈N . ¨ Ubung 11.2.3. Man gebe ein Beispiel an für ein quadratisch integrierbares Martin♣ gal, das fast sicher konvergiert, aber nicht in L2 . ¨ Ubung 11.2.4. Man zeige: In Satz 11.14 gilt im Allgemeinen nicht die Umkehrung. Das heißt, es gibt ein quadratintegrierbares Martingal X, das fast sicher konvergiert, ♣ für das aber nicht gilt, dass lim X!n < ∞ fast sicher. n→∞

11.3 Beispiel: Verzweigungsprozess

219

¨ Ubung 11.2.5. Man zeige: In Satz 11.14 gilt die Umkehrung unter der zusätzlichen Annahme, dass es ein K > 0 gibt mit |Xn − Xn−1 | ≤ K f.s. für jedes n ∈ N. ♣ ∗ ¨ Ubung 11.2.6. Sei (Fn )n∈N0 eine

Ereignisse. Setze A = ∞Filtration und (An )n∈N lim supn→∞ An und A∞ = n=1 P[An |Fn−1 ] = ∞ . Man zeige die bedingte ∗ ] = 0. Version des Borel-Cantelli Lemmas: P[A∞ △ A ∞ ¨ ♣ Hinweis: Wende Ubung 11.2.5 an auf Xn = n=1 ( An − P[An |Fn−1 ]).

¨ Ubung 11.2.7. Sei p ∈ [0, 1] und X = (Xn )n∈N0 ein stochastischer Prozess mit Werten in [0, 1]. Für jedes n ∈ N0 gelte: Gegeben X0 , . . . , Xn ist 1 1 − p + pXn mit Wahrscheinlichkeit Xn , Xn+1 = pXn mit Wahrscheinlichkeit 1 − Xn .

Man zeige, dass X ein Martingal ist und fast sicher konvergiert. Man bestimme die Verteilung des fast sicheren Grenzwerts limn→∞ Xn . ♣

¨ Ubung 11.2.8. Sei f ∈ L1 (λ), wobei λ die Einschränkung des Lebesgue-Maßes auf [0, 1] bezeichnet. Sei In,k = [k 2−n , (k + 1) 2−n ) für n ∈ N und k = 0, . . . , 2n − 1. Definiere fn : [0, 1] → R durch n f dλ, falls k so gewählt ist, dass x ∈ Ik,n . fn (x) = 2 Ik,n

n→∞

Zeige: Für λ-fast alle x ∈ [0, 1] gilt fn (x) −→ f (x).

♣

¨ Ubung 11.2.9. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum mit einer Filtration F = (Fn )n∈N . Sei F∞ := σ(Fn : n ∈ N), und sei M der Vektorraum der gleichgradig integrierbaren F-Martingale. Man zeige: die Abbildung Φ : L1 (F∞ ) → M, X∞ → ♣ (E[X∞ |Fn ])n∈N ist ein Vektorraumisomorphismus.

11.3 Beispiel: Verzweigungsprozess Sei p = (pk )k∈N0 ein Wahrscheinlichkeitsvektor auf N0 und (Zn )n∈N0 der GaltonWatson-Prozess mit einem Urahn und Nachkommenverteilung p (siehe Definition 3.9). Zur Erinnerung geben wir die Konstruktion von Z an. Seien (Xn,i )n∈N0 , i∈N u.i.v. Zufallsvariablen P[X1,1 = k] = pk für k ∈ N0 . Setze Z0 = 1 und induktiv Zn+1 =

Zn i=1

Xn,i

für n ∈ N0 .

Wir interpretieren Zn als Größe einer Population zur Zeit n und Xn,i als Anzahl der Nachkommen des i-ten Individuums aus der n-ten Generation. Seien m := E[X1,1 ] < ∞ die erwartete Kinderanzahl pro Individuum und σ 2 := Var[X1,1 ] ∈ (0, ∞) die Varianz der Kinderzahl. Setze Fn := σ(Xk,i : k < n, i ∈ N). Dann ist Z an F adaptiert. Definiere Wn = m−n Zn .

220


Lemma 11.18. W ist ein Martingal. Speziell ist E[Z n ] = mn für jedes n ∈ N. Beweis. Wir berechnen die bedingte Erwartung für n ∈ N0 : E[Wn+1 Fn ] = m−(n+1) E[Zn+1 Fn ] -Z . n −(n+1) =m E Xn,i Fn i=1

= m−(n+1)

∞

E

k=1

= m−n

∞

k=1

) E k·

)

{Zn =k} k

{Zn =k}

= m−n Zn = Wn .

* · Xn,i Fn

* Fn

2

Satz 11.19. Sei Var[X1,1 ] ∈ (0, ∞). Es existiert der fast sichere Limes W∞ = lim Wn , und es gilt

n→∞

m>1

⇐⇒

E[W∞ ] = 1

⇐⇒

E[W∞ ] > 0.

Beweis. W∞ existiert, weil W ≥ 0 ein Martingal ist. Ist m ≤ 1, so folgt, dass (Zn )n∈N f.s. gegen ein Z∞ konvergiert. Wegen σ 2 > 0 kommt nur Z∞ = 0 in Frage. Sei nun m > 1. Es gilt nach dem Satz von Blackwell-Girshick (Satz 5.10) wegen E[Zn−1 ] = mn−1 (Lemma 11.18)

Var[Wn ] = m−2n σ 2 E[Zn−1 ] + m2 Var[Zn−1 ] = σ 2 m−(n+1) + Var[Wn−1 ].

Induktiv folgt Var[Wn ] = σ 2

n+1 k=2

m−k ≤

σ2 m < ∞. Also ist W in L2 bem−1

schränkt, und Satz 11.10 liefert, dass Wn → W∞ in L2 und damit auch in L1 . 2 Speziell ist E[W∞ ] = E[W0 ] = 1.

Unter der Annahme der endlichen Varianz waren die Aussagen von Satz 11.19 nicht schwer zu zeigen. Es gilt aber eine viel stärkere Aussage, die wir hier nur zitieren (siehe [94], beziehungsweise [108] für einen modernen Beweis). Satz 11.20 (Kesten-Stigum (1966)). Sei m > 1. Dann sind a¨ quivalent (i) E[W∞ ] = 1, (ii) E[W∞ ] > 0,

(iii) E[X1,1 log(X1,1 )+ ] < ∞.

¨ 12 Ruckw¨ artsmartingale und Austauschbarkeit

Bei vielen Datenerhebungen, etwa Telefonumfragen, ist die Reihenfolge, in der die Daten kommen, unerheblich. Mathematisch sprechen wir von austauschbaren Zufallsvariablen, wenn sich die gemeinsame Verteilung unter endlichen Vertauschungen nicht a¨ ndert. Der Struktursatz für austauschbare Zufallsvariablen von de Finetti besagt, dass sich eine unendlich große austauschbare Familie von Zufallsvariablen mit Werten im Raum E als Zweistufenexperiment beschreiben lässt: In der ersten Stufe wird eine zufällige Wahrscheinlichkeitsverteilung Ξ auf E ausgewürfelt. In der zweiten Stufe werden die Zufallsvariablen u.i.v. mit Verteilung Ξ realisiert. Wir definieren zunächst den Begriff der Austauschbarkeit. Danach betrachten wir Rückwärtsmartingale und zeigen den Konvergenzsatz für Rückwärtsmartingale. Dieser ist der Eckstein für den Beweis des Satzes von de Finetti.

12.1 Austauschbare Familien von Zufallsvariablen Definition 12.1. Sei I eine beliebige Indexmenge und E ein polnischer Raum. Eine Familie (Xi )i∈I von Zufallsvariablen mit Werten in E heißt austauschbar, falls für jede endliche Permutation ̺ : I → I gilt, dass ' ( ) * L X̺(i) i∈I = L (Xi )i∈I .

Als endliche Permutation bezeichnen wir dabei eine Bijektion ̺ : I → I, die alle bis auf endlich viele Koordinaten unverändert lässt. Bemerkung 12.2. Offenbar sind a¨ quivalent: (i) (Xi )i∈I ist austauschbar. (ii) Für n ∈ N und paarweise unterschiedliche i1 , . . . , in ∈ I sowie paarweise unterschiedliche j1 , . . . , jn ∈ I gilt L[(Xi1 , . . . , Xin )] = L[(Xj1 , . . . , Xjn )]. Insbesondere sind austauschbare Zufallsvariablen stets identisch verteilt (dies ist (ii) mit n = 1). 3

222

12 Rückwärtsmartingale und Austauschbarkeit

Beispiel 12.3. (i) Ist (Xi )i∈I u.i.v., so ist (Xi )i∈I austauschbar. (ii) In einer Urne seien N Kugeln, davon M schwarz. Wir ziehen sukzessive ohne Zurücklegen alle Kugeln und setzen 1, falls die n-te Kugel schwarz ist, Xn := 0, sonst. Dann ist (Xn )n=1,...,N austauschbar. Dies folgt aus elementarer Kombinatorik, denn für jede Wahl von x1 , . . . , xN ∈ {0, 1} mit x1 + . . . + xN = M ist offenbar * ) 1 P X1 = x1 , . . . , XN = xN = N . M

Diese Formel können wir aber auch formal durch eine kleine Rechnung mit bedingten Wahrscheinlichkeiten herleiten, die wir in a¨ hnlicher Form für das Pólya’sche Urnenmodell in Beispiel 12.29 noch einmal durchführen werden. Setze dazu sk = x1 + . . . + xk für k = 0, . . . , N und 1 M − sk , falls x = 1, gk (x) = N − M + sk − k, falls x = 0. Dann ist P[X1 = x1 ] = g0 (x1 )/N und P[Xk+1 = xk+1 |X1 = x1 , . . . , Xk = xk ] =

gk (xk+1 ) N −k

für k = 1, . . . , N − 1.

Ferner ist offenbar gk (0) = N − M − l, wobei l = #{i < k : xi = 0}. Es folgt P[X1 = x1 , . . . , XN = xN ] = P[X1 = x1 ]

N −1 k=1

=

P[Xk+1 = xk+1 |X1 = x1 , . . . , Xk = xk ]

N −1 1 1 gk (xk+1 ) = N! N! k=0

=

k: xk =1

gk (1)

gk (0)

k: xk =0

M −1 N −1 1 M ! (N − M )! (M − l) (N − M − l) = . N! N! l=0

l=0

(iii) Sei Y eine Zufallsvariable mit Werten in [0, 1], und gegeben Y seien (Xi )i∈I unabhängig und BerY –verteilt. Das heißt, für jedes endliche J ⊂ I ist P[Xj = 1 für jedes j ∈ J Y ] = Y #J . Dann ist (Xi )i∈I austauschbar.

3

12.1 Austauschbare Familien von Zufallsvariablen

223

Sei X = (Xn )n∈N ein stochastischer Prozess mit Werten in einem polnischen Raum E. Sei S(n) die Menge der Permutationen ̺ : {1, . . . , n} → {1, . . . , n}. Wir fassen ̺ ebenfalls als Abbildung N → N auf durch ̺(k) = k für k > n. Für ̺ ∈ S(n) und x = (x1 , . . . , xn ) ∈ E n schreiben wir x̺ = (x̺(1) , . . . , x̺(n) ). Für x ∈ E N schreiben wir analog x̺ = (x̺(1) , x̺(2) , . . .) ∈ E N . Ist E ′ ein weiterer polnischer Raum, so definieren wir für messbare Abbildungen f : E n → E ′ und F : E N → E ′ die Abbildungen f ̺ und F ̺ durch f ̺ (x) = f (x̺ ) und F ̺ (x) = F (x̺ ). Ferner schreiben wir f (x) = f (x1 , . . . , xn ) auch, falls x ∈ E N . Definition 12.4. (i) Eine Abbildung f : E n → E ′ heißt symmetrisch, falls f ̺ = f ist für jedes ̺ ∈ S(n). (ii) Eine Abbildung F : E N → E ′ heißt n-symmetrisch, falls F ̺ = F für jedes ̺ ∈ S(n). F heißt symmetrisch, falls F n-symmetrisch ist für jedes n ∈ N.

Beispiel 12.5. Für x ∈ RN definieren wir das n-te arithmetische Mittel durch (i) n 1 an (x) = n i=1 xi . Offenbar ist an eine n-symmetrische Abbildung (aber nicht m-symmetrisch für ein m > n). Weiter definiert a ¯(x) := lim sup an (x) eine symn→∞

metrische Abbildung RN → R ∪ {−∞, +∞}. ∞ (ii) Die Abbildung s : RN → [0, ∞], x → i=1 |xi | ist symmetrisch. Anders als a ¯ hängt der Wert von s von jeder einzelnen Koordinate ab, falls er endlich ist.

N (iii) n Für x ∈ E definieren wir die n-te empirische Verteilung durch ξn (x) = 1 i=1 δxi . Offenbar ist ξn eine n-symmetrische Abbildung. n

(iv)

Sei k ∈ N und ϕ : E k → R eine Abbildung. Das n-te symmetrisierte Mittel 1 An (ϕ) : E N → R, x → ϕ(x̺ ) (12.1) n! ̺∈S(n)

ist eine n-symmetrische Abbildung.

3

Definition 12.6. Sei X = (Xn )n∈N ein stochastischer Prozess mit Werten in E. Für n ∈ N sei En := σ(F ◦ X : F : E N → R ist messbar und n-symmetrisch) die σ-Algebra der unter allen Permutation ̺ ∈ S(n) invarianten Ereignisse. Ferner sei E :=

∞

n=1

En = σ F ◦ X : F : E N → R ist messbar und symmetrisch

die σ-Algebra der austauschbaren Ereignisse für X, oder kurz die austauschbare σ-Algebra. Bemerkung 12.7. Ist A ∈ σ(Xn , n ∈ N) ein Ereignis, so gibt es ein messbares B ⊂ E N mit A = {X ∈ B}. Schreiben wir A̺ = {X ̺ ∈ B} für ̺ ∈ S(n), so ist En = {A : A̺ = A für alle ̺ ∈ S(n)}. Dies rechtfertigt den Namen austauschba” res Ereignis“. 3

224


n Bemerkung 12.8. Schreiben wir Ξn (ω) := ξn (X(ω)) = n1 i=1 δXi (ω) für die ¨ 3 n-te empirische Verteilung, so ist nach Ubung 12.1.1 En = σ(Ξn ).

Bemerkung 12.9. Bezeichnen wir mit T = n∈N σ(Xn+1 , Xn+2 , . . .) die terminale σ-Algebra, so ist T ⊂ E, wobei im Falle #E ≥ 2 strikte Inklusion gilt.

In der Tat: Offenbar ist σ(Xn+1 , Xn+2 , . . .) ⊂ En für n ∈ N, also T ⊂ E. Sei nun #E ≥2. Wähle ein messbares B ⊂ E mit B = ∅ und B c = ∅. Die Zufallsvariable ∞ 3 S := n=1 B (Xn ) ist messbar bezüglich E, nicht aber bezüglich T . Satz 12.10. Sei X = (Xn )n∈N austauschbar. Ist ϕ : E k → R messbar und E[|ϕ(X)|] < ∞, dann gilt für jedes n ≥ k und jedes ̺ ∈ S(n) E[ϕ(X)|En ] = E[ϕ(X ̺ )|En ]. Speziell ist

(12.2)

1 ϕ(X ̺ ). E[ϕ(X) En ] = An (ϕ) := n!

(12.3)

̺∈S(n)

Beweis. Sei A ∈ En und F = X(A) . Dann ist F ◦ X = A . Nach der Definition von En ist also F : E N → R messbar, n-symmetrisch und beschränkt. Daher ist ) * ) * ) * E ϕ(X)F (X) = E ϕ(X ̺ )F (X ̺ ) = E ϕ(X ̺ )F (X) ,

wobei wir in der ersten Gleichung die Austauschbarkeit von X benutzt haben, in der zweiten hingegen die Symmetrie von F . Hieraus folgt (12.2). Nun ist aber An (ϕ) schon En -messbar, also ist ⎡ ⎤ * ) 1 1 E ϕ(X) En = E ⎣ ϕ(X ̺ )En ⎦ = ϕ(X ̺ ). 2 n! n! ̺∈S(n)

̺∈S(n)

Heuristik zur Struktur austauschbarer Familien Wir betrachten eine endliche, austauschbare Familie X1 , . . . , XN von E-wertigen Zufallsvariablen. Wie sieht für n ≤ N die bedingte Verteilung von (X1 , . . . , Xn ) gegeben ΞN aus? Für jedes messbare A ⊂ E kommt {Xi ∈ A} für genau N ΞN (A) viele i ∈ {1, . . . , N } vor, wobei die Reihenfolge des Auftretens keinen Einfluss auf die Wahrscheinlichkeit hat. Wir sind also in der Situation des Ziehens von gefärbten Kugeln ohne Zurücklegen. Genauer gesagt können wir annehmen, dass die paarweise unterschiedlichen e1 , . . . , ek ∈ E die Atome von ΞN mit Häufigkeiten k N1 , . . . , Nk sind, dass also ΞN = i=1 = (Ni /N )δei gilt. Wir haben es also mit Kugeln in k Farben zu tun, wobei von der i-ten Farbe genau Ni Kugeln vorhanden sind. Wir ziehen n dieser Kugeln ohne Zurücklegen, aber mit Beachtung der Reihenfolge. Bis auf die Beachtung der Reihenfolge ist die resultierende Verteilung also

12.1 Austauschbare Familien von Zufallsvariablen

225

die allgemeine hypergeometrische Verteilung (siehe etwa [58, Abschnitt 2.3.2]). Es k gilt also für paarweise disjunkte, messbare Mengen A1 , . . . , Ak mit l=1 Al = E, für i1 , . . . , in ∈ {1, . . . , k}, paarweise unterschiedliche j1 , . . . , jn ∈ {1, . . . , N } und mit der Festlegung ml := #{r ∈ {1, . . . , n} : ir = l} für l ∈ {1, . . . , k} * ) P Xjr ∈ Air für jedes r = 1, . . . , n ΞN =

k m 1 N ΞN (Al ) l , (12.4) (N )n l=1

wobei wir (n)l := n(n − 1) · · · (n − l + 1) definieren.

Was passiert nun, wenn wir N → ∞ gehen lassen? Wir nehmen hier der Einfachheit halber an, dass der Limes Ξ∞ (Al ) = limN →∞ ΞN (Al ) für jedes l = 1, . . . , k in einem geeigneten Sinne existiert. Dann wird aus (12.4) formal n * ) Ξ∞ (Al )ml . P Xjr ∈ Air für jedes r = 1, . . . , n Ξ∞ =

(12.5)

l=1

Aus dem Ziehen der Kugeln ohne Zurücklegen wird nun also asymptotisch für große Kugelanzahl das Ziehen mit Zurücklegen. Damit sind die Zufallsvariablen X1 , X2 , . . . unabhängig mit Verteilung Ξ∞ gegeben Ξ∞ . Einen formalen Beweis, der entlang der von dieser Heuristik vorgezeichneten Linie verläuft, bringen wir in Kapitel 13.4. Um diese Aussage, den so genannten Satz von de Finetti, in Abschnitt 12.3 rigoros zu formulieren und zu beweisen, brauchen wir noch etwas Begriffsbildung (etwa bedingte Unabhängigkeit). Als technisches Hilfsmittel verwenden wir in diesem Kapitel den Konvergenzsatz für Rückwärtsmartingale, den wir in Abschnitt 12.2 formulieren. ¨ Ubung 12.1.1. Sei n ∈ N. Man zeige, dass sich jede symmetrische Funktion f :

n E n → R schreiben lässt als f (x) = g n1 i=1 δxi , wobei g (abhängig von f ) geeignet zu wählen ist. ♣ ¨ Ubung 12.1.2. Man leite (12.4) formal her.

♣

¨ Ubung 12.1.3. Seien X1 , . . . , Xn austauschbare quadratintegrierbare Zufallsvariablen. Man zeige 1 Cov[X1 , X2 ] ≥ − Var[X1 ]. (12.6) n−1 Man gebe für n ≥ 2 ein (nichttriviales) Beispiel für Gleichheit in (12.6) an. ♣ ¨ Ubung 12.1.4. Seien X1 , X2 , X3 . . . austauschbare, quadratintegrierbare Zufallsvariablen. Man zeige, dass Cov[X1 , X2 ] ≥ 0 gilt. ♣ ¨ Ubung 12.1.5. Man zeige: Für jedes n ∈ N \ {1} gibt es eine austauschbare Familie von Zufallsvariablen X1 , . . . , Xn , die nicht zu einer unendlichen, austauschbaren Familie X1 , X2 , . . . fortgesetzt werden kann. ♣

226


¨ 12.2 Ruckw¨ artsmartingale Die Begriffe der Filtration und des Martingals haben nirgends vorausgesetzt, dass die Zeitmenge I ⊂ [0, ∞) wäre. Wir wollen jetzt den Fall I = −N0 betrachten. ¨ Definition 12.11 (Ruckw¨ artsmartingal). Sei F = (Fn )n∈−N0 eine Filtration und X = (Xn )n∈−N0 ein F-Martingal. Dann nennen wir X = (X−n )n∈N0 ein Ruckw¨ artsmartingal. ¨ Bemerkung 12.12. Ein Rückwärtsmartingal ist stets gleichgradig integrierbar. Dies folgt aus Korollar 8.21 und der Tatsache, dass X−n = E[X0 F−n ] für jedes n ∈ N0 . 3 Beispiel 12.13. Seien X1 , X2 , . . . austauschbare, reelle Zufallsvariablen. Für n ∈ N setze F−n = En und n 1 Y−n = Xi . n i=1

Die folgende Rechnung zeigt, dass (Y−n )n∈N ein F-Rückwärtsmartingal ist: Adaptiertheit ist klar. Außerdem ist nach Satz 12.10 (mit k = n und ϕ(X1 , . . . , Xn ) = 1 n−1 (X1 + . . . + Xn−1 )) * ) 1 1 E Y−n+1 F−n = X̺(1) + . . . + X̺(n−1) = Y−n . n! n−1 ̺∈S(n)

Betrachten wir statt F die kleinere Filtration G = (Gn )n∈−N , die für n ∈ N durch G−n = σ(Y−n , Xn+1 , Xn+2 , . . .) = σ(Y−n , Y−n−1 , Y−n−2 , . . .) definiert wird, also die von Y erzeugte Filtration, so ist Y natürlich auch bezüglich G ein Rückwärtsmartingal (siehe Bemerkung 9.29). 3 a,b Seien a < b und n ∈ N. Sei U−n die Anzahl der Aufkreuzungen von X u¨ ber [a, b] a,b zwischen Zeit −n und 0, sowie U a,b = lim U−n . Nach der Aufkreuzungsunglein→∞ ) * ) * ) a,b * 1 E (X0 − a)+ , also P U a,b < ∞ = 1. chung (Lemma 11.3) ist E U−n ≤ b−a Wie im Beweis des Martingalkonvergenzsatzes (Satz 11.4) folgt:

¨ Ruckw¨ ¨ Satz 12.14 (Konvergenzsatz fur artsmartingale). Sei (Xn )n∈−N0 ein Martingal bezüglich F = (Fn )n∈−N0 . Dann existiert X−∞ = lim X−n fast n→∞ ∞ 1 sicher und in L . Es gilt X−∞ = E[X0 F−∞ ], wobei F−∞ = F−n . n=1

Beispiel 12.15. ∞Seien X1 , X2 , . . . austauschbare integrierbare Zufallsvariablen. Ferner sei T = n=1 σ(Xm , m ≥ n) die terminale σ-Algebra der X1 , X2 , . . . und E die austauschbare σ-Algebra. Dann gilt E[X1 T ] = E[X1 E] f.s. und

12.2 Rückwärtsmartingale

227

n

1 n→∞ Xi −→ E[X1 E] n i=1 In der Tat: Setzen wir Y−n :=

1 n

n

i=1

f.s. und in L1 .

Xi , so ist (nach Beispiel 12.13) (Y−n )n∈N ein

Rückwärtsmartingal bezüglich (Fn )n∈−N = (E−n )n∈−N , und daher gilt n→∞ Y−n −→ Y−∞ = E[X1 E] f.s. und in L1 .

Nun ist nach Beispiel 2.36(ii) Y−∞ schon T -messbar, also (wegen T ⊂ E und der 3 Turmeigenschaft der bedingten Erwartung) Y−∞ = E[X1 T ]. Beispiel 12.16 (Starkes Gesetz der großen Zahl). Sind Z1 , Z2 , . . . reell und u.i.v. mit E[|Z1 |] < ∞, dann gilt n

1 n→∞ Zi −→ E[Z1 ] fast sicher. n i=1 Nach dem Kolmogorov’schen 0-1 Gesetz (Satz 2.37) ist die terminale σ-Algebra T nämlich trivial, also gilt E[Z1 T ] = E[Z1 ] fast sicher.

In Korollar 12.19 werden wir sehen, dass im Falle unabhängiger Zufallsvariablen auch E schon P-trivial ist, woraus E[Z1 E] = E[Z1 ] folgt. 3

Wir schließen diesen Abschnitt, indem wir Beispiel 12.15 auf Mittelwerte von Funktionen von k ∈ N Variablen verallgemeinern. Diese Schlussfolgerung aus dem Konvergenzsatz für Rückwärtsmartingale wird im folgenden Abschnitt in essenzieller Weise benötigt. Satz 12.17. Sei X = (Xn )n∈N eine austauschbare Familie von Zufallsvariablen mit Werten in E, sei k ∈ N und ϕ : E k → R messbar mit E[|ϕ(X1 , . . . , Xk )|] < ∞. 1 ̺ Wir schreiben ϕ(X) = ϕ(X1 , . . . , Xk ) und setzen An (ϕ) := n! ̺∈S(n) ϕ(X ). Dann gilt E[ϕ(X) E] = E[ϕ(X) T ] = lim An (ϕ) f.s. und in L1 . (12.7) n→∞

Beweis. Nach Satz 12.10 ist An (ϕ) = E[ϕ(X) En ]. Also ist (A−n (ϕ))n≥k ein Rückwärtsmartingal bezüglich (E−n )n∈−N . Nach Satz 12.14 ist also * ) n→∞ An (ϕ) −→ E ϕ(X) E

f.s. und in L1 .

(12.8)

Wir können wie für das arithmetische Mittel (Beispiel 12.16) argumentieren, dass limn→∞ An (ϕ) schon T -messbar ist. In der Tat ist

228


# ̺ ∈ S(n) : ̺−1 (i) ≤ l für ein i ∈ {1, . . . , k} =0 lim sup n! n→∞

für jedes l ∈ N.

Der Wert von An (ϕ) hängt für große n also in zu vernachlässigender Weise von den ersten l Koordinaten ab. Zusammen mit (12.8) folgt (12.7). 2 Korollar 12.18. Sei X = (Xn )n∈N austauschbar. Dann gibt es für jedes A ∈ E ein B ∈ T mit P[A △ B] = 0. Man beachte, dass T ⊂ E ist, dass also die Aussage trivialerweise gilt, wenn wir die Rollen von E und T vertauschen. Beweis. Wegen E ⊂ σ(X1 , X2 , . . .) existiert nach dem Approximationssatz für Maße eine Folge von messbaren Mengen (Ak )k∈N mit Ak ∈ σ(X1 , . . . , Xk ) und k→∞

P[A △ Ak ] −→ 0. Sei Ck ∈ E k messbar mit Ak = {(X1 , . . . , Xk ) ∈ Ck } für jedes k ∈ N. Mit ϕk := Ck folgt aus Satz 12.17 ( ' A = E[ A |E] = E lim ϕk (X) E = lim E[ϕk (X)|E] k→∞

k→∞

= lim E[ϕk (X)|T ] =: ψ k→∞

fast sicher.

Es gibt also eine T -messbare Funktion ψ mit ψ = annehmen, dass ψ = B für ein B ∈ T .

A

fast sicher. Wir können nun 2

Als weitere Anwendung erhalten wir das 0-1 Gesetz von Hewitt und Savage [71]. Korollar 12.19 (0-1 Gesetz von Hewitt-Savage). Seien X1 , X2 , . . . u.i.v. Zufallsvariablen. Dann ist die austauschbare σ-Algebra P-trivial, also P[A] ∈ {0, 1} für jedes A ∈ E. Beweis. Nach dem Kolmogorov’schen 0-1 Gesetz (Satz 2.37) ist T trivial. Die Aussage folgt also ohne weiteres aus Korollar 12.18. 2

12.3 Satz von de Finetti Wir zeigen in diesem Abschnitt den Struktursatz für (abzählbar) unendliche, austauschbare Familien, den wir heuristisch schon am Ende von Abschnitt 12.1 motiviert hatten. Es soll also gezeigt werden, dass eine unendliche, austauschbare Familie von Zufallsvariablen eine unabhängige, identisch verteilte Familie ist gegeben die austauschbare σ-Algebra E. Ferner berechnen wir die bedingte Verteilung der einzelnen Zufallsvariablen. Als ersten Schritt geben wir eine Definition der bedingten Unabhängigkeit an.

12.3 Satz von de Finetti

229

Definition 12.20 (Bedingte Unabhängigkeit). Seien (Ω, F, P) ein W-Raum, A ⊂ F eine Teil-σ-Algebra sowie (Ai )i∈I eine beliebige Familie von Teil-σ-Algebren von F. Die Familie (Ai )i∈I heißt unabhängig gegeben A, falls für jedes endliche J ⊂ I und jede Wahl von Aj ∈ Aj für j ∈ J gilt ' ( ) * fast sicher. (12.9) P Aj A Aj A = P j∈J

j∈J

Eine Familie (Xi )i∈I von Zufallsvariablen auf (Ω, F, P) heißt unabhängig (und identisch verteilt) gegeben A, falls die erzeugten σ-Algebren (σ(Xi ))i∈I unabhängig gegeben A sind (und die bedingten Verteilungen P[Xi ∈ · |A] alle gleich sind). Beispiel 12.21. Jede beliebige Familie (Ai )i∈I von σ-Algebren von F ist unabhängig gegeben F. In der Tat ist in diesem Fall nämlich (mit A = j∈J Aj ) P[A|F] =

A

=

Aj

j∈J

=

j∈J

) * P Aj F

fast sicher.

3

Beispiel 12.22. Ist (Ai )i∈I eine unabhängige Familie von σ-Algebren, und ist A 3 trivial, dann ist (Ai )i∈I unabhängig gegeben A. Beispiel 12.23. Es gibt keine Monotonie“ bei der bedingten Unabhängigkeit in fol” gendem Sinne: Sind F1 , F2 und F3 σ-Algebren mit F1 ⊂ F2 ⊂ F3 , und ist (Ai )i∈I unabhängig sowohl gegeben F1 wie auch gegeben F3 , so folgt noch nicht die Unabhängigkeit gegeben F2 . Um dies zu illustrieren, nehmen wir an, dass X und Y nichttriviale, unabhängige, reelle Zufallsvariablen sind. Wir wählen F1 = {∅, Ω}, F2 = σ(X + Y ) und F3 = σ(X, Y ). Dann sind σ(X) und σ(Y ) unabhängig gegeben F1 und gegeben F3 , nicht 3 jedoch gegeben F2 .

Sei X = (Xn )n∈N ein stochastischer Prozess auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit Werten in einem polnischen Raum E. Sei E die austauschbare σAlgebra und T die terminale σ-Algebra. Satz 12.24 (de Finetti). Die Familie X = (Xn )n∈N ist genau dann austauschbar, wenn es eine σ-Algebra A ⊂ F gibt, sodass (Xn )n∈N u.i.v. gegeben A ist. In diesem Fall kann A = E oder A = T gewählt werden. Beweis. =⇒ “ Sei X austauschbar, und sei A = E oder A = T . Für jedes ” n ∈ N sei fn : E → R eine messbare und beschränkte Abbildung. Setze ϕk (x1 , . . . , xk ) =

k

i=1

fi (xi )

für jedes k ∈ N.

230


Dann ist (wobei An (ϕ) das symmetrisierte Mittel aus Satz 12.17 ist) An (ϕk−1 )An (fk ) =

n 1 1 fk (Xi ) ϕk−1 (X ̺ ) n! n i=1 ̺∈S(n)

=

1 ϕk (X ̺ ) + Rn,k = An (ϕk ) + Rn,k , n! ̺∈S(n)

wobei n = = = = Rn,k ≤ 2 =ϕk−1 = · =fk = · 1 1 ∞ ∞ n! n i=1 ̺∈S(n)

{i∈{̺(1),...,̺(k−1)}}

= = = = k − 1 n→∞ = 2 =ϕk−1 =∞ · =fk =∞ · −→ 0. n

Es folgt zusammen mit Satz 12.17

* ) n→∞ An (ϕk−1 ) An (fk ) −→ E ϕk (X1 , . . . , Xk ) A f.s. und in L1 .

Andererseits gilt nach Satz 12.17

* ) n→∞ An (ϕk−1 ) −→ E ϕk−1 (X1 , . . . , Xk−1 ) A

und

* ) n→∞ An (fk ) −→ E fk (X1 ) A ,

also

* * ) * ) ) E ϕk (X1 , . . . , Xk ) A = E ϕk−1 (X1 , . . . , Xk−1 ) A E fk (X1 ) A

und induktiv

E

-

k

i=1

. k * ) E fi (X1 ) A . fi (Xi ) A = i=1

Mithin ist X u.i.v. gegeben A.

⇐= “ Sei nun X u.i.v. gegeben A für eine geeignete σ-Algebra A ⊂ F . Für ” n jede beschr¨ Funktion ϕ : E → R und für jedes ̺ ∈ S(n) ist dann ankte, messbare ̺ E[ϕ(X) A] = E[ϕ(X ) A], also * * ) ) E[ϕ(X)] = E E[ϕ(X) A] = E E[ϕ(X ̺ ) A] = E[ϕ(X ̺ )].

Mithin ist X austauschbar.

2

Mit M1 (E) bezeichnen wir die Menge der W-Maße auf E, ausgestattet mit der Topologie der schwachen Konvergenz (siehe Definition 13.12 und Bemerkung 13.14),

12.3 Satz von de Finetti

231

das heißt: Eine Folge (μn )n∈N in M1 (E) konvergiert genau dann schwach gegen 0 n→∞ 0 ein μ ∈ M1 (E), wenn f dμn −→ f dμ für jede stetige und beschränkte Funktion f : E → R. Wir werden die schwache Konvergenz in Kapitel 13 genauer untersuchen. An dieser Stelle wollen wir die Topologie lediglich verwenden, um M1 (E) zu einem Messraum zu machen, nämlich mit der Borel’schen σ-Algebra B(M1 (E)). Wir können jetzt Zufallsvariablen mit Werten in M1 (E) betrachten, so genannte zufällige Maße (vergleiche Kapitel 24.1). Für x ∈ E N sei n 1 ξn (x) = n i=1 δxi ∈ M1 (E). n

Definition 12.25. Das zufällige Maß Ξn := ξn (X) := Verteilung von X1 , . . . , Xn .

1 δX heißt empirische n i=1 i

Wir betrachten die selben Voraussetzung wie in Satz 12.24. Satz 12.26 (de Finetti Darstellungssatz). Die Familie X = (Xn )n∈N ist genau dann austauschbar, wenn es eine σ-Algebra A ⊂ F gibt und eine A-messbare Zufallsvariable Ξ∞ : Ω → M1 (E) mit der Eigenschaft: gegeben Ξ∞ ist (Xn )n∈N u.i.v. mit L[X1 |Ξ∞ ] = Ξ∞ . In diesem Fall kann A = E oder A = T gewählt werden. Beweis.

”

⇐= “

Dies ist klar wie im Beweis von Satz 12.24.

=⇒ “ Sei X austauschbar. Dann existiert nach Satz 12.24 eine σ-Algebra A ⊂ ” eine reguläre F, sodass (Xn )n∈N u.i.v. gegeben A ist. Da E polnisch ist, existiert Version der bedingten Verteilung (siehe Satz 8.36) Ξ∞ := L[X1 A]. Für messbare A1 , . . . , An ⊂ E ist P[Xi ∈ Ai |A] = Ξ∞ (Ai ) für jedes i = 1, . . . , n, also , , + , + + n n P {Xi ∈ Ai } A Ξ∞ {Xi ∈ Ai } Ξ∞ = E P i=1

i=1

+ , n n =E Ξ∞ (Ai ) Ξ∞ = Ξ∞ (Ai ). i=1

⊗N Mithin ist L[X |Ξ∞ ] = Ξ∞ .

i=1

2

Bemerkung 12.27. In dem beschriebenen Fall ist nach dem starken Gesetz der großen Zahl für jede stetige und beschränkte Funktion f : E → R n→∞ f dΞn −→ f dΞ∞ fast sicher. Ist E zudem lokalkompakt (zum Beispiel E = Rd ), so kann man sogar zeigen, dass n→∞

Ξn −→ Ξ∞

fast sicher.

3

232


Beispiel 12.28. Seien (Xn )n∈N austauschbar und Xn ∈ {0, 1}. Dann existiert eine Zufallsvariable Y : Ω → [0, 1], sodass für endliches J ⊂ N * ) P Xj = 1 für jedes j ∈ J Y = Y #J . Mit anderen Worten: Gegeben Y ist (Xn )n∈N unabhängig und BerY -verteilt. Vergleiche Beispiel 12.3(iii). 3

Beispiel 12.29. (Pólya’sches Urnenmodell) (Siehe Beispiel 14.38 und [127].) In einer Urne seien anfangs N Kugeln, davon M schwarz und N − M weiß. In jedem Schritt wird eine Kugel gezogen und zusammen mit einer weiteren Kugel der selben Farbe wieder zurückgelegt. Sei 1, falls die n-te Kugel schwarz ist, Xn := 0, sonst, n und Sn = i=1 Xi . Dann ist ) * Sn−1 + M . P Xn = 1 X1 , X2 , . . . , Xn−1 = N +n−1 k Sukzessive erhält man für x1 , . . . , xn ∈ {0, 1} und sk = i=1 xi ) * P Xi = xi für jedes i = 1, . . . , n N + i − 1 − M − si−1 M + si−1 = N +i−1 N +i−1 i≤n: xi =1

i≤n: xi =0

(M + sn − 1)! N − M − 1 + (n − sn ) ! (N − 1)! · . = (N − 1 + n)! (M − 1)! (N − M − 1)!

Die rechte Seite hängt nur von sn und nicht von der Reihenfolge der x1 , . . . , xn ab. Also ist (Xn )n∈N austauschbar. Sei Z = lim n1 Sn . Dann ist (Xn )n∈N unabhängig n→∞ und identisch BerZ -verteilt gegeben Z. Also ist (siehe Beispiel 12.28) ** ) ) E [Z n ] = E P X1 = · · · = Xn = 1 Z = P [Sn = n] =

(N − 1)! (M + n − 1)! (M − 1)! (N + n − 1)!


¨ Nach Ubung 5.1.2 sind dies sind aber gerade die Momente der Beta-Verteilung βM,N −M auf [0, 1] mit Parametern (M, N − M ) (siehe Beispiel 1.107(ii)). Durch Angabe der Momente ist eine Verteilung auf [0, 1] eindeutig bestimmt (Satz 15.4). Also gilt Z ∼ βM,N −M . 3

13 Konvergenz von Maßen

In der Wahrscheinlichkeitstheorie interessiert man sich für Verteilungen, die durch das Zusammenwirken vieler zufälliger Einflüsse zustandekommen. Oftmals lässt sich eine brauchbare Idealisierung erreichen, indem man Grenzwerte solcher Verteilungen anschaut, zum Beispiel, wenn die Anzahl der Einflüsse nach Unendlich geht. Ein Beispiel ist die Konvergenz der Anzahl eingetretener Ereignisse bei vielen seltenen Ereignissen gegen die Poisson-Verteilung (siehe Satz 3.7). Vielfach sind aber auch Skalierungen der ursprünglichen Verteilung notwendig, um das wesentliche Fluktuationsverhalten zu erfassen, etwa im Zentralen Grenzwertsatz. Während diese Sätze mit reellen Zufallsvariablen auskommen, werden wir auch Grenzwertsätze kennen lernen, bei denen die Zufallsvariablen Werte in allgemeineren Räumen annehmen, beispielsweise im Raum aller stetigen Funktionen, wenn wir die zufällige zeitliche Bewegung eines Teilchens modellieren. In diesem Kapitel wird der Begriff der schwachen Konvergenz von W-Maßen auf allgemeinen (meist polnischen) Räumen eingeführt und untersucht. Hierzu ist eine solide Kenntnis von mengentheoretischer Topologie notwendig. Wir beginnen da¨ her mit einem kurzen Uberblick u¨ ber die verwendeten topologischen Begriffe und Sätze. Dieses Kapitel soll nur eine knappe Einführung in die für die Wahrscheinlichkeitstheorie wichtigsten Sätze liefern. Als ausführlichere Darstellungen seien [17] und [83] empfohlen. Beim ersten Lesen mag der Leser dieses eher analytisch geprägte Kapitel vielleicht u¨ berspringen. In diesem Fall genügt es fürs Erste, sich mit den Definitionen von schwacher Konvergenz und Straffheit (Definition 13.12 und 13.26) vertraut zu machen, sowie mit den Aussagen des Portemanteau Theorems (Satz 13.16) und des Satzes von Prohorov (Satz 13.29).

13.1 Wiederholung Topologie Wir geben kursorisch einige Definitionen und Aussagen der mengentheoretischen Topologie an. Zum Nachlesen eignen sich etwa [90] oder [133].

234


Im Folgenden sei stets (E, τ ) ein topologischer Raum mit der Borel’schen σAlgebra E = B(E) (vergleiche Definition 1.20 und 1.21). (E, τ ) heißt Hausdorffraum, falls zu je zwei Punkten x, y ∈ E mit x = y offene Mengen U, V existieren mit x ∈ U , y ∈ V und U ∩ V = ∅. Ist A ⊂ E, so bezeichnen wir mit A den Abschluss von A, mit A◦ das Innere und mit ∂A den Rand von A. Eine Menge A ⊂ E heißt dicht, falls A = E.

(E, τ ) heißt metrisierbar, falls es eine Metrik d auf E gibt, sodass τ durch die offenen Kugeln Bε (x) := {y ∈ E : d(x, y) < ε} erzeugt wird. Eine Metrik d auf E heißt vollständig, falls jede Cauchy-Folge bezüglich d einen Grenzwert in E besitzt. (E, τ ) heißt vollständig metrisierbar, falls es eine vollständige Metrik auf E gibt, die τ erzeugt. Ist (E, d) ein metrischer Raum und A, B ⊂ E, so schreiben wir d(A, B) = inf{d(x, y) : x ∈ A, y ∈ B}, sowie d(x, B) := d({x}, B) für x ∈ E.

Ein metrisierbarer Raum (E, τ ) heißt separabel, falls es eine abzählbare, dichte Teilmenge von E gibt. Separabilität in metrisierbaren Räumen ist a¨ quivalent dazu, dass es eine abz¨ ahlbare Basis der Topologie gibt, also eine abzählbare Menge U ⊂ τ mit A = U ∈U: U ⊂A U für jedes A ∈ τ . (Man wähle etwa ε-Kugeln um die Punkte aus einer abzählbaren, dichten Teilmenge und lasse ε die positiven rationalen Zahlen durchlaufen.) Ein kompakter, metrischer Raum ist stets separabel (man ¨ wähle einfach zu jedem n ∈ N eine endliche Uberdeckung Un ⊂ τ mit Kugeln vom Radius n1 und nehme dann U := n∈N Un ). ¨ Eine Menge A ⊂ E heißt kompakt, falls zu jeder offenen Uberdeckung U ⊂ τ von A (das heißt, A ⊂ U ∈U U ) eine endliche Teilüberdeckung existiert, also eine endliche Menge U ′ ⊂ U mit A ⊂ U ∈U ′ U . Kompakte Mengen sind stets abgeschlossen. Nach dem Satz von Heine-Borel ist eine Teilmenge von Rd genau dann dann kompakt, wenn sie beschränkt und abgeschlossen ist. A ⊂ E heißt relativ kompakt, falls A kompakt ist. Hingegen heißt A folgenkompakt (beziehungsweise relativ folgenkompakt), falls jede Folge (xn )n∈N mit Werten in A eine Teilfolge (xnk )k∈N hat, die gegen einen Grenzwert x ∈ A (beziehungsweise x ∈ A) konvergiert. In metrisierbaren Räumen fallen die Begriffe kompakt und folgenkompakt zusammen. Eine Menge A ⊂ E heißt σ-kompakt, falls A abzählbare Vereinigung von kompakten Mengen ist. E heißt lokalkompakt, falls jeder Punkt x ∈ E eine offene Umgebung besitzt, deren Abschluss kompakt ist. Ein lokalkompakter, separabler, metrischer Raum ist offenbar stets σ-kompakt. Ist E lokalkompakt und metrisch und U ⊂ E offen, sowie K ⊂ U kompakt, so existiert eine kompakte Menge L mit K ⊂ L◦ ⊂ L ⊂ U . (Man bilde etwa zu jedem Punkt x ∈ K eine offene Kugel Bεx (x) vom Radius εx > 0, die ganz in U liegt und relativ kompakt ist. Indem man εx eventuell nochmal halbiert, kann man annehmen, dass sogar der Abschluss dieser Kugel in U liegt. Da K kompakt ist, gibt es endlich viele x1 , . . . , xn ∈ K n mit K ⊂ V := i=1 Bεxi (xi ). Nach Konstruktion ist L = V ⊂ U kompakt.) Einen in der Wahrscheinlichkeitstheorie wichtigen Typ von topologischen Räumen stellen wir in einer separaten Definition vor.

13.1 Wiederholung Topologie

235

Definition 13.1. Ein topologischer Raum (E, τ ) heißt polnischer Raum, falls er vollständig metrisierbar und separabel ist. Polnische Räume sind beispielsweise abzählbare, diskrete Räume (nicht jedoch Q mit der u¨ blichen Topologie), die euklidischen Räume Rn , aber auch der Raum C([0, 1]) der stetigen Funktionen [0, 1] → R, ausgestattet mit der Supremumsnorm · ∞ . Praktisch sind alle Räume, die in der Wahrscheinlichkeitstheorie bedeutsam sind, polnische Räume. Sei (E, d) ein metrischer Raum. Eine Menge A ⊂ E heißt total beschränkt, falls n Bε (xi ). es zu jedem ε > 0 endlich viele Punkte x1 , . . . , xn ∈ A gibt mit A ⊂ i=1

Kompakte Mengen sind offenbar total beschränkt. In polnischen Räumen gilt sogar:

Lemma 13.2. Sei (E, τ ) polnisch mit vollständiger Metrik d. Eine Teilmenge A ⊂ E ist genau dann total beschränkt bezüglich d, wenn A relativ kompakt ist. ¨ Beweis. Ubung!

2

Im Folgenden sei stets (E, τ ) ein topologischer Raum mit Borel’scher σ-Algebra E = B(E) := σ(τ ) und vollständiger Metrik d. Für Maße auf (E, E) führen wir die folgenden Regularitätsbegriffe ein. Definition 13.3. Ein σ-endliches Maß μ auf (E, E) heißt (i) lokal endlich oder Borel-Maß, falls es zu jedem Punkt x ∈ E eine offene Menge U ∋ x gibt mit μ(U ) < ∞, (ii) regulär von innen, falls

μ(A) = sup μ(K) : K ⊂ A ist kompakt

(iii) regulär von außen, falls

μ(A) = inf μ(U ) : U ⊃ A ist offen

für jedes A ∈ E,

für jedes A ∈ E,

(iv) regulär, falls μ von innen und von außen regulär ist, (v) Radon-Maß, falls μ ein von innen reguläres Borel-Maß ist.

Definition 13.4. Wir führen die folgenden Mengen von Maßen auf E ein.

M(E) := Radon-Maße auf (E, E) ,

Mf (E) := endliche Maße auf (E, E) ,

M1 (E) := μ ∈ Mf (E) : μ(E) = 1 ,

M≤1 (E) := μ ∈ Mf (E) : μ(E) ≤ 1 .

(13.1)

(13.2)

236


Die Elemente von M≤1 (E) nennen wir Sub-Wahrscheinlichkeitsmaße auf E. Ferner vereinbaren wir die folgende Notation für Mengen von stetigen Funktionen

C(E) := f : E → R ist stetig ,

Cb (E) := f ∈ C(E) ist beschränkt ,

Cc (E) := f ∈ C(E) hat kompakten Träger ⊂ Cb (E).

Der Träger einer reellen Funktion f ist dabei f −1 (R \ {0}).

Ist nichts anderes vereinbart, so sind die Vektorräume C(E), Cb (E) und Cc (E) mit der Supremumsnorm ausgestattet.

Lemma 13.5. Ist E polnisch und μ ∈ Mf (E), so existiert zu jedem ε > 0 eine kompakte Menge K ⊂ E mit μ(E \ K) < ε. Beweis. Sei ε > 0. Zu jedem n ∈ N existieren xn1 , xn2 , . . . ∈ E mit E = N ∞ n ε B1/n (xni ). Wähle Nn ∈ N so, dass μ E \ B1/n (xni ) < n . Setze 2 i=1 i=1 A :=

∞ N n

B1/n (xni ) .

n=1 i=1

Nach Konstruktion ist A total beschränkt. Da E polnisch ist, ist also A kompakt. ∞

Außerdem folgt μ E \ A ≤ μ E \ A < ε 2−n = ε. 2 n=1

Satz 13.6. Ist E polnisch und μ ∈ Mf (E), so ist μ regulär. Speziell ist dann Mf (E) ⊂ M(E). Beweis. Sei B ∈ E und ε > 0. Nach dem Approximationssatz (Satz 1.65 mit A = τ ) gibt es eine offene Menge U ⊃ B mit μ(U \ B) < ε. Also ist μ regulär von außen. Das selbe Argument mit B c statt B liefert die Existenz einer abgeschlossenen Menge D ⊂ B mit μ(B \ D) < ε/2. Nach Lemma 13.5 existiert ein Kompaktum K mit μ(K c ) < ε/2. Setze C = D ∩ K. Dann ist C ⊂ B kompakt und μ(B \ C) < ε. Also ist μ auch regulär von innen. 2 Korollar 13.7. Das Lebesgue-Maß λ auf Rd ist ein reguläres Radon-Maß. Jedoch ist nicht jedes σ-endliche Maß auf Rd regulär. Beweis. Offenbar ist Rd polnisch und λ lokal endlich. Sei A ∈ B(Rd ) und ε > 0. Es existiert eine aufsteigende Folge (Kn )n∈N von kompakten Mengen mit Kn ↑ Rd .


237

Da jedes Kn beschränkt ist, ist λ(Kn ) < ∞. Es existiert also nach dem vorangehenn den Satz zu jedem n ∈ N eine offene Menge Un ⊃ A ∩ Kn mit λ(Un \ A) < ε/2 . Für die offene Menge U := n∈N Un gilt daher λ(U \ A) < ε.

Ist λ(A) < ∞, so existiert ein n ∈ N mit λ(A \ Kn ) < ε/2. Nach dem vorangehenden Satz existiert eine kompakte Menge C ⊂ A ∩ Kn mit λ((A ∩ Kn ) \ C) < ε/2. Es folgt λ(A \ C) < ε.

Ist andererseits λ(A) = ∞, so müssen wir zu jedem L > 0 ein Kompaktum C ⊂ A n→∞ finden mit λ(C) > L. Nun gilt aber λ(A ∩ Kn ) −→ ∞, also existiert ein n ∈ N mit λ(A ∩ Kn ) > L + 1. Nach dem schon Gezeigten existiert ein Kompaktum C ⊂ A ∩ Kn mit λ((A ∩ Kn ) \ C) < 1, also λ(C) > L. Schließlich sei das Maß μ = q∈Q δq betrachtet. Dieses Maß ist offenbar σendlich, jedoch nicht lokal endlich und auch nicht regulär von außen. 2 Definition 13.8. Seien (E, dE ) und (F, dF ) metrische Räume. Eine Funktion f : E → F heißt Lipschitz-stetig, falls es eine Zahl K < ∞ gibt, die so genannte Lipschitz-Konstante, mit dF (f (x), f (y)) ≤ K · dE (x, y) für alle x, y ∈ E. Mit LipK (E; F ) bezeichnen wir den Raum der Lipschitz-stetigen Funktionen zur Konstanten K, und mit Lip(E; F ) = K>0 LipK (E; F ) den Raum der Lipschitzstetigen Funktionen auf E. Wir schreiben kurz LipK (E) := LipK (E; R) und Lip(E) := Lip(E; R).

Definition 13.9. Sei F ⊂ M(E) eine Familie von Radon-Maßen. Eine Familie C messbarer Abbildungen E → R heißt trennende Familie für F, falls für je zwei Maße μ, ν ∈ F gilt: 1 1 f dμ = f dν für jedes f ∈ C ∩ L (μ) ∩ L (ν) =⇒ μ = ν. Lemma 13.10. Sei (E, d) ein metrischer Raum. Zu jeder abgeschlossenen Menge A ⊂ E und jedem ε > 0 gibt es eine Lipschitz-stetige Abbildung ρA,ε : E → [0, 1] mit 1, falls x ∈ A, ρA,ε (x) = 0, falls d(x, A) ≥ ε. Beweis.

Sei ϕ : R → [0, 1], t → (t ∨ 0) ∧ 1. Für x ∈ E setze ρA,ε (x) = 1 − ϕ ε−1 d(x, A) . 2 Satz 13.11. Sei (E, d) ein metrischer Raum. (i) Lip1 (E; [0, 1]) ist trennend für M(E).

(ii) Ist E zudem lokalkompakt, so ist Cc (E) ∩ Lip1 (E; [0, 1]) trennend für M(E).

238


0 0 Beweis. (i) Seien μ1 , μ2 ∈ M(E) mit f dμ1 = f dμ2 für jedes f ∈ Lip1 (E; [0, 1]). Ist A ∈ E, so ist μi (A) = sup{μi (K) : K ⊂ A ist kompakt}, da das Radon-Maß μi von innen regulär ist (i = 1, 2). Es reicht also zu zeigen, dass μ1 (K) = μ2 (K) für jede kompakte Menge K. Sei nun K ⊂ E kompakt. Da μ1 und μ2 lokal endlich sind, existiert zu jedem x ∈ K eine offene Menge Ux ∋ x mit μ1 (Ux ) < ∞ und μ2 (Ux ) < ∞. Da K kompakt ist, können wir endlich viele Punkte x1 , . . . , xn ∈ K finden, sodass n K ⊂ U := j=1 Uxj . Nach Konstruktion ist μi (U ) < ∞, also U ∈ L1 (μi ) für i = 1, 2. Da U c abgeschlossen ist, und U c ∩ K = ∅, ist δ := d(U c , K) > 0. Für die Abbildung ρK,ε aus Lemma 13.10 ist also K ≤ ρK,ε ≤ U ∈ L1 (μi ), falls ε→0 ε ∈ (0, δ). Wegen ρK,ε −→ K 0folgt aus dem Satz u¨ ber majorisierte Konvergenz (Korollar 6.26) μi (K) = limε→0 ρK,ε dμi . Nun ist aber ερK,ε ∈ Lip1 (E; [0, 1]) für jedes ε > 0, also nach Voraussetzung ρK,ε dμ1 = ε−1 (ερK,ε ) dμ1 = ε−1 (ερK,ε ) dμ2 = ρK,ε dμ2 . Es folgt μ1 (K) = μ2 (K), also μ1 = μ2 . (ii) Ist E lokalkompakt, so können wir in (i) die Umgebungen Ux zusätzlich relativ kompakt wählen. Es ist dann U relativ kompakt, also hat ρK,ε für ε ∈ (0, δ) einen 2 kompakten Träger, ist also in Cc (E). ¨ Ubung 13.1.1. besitzt.

(i) Man zeige, dass C([0, 1]) eine abzählbare, dichte Teilmenge

(ii) Man zeige, dass der Raum (Cb ([0, ∞)), · ∞ ) der stetigen, beschränkten Funktionen mit der Supremumsnorm nicht separabel ist. (iii) Man zeige, dass der Raum Cc ([0, ∞)) der stetigen Funktionen mit kompaktem Träger, ausgestattet mit der Supremumsnorm, separabel ist. ♣ ¨ Ubung 13.1.2. Man zeige: Ist μ ein lokal endliches Maß, so ist μ(K) < ∞ für jede kompakte Menge K. ♣ ¨ Ubung 13.1.3 (Satz von Lusin). Sei Ω ein polnischer Raum, μ ein σ-endliches Maß auf (Ω, B(Ω)) und f : Ω → R eine Abbildung. Man zeige, dass die beiden folgenden Aussagen a¨ quivalent sind: (i) Es gibt eine Borel-messbare Abbildung g : Ω → R mit f = g μ-fast u¨ berall.

(ii) Zu jedem ε > 0 gibt es eine kompakte Menge Kε mit μ(Ω \ Kε ) < ε, sodass ♣ die eingeschränkte Funktion f stetig ist. Kε


239

¨ Ubung 13.1.4. Sei U eine Familie offener Intervalle in R so, dass W := U ∈U U endliches Lebesgue-Maß λ(W ) hat. Man zeige: Für jedes ε > 0 gibt es endlich viele, paarweise disjunkte Mengen U1 , . . . , Un ∈ U mit n

λ(Ui ) >

i=1

1−ε λ(W ). 3

Hinweis: Man wähle eine endliche Familie U ′ ⊂ U, sodass U ∈U ′ U das Maß mindestens (1 − ε)λ(W ) hat. Hieraus wähle man eine nach absteigender Länge sortierte maximale Folge U ′′ disjunkter Intervalle aus und zeige, dass jedes U ∈ U ′ in (x − 3a, x + 3a) liegt für ein (x − a, x + a) ∈ U ′′ . ♣ ¨ Menge und Ubung 13.1.5. Sei C ⊂ Rd eine offene, beschränkte und konvexe U ⊂ {x + rC : x ∈ Rd , r > 0} so gewählt, dass W := U ∈U U endliches Lebesgue-Maß λd (W ) hat. Man zeige: Für jedes ε > 0 gibt es endlich viele, paarweise disjunkte Mengen U1 , . . . , Un ∈ U mit n

λd (Ui ) >

i=1

1−ε λ(W ). 3d

Man u¨ berlege sich ein Gegenbeispiel, das zeigt, dass man auf die Bedingung der ¨ Ahnlichkeit der offenen Mengen aus U nicht ohne Weiteres verzichten kann. ♣ ¨ Ubung 13.1.6. Sei μ ein Radon-Maß auf Rd und A ∈ B(Rd ) eine μ-Nullmenge. ¨ Man zeige mit Hilfe von Ubung 13.1.5, dass für jede beschränkte, konvexe und d offene Menge C ⊂ R mit 0 ∈ C gilt: lim r↓0

μ(x + rC) =0 rd

für λd – fast alle x ∈ A.

Man folgere: Ist F die Verteilungsfunktion eines Stieltjes-Maßes μ auf R und A ∈ d F (x) = 0 für λ – fast alle x ∈ A. ♣ B(R) eine μ-Nullmenge, so gilt dx ¨ Ubung 13.1.7 (Hauptsatz der Differential- und Integralrechnung). Sei f ∈ L1 (Rd ), μ = f λd und C ⊂ Rd offen, konvex und beschränkt mit 0 ∈ C. Man zeige: μ(x + rC) = f (x) für λd – fast alle x ∈ Rd . lim d d r↓0 r λ (C) Man folgere für den Fall d = 1 den Hauptsatz der Differential- und Integralrechnung: d f dλ = f (x) für λ – fast alle x ∈ R. dx [0,x] ¨ Hinweis: Verwende Ubung 13.1.6 mit μq (dx) = (f (x) − q)+ λd (dx) für q ∈ Q, sowie die Ungleichung μq (x + rC) μ(x + rC) ≤q+ d d . d d r λ (C) r λ (C)

♣

240


13.2 Schwache und vage Konvergenz Nachdem wir in Satz 13.11 gesehen haben, dass Integrale stetiger, beschränkter Funktionen, beziehungsweise für lokalkompaktes E sogar stetiger Funktionen mit kompaktem Träger, ein Radon-Maß vollständig bestimmen, liegt es nahe, Cb (E) und Cc (E) auch als Klassen von Testfunktionen für Konvergenzbegriffe für Maße heranzuziehen. Definition 13.12 (Schwache und vage Konvergenz). Sei E ein metrischer Raum. (i) Seien μ, μ1 , μ2 , . . . ∈ Mf (E). Wir sagen, dass (μn )n∈N schwach (weakly) n→∞ gegen μ konvergiere, in Formeln μn −→ μ schwach oder μ = w-lim μn , n→∞ falls n→∞

f dμn −→

f dμ

für jedes f ∈ Cb (E).

(ii) Es seien μ, μ1 , μ2 , . . . ∈ M(E). Wir sagen, dass (μn )n∈N vag (vaguely) gen→∞ gen μ konvergiert, in Formeln μn −→ μ vag oder μ = v-lim μn , falls n→∞

n→∞

f dμn −→

f dμ

für jedes f ∈ Cc (E).

Bemerkung 13.13. Ist E polnisch, so ist nach Satz 13.6 und 13.11 der schwache Limes eindeutig. Das Gleiche gilt für den vagen Limes, falls E lokalkompakt ist. 3 Bemerkung 13.14. (i) In der Funktionalanalysis wird die hier eingeführte schwache Konvergenz die Schwach∗ -Konvergenz genannt. (ii) Die schwache Konvergenz erzeugt auf Mf (E) die schwache Topologie τw (oder Schwach∗ -Topologie in der Funktionalanalysis). Dies ist die grö0bste Topologie, sodass für jedes f ∈ Cb (E) die Abbildung Mf (E) → R, μ → f dμ stetig ist. Ist E separabel, so kann man zeigen, dass (Mf (E), τw ) metrisierbar ist, zum Beispiel mit der so genannten Prohorov-Metrik dP (μ, ν) := max{d′P (μ, ν), d′P (ν, μ)},

(13.3)

wobei d′P (μ, ν) := inf{ε > 0 : μ(B) ≤ ν(B ε ) + ε für jedes B ∈ B(E)},

(13.4)

und wo B ε = {x : d(x, B) < ε} ist, siehe etwa [17, Appendix III, Theorem 5]. (Man kann zeigen, dass d′P (μ, ν) = d′P (ν, μ) ist, falls μ, ν ∈ M1 (E).) Ist E lokalkompakt und polnisch, so ist (Mf (E), τw ) sogar polnisch (siehe [128, Seite 167]). (iii) Analog ist die vage Topologie τv auf M(E) die grö0bste Topologie, sodass für jedes f ∈ Cc (E) die Abbildung M(E) → R, μ → f dμ stetig ist. Ist E

13.2 Schwache und vage Konvergenz

241

lokalkompakt, so ist (M(E), τv ) ein Hausdorffraum. Ist E zudem polnisch, so ist (M(E), τv ) ebenfalls polnisch (siehe etwa [83, Sektion 15.7]). 3 Während bei der schwachen Konvergenz stets auch Konvergenz der Gesamtmassen gilt (schließlich ist 1 ∈ Cb (E)), kann bei der vagen Konvergenz ein Massendefekt im Limes auftreten, jedoch kein Massenzuwachs, wie das folgende Lemma zeigt. Lemma 13.15. Sei E ein lokalkompakter, polnischer Raum, und seien μ, μ1 , μ2 , . . . n→∞ ∈ Mf (E) mit μn −→ μ vag. Dann gilt μ(E) ≤ lim sup μn (E). n→∞

Beweis. Sei (fN )N ∈N eine Folge in Cc (E; [0, 1]) mit fN ↑ 1. Dann gilt fN dμn μ(E) = sup fN dμ = sup lim N ∈N n→∞ N ∈N ≤ lim sup sup fN dμn = lim sup μn (E). n→∞ N ∈N

3

n→∞

Die Folge (δ1/n )n∈N von W-Maßen auf R konvergiert offenbar schwach gegen δ0 , nicht jedoch in der Totalvariationsnorm: Für die abgeschlossene Menge (−∞, 0] gilt nämlich limn→∞ δ1/n ((−∞, 0]) = 0 < 1 = δ0 ((−∞, 0]). Etwas lax gesagt, kann in abgeschlossene Mengen im schwachen Limes Masse an der Rändern einwandern (nicht jedoch auswandern). Die komplementäre Aussage gilt für offene Mengen, denn limn→∞ δ1/n ((0, ∞)) = 1 > 0 = δ0 ((0, ∞)), hier kann also Masse auswandern, nicht jedoch einwandern. Tatsächlich kann man die schwache Konvergenz u¨ ber diese Eigenschaft charakterisieren. Im folgenden Satz werden wir ein ganzes Bündel solcher Aussagen auf einen Kleiderbügel (französisch: porteman” teau) hängen“. Für messbares g : Ω → R sei Ug die Menge der Unstetigkeitsstellen von g. Beachte, ¨ dass Ug Borel-messbar ist (nach Ubung 1.1.3).

242


Satz 13.16 (Portemanteau Theorem). Sei E ein metrischer Raum, und seien μ, μ1 , μ2 , . . . ∈ M≤1 (E). Dann sind a¨ quivalent: (i) μ = w-lim μn . n→∞ 0 n→∞ 0 (ii) f dμn −→ f dμ für alle beschränkten, Lipschitz-stetigen f . 0 n→∞ 0 (iii) f dμn −→ f dμ für alle beschränkten, messbaren f mit μ(Uf ) = 0. (iv) Es gilt lim inf μn (E) ≥ μ(E) und lim sup μn (F ) ≤ μ(F ) für alle abgen→∞

n→∞

schlossenen F ⊂ E.

(v) Es gilt lim sup μn (E) ≤ μ(E) und lim inf μn (G) ≥ μ(G) für alle offenen G ⊂ E.

n→∞

n→∞

(vi) lim μn (A) = μ(A) für alle messbaren A mit μ(∂A) = 0. n→∞

Ist E auch lokalkompakt und polnisch, so sind zudem jeweils a¨ quivalent (vii) μ = v-lim μn und μ(E) = lim μn (E). n→∞

n→∞

(viii) μ = v-lim μn und μ(E) ≥ lim μn (E). n→∞

n→∞

Beweis. (iv) ⇐⇒ (v) =⇒ (vi)“ Dies ist trivial. ” (iii) =⇒ (i) =⇒ (ii)“ Dies ist trivial. ” (ii) =⇒ (iv)“ Die Konvergenz der Gesamtmassen folgt mit der Testfunktion ” 1 ∈ Lip(E; [0, 1]). Sei F abgeschlossen und ρF,ε wie in Lemma 13.10. Dann ist ρF,ε dμn = inf ρF,ε dμ = μ(F ), lim sup μn (F ) ≤ inf lim ε>0 n→∞

n→∞

ε→0

weil ρF,ε (x) −→

F (x)

ε>0

für jedes x ∈ E.

(vii) =⇒ (viii)“ Dies ist klar nach Lemma 13.15. ” (i) =⇒ (vii)“ Wegen Cc (E) ⊂ Cb (E) und 1 ∈ Cb (E) ist dies klar. ” (vii) =⇒ (v)“ Sei G offen und ε > 0. Da μ von innen regulär ist (Satz 13.6), ” gibt es ein Kompaktum K ⊂ G mit μ(G) − μ(K) < ε. Da E lokalkompakt ist, gibt es ein Kompaktum L mit K ⊂ L◦ ⊂ L ⊂ G. Sei δ := d(K, Lc ) > 0 und ρK,δ wie in Lemma 13.10. Dann ist K ≤ ρK,δ ≤ L , also ρK,δ ∈ Cc (E) und daher lim inf μn (G) ≥ lim inf ρK,δ dμn = ρK,δ dμ ≥ μ(K) ≥ μ(G) − ε. n→∞

n→∞

Indem wir ε → 0 gehen lassen, folgt die Aussage von (v).


243

(vi) =⇒ (iii)“ Sei f : E → R beschränkt und messbar mit μ(Uf ) = 0. Wir ” machen die elementare Beobachtung, dass für jedes D ⊂ R gilt ∂f −1 (D) ⊂ f −1 (∂D) ∪ Uf .

(13.5)

In der Tat: Falls f in x ∈ E stetig ist, so existiert zu jedem δ > 0 ein ε(δ) > 0 mit f (Bε(δ) (x)) ⊂ Bδ (f (x)). Ist x ∈ ∂f −1 (D), so existieren y ∈ f −1 (D) ∩ Bε(δ) (x) und z ∈ f −1 (Dc ) ∩ Bε(δ) (x). Also ist f (y) ∈ Bδ (f (x)) ∩ D = ∅ und f (z) ∈ Bδ (f (x)) ∩ Dc = ∅, also f (x) ∈ ∂D.

Sei ε > 0. Offenbar ist die Menge A := y ∈ R : μ f −1 ({y}) > 0 der Atome des endlichen Maßes μ ◦ f −1 höchstens abzählbar. Daher gibt es N ∈ N und y0 ≤ −f ∞ < y1 < . . . < yN −1 < f ∞ < yN so, dass yi ∈ R \ A und

für jedes i. N Sei Ei = f −1 ([yi−1 , yi )) für i = 1, . . . , N . Dann ist E = i=1 Ei und wegen Gleichung (13.5)

μ ∂Ei ≤ μ f −1 ({yi−1 }) + μ f −1 ({yi }) + μ Uf = 0. |yi+1 − yi | < ε

Daher gilt

lim sup n→∞

f dμn ≤ lim sup n→∞

N i=1

μn (Ei ) · yi =

N i=1

μ(Ei ) · yi ≤ ε +

f dμ.

0 0 Wir lassen ε → 0 gehen und erhalten lim sup f dμn ≤ f dμ. Indem wir (−f ) n→∞ betrachten, folgt die andere Ungleichung lim inf f dμn ≥ f dμ. 2 n→∞

Definition 13.17. Seien X, X1 , X2 , . . . Zufallsvariablen mit Werten in E. Wir saD gen (Xn )n∈N konvergiert in Verteilung gegen X, in Formeln Xn −→ X oder n→∞ Xn =⇒ X, wenn die Verteilungen schwach konvergieren, also wenn PX = D n→∞ w-lim PXn . Manchmal schreiben wir auch Xn −→ PX oder Xn =⇒ PX , wenn n→∞ wir nur die Verteilung PX nicht aber die Zufallsvariable X spezifizieren wollen. Satz 13.18 (Satz von Slutzky). Seien X, X1 , X2 , . . . und Y1 , Y2 , . . . ZufallsvariabD n→∞ len mit Werten in E und Xn −→ X, sowie d(Xn , Yn ) −→ 0 stochastisch. Dann D gilt Yn −→ X. Beweis. Sei f : E → R beschränkt und Lipschitz-stetig mit Konstante K. Dann ist f (x) − f (y) ≤ K d(x, y) ∧ 2 f ∞ für alle x, y ∈ E. * ) Majorisierte Konvergenz liefert lim sup E f (Xn ) − f (Yn ) = 0. Also gilt n→∞

244


lim supE[f (Yn )] − E[f (X)] n→∞ ≤ lim sup E[f (X)] − E[f (Xn )] + lim sup E[f (Xn ) − f (Yn )] = 0. 2 n→∞

n→∞

n→∞

D

Korollar 13.19. Gilt Xn −→ X stochastisch, so gilt auch Xn −→ X, n → ∞. Die Umkehrung ist im Allgemeinen falsch. Beispiel 13.20. Sind X, X1 , X2 , . . . u.i.v. (mit nicht-trivialer Verteilung), so gilt triD n→∞ vialerweise Xn −→ X, jedoch nicht Xn −→ X stochastisch. 3 Man erinnere sich an die Definition der Verteilungsfunktion eines Wahrscheinlichkeitsmaßes in Definition 1.59. Definition 13.21. Seien F, F1 , F2 , . . . Verteilungsfunktionen von W-Maßen auf R. n→∞ Wir sagen (Fn )n∈N konvergiere schwach gegen F , in Formeln Fn =⇒ F , D Fn −→ F oder F = w-lim Fn , wenn n→∞

F (x) = lim Fn (x) für alle Stetigkeitspunkte x von F. n→∞

(13.6)

Sind F, F1 , F2 , . . . Verteilungsfunktionen von Sub-Wahrscheinlichkeitsmaßen, so setzen wir F (∞) := limx→∞ F (x) und fordern für die schwache Konvergenz zusätzlich F (∞) ≥ lim supn→∞ Fn (∞). Man beachte, dass aus (13.6) stets F (∞) ≤ lim inf n→∞ Fn (∞) folgt. Gilt nun D Fn −→ F , so ist also F (∞) = limn→∞ Fn (∞). Beispiel 13.22. Ist F die Verteilungsfunktion eines Wahrscheinlichkeitsmaßes auf R und Fn (x) := F (x + n) für x ∈ R, so konvergiert (Fn )n∈N punktweise gegen 1. Dies ist jedoch keine Verteilungsfunktion, da diese für x → −∞ gegen Null konvergieren. Ist andererseits Gn (x) = F (x − n), so konvergiert (Gn )n∈N punktweise gegen G ≡ 0. Nun ist aber G(∞) = 0 < lim supn→∞ Gn (∞) = 1, also liegt auch in diesem Falle keine schwache Konvergenz vor. In der Tat: es tritt jeweils im Limes ein Massendefekt ein (bei den Fn nach links, bei den Gn nach rechts). Die Definition der schwachen Konvergenz von Verteilungsfunktionen ist aber so angelegt, dass kein Massendefekt im Limes eintreten darf. 3 Satz 13.23. Seien μ, μ1 , μ2 , . . . ∈ M≤1 (R) mit zugehörigen Verteilungsfunktionen F, F1 , F2 , . . . Dann sind a¨ quivalent (i) μ = w-lim μn , n→∞ D

(ii) Fn −→ F .


245

Beweis. (i) =⇒ (ii)“ Sei F in x stetig. Dann ist μ ∂(−∞, x] = μ({x}) = 0. ” n→∞ Nach Satz 13.16 gilt Fn (x) = μn ((−∞, x]) −→ μ((−∞, x]) = F (x). (ii) =⇒ (i)“ ”

Sei f ∈ Lip1 (R; [0, 1]). Nach Satz 13.16 reicht es zu zeigen, dass n→∞ f dμn −→ f dμ. (13.7)

Sei ε > 0. Wähle N ∈ N und N + 1 Stetigkeitspunkte y0 < y1 < . . . < yN von F so, dass F (y0 ) < ε, F (yN ) > F (∞) − ε, und yi − yi−1 < ε für jedes i. Dann ist

N

f dμn ≤ Fn (y0 ) + Fn (∞) − Fn (yN ) + (f (yi ) + ε)(Fn (yi ) − Fn (yi−1 )). i=1

n→∞

Nach Voraussetzung gilt limn→∞ Fn (∞) = F (∞) und Fn (yi ) −→ F (yi ) für jedes i = 0, . . . , N , also N

lim sup f dμn ≤ 3ε + f (yi ) F (yi ) − F (yi−1 ) ≤ 4ε + f dμ. n→∞

i=1

Daher gilt

lim sup n→∞

f dμn ≤

f dμ.

Indem wir f durch (1 − f ) ersetzen, folgt (13.7).

2

Korollar 13.24. Seien X, X1 , X2 , . . . reelle Zufallsvariablen mit Verteilungsfunktionen F, F1 , F2 , . . . Dann sind a¨ quivalent: D

(i) Xn −→ X,

n→∞

(ii) E[f (Xn )] −→ E[f (X)] für jedes f ∈ Cb (R), D

(iii) Fn −→ F . Wie verhält sich die schwache Konvergenz, wenn wir zu Bildmaßen u¨ bergehen? Wir brauchen gewisse Stetigkeitseigenschaften, damit die schwache Konvergenz erhalten bleibt. Der folgende einfache Satz ist in den Anwendungen extrem nützlich. Satz 13.25 (Continuous Mapping Theorem). Seien (E1 , d1 ) und (E2 , d2 ) metrische Räume und ϕ : E1 → E2 messbar sowie Uϕ die Menge der Unstetigkeitsstellen von ϕ. n→∞

(i) Sind μ, μ1 , μ2 , . . . ∈ M≤1 (E1 ) mit μ(Uϕ ) = 0 und μn −→ μ schwach, so n→∞ gilt μn ◦ ϕ−1 −→ μ ◦ ϕ−1 schwach.

(ii) Sind X, X1 , X2 , . . . E1 -wertige Zufallsvariablen mit P[X ∈ Uϕ ] = 0 und D

D

Xn −→ X, so gilt ϕ(Xn ) −→ ϕ(X).

246


¨ Beweis. Nach Ubung 1.1.3 ist Uϕ ⊂ E1 Borel-messbar. Also sind die angegebenen Bedingungen sinnvoll. (i) Sei f ∈ Cb (E2 ). Dann ist f ◦ϕ beschränkt und messbar, und es ist Uf ◦ϕ ⊂ Uϕ , also μ(Uf ◦ϕ ) = 0. Nach Satz 13.16 ist

−1 lim f d μn ◦ ϕ = lim (f ◦ ϕ) dμn n→∞

n→∞

=

(f ◦ ϕ) dμ =

(ii) Dies ist klar, wegen Pϕ(X) = PX ◦ ϕ−1 .

f d μ ◦ ϕ−1 .

2

¨ Ubung 13.2.1. Man zeige: Für d′P aus (13.4) und μ, ν ∈ M1 (E) gilt: dP (μ, ν) = ′ ♣ dP (μ, ν) = d′P (ν, μ). ¨ Ubung 13.2.2. Man zeige: Die Topologie der schwachen Konvergenz auf Mf (E) ist gröber als die von der Totalvariation (siehe Korollar 7.45) erzeugte Topologie auf n→∞ n→∞ Mf (E). Das heißt, es gilt μn − μT V −→ 0, so gilt μn −→ μ schwach. ♣ ¨ Ubung 13.2.3. Sei E = R und μn =

1 n

n

k=0 δk/n

sowie μ = λ

[0,1]

das auf [0, 1]

eingeschränkte Lebesgue-Maß. Man zeige, dass μ = w-lim μn .

♣

n→∞

¨ Ubung 13.2.4. Sei E = R und λ das Lebesgue-Maß auf R. Für n ∈ N sei μn = λ . Man zeige: λ = v-lim μn , jedoch ist (μ)n∈N nicht schwach konvergent. ♣ n→∞

[−n,n]

¨ Ubung 13.2.5. Sei E = R und μn = δn für n ∈ N. Man zeige: v-lim μn = 0, n→∞

jedoch ist (μn )n∈N nicht schwach konvergent.

♣

¨ Ubung 13.2.6 (Lévy-Abstand). Für zwei Verteilungsfunktionen F und G von Wahrscheinlichkeitsmaßen auf R wird der Lévy-Abstand definiert als

d(F, G) = inf ε ≥ 0 : G(x − ε) − ε ≤ F (x) ≤ G(x + ε) + ε für alle x ∈ R . Zeige:

(i) d ist eine Metrik auf der Menge der Verteilungsfunktionen. n→∞

n→∞

(ii) Es gilt Fn =⇒ F genau dann, wenn d(Fn , F ) −→ 0.

(iii) Zu jedem P ∈ M1 (R) gibt es eine Folge (Pn )n∈N in M1 (R), sodass jedes Pn n→∞ endlichen Träger hat, und sodass Pn =⇒ P . ♣


247

¨ Ubung 13.2.7. Wir können die Begriffe schwache Konvergenz und vage Konvergenz auf Ladungsverteilungen ausdehnen, also auf Differenzen ϕ := μ+ −μ− von Maßen aus Mf (E) beziehungsweise M(E), indem wir den Wortlaut von Definition 13.12 auf diese Klassen anwenden. Man zeige, dass man hier die schwache Konvergenz im Allgemeinen nicht metrisieren kann. Anleitung: Man betrachte E = [0, 1]. (i) Für n ∈ N definiere ϕn = δ1/n − δ2/n . Zeige: Für jedes C > 0 konvergiert (Cϕn )n∈N schwach gegen das Nullmaß. (ii) Man nehme an, dass es eine Metrik gäbe, die die schwache Konvergenz erzeugt. Man zeige: Dann gäbe es eine Folge (Cn )n∈N mit Cn ↑ ∞ und 0 = w-lim(Cn ϕn ). n→∞

−1/2

(iii) Wähleein f ∈ C([0,1]) mit f (2−n ) = (−1)n Cn für jedes n ∈ N und 0 f d(Cn ϕn ) zeige: konvergiert nicht gegen Null. n∈N

(iv) Man führe diese Konstruktion zum Widerspruch mit der Metrisierbarkeitsannahme. ♣

¨ Ubung 13.2.8. Man zeige, dass durch (13.3) eine Metrik auf M1 (E) definiert wird, und dass diese die Topologie der schwachen Konvergenz erzeugt. ♣ ¨ Ubung 13.2.9. Man zeige die Implikation (vi) =⇒ (iv)“ aus Satz 13.16 direkt. ♣ ” ¨ Ubung 13.2.10. Seien X, X1 , X2 , . . . und Y1 , Y2 , . . . reelle Zufallsvariablen. Es D gelte PYn = N0,1/n für jedes n ∈ N. Man zeige: Es gilt genau dann Xn −→ X, D

wenn Xn + Yn −→ X.

♣

¨ Ubung 13.2.11. Betrachte die Maße μn := n1 (δ1/n + . . . + δ(n−1)/n + δ1 ) auf [0, 1]. Zeige, dass μn schwach gegen das Lebesgue-Maß auf [0, 1] konvergiert. ♣ ¨ Ubung 13.2.12. Für jedes n ∈ N sei Xn eine geometrisch verteilte Zufallsvariable mit Parameter pn ∈ (0, 1). Wie muss die Folge (pn )n∈N gewählt sein, damit PXn /n schwach gegen die Exponentialverteilung mit Parameter α > 0 konvergiert? ♣ ¨ Ubung 13.2.13. Seien X, X1 , X2 , . . . reelle Zufallsvariablen mit Xn Zeige: (i) E[|X|] ≤ lim inf n→∞ E[|Xn |].

n→∞

=⇒

X.

(ii) Ist p > 0 und supn∈N E[|Xn |r ] < ∞ für eine r > p, so gilt E[|X|p ] = limn→∞ E[|Xn |p ]. ♣

248


13.3 Der Satz von Prohorov Sei E stets ein polnischer Raum mit Borel’scher σ-Algebra E. Eine grundlegende Frage ist, wann eine Folge (μn )n∈N von Maßen auf (E, E) einen schwachen Grenzwert besitzt, oder wenigstens einen schwachen Häufungspunkt. Eine offensichtlich notwendige Bedingung ist, dass (μn (E))n∈N beschränkt ist, deshalb werden wir ohne Beschränkung der Allgemeinheit nur Folgen in M≤1 (E) betrachten. Dies ist allerdings nicht hinreichend, denn beispielsweise konvergiert die Folge (δn )n∈N von W-Maßen auf R nicht schwach. Wir müssen also zusätzlich noch sicher stellen, dass keine Masse ins Unendliche auswandert“. Dies liefert gerade die Bedingung der ” Straffheit. Wir beginnen diesen Abschnitt, indem wir zunächst als Hauptsatz den Satz von Prohorov [128] vorstellen. Wir geben den Beweis erst in dem Spezialfall E = R an und kommen dann zu Anwendungen, bevor wir den Satz am Ende des Abschnitts in voller Allgemeinheit beweisen. Definition 13.26 (Straffheit). Eine Familie F ⊂ Mf (E) heißt straff, falls zu jedem ε > 0 eine kompakte Menge K ⊂ E existiert mit

sup μ(E \ K) : μ ∈ F < ε. Bemerkung 13.27. Ist E polnisch, so ist nach Lemma 13.5 jede einelementige Familie {μ} ⊂ Mf (E) straff und damit auch jede endliche Familie. 3 Beispiele 13.28.

(i) Ist E kompakt, so sind M1 (E) und M≤1 (E) straff.

(ii) Ist (Xi )i∈I eine beliebige Familie von reellen Zufallsvariablen mit C := sup{|E[Xi ]| : i ∈ I} < ∞,

so ist {PXi : i ∈ I} straff. In der Tat: Für ε > 0 und K = [−C/ε, C/ε] ist nach der Markov’schen Ungleichung PXi (R \ K) = P[|Xi | > C/ε] ≤ ε.

(iii) Die Familie (δn )n∈N von W-Maßen auf R ist nicht straff.

(iv) Die Familie (U[−n,n] )n∈N von uniformen Verteilungen auf den Intervallen [−n, n] ist nicht straff. 3

13.3 Der Satz von Prohorov

249

Satz 13.29 (Satz von Prohorov (1956)). Sei (E, d) ein metrischer Raum und F ⊂ M≤1 (E). (i) Es gilt F ist straff

=⇒

F ist schwach relativ folgenkompakt.

(ii) Ist E zudem polnisch, so gilt auch die Umkehrung F ist straff

⇐=

F ist schwach relativ folgenkompakt.

Korollar 13.30. Sei E ein kompakter, metrischer Raum. Dann sind die Mengen M≤1 (E) und M1 (E) schwach folgenkompakt. Korollar 13.31. Ist E ein lokalkompakter, separabler, metrischer Raum, so ist M≤1 (E) vag folgenkompakt. Beweis. Seien x1 , x2 , . . . dicht in E. Da E lokalkompakt ist, existiert zu jedem n ∈ N eine offene Umgebung Un ∋ xn , deren Abschluss U n kompakt ist. Dann ist n aber auch En := k=1 U n kompakt für jedes n ∈ N. Fü r jede kompakte Menge n ¨ K ⊂ E gibt es nun eine endliche Uberdeckung K ⊂ k=1 Uk ⊂ En , wobei n = n(K) von K abhängt. Nach Korollar 13.30 gibt es zu jedem n ∈ N ein μ ñ ∈ M≤1 (Kn ) und eine Teilfolge (kln )l∈N mit μ ñ = w-lim μkln . Mit Hilfe des Diagonalfolgenarguments können l→∞ Kn wir annehmen, dass (kln+1 )l∈N eine Teilfolge von (kln )l∈N ist und damit μ ñ+1 = Kn μ ñ für jedes n ∈ N. Es existiert also ein μ ∈ M≤1 (E) mit μ =μ ñ für jedes Kn

n ∈ N. Für jedes f ∈ Cc (E) ist der Träger in einem Km enthalten, also gilt (wegen n→∞ μknn −→ μ schwach) Km

Km

n→∞

n→∞

f dμknn −→

f dμ,

und damit μknn −→ μ vag.

2

Bemerkung 13.32. Die Implikation in Satz 13.29(ii) ist die weitaus einfachere, wenn auch weniger nützliche. Hier wird benötigt, dass E polnisch ist, denn eine einelementige Familie ist offenbar immer schwach kompakt, jedoch nur unter Zusatzannahmen straff – beispielsweise eben, wenn E polnisch ist (Lemma 13.5). 3 Beweis (von Satz 13.29(ii)). Wir gehen zunächst a¨ hnlich vor wie im Beweis von N Lemma 13.5. Sei {x1 , x2 , . . .} ⊂ E dicht. Für n ∈ N setze An,N := B1/n (xi ). Dann gilt An,N ↑ E für N → ∞ für jedes n ∈ N. Sei

i=1

250


δ := sup inf sup μ(Acn,N ). n∈N N ∈N μ∈F

Dann gibt es ein n ∈ N, sodass für jedes N ∈ N ein μN ∈ F existiert mit μN (Acn,N ) ≥ δ/2. Da F schwach relativ folgenkompakt ist, besitzt (μN )N ∈N eine schwach konvergente Teilfolge (μNk )k∈N mit einem schwachen Limes μ ∈ M≤1 (E). Nach dem Portemanteau Theorem (Satz 13.16(iv)) gilt für jedes N ∈ N μ(Acn,N ) ≥ lim inf μNk (Acn,N ) ≥ lim inf μNk (Acn,Nk ) ≥ δ/2. k→∞

k→∞

N →∞

Andererseits gilt Acn,N ↓ ∅ für N → ∞, also μ(Acn,N ) −→ 0. Mithin ist δ = 0.

Sei nun ε > 0 beliebig. Nach dem eben Gezeigten können wir zu jedem n ∈ N ein Nn′ ∈ N wählen, sodass μ(Acn,Nn′ ) < ε/2n für jedes μ ∈ F. Die Menge A := ∞ ′ ist nach Konstruktion total beschr¨ ankt, also relativ kompakt. Ferner ist n=1 An,Nn für jedes μ ∈ F ∞

c c μ ( A ) ≤ μ(A ) ≤ μ(Acn,Nn′ ) ≤ ε. n=1

Also ist F straff.

2

Die andere Implikation im Satz von Prohorov ist schwieriger zu zeigen, vor allem im Fall allgemeiner (metrischer) Räume. Wir geben daher zunächst nur für E = R einen Beweis an und kommen dann zu Anwendungen, bevor wir die schwierigere Implikation im allgemeinen Fall beweisen. Das Problem besteht darin, sich einen Kandidaten für einen schwachen Limespunkt zu verschaffen. Für Verteilungen auf R ist das Problem a¨ quivalent dazu, sich einen schwachen Limespunkt einer Folge von Verteilungsfunktionen zu verschaffen. Hier hilft uns der Helly’sche Auswahlsatz, der auf einem Diagonalfolgenargument beruht, das wir in a¨ hnlicher Form im Beweis des Satzes von Prohorov in allgemeiner Form wieder gebrauchen werden. Sei

V = F : R → R ist rechtsstetig, monoton wachsend und beschränkt

die Menge der Verteilungsfunktionen von endlichen Maßen auf R.

Satz 13.33 (Auswahlsatz von Helly). Sei (Fn )n∈N eine gleichmäßig beschränkte Folge in V . Dann existiert ein F ∈ V und eine Teilfolge (Fnk )k∈N mit k→∞

Fnk (x) −→ F (x) in allen Stetigkeitsstellen von F. Beweis. Wir benutzen ein Diagonalfolgenargument. Wir wählen eine Abzählung Q = {q1 , q2 , q3 , . . . } der rationalen Zahlen. Nach dem Satz von Bolzano-Weierstraß


251

besitzt (Fn (q1 ))n∈N eine konvergente Teilfolge Fn1k (q1 ) k∈N . Ebenso finden wir

eine Teilfolge (n2k )k∈N von (n1k )k∈N , sodass Fn2k (q2 ) k∈N konvergiert. Iterativ er halten wir Teilfolgen (n1k ) ⊃ (n2k ) ⊃ (n3k ) ⊃ . . ., sodass Fnlk (ql ) k∈N für jedes

l ∈ N konvergiert. Setze jetzt nk := nkk . Dann konvergiert Fnk (q) k∈N für jedes q ∈ Q. Setze F(q) = lim Fn (q) und k→∞

k

F (x) = inf F(q) : q ∈ Q mit q > x .

Da F monoton wachsend ist, ist F rechtsstetig und monoton wachsend.

Ist F stetig in x, so existieren zu ε > 0 Zahlen q − , q + ∈ Q, q − < x < q + mit F(q − ) ≥ F (x) − ε und F(q + ) ≤ F (x) + ε. Nach Konstruktion ist dann lim sup Fnk (x) ≤ lim Fnk (q + ) = F(q + ) ≤ F (x) + ε. k→∞

k→∞

Also ist lim sup Fnk (x) ≤ F (x) und analog mit q − auch lim inf Fnk (x) ≥ F (x).2 k→∞

k→∞

¨ den Fall E = R). Beweis (von Satz 13.29(i) fur Sei F straff und (μn )n∈N eine Folge in F mit Verteilungsfunktionen Fn : x → μ((−∞, x]). Nach dem Satz von Helly gibt es eine monotone, rechtsstetige Funkk→∞

tion F : R → [0, 1] und eine Teilfolge (Fnk )k∈N von (Fn )n∈N mit Fnk (x) −→ F (x) in allen Stetigkeitspunkten x von F . Nach Satz 13.23 reicht es zu zeigen, dass F (∞) ≥ lim supk→∞ Fnk (∞). Da F straff ist, existiert zu ε > 0 ein K < ∞ mit Fn (∞) − Fn (x) < ε für jedes n ∈ N und x > K. Ist x > K eine Stetigkeitsstelle von F , dann gilt lim supk→∞ Fnk (∞) ≤ lim supk→∞ Fnk (x) + ε = F (x) + ε ≤ F (∞) + ε. 2

Wir kommen zu einer ersten Anwendung des Satzes von Prohorov. Die ganze Stärke des folgenden Satzes wird erst deutlich, wenn wir geeignete trennende Funktionenklassen zur Verfügung haben. Diese werden wir in Kapitel 15 genauer untersuchen. Satz 13.34. Sei E polnisch, und seien μ, μ1 , μ2 , . . . ∈ M≤1 (E). Dann sind a¨ quivalent: (i) μ = w-lim μn . n→∞

(ii) (μn )n∈N ist straff, und es gibt eine trennende Familie C ⊂ Cb (E) mit f dμ = lim f dμn für jedes f ∈ C. (13.8) n→∞

Beweis. (i) =⇒ (ii)“ Nach der einfachen Implikation im Satz von Prohorov ” (Satz 13.29(ii)) folgt aus der schwachen Konvergenz die Straffheit.

252


(ii) =⇒ (i)“ Sei (μn )n∈N straff und C ⊂ Cb (E) trennend mit (13.8). Wir nehmen ” an, (μn )n∈N konvergiere nicht schwach gegen μ. Dann existieren ε > 0, f ∈ Cb (E) und (nk )k∈N mit nk ↑ ∞ und f dμn − f dμ > ε für alle k ∈ N. (13.9) k

Nach dem Satz von Prohorov (Satz 13.29) existiert ein ν ∈ M≤1 (E) und eine Teilfolge (n′k )k∈N von (nk )k∈N mit μn′k → ν schwach. Wegen (13.9) ist 0 0 f dμ − f dν ≥ ε, also μ = ν. Andererseits ist h dμn′k = h dν für jedes h ∈ C, h dμ = lim k→∞

also μ = ν. Damit ist die Annahme zum Widerspruch geführt, und es gilt (i).

2

Wir wollen den Zusammenhang zwischen schwacher und vager Konvergenz näher beleuchten. Satz 13.35. Sei E ein lokalkompakter, polnischer Raum, und seien μ, μ1 , μ2 , . . . ∈ Mf (E). Dann sind a¨ quivalent: (i) μ = w-lim μn , n→∞

(ii) μ = v-lim μn und μ(E) = lim μn (E), n→∞

n→∞

(iii) μ = v-lim μn und μ(E) ≥ lim sup μn (E), n→∞

n→∞

(iv) μ = v-lim μn und {μn , n ∈ N} ist straff. n→∞

Beweis. (i) ⇐⇒ (ii) ⇐⇒ (iii)“ Dies folgt aus dem Portemanteau Theorem. ” (ii) =⇒ (iv)“ Es reicht zu zeigen, dass für jedes ε > 0 ein Kompaktum K ⊂ E ” existiert mit lim supn→∞ μn (E \ K) ≤ ε. Da μ regulär ist (Satz 13.6) existiert eine kompakte Menge L ⊂ E mit μ(E \ L) < ε. Da E lokalkompakt ist, existiert ein Kompaktum K ⊂ E mit K ◦ ⊃ L sowie ein ρL,K ∈ Cc (E) mit L ≤ ρL,K (x) ≤ K . Es folgt lim sup μn (E \ K) ≤ lim sup μn (E) − ρL,K dμn n→∞ n→∞ = μ(E) − ρL,K dμ ≤ μ(E \ L) < ε. (iv) =⇒ (i)“ Sei L ⊂ E kompakt mit μn (E \ L) ≤ 1 für jedes n ∈ N. Sei ” ρ ∈ Cc (E) mit ρ ≥ L . Dann ist


sup μn (E) ≤ 1 + sup μn (L) ≤ 1 + sup

n∈N

weil nach Voraussetzung

0

n∈N

n∈N

253

ρ dμn < ∞,

ρ dμn konvergiert. Es ist also auch

C := max(μ(E), sup{μn (E) : n ∈ N}) < ∞, und wir können zu μ/C und μn /C u¨ bergehen und ohne Einschränkung annehmen, dass alle Maße in M≤1 (E) liegen. Da Cc (E) trennend ist für M≤1 (E) (siehe Satz 13.11), folgt (i) aus Satz 13.34. 2 Beweis des Satzes von Prohorov, Teil (i), allgemeiner Fall. Es gibt prinzipiell zwei Möglichkeiten, den Satz im allgemeinen Fall zu beweisen. Die eine Möglichkeit besteht darin, den Satz zunächst für Maße auf Rd zu zeigen (das ha¨ ben wir für d = 1 bereits getan, siehe auch Ubung 13.3.4 für d ≥ 2). In einem zweiten Schritt wird die Aussage auf Folgenräume RN angehoben. Schließlich wird im dritten Schritt eine Einbettung von E in RN konstruiert. Diesen Weg findet man beispielsweise in [14] oder [84]. Wir folgen hier der anderen Route, wie sie etwa in [15] (beziehungsweise [17]) oder [43] dargestellt wird. Der Hauptpunkt des Beweises besteht darin, einen Kandidaten für einen schwachen Häufungspunkt der Familie F zu finden. Wir werden diesen zunächst als Inhalt auf einem abzählbaren Mengensystem konstruieren und dann ein a¨ ußeres Maß daraus ableiten. Schließlich zeigen wir, dass die abgeschlossenen Mengen messbar bezüglich dieses a¨ ußeren Maßes sind. Die Argumentation verläuft also in Teilen recht a¨ hnlich wie beim Beweis des Satzes von Carathéodory. Sei (E, d) ein metrischer Raum und F ⊂ M≤1 (E) straff. Dann existiert eine aufsteigende Folge K1 ⊂ K2 ⊂ K3 ⊂ . . . von kompakten Mengen in E, sodass ∞ μ(Knc ) < n1 gilt für jedes μ ∈ F und jedes n ∈ N. Setze E ′ := n=1 Kn . Dann ist E ′ ein σ-kompakter, metrischer Raum, also insbesondere separabel. Da nach Konstruktion μ(E \ E ′ ) = 0 für jedes μ ∈ F gilt, können wir jedes μ als Maß auf E ′ auffassen. Ohne Beschränkung der Allgemeinheit können wir also annehmen, dass E σ-kompakt und damit separabel ist. Es existiert also eine abzählbare Basis U der Topologie τ auf E, das heißt eine abzählbare Menge E E von offenen Mengen, sodass A = U ∈U, U ⊂A U für jedes offene A ⊂ E ist. Setze

C ′ := U ∩ Kn : U ∈ U, n ∈ N und C :=

1 N

n=1

2 Cn : N ∈ N und C1 , . . . , CN ∈ C ′ .

Offenbar ist C eine abzählbare Menge kompakter Mengen in E, und C ist vereini¨ gungsstabil. Jedes Kn hat eine endliche Uberdeckung mit Mengen aus U, also ist Kn ∈ C.

Sei nun (μn )n∈N eine Folge in F. Mit Hilfe des Diagonalfolgenarguments (siehe Beweis des Auswahlsatzes von Helly, Satz 13.33) können wir eine Teilfolge (μnk )k∈N finden, für die der Grenzwert

254


(13.10)

α(C) := lim μnk (C) k→∞

für jedes C ∈ C existiert. Angenommen es gibt ein Maß μ auf der Borel’schen σ-Algebra E von E, sodass

μ(A) = sup α(C) : C ∈ C mit C ⊂ A für A ⊂ E offen. (13.11) Dann ist

μ(E) ≥ sup α(Kn ) = sup lim μnk (Kn ) n∈N k→∞

n∈N

1 ≥ sup lim sup μnk (E) − n n∈N k→∞

= lim sup μnk (E). k→∞

Für offenes A und für C ∈ C mit C ⊂ A ist ferner α(C) = lim μnk (C) ≤ lim inf μnk (A), k→∞

k→∞

also μ(A) ≤ lim inf k→∞ μnk (A). Nach dem Portemanteau Theorem (Satz 13.16) ist μ = w-lim μnk , und damit ist F als schwach relativ folgenkompakt erkannt. Es k→∞

bleibt zu zeigen, dass es ein Maß μ auf (E, E) gibt, das (13.11) erfüllt.

Die Mengenfunktion α auf C ist offenbar monoton, additiv und subadditiv: α(C1 ) ≤ α(C2 ), α(C1 ∪ C2 ) = α(C1 ) + α(C2 ), α(C1 ∪ C2 ) ≤ α(C1 ) + α(C2 ).

falls C1 ⊂ C2 , falls C1 ∩ C2 = ∅,

(13.12)

Wir definieren

und

β(A) := sup α(C) : C ∈ C mit C ⊂ A

μ∗ (G) := inf β(A) : A ⊃ G ist offen

für A ⊂ E offen für G ∈ 2E .

Offenbar ist β(A) = μ∗ (A) für jedes offene A. Es reicht zu zeigen (Schritte 1-3 unten), dass μ∗ ein a¨ ußeres Maß ist (siehe Definition 1.46), und (4. Schritt) dass die σ-Algebra der μ∗ -messbaren Mengen (siehe Definition 1.48 und Lemma 1.52) die abgeschlossenen Mengen und damit ganz E enthält. Nach Lemma 1.52 ist dann nämlich μ∗ ein Maß auf der σ-Algebra der μ∗ -messbaren Mengen, und die Ein schränkung μ := μ∗ erfüllt μ(A) = μ∗ (A) = β(A) für alle offenen A, also gilt E Gleichung (13.11).

Offenbar ist μ∗ (∅) = 0, und μ∗ ist monoton. Um zu zeigen, dass μ∗ ein a¨ ußeres Maß ist, müssen wir nur noch die σ-Subadditivität nachweisen.


255

1. Schritt (endliche Subadditivität von β) Seien A1 , A2 ⊂ E offen und C ∈ C mit C ⊂ A1 ∪ A2 . Sei n ∈ N mit C ⊂ Kn . Wir definieren zwei Mengen

B1 := x ∈ C : d(x, Ac1 ) ≥ d(x, Ac2 ) ,

B2 := x ∈ C : d(x, Ac1 ) ≤ d(x, Ac2 ) .

A1 B1

B2

A2

C

Offenbar ist B1 ⊂ A1 und B2 ⊂ A2 . Da x → d(x, Aci ) stetig ist für i = 1, 2, sind B1 und B2 als abgeschlossene Teilmengen von C kompakt. Also ist d(B1 , Ac1 ) > 0. Es existiert also eine offene Menge D1 mit B1 ⊂ D1 ⊂ D1 ⊂ A1 . (Man wähle etwa ¨ von B1 mit Kugeln vom Radius D1 als Vereinigung einer endlichen Uberdeckung c Abschl¨ ussen in A1 .) Sei UD1 := d(B1 , A1 )/2. Diese Kugeln liegen nebst ihren {U ∈ U : U ⊂ D1 }. Dann ist B1 ⊂ D1 = U ∈UD U . Wähle nun eine endliche 1 N Teilüberdeckung {U1 , . . . , UN } ⊂ UD1 von B1 und setze C1 := i=1 U i ∩ Kn . Dann ist B1 ⊂ C1 ⊂ A1 und C1 ∈ C. Wähle analog ein C2 ∈ C mit B2 ⊂ C2 ⊂ A2 . Es folgt α(C) ≤ α(C1 ∪ C2 ) ≤ α(C1 ) + α(C2 ) ≤ β(A1 ) + β(A2 ). Also gilt auch

β(A1 ∪ A2 ) = sup α(C) : C ∈ C mit C ⊂ A1 ∪ A2 ≤ β(A1 ) + β(A2 ). 2. Schritt (σ-Subadditivität von β) Seien A1 , A2 , . . . offene Mengen nund C ∈ C ∞ mit C ⊂ i=1 Ai . Da C kompakt ist, existiert ein n ∈ N mit C ⊂ i=1 Ai . Die schon gezeigte endliche Subadditivität von β impliziert n n ∞ α(C) ≤ α Ai = β Ai ≤ β(Ai ). i=1

i=1

i=1

Indem wir das Supremum u¨ ber solche C bilden, folgt 1 2 ∞ ∞ ∞ β Ai = sup α(C) : C ∈ C mit C ⊂ Ai ≤ β(Ai ). i=1

i=1

i=1

3. Schritt (σ-Subadditivität von μ∗ ) Seien G1 , G2 , . . . ∈ 2E . Sei ε > 0. Wähle für jedes n ∈ N eine offene Menge An ⊃ Gn mit β(An ) < μ∗ (Gn ) + ε/2n . Dann gilt aufgrund der σ-Subadditivität von β ∞ ∞ ∞ ∞ Gn ≤ β An ≤ β(An ) ≤ ε + μ∗ (Gn ). μ∗ n=1

n=1

n=1

n=1

256


Da ε > 0 beliebig war, folgt μ∗ a¨ ußeres Maß.

∞

n=1

∞ Gn ≤ n=1 μ∗ (Gn ). Mithin ist μ∗ ein

4. Schritt (Abgeschlossene Mengen sind in μ∗ -messbar) eine Menge B ⊂ E genau dann μ∗ -messbar, wenn μ∗ (B ∩ G) + μ∗ (B c ∩ G) ≤ μ∗ (G)

Nach Lemma 1.49 ist

für alle G ∈ 2E .

Indem wir das Infimum u¨ ber alle offenen Mengen A ⊃ G bilden, reicht es zu zeigen, dass für jedes abgeschlossene B und jedes offene A ⊂ E gilt, dass μ∗ (B ∩ A) + μ∗ (B c ∩ A) ≤ β(A).

(13.13)

Sei ε > 0. Wähle C1 ∈ C mit C1 ⊂ A ∩ B c und α(C1 ) > β(A ∩ B c ) − ε. Wähle ferner C2 ∈ C mit C2 ⊂ A ∩ C1c und α(C2 ) > β(A ∩ C1c ) − ε. Wegen C1 ∩ C2 = ∅ und C1 ∪ C2 ⊂ A folgt β(A) ≥ α(C1 ∪ C2 ) = α(C1 ) + α(C2 ) ≥ β(A ∩ B c ) + β(A ∩ C1c ) − 2ε ≥ μ∗ (A ∩ B c ) + μ∗ (A ∩ B) − 2ε.

Indem wir ε → 0 gehen lassen, folgt (13.13). Damit ist der Beweis des Satzes von Prohorov vollständig. 2 ¨ Ubung 13.3.1. Man zeige: Eine Familie F ⊂ Mf (R) ist genau dann straff, wenn es eine messbare Abbildung f : R → [0, ∞) gibt mit f (x) → ∞ für |x| → ∞ und 0 supμ∈F f dμ < ∞. ♣

¨ Ubung 13.3.2. Sei L ⊂ R×(0, ∞) sowie F = {Nμ,σ2 : (μ, σ 2 ) ∈ L} eine Familie von Normalverteilungen mit Parametern in L. Man zeige: F ist genau dann straff, wenn L beschränkt ist. ♣ 0 ¨ Ubung 13.3.3. Ist P ein W-Maß auf [0, ∞) mit mP := x P (dx) ∈ (0, ∞), so definieren wir die größenverzerrte Verteilung P< auf [0, ∞) durch x P (dx). (13.14) P 0 eine kompakte Menge K ⊂ E existiert mit der Eigenschaft

μ μ ∈ M1 (E) : μ(K c ) > ε < ε für jedes μ ∈ K. ♣

Da E polnisch ist, ist PX1 straff. Zu ε > 0 existiert also ein Kompaktum K ⊂ E mit P[X1 ∈ K c ] < ε2 . Es folgt, dass P[ξn (X)(K c ) > ε] ≤ ε−1 E[ξn (X)(K c )] = ε−1 P[X1 ∈ K c ] ≤ ε. Also ist die Familie (Pξn (X) )n∈N straff. Sei Ξ∞ eine Zufallsvariable (mit Werten in M1 (E)), sodass PΞ∞ = w-lim Pξnl (X) für eine geeignete 0 0l→∞ 0 Teilfolge (nl )l∈N . Die Abbildung ξ → F dξ = f1 dξ · · · fk dξ ist beschränkt und (als Produkt stetiger Abbildungen) stetig bezüglich der Topologie der schwachen Konvergenz auf M1 (E), also aus Cb (M1 (E)). Daher gilt ( ( ' ' ⊗k E = lim E F dΞ∞ f1 dξnl (X) · · · fk dξnl (X) l→∞ ) * = E f1 (X1 ) · · · fk (Xk ) .

Nun hängt der Grenzwert aber nicht mehr von der gewählten Teilfolge ab und ist damit eindeutig. Es folgt, noch einmal komplett ausgeschrieben, dass ( ' ) * E f1 (X1 ) · · · fk (Xk ) = E f1 dΞ∞ · · · fk dΞ∞ .

Durch diese Integrale ist aber die Verteilung von (X1 , . . . , Xk ) vollständig bestimmt, und es folgt, dass P(X1 ,...,Xk ) = PΞ∞ ⊗k , oder als Zufallsvariablen ausD

gedrückt: (X1 , . . . , Xk ) = (Y1 , . . . , Yk ), wo, gegeben Ξ∞ , die Zufallsvariablen Y1 , . . . , Yk unabhängig mit Verteilung Ξ∞ . ¨ Ubung 13.4.2. Man zeige: Eine Familie (Xn )n∈N von Zufallsvariablen ist genau dann austauschbar, wenn für jede Wahl von natürlichen Zahlen mit 1 ≤ n1 < n2 < n3 . . . gilt D (X1 , X2 , . . .) = (Xn1 , Xn2 , . . .). Obacht: Die eine Richtung ist schwierig zu zeigen.

♣

14 W-Maße auf Produkträumen

Als Motivation betrachten wir das folgende Beispiel. Sei X eine uniform auf [0, 1] verteilte Zufallsvariable. Sobald wir den Wert von X kennen, wollen wir n mal eine Münze werfen, die Erfolgswahrscheinlichkeit X hat. Die Ergebnisse seien Y1 , . . . , Yn . Wie konstruieren wir einen geeigneten Wahrscheinlichkeitsraum, auf dem alle Zufallsvariablen definiert sind? Eine Möglichkeit: Wir wissen schon, wie wir n + 1 unabhängige Zufallsvariablen Z0 , . . . , Zn konstruieren, die uniform auf [0, 1] verteilt sind (siehe etwa Korollar 2.23). Setze nun X = Z0 und 1 1, falls Zk < X, Yk = 0, falls Zk ≥ X. Intuitiv entspricht das unserer Vorstellung davon, dass die Y1 , . . . , Yn unabhängig sind, sobald wir den Wert von X kennen, und mit Wahrscheinlichkeit X einen Erfolg zeigen. In diesem Beispiel haben wir uns von Hand ein Zweistufenexperiment gebastelt: In der ersten Stufe haben wir den Wert von X festgelegt, in der zweiten Stufe wird, abhängig vom Wert von X, der Wert von Y = (Y1 , . . . , Yn ) bestimmt. Offenbar haben wir bei der Konstruktion Nutzen aus der speziellen Struktur des Problems gezogen. Wir suchen nun nach einem allgemeinen Rahmen, in dem sich mehrstufige Experimente beschreiben und allgemein konstruieren lassen. Anders als in Kapitel 2 brauchen die Zufallsvariablen nicht mehr unabhängig zu sein. Außerdem wollen wir systematisch auch unendlich große Familien von Zufallsvariablen mit gegebenen Verteilungen konstruieren. Im ersten Abschnitt beginnen wir mit Produkten von Messräumen. Danach kommen ¨ wir zu endlichen Produkten von Maßräumen, sowie Produktmaßen mit Ubergangskernen, um schließlich unendliche Produkte von Wahrscheinlichkeitsräumen zu betrachten. Das Hauptergebnis ist der Erweiterungssatz von Kolmogorov.

260


14.1 Produkträume Definition 14.1 (Produktraum). Sei (Ωi , i ∈ I) eine beliebige Familie von Mengen. Mit Ω = × Ωi bezeichnen wir die Menge der Abbildungen ω : I → Ωi i∈I

i∈I

mit der Eigenschaft, dass ω(i) ∈ Ωi für jedes i ∈ I gilt. Ω heißt das Produkt der (Ωi , i ∈ I), oder kurz Produktraum. Sind speziell alle Ωi gleich, etwa Ωi = Ω0 , so schreiben wir Ω = × Ωi = Ω0I . i∈I

Beispiele 14.2. (i) Ist Ω1 = {1, . . . , 6} und Ω2 = {1, 2, 3}, so ist

Ω1 × Ω2 = ω = (ω1 , ω2 ) : ω1 ∈ {1, . . . , 6}, ω2 ∈ {1, 2, 3} .

(ii) Ist Ω0 = R und I = {1, 2, 3}, so ist R{1,2,3} isomorph zum u¨ blichen R3 .

(iii) Ist Ω0 = R und I = N, so ist RN der Raum der Folgen (ω(n), n ∈ N) in R. (iv)

Ist I = R und Ω0 = R, so ist RR Menge der Abbildungen R → R.

3

Definition 14.3 (Koordinatenabbildung). Ist i ∈ I, so bezeichnet Xi : Ω → Ωi , ω → ω(i) die i-te Koordinatenabbildung. Allgemeiner nennen wir für J ⊂ J ′ ⊂ I die eingeschränkte Abbildung ′

XJJ :

× Ω −→ × Ω , j

j∈J ′

j

j∈J

ω ′ → ω ′

J

(14.1)

die kanonische Projektion. Speziell schreiben wir XJ := XJI .

Definition 14.4 (Produkt-σ-Algebra). Seien (Ωi , Ai ), i ∈ I, Messräume. Die Produkt-σ-Algebra Ai A= i∈I

ist die kleinste σ- Algebra auf Ω, sodass für jedes i ∈ I die Abbildung Xi messbar bezüglich A – Ai ist:

A = σ Xi , i ∈ I := σ Xi−1 (Ai ), i ∈ I . Ist (Ωi , Ai ) = (Ω0 , A0 ) für jedes i ∈ I, so schreiben wir auch A = A⊗I 0 . / Für J ⊂ I schreiben wir ΩJ = × Ωj und AJ = Aj . j∈J

j∈J

Bemerkung 14.5. Die Begriffsbildung der Produkt-σ-Algebra ist analog zu der der Produkttopologie: Sind ((Ωi , τi ), i ∈ I) topologische Räume, so ist die Produkttopologie τ auf Ω = × Ωi die gröbste Topologie, bezüglich der alle Koordinateni∈I

abbildungen Xi : Ω −→ Ωi stetig sind.

3

14.1 Produkträume

261

Definition 14.6. Sei I = ∅ eine beliebige Indexmenge, (E, E) ein Messraum, (Ω, A) = (E I , B(E)⊗I ) und Xt : Ω → E die Koordinatenabbildung für jedes t ∈ I. Dann nennen wir die Familie (Xt )t∈I den kanonischen Prozess auf (Ω, A). Lemma 14.7. Sei ∅ = J ⊂ I. Dann ist XJI messbar bezüglich AI – AJ . Beweis. Für jedes j ∈ J ist Xj = XjJ ◦ XJI messbar bezüglich A – Aj . Nach Korollar 1.82 ist daher XJI messbar. 2 Satz 14.8. Sei I höchstens abzählbar, und für jedes i ∈ I sei (Ωi , τi ) polnisch mit Borel’scher σ-Algebra Bi = σ(τi ). Es sei τ die Produkttopologie auf Ω = × Ωi i∈I

und B = σ(τ ).

Dann ist (Ω, τ ) polnisch und B =

/

i∈I

Bi . Speziell ist B(Rd ) = B(R)⊗d für d ∈ N.

Beweis. Ohne Einschränkung sei I = N. Für i ∈ N sei di eine vollständige Metrik, die τi erzeugt. Man prüft leicht nach, dass dann ′

d(ω, ω ) :=

∞ i=1

2−i

di (ω(i), ω ′ (i)) 1 + di (ω(i), ω ′ (i))

(14.2)

eine vollständige Metrik auf Ω ist, die τ erzeugt. Für jedes i ∈ N sei nun Di ⊂ Ωi eine abzählbare, dichte Teilmenge und yi ∈ Di ein beliebiger fester Punkt. Die Menge Di : xi = yi nur endlich oft D= x∈

× i∈N

ist, wie man leicht prüft, eine abzählbare, dichte Teilmenge von Ω. Also ist Ω separabel und damit polnisch. Sei nun βi = {Bε (xi ) : xi ∈ Di , ε ∈ Q+ } für jedes i ∈ I eine abzählbare Basis der Topologie von Ωi aus ε-Kugeln. Setze N ∞ −1 Xi (Bi ) : B1 ∈ β1 , . . . , BN ∈ βN . β := N =1

i=1

Dann ist β eine abzählbare Basis der Topologie τ/ , also ist jede offene Menge /A ⊂ Ω B . Mithin ist τ ⊂ (abzählbare) Vereinigung von Mengen in β ⊂ i i∈N i∈N Bi / und damit B ⊂ i∈N Bi .

Andererseits ist jedes Xi stetig, also messbar bezüglich B – Bi und damit B ⊃ / 2 i∈N Bi .

262


Definition 14.9 (Zylindermengen). Für jedes i ∈ I sei Ei ⊂ Ai ein Teilsystem der messbaren Mengen. Für jedes A ∈ AJ heißt XJ−1 (A) ⊂ Ω Zylindermenge mit Basis J. Die Menge dieser Zylindermengen wird mit ZJ bezeichnet. Ist speziell A = ×j∈J Aj für gewisse Aj ∈ Aj , so heißt XJ−1 (A) Rechteckzylinder mit Basis J. Die Menge dieser Rechteckzylinder wird mit ZJR bezeichnet, die Menge aller Rechteckzylinder, für die zusätzlich Aj ∈ Ej für jedes j ∈ J gilt, mit ZJE,R . Wir schreiben Z=

J⊂I endlich

(14.3)

ZJ ,

und definieren analog Z R und Z E,R . Ferner definieren wir N ∞ R R Z∗ = An : A1 , . . . , An ∈ Z n=1

N =1

und analog Z∗E,R . R Bemerkung 14.10. / Jedes ZJ ist eine σ-Algebra, und Z und Z∗ sind Algebren. Außerdem gilt i∈I Ai = σ(Z). 3

Lemma 14.11. Ist jedes Ei schnittstabil, beziehungsweise ein Semiring, so ist Z E,R schnittstabil, beziehungsweise ein Semiring. ¨ Beweis. Ubung!

2

Satz 14.12. Für jedes i ∈ I sei Ei ⊂ Ai ein Erzeuger von Ai . / Aj = σ × Ej : Ej ∈ Ej . (i) Für jedes endliche J ⊂ I gilt (ii) Es gilt

/

i∈I

j∈J

j∈J

Ai = σ(Z R ) = σ Z E,R .

(iii) Sei μ ein σ-endliches Maß auf A, und sei jedes Ei zudem schnittstabil. Ferner gebe es eine Folge (En )n∈N in Z E,R mit En ↑ Ω und μ(En ) < ∞ für jedes n ∈ N (speziell ist diese Bedingung natürlich erfüllt, wenn μ endlich ist und Ωi ∈ Ei für jedes i ∈ I). Dann ist μ durch Angabe von μ(A) für jedes A ∈ Z E,R eindeutig festgelegt.

× E : E ∈ E für jedes j ∈ J . Es ist × E = (X ) (E ) ∈ A ,

Beweis. (i) Sei A′J = σ

j

j

j∈J

J −1 j

j

j∈J

j

j∈J

j

J

¨ 14.2 Endliche Produkte und Ubergangskerne

263

also A′J ⊂ AJ . Umgekehrt gilt (XjJ )−1 (Ej ) ∈ A′J für j ∈ J und Ej ∈ Ej . Da Ei ein Erzeuger von Ai ist, ist (XjJ )−1 (Aj ) ∈ A′J für jedes Aj ∈ Aj , also gilt AJ ⊂ A′J . R E,R R (ii) Offenbar ist Z E,R ) ⊂ A. Nach

E,R ⊂ Z ⊂ A, also auch σ(Z ) ⊂ σ(Z E,R Satz 1.81 gilt σ Z{i} = σ(Xi ) für jedes i ∈ I, also σ(Xi ) ⊂ σ(Z ) und damit AI ⊂ σ(Z E,R ).

(iii) Nach (ii) und Lemma 14.11 ist Z E,R ein schnittstabiler Erzeuger von A. Die Aussage folgt daher aus Lemma 1.42. 2 ¨ Ubung 14.1.1. Man zeige:

i∈I

Ai =

J⊂I abzählbar

ZJ .

Hinweis: Man zeige, dass die rechte Seite eine σ-Algebra ist.

(14.4) ♣

¨ 14.2 Endliche Produkte und Ubergangskerne Wir betrachten jetzt die Situation endlich vieler σ-endlicher Maßräume (Ωi , Ai , μi ), i = 1, . . . , n, wobei n ∈ N. Lemma 14.13. Sei A ∈ A1 ⊗ A2 und f : Ω1 × Ω2 → R eine A1 ⊗ A2 -messbare Abbildung. Dann gilt für jedes ω ˜ 1 ∈ Ω1 und ω ˜ 2 ∈ Ω2 Aω˜ 1 := {ω2 ∈ Ω2 : (˜ ω1 , ω2 ) ∈ A} ∈ A2 , Aω˜ 2 := {ω1 ∈ Ω1 : (ω1 , ω ˜ 2 ) ∈ A} ∈ A1 , fω˜ 1 : Ω2 → R,

fω˜ 2 : Ω1 → R,

ω2 → f (˜ ω1 , ω2 ) ist A2 –messbar, ω1 → f (ω1 , ω ˜ 2 ) ist A1 –messbar.

Beweis. Für ω ˜ 1 definiere die Einbettung i : Ω2 → Ω1 ×Ω2 durch i(ω2 ) = (˜ ω1 , ω2 ). Da X1 ◦ i konstant gleich ω ˜ 1 ist (also A1 -messbar), und X2 ◦ i = idΩ2 (also A2 messbar), ist nach Korollar 1.82 die Abbildung i messbar bezüglich A2 – (A1 ⊗A2 ). Mithin ist Aω˜ 1 = i−1 (A) ∈ A2 und fω˜ 1 = f ◦ i messbar bezüglich A2 . 2 Der folgende Satz verallgemeinert Satz 1.61.

264


Satz 14.14/ (Endliche Produktmaße). Es existiert genau ein σ-endliches Maß μ n auf A := i=1 Ai mit μ(A1 × · · · × An ) =

n

μi (Ai )

i=1

für Ai ∈ Ai , i = 1, . . . , n.

(14.5)

n

Wir nennen i=1

μi := μ1 ⊗ · · · ⊗ μn := μ das Produktmaß der μi .

Sind alle Räume gleich (Ω0 , A0 , μ0 ), so schreiben wir μ⊗n 0 :=

n /

μ0 .

i=1

Beweis. Sei μ ˜ auf Z R wie μ in (14.5) festgesetzt. Offenbar ist μ ˜(∅) = 0, und man u¨ berlegt sich leicht, dass μ ˜ σ-endlich ist. Seien A1 , A2 , . . . ∈ Z R paarweise ∞ disjunkt und A ∈ Z R mit A ⊂ k=1 Ak . Dann ist nach dem Satz u¨ ber monotone Konvergenz μ ˜(A) = μ1 (dω1 ) · · · μn (dωn ) A ((ω1 , . . . , ωn )) ≤

μ1 (dω1 ) · · · 1

μn (dωn )

∞

k=1

Ak

((ω1 , . . . , ωn )) =

∞

μ ˜(Ak ).

k=1

˜(A) = μ ˜(A1 ) + μ ˜(A2 ). Mithin ist Ist speziell A = A A2 , so erhält man analog μ μ ˜ eine σ-endliche, additive, σ-subadditive Mengenfunktion auf dem Semiring Z R mit μ ˜(∅) = 0. Nach dem Fortsetzungssatz (Satz 1.53) kann μ ˜ in eindeutiger Weise zu einem σ-endlichen Maß fortgesetzt werden. 2 ein Wahrscheinlichkeitsraum. Auf Beispiel 14.15. Für i = 1, . . . , n sei (Ω /i ,nAi , Pi )/ n n dem Raum (Ω, A, P) := ×i=1 Ωi , i=1 Ai , i=1 Pi sind die Koordinatenabbildungen Xi : Ω → Ωi unabhängig mit Verteilung PXi = Pi . 3


265

Satz 14.16 (Fubini). Seien (Ωi , Ai , μi ) σ-endliche Maßräume, i = 1, 2, sowie f : Ω1 × Ω2 → R messbar bezüglich A1 ⊗ A2 . Ist f ≥ 0 oder f ∈ L1 (μ1 ⊗ μ2 ), dann gelten ω1 → ω2 → und

Ω1 ×Ω2

f (ω1 , ω2 ) μ2 (dω2 ) ist A1 -messbar,

(14.6)

f (ω1 , ω2 ) μ1 (dω1 ) ist A2 -messbar,

f d(μ1 ⊗ μ2 ) = =

Ω1

Ω2

Ω2

Ω1

f (ω1 , ω2 ) μ2 (dω2 )

f (ω1 , ω2 ) μ1 (dω1 )

μ1 (dω1 ) (14.7) μ2 (dω2 ).

Beweis. Der Beweis folgt dem u¨ blichen Schema der schrittweisen Approximation ausgehend von einfachen Funktionen. Sei zunächst f = A für A = A1 × A2 mit A1 ∈ A1 und A2 ∈ A2 . Dann gelten (14.6) und (14.7) trivialerweise. Durch endliche Summenbildung gilt dies nun auch für A ∈ Z∗R (Algebra der endlichen Vereinigungen von Rechtecken). Sei nun A ∈ A1 ⊗ A2 . Nach dem Approximationssatz (Satz 1.65) gibt es eine Folge von Mengen (An )n∈N in Z∗R , die A dem Maße μ1 ⊗ μ2 nach approximieren. Da Limiten messbarer Funktionen wieder messbar sind, und nach Konstruktion die Integrale konvergieren, gelten (14.6) und (14.7) jetzt auch für f = A und A ∈ A1 ⊗ A2 . Durch endliche Summenbildung gelten nun (14.6) und (14.7) auch für den Fall, wo f eine Elementarfunktion ist. Wir betrachten jetzt f ≥ 0. Dann existiert nach Satz 1.96 eine Folge von Elementarfunktionen (fn )n∈N mit fn ↑ f . Nach dem Satz von der monotonen Konvergenz (Satz 4.20) gelten (14.6) und (14.7) nun auch für dieses f . Ist f ∈ L1 (μ1 ⊗μ2 ), dann ist f = f + −f − mit integrierbaren Funktionen f + , f − ≥ 0, für die (14.6) und (14.7) gelten, also auch für f . 2 In Definition 2.32 hatten wir die Faltung zweier W-Maße μ und ν als die Verteilung der Summe zweier unabhängiger, wie μ und ν verteilter Zufallsvariablen definiert. Als eine einfache Anwendung des Satzes von Fubini wollen wir eine neue Definition geben (die natürlich mit der alten konsistent ist), die alle endlichen Maße auf dem Rn umfasst. Haben diese Maße zusätzlich Dichten bezüglich des Lebesgue-Maßes, so können wir eine explizite Formel zur Berechnung der Faltung angeben. Seien also X und Y Rn -wertige Zufallsvariablen mit Dichten fX und fY . Das heißt, fX , fY : Rn → [0, ∞] sind messbar und integrierbar bezüglich des ndimensionalen Lebesgue-Maßes λn , und es gilt für jedes x ∈ Rn

266


P[X ≤ x] =

n

fX (t) λ (dt)

und

(−∞,x]

P[Y ≤ x] =

fY (t) λn (dt).

(−∞,x]

Hierbei ist (−∞, x] = {y ∈ Rn : yi ≤ xi für i = 1, . . . , n} (vergleiche (1.5)). Definition 14.17. Sei n ∈ N. Für zwei Lebesgue-integrierbare Abbildungen f, g : Rn → [0, ∞] definieren wir die Faltung f ∗ g : Rn → [0, ∞] durch (f ∗ g)(x) = f (y) g(x − y) λn (dy). Rn

Für zwei endliche Maße μ, ν ∈ Mf (Rn ) definieren wir die Faltung μ ∗ ν ∈ Mf (Rn ) durch (μ ∗ ν)((−∞, x]) = Ax (u, v) μ(du) ν(dv), wobei Ax := {(u, v) ∈ Rn × Rn : u + v ≤ x} ist. Lemma 14.18. Die Abbildung f ∗ g ist messbar, und es gelten f ∗ g = g ∗ f und n n n (f ∗ g) dλ = f dλ g dλ . Rn

Rn

Rn

Ebenso gelten μ ∗ ν = ν ∗ μ und (μ ∗ ν)(Rn ) = μ(Rn ) ν(Rn ). Beweis. Die Aussagen folgen direkt aus dem Satz von Fubini.

2

Satz 14.19 (Faltung von n-dimensionalen Maßen). (i) Sind X und Y unabhängige Rn -wertige Zufallsvariablen mit Dichten fX und fY , so hat X + Y die Dichte fX ∗ fY .

(ii) Sind μ = f λn und ν = gλn endliche Maße mit Dichten f und g bezüglich des Lebesgue-Maßes, so gilt μ ∗ ν = (f ∗ g)λn . Beweis. (i) Sei x ∈ Rn und A := {(u, v) ∈ Rn × Rn : u + v ≤ x}. Dann gilt nach mehrfacher Anwendung des Satzes von Fubini (sowie der Translationsinvarianz von λn )


267

P[X + Y ≤ x] = P[(X, Y ) ∈ A] n ⊗2 = (d(u, v)) A (u, v) fX (u) fY (v) (λ ) n n R ×R n n = A (u, v) fX (u) λ (du) fY (v) λ (dv) Rn Rn fX (u) λn (du) fY (v) λn (dv)

=

Rn

=

Rn

=

(−∞,x−v]

(−∞,x]

(−∞,x]

=

(−∞,x]

(ii)

n

Rn

fX (u − v) λ (du) fY (v) λn (dv)

fX (u − v) fY (v) λ (dv) λn (du) n

(fX ∗ fY ) dλn .

Ersetze in (i) μ = PX und ν = PY . Die Aussage folgt unmittelbar.

2

Wir kommen zu einer Begriffsbildung, die diejenige der Produktmaße verallgemeinert und in Richtung unseres Eingangsbeispiels steuert. ¨ Wir erinnern an den Begriff des Ubergangskerns aus Definition 8.24. ¨ Lemma 14.20. Sei κ ein endlicher Ubergangskern von (Ω1 , A1 ) nach (Ω2 , A2 ), und sei f : Ω1 × Ω2 → [0, ∞] messbar bezüglich A1 ⊗ A2 − B([0, ∞]). Dann ist die Abbildung If : Ω1 → [0, ∞] ω1 → f (ω1 , ω2 ) κ(ω1 , dω2 ) wohldefiniert und A1 –messbar.

Beweis. Nach Lemma 14.13 ist 0für jedes ω1 ∈ Ω1 die Abbildung fω1 messbar bezüglich A2 , also ist If (ω1 ) = fω1 (ω2 ) κ(ω1 , dω2 ) wohldefiniert. Wir müssen also nur noch die Messbarkeit von If zeigen.

Ist g = A1 ×A2 für A1 ∈ A1 und A2 ∈ A2 , so ist Ig (ω1 ) = A1 (ω

1 )κ(ω1 , A2 ) offenbar messbar. Sei nun D = A ∈ A1 ⊗A2 : I A ist A1 –messbar . Wir zeigen, dass D ein Dynkin-System ist: (i) Offenbar ist Ω1 × Ω2 ∈ D.

(ii) Sind A, B ∈ D mit A ⊂ B, so ist I B\A = I B − I A messbar, wobei wir die Endlichkeit von κ ausgenutzt haben, also ist B \ A ∈ D.

268


(iii) Sind ∞ A1 , A2 , . . . ∈ D paarweise disjunkt und A := n=1 I An messbar, also A ∈ D.

∞

n=1

An , so ist I

A

=

Nun ist D also ein Dynkin-System, das den schnittstabilen Erzeuger aller Rechteckmengen in A1 ⊗ A2 enthält, also ist (nach Satz 1.19) D = A1 ⊗ A2 . Mithin ist I A messbar für jedes A ∈ A1 ⊗ A2 . Es folgt, dass Ig messbar ist für jede Elementarfunktion. Sei nun (fn )n∈N eine Folge von Elementarfunktion mit fn ↑ f . Für jedes feste ω1 ∈ Ω1 gilt nach dem Satz von der monotonen Konvergenz If (ω1 ) = limn→∞ Ifn (ω1 ), und If ist als Limes messbarer Funktionen messbar. 2 0 0Bemerkung 14.21. Wir schreiben im Folgenden oft κ(ω1 , dω2 ) f (ω1 , ω2 ) statt f (ω1 , ω2 ) κ(ω1 , dω2 ), denn bei Mehrfachintegralen erlaubt diese Notation es, den Integrator näher an das betreffende Integralzeichen heran zu rücken. 3 ¨ Satz 14.22. Seien (Ωi , Ai ), i = 0, 1, 2, Messräume und κ1 ein endlicher Uber¨ von gangskern von (Ω0 , A0 ) nach (Ω1 , A1 ) sowie κ2 ein endlicher Ubergangskern (Ω0 × Ω1 , A0 ⊗ A1 ) nach (Ω2 , A2 ). Dann ist die Abbildung κ1 ⊗ κ2 : Ω0 × (A1 ⊗ A2 ) → [0, ∞) (ω0 , A) → κ1 (ω0 , dω1 ) κ2 ((ω0 , ω1 ), dω2 ) Ω1

A ((ω1 , ω2 ))

Ω2

¨ wohldefiniert und ist ein σ-endlicher (aber nicht notwendig endlicher) Ubergangskern von (Ω0 , A0 ) nach (Ω1 × Ω2 , A1 ⊗ A2 ). Sind κ1 und κ2 (sub-)stochastisch, so ist κ1 ⊗ κ2 (sub-)stochastisch. Wir nennen κ1 ⊗ κ2 das Produkt von κ1 und κ2 .

Ist κ2 ein Kern von (Ω1 , A1 ) nach (Ω2 , A2 ), so definieren wir das Produkt κ1 ⊗ κ2 analog, indem wir κ2 einfach formal als Kern von (Ω0 × Ω1 , A0 ⊗ A1 ) nach (Ω2 , A2 ) auffassen, der nicht von der Ω0 -Koordinate abhängt. Beweis. Sei A ∈ A1 ⊗ A2 . Die Abbildung gA : (ω0 , ω1 ) → κ2 ((ω0 , ω1 ), dω2 )

A (ω1 , ω2 )

ist nach Lemma 14.20 wohldefiniert und messbar bezüglich A0 ⊗ A1 . Daher ist, wiederum nach Lemma 14.20, die Abbildung ω0 → κ1 ⊗ κ2 (ω0 , A) = κ1 (ω0 , dω1 ) gA (ω0 , ω1 )

wohldefiniert und A0 -messbar. Für festes ω0 ist nach dem Satz u¨ ber monotone Konvergenz die Abbildung A → κ1 ⊗ κ2 (ω0 , A) σ-additiv, also ein Maß.

Für ω0 ∈ Ω0 und n ∈N sei Aω0 ,n := {ω1 ∈ Ω1 : κ2 ((ω0 , ω1 ), Ω2 ) < n}. Da κ2 endlich ist, gilt n≥1 Aω0 ,n = Ω1 für jedes ω0 ∈ Ω0 , und es gilt κ1 ⊗ κ2 (ω0 , An × Ω2 ) ≤ n · κ1 (ω0 , An ) < ∞. Also ist κ1 ⊗ κ(ω0 , · ) σ-endlich und ¨ damit ein Ubergangskern. Der Zusatz ist trivial.

2


269

Korollar 14.23 (Produkte mit Kernen). Sei (Ω1 , A1 , μ) ein endlicher Maßraum, ¨ (Ω2 , A2 ) ein Messraum und κ ein endlicher Ubergangskern von Ω1 nach Ω2 . Dann existiert ein eindeutig bestimmtes, σ-endliches Maß μ ⊗ κ auf (Ω1 × Ω2 , A1 ⊗ A2 ) mit μ ⊗ κ(A1 × A2 ) = κ(ω1 , A2 ) μ(dω1 ) für alle A1 ∈ A1 , A2 ∈ A2 . A1

Ist κ stochastisch und μ ein W-Maß, so ist μ ⊗ κ ein W-Maß. Beweis. Wende Satz 14.22 an mit κ2 = κ und κ1 (ω0 , · ) = μ.

2

Korollar 14.24. Seien n ∈ N und (Ωi , Ai ), i = 0, . . . , n, Messräume. Für i = i−1 i−1 / Ak nach (Ωi , Ai ) 1, . . . , n sei κi ein substochastischer Kern von × Ωk , k=0

k=0

oder von (Ωi−1 , Ai−1 ) nach (Ωi , Ai ). Dann definiert die Rekursion κ1 ⊗ · · · ⊗ κi := (κ1 ⊗ · · · ⊗ κi−1 ) ⊗ κi für jedes i = 1, . . . , n einen substochastischen Kern i i i / / Ak . Sind alle κi κk := κ1 ⊗ · · · ⊗ κi von (Ω0 , A0 ) nach × Ωk , k=1

k=1

stochastisch, so ist jedes

i /

k=0

κk stochastisch.

k=1 i / Ist μ ein endliches Maß auf (Ω0 , A0 ), so ist μi := μ ⊗ κk ein endliches Maß k=1 i i / auf × Ωk , Ak . Ist μ ein W-Maß und jedes κi stochastisch, so ist μi ein k=0

k=0

Wahrscheinlichkeitsmaß.

Beweis. Die Aussagen folgen per Induktion aus Satz 14.22.

2

Definition 14.25 (Verkettung von Kernen). Seien (Ωi , Ai ) Messräume, i = 0, 1, 2, und κi ein substochastischer Kern von (Ωi−1 , Ai−1 ) nach (Ωi , Ai ), i = 1, 2. Wir definieren die Verkettung von κ1 und κ2 durch κ1 · κ2 : Ω0 × A2 → [0, ∞) (ω0 , A2 ) → κ1 (ω0 , dω1 ) κ2 (ω1 , A2 ). Ω1

Satz 14.26. Bezeichnen wir mit π2 : Ω1 × Ω2 → Ω2 die Projektion auf die zweite Koordinate, so ist

(κ1 · κ2 )(ω0 , A2 ) = (κ1 ⊗ κ2 ) ω0 , π2−1 (A2 ) für jedes A2 ∈ A2 .

Speziell ist die Verkettung κ1 · κ2 ein (sub-)stochastischer Kern von (Ω0 , A0 ) nach (Ω2 , A2 ).

270


Beweis. Klar.

2

Lemma 14.27 (Kerne und Faltung). Seien μ und ν W-Maße auf Rd und die Kerne κi : (Rd , B(Rd )) → (Rd , B(Rd )), i = 1, 2, definiert durch κ1 (x, dy) = μ(dy) sowie κ2 (y, dz) = (δy ∗ ν)(dz). Dann ist κ1 · κ2 = μ ∗ ν. Beweis. Das ist trivial.

2

Satz 14.28 (Kerne und Faltung). Seien X1 , X2 , . . . unabhängige Rd -wertige Zufallsvariablen mit Verteilungen μi := Pi , i = 1, . . . , n. Setze Sk := X1 + . . . + Xk für k = 1, . . . , n und definiere stochastische Kerne von Rd nach Rd durch κk (x, · ) = δx ∗ μk für k = 1, . . . , n. Dann gilt n κk

(14.8)

(0, · ) = P(S1 ,...,Sn ) .

k=1

Beweis. Für k = 1, . . . , n definiere die messbare Bijektion ϕk : (Rd )k → (Rd )k durch ϕk (x1 , . . . , xk ) = (x1 , x1 + x2 , . . . , x1 + . . . + xk ). Offenbar ist B((Rd )n ) = σ ϕn (A1 × · · · × An ) : A1 , . . . , An ∈ B(Rd ) . Es reicht also (14.8) für Mengen von diesem Typ nachzuweisen, also zu zeigen, dass n n κk (0, ϕk (A1 ×· · ·×An )) = P(S1 ,...,Sn ) (ϕn (A1 ×· · ·×An )) = μk (Ak ). k=1

k=1

Für n = 1 ist die Aussage klar. Per Definition ist κn (yn−1 , yn−1 + An ) = μn (An ). Induktiv folgt n κk (0, ϕn (A1 × · · · × An )) k=1

=

ϕn−1 (A1 ×···×An−1 )

=

n−1 k=1

n−1 k=1

μk (Ak ) μn (An ).

κk

0, d(y1 , . . . , yk−1 ) κn yn−1 , yn−1 + An 2

¨ ¨ Ubergangskerne). Satz 14.29 (Fubini fur Seien (Ωi , Ai ) Messräume, i = 1, 2, μ ¨ ein endliches Maß auf (Ω1 , A1 ), κ ein endlicher Ubergangskern von Ω1 nach Ω2 sowie f : Ω1 ×Ω2 → R messbar bezüglich A1 ⊗A2 . Ist f ≥ 0 oder f ∈ L1 (μ⊗κ), dann gilt f d(μ ⊗ κ) = f (ω1 , ω2 ) κ(ω1 , dω2 ) μ1 (dω1 ). (14.9) Ω1 ×Ω2

Ω1

Ω2


271

Beweis. Für f = A1 ×A2 mit A1 ∈ A1 und A2 ∈ A2 gilt die Aussage per Definition. Für allgemeine f verwenden wir die Approximationsargumente wie in Satz 14.16. 2 Beispiel 14.30. Wir kommen auf das Beispielvom Anfang des Kapitels zurück. Sei

n ∈ N und (Ω2 , A2 ) = {0, 1}n , (2{0,1} )⊗n der Raum des n-fachen Münzwurfs. Für jedes p ∈ [0, 1] definieren wir ⊗n

. Pp = (Berp )⊗n = (1 − p)δ0 + pδ1 Pp ist dasjenige W-Maß auf (Ω2 , A2 ), mit dem die Koordinatenabbildungen Yi unabhängige Bernoulli-Zufallsvariablen mit Erfolgswahrscheinlichkeit p sind. Ferner sei Ω1 = [0, 1] und A1 = B([0, 1]) die Borel’sche σ-Algebra auf Ω1 , sowie μ = U[0,1] die Gleichverteilung auf [0, 1]. Die identische Abbildung X : Ω1 → [0, 1], ist dann eine uniform auf [0, 1] verteilte Zufallsvariable auf (Ω1 , A1 , μ).

Schließlich betrachten wir den stochastischen Kern von Ω1 nach Ω2 κ(ω1 , · ) = Pω1 .

Setzen wir Ω = Ω1 × Ω2 , A = A1 ⊗ A2 und P = μ ⊗ κ, dann beschreiben X und Y1 , . . . , Yn genau die Zufallsvariablen auf (Ω, A, P) aus dem Beispiel am Anfang des Kapitels. 3 Bemerkung 14.31. Das Verfahren lässt sich natürlich für n-stufige Experimente erweitern. Sei (Ωi , Ai ) der Messraum des i-ten Experiments, i = 0, . . . , n − 1. Sei P0 ein W-Maß auf (Ω0 , A0 ). Für i = 1, . . . , n − 1 sei die Verteilung auf (Ωi , Ai ) abhängig von (ω1 , . . . , ωi−1 ) und gegeben durch einen stochastischen Kern κi von Ω0 × · · · × Ωi−1 nach Ωi . Das gesamte n-stufige Experiment wird dann durch die Koordinatenabbildungen in dem Wahrscheinlichkeits n−1 n−1 n−1 / / 3 κi beschrieben. A i , P0 ⊗ raum × Ωi , i=0

i=0

i=1

¨ Ubung 14.2.1. Man zeige die Faltungsformeln: (i) Normalverteilung: Nμ1 ,σ12 ∗ Nμ2 ,σ22 = Nμ1 +μ2 ,σ12 +σ22 für alle μ1 , μ2 ∈ R und σ12 , σ22 > 0. (ii) Gamma-Verteilung: Γθ,r ∗ Γθ,s = Γθ,r+s für alle θ, r, s > 0.

(iii) Cauchy-Verteilung: Caur ∗ Caus = Caur+s für alle r, s > 0.

♣

¨ Ubung 14.2.2 (Hilbert-Schmidt Operator). Seien (Ωi , Ai , μi ), i = 1, 2, σendliche Maßräume und a : Ω1 × Ω2 → R messbar mit μ1 (dt1 ) μ2 (dt2 ) a(t1 , t2 )2 < ∞.

272


Für f ∈ L2 (μ1 ) definiere (Af )(t2 ) =

a(t1 , t2 )f (t1 ) μ1 (dt1 ).

Zeige: A ist ein stetiger linearer Operator von L2 (μ1 ) nach L2 (μ2 ).

♣

¨ Ubung 14.2.3 (Partielle Integration). Seien Fμ und Fν die Verteilungsfunktionen der lokal endlichen Maße μ und ν auf R. Für x ∈ R definieren wir den linksseitigen Grenzwert F (x−) = supy<x F (y) und die Sprunghöhe ΔF (x) = F (x) − F (x−). Man zeige: Für a < b gilt Fμ dν = Fμ (b)Fν (b) − Fμ (a)Fν (a) − Fν (x−)μ(dx) (a,b]

(a,b]

= Fμ (b)Fν (b) − Fμ (a)Fν (a) −

Fν dμ +

(a,b]

a<x≤b

ΔFμ (x) ΔFν (x). ♣

14.3 Satz von Ionescu-Tulcea und Projektive Familien Im vorigen Abschnitt hatten wir gesehen, wie wir n-stufige Experimente auf einem W-Raum realisieren können. In diesem Abschnitt wollen wir zunächst zeigen, wie wir abzählbar viele sukzessive Experimente auf einem W-Raum realisieren können (Satz von Ionescu-Tulcea). Danach werden wir auch Maße auf u¨ berabzählbaren Produkträumen konstruieren (Erweiterungssatz von Kolmogorov). Seien (Ωi , Ai ), i ∈ N0 , Messräume und P0 ein W-Maß auf (Ω0 , A0 ). Setze Ω i := / ×ik=0 Ωk und Ai = ik=0 Ak , sowie Ω :=

∞

×

und

Ωk

A=

k=0

∞

k=0

Ak .

Es sei κi ein stochastischer Kern von (Ω i−1 , Ai−1 ) nach (Ωi , Ai ) für jedes i ∈ N. /i Wir hatten in Korollar 14.24 rekursiv W-Maße Pi = P0 ⊗ k=1 κk auf (Ω i , Ai ) definiert. Per Konstruktion galt Pi (A × Ωk+1 × · · · × Ωi ) = Pj (A × Ωk+1 × · · · × Ωj )

(14.10)

für i, j ≥ k und A ∈ Ak . Wir wollen nun ein Wahrscheinlichkeitsmaß P auf (Ω, A) definieren, sodass für k ∈ N0 und A ∈ Ak gilt: P A×

∞

×Ω

i=k+1

i

= Pk (A).

(14.11)

14.3 Satz von Ionescu-Tulcea und Projektive Familien

273

Satz 14.32 (Ionescu-Tulcea). Es gibt ein eindeutig bestimmtes W-Maß auf (Ω, A), sodass (14.11) gilt. Beweis. Die Eindeutigkeit ist klar, weil die endlichdimensionalen Rechteckzylinder einen schnittstabilen Erzeuger von A bilden. Es bleibt die Existenz zu zeigen. Wir definieren eine Mengenfunktion P auf den Zylindermengen Z durch (14.11). Offenbar ist P additiv, also ein Inhalt. Ist P nun aber ∅-stetig, so ist P nach Satz 1.36 ein Prämaß und lässt sich nach dem Satz von Carathéodory (Satz 1.41) eindeutig zu einem Maß auf A fortsetzen.

Sei also A0 ⊃ A1 ⊃ A 2∞⊃ . . . eine Folge in Z mit α := inf n∈N0 P (An ) > 0. Es reicht zu zeigen, dass n=0 An = ∅. Ohne Einschränkung können wir annehmen, ∞ dass An = A′n × ×k=n+1 Ωk für gewisses A′n ∈ An . Für n ≥ m setze n

κk (ω0 , . . . , ωm ), A′n hm,n (ω0 , . . . , ωm ) := k=m+1

und hm := inf n≥m hm,n . Wir zeigen induktiv, dass es ̺i ∈ Ωi , i ∈ N0 , gibt mit

Wegen

A′n+1

⊂

A′n

hm (̺0 , . . . , ̺m ) ≥ α. × Ωn+1 gilt n+1

hm,n+1 (ω0 , . . . , ωm ) = ≤ =

κk

k=m+1 n+1

κk k=m+1 n

κk k=m+1

(14.12)

(ω0 , . . . , ωm ), A′n+1

(ω0 , . . . , ωm ), A′n × Ωn+1

(ω0 , . . . , ωm ), A′n = hm,n (ω0 , . . . , ωm ).

Also gilt hm,n ↓ hm für n → ∞ und nach dem Satz von der monotonen Konvergenz hm,n dPm = inf Pn (A′n ) = α. hm dPm = inf n≥m

n∈N

Daher gilt (14.12) für m = 0. Gelte nun (14.12) für ein m ∈ N0 . Dann ist

hm+1 (̺0 , . . . , ̺m , ωm+1 ) κm+1 (̺0 , . . . , ̺m ), dωm+1

hm+1,n (̺0 , . . . , ̺m , ωm+1 ) κm+1 (̺0 , . . . , ̺m ), dωm+1 = inf n≥m+1

= hm (̺0 , . . . , ̺m ) ≥ α.

Es folgt (14.12) für m + 1. Sei ̺ := (̺0 , ̺1 , . . .) ∈ Ω. Nach Konstruktion ist α ≤ hm,m (̺0 , . . . , ̺m ) = ∞ ur jedes m ∈ N und damit i=0 Ai = ∅. 2 A′m (̺0 , . . . , ̺m ), also ̺ ∈ Am f¨

274


Korollar 14.33 (Produktmaß). Für jedes n ∈ N0 sei Pn ein W-Maß auf (Ωn , An ). Dann existiert ein eindeutig bestimmtes W-Maß P auf (Ω, A) mit ∞ n P A0 × · · · × An × Ωi = Pk (Ak )

×

i=n+1

k=0

für Ai ∈ Ai , i = 0, . . . , n und n ∈ N0 . /∞ Wir nennen i=0 Pi := P das Produkt der Maße P0 , P1 , . . . Unter P sind die Koordinatenabbildungen (Xi )i∈N0 unabhängig. Beweis. Wende den Satz von Ionescu-Tulcea mit κi ((ω0 , . . . , ωi−1 ), · ) = Pi an.2 Wir wollen nun eine dem Satz von Ionescu-Tulcea vergleichbare Aussage treffen, dabei jedoch auf die Annahme verzichten, dass die Maße Pk auf Ak a priori durch Kerne definiert werden. Bevor wir den Satz formulieren, wollen wir die Konsistenzbedingung (14.10) verallgemeinern. (Erinnerung: für L ⊂ J ⊂ I bezeichnet XLJ : ΩJ −→ ΩL die Projektion.) Definition 14.34. Eine Familie (PJ , J ⊂ I endlich) von W -Maßen auf (ΩJ , AJ ) heißt projektive Familie, falls für alle endlichen L ⊂ J ⊂ I gilt

−1 PL = PJ ◦ XLJ .

Ist P ein W-Maß auf (Ω, A), wobei Ω=

×Ω i∈I

i

und

A=

i∈I

Ai ,

so ist wegen XL = XLJ ◦ XJ , die Familie (PJ := P ◦ XJ−1 , J ⊂ I endlich) projektiv. Projektivität ist also eine notwendige Bedingung für die Existenz des Maßes P auf dem Produktraum. Sind alle beteiligten Messräume Borel’sche Räume (siehe Definition 8.34) – also beispielsweise Rd , Zd , C([0, 1]) oder allgemeiner polnische Räume –, so ist diese Bedingung auch ausreichend. Wir formulieren diese Aussage zunächst für abzählbare Indexmengen. Satz 14.35. Sei I höchstens abzählbar, und seien (Ωi , Ai ) Borel’sche Messräume, i ∈ I. Sei (PJ , J ⊂ I endlich) eine projektive Familie von W-Maßen. Dann gibt es ein eindeutig bestimmtes W-Maß P auf (Ω, A) mit PJ = P ◦ XJ−1 für jedes endliche J ⊂ I. Beweis. Ohne Einschränkung sei I = N0 und Pn := P{0,...,n} . Man prüft leicht nach, dass endliche Produkte von Borel’schen Räumen wieder Borel’sche Räume sind, also ist (Ω{0,...,n} , A{0,...,n} ) Borel’sch für jedes n ∈ N0 .

14.3 Satz von Ionescu-Tulcea und Projektive Familien

275

Sei Añ := {A × Ωn+1 : A ∈ A{0,...,n} } und das W-Maß Pñ auf (Ω{0,...,n+1} , Añ ) definiert durch Pñ (A×Ωn+1 ) = Pn (A) für A ∈ A{0,...,n} . Die Projektivität liefert, dass Pn+1 n = Pñ . Nach dem Satz u¨ ber die Existenz regulärer bedingter Vertei˜ A lungen (Satz 8.36) existiert ein stochastischer Kern κ′n+1 von (Ω{0,...,n+1} , Añ ) nach (Ωn+1 , An+1 ) mit Pn+1 (A) = ˜ n+1 ) κ′n+1 ((ω0 , . . . , ωn+1 ), d˜ ωn+1 ) Pñ (d(ω0 , . . . , ωn+1 )) A (ω0 , . . . , ωn , ω für jedes A ∈ A{0,...,n+1} . Da κ′n+1 ( · , A) messbar ist bezüglich Añ , hängt κ′n+1 nicht von ωn+1 ab. Durch κn+1 ((ω0 , . . . , ωn ), · ) := κ′n+1 ((ω0 , . . . , ωn+1 ), · ) wird also ein stochastischer Kern von (Ω{0,...,n} , A{0,...,n} ) nach (Ωn+1 , An+1 ) definiert mit Pn+1 (A) = A (ω0 , . . . , ωn+1 ) κn+1 ((ω0 , . . . , ωn ), dωn+1 ) Pn (d(ω0 , . . . , ωn )). Mithin gilt Pn+1 = Pn ⊗ κn+1 , und wir können Satz 14.32 anwenden.

2

Als letzten Schritt in unserer Konstruktion wollen wir in Satz 14.35 die abzählbare Indexmenge durch eine beliebige Indexmenge ersetzen. Satz 14.36 (Kolmogorov’scher Erweiterungssatz). Sei I eine beliebige Indexmenge, und seien (Ωi , Ai ) Borel’sche Messräume, i ∈ I. Sei (PJ , J ⊂ I endlich) eine projektive Familie von W-Maßen. Dann gibt es ein eindeutig bestimmtes WMaß P auf (Ω, A) mit PJ = P ◦ XJ−1 . Wir nennen P den projektiven Limes und P . bezeichnen ihn in Formeln mit P =: lim ←− J J↑I

Beweis. Für abzählbares J ⊂ I gibt es nach Satz 14.35 ein eindeutig bestimmtes J −1 ) = PK für endliches K ⊂ J. Durch Maß PJ auf (ΩJ , AJ ) mit PJ ◦ (XK −1 ˜ PJ (XJ (AJ )) := PJ (AJ ), AJ ∈ AJ , wird hieraus ein Maß auf (Ω, σ(XJ )).

Seien J, J ′ ⊂ I höchstens abzählbar und A ∈ σ(XJ ) ∩ σ(XJ ′ ) ∩ Z ein σ(XJ ) ∩ σ(XJ ′ )-messbarer Zylinder mit endlicher Basis. Dann existiert ein endliches K ⊂ −1 (AK ). Also ist P˜J (A) = PK (AK ) = P˜J ′ (A). J ∩ J ′ und AK ∈ AK mit A = XK Nach Satz 14.12 ist dann aber auch P˜J (A) = PK (AK ) = P˜J ′ (A) für alle A ∈ ¨ 14.1.1) für jedes A ∈ A ein abzählbares σ(XJ ) ∩ σ(XJ ′ ). Nun gibt es (nach Ubung J ⊂ I mit A ∈ σ(XJ ), also können wir auf eindeutige Weise (und unabhängig von der Wahl von J) eine Mengenfunktion P auf A definieren durch P (A) = P˜J (A). Es bleibt zu zeigen, dass P ein W-Maß ist. Offenbar ist P (Ω) = 1. Sind A1 , A2 , . . . ∈

276


∞ A paarweise disjunkt und A := n=1 An , so gibt es abzählbare Jn ⊂ I mit An ∈ σ(XJn ) für n ∈ N. Setze J = n∈N Jn . Dann ist jedes An in σ(XJ ) und damit auch A ∈ σ(XJ ), also P (A) = P˜J (A) =

∞

P˜J (An ) =

n=1

∞

P (An ).

n=1

Damit ist P als W-Maß erkannt.

2

Beispiel 14.37. Sei (Ωi , τi ), i ∈ I eine beliebige Familie von polnischen Räumen (Erinnerung: nach Satz 8.35 sind polnische Räume auch Borel’sche Räume), Ai = / σ(τi ) und Pi ein beliebiges W-Maß auf (Ωi , Ai ). Für endliches J ⊂ I sei PJ = j∈J Pj das Produktmaß der Pj , j ∈ J. Offenbar ist die Familie (PJ , J ⊂ I endlich) projektiv. Wir nennen P = i∈I

Pi := lim P ←− J J↑I

das Produktmaß auf (Ω, A). Unter P sind alle Projektionen Xj unabhängig.

3

Beispiel 14.38. (Pólya’sches Urnenmodell) (Vergleiche Beispiel 12.29.) Zunächst befinden sich k rote und n − k blaue Kugeln in einer Urne. Es wird in jedem Zeitschritt eine Kugel gezogen und zusammen mit einer weiteren Kugel der selben Farbe zurückgelegt. Zur Zeit i ∈ N0 befinden sich also n + i Kugeln in der Urne, wobei die Anzahl Xi der roten Kugeln zufällig ist. Formal definieren wir das Modell so: Sei n ∈ N und k ∈ {0, . . . , n}. Sei I = N0 , Ωi = {0, . . . , n + i}, i ∈ N. Setze P0 [{k}] = 1 und definiere die stochastischen Kerne κi von Ωi nach Ωi+1 durch ⎧ xi falls xi+1 = xi + 1, ⎪ ⎪ n+i , ⎨ xi , falls xi+1 = xi , κi (xi , {xi+1 }) = 1 − n+i ⎪ ⎪ ⎩ 0, sonst. Setze nun Pi+1 = Pi ⊗ κi . Unter dem Maß P = lim Pi beschreiben die Projek←− i→∞

tionen (Xi , i ∈ N0 ) gerade das Pólya’sche Urnenmodell.

3

14.4 Markov’sche Halbgruppen Definition 14.39. Sei E ein polnischer Raum. Sei I ⊂ R eine nichtleere Indexmenge und (κs,t : s, t ∈ I, s < t) eine Familie von stochastischen Kernen von E nach E. Wir sagen, dass die Familie konsistent ist, falls für je drei Zahlen r, s, t ∈ I mit r < s < t gilt, dass κr,s · κs,t = κr,t .

14.4 Markov’sche Halbgruppen

277

Definition 14.40. Sei E ein polnischer Raum. Sei I ⊂ [0, ∞) eine Halbgruppe (zum Beispiel I = N0 oder I = [0, ∞)). Eine Familie (κt : t ∈ I) von stochastischen Kernen heißt eine Halbgruppe von stochastischen Kernen, oder Markov’sche Halbgruppe, falls sie die Chapman-Kolmogorov’sche Gleichung erfüllt: κs · κt = κs+t

für alle s, t ∈ I.

(14.13)

Tatsächlich ist ({κt : t ∈ I}, · ) eine Halbgruppe im algebraischen Sinne, und die Abbildung t → κt ist ein Halbgruppenhomomorphismus. Insbesondere kommutieren die Kerne in dem Sinne, dass κs · κt = κt · κs für alle s, t ∈ I. Lemma 14.41. Ist (κt : t ∈ I) eine Markov’sche Halbgruppe, so ist die für t > s durch κ ˜ s,t := κt−s definierte Familie von Kernen konsistent. Beweis. Das ist trivial.

2

Satz 14.42 (Kern durch konsistente Familie von Kernen). Sei I ⊂ [0, ∞) mit 0 ∈ I und (κs,t : s, t ∈ I, s < t) eine konsistente Familie von stochastischen Kernen auf dem polnischen Raum E. Dann existiert ein Kern κ von (E, B(E)) nach (E I , B(E)⊗I ), sodass für jedes x ∈ E und je endlich viele Zahlen 0 = j0 < j1 < j2 < . . . < jn aus I sowie J := {j0 , . . . , jn } gilt n−1 κ(x, · ) ◦ XJ−1 =

κjk ,jk+1

(x, · ).

(14.14)

k=0

Beweis. Wir zeigen zunächst, dass für festes x ∈ E durch (14.14) ein W-Maß definiertwird. Hierfürreicht es nach dem Erweiterungssatz zu zeigen, dass die durch n−1 / PJ := κjk ,jk+1 (x, · ) definierte Familie (PJ : J ⊂ I endlich, 0 ∈ J) von k=0

W-Maßen konsistent ist. Sei also 0 ∈ L ⊂ J ⊂ I mit J ⊂ I endlich. Dann ist zu zeigen, dass PJ ◦ (XLJ )−1 = PL ist. Wir können annehmen, dass L = J \ {jl } ist für ein l = 1, . . . , n. Den allgemeinen Fall erhält man hieraus induktiv. Sei zunächst l = n. Seien Aj0 , . . . , Ajn−1 ∈ B(E) und A := ×j∈L Aj . Dann ist

PJ ◦ (XLJ )−1 (A) = PJ (A × E) = PL ⊗ κjn−1 ,jn (A × E)

= PL d(ω0 , . . . , ωn−1 ) κjn−1 ,jn (ωn−1 , E) = PL (A). A

Sei nun l ∈ {1, . . . , n − 1} und Aj ∈ B(E) für jedes j ∈ L sowie Ajl := l−1 E. Setze A := ×j∈L Aj und, zur Abkürzung, A′ = ×k=0 Ajk und P ′ = /l−2 ur i = 0, . . . , n − 1 k=0 κjk ,jk+1 (x, · ) sowie f¨

278


fi (ωi ) =

n

κjk ,jk+1 k=l

(ωi , Aji+1 × · · · × Ajn ).

Nach Voraussetzung (und dem Satz von Fubini) ist κjl−1 ,jl (ωl−1 , dωl ) κjl ,jl+1 (ωl , dωl+1 ) fl+1 (ωl+1 ) fl−1 (ωl−1 ) = E

=

Al+1

κjl−1 ,jl+1 (ωl−1 , dωl+1 ) fl+1 (ωl+1 ).

Al+1

Es folgt PJ ◦(XLJ )−1 (A) = P ′ (d(ω0 , . . . , ωl−1 )) fl+1 (ωl+1 ) A′ ′ = P (d(ω0 , . . . , ωl−1 )) (κjl−1 ,jl+1 )(ωl−1 , dωl+1 ) f (ωl+1 ) A′

Ajl+1

= PL (A). Wir müssen nun noch zeigen, dass κ ein stochastischer Kern ist, also dass x → κ(x, A) messbar ist bezüglich B(E) – B(E)⊗I . Nach Bemerkung 8.25 reicht es aus, dies für Rechteckmengen mit endlicher Basis A ∈ Z R zu prüfen, denn Z R ist ⊗I ein schnittstabiler Erzeuger von B(E) . Seien also 0 = t0 < t1 < . . . < tn und n (Bi ). Nach Korollar 14.24 ist aber die B0 , . . . , Bn ∈ B(E) sowie A = i=0 Xt−1 i folgende Abbildung messbar x → Px [A] =

n−1 i=0

κti+1 −ti

n

x,

× i=0

Bi .

2

Korollar 14.43 (Maß durch konsistente Familie von Kernen). Unter den Bedingungen von Satz

I 14.42 existiert zu jedem W-Maß μ auf E genau ein W-Maß Pμ auf E , B(E)⊗I mit der Eigenschaft: Für je endlich viele Zahlen 0 = j0 < j1 < /n−1 j2 < . . . < jn aus I und J := {j0 , . . . , jn } ist Pμ ◦ XJ−1 = μ ⊗ k=0 κjk ,jk+1 . Beweis. Man setze Pμ = μ ⊗ κ.

2

Als einfache Schlussfolgerung aus Lemma 14.41 und Satz 14.42 ergibt sich die folgende Aussage, die wir separat formulieren, weil wir sie später noch an zentraler Stelle benötigen werden.

14.4 Markov’sche Halbgruppen

279

Korollar 14.44 (Maße durch Markov’sche Halbgruppen). Sei (κt : t ∈ I) eine Markov’sche Halbgruppe auf dem polnischen Raum E. Dann existiert genau ein stochastischer Kern κ von (E, B(E)) nach (E I , B(E)⊗I ) mit der Eigenschaft: Für jedes x ∈ E und je endlich viele Zahlen 0 = t0 < t1 < t2 < . . . < tn aus I sowie J := {t0 , . . . , tn } ist n−1 κ(x, · ) ◦ XJ−1 =

k=0

κtk+1 −tk

(x, · ).

(14.15)

Für jedes W-Maß μ auf E existiert genau ein W-Maß Pμ auf E I , B(E)⊗I mit der Eigenschaft: Für je endlich viele Zahlen 0 = / t0 < t1 < t2 < . . . < tn aus n−1 I und J := {t0 , . . . , tn } ist Pμ ◦ XJ−1 = μ ⊗ k=0 κtk+1 −tk . Wir schreiben Px = Pδx = κ(x, · ) für x ∈ E. Beispiel 14.45 (Unabhängige, normalverteilte Zuwächse). Seien I = [0, ∞) und Ωi = R, i ∈ [0, ∞), mit der Borel’schen σ-Algebra B = B(R), Ω = R[0,∞) , A = B ⊗[0,∞) und Xt die kanonische Projektion für t ∈ [0, ∞). Im Sinne von Definition 14.6 ist X = (Xt )t≥0 also der kanonische Prozess auf (Ω, A).

Wir wollen ein W-Maß P auf (Ω, A) konstruieren, sodass der stochastische Prozess X unabhängige, stationäre, normalverteilte Zuwächse hat (siehe Definition 9.7). Das heißt, es sollen gelten: für 0 =: t0 < t1 < . . . < tn ist (Xti − Xti−1 )i=1,...,n unabhängig, für

t>s

ist

PXt −Xs = N0,t−s .

(14.16) (14.17)

Dazu definieren wir die stochastischen Kerne κt (x, dy) := δx ∗ N0,t (dy) für t ∈ [0, ∞), wobei N0,0 = δ0 . Nach Lemma 14.27 gilt die Chapman-Kolmogorov’sche ¨ Gleichung, denn (vergleiche Ubung 14.2.1(i)) κs · κt (x, dy) = δx ∗ (N0,s ∗ N0,t )(dy) = δx ∗ N0,s+t (dy) = κs+t (x, dy). Sei P0 = δ0 und P das nach Korollar 14.44 zu P0 und (κt : t ≥ 0) gehörige W-Maß auf Ω. Nach Satz 14.28 gelten (14.16) und (14.17). Wir haben mit (Xt )t≥0 fast schon die so genannte Brown’sche Bewegung konstruiert. Zusätzlich zu den gezeigten Eigenschaften hat die Brown’sche Bewegung die Eigenschaft, dass die Pfade, also die Abbildungen t → Xt , stetig sind. In der Tat ist mit der bisherigen Konstruktion sogar die Messbarkeit der Pfade noch ungeklärt. Hier muss noch gearbeitet werden, und wir kommen darauf in Kapitel 21 zurück.3 Die Konstruktion im vorangehenden Beispiel hängt nicht von den Details der Normalverteilung ab, sondern nur von der Eigenschaft N0,s+t = N0,s ∗ N0,t . Wir können also in (14.17) die Normalverteilung durch eine beliebige parametrisierte

280


Familie von Verteilungen (νt , t ≥ 0) mit der Eigenschaft νt+s = νt ∗ νs ersetzen. Dies gilt speziell für die Familie der Gammaverteilungen νt = Γθ,t (für festes θ > 0), die Poissonverteilung νt = Poit , die negative Binomialverteilung νt = b− t,p (für festes p ∈ (0, 1]), die Cauchy-Verteilung νt = Caut und andere (vergleiche Satz 15.12 und Korollar 15.13). Wir halten dieses Ergebnis in einem Satz fest. Definition 14.46 (Faltungshalbgruppe). Sei I ⊂ [0, ∞) eine Halbgruppe. Eine Familie ν = (νt : t ∈ I) von Wahrscheinlichkeitsverteilungen auf Rd heißt Faltungshalbgruppe, falls νs+t = νs ∗ νt gilt für alle s, t ∈ I. t→0

Ist I = [0, ∞) und gilt zudem νt −→ δ0 , so heißt die Faltungshalbgruppe stetig (im Sinne der schwachen Konvergenz). Ist d = 1 und νt ((−∞, 0)) = 0 für jedes t ∈ I, so heißt ν eine nichtnegative Faltungshalbgruppe. Für den folgenden Satz vergleiche Definition 9.7. Satz 14.47. Zu jeder Faltungshalbgruppe (νt : t ∈ I) und jedem x ∈ Rd existiert ein W-Maß Px auf dem Produktraum (Ω, A) = (Rd )I , B(Rd )⊗I , sodass der kanonische Prozess (Xt )t∈I ein stochastischer Prozess mit Px [X0 = x] = 1 und stationären unabhängigen Zuwächsen ist mit Px ◦ (Xt − Xs )−1 = νt−s für t > s. Umgekehrt definiert jeder stochastische Prozess (Xt )t∈I (auf einem beliebigen Wahrscheinlichkeitsraum (Ω, A, P)) mit stationären unabhängigen Zuwächsen eine Faltungshalbgruppe durch νt = P ◦ (Xt − X0 )−1 für jedes t ∈ I. ¨ Ubung 14.4.1. Sei (νt : t ≥ 0) eine stetige Faltungshalbgruppe. Man zeige: Für jedes t > 0 gilt νt = lims→t νs . ♣ n→∞ ¨ Ubung 14.4.2. Sei (νt : t ≥ 0) eine Faltungshalbgruppe. Man zeige: Für νt/n −→ δ0 . ♣

¨ Ubung 14.4.3. Man zeige: Eine nichtnegative Faltungshalbgruppe ist stetig.

♣

¨ Ubung 14.4.4. Man zeige: Eine stetige, reelle Faltungshalbgruppe (νt : t ≥ 0) mit νt ((−∞, 0)) = 0 für ein t > 0 ist nichtnegativ. ♣

15 Charakteristische Funktion und Zentraler Grenzwertsatz

Hauptziel dieses Abschnitts ist der Zentrale Grenzwertsatz für Summen unabhängiger Zufallsvariablen (Satz 15.37) und für unabhängige Schemata (Satz von Lindeberg-Feller, Satz 15.43), wobei wir für den letzteren nur die eine Richtung beweisen (Satz von Lindeberg). Das Hilfsmittel der Wahl für die Behandlung von Zentralen Grenzwertsätzen sind charakteristische Funktionen, also Fouriertransformierte von W-Maßen. Wir beginnen mit einer sehr allgemeinen Betrachtung u¨ ber Klassen von Testfunktionen, die schwache Konvergenz charakterisieren können, und betrachten dann Fouriertransformierte im Detail. Der nachfolgende Abschnitt beweist mit Hilfe von charakteristischen Funktionen den Zentralen Grenzwertsatz für reelle Zufallsvariablen. Im fünften Abschnitt zeigen wir den mehrdimensionalen Zentralen Grenzwertsatz.

15.1 Trennende Funktionenklassen Sei (E, d) ein metrischer Raum mit Borel’scher σ-Algebra E = B(E).

Mit C = {u + iv : u, v ∈ R} bezeichnen wir den Körper der komplexen Zahlen. Mit Re(u + iv) = u und Im(u + iv) = v bezeichnen wir den Realteil und den Imaginärteil von√z = u + iv ∈ C, mit z = u − iv die zu z komplex konjugierte Zahl und mit |z| = u2 + v 2 den Betrag von z. Von prominenter Bedeutung wird für uns die komplexe Exponentialfunktion exp : C → C sein, die wir durch exp(z) = ∞ exp(u) cos(v) + i sin(v) oder durch die Potenzreihe exp(z) = n=0 z n /n! definieren können. Bekanntlich gilt exp(z1 + z2 ) = exp(z1 ) · exp(z2 ). Man beachte, dass aus Re(z) = (z + z)/2 und Im(z) = (z − z)/2i folgt, dass cos(x) =

eix + e−ix 2

und

sin(x) =

eix − e−ix 2i

für jedes x ∈ R.

Eine Abbildung f : E → C ist genau dann messbar, wenn Re(f ) und Im(f ) messbar sind (siehe Satz 1.90 mit C ∼ = R2 ). Insbesondere ist jede stetige Funktion E → C messbar. Ist μ ∈ M(E), so definieren wir f dμ := Re(f ) dμ + i Im(f ) dμ,

282


wenn beide Integrale existieren und endlich sind. Mit Cb (E; C) bezeichnen wir den Banachraum der stetigen, beschränkten, komplexwertigen Funktionen auf E, ausgestattet mit der Supremumsnorm f ∞ = sup{|f (x)| : x ∈ E}. Wir nennen C ⊂ Cb (E; C) trennend für M 0 f (E), falls 0 es für je zwei Maße μ, ν ∈ Mf (E) mit μ = ν ein f ∈ C gibt mit f dμ = f dν. Satz 13.34 gilt für C ⊂ Cb (E; C) sinngemäß. Definition 15.1. Sei K = R oder K = C. Eine Teilmenge C ⊂ Cb (E; K) heißt Algebra, falls (i) 1 ∈ C,

(ii) für f, g ∈ C sind f · g ∈ C und f + g ∈ C,

(iii) für f ∈ C und α ∈ K ist (αf ) ∈ C.

C heißt Punkte trennend, falls es zu je zwei Punkten x, y ∈ E mit x = y ein f ∈ C gibt mit f (x) = f (y). Satz 15.2 (Stone-Weierstraß). Sei E ein kompakter Hausdorffraum. Sei K = R oder K = C. Sei C ⊂ Cb (E; K) eine Punkte trennende Algebra. Ist K = C, so sei C zusätzlich abgeschlossen bezüglich komplexer Konjugation (das heißt, mit f ist stets auch die komplex konjugierte Funktion f in C). Dann liegt C dicht in Cb (E; K) bezüglich der Supremumsnorm.

Beweis. Wir folgen der Darstellung in Dieudonné ([34, Kapitel VII.3]). Sei zunächst der Fall K = R betrachtet. Wir gehen in mehreren Schritten vor. 1. Schritt Nach dem Weierstraß’schen Approximationssatz (Beispiel 5.15) gibt √ es eine Folge (pn )n∈N von Polynomen, die die Abbildung [0, 1] → [0, 1], t → t gleichmäßig approximiert. Ist f ∈ C, so ist also |f | = f ∞ limn→∞ pn (f 2 /f 2∞ ) im Abschluss C von C in Cb (E; R). 2. Schritt Indem wir den 1. Schritt auf die Algebra C anwenden, folgt, dass mit f, g ∈ C auch f ∨ g = 12 (f + g + |f − g|) und f ∧ g = 21 (f + g − |f − g|) in C liegen. 3. Schritt Für jedes f ∈ Cb (E; R), jedes x ∈ E und jedes ε > 0 existiert ein gx ∈ C mit gx (x) = f (x) und gx (y) ≤ f (y) + ε für jedes y ∈ E. Da C Punkte trennt, existiert für jedes z ∈ E \{x} ein Hz ∈ C mit Hz (z) = H(x) = 0. Für diese (x) z definieren wir hz ∈ C durch hz (y) = f (x) + f (z)−f ur jedes y ∈ E. Hz (z) Hz (y) f¨ Zudem setzen wir hx := f . Dann ist hz (x) = f (x) und hz (z) = f (z) für jedes z ∈ E. Da f und hz stetig sind, existiert zu jedem z ∈ E eine offene Umgebung ¨ Uz ∋ z mit h(y) ≤ f (y)+ε für jedes y ∈ Uz . Wir bilden eine endliche Uberdeckung Uz1 , . . . , Uzn von E mit solchen Umgebungen und setzen gx = min(hz1 , . . . , hzn ). Nach Schritt 2 ist gx ∈ C.

15.1 Trennende Funktionenklassen

283

4. Schritt Sei f ∈ Cb (E; R), ε > 0 und gx wie im 3. Schritt für jedes x ∈ E. Da f und gx stetig sind, existiert zu jedem x ∈ E eine offene Umgebung Vx ∋ x ¨ mit gx (y) ≥ f (y) − ε für jedes y ∈ Vx . Wir bilden eine endliche Uberdeckung Vx1 , . . . , Vxn von E und definieren g := max(gx1 , . . . , gxn ). Dann ist g ∈ C nach Schritt 2 und g − f ∞ < ε nach Konstruktion. Da ε > 0 beliebig war, gilt also C = Cb (E; R). 5. Schritt Sei nun K = C betrachtet. Nach Voraussetzung sind mit f auch der Realteil Re(f ) = (f + f¯)/2 und der Imaginärteil Im(f ) = (f − f¯)/2i in C. Speziell ist C0 := {Re(f ) : f ∈ C} ⊂ C eine reelle Algebra, die nach Voraussetzung Punkte trennt und die konstanten Funktionen enthält. Also ist C0 dicht in Cb (E; R). Wegen C = C0 + iC0 folgt, dass C dicht in Cb (E; C) ist. 2 Korollar 15.3. Sei E ein kompakter, metrischer Raum. Sei K = R oder K = C. Sei C ⊂ Cb (E; K) eine Punkte trennende Familie, die stabil ist unter Multiplikation und 1 enthält. Ist K = C, so sei C zusätzlich abgeschlossen bezüglich komplexer Konjugation. Dann ist C eine trennende Familie für Mf (E).

0 0 Beweis. Seien μ1 , μ2 ∈ Mf (E) mit g dμ1 = g dμ2 für jedes g ∈ C. Sei C ′ die Algebra der endlichen Linearkombinationen von Elementen aus C. Aufgrund der 0 0 Linearität des Integrals gilt g dμ1 = g dμ2 für jedes g ∈ C ′ .

ε > 0 existiert nach dem Satz von StoneZu jedem f ∈ Cb (E, R)=und jedem = Weierstraß ein g ∈ C ′ mit =f − g =∞ < ε. Nach der Dreiecksungleichung ist f dμ1 − f dμ2 ≤ f dμ1 − g dμ1 + g dμ1 − g dμ2 + g dμ2 − f dμ2 ≤ ε (μ1 (E) + μ2 (E)).

Da ε > 0 beliebig war, gilt Gleichheit und damit μ1 = μ2 (nach Satz 13.11).

2

Als einfache Schlussfolgerungen bekommen wir die folgenden Sätze. Satz 15.4. Die Verteilung einer beschränkten reellen Zufallsvariablen X ist durch die Angabe aller Momente eindeutig bestimmt. Beweis. Ohne Einschränkung können wir annehmen, dass X nur Werte in E := [0, 1] annimmt. Für n ∈ N definiere die Abbildung fn : [0, 1] → [0, 1] durch fn : x → xn . Ferner sei f0 ≡ 1. Die Familie C = {fn , n ∈ N0 } ist Punkte trennend und abgeschlossen unter Multiplikation, also trennend für0Mf (E). PX ist also eindeutig festgelegt durch Angabe der Momente E[X n ] = xn PX (dx), n ∈ N. 2

284


Beispiel 15.5 (nach [72]). Im vorangehenden Satz können wir nicht ohne Weiteres auf die Beschränktheit von X verzichten, selbst wenn alle Momente existieren (es gibt allerdings schwächere Bedingungen, siehe Korollar 15.32). Wir betrachten hierzu X := exp(Y ), wobei Y ∼ N0,1 . Die Verteilung von X heißt auch LogNormalverteilung. Für jedes n ∈ N ist nY verteilt wie die Summe von n2 unD abhängigen, standardnormalverteilten Zufallsvariablen nY = Y1 + . . . + Yn2 . Also ist für n ∈ N n2 2 n nY Y1 +...+Yn2 ]= E[eYi ] = E[eY ]n E[X ] = E[e ] = E[e =

i=1

∞

(2π)−1/2 ey e−y

2

/2

dy

−∞

n2

(15.1)

2

= en

/2

.

Wir wollen nun gleich eine ganze Familie von Verteilungen konstruieren, die die gleichen Momente wie X besitzen. Nach der Transformationsformel für Dichten (Satz 1.101) hat die Verteilung von X die Dichte 1 1 2 −1 √ f (x) = für x > 0. x exp − log(x) 2 2π Für α ∈ [−1, 1] definieren wir Wahrscheinlichkeitsdichten fα auf (0, ∞) durch

fα (x) = f (x) 1 + α sin(2π log(x)) .

Um zu zeigen, dass fα eine Dichte ist und die selben Momente wie f besitzt, reicht es zu zeigen, dass für jedes n ∈ N0 gilt ∞ m(n) := xn f (x) sin(2π log(x)) dx = 0. 0

Mit der Substitution y = log(x) − n erhalten wir (wegen sin(2π(y + n)) = sin(2πy)) ∞ 2 2 m(n) = eyn+n (2π)−1/2 e−(y+n) /2 sin(2π(y + n)) dy −∞

2

= (2π)−1/2 en

/2

∞

e−y

2

/2

sin(2πy) dy = 0,

−∞

wobei die letzte Gleichheit folgt, weil der Integrand eine ungerade Funktion ist. 3 Satz 15.6 (Laplace-Transformation). Ein endliches Maß μ auf [0, ∞) ist eindeutig bestimmt durch Angabe der Laplace-Transformierten Lμ (λ) := e−λx μ(dx) für λ ≥ 0.


285

Beweis. Dem Problem, dass der Raum [0, ∞) nicht kompakt ist, begegnen wir, indem wir zur (Einpunkt-) Kompaktifizierung E = [0, ∞] u¨ bergehen. Wir definieren für λ ≥ 0 die stetige Funktion fλ : [0, ∞] → [0, 1] durch fλ (x) = e−λx , falls x < ∞ und fλ (∞) = limx→∞ e−λx . Dann ist C = {fλ , λ ≥ 0} Punkte trennend, f0 = 1 ∈ C und fμ · fλ = fμ+λ ∈ C. Nach Korollar 15.3 ist C trennend für Mf ([0, ∞]), also auch für Mf ([0, ∞)). 2 Definition 15.7. Für μ ∈ Mf (Rd ) heißt die Abbildung ϕμ : Rd → C, die durch ϕμ (t) := eit,x μ(dx) definiert wird, die charakteristische Funktion von μ.

Satz 15.8 (Charakteristische Funktion). Ein endliches Maß μ ∈ Mf (Rd ) ist durch Angabe der charakteristischen Funktion eindeutig festgelegt.

Beweis. Für t ∈ Rd definiere ft : Rd → C durch ft : x → exp i t, x! . Offenbar ist C = {ft , t ∈ Rd } eine Punkte trennende Algebra, die abgeschlossen gegenüber komplexer Konjugation ist. Allerdings ist Rd nicht kompakt, sodass wir den Satz von Stone-Weierstraß nicht direkt anwenden können. Unsere Beweisstrategie ist nun zu zeigen, dass wir eine stetige, beschränkte Funktion f auf jedem Kompaktum gleichmäßig approximieren können, wobei das Supremum der approximierenden Funktionen außerhalb dieses Kompaktums beschränkt bleibt. Seien also μ1 , μ2 ∈ Mf (Rd ) mit ϕμ1 (t) = ϕμ2 (t) für alle t ∈ Rd . Sei f ∈ Cb (Rd ) beliebig und ε > 0. Wähle N ∈ N so groß, dass (1 + 2f ∞ ) · (μ1 + μ2 )(Rd \ [−N, N ]d ) < ε/2. Sei C ′ die Algebra endlicher Linearkombination von Funktionen f2πm für m ∈ Zd , und sei CN := {g : g ∈ C ′ } die Algebra der auf d [−N,N ]

[−N, N ]d eingeschränkten Funktion aus C ′ . Die Algebra CN ist Punkte trennend und abgeschlossen unter komplexer Konjugation, also nach dem Satz von StoneWeierstraß (Satz 15.2) dicht in Cb ([−N, N ]d ; C). Daher existiert ein g ∈ C ′ mit

ε δ := sup |g(x) − f (x)| : x ∈ [−N, N ]d < min 1, . 2(μ1 + μ2 )(Rd ) Wegen g(x) = g(x − kN ) für jedes k ∈ Zd , ist g − f ∞ ≤ g∞ + f ∞ ≤ 1 + 2f ∞ . Wir erhalten also f dμ1 − f dμ2

≤ g − f ∞ (μ1 + μ2 ) Rd \ [−N, N ]d + δ μ1 + μ2 (Rd ) ε ε ≤ + = ε. 2 2

286


Da ε > 0 beliebig war, stimmen die Integrale u¨ berein. Nach Satz 13.11 ist also μ1 = μ2 . 2 Korollar 15.9. Ein endliches Maß μ auf Zd ist durch die Werte ϕμ (t) = eit,x μ(dx), t ∈ [−π, π)d , eindeutig festgelegt.

Beweis. Dies ist klar, weil ϕμ (t + 2πk) = ϕμ (t) für jedes k ∈ Zd .

2

Während das vorangehende Korollar nur eine abstrakte Eindeutigkeitsaussage liefert, wird uns manchmal eine explizite Inversionsformel von Nutzen sein. Satz 15.10 (Diskrete Fourier-Inversionsformel). Sei μ ∈ Mf (Zd ) mit charakteristischer Funktion ϕμ . Dann gilt für jedes x ∈ Zd −d μ({x}) = (2π) e−it,x ϕμ (t) dt. [−π,π)d

Beweis. Nach dem Satz u¨ ber majorisierte Konvergenz ist ⎞ ⎛ eit,y μ({y})⎠ dt e−it,x ϕμ (t) dt = e−it,x ⎝ lim [−π,π)d

n→∞

[−π,π)d

= lim

n→∞

=

e−it,x

[−π,π)d

μ({y})

|y|≤n

eit,y μ({y}) dt

|y|≤n

eit,y−x dt.

[−π,π)d

y∈Zd

Die Behauptung folgt, weil für y ∈ Zd gilt (2π)d , it,y−x e dt = 0, [−π,π)d

falls x = y, sonst.

2

¨ Ahnliche Inversionsformeln gelten für Maße μ auf Rd . Besonders einfach ist der Fall, wo μ eine integrierbare Dichte f := dμ uglich des d-dimensionalen dλ bez¨ Lebesgue-Maßes λ hat. In diesem Fall gilt die Fourier-Inversionsformel e−it,x ϕμ (t) λ(dt). (15.2) f (x) = (2π)−d Rd

Es gilt die Plancherel’sche Gleichung: Es ist genau dann f ∈ L2 (λ), wenn ϕμ ∈ L2 (λ). In diesem Fall ist f 2 = ϕ2 .

Da wir diese Aussagen jedoch nicht weiter verwenden werden, verweisen wir lediglich auf die einschlägigen Lehrbücher (etwa [156, Kapitel V.2] oder [53, Theorem XV.3.3 und Gleichung (XV.3.8)]).


287

¨ Ubung 15.1.1. Man zeige, dass im Satz von Stone-Weierstraß auf die Kompaktheit von E nicht verzichtet werden kann. Hinweis: Man wähle etwa E = R, nutze aus, dass Cb (R) = Cb (R; R) nicht separabel ist und konstruiere eine abzählbare, Punkte trennende Algebra C ⊂ Cb (R). ♣ ¨ Ubung 15.1.2. Sei d ∈ N und μ ein endliches Maß auf [0, ∞)d . Man zeige: μ ist 0 −λ,x μ(dx), λ ∈ [0, ∞)d durch Angabe der Laplace-Transformierten Lμ (λ) = e eindeutig bestimmt. ♣ ¨ Ubung 15.1.3. Man zeige, dass unter den Voraussetzungen von Satz 15.10 die Plancherel’sche Gleichung gilt: μ({x})2 = (2π)−d |ϕμ (t)|2 dt. ♣ [−π,π)d

x∈Zd

¨ Ubung 15.1.4 (Mellin-Transformierte). Sei X eine nichtnegative reelle Zufallsvariable. Für s ≥ 0 definieren wir die Mellin-Transformierte von PX mX (s) = E[X s ] mit Werten in [0, ∞].

Man zeige: Gibt es ein ε0 > 0 mit mX (ε0 ) < ∞ (beziehungsweise mX (−ε0 ) < ∞), so ist für jedes ε > 0 die Verteilung PX eindeutig bestimmt durch die Werte mX (s) (beziehungsweise mX (−s)), s ∈ [0, ε]. Anleitung: Für stetiges f : [0, ∞) → [0, ∞) sei ∞ φf (s) = tz−1 f (z), 0

für diejenigen z ∈ C, für die dies wohldefiniert ist. Aus der Funktionentheorie ist bekannt: Ist φf (s) < ∞ für ein s > 1, so ist φf holomorph in {z ∈ C : Re(z) ∈ (1, s)} (und damit durch die Werte φf (r), r ∈ (1, 1 + ε) eindeutig festgelegt für jedes ε > 0), und es gilt für jedes r ∈ (1, s) ∞ 1 f (t) = t−(r+iρ) φf (r + iρ) dρ. 2π i −∞ (i) Man folgere die Aussage für X mit stetiger Dichte. (ii) Für δ > 0 sei Yδ ∼ U[1−δ,1] und unabhängig von X. Man zeige, dass XYδ eine stetige Dichte hat. (iii) Man bestimme mXYδ und zeige, dass mXYδ → mX für δ ↓ 0. (iv) Man zeige, dass XYδ =⇒ X für δ ↓ 0.

♣

288


¨ Ubung 15.1.5. Seien X, Y, Z unabhängige nichtnegative reelle Zufallsvariablen, sodass P[Z > 0] > 0, und sodass die Mellin-Transformierte mXZ (s) < ∞ ist für ein s > 0. D

D

Zeige: Gilt XZ = Y Z, so ist X = Y .

♣

¨ Ubung 15.1.6. Sei μ ein W-Maß auf R mit integrierbarer charakteristischer Funktion ϕμ , also ϕμ ∈ L1 (λ), wobei λ das Lebesgue-Maß auf R ist. Man zeige, dass μ absolutstetig ist und die stetige und beschränkte Dichte f = dμ dλ gegeben ist durch ∞ 1 f (x) = e−itx ϕμ (t) dt für jedes x ∈ R. 2π −∞ Anleitung: Man zeige dies zunächst für die Normalverteilung N0,ε , ε > 0. Man zeige dann, dass μ ∗ N0,ε absolutstetig ist mit Dichte fε , die punktweise gegen f konvergiert. ♣ ¨ Ubung 15.1.7. Sei (Ω, τ ) ein separabler topologischer Raum, der das T3 21 -Trennungsaxiom erfüllt: Zu jeder abgeschlossenen Menge A ⊂ Ω und jedem Punkt x ∈ Ω \ A existiert eine stetige Funktion f : Ω → [0, 1] mit f (x) = 0 und f (y) = 1 für jedes y ∈ A. (Insbesondere ist jeder metrische Raum ein T3 21 -Raum.) Man zeige: σ(Cb (Ω)) = B(Ω), das heißt, die Borel’sche σ-Algebra wird durch die beschränkten, stetigen Funktionen Ω → R erzeugt. ♣

15.2 Charakteristische Funktionen: Beispiele Lemma 15.11. Sei X) eine Zufallsvariable mit Werten in Rd und charakteristischer * it,X Funktion ϕX (t) = E e . Dann gelten (i) |ϕX (t)| ≤ 1 für jedes t ∈ Rd und ϕX (0) = 1,

(ii) ϕaX+b (t) = ϕX (at) eib,t für jedes a ∈ R und b ∈ Rd ,

(iii) PX = P−X genau dann, wenn ϕ reellwertig ist,

(iv) Sind X und Y unabhängig, so ist ϕX+Y = ϕX · ϕY .

(v) Für jedes t ∈ R gilt für den Realteil 0 ≤ 1−Re(ϕX (2t)) ≤ 4(1−Re(ϕX (t))).

Beweis. (i) und (ii) sind trivial. (iii) ϕX (t) = ϕX (−t) = ϕ−X (t).

(iv) Da eit,X und eit,Y unabhängige Zufallsvariablen sind, gilt ) * ) * ) * ϕX+Y (t) = E eit,X · eit,Y = E eit,X E eit,Y = ϕX (t) ϕY (t).

15.2 Charakteristische Funktionen: Beispiele

289

(v) Nach dem Additionstheorem für Winkelfunktionen ist

1 − cos(2tX) = 2 1 − (cos(tX))2 ≤ 4 1 − cos(tX) . Bilde jetzt den Erwartungswert.

2

Satz 15.12 (Charakteristische Funktionen wichtiger Verteilungen). Wir geben für verschiedene Verteilungen P mit Dichte x → f (x) auf R oder Gewichten P ({k}), k ∈ N0 , die charakteristische Funktion ϕ(t) an: Verteilung

Char. Fkt.

Name Symbol

Parameter

auf

Dichte / Gewicht

Normal Nμ,σ2

μ∈R σ2 > 0

R

√ 1 2πσ 2

a>0

[0, a]

1/a

eiat −1 iat

a>0

[−a, a]

1/2a

sin(at) at

a>0

[−a, a]

1 a

Gleichvert. U[0,a] Gleichvert. U[−a,a] Dreieck Tria

2 1−cos(at) a2 t2

[0, ∞)

θr Γ (r)

(1 − it/θ)

[0, ∞)

θ e−θx

θ θ − it

θ −θ|x| e 2

1 1 + (t/a)2

R

Gamma Γθ,r

θ>0 r>0

Negativ Binomial b− r,p Poisson Poiλ

+ 1 − |x|/a

(1 − |t|/a)

a>0

Binomial bn,p

2 2 2 exp − (x−μ) eiμt · e−σ t /2 2 2σ

1 1−cos(ax) π ax2

N.N.

Exponential θ>0 expθ zweiseitig Exponential θ > 0 exp2θ Cauchy a>0 Caua

ϕ(t)

R

xr−1 e−θx

+

−r

1 1 e−a|t| aπ 1 + (x/a)2

n n k n∈N {0, . . . , n} (1 − p) + peit p (1 − p)n−k p ∈ [0, 1] k r −r p r>0 (−1)k pr (1 − p)k N0 p ∈ (0, 1] k 1 − (1 − p)eit λ>0

R

N0

e−λ

λk k!

exp λ(eit − 1)

290


Beweis. (i) (Normalverteilung) Nach Lemma 15.11 reicht es, den Fall μ = 0 und σ 2 = 1 zu betrachten. Mit Hilfe des Differentiationslemmas (Satz 6.28) und durch partielle Integration erhalten wir ∞ 2 d ϕ(t) = eitx ix e−x /2 dx = −t ϕ(t). dt −∞ Diese lineare Differentialgleichung mit Anfangswert ϕ(0) = 1 hat die eindeutige 2 Lösung ϕ(t) = e−t /2 . (ii) (Gleichverteilung) (iii) (Dreieck)

Dies ist unmittelbar.

Es gilt Tria = U[−a/2,a/2] ∗ U[−a/2,a/2] , also ist

ϕTria (t) = ϕU[−a/2,a/2] (t)2 = 4

sin(at/2)2 1 − cos(at) =2 , a2 t2 a2 t2

wobei wir ausgenutzt haben, dass nach dem Additionstheorem gilt 1 − cos(x) = sin(x/2)2 + cos(x/2)2 − cos(x) = 2 sin(x/2)2 . (iv) (N.N.) Dies lässt sich entweder direkt ausrechnen, oder mit Hilfe der FourierInversionsformel (Gleichung (15.2)) aus (iii) folgern. (v) (Gammaverteilung) Es reicht wiederum, den Fall θ = 1 zu betrachten. Für 0 ≤ b < c ≤ ∞ und t ∈ R sei γb,c,t der gerade Weg in C von b + ibt nach c + ict und δb,t der gerade Weg von b nach b + ibt sowie ǫc,t der gerade Weg von c + ict nach c. Mit der Substitution z = (1 − it)x ist ∞ 1 (1 − it)−r ϕ(t) = xr−1 e−x eitx dx = z r−1 e−z dz. Γ (r) 0 Γ (r) γ0,∞,t Daher reicht es zu zeigen, dass

0

γ0,∞,t

z r−1 exp(−z) dz = Γ (r).

Die Funktion z → z r−1 exp(−z) ist holomorph in der rechten komplexen Halbebene. Nach dem Residuensatz ist daher für 0 < b < c < ∞ c xr−1 exp(−x) dx = z r−1 exp(−z) dz b

γb,c,t

+

δb,t

0∞

z r−1 exp(−z) dz +

z r−1 exp(−z) dz.

ǫc,t

Wegen 0 xr−1 exp(−x) dx =: Γ (r), reicht es zu zeigen, dass die Integrale entlang δb,t und ǫc,t verschwinden, wenn b → 0 und c → ∞.

2 (r−1)/2 r−1 b exp(−b) für z ∈ δb,t . Da der Nun ist aber |z r−1 exp(−z)| ≤ (1 + 0t ) r−1 Weg δb,t die Länge b |t| hat, ist also δb,t z exp(−z) dz ≤ br e−b (1 + t2 )r/2 →


291

0 0, wenn b → 0. Analog ist ǫc,t z r−1 exp(−z) dz ≤ cr exp(−c)(1 + t2 )r/2 → 0, wenn c → ∞. (vi) (Exponentialverteilung)

Wegen expθ = Γθ,1 folgt dies aus (v).

(vii) (Zweiseitige Exponentialverteilung) Sind X und Y unabhängige expθ verteilte Zufallsvariablen, so ist X − Y ∼ exp2θ (Nachrechnen!). Also ist ϕexp2θ (t) = ϕexpθ (t) ϕexpθ (−t) =

1 1 1 = . 1 − it/θ 1 + it/θ 1 + (t/θ)2

(viii) (Cauchy Verteilung) Dies lässt sich entweder mit Hilfe des Residuenkalküls direkt ausrechnen, oder mit Hilfe der Fourier-Inversionsformel (Gleichung (15.2)) aus der Aussage für die zweiseitige Exponentialverteilung folgern. (ix) (Binomialverteilung) Nach dem binomischen Lehrsatz ist n n ϕ(t) = (1 − p)n−k (peit )k = (1 − p + peit )n . k k=0

(x) (Negative Binomialverteilung) Nach dem verallgemeinerten binomischen Lehrsatz (Lemma 3.5) ist für jedes x ∈ C mit |x| < 1 ∞ −r −r (1 − x) = (−x)k . k k=0

it

Wenn wir x = (1 − p) e setzen, folgt die Behauptung. (xi) (Poissonverteilung)

Es ist ϕPoiλ (t) =

∞

e−λ

n=0

it (λeit )n = eλ(e −1) . n!

2

Korollar 15.13. Es gelten die folgenden Faltungsformeln: (i) Nμ1 ,σ12 ∗ Nμ2 ,σ22 = Nμ1 +μ2 ,σ12 +σ22 für μ1 , μ2 ∈ R und σ12 , σ22 > 0,

(ii) Γθ,r ∗ Γθ,s = Γθ,r+s für θ, r, s > 0,

(iii) Caua ∗ Caub = Caua+b für a, b > 0,

(iv) bm,p ∗ bn,p = bm+n,p für m, n ∈ N und p ∈ [0, 1], − − ur r, s > 0 und p ∈ (0, 1], (v) b− r,p ∗ bs,p = br+s,p f¨

(vi) Poiλ ∗ Poiμ = Poiλ+μ für λ, μ ≥ 0.

Beweis. Die Aussagen folgen aus dem vorangehenden Satz zusammen mit ϕμ∗∗ν = ϕμ ϕν (Lemma 15.11). 2 Zwei einfache Verfahren, um charakteristische Funktionen von zusammengesetzten Verteilungen auszurechnen, liefert der folgende Satz:

292


Satz 15.14. (i) Seien μ1 , μ2 , . . . ∈ Mf (Rd ) und p1 , p2 , . . . nichtnegative Zahlen ∞ ∞ mit pn μn (Rd ) < ∞. Dann hat das Maß μ := pn μn ∈ Mf (Rd ) die n=1

n=1

charakteristische Funktion

ϕμ =

∞

(15.3)

pn ϕμn .

n=1

(ii) Es seien N, X1 , X2 , . . . unabhängige Zufallsvariablen. Die X1 , X2 , . . . seien identisch verteilt auf Rd mit charakteristischer Funktion ϕX . N habe Werte in N N0 und die Erzeugendenfunktion fN . Dann hat Y := Xn die charakterisn=1

tische Funktion ϕY (t) = fN (ϕX (t)).

(iii) Ist in (ii) speziell N ∼ Poiλ , so ist ϕY (t) = exp(λ(ϕX (t) − 1)). Beweis. (i) Setzen wir νn =

n

pk μk , so gilt ϕνn =

k=1

n

k=1

pk ϕμk wegen der Li-

nearität des Integrals. Nach Voraussetzung ist μ = w-lim νn , also auch ϕμ (t) = n→∞

lim ϕνn (t).

n→∞

(ii) Es ist ϕY (t) = =

∞

n=0 ∞

) * P[N = n] E eit,X1 +...+Xn P[N = n] ϕX (t)n = fN (ϕ(t)).

n=0

(iii) Der Spezialfall folgt, weil hier fN (z) = eλ(z−1) für z ∈ C mit |z| ≤ 1.

2

Beispiel 15.15. Sei n ∈ N, und seien Punkte 0 = a0 < a1 < . . . < an und 1 = y0 > y1 > . . . > yn = 0 gegeben. Sei ϕ : R → [0, ∞) diejenige gerade Funktion (also ϕ(x) = ϕ(−x)), die ϕ(ak ) = yk für jedes k = 0, . . . , n erfüllt und zwischen den Punkten ak linear interpoliert ist, sowie ferner ϕ(x) = 0 für |x| > an erfüllt. Wir wollen zusätzlich annehmen, dass die yk so gewählt sind, dass ϕ auf [0, ∞) konvex ist. Das ist a¨ quivalent zu der Bedingung, dass m1 ≤ m2 ≤ . . . ≤ mn ≤ 0, k−1 wo mk := aykk −y −ak−1 die Steigung im k-ten Intervall ist. Wir wollen zeigen, dass ϕ die charakteristische Funktion eines W-Maßes μ ∈ M1 (R) ist. Setze pk = ak (mk+1 − mk ) für k = 1, . . . , n.

k π) Sei μk ∈ M1 (Rd ) die Verteilung auf R mit Dichte π1 1−cos(a . Nach Satz 15.12 ak x2 + hat μk die charakteristische Funktion ϕμk (t) = 1 − a|t|k . Die charakteristische n Funktion ϕμ von μ := k=1 pk μk ist dann


ϕμ (t) =

n

k=1

293

pk (1 − |t|/ak )+ .

Dies ist eine stetige, symmetrische, reelle Funktion mit ϕμ (0) = 1, die auf den Intervallen [ak−1 , ak ] jeweils linear ist. Durch partielle Summation erhalten wir (wegen mn+1 = 0) für jedes k = 1, . . . , n ϕμ (al ) =

n

k=1

al ak (mk+1 − mk ) 1 − ak

+

=

' ( = (an − al )mn+1 − (al − al )ml − =−

n

n

(ak − al )(mk+1 − mk )

k=l n

(ak − ak−1 )mk

k=l+1

(yk − yk−1 ) = yl = ϕ(al ).

k=l+1

Also ist ϕμ = ϕ.

3

Beispiel 15.16. Wir betrachten die Funktion ϕ : R → [0, 1], die periodisch mit Periode 2π ist, und die für t ∈ [−π, π) definiert ist durch ϕ(t) = 1 − 2|t|/π. Durch die diskrete Fourier-Inversionsformel (Satz 15.10) erhalten wir, dass0ϕ die charakteristiπ sche Funktion des W-Maßes μ ∈ M1 (Z) mit μ({x}) = (2π)−1 −π cos(tx) ϕ(t) dt ist, wenn wir zeigen können, dass alle diese Zahlen μ({x}) nichtnegativ sind. Für x = 0 ist offenbar μ({x}) = 0. Für x ∈ Z \ {0} berechnen wir das Integral mit Hilfe partieller Integration π π cos(tx) ϕ(t) dt = 2 cos(tx) (1 − 2t/π) dt −π 0 π 2 4 4 4 1− sin(πx) − sin(0) + sin(tx) dt = x π x πx 0 4 = (1 − cos(πx)). πx2 Insgesamt erhalten wir μ({x}) =

4 π 2 x2 ,

0,

falls x ungerade ist, sonst.

Wegen μ(Z) = ϕ(0) = 1 ist μ tatsächlich ein W-Maß.

3

Beispiel 15.17. Wir betrachten die Funktion ψ : R → [0, 1], die periodisch mit Periode π ist, und die für t ∈ [−π/2, π/2) definiert ist durch ψ(t) = 1 − 2|t|/π. Ist ϕ die charakteristische Funktion zum Maß μ aus dem vorangehenden Beispiel, so ist offenbar ψ(t) = |ϕ(t)|. Andererseits ist ψ(t) = 12 + 12 ϕ(2t). Nach Satz15.14

294


und Lemma 15.11(ii) ist daher ψ die charakteristische Funktion des Maßes ν mit ν(A) = 21 δ0 (A) + 21 μ(A/2) für A ⊂ R. Also ist ⎧ 1 falls x = 0, ⎪ ⎪ 2, ⎨ 8 ν({x}) = π2 x2 , falls x2 ∈ Z ungerade ist, ⎪ ⎪ ⎩ 0, sonst. 3

Beispiel 15.18. Sei ϕ(t) = (1 − 2|t|/π)+ die charakteristische Funktion der Verteilung N.N.“ aus Satz 15.12 (mit a = π/2) und ψ die charakteristische Funktion ” aus dem vorangehenden Beispiel. Man beachte, dass ϕ(t) = ψ(t) für |t| ≤ π/2 und ϕ(t) = 0 für |t| > π/2, also ϕ2 = ϕ · ψ. Seien nun X, Y, Z unabhängige, reelle Zufallsvariablen mit charakteristischen Funktionen ϕX = ϕY = ϕ und ϕZ = ψ. D Dann ist ϕX ϕY = ϕX ϕZ , also X + Y = X + Z, jedoch stimmen die Verteilungen von Y und Z nicht u¨ berein. 3 ¨ Ubung 15.2.1. Sei ϕ die charakteristische Funktion der d-dimensionalen Zufallsvariablen X. Man zeige: Ist ϕ(t) = 1 für ein t = 0, so ist P[X ∈ Ht ] = 1, wo Ht = {x ∈ Rd : x, t! ∈ 2πZ}

= y + z · (2πt/t22 ) : z ∈ Z, y ∈ Rd mit y, t! = 0 .

Man folgere, dass ϕ(t + s) = ϕ(s) ist für jedes s ∈ Rd .

♣

D ¨ Ubung 15.2.2. Man zeige: Es gibt reelle Zufallsvariablen X, X ′ und Y, Y ′ mit X = D D X ′ und Y = Y ′ , sodass X ′ und Y ′ unabhängig sind und X + Y = X ′ + Y ′ gilt, jedoch X und Y nicht unabhängig sind. ♣

¨ Ubung 15.2.3. Sei X eine reelle Zufallsvariable mit charakteristischer Funktion ϕ. X heißt gitterverteilt, wenn es a, d ∈ R gibt, sodass P[X ∈ a + dZ] = 1. Zeige: X ist genau dann gitterverteilt, wenn es ein u = 0 gibt mit |ϕ(u)| = 1. ♣

15.3 Der Lévy’sche Stetigkeitssatz Die Hauptaussage dieses Abschnitts ist der Stetigkeitssatz von Lévy (Satz 15.23), der, grob gesprochen, besagt, dass eine Folge von charakteristischen Funktionen genau dann punktweise gegen eine stetige Funktion konvergiert, wenn der Grenzwert wieder eine charakteristische Funktion ist und die zugehörigen Wahrscheinlichkeitsmaße schwach konvergieren. Wir bereiten den Beweis des Satzes mit ein paar analytischen Aussagen vor.

15.3 Der Lévy’sche Stetigkeitssatz

295

Lemma 15.19. Sei μ ∈ M1 (Rd ) mit charakteristischer Funktion ϕ. Dann gilt

|ϕ(t) − ϕ(s)|2 ≤ 2 1 − Re(ϕ(t − s)) für alle s, t ∈ Rd . Beweis. Nach der Cauchy-Schwarz’schen Ungleichung gilt 2 eit,x − eis,x μ(dx) |ϕ(t) − ϕ(s)|2 = Rd 2

it−s,x is,x = e −1 e μ(dx) d R 2 is,x 2 it−s,x e μ(dx) e − 1 μ(dx) · ≤ Rd Rd

it−s,x = e − 1 e−it−s,x − 1 μ(dx) d

R = 2 1 − Re(ϕ(t − s)) .

2

Definition 15.20. Sei (E, d) ein metrischer Raum. Eine Familie (fi , i ∈ I) von Abbildungen E → R heißt gleichgradig gleichmäßig stetig, falls für jedes ε > 0 ein δ > 0 existiert, sodass |fi (t) − fi (s)| < ε für alle i ∈ I und alle s, t ∈ E mit d(s, t) < δ. Satz 15.21. Ist F ⊂ M1 (Rd ) eine straffe Familie, so ist {ϕμ : μ ∈ F} gleichgradig gleichmäßig stetig. Speziell ist jede charakteristische Funktion gleichmäßig stetig. Beweis. Zu zeigen ist, dass für jedes ε > 0 ein δ > 0 existiert, sodass für jedes t ∈ Rd , jedes s ∈ Rd mit |t − s| < δ und jedes μ ∈ F gilt: |ϕμ (t) − ϕμ (s)| < ε.

Da F straff ist, existiert ein N ∈ N mit μ([−N, N ]d ) > 1 − ε2 /6 für jedes μ ∈ F. d d Weiterhin existiert ein δ >2 0, sodass für x ∈ [−N, N ] und u ∈ R mit |u| < δ iu,x < ε /6. Wir erhalten so für jedes μ ∈ F gilt, dass 1 − e 1 − eiu,x μ(dx) 1 − Re(ϕμ (u)) ≤ d R ε2 1 − eiu,x μ(dx) ≤ + 3 d [−N,N ] ≤

ε2 ε2 ε2 + = 3 6 2

und damit für |t − s| < δ nach Lemma 15.19 |ϕμ (t) − ϕμ (s)| ≤ ε.

2

Lemma 15.22. Sei (E, d) ein metrischer Raum und f, f1 , f2 , . . . Abbildungen E → n→∞ R mit fn −→ f punktweise. Ist (fn )n∈N gleichgradig gleichmäßig stetig, so ist f gleichmäßig stetig und (fn )n∈N konvergiert gegen f gleichmäßig auf kompakten n→∞ Mengen: Für jede kompakte Menge K ⊂ E gilt sups∈K |fn (s) − f (s)| −→ 0.

296


Beweis. Sei ε > 0 vorgegeben und δ > 0 so gewählt, dass |fn (t) − fn (s)| < ε für alle n ∈ N und alle s, t ∈ E sind mit d(s, t) < δ. Für diese s, t gilt dann |f (s) − f (t)| = lim |fn (s) − fn (t)| ≤ ε. n→∞

Also ist f gleichmäßig stetig. Sei nun K ⊂ E kompakt. Da kompakte Mengen total beschränkt sind, existiert ein N N ∈ N sowie t1 , . . . , tN ∈ K mit K ⊂ i=1 Bδ (ti ). Wähle n0 ∈ N so groß, dass |fn (ti ) − f (ti )| ≤ ε ist für jedes i = 1, . . . , N und jedes n ≥ n0 .

Sei nun s ∈ K und n ≥ n0 . Wähle ein ti mit d(s, ti ) < δ. Dann gilt

|fn (s) − f (s)| ≤ |fn (s) − fn (ti )| + |fn (ti ) − f (ti )| + |f (ti ) − f (s)| ≤ 3ε. n→∞

Da ε > 0 beliebig war, gilt fn −→ f gleichmäßig auf K.

2

Wir nennen eine Abbildung f : Rd → R partiell stetig im Punkte x = (x1 , . . . , xd ), falls für jedes i = 1, . . . , d die Abbildung yi → f (x1 , . . . , xi−1 , yi , xi+1 , . . . , xd ) in yi = xi stetig ist. Satz 15.23 (Lévy’scher Stetigkeitssatz). Seien P, P1 , P2 , . . . ∈ M1 (Rd ) mit charakteristischen Funktionen ϕ, ϕ1 , ϕ2 , . . . n→∞

(i) Ist P = w-lim Pn , so gilt ϕn −→ ϕ gleichmäßig auf kompakten Mengen. n→∞

n→∞

(ii) Gilt ϕn −→ f punktweise für eine in 0 partiell stetige Funktion f : Rd → C, so existiert ein W-Maß Q mit ϕQ = f und Q = w-lim Pn . n→∞

n→∞

Beweis. (i) Es gilt ϕn −→ ϕ punktweise. Da die Familie (Pn )n∈N straff ist, ist (ϕn )n∈N nach Satz 15.21 gleichgradig gleichmäßig stetig. Nach Lemma 15.22 folgt hieraus die gleichmäßige Konvergenz auf kompakten Mengen. (ii) Nach Satz 13.34 reicht es zu zeigen, dass die Folge (Pn )n∈N straff ist. Zu diesem Zweck reicht es zu zeigen, dass für jedes k = 1, . . . , n die durch Pnk = Pn ◦πk−1 (wo πk : Rd → R die Projektion auf die k-te Koordinate ist) definierte Folge (Pnk )n∈N der k-ten Marginalverteilungen straff ist. Bezeichnet ek den k-ten Einheitsvektor in Rd , so ist die charakteristische Funktion von Pnk gegeben durch ϕPnk (t) = ϕn (t ek ). Nach Voraussetzung konvergiert nun aber ϕPnk für n → ∞ punktweise gegen eine in 0 stetige Funktion fk . Wir haben damit das Problem auf den eindimensionalen Fall zurückgeführt und können daher im Folgenden annehmen, dass d = 1 gilt. Da ϕn (0) = 1 ist für jedes n ∈ N, haben wir f (0) = 1. Wir definieren die Abbildung h : R → [0, ∞) durch h(x) = 1 − sin(x)/x für x = 0 und h(0) = 0. Offenbar ist h auf ganz R stetig differenzierbar. Wir erhalten leicht, dass

15.3 Der Lévy’sche Stetigkeitssatz

297

α := inf{h(x) : |x| ≥ 1} = 1 − sin(1) > 0. Jetzt berechnen wir (unter Benutzung der Markov’schen Ungleichung und des Satzes von Fubini) für K > 0

Pn [−K, K]c ≤ α−1 h(x/K) Pn (dx) [−K,K]c −1 ≤α h(x/K) Pn (dx) R 1

−1 1 − cos(tx/K) dt Pn (dx) =α =α

−1

R 1

0

= α−1

0

0

R

1

1 − cos(tx/K) Pn (dx) dt

1 − Re(ϕn (t/K)) dt.

Wir erhalten nun (mit dem Satz von der majorisierten Konvergenz) lim sup Pn ([−K, K]c ) ≤ α−1 lim sup n→∞

= α−1

n→∞ 1

= α−1

0

1

0

1 − Re(ϕn (t/K)) dt

lim 1 − Re(ϕn (t/K)) dt

n→∞

0

1

1 − Re(f (t/K)) dt.

Da f stetig und f (0) = 1 ist, konvergiert das letzte Integral gegen 0, wenn K → ∞. Also ist (Pn )n∈N straff. 2 Eine einfache Anwendung des Lévy’schen Stetigkeitssatzes auf Beispiel 15.15 liefert den folgenden Satz von Pólya. Satz 15.24 (Pólya). Sei f : R → [0, 1] stetig und gerade mit f (0) = 1. Ferner sei f auf [0, ∞) konvex. Dann ist f die charakteristische Funktion eines W-Maßes. Beweis. Wir können f auf [0, ∞) durch konvexe Polygonzüge fn approximieren, indem wir fn (k/n) = f (k/n) setzen für k = 0, . . . , n2 und fn zwischen den Stützstellen linear interpolieren und rechts von n konstant fortsetzen. Für x < 0 setzen wir fn (x) = fn (−x). Nach Beispiel 15.15 ist jedes fn charakteristische n→∞ Funktion eines W-Maßes μn . Offenbar gilt fn −→ f punktweise, also ist f die charakteristische Funktion eines W-Maßes μ = w-lim μn auf R. 2 n→∞

α

Korollar 15.25. Für jedes α ∈ (0, 1] und r > 0 ist ϕα,r (t) = e−|r t| die charakteristische Funktion eines symmetrischen W-Maßes μα,r auf R.

298


Bemerkung 15.26. Tatsächlich ist ϕα,r auch für α ∈ (0, 2] eine charakteristische Funktion (für α = 2 die der Normalverteilung), siehe Kapitel 16.2. Die Verteilungen μα,r haben die Eigenschaft α-stabil zu sein (siehe Definition 16.20): Sind X1 , X2 , . . . , Xn unabhängig und μα,a -verteilt, so ist ϕX1 +...+Xn (t) = ϕX (t)n = D

ϕX (n1/α t), also X1 + . . . + Xn = n1/α X1 .

3

Wir haben mit dem Satz von Stone-Weierstraß gesehen, dass charakteristische Funktionen Verteilungen eindeutig bestimmen. Der Satz von Pólya bietet eine hinreichende Bedingung dafür, dass eine symmetrische reelle Funktion eine charakteristische Funktion ist. Dass diese Bedingung nicht notwendig ist, sieht man schon daran, dass die charakteristische Funktion der Normalverteilung sie nicht erfüllt. Wir geben nun, gewissermaßen zur Allgemeinbildung und ohne Beweis, den Satz von Bochner an, der eine notwendige und hinreichende Bedingung dafür formuliert, dass eine Funktion ϕ : Rd → C die charakteristische Funktion eines W-Maßes ist. Definition 15.27. Eine Funktion f : Rd → C heißt positiv semidefinit, falls für jedes n ∈ N und alle t1 , . . . , tn ∈ Rd sowie y1 , . . . , yn ∈ C gilt n

k,l=1

yk y¯l f (tk − tl ) ≥ 0,

mit anderen Worten, falls die Matrix (f (tk − tl ))k,l=1,...,n positiv semidefinit ist. Lemma 15.28. Ist μ ∈ Mf (Rd ) mit charakteristischer Funktion ϕ, so ist ϕ positiv semidefinit. Beweis. Es gilt n

k,l=1

yk y¯l ϕ(tk − tl ) = =

n

yk y¯l

k,l=1 n

eix(tk −tl ) μ(dx)

yk eixtk yl eixtl μ(dx)

k,l=1

2 n = yk eixtk μ(dx) ≥ 0.

2

k=1

Der folgende Satz geht im Falle d = 1 auf Bochner (1932) zurück.

Satz 15.29 (Bochner). Eine stetige Funktion f : Rd → C ist genau dann die charakteristische Funktion einer Wahrscheinlichkeitsverteilung auf Rd , wenn f positiv semidefinit ist und f (0) = 1 gilt. Die Aussage gilt ebenfalls, wenn wir Rd durch eine lokalkompakte, abelsche Gruppe ersetzen.

15.4 Charakteristische Funktion und Momente

299

Beweis. Für den Fall d = 1 siehe [20, §20, Satz 23] oder [53, Kapitel XIX.2, Seite 622]. Für den ganz allgemeinen Fall siehe etwa [70, Seite 293, Theorem 33.3]. 2 ¨ Ubung 15.3.1. (Vergleiche [49] und [3].) Man zeige: Es gibt zwei austauschbare Folgen X = (Xn )n∈N und Y = (Yn )n∈N reeller Zufallsvariablen mit PX = PY , jedoch mit n n D Xk = Yk für jedes n ∈ N. (15.4) k=1

k=1

Anleitung:

(i) Definiere die charakteristischen Funktionen (siehe Satz 15.12) ϕ1 (t) = und ϕ2 (t) = (1 − t/2)+ . Zeige mit dem Satz von Pólya, dass ϕ1 (t), falls |t| ≤ 1, ψ1 (t) := ϕ2 (t), falls |t| > 1, und ψ2 (t) :=

ϕ2 (t),

falls |t| ≤ 1,

ϕ1 (t),

falls |t| > 1,

1 1+t2

charakteristische Funktionen von Wahrscheinlichkeitsverteilungen auf R sind. (ii) Definiere unabhängige Zufallsvariablen Xn,i , Yn,i , n ∈ N, i = 1, 2, und Θn , n ∈ N mit: Xn,i hat charakteristische Funktion ϕi , Yn,i hat charakteristische Funktion ψi und P[Θn = 1] = P[Θn = −1] = 21 . Setze Xn = Xn,Θn und Yn = Yn,Θn . Zeige, dass (15.4) gilt. (iii) Bestimme E[ei t1 X1 +i t2 X2 ] und E[eit1 Y1 +it2 Y2 ] für t1 = D

folgere, dass (X1 , X2 ) = (Y1 , Y2 ) und damit PX = PY .

1 2

und t2 = 2 und ♣

15.4 Charakteristische Funktion und Momente Wir wollen den Zusammenhang zwischen den Ableitungen der charakteristischen Funktion ϕX einer reellen Zufallsvariablen X und den Momenten von X untersuchen. Wir beginnen mit einem elementaren Lemma. it it (it)n−1 |t|n ≤ Lemma 15.30. Für t ∈ R und n ∈ N gilt e − 1 − − . . . − . 1! (n − 1)! n!

Beweis. Dies folgt direkt aus der Taylorformel, da die n-te Ableitung von eit dem Betrage nach 1 ist. 2

300


Satz 15.31 (Momente und Differenzierbarkeit). Sei X eine reelle Zufallsvariable mit charakteristischer Funktion ϕ. (i) Ist E[|X|n ] < ∞, so ist ϕ n-mal stetig differenzierbar mit Ableitungen ) * ϕ(k) (t) = E (iX)k eitX für jedes k = 0, . . . , n.

(ii) Ist speziell E[X 2 ] < ∞, so ist

1 ϕ(t) = 1 + it E[X] − t2 E[X 2 ] + ε(t) t2 2 mit ε(t) → 0 für t → 0. (iii) Sei h ∈ R. Gilt lim

n→∞

|h|n E[|X|n ] n!

ϕ(t + h) =

= 0, so ist für jedes t ∈ R ∞ (ih)k

k=0

) * Speziell gilt dies, falls E e|hX| < ∞.

k!

) * E eitX X k .

Beweis. (i) Für t ∈ R, h ∈ R \ {0} und k ∈ {1, . . . , n} sei k−1 (ihx)l −k itx ihx Yk (t, h, x) = k! h e e − . l! l=0

Dann ist E[Yk (t, h, X)] = k! h

−k

ϕ(t + h) − ϕ(t) −

k−1 l=1

) * hl E eitX (iX)l l!

.

Existiert nun der Limes ϕk (t) := limh→0 E[Yk (t, h, X)], so ist ϕ k-mal differenzierbar in t mit ϕ(k) (t) = ϕk (t). h→0

Es gilt aber (nach Lemma 15.30 mit n = k + 1) Yk (t, h, x) −→ (ix)k eitx für jedes x ∈ R und (nach Lemma 15.30 mit n = k) |Yk (t, h, x)| ≤ |x|k . Da nach Voraussetzung E[|X|k ] < ∞ gilt, folgt mit dem Satz u¨ ber majorisierte Konvergenz, h→0

dass E[Yk (t, h, X)] −→ E[(iX)k eitX ] = ϕ(k) (t). Eine einfache Anwendung des Stetigkeitslemmas (Satz 6.27) liefert die Stetigkeit von ϕ(k) . (ii) Dies folgt direkt aus (i). (iii) Nach Voraussetzung gilt


n−1 hn (ih)k ) * E[Yn (t, h, X)] E eitX X k = ϕ(t + h) − k! n!

301

k=0

≤

hn E[|X|n ] n→∞ −→ 0. n!

2

Korollar 15.32 (Momentenproblem). Sei X eine reelle Zufallsvariable mit α := lim sup n→∞

1 ) n *1/n E |X| < ∞. n

Dann ist die charakteristische Funktion ϕ von X analytisch, und die Verteilung n von X ist durch die Angabe ) t|X|der * Momente E[X ], n ∈ N, eindeutig bestimmt. Speziell gilt dies, falls E e < ∞ ist für ein t > 0.

√ 1 n −n Beweis. Nach der Stirling’schen Formel ist limn→∞ n! n e 2π n = 1. Für |h| < 1/(3α) gilt daher ) n √ * *1/n ) lim sup E |X|n · |h|n /n! = lim sup 2π n E |X|n · |h| · e/n n→∞ n→∞ √ ≤ lim sup 2π n (e/3)n = 0. n→∞

Die charakteristische Funktion ist also um jeden Punkt t ∈ R in eine Potenzreihe entwickelbar mit Konvergenzradius mindestens 1/(3α), ist insbesondere also analytisch. Damit ist sie festgelegt durch die Koeffizienten der Potenzreihe um t = 0, also durch die Momente von X. 2 Beispiele 15.33. (i) Sei X ∼ Nμ,σ2 . Dann ist für jedes t ∈ R * −1/2 ∞ tx −(x−μ)2 /2σ2 ) E etX = 2πσ 2 e e dx −∞

−1/2 ∞ −(x−μ−tσ2 )2 /2σ2 2 2 = eμt+t σ /2 2πσ 2 e dx μt+t2 σ 2 /2

=e

−∞

< ∞.

Also ist die Verteilung von X durch Angabe aller Momente komplett bestimmt. Die 2 2 charakteristische Funktion ϕ(t) = eiμt e−σ t /2 , die wir durch die obige Rechnung mit it statt t erhalten, ist in der Tat analytisch. (ii) Sei X exponentialverteilt mit Parameter θ > 0. Dann ist für t ∈ (0, θ) ∞ θ E[etX ] = θ etx e−θx dx = < ∞. θ−t 0

Also ist die Verteilung von X durch Angabe aller Momente bestimmt. Die selbe Rechnung mit it statt t liefert ϕ(t) = θ/(θ − it), und diese Funktion ist in der Tat

302


analytisch. Der Umstand, dass ϕ im Komplexen eine Singularität bei t = −iθ hat, impliziert, dass die Potenzreihe von ϕ um 0 den Konvergenzradius θ hat. Insbesondere folgt hieraus, dass nicht alle exponentiellen Momente existieren können. Dies wird reflektiert durch die obige Rechnung, die zeigt, dass für t ≥ θ keine exponentiellen Momente existieren. 2

(iii) Sei X log-normalverteilt (siehe Beispiel 15.5). Dann ist E[X n ] = en /2 . Speziell ist in diesem Fall α = ∞. Tatsächlich hatten wir in Beispiel 15.5 gesehen, dass die Momente in diesem Fall nicht die Verteilung von X bestimmen. (iv) Hat X Werte in N0 und gilt β := lim supn→∞ E[X n ]1/n < 1, so gilt nach ∞ k den Hadamard-Kriterium ψX (z) := ur |z| < 1/β. k=1 P[X = k] z < ∞ f¨ (n) Speziell ist die Erzeugendenfunktion von X durch die Ableitungen ψX (1), n ∈ N, und damit durch die Momente von X eindeutig festgelegt. Vergleiche Satz 3.2(iii). 3 Satz 15.34. Sei X eine reelle Zufallsvariable und ϕ die charakteristische Funktion von X. Sei n ∈ N, und ϕ sei 2n-mal differenzierbar in 0 mit Ableitung ϕ(2n) (0). Dann gilt E[X 2n ] = ϕ(2n) (0) < ∞. Beweis. Wir führen den Beweis per Induktion nach n ∈ N0 . Für n = 0 ist die Aussage trivialerweise richtig. Sei nun n ∈ N, und ϕ sei 2n-mal differenzierbar in 0. Wir setzen u(t) = Re(ϕ(t)). Dann ist u ebenfalls 2n-mal differenzierbar in 0 und u(2k−1) (0) = 0 für k = 1, . . . , n, weil u gerade ist. Da ϕ(2n) (0) existiert, ist ϕ(2n−1) stetig in 0 und ϕ(2n−1) (t) existiert für t ∈ (−ε, ε) für gewisses ε > 0. Ferner existiert dann ϕ(k) in (−ε, ε) und ist dort stetig für jedes k = 0, . . . , 2n − 2. Nach der Taylorformel gilt also für jedes t ∈ (−ε, ε) n−1 |t|2n−1 t2k (2k) sup u(2n−1) (θt) . (15.5) u (0) u(t) − ≤ (2k)! (2n − 1)! θ∈(0,1] k=0

Wir definieren eine stetige Funktion fn : R → [0, ∞) durch fn (0) = 1 und für x = 0 . n−1 2k n −2n k x . fn (x) = (−1) (2n)! x cos(x) − (−1) (2k)! k=0

2k

Nach Induktionsvoraussetzung ist E[X ] = u Es folgt mit (15.5)

(2k)

(0) für jedes k = 1, . . . , n − 1.

* 2n ) |u(2n−1) (θt)| sup |u(2n−1) (θt)| ≤ gn (t) := 2n sup . E fn (tX) X 2n ≤ |t| θ∈(0,1] θ |t| θ∈(0,1]

Mit dem Lemma von Fatou folgt ) * ) * ) * E X 2n = E fn (0)X 2n ≤ lim inf E fn (tX)X 2n t→0

≤ lim inf gn (t) = 2n u(2n) (0) < ∞. t→0


Hieraus folgt nach Satz 15.31 aber schon E[X 2n ] = u(2n) (0) = ϕ(2n) (0).

303

2

Bemerkung 15.35. Für ungerade Momente gilt die Aussage des Satzes nicht (siehe ¨ etwa Ubung 15.4.4 für das erste Moment). In der Tat ist ϕ in 0 genau dann diffex→∞ renzierbar mit Ableitung i m für ein m ∈ R, wenn x P[|X| > x] −→ 0 und x→∞ 3 E[X {|X|≤x} ] −→ m. (Siehe [53, Kapitel XVII.2a, Seite 565].) ¨ Ubung 15.4.1. Es seien X und Y nichtnegative Zufallsvariablen mit lim sup n→∞

1 E[|X|n ]1/n < ∞, n

lim sup n→∞

1 E[|Y |n ]1/n < ∞, n

und E[X m Y n ] = E[X m ] E[Y n ]

für alle m, n ∈ N0 .

Man zeige: X und Y sind unabhängig. Hinweis: Verwende Korollar 15.32 für die Zufallsvariable Y bezüglich des Wahrscheinlichkeitsmaßes X m P[ · ]/E[X m ] um zu zeigen, dass E[X m

A (Y

)]/E[X m ] = P[Y ∈ A]

für jedes A ∈ B(R) und m ∈ N0 .

Verwende nun Korollar 15.32 für X bezüglich des W-Maßes P[ · |Y ∈ A].

♣

¨ Ubung 15.4.2. Seien r, s > 0 und Z ∼ Γ1,r+s , B ∼ βr,s (siehe Beispiel 1.107). ¨ Man zeige mit Hilfe von Ubung 15.4.1: Die Zufallsvariablen X := BZ und Y := ♣ (1 − B)Z sind unabhängig mit X ∼ Γ1,r und Y ∼ Γ1,s . α ¨ Ubung 15.4.3. Man zeige, dass für α > 2 die Funktion φα (t) = e−|t| keine charakteristische Funktion ist.

(Hinweis: Man nehme das Gegenteil an und zeige, dass dann die zugehörige Verteilung verschwindende Varianz hätte.) ♣ ¨ Ubung 15.4.4. Seien X1 , X2 , . . . u.i.v. reelle Zufallsvariablen mit charakteristischer Funktion ϕ. Man zeige: (i) Ist ϕ differenzierbar in 0, so ist ϕ′ (0) = i m für ein m ∈ R.

(ii) ϕ ist differenzierbar in 0 mit ϕ′ (0) = i m genau dann, wenn (X1 + . . . + n→∞ Xn )/n −→ m stochastisch.

(iii) Die Verteilung von X1 kann so gewählt werden, dass ϕ differenzierbar in 0 ist, ♣ aber E[|X1 |] = ∞.

304


15.5 Der Zentrale Grenzwertsatz Während wir im starken Gesetz der großen Zahl gesehen haben, dass Summen Sn = X1 + . . . + Xn u.i.v. integrierbarer Zufallsvariablen Werte in etwa von der Größe n·E[X1 ] annehmen, wollen wir jetzt anschauen, wie groß und von welcher Form die typischen Abweichungen von diesem Wert sind – jedenfalls unter der zusätzlichen Annahme, dass Var[X1 ] ∈ (0, ∞). Wir bereiten den Beweis des zentralen Grenzwertsatzes mit einem Lemma vor.

Lemma 15.36. Seien X1 , X2 , . . . u.i.v. reelle Zufallsvariablen mit E[X1 ] = μ und Var[X1 ] = σ 2 ∈ (0, ∞). Sei n 1 (Xk − μ) Sn∗ := √ nσ 2 k=1

die standardisierte n-te Partialsumme. Dann gilt 2

lim ϕSn∗ (t) = e−t

n→∞

/2

für jedes t ∈ R.

Beweis. Sei ϕ = ϕXk −μ . Dann ist nach Satz 15.31(ii) σ2 2 t + ε(t) t2 , 2 wobei ε(t) → 0, wenn t → 0. Nach Lemma 15.11(iv) und (ii) ist n t ϕSn∗ (t) = ϕ √ . nσ 2 n n→∞ −t2 /2 t2 Nun ist 1 − 2n −→ e und n n 2 t2 t t 1− t ≤ n 1 − −ϕ √ −ϕ √ 2 2 2n 2n nσ nσ n→∞ t t2 −→ 0. ≤ n 2 ε √ nσ nσ 2 ϕ(t) = 1 −

(Beachte: |un − v n | ≤ |u − v| · n · max(|u|, |v|)n−1 für alle u, v ∈ C.)

2

Satz 15.37 (Zentraler Grenzwertsatz). Seien X1 , X2 , . . . u.i.v. reelle Zufallsvariablen mit μ:= E[X1 ] ∈ R und σ 2 := Var[X1 ] ∈ (0, ∞). Für n ∈ N sei n Sn∗ := √σ12 n i=1 (Xi − μ). Dann gilt n→∞

PSn∗ −→ N0,1 schwach.

Für −∞ ≤ a < b ≤ +∞ gilt lim P[Sn∗ ∈ [a, b]] = n→∞

√1 2π

0b a

2

e−x

/2

dx.

15.5 Der Zentrale Grenzwertsatz

305

Beweis. Nach Lemma 15.36 und dem Lévy’schen Stetigkeitssatz (Satz 15.23) kon2 vergiert PSn∗ gegen die Verteilung mit charakteristischer Funktion ϕ(t) = e−t /2 . Nach Satz 15.12(i) ist dies N0,1 . Der Zusatz folgt mit dem Portemanteau Theorem 2 (Satz 13.16), weil N0,1 eine Dichte hat, also N0,1 (∂[a, b]) = 0 gilt. Bemerkung 15.38. Man kann ohne Benutzung des Stetigkeitssatzes auch so argumentieren: Für jedes K > 0 und n ∈ N ist P[|Sn∗ | > K] ≤ Var[Sn∗ ]/K 2 = 1/K 2 , also ist die Folge PSn∗ straff. Da die charakteristischen Funktionen verteilungsbestimmend sind, folgt die Aussage mit Satz 13.34. 3 Wir wollen uns nun von der Annahme von Satz 15.37 lösen, dass die Zufallsvariablen identisch verteilt sind. Tatsächlich können wir sogar Partialsummen bilden, die jeweils ganz unterschiedliche zentrierte Zufallsvariablen aufsummieren. Entscheidend ist, dass die Varianz der normierten Summe 1 ist, und dass jeder einzelne Summanden nur einen kleinen Beitrag liefert. Definition 15.39. Für jedes n ∈ N sei k n ∈ N und seien Xn,1 , . . . , Xn,kn reelle Zufallsvariablen. Wir nennen (Xn,l ) = Xn,l , l = 1, . . . , kn , n ∈ N ein Schema von Zufallsvariablen. Wir definieren stets Sn = Xn,1 + . . . + Xn,kn als die Zeilensumme. Das Schema heißt – unabhängig, falls für jedes n ∈ N die Familie (Xn,l )l=1,...,kn unabhängig ist, – zentriert, falls Xn,l ∈ L1 (P) und E[Xn,l ] = 0 ist für jedes n und l, – normiert, falls Xn,l ∈ L2 (P) und

kn

l=1

Var[Xn,l ] = 1 ist für jedes n ∈ N.

Ein zentriertes Schema heißt asymptotisch vernachlässigbar, falls für jedes ε > 0 lim

max P[|Xn,l | > ε] = 0.

n→∞ 1≤l≤kn

Definition 15.40. Ein zentriertes Schema (Xn,l ) mit Xn,l ∈ L2 (P) für jedes n ∈ N und l = 1, . . . , kn erfüllt die Lindeberg-Bedingung, falls für jedes ε > 0 gilt, dass Ln (ε) :=

kn ( ' 1 n→∞ 2 E Xn,l −→ 0. 2 2 Xn,l > ε Var[Sn ]} { Var[Sn ]

(15.6)

l=1

Das Schema erfüllt die Lyapunov-Bedingung, falls für ein δ > 0 gilt kn * ) 1 E |Xn,l |2+δ = 0. 1+(δ/2) n→∞ Var[Sn ] l=1

lim

(15.7)

Lemma 15.41. Die Lyapunov-Bedingung impliziert die Lindeberg-Bedingung.

306


Beweis. Für x ∈ R ist x2 {|x|>ε′ } ≤ (ε′ )−δ |x|2+δ {|x|>ε′ } ≤ (ε′ )−δ |x|2+δ . Mit kn 3 * ) 1 −δ 2+δ ′ . 2 E |X | ε := ε Var[Sn ] folgt Ln (ε) ≤ ε n,l Var[Sn ]1+(δ/2) l=1 Beispiel 15.42. Seien (Yn )n∈N u.i.v. mit E[Yn ] = 0 und Var[Yn ] = 1. Sei kn = n und Xn,l = √Ynl . Dann ist (Xn,l ) unabhängig, zentriert und normiert. Es gilt √ n→∞ P[|Xn,l | > ε] = P[|Y1 | > ε n ] −→ 0, also ist (Xn,l ) asymptotisch ver* n→∞ ) 2 nachlässigbar. Es gilt Ln (ε) = E Y1 {|Y1 |>ε√n} −→ 0, also erfüllt (Xn,l ) die Lindeberg-Bedingung. Gilt Y1 ∈ L2+δ (P) für ein δ > 0, so ist

n * * n→∞ ) ) E |Xn,l |2+δ = n−(δ/2) E |Y1 |2+δ −→ 0. l=1

In diesem Fall erfüllt (Xn,l ) auch die Lyapunov Bedingung.

3

Der folgende Satz geht auf Lindeberg (1922) für die Richtung (i) =⇒ (ii) und Feller (1935 und 1937) für die Richtung (ii) =⇒ (i) zurück. In den Anwendungen interessiert meist nur die Richtung von Lindeberg (i) =⇒ (ii), daher beweisen wir nur diesen Teil. Für die Richtung (ii) =⇒ (i) siehe etwa [145, Theorem III.4.3]. Satz 15.43 (Zentraler Grenzwertsatz von Lindeberg-Feller). Sei (Xn,l ) ein unabhängiges, zentriertes und normiertes Schema reeller Zufallsvariablen, sowie Sn = Xn,1 + . . . + Xn,kn für jedes n ∈ N. Dann sind a¨ quivalent (i) Es gilt die Lindeberg-Bedingung. n→∞

(ii) (Xn,l ) ist asymptotisch vernachlässigbar, und es gilt PSn −→ N0,1 . Wir bereiten den Beweis des Satzes von Lindeberg mit ein paar Lemmata vor. Lemma 15.44. Gilt (i) in Satz 15.43, so ist (Xn,l ) asymptotisch vernachlässigbar. Beweis. Für ε > 0 ist nach der Chebyshev’schen Ungleichung kn kn ) * ) 2 E Xn,l P |Xn,l | > ε ≤ ε−2 l=1

l=1

{|Xn,l |>ε}

*

n→∞

= Ln (ε) −→ 0.

2

Seien im Folgenden stets ϕn,l und ϕn die charakteristischen Funktionen von Xn,l und Sn . Lemma 15.45. Für jedes n ∈ N und t ∈ R gilt

kn 2 1 − ϕn,l (t) ≤ t . 2 l=1

15.5 Der Zentrale Grenzwertsatz t2 x2 2 .

Beweis. Für jedes x ∈ R ist |eitx − 1 − itx| ≤ kn l=1

|ϕn,l (t) − 1| = ≤ ≤

307

Wegen E[Xn,l ] = 0 ist

kn itX E[e n,l − 1] l=1

kn * ) E eitXn,l − itXn,l − 1 + E[itXn,l ] l=1

kn 2 t l=1

2

t2 . 2

2 E[Xn,l ]=

2

kn ) * Lemma 15.46. Gilt (i) in Satz 15.43, so ist lim log ϕn (t)− E eitXn,l −1 = 0. n→∞

Beweis. Setze mn :=

Hieraus folgt

l=1

max |ϕn,l (t) − 1|. Beachte, dass für jedes ε > 0 gilt:

l=1,...,kn

itx e − 1 ≤

' |ϕn,l (t) − 1| ≤ E eitXn,l − 1

2 x2 /ε2 , ε t,

{|Xn,l |≤ε}

' 2 ≤ εt + 2 ε−2 E Xn,l

falls |x| > ε, falls |x| ≤ ε. (

' + E eitXn,l − 1

{|Xn,l |>ε}

Also ist für jedes ε > 0

(

n→∞

und damit lim mn = 0. Nun ist für x ∈ C mit |x| ≤ n→∞

(

.

lim sup mn ≤ lim sup εt + 2 ε−2 Ln (ε) = εt, n→∞

{|Xn,l |>ε}

Ist n groß genug, sodass mn < 12 , dann ist

1 2

stets | log(1 + x) − x| ≤ x2 .

308


k kn n itXn,l itXn,l log(ϕn,l (t)) − E[e − 1] E[e − 1] = log ϕn (t) − l=1

l=1

≤

kn

2 ϕn,l (t) − 1 l=1

≤ mn ≤

kn l=1

|ϕn,l (t) − 1|

1 mn t 2 2

−→ 0

(nach Lemma 15.45)

für n → ∞.

2

Der eigentliche Trick besteht in der Einführung der Funktion ⎧ 1 + x2 itx itx ⎪ ⎪ e −1− , falls x = 0, ⎨ x2 1 + x2 ft (x) := ⎪ ⎪ t2 ⎩ − , falls x = 0, 2

(15.8)

sowie der Maße μn , νn ∈ Mf (R), n ∈ N, νn (dx) :=

kn

x2 PXn,l (dx)

und

μn (dx) :=

l=1

kn l=1

x2 PXn,l (dx). 1 + x2

Lemma 15.47. Für jedes t ∈ R gilt ft ∈ Cb (R). Beweis. Für jedes |x| ≥ 1 ist

1+x2 x2

itx

|ft (x)| ≤ 2 |e

≤ 2, also gilt tx |+1+ 1 + x2

≤ 4 + 2|t|.

Wir müssen zeigen, dass ft stetig in 0 ist. Die Taylorformel (Lemma 15.30) liefert eitx = 1 + itx −

t2 x2 + R(tx) 2

mit |R(tx)| ≤ 61 |tx|3 . Also ist für festes t t2 1 1 t2 x2 + R(tx) =− . 2 lim ft (x) = lim itx 1 − − 2 2 0 =x→0 0=

x→0 x 1+x 2 2 n→∞

Lemma 15.48. Gilt (i) in Satz 15.43, so gilt νn −→ δ0 schwach.


309

Beweis. Für jedes n ∈ N ist νn ∈ M1 (R), denn νn (R) =

kn

x2 PXn,l (dx) =

l=1

kn

Var[Xn,l ] = 1,

l=1

n→∞

n→∞

Für ε > 0 gilt aber νn ((−ε, ε)c ) = Ln (ε) −→ 0, also νn −→ δ0 .

2

Lemma 15.49. Gilt (i) in Satz 15.43, so gilt

ft (x) μn (dx) + it

1 t2 n→∞ μn (dx) −→ − . x 2

Beweis. Wegen (x → ft (x)/(1 + x2 )) ∈ Cb (R) ist nach Lemma 15.48 t2 1 n→∞ . −→ f (0) = − ft (x) μn (dx) = ft (x) ν (dx) t n 1 + x2 2

Nun ist (x → x/(1 + x2 )) ∈ Cb (R) und E[Xn,l ] = 0 für jedes n und l, also . . kn kn 1 Xn,l Xn,l μn (dx) = E = E 2 2 − Xn,l x 1 + Xn,l 1 + Xn,l l=1

=− =−

l=1

kn l=1

-

Xn,l 2 E Xn,l · 2 1 + Xn,l

.

x n→∞ νn (dx) −→ 0. 1 + x2

2

Beweis von Satz 15.43 2 (i) =⇒ (ii)“ Wir müssen für jedes t ∈ R zeigen, dass lim log ϕn (t) = − t2 . ” n→∞ Nach Lemma 15.46 ist dies a¨ quivalent zu kn

t2 ϕn,l (t) − 1 = − . n→∞ 2

lim

l=1

2

x itx Nun ist ft (x) 1+x −1− 2 = e

itx 1+x2 .

Also gilt

kn kn

ϕn,l (t) − 1 = ft (x) l=1

l=1

=

ft dμn + it

n→∞

−→ −

t2 2

itx x2 + 1 + x2 1 + x2

PXn,l (dx)

1 μn (dx) x

(nach Lemma 15.49)

2

310


Als eine Anwendung des Satzes von Lindeberg-Feller bringen wir den so genannten Dreireihensatz, der auf Kolmogorov zurückgeht. Satz 15.50 (Kolmogorov’scher Dreireihensatz). Seien X1 , X2 , . . . unabhängige reelle Zufallsvariablen. Es sei K > 0 und Yn := Xn {|Xn |≤K} für jedes n ∈ N. ∞ Die Reihe n=1 Xn konvergiert genau dann fast sicher, wenn die folgenden drei Bedingungen gelten: (i)

∞

n=1

(ii)

∞

P[|Xn | > K] < ∞, E[Yn ] konvergiert,

n=1

(iii)

∞

n=1

Var[Yn ] < ∞.

¨ Beweis. ⇐= “ Es gelten (i), (ii) und (iii). Nach Ubung 7.1.1 konvergiert ∞ wegen ” ∞ (iii) die Reihe n=1 (Yn − E[Yn ]) f.s. Wegen (ii) konvergiert also n=1 Yn f.s. Nach dem Lemma von Borel-Cantelli existiert ein N = N (ω), sodass |Xn | < K, ∞ N −1 ∞ also Xn = Yn , für n ≥ N . Also ist n=1 Xn = n=1 Xn + n=N Yn f.s. konvergent. ∞ =⇒ “ Es konvergiere n=1 Xn f.s. Offenbar folgt daraus, dass (i) gilt (andern” falls wäre nach dem Lemma von Borel-Cantelli |Xn | > K unendlich oft, was der Annahme widerspräche). Wir nehmen n an, dass (iii) nicht gilt und führen dies zum Widerspruch. Wir setzen σn2 = k=1 Var[Yk ] und definieren ein Schema (Xn,l ; l = 1, . . . , n, n ∈ N) durch Xn,l = (Yl − E[Yl ])/σn . Das Schema ist zentriert und normiert. Wegen n→∞ σn2 −→ ∞, gilt für jedes ε > 0 und großes n ∈ N, dass 2K < εσn , aber n→∞ |Xn,l | ≤ ε für alle l = 1, . . . , n. Es folgt Ln (ε) −→ 0, wobei Ln (ε) = n * ) 2 E Xn,l {|Xn,l |≥ε} die Größe aus der Lindeberg-Bedingung ist (siehe (15.6)). l=1

n→∞

Nach dem Satz von Lindeberg-Feller gilt also Sn := Xn,1 +. . .+Xn,n =⇒ N0,1 . Wie ∞im ersten Teil des Beweises gezeigt, folgt aus der fast sicheren Konvergenz von n=1 Xn und aus (i) ∞

Yn

konvergiert fast sicher.

(15.9)

n=1 n→∞

Insbesondere gilt Tn := (Y1 + . . . + Yn )/σn =⇒ 0. Nach dem Satz von Slutzky n→∞ gilt also auch (Sn − Tn ) =⇒ N0,1 . Andererseits ist Sn − Tn deterministisch für jedes n ∈ N, womit die Annahme, dass (iii) nicht gilt ad absurdum geführt ist.


311

∞

− 2

¨ Nachdem wir (iii) schon gezeigt haben, folgt mit Ubung 7.1.1, dass E[Yn ]) fast sicher konvergiert. Wegen (15.9) folgt (ii).

n=1 (Yn

Als Ergänzung bringen wir ohne Beweis eine Abschätzung für die Konvergenzgeschwindigkeit im Zentralen Grenzwertsatz (siehe beispielsweise [145, Kapitel III, §11] für einen Beweis), die mit anderen Konstanten (statt 0.8) unabhängig von Berry [13] und Esseen [45] gefunden wurde. Satz 15.51 (Berry-Esseen). Seien X1 , X2 , . . . unabhängig und identisch verteilt mit E[X1 ] = 0, E[X12 ] = σ 2 ∈ (0, ∞) und γ := E[|X1 |3 ] < ∞. Seien Sn∗ := 0 x −t2 /2 √ 1 (X1 + · · · + Xn ) und Φ : x → √1 e dt die Verteilungsfunktion 2π −∞ nσ 2 der Standardnormalverteilung. Dann gilt für jedes n ∈ N 0.8 γ sup P [Sn∗ ≤ x] − Φ(x) ≤ 3 √ . σ n x∈R ¨ Ubung 15.5.1. Die Argumentation aus Bemerkung 15.38 ist etwas direkter als die Argumentation mit dem Lévy’schen Stetigkeitssatz, allerdings etwas weniger robust: Man gebe eine Folge X1 , X2 , . . . von unabhängigen, reellen Zufallsvariablen an mit E[|Xn |] = ∞ für jedes n ∈ N, aber mit X1 + . . . + Xn n→∞ √ =⇒ N0,1 . n

♣

¨ Ubung 15.5.2. Seien Y1 , Y2 , . . . u.i.v. mit E[Yi ] = 0 und E[Yi2 ] = 1. Davon unabhängig seien Z1 , Z2 , . . . unabhängige Zufallsvariablen mit P[Zi = i] = P[Zi = −i] =

11 1 1 − P[Zi = 0] = 2 . 2 2i

Setze Xi := Yi + Zi und Sn = X1 + . . . + Xn für i, n ∈ N. n→∞

Man zeige: n−1/2 Sn =⇒ N0,1 , aber (Xi )i∈N erfüllt keine Lindeberg-Bedingung.

Hinweis: Möglichst nicht direkt ausrechnen!

♣

¨ Ubung 15.5.3. Seien X1 , X2 , . . . u.i.v. Zufallsvariablen mit Dichte f (x) =

1 |x|3

R\[−1,1] (x).

Dann ist E[X12 ] = ∞, aber es gibt Zahlen A1 , A2 , . . ., sodass X1 + . . . + Xn n→∞ =⇒ N0,1 . An Man gebe die Folge (An )n∈N explizit an.

♣

312


15.6 Mehrdimensionaler Zentraler Grenzwertsatz Wir kommen zu einer mehrdimensionalen Variante des zentralen Grenzwertsatzes. Definition 15.52. Sei C eine (strikt) positiv definite symmetrische reelle d×d Matrix und μ ∈ Rd . Ein Zufallsvektor X = (X1 , . . . , Xd )T heißt d-dimensional normalverteilt mit Erwartungswert μ und Kovarianzmatrix C, falls X die Dichte 1: ; 1 fμ,C (x) = 3 exp − x − μ, C −1 (x − μ) (15.10) 2 (2π)d det(C) für x ∈ Rd hat. Wir schreiben X ∼ Nμ,C .

Satz 15.53. Sei μ ∈ Rd und C eine reelle positiv definite symmetrische reelle d×d Matrix. Ist X ∼ Nμ,C , dann gelten: (i) E[Xi ] = μi für jedes i = 1, . . . , d. (ii) Cov[Xi , Xj ] = Ci,j für alle i, j = 1, . . . , d. (iii) λ, X! ∼ Nλ,μ,λ,Cλ für jedes λ ∈ Rd . 1

(iv) ϕ(t) := E[eit,X ] = eit,μ e− 2 t,Ct für jedes t ∈ Rd . Es gilt sogar X ∼ Nμ,C ⇐⇒ (iii) ⇐⇒ (iv). Beweis. (i) und (ii) sind einfache Rechnungen, ebenso (iii) und (iv). Die Implikation (iii) =⇒ (iv) ist simpel. Die Familie {ft : x → eit,x , t ∈ Rd } ist trennend für M1 (Rd ) nach dem Satz von Stone–Weierstraß. Also legt ϕ die Verteilung von X eindeutig fest. 2 Bemerkung 15.54. Für eindimensionale Normalverteilungen liegt es nahe, Nμ,0 als δμ zu definieren. Einen so einfachen Begriff können wir bei mehrdimensionalen Normalverteilungen nicht mehr erwarten (außer für den Fall C = 0), wenn eine Entartung nur in einigen Richtungen auftritt, also C nur noch positiv semidefinit und symmetrisch ist. In diesem Fall definieren wir Nμ,C als diejenige Verteilung 1 auf Rn mit charakteristischer Funktion ϕ(t) = eit,μ e− 2 t,Ct . 3 Satz 15.55 (Cramér-Wold Device). Sind Xn = (Xn,1 , . . . , Xn,d )T ∈ Rd , n ∈ N ∪ {∞}, Zufallsvektoren, so gilt genau dann n→∞

PXn −→ PX∞

schwach,

(15.11)

wenn für jedes λ ∈ Rd gilt, dass n→∞

Pλ,Xn −→ Pλ,X∞

schwach.

(15.12)

15.6 Mehrdimensionaler Zentraler Grenzwertsatz

313

Beweis. Gelte (15.11). Sei λ ∈ Rd und s ∈ R. Die Abbildung Rd → C, x → n→∞ ei sλ,x ist stetig und beschränkt, also gilt E[ei sλ,Xn ] −→ E[ei sλ,X∞ ]. Damit gilt (15.12). Gelte nun (15.12). Dann ist (Xn,l )n∈N straff, l = 1, . . . , d. Also ist (Xn )n∈N straff und damit relativ folgenkompakt (Satz von Prohorov). Für jeden schwachen Häufungspunkt Q von (PXn )n∈N ist für jedes λ ∈ Rd ) * Q(dx) eiλ,x = E eiλ,X∞ . Also gilt Q = PX∞ und damit (15.11).

2

Satz 15.56 (Zentraler Grenzwertsatz im Rd ). Seien (Xn )n∈N u.i.v. Zufallsvektoren mit E[Xn,i ] = 0 und E[Xn,i Xn,j ] = Cij , i, j = 1, . . . , d. Sei Sn∗ := X1 +...+X n √ . Dann gilt n n→∞

PSn∗ −→ N0,C

schwach.

Beweis. Sei λ ∈ Rd . Setze Xnλ = λ, Xn !, Snλ = λ, Sn∗ ! und S∞ ∼ N0,C . Dann ist E[Xnλ ] = 0 und Var[Xnλ ] = λ, Cλ!. Nach dem eindimensionalen Zentralen n→∞ Grenzwertsatz gilt PSnλ −→ N0,λ,Cλ = Pλ, S∞ . Nach Satz 15.55 zeigt dies die Aussage. 2 ¨ Ubung 15.6.1. Sei μ ∈ Rd , C eine symmetrische positiv semidefinite reelle d × d Matrix und X ∼ Nμ,C (im Sinne von Bemerkung 15.54). Man zeige: Für jedes m ∈ N und jede reelle m × d Matrix A gilt AX ∼ NAμ,ACAT . ♣ ¨ Ubung 15.6.2. (Cholesky-Faktorisierung) Sei C eine positiv definite symmetrische reelle d × d Matrix. Dann existiert eine reelle d × d Matrix A = (akl ) mit A · AT = C. Man kann A sogar als untere Dreiecksmatrix wählen. Sei W := (W1 , . . . , Wd )T , wo W1 , . . . , Wd unabhängig und N0,1 verteilt sind. Wir setzen X := AW + μ. Man zeige: X ∼ Nμ,C . ♣

16 Unbegrenzt teilbare Verteilungen

Die Normalverteilung Nμ,σ2 lässt sich für jedes n ∈ N als n-te Faltungspotenz eines W-Maßes schreiben (nämlich von Nμ/n,σ2 /n ). Die selbe Eigenschaft, die wir unbegrenzte Teilbarkeit nennen, hat die Poisson-Verteilung. Im ersten Abschnitt untersuchen wir, welche W-Maße auf R unbegrenzt teilbar sind und geben eine erschöpfende Beschreibung der Klasse dieser Maße durch die Lévy-Khinchin Formel. Die Normalverteilung hat (im Gegensatz zur Poisson-Verteilung) die Eigenschaft, dass sie als Grenzwert reskalierter Summen von u.i.v. Zufallsvariablen auftritt (Zentraler Grenzwertsatz). Im zweiten Abschnitt untersuchen wir knapp die Teilklasse unbegrenzt teilbarer Maße auf R, die diese Eigenschaft haben.

16.1 Die Lévy-Khinchin Formel Zur Abkürzung verwenden wir in diesem Abschnitt die Bezeichnung CFW“ für ” charakteristische Funktion eines W-Maßes auf R“. ” Definition 16.1. Ein Maß μ ∈ M1 (R) heißt unbegrenzt teilbar, falls es für jedes n ∈ N ein μn ∈ M1 (R) mit der Eigenschaft μ∗n n = μ gibt. Analog nennen wir eine CFW ϕ unbegrenzt teilbar, falls es zu jedem n ∈ N eine CFW ϕn gibt mit ϕ = ϕnn . Eine reelle Zufallsvariable X heißt unbegrenzt teilbar, falls es zu jedem n ∈ N u.i.v. D Zufallsvariablen Xn,1 , . . . , Xn,n gibt mit X = Xn,1 + . . . + Xn,n . Offenbar sind alle drei Begriffe der unendlichen Teilbarkeit a¨ quivalent, und wir wollen sie synonym verwenden. Man beachte, dass die Eindeutigkeit von μn beziehungsweise ϕn keineswegs evident ist. Tatsächlich folgt aus der n-fachen Teilbarkeit noch nicht die Eindeutigkeit der n-ten Faltungswurzel μ∗1/n := μn beziehungsweise von ϕn . Um dies für gerades n einzusehen, wähle man etwa eine reelle CFW ϕ, für die |ϕ| = ϕ ebenfalls eine CFW ist (siehe Beispiel 15.16 und 15.17). Dann ist ϕn = |ϕ|n n-fach teilbar, jedoch sind die Faktoren nicht eindeutig. ¨ Mit Hilfe des Lévy’schen Stetigkeitssatzes kann man zeigen (siehe Ubung 16.1.1), dass ϕ(t) = 0 für alle t ∈ R gilt, falls ϕ unbegrenzt teilbar ist. Die probabilistische Bedeutung dieser Aussage liegt darin, dass log(ϕ(t)) als stetige Funktion eindeutig

316


definiert ist und damit auch nur genau eine stetige Funktion ϕ1/n = exp(log(ϕ)/n) existiert. Die n-ten Faltungswurzeln sind also eindeutig definiert, falls die Verteilung unbegrenzt teilbar ist. ∗n = δx für jedes n ∈ N. Beispiele 16.2. (i) δx ist unbegrenzt teilbar mit δx/n ∗n (ii) Die Normalverteilung ist unbegrenzt teilbar mit Nm,σ2 = Nm/n,σ 2 /n .

(iii) Die Cauchy-Verteilung Caua mit Dichte x → (aπ)−1 (1 + (x/a)2 )−1 ist −a|t| unbegrenzt teilbar mit Caua = Cau∗n , a/n . In der Tat: Caua hat CFW ϕa (t) = e n also ist ϕa/n = ϕa . (iv) Jede symmetrische stabile Verteilung mit Index α ∈ (0, 2] und Größenparaα meter γ > 0, also mit CFW ϕα,γ (t) = e−|γt| , ist unbegrenzt teilbar. In der Tat ist ϕnα,γ/n1/α = ϕα,γ . (Genau genommen haben wir bislang erst für α ∈ (0, 1] (in Korollar 15.25) und für α = 2 (Normalverteilung) gezeigt, dass ϕα,γ u¨ berhaupt eine CFW ist. In Abschnitt 16.2 zeigen wir, dass dies tatsächlich für alle α ∈ (0, 2] ¨ richtig ist. Für α > 2 ist ϕα,γ hingegen keine CFW, siehe Ubung 15.4.3.) (v) Die Gamma-Verteilung Γθ,r mit CFW ϕθ,r (t) = exp(rψθ (t)), wo ψθ (t) = ∗n log(1 − it/θ) ist, ist unbegrenzt teilbar mit Γθ,r = Γθ,r/n . (vi) Die Poisson-Verteilung ist unbegrenzt teilbar mit Poiλ = Poi∗n λ/n . −r (vii) Die negative Binomialverteilung b− ({k}) = (−1)k pr (1 − p)k , k ∈ r,p k N0 , mit Parametern r > 0 und p ∈ (0, 1) ist unbegrenzt teilbar mit b− r,p = ∗n rψp (t) (b− ) . In der Tat ist ϕ (t) = e , wo r,p r/n,p ψp (t) = log(p) − log(1 − (1 − p)eit ). (viii) Seien X und Y unabhängig und X ∼ N0,σ2 sowie Y ∼ Γθ,r√ , wobei σ 2 , θ, r > 0 sind. Man kann zeigen, dass die Zufallsvariable Z := X/ Y unbegrenzt teilbar ist (siehe [64] oder [123]). Insbesondere ist die Student’sche tVerteilung mit k ∈ N Freiheitsgraden unbegrenzt teilbar (dieses ist der Fall σ 2 = 1 und θ−1 = r = k). (ix) Die Binomialverteilung bn,p ist für n ∈ N und p ∈ (0, 1) nicht unbegrenzt teilbar (warum?). (x) Etwas allgemeiner ist außer der trivialen Verteilung keine Verteilung unbegrenzt teilbar, die auf ein endliches Intervall konzentriert ist. 3 Ein Hauptziel dieses Abschnitts ist es zu zeigen, dass sich jede unbegrenzt teilbare Verteilung aus drei generischen zusammensetzt:

16.1 Die Lévy-Khinchin Formel

317

– den Punktverteilungen δx mit x ∈ R,

– den Normalverteilungen Nμ,σ2 mit μ ∈ R und σ 2 > 0,

– (Grenzwerten von) Faltungen von Poisson-Verteilungen. Da die Faltungen von Poisson-Verteilungen eine besondere Rolle spielen, wollen wir sie hier gesondert betrachten.

Ist ν ∈ M1 (R) mit CFW ϕν und ist λ > 0, so kann man leicht nachrechnen, ∞ k dass ϕ(t) = exp(λ(ϕν (t) − 1)) die CFW von μλ = k=0 e−λ λk! ν ∗k ist. Formal können wir also μλ = e∗λ(ν−δ0 ) schreiben. Tatsächlich ist μλ unbegrenzt teilbar mit μλ = μ∗n λ/n . Wir wollen nun die Parameter λ und ν zu λν zusammenfassen. Für ν ∈ Mf (R) können wir ν ∗n = ν(R)n (ν/ν(R))∗n setzen, beziehungsweise ν ∗n = 0, falls ν = 0. Wir treffen daher die folgende Definition. Definition 16.3. Die zusammengesetzte Poissonverteilung (compound Poisson distribution) mit Intensitätsmaß ν ∈ Mf (R) ist das folgende W-Maß auf R: ∗(ν−ν(R)δ0 )

CPoiν := e

−ν(R)

:= e

∞ ν ∗n . n! n=0

Die CFW von CPoiν ist gegeben durch itx ϕν (t) = exp (e − 1) ν(dx) .

(16.1)

Speziell ist CPoiμ+ν = CPoiμ ∗ CPoiν , also ist CPoiν unbegrenzt teilbar. Beispiel 16.4. Für jede messbare Menge A ⊂ R \ {0} und jedes r > 0 ist r−1 CPoirν (A) = e−rν(R) ν(A) + e−rν(R)

∞ rk−1 ν ∗k (A)

k=2

k!

r↓0

−→ ν(A).

Wir wollen dies benutzen um zu zeigen, dass b− ur ein gewisses ν ∈ r,p = CPoirν f¨ Mf (N). Wir berechnen dazu für k ∈ N r−1 b− r,p ({k}) =

k r(r + 1) · · · (r + k − 1) r r↓0 (1 − p) p (1 − p)k −→ . r k! k

Wenn b− ur ein ν ∈ Mf (N) ist, ist also ν({k}) = (1 − p)k /k. Wir r,p = CPoirν f¨ berechnen die CFW von CPoirν für dieses ν ∞ ((1 − p)eit )k

−r = 1 − (1 − p)eit . ϕrν (t) = exp r k k=1

Dies ist aber die CFW von b− achlich b− r,p , also ist tats¨ r,p = CPoirν .

3

318


Nicht jede unbegrenzt teilbare Verteilung ist vom Typ CPoiν , allerdings gilt: Satz 16.5. Ein W-Maß μ auf R ist genau dann unbegrenzt teilbar, wenn es eine n→∞ Folge (νn )n∈N in Mf (R \ {0}) gibt mit CPoiνn −→ μ. Da jedes CPoiνn unbegrenzt teilbar ist, müssen wir einerseits zeigen, dass diese Eigenschaft unter schwachen Limiten erhalten bleibt. Andererseits zeigen wir, dass für unbegrenzt teilbares μ die Folge νn = nμ∗1/n das Gewünschte leistet. Wir bereiten den Beweis mit einem weiteren Satz vor. Satz 16.6. Sei (ϕn )n∈N eine Folge von CFWs. Dann sind a¨ quivalent: (i) Für jedes t ∈ R existiert ϕ(t) = lim ϕnn (t), und ϕ ist stetig in 0. n→∞

(ii) Für jedes t ∈ R existiert ψ(t) = lim n(ϕn (t) − 1), und ψ ist stetig in 0. n→∞

Gelten (i) und (ii), so ist ϕ = eψ eine CFW. Beweis. Der Beweis beruht auf der Taylor-Entwicklung des Logarithmus’ | log(z) − (z − 1)| ≤ |z − 1|2 /2

für z ∈ C mit |z − 1| < 1/2.

Speziell gilt für (zn )n∈N in C lim sup n |zn − 1| < ∞ ⇐⇒ lim sup |n log(zn )| < ∞. n→∞

(16.2)

n→∞

und limn→∞ n(zn − 1) = limn→∞ n log(zn ), falls einer der Limiten existiert.

Wenden wir dies auf zn = ϕn (t) an, so folgt (i) aus (ii). Andererseits folgt (ii) aus (i), wenn lim inf n→∞ n log(|ϕn (t)|) > −∞, also wenn ϕ(t) = 0 für jedes t ∈ R.

Da ϕ stetig in 0 ist und ϕ(0) = 1 gilt, gibt es ein ε > 0 mit |ϕ(t)| > 12 für jedes t ∈ [−ε, ε]. Da ϕ und ϕn CFWs sind, sind auch |ϕ|2 und |ϕn |2 CFWs. Aus der punktweisen Konvergenz von |ϕn (t)|2n gegen |ϕ(t)|2 folgt nach dem Lévy’schen Stetigkeitssatz also die gleichmäßige Konvergenz auf kompakten Mengen. Wende nun (16.2) mit zn = |ϕn (t)|2 an. Für t ∈ [−ε, ε] ist daher (n(1 − |ϕn (t)|2 ))n∈N beschränkt. Nach Lemma 15.11(v) ist dann aber auch n(1 − |ϕn (2t)|2 ) ≤ 4n(1 − |ϕn (t)|2 ) beschränkt, also |ϕ(2t)|2 ≥ lim inf exp(4n(|ϕn (t)|2 − 1)) = (|ϕ(t)|2 )4 . n→∞

Iterativ erhalten wir |ϕ(t)| ≥ 2−(4 |ϕ(t)| > Gelten (i) und (ii), so ist

k

)

für |t| ≤ 2k ε. Es gibt also ein γ > 0, sodass

1 −γ t2 e 2

für jedes t ∈ R.

(16.3)


319

log ϕ(t) = lim n log(ϕn (t)) = lim n(ϕn (t) − 1) = ψ(t). n→∞

n→∞

Nach dem Lévy’schen Stetigkeitssatz ist ϕ als stetiger Limes von CFWs selbst eine CFW. 2 Korollar 16.7. Gelten die Bedingungen von Satz 16.6, so ist ϕr eine CFW für jedes r > 0. Insbesondere ist ϕ = (ϕ1/n )n unbegrenzt teilbar. Beweis. Ist ϕn die CFW von μn ∈ M1 (R), so ist ern(ϕn −1) die CFW von CPoirnμn . Als in 0 stetiger Limes von CFWs ist ϕr = erψ = limn→∞ ern(ϕn −1) nach dem Lévy’schen Stetigkeitssatz eine CFW. Mit r = n1 folgt, dass ϕ = (ϕ1/n )n unbegrenzt teilbar ist. 2 Korollar 16.8. Eine in 0 stetige Funktion ϕ : R → C ist genau dann eine unbegrenzt teilbare CFW, wenn es eine Folge (ϕn )n∈N von CFWs gibt mit ϕnn (t) → ϕ(t) für jedes t ∈ R. Beweis. Die eine Richtung ist schon in Korollar 16.7 gezeigt worden. Sei also ϕ eine unbegrenzt teilbare CFW. Dann leistet ϕn = ϕ1/n das Gewünschte. 2 Korollar 16.9. Ist (μn )n∈N eine (schwach) konvergente Folge unbegrenzt teilbarer W-Maße auf R, so ist μ = limn→∞ μn unbegrenzt teilbar. ∗1/n

Beweis. Wende Satz 16.6 an mit ϕn die CFW von μn

.

2

Korollar 16.10. Ist μ ∈ M1 (R) unbegrenzt teilbar, so existiert eine stetige Faltungshalbgruppe (μt )t≥0 mit μ1 = μ und ein stochastischer Prozess (Xt )t≥0 mit unabhängigen, stationären Zuwächsen Xt − Xs ∼ μt−s für t > s. Beweis. Sei ϕ die CFW von μ. Die Existenz der Faltungshalbgruppe folgt aus Korollar 16.8 und 16.7, indem wir μr durch ϕr definieren. Die Stetigkeit der Halbgruppe folgt, da ϕr → 1 für r → 0 (weil ϕr (t) = 0 für alle t ∈ R). Schließlich folgt die Existenz des Prozesses X aus Satz 14.47. 2 Korollar 16.11. Ist ϕ eine unbegrenzt teilbare CFW, so existiert ein γ > 0 mit 2 α |ϕ(t)| ≥ 21 e−γ t für jedes t ∈ R. Speziell ist t → e−|t| für kein α > 2 eine CFW. Beweis. Dies folgt direkt aus (16.3).

2

Beweis (von Satz 16.5). Da CPoiνn unbegrenzt teilbar ist, ist nach Korollar 16.9 auch der schwache Limes unbegrenzt teilbar. Sei nun μ unbegrenzt teilbar mit CFW ϕ. Wähle W-Maße μn mit CFW ϕn wie in n→∞ n→∞ Korollar 16.8. Nach Satz 16.6 gilt en(ϕn −1) −→ ϕ, also auch CPoinμn −→ ν. 2

320


Ohne Beweis bringen wir die folgende Verschärfung von Korollar 16.8, die auf einer feineren Analyse mit den Argumenten aus Satz 16.6 beruht. Satz 16.12. Sei (ϕn,l ; l = 1, . . . , kn , n ∈ N) ein Schema von CFWs mit der Eigenschaft sup lim sup sup sup |ϕn,l (t) − 1| = 0. (16.4) L>0

n→∞

t∈[−L,L] l=1,...,kn

Existiert für jedes t ∈ R der Limes ϕ(t) := limn→∞ in 0, so ist ϕ eine unbegrenzt teilbare CFW.

kn

l=1

ϕn,l (t), und ist ϕ stetig

Beweis. Siehe etwa [53, Kapitel XV.7].

2 n→∞

In dem Fall, wo für jedes n die ϕn,l alle gleich sind und kn −→ ∞, gilt (16.4) automatisch, wenn das Produkt gegen eine stetige Funktion konvergiert. Der Satz liefert also tatsächlich eine Verbesserung von Korollar 16.8. Der Wert des Satzes liegt in der folgenden Beobachtung. Sei (Xn,l ; l = 1, . . . , kn , n ∈ N) ein Schema reeller Zufallsvariablen mit CFWs ϕn,l . Genau dann ist das Schema asymptotisch vernachlässigbar, wenn (16.4) gilt: Gilt P[|Xn,l | > ε] < δ, so ist für jedes t ∈ [−1/ε, 1/ε] schon |ϕn,l (t) − 1| ≤ 2ε + δ. Also folgt (16.4) aus der Vernachlässigbarkeit des Schemas. Andererseits impliziert (16.4), dass für jede n→∞ n→∞ Folge (ln ) mit ln ≤ kn gilt ϕn,ln −→ 1, also Xn,ln −→ 0 stochastisch. Aus diesen Betrachtungen und Satz 16.12 erhalten wir den folgenden Satz.

Satz 16.13. Sei (Xn, l ; l = 1, . . . , kn , n ∈ N) ein unabhängiges, asymptotisch vernachlässigbares Schema reeller Zufallsvariablen. Gibt es ein S mit Xn,1 + n→∞ . . . + Xn,kn =⇒ S, so ist S unbegrenzt teilbar. Wir wollen als eine direkte Anwendung von Satz 16.5 die unbegrenzt teilbaren WMaße auf [0, ∞) durch Angabe ihrer Laplace-Transformierten vollständig beschreiben. Der folgende Satz ist von eigenständigem Interesse, dient aber hauptsächlich zur Einstimmung auf die etwas technischere Beschreibung aller unbegrenzt teilbaren W-Maße auf R.


321

Satz 16.14 (Lévy-Khinchin 0Formel auf [0, ∞)). Sei μ ∈ M1 ([0, ∞)) und u : [0, ∞) → [0, 1], t → − log e−tx μ(dx) die log-Laplace Transformierte von μ. Genau dann ist μ unbegrenzt teilbar, wenn es ein α ≥ 0 und ein σ-endliches Maß ν ∈ M((0, ∞)) mit (16.5)

(1 ∧ x) ν(dx) < ∞

gibt, sodass

u(t) = αt +

1 − e−tx ν(dx)

für t ≥ 0.

(16.6)

Das Paar (α, ν) ist dann eindeutig. Wir nennen ν das kanonische Maß oder LévyMaß von μ und α den deterministischen Anteil. Beweis. =⇒ “ Sei zunächst μ unbegrenzt teilbar. Der Fall μ = δ0 ist trivial. ” Sei nun μ = δ0 , also u(1) > 0. n→∞

Nach Satz 16.5 existieren ν1 , ν2 , . . . ∈ Mf (R\{0}) mit CPoiν0n −→ μ. Offenbar können wir νn ((−∞, 0)) = 0 annehmen. Setzen wir un (t) := (1 − e−tx ) νn (dx), n→∞ so gilt (nach (16.1)) un (t) −→ u(t) für jedes t ≥ 0. Speziell ist un (1) > 0 für −x ur jedes große n. Definiere νñ ∈ M1 ([0, ∞)) durch νñ (dx) := 1−e un (1) νn (dx). F¨ t ≥ 0 gilt dann un (t + 1) − un (t) n→∞ u(t + 1) − u(t) e−tx νñ (dx) = . −→ un (1) u(1) Also existiert ν˜ := w-lim νñ (in M1 ([0, ∞)) und ist eindeutig durch u festgelegt. Wir setzen α := ν˜({0}) u(1) und definieren ν ∈ M((0, ∞)) durch ν(dx) = u(1)(1 − e−x )−1

˜(dx). (0,∞) (x) ν

Wegen 1 ∧ x ≤ 2(1 − e−x ) für alle x ≥ 0 ist dann offenbar (1 ∧ x) ν(dx) ≤ 2 (1 − e−x ) ν(dx) ≤ u(1) < ∞. Für jedes t ≥ 0 ist die Funktion (vergleiche (15.8)) 1 1−e−tx , ft : [0, ∞) → [0, ∞), x → 1−e−x t,

falls x > 0, falls x = 0,

stetig und beschränkt (durch t ∧ 1), also gilt u(t) = lim un (t) = lim un (1) ft d˜ νn n→∞ n→∞ = u(1) ft d˜ ν = αt + (1 − e−tx ) ν(dx).

322


⇐= “ Seien nun α und ν gegeben. Sei I0 = [1, ∞) und Ik = [1/(k + 1), 1/k) ” für k ∈ N. Seien X0 , X1 , . . . unabhängige Zufallsvariablen mit PXk = CPoi(ν | ) Ik ∞ f¨ u r k = 0, 1, . . ., und sei X := α + X . F¨ u r jedes k ∈ N ist E[X ] = k k k=0 0 0 ∞ x ν(dx), also ist E[X ] = x ν(dx) < ∞. Mithin gilt X < ∞ fast k k=1 Ik (0,1) n n→∞ sicher und α + k=0 Xk =⇒ X. Daher ist ∞ ) −tX * ) −tX *

k − log E e = αt − log E e = αt + 1 − e−tx ν(dx). 2 k=0

Beispiel 16.15. Wir können zu einer unbegrenzt teilbaren Verteilung μ auf [0, ∞) das Lévy-Maß ν ausrechnen durch . (16.7) ν = v-lim nμ∗1/n n→∞

(0,∞)

¨ Oft ist auch α leicht direkt zugänglich, etwa u¨ ber die Darstellung aus Ubung 16.1.3. Wir erhalten so beispielsweise für die Gamma-Verteilung α = 0 und θ1/n n→∞ x(1/n)−1 e−θx dx −→ x−1 e−θx dx, nΓθ,1/n (A) = Γ (1/n)/n A A also ν(dx) = x−1 e−θx dx.

3

Für unbegrenzt teilbare Verteilungen auf R wollen wir eine a¨ hnliche Darstellung angeben wie im vorigen Satz. Nun ist aber eine unbegrenzt teilbare, reelle Zufallsvariable X nicht einfach die Differenz zweier unbegrenzt teilbarer, nichtnegativer Zufallsvariablen, wie etwa die Normalverteilung zeigt. Außerdem haben wir nun mehr Freiheiten, wenn wir X wie im letzten Beweis als Summe unabhängiger Zufallsvariablen Xk darstellen wollen. Wir definieren also eine reelle Zufallsvariable X als Summe unabhängiger Zufallsvariablen ∞ (Xk − αk ), (16.8) X = b + X N + X0 + k=1

N

2

wobei b ∈ R, X = N0,σ2 für ein σ ≥ 0 und PXk = CPoiνk mit Intensitätsmaß νk , das auf Ik := (−1/k, −1/(k + 1)] ∪ [1/(k 0+ 1), 1/k) (mit 1/0 = ∞), k ∈ N0 , konzentriert liegt. Ferner ist αk = E[Xk ] = x νk (dx) für k ≥ 1. Für die fast sichere Konvergenz der Reihe ist hinreichend (und, wie eine einfache Anwendung des Kolmogorov’schen Dreireihensatzes zeigt, notwendig), dass ∞

k=1

Var[Xk ] < ∞.

(16.9)

∞ (Anders als in Satz 16.14 ist nicht notwendig, dass k=1 E[|Xk − αk |] < ∞. Dies ergibt eine größere Freiheit bei der 0 Wahl von ν als im Fall nichtnegativer ∞ Zufallsvariablen.) Nun ist Var[Xk ] = x2 νk (dx). Setzen wir also ν = k=0 νk , so ist


323

0 (16.9) a¨ quivalent zu der Bedingung (−1,1) x2 ν(dx) < ∞. Da ν0 stets endlich ist, 0 2 ist dies wiederum a¨ quivalent zu (x ∧ 1) ν(dx) < ∞. Definition 16.16. Ein σ-endliches Maß ν auf R mit ν({0}) = 0 und

2 x ∧ 1 ν(dx) < ∞

(16.10)

heißt kanonisches Maß. Sind σ 2 ≥ 0 und b ∈ R, so heißt (σ 2 , b, ν) ein kanonisches Tripel. Zu jedem kanonischen Tripel gehört u¨ ber die Konstruktion (16.8) eine unbegrenzt teilbare Zufallsvariable. Wir setzen *

itx ) e − 1 ν(dx) ψ0 (t) = log E eitX0 = I0

und für k ∈ N

Also genügt

* ) ψk (t) = log E eit(Xk −αk ) =

Ik

eitx − 1 − itx ν(dx).

∞ * ) σ2 ψk (t) ψ(t) := log E eitX = − t2 + ibt + 2 k=0

der Lévy-Khinchin Formel ψ(t) = −

σ2 2 t + ibt + 2

eitx − 1 − itx

{|x| 0, also mit c− := f (−1) und c+ := f (1) c− (−x)−α−1 , falls x < 0, ν(dx) = dx c+ x−α−1 , falls x > 0. Wir haben also einen Freiheitsgrad mehr (in dem Sinne, dass wir jetzt die zwei Parameter c− und c+ statt nur c haben), wenn wir auch asymmetrische stabile Verteilungen zulassen. Wir können nun ψ ausrechnen

* )

α |t| Γ (−α) (c+ + c− ) cos πα + i (c+ − c− ) sin πα , α = 1, 2 2 ψ(t) = ) * −|t|(c+ + c− ) π2 + i sign(t)(c+ − c− ) log(|t|) , α = 1. (16.18) Im Fall α ∈ (0, 1) ∪ (1, 2) haben wir so eine stabile Verteilung hergestellt, denn es gilt (16.17). Im Fall α = 1 gilt hingegen nψ(t/n) = ψ(t) + it(c+ − c− ) log n, also D

X1 + . . . + Xn = nX1 + (c+ − c− ) n log(n). Man kann zeigen, dass die stabilen Verteilungen, die wir hier hergestellt haben, tatsächlich die gesamte Klasse der im weiteren Sinne stabilen Verteilungen ausschöpfen (siehe etwa [53, Kapitel XVII.5]).

16.2 Stabile Verteilungen

329

Konvergenz gegen stabile Verteilungen Zur Abrundung des Bildes zitieren wir aus [53, Kapitel XVII.5] (siehe auch [61] und [120]) Sätze darüber, dass nur stabile Verteilungen als Grenzverteilungen reskalierter Summen von u.i.v. Zufallsvariablen X1 , X2 , . . . auftreten können, wie die genauen Skalierungen aussehen, und welche Verteilungen PX1 zu welchen Grenzverteilungen führen. Seien im Folgenden X, X1 , X2 , . . . u.i.v. Zufallsvariablen und Sn = X1 + . . . + Xn für n ∈ N. Definition 16.22 (Anziehungsbereich einer Verteilung). Sei μ ∈ M1 (R) nicht auf einen Punkt konzentriert. Der Anziehungsbereich (domain of attraction) Dom(μ) ⊂ M1 (R) ist die Menge aller Verteilungen PX mit der Eigenschaft, dass es Folgen reeller Zahlen (an )n∈N und (bn )n∈N gibt mit Sn − bn n→∞ =⇒ μ. an Ist μ stabil (im weiteren Sinne) mit Index α ∈ (0, 2], so liegt PX im normalen Anziehungsbereich (domain of normal attraction), falls an = n1/α gewählt werden kann. Satz 16.23. Sei μ ∈ M1 (R) nicht auf einen Punkt konzentriert. Genau dann ist Dom(μ) = ∅, wenn μ stabil (im weiteren Sinne) ist. Es gilt dann μ ∈ Dom(μ). Eine wichtige Rolle spielt im Folgenden die Funktion * ) U (x) := E X 2 {|X|≤x} .

(16.19)

Eine Funktion H : (0, ∞) → (0, ∞) heißt langsam variierend bei ∞, falls lim

x→∞

H(γx) =1 H(x)

für alle γ > 0.

Wir nehmen im Folgenden an, dass es ein α ∈ (0, 2] gibt, mit der Eigenschaft: U (x) xα−2 ist langsam variierend bei ∞.

(16.20)

Satz 16.24. (i) Liegt PX im Anziehungsbereich einer Verteilung, dann existiert ein α ∈ (0, 2], sodass (16.20) gilt. (ii) Im Falle α = 2 gilt: Ist PX nicht in einem Punkt konzentriert, so ist (16.20) hinreichend dafür, dass PX im Anziehungsbereich einer Verteilung liegt.

(iii) Im Falle α ∈ (0, 2) gilt: Genau dann liegt PX im Anziehungsbereich einer Verteilung, wenn (16.20) gilt und p := lim

x→∞

P[X ≥ x] P[|X| ≥ x]

existiert.

(16.21)

330


Satz 16.25. Es sei PX im Anziehungsbereich einer α-stabilen Verteilung – es gelte also Bedingung (ii) oder (iii) aus Satz 16.24 – und es sei (an )n∈N so gewählt, dass C := lim

n→∞

n U (an ) ∈ (0, ∞) a2n

existiert. Es sei ferner μ diejenige stabile Verteilung mit Index α, deren charakteristische Funktion durch (16.18) gegeben ist mit c+ = Cp und c− = C(1 − p). (i) Im Falle α ∈ (0, 1) sei bn ≡ 0.

(ii) Im Falle α = 2 und Var[X] < ∞ sei E[X] = 0.

(iii) Im Falle α ∈ (1, 2] sei bn = n E[X] für jedes n ∈ N.

(iv) Im Falle α = 1 sei bn = n an E[sin(X/an )] für jedes n ∈ N.

Dann gilt Sn − bn n→∞ =⇒ μ. an Korollar 16.26.)Liegt *PX im Anziehungsbereich einer )stabilen * Verteilung mit Index α, so gilt E |X|β < ∞ für alle β ∈ (0, α) und E |X|β = ∞, falls β > α und α < 2. ¨ Ubung 16.2.1. Man zeige die Behauptung von Bemerkung 16.21.

♣

1 − cos(x) ¨ Ubung 16.2.2. Man zeige: Die Verteilung auf R mit Dichte f (x) = ist πx2 nicht unbegrenzt teilbar. ♣ ¨ Ubung 16.2.3. Sei Φ die Verteilungsfunktion der Standardnormalverteilung N0,1 und F : R → [0, 1] definiert durch

2 1 − Φ x−1/2 , falls x > 0, F (x) = 0, sonst. Man zeige: (i) F ist die Verteilungsfunktion einer 21 -stabilen Verteilung. (ii) Sind X1 , X2 , . . . u.i.v. mit Verteilungsfunktion F , so divergiert für n → ∞ fast sicher.

1 n

n

k=0

Xk

Hinweis: Man bestimme die Dichte von F und zeige, dass die Laplace Transfor√ mierte gegeben ist durch λ → e− 2λ . ♣ ¨ Ubung 16.2.4. Welche der folgenden Verteilungen liegen im Anziehungsbereich einer stabilen Verteilung und gegebenenfalls zu welchem Parameter?

16.2 Stabile Verteilungen

(i) Die Verteilung auf R mit Dichte ⎧ 1 ̺ 1+α |x|α , ⎪ ⎪ ⎨ 1 xβ , f (x) = (1 − ̺) 1+β ⎪ ⎪ ⎩ 0,

331

falls x < −1, falls x > 1, sonst.

Dabei sind α, β < −1 und ̺ ∈ [0, 1].

(ii) Die Exponentialverteilung expθ für θ > 0. (iii) Die Verteilung auf N mit Gewichten c nα falls n gerade ist und c nβ , falls n ungerade ist. Dabei sind α, β < −1, und c = (2α ζ(−α) + (1 − 2β )ζ(−β))−1 (ζ ist die Riemann’sche Zetafunktion) ist die Normierungskonstante. ♣

17 Markovketten

Markovprozesse mit abzählbarem Zustandsraum (und diskreter Zeit) sind trotz ihrer Simplizität interessante mathematische Objekte, mit denen sich eine Vielzahl von Phänomenen modellieren lässt. Wir bringen hier einen Einblick in die grundlegenden Begriffe und schauen dann Beispiele etwas detaillierter an. Der Zusammenhang mit der (diskreten) Potentialtheorie wird erst in Kapitel 19 untersucht. Beim ersten Lesen kann in Abschnitt 17.1 die (etwas abstrakte) Konstruktion von allgemeinen Markovprozessen u¨ bersprungen werden.

17.1 Begriffsbildung und Konstruktion Im Folgenden sei E stets ein polnischer Raum mit Borel’scher σ-Algebra B(E), I ⊂ R und (Xt )t∈I ein stochastischer Prozess mit Werten in E. Wir nehmen an, dass (Ft )t∈I = F = σ(X) die von X erzeugte Filtration ist. Definition 17.1. Wir sagen, dass X die elementare Markoveigenschaft (ME) hat, falls für jedes A ∈ B(E) und je zwei s, t ∈ I mit s ≤ t gilt * * ) ) P Xt ∈ A Fs = P Xt ∈ A Xs .

Bemerkung 17.2. Ist E abzählbar, so hat X genau dann die elementare Markoveigenschaft, wenn für jedes n ∈ N und alle s1 < . . . < sn < t und i1 , . . . , in , i ∈ E mit P[Xs1 = i1 , . . . , Xsn = in ] > 0 gilt * ) * ) (17.1) P Xt = i Xs1 = i1 , . . . , Xsn = in = P Xt = i Xsn = in .

In der Tat impliziert (17.1) natürlich sofort die elementare Markoveigenschaft. Habe nun X die elementare Markoveigenschaft. dass für fast Wir bemerken (siehe (8.6)), alle ω ∈ {Xsn = in } gilt P[Xt = i Xsn ](ω) = P[Xt = i Xsn = in ]. Also gilt mit A := {Xs1 = i1 , . . . , Xsn = in } (unter Verwendung der elementaren Markoveigenschaft in der zweiten Gleichheit) * ) P Xt = i,Xs1 = i1 , . . . , Xsn = in * ) * ) = E E[ {Xt =i} Fsn ] A = E E[ {Xt =i} Xsn ] A ) * ) * = E P[Xt = i Xsn = in ] A = P Xt = i Xsn = in P[A].

334

17 Markovketten

Teilen wir jetzt auf beiden Seiten durch P[A], so folgt (17.1).

3

Definition 17.3. Sei I = N0 oder I = [0, ∞). X = (Xt )t∈I heißt Markovprozess mit Verteilungen (Px )x∈E auf dem Raum (Ω, A), falls gilt: (i) Für jedes x ∈ E ist X ist ein stochastischer Prozess auf dem Wahrscheinlichkeitsraum (Ω, A, Px ) mit Px [X0 = x] = 1.

(ii) Die Abbildung κ : E × B(E)⊗I → [0, 1], (x, B) → Px [X ∈ B] ist ein stochastischer Kern.

(iii) Es gilt die (schwache) Markoveigenschaft (ME): Für jedes A ∈ B(E), jedes x ∈ E und je zwei s, t ∈ I gilt * ) Px Xt+s ∈ A Fs = κt (Xs , A) Px − f.s. Hierbei definiert für jedes t ∈ I und x ∈ E sowie A ∈ B(E)

κt (x, A) := κ x, {y ∈ E I : y(t) ∈ A} = Px [Xt ∈ A]

¨ den stochastischen Kern κt : E × B(E) → [0, 1] der Ubergangswahrscheinlichkeiten von X zur Zeitdifferenz t. Wir schreiben stets Ex für die Erwartungswerte bezüglich Px und Lx [X] = Px sowie Lx [X |F] = Px [X ∈ · |F] (für eine reguläre Version der bedingten Verteilungen von X gegeben F) und so fort.

Ist E höchstens abzählbar, so heißt X diskreter Markovprozess.

Im Spezialfall I = N0 heißt X Markovkette. Es heißt dann κn auch die Familie der ¨ n-Schritt-Ubergangswahrscheinlichkeiten. Bemerkung 17.4. Die schwache Markoveigenschaft impliziert die elementare Markoveigenschaft. In der Tat ist schwache ME = elementare ME + zeitliche Homoge” nität“. 3 Wir verwenden im Folgenden die etwas nachlässige Bezeichnung PXs [X ∈ · ] := κ(Xs , · ). Wir verstehen also Xs als Startwert eines zweiten Markovprozesses mit denselben Verteilungen (Px )x∈E . Beispiel 17.5. Seien Y1 , Y2 , . . . u.i.v. Rd -wertige Zufallsvariablen und Snx = x +

n i=1

Yi

für x ∈ Rd und n ∈ N0 .

−1 Definiere W-Maße Px auf (Rd )N0 , (B(Rd ))⊗N0 durch Px = P ◦ (S x ) . Dann d N0 d ist der kanonische Prozess Xn : (R ) → R eine Markovkette mit Verteilungen (Px )x∈Rd . Der Prozess X heißt Irrfahrt auf Rd mit Startwert x. 3

17.1 Begriffsbildung und Konstruktion

335

Beispiel 17.6. Wir können das vorangehende Beispiel leicht auf die Situation stetiger Zeit, also I = [0, ∞), u¨ bertragen. Sei hierzu (νt )t≥0 eine Faltungshalbgruppe d auf Rd und κt (x, dy) = δx ∗ νt (dy). Zu jedem x ∈ R sei Px das in Satz 14.47 d [0,∞) d ⊗[0,∞) konstruierte Maß auf (R ) , B(R ) mit n−1

Px ◦ (X0 , Xt1 , . . . , Xtn )−1 = δx ⊗

i=0

κtn+1 −tn

für je endlich viele Punkte 0 = t0 < t1 < . . . < tn . Man prüft leicht, dass die Abbildung κ : Rd × B(Rd )⊗[0,∞) , (x, A) → Px [A] ein stochastischer Kern ist. Die schwache Markoveigenschaft folgt direkt aus der Tatsache, dass die Zuwächse unabhängig und stationär sind. 3 Beispiel 17.7. (Siehe Beispiel 9.5 und Satz 5.35.) Sei θ > 0 und νtθ ({k}) = k k e−θt t k!θ , k ∈ N0 , die Faltungshalbgruppe der Poisson-Verteilung. Der Markovprozess X auf N0 mit dieser Halbgruppe heißt Poissonprozess mit Rate θ. 3 Wir wollen, a¨ hnlich wie in Beispiel 17.6, nun etwas allgemeiner zu einer Markov’schen Halbgruppe von stochastischen Kernen einen Markovprozess herstellen. Satz 17.8. Sei I ⊂ [0, ∞) abgeschlossen unter Addition, und sei (κt )t∈I eine Markov’sche Halbgruppe stochastischer Kerne von E nach E. Dann gibt es einen Messraum (Ω, A) und einen Markovprozess ((Xt )t∈I , (Px )x∈E ) auf (Ω, A) mit ¨ Ubergangswahrscheinlichkeiten Px [Xt ∈ A] = κt (x, A)

für alle x ∈ E, A ∈ B(E), t ∈ I.

(17.2)

Umgekehrt definiert für jeden Markovprozess X die Gleichung (17.2) eine Halbgruppe stochastischer Kerne. Durch (17.2) sind die endlichdimensionalen Verteilungen von X eindeutig bestimmt. Beweis. =⇒ “ Wir konstruieren X als kanonischen Prozess. Sei Ω = E [0,∞) ” und A = B(E)⊗[0,∞) . Ferner sei Xt die Projektion auf die t-te Koordinate. Für x ∈ E definieren wir (siehe Korollar 14.43) auf (Ω, A) das W-Maß Px , sodass für endlich viele Zeitpunkte 0 = t0 < t1 < . . . < tn gilt n−1

Px ◦ (Xt0 , . . . , Xtn )−1 = δx ⊗

i=0

κti+1 −ti .

Dann ist ) * Px Xt0 ∈ A0 , . . . , Xtn ∈ An ) * = Px Xt0 ∈ A0 , . . . , Xtn−2 ∈ An−2 , Xtn−1 ∈ dxn−1 An−1

κtn −tn−1 (xn−1 , An ),

336

17 Markovketten

also Px [Xtn ∈ An |Ftn−1 ] = κtn −tn−1 (Xtn−1 , An ). Damit ist X als Markovprozess erkannt. Ferner ist Px [Xt ∈ A] = (δx · κt )(A) = κt (x, A). ”

⇐= “

Sei nun (X, (Px )x∈E ) ein Markovprozess. Dann definiert κt (x, A) := Px [Xt ∈ A]

für alle x ∈ E, A ∈ B(E), t ∈ I,

einen stochastischen Kern κt . Nach der Markoveigenschaft ist κt+s (x, A) = Px [Xt+s ∈ A] = Ex [PXs [Xt ∈ A]] = Px [Xs ∈ dy] Py [Xt ∈ A] =

κs (x, dy)κt (y, A) = (κs · κt ) (x, A).

Also ist (κt )t∈I eine Markov’sche Halbgruppe.

2

Satz 17.9. Ein stochastischer Prozess X = (Xt )t∈I ist genau dann ein Markovprozess, wenn es einen stochastischen Kern κ : E × B(E)⊗I → [0, 1] gibt, sodass für jede B(E)⊗I − B(R) messbare, beschränkte Funktion f : E I → R und für jedes s ≥ 0 und x ∈ E gilt: * ) κ(Xs , dy) f (y). (17.3) Ex f ((Xt+s )t∈I ) Fs = EXs [f (X)] := EI

Beweis. ⇐= “ Die schwache Markoveigenschaft folgt aus (17.3) mit der Funk” tion f (y) = A (y(t)), denn PXs [Xt ∈ A] = Px [Xt+s ∈ A|Fs ] = κt (Xs , A).

=⇒ “ Nach den u¨ blichen Approximationsargumenten reicht es, Funktionen f ” zu betrachten, die nur von endlich vielen Koordinaten 0 ≤ t1 ≤ t2 ≤ . . . ≤ tn abhängen. Wir führen den Beweis per Induktion u¨ ber n.

Für n = 1 und f eine Indikatorfunktion ist dies die (schwache) Markoveigenschaft. Für allgemeines, messbares f folgt die Aussage nun aus den u¨ blichen Approximationsargumenten. Sei nun die Aussage für n ∈ N bereits gezeigt. Es reicht wiederum, für f eine Indikatorfunktion der Art f (x) = B1 ×···×Bn+1 (xt1 , . . . , xtn+1 ) (mit B1 , . . . , Bn+1 ∈ B(E)) zu betrachten. Zusammen mit der Markoveigenschaft (dritte und fünfte Gleichheit in der folgenden Gleichungskette) und der Induktionsvoraussetzung (vierte Gleichheit) erhalten wir


' ( Ex f (Xt+s )t≥0 Fs ' ) * ( = Ex Ex f (Xt+s )t≥0 Ftn +s Fs ' ) = Ex Ex

{Xtn+1 +s ∈Bn+1 }

Ft

n +s

' ) * = Ex PXtn +s Xtn+1 −tn ∈ Bn+1 ' ) * = EXs PXtn Xtn+1 −tn ∈ Bn+1

' * ) = EXs PX0 Xtn+1 ∈ Bn+1 Ftn

*

B1 (Xt1 +s ) · · ·

B1 (Xt1 +s ) · · ·

B1 (Xt1 ) · · · B1 (Xt1 ) · · ·

337

Bn (Xtn +s ) Fs

Bn (Xtn +s ) Fs

(

Bn (Xtn )

(

(

( (X ) Bn tn

' *( ) = EXs PX0 Xt1 ∈ B1 , . . . , Xtn+1 ∈ Bn+1 Ftn

= EXs [f (X)] .

2

Korollar 17.10. Ein stochastischer Prozess (Xn )n∈N0 ist genau dann eine Markovkette, wenn * ) ) * für jedes k ∈ N0 . (17.4) Lx (Xn+k )n∈N0 Fk = LXk (Xn )n∈N0

Beweis. Wenn die bedingten Verteilungen existieren, ist nach Satz 17.9 die Gleichung (17.4) a¨ quivalent dazu, dass X eine Markovkette ist. Zu zeigen ist also nur, dass die bedingten Verteilungen auch existieren. Da E polnisch ist, ist E N0 polnisch und B(E N0 ) = B(E)⊗N0 (siehe Satz 14.8). Nach Satz 8.36 existiert also eine reguläre Version der bedingten Verteilungen von 2 (Xn+k )n∈N0 gegeben Fk . Satz 17.11. Sei I = N0 . Ist (Xn )n∈N0 ein stochastischer Prozess mit Verteilungen (Px , x ∈ E), so folgt die schwache Markoveigenschaft in Definition 17.3(iii) schon aus der Existenz eines stochastischen Kerns κ1 : E × B(E) → [0, 1] mit der Eigenschaft: Für jedes A ∈ B(E), jedes x ∈ E und jedes s ∈ I gilt * ) (17.5) Px Xs+1 ∈ A Fs = κ1 (Xs , A). ¨ In diesem Fall erhält man die n–Schritt Ubergangskerne κn induktiv durch κn−1 ( · , dx) κ1 (x, · ). κn = κn−1 · κ1 = E

Speziell ist die Familie (κn )n∈N eine Markov’sche Halbgruppe, und die Verteilung von X ist durch die Angabe von κ1 eindeutig festgelegt. Beweis. Setze in Satz 17.9 ti = i für i ∈ N0 . Für den Beweis des Satzes wurde nur (17.5) ausgenutzt. 2

338

17 Markovketten

Die (schwache) Markoveigenschaft eines Prozesses besagt, dass zu fester Zeit t die Zukunft (nach t) von der Vergangenheit (bis t) nur durch die Gegenwart (also den Wert zur Zeit t) abhängt. Wir können diesen Begriff verallgemeinern, indem wir statt fester Zeiten auch Stoppzeiten zulassen. Definition 17.12. Sei I ⊂ [0, ∞) abgeschlossen unter Addition. Ein Markovprozess (Xt )t∈I mit Verteilungen (Px , x ∈ E) hat die starke Markoveigenschaft, falls für jede f.s. endliche Stoppzeit τ und jede B(E)⊗I − B(R) messbare, beschränkte Funktion f : E I → R, sowie jedes x ∈ E gilt: * ) κ(Xτ , dy) f (y). (17.6) Ex f ((Xτ +t )t∈I ) Fτ = EXτ [f (X)] := EI

Bemerkung 17.13. Ist I höchstens abzählbar, so ist die starke Markoveigenschaft a¨ quivalent dazu, dass für jede fast sicher endliche Stoppzeit τ gilt * ) ) * Lx (Xτ +t )t∈N0 Fτ = LXτ (Xt )t∈N0 := κ(Xτ , · ). (17.7) Dies folgt genau wie in Korollar 17.10.

3

Die meisten relevanten Markovprozesse besitzen auch die starke Markoveigenschaft. Statt hier den Begriff der Relevanz zu diskutieren, was sich wohl kaum erschöpfend machen ließe, wollen wir lieber zeigen, dass für abzählbare Zeitmenge die starke Markoveigenschaft aus der schwachen folgt. In zeitstetigen Situationen hingegen muss man im Allgemeinen mehr arbeiten, um die starke Markoveigenschaft zu etablieren. Satz 17.14. Ist I ⊂ [0, ∞) höchstens abzählbar und abgeschlossen unter Addition, so hat jeder Markovprozess (Xn )n∈I mit Verteilungen (Px )x∈E die starke Markoveigenschaft. Beweis. Sei f : E I → R undbeschr¨ ) messbar

* ankt. Dann ist für jedes s ∈ I die Zufallsvariable {τ =s} Ex f (Xs+t )t∈I |Fτ messbar bezüglich Fs . Mit der Turmeigenschaft der bedingten Erwartung und Satz 17.9 in der dritten Gleichheit erhalten wir daher ) * ) * Fτ Ex f (Xτ +t )t∈I Fτ = {τ =s} Ex f (Xs+t )t∈I s∈I

=

Ex

s∈I

=

s∈I

Ex

'

'

{τ =s}

{τ =s}

* ( ) Ex f (Xs+t )t∈I Fs Fτ ) * ( EXs f (Xt )t∈I Fτ

) * = EXτ f (Xt )t∈I .

2


339

Wir bringen eine einfache Anwendung der starken Markoveigenschaft. Satz 17.15 (Reflexionsprinzip). Seien Y1 , Y2 , . . . u.i.v. reelle Zufallsvariablen mit symmetrischer Verteilung L[Y1 ] = L[−Y1 ]. Setze X0 = 0 und Xn := Y1 + . . . + Yn für n ∈ N. Dann gilt für jedes n ∈ N0 und a > 0 + , P sup Xm ≥ a ≤ 2 P[Xn ≥ a] − P[Xn = a]. (17.8) m≤n

Gilt P[Y1 ∈ {−1, 0, 1}] = 1, so gilt für a ∈ N in (17.8) sogar Gleichheit. Beweis. Sei a > 0 und n ∈ N. Definiere die bei (n + 1) abgeschnittene Zeit des ¨ ersten Uberschreitens von a τ := inf{m ≥ 0 : Xm ≥ a} ∧ (n + 1). Dann ist τ eine beschränkte Stoppzeit und sup Xm ≥ a

m≤n

⇐⇒

Setze f (m, X) = {m≤n} {Xn−m >a} + 12

f τ, (Xτ +m )m∈N0 = {τ ≤n}

τ ≤ n.

{Xn−m =a} {Xn >a}

+

. Dann ist 1 2

{Xn =a}

Die starke Markoveigenschaft von X liefert ' ( E0 f τ, (Xτ +m )m≥0 Fτ = ϕ (τ, Xτ ) ,

.

wobei ϕ(m, x) = Ex [f (m, X)]. (Hierbei bezeichnet Ex die Erwartung für X, falls X0 = x.) Wegen der Symmetrie der Yi ist ⎧ 1 ≥ , falls m ≤ n und x ≥ a, ⎪ ⎪ ⎨ 2 ϕ(m, x) = 21 , falls m ≤ n und x = a, ⎪ ⎪ ⎩ = 0, falls m > n.

Also gilt

{τ ≤ n} = {τ ≤ n} ∩ {Xτ ≥ a} ⊂

1

ϕ(τ, Xτ ) ≥

1 2

2

∩ {τ ≤ n}

= {ϕ(τ, Xτ ) > 0} ∩ {τ ≤ n}. Nun folgt (17.8) aus P[Xn > a] +

* ) 1 P[Xn = a] = E f τ, (Xτ +m )m≥0 2 (17.9) ) * 1 = E0 ϕ(τ, Xτ ) {τ ≤n} ≥ P0 [τ ≤ n] . 2

340

17 Markovketten

Gilt P[Y1 ∈ {−1, 0, 1}] = 1, und ist a ∈ N, so ist Xτ = a, falls τ ≤ n. Also ist 1 {ϕ(τ, Xτ ) > 0} ∩ {τ ≤ n} = ϕ(τ, Xτ ) = ∩ {τ ≤ n}. 2 Daher gilt Gleichheit im letzten Schritt von (17.9) und damit auch in (17.8).

2

¨ Ubung 17.1.1. Sei I ⊂ R X = (Xt )t∈I ein stochastischer Prozess. Definiere für t ∈ I die σ-Algebren, die die Vergangenheit bis und die Zukunft ab t kodieren: F≤t := σ(Xs : s ∈ I, s ≤ t)

und

F≥t := σ(Xs : s ∈ I, s ≥ t).

Man zeige: X hat genau dann die elementare Markoveigenschaft, wenn für jedes t ∈ I die σ-Algebren F≤t und F≥t unabhängig sind gegeben σ(Xt ) (vergleiche Definition 12.20). Mit anderen Worten: Ein Prozess hat die elementare Markoveigenschaft genau dann, wenn Vergangenheit und Zukunft unabhängig sind gegeben die Gegenwart. ♣

17.2 Diskrete Markovketten, Beispiele Sei E höchstens abzählbar und I = N0 . Ein Markovprozess X = (Xn )n∈N0 auf E ist nach Definition 17.3 eine diskrete Markovkette (oder Markovkette mit diskretem Zustandsraum). Ist X eine diskrete Markovkette, so ist (Px )x∈E festgelegt durch die Angabe von ¨ der Ubergangsmatrix p = (p(x, y))x,y∈I := (Px [X1 = y])x,y∈E . Die n-Schrittübergangswahrscheinlichkeiten p(n) (x, y) := Px [Xn = y] ergeben sich nämlich als n-faches Matrixprodukt p(n) (x, y) = pn (x, y), wobei pn (x, y) =

pn−1 (x, z)p(z, y)

z∈E 0

und p = I die Einheitsmatrix ist.

Durch Iteration folgt die Chapman-Kolmogorov’sche Gleichung (siehe (14.13)) für alle m, n ∈ N0 und x, y ∈ E p(m+n) (x, y) = p(m) (x, z) p(n) (z, y). (17.10) z∈E

17.2 Diskrete Markovketten, Beispiele

341

Definition 17.16. Eine Matrix (p(x, y))x,y∈E mit nichtnegativen Einträgen und

p(x, y) = 1

y∈E

für jedes x ∈ E

heißt stochastische Matrix auf E. Nun ist eine stochastische Matrix im Wesentlichen ein stochastischer Kern von E nach E. In Satz 17.8 hatten wir gesehen, dass zu der Halbgruppe von Kernen ¨ (pn )n∈N genau eine diskrete Markovkette existiert, deren Ubergangswahrscheinlichkeiten durch p gegeben sind. Die dort angegeben Argumente waren eher abstrakter Natur. Wir wollen hier eine Konstruktion von X angeben, mit der man beispielsweise auch eine Computersimulation bauen kann. Sei (Rn )n∈N0 eine unabhängige Familie von Zufallsvariablen mit Werten in E E mit der Eigenschaft, dass P[Rn (x) = y] = p(x, y)

für alle x, y ∈ E.

(17.11)

Beispielsweise wähle man (Rn (x), x ∈ E, n ∈ N) als eine unabhängige Familie von Zufallsvariablen mit Werten in E und Verteilungen P[Rn (x) = y] = p(x, y)

für alle x, y ∈ E und n ∈ N0 .

Man beachte aber, dass wir in (17.11) weder die Unabhängigkeit der Zufallsvariablen (Rn (x), x ∈ E) gefordert haben, noch, dass alle Rn die selbe Verteilung haben (lediglich die eindimensionalen Randverteilungen sind festgelegt). In der Tat möchte man in vielen wichtigen Anwendungen wohldefinierte Abhängigkeitsstrukturen haben, um Markovketten mit unterschiedlichen Startzuständen miteinander zu koppeln. Diesen Faden verfolgen wir erst in Abschnitt 18.2 weiter. Für x ∈ E definiere X0x = x

und

x Xnx = Rn (Xn−1 )

für n ∈ N.

Schließlich definieren wir Px := L[X x ] als die Verteilung von X x , also als ein W-Maß auf dem Folgenraum (E N0 , B(E)⊗N0 ). Satz 17.17. (i) Der kanonische Prozess X auf (E N0 , B(E)⊗N0 ) ist bezüglich ¨ der Verteilung (Px )x∈E eine Markovkette mit Ubergangsmatrix p. (ii) Insbesondere gehört zu jeder stochastischen Matrix p genau eine diskrete ¨ Markovkette X mit Ubergangswahrscheinlichkeiten p. Beweis. (ii)“ folgt aus (i), da Satz 17.11 die Eindeutigkeit von X liefert. ” (i)“ Für n ∈ N0 und x, y, z ∈ E gilt nach Konstruktion ”

342

17 Markovketten

) x * Px [Xn+1 = z Fn , Xn = y] = P Xn+1 = z σ Rm , m ≤ n , Xnx = y * ) = P Rn+1 (Xnx ) = z σ Rm , m ≤ n , Xnx = y ) = P Rn+1 (y) = z] = p(y, z). ¨ Nach Satz 17.11 ist X also eine Markovkette mit Ubergangsmatrix p.

2

Beispiel 17.18. (Irrfahrt auf Z) Sei E = Z, und gelte für alle x, y ∈ Z.

p(x, y) = p(0, y − x)

Wir sagen in diesem Fall, dass p translationsinvariant ist. Eine diskrete MarD ¨ kovkette X mit Ubergangsmatrix p ist eine Irrfahrt auf Z. Es ist nämlich Xn = X0 + Z1 + . . . + Zn , wo (Zn )n∈N u.i.v. sind mit P [Zn = x] = p(0, x). Die Rn aus der expliziten Konstruktion erhalten wir durch Rn (x) := x + Zn .

3

Beispiel 17.19 (Simulation am Computer). Wir betrachten die Situation wo E = ¨ {1, . . . , k} sogar endlich ist und wollen eine Markovkette X mit Ubergangsmatrix p am Computer simulieren. Wir nehmen an, dass der Computer einen Zufallszahlengenerator bereitstellt, der eine Folge (Un )n∈N unabhängiger uniform auf [0, 1] verteilter Zufallsvariablen erzeugt. Wir setzen r(i, 0) = 0, r(i, j) = p(i, 1) + . . . + p(i, j) für i, j ∈ E, und definieren Yn durch ⇐⇒ Un ∈ [r(i, j − 1), r(i, j)). Rn (i) = j Per Konstruktion ist dann P[Rn (i) = j] = r(i, j) − r(i, j − 1) = p(i, j).

3

Beispiel 17.20 (Verzweigungsprozess als Markovkette). Wir wollen den GaltonWatson Verzweigungsprozess (siehe Definition 3.9) als Markovkette auf E = N0 auffassen. Sei hierzu (qk )k∈N0 ein Wahrscheinlichkeitsvektor, den wir als Verteilung der Nachkommenschaft eines Individuums auffassen. Definiere qk∗0 = {0} (k) und qk∗n =

k l=0

∗(n−1)

qk−l

ql

für n ∈ N

als n-fache Faltung von q sowie die Matrix p durch p(x, y) = qy∗x für x, y ∈ N0 .

Seien nun (Yn,i , n ∈ N0 , i ∈ N0 ) u.i.v. mit P[Yn,i = k] = qk . Für x ∈ N0 definieren wir den Verzweigungsprozess X mit x Urahnen und Nachkommenverteilung q Xn−1 durch X0 = x und Xn := i=1 Yn−1,i . Um zu zeigen, dass X eine Markovkette ist, berechnen wir

17.2 Diskrete Markovketten, Beispiele

343

P[Xn = xn X0 = x, X1 = x1 , . . . , Xn−1 = xn−1 ]

= P[Yn−1,1 + . . . + Yn−1,xn−1 = xn ] ∗x

n−1 = PY1,1 ({xn }) = qx∗xnn−1 = p(xn−1 , xn ).

¨ Also ist X eine Markovkette auf N0 mit Ubergangsmatrix p.

3

Beispiel 17.21 (Wright’sches Evolutionsmodell). In der Biologie beschreibt das Wright’sche Evolutionsmodell ([159]) die Vererbung eines genetischen Merkmales mit zwei möglichen Ausprägungen, etwa A und B, (zum Beispiel Resistenz/keine Resistenz gegen ein bestimmtes Antibiotikum) in einer Population konstanter Größe N ∈ N mit diskreter Generationenfolge. Die Individuen werden dabei als haploid angenommen, die Chromosomen liegen also einfach vor (wie etwa bei gewissen Einzellern) und nicht als Paare (wie etwa bei Säugetieren). Wir betrachten hier den Fall, wo keines der beiden Merkmale einen Selektionsvorteil bietet. Es wird also angenommen, dass sich jedes Individuum der neuen Generation zufällig (gleichverteilt) eines der Individuen der vorangehenden Generation als Ahn (oder Vorgänger) aussucht und dessen komplettes Erbgut u¨ bernimmt. Die Wahl wird für jedes Individuum unabhängig getroffen, wobei mehrere Individuen auf den selben Ahn zurückgehen können. Beträgt die Anzahl der Individuen vom Typ A in der Elterngeneration k ∈ {0, . . . , N }, so ist dieselbe Anzahl in der Kindergeneration zufällig und binomialverteilt mit Parametern N und k/N . Wir können die Genfrequenzen (also die relativen Anteile k/N ) in diesem Modell offenbar durch eine Markovkette X auf E = {0, 1/N, . . . , (N − 1)/N, 1} mit ¨ Ubergangsmatrix p(x, y) = bN,x ({N y}) beschreiben. Man beachte, dass X ein (beschränktes) Martingal ist. Nach dem Martingalkonvergenzsatz konvergiert X also Px -fast sicher gegen eine Zufallsvariable X∞ mit Ex [X∞ ] = Ex [X0 ] = x. ¨ Ahnlich wie beim Wählermodell (siehe Beispiel 11.16), das in der Tat sehr eng verwandt mit diesem Modell ist, können wir argumentieren, dass X∞ nur die stabilen Randwerte 0 und 1 annehmen kann. Es gilt also Px [limn→∞ Xn = 1] = x = 1 − Px [limn→∞ Xn = 0]. 3 Beispiel 17.22 (Diskretes Moran-Modell). Wir wollen ein dem Wright’schen Evo¨ lutionsmodell verwandtes Modell mit Uberlappung der Generationen betrachten. Die Situation ist wie beim Wright’schen Modell, jedoch soll jetzt pro Zeitschritt immer nur genau ein Individuum durch ein neues ersetzt werden, dessen Typ durch eine zufällige Wahl aus der Elterngeneration bestimmt wird. Da die Typen des zu ersetzenden und des neuen Individuums unabhängig sind, erhalten wir als Modell für die Genfrequenzen eine Markovkette X auf E = ¨ {0, N1 , . . . , 1} mit Ubergangsmatrix ⎧ x(1 − x), falls y = x + 1/N, ⎪ ⎪ ⎪ ⎨ x2 + (1 − x)2 , falls y = x, p(x, y) = ⎪ x(1 − x), falls y = x − 1/N, ⎪ ⎪ ⎩ 0, sonst.

344

17 Markovketten

Auch hier ist X wieder ein beschränktes Martingal, und wir können den quadratischen Variationsprozess ausrechnen: X!n =

n−1

n−1 * ) 2 E (Xi − Xi−1 )2 Xi−1 = 2 Xi (1 − Xi ). N i=0 i=0

(17.12) 3

¨ Ubung 17.2.1 (Diskretes Martingalproblem). Sei E ⊂ R höchstens abzählbar ¨ und X eine Markovkette auf E mit Ubergangsmatrix p und der Eigenschaft, dass es ⊂ E gibt mit p(x, y) = 0 für für jedes x eine höchstens dreielementige Menge A x jedes y ∈ E \ Ax . Sei d(x) := y∈E (y − x) p(x, y) für x ∈ E. n−1 (i) Man zeige: Durch Mn := Xn − k=0 d(Xk ) wird ein Martingal M definiert n−1 mit quadratischem Variationsprozess M !n = i=0 f (Xi ) für eine eindeutig bestimmte Funktion f : E → [0, ∞). ¨ (ii) Man zeige: Die Ubergangsmatrix p ist durch Angabe von f und d eindeutig bestimmt. ¨ (iii) Man berechne für das Moran-Modell (Beispiel 17.22) die Ubergangsmatrix aus der expliziten Form (17.12) des quadratischen Variationsprozesses. ♣

17.3 Diskrete Markovprozesse in stetiger Zeit ¨ Sei E abzählbar und (Xt )t∈[0,∞) ein Markovprozess auf E mit Ubergangswahrscheinlichkeiten pt (x, y) = Px [Xt = y] (für x, y ∈ E). (Manche Autoren nennen solch einen Prozess auch Markovkette in stetiger Zeit.) Sind x, y ∈ E mit x = y, so sagen wir, dass X mit Rate q(x, y) von x nach y springt, falls der folgende Limes existiert q(x, y) := lim t↓0

1 Px [Xt = y]. t

Wir nehmen nun an, dass q(x, y) für alle y = x existiert, und dass q(x, y) < ∞ für jedes x ∈ E

(17.13)

y=

x

gilt. Wir setzen dann q(x, x) = − Mit dieser Festsetzung gilt lim t↓0

1 Px [Xt = y] − t

{x=y}

q(x, y).

(17.14)

y=

x

= q(x, y)


(17.15)

17.3 Diskrete Markovprozesse in stetiger Zeit

345

Definition 17.23. Gelten (17.13), (17.14) und (17.15), so heißt q die Q-Matrix von X. Manchmal wird q auch der Generator der Halbgruppe (pt )t≥0 genannt. Beispiel 17.24 (Poissonprozess). Der Poissonprozess mit Rate α > 0 (vergleiche 3 Kapitel 5.5) hat die Q-Matrix q(x, y) = α( {y=x+1} − {y=x} ). Satz 17.25. Gilt q(x, y) ≥ 0 für alle x, y ∈ E mit x = y, gelten (17.13), (17.14), und ist (17.16) λ := sup |q(x, x)| < ∞, x∈E

so ist q die Q-Matrix eines eindeutig bestimmten Markovprozesses X. Ganz naiv betrachtet legt (17.15) nahe, dass man pt = etq in einem geeigneten Sinne d pt . Der folgende Beweis zeigt, dass definiert. Dann wäre rein formal q = dt t=0 diese formale Argumentation unter den angegebenen Bedingungen rigoros gemacht werden kann. Beweis. Sei I die Einheitsmatrix. Definiere p(x, y) =

1 q(x, y) + I(x, y) λ

für x, y ∈ E.

Dann ist p eine stochastische Matrix und q = λ(p − I). Sei (Yn )n∈N0 , PYx x∈E

¨ eine diskrete Markovkette mit Ubergangsmatrix p, und sei (Tt )t≥0 , PTn n∈N0

ein Poissonprozess mit Rate λ. Sei Xt := YTt und Px = PYx ⊗ PT0 . Dann ist X := ((Xt )t≥0 , (Px )x∈E ) ein Markovprozess und pt (x, y) := Px [Xt = y] =

∞

PT0 [Tt = n] PxY [Yn = y]

n=0

= e−λt

∞

λ n tn n p (x, y). n! n=0

Diese Potenzreihe (in t) ist u¨ berall konvergent (da p als linearer Operator endliche Norm p2 ≤ 1 hat) gegen die Matrix-Exponentialfunktion eλtp (x, y), und es gilt pt (x, y) = e−λt eλtp (x, y) = eλt(p−I) (x, y) = etq (x, y). Durch gliedweise Differentiation der Potenzreihe erhalten wir

d dt pt (x, y)

t=0

=

q(x, y). Damit ist X der gewünschte Markovprozess. ¨ Wir nehmen nun an, dass ( pt )t≥0 die Ubergangswahrscheinlichkeiten eines weite sind, mit dem selben Generator q, also mit ren Markovprozesses X lim s↓0

1 ps (x, y) − I(x, y) = q(x, y). s

346

17 Markovketten

Man prüft leicht nach, dass 1 pt+s (x, y) − pt (x, y) = (q · pt )(x, y) s

lim s↓0

gilt, das heißt, es gilt (d/dt)pt (x, y) = q pt (x, y) und analog (d/dt) pt = q pt (x, y). Damit gilt ebenfalls t

pt (x, y) − pt (x, y) = q(ps − ps ) (x, y) ds. 0

Setzen wir rs = ps − ps , so ist rs 2 ≤ 2 und q2 ≤ 2λ, also sup rs 2 ≤ sup s≤t

s≤t

t

0

qru 2 du ≤ q2 sup s≤t

0

t

ru 2 du ≤ 2λt sup rs 2 . s≤t

Für t < 1/2λ folgt hieraus rt = 0 und iterativ rt = 0 für alle t ≥ 0, also pt = pt .2

Bemerkung 17.26. Auf die Bedingung (17.16) kann nicht ersatzlos verzichtet werden, wie dieses Beispiel zeigt: Sei E = N und ⎧ 2 ⎪ ⎨ x , q(x, y) = −x2 , ⎪ ⎩ 0,

falls y = x + 1, falls y = x, sonst.

Wir stellen uns einen Kandidaten X für einen Markovprozess mit Q-Matrix q explizit her. Seien T1 , T2 , . . . unabhängige, exponentialverteilte Zufallsvariablen mit PTn = expn2 . Setze Sn = T1 + . . . + Tn−1 und Xt = sup{n ∈ N0 : Sn ≤ t}. Dann macht X zu jedem Zeitpunkt höchstens einen Schritt nach rechts, und es gilt ¨ aufgrund der Gedächtnislosigkeit der Exponentialverteilung (siehe Ubung 8.1.1) P[Xt+s ≥ n + 1|Xt = n] = P[Sn+1 ≤ t + s|Sn ≤ t, Sn+1 > t]

= P[Tn ≤ s + t − Sn |Sn ≤ t, Tn > t − Sn ] = P[Tn ≤ s] = 1 − exp(−n2 s).

Es folgt lim s−1 P[Xt+s = n + 1|Xt = n] = n2 s↓0

und

lim s−1 P[Xt+s = n|Xt = n] − 1 = −n2 , s↓0

also

lim s−1 P[Xt+s = m|Xt = n] − I(m, n) = q(m, n) s↓0

für alle m, n ∈ N.

17.3 Diskrete Markovprozesse in stetiger Zeit

347

Schreiben wir τ n = inf{t ≥ 0 : Xt = n} = Sn für n ∈ N, ) * n−1 so gilt E1 [τ n ] = k=1 k12 . Speziell ist also E1 supn∈N τ n < ∞, das heißt, X u¨ berschreitet in endlicher Zeit alle Schranken. Wir sagen, dass X explodiert. 3 Beispiel 17.27 (Eine Variante des Pólya’schen Urnenmodells). Wir betrachten eine Variante des Pólya’schen Urnenmodells mit schwarzen und roten Kugeln (vergleiche Beispiel 12.29), wo nicht jeweils einfach nur eine weitere Kugel der selben Farbe zurückgelegt wird, sondern für die k-te Kugel, die von einer Farbe gezogen wird, werden rk weitere Kugeln zurückgelegt. Dabei sind die Zahlen r1 , r2 , . . . ∈ N die Parameter des Modells. Der Fall 1 = r1 = r2 = . . . entspricht dem klassischen Pólya’schen Urnenmodell. Sei 1, falls die n-te Kugel schwarz ist, Xn := 0, sonst. Beim klassischen Modell hatten wir gesehen (Beispiel 12.29), dass der Anteil der schwarzen Kugeln gegen eine betaverteilte Zufallsvariable Z konvergiert, und dass gegeben Z die Folge X1 , X2 , . . . unabhängig und BerZ verteilt ist. Ganz a¨ hnliche Aussagen bekommen wir in dem Fall, wo r = r1 = r2 = . . . ist für ein r ∈ N. In der Tat a¨ ndern sich hier nur die Parameter der Betaverteilung. Insbesondere (da die Betaverteilung keine Atome in 0 und 1 hat), werden von jeder Farbe fast sicher unendlich viele Kugeln gezogen. Es gilt also P[B] = 0, wo B das Ereignis ist, dass von einer der Farben nur endlich viele Kugeln gezogen werden. Wir werden jetzt sehen, dass dies nicht so sein muss, wenn die Zahlen rk nur rasch genug wachsen. Wir nehmen an, dass anfangs nje eine rote und eine schwarze Kugel in der Urne liegen und schreiben wn = 1+ k=1 rk für die Gesamtzahl von Kugeln einer Farbe, nachdem die Farbe bereits n-mal gezogen wurde (n ∈ N0 ).

Wir betrachten zunächst eine extreme Situation wo wn = 2n für jedes n ∈ N. Die Größe Sn = 2(X1 + . . . + Xn ) − n

zählt, wie viel mehr schwarze Kugeln als rote Kugeln bis zum n-ten Schritt gezogen wurden. Dann ist für jedes n ∈ N0 P[Xn+1 = 1|Sn ] =

2Sn 1 + 2Sn

und

P[Xn+1 = 0|Sn ] =

2−Sn . 1 + 2−Sn

Zusammen erhalten wir, dass (Zn )n∈N0 := (|Sn |)n∈N0 eine Markovkette auf N0 ist ¨ mit Ubergangsmatrix ⎧ z 2 /(1 + 2z ), falls z ′ = z + 1 > 1, ⎪ ⎪ ⎨ 1, falls z ′ = z + 1 = 1, p(z, z ′ ) = z 1/(1 + 2 ), falls z ′ = z − 1, ⎪ ⎪ ⎩ 0, sonst.

348

17 Markovketten

Das Ereignis B von oben können wir schreiben als

B = Zn+1 < Zn nur endlich oft .

Sei A = Zn+1 > Zn für alle n ∈ N0 das Ereignis, dass Z auf direktem Weg nach ∞ flieht und τz = inf{n ∈ N0 : Zn ≥ z}. Offenbar ist Pz [A] =

∞

z ′ =z

′

′

p(z , z + 1) ≥ 1 −

∞

z ′ =z

1 ≥ 1 − 21−z . 1 + 2z′

Man kann leicht zeigen, dass P0 [τz < ∞] = 1 ist für jedes z ∈ N0 . Wir erhalten für jedes z ∈ N0 mit der starken Markoveigenschaft P0 [B] ≥ P0 [Zn+1 > Zn für alle n ≥ τz ] = Pz [A] ≥ 1 − 21−z und damit P0 [B] = 1. Damit ist nachgewiesen, dass fast sicher irgendwann nur noch Kugeln einer Farbe gezogen werden. Wir wollen nun von diesem extremen Beispiel weg und mit (noch) subtileren Methoden, die an das obige Beispiel mit der Explosion des Markovprozesses anknüpfen, arbeiten. ∞ 1 Wir wollen nun zeigen, dass P[B] = 1, falls n=0 wn < ∞. Hierzu betrachs r s ten wir unabhängige Zufallsvariablen T1 , T1 , T2 , T2r , . . . mit PTnr = PTns = ∞ ∞ r s r expwn−1 . Ferner sei T∞ = n=1 Tnr und T∞ = n=1 Tns . Offenbar ist E[T∞ ]= ∞ r n=0 1/wn < ∞, also ist insbesondere P[T∞ < ∞] = 1. Die analoge Aussage s r s gilt für T∞ . Man beachte, dass T∞ und T∞ unabhängig sind und Dichten haben r s r s (weil T1 und T1 Dichten haben), also gilt P[T∞ = T∞ ] = 0. Seien nun und

r ≤t Rt = sup n ∈ N : T1r + . . . + Tn−1

s ≤t . St = sup n ∈ N : T1s + . . . + Tn−1

Seien R := {T1r + . . . + Tnr , n ∈ N} und S := {T1s + . . . + Tns , n ∈ N} die Sprungzeitpunkte von (Rt ) und (St ), sowie U := R ∪ S = {u1 , u2 , . . .}, wobei u1 < u2 < . . . Sei 1 1, falls un ∈ S, Xn = 0, sonst.

Sei Ln = x1 + . . . + xn . Dann ist P[Xn+1 = 1 X1 = x1 , . . . , Xn = xn ] ) * = P un+1 ∈ S (uk ∈ S ⇐⇒ xk = 1) für jedes k ≤ n ) r = P T1s + . . . + TLs n +1 < T1r + . . . + Tn−L n +1 s r T1 + . . . + TLs +1 > T1r + . . . + Tn−L ] n n ) s * w Ln r = P TLn +1 < Tn−L = . n +1 wLn + wn−Ln

17.4 Diskrete Markovketten, Rekurrenz und Transienz

349

Also ist (Xn )n∈N0 das erweiterte Urnenmodell mit Gewichten (wn )n∈N0 . Wir betrachten nun das Ereignis B, dass von jeder Farbe unendlich viele Kugeln gezogen werden. Offenbar ist {Xn = 1 unendlich oft} = {sup S = sup U } und {Xn = s r 0 unendlich oft} = {sup R = sup U }. Wegen sup S = T∞ und sup R = T∞ ist r s also P[B] = P[T∞ = T∞ ] = 0. 3 ¨ Ubung 17.3.1. Seien r, s, R, S ∈ N. Man betrachte das Pólya’sche Urnenmodell (Xn )n∈N0 mit rk = r und sk = s für alle k ∈ N und anfänglich R roten Kugeln und S schwarzen Kugeln. Man zeige, dass der Anteil der schwarzen Kugeln fast sicher gegen eine Zufallsvariable Z mit Beta-Verteilung konvergiert und bestimme die Parameter. Man zeige, dass (Xn )n∈N0 u.i.v. ist gegeben Z und Xi ∼ BerZ für jedes i ∈ N0 . ♣ ¨ Ubung 17.3.2. Man zeige, dass fast sicher unendlich viele Kugeln jeder Farbe ge∞ 1 = ∞. ♣ zogen werden, falls w n=0 n

17.4 Diskrete Markovketten, Rekurrenz und Transienz Sei im Folgenden X = (Xn )n∈N0 eine Markovkette auf dem abzählbaren Raum E ¨ mit Ubergangsmatrix p. Definition 17.28. Für jedes x ∈ E sei τx := τx1 := inf{n > 0 : Xn = x} und

τxk = inf n > τxk−1 : Xn = x für k ∈ N, k ≥ 2.

τxk heißt k-te Eintrittszeit von X in x. Für x, y ∈ E sei ) * F (x, y) := Px [τy1 < ∞] = Px es gibt ein n ≥ 1 mit Xn = y

die Wahrscheinlichkeit jemals von x nach y zu gehen. Speziell ist F (x, x) die Rückkehrwahrscheinlichkeit (nach dem ersten Sprung) von x nach x. Man beachte, dass τx1 > 0 selbst bei Start in X0 = x gilt.

) * Satz 17.29. Für alle x, y ∈ E und k ∈ N gilt Px τyk < ∞ = F (x, y) F (y, y)k−1 .

Beweis. Wir führen den Beweis per Induktion u¨ ber k. Für k = 1 ist die Aussage per Definition richtig. Sei nun k ≥ 2. Dann ist wegen der starken Markoveigenschaft von X (siehe Satz 17.14)

350

17 Markovketten

1/6

1

1/2

1/3

2

4 1/2

1/2

3/4

1/2

3

5

3/4

1/4

6

1/4

1

1/2

1 1/2

8

7 1/2

¨ Abb. 17.1. Markovkette mit acht Zuständen. Die Zahlen sind die Ubergangswahrscheinlichkeiten für die entsprechenden Pfeile. Der Zustand 2 ist absorbierend, die Zustände 1, 3, 4 und 5 transient, die Zustände 6, 7 und 8 (positiv) rekurrent.

' ' ( ) * Px τyk < ∞ = Ex Px τyk < ∞ Fτyk−1 ' = Ex F (y, y) ·

{τyk−1 0, dann ist auch y rekurrent, und es gilt F (x, y) = F (y, x) = 1. Beweis. Sei F (x, y) > 0. Dann gibt es ein k ∈ N und Punkte x1 , . . . , xk ∈ E mit xk = y und xi = x für jedes i = 1, . . . , k sowie Px [Xi = xi für jedes i = 1, . . . , k] > 0. Speziell ist pk (x, y) > 0. Nach der Markoveigenschaft ist ) * ) * 1 − F (x, x) = Px τx1 = ∞ ≥ Px X1 = x1 , . . . , Xk = xk , τx1 = ∞ ) * = Px [X1 = x1 , . . . , Xk = xk ] · Py τx1 = ∞ = Px [X1 = x1 , . . . , Xk = xk ] (1 − F (y, x)) .

Ist nun F (x, x) = 1, dann ist auch F (y, x) = 1. Wegen F (y, x) > 0 existiert ein l ∈ N mit pl (y, x) > 0. Also ist für n ∈ N0 pl+n+k (y, y) ≥ pl (y, x) pn (x, x) pk (x, y). Mithin ist, falls x rekurrent ist, G(y, y) ≥

∞

n=0

pl+n+k (y, y) ≥ pl (y, x)pk (x, y)G(x, x) = ∞.

Folglich ist auch y rekurrent. Wenn wir jetzt im Argument x und y vertauschen, dann erhalten wir noch F (x, y) = 1. 2 Definition 17.36. Eine diskrete Markovkette heißt – irreduzibel, falls F (x, y) > 0 für alle x, y ∈ E gilt, oder a¨ quivalent G(x, y) > 0. – schwach irreduzibel, falls F (x, y) + F (y, x) > 0 für alle x, y ∈ E gilt.

Satz 17.37. Eine irreduzible diskrete Markovkette ist entweder rekurrent oder transient. Ist |E| ≥ 2, so gibt es keine absorbierenden Zustände. Beweis. Das folgt direkt aus Satz 17.35.

2

Satz 17.38. Ist E endlich und X irreduzibel, so ist X rekurrent. Beweis. Offenbar ist für jedes x ∈ E

y∈E

G(x, y) =

∞

n=0 y∈E

pn (x, y) =

∞

n=0

1 = ∞.

17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten

353

Da E endlich ist, gibt es ein y ∈ E mit G(x, y) = ∞. Wegen F (y, x) > 0 existiert ein k ∈ N mit pk (y, x) > 0, also ist pn+k (x, x) ≥ pn (x, y) pk (y, x) und G(x, x) ≥

∞

n=0

pn (x, y) pk (y, x) = pk (y, x) G(x, y) = ∞.

2

¨ Ubung 17.4.1. Sei x positiv rekurrent und F (x, y) > 0. Man zeige, dass auch y positiv rekurrent ist. ♣

17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten Wir wollen in diesem Abschnitt die Rekurrenz- und Transienzeigenschaften von Irrfahrten auf ZD , D = 1, 2, . . . untersuchen. Eine ausführlichere Behandlung findet der Leser im Buch von Spitzer [147]. Wir wollen untersuchen, ob die symmetrische einfache Irrfahrt X auf ZD , die in jedem Schritt mit gleicher Wahrscheinlichkeit zu einem der 2D nächsten Nachbarn springt, rekurrent oder transient ist. Sei also E = ZD und 1 falls |x − y| = 1, 2D , p(x, y) = 0, sonst. Der zentrale Grenzwertsatz legt nahe zu vermuten, dass pn (0, 0) ≈ CD n−D/2

für n → ∞

für eine Konstante CD , die von der Dimension abhängt. Wir müssen hier jedoch zunächst einmal den Fall ausschließen, wo n ungerade ist, denn für ungerades n ist offenbar pn (0, 0) = 0. Seien also Y1 , Y2 , . . . unabhängige ZD -wertige ZufallsvariD ablen mit P[Yi = x] = p2 (0, x). Dann ist X2n = Sn := Y1 + . . . + Yn für n ∈ N0 , ∞ also G(0, 0) = n=0 P[Sn = 0]. Offenbar hat Y1 = (Y11 , . . . , Y1D ) die Kovarianz2 matrix Ci,j := E[Y1i · Y1j ] = D {i=j} . Nach dem lokalen zentralen Grenzwertsatz (siehe etwa [21, Seite 224ff] für eine eindimensionale Version dieses Satzes oder ¨ Ubung 17.5.1 für eine analytische Herleitung) gilt n→∞

nD/2 p2n (0, 0) = nD/2 P[Sn = 0] −→ 2 (4π/D)−D/2 .

(17.18)

∞ Nun ist genau dann n=1 n−α < ∞, wenn α > 1 ist, also ist G(0, 0) < ∞ genau dann, wenn D > 2 ist. Wir haben damit einen Satz von Pólya gezeigt: Satz 17.39 (Pólya (1921)). Die symmetrische einfache Irrfahrt auf ZD ist genau dann rekurrent, wenn D ≤ 2.

354

17 Markovketten

Das hier verwendete Vorgehen hat den Nachteil, dass wir den lokalen zentralen Grenzwertsatz bemüht haben, den wir nicht bewiesen haben. Wir wollen daher weitere Ansätze betrachten, die ohne dieses Hilfsmittel auskommen und auch an sich von Interesse sind. Betrachten wir zunächst die eindimensionale einfache Irrfahrt, die mit Wahrscheinlichkeit p einen Schritt nach rechts macht und mit Wahrscheinlichkeit 1 − p einen Schritt nach links. Dann ist ∞ ∞ 2n −1/2 G(0, 0) = (p(1 − p))n = (−p(1 − p))n . n n n=0 n=0

Unter Benutzung des verallgemeinerten binomischen Lehrsatzes (Lemma 3.5) folgt ⎧ 1 ⎨3 , falls p = 12 , G(0, 0) = (17.19) (1 − 4p(1 − p)) ⎩ ∞, falls p = 21 .

Wir erhalten also, dass die einfache Irrfahrt auf Z genau dann rekurrent ist, wenn sie symmetrisch ist, also falls p = 12 gilt.

Die Transienz im Falle p = 12 folgt natürlich auch direkt aus dem starken Gesetz der großen Zahl, denn limn→∞ n1 Xn = E0 [X1 ] = 2p − 1 fast sicher. Tatsächlich haben wir bei diesem Argument nur benutzt, dass die einzelnen Schritte von X einen Erwartungswert haben, der ungleich Null ist. Betrachten wir nun die allgemeinere Situation, wo X nicht notwendigerweise nur zu den nächsten Nachbarn springt, wo aber immer noch E0 [|X1 |] < ∞ und E0 [X0 ] = 0 gelten. Das starke Gesetz der großen Zahl liefert hier nicht direkt die gewünschte Aussage, sondern wir müssen etwas sorgfältiger argumentieren. Die Markoveigenschaft liefert für jedes N ∈ N und y = x GN (x, y) :=

N

Px [Xk = y] =

k=0

N

k=0

Hieraus folgt für jedes L ∈ N GN (0, 0) ≥ =

−k ) * N Px τy1 = k Py [Xl = y] ≤ GN (y, y). l=0

1 GN (0, y) 2L + 1 |y|≤L

N 1 k p (0, y) 2L + 1 k=0 |y|≤L N

≥

1 2L + 1

pk (0, y).

k=1 y: |y/k|≤L/N

Nach dem schwachen Gesetz der großen Zahl ist lim inf k→∞ für jedes ε > 0, also folgt, wenn wir L = εN setzen

|y|≤εk

pk (0, y) = 1


lim inf GN (0, 0) ≥ N →∞

1 2ε

355

für jedes ε > 0.

Wir haben damit G(0, 0) = ∞ und folglich die Rekurrenz von X gezeigt.

Zusammen mit der vorangehenden, einfachen Richtung haben wir gezeigt: ∞ Satz 17.40. Eine Irrfahrt auf Z mit x=−∞ |x| p(0, x) < ∞ ist genau dann re∞ kurrent, wenn x=−∞ x p(0, x) = 0 gilt.

Wie steht es nun für symmetrische einfache Irrfahrten in Dimension D = 2 und höheren Dimensionen? Damit die Irrfahrt nach 2n Schritten wieder im Ursprung ist, muss sie ki Schritte in die i-te Richtung machen und ki Schritte in die Gegenrichtung, wobei k1 + . . . + kD = 2n ist. Wir erhalten also 2n 2n −2n p (0, 0) = (2D) , (17.20) k1 , k1 , . . . , kD , kD k1 +...+kD =n

wobei

N l1 ,...,lr

=

N! l1 !···lr !

der Multinomialkoeffizienten ist. Speziell ist für D = 2

p2n (0, 0) = 4−2n

n

k=0

= 4−2n

(2n)! (k!)2 ((n − k)!)2

n 2 2n n n 2n = 2−2n , n k n−k n k=0

wobei wir im letzten Schritt eine einfache kombinatorische Identität benutzt haben, die beispielsweise direkt aus der Faltungsformel (bn,p ∗ bn,p )({n}) = b2n,p ({n}) folgt. Nach der Stirling’schen Formel gilt nun √ −2n 2n 1 lim n 2 =√ , n→∞ n π ∞ also limn→∞ np2n (0, 0) = π1 . Insbesondere ist also n=1 p2n (0, 0) = ∞, das heißt, die zweidimensionale, symmetrische einfache Irrfahrt ist rekurrent.

Für D ≥ 3 lässt sich die Summe u¨ ber die Multinomialkoeffizienten nicht mehr in befriedigender Weise ausrechnen. Man kann allerdings immer noch obere Abschätzungen angeben, die zeigen, dass es ein c = cD gibt, sodass p2n (0, 0) ≤ c n−D/2 gilt, ∞ woraus dann G(0, 0) ≤ c n=1 n−D/2 < ∞ folgt (siehe etwa [58, Beispiel 6.30] oder [52, Seite 361]). Wir wollen hier jedoch eine andere Argumentation verfolgen. Die Sache wäre ganz einfach, wenn die einzelnen Koordinaten der Kette unabhängig wären. Dann wäre ja die Wahrscheinlichkeit, dass zur Zeit 2n alle Koordinaten gleich Null sind, gleich der D-ten Potenz der Wahrscheinlichkeit, dass etwa die erste Koordinate gleich Null ist. Für eine Koordinate ist aber (weil sich eine einzelne Koordinate ja nur mit Wahrscheinlichkeit 1/D bewegt, also nur Varianz 1/D

356

17 Markovketten

hat) die Wahrscheinlichkeit, von der 0 aus startend nach 2n Schritten wieder in 0 zu sein ungefähr (n π/D)−1/2 . Bis auf einen Faktor erhielte man so (17.18), ohne dass man den mehrdimensionalen lokalen zentralen Grenzwertsatz direkt bemüht hätte. Eine Möglichkeit, die Koordinaten tatsächlich unabhängig zu machen, besteht darin, die zeitdiskrete Markovkette in einen zeitstetigen Markovprozess auf ZD zu verwandeln, der die gleiche Greenfunktion hat. Wir betrachten also D unabhängige Poissonprozesse (Tti )t≥0 , i = 1, . . . , D mit Rate 1/D und D unabhängige, symmetrische einfache Irrfahrten Z 1 , . . . , Z D auf Z. Wir setzen T := T 1 + . . . + T D , Yti := ZTi i für i = 1, . . . , D und Yt = t

(Yt1 , . . . , YtD ). Dann ist Y eine Markovkette in stetiger Zeit mit Q-Matrix q(x, y) = p(x, y) − {x=y} . Da T ein Poissonprozess mit Rate 1 ist, ist auch (XTt )t≥0 ein D

Markovprozess mit Q-Matrix q. Es folgt (XTt )t≥0 = (Yt )t≥0 . Wir berechnen nun ∞ ∞ ∞ ) * GY := P0 [Yt = 0] dt = P0 X2n = 0, Tt = 2n dt 0

0

=

∞

n=0

p2n (0, 0)

n=0

∞

0

e−t

t2n dt = G(0, 0). (2n)!

Die beiden Prozesse (Xn )n∈N0 und (Yt )t∈[0,∞) haben also die selbe Greenfunktion. Nun sind aber die Koordinaten von Y tatsächlich unabhängig, also ist ∞ P0 [Yt1 = 0]D dt. GY = 0

P0 [Yt1

Wir müssen also nur noch = 0] für große t berechnen. Wir können so argumentieren: nach dem Gesetz der großen Zahl ist Tt1 ≈ t/D für große t. Außerdem gilt P0 [Yt1 ist gerade] ≈ 12 . Es gilt also, mit nt = ⌊t/2D⌋ für t → ∞ (vergleiche ¨ Ubung 17.5.2) * 1 2nt −nt −1/2 −1/2 1 ) 1 1 4 ∼ 2π/D P0 [Yt = 0] ∼ P Z2nt = 0 = t . (17.21) 2 2 nt 0∞ Da genau dann 1 t−α dt < ∞ gilt, wenn α > 1 ist, so gilt auch GY < ∞ genau dann, wenn D > 2 ist. Dies ist aber gerade die Aussage des Satzes von Pólya.

Schließlich stellen wir noch eine dritte Methode vor, um Rekurrenz und Transienz von Irrfahrten zu untersuchen, die unabhängig von den euklidischen Eigenschaften des D-dimensionalen Gitters ist und auf der Fourier-Inversionsformel beruht. ¨ Wir betrachten zunächst eine allgemeine irreduzible Irrfahrt mit Uber (zeitdiskrete) D it,x p(0, x) bezeichnen wir die charakgangsmatrix p auf Z . Mit φ(t) = x∈ZD e ¨ ¨ teristische Funktion eines einzelnen Ubergangs. Die Faltung der Ubergangswahrscheinlichkeiten u¨ berträgt sich in Potenzen der charakteristischen Funktion, also ist φn (t) = eit,x pn (0, x). x∈ZD


357

Nach der Fourier-Inversionsformel (Satz 15.10) erhalten wir aus φn die n-Schritt ¨ Ubergangswahrscheinlichkeiten zurück durch pn (0, x) = (2π)−D e−it,x φn (t) dt. [−π,π)D

Speziell ist für λ ∈ (0, 1) Rλ :=

∞

λn pn (0, 0) = (2π)−D

n=0

∞

n=0

λn φn (t) dt

[−π,π)D

1 dt. [−π,π)D 1 − λ φ(t) 1 −D = (2π) Re dt. 1 − λ φ(t) [−π,π)D = (2π)−D

Nun ist G(0, 0) = limλ↑1 Rλ , also X ist rekurrent ⇐⇒ lim λ↑1

Re

[−π,π)D

1 1 − λ φ(t)

dt = ∞.

(17.22)

Wäre φ(t) = 1 für ein t ∈ (−2π, 2π)D \{0}, so wäre φn (t) = 1 für jedes n ∈ N und ¨ damit nach Ubung 15.2.1 P0 [ Xn , t/(2π)! ∈ Z] = 1, also wäre X nicht irreduzibel, im Widerspruch zur Annahme. Wegen der Stetigkeit von φ ist also für jedes ε > 0

inf |φ(t) − 1| : t ∈ [−π, π)D \ (−ε, ε)D > 0. Es gilt also der folgende Satz.

Satz 17.41 (Chung-Fuchs (1951)). Eine irreduzible Irrfahrt auf ZD mit charakteristischer Funktion φ ist genau dann rekurrent, wenn für jedes ε > 0 gilt: 1 lim Re dt = ∞. (17.23) λ↑1 (−ε,ε)D 1 − λ φ(t) D 1 Betrachten wir nun die symmetrische einfache Irrfahrt, so ist φ(t) = D i=1 cos(ti ). Entwickeln wir die Kosinusfunktion in eine Taylorreihe um 0, so erhalten wir 1 cos(ti ) = 1 − 12 t2i + O(t4 ), also 1 − φ(t) = 2D t22 + O(t42 ). Es folgt, dass 0 −2 X genau dann rekurrent ist, wenn t2 0. Da x rekurrent ist, ist F (x, y) = F (y, x) = 1, und y ist rekurrent (Satz 17.35). Sei ) * F τy1 .

Dann ist F 0 (sonst würde y nicht getroffen) und nach Vertauschung der Rollen von x und y auch F 0. Nach der starken Markoveigenschaft (Satz 17.14) ist ⎡ 1 ⎤ ⎡ 1 ⎤ τx −1 τx −1 1 1⎦ ⎦ ⎣ Ey ⎣ {Xn =y} = 1 + Ey {Xn =y} ; τx > τy n=0

n=τy1

⎡ 1 τx −1 < ⎣ = 1 + 1 − F (y, x) Ey

Also ist

⎡

n=0

τx1 −1

Ey ⎣

Mithin ist

⎡

τx1 −1

μx ({y}) = Ex⎣

n=0

{Xn =y}

n=0

⎤

{Xn =y}

⎡

⎦ = Ex⎣

⎤

⎦=

τx1 −1

n=τy1

1 F τy1 ⎦ =

F n, Xn+1 = z y∈E

y∈E

) * = Px τx1 > n + 1; Xn+1 = z = pn+1 (x, z).

362

17 Markovketten

Also ist (wegen p0 (x, z) = 0) μx p({z}) =

∞

pn+1 (x, z) =

∞

pn (x, z) =

n=1

n=0

∞

pn (x, z) = μx ({z}).

n=0

2. Fall: x = z. Jetzt ist ) * ) * pn (x, y)p(y, x) = Px Xn = y; τx1 > n; Xn+1 = x = Px τx1 = n + 1 .

y∈E

y∈E

) * Also ist (wegen Px τx1 = 0 = 0) μx p({x}) =

∞

n=0

) * Px τx1 = n + 1 = 1 = μx ({x}).

Korollar 17.48. Ist x positiv rekurrent, so wird durch π({x}) := eine invariante Verteilung π definiert.

2

μx für x ∈ E Ex [τx1 ]

Satz 17.49. Ist X irreduzibel, so hat X höchstens eine invariante Verteilung. Bemerkung 17.50. Man kann auch zeigen: Ein invariantes Maß von X ist bis auf einen Faktor eindeutig. Der Beweis ist allerdings aufwändiger als der für invariante Verteilungen. Weil die Aussage hier nicht benötigt wird, verweisen wir lediglich auf [38, Theorem 5.4.4]. 3 Beweis. Seien π und ν invariante Verteilungen. Wähle einen beliebigen Wahrscheinlichkeitsvektor (gn )n∈N mit gn > 0 für jedes n ∈ N. Definiere die stochas∞ tische Matrix p(x, y) = n=1 gn pn (x, y). Dann ist p(x, y) > 0 für alle x, y ∈ E und π p = π sowie ν p = ν. Betrachte nun das signierte Maß μ = π − ν. Es gilt μ p = μ. Wäre nun μ = 0, so gäbe es (wegen μ(E) = 0) Punkte x1 , x2 ∈ E mit μ({x1 }) > 0 und μ({x2 }) 0 f¨ u r jedes x ∈ E. Sei P π = π({x})P . Sei x ∈ E fest und f¨ u r n ∈ N x 0 x∈E

σxn = sup m ≤ n : Xm = x ∈ N0 ∪ {−∞} die letzte Eintrittszeit in x bis zur Zeit n. (Man bemerke, dass dies keine Stoppzeit ist.) Nach der Markoveigenschaft gilt dann für k ≤ n ) * Pπ [σxn = k] = Pπ Xk = x, Xk+1 = x, . . . , Xn = x ) * = Pπ Xk+1 = x, . . . , Xn = x|Xk = x Pπ [Xk = x] ) * = π({x}) Px X1 , . . . , Xn−k = x ) * = π({x}) Px τx1 ≥ n − k + 1 .

) * Also ist für jedes n ∈ N0 (wegen Py τx1 < ∞ = 1 für jedes y ∈ E) 1=

n

k=0

Pπ [σxn = k] + Pπ [σxn = −∞]

= π({x})

n

k=0 n→∞

−→ π({x})

) * Mithin ist Ex τx1 =

1 π({x})

) * ) * Px τx1 ≥ n − k + 1 + Pπ τx1 ≥ n + 1 ∞

k=1

) * ) * Px τx1 ≥ k = π({x}) Ex τx1 .

< ∞, und damit ist X positiv rekurrent.

2

¨ Ubung 17.6.1. Betrachte die Markovkette aus Abb. 17.1 (Seite 350). Man bestimme die Menge aller invarianten Verteilungen und zeige, dass die Zustände 6, 7 und 8 positiv rekurrent sind mit erwarteten Eintrittszeiten E6 [τ6 ] =

17 , 4

E7 [τ7 ] =

17 5

und

E8 [τ8 ] =

17 . 5

♣

364

17 Markovketten

¨ Ubung 17.6.2. Sei X = (Xt )t≥0 eine Markovkette auf E in stetiger Zeit mit QMatrix q. Man zeige: Ein Wahrscheinlichkeitsmaß π auf E ist genau dann eine in variante Verteilung für X, wenn x∈E π({x})q(x, y) = 0 für alle y ∈ E. ♣ ¨ ¨ Ubung 17.6.3. Sei G eine abzählbare, abelsche Gruppe und p die Ubergangsmatrix einer irreduziblen Irrfahrt X auf G, das heißt, es gilt p(hg, hf ) = p(h, f ) für alle h, g, f ∈ G. (Dies verallgemeinert den Begriff der Irrfahrt auf ZD .) Man zeige mit Hilfe von Satz 17.51: X ist genau dann positiv rekurrent, wenn G endlich ist. ♣

¨ ¨ Ubung 17.6.4. Sei r ∈ [0, 1] und X die Markovkette auf N0 mit Ubergangsmatrix (siehe Abb. 17.2 auf Seite 351) ⎧ 1, falls x = 0 und y = 1, ⎪ ⎪ ⎪ ⎨ r, falls y = x + 1 ≥ 2, p(x, y) = ⎪ 1 − r, falls y = x − 1, ⎪ ⎪ ⎩ 0, sonst. Man bestimme das invariante Maß und zeige mit Hilfe von Satz 17.51:

(i) Ist r ∈ 0, 12 , so ist X positiv rekurrent. (ii) Ist r = 12 , so ist X nullrekurrent. *

(iii) Ist r ∈ {0} ∪ 21 , 1 , so ist X transient.

♣

18 Konvergenz von Markovketten

Wir betrachten eine Markovkette X mit invarianter Verteilung π und untersuchen unter welchen Bedingungen die Verteilung von Xn für n → ∞ gegen π konvergiert. Im Wesentlichen ist dafür notwendig und hinreichend, dass der Zustandsraum der Kette nicht in Unterräume zerfällt, die – von der Kette nicht verlassen werden, – oder von der Kette beispielsweise nur für ungerade n beziehungsweise gerade n besucht werden. Im ersten Fall wäre die Kette reduzibel, im zweiten hingegen periodisch. Wir untersuchen Periodizität von Ketten im ersten Abschnitt und zeigen im zweiten den Konvergenzsatz. Im dritten Abschnitt beschäftigen wir uns mit Anwendungen des Konvergenzsatzes für Computersimulationen mit der so genannten Markovketten Monte Carlo Methode. Im letzten Abschnitt beschreiben wir die Geschwindigkeit der Konvergenz gegen das Gleichgewicht mit Hilfe des Spektrums ¨ der Ubergangsmatrix.

18.1 Periodizität von Markovketten Wir untersuchen, unter welchen Bedingungen eine Markovkette X auf dem abzähl¨ baren Raum E (und mit Ubergangsmatrix p), die in einem beliebigen μ ∈ M1 (E) gestartet wird, in Verteilung gegen eine invariante Verteilung π konvergiert, also n→∞ μpn −→ π gilt. Sicherlich ist hierzu notwendig, dass π die einzige invariante Verteilung ist, und damit bis auf Vielfache der einzige Links-Eigenvektor von p zum Eigenwert 1. Hierfür ist ausreichend, dass die Kette irreduzibel ist (Satz 17.49). n→∞

Es sind gewisse Kontraktionseigenschaften von p notwendig, damit μpn −→ π für jedes μ ∈ M1 (E) gelten kann. Offenbar ist 1 der betragsmäßig größte Eigenwert von p. Allerdings ist p nur dann (ausreichend) kontrahierend, wenn die Vielfachheit dieses Eigenwertes genau 1 ist und keine weiteren (komplexwertigen) Eigenwerte mit Betrag 1 existieren. Für die letztgenannte Bedingung ist die Irreduzibilität der Kette nicht hinreichend, ¨ wie wir sehen, wenn wir auf E = {0, . . . , N − 1} die Markovkette mit Ubergangs-

366


matrix p(x, y) = {y=x+1(mod N )} betrachten. Der Eigenwert 1 hat die Vielfachheit 1. Jedoch sind alle N -ten Einheitswurzeln eik/N , k = 0, . . . , N − 1, ebenfalls Eigenwerte mit Betrag 1. Offenbar ist die Gleichverteilung auf E invariant, jedoch existiert lim δx pn für kein x ∈ E, denn jeder Punkt wird periodisch immer nur n→∞ nach jeweils genau N Schritten besucht. Um Konvergenz zu erzielen, müssen wir also zunächst Periodizität untersuchen (und ausschließen). Hernach können wir für irreduzible aperiodische Markovketten einen Konvergenzsatz angeben. n ∈ N. Sind m, n ∈ N, so schreiben wir mn, falls m ein Teiler von n ist, also falls m Ist M ⊂ N, so schreiben wir ggT(M ) für den größten gemeinsamen Teiler aller n ∈ M . Sei im Folgenden stets X eine Markovkette auf dem abzählbaren Raum E ¨ mit Ubergangsmatrix p. Definition 18.1.

(i) Für x, y ∈ E schreiben wir

N (x, y) := n ∈ N0 : pn (x, y) > 0 .

Für jedes x ∈ E heißt dx := ggT(N (x, x)) die Periode des Punktes x.

(ii) Ist dx = dy für alle x, y ∈ E, so heißt d := dx die Periode von X.

(iii) Ist dx = 1 für jedes x ∈ E, so heißt X aperiodisch.

1/2 1/2

1 1/2

1

1/2

1/2

1/2

Abb. 18.1. Die linke Markovkette ist periodisch mit Periode 2, die rechte Markovkette ist aperiodisch.

Lemma 18.2. Für jedes x ∈ E existiert ein nx ∈ N mit pndx (x, x) > 0

für jedes n ≥ nx .

(18.1)

Beweis. Seien k1 , . . . , kr ∈ N (x, x) mit ggT({k1 , . . . , kr }) = dx . Dann ist für alle r m1 , . . . , mr ∈ N0 auch i=1 ki mi ∈ N(x, x). Elementare Zahlentheorie liefert r uns nun, dass für jedes ≥ nx := r · i=1 (ki /dx ) Zahlen m1 , . . . , mr ∈ N0 n r existieren mit n dx = i=1 ki mi . Also gilt (18.1). 2

18.1 Periodizität von Markovketten

3

1/2

2

1/2

5

1

6

1

4

367

1

1

1

1

8

1

7

Abb. 18.2. Es ist N (8, 8) = {6, 10, 12, 14, 16, . . .}, also d8 := ggT({6, 10, 12, . . .}) = 2 und n8 = 5. Die Kette hat also Periode 2. Hingegen ist n1 = 2 und n4 = 4.

Das Problem, die kleinste Zahl N zu finden, sodass sich jedes n dx , n ≥ N als nichtnegative ganzzahlige Linearkombination von k1 , . . . , kr darstellen lässt, wird Frobenius Problem genannt. Die allgemeine Lösung ist unbekannt, allerdings hat Sylvester [150] für den Fall r = 2 gezeigt, dass N = (k1 /dx − 1)(k2 /dx − 1) minimal ist. Im allgemeinen Fall ist als obere Schranken für N beispielsweise 2 max{ki : i = 1, . . . , r}2 /(rd2x ) bekannt, siehe etwa [44]. Lemma 18.3. Sei X irreduzibel. Dann gelten: (i) d := dx = dy für alle x, y ∈ E.

(ii) Für alle x, y ∈ E existieren nx,y ∈ N und Lx,y ∈ {0, . . . , d − 1} mit nd + Lx,y ∈ N (x, y)

für jedes n ≥ nx,y .

(18.2)

für alle x, y, z ∈ E.

(18.3)

Lx,y ist eindeutig bestimmt, und es gilt Lx,y + Ly,z + Lz,x = 0 (mod d)

Beweis. (i) Seien m, n ∈ N0 mit pm (x, y) > 0 und pn (y, z) > 0. Dann ist pm+n (x, z) ≥ pm (x, y) pn (y, z) > 0. Also gilt

N (x, y) + N (y, z) := m + n : m ∈ N (x, y), n ∈ N (y, z) ⊂ N (x, z). (18.4)

Sind speziell m ∈ N (x, y), n ∈ N (y, x) und k ≥ ny , so ist kd y ∈ N (y, y), also (m + n + kdy ) für m + kdy ∈ N (x, y) und m + n + kd ∈ N (x, x). Es folgt d y x jedes k ≥ ny , also dx dy . Analog erhalten wir dy dx , also dx = dy .

(ii) Sei m ∈ N (x, y). Dann ist m + kd ∈ N (x, y) für jedes k ≥ nx . Also gilt (18.2) mit CmD CmD und Lx,y := m − d . nx,y := nx + d d Wegen (18.4) ist

368


(nx,y + ny,z )d + Lx,y + Ly,z ∈ N (x, z). Mit z = x folgt: d(Lx,y + Ly,x ), also ist Lx,y eindeutig in {0, . . . , d − 1} und Lx,y = −Ly,x (mod d). Für allgemeines z folgt: d(Lx,y + Ly,z + Lz,x ), also gilt (18.3). 2 Satz 18.4. Sei X irreduzibel mit Periode d. Dann existiert eine disjunkte Zerlegung des Zustandsraums d−1 E= Ei (18.5) i=0

mit der Eigenschaft

p(x, y) > 0 und x ∈ Ei

=⇒

y ∈ Ei+1 (mod d) .

(18.6)

Bis auf zyklische Vertauschung ist diese Zerlegung eindeutig. E0 E2 E1

Abb. 18.3. Markovkette mit Periode d = 3.

Die Eigenschaft (18.6) besagt gerade, dass X die Mengen Ei nacheinander besucht und zu jedem Zeitschritt in das nächste Ei wechselt (siehe Abb. 18.3 oder Abb. 18.2, wo d = 2, E0 = {1, 3, 5, 7} und E1 = {2, 4, 6, 8} ist).) Etwas formaler kö*nnen wir dies schreiben als: Ist x ∈ Ei für gewisses i, so ist Px Xn ∈ Ei+n (mod d) = 1. Wähle ein beliebiges x0 ∈ E und setze

Ei := y ∈ E : Lx0 ,y = i für i = 0, . . . , d − 1.

Beweis. Existenz“ ”

Offenbar gilt (18.5). Sei i ∈ {0, . . . , d − 1} und x ∈ Ei . Ist y ∈ E mit p(x, y) > 0, so ist Lx,y = 1, also ist Lx0 ,y = Lx0 ,x + Lx,y = i + 1 (mod d). i , i = 0, . . . , d − 1) eine weitere Zerlegung, die (18.5) Eindeutigkeit“ Sei (E ” 0 = ∅ (sonst vertausche die E i und (18.6) erfüllt. Ohne Einschränkung sei E0 ∩ E zyklisch bis dies gilt) und x0 ∈ E0 ∩ E0 beliebig. Nach Voraussetzung impliziert

18.2 Kopplung und Konvergenzsatz

369

1 , also y ∈ E1 ∩ E 1 . Iterativ erhalten wir, dass p(x0 , y) > 0 nun y ∈ E1 und y ∈ E nd+i p (x, y) > 0 impliziert, dass y ∈ Ei ∩ Ei (für n ∈ N und i = 0, . . . , d − 1).

Da die Kette irreduzibel ist, existieren aber für jedes y ∈ E Zahlen n(y) und i(y), i(y) . Mithin gilt Ei = E i für jedes sodass pn(y) d+i(y) (x0 , y) > 0, also y ∈ Ei(y) ∩ E i = 0, . . . , d − 1. 2

18.2 Kopplung und Konvergenzsatz Es ist oftmals nützlich, einen gemeinsamen Wahrscheinlichkeitsraum für zwei Verteilungen anzugeben, sodass die jeweiligen Verteilungen sich als die Randverteilungen ergeben. Wir stellen zunächst das Prinzip der Kopplung abstrakt vor und geben dann Beispiele an. Schließlich wenden wir die Begriffe auf Markovketten an. Definition 18.5. Sind (E1 , E1 , μ1 ) und (E2 , E2 , μ2 ) Wahrscheinlichkeitsräume, so heißt jedes W-Maß μ auf (E1 ×E2 , E1 ⊗E2 ) mit μ( · ×E2 ) = μ1 und μ(E1 × · ) = μ2 eine Kopplung von μ1 und μ2 . Beispiel 18.6. Seien X eine reelle Zufallsvariable und f, g : R → R monoton wachsende Funktionen mit E[f (X)2 ] < ∞ und E[g(X)2 ] < ∞. Wir wollen zeigen, dass die Zufallsvariablen f (X) und g(X) nichtnegativ korreliert sind. Sei dazu Y eine unabhängige Kopie von X, also eine von X unabhängige Zufallsvariable mit PY = PX . Speziell ist E[f (X)] = E[f (Y )] und E[g(X)] = E[g(Y )]. Für alle Zahlen x, y ∈ R ist (f (x) − f (y))(g(x) − g(y)) ≥ 0. Also ist ) * 0 ≤ E f (X) − f (Y ) g(X) − g(Y ) = E[f (X)g(X)] − E[f (X)] E[g(Y )] + E[f (Y )g(Y )] − E[f (Y )] E[g(X)] = 2 Cov[f (X), g(X)]. 2 0 0 Beispiel 18.7. Sind μ, ν ∈ M1 (Rd ), so schreiben wir μ ) ν, falls f dμ ≤ f dν für jede monoton wachsende, beschränkte Funktion f : Rd → R. Wir sagen dann, dass ν stochastisch größer als μ ist. Offenbar ist ) eine Halbordnung auf M1 (Rd ). Sind F1 und F2 die Verteilungsfunktionen von μ1 und μ2 , so ist offenbar μ1 ) ¨ μ2 genau dann, wenn F1 (x) ≥ F2 (x) für jedes x ∈ Rd . (Einen Uberblick u¨ ber verschiedene stochastische Ordnungen findet man beispielsweise in [116].) Wir zeigen jetzt, dass genau dann μ ) ν gilt, wenn es eine Kopplung ϕ von μ1 und μ2 gibt mit ϕ(L) = 1, wo L := {x = (x1 , x2 ) ∈ Rd × Rd : x1 ≤ x2 }.

d Sei ϕ eine solche Kopplung. Für monoton wachsendes, beschr¨ 0 anktes f 0: R → R 0ist f (x1 ) − f (x2 ) ≤ 0 für jedes x = (x1 , x2 ) ∈ L, also f dμ1 − f dμ2 = f (x1 ) − f (x2 ) ϕ(dx) ≤ 0 und damit μ1 ) μ2 . L

Gilt andererseits μ1 ) μ2 , so wird durch F ((x1 , x2 )) := min(F1 (x1 ), F2 (x2 )) eine Verteilungsfunktion auf Rd × Rd definiert, die zu einer Kopplung ϕ mit ϕ(L) = 1 gehört. 3

370


Beispiel 18.8. Sei (E, ̺) ein polnischer Raum. Für zwei W-Maße P und Q auf (E, B(E)) schreiben wir K(P, Q) ⊂ M1 (E × E) für die Menge der Kopplungen von P und Q. Wir können dann einen Abstand, die so genannte Wasserstein Metrik, auf M1 (E) definieren durch 1 2 dW (P, Q) := inf ̺(x, y) ϕ(d(x, y)) : ϕ ∈ K(P, Q) . (18.7) Man kann zeigen (Satz von Kantorovich-Rubinstein [85], siehe auch [37, Seite 420ff]), dass 1 2 dW (P, Q) = sup f d(P − Q) : f ∈ Lip1 (E; R) . (18.8) Man vergleiche diese Darstellung der Wasserstein Metrik mit derjenigen der Totalvariationsnorm: 1 2 P − QT V = sup f d(P − Q) : f ∈ L∞ (E) mit f ∞ ≤ 1 . (18.9) Tatsächlich können wir auch hier eine Definition durch eine Kopplung angeben: Sei D := {(x, x) : x ∈ E} die Diagonale in E × E. Dann ist

P − QT V = inf ϕ((E × E) \ D) : ϕ ∈ K(P, Q) . (18.10)

Siehe [59] für einen Vergleich verschiedener Metriken auf M1 (E).

3

Ein weiteres Beispiel für eine komplexere Kopplung liefert der folgende Satz von Skorohod, den wir hier nur zitieren. Satz 18.9 (Skorohod Kopplung). Es seien μ, μ1 , μ2 , . . . W-Maße auf einem poln→∞ nischen Raum E mit μn −→ μ. Dann existiert ein Wahrscheinlichkeitsraum (Ω, A, P) mit Zufallsvariablen X, X1 , X2 , . . . mit PX = μ und PXn = μn für n→∞ jedes n ∈ N sowie Xn −→ X fast sicher. Beweis. Siehe etwa [84, Seite 79].

2

Wir wollen die Kopplung diskreter Markovketten betrachten, die in unterschiedlichen Verteilungen μ und ν gestartet werden. Im Folgenden sei E stets ein abzählbarer Raum und p eine stochastische Matrix auf E. Definition 18.10. Eine bivariate Markovkette ((Xn , Yn ))n∈N0 mit Werten in E × E ¨ heißt eine Kopplung, falls (Xn )n∈N0 und (Yn )n∈N0 Markovketten mit Ubergangsmatrix p sind. n→∞

Eine Kopplung heißt erfolgreich, falls P(x,y) [Xn = Yn ] −→ 0 für alle x, y ∈ E.


371

Diese Definition der Kopplung von Markovketten ist in gewisser Weise sehr restriktiv, weil sie die Markoveigenschaft auch wieder für den gekoppelten Prozess fordert. Für die Anwendungen, die wir im Sinne haben, reicht dies aber völlig aus. Natürlich sind zwei unabhängig laufende Ketten eine Kopplung, allerdings vielleicht nicht die interessanteste. Beispiel 18.11 (Unabhängiges Verschmelzen). Die wichtigste Kopplung sind die verschmelzenden Markovketten: Wir lassen X und Y unabhängig voneinander mit ¨ Ubergangsmatrix p laufen, so lange bis sie sich das erste Mal treffen. Danach laufen die Ketten gemeinsam weiter. Diese Kopplung nennen wir unabhängiges Ver¨ schmelzen, sie hat die Ubergangsmatrix ⎧ ⎪ p(x1 , x2 ) · p(y1 , y2 ), falls x1 = y1 ,

⎨ p(x1 , x2 ), falls x1 = y1 , x2 = y2 , p¯ (x1 , y1 ), (x2 , y2 ) = ⎪ ⎩ 0, falls x1 = y1 , x2 = y2 .

Mit τ := inf{n ∈ N0 : Xn = Yn } bezeichnen wir den Verschmelzungszeitpunkt. ˜ und Y˜ herWir können die Kopplung tatsächlich aus zwei unabhängigen Ketten X ˜ setzen, τ˜ := inf{n ∈ N0 : X ˜ n = Yñ } und stellen, indem wir X := X 1 Yñ , falls n < τ˜, Yn := Xn , falls n ≥ τ˜.

Statt mit einer direkten Rechnung zu prüfen, dass der so definierte Prozess (X, Y ) ¨ eine Kopplung mit Ubergangsmatrix p¯ ist, betrachten wir die Konstruktion von Markovketten aus Satz 17.17: Seien (Rn (x) : n ∈ N0 , x ∈ E) unabhängige Zufalls˜ n ((x1 , y1 )) = variablen mit Verteilung P[Rn (x1 ) = x2 ] = p(x1 , x2 ), und sei R ˜ n )n∈N unabhängig, und es gilt P[R ˜ n ((x1 , y1 )) = (Rn (x1 ), Rn (y 1 )). Dann ist (R 0 (x2 , y2 )] = p¯ (x1 , y1 ), (x2 , y2 ) . Wie in Satz 17.17 gesehen, definiert Xn+1 := ¨ Rn (Xn ) und Yn+1 := Rn (Yn ) zwei Markovketten mit Ubergangsmatrix p. Ande˜ n ((Xn , Yn )), also ist der bivariate Prozess tatsächlich rerseits ist (Xn+1 , Yn+1 ) = R ¨ eine Kopplung mit Ubergangsmatrix p¯. 3 Beispiel 18.12. Sei E = Z und p(x, y) = 1/3, falls |x − y| ≤ 1 und 0 sonst. Offenbar gehört p zu einer aperiodischen, rekurrenten Irrfahrt auf Z. Wir wollen zeigen, dass wir eine erfolgreiche Kopplung durch Verschmelzung unabhängiger Ketten erreichen können. ˜ und Y˜ unabhängige Irrfahrten mit Ubergangsmatrix ¨ p. Dann ist die Seien also X ˜ n − Yñ )n∈N eine symmetrische Irrfahrt mit endliDifferenz (Zn )n∈N0 := (X 0 chem Erwartungswert, also rekurrent. Zudem ist Z irreduzibel. Für je zwei Punkte x, y ∈ Z gilt also P(x,y) [˜ τ < ∞] = Px−y [Zn = 0 für ein n ∈ N0 ] = 1. Also verschmelzen X und Y fast sicher. 3 Rekurrenz, Irreduzibilität und Aperiodizität alleine reichen nicht aus, damit das un¨ abhängige Verschmelzen eine erfolgreiche Kopplung ist. In Ubung 18.2.4 wird an

372


einem Beispiel gezeigt, dass wir auf die räumliche Homogenität nicht leicht verzichten können, wenn wir eine erfolgreiche Kopplung haben möchten. Der Verzicht auf Rekurrenz fällt leichter, wie der folgende Satz zeigt. Satz 18.13. Sei X eine beliebige aperiodische und irreduzible Irrfahrt auf Zd mit ¨ Ubergangsmatrix p. Dann existiert eine erfolgreiche Kopplung (X, Y ). Der Beweis ist etwas technisch und kann beim ersten Lesen ausgelassen werden. Beweis. Sei zunächst der Fall d = 1 betrachtet. Für jedes L ∈ N definieren wir die ¨ Ubergangsmatrix pˇL einer Irrfahrt auf Z durch pˇL (x, y) = p(x, z) p(y, z), falls x = y, z∈Z: |z−y|≤L, |z−x|≤L

und pˇL (x, x) = 1 −

y=

x

pˇL (x, y).

Offenbar ist pˇL stets aperiodisch. Wähle nun L so groß, dass pˇL irreduzibel ist. ¨ (Dass dies geht, zeigt die folgende Uberlegung: Da p aperiodisch und irreduzibel ist, gibt es zu jedem x ∈ Z ein Nx ∈ N mit p(n) (0, x) > 0 für n ≥ Nx . Für n ≥ N0 ∨ Nx ist dann pˇ(n) (0, x) > 0, wobei pˇ = pˇ∞ die Symmetrisierung von p ist, denn p(n) (0, x) = ((p(n) )T p(n) )(0, x) ≥ (p(n) )T (0, 0) p(n) (0, x) > 0. (n)

L→∞

Wegen pˇL (0, x) −→ pˇ(n) (0, x), gilt für hinreichend großes L und n ≥ N0 ∨ (n) (n) (n) N−1 ∨ N1 , dass pˇL (0, −1) > 0, pˇL (0, 0) > 0, und pˇL (0, 1) > 0. Mithin ist pˇL irreduzibel.) Wir konstruieren die Kopplung (X, Y ), indem wir X und Y alle Sprünge der Weite größer als L gemeinsam ausführen lassen, diejenigen von kürzerer Weite jedoch unabhängig, solange bis X und Y sich treffen und dann verschmelzen. Wir betrachten ˜ Y˜ ) ¨ also als Ubergangsmatrix für die nicht verschmelzende Kette (X, p˜L ((x1 , y1 ), (x2 , y2 )) ⎧ p(x1 , x2 ) p(y1 , y2 ), ⎪ ⎪ ⎨ p(x1 , x2 ), = ⎪ ⎪ ⎩ 0,

falls |x1 − x2 | ≤ L, |y1 − y2 | ≤ L, falls |x1 − x2 | > L und y1 − y2 = x1 − x2 , sonst.

˜ n = Yñ } verschmelzende Schließlich sei (X, Y ) die nach Zeit τ := inf{n ∈ N0 : X ˜ ˜ Kette, also X = X und Yn = Yn für n ≤ τ und Yn = Xn für n ≥ τ . Offenbar ist ¨ (X, Y ) eine Kopplung der Ketten mit Ubergangsmatrix p. ˜ n − Yñ )n∈N eine Irrfahrt mit Ubergangs¨ Nach Konstruktion ist die Differenz (X 0 matrix pˇL , also eine symmetrische irreduzible, aperiodische Irrfahrt mit beschränkter Sprungweite und damit rekurrent. Für x, y ∈ Z gilt daher


373

) * ) * ˜ k = Y˜k für alle k ≤ n n→∞ P(x,y) Xn = Yn = Px−y X −→ 0.

Wir behandeln jetzt den allgemeinen Fall d ∈ N, indem wir die einzelnen Koordinaten nacheinander koppeln. Um dies rigoros zu machen, müssen wir etwas Notationsaufwand treiben. Für x = (x1 , . . . , xd ) und k = 1, . . . , d − 1 sei x ˆk = (x1 , . . . , xk ) und x ˇk = (xk+1 , . . . , xd ). Wir setzen pk (x, yˆk ) = pk (ˆ xk , yˆk ) = k k k y | yˆ )) = p(x, y)/p(x, yˆ ). Diese Schreibweise yˇk ∈Zd−k p(x, y), sowie pk (x, (ˇ soll suggerieren, dass es sich um die bedingte Wahrscheinlichkeit handelt, von x nach y zu springen, gegeben, dass wir schon wissen, dass die ersten k Koordinaten des Ziels durch yˆk gegeben sind. Wir setzen noch formal x ˆ0 = x ˇd = 0, x ˆd = x ˇ0 = x, p0 (x, yˆ0 ) =

1 und 0 0 p0 (x, (ˇ y | yˆ )) = p(x, y) sowie l(x) := max k ∈ {0, . . . , d} : x ˆk = 0 . Sei jetzt für L ∈ N die Matrix pˇL,k definiert durch

k k

pˇL,k x ˇ , yˇ = pk 0, (ˇ zk − x ˇk | zˆk ) pk 0, (ˇ z k − yˇk | zˆk ) pk 0, zˆk , z∈Zd ˇ z k −ˇ xk ∞ ≤L ˇ z k −ˇ y k ∞ ≤L

falls x ˇk = yˇk und pˇL,k (ˇ xk , x ˇk ) = 1 −

pˇL,k (ˇ xk , yˇk ).

yˇk =x ˇk

Wir nehmen an, dass L groß genug gewählt ist, dass alle pˇL,k irreduzibel sind. Setze nun noch

p˜L,k (x1 , y1 ), (x2 , y2 ) = ⎧

p(x1 , x2 ) pk yˆ1k , (ˇ y k2 | yˆ2k ) , falls yˆ1k − yˆ2k = x ˆk1 − x ˆk2 ⎪ ⎪ ⎪ ⎪ ⎪ und ˇ y k1 − yˇk2 ∞ ≤ L, ˇ xk1 − x ˇk2 ∞ ≤ L, ⎪ ⎪ ⎨ p(x1 , x2 ), falls y2 − y1 = x2 − x1 ⎪ ⎪ ⎪ und ˇ xk1 − x ˇk∞ 2 > L, ⎪ ⎪ ⎪ ⎪ ⎩ 0, sonst.

¨ Schließlich definieren wir die Ubergangsmatrix q von (X, Y ) durch

q (x1 , y1 ), (x2 , y2 ) = p˜L,l(y1 −x1 ) (x1 , y1 ), (x2 , y2 ) .

Die Zahl l(Xn − Yn ) gibt an, wie viele Koordinaten schon gekoppelt sind. Sind ¨ schon genau k Koordinaten gekoppelt, so wird p˜L,k als Ubergangsmatrix genommen. Unter dieser Matrix bleiben die ersten k Koordinaten gekoppelt. Sei τk := ˇ nk )n∈N eine inf{n ∈ N0 : l(Xn − Yn ) = k}. Zwischen τk und τk+1 ist (Yˇnk − X ¨ Irrfahrt mit Ubergangsmatrix pˇL,k , also symmetrisch, irreduzibel und mit endlicher Sprungweite. Damit ist jede einzelne Koordinate eine rekurrente Irrfahrt und insbesondere τk+1 < ∞ fast sicher. Es folgt, dass für alle x, y ∈ Zd gilt n→∞

P(x,y) [Xn = Yn ] = P(x,y) [τd > n] −→ 0.

2

374


¨ Satz 18.14. Sei X eine Markovkette auf E mit Ubergangsmatrix p. Existiert eine erfolgreiche Kopplung, so ist jede beschränkte, harmonische Funktion konstant. Beweis. Sei f : E → R beschränkt und harmonisch, also pf = f . Seien x, y ∈ E, und sei (X, Y ) eine erfolgreiche Kopplung. Nach Lemma 17.45 sind (f (Xn ))n∈N0 und (f (Yn ))n∈N0 Martingale, also gilt n→∞

f (x) − f (y) = E(x,y) [f (Xn ) − f (Yn )] ≤ 2f ∞ P(x,y) [Xn = Yn ] −→ 0. 2 Korollar 18.15. Ist X eine irreduzible Irrfahrt auf Zd , so ist jede beschränkte, harmonische Funktion konstant. Diese Aussage gilt allgemeiner, wenn wir Zd durch eine lokalkompakte, abelsche Gruppe ersetzen und geht in dieser Form auf Choquet und Deny [26] zurück, siehe auch [136]. ¯ eine Markovkette mit Uber¨ ¨ Beweis. Ist p die Ubergangsmatrix von X, so sei X 1 1 ¯ gangsmatrix p¯(x, y) = 2 p(x, y) + 2 {x} (y). Offenbar haben X und X die selben ¯ eine aperiodische, irreduzible Irrfahrt, harmonischen Funktionen. Nun ist aber X besitzt also nach Satz 18.13 eine erfolgreiche Kopplung für alle Startpunkte. 2 ¨ Satz 18.16. Sei p die Ubergangsmatrix einer irreduziblen, positiv rekurrenten, aperiodischen Kette auf E. Dann ist die verschmelzende Kette eine erfolgreiche Kopplung. ˜ und Y˜ zwei unabhängige Markovketten auf E mit Ubergangs¨ Beweis. Seien X ¨ matrix p. Dann hat die bivariate Markovkette Z := ((Xn , Yn ))n∈N0 die Ubergangsmatrix p, die durch

p (x1 , y1 ), (x2 , y2 ) = p(x1 , x2 ) · p(y1 , y2 )

definiert wird. Wir zeigen zunächst, dass die Matrix p irreduzibel ist. Nur an dieser Stelle benötigen wir die Aperiodizität von p. Seien also (x1 , y1 ), (x2 , y2 ) ∈ E × E gegeben. Dann existiert nach Lemma 18.2 ein m0 ∈ N mit

pn (x1 , x2 ) > 0 und pn (y1 , y2 ) > 0 für jedes n ≥ m0 .

Für n ≥ m0 ist daher pn (x1 , y1 ), (x2 , y2 ) > 0. Also ist p irreduzibel.

˜ Y˜ ) in der DiagoWir definieren nun die Stoppzeit τ des ersten Eintreffens von (X,

˜ n = Yñ . Sei π die innalen D := {(x, x) : x ∈ E} durch τ := inf n ∈ N0 : X ˜ Offenbar ist dann das Produktmaß π ⊗ π ∈ M1 (E × E) variante Verteilung von X. ˜ Y˜ ). Nach Satz 17.51 ist daher eine (und damit die) invariante Verteilung von (X, ˜ ˜ (X, Y ) positiv rekurrent, also insbesondere rekurrent. Mithin gilt P(x,y) [τ < ∞] = 1 für alle Startpunkte (x, y) ∈ E × E von Z. 2


375

¨ Satz 18.17. Sei X eine Markovkette mit Ubergangsmatrix = p, zu der eine = erfolgrein→∞ che Kopplung existiert. Für alle μ, ν ∈ M1 (E) gilt dann =(μ − ν)pn =T V −→ 0. Ist und positiv rekurrent mit invarianter Verteilung π, so gilt = speziell X =aperiodisch n→∞ =Lμ [Xn ] − π = −→ 0 für jedes μ ∈ M1 (E). TV

Beweis. Es reicht, den Fall μ = δx , ν = δy für gewisse x, y ∈ E zu betrachten. Summation u¨ ber x und y liefert dann den allgemeinen Fall. Sei (Xn , Yn )n∈N0 eine erfolgreiche Kopplung. Dann ist = = n→∞ =(δx − δy )pn = ≤ 2 P(x,y) [Xn = Yn ] −→ 0. 2 TV

Wir fassen den Zusammenhang von Aperiodizität und Verteilungskonvergenz von X im folgenden Satz zusammen. ¨ Markovketten). Sei X eine irreduzible, positiv Satz 18.18 (Konvergenzsatz fur rekurrente Markovkette auf E mit invarianter Verteilung π. Dann sind a¨ quivalent: (i) X ist aperiodisch. (ii) Für jedes x ∈ E gilt

= = n→∞ =Lx [Xn ] − π = −→ 0. TV

(18.11)

(iii) Für ein x ∈ E gilt (18.11).

= = n→∞ (iv) Für jedes μ ∈ M1 (E) gilt =μpn − π =T V −→ 0.

Beweis. Die Implikationen (iv) ⇐⇒ (ii) =⇒ (iii) sind klar. Die Implikation (i) =⇒ (ii) wurde in Satz18.17 gezeigt. Wir zeigen also (iii) =⇒ (i). (iii) =⇒ (i)“ Wir nehmen an, dass (i) nicht gilt. Hat X die Periode d ≥ 2, und ” ist n ∈ N kein Vielfaches von d, so ist nach Satz 17.51 = n = =δx p − π = ≥ |pn (x, x) − π({x})| = π({x}) > 0. TV = = Für jedes x ∈ E gilt daher lim sup =δx pn − π =T V > 0, folglich gilt (iii) nicht. 2 n→∞

¨ ¨ Ubung 18.2.1. Sei d3 P die Prohorov-Metrik (siehe (13.3) und Ubung 13.2.1). Man zeige: dP (P, Q) ≤ dW (P, Q) für alle P, Q ∈ M1 (E). Hat E endlichen Durchmesser diam(E), so ist dW (P, Q) ≤ (diam(E) + 1)dP (P, Q) für alle P, Q ∈ M1 (E). ♣ ¨ Ubung 18.2.2. Man zeige durch eine direkte Rechnung, dass der in Beispiel 18.11 ˜ und Y˜ hergestellte Prozess (X, Y ) eine Kopplung mit Ubergangsmatrix ¨ aus X p¯ ist. ♣

376


¨ Ubung 18.2.3. Sei X eine beliebige aperiodische, irreduzible, rekurrente Irrfahrt auf Zd . Man zeige, dass dann zu je zwei Startpunkten die unabhängige Verschmelzung eine erfolgreiche Kopplung ist. Hinweis: Man zeige, dass die Differenz zweier rekurrenter Irrfahrten stets wieder rekurrent ist. ♣ ¨ ¨ Ubung 18.2.4. Sei X eine Markovkette auf Z2 mit Ubergangsmatrix ⎧1 falls x1 = 0, y − x2 = 1, ⎪ ⎪ 4, ⎪ ⎪ ⎪ 1 ⎨ , falls x1 = 0 und y1 = x1 ± 1, x2 = y2 , 4 p((x1 , x2 ), (y1 , y2 )) = 1 ⎪ ⎪ ⎪ 2 , falls x1 = 0 und y1 = x1 , x2 = y2 , ⎪ ⎪ ⎩ 0, sonst.

Anschaulich ist dies die symmetrische einfache Irrfahrt, bei der alle senkrechten ¨ Uberg¨ ange außerhalb der senkrechten Koordinatenachse blockiert werden. Man zeige, dass X nullrekurrent, irreduzibel und aperiodisch ist, und dass die unabhängige Verschmelzung keine erfolgreiche Kopplung ist. ♣

18.3 Markovketten Monte Carlo Methode Es sei E eine endliche Menge und π ∈ M1 (E) mit π(x) := π({x}) > 0 für jedes x ∈ E. Wir betrachten das Problem, eine Zufallsvariable Y mit Verteilung π mit dem Computer zu generieren. Dies ist etwa dann relevant, wenn E eine sehr große Menge ist und Summen vom Typ x∈E f (x)π(x) numerisch approximiert werden n sollen durch Schätzer n−1 i=1 f (Yi ) (siehe Beispiel 5.21).

Wir nehmen an, dass unser Computer in der Lage ist, Realisierungen von u.i.v. Zufallsvariablen U1 , U2 , . . . zu generieren, die uniform auf [0, 1] verteilt sind. Die Verteilung π soll jedoch nicht leicht direkt herstellbar sein. Metropolis-Algorithmus Wir haben schon gesehen, wie man Markovketten mit dem Computer simulieren kann (Beispiel 17.19). Die Idee ist nun, eine Markovkette X zu erzeugen, deren Verteilung gegen π konvergiert. Wenn wir X lange genug laufen lassen, so wird Xn ungefähr wie π verteilt sein. Gleichzeitig sollte die Kette so gestaltet sein, dass ¨ in jedem Schritt immer nur wenige Uberg¨ ange wirklich möglich sind, sodass das in Beispiel 17.19 beschriebene Verfahren auch effizient umsetzbar ist. (Natürlich ¨ wäre eine Kette mit Ubergangsmatrix p(x, y) = π(y) gegen π konvergent, aber das Problem ließe sich hiermit nicht vereinfachen.) Die so beschriebene Methode des Ziehens von π-verteilten Stichproben wird Markovketten Monte Carlo Methode oder MCMC (für Markov chain Monte Carlo) genannt (siehe [18, 110, 115]).

18.3 Markovketten Monte Carlo Methode

377

¨ Sei q die Ubergangsmatrix einer beliebigen irreduziblen Markovkette auf E (mit q(x, y) = 0 für möglichst viele y ∈ E). Wir erstellen hieraus die Metropolis-Matrix (siehe [69, 112]). Definition 18.19. Wir definieren eine stochastische Matrix p auf E durch ⎧ π(y)q(y,x) ⎪ ⎨ q(x, y) min 1, π(x)q(x,y) , falls x = y, q(x, y) > 0, p(x, y) = 0, falls x = y, q(x, y) = 0, ⎪ ⎩ falls x = y. 1 − z=

x p(x, z), p heißt Metropolis-Matrix zu q und π.

Man sieht direkt, dass p reversibel ist, dass also für alle x, y ∈ E gilt π(x) p(x, y) = π(y) p(y, x).

(18.12)

Speziell ist π invariant (Nachrechnen!). Wir erhalten sofort den folgenden Satz. Satz 18.20. Ist q irreduzibel, so ist die Metropolis-Matrix p zu q und π irreduzibel mit eindeutiger Gleichgewichtsverteilung π. Ist zudem q aperiodisch, oder π nicht die Gleichverteilung auf E, so ist p aperiodisch. Zur Simulation einer Kette X, die gegen π konvergiert, können wir nun, aus¨ gehend von einer Referenzkette, die Uberg¨ ange nach q macht, den Metropolis¨ ¨ Algorithmus verwenden: Schlägt die Kette mit Ubergangsmatrix q einen Ubergang vom aktuellen Zustand x nach y vor, so akzeptieren wir diesen Vorschlag mit Wahrscheinlichkeit π(y)q(y, x) ∧ 1. π(x)q(x, y) Ansonsten bleiben wir in x stehen. In der Definition von p taucht π nur in der Form des Quotienten π(y)/π(x) auf. In vielen Fällen von Interesse ist dieser Quotient relativ leicht berechenbar, auch wenn π(x) und π(y) selber nicht leicht zu bestimmen sind. Wir wollen dies an einem Beispiel erläutern. Beispiel 18.21 (Ising Modell). Das Ising Modell ist ein thermodynamisches (und quantenmechanisches) Modell für Ferromagnetismus in Kristallen, das von folgenden Annahmen ausgeht: – Atome sitzen auf den Punkten des Gitters Λ (zum Beispiel Λ = {0, . . . , N −1}2 ),

– jedes Atom i ∈ Λ hat ein magnetisches Moment (Spin): x(i) ∈ {−1, 1}, das entweder nach oben zeigt (x(i) = +1) oder nach unten (x(i) = −1), – benachbarte Atome wechselwirken miteinander,

378


– auf Grund thermischer Schwankungen ist der Zustand des Systems zufällig und verteilt nach der so genannten Boltzmann-Verteilung π auf dem Zustandsraum E := {−1, 1}Λ , abhängig von der inversen Temperatur β = T1 ≥ 0. Wir definieren die lokale Energiefunktion, die das Energieniveau eines Atoms in i ∈ Λ als Funktion des Zustands x des Gesamtsystems angibt H i (x) =

1 2

j∈Λ: i∼j

{x(i)=

x(j)} .

Hierbei bedeutet i ∼ j, dass i und j Nachbarn sind in Λ (damit meinen wir koordinatenweise mod N , wir sprechen auch von periodischen Randbedingungen). Die Gesamtenergie (oder Hamiltonfunktion) des Systems im Zustand x ist die Summe der Einzelenergien, H i (x) = H(x) = {x(i) =x(j)} . i∼j

i∈Λ

Die Boltzmann-Verteilung π auf E := {−1, 1}Λ zur inversen Temperatur β ≥ 0 wird definiert durch π(x) = Zβ−1 exp(−βH(x)), exp(−βH(x)) (oder Partitionsfunktion) wobei die Zustandssumme Zβ = x∈E

die Normierungskonstante ist, die π zu einem W-Maß macht.

Makroskopisch beobachtbar ist nicht jeder einzelne Spin, sondern nur die mittlere Magnetisierung, die sich als Betrag des Mittelwerts der einzelnen Spins ergibt 1 mΛ (β) = π(x) x(i) . #Λ x∈E

i∈Λ

Wenn wir sehr große Systeme betrachten, sind wir nahe am so genannten thermodynamischen Limes m(β) := lim mΛ (β). Λ↑Zd

Man kann mit einem Konturargument, a¨ hnlich wie bei der Perkolation, zeigen (siehe [119]), dass (für d ≥ 2) eine Zahl βc = βc (d) ∈ (0, ∞) existiert, mit 1 > 0, falls β > βc , (18.13) m(β) = 0, falls β < βc . An einem a¨ hnlichen Modell, dem Weiss’schen Ferromagneten, werden wir in Bei¨ spiel 23.20 die Existenz eines solchen Phasenubergangs rigoros nachweisen. In der Physik wird Tc := 1/βc die Curie-Temperatur für die spontane Magnetisierung genannt. Dies ist eine materialabhängige Konstante (Chrombromid (CrBr) 37Kelvin, Nickel 645K, Eisen 1017K, Kobalt 1404 K). Unterhalb der Curie-Temperatur


379

1

0.6

0.4

Magnetisierung

0.8

0.2

0 0.84

0.85

0.86

0.87

0.88 0.89 Inverse Temperatur

0.9

0.91

0.92

Abb. 18.4. Magnetisierungskurve im Ising-Modell auf einem 1000 × 1000-Gitter, per Computersimulation berechnet. Die senkrechte Linie markiert die kritische Temperatur.

sind die Stoffe magnetisch, oberhalb sind sie es nicht. Dabei nimmt der Magnetisierungsgrad bei fallender Temperatur noch zu. Das Ising-Modell, das wir jetzt untersuchen, soll (zumindest in Computer-Simulationen) diesen Effekt einer kritischen Temperatur nachbilden. Wir definieren den Zustand xi,σ , bei dem an der Stelle i der Spin σ ∈ {−1, +1} eingesetzt wird σ, falls j = i, i,σ x (j) = x(j), falls j = i. Außerdem definieren wir den Zustand xi , bei dem der Spin in i umgedreht wird xi := xi,−x(i) . Als vorschlagende Kette, oder Referenzkette, wählen wir nun eine ¨ Kette mit Ubergangswahrscheinlichkeiten 1 falls y = xi für ein i ∈ Λ, #Λ , q(x, y) = 0, sonst. In Worten: Wir suchen einen Punkt i ∈ Λ zufällig (uniform verteilt) aus und drehen den Spin an dieser Stelle um. Offenbar ist q irreduzibel. Der Metropolis-Algorithmus zu dieser Kette akzeptiert den Vorschlag der Referenzkette sicher, falls π(xi ) ≥ π(x). Andernfalls wird der Vorschlag mit Wahrscheinlichkeit π(xi )/π(x) akzeptiert. Nun ist aber

380


Abb. 18.5. Gleichgewichte des Ising-Modells für ein 800 × 800 Gitter. (schwarzer Punkt = spin +1) Links: kälter als die kritische Temperatur (β > βc ), rechts: wärmer.

Abb. 18.6. Ising-Modell (150 × 150 Gitter) unterhalb der kritischen Temperatur. Die Computersimulation zeigt auch nach langer Laufzeit noch nicht das Gleichgewicht, sondern metastabile Zustände, in denen man die Weiss’schen Bezirke gut sehen kann.

H(xi ) − H(x) =

j: j∼i

= −2

{x(j)=

−x(i)}

j: j∼i

−

j: j∼i

{x(j)=

x(i)} −

1 2

{x(j) =x(i)}

.

Also ist π(xi )/π(x) = exp − 2β j∼i {x(j)=x(i)} − 12 , und dieser Ausdruck ist leicht zu berechnen, da er nur von den 2d Nachbarspins abhängt und zudem die ¨ Kenntnis von Zβ nicht benötigt. Wir erhalten also als Metropolis-Ubergangsmatrix


p(x, y) =

' ⎧ 1 ⎪ 1 ∧ exp 2β ( ⎪ ⎨ #Λ j: j∼i ⎪ ⎪ ⎩

381

( 1 − ) , falls y = xi für ein i ∈ Λ, {x(j)=

x(i)} 2 1 − i∈Λ p(x, xi ), falls x = y, 0, sonst.

Praktisch wird man diese Kette simulieren, indem man sich unabhängige Zufallsvariablen I1 , I2 , . . . und U1 , U2 , . . . verschafft mit In ∼ UΛ und Un ∼ U[0,1] . Man setzt nun ( ' xIn , falls Un ≤ exp 2β j: j∼i ( {x(j) =x(i)} − 12 ) , Fn (x) = x, sonst, und definiert die Markovkette (Xn )n∈N durch Xn = Fn (Xn−1 ) für n ∈ N.

3

Gibbs-Sampler Wir betrachten eine Situation, in der, wie im obigen Beispiel, ein Zustand aus vielen Komponenten x = (xi )i∈Λ ∈ E besteht, wobei Λ eine endliche Menge ist. Alternativ zur Metropolis-Kette betrachten wir ein weiteres Verfahren, um eine Markovkette mit gegebener invarianter Verteilung herzustellen. Beim so genannten GibbsSampler oder heat bath algorithm ist die Idee, den Zustand lokal an die stationäre Verteilung anzupassen. Ist x der momentane Zustand, dann verfährt man wie folgt. Für i ∈ Λ setze x−i := {y ∈ E : y(j) = x(j) für j = i}. Definition 18.22 (Gibbs-Sampler). Sei q ∈ M1 (Λ) mit q(i) > 0 für jedes i ∈ Λ. ¨ Die Ubergangsmatrix p auf E mit i,σ ) qi π(x falls y = xi,σ für ein i ∈ Λ, π(x−i ) , p(x, y) = 0, sonst. heißt Gibbs-Sampler zur invarianten Verteilung π. In Worten verfährt eine nach p konstruierte Kette in jedem Schritt wie folgt: (1) Wähle eine Komponente I gemäß einer Verteilung (qi )i∈Λ . (2) Ersetze in x durch xI,σ mit Wahrscheinlichkeit π(xI,σ )/π(x−I ). Falls I = i ist, dann hat der neue Zustand also die Verteilung L(X|X−i = x−i ), wobei X eine Zufallsvariable mit Verteilung π bezeichnet. Man beachte, dass man auch beim Gibbs-Sampler die Verteilung π nur bis auf die Normierungskonstante zu kennen braucht (in einem etwas allgemeineren Rahmen lassen sich der GibbsSampler und der Metropolis Algorithmus als Spezialfälle ein und desselben Verfahren auffassen). Für Zustände x und y, die sich nur in der i-ten Komponente unterscheiden, gilt (wegen x−i = y−i )

382


π(x) p(x, y) = π(x) qi

π(y) π(x) = π(y) qi = π(y) p(y, x). π(x−i ) π(y−i )

Der Gibbs-Sampler beschreibt also eine reversible Markovkette mit Gleichgewicht π. Die Irreduzibilität des Gibbs-Samplers ist von Fall zu Fall zu klären. Beispiel 18.23 (Ising Modell). Im oben beschriebenen Ising-Modell ist x−i = {xi,−1 , xi,+1 }. Daher ist für i ∈ Λ und σ ∈ {−1, +1} π(xi,σ x−i ) =

π(xi,σ ) π({xi,−1 , xi,+1 })

i,σ

e−βH(x ) = −βH(xi,−1 ) e + e−βH(xi,+1 ) ' (−1 = 1 + exp β H(xi,σ ) − H(xi,−σ ) ' (−1 = 1 + exp 2β j: j∼i ( {x(j) =σ} − 12 ) .

Der Gibbs-Sampler des Ising-Modells ist also die Markovkette (Xn )n∈N0 mit Wer¨ ten in E = {−1, 1}Λ und mit Ubergangsmatrix ⎧ ' (−1 ⎨ 1 1+exp 2β ( 1 , falls y = xi für ein i ∈ Λ, {x(j)=

x(i)} − 2 ) #Λ p(x, y) = j: j∼i ⎩ 0, sonst. 3

Perfekte Simulation Die bislang betrachtete MCMC Methode baut auf dem Prinzip Hoffnung: Wir lassen die Kette lange laufen und hoffen, dass sie sich in einem Zustand nahe dem Gleichgewicht befindet. Selbst wenn wir die Konvergenzgeschwindigkeit bestimmen können (und das ist oft nicht ganz leicht – wir kommen dazu in Abschnitt 18.4), werden wir doch nie einen Zustand bekommen, der exakt wie das Gleichgewicht verteilt ist. Tatsächlich ist es, zumindest theoretisch, möglich, ein der MCMC Methode verwandtes Verfahren anzugeben, das perfektes Ziehen von Stichproben nach der Verteilung π ermöglicht, sogar, wenn wir u¨ ber die Konvergenzgeschwindigkeit gar nichts wissen. Hierzu nehmen wir an, dass F1 , F2 , . . . u.i.v. zufällige Abbildungen E → E sind mit P[F (x) = y] = p(x, y) für alle x, y ∈ E. Wir hatten gesehen, dass wir die Markovkette X mit Start in x durch Xn = Fn ◦ Fn−1 ◦ · · · ◦ F1 (x) konstruieren können. D

Nun gilt F1n (x) := F1 ◦ . . . ◦ Fn (x) = Fn ◦ . . . ◦ F1 (x). Also gilt P[F1n (x) = n→∞ y] −→ π(y) für jedes y. Ist nun aber F1n die konstante Abbildung, etwa F1n ≡ x∗

18.4 Konvergenzgeschwindigkeit

383

(für ein zufälliges x∗ ), so ist auch F1m ≡ x∗ für jedes m ≥ n. Wenn man also durch geschickte Wahl der Verteilung der Fn erreichen kann, dass die Stoppzeit T := inf{n ∈ N : F1n ist konstant} fast sicher endlich ist (und das geht immer), so ist P[F1T (x) = y] = π(y) für alle x, y ∈ E. Ein einfacher Algorithmus für dieses Verfahren sieht so aus: (1) Setze F ← idE und n ← 0.

(2) Setze n ← n + 1. Erzeuge Fn und setze F ← F ◦ Fn .

(3) Falls F nicht die konstante Abbildung ist, gehe zu (2). (4) Ausgabe F (∗).

Dieses Verfahren wird Kopplung aus der Vergangenheit (coupling from the past) genannt und geht auf Propp und Wilson [130] zurück (siehe auch [54, 55, 158, 129, 131, 91]). Interessante Simulationen sowie ein Forschungsüberblick finden sich im Internet unter http://www.dbwilson.com/. Praktisch ergeben sich zwei Probleme: Es muss die komplette Abbildung Fn erzeugt und mit F verknüpft werden. Die Rechenzeit dafür ist mindestens von der Ordnung der Größe des Raums E. Außerdem erfordert das Prüfen von F auf Konstanz einen Rechenaufwand von gleicher Größenordnung. Das Verfahren lässt sich effektiv nur durchführen, wenn man mehr Struktur zur Verfügung hat, etwa, wenn E eine Halbordnung mit einem kleinsten Element 0 und einem größten Element 1 besitzt (wie beim Ising-Modell) und man die Abbildungen Fn so wählen kann, dass sie fast sicher monoton wachsend sind. In diesem Fall braucht man immer nur F (0) und F (1) zu berechnen, und F ist konstant, falls F (0) = F (1).

18.4 Konvergenzgeschwindigkeit Bei den bisherigen Betrachtungen ist die Frage nach der Geschwindigkeit der Konvergenz der Verteilung PXn gegen π ignoriert worden. Für praktische Anwendungen ist aber dies genau die wichtigste Frage. Wir wollen hier nicht auf die Details eingehen, sondern das Thema nur kurz anreißen. Ohne Einschränkung sei E = {1, . . . , N }. Ist p reversibel (Gleichung (18.12)), so wird durch f → pf ein ¨ Alle Eigenwerte symmetrischer linearer Operator auf L2 (E, π) definiert (Ubung!). λ1 , . . . , λN (mit Mehrfachnennung je nach Vielfachheit) sind reell und dem Betrage nach nicht größer als 1, da p stochastisch ist. Wir können also die Eigenwerte dem Betrage nach ordnen: λ1 = 1 ≥ |λ2 | ≥ . . . ≥ |λN |. Ist p irreduzibel und aperiodisch, so ist |λ2 | < 1. Sei μ1 = π, μ2 , . . . , μN eine Orthonormalbasis aus LinksEigenvektoren zu Eigenwerten λ1 , . . . , λN . Für jedes μ = α1 μ1 + . . . + αN μN den N ist dann μpn = i=1 λni αi μi , also μpn − πT V ≤ C|λ2 |n

(18.14)

384


für eine Konstante C (die nicht einmal von μ abhängt). Eine a¨ hnliche Formel gilt für den Fall, wo p nicht reversibel ist, wobei Korrekturterme der Ordnung maximal nV −1 auftreten. Dabei ist V die Größe des größten Jordan-Kästchens zum Eigenwert λ2 in der Jordan’schen Normalform von p, speziell also höchstens die Vielfachheit des betragsmäßig zweitgrößten Eigenwertes. Die Konvergenzgeschwindkeit ist also exponentiell mit einer Rate, die durch die ¨ Spektrallucke 1 − |λ2 | zum zweitgrößten Eigenwert von p bestimmt ist. Die analytische Bestimmung der Spektrallücke ist für große Räume E häufig extrem schwer. Beispiel 18.24. Sei r ∈ (0, 1) und N ¨ betrachten die Ubergangsmatrix ⎧ r, ⎨ p(i, j) = 1 − r, ⎩ 0,

∈ N, N ≥ 2, sowie E = {0, . . . , N − 1}. Wir falls j = i + 1 (mod N ), falls j = i − 1 (mod N ), sonst.

¨ p ist die Ubergangsmatrix der einfachen (asymmetrischen) Irrfahrt auf dem diskreten Torus Z/(N ), die mit Wahrscheinlichkeit r einen Schritt nach rechts springt, mit Wahrscheinlichkeit 1 − r hingegen einen Schritt nach links springt. Offenbar ist p irreduzibel, und p ist genau dann aperiodisch, wenn N ungerade ist. Offensichtlich ist die Gleichverteilung UE die eindeutige invariante Verteilung. Man prüft leicht nach, dass p die Eigenwerte

λk := r θk + (1 − r) θk = cos 2πk + (2r − 1) i sin 2πk k = 0, . . . , N − 1, N N ,

Fall 1: N ungerade.

hat, wobei θk = e2πi k/N , k = 0, . . . , N − 1, die N -ten Einheitswurzeln sind, und die zugehörigen (Rechts-) Eigenvektoren

xk := θk0 , θk1 , . . . , θkN −1 . Die Beträge der Eigenwerte bekommen wir durch |λk | = f (2πk/N ), wobei 3 f (ϑ) = 1 − 4r(1 − r) sin(ϑ)2 für ϑ ∈ R.

Da N ungerade ist, ist |λk | maximal (außer für k = 0) für k = N 2−1 und k = N2+1 3 mit dem Wert γ := 1 − 4r(1 − r) sin(π/N )2 . Da die Eigenwerte alle unterschiedlich sind, hat jeder Eigenwert die Vielfachheit 1, und es gibt ein C < ∞ mit μpn − UE T V ≤ C γ n für alle n ∈ N, μ ∈ M1 (E). Fall 2: N gerade. In diesem Fall ist p nicht aperiodisch, nichtsdestoweniger haben die Eigenwerte und Eigenvektoren die selbe Gestalt wie im ersten Fall. Um eine ¨ aperiodische Kette zu erhalten, bilden wir für ε > 0 die Ubergangsmatrix pε := (1 − ε)p + εI,


385

wo I die Einheitsmatrix auf E ist. pε beschreibt die Irrfahrt auf E, die mit Wahrscheinlichkeit ε am Ort stehen bleibt und mit Wahrscheinlichkeit 1−ε einen Sprung gemäß p macht. Offenbar ist pε irreduzibel und aperiodisch. Die Eigenwerte sind λε,k = (1 − ε)λk + ε,

k = 0, . . . , N − 1,

mit zugehörigen Eigenvektoren xk wie oben. Offenbar ist λε,0 = 1, und λε,N/2 = 2ε − 1 ist der betragsmäßig zweitgrößte Eigenwerte, falls ε > 0 sehr klein ist. Für größere ε ist |λε,1 | > |λε,N/2 |. Genauer gilt: Setzen wir ε0 :=

(1 − (2r − 1)2 ) sin(2π/N )2 , (1 − (2r − 1)2 ) sin(2π/N )2 + 2 cos(2π/N )

so ist der Betrag γε des betragsmäßig zweitgrößten Eigenwertes γε = |λε,N/2 | = 1 − 2ε,

falls ε ≤ ε0 ,

und γε = |λε,1 | E

2

2 = + (1 − ε)(2r − 1) sin 2π (1 − ε) cos 2π N +ε N

falls ε ≥ ε0 .

Es ist nicht schwer zu zeigen, dass ε → |λε,N/2 | monoton fallend ist und ε → |λε,1 | monoton wachsend. Daher ist γε minimal für ε = ε0 . Es gibt also ein C < ∞ mit μpnε − UE T V ≤ C γεn

für alle n ∈ N, μ ∈ M1 (E),

¨ und die beste Konvergenzgeschwindigkeit (in dieser Klasse von Ubergangsmatrizen) wird erreicht durch die Wahl ε = ε0 . 3 Beispiel 18.25 (Gambler’s Ruin). Wir betrachten das Gambler’s Ruin Problem aus Beispiel 10.19 mit Erfolgswahrscheinlichkeit r ∈ (0, 1). Hier ist der Zustandsraum ¨ E = {0, . . . , N }, und die Ubergangsmatrix hat die Gestalt ⎧ r, falls j = i + 1 ∈ {2, . . . , N }, ⎪ ⎪ ⎨ 1 − r, falls j = i − 1 ∈ {0, . . . , N − 2}, p(i, j) = 1, falls j = i ∈ {0, N }, ⎪ ⎪ ⎩ 0, sonst.

¨ Diese Ubergangsmatrix ist nicht irreduzibel, sondern hat die zwei absorbierenden Zustände 0 und N . In Beispiel 10.19 (Gleichung (10.5)), für den Fall r = 12 , und Beispiel 10.16, für den Fall r = 12 , wurde gezeigt, dass für jedes μ ∈ M1 (E) n→∞

μpn −→ (1 − m(μ))δ0 + m(μ)δN ,

(18.15)

386


0 wobei m(μ) = pN (x) μ(dx) ist, und die Wahrscheinlichkeit pN (x), dass die in x gestartete Kette N trifft, gegeben ist durch ⎧

x ⎪ 1 − 1−r ⎪ r 1 ⎨

N , falls r = 2 , pN (x) = 1 − 1−r r ⎪ x ⎪ ⎩ , falls r = 21 . N

Wie schnell geht nun die Konvergenz in (18.15)? Auch hier ist die Konvergenz exponentiell schnell, und die Rate wird wieder durch den zweitgrößten Eigenwert von p bestimmt. Wir wollen nun also das Spektrum von p bestimmen. Klar sind x0 = (1, 0, . . . , 0) und xN = (0, . . . , 0, 1) Links-Eigenvektoren zum Eigenwert 1. Damit nun x = (x0 , . . . , xN ) ein Links-Eigenvektor zum Eigenwert λ ist, müssen die folgenden Gleichungen erfüllt sein: λxk = rxk−1 + (1 − r)xk+1

für k = 2, . . . , N − 2,

(18.16)

und (18.17)

λxN −1 = rxN −2 .

1−p λ−1 x1

Gelten (18.16) und (18.17) für x1 , . . . , xN −1 , so setzen wir x0 := und p xN := λ−1 xN −1 und erhalten dadurch tatsächlich xp = λx. Wir machen den Ansatz λ = (1 − r)ρ(θ + θ) und xk = ̺k (θk − θk ) wobei ρ=

für k = 1, . . . , N − 1,

3

r/(1 − r) und θ ∈ C \ {−1, +1} mit |θ| = 1.

Es gilt also θθ = 1 und (1 − r)ρk+1 = rρk−1 . Daher ist für jedes k = 2, . . . , N − 1 λxk = (1 − r) ρk+1 (θk − θk )(θ + θ) ) * = (1 − r) ρk+1 (θk+1 − θk+1 ) + θθ (θk−1 − θk−1 )

= r ρk−1 (θk−1 − θk−1 ) + (1 − r) ρk+1 (θk+1 − θk+1 ) = r xk−1 + (1 − r) xk+1 ,

das heißt, es gilt (18.16). Die selbe Rechnung mit k = N − 1 zeigt, dass (18.17) genau dann gilt, wenn θN −θN = 0 ist, also wenn θ2N = 1 gilt. Wir erhalten also für θ die N − 1 unterschiedlichen Werte (man beachte, dass die komplex konjugierten der hier angegeben Werte zu den selben λn führen) θn = e(n/N )π i Die zugehörigen Eigenwerte sind n π λn = σ cos N

für n = 1, . . . , N − 1.

für n = 1, . . . , N − 1.


387

Dabei ist die Varianz des einzelnen Irrfahrt-Schrittes: σ 2 := 4r(1 − r).

(18.18)

Da alle Eigenwerte reell sind, sind die zugehörigen Eigenvektoren gegeben durch xnk = 2

r 1−r

n/2

sin

n π N

,

k = 1, . . . , N − 1.

π der betragsmäßig zweitgrößte Für n = 1 und n = N − 1 ist |λn | = σ cos N Eigenwert. Es folgt, dass es ein C > 0 gibt, sodass für jedes μ ∈ M1 (E) gilt π n μpn ({1, . . . , N − 1}) ≤ C σ cos für jedes n ∈ N. N

Mit anderen Worten: Die Wahrscheinlichkeit, dass dasSpiel bis zur n-ten Runde

n noch nicht entschieden ist, ist maximal C σ cos(π/N ) .

Ein alternativer Zugang zu den Eigenwerten geht u¨ ber die Nullstellen des charakteristischen Polynoms χN (x) = det(p − xI),

x ∈ R.

¨ Man sieht sofort, dass χ1 (x) = (1 − x)2 und χ2 (x) = −x(1 − x)2 gilt. Uber die Entwicklungsformel der Determinante durch Streichen von Zeilen und Spalten erhalten wir die Rekursionsformel χN (x) = −x χN −1 (x) − r(1 − r) χN −2 (x).

(18.19)

Wir erhalten als Lösung (Nachrechnen!)

wobei

χN (x) = (−1)N −1 (σ/2)N −1 (1 − x)2 UN −1 x/σ , Um (x) :=

⌊m/2⌋

k=0

k

(−1)

(18.20)

m−k (2x)m−2k k

das m-te Chebyshev Polynom zweiter Art bezeichnet. Für x ∈ (−σ, σ) kann man mit Hilfe der de Moivre’schen Formel zeigen, dass

sin N arccos x/σ 3 χN (x) = (−1)N −1 (σ/2)N −1 (1 − x)2 1 − (x/σ)2 (18.21) N −1 πk 2 = (1 − x) −x . σ cos N k=1

Neben der doppelten Nullstelle 1 erhalten wir als Nullstellen

σ cos πk/N ), k = 1, . . . , N − 1.

3

388


¨ Ubung 18.4.1. Man zeige (18.20).

♣

¨ Ubung 18.4.2. Man zeige (18.21).

♣

√ ¨ Ubung 18.4.3. Sei ν(dx) = π2 1 − x2 [−1,1] (x) dx. Man zeige, dass die Chebyshev Polynome zweiter Art bezüglich ν orthogonal sind: Um Un dν = m=n . ♣ ⎛

⎞ 1/2 1/3 1/6 ⎜ ⎟ ¨ Ubung 18.4.4. Sei E = {1, 2, 3} und p = ⎝ 1/3 1/3 1/3⎠. Man bestimme die 0 3/4 1/4

invariante Verteilung und die exponentielle Konvergenzrate.

♣

¨ Ubung 18.4.5. Sei E = {0, . . . , N − 1}, r ∈ (0, 1) und ⎧ r, falls j = i + 1 (mod N ), ⎨ p(i, j) = 1 − r, falls j = i (mod N ), ⎩ 0, sonst.

¨ Man zeige, dass p die Ubergangsmatrix einer irreduziblen, aperiodischen Irrfahrt ist, bestimme die invariante Verteilung und bestimme die exponentielle Konvergenzge♣ schwindigkeit. ¨ Ubung 18.4.6. Sei N ∈ N und E = {0, 1}N der N -dimensionale Hyperkubus, das heißt, zwei Punkte x, y ∈ E sind genau dann durch eine Kante verbunden, wenn sie ¨ sich in genau einer Koordinate unterscheiden. Sei p die Ubergangsmatrix der Irrfahrt auf E, die mit Wahrscheinlichkeit ε > 0 am Ort bleibt, mit Wahrscheinlichkeit 1−ε hingegen zu einem (uniform gewählten) zufälligen Nachbarpunkt springt. Man beschreibe p formal, zeige dass p aperiodisch und irreduzibel ist, und bestimme die invariante Verteilung sowie die exponentielle Konvergenzgeschwindigkeit. ♣

19 Markovketten und elektrische Netzwerke

Wir betrachten eine symmetrische einfache Irrfahrt auf Z2 . Nach dem Satz von Pólya (Satz 17.39) ist diese Irrfahrt rekurrent. Was passiert aber, wenn wir eine einzelne Kante aus dem Gitter L2 von Z2 entfernen? Intuitiv sollte dies nichts an der Rekurrenz a¨ ndern. Die in Kapitel 17.5 verwendeten Rechnungen sind allerdings in dieser Hinsicht nicht sehr robust und können hier nicht mehr zum Beweis der Rekurrenz benutzt werden. Noch unübersichtlicher wird die Situation, wenn wir die Irrfahrt auf die obere Halbebene {(x, y) : x ∈ Z, y ∈ N0 } von Z2 beschränken. Wie sieht es hier mit der Rekurrenz aus? Oder wir betrachten die Situation von Kantenperkolation auf Z2 . Wir fixieren einen Parameter p ∈ [0, 1] und definieren jede Kante von L2 mit Wahrscheinlichkeit p als offen und mit Wahrscheinlichkeit 1 − p als geschlossen. Nachdem dies im ersten Schritt geschehen ist, wird die Irrfahrt auf dem zufälligen Teilgraphen der offenen Kanten betrachtet. Der Irrfahrer wählt in jedem Schritt mit gleicher Wahrscheinlichkeit eine der benachbarten offenen Kanten aus. Für p > 21 existiert genau eine unendlich große Zusammenhangskomponente offener Kanten (Satz 2.47). Ist die Irrfahrt auf dieser (zufälligen) Komponente rekurrent oder transient? Ziel dieses Kapitels ist es, einen Zusammenhang zwischen gewissen Markovketten und elektrischen Netzwerken herzustellen, der – es in manchen Fällen erlaubt, zwischen Rekurrenz und Transienz anhand von leicht berechenbaren Größen zu entscheiden, – in anderen Fällen ein Vergleichskriterium bietet, das besagt, dass eine Irrfahrt auf einem Teilgraphen rekurrent ist, wenn die Irrfahrt auf dem ursprünglichen Graphen rekurrent ist. Damit lässt sich für alle oben betrachteten Irrfahrten Rekurrenz nachweisen. Dieses Kapitel lehnt sich an [109] und [36] an.

19.1 Harmonische Funktionen Sei in diesem Kapitel stets E eine abzählbare Menge und X eine diskrete Markov¨ kette auf E mit Ubergangsmatrix p und Greenfunktion G.

390


Definition 19.1. Sei A ⊂ E. Eine Funktion f : E → R heißt harmonisch auf ur jedes E \ A, falls pf (x) = y∈E p(x, y)f (y) existiert und pf (x) = f (x) f¨ x ∈ E \ A gilt. Satz 19.2 (Superpositionsprinzip). Sind f und g harmonisch auf E \A und α, β ∈ R, so ist auch αf + βg harmonisch auf E \ A. Beweis. Trivial.

2

Beispiel 19.3. Sei X transient und a ∈ E ein transienter Zustand (also ein nicht absorbierender). Dann ist f (x) := G(x, a) harmonisch auf E \ {a}: Für x = a ist pf (x) = p

∞

pn (x, a) =

n=0

∞

n=1

pn (x, a) = G(x, a) −

{a} (x)

= G(x, a).

3

Beispiel 19.4. Für jedes x ∈ E sei τx := inf{n > 0 : Xn = x}. Für A ⊂ E sei τ := τA := inf τx x∈A

die Zeit des ersten Eintritts in A. Wir nehmen an, dass A so gewählt ist, dass Px [τA < ∞] = 1 für jedes x ∈ E. Sei g : A → R eine beschränkte Funktion. Wir definieren g(x), falls x ∈ A, (19.1) f (x) := Ex [g(Xτ )], falls x ∈ E \ A. Dann ist f harmonisch in E \ A. Wir geben hierfür zwei Beweise an.

Nach der Markoveigenschaft ist für x ∈ A und y ∈ E g(y), falls y ∈ A ) * = f (y). Ex g(Xτ ) X1 = y = Ey [g(Xτ )], falls y ∈ E \ A

1. Beweis

Also ist für x ∈ E \ A

f (x) = Ex [g(Xτ )] = =

y∈E

y∈E

) * Ex g(Xτ ); X1 = y

) * p(x, y) f (y) = pf (x). p(x, y) Ex g(Xτ ) X1 = y = y∈E

2. Beweis Wir verändern die Markovkette, indem wir einen Zustand Δ als Falle ˜ = E ∪ {Δ} und hinzufügen. Es gelte also E ⎧ p(x, y), falls x ∈ E \ A, y = Δ, ⎪ ⎪ ⎨ 0, falls x ∈ E \ A, y = Δ, p˜(x, y) = (19.2) ⎪ ⎪ ⎩ 1, falls x ∈ A ∪ {Δ}, y = Δ.

19.1 Harmonische Funktionen

391

˜ ist transient mit Δ als einzigem absorbierenden Die so erzeugte Markovkette X Zustand. Weiterhin ist genau dann pf = f auf E \ A, wenn p˜f = f auf E \ A ist. ˜ y) = 1 für y ∈ A ist (vergleiche Satz 17.34) Wegen G(y, ˜ y) Px [Xτ = y] = Px [˜ τy < ∞] = F˜ (x, y) = G(x,

für alle x ∈ E \ A, y ∈ A.

˜ y) harmonisch auf E \ A. Nach dem Superpositionsprinzip ist Nun ist x → G(x, auch ˜ y) g(y) f (x) = G(x, (19.3) y∈A

harmonisch auf E \ A. Wegen dieser Darstellung heißt, in Analogie zur kontinuier˜ die Greenfunktion für die Gleichung (p − I)f = 0 auf lichen Potentialtheorie, G E \ A. 3 Definition 19.5. Wir nennen das Gleichungssystem (p − I)f (x) = 0, f (x) = g(x),

für x ∈ E \ A, für x ∈ A,

(19.4)

das zu p − I gehörige Dirichlet-Problem auf E \ A mit Randwerten g auf A. Im Folgenden wollen wir stets annehmen, dass F (x, y) > 0 ist für jedes x ∈ E \ A und jedes y ∈ A. Speziell ist dies natürlich erfüllt, wenn X irreduzibel ist. Satz 19.6 (Maximumprinzip). Sei f eine harmonische Funktion auf E \ A. Gibt es ein x0 ∈ E \ A mit f (x0 ) = supx∈E f (x), so ist f konstant.

Beweis. Für n ∈ N sei Gn := x ∈ E : pn (x0 , x) > 0 . Nach Voraussetzung ist f (x0 ) = pn f (x0 ) = pn (x0 , x)f (x) ≤ f (x0 ), x∈Gn

also ∞ f (x) = f (x0 ) für jedes x ∈ Gn . Wegen F (x0 , x) > 0 für jedes x ∈ E, ist ur jedes x ∈ E. 2 n=1 Gn = E, also f (x) = f (x0 ) f¨ ¨ harmonische Funktionen). Ist E \ A endlich Satz 19.7 (Eindeutigkeitssatz fur und sind f1 und f2 harmonisch auf E \ A und f1 = f2 auf A, dann ist f1 = f2 . Mit anderen Worten: Das Dirichlet-Problem (19.4) besitzt eine eindeutige Lösung, die durch (19.3) (oder a¨ quivalent (19.1)) gegeben ist.

Beweis. Nach dem Superpositionsprinzip ist f := f1 −f2 harmonisch auf E \A mit f ≡ 0. Ist supx∈E f (x) > 0, so gibt es ein x0 ∈ E\A mit f (x0 ) = supx∈E f (x). A Nach dem Maximumprinzip ist dann aber f konstant und damit f ≡ 0. 2

392


¨ Ubung 19.1.1. Sei p die substochastische E × E Matrix, die durch p(x, y) = p˜(x, y), x, y ∈ E, (mit p˜ aus (19.2)) definiert wird, also p(x, y) = p(x, y) x∈E\A , und sei I die Einheitsmatrix auf E. Man zeige: (i) I − p ist invertierbar.

˜ y) für alle x, y ∈ E \ A und (ii) Setzen wir G := (I − p)−1 , so ist G(x, y) = G(x, G(x, y) = {x=y} , falls x ∈ A. Speziell ist G(x, y) = Px [XτA = y]

für x ∈ E \ A und y ∈ A.

♣

19.2 Reversible Markovketten Definition 19.8. Die Markovkette X heißt reversibel bezüglich des Maßes π, falls π({x}) p(x, y) = π({y}) p(y, x)


(19.5)

Die Gleichung (19.5) heißt auch die Gleichung der detaillierten Balance (detailed balance). X heißt reversibel, falls es ein π gibt, bezüglich dessen X reversibel ist. Bemerkung 19.9. Ist X reversibel bezüglich π, dann ist π ein invariantes Maß für X, denn π({y}) p(y, x) = π({x}) p(x, y) = π({x}). π p({x}) = y∈E

y∈E

Nach Bemerkung 17.50 ist π daher bis auf konstante Vielfache eindeutig.

3

Beispiel 19.10. Sei (E, K) ein Graph mit Eckenmenge (oder Menge der Knoten) E und Kantenmenge K (siehe Seite 64). Mit x, y! = y, x! ∈ K bezeichnen wir eine (ungerichtete) Kante, die x und y verbindet. Sei C := (C(x, y), x, y ∈ E) eine Familie von Gewichten mit C(x, y) = C(y, x) ≥ 0 für alle x, y ∈ E und C(x, y) < ∞ für jedes x ∈ E. C(x) := y∈E

ur alle x, y ∈ E, so ist X reversibel bezüglich Setzen wir p(x, y) := C(x,y) C(x) f¨ π({x}) = C(x). Es gilt nämlich C(x, y) = C(x, y) C(x) C(y, x) = π({y}) p(y, x). = C(y, x) = C(y) C(y)

π({x}) p(x, y) = C(x)

3

19.3 Elektrische Netzwerke

393

Definition 19.11. Seien (E, K), C und X wie in Beispiel 19.10. Dann heißt X Irrfahrt auf E mit Gewichten C. Ist speziell C(x, y) = {x,y∈K} , dann heißt X einfache Irrfahrt auf (E, K). Die Irrfahrt mit Gewichten C ist also reversibel. Es gilt aber auch die Umkehrung. Satz 19.12. Ist X eine reversible Markovkette, so ist X eine Irrfahrt auf E mit Gewichten C(x, y) = p(x, y) π({x}), falls π ein invariantes Maß ist. Da π bis auf Vielfache eindeutig ist, sind die Gewichte bis auf konstante Vielfache festgelegt. Beweis. Klar.

2

¨ Ubung 19.2.1. Man zeige: p ist genau dann reversibel bezüglich π, wenn die lineare ♣ Abbildung f → pf in L2 (π) selbstadjungiert ist. ¨ Ubung 19.2.2. Sei K ∈ N und Zahlen W1 , . . . , WK ∈ R und β > 0 gegeben. Wir definieren p(i, j) := wobei Z :=

K

j=1

1 exp(−βWj ) Z

für alle i, j = 1, . . . , K,

exp(−βWj ) die Normalisierungskonstante ist.

In K (nummerierten) Urnen befinden sich insgesamt N ununterscheidbare Kugeln. In jedem Zeitschritt wird (uniform) eine der N Kugeln zufällig ausgesucht. Ist i die Nummer der Urne, aus der die Kugel gezogen wurde, so wird die Kugel mit Wahrscheinlichkeit p(i, j) in die Urne mit der Nummer j gelegt. (i) Man gebe eine formale Beschreibung als Markovkette an. (ii) Man bestimme den invarianten Zustand π und zeige, dass die Kette reversibel bezüglich π ist. ♣

19.3 Elektrische Netzwerke Ein (endliches) elektrisches Netzwerk (E, C) ist ein (endliches) System E von Punkten, die paarweise mit Drähten der Leitfähigkeit (conductivity) C(x, y) ∈ [0, ∞), x, y ∈ E verbunden sind. Wir interpretieren C(x, y) = 0 so, dass es keinen ” Draht zwischen x und y“ gibt. Symmetrie erfordert C(x, y) = C(y, x). Mit R(x, y) =

1 ∈ (0, ∞] C(x, y)

bezeichnen wir den Widerstand der Verbindung x, y!. Ist (E, K) ein Graph und C(x, y) = {x,y∈K} , so bezeichnen wir (E, C) als Einheitsnetzwerk auf (E, K).

394


Sei nun A ⊂ E. Wir legen an den Punkten x0 ∈ A jeweils elektrische Spannungen u(x0 ) an (zum Beispiel durch Anschluss einer oder mehrerer Batterien). Wie groß ist dann die Spannung u(x) in x ∈ E \ A? Definition 19.13. Eine Abbildung I : E × E → R heißt ein Fluss auf E \ A, falls sie antisymmetrisch ist (I(x, y) = −I(y, x)) und das Kirchhoff’sche Gesetz erfüllt: I(x) = 0, I(A) = 0, wobei I(x) :=

I(x, y)

für x ∈ E \ A,

und

y∈E

I(A) :=

(19.6)

I(x).

x∈A

Definition 19.14. Ein Fluss I : E × E → R auf E \ A heißt elektrischer Fluss, falls es eine Funktion u : E → R gibt, bezüglich der das Ohm’sche Gesetz gilt: I(x, y) =

u(x) − u(y) R(x, y)

für alle x, y ∈ E, x = y.

Wir nennen dann I(x, y) die Stromstärke von x nach y und u(x) die elektrische Spannung in x. Satz 19.15. Eine elektrische Spannung u in (E, C) ist harmonisch auf E \ A: u(x) =

y∈E

1 C(x, y) u(y) C(x)

für jedes x ∈ E \ A.

Speziell ist die elektrische Spannung durch Angabe der Werte auf A festgelegt, wenn das Netzwerk irreduzibel ist. Beweis. Nach dem Ohm’schen und dem Kirchhoff’schen Gesetz ist u(x) −

C(x, y) C(x, y) 1 u(y) = (u(x) − u(y)) = I(x, y) = 0. C(x) C(x) C(x)

y∈E

y∈E

y∈E

Nach dem Eindeutigkeitssatz für harmonische Funktionen (Satz 19.7) ist u hierdurch und durch die Werte auf A eindeutig festgelegt. 2 Korollar 19.16. Sei X eine Markovkette auf E mit Kantengewichten C. Dann ist u(x) = Ex [u(XτA )]. Betrachte A = {x0 , x1 }, x0 = x1 , und u(x0 ) = 0, u(x1 ) = 1. Dann ist I(x1 ) der gesamte Stromfluss in das Netzwerk und −I(x0 ) der gesamte Stromfluss aus dem Netzwerk. Das Kirchhoff’sche Gesetz besagt, dass der Stromfluss divergenzfrei ist,


395

und dass in Summe genauso viel Strom rein- wie rausfließt. Mit anderen Worten eben I(x0 ) + I(x1 ) = 0. In Anlehnung an das Ohm’sche Gesetz definieren wir den effektiven Widerstand zwischen x0 und x1 durch Reff (x0 ↔ x1 ) =

1 1 u(x1 ) − u(x0 ) = =− I(x1 ) I(x1 ) I(x0 )

und die effektive Leitfähigkeit durch Ceff (x0 ↔ x1 ) = Reff (x10 ↔x1 ) . Da I und u eindeutig durch die Angabe von x0 , x1 und C festgelegt sind, sind Ceff (x0 ↔ x1 ) und Reff (x0 ↔ x1 ) Größen, die sich aus C berechnen lassen.

Wir betrachten nun zwei Mengen A0 , A1 ⊂ E mit A0 ∩ A1 = ∅, A0 , A1 = ∅, und setzen u(x) = 0 für jedes x ∈ A0 sowie u(x) = 1 für jedes x ∈ A1 . Sei I der zugehörige elektrische Fluss. In Analogie zu oben treffen wir die folgende Definition. Definition 19.17. Wir nennen Ceff (A0 ↔ A1 ) := I(A1 ) die effektive Leitfähigkeit 1 den effektiven Widerstand zwischen A0 und A1 und Reff (A0 ↔ A1 ) := I(A 1) zwischen A0 und A1 . Beispiel 19.18. (i) Sei E = {0, 1, 2} mit C(0, 2) = 0, und A0 = {x0 } = {0}, A1 = {x1 } = {2}. Wir setzen u(0) = 0 und u(2) = 1. Dann ist (mit p(x, y) = C(x, y)/C(x)) u(1) = 1 · p(1, 2) + 0 · p(1, 0) = =

R(1, 0) C(1, 2) = C(1, 2) + C(1, 0) R(1, 0) + R(1, 2) Reff (1 ↔ 0) . Reff (1 ↔ 0) + Reff (1 ↔ 2)

Der gesamte Fluss ist I({2}) = u(1) C(0, 1) = Entsprechend ist Reff (0 ↔ 2) =

1 −1 1 . C(0,1) + C(1,2)

1 = R(0, 1) + R(1, 2)

1 I({2})

1 C(0,1)

1 +

1 C(1,2)

.

= R(0, 1) + R(1, 2) und Ceff (0 ↔ 2) =

(ii) (Reihenschaltung) Sei n ∈ N, n ≥ 2 und E = {0, . . . , n} mit Leitfähigkeiten C(k − 1, k) > 0 und C(k, l) = 0, falls |k − l| > 1. Wie in (i) bekommen wir für k ∈ {1, . . . , n − 1} u(k) =

Reff (0 ↔ k) . Reff (0 ↔ k) + Reff (k ↔ n)

Induktiv (in n) erhalten wir also

396


Reff (0 ↔ n) =

n−1

R(k, k + 1).

k=0

Wir erhalten so eine Aussage u¨ ber die Ruinwahrscheinlichkeit der korrespondierenden Markovkette X auf {0, . . . , n} durch H n−1 k−1 Reff (0 ↔ k) = R(l, l + 1) R(l, l + 1). (19.7) Pk [τn < τ0 ] = u(k) = Reff (0 ↔ n) l=0

x =0 0 C(0,1)

l=0

1 C(1,2)

u(0)=0

C(5,6)

x =6 1

u(6)=1

Abb. 19.1. Reihenschaltung von sechs Widerständen. Der effektive Gesamtwiderstand beträgt Reff (0 ↔ 6) = R(0, 1) + . . . + R(5, 6)

(iii) (Parallelschaltung) Sei E = {0, 1}. Wir wollen formal mehrere (parallele) Drähte zwischen 0 und 1 erlauben mit Leitfähigkeiten C1 , . . . , Cn . Dann ist nach = R1i , dem Ohm’schen Gesetz der Strom entlang des i-ten Drahtes Ii = u(1)−u(0) Ri n 1 also der Gesamtstrom I = i=1 Ri und damit n −1 n 1 Ceff = Ci und Reff = . 3 Ri i=1 i=1 In allen drei Beispielen ist der effektive Widerstand eine monotone Funktion der einzelnen Widerstände. Dass dies allgemein gilt, ist die Aussage des Rayleigh’schen Monotonieprinzips. Satz 19.19 (Rayleigh’sches Monotonieprinzip). Seien (E, C) und (E, C ′ ) elektrische Netzwerke mit C(x, y) ≥ C ′ (x, y) für alle x, y ∈ E. Dann ist für A0 , A1 ⊂ E mit A0 ∩ A1 = ∅, A0 , A1 = ∅

′ Ceff (A0 ↔ A1 ) ≥ Ceff (A0 ↔ A1 ).

Der Rest dieses Abschnitts ist dem Beweis dieses Satzes gewidmet. Wir benötigen dazu den Energieerhaltungssatz sowie das Thomson’sche (oder Dirichlet’sche) Prinzip der Leistungsminimierung.


397

R1 R2 R3 x 0 =0

x 1 =1 R4 R5

u(0)=0

u(6)=1

R6

Abb. 19.2. Parallelschaltung von sechs Widerständen. Der effektive Gesamtwiderstand beträgt Reff (0 ↔ 1) = (R1−1 + . . . + R6−1 )−1 .

Satz 19.20 (Energieerhaltungssatz). Sei A = A0 ∪ A1 , und sei I ein Fluss (das heißt eine antisymmetrische Funktion, die dem Kirchhoff’schen Gesetz genügt, nicht aber notwendigerweise dem Ohm’schen Gesetz) auf E \ A. Ferner sei w : E → R eine Funktion, die auf A0 und A1 jeweils konstant ist: w ≡: w0 und w ≡: A0

w1 . Dann gilt

(w1 − w0 )I(A1 ) =

A1

1 (w(x) − w(y)) I(x, y). 2 x,y∈E

Dies ist die diskrete Version des Satzes von Gauß für (wI), wobei man beachte, dass das Kirchhoff’sche Gesetz besagt, dass I auf E \ A divergenzfrei ist. Beweis. Wir berechnen (w(x) − w(y))I(x, y) = w(x) I(x, y) − w(y) I(x, y) x,y∈E

x∈E

=

x∈A

y∈E

w(x)

y∈E

y∈E

x∈E

y∈A

x∈E

I(x, y) I(x, y) − w(y)

= w0 I(A0 )+w1 I(A1 )−w0 (−I(A0 ))−w1 (−I(A1 )) = 2(w1 − w0 )I(A1 ). 2 Definition 19.21. Sei I ein Fluss auf E \ A. Mit LI := LC I :=

1 I(x, y)2 R(x, y) 2 x,y∈E

bezeichnen wir die Leistung von I im Netzwerk (E, C).

398


Satz 19.22 (Thomson’sches oder Dirichlet’sches Prinzip der Leistungsminimierung). Seien I, J Einheitsflüsse von A1 nach A0 (das heißt I(A1 ) = J(A1 ) = 1). I sei zudem ein elektrischer Fluss (erfülle also das Ohm’sche Gesetz mit einer Spannungsfunktion u, die auf A0 und A1 jeweils konstant ist). Dann gilt LI ≤ LJ mit Gleichheit genau dann, wenn I = J ist. Speziell ist der elektrische Einheitsfluss eindeutig festgelegt. Beweis. Sei D = J − I ≡ 0 der Differenzfluss. Dann ist offenbar D(A0 ) = D(A1 ) = 0. Wir erhalten J(x, y)2 R(x, y) x,y∈E

=

2 I(x, y) + D(x, y) R(x, y)

x,y∈E

=

I(x, y)2 + D(x, y)2 R(x, y) + 2 I(x, y) D(x, y) R(x, y)

x,y∈E

x,y∈E

x,y∈E

x,y∈E

= I(x, y)2 + D(x, y)2 R(x, y) + 2 u(y) − u(x) D(x, y). Nach dem Energieerhaltungssatz ist der letzte Term u(y) − u(x) D(x, y) = 2D(A1 )(u1 − u0 ) = 0. 2 x,y∈E

Es folgt (wegen D ≡ 0) LJ = LI +

1 D(x, y)2 R(x, y) > LI . 2

2

x,y∈E

Beweis (Rayleigh’sches Monotonieprinzip, Satz 19.19) Seien I und I ′ die elektrischen Einheitsflüsse von A1 nach A0 bezüglich C beziehungsweise C ′ . Nach dem Thomson’schen Prinzip, dem Energieerhaltungssatz und der Voraussetzung R(x, y) ≤ R′ (x, y) für alle x, y ∈ E ist u(1) − u(0) = u(1) − u(0) I(A1 ) 1 = I(x, y)2 R(x, y) 2

Reff (A0 ↔ A1 ) =

x,y∈E

1 ′ 1 ′ ≤ I (x, y)2 R(x, y) ≤ I (x, y)2 R′ (x, y) 2 2 x,y∈E

x,y∈E

′ = u′ (1) − u′ (0) = Reff (A0 ↔ A1 ).

2

19.4 Rekurrenz und Transienz

399

19.4 Rekurrenz und Transienz Wir betrachten die Situation, wo E abzählbar ist und A1 = {x1 } für ein x1 ∈ E. ¨ Sei X eine Irrfahrt auf E mit Gewichten C = (C(x, y), x, y ∈ E), also mit Ubergangswahrscheinlichkeiten p(x, y) = C(x, y)/C(x) (vergleiche Definition 19.11). Um die Ergebnisse u¨ ber endliche elektrische Netzwerke aus dem letzten Abschnitt anwenden zu können, nehmen wir zudem immer an, dass A0 ⊂ E so gewählt ist, dass E \ A0 endlich ist. Es sei dann stets u = ux1 ,A0 die eindeutig bestimmte Spannungsfunktion auf E mit u(x1 ) = 1 und u(x) = 0 für jedes x ∈ A0 . Nach Satz 19.7 ist u harmonisch und hat die Darstellung ( ' ux1 ,A0 (x) = Ex {XτA ∪{x } =x1 } 0

1

für jedes x ∈ E \ (A0 ∪ {x1 }).

= Px [τx1 < τA0 ]

Daher ist für den zu u gehörigen elektrischen Fluss I u(x1 ) − u(x) C(x1 , x) −I(A0 ) = I(x1 ) = I(x1 , x) = x∈E

x∈E

1 − u(x) p(x1 , x) = C(x1 ) x∈E

⎛

= C(x1 ) ⎝

p(x1 , x) Px [τA0 < τx1 ] +

x∈

A0 ∪{x1 }

x∈A0

= C(x1 ) Px1 [τA0 < τx1 ] .

⎞

p(x1 , x)⎠

Es folgt pF (x1 , A0 ) := Px1 [τA0 < τx1 ] =

1 Ceff (x1 ↔ A0 ) 1 = . C(x1 ) C(x1 ) Reff (x1 ↔ A0 )

(19.8)

Definition 19.23. Die Fluchtwahrscheinlichkeit von x1 bezeichnen wir mit pF (x1 ) = Px1 [τx1 = ∞] = 1 − F (x1 , x1 ). Die effektive Leitfähigkeit von x1 nach ∞ bezeichnen wir mit

Ceff (x1 ↔ ∞) := C(x1 ) inf pF (x1 , A0 ) : |E \ A0 | < ∞, x1 ∈ A0 .

Lemma 19.24. Für jede absteigende Folge An0 ↓ ∅ mit |E \ An0 | < ∞ und x1 ∈ An0 für jedes n ∈ N ist Ceff (x1 ↔ ∞) = lim Ceff (x1 ↔ An0 ). n→∞

400


Beweis. Klar, weil

Ceff (x1 ↔ ∞) = C(x1 ) inf pF (x1 , A0 ) : |E \ A0 | < ∞, x1 ∈ A0 ,

(19.9)

und weil pF (x1 , A0 ) monoton fallend in A0 ist. Satz 19.25. Es gilt pF (x1 ) =

1 Ceff (x1 ↔ ∞). C(x1 )

2

(19.10)

Speziell gilt x1 ist rekurrent

⇐⇒

Ceff (x1 ↔ ∞) = 0

⇐⇒

Reff (x1 ↔ ∞) = ∞.

Beweis. Sei An0 ↓ ∅ eine absteigende Folge mit |E \ An0 | < ∞ und x1 ∈ An0 für jedes n ∈ N. Setze Fn := τAn0 < τx1 . Für jedes M ∈ N ist Px1 [τ

An 0

≤ M] ≤

M

k=0

n→∞

Px1 [Xk ∈ An0 ] −→ 0.

Also gilt τAn0 ↑ ∞ fast sicher, und damit ist Fn ↓ {τx1 = ∞} (bis auf eine Nullmenge). Wir erhalten 1 Ceff (x1 ↔ ∞) = lim Px1 [Fn ] = Px1 [τx1 = ∞] = pF (x1 ). n→∞ C(x1 )

2

Beispiel 19.26. Die symmetrische einfache Irrfahrt auf E = Z ist rekurrent. Hier ist C(x, y) = {|x−y|=1} . Der effektive Widerstand von 0 nach ∞ ist nach den Formeln u¨ ber Parallel- und Reihenschaltung Reff (0 ↔ ∞) =

∞

1 R(i, i + 1) = ∞. 2 i=0

3

Beispiel 19.27. Die asymmetrische einfache Irrfahrt auf E = Z mit p(x, x + 1) = p ∈ ( 21 , 1), p(x, x − 1) = 1 − p ist transient. Hier ist x p für x ∈ Z, C(x, x + 1) = 1−p

und C(x, y) = 0, falls |x − y| > 1. Der effektive Widerstand von 0 nach ∞ ist nach dem Monotonieprinzip Reff (0 ↔ ∞) = lim Reff (0 ↔ {−n, n}) n→∞

≤ lim Reff (0 ↔ n) n→∞

=

n ∞ 1−p

n=0

p

=

p < ∞. 2p − 1

3


401

Beispiel 19.28. Die symmetrische einfache Irrfahrt auf E = Z2 ist rekurrent. Hier ist wieder C(x, y) = {|x−y|=1} . Sei Bn = {−n, . . . , n}2 und ∂Bn = Bn \ Bn−1 . Wir stellen ein Netzwerk C ′ mit größeren Leitfähigkeiten her, indem wir ringförmige Supraleiter entlang ∂B einfügen Wir ersetzen also C(x, y) durch ∞, falls x, y ∈ ∂Bn für ein n ∈ N, C ′ (x, y) = C(x, y), sonst.

5 4 3 2 1 0

Abb. 19.3. Elektrisches Netzwerk auf Z2 . Die fetten Linien stellen Supraleiter dar. Zwischen dem n-ten und dem (n + 1)-ten Supraleiter sind genau 4(2n + 1) Kanten.

1 ′ Dann ist Reff (Bn ↔ Bnc ) = 4(2n+1) (merke: 4(2n + 1) ist die Anzahl der Kanten, die Bn mit Bnc verbinden), und daher ist ′ (0 ↔ ∞) = Reff

∞

1 = ∞. 4(2n + 1) n=0

′ (0 ↔ ∞) = ∞. Nach dem Monotonieprinzip ist daher Reff (0 ↔ ∞) ≥ Reff

3

402


0

1

4 Kanten

2

12 Kanten

3

20 Kanten

n

n+1

4*(2n+1) Kanten

Abb. 19.4. Effektives Netzwerk, das aus Z2 durch Einfügen der Supraleiter entsteht. Die Ringe der Supraleiter sind hier zu einzelnen Punkten verschmolzen.

Beispiel 19.29. Sei (E, K) ein beliebiger zusammenhängender Teilgraph des quadratischen Gitters (Z2 , L2 ). Dann ist die einfache Irrfahrt auf (E, K) (siehe Definition 19.11) rekurrent. Nach dem Monotonieprinzip ist nämlich (E,K)

Reff

(Z2 ,L2 )

(0 ↔ ∞) ≥ Reff

(0 ↔ ∞) = ∞.

3

Wir formulieren das Vorgehen in den letzten Beispielen als Satz. Satz 19.30. Seien C und C ′ Kantengewichte auf E mit C ′ (x, y) ≤ C(x, y) für alle x, y ∈ E. Ist die Markovkette X zu den Gewichten C rekurrent, so ist es auch die Markovkette X ′ zu den Gewichten C ′ . Sei speziell (E, K) ein Graph und (E ′ , K ′ ) ein Teilgraph. Ist die einfache Irrfahrt auf (E, K) rekurrent, so ist auch die einfache Irrfahrt auf (E ′ , K ′ ) rekurrent. Beweis. Das folgt direkt aus Satz 19.25 zusammen mit dem Rayleigh’schen Monotonieprinzip (Satz 19.19). 2 Beispiel 19.31. Die symmetrische einfache Irrfahrt auf Z3 ist transient. Zum Beweis ′ konstruieren wir einen Teilgraphen, für den wir Reff (0 ↔ ∞) < ∞ ausrechnen können. Skizze Wir betrachten die Menge aller unendlichen Pfade, die in 0 starten und – einen Schritt in x-Richtung, y-Richtung oder z-Richtung gehen (rechts, oben oder hinten, nicht links, unten oder vorne), – eine eventuell andere Richtung x, y oder z wählen und dann zwei Schritte in diese Richtung gehen,


403

– in der n-ten Stufe eine der Richtungen x, y oder z wählen und 2n+1 Schritte in diese Richtung gehen. Wir bezeichnen etwa mit xyyxxxxzzzzzzzz . . . den Pfad, der zunächst die xRichtung, dann y, dann x, dann z und so fort gewählt hat. Zwei Pfade benutzen offenbar nach dem Zeitpunkt, wo sich ihre Wege trennen, keine gemeinsamen Kanten mehr. Allerdings werden manche Knoten von mehreren Pfaden getroffen. xxx

xxx xx

xx

xzz xz

xz

xy

xyy

xyy

xy x

yxx

x yxx

yx y

yy

yyy

yz

yzz

yx

y

yy yz

z

zx

zyy

zy zz

zxx

yyy yzz

z zyy zy

zzz

xzz

zx

zz

zzz zxx

Abb. 19.5. Schema der ersten drei Schritte des Graphen von Beispiel 19.31. Links sind die tatsächlichen Kanten eingezeichnet, wobei beispielsweise xyy bedeutet, dass zunächst in Schritt in x-Richtung gemacht wurde, dann einer in y-Richtung und jetzt die weiterführende Kante in y-Richtung betrachtet wird. Rechts sind die Knoten an den Enden von xz/zx, xy/yx und yz/zy jeweils in zwei Knoten aufgelöst und mit einem Supraleiter“ (fette ” Linien) verbunden. Wenn wir die Supraleiter entfernen, so erhalten wir das Netzwerk aus ′ Abb. 19.6, dessen effektiver Widerstand Reff (0 ↔ ∞) nicht kleiner ist als derjenige in Z3 . (Wird an die Wurzel die Spannung 1 und an den rechten Punkten jeweils die Spannung 0 angelegt, so fließt aus Symmetriegründen durch die Supraleiter kein Strom. Das Netzwerk hier ist also sogar a¨ quivalent zu dem in Abb. 19.6.)

Wenn wir das elektrische Netzwerk mit Einheitswiderständen und Spannung 1 im Ursprung sowie Spannung 0 an allen Punkten von Pfaden nach der n-ten Stufe betrachten, so hängt aus Symmetriegründen die Spannung an jedem Knoten des Netzwerks nur vom Abstand (kürzester Weg entlang Pfaden) zum Ursprung ab. Wir erhalten also ein a¨ quivalentes Netzwerk, wenn wir mehrfach benutzte Knoten durch entsprechend mehrere Knoten ersetzen (siehe Abb. 19.5). So erhalten wir ein Netzwerk, das eine Baumstruktur hat: jeweils nach 2n Schritten verzweigt jeder Pfad in

404


drei Pfade (siehe Abb. 19.6). Die 3n Pfade von der n-ten Generation zur (n + 1)ten Generation sind disjunkte Pfade der Länge 2n−1 . Sind B(n) alle Punkte bis zur n-ten Generation, so ist ′ Reff (0 ↔ B(n + 1)c ) =

0

n−1 k=0

′ Reff (B(k) ↔ B(k)c ) =

1

R(01)=1/3

2

R(12)=2/9

n−1

2k 3−k .

k=0

3

R(23)=4/27

R eff (02)=5/9

R eff (03)=19/27 Abb. 19.6. Ein Baum als Teilgraph von Z3 , auf dem die Irrfahrt immer noch transient ist.

19.5 Netzwerkreduktion ′ Also ist Reff (0 ↔ ∞) =

∞

1 3

k=0

405

k 2 = 1 < ∞. Für diesen Baum ist die Irrfahrt 3

transient, nach Satz 19.30 also auch für Z3 .

3

Beispiel 19.32. Die symmetrische einfache Irrfahrt auf Zd , d ≥ 3, ist transient. Dies gilt nach Satz 19.30, weil wir Z3 als Teilgraphen von Zd auffassen können und hier die Irrfahrt transient ist. 3

19.5 Netzwerkreduktion Beispiel 19.33. Wir betrachten die Irrfahrt auf dem Graphen aus Abb. 19.7, die in x startet und an jedem Punkt mit gleicher Wahrscheinlichkeit zu einem der Nachbarpunkte springt. Mit welcher Wahrscheinlichkeit P trifft die Kette den Punkt 1 bevor sie den Punkt 0 trifft? Wir können den Graphen als elektrisches Netzwerk auffassen

x

1

0

Abb. 19.7. Ausgangssituation

mit gleichem Widerstand (etwa 1) an jeder Kante, Spannung 0 in 0 und Spannung 1 in 1. Wenn wir die beiden effektiven Widerstände Reff (0 ↔ x) und Reff (x ↔ 1) kennen, erhalten wir als Spannung P = u(x) =

Reff (0 ↔ x) . Reff (0 ↔ x) + Reff (x ↔ 1)

(19.11)

Um die effektiven Widerstände auszurechnen, wollen wir das Netzwerk schrittweise vereinfachen, bis nur noch zwei Kanten u¨ brig sind: von 0 nach x und von x nach 1. Die erforderlichen Schritte werden im Folgenden vorgestellt und dann im Beispiel angewandt. 3

406


Um ein elektrisches Netzwerk zu reduzieren, kann man vier elementare Transformationen anwenden: 1. Entfernen von Schleifen Die drei Punkte ganz rechts im Graphen bilden eine Schleife, die ohne Veränderungen im Rest des Netzwerks entfernt werden kann. Insbesondere kann jede Kante entfernt werden, die 0 und 1 direkt verbindet. 2. Zusammenfassen von seriellen Kannten Zwei (oder mehr) Kanten, die seriell liegen, und deren dazwischen liegende Knoten keine weiteren Verbindungen haben, können durch ein Kante ersetzt werden, deren Widerstand die Summe der einzelnen Widerstände ist (siehe Abb. 19.1). 3. Zusammenfassen von parallelen Kannten Zwei (oder mehr) Kanten mit Widerständen R1 , . . . , Rn , die die selben Knoten verbinden, können durch eine Kante mit Widerstand R = (R1−1 + . . . + Rn−1 )−1 ersetzt werden (siehe Abb. 19.2). ¨ 4. Stern-Dreieck-Transformation (Siehe Ubung 17.5.1) Der sternförmige Ausschnitt eines Netzwerk links in Abb. 19.8 ist a¨ quivalent zum dreieckigen Aus1 , R 2 , R 3 die folgende Bedinschnitt rechts, wenn die Widerstände R1 , R2 , R3 , R gung erfüllen ˜i = δ Ri R wobei

für jedes i = 1, 2, 3,

δ = R1 R2 R3 R1−1 + R2−1 + R3−1 =

1 R 2 R 3 R . 1 + R 2 + R 3 R

x3

2 R

R3 R1 x1

z

(19.12)

x1

R2 x2

3 R

x3

1 R x2

Abb. 19.8. Stern-Dreieck-Transformation

Wir lösen nun die Aufgabe aus Beispiel 19.33 konkret. Wir nehmen an, dass anfangs jede Kante den Widerstand 1 hat. Kanten, die im Verlauf der Reduktion andere Widerstände als 1 haben, werden mit dem entsprechenden Widerstand beschriftet.

19.5 Netzwerkreduktion

Schritt 1.

407

Die Schleife am rechten Rand wird entfernt.

Schritt 2. Die Serien an der oberen, rechten und unteren Ecke werden durch je einen Widerstand der Größe 2 ersetzt.

x

1 2

x

0

1

2 0

2 Abb. 19.9. Schritt 1 und 2

Schritt 3. Der linke untere Knoten wird mit der Stern-Dreieck-Transformation 2 = δ/R2 = 1 = δ/R1 = 5, R entfernt. Hier ist R1 = 1, R2 = 2, R3 = 1, δ = 5, R 5/2 und R3 = δ/R3 = 5.

Schritt 4. Die parallelen Kanten mit Widerständen R1 = 5 und R2 = 1 werden ersetzt durch eine Kante mit R = ( 15 + 1)−1 = 56 .

2

x

2

x

1

1

2 0

5/2

2 0

5/2 5/6

5 5


408


Schritt 5. Der rechte untere Knoten wird mit der Stern-Dreieck-Transformation 1 = δ/R1 = 19/6, entfernt. Hier ist R1 = 5, R2 = 2, R3 = 65 , δ = 95/6, R 3 = δ/R3 = 19. 2 = δ/R2 = 95/12 und R R

Schritt 6. Die parallelen Kanten werden durch je eine Kante ersetzt mit Wider2 −1 6 −1 = 19 = 19 stand ( 12 95 + 5 ) 10 beziehungsweise ( 19 + 1) 25 . Zudem wird die direkte Kante zwischen Punkt 0 und Punkt 1 entfernt.

2

x

1 x

5/2

2

1

19/6

0

19/25 95/12 19

0

19/10

Abb. 19.11. Schritt 5 und 6

Schritt 7. Der rechte untere Knoten wird mit der Stern-Dreieck-Transformation 513 54 19 entfernt. Hier ist R1 = 19 10 , R2 = 25 , R3 = 1, δ = 125 , R1 = δ/R1 = 25 , 2 = δ/R2 = 27 und R 3 = δ/R3 = 513 . R 5 125

Schritt 8. Die parallelen Kanten werden durch je eine Kante ersetzt mit Wider25 1 −1 5 + 1)−1 = 27 = 27 stand ( 27 32 beziehungsweise ( 54 + 2 ) 26 . Zudem wird die direkte Kante zwischen Punkt 0 und Punkt 1 entfernt.

2

x

1

x

1 27/26

27/5

54/25

27/32

513/125 0


27 Wir haben jetzt also die effektiven Widerstände Reff (0 ↔ x) = 32 und Reff (x ↔ 27 1) = 26 . Mit Gleichung (19.11) erhalten wir als Wahrscheinlichkeit, dass die Irrfahrt 1 erreicht, bevor sie 0 erreicht:

P =

27 32 27 32

+

27 26

=

13 . 29

3


409

Alternative Lösung Wir können die Lösung des Problems aus Beispiel 19.33 auch ohne Netzwerke, alleine mit linearer Algebra angeben. Welche Lösung eleganter ist, ist wohl Ge¨ schmackssache. Zunächst stellen wir die Ubergangsmatrix p der Markovkette auf (hierfür werden die Knoten des Graphen von 1 bis 12 durchnummeriert wie in Abb. 19.13). Der Startpunkt ist die 2, das Gewinnfeld“ ist die 3 und das Ver” ” lustfeld“ die 5. Nun wird die Matrix p der in 3 und 5 getöteten Kette gebildet und

1 2 5

4

3 6

9

7 10

8 11

12 Abb. 19.13. Graph mit nummerierten Knoten

¨ G = (I − p)−1 berechnet. Nach Ubung 19.1.1 (mit A = {3, 5}, x ist die Wahrscheinlichkeit 3 vor 5 zu treffen P = G(2, 3) = 13 29 . ⎛ 0 1 1 0 0 0 0 0 0 0 0 ⎜ 1 2 2 1 1 ⎜ ⎜ 3 0 0 0 3 3 0 0 0 0 0 ⎜ ⎜ 0 0 0 0 0 0 0 0 0 0 0 ⎜ ⎜ 0 0 0 0 0 0 1 1 0 0 0 ⎜ 2 2 ⎜ ⎜ 0 0 0 0 0 0 0 0 0 0 0 ⎜ ⎜ 0 1 1 0 0 0 0 0 1 1 0 ⎜ 4 4 4 4 p := ⎜ ⎜ 0 0 1 1 0 0 0 0 0 1 1 4 4 4 4 ⎜ ⎜ ⎜ 0 0 0 12 0 0 0 0 0 0 12 ⎜ ⎜ 0 0 0 0 1 1 0 0 0 0 0 ⎜ 3 3 ⎜ ⎜ 0 0 0 0 0 31 13 0 0 0 0 ⎜ ⎜ 0 0 0 0 0 0 1 1 0 0 0 ⎝ 2 2 0 0 0 0 0 0 0 0 12 21 0

= 2 und y = 3) 0

⎞

⎟ 0 ⎟ ⎟ ⎟ 0 ⎟ ⎟ 0 ⎟ ⎟ ⎟ 0 ⎟ ⎟ 0 ⎟ ⎟ ⎟ 0 ⎟ ⎟ ⎟ 0 ⎟ ⎟ 1 ⎟ 3 ⎟ 1 ⎟ ⎟ 3 ⎟ 0 ⎟ ⎠ 0

410


⎛

G := (I − p)−1

143 116

⎜ ⎜ 27 ⎜ 58 ⎜ ⎜ ⎜ 0 ⎜ ⎜ 3 ⎜ 58 ⎜ ⎜ ⎜ 0 ⎜ ⎜ 19 ⎜ 116 =⎜ ⎜ 3 ⎜ 58 ⎜ ⎜ 3 ⎜ 58 ⎜ ⎜ 5 ⎜ 58 ⎜ ⎜ 3 ⎜ 29 ⎜ ⎜ 3 ⎜ 58 ⎝ 11 116

81 116

21 29

3 58

8 29

19 58

3 29

3 58

15 116

9 58

3 58

11 116

81 58

13 29

3 29

16 29

19 29

6 29

3 29

15 58

9 29

3 29

11 58

0

1

0

0

0

0

0

0

0

0

9 58

24 29

165 58

5 29

15 29

78 29

68 29

21 58

30 29

107 58

0

0

0

1

0

0

0

0

0

0

57 116

18 29

15 58

11 29

95 58

15 29

15 58

75 116

45 58

15 58

9 58

24 29

39 29

5 29

15 29

78 29

39 29

21 58

30 29

39 29

9 58

24 29

68 29

5 29

15 29

78 29

97 29

21 58

30 29

68 29

15 58

11 29

7 29

18 29

25 29

14 29

7 29

93 58

21 29

7 29

9 29

19 29

20 29

10 29

30 29

40 29

20 29

21 29

60 29

20 29

9 58

24 29

107 58

5 29

15 29

78 29

68 29

21 58

30 29

165 58

33 116

15 29

27 58

14 29

55 58

27 29

27 58

135 116

81 58

27 58

⎞

⎟ ⎟ ⎟ ⎟ ⎟ 0 ⎟ ⎟ 27 ⎟ ⎟ 58 ⎟ ⎟ 0 ⎟ ⎟ 55 ⎟ ⎟ 116 ⎟ 27 ⎟ ⎟ 58 ⎟ 27 ⎟ ⎟ 58 ⎟ 45 ⎟ ⎟ 58 ⎟ 27 ⎟ ⎟ 29 ⎟ 27 ⎟ ⎟ 58 ⎠ 215 116

¨ 19.5.1. Man zeige die Gültigkeit der Stern-Dreieck-Transformation. Ubung

♣

¨ Ubung 19.5.2. Man zeige für den unten stehenden hexagonalen Graphen, dass die 8 Wahrscheinlichkeit, von x aus startend die 1 vor der 0 zu treffen, gleich 17 ist (i) mit der Methode der Netzwerkreduktion, (ii) mit der Methode der Matrixinversion.

♣

0

1

x


411

¨ Ubung 19.5.3. Man betrachte den Graphen aus Abb. 19.14. (i) Zeige für die effektive Leitfähigkeit zwischen den Punkten a und z, dass √ Ceff (a ←→ z) = 3.

(ii) Zeige, dass die Wahrscheinlichkeit Pa [τz < τa ], dass in eine in a√gestartete Irrfahrt z trifft bevor sie a zurückkehrt, den Wert Pa [τz < τa ] = 1/ 3 hat. ♣

a

z Abb. 19.14.

¨ Ubung 19.5.4. Man bestimme Ceff (a ←→ z) und Pa [τz < τa ] für den Graphen ¨ aus Abb. 19.15. (Das geht leichter als in Ubung 19.5.3!) ♣

a

z Abb. 19.15.

¨ Ubung 19.5.5. Man bestimme die Wahrscheinlichkeit Pa [τz < τa ] für den Graphen aus Abb. 19.16. ♣

z a Abb. 19.16.

412


19.6 Irrfahrt in zufälliger Umgebung (Vergleiche [163], [135] und [76, 77].) Wir betrachten eine Markovkette X auf Z, die in jedem Schritt entweder einen Punkt nach links oder einen Punkt nach rechts springt, jeweils mit Wahrscheinlichkeit wi− beziehungsweise wi+ , falls X in i ∈ Z ist. Es seien also wi− ∈ (0, 1) und wi+ := 1 − wi− für i ∈ Z. Dann ist X ¨ die Markovkette mit Ubergangsmatrix ⎧ − ⎪ ⎨ wi , falls j = i − 1, pw (i, j) = wi+ , falls j = i + 1, ⎪ ⎩ 0, sonst.

Um X durch die Leitfähigkeiten eines elektrischen Netzwerks zu beschreiben, setzen wir ̺i := wi− /wi+ für i ∈ Z sowie Cw (i, j) := 0 falls |i − j| = 1 und Cw (i + 1, i) := Cw (i, i + 1) := Mit dieser Definition ist 1 Cw (i, i + 1) = = wi+ Cw (i) ̺i + 1

und

i

k=0

̺−1 k ,

falls i ≥ 0,

̺k ,

falls i < 0.

−1

k=i

Cw (i, i − 1) ̺i = = wi− . Cw (i) ̺i + 1

¨ Die Ubergangswahrscheinlichkeiten pw werden also tatsächlich durch Cw beschrieben. Sei + Rw :=

∞

Rw (i, i + 1) =

i=0

∞ i=0

∞ i 1 = ̺k Cw (i, i + 1) i=0 k=0

und − Rw :=

∞ i=0

Rw (−i, −i − 1) =

∞ i=0

∞ 1 1 = ̺−1 k . Cw (−i, −i − 1) i=1 k=−i

+ − Rw und Rw sind die effektiven Widerstände von 0 nach +∞ beziehungsweise nach −∞. Also ist 1 Rw,eff (0 ↔ ∞) = 1 1 + R− R+ − + genau dann endlich, wenn Rw < ∞ oder Rw < ∞ ist. Nach Satz 19.25 gilt also

X ist transient

⇐⇒

− + Rw < ∞ oder Rw < ∞.

In welche Richtung läuft X davon, wenn X transient ist?

(19.13)

19.6 Irrfahrt in zufälliger Umgebung

Satz 19.34.

− + (i) Gilt Rw < ∞ oder Rw < ∞, so gilt (mit

) * n→∞ P0 Xn −→ −∞ =

+ Rw − + Rw + Rw

und

∞ ∞

413

= 1)

* ) n→∞ P0 Xn −→ +∞ =

− Rw − +. Rw + Rw

− + = ∞ und Rw = ∞, so gilt lim inf Xn = −∞ und lim sup Xn = ∞ (ii) Gilt Rw n→∞

n→∞

fast sicher. − Beweis. (i) Ohne Einschränkung sei Rw < ∞. Der andere

Fall folgt aus Symmetriegründen. Sei τN := inf n ∈ N0 : Xn ∈ {−N, N } . Da X transient ist, ist P0 [τN < ∞] = 1 und (wie in (19.7))

) * Rw,eff (0 ↔ N ) Rw,eff (0 ↔ N ) P0 XτN = −N = = . Rw,eff (−N ↔ N ) Rw,eff (0 ↔ −N ) + Rw,eff (0 ↔ N )

Es folgt, wiederum, weil X transient ist, ) * ) * n→∞ P0 Xn −→ −∞ = P sup{Xn : n ∈ N0 } < ∞ ) * = lim P sup{Xn : n ∈ N0 } < N N →∞ ) * = lim P XτN = −N =

N →∞ + Rw − +. Rw + Rw

− + = Rw = ∞, so ist X rekurrent, also wird jeder Punkt unendlich oft (ii) Gilt Rw besucht, das heißt, es gilt lim sup Xn = ∞ und lim inf Xn = −∞ f.s. 2 n→∞

n→∞

Wir wollen nun die Situation betrachten, wo die Zahlenfolge w = (wi− )i∈Z zufällig ist. Das heißt, wir betrachten ein Zweistufen-Experiment: In der ersten Stufe werden u.i.v. Zufallsvariablen W = (Wi− )i∈Z auf (0, 1) realisiert und Wi+ := 1 − Wi− gesetzt. In der zweiten Stufe wird, gegeben W , eine Markovkette X auf Z mit ¨ Ubergangsmatrix pW konstruiert, wobei ⎧ − ⎪ ⎨ Wi , falls j = i − 1, pW (i, j) = Wi+ , falls j = i + 1, ⎪ ⎩ 0, sonst.

Man beachte, dass X nur gegeben W eine Markovkette ist, also unter dem Wahrscheinlichkeitsmaß P[X ∈ · |W ], nicht aber bezüglich P[X ∈ · ]. Ist nämlich W unbekannt, so kann man durch Beobachtung von X Rückschlüsse u¨ ber die tatsächliche Realisierung von W ziehen. Dies ist aber genau das, was Gedächtnis ist, steht also im Widerspruch zur Markoveigenschaft von X.

414


Definition 19.35. Der Prozess X heißt heißt Irrfahrt in der zufälligen Umgebung W (random walk in random environment). + − wie oben definiert. und RW Seien ̺i := Wi− /Wi+ für i ∈ Z und RW n→∞

(i) Gilt E[log(̺0 )] < 0, so gilt Xn −→ ∞ f.s.

Satz 19.36.

n→∞

(ii) Gilt E[log(̺0 )] > 0, so gilt Xn −→ −∞ f.s.

(iii) Gilt E[log(̺0 )] = 0, so gilt lim inf Xn = −∞ und lim sup Xn = ∞ f.s. n→∞

n→∞

Beweis. (i) und (ii) Aus Symmetriegründen reicht es, (ii) zu zeigen. Sei also c := − E[log(̺0 )] > 0. Nach dem starken Gesetz der großen Zahl gibt es ein n− 0 = n0 (ω) mit 1

̺−1 k = exp

k=−n

−

1

k=−n

log(̺i ) < e−cn/2

für alle n ≥ n− 0.

Es folgt − RW

=

∞ 1

̺−1 k

n=1 k=−n

≤

n− 0 −1

1

̺−1 k +

n=1 k=−n

∞

n=n− 0

e−cn/2 < ∞

f.s.

+ Analog gibt es ein n+ 0 = n0 (ω) mit n

̺k > ecn/2

k=0

für alle n ≥ n+ 0.

Es folgt + RW

=

∞ n

n=0 k=0

̺k ≥

n+ n 0 −1

n=0 k=0

̺k +

∞

n=n+ 0

ecn/2 = ∞

f.s.

n→∞

Aus Satz 19.34 folgt nun Xn −→ −∞ fast sicher. + − = ∞ fast sicher gilt, reicht es zu zeigen, dass = RW (iii) Um zeigen, dass RW n 1 lim supn→∞ k=0 log(̺k ) > −∞ und lim supn→∞ k=−n log(̺−1 k ) > −∞ fast sicher, wenn E[log(̺0 )] = 0 gilt. Wenn log(̺0 ) von endlicher Varianz ist, folgt dies aus dem Zentralen Grenzwertsatz. Im allgemeinen Fall folgt dies aus Satz 20.21. 2

20 Ergodentheorie

Gesetze der großen zum Beispiel für u.i.v. Zufallsvariablen X1 , X2 , . . . besan Zahl, n→∞ gen, dass n−1 i=1 Xi −→ E[X1 ] fast sicher konvergiert. Wir können also die Mittelung u¨ ber die tatsächliche Realisierung vieler Zufallsvariablen mit der Mittelung u¨ ber die möglichen Realisierungen eines Xi vertauschen. In der statistischen ¨ Physik spricht man von der Aquivalenz von Zeitmittel und Scharmittel, oder der Mittelung entlang einer Trajektorie (griechisch odos) des Systems gegenüber der Mittelung aller möglichen Zustände mit gleicher Energie (griechisch ergon). Hieraus leitet sich der Begriff der Ergodentheorie ab, die Gesetze der großen Zahl für Zufallsvariablen mit Abhängigkeiten, aber zeitlicher Stationarität liefert.

20.1 Begriffsbildung Definition 20.1. Sei I eine unter Addition abgeschlossene Menge (die wichtigsten Beispiele für uns sind I = N0 , I = N, I = Z, I = R, I = [0, ∞), I = Zd usw.). Ein stochastischer Prozess X = (Xt )t∈I heißt stationär, falls L [(Xt+s )t∈I ] = L [(Xt )t∈I ]

für jedes s ∈ I.

(20.1)

Bemerkung 20.2. Ist I = N0 , I = N oder I = Z, so ist (20.1) a¨ quivalent zu L [(Xn+1 )n∈I ] = L [(Xn )n∈I ] .

3

Beispiel 20.3. (i) Ist X = (Xt )t∈I u.i.v., so ist X stationär. Ist lediglich PXt = PX0 für jedes t ∈ I (ohne die Unabhängigkeit), so ist X im Allgemeinen nicht stationär. Beispielsweise sei I = N0 und X1 = X2 = X3 = . . ., jedoch X0 = X1 . Dann ist X nicht stationär. (ii) Ist X eine Markovkette mit invarianter Verteilung π , sowie L[X0 ] = π, dann ist X stationär. (iii) Sind (Yn )n∈Z u.i.v. und reell, sowie c1 , . . . , ck ∈ R, dann definiert Xn :=

k l=1

cl Yn−l

416

20 Ergodentheorie

einen stationären Prozess X. X heißt manchmal auch moving average oder gleitendes Mittel mit Gewichten (c1 , . . . , ck ). Eine genauere Betrachtung ergibt, dass X sogar dann stationär ist, wenn Y nur als stationär vorausgesetzt wird. 3 Lemma 20.4. Ist (Xn )n∈N0 stationär, so lässt sich X zu einem stationären Pro n zess X fortsetzen. n∈Z

{−n,−n+1,...} ∈ der kanonische Prozess auf Ω = E Z . Sei P Beweis. Sei X

{−n,−n+1,...} definiert durch M1 E ) * {−n,−n+1,...} X −n ∈ A−n , X −n+1 ∈ A−n+1 , . . . P * ) = P X0 ∈ A−n , X1 ∈ A−n+1 , . . . .

{−n,−n+1,...} , n ∈ N projektiv und {−n, −n + 1, . . .} ↑ Z. Nach Dann ist P := dem Satz von Ionescu-Tulcea (Satz 14.32) existiert der projektive Limes P {−n,−n+1,...} . Per Konstruktion ist X stationär bezüglich P und lim P ←− n→∞

◦ (X n )n∈N −1 = P ◦ (Xn )n∈N −1 . P 0 0

2

Im Folgenden sei stets (Ω, A, P) ein W-Raum und τ : Ω → Ω eine messbare Abbildung. Definition 20.5. Ein Ereignis A ∈ A heißt invariant, falls τ −1 (A) = A und quasi-invariant, falls τ −1 (A) = A P–f.s. Die σ-Algebra der invarianten Ereignisse bezeichnen wir mit

I = A ∈ A : τ −1 (A) = A Lemma 20.6. Eine messbare Abbildung f : (Ω, A) → (R, B(R)) ist genau dann I-messbar, wenn f ◦ τ = f ist. Beweis. Für Indikatorfunktionen f = A ist dies klar. Der allgemeine Fall folgt mit den u¨ blichen Approximationsargumenten (siehe Satz 1.96(i)). 2 Zur Erinnerung: Eine σ-Algebra I heißt P-trivial, falls P[A] ∈ {0, 1} für jedes A ∈ I gilt. Definition 20.7.

(i) τ heißt maßtreu, falls * ) P τ −1 (A) = P[A]

für jedes A ∈ A.

In diesem Falle heißt (Ω, A, P, τ ) ein maßerhaltendes dynamisches System.

(ii) Ist τ maßtreu und I P-trivial, so heißt (Ω, A, P, τ ) ergodisch.

20.1 Begriffsbildung

417

Beispiel 20.8. Sei n ∈ N \ {1}, Ω = Z/(n), A = 2Ω und P die Gleichverteilung auf Ω. Sei r ∈ {1, . . . , n} und τ : Ω → Ω,

x → x + r

(mod n).

Dann ist τ maßtreu. Ist d = ggT(n, r) und für i = 0, . . . , d − 1

Ai = i, τ (i), τ 2 (i), . . . , τ n−1 (i) = i + r!,

so sind A0 , . . . , Ad−1 die disjunkten Nebenklassen des Normalteilers r! Ω. Also ist Ai ∈ I für i = 0, . . . , d − 1, und jedes A ∈ I ist Vereinigung von gewissen Ai . Mithin gilt: (Ω, A, P, τ ) ist ergodisch

⇐⇒

ggT(r, n) = 1.

3

Beispiel 20.9 (Rotation). Sei Ω = [0, 1), A = B(Ω), P = λ das Lebesgue-Maß, r ∈ (0, 1) und τr (x) = x + r (mod 1). Offenbar ist (Ω, A, P, τr ) ein maßerhaltendes dynamisches System. Sei zunächst r rational, also r = pq für gewisse teilerfremde Zahlen p, q ∈ N. Setze ) 1 q−1 A0 = 0, 2q und A = n=0 τrn (A0 ). Wegen τ q = idΩ , ist A ∈ I und P[A] = 21 , also ist (Ω, A, P, τr ) nicht ergodisch.

Sei r ∈ (0, 1) irrational. Offenbar gilt für jedes x ∈ [0, 1) und ε > 0, dass ∞nun−k −1 −2 τ k=1 r (Bε (x)) = [0, 1), weil {x, τr (x), τr (x), . . .} ⊂ [0, 1) dicht ist. Also gilt für jede offene Menge V ∈ I entweder V = ∅ oder V = [0, 1). Sei nun A ∈ I beliebig mit P[A] > 0. Nach dem Approximationssatz für Maße (Satz 1.65) existiert ein offene Menge U ⊂ A mit P[U ] > 0. Setzen wir V =

∞

k=−∞

τrk (U ) ⊂

∞

τrk (A) = A,

k=−∞

so ist V offen und V ∈ I, also V = [0, 1) und damit A = [0, 1). Wir haben also gezeigt:

(Ω, A, P, τr ) ist ergodisch

⇐⇒

r ist irrational.

3

Beispiel 20.10. Sei X = (Xn )n∈N0 ein stochastischer Prozess mit Werten in einem polnischen Raum E. Ohne Einschränkung können X der ka wir annehmen, dass nonische Prozess auf dem W-Raum (Ω, A, P) = E N0 , B(E)⊗N0 , P ist. Definiere den Shift τ : Ω → Ω, (ωn )n∈N0 → (ωn+1 )n∈N0 . Dann ist Xn (ω) = X0 (τ n (ω)). Also ist X genau dann stationär, wenn (Ω, A, P, τ ) ein maßerhaltendes dynamisches System ist. 3

Definition 20.11. Der stochastische Prozess X (aus Beispiel 20.10) heißt ergodisch, falls (Ω, A, P, τ ) ergodisch ist.

418

20 Ergodentheorie

Beispiel 20.12. Seien (Xn )n∈N0 u.i.v. und Xn (ω) = X0 (τ n (ω)). Ist A ∈ I, so ist für n ∈ N A = τ −n (A) = {ω : τ n (ω) ∈ A} ∈ σ(Xn , Xn+1 , . . .). Also ist (mit T die terminale σ-Algebra von (Xn )n∈N , siehe Definition 2.34) I⊂T =

∞

σ(Xn , Xn+1 , . . .).

n=1

Nach dem Kolmogorov’schen 0 − 1 Gesetz (Satz 2.37) ist T P-trivial, also ist auch 3 I P-trivial und damit (Xn )n∈N0 ergodisch. ¨ Ubung 20.1.1. Sei G eine endliche Gruppe von maßtreuen messbaren Abbildungen auf (Ω, A, P) und A0 := {A ∈ A : g(A) = A für alle g ∈ G}. Man zeige: Für jedes X ∈ L1 (P) gilt

E[X |A0 ] =

1 X ◦ g. #G g∈G

♣

20.2 Ergodensätze In diesem Abschnitt ist stets (Ω, A, P, τ ) ein maßerhaltendes dynamisches System. Ferner sei f : Ω → R messbar und Xn (ω) = f ◦ τ n (ω)

für jedes n ∈ N0 .

Also ist X = (Xn )n∈N0 ein stationärer, reeller stochastischer Prozess. Sei Sn =

n−1

Xk

k=0

die n-te Partialsumme. Die Ergodensätze beschäftigen sich mit Gesetzen der großen Zahl für die (Sn ). Als Vorbereitung bringen wir ein Lemma. Lemma 20.13 (Hopf’sches Maximal-Ergodenlemma). Sei X0 ∈ L1 (P). Setze Mn = max{0, S1 , . . . , Sn }, n ∈ N. Dann gilt * ) E X0 {Mn >0} ≥ 0 für jedes n ∈ N. Beweis. Für k ≤ n ist Mn (τ (ω)) ≥ Sk (τ (ω)). Also ist

X0 + Mn ◦ τ ≥ X0 + Sk ◦ τ = Sk+1 .

20.2 Ergodensätze

419

Daher ist X0 ≥ Sk+1 − Mn ◦ τ für k = 1, . . . , n. Offensichtlich ist S1 = X0 und Mn ◦ τ ≥ 0, also auch (für k = 0) X0 ≥ S1 − Mn ◦ τ und damit auch X0 ≥ max{S1 , . . . , Sn } − Mn ◦ τ.

(20.2)

Außerdem ist offenbar {Mn > 0}c ⊂ {Mn = 0} ∩ {Mn ◦ τ ≥ 0} ⊂ {Mn − Mn ◦ τ ≤ 0}. Aus (20.2) und (20.3) und der Maßtreue von τ folgt * ) * ) E X0 {Mn >0} ≥ E (max{S1 , . . . , Sn } − Mn ◦ τ ) {Mn >0} * ) = E (Mn − Mn ◦ τ ) {Mn >0} ) * ≥ E Mn − Mn ◦ τ = E[Mn ] − E[Mn ] = 0.

(20.3)

2

Satz 20.14 (Individueller Ergodensatz, Birkhoff 1931). Sei f = X0 ∈ L1 (P). Dann gilt n−1 n−1 1 1 n→∞ Xk = f ◦ τ k −→ E[X0 I] P-f.s. n n k=0

k=0

Ist speziell τ ergodisch, so gilt

1 n

n−1 k=0

n→∞

Xk −→ E[X0 ] P-f.s.

Beweis. Ist τ ergodisch, so ist E[X0 |I] = E[X0 ] und der Zusatz folgt aus der ersten Aussage. Wir betrachten nun den allgemeinen Fall. Nach Lemma 20.6 ist E[X0 |I] ◦ τ = n := Xn − E[X0 |I] betrachten und daher E[X0 |I] P–f.s. Wir können also X ohne Beschränkung der Allgemeinheit E[X0 |I] = 0 annehmen. Setze Z := lim sup n→∞

1 Sn . n

Sei ε > 0 und F := {Z > ε}. Zu zeigen ist, dass P[F ] = 0 gilt. Hieraus folgt dann P[Z > 0] = 0 und analog mit −X auch lim inf n1 Sn ≥ 0 fast sicher, also n→∞ 1 n Sn −→

n→∞

0 f.s.

Offenbar ist Z ◦ τ = Z, also F ∈ I. Setze Xnε := (Xn − ε)

F,

Mnε := max{0, S1ε , . . . , Snε },

ε Snε := X0ε + . . . + Xn−1 ,

Fn := {Mnε > 0}.

420

20 Ergodentheorie

Dann ist F1 ⊂ F2 ⊂ . . . und 1 2 2 1 ∞ 1 ε 1 Fn = sup Sk > 0 = sup Sk > ε ∩ F = F, k∈N k k∈N k n=1

also Fn ↑ F . Majorisierte Konvergenz liefert E [X0ε

Fn ]

n→∞

−→ E [X0ε ].

Nach dem Maximal-Ergodenlemma (angewandt auf X ε ) ist E [X0ε 0≤

E [X0ε ]

= E [(X0 − ε)

F]

= E [E [X0 |I]

F]

Fn ]

≥ 0, also

− εP[F ] = −εP[F ].

Mithin ist P[F ] = 0.

2

Als Folgerung erhält man den statistischen Ergodensatz oder Lp -Ergodensatz, den von Neumann 1931 vor Birkhoff gefunden hat. Zur Vorbereitung bringen wir ein elementares Lemma. Lemma 20.15. Sei p ≥ 1, und seien X0 , X1 , . . . identisch verteilte, reelle Zufallsp n−1 Xk für n ∈ N, so ist variablen mit E[|X0 |p ] < ∞. Setzen wir Yn := n1 k=0

(Yn )n∈N gleichgradig integrierbar.

Beweis. Offenbar ist die einelementige Familie {|X0 |p } gleichgradig integrierbar. Nach Satz 6.19 existiert also eine monoton wachsende, konvexe Abbildung ur x → ∞ und C := E[f (|X0 |p )] < ∞. Nach f : [0, ∞) → [0, ∞) mit f (x) x → ∞ f¨ Satz 6.19 reicht es wiederum zu zeigen, dass E[f (Yn )] ≤ C für jedes n ∈ N. Nach der Jensen’schen Ungleichung (für x → |x|p ) ist Yn ≤

n−1 1 |Xk |p . n k=0

Die Jensen’sche Ungleichung (diesmal auf f angewandt) liefert dann n−1 n−1 1 1 p ≤ |Xk | f (|Xk |p ), f (Yn ) ≤ f n n k=0

also E[f (Yn )] ≤

1 n

n−1 k=0

k=0

E[f (|Xk |p )] = C.

2

Satz 20.16 (Lp -Ergodensatz, von Neumann 1931). Sei (Ω, A, P, τ ) ein maßerhaltendes dynamisches System, p ≥ 1, X0 ∈ Lp (P) und Xn = X0 ◦ τ n . Dann gilt n−1 1 n→∞ Xk −→ E[X0 |I] in Lp (P). n k=0

Ist speziell τ ergodisch, so gilt

1 n

n−1 k=0

n→∞

Xk −→ E[X0 ] in Lp (P).

20.3 Beispiele

421

Beweis. Setze p n−1 1 Xk − E[X0 |I] Yn := n k=0


Nach Lemma 20.15 ist (Yn )n∈N gleichgradig integrierbar, und nach dem Birkn→∞ hoff’schen Ergodensatz gilt Yn −→ 0 fast sicher. Nach Satz 6.25 gilt daher lim E[Yn ] = 0. n→∞

Ist τ ergodisch, so ist E[X0 |I] = E[X0 ].

2

20.3 Beispiele Beispiel 20.17. Sei (X, (Px )x∈E ) eine positiv rekurrente, irreduzible Markovkette auf dem abzählbaren Raum E mit invarianter Verteilung π. Dann ist π({x}) > 0 für jedes x ∈ E. Setze Pπ = x∈E π({x})Px . Dann ist X stationär auf (Ω, A, Pπ ). Wir schreiben τ für den Shift, also Xn = X0 ◦ τ n . ∞ Sei nun A ∈ I invariant. Dann ist A ∈ T = σ(Xn , Xn+1 , . . .). Nach der n=1

starken Markoveigenschaft ist daher für jede endliche Stoppzeit σ (mit Fσ die σAlgebra der σ-Vergangenheit) (20.4) Pπ [X ∈ A Fσ ] = PXσ [X ∈ A].

In der Tat ist {X ∈ A} = {X ∈ τ −n (A)} = {(Xn , Xn+1 , . . .) ∈ A}. Für B ∈ Fσ erhalten wir mit der Markoveigenschaft (in der dritten Zeile) Eπ

)

{X∈B}

{X∈A}

*

= = =

∞

) * Pπ X ∈ B, σ = n, Xn = x, X ∈ A

n=0 x∈E ∞

) * Pπ X ∈ B, σ = n, Xn = x Px [X ∈ A]

n=0 x∈E ∞

n=0 x∈E

= Eπ

)

) * Pπ X ∈ B, σ = n, Xn = x, X ◦ τ n ∈ A

{X∈B}

* PXσ [X ∈ A] .

Ist speziell x ∈ E und σx = inf{n ∈ N0 : Xn = x}, so ist σx < ∞, weil X rekurrent und irreduzibel ist. Es folgt aus (20.4) für jedes x ∈ E Pπ [X ∈ A] = Eπ [Px [X ∈ A]] = Px [X ∈ A]. Also ist PXn [X ∈ A] = Pπ [X ∈ A] fast sicher und daher (mit σ = n in (20.4))

422

20 Ergodentheorie

Pπ [X ∈ A X0 , . . . , Xn ] = PXn [X ∈ A] = Pπ [X ∈ A].

Nun ist A ∈ I ⊂ σ(X1 , X2 , . . .), also n→∞ Pπ [X ∈ A X0 , . . . , Xn ] −→ Pπ [X ∈ Aσ(X0 , X1 , . . .)] =

{X∈A} .

Damit folgt Pπ [X ∈ A] ∈ {0, 1}. Mithin ist X ergodisch.

Der Birkhoff’sche Ergodensatz liefert also für jedes x ∈ E n−1 1 n k=0

n→∞ {Xk =x}

−→ π({x}) Pπ − f.s.

In diesem Sinne ist π({x}) die mittlere Aufenthaltsdauer von X in x.

3

Beispiel 20.18. Es seien P und Q W-Maße auf dem Messraum (Ω, A), und es seien (Ω, A, P, τ ) und (Ω, A, Q, τ ) ergodisch. dann ist 0 P = Q0oder P ⊥ Q. Ist nämlich P = Q, dann existiert f mit |f | ≤ 1 und f dP = f dQ. Nach dem Birkhoff’schen Ergodensatz gilt aber ⎧ ⎪ n−1 ⎨ f dP P –f.s., 1 k n→∞ f ◦ τ −→ ⎪ n ⎩ f dQ Q–f.s. k=0 Setzen wir A := Also ist P ⊥ Q.

1 n−1 n

k=0

n→∞

f ◦ τ k −→

0

f dP , so ist P (A) = 1 und Q(A) = 0. 3

¨ Ubung 20.3.1. Sei (Ω, A) ein Messraum und τ : Ω → Ω eine messbare Abbildung. (i) Man zeige, dass die Menge M := {μ ∈ M1 (Ω) : μ ◦ τ −1 = μ} der unter τ invarianten Maße eine konvexe Menge ist. (ii) Ein Element μ aus M heißt extremal, wenn aus μ = λμ1 + (1 − λ)μ2 für gewisse μ1 , μ2 ∈ M und λ ∈ (0, 1) schon μ = μ1 = μ2 folgt. Man zeige, dass μ ∈ M genau dann extremal ist, wenn τ bezüglich μ ergodisch ist. ♣ ¨ Ubung 20.3.2. Sei p = 2, 3, 5, 6, 7, 10, . . . quadratfrei (das heißt, es gibt keine Zahl r = 2, 3, 4, . . ., deren Quadrat ein Teiler von p ist) und q ∈ {2, 3, . . . , p − 1}. Für jedes n ∈ N sei an die führende Ziffer der p-adischen Entwicklung von q n .

Man zeige die folgende Variante des Benford’schen Gesetzes: Für jedes d ∈ {1, . . . , p − 1} gilt

n→∞ log(d + 1) − log(d) 1 # i ≤ n : ai = d −→ . n log(p)

♣

20.4 Anwendung: Rekurrenz von Irrfahrten

423

20.4 Anwendung: Rekurrenz von Irrfahrten Sei (Xn )n∈N ein stationärer Prozess mit Werten in Rd . Setze Sn := jedes n ∈ N0 . Ferner sei Rn = {S1 , . . . , Sn }

n

k=1

Xk für

die Anzahl der von S bis zur Zeit n besuchten Punkte (der so genannte Range). Außerdem sei A := {Sn = 0 für jedes n ∈ N} das Fluchtereignis“. ”

Satz 20.19. Es gilt lim

n→∞

1 Rn = P[A|I] fast sicher. n

Beweis.

d N Wirdnehmen an, dass X der kanonische Prozess ist auf (Ω, A, P) = (R ) , B(R )⊗N , P , und dass τ : Ω → Ω der Shift ist, also Xn = X0 ◦ τ n .

Offenbar ist

Sk für jedes l ∈ {k + 1, . . . , n} Rn = # k ≤ n : Sl =

≥ # k ≤ n : Sl = Sk für jedes l > k =

n

A

k=1

◦ τ k.

Der Birkhoff’sche Ergodensatz liefert nun lim inf n→∞

1 Rn ≥ P[A|I] f.s. n

(20.5)

Für die andere Ungleichung betrachte Am = {Sl = 0 für jedes l = 1, . . . , m}. Dann ist für n ≥ m

Rn ≤ m + # k ≤ n − m : Sl = Sk für jedes l ∈ {k + 1, . . . , n}

≤ m + # k ≤ n − m : Sl = Sk für jedes l ∈ {k + 1, . . . , k + m} =m+

n−m k=1

Am

◦ τ k.

Der Ergodensatz liefert wieder lim sup n→∞

1 Rn ≤ P[Am I] f.s. n

(20.6)

n→∞ Wegen Am ↓ A und P[Am I] −→ P[A|I] fast sicher (nach Satz 8.14(viii)) folgt aus (20.5) und (20.6) die Aussage. 2

424

20 Ergodentheorie

Satz 20.20. Sei X = (Xn )n∈N ein stationärer Prozess mit Werten in Z und E[|X1 |] < ∞ sowie E[X1 I] = 0 f.s. Sei Sn = X1 + . . . + Xn , n ∈ N. Dann gilt * ) P Sn = 0 für unendlich viele n ∈ N = 1.

Speziell ist jede Irrfahrt auf Z mit zentrierten Zuwächsen rekurrent (Satz von Chung-Fuchs [28]).

Beweis. Setze A = {Sn = 0 für jedes n ∈ N}.

1. Schritt Wir zeigen P[A] = 0. (Ist X u.i.v., so ist S eine Markovkette, und es folgt hieraus direkt die Rekurrenz von 0. Nur für den allgemeinen Fall stationärer Prozesse X brauchen wir einen weiteren Schritt.) Nach dem Ergodensatz n→∞ gilt n1 Sn −→ E[X1 I] = 0 f.s. Es folgt für jedes m ∈ N 1 1 lim sup max Sk = lim sup max Sk n k=1,...,n n k=m,...,n n→∞ n→∞ ≤ max k≥m

Also ist

Nun ist Rn

|Sk | m→∞ −→ 0. k

1 1 lim max Sk = lim min Sk = 0. n→∞ n k=1,...,n n→∞ n k=1,...,n n→∞ ≤ 1+ max Sk − min Sk , also n1 Rn −→ 0. Nach

k=1,...,n

k=1,...,n

Satz 20.19 ist dann P[A] = 0

Setze σn := inf{m ∈ N : Sm+n = Sn } und Bn := {σn < ∞} für ∞ n ∈ N0 und B := Bn .

2. Schritt

n=0

Wegen {σ0 = ∞} = A ist P[σ0 < ∞] = 1. Stationarität impliziert P[σn < ∞] = 1 für jedes n ∈ N0 , also P[B] = 1.

Setze τ0 = 0 und iterativ τn+1 = τn + στn für n ∈ N0 . Dann ist τn der Zeitpunkt der n-ten Rückkehr von S nach 0. Auf B ist τn < ∞ für jedes n ∈ N0 , also ) * ) * P Sn = 0 unendlich oft = P τn < ∞ für alle n ∈ N ≥ P[B] = 1. 2

Wenn in Satz 20.20 die Zufallsvariablen Xn nicht ganzzahlig sind, kann man nicht hoffen, dass Sn = 0 für irgendein n ∈ N mit positiver Wahrscheinlichkeit gilt. Ann→∞ dererseits gilt auch hier eine Art Rekurrenzeigenschaft, nämlich Sn /n −→ 0 fast sicher nach dem Ergodensatz. Damit ist allerdings noch nicht ausgeschlossen, dass n→∞ vielleicht Sn −→ ∞ mit positiver Wahrscheinlichkeit gelten könnte, etwa, wenn

20.4 Anwendung: Rekurrenz von Irrfahrten

425

√ Sn von der Größenordnung n wächst. Der nächste Satz zeigt uns, dass der Partialsummenprozess nur linear schnell nach ∞ gehen kann, wenn die Xn integrierbar sind. Satz 20.21. Sei (Xn )n∈N ein reeller ergodischer Prozess und jedes Xn integrierbar. Sei Sn = X1 + . . . + Xn für n ∈ N0 . Dann sind die folgenden Aussagen a¨ quivalent. n→∞

(i) Sn −→ ∞ fast sicher. ( ' n→∞ (ii) P Sn −→ ∞ > 0. (iii) lim

n→∞

Sn = E[X1 ] > 0 fast sicher. n

Sind die Zufallsvariablen X1 , X2 , . . . u.i.v. mit E[X1 ] = 0 und P[X1 = 0] < 1, so gilt lim inf n→∞ Sn = −∞ und lim supn→∞ Sn = ∞ fast sicher. n→∞

Beweis. (i) ⇐⇒ (ii)“ Offenbar ist {Sn −→ ∞} ein invariantes Ereignis, hat ” also Wahrscheinlichkeit 0 oder 1. (iii) =⇒ (i)“ Dies ist trivial. ” (i) =⇒ (iii)“ Die Gleichheit folgt aus dem individuellen Ergodensatz. Es reicht ” also zu zeigen, dass lim inf n→∞ Sn /n > 0 fast sicher gilt. Für n ∈ N0 und ε > 0 sei

Aεn := Sm > Sn + ε für alle m ≥ n + 1 .

Sei S − := inf{Sn : n ∈ N0 }. Nach Voraussetzung (i) ist S − > −∞ fast sicher und τ := sup{n ∈ N0 : Sn = S − } fast sicher endlich. Es gibt also ein N ∈ N mit P[τ < N ] ≥ 21 . Es folgt P

, 1 A0n = P[τ < N ] ≥ . 2 n=0

+ N −1

) ε* 1 Wegen Aεn ↑ A0n für ε ↓ 0 gibt es ein ε > 0 mit p := P A0 ≥ 4N > 0.

Da (Xn )n∈N ergodisch ist, ist auch Aεn n∈N ergodisch. Nach dem individuellen 0 n−1 n→∞ Ergodensatz gilt daher n1 i=0 Aεn −→ p fast sicher. Also existiert ein n0 = n−1 ur alle n ≥ n0 . Es folgt Sn ≥ pnε ur n ≥ n0 , also n0 (ω) mit i=0 Aεn ≥ pn 2 f¨ 2 f¨ pnε lim inf n→∞ Sn /n ≥ 2 > 0.

Der Zusatz folgt, weil lim inf Sn und lim sup Sn keinen endlichen Wert annehmen können und damit terminal messbar sind, also fast sicher konstant gleich −∞ oder n→∞ +∞. Nach dem schon Gezeigten ist aber Sn −→ ∞ ausgeschlossen, also gilt 2 lim inf n→∞ Sn = −∞. Analog folgt lim supn→∞ Sn = ∞. Bemerkung 20.22. Satz 20.21 gilt auch ohne die Integrierbarkeitsbedingung für die 3 Xn . Siehe [92].

426

20 Ergodentheorie

20.5 Mischung Ergodizität stellt einen relativ schwachen Begriff für Unabhängigkeit“ oder Durch” ” mischung“ dar. Auf dem anderen Ende der Skala steht als stärkster Begriff u.i.v.“. ” Hier wollen wir dazwischen liegende Mischungsbegriffe betrachten. Sei im Folgenden stets (Ω, A, P, τ ) ein maßerhaltendes dynamisches System und Xn := X0 ◦ τ n . Wir beginnen mit einer einfachen Betrachtung. Satz 20.23. (Ω, A, P, τ ) ist genau dann ergodisch, wenn für alle A, B ∈ A gilt lim

n→∞

Beweis.

”

=⇒ “

n−1 * 1 ) P A ∩ τ −k (B) = P[A] P[B]. n

(20.7)

k=0

Sei (Ω, A, P, τ ) ergodisch. Setze Yn :=

n−1 1 n

τ −k (B)

k=0

=

n−1 1 n

B

k=0

◦ τ k.

n→∞

Nach dem Birkhoff’schen Ergodensatz gilt Yn −→ P[B] fast sicher. Also gilt n→∞ Yn A −→ A P[B] fast sicher. Majorisierte Konvergenz liefert n−1 * 1 ) P A ∩ τ −k (B) = E [Yn n k=0

A]

n→∞

−→ E [

A

P[B]] = P[A] P[B].

⇐= “ Gelte nun (20.7). Sei A ∈ I (invariante σ-Algebra) und B = A. Offenbar ” ist A ∩ τ −k (A) = A für jedes k ∈ N0 . Also ist nach (20.7) P[A] =

n−1 * n→∞ 1 ) P A ∩ τ −k (A) −→ P[A]2 . n k=0

Mithin ist P[A] ∈ {0, 1}, also I trivial und damit τ ergodisch.

2

Wir betrachten jetzt folgende Verschärfung von (20.7). Definition 20.24. Ein maßerhaltendes dynamisches System (Ω, A, P, τ ) heißt mischend, falls ) * (20.8) lim P A ∩ τ −n (B) = P[A] P[B] für alle A, B ∈ A. n→∞

Bemerkung 20.25. Gelegentlich wird die Mischungseigenschaft (20.8) auch als stark mischend bezeichnet. Im Gegensatz dazu heißt (Ω, A, P, τ ) schwach mischend, falls

20.5 Mischung n−1 * 1 ) P A ∩ τ −n (B) − P[A] P[B] = 0 n→∞ n i=0

für alle A, B ∈ A.

lim

427

3

¨ Stark mischend“ impliziert schwach mischend“ (siehe Ubung 20.5.1). Anderer” ” seits gibt es schwach mischende Systeme, die nicht stark mischend sind (siehe [82]). Beispiel 20.26. Sei I = N0 oder I = Z und (Xn )n∈I eine u.i.v. Folge mit Werten im Messraum (E, E), also τ der Shift auf dem Produktraum Ω = E I , P = ⊗I (PX0 ) . Seien A, B ∈ E ⊗I . Zu jedem ε > 0 gibt es Ereignisse Aε und B ε , die nur von endlich vielen Koordinaten abhängen und mit P[A△Aε ] < ε und P[B△B ε ] < ε. Offenbar gilt dann auch P[τ −n (A△Aε )] < ε und P[τ −n (B △B ε )] < ε für jedes n ∈ Z. Für hinreichend großes |n| hängen Aε und τ −n (B ε ) von unterschiedlichen Koordinaten ab, sind also unabhängig. Es folgt lim sup P[A ∩ τ −n (B)] − P[A] P[B] |n|→∞

≤ lim sup P[Aε ∩ τ −n (B ε )] − P[Aε ] P[B ε ] + 4ε = 4ε. |n|→∞

Also ist τ mischend. Ist speziell A = B ∈ I, so erhalten wir das 0-1 Gesetz für invariante Ereignisse: P[A] ∈ {0, 1}. 3 Bemerkung 20.27. Offenbar folgt (20.7) aus (20.8), also impliziert mischend“ ” schon ergodisch“. Die umgekehrte Implikation gilt nicht. 3 ” Beispiel 20.28. Sei Ω = [0, 1), A = B([0, 1)) und P = λ das Lebesgue-Maß auf ([0, 1), B([0, 1))), sowie für r ∈ [0, 1) τr (x) = x + r − ⌊x + r⌋ = x + r

(mod 1).

Ist r irrational, so ist τr ergodisch (Beispiel 20.9). Jedoch ist τr nicht mischend: Da r irrational ist, existiert eine Folge kn ↑ ∞, sodass 1 3 τrkn (0) ∈ , für n ∈ N. 4 4 * ) Für A = 0, 14 gilt dann A ∩ τr−kn (A) = ∅. Also ist

) * 1 = P[A]2 . lim inf P A ∩ τr−n (A) = 0 = n→∞ 16

3

Satz 20.29. Sei X eine irreduzible, positiv rekurrente Markovkette auf dem abzählbaren Raum E mit invarianter Verteilung π, sowie Pπ = x∈E π(x) Px . Dann gelten (i) X ist ergodisch (auf (Ω, A, Pπ )).

(ii) X ist genau dann mischend, wenn X aperiodisch ist.

428

20 Ergodentheorie

Beweis. (i) Dies haben wir schon in Beispiel 20.17 gezeigt. (ii) Da X irreduzibel ist, ist π({x}) > 0 für jedes x ∈ E nach Satz 17.51. =⇒ “ Sei X periodisch mit Periode d ≥ 2. Ist n ∈ N kein Vielfaches von d, so ” n ist p (x, x) = 0. Mithin gilt für A = B = {X0 = x} lim inf Pπ [X0 = x, Xn = x] = lim inf π({x}) pn (x, x) n→∞

n→∞

= 0 = π({x})2 = Pπ [X0 = x]2 . Also ist X nicht mischend. ⇐= “ Sei X aperiodisch. Zur Vereinfachung der Notation können wir anneh” men, dass X der kanonische Prozess auf E N0 ist. Seien A, B ⊂ Ω = E N0 messbar. Zu jedem ε > 0 existiert ein N ∈ N und A˜ε ∈ E {0,...,N } , sodass, mit Aε = A˜ε × E {N +1,N +2,...} gilt, dass P[A △ Aε ] < ε. Nach der Markoveigenschaft ist für n ≥ N ' ( ) * Pπ Aε ∩ τ −n (B) = Pπ (X0 , . . . , XN ) ∈ A˜ε , (Xn , Xn+1 , . . .) ∈ B =

Eπ

x,y∈E

=

x,y∈E

Eπ

)

)

Aε

{XN =x}

Aε

{XN =x}

{Xn =y}

*

(Xn , Xn+1 , . . .) ∈ B

*

pn−N (x, y)Py [B] .

n→∞

Nach Satz 18.18 gilt pn−N (x, y) −→ π({y}) für alle x, y ∈ E. (Für periodisches X ist dies falsch.) Majorisierte Konvergenz ergibt daher ) * ) * Eπ Aε {XN =x} π({y})Py [B] lim Pπ Aε ∩ τ −n (B) = n→∞

x,y∈E

= Pπ [Aε ] Pπ [B]. Wegen Pπ [Aε ∩ τ −n (B)] − P [A ∩ τ −n (B)] < ε folgt die Aussage mit ε → 0. 2 ¨ Ubung 20.5.1. Man zeige: stark mischend“ impliziert schwach mischend“ und ” ” dies impliziert wiederum ergodisch“. Man gebe ein Beispiel an für ein maßerhal” tendes dynamisches System, das ergodisch aber nicht schwach mischend ist. ♣

21 Die Brown’sche Bewegung

In Beispiel 14.45 hatten wir einen (kanonischen) Prozess (Xt )t∈[0,∞) hergestellt mit unabhängigen, stationären, normalverteilten Zuwächsen. Ein solcher Prozess kann beispielsweise als Modell eines Flimmerteilchens in einer Suspension dienen oder als Grundlage für Aktienkursmodelle. Jetzt sind wir nicht nur an den Eigenschaften von X zu einem oder mehreren festen Zeitpunkten interessiert, sondern auch an Eigenschaften, die den ganzen Pfad t → Xt betreffen, beispielsweise am Funktional F (X) := supt∈[0,1] Xt . Ist aber F u¨ berhaupt eine Zufallsvariable? Wir werden in diesem Kapitel Stetigkeitseigenschaften von Pfaden stochastischer Prozesse untersuchen, die die Messbarkeit von interessanten Funktionalen sichern. Danach konstruieren wir eine Version von X, die stetige Pfade hat, die so genannte ¨ Brown’sche Bewegung. Ohne Ubertreibung kann man sagen, dass dies das zentrale Objekt der Wahrscheinlichkeitstheorie ist.

21.1 Stetige Modifikationen Die Pfade eines kanonischen Prozesses sind natürlich nicht per se stetig, da ja jede Abbildung als Pfad auftaucht. Es wird also wichtig sein zu entscheiden, welche Pfade zumindest P-fast sicher keine Rolle spielen. Definition 21.1 (Modifikation / ununterscheidbare Prozesse). Seien X und Y stochastische Prozesse auf (Ω, A, P) mit Zeitbereich I und Zustandsraum E. (i) X und Y heißen Modifikationen oder Versionen voneinander, falls für jedes t ∈ I gilt P-fast sicher. Xt = Yt (ii) X und Y heißen ununterscheidbar, falls es ein N ∈ A gibt mit P[N ] = 0 und {Xt = Yt } ⊂ N

für jedes t ∈ I.

Offenbar ist ununterscheidbar“ stärker als Modifikation“. Unter gewissen Stetig” ” keitsannahmen an die Prozesse fallen die Begriffe allerdings zusammen.

430


Definition 21.2. Seien (E, d) und (E ′ , d′ ) metrische Räume und γ ∈ (0, 1]. Eine Abbildung ϕ : E → E ′ heißt im Punkte r ∈ E Hölder-stetig der Ordnung γ (kurz: Hölder-γ-stetig), falls es ein ε > 0 und ein C < ∞ gibt, sodass für jedes s ∈ E mit d(s, r) < ε gilt (21.1) d′ (ϕ(r), ϕ(s)) ≤ C d(r, s)γ . ϕ heißt lokal Hölder-stetig der Ordnung γ, wenn es zu jedem t ∈ E ein ε > 0 und ein C = C(t, ε) > 0 gibt, sodass für alle s, r ∈ E mit d(s, t) < ε und d(r, t) < ε die Ungleichung (21.1) gilt. Schließlich heißt ϕ Hölder-stetig der Ordnung γ, falls es ein C gibt, sodass (21.1) für alle s, r ∈ E gilt. Im Falle γ = 1 ist die Hölder-Stetigkeit natürlich gerade die Lipschitz-Stetigkeit (siehe Definition 13.8). Zudem ist für E = R und γ > 1 jede lokal Hölder-γ-stetige Funktion konstant. Offenbar ist eine lokal Hölder-γ-stetige Abbildung in jedem Punkte Hölder-γ-stetig. Andererseits braucht für eine in einem Punkte t Hölderγ-stetige Abbildung ϕ keine Umgebung von t zu existieren, in der ϕ stetig oder gar Hölder-γ-stetig wäre. Wir sammeln ein paar einfache Eigenschaften der Hölder-Stetigkeit. Lemma 21.3. Seien I ⊂ R und f : I → R lokal Hölder-stetig von der Ordnung γ ∈ (0, 1]. Dann gelten: (i) f ist lokal Hölder-stetig von der Ordnung γ ′ für jedes γ ′ ∈ (0, γ).

(ii) Ist I kompakt, dann ist f auch Hölder-stetig.

(iii) Ist I ein beschränktes Intervall mit Länge T > 0, und gilt für ein ε > 0 und ein C(ε) < ∞, sowie für alle s, t ∈ I mit |t − s| ≤ ε |f (t) − f (s)| ≤ C(ε) |t − s|γ , 1−γ

so ist f Hölder-stetig der Ordnung γ mit Konstante C := C(ε) ⌈T /ε⌉

.

′

Beweis. (i) Klar, weil |t − s|γ ≤ |t − s|γ für alle s, t ∈ I mit |t − s| ≤ 1. (ii) Für t ∈ I und ε > 0 sei Uε (t) := {s ∈ I : |s − t| < ε}. Für jedes t ∈ I seien ε(t) > 0 und C(t) < ∞ so gewählt, dass |f (r) − f (s)| ≤ C(t) · |r − s|γ

für alle r, s ∈ Ut := Uε(t) (t).

¨ Zu der offenen Uberdeckung U := {Ut , t ∈ I} von I gibt es eine endliche Teilüberdeckung U′ = {Ut1 , . . . , Utn }. Sei ̺ > 0 eine Lebesgue’sche Zahl der ¨ Uberdeckung U′ , das heißt, ̺ > 0 ist so gewählt, dass für jedes t ∈ I ein U ∈ U existiert mit U̺ (t) ⊂ U . Setze

C := max C(t1 ), . . . , C(tn ), 2f ∞ ̺γ .

21.1 Stetige Modifikationen

431

Für s, t ∈ I mit |t − s| < ̺ gibt es ein i ∈ {1, . . . , n} mit s, t ∈ Uti . Nach Voraussetzung ist |f (t) − f (s)| ≤ C(ti ) |t − s|γ ≤ C |t − s|γ . Seien nun s, t ∈ I mit |s − t| ≥ ̺. Dann ist γ |t − s| |f (t) − f (s)| ≤ 2f ∞ ≤ C |t − s|γ . ̺ Also ist f Hölder-stetig von der Ordnung γ mit Konstante C. I J (iii) Sei n = Tε . Für s, t ∈ I gilt nach Voraussetzung |t−s| n ≤ ε und daher |f (t) − f (s)| ≤

n f s + (t − s) k − f s + (t − s) k − 1 n n

k=1

≤ C(ε) n1−γ |t − s|γ = C |t − s|γ .

2

Definition 21.4 (Pfadeigenschaften). Sei I ⊂ R und X = (Xt , t ∈ I) ein reellwertiger stochastischer Prozess auf einem W-Raum (Ω, A, P) mit Werten in einem metrischen Raum (E, d) sowie γ ∈ (0, 1]. Für jedes ω ∈ Ω nennen wir die Abbildung I → E, t → Xt (ω) einen Pfad von X. Wir sagen, dass X fast sicher stetige Pfade hat, oder kurz, dass X f.s. stetig ist, falls für fast jedes ω ∈ Ω der Pfad t → Xt (ω) stetig ist. Analog definieren wir lokal Hölder-γ-stetige Pfade und so weiter.

Lemma 21.5. Seien X und Y Modifikationen voneinander. Es gelte eine der Bedingungen (i) I ist abzählbar. (ii) I ⊂ R ist ein Intervall und X und Y sind fast sicher rechtsstetig. Dann sind X und Y ununterscheidbar. ¯ = Nt . Nach Voraussetzung Beweis. Setze Nt := {Xt = Yt } für t ∈ I und N t∈I ¯ ⊂N gilt P[Nt ] = 0 für jedes t ∈ I. Zu zeigen ist jeweils: Es existiert N ∈ A mit N und P[N ] = 0. ¯ messbar und P[N ] ≤ P[Nt ] = 0. (i) Ist I abzählbar, so ist N := N t∈I

(ii) Sei nun I ⊂ R ein Intervall, und seien X und Y fast sicher rechtsstetig. Setze ¯ := {X und Y sind rechtsstetig} R

¯ und P[R] = 1. Setze und wähle R ∈ A mit R ⊂ R 1 Q ∩ I, falls I rechtsseitig offen ist, I := (Q ∩ I) ∪ max I, falls I rechtsseitig abgeschlossen ist,

432


:= Nr . Nach (i) gilt P[N ] = 0. Weiter gilt für jedes t ∈ I und N r∈I Nt ∩ R ⊂

Also gilt ¯ ⊂ Rc ∪ N

. (Nr ∩ R) ⊂ N

r≥t, r∈I

t∈I

=: N, Nt ⊂ R c ∪ N

] = 0. und damit P[N ] ≤ P[Rc ] + P[N

2

Wir kommen zum Hauptsatz dieses Abschnitts. Satz 21.6 (Kolmogorov-Chentsov). Sei X = (Xt , t ∈ [0, ∞)) ein reellwertiger Prozess. Für jedes T > 0 gebe es Zahlen α, β, C > 0 mit E [|Xt − Xs |α ] ≤ C|t − s|1+β

für alle s, t ∈ [0, T ].

(21.2)

Dann gelten: = (X t , t ∈ [0, ∞)) von X, die lokal Hölder(i) Es existiert eine Modifikation X β stetige Pfade hat von jeder Ordnung γ ∈ 0, α . β . Zu jedem ε > 0 und T < ∞ existiert eine Zahl K < ∞, die (ii) Sei γ ∈ 0, α nur von ε, T, α, β, C, γ abhängt, mit ' ( ˜ t (ω) − X ˜ s (ω)| ≤ K |t − s|γ , s, t ∈ [0, T ] ≥ 1 − ε. (21.3) P |X Beweis. Es reicht, für jedes T > 0 zu zeigen, dass X eine auf [0, T ] stetige Modifikation X T besitzt. Für S, T > 0 sind dann nach Lemma 21.5 die Prozesse X S und X T ununterscheidbar auf [0, S ∧ T ], also ist ΩS,T := es gibt ein t ∈ [0, S ∧ T ] mit XtT = XtS eine Nullmenge, und damit ist auch Ω∞ :=

ΩS,T eine Nullmenge. Mithin ist

S,T ∈N

˜ t (ω) := Xtt (ω) für ω ∈ Ω \ Ω∞ , und X ˜ ist eine stetige Modifikation von X. X

Ohne Beschränkung der Allgemeinheit sei T = 1. Wir zeigen, dass X eine auf [0, 1] stetige Modifikation besitzt. Die Chebyshev’sche Ungleichung liefert für ε > 0 P [|Xt − Xs | ≥ ε] ≤ Cε−α |t − s|1+β also

(21.4)

21.1 Stetige Modifikationen s→t

stochastisch.

Xs −→ Xt

433

(21.5)

auf den binär rationalen Zahlen zu konstruieren und dann Die Idee ist, zunächst X stetig auf [0, 1] fortzusetzen. Dafür wird (21.5) gebraucht. Speziell ist für γ > 0 sowie n ∈ N und k ∈ {1, . . . , 2n } * ) P Xk2−n − X(k−1)2−n ≥ 2−γn ≤ C 2−n(1+β−αγ) . Wir setzen

An = An (γ) := sowie

Bn :=

max |Xk2−n − X(k−1)2−n |, k ∈ {1, . . . , 2n } ≥ 2−γn , ∞

und

Am ,

N := lim sup An = n→∞

m=n

Es folgt dann für jedes n ∈ N n

P[An ] ≤

2

k=1

∞

Bn .

n=1

) * P |Xk2−n − X(k−1)2−n | ≥ 2−γn ≤ C 2−n(β−αγ) .

Wir wählen jetzt ein γ ∈ (0, β/α) und erhalten P[Bn ] ≤

∞

m=n

P[Am ] ≤ C

2−(β−αγ)n 1 − 2αγ−β

n→∞

also P[N ] = 0. Sei nun ω ∈ Ω \ N fest und n0 = n0 (ω) so, dass ω ∈ Also gilt Xk2−n (ω) − X(k−1)2−n (ω) < 2−γn

(21.6)

−→ 0,

∞

An .

n=n0

für k ∈ {1, . . . , 2n }, n ≥ n0 .

(21.7)

−m Wir definieren die Mengen endlicher dyadischer Zahlen Dm = {k2 , k = m 0, . . . , 2 } und D = Dm . Jedes t ∈ Dm besitzt eine eindeutige Binärdarm∈N

stellung

t=

m

bi (t) 2−i

i=1

für gewisse bi (t) ∈ {0, 1}, i = 1, . . . , m.

Seien m ≥ n ≥ n0 sowie s, t ∈ Dm , s ≤ t mit |s−t| ≤ 2−n . Dann ist bi (t−s) = 0 für i < n, also m bi (t − s) 2−i . t−s= i=n

Sei rl = s +

l

i=n bi (t

− s) 2−i , l = n − 1, . . . , m. Dann gelten

434


rn−1 = s,

und

rm = t

rl+1 − rl ≤ 2−(l+1) für l = n − 1, . . . , m.

Also ist nach (21.7) |Xt (ω) − Xs (ω)| ≤

m−1

l=n−1

X r

m (ω) − Xrl (ω) ≤ 2−γl ≤ l+1 l=n

2−γn . (21.8) 1 − 2−γ

Setze nun C0 = 2γ (1 − 2−γ )−1 < ∞. Seien s, t ∈ D mit |s − t| ≤ 2−n0 . Indem wir n ≥ n0 minimal wählen mit |t − s| ≥ 2−n , erhalten wir aus (21.8) γ

|Xt (ω) − Xs (ω)| ≤ C0 |t − s| .

(21.9)

Wie im Beweis von Lemma 21.3(iii) folgt hieraus, dass (mit K := C0 2(n+1)(1−γ) ) γ

|Xt (ω) − Xs (ω)| ≤ K |t − s|

für alle s, t ∈ D.

(21.10)

Mit anderen Worten: Auf den binärrationalen Zahlen D ist X(ω) (global) Hölderγ-stetig. Speziell ist X auf D gleichmäßig stetig, lässt sich also eindeutig stetig auf t := Xt . Für t ∈ [0, 1]\D und {sn , n ∈ N} ⊂ D [0, 1] fortsetzen: Für t ∈ D setze X mit sn −→ t ist (Xsn (ω))n∈N eine Cauchy-Folge. Also existiert der Limes t (ω) := lim Xs (ω), X D∋s→t

(21.11)

und es gilt dann die zu (21.10) analoge Aussage auch für beliebige s, t ∈ [0, 1] s (ω) ≤ K |t − s|γ für alle s, t ∈ [0, 1]. (21.12) Xt (ω) − X

Also Hölder-stetig von der Ordnung γ. Nach (21.5) und (21.11) gilt * ) ist X lokal eine Modifikation von X. t = 0 für jedes t ∈ [0, 1]. Also ist X P Xt = X Um (ii) zu zeigen, sei ε > 0, und sei n ∈ N so groß gewählt, dass (siehe (21.6)) P[Bn ] ≤ C

2−(β−αγ)n < ε. 1 − 2αγ−β

Für ω ∈ Bn gilt nach dem oben Gezeigten (21.10). Dies ist aber gerade (21.3) mit T = 1. Für allgemeine T folgt die Aussage durch lineare Transformationen. 2 Bemerkung 21.7. Die Aussage von Satz 21.6 gilt unverändert, wenn X Werte in einem polnischen Raum (E, ̺) annimmt, denn im Beweis wurde nirgends ausgenutzt, dass der Wertebereich R ist. Wenn wir jedoch den Zeitbereich verändern, müssen wir die Voraussetzungen verschärfen: Ist (Xt )t∈Rd ein Prozess mit Werten in E, und gilt für gewisse α, β > 0 sowie jedes T > 0 und gewisses C < ∞ E[̺(Xt , Xs )α ] ≤ C t − sd+β 2

für alle s, t ∈ [−T, T ]d ,

(21.13)

so existiert für jedes γ ∈ (0, β/α) eine lokal Hölder-γ-stetige Version von X.

3

21.1 Stetige Modifikationen

¨ Ubung 21.1.1. Man zeige die Aussage von Bemerkung 21.7.

435

♣

¨ Ubung 21.1.2. Sei X = (Xt )t≥0 ein reellwertiger Prozess mit stetigen Pfaden. Man 0b zeige, dass für alle 0 ≤ a < b die Abbildung ω → a Xt (ω) dt messbar ist. ♣

¨ Ubung 21.1.3. (Optional Sampling/ Stopping) Sei F eine Filtration und (Xt )t≥0 ein F-Supermartingal mit rechtsstetigen Pfaden. Seien σ und τ beschränkte Stoppzeiten. Setze σ n := 2−n ⌈2n σ⌉ und τ n := 2−n ⌈2n τ ⌉. n→∞

(i) Zeige, dass E[Xτ m |Fσn ] −→ E[Xτ m |Fσ ] fast sicher und in L1 sowie n→∞ Xσn −→ Xσ fast sicher und in L1 .

(ii) Folgere das Optional Sampling Theorem für rechtsstetige Supermartingale mit Hilfe der analogen Aussage für diskrete Zeit (Satz 10.11): Xσ ≥ E[Xτ |Fσ ].

(iii) Zeige: Ist Y adaptiert, integrierbar und rechtsstetig, so ist Y genau dann ein Martingal, wenn E[Yτ ] = E[Y0 ] für jede beschränkte Stoppzeit τ gilt. (iv) Zeige, dass Xσ ≥ E[Xτ |Fσ ] für endliche Stoppzeiten σ ≤ τ gilt, falls X gleichgradig integrierbar ist.

(v) Sei τ eine beliebige Stoppzeit. Man folgere das Optional Stopping Theorem für rechtsstetige Supermartingale: (Xτ ∧t )t≥0 ist ein rechtsstetiges Supermartingal. ♣ ¨ Ubung 21.1.4. Sei X = (Xt )t≥0 ein stochastischer Prozess auf (Ω, F, P) mit Werten im polnischen Raum E und rechtsstetigen Pfaden. Man zeige: (i) Die Abbildung (ω, t) → Xt (ω) ist messbar bezüglich F ⊗ B([0, ∞))–B(E).

(ii) Ist X zudem an die Filtration F adaptiert, so ist für jedes t ≥ 0 die Abbildung Ω × [0, t] → E, (ω, s) → Xs (ω) messbar bezüglich Ft ⊗ B([0, t])–B(E).

(iii) Ist τ eine F-Stoppzeit und X adaptiert, so ist Xτ eine Fτ -messbare Zufallsvariable. ♣

436


21.2 Konstruktion und Pfadeigenschaften Definition 21.8. Ein reellwertiger stochastischer Prozess B = (Bt , t ∈ [0, ∞)) heißt Brown’sche Bewegung, falls (i) B0 = 0, (ii) B hat unabhängige, stationäre Zuwächse (vergleiche Definition 9.7), (iii) Bt ∼ N0,t für t > 0,

(iv) P-fast sicher gilt: t → Bt ist stetig.

3

2.5

2

1.5

1

0.5

0

0.5

1

1.5

2

Abb. 21.1. Computersimulation einer Brown’schen Bewegung.

Satz 21.9. Es existiert ein W-Raum (Ω, A, P) und eine Brown’sche Bewegung B auf (Ω, A, P). Die Pfade von B sind f.s. lokal Hölder-γ-stetig für jedes γ < 12 . Beweis. Wie in Beispiel 14.45 oder Korollar 16.10 gibt es einen stochastischen D √ Prozess X, der (i), (ii) und (iii) erfüllt. Offenbar ist Xt −Xs = t − s X1 ∼ N0,t−s für alle t > s ≥ 0. Es gilt daher für jedes n ∈ N und Cn := E[Xn2n ] = (2n)! 2n n! < ∞ ' ( ' √ ( 2n 2n n E (Xt − Xs ) t − s X1 =E = Cn |t − s| .

Sei nun n ≥ 2 und γ ∈ (0, n−1 2n ). Satz 21.6 liefert die Existenz einer Version B von X mit Hölder-γ-stetigen Pfaden. Da alle stetigen Versionen eines Prozesses a¨ quivalent sind, ist B lokal Hölder-γ-stetig für jedes γ ∈ (0, n−1 2n ) und jedes n ≥ 2, 2 also für jedes γ ∈ (0, 21 ).

21.2 Konstruktion und Pfadeigenschaften

437

Erinnerung: Ein stochastischer Prozess (Xt )t∈I heißt Gauß’scher Prozess, falls für jedes n ∈ N und alle t1 , . . . , tn ∈ I gilt (Xt1 , . . . , Xtn )

ist n–dimensional normalverteilt.

Wir nennen X zentriert, falls E[Xt ] = 0 für jedes t ∈ I. Die Funktion Γ (s, t) := Cov[Xs , Xt ]

für s, t ∈ I,

heißt Kovarianzfunktion von X. Bemerkung 21.10. Durch die Kovarianzfunktion sind die endlichdimensionalen Verteilungen eines zentrierten, Gauß’schen Prozesses eindeutig festgelegt, denn eine mehrdimensionale Normalverteilung ist durch den Erwartungswertvektor und Kovarianzmatrix vollständig beschrieben. 3 Satz 21.11. Für einen stochastischen Prozess X = (Xt )t∈[0,∞) sind a¨ quivalent: (i) X ist eine Brown’sche Bewegung. (ii) X ist ein stetiger, zentrierter, Gauß’scher Prozess mit Cov[Xs , Xt ] = s ∧ t für alle s, t ≥ 0. Beweis. Nach Bemerkung 21.10 ist X durch (ii) eindeutig bestimmt. Es reicht also zu zeigen, dass Cov[Xs , Xt ] = min(s, t) für die Brown’sche Bewegung X gilt. Dies ist aber richtig, denn für t > s sind Xs und Xt − Xs unabhängig, also ist Cov[Xs , Xt ] = Cov[Xs , Xt − Xs ] + Cov[Xs , Xs ] = Var[Xs ] = s.

2

Korollar 21.12 (Skalierungseigenschaft der Brown’schen Bewegung). Ist B eine Brown’sche Bewegung und K = 0, dann ist auch (KBK 2 t )t≥0 eine Brown’sche Bewegung. Beispiel 21.13. Ein weiteres Beispiel für einen stetigen, Gauß’schen Prozess ist die ¨ Brown’sche Brucke X, die die Kovarianzfunktion Γ (s, t) = s ∧ t − st hat. Wir konstruieren die Brown’sche Brücke wie folgt: Sei B = (Bt , t ∈ [0, 1]) eine Brown’sche Bewegung und Xt := Bt − tB1 . Offenbar ist X ein zentrierter, Gauß’scher Prozess mit stetigen Pfaden. Die Kovarianzfunktion Γ von X errechnet sich zu Γ (s, t) = Cov[Xs , Xt ] = Cov[Bs − sB1 , Bt − tB1 ]

= Cov[Bs , Bt ] − s Cov[B1 , Bt ] − t Cov[Bs , B1 ] + st Cov[B1 , B1 ] = min(s, t) − st − st + st = min(s, t) − st. 3

438


Satz 21.14. Sei (Bt )t≥0 eine Brown’sche Bewegung und tB1/t , falls t > 0, Xt = 0, falls t = 0. Dann ist X eine Brown’sche Bewegung. Beweis. Offenbar ist X ein Gauß’scher Prozess. Für s, t > 0 ist

Cov[Xs , Xt ] = ts · Cov[B1/s , B1/t ] = ts min s−1 , t−1 = min(s, t). Offenbar ist t → Xt stetig in allen t > 0. Für die Stetigkeit in t = 0 betrachte

1 Bt t

1 1 ≤ lim sup Bn + lim sup sup Bt − Bn , t ∈ [n, n + 1] . n→∞ n n→∞ n

lim sup Xt = lim sup t→∞

t↓0

Nach dem Starken Gesetz der großen Zahl ist limn→∞ n1 Bn = 0 f.s. Nach einer Verallgemeinerung des Spiegelungsprinzips (Satz 17.15, siehe auch Satz 21.19) ist für x > 0 (mit der Abkürzung B[a,b] := {Bt : t ∈ [a, b]}) ) * ) * P sup B[n,n+1] − Bn > x = P sup B[0,1] > x = 2 P[B1 > x] ∞ 2 2 2 1 e−u /2 du ≤ e−x /2 . =√ x 2π x Speziell ist

∞ ) * P sup B[n,n+1] − Bn > nε < ∞ für jedes ε > 0. Nach dem

n=1

Lemma von Borel-Cantelli (Satz 2.7) ist daher

1 lim sup sup Bt − Bn , t ∈ [n, n + 1] = 0 fast sicher. n→∞ n

Mithin ist X auch in 0 stetig.

2

Satz 21.15 (Blumenthal’sches 0-1 Gesetz). Sei B eine Brown’sche Bewegung und F = (Ft )t≥0 = σ(B) die erzeugte Filtration, sowie F0+ = t>0 Ft . Dann ist F0+ eine P-triviale σ-Algebra. Beweis. Setze Y n = (B2−n +t − B2−n )t∈[0,2−n ] , n ∈ N. Dann ist (Y n )n∈N eine unabhängige Familie von (mit Werten in C([0, 2−n ])). Die termi Zufallsvariablen m nale σ-Algebra T = n∈N σ(Y , m ≥ n) ist nach dem Kolmogorov’schen 0-1 Gesetz (Satz 2.37) P–trivial. Andererseits ist σ(Y m , m ≥ n) = F2−n+1 , also ist F0+ = Ft = F2−n+1 = T t>0

P–trivial.

n∈N

2

21.2 Konstruktion und Pfadeigenschaften

Beispiel 21.16. Sei B eine Brown’sche Bewegung. Für jedes K > 0 ist √

* ) P inf t > 0 : Bt ≥ K t = 0 = 1. √

Um dies einzusehen, setze As := inf{t > 0 : Bt ≥ K t } < s und √

A := inf t > 0 : Bt ≥ K t = 0 = As ∈ F0+ .

439

(21.14)

s>0

Dann ist P[A] ∈ {0, 1}. Wegen der Skalierungseigenschaft der Brown’schen Bewegung ist P[A] = inf P[As ] ≥ P[B1 ≥ K] > 0 und deshalb P[A] = 1. s>0

3

Das eben untersuchte Beispiel zeigt insbesondere für jedes t ≥ 0, dass B in t fast sicher nicht Hölder- 21 -stetig ist. Hier ist Vorsicht mit der Reihenfolge der Quantoren angebracht: Wir haben nicht gezeigt, dass B fast sicher in keinem t ≥ 0 Hölder1 are (siehe aber Bemerkung 22.4). Wir können allerdings ohne großen 2 -stetig w¨ Aufwand den folgenden Satz zeigen, der für den Fall γ = 1 auf Paley, Wiener und Zygmund [118] zurückgeht. Der hier vorgestellte Beweis beruht auf einer Idee von Dvoretzky, Erdös und Kakutani (siehe [39]). Satz 21.17 (Paley-Wiener-Zygmund (1933)). Für jedes γ > 12 sind die Pfade der Brown’schen Bewegung (Bt )t≥0 fast sicher in keinem Punkte Hölder-stetig der Ordnung γ. Insbesondere sind die Pfade fast sicher nirgends differenzierbar. Beweis. Sei γ > 12 . Es reicht, B = (Bt )t∈[0,1] zu betrachten. Wir bezeichnen mit Hγ,t die Menge der in t Hölder-γ-stetigen Abbildungen [0, 1] → R und setzen Hγ := t∈[0,1] Hγ,t . Das Ziel ist zu zeigen, dass fast sicher B ∈ Hγ gilt. Ist t ∈ [0, 1) und w ∈ Hγ,t , so existiert zu jedem δ > 0 ein c = c(δ, w) mit der Eigenschaft, dass |ws − wt | ≤ c |s − t|γ ist für jedes s ∈ [0, 1] mit |s − t| < δ. 2 Wählen wir k ∈ N mit k > 2γ−1 , so ist für n ∈ N mit n ≥ n0 := ⌈(k + 1)/δ⌉, i = ⌊tn⌋ + 1 und l ∈ {0, . . . , k − 1} speziell w(i+l+1)/n − w(i+l)/n ≤ w(i+l+1)/n − wt + w(i+l)/n − wt ≤ 2c (k + 1)γ n−γ . Für N ≥ 2c (k + 1)γ ist also w ∈ AN,n,i , wobei AN,n,i :=

k−1 l=0

n

w : w(i+l+1)/n − w(i+l)/n ≤ N n−γ .

∞ Setzen wir AN,n = i=1 AN,n,i , AN = n≥n0 AN,n und A = N =1 AN , so ist offenbar Hγ ⊂ A. Nun ist wegen der Unabhängigkeit der Zuwächse, und weil die Dichte der Standardnormalverteilung nirgends größer als 1 ist ) *k ) *k P[B ∈ AN,n,i ] = P |B1/n | ≤ N n−γ = P |B1 | ≤ N n−γ+1/2 ≤ N k nk(−γ+1/2) .

440


Nach Wahl von k und wegen der Stationarität der Zuwächse von B gilt * ) P B ∈ AN ≤ lim P n→∞

+

, n P[AN,n,i ] AN,m ≤ lim sup P[AN,n ] ≤ lim sup n→∞

m≥n

n→∞

k

i=1

1+k(−γ+1/2)

≤ lim sup n P[B ∈ AN,n,1 ] ≤ N lim sup n n→∞

=0

n→∞

und damit P[B ∈ A] = 0. Mithin ist fast sicher B ∈ Hγ .

2

¨ Ubung 21.2.1. Sei B eine Brown’sche Bewegung und λ das Lebesgue-Maß auf [0, ∞). 01 (i) Bestimme Erwartungswert und Varianz von 0 Bs ds. (Für die Messbarkeit des ¨ Integrals siehe Ubung 21.1.2.)

(ii) Zeige, dass λ {t : Bt = 0} = 0 fast sicher gilt.

(iii) Bestimme Erwartungswert und Varianz von

0

1

0

1

Bt −

1

Bs ds

0

2

♣

dt.

¨ Ubung 21.2.2. Sei B eine Brown’sche Bewegung. Zeige, dass auch (Bt2 − t)t≥0 ein Martingal ist. ♣ ¨ Ubung 21.2.3. Sei B eine Brown’sche Bewegung und σ > 0. Zeige, dass auch

2 exp σBt − σ2 t t≥0 ein Martingal ist. ♣

¨ Ubung 21.2.4. Sei B eine Brown’sche Bewegung und a < 0 < b sowie τa,b = inf{t ≥ 0 : Bt ∈ {a, b}}.

a Man zeige, dass τa,b < ∞ fast sicher gilt und P[Bτa,b = b] = − b−a . Man zeige ¨ ♣ ferner (mit Ubung 21.2.2), dass E[τa,b ] = −ab.

¨ Ubung 21.2.5. Sei B eine Brown’sche Bewegung und b > 0 sowie τb = inf{t ≥ 0 : Bt = b}. Man zeige: √

¨ (i) E[e−λτb ] = e−b 2λ für λ ≥ 0. (Hinweis: Verwende Ubung 21.2.3 und den Optional Sampling Satz.) (ii) τb hat eine 21 -stabile Verteilung mit Lévy-Maß

√ ν(dx) = b/( 2π) x−3/2

(iii) Die Verteilung von τb hat die Dichte fb (x) =

{x>0}

√b 2π

e−b

dx.

2

/(2x)

x−3/2 .

♣

21.3 Starke Markoveigenschaft

441

¨ Ubung 21.2.6. Sei B eine Brown’sche Bewegung, a ∈ R und b > 0 sowie τ = inf{t ≥ 0 : Bt = at + b}. Man zeige für λ ≥ 0 3 * ) E e−λτ = exp − ba − b a2 + λ2 und folgere P[τ < ∞] = 1 ∧ e−2ba .

♣

21.3 Starke Markoveigenschaft Wir bezeichnen mit Px das W-Maß, unter dem B = (Bt )t≥0 eine in x ∈ R gestartete Brown’sche Bewegung ist. Anders gesagt ist unter Px der um −x verschobene Prozess (Bt − x)t≥0 eine (in Null gestartete) Brown’sche Bewegung. Während die (elementare) Markoveigenschaft von (B, (Px )x∈R ) evident ist, brauchen wir für den Nachweis der starken Markoveigenschaft ein wenig Arbeit. Satz 21.18 (Starke Markoveigenschaft). Die Brown’sche Bewegung B mit Verteilungen (Px )x∈R hat die starke Markoveigenschaft. Beweis. Sei F = σ(B) die von B erzeugte Filtration und τ < ∞ eine F-Stoppzeit. Zu zeigen ist, dass für jedes beschränkte, messbare F : R[0,∞) → R gilt: ) * Ex F (Bt+τ )t≥0 Fτ = EBτ [F (B)]. (21.15)

Es reicht, stetige, beschränkte Funktionen F zu betrachten, die nur von endlich vielen Koordinaten t1 , . . . , tN abhängen, da diese die Verteilung von (Bt+τ )t≥0 eindeutig bestimmen. Sei also f : Rn → R stetig und beschränkt und F (B) = f (Bt1 , . . . , BtN ). Offenbar ist die Abbildung x → Ex [F (B)] = E0 [f (Bt1 + x, . . . , Btn + x)] stetig und beschränkt. Sei nun τ n := 2−n ⌊2n τ + 1⌋ für n ∈ N. n→∞ Dann ist τ n eine Stoppzeit und τ n ↓ τ , also Bτ n −→ Bτ fast sicher. Nun ist jeder Markovprozess mit abzählbarer Zeitmenge (hier: alle positiven rationalen Linearkombinationen von 1, t1 , . . . , tN ) ein starker Markovprozess (nach Satz 17.14), also gilt ) * ) * Ex F (Bτ n +t )t≥0 Fτ n = Ex f (Bτn +t1 , . . . , Bτ n +tN ) Fτ n ) * = EBτ n f (Bt1 , . . . , BtN ) (21.16) ) * n→∞ −→ EBτ f (Bt1 , . . . , BtN ) = EBτ [F (B)].

n→∞ Aufgrund der Rechtsstetigkeit von B gilt F (Bτ n + t)t≥0 −→ F (Bτ +t )t≥0 fast sicher und in L1 und damit ' ) * ) *( E Ex F (Bτ n +t )t≥0 Fτ n − Ex F (Bτ +t )t≥0 Fτ n (21.17) '

( n→∞ ≤ Ex F (Bτ n +t )t≥0 − F (Bτ +t )t≥0 −→ 0.

442


Weiter gilt Fτn ↓ Fτ + :=

σ>τ ist Stoppzeit

Fσ ⊃ Fτ .

Nach (21.16) und (21.17) sowie dem Konvergenzsatz für Rückwärtsmartingale (Satz 12.14) gilt also im Sinne von L1 -Limiten ) * EBτ [F (B)] = lim Ex F (Bτ n +t )t≥0 Fτ n n→∞ ) * ) * = lim Ex F (Bτ +t )t≥0 Fτ n = Ex F (Bτ +t )t≥0 Fτ + . n→∞

Die linke Seite ist Fτ -messbar. Die Turmeigenschaft der bedingten Erwartung liefert also (21.15). 2 Mit Hilfe der starken Markoveigenschaft zeigen wir das Reflexionsprinzip für die Brown’sche Bewegung. ¨ die Brown’sche Bewegung). Für jedes a > 0 Satz 21.19 (Reflexionsprinzip fur und T > 0 gilt √

* ) 2 T 1 −a2 /2T e . P sup Bt : t ∈ [0, T ] > a = 2 P[BT > a] ≤ √ 2π a Beweis. Wegen der Skalierungseigenschaft der Brown’schen Bewegung (Korollar 21.12) können wir ohne Einschränkung T = 1 annehmen. Sei τ := inf{t ≥ 0 : Bt ≥ a} ∧ 1. Aus Symmetriegründen ist Pa [B1−τ > a] = 21 , falls τ < 1, also P[B1 > a] = P[B1 > a τ < 1] P[τ < 1] 1 = Pa [B1−τ > a] P[τ < 1] = P[τ < 1]. 2 Für die Ungleichung berechnen wir ∞ 2 1 P[B1 > a] = √ e−x /2 dx 2π a 1 1 −a2 /2 1 1 ∞ −x2 /2 ≤√ xe dx = √ e . 2π a a 2π a

2

Eine Anwendung des Reflexionsprinzips ist das Arkussinus-Gesetzes von Paul Lévy [104, Seite 216] für den letzten Besuch der Brown’schen Bewegung in der Null. Satz 21.20 (Lévy’sches Arkussinus-Gesetz). Sei T > 0 und ζT := sup{t ≤ T : Bt = 0}. Dann gilt für t ∈ [0, T ] 3 ) * 2 P ζT ≤ t = arcsin t/T . π

21.3 Starke Markoveigenschaft

443

eine weitere, unBeweis. Ohne Einschränkung sei T = 1 und ζ = ζ1 . Sei B abhängige Brown’sche Bewegung. Nach dem Reflexionsprinzip gilt * ) P[ζ ≤ t] = P Bs = 0 für jedes s ∈ [t, 1] ∞ ) * P Bs = 0 für jedes s ∈ [t, 1] Bt = a P[Bt ∈ da] = −∞ ∞ ) * s > 0 für jedes s ∈ [0, 1 − t] P[Bt ∈ da] = P|a| B −∞ ∞ ) * ) * 1−t | ≤ |a| P[Bt ∈ da] = P |B 1−t | ≤ |Bt | . P0 |B = −∞

D √

√ 1−t = t X, 1 − t Y . Sind X, Y unabhängig und N0,1 -verteilt, so ist Bt , B Es folgt √ * )√ P[ζ ≤ t] = P 1 − t |Y | ≤ t |X| * ) = P Y 2 ≤ t(X 2 + Y 2 ) ∞ ∞ 2 2 1 dx dy e−(x +y )/2 {y2 ≤t(x2 +y2 )} . = 2π −∞ −∞

Durch Polarkoordinatentransformation erhalten wir ∞ 2π √ 2 1 2 P[ζ ≤ t] = r dre−r /2 dϕ {sin(ϕ)2 ≤t} = arcsin t . 2π 0 π 0

2

¨ Bewegung mit Ubung 21.3.1. (Schwierig!) Sei Px die Verteilung der Brown’schen

Start in x ∈ R. Sei a > 0 und τ = inf t ≥ 0 : Bt ∈ {0, a} . Man zeige mit Hilfe des Spiegelungsprinzips, dass für jedes x ∈ (0, a) gilt x

P [τ < T ] =

∞

(−1)n Px [BT ∈ [na, (n + 1)a]].

(21.18)

n=−∞

Ist f die Dichte einer Wahrscheinlichkeitsverteilung auf R mit charakteristischer Funktion ϕ und supx∈R x2 f (x) < ∞, so gilt die Poisson’sche Summationsformel (siehe etwa [23, Satz 2.2.2]) ∞

f (s + n) =

n=−∞

∞

k=−∞

ϕ(k) e2πis

für jedes s ∈ R.

(21.19)

Man folgere aus (21.18) und (21.19) (vergleiche auch (21.37)) Px [τ < T ] =

4 π

∞

k=0

1 2k+1

2 2 π T (2k+1)πx sin . exp − (2k+1) 2 2a a

(21.20) ♣

444


21.4 Ergänzung: Feller Prozesse In vielen Situationen kann man keine stetige Version eines Prozesses erwarten, etwa beim Poissonprozess, der ja gewissermaßen von seinen Sprüngen lebt. Oft kann jedoch eine Version mit rechtsstetigen Pfaden, die einen endlichen linksseitigen Grenzwert besitzen, etabliert werden. Wir wollen hier knapp den Existenzsatz für solche Prozesse für Feller’sche Halbgruppen plausibel machen. Definition 21.21. Sei E ein polnischer Raum. Eine Abbildung f : [0, ∞) → E heißt RCLL (right continuous with left limits) oder càdlàg (continue a` droit, limites a` gauche), falls f (t) = f (t+) := lims↓t f (s) für jedes t ≥ 0 und falls der linksseitige Grenzwert f (t−) := lims↑t f (s) für jedes t > 0 existiert und endlich ist. Bemerkung 21.22. Ist F eine beliebige Filtration und Ft+,∗ die Vervollständigung von Ft+ , so erfüllt F+,∗ die u¨ blichen Bedingungen. 3 Definition 21.23. Eine Filtration F = (Ft )t≥0 heißt rechtsstetig, falls F = F+ , + wo Ft = s>t Fs . Wir sagen, dass eine Filtration F die ublichen Bedingungen ¨ erfüllt, falls F rechtsstetig ist und F0 jede P-Nullmenge enthält. Satz 21.24 (Doob’sche Regularisierung). Sei F eine Filtration, die die u¨ blichen Bedingungen erfüllt, und X = (Xt )t≥0 ein F-Supermartingal mit der Eigenschaft, von X mit RCLL dass t → E[Xt ] rechtsstetig ist. Dann gibt es eine Modifikation X Pfaden. Beweis. Für a, b ∈ Q+ , a < b und I ⊂ [0, ∞) sei UIa,b die Anzahl der Aufkreuzungen von (Xt )t∈I u¨ ber [a, b]. Nach der Aufkreuzungsungleichung (Lemma 11.3) folgt für jedes N > 0 und jede endliche Menge I ⊂ [0, N ], dass a,b E[UIa,b ] ≤ (E[|XN |] + |a|)/(b − a). Setzen wir UN = UQa,b + ∩[0,N ] , so folgt a,b ¨ E[U ] ≤ (E[|XN |] + |a|)/(b − a). Für λ > 0 ist nach Ubung 11.1.1 N

) * λ P sup{|Xt | : t ∈ Q+ ∩ [0, N ]} > λ ) * = λ sup P sup{|Xt | : t ∈ I} > λ : I ⊂ Q+ ∩ [0, N ] endlich ≤ 12 E[|X0 |] + 9 E[|XN |].

Betrachte das Ereignis

a,b {UN < ∞} ∩ sup{|Xt | : t ∈ Q+ ∩ [0, N ]} < ∞ . A := N ∈N

a,b∈Q+ 0≤at

445

Xs (ω)

und ist RCLL. Für ω ∈ Ac setzen wir Xt (ω) = 0. Da F die u¨ blichen Bedingungen an F adaptiert. Da X ein Supermartingal ist, ist (Xs )s≤N für jedes N erfüllt, ist X gleichgradig integrierbar. Also gilt (nach Voraussetzung), dass t ] = E[X

lim

Q+ ∋s↓t, s>t

E[Xs ] = E[Xt ].

Da X ein Supermartingal ist, ist aber für s > t Xt ≥ E[Xs |Ft ]

Q+ ∋s↓t, s>t

−→

t |Ft ] = X t E[X

in L1 .

eine Modifikation von X. t fast sicher, also X 2 Folglich ist Xt = X 0 Korollar 21.25. Sei (νt )t≥0 eine stetige Faltungshalbgruppe mit |x|ν1 (dx) < ∞. Dann existiert ein Markov-Prozess X mit unabhängigen, stationären Zuwächsen PXt −Xs = νt−s für alle t > s und mit RCLL Pfaden. Sei E ein lokalkompakter, polnischer Raum und C0 (E) die Menge der (beschränkten) stetigen Funktionen, die im Unendlichen verschwinden. Ist κ ein stochastischer Kern von E nach E und ist f messbar und beschränkt, so schreiben wir κf (x) = 0 κ(x, dy) f (y). Definition 21.26. Eine Markov’sche Halbgruppe (κt )t≥0 auf E heißt Feller’sche Halbgruppe, falls f (x) = lim κt f (x) t→0

für jedes x ∈ E, f ∈ C0 (E)

und κt f ∈ C0 (E) für jedes f ∈ C0 (E). Sei X ein zu (κt )t≥0 gehöriger Markovprozess bezüglich einer Filtration F, die die u¨ blichen Bedingungen erfüllt. 0∞ Sei g ∈ C0 (E), g ≥ 0. Setze h = 0 e−t κt g dt. Dann ist ∞ ∞ −s −s −t e κs h = e e κs κt g dt = e−t κt g dt ≤ h. 0

g

s

−t

Also ist X := (e h(Xt ))t≥0 ein F-Supermartingal. Die Fellereigenschaft und Satz 21.24 sichern nun die Existenz einer RCLL Version g von X g . Mit etwas mehr Arbeit kann man zeigen, dass mit einer abzählbaren X g , g ∈ G, eindeutig festgelegt ist durch alle X Menge G ⊂ C0 (E) ein Prozess X und eine RCLL Version von X ist. Siehe etwa [139, Kapitel III.7ff]. Wir wollen nun rückblicken, wie wir die starke Markoveigenschaft der Brown’schen Bewegung in Abschnitt 21.3 hergeleitet hatten. Tatsächlich wurde dort lediglich die Rechtsstetigkeit der Pfade sowie eine Stetigkeit im Anfangspunkt benötigt, die genau die Fellereigenschaft ist. Mit etwas Arbeit kann man daher den folgenden Satz zeigen (siehe etwa [139, Kapitel III.8ff] oder [137, Kapitel III, Theorem 2.7]).

446


Satz 21.27. Sei (κt )t≥0 eine Feller’sche Halbgruppe auf dem lokalkompakten, polnischen Raum E. Dann existiert ein starker Markovprozess (Xt )t≥0 mit RCLL Pfa¨ den und Ubergangskernen (κt )t≥0 . Einen solchen Prozess X nennen wir auch einen Feller-Prozess. ¨ Ubung 21.4.1 (Doob’sche Ungleichung). Sei X = (Xt )t≥0 ein Martingal oder nichtnegatives Submartingal mit RCLL Pfaden. Für T ≥ 0 sei |X|∗T = sup |Xt |. t∈[0,T ]

Man zeige die Doob’schen Ungleichungen: ) * ) * (i) Für jedes p ≥ 1 und λ > 0 gilt λp P |X|∗T ≥ λ ≤ E |XT |p . * * ) * p p ) ) E |XT |p . (ii) Für jedes p > 1 gilt E |XT |p ≤ E (|X|∗T )p ≤ p−1

Man zeige durch ein Gegenbeispiel, dass auf die Rechtsstetigkeit von X nicht ohne Weiteres verzichtet werden kann. ♣ ¨ Ubung 21.4.2 (Martingalkonvergenzsätze). Sei X ein stochastischer Prozess mit ¨ RCLL Pfaden. Man zeige mit Hilfe der Doob’schen Ungleichung (Ubung 21.4.1), dass die Martingalkonvergenzsätze (f.s. Konvergenz (Satz 11.4), f.s. und L1 -Konvergenz für gleichgradig integrierbare Martingale (Satz 11.7) und der Lp -Martingalkonvergenzsatz (Satz 11.10)) sinngemäß für X gelten. ♣ ¨ Ubung 21.4.3. Sei p ≥ 1 und X 1 , X 2 , X 3 , . . . p-fach integrierbare Martingale. Für t ∈ Lp (P) mit Xtn n→∞ t in Lp . jedes t ≥ 0 gebe es ein X −→ X t )t≥0 ist ein Martingal. (i) Zeige: (X

(ii) Zeige mit Hilfe der Doob’schen Ungleichung: Ist p > 1 und sind X 1 , X 2 , . . . f.s. stetig, so gibt es ein stetiges Martingal X mit den Eigenschaften: X ist eine p und X n n→∞ Modifikation von X ur jedes t ≥ 0. ♣ t −→ Xt in L f¨

¨ Ubung 21.4.4. Sei X ein stochastischer Prozess mit Werten in einem polnischen Raum E mit RCLL Pfaden, und sei F = σ(X) die von X erzeugte Filtration, sowie F+ := (Ft+ )t≥0 definiert durch Ft+ = s>t Fs . Sei U ⊂ E offen und C ⊂ E abgeschlossen. Für jede Menge A ⊂ E sei τA := inf{t > 0 : Xt ∈ A}. Man zeige: (i) τC ist eine F-Stoppzeit (und eine F+ -Stoppzeit). (ii) τU ist eine F+ -Stoppzeit, jedoch im Allgemeinen (selbst für stetiges X) keine F-Stoppzeit. ♣ ¨ Ubung 21.4.5. Man zeige die Aussage von Bemerkung 21.22 und folgere: Ist F eine Filtration und B eine Brown’sche Bewegung, die ein F-Martingal ist. Dann ist B auch ein F+,∗ -Martingal. ♣

21.5 Konstruktion durch L2 -Approximation

447

21.5 Konstruktion durch L2 -Approximation Wir geben eine funktionalanalytische Konstruktion der Brown’schen Bewegung durch eine L2 –Approximation an. Der Einfachheit halber betrachten wir als Zeitintervall [0, 1] statt [0, ∞).

Es sei also H = L2 ([0, 1]) der Hilbertraum der quadratintegrierbaren (bezüglich des Lebesgue-Maßes λ) Funktionen [0, 1] → R mit Skalarprodukt f (x)g(x) λ(dx) f, g! = [0,1]

3

und Norm f = f, f ! (vergleiche Kapitel 7.3). Zwei Funktionen f, g ∈ H werden als gleich angesehen, wenn f = g λ-f.ü. Sei (bn )n∈N eine Orthonormalbasis (ONB) von H, also bm , bn ! = {m=n} und n = = = = f, bm !bm = = 0 lim =f −

n→∞

m=1

für jedes f ∈ H.

Speziell gilt für jedes f ∈ H die Parseval’sche Gleichung f 2 = und für f, g ∈ H f, g! =

∞

f, bm !2

(21.21)

f, bm ! g, bm !.

(21.22)

m=1

∞

m=1

Betrachte jetzt eine u.i.v. Folge (ξn )n∈N von N0,1 -Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P). Für n ∈ N und t ∈ [0, 1] setze n n n ξm bm (s) λ(ds) = ξm [0,t] , bm !. Xt = [0,t] (s) m=1

Offenbar ist für n ≥ m * ) E (Xtm − Xtn )2 = E =

-

m=1

n

k=m+1

n :

[0,t] , bk

k=m+1

Wegen

∞

k=1

2 [0,t] , bk !

= lim

ξk

:

2 [0,t]

[0,t] , bk

;2

≤

;

n

l=m+1

∞ :

k=m+1

ξl

:

[0,t] , bk

[0,t] , bl

;2

.

= t < ∞, gilt Xtn ∈ L2 (P) und * ) sup E (Xtm − Xtn )2 = 0.

m→∞ n≥m

;

.

448


Also ist (Xtn )n∈N eine Cauchy-Folge in L2 (P) und hat wegen der Vollständigkeit von L2 (P) (siehe Satz 7.3) einen L2 -Grenzwert Xt . Offenbar gilt dann auch für N ∈ N und 0 ≤ t1 , . . . , tN ≤ 1 -N . 2 Xtni − Xti = 0. lim E n→∞

i=1

n→∞

Speziell gilt also Xtn1 , . . . , XtnN −→ (Xt1 , . . . , XtN ) P-stochastisch.

Offenbar ist Xtn1 , . . . , XtnN Gauß-verteilt und zentriert. Für s, t ∈ [0, 1] gilt n . - n : : ; ; n n ξl [0,t] , bl Cov [Xs , Xt ] = E ξk [0,s] , bk l=1

k=1

= =

n

k,l=1 n

:

E[ξk ξl ]

k=1 n→∞ :

−→

:

[0,s] , bk [0,s] ,

[0,s] , bk

;:

[0,t]

;:

[0,t] , bk

;

[0,t] , bl

;

;

= min(s, t).

Also ist (Xt )t∈[0,1] ein zentrierter, Gauß’scher Prozess mit Cov[Xs , Xt ] = min(s, t).

(21.23)

Bis auf die Stetigkeit der Pfade ist X also eine Brown’sche Bewegung. Eine stetige Version von X liefert jetzt der Satz von Kolmogorov-Chentsov (Satz 21.6). Wir können X aber auch direkt als stetigen Prozess konstruieren, indem wir die ONB (bn )n∈N geschickt wählen, beispielsweise die Haar-Funktionen bn,k : Sei b0,1 ≡ 1 und für n ∈ N und k = 1, . . . , 2n sei ⎧ 2k − 1 2k − 2 ⎪ ⎪ ≤ t < n+1 , 2n/2 , falls ⎪ n+1 ⎪ 2 2 ⎪ ⎨ 2k − 1 2k bn,k (t) = −2n/2 , falls ≤ t < n+1 , ⎪ n+1 ⎪ 2 2 ⎪ ⎪ ⎪ ⎩ 0, sonst.

Dann ist (bn,k ) ein Orthonormalsystem: bm,k , bn,l ! = {(m,k)=(n,l)} . Man prüft ¨ Wir definieren die Schauebenfalls leicht nach, dass (bn,k ) eine Basis ist (Ubung!). derfunktionen durch ; : bn,k (s) λ(ds) = [0,t] , bn,k . Bn,k (t) = [0,t]

Seien (ξn,k )n∈N0 , k=1,...,2n unabhängig und N0,1 -verteilt. Wir setzen

21.5 Konstruktion durch L2 -Approximation

449

m

n

X :=

2 n

ξm,k Bm,k

m=0 k=1

und definieren Xt als den L2 (P)-Limes Xt = L2 − lim X n . n→∞

Satz 21.28 (Brown’sche Bewegung, L2 –Approximation). X ist eine Brown’sche Bewegung, und es gilt = = lim =X n − X =∞ = 0 P–fast sicher.

(21.24)

n→∞

Beweis. Da gleichmäßige Limiten stetiger Funktionen wieder stetig sind, folgt aus (21.24) die Stetigkeit von X und aus (21.23) (zusammen mit Satz 21.11), dass X eine Brown’sche Bewegung ist. Es reicht also, (21.24) zu zeigen. Da (C([0, 1]), · ∞ ) vollständig ist, reicht es zu zeigen, dass P-fast sicher X n eine Cauchy-Folge in (C([0, 1]), · ∞ ) ist. Man beachte, dass Bn,k ∞ ≤ 2−n/2 und Bn,k Bn,l = 0, falls k = l. Also ist = n =

=X − X n−1 = ≤ 2−n/2 max |ξn,k |, k = 1, . . . , 2n . ∞ Mithin ist

2n ( ( ' ' n n−1 −n/4 ≤ P X − X P |ξn,k | > 2n/4 ∞ > 2 k=1

2 = 2n √ 2π

Offenbar ist

∞

n=1

∞

2

e−x

/2

dx ≤ 2n+1 exp −2(n/2)−1 . 2n/4

P[X n − X n−1 ∞ > 2−n/4 ] < ∞, also nach dem Lemma von

Borel-Cantelli '= = P =X n − X n−1 =∞ > 2−n/4

( höchstens endlich oft = 1.

Es folgt lim sup X m − X n ∞ = 0 P–fast sicher. n→∞ m≥n

2

Beispiel 21.29 (Stochastisches Integral). Wir nehmen an, dass (ξn )n∈N eine u.i.v. sowie (bn )n∈N eine OrthonormalFolge von N0,1 verteilten Zufallsvariablen ist, n basis von L2 ([0, 1]), sodass Wt := limn→∞ k=1 [0,t] , bk !, t ∈ [0, 1], eine 2 Brown’sche Bewegung ist. Für f ∈ L ([0, 1]) definieren wir I(f ) :=

∞

n=1

ξn f, bn !.

450


Nach der Parseval’schen Gleichung und der Bienaymé Formel ist f 22 =

∞

n=1

) * ) * f, bn !2 = Var I(f ) = E I 2 ,

also gilt: I : L2 ([0, 1]) → L2 (P),

f → I(f )

ist eine Isometrie.

(21.25)

Wir nennen

0

t

f (s) dWs := I f

[0,t]

,

t ∈ [0, 1], f ∈ L2 ([0, 1]),

0t das stochastische Integral von f bezüglich W . Durch Xt := 0 f (s) dWs wird ein stetiger, zentrierter, Gauß’scher Prozess definiert mit Kovarianzfunktion Cov[Xs , Xt ] =

s∧t

f 2 (u) du.

0

In der Tat ist klar, dass X zentriert und Gauß’sch ist (als Limes von Gauß’schen Partialsummenprozessen) mit der angegebenen Kovarianzfunktion. Ferner folgt die Stetigkeit wie für die Brown’sche Bewegung mit den vierten Momenten der Zuwächse, die wir bei normalverteilten Zufallsvariablen aus den Varianzen berechnen können (vergleiche Satz 21.9). n In dem Spezialfall f = i=1 αi (ti−1 ,ti ] für gewisses n ∈ N und 0 = t0 < t1 < . . . < tn und α1 , . . . , αn ∈ R erhalten wir

1

f (s) dWs =

0

n i=1

αi Wti − Wti−1 .

3

¨ Ubung 21.5.1. Man zeige mit Hilfe der Darstellung der Brown’schen Bewegung (Wt )t∈[0,1] als zufällige Linearkombination der Haar-Funktionen (bn,k ), dass die Brown’sche Brücke Y = (Yt )t∈[0,1] = (Wt − tW1 )t∈[0,1] ein stetiger, Gauß’scher Prozess mit Kovarianzfunktion Cov[Yt , Ys ] = (s ∧ t) − st ist. Man zeige ferner ) * ♣ PY = lim P W ∈ · |W1 ∈ (−ε, ε) . ε↓0

¨ Ubung 21.5.2. (Vergleiche Beispiel 8.31.) Sei T ∈ (0, 1) fest gewählt. Man zeige mit Hilfe einer Orthonormalbasis b0,1 , (cn,k ), (dn,k ) von geeignet modifizierten Haar-Funktionen (so, dass die cn,k von [0, T ] getragen werden und die dn,k von [T, 1]): Eine reguläre Version der bedingten Verteilung von WT gegeben W1 wird beschrieben durch ♣ P[WT ∈ · |W1 = x] = NT x,T .

21.6 Der Raum C([0, ∞))

451

¨ Ubung 21.5.3. Sei d ∈ N. Man zeige mit Hilfe einer geeigneten Orthonormalbasis auf [0, 1]d : (i) Es gibt einen Gauß’schen Prozess (Wt )t∈[0,1]d mit Kovarianzfunktion Cov[Wt , Ws ] =

d

ti ∧ si .

i=1

(ii) Es existiert eine Modifikation von W , sodass t → W fast sicher stetig ist (siehe Bemerkung 21.7). Ein Prozess W mit den Eigenschaften (i) und (ii) heißt Brown’sches Blatt.

♣

21.6 Der Raum C([0, ∞)) Sind Funktionale, die vom ganzen Pfad der Brown’schen Bewegung abhängen, messbar? Ist beispielsweise sup{Xt , t ∈ [0, 1])} messbar? Für allgemeine stochastische Prozesse ist dies sicherlich falsch, weil das Supremum von mehr als abzählbar vielen Koordinaten abhängt. Für Prozesse mit stetigen Pfaden ist dies jedoch richtig, wie wir in diesem Abschnitt in allgemeinem Rahmen zeigen werden. Es liegt nahe, dass man die Brown’sche Bewegung als kanonischen Prozess auf dem Raum Ω := C([0, ∞)) der stetigen Pfade begreift. Wir sammeln zunächst ein paar Eigenschaften von Ω = C([0, ∞)) ⊂ R[0,∞) . Wir definieren die Auswertungsabbildung Xt : Ω → R,

(21.26)

ω → ω(t),

also die Einschränkung der kanonischen Projektion R[0,∞) → R auf Ω. = =

= = Für f, g ∈ C [0, ∞) und n ∈ N sei dn (f, g) := =(f − g) = ∧ 1 und [0,n] ∞

d(f, g) =

∞

2−n dn (f, g).

(21.27)

n=1

Satz 21.30. d ist eine vollständige Metrik auf Ω := C [0, ∞) , die die Topologie der gleichmäßigen Konvergenz auf kompakten Mengen erzeugt. Der Raum (Ω, d) ist separabel, also polnisch. Beweis. Offenbar ist jedes dn eine vollständige Metrik auf (C([0, n]), · ∞ )). Zu jeder Cauchy-Folge (fN ) in (Ω, d) und jedem n ∈ N existiert daher ein gn ∈ Ω N →∞ mit dn (fN , gn ) −→ 0. Offenbar ist gn (x) = gm (x) für jedes x ≤ m ∧ n, also

452


existiert ein g ∈ Ω mit g(x) = gn (x) für jedes x ≤ n für jedes n ∈ N. Offenbar gilt N →∞ dann d(fN , g) −→ 0, also ist d vollständig.

Die Menge der Polynome mit rationalen Koeffizienten ist abzählbar und nach dem Satz von Weierstraß dicht in jedem (C([0, n]), · ∞ )) also dicht in (Ω, d). 2 Satz 21.31. Bezüglich der Borel’schen σ-Algebra B(Ω, d) sind die kanonischen Projektionen Xt , t ∈ [0, ∞) messbar. Andererseits erzeugen die Xt schon B(Ω, d). Es gilt also

(B(R))⊗[0,∞) = σ Xt , t ∈ [0, ∞) = B(Ω, d). Ω

Beweis. Die erste Gleichung gilt per definitionem. Für die zweite betrachten wir die gegenseitigen Inklusionen. ⊂“ Offenbar ist jedes Xt : Ω −→ R stetig, also (B(Ω, d)–B(R)) messbar.

” Mithin ist σ Xt , t ∈ [0, ∞) ⊂ B(Ω, d).

⊃“ Wir ω ∈ Ω und für jedes ε∈ (0, 1) die ε-Umgebung zeigen, dass für jedes

” Uε (ω) = ω ′ ∈ Ω : d(ω, ω ′ ) < ε in σ Xt , t ∈ [0, ∞) liegt. Dies folgt aber aus der Darstellung Uε (ω) = ω ′ ∈ Ω : |Xt (ω) − Xt (ω ′ )| ∧ 1 < δ 2⌈t⌉−1 δ∈Q+ δ 0 gibt es ein K > 0, sodass Pi ({ω : |ω(0)| > K}) ≤ ε für jedes i ∈ I. (21.28) (ii) Für alle η, ε > 0 und N ∈ N gibt es ein δ > 0, sodass Pi ({ω : V N (ω, δ) > η}) ≤ ε

für jedes i ∈ I.

(21.29)

Beweis. =⇒ “ Nach dem Satz von Prohorov (Satz 13.29) folgt aus der schwa” chen Relativkompaktheit von (Pi , i ∈ I) die Straffheit dieser Familie. Zu jedem ε > 0 gibt es daher eine kompakte Menge A ⊂ C([0, ∞)) mit Pi (A) > 1 − ε

21.7 Konvergenz von W-Maßen auf C([0, ∞))

455

für jedes i ∈ I. Aus der Charakterisierung der Kompaktheit von A im Satz von Arzelà-Ascoli folgen nun (i) und (ii). ⇐= “ Wir nehmen jetzt an, dass (i) und (ii) gelten. Seien also für ε > 0 und ” k, N ∈ N die Zahlen Kε und δN,k,ε so gewählt, dass

ε sup Pi {ω : |ω(0)| > Kε } ≤ 2 i∈I

und sup Pi i∈I

Setze CN,ε =

1

1

ω : V N (ω, δN,k,ε ) >

2

ω : |ω(0)| ≤ Kε , V N (ω, δN,k,ε ) ≤

Nach dem Satz von Arzelà-Ascoli ist Cε := pakt, und wir haben Pi (Cεc ) ≤

1 k

N ∈N

≤ 2−N −k−1 ε. 2 1 für jedes k ∈ N . k

CN,ε in C([0, ∞)) relativ kom-

∞

ε + Pi ω : V N (ω, δN,k,ε ) > 1/k ≤ ε 2 k,N =1

für jedes i ∈ I.

Es folgt die Aussage.

2

Korollar 21.41. Sind (Xi , i ∈ I) und (Yi , i ∈ I) Familien von Zufallsvariablen in C([0, ∞)), und sind (PXi , i ∈ I) und (PYi , i ∈ I) straff, dann ist auch (PXi +Yi , i ∈ I) straff. Beweis. Wende die Dreiecksungleichung an, um im vorigen Satz (i) und (ii) nachzuweisen. 2 Ein wichtiges Hilfsmittel, um schwache Relativkompaktheit nachzuweisen, ist das folgende. ¨ schwache Relativkompaktheit). Satz 21.42 (Kolmogorov’sches Kriterium fur Sei (X i , i ∈ I) eine Folge von stetigen stochastischen Prozessen. Es gelte: (i) Die Familie (P[X0i ∈ · ], i ∈ I) der Startverteilungen ist straff.

(ii) Es gibt Zahlen C, α, β > 0, sodass für alle s, t ∈ [0, ∞) und jedes i ∈ I gilt ) * E |Xsi − Xti |α ≤ C |s − t|β+1 .

Dann ist die Familie (PX i , i ∈ I) = (L[X i ], i ∈ I) von Verteilungen der X i schwach relativkompakt in M1 (C([0, ∞))).

456


Beweis. Wir prüfen die Bedingungen von Satz 21.40. Die erste Bedingung aus Satz 21.40 ist genau (i). Nach dem Satz von Kolmogorov-Chentsov (Satz 21.6(ii)) gibt es zu γ ∈ (0, β/α) und ε > 0 sowie N > 0 eine Konstante K, sodass für jedes i ∈ I gilt ) * P |Xti − Xsi | ≤ K |t − s|γ für alle s, t ∈ [0, N ] ≥ 1 − ε. Offenbar impliziert dies (21.29) mit δ = (η/K)1/γ .

2

21.8 Satz von Donsker Seien Y1 , Y2 , . . . u.i.v. Zufallsvariablen mit E[Y1 ] = 0 und Var[Y1 ] = σ 2 > 0. Für ⌊nt⌋ t > 0 sei Stn = i=1 Yi und Stn = √σ12 n Stn . Nach dem zentralen Grenzwertsatz n→∞ gilt L[Stn ] −→ N0,t . Bezeichnet B = (Bt , t ≥ 0) eine Brown’sche Bewegung, so gilt also n→∞ L[Stn ] −→ L[Bt ] für jedes t > 0.

Nach dem mehrdimensionalen Zentralen Grenzwertsatz (Satz 15.56) gilt nun auch (für N ∈ N und t1 , . . . , tN ∈ [0, ∞)) n→∞ L[(Stn1 , . . . , StnN )] −→ L[(Bt1 , . . . , BtN )]

Wir definieren jetzt S¯n wie Sn , aber linear interpoliert 1 S¯tn = √ σ2 n

⌊nt⌋

Yi +

i=1

(tn − ⌊tn⌋) √ Y⌊nt⌋+1 . σ2 n

(21.30)

(21.31)

Dann gilt für ε > 0 * ) * ) 1 n→∞ 1 1 P Stn − S¯tn > ε ≤ ε−2 E (Stn − S¯tn )2 ≤ 2 E[Y12 ] = 2 −→ 0. ε n σ2 ε n

Nach dem Satz von Slutzky (Satz 13.18) gilt daher die Konvergenz der endlichdimensionalen Verteilungen gegen das Wiener-Maß PW : n→∞

PS¯n =⇒ PW .

(21.32)

fdd

Wir wollen diese Konvergenzaussage verstärken zur schwachen Konvergenz der WMaße auf C([0, ∞)). Dazu formulieren wir als Hauptsatz dieses Abschnitts den Funktionalen Zentralen Grenzwertsatz, der in dieser Allgemeinheit auf Donsker [35] zurückgeht. Sätze von diesem Typ werden auch Invarianzprinzipien genannt, weil die Grenzverteilung die selbe ist für alle Verteilungen von Yi mit Erwartungswert 0 und selber Varianz.

21.8 Satz von Donsker

457

Satz 21.43 (Donsker’sches Invarianzprinzip). Im Sinne der schwachen Konvergenz auf C([0, ∞)) konvergieren die Verteilungen von S¯n gegen das Wiener-Maß n→∞

L[S¯n ] −→ PW .

(21.33)

Beweis. Wegen (21.32) und Satz 21.38 reicht es zu zeigen, dass (L[S¯n ], n ∈ N) straff ist. Dafür möchten wir das Kolmogorov’sche Momentenkriterium anwenden. Wie wir schon beim Beweis der Existenz der Brown’schen Bewegung gesehen haben, reichen hierfür aber zweite Momente nicht aus, sondern wir benötigen vierte Momente, damit wir β > 0 wählen können. Die Strategie ist also, zunächst die Yi abzuschneiden, um vierte Momente zu erhalten, und dann für den abgeschnittenen Teil und den Hauptteil separat Straffheit zu zeigen. Für K > 0 definieren wir YiK := Yi

{|Yi |≤K/2} −E[Yi

{|Yi |≤K/2} ]

und

ZiK := Yi −YiK

für i ∈ N.

K→∞

Dann gilt E[YiK ] = E[ZiK ] = 0 sowie Var[ZiK ] −→ 0 und Var[YiK ] ≤ σ 2 , i ∈ N. Außerdem ist offenbar |YiK | ≤ K für jedes i. Setze TnK :=

n

YiK

und

i=1

UnK :=

n

ZiK

i=1

für n ∈ N.

¯tK,n die linearen Interpolationen von Es seien T¯tK,n und U 1 K,n T⌊nt⌋ TtK,n := √ 2 σ n

und

tK,n := √ 1 U K,n U ⌊nt⌋ σ2 n

für t ≥ 0.

¯ K,n . Nach Korollar 21.41 reicht es zu zeigen, Offenbar ist S¯n = T¯K,n + U ¯ Kn ,n ], n ∈ N) und dass für eine noch zu wählende Folge (Kn )n∈N gilt: (L[U Kn ,n ¯ ], n ∈ N) sind straff. (L[T

Wir betrachten zunächst den Restterm. U K ist ein Martingal. Die Doob’sche Ungleichung (Satz 11.2) liefert , + * ) √ K für jedes ε > 0. P sup |Ul | > ε n ≤ ε−2 Var Z1K l=1,...,n

Gilt jetzt Kn ↑ ∞, n → ∞, so haben wir für jedes N > 0 , + Kn ,n * n→∞ ) N ¯ > ε ≤ 2 Var Z1Kn −→ 0, P sup Ut ε t∈[0,N ]

¯ Kn ,n ], n ∈ N) straff. ¯ Kn ,n n→∞ =⇒ 0 in C([0, ∞)). Speziell ist (L[U also U

458


Wir berechnen nun für N > 0 und s, t ∈ [0, N ] die vierten Momente der DifferenKn ,n zen T¯t+s − T¯sKn ,n des Hauptteils. Im Folgenden setzen wir Kn = n1/4 . Sei nun n ∈ N fest gewählt. Wir unterscheiden zwei Fälle. Fall 1: t < n−1 .

Sei k := ⌊(t + s)n⌋. Ist sn ≥ k, so ist tn Kn ,n Kn T¯t+s Yk+1 . − T¯sKn ,n = √ 2 nσ

Ist sn < k, so ist 1 Kn ,n Kn T¯t+s − T¯sKn ,n = √ ((t + s)n − k)Yk+1 + (k − sn)YkKn . nσ 2 In beiden Fällen ist

also

√ Kn ,n T¯t+s − T¯sKn ,n ≤ t n |Y Kn | + |Y Kn | , k k+1 σ ' ' 4 ( n2 t4 2 ( Kn ,n E T¯t+s ≤ 4 (2Kn )2 E |Y1Kn | + |Y2Kn | − T¯sKn ,n σ ) * 16 16n5/2 t4 Var Y1Kn ≤ 2 t3/2 . ≤ 4 σ σ

(21.34)

Fall 2: t ≥ n−1 . Mit dem binomischen Lehrsatz erhalten wir (beachte, * dass die ) gemischten Terme mit ungeraden Momenten wegfallen, wegen E Y1Kn = 0) ) * ) * n(n − 1) ) Kn 2 *2 E (TnKn )4 = n E (Y1Kn )4 + E (Y1 ) 2 n(n − 1) 4 ≤ nKn2 σ 2 + σ . 2

(21.35)

Wir bemerken, dass ) * angige, reelle Zufallsvariablen X, Y mit E[X] = ) *für unabh¨ E[Y ] = 0 und E X 4 , E Y 4 < ∞ sowie für a ∈ [−1, 1] gilt: ) * ) * ) * ) * ) * E (aX + Y )4 = a4 E X 4 + 6 a2 E X 2 E Y 2 + E Y 4 ) * ) * ) * ) * ≤ E X 4 + 6 E X 2 E Y 2 + E Y 4 = E[(X + Y )4 ].

Wir wenden dies zweifach an (mit a = ⌈(t + s)n⌉ − (t + s)n und a = sn − ⌊sn⌋) und erhalten (mit der groben Abschätzung ⌈(t + s)n⌉ − ⌊sn⌋ ≤ tn + 2 ≤ 3tn) aus (21.35) (wegen t ≤ N )

21.8 Satz von Donsker

459

* * ) Kn ,n ) Kn Kn 4 E (T¯t+s − T¯sKn ,n )4 ≤ n−2 σ −4 E (T⌈(t+s)n⌉ − T⌊sn⌋ ) * ) Kn )4 = n−2 σ −4 E (T⌈(t+s)n⌉−⌊sn⌋

3 3tnKn2 + 3t2 = 2 tn−1/2 + 3t2 n2 σ 2 σ √ 3 3 3/2 2 + 3 N t3/2 . ≤ 2 t + 3t ≤ σ σ2

≤

(21.36)

Nach (21.34) und (21.36) gibt es also zu jedem N > 0 eine Konstante C = C(N, σ 2 ), sodass für jedes n ∈ N und alle s, t ∈ [0, N ] gilt * ) Kn ,n E (T¯t+s − T¯sKn ,n )4 ≤ C t3/2 .

Nach dem Kolmogorov’schen Momentenkriterium (Satz 21.42 mit α = 4 und β = 2 1/2) ist also (L[T¯Kn ,n ], n ∈ N) straff in M1 (C([0, ∞))).

¨ Ubung 21.8.1. Seien X1 , X2 , . . . u.i.v. Zufallsvariablen

stetiger Verteilungs n mit funktion F . Es sei Gn : [0, 1] → [−1, 1], t → n−1/2 i=1 [0,t] (F (Xi )) − t und Mn := Gn ∞ . Ferner sei M = supt∈[0,1] |Bt |, wo B eine Brown’sche Brücke ist. (i) Man zeige E[Gn (t)] = 0 und Cov[Gn (s), Gn (t)] = s ∧ t − st für s, t ∈ [0, 1].

(ii) Man zeige E[(Gn (t) − Gn (s))4 ] ≤ C (t − s)2 + |t − s|/n für ein C > 0.

(iii) Man folgere, dass eine geeignete stetige Version von G n schwach gegen B n konvergiert. Beispielsweise kann Hn (t) = n−1/2 i=1 hn (F (Xi ) − t) − t genommen werden, wo hn (s) = 1 − (s/εn ∨ 0) ∧ 1 für eine geeignete Folge εn ↓ 0. n→∞

(iv) Man zeige schließlich Mn =⇒ M .

Bemerkung: Die Verteilung von M lässt sich durch die Formel von KolmogorovSmirnov ([97] und [146]) ausdrücken (siehe etwa [125]): P[M > x] = 2

∞

(−1)n−1 e−2n

2

x2

.

(21.37)

n=1

Vergleiche hierzu auch (21.20). Mit Hilfe der Statistik Mn können Zufallsvariablen bei bekannter Verteilung auf Unabhängigkeit getestet werden. Seien X1 , X2 , . . . ˜ 2 , . . . unabhängige Zufallsvariablen mit unbekannten, stetigen Vertei˜1, X und X lungsfunktionen F und F˜ und empirischen Verteilungsfunktionen Fn und F˜ . Ferner sei Dn := sup |Fn (t) − Fñ (t)|. t∈R

3 Unter der Annahme, dass F = F˜ gilt, konvergiert n/2 Dn in Verteilung gegen M . Diese Tatsache ist Grundlage von nichtparametrischen Tests auf Verteilungsgleichheit. ♣

460


21.9 Pfadweise Konvergenz von Verzweigungsprozessen∗ In diesem Abschnitt untersuchen wir die Konvergenz reskalierter Galton-Watson¨ Prozesse (Verzweigungsprozesse). Ahnlich wie für Summen unabhängiger Zufallsvariablen zeigen wir zunächst die Konvergenz zu einem festen Zeitpunkt gegen die Verteilungen eines Grenzprozesses. Hernach zeigen wir Konvergenz der endlichdimensionalen Verteilungen und schließlich mit Hilfe des Kolmogorov’schen Straffheitskriteriums die Konvergenz im Pfadraum C([0, ∞)). Wir betrachten einen Galton-Watson-Prozess (Zn )n∈N0 mit geometrischer Nachkommenverteilung p(k) = 2−k−1 für k ∈ N0 . Das heißt, wir betrachten u.i.v. Zufallsvariablen Xn,i , n, i ∈ N0 auf N0 mit P[Xn,i = k] = p(k), k ∈ N0 und definieren, ausgehend vom Startzustand Z0 , rekursiv Zn Zn+1 = Xn,i . i=1

¨ Z ist also eine Markovkette mit Ubergangswahrscheinlichkeiten p(i, j) = p∗i (j), ∗i wobei p die i-te Faltungspotenz von p ist. Mit anderen Worten: Sind Z, Z 1 , . . . , Z i unabhängige Kopien des Galton-Watson-Prozesses, mit Z0 = i und Z01 = . . . = Z0i = 1, so ist D Z = Z 1 + . . . + Z i. (21.38)

Wir betrachten nun die Erzeugendenfunktion ψ (1) (s) := ψ(s) := E[sX1,1 ] von X1,1 , s ∈ [0, 1], und deren Iterierte ψ (n) := ψ (n−1) ◦ ψ für n ∈ N. Dann ist nach

i Lemma 3.10 Ei [sZn ] = E1 [sZn ]i = ψ (n) (s) . Für die geometrische Verteilung können wir ψ (n) leicht ausrechnen. Lemma 21.44. Für den Verzweigungsprozess mit kritischer, geometrischer Nachkommenverteilung ist die n-te Iterierte der Erzeugendenfunktion ψ (n) (s) =

n − (n − 1)s . n + 1 − ns

Beweis. Wir berechnen ψ(s) =

∞

k=0

2−k−1 sk =

1 . −s + 2

Um die Iterierten auszurechnen, betrachten wir zunächst allgemeine linear rationale Funktionen der Form f (x) = ax+b ur f von dieser Form definieren wir die Matrix cx+d . F¨ ab Mf = . Für zwei linear rationale Funktionen f und g ist Mf ◦g = Mf · Mg . cd Wir berechnen leicht

21.9 Pfadweise Konvergenz von Verzweigungsprozessen∗

Mψ =

−1 2 2 Mψ = , −2 3

0 1 , −1 2

und induktiv Mψn

=

Mψ3 =

−(n − 1)

n

−n

n+1

461

−2 3 −3 4

.

2

Setzen wir s = e−λ , so erhalten wir die Laplace-Transformierten von Zn Ei [e−λZn ] = ψ (n) (e−λ )i . Nach Beispiel 6.29 ergeben sich die Momente von Zn durch Differenzieren. Es gilt also: Lemma 21.45. Die Momente von Zn sind Ei [Znk ] = (−1)k

dk (n) −λ i . ψ (e ) dλk λ=0

(21.39)

Speziell sind die ersten sechs Momente Ei [Zn ] = i Ei [Zn2 ] = 2i n + i2 Ei [Zn3 ] = 6i n2 + 6i2 n + i3

Ei [Zn4 ] = 24i n3 + 36i2 n2 + (12i3 + 2i) n + i4 Ei [Zn5 ] Ei [Zn6 ]

4

2

3

3

(21.40) 2

4

2

= 120i n + 240i n + (120i + 30i) n + (20i + 10i ) n + i5 = 720i n5 + 1800i2 n4 + (1200i3 + 360i) n3 + (300i4 + 240i2 )n2 + (30i5 + 30i3 + 2i)n + i6 .

Insbesondere ist Z ein Martingal, und die ersten sechs zentrierten Momente sind Ei [(Zn − i)2 ] = 2i n

Ei [(Zn − i)3 ] = 6i n2

Ei [(Zn − i)4 ] = 24i n3 + 12i2 n2 + 2i n 5

4

2

3

(21.41) 2

Ei [(Zn − i) ] = 120i n + 120i n + 30i n

Ei [(Zn − i)6 ] = 720i n5 + 1080i2 n4 + (120i3 + 360i) n3 + 60i2 n2 + 2i n. Beweis. Die genauen Formeln für die ersten sechs Momente erhält man durch stures Ausrechnen von (21.39). 2 Wir betrachten jetzt die folgende Reskalierung: Wir fixieren x ≥ 0 und starten mit Z für t ≥ 0. Wir schreiben kurz Z0 = ⌊nx⌋ Individuen und betrachten Z˜tn := ⌊tn⌋ n

462


Lx [Z˜ n ] := L⌊nx⌋ [(n−1 Z⌊nt⌋ )t≥0 ].

(21.42)

Offenbar ist Ex [Z˜tn ] = ⌊nx⌋ ur jedes n, also ist (Lx [Z˜tn ], n ∈ N) straff. Indem n ≤ x f¨ wir Laplace-Transformierte betrachten, sehen wir sogar, dass für jedes λ ≥ 0 die Folge der Verteilungen konvergiert: nx ñ lim Ex [e−λZt ] = lim ψ (⌊tn⌋) (e−λ/n ) n→∞ n→∞ nx nt − (nt − 1)e−λ/n = lim n→∞ nt + 1 − nt e−λ/n nx 1 − e−λ/n = lim 1 − (21.43) n→∞ n(1 − e−λ/n )t + 1 x n(1 − e−λ/n ) = exp − lim n→∞ n(1 − e−λ/n )t + 1 λ (x/t) := ψt (λ)x . = exp − λ + 1/t Die Funktion ψtx ist aber die Laplace-Transformierte der zusammengesetzten Poisson-Verteilung CPoi(x/t) exp1/t (siehe Definition 16.3). Wir betrachten jetzt den stochastischen Kern κt (x, dy) := CPoi(x/t) exp1/t (dy). Dies ist genau derjenige Kern auf [0, ∞), dessen Laplace-Transformierte gegeben ist durch ∞ κt (x, dy) e−λy = ψt (λ)x .

(21.44)

0

Lemma 21.46. (κt )t≥0 ist eine Markov’sche Halbgruppe, und es existiert ein Mar¨ kovprozess (Yt )t≥0 mit Ubergangskernen Px [Yt ∈ dy] = κt (x, dy). Beweis. Es reicht, die Chapman-Kolmogorov Gleichung κt · κs = κs+t zu zeigen. Wir berechnen die Laplace-Transformierten dieser Kerne: Für λ ≥ 0 erhalten wir durch zweimaliges Anwenden von (21.44) λy −λz = κt (x, dy) exp − κt (x, dy)κs (y, dz) e λs + 1 λ = exp −

λs+1 λ λs+1 t +

1

x

λx = exp − λ(t + s) + 1 = κt+s (x, dz) e−λz .

2

Als nächstes zeigen wir, dass Y eine stetige Version besitzt. Dafür berechnen wir Momente und ziehen den Satz von Kolmogorov-Chentsov (Satz 21.6) heran.

21.9 Pfadweise Konvergenz von Verzweigungsprozessen∗

463

Lemma 21.47. Wir erhalten die k-ten Momente von Yt durch Ableiten der LaplaceTransformierten dk , Ex [Ytk ] = (−1)k k (ψ(λ)x ) dλ λ=0 λ wobei ψt (λ) = exp − λt+1 . Speziell sind die ersten Momente Ex [Yt ] = x

Ex [Yt2 ] = 2x t + x2 Ex [Yt3 ] = 6x t2 + 6x2 t + x3

(21.45)

Ex [Yt4 ] = 24x t3 + 36x2 t2 + 12x3 t + x4 Ex [Yt5 ] = 120x t4 + 240x2 t3 + 120x3 t2 + 20x4 t + x5 Ex [Yt6 ] = 720x t5 + 1800x2 t4 + 1200x3 t3 + 300x4 t2 + 30x5 t + x6 . Es ist also Y ein Martingal, und die ersten zentrierten Momente sind Ex [(Yt − x)2 ] = 2x t

Ex [(Yt − x)3 ] = 6x t2

Ex [(Yt − x)4 ] = 24x t3 + 12x2 t2 5

4

(21.46)

2 3

Ex [(Yt − x) ] = 120x t + 120x t

Ex [(Yt − x)6 ] = 720x t5 + 1080x2 t4 + 120x3 t3 . ¨ Satz 21.48. Es existiert eine stetige Version des Markovprozesses Y mit Ubergangskernen (κt )t≥0 gegeben durch (21.44). Diese Version nennen wir Feller’sche Verzweigungsdiffusion oder den Feller’schen stetigen Verzweigungsprozess. Beweis. Für festes N > 0 und s, t ∈ [0, N ] gilt ) * ) * ) * Ex (Yt+s − Ys )4 = Ex EYs [(Yt − Y0 )4 ] = Ex 24Ys t3 + 12Ys2 t2

= 24x t3 + 12(2sx + x2 ) t2 ≤ 48N x + 12x2 t2 .

Mithin erfüllt Y die Bedingung aus Satz 21.6 (Kolmogorov-Chentsov) mit α = 4 und β = 1. 2 Bemerkung 21.49. (i) Indem man alle höheren Momente heranzieht, kann man zeigen, dass die Pfade von Y Hölder-stetig sind von jeder Ordnung γ ∈ (0, 21 ).

(ii) Man kann zeigen, dass Y die (eindeutige, starke) Lösung der stochastischen (Itô’schen) Differentialgleichung (siehe Beispiele 26.11 und 26.31) 3 (21.47) dYt = 2Yt dWt

ist, wobei W eine Brown’sche Bewegung ist.

3

464


n→∞ Satz 21.50. Es gilt Lx [Z˜ n ] −→ Lx [Y ]. fdd

Beweis. Wie in (21.43) erhalten wir für 0 ≤ t1 ≤ t2 und λ1 , λ2 ≥ 0, sowie x ≥ 0 ( ' ( ' ' ( ñ ñ ñ ñ lim Ex e−(λ1 Zt1 +λ2 Zt2 ) = lim Ex Ex e−λ2 Zt2 Z˜tn1 e−λ1 Zt1 n→∞ n→∞ , + λ2 ñ Z˜tn1 e−λ1 Zt1 = lim Ex exp − n→∞ λ2 (t2 − t1 ) + 1 ⎞ ⎛ λ2 λ2 (t2 −t1 )+1 + λ1 x ⎠ = exp ⎝− λ2 + λ + 1 t 1 1 λ2 (t2 −t1 )+1 ) * = Ex exp(−(λ1 Yt1 + λ2 Yt2 )) .

Wir erhalten also

) * n→∞ ) * Lx λ1 Z˜tn1 + λ2 Z˜tn2 −→ Lx λ1 Yt1 + λ2 Yt2 .

Nach der Cramér-Wold Device (Satz 15.55) folgt hieraus ) * * n→∞ ) Lx Z˜tn1 , Z˜tn2 −→ Lx Yt1 , Yt2 .

Wir können dieses Vorgehen jetzt iterieren und erhalten so für jedes k ∈ N und 0 ≤ t1 ≤ t 2 ≤ . . . ≤ t k ) * n→∞ ) * Lx Z˜tni i=1,...,k −→ Lx Yti i=1,...,k . Dies ist aber die Behauptung.

2

Wir zeigen nun, dass die Konvergenz sogar im Pfadraum gilt. Hierzu müssen wir den reskalierten Prozess noch stetig machen. Wir nehmen an, dass (Zin )i∈N0 , n ∈ N eine Folge von Galton-Watson-Prozessen ist, mit Z0n = ⌊nx⌋. Wir definieren die linearen Interpolationen 1

n n n . Z¯tn := t − n−1 ⌊tn⌋ Z⌊tn⌋+1 − Z⌊tn⌋ + Z⌊tn⌋ n Satz 21.51 (Lindvall (1972)). Die reskalierten Galton-Watson-Prozesse Z¯ n konvergieren für n → ∞ gegen die Feller’sche Diffusion Y im Sinne der schwachen Konvergenz in M1 (C([0, ∞))): n→∞ Lx [Z¯ n ] −→ Lx [Y ].

Beweis. Die Konvergenz der endlichdimensionalen Verteilungen ist schon gezeigt. Nach Satz 21.38 reicht es, die Straffheit von (Lx [Z¯ n ], n ∈ N) in M1 (C([0, ∞)))

21.10 Quadratische Variation und lokale Martingale

465

zu zeigen. Hierzu verwenden wir das Kriterium von Kolmogorov ) n(Satz 21.42 * mit α = 4 und β = 1). Wir berechnen also die vierten Momente Ex (Z¯t+s − Z¯sn )4 für s, t ∈ [0, N ] und für festes N > 0. Wir unterscheiden zwei Fälle. Fall 1: t < n1 . Sei k = ⌊(t + s)n⌋. Wir nehmen zunächst an, dass ⌊sn⌋ = k. Dann ist (nach Lemma 21.45) ) n * ) n * Ex (Z¯t+s − Z¯sn )4 = n−4 (tn)4 E⌊nx⌋ (Zk+1 − Zkn )4 ) * = t4 E⌊nx⌋ 24Zkn + 12(Zkn )2 + 2Zkn

= t4 26⌊nx⌋ + 24⌊nx⌋k + ⌊nx⌋2 ≤ 26x t3 + 24xs t2 + x2 t2

≤ (50N x + x2 ) t2 .

Der Fall ⌊sn⌋ = k − 1 liefert eine a¨ hnliche Abschätzung. Insgesamt erhalten wir eine Konstante C = C(N, x) mit ) n * Ex (Z¯s+t − Z¯sn )4 ≤ C t2

für alle s, t ∈ [0, N ] mit t
t .

Beispiel 21.57. P n = {k2−n : k = 0, 1, 2, . . .}.

3

468


Definition 21.58. Für stetige F, G : [0, ∞) p-Variation von G (entlang P) durch VTp (G) := VTP,p (G) := lim n→∞

n t∈PT

→ R und p ≥ 1 definieren wir die Gt′ − Gt p

für T ≥ 0,

falls der Grenzwert existiert. Speziell heißt G! := V 2 (G) die quadratische VariaP tion von G. Ist T → VT2 (G) stetig, so schreiben wir G ∈ CqV := CqV . Existiert für jedes T ≥ 0 der Grenzwert VTP,2 (F, G) := lim Ft′ − Ft Gt′ − Gt , n→∞

n t∈PT

so nennen wir F, G! := V 2 (F, G) := V P,2 (F, G) die quadratische Kovariation von F und G (entlang P). ′

Bemerkung 21.59. Ist p′ > p und VTp (G) < ∞, so ist VTp (G) = 0. Speziell ist G! ≡ 0, falls G von lokal endlicher Variation ist. 3 Bemerkung 21.60. Aufgrund der Dreiecksungleichung ist Gt′ − Gt ≥ Gt′ − Gt für alle n ∈ N, T ≥ 0. n+1 t∈PT

n t∈PT

Daher existiert der Limes im Fall p = 1 stets und stimmt, unabhängig von der Zer¨ legungsfolge P, mit V 1 (G) aus Definition 21.52 u¨ berein. Ahnliche Ungleichungen 2 gelten für V nicht, daher braucht der Limes nicht zu existieren oder kann von der Wahl von P abhängen. Wir werden im Folgenden jedoch für die Pfade einer großen Klasse von stetigen stochastischen Prozessen zeigen, dass V 2 zumindest für eine geeignete Zerlegungsfolge fast sicher existiert und (unabhängig von der gewählten Zerlegungsfolge) fast sicher eindeutig ist. 3 Bemerkung 21.61. (i) Existieren F + G!T und F − G!T , so existiert die Kovarianz F, G!T , und es gilt die Polarisationsformel F, G!T =

1 F + G!T − F − G!T . 4

(ii) Existieren F !T , G!T und F, G!T , so folgt aus der Cauchy-Schwarz’schen Ungleichung für die approximierenden Summen

3 VT1 F, G!T ≤ F !T G!T . 3

¨ Bemerkung 21.62. Ist f ∈ C 1 (R) und G ∈ CqV , so ist (Ubung!) im Sinne des Lebesgue-Stieltjes Integrals T f (G)!T = (f ′ (Gs ))2 d G!s . 3 0


469

Korollar 21.63. Ist F von lokal endlicher quadratischer Variation und gilt G! ≡ 0 (speziell also, falls G von lokal endlicher Variation ist), so ist F, G! ≡ 0 und F + G! = F !. Satz 21.64. Für die Brown’sche Bewegung W und jede zulässige Zerlegungsfolge gilt W !T = T für alle T ≥ 0 f.s. Beweis. Wir beweisen dies nur für den Fall, wo ∞

n=1

|P n | < ∞

(21.53)

gilt. Für den allgemeinen Fall skizzieren wir das Vorgehen. Gelte also (21.53). Falls W ! existiert, ist T → W !T monoton wachsend. Daher reicht es zeigen, dass W !T für jedes T ∈ Q+ = Q ∩ [0, ∞) existiert und W !T =

Kt )t≥0 = T −1/2 WtT eine Brown’sche Bewegung ist T fast sicher gilt. Da (W t≥0 −1 K und W !1 = T W !T gilt, reicht es, den Fall T = 1 zu betrachten. Setze

Yn :=

Dann ist E[Yn ] =

Var[Yn ] =

t∈P1n

′ t∈P1n (t

t∈P1n

(Wt′ − Wt )2

für alle n ∈ N.

− t) = 1 und

) * Var (Wt′ − Wt )2 = (t′ − t)2 ≤ 2 |P n |.

Nach Voraussetzung (21.53) gilt also n→∞ gilt Yn −→ 1 fast sicher.

t∈P1n

∞

n=1

Var[Yn ] ≤ 2

∞

n=1

|P n | < ∞, also n→∞

Verzichten wir auf die Bedingung (21.53), so gilt immer noch Var[Yn ] −→ 0, n→∞ also Vn −→ 1 stochastisch. Es ist allerdings nicht zu schwer zu zeigen, dass (Yn )n∈N ein Rückwärtsmartingal ist (siehe etwa [132, Theorem I.28]) und daher fast sicher gegen 1 konvergiert. 2 K unabhängige Brown’sche Bewegungen, so gilt Korollar 21.65. Sind W und W K W, W !T = 0.

√ √ K )/ 2 ) und (W − W K )/ 2 ) haben unBeweis. Die stetigen Prozesse ((W + W abhängige, normalverteilte Zuwächse, sind also Brown’sche Bewegungen. Nach Bemerkung 21.61(i) gilt : ; : ; : ; K K K = W +W − W −W 4 W, W T T T √ ; √ ; : : K )/ 2 − 2 (W − W K )/ 2 2 (W + W = 2T − 2T = 0. 2 T T

470


¨ Nach Ubung 21.4.2 ist (Wt2 − t)t≥0 ein stetiges Martingal. Offenbar ist auch Kt )t≥0 ein stetiges Martingal. Nach dem Gezeigten sind also die Prozesse (Wt W 2 K − W, W K ! Martingale. Wir werden sehen (Satz 21.70), dass W − W ! und W W die quadratische Variation M (ω)! eines quadratintegrierbaren, stetigen Martingals M stets existiert (für fast alle ω), und dass der Prozess M ! eindeutig charakterisiert ist durch die Eigenschaft, dass M 2 − M ! ein Martingal ist.

Um eine a¨ hnliche Aussage auch für stetige Martingale zu erhalten, die nicht quadratisch integrierbar sind, treffen wir die folgende Definition. Definition 21.66 (Lokales Martingal). Sei F eine Filtration auf (Ω, F, P) und τ ein F-Stoppzeit. Ein adaptierter, reeller stochastischer Prozess M = (Mt )t≥0 heißt lokales Martingal bis τ , falls es eine Folge (τn )n∈N von Stoppzeiten gibt mit τn ↑ τ fast sicher, und so, dass für jedes n ∈ N der gestoppte Prozess M τn = (Mτn ∧t )t≥0 ein gleichgradig integrierbares Martingal ist. Eine solche Folge (τn )n∈N heißt lokalisierende Folge für M . M heißt lokales Martingal schlechthin, falls M ein lokales Martingal bis τ ≡ ∞ ist. Mit Mloc,c bezeichnen wir den Raum der stetigen lokalen Martingale. Bemerkung 21.67. Sei M ein stetiger, adaptierter Prozess und τ eine Stoppzeit. Dann sind a¨ quivalent: (i) M ist ein lokales Martingal bis τ . (ii) Es gibt eine Folge (τn )n∈N von Stoppzeiten mit τn ↑ τ fast sicher, sodass jedes M τn ein Martingal ist. (iii) Es gibt eine Folge (τn )n∈N von Stoppzeiten mit τn ↑ τ fast sicher, sodass jedes M τn ein beschränktes Martingal ist. In der Tat: (iii) =⇒ (i) =⇒ (ii) ist trivial. Gelte also (ii), und sei τn′ definiert durch τn′ := inf{t ≥ 0 : |Mt | ≥ n}


Da M stetig ist, gilt τn′ ↑ ∞. Also ist (σn )n∈N := (τn ∧ τn′ ) eine lokalisierende Folge für M , sodass jedes M σn ein beschränktes Martingal ist. 3 Bemerkung 21.68. Ein beschränktes lokales Martingal M ist stets auch ein Martingal. In der Tat: Ist |Mt | ≤ C < ∞ fast sicher für alle t ≥ 0, und ist (τn )n∈N eine lokalisierende Folge für M , so gilt für jede beschränkte Stoppzeit σ n→∞

Mτn ∧σ −→ Mσ

fast sicher und in L1 .

Nach dem Optional Sampling Theorem gilt ) * ) * ) * ) * n→∞ ) * E M0 = E M0τn = E Mστn = E Mτn ∧σ −→ E Mσ ,

also ist M ein Martingal.

3


471

Beispiel 21.69. (i) Ein Martingal ist offenbar stets ein lokales Martingal. (ii) In Bemerkung 21.68 hatten wir gesehen, dass beschränkte lokale Martingale auch Martingale sind. Andererseits ist selbst ein gleichgradig integrierbares lokales Martingal nicht notwendigerweise ein Martingal: Sei W = (W 1 , W 2 , W 3 ) eine dreidimensionale Brown’sche Bewegung (das heißt, W 1 , W 2 und W 3 sind unabhängige Brown’sche Bewegungen) mit Start in W0 = x ∈ R3 \ {0}. Sei u(y) = y−1

für y ∈ Rd \ {0}.

Man prüft leicht nach, dass u harmonisch ist, dass also △ u(y) = 0 ist für alle y = 0. Wir werden später sehen (Korollar 25.33 zur Itô-Formel), dass hieraus folgt, dass M := (u(Wt ))t≥0 ein lokales Martingal ist. Durch

τn := inf t > 0 : Mt ≥ n = inf t > 0 : Wt ≤ 1/n , n ∈ N,

wird eine lokalisierende Folge für M definiert. Andererseits liefert eine explizite t→∞ Rechnung mit der dreidimensionalen Normalverteilung E[Mt ] ≤ t−1/2 −→ 0, t→∞ also ist M integrierbar aber kein Martingal. Wegen Mt −→ 0 in L1 ist M sogar gleichgradig integrierbar. 3

Satz 21.70. Sei M ein stetiges lokales Martingal. (i) Es existiert ein eindeutig bestimmter, stetiger, monoton wachsender, adaptierter Prozess M ! = ( M !t )t≥0 mit M !0 = 0, sodass gilt:

2 Mt − M !t t≥0 ist ein stetiges lokales Martingal.

(ii) Ist M ein stetiges, quadratisch integrierbares Martingal, so ist M 2 − M ! ein Martingal. (iii) Für jede zulässige Zerlegungsfolge P = (P n )n∈N gilt 2 n→∞ Mt′ − Mt UTn := −→ M !T stochastisch n t∈PT

für alle T ≥ 0.

Der Prozess M ! heißt quadratischer Variationsprozess von M . Bemerkung 21.71. Indem wir in (iii) gegebenenfalls zu einer (von T abhängigen) n→∞ Teilfolge P ′ u¨ bergehen, können wir annehmen, dass UTn −→ M !T fast sicher gilt. Durch ein Diagonalfolgenargument erhalten wir (wie im Beweis des Satzes von n→∞ Helly) eine Zerlegungsfolge, sodass UTn −→ M !T fast sicher für alle T ∈ Q+ gilt. Aufgrund der Monotonie und der Stetigkeit von T → UTn und T → M !T n→∞ folgt UTn −→ M !T für alle T ≥ 0 fast sicher. Also ist für diese Zerlegungsfolge

472


die pfadweise definierte quadratische Variation fast sicher gleich dem quadratischen Variationsprozess: M (ω)! = V 2 (M (ω)) = M !(ω). 3 Beweis (von Satz 21.70). Schritt 1. Sei zunächst |Mt | ≤ C fast sicher für alle t ≥ 0 für ein C < ∞. Insbesondere ist M dann ein Martingal (nach Bemerkung 21.68). Es gilt UTn = MT2 − M02 − NTn , wobei

NTn = 2 Mt Mt′ − Mt , T ≥ 0, n t∈PT

ein stetiges Martingal ist. Wenn wir zeigen können, dass (UTn )n∈N für jedes T ≥ 0 eine Cauchy-Folge in L2 (P) ist, so ist auch (NTn )n∈N eine Cauchy-Folge, und wir T von (N n )n∈N definieren. Nach Ubung eine ¨ können den L2 -Limes N 21.4.3 hat N T 2 n n→∞ stetige Modifikation N , und es gilt NT −→ NT in L für alle T ≥ 0. Mithin existiert ein stetiger Prozess M ! mit n→∞

UTn −→

M !T

in L2

für alle T ≥ 0,

(21.54)

und N = M 2 − M02 − M ! ist ein stetiges Martingal.

Wir zeigen nun also für T ≥ 0

(UTn )n∈N ist eine Cauchy-Folge in L2 . Für m ∈ N sei Zm := max

(21.55)

2 n Mt − Ms : s ∈ PTm , t ∈ Ps,s ′, n ≥ m .

Da M fast sicher gleichmäßig stetig auf [0, T ] ist, gilt Zm Wegen Zm ≤ 4C 2 folgt ) 2 * m→∞ E Zm −→ 0.

m→∞

−→

0 fast sicher. (21.56)

Für n ∈ N und Zahlen a1 , . . . , an gilt (an − a0 )2 −

n−1 k=0

(ak+1 − ak )2 = 2

n−1 k=0

(ak − a0 )(ak+1 − a0 ).

Wenden wir dies in der folgenden Gleichung auf jeden einzelnen Summanden der a¨ ußeren Summe an, so erhalten wir für m ∈ N und n ≥ m 2 2 m n Ms ′ − Ms − Mt′ − Mt UT − UT = m s∈PT

=2

n t∈Ps,s ′

Mt − Ms Mt′ − Mt .

m t∈P n s∈PT s,s′

(21.57)


473

Da M ein Martingal ist, ist für s1 , s2 ∈ PTm und t1 ∈ Psn1 ,s′ , t2 ∈ Psn2 ,s′ mit 1 2 t1 < t2 ' ( E Mt1 − Ms1 Mt′1 − Mt1 Mt2 − Ms2 Mt′2 − Mt2 ' *( ) = E Mt1 − Ms1 Mt′1 − Mt1 Mt2 − Ms2 E Mt′2 − Mt2 Ft2 = 0.

2 Wenn wir mit Hilfe von (21.57) den Erwartungswert von UTm − UTn berechnen, fallen also die gemischten Terme weg, und wir erhalten (unter Benutzung der Cauchy-Schwarz’schen Ungleichung in der dritten Zeile) + , * ) E (UTn − UTm )2 = 4 E (Mt − Ms )2 (Mt′ − Mt )2 m t∈P n s∈PT s,s′

+ , 2 ≤ 4 E Zm Mt′ − Mt

(21.58)

n t∈PT

+ ,

2 2 1/2 ) 2 *1/2 E Mt′ − Mt . ≤ 4 E Zm n t∈PT

Wir schätzen den zweiten Faktor ab durch + , + ,

2 2

4 Mt′ − Mt E =E Mt′ − Mt n t∈PT

n t∈PT

+ ,

2 2 Ms ′ − Ms + 2E Mt′ − Mt . n s∈PT

(21.59)

n t∈Ps,T

Der erste Summand in (21.59) ist beschränkt durch + ,

2 ) * 2 4C E Mt′ − Mt = 4C 2 E (MT − M0 )2 ≤ 16 C 4 . n t∈PT

Der zweite Summand in (21.59) ist gleich ,, + +

2

2 Ms ′ − Ms E Mt′ − Mt Fs 2E n s∈PT

n t∈Ps,T

+ , *

2 ) = 2E Ms′ − Ms E (MT − Ms )2 Fs n s∈PT

) * ≤ 8C 2 E (MT − M0 )2 ≤ 32 C 4 .

Es gilt also nach (21.58) und (21.56)

√ ) 2 *1/2 m→∞ * ) −→ 0. sup E (UTn − UTm )2 ≤ 16 3 C 2 E Zm

n≥m

474


Damit ist (21.55) gezeigt. Schritt 2. Sei nun M ∈ Mloc,c und (τN )N ∈N eine lokalisierende Folge, sodass jedes M τN ein beschränktes Martingal ist (siehe Bemerkung 21.67). Nach Schritt 1 gilt für T ≥ 0 und N ∈ N 2 n→∞ Mtτ′N − MtτN −→ M τN !T in L2 . UTN,n := n t∈PT

Wegen UTN,n = UTN +1,n , falls T ≤ τN , gibt es einen stetigen Prozess U mit n→∞ UTN,n −→ UT stochastisch, falls T ≤ τN . Also gilt M τN !T = M !T := UT , falls T ≤ τN . Wegen τN ↑ ∞ fast sicher, gilt für alle T ≥ 0 n→∞

UTn −→ M !T stochastisch.

Da (MTτN )2 − M τN !T T ≥0 ein stetiges Martingal ist und M τN ! = M !τN gilt, folgt M 2 − M ! ∈ Mloc,c . Schritt 3. Wir müssen noch (ii) zeigen. Sei also M ein stetiges, quadratintegrierbares Martingal und (τn )n∈N eine lokalisierende Folge für das lokale Martingal M 2 − M !. Sei T > 0 und τ ≤ T eine Stoppzeit. Da M 2 ein nichtnegatives Submartingal ist, ist Mτ2n ∧τ ≤ E[MT |Fτn ∧τ ], also ist (Mτ2n ∧τ )n∈N gleichgradig integrierbar und damit * ) * ) * ) * ) ) * ) * E Mτ2 = lim E Mτ2n ∧τ = lim E M !τn ∧τ +E M02 = E M !τ +E M02 , n→∞

n→∞

wobei wir im letzten Schritt den Satz u¨ ber monotone Konvergenz ausgenutzt haben. Nach dem Optional Sampling Theorem ist also M 2 − M ! ein Martingal.

Schritt 4. (Eindeutigkeit) Seien A und A′ stetige, monoton wachsende, adaptierte Prozesse mit A0 = A′0 , sodass M 2 − A und M 2 − A′ lokale Martingale sind. Dann ist auch N = A − A′ ein lokales Martingal, und für fast alle ω hat der Pfad N (ω) endliche Variation. Daher ist N ! ≡ 0 und damit N 2 − N ! = N 2 ein stetiges lokales mit N0 = 0. Sei (τn )n∈N eine lokalisierende Folge für N 2 . Dann * ) Martingal 2 ist E Nτn ∧t = 0 für jedes n ∈ N und t ≥ 0, also ist Nτ2n ∧t = 0 fast sicher und damit Nt2 = limn→∞ Nτ2n ∧t = 0 fast sicher. Es folgt A = A′ .

2

Korollar 21.72. Sei M ein stetiges lokales Martingal mit M ! ≡ 0. Dann ist Mt = M0 für alle t ≥ 0 fast sicher. Speziell gilt dies, falls die Pfade von M von lokal endlicher Variation sind. Korollar 21.73. Seien M, N ∈ Mloc,c . Dann existiert ein eindeutig bestimmter stetiger, adaptierter Prozess M, N ! von fast sicher lokal endlicher Variation mit M, N !0 = 0, sodass gilt: M N − M, N ! ist ein stetiges lokales Martingal.


475

M, N ! heißt quadratischer Kovariationsprozess von M und N . Es gilt für jede zulässige Zerlegungsfolge P und jedes T ≥ 0 M, N !T = lim Mt′ − Mt Nt′ − Nt stochastisch. (21.60) n→∞

n t∈PT

Offenbar gilt M + N, M − N ∈ Mloc,c . Wir definieren

Beweis. Existenz.

M, N ! :=

1 M + N! − M − N! . 4

Als Differenz monoton wachsender Funktionen ist M, N ! von lokal endlicher Variation. Wegen Satz 21.70(iii) folgt (21.60). Weiter ist M N − M, N ! =

1 1 (M + N )2 − M + N ! − (M − N )2 − M − N ! 4 4

ein lokales Martingal.

Eindeutigkeit. Seien A und A′ mit A0 = A′0 = 0 stetig, adaptiert und von lokal endlicher Variation, sodass M N − A und M N − A′ in Mloc,c sind. Dann ist A − A′ ∈ Mloc,c von lokal endlicher Variation, also A − A′ = 0. 2 Korollar 21.74. Ist M ∈ Mloc,c und A stetig und adaptiert mit A! ≡ 0, so ist M + A! = M !. Ist M ein stetiges lokales Martingal bis zur Stoppzeit τ , so ist M τ ∈ Mloc,c , und wir schreiben M !t := M τ !t für t < τ . Satz 21.75. Sei τ ein Stoppzeit und M ein stetiges lokales Martingal bis τ sowie τ0 < τ eine Stoppzeit mit E[ M !τ0 ] < ∞. Dann ist E[Mτ0 ] = E[M0 ], und M τ0 ist ein L2 -beschränktes Martingal. Beweis. Sei τn ↑ τ eine lokalisierende Folge von Stoppzeiten für M , sodass jedes M τn sogar ein beschränktes Martingal ist (siehe Bemerkung 21.67). Dann ist auch M τ0 ∧τn ein beschränktes Martingal, und es gilt für jedes t ≥ 0 * ) * ) * ) * ) * ) E Mτ2τ0 ∧τn ∧t = E M02 +E M !τ0 ∧τn ∧t ≤ E M02 +E M !τ0 < ∞. (21.61)

Da also (Mτ0 ∧τn ∧t ), n ∈ N, t ≥ 0 beschränkt in L2 und damit gleichgradig integrierbar ist, gilt (nach dem Optional Sampling Theorem für gleichgradig integrierbare Martingale) E[Mτ0 ] = lim E[Mτ0 ∧τn ] = E[M0 ], n→∞

und für t > s

476


' * ( ) E Mtτ0 Fs = E lim Mtτ0 ∧τn Fs n→∞ * ) = lim E Mtτ0 ∧τn Fs n→∞

= lim Msτ0 ∧τn = Msτ0 . n→∞

Also ist M

τ0

ein Martingal.

2

) * Korollar 21.76. Ist M ∈ Mloc,c und E M !t < ∞ für jedes t ≥ 0, so ist M ein quadratintegrierbares Martingal. ¨ Ubung 21.10.1. Zeige, dass die Zufallsvariablen (Yn )n∈N aus dem Beweis von Satz 21.64 ein Rückwärtsmartingal bilden. ♣ P ¨ Ubung 21.10.2. Sei f : [0, ∞) → R stetig und X ∈ CqV für die zulässige Zerlegungsfolge P. Man zeige:

0

T

f (s) d X!s = lim

n→∞

n t∈PT

f (t) Xt′ − Xt )2

für alle T ≥ 0.

♣

¨ Ubung 21.10.3. Man zeige durch ein Gegenbeispiel: Ist ) * M ein stetiges lokales Marτ ein Stoppzeit mit E M ! tingal mit M0 = 0 und τ = ∞, so folgt hieraus nicht ) 2* notwendigerweise E Mτ = ∞. ♣

22 Gesetz vom iterierten Logarithmus

Für Summen unabhängiger Zufallsvariablen kennen wir bislang zwei Grenzwertsätze: das Gesetz der großen Zahl und den Zentralen Grenzwertsatz. Das Gesetz der großen Zahl beschreibt für großes n ∈ N das typische oder Mittelwertverhalten von Summen von n Zufallsvariablen, während der Zentrale Grenzwertsatz die typischen Fluktuationen um diesen Mittelwert quantitativ erfasst. In Kapitel 23 werden wir die untypisch großen Fluktuationen (große Abweichungen) quantitativ erfassen. Dagegen ist das Thema dieses Kapitels die genauere quantitative Erfassung der typischen Fluktuationen, aber nun im gesamten zeitlichen Verlauf n → ∞.√Die Botschaft lautet in etwa: Während zu fester Zeit die Partialsumme Sn um etwa n von ihrem Erwartungswert abweicht (Zentraler Grenzwertsatz), ist √ die maximale Fluktuation von der Ordnung n log log n (Satz von Hartman und Wintner, Satz 22.9). Wir beginnen mit der etwas leichteren Aufgabe, diese Fluktuationen zunächst für die Brown’sche Bewegung auszurechnen (Satz 22.1). Danach werden wir sehen, wie man Summen unabhängiger Zufallsvariablen (mit endlicher Varianz) in eine Brown’sche Bewegung einbetten kann (Satz von Skorohod, Satz 22.5), um damit die Aussage des Satzes von Hartman und Wintner zu zeigen. Wir folgen in diesem Kapitel in Teilen der Darstellung in [38, Kapitel 7.9].

¨ die Brown’sche Bewegung 22.1 Iterierter Logarithmus fur Sei (Bt )t≥0 eine Brown’sche Bewegung. In Beispiel 21.16 haben wir√als Anwendung des Blumenthal’schen 0-1 Gesetzes gesehen, dass lim supt↓0 Bt / t = ∞ f.s. Da nach Satz 21.14 auch (tB1/t )t≥0 eine Brown’sche Bewegung ist, folgt Bt lim sup √ = ∞ f.s. t t→∞ √ Unser Ziel in diesem Abschnitt ist es, t durch eine Funktion zu ersetzen, sodass der Limes superior endlich und nichttrivial wird.

478


¨ die Brown’sche Bewegung). Satz 22.1 (Gesetz vom iterierten Logarithmus fur Es gilt Bt lim sup 3 = 1 f.s. (22.1) t→∞ 2t log log(t)

Bevor wir den Satz beweisen, bringen wir ein elementares Lemma.

Lemma 22.2. Sei X ∼ N0,1 standardnormalverteilt. Dann ist für jedes x > 0 1 1 √ 2π x +

2

1 x

e−x

/2

1 1 −x2 /2 ≤ P[X ≥ x] ≤ √ e . 2π x

(22.2)

2

Beweis. Sei ϕ(t) = √12π e−t /2 die Dichte der Standardnormalverteilung. Partielle Integration liefert die zweite Ungleichung in (22.2): ∞ ∞ ∞ 1 1 1 1 (tϕ(t)) dt = − ϕ(t) − ϕ(t) dt ≤ ϕ(x). P[X ≥ x] = 2 t t t x x x x Analog ist

1 1 P[X ≥ x] ≥ ϕ(x) − 2 x x

∞

ϕ(t) dt =

x

1 1 ϕ(x) − 2 P[X ≥ x]. x x

Hieraus folgt die erste Ungleichung in (22.2).

2

Beweis von Satz 22.1 1. Schritt: ≤“ Betrachte zunächst die Folge tn = αn für ein α > 1. Später ” wollen wir α ↓ 1 gehen lassen. Setze f (t) = 2α2 log log t. Dann ist nach dem Spiegelungsprinzip (Satz 21.19) und mit der Abkürzung B[a,b] := {Bt : t ∈ [a, b]} ' ( ' ( 3 3 −1/2 P sup B[tn ,tn+1 ] > tn f (tn ) ≤ P tn+1 sup B[0,tn+1 ] > f (tn )/α ' ( 3 = P sup B[0,1] > f (tn )/α L α e−f (tn )/2α ≤ (22.3) f (tn ) L α n−α = (log α)−α f (tn ) ≤ n−α

für hinreichend großes n,

wobei wir im vorletzten Schritt benutzt haben, dass

f (tn ) = α log(n log α) = α log n + α log log α. 2α

22.1 Iterierter Logarithmus für die Brown’sche Bewegung

Wegen α > 1 ist die rechte Seite von (22.3) summierbar in n ∞ ' ( 3 P sup B[tn ,tn+1 ] > tn f (tn ) < ∞. n=1

Das Lemma von Borel-Cantelli (Satz 2.7) liefert jetzt (merke: t → noton wachsend) Bt lim sup 3 ≤ 1 f.s. t→∞ tf (t) Wir lassen α ↓ 1 gehen und erhalten Bt lim sup √ ≤1 2t log log t t→∞

3

479

tf (t) ist mo-

f.s.

(22.4)

2. Schritt: ≥“ Wir zeigen nun die andere Ungleichung in (22.1). Hierfür lassen ” α wir α → ∞ gehen. Setze β := α−1 > 1 und g(t) = β22 log log t. Wähle n0 so groß, dass βg(tn ) ≥ 1 ist für n ≥ n0 . Dann ist nach der Brown’schen Skalierung (merke: tn − tn−1 = β1 tn ) und (22.2) (wegen (x + x1 )−1 ≥ 12 x1 für x = (βg(tn ))1/2 ≥ 1) ' ( ' ( 3 3 P Btn − Btn−1 > tn g(tn ) = P B1 > βg(tn ) 1 1 1 3 e−βg(tn )/2 ≥√ 2 2π βg(tn ) 1 1 1 =√ n−1/β . (log α)−1/β 3 2π 2 βg(tn )

Ist ε ∈ (0, 1 − 1/β), so ist für hinreichend großes n ∈ N die rechte Seite der vorangehenden Gleichung ≥ n−ε n−1/β ≥ n−1 . Also ist ∞ ( ' 3 P Btn − Btn−1 > tn g(tn ) = ∞. n=2

Die Ereignisse sind unabhängig, daher liefert das Lemma von Borel-Cantelli ' ( 3 P Btn − Btn−1 > tn g(tn ) für unendlich viele n = 1. (22.5)

tn log log tn n→∞ −→ α folgt aus (22.4) zusammen mit der Symmetrie tn−1 log log tn−1 der Brown’schen Bewegung für ε > 0 3 Btn−1 > −(1 + ε)α−1/2 2tn log log tn für fast jedes n ∈ N f.s. (22.6)

Wegen

Aus (22.5) und (22.6) folgt

Btn 1 α−1 lim sup √ ≥ − (1 + ε)α−1/2 = − (1 + ε)α−1/2 β α 2tn log log tn n→∞

f.s.

Bt Lassen wir nun α → ∞, so erhalten wir lim sup √ ≥ 1 f.s. Zusammen 2t log log t t→∞ mit (22.4) folgt die Aussage des Satzes. 2

480


Korollar 22.3. Es gilt fast sicher lim sup 3 t↓0

Bt 2t log log(1/t)

= 1.

Beweis. Nach Satz 21.14 ist (tB1/t ) eine Brown’sche Bewegung. Wende hierauf Satz 22.1 an. 2

Bemerkung 22.4. Die Aussage von Korollar 22.3 betrifft die typischen Punkte der Brown’schen Bewegung B. Wie sieht es aber aus, 3 wenn wir nach der Existenz von Punkten t fragen, in denen sich B schneller als 2t log log(1/t) bewegt? 3 Auskunft gibt hier ein Satz von Paul Lévy [103]: Bezeichnen wir mit h(δ) := 2δ log(1/δ) den Lévy’schen Stetigkeitsmodul, so ist ' ( P lim sup |Bt − Bs |/h(δ) = 1 = 1. (22.7) δ↓0

s,t∈[0,1] 0≤t−s≤δ

(Siehe etwa [137, Theorem I.2.5] für einen Beweis.) Hieraus folgt insbesondere, dass B fast sicher nicht lokal Hölder- 21 -stetig ist. 3

22.2 Skorohod’scher Einbettungssatz Um das Ergebnis des vorigen Abschnitts auf Summen von quadratintegrierbaren, zentrierten Zufallsvariablen zu u¨ bertragen, brauchen wir eine Einbettung von solchen Zufallsvariablen in eine Brown’sche Bewegung. Die gewünschte Darstellung liefert der Satz von Skorohod. Mit dieser Technik lässt sich auch ein alternativer Beweis des Satzes von Donsker (Invarianzprinzip, Satz 21.43) angeben. Satz 22.5 (Skorohod’scher Einbettungssatz). Sei X eine reelle Zufallsvariable mit E[X] = 0 und Var[X] < ∞. Dann existiert auf einem geeigneten Wahrscheinlichkeitsraum eine Filtration F und eine Brown’sche Bewegung B, die ein F-Martingal ist, sowie eine F–Stoppzeit τ mit D

Bτ = X

und

E[τ ] = Var[X].

Bemerkung 22.6. Man kann auch zeigen, dass F = σ(B) gewählt werden kann. Das ist allerdings aufwändiger und wird hier nicht benötigt. 3 Korollar 22.7. Seien X1 , X2 , . . . u.i.v. reelle Zufallsvariablen mit E[X1 ] = 0 und Var[X1 ] < 1. Ferner sei Sn = X1 + . . . + Xn , n ∈ N. Dann gibt es auf einem geeigneten Wahrscheinlichkeitsraum eine Filtration F und eine Brown’sche Bewegung B, die ein F-Martingal ist, sowie F–Stoppzeiten 0 = τ0 ≤ τ1 ≤ τ2 ≤ . . . mit: D (τn − τn−1 )n∈N ist u.i.v., E[τ1 ] = Var[X1 ] und (Bτn )n∈N = (Sn )n∈N .

22.2 Skorohod’scher Einbettungssatz

481

Zur Vorbereitung des Beweises bringen wir ein Lemma. Wir wollen dabei als Integranden Maße zulassen. Wir verwenden deshalb 0 folgende Notation: Ist μ ∈ M(E) ein Maß und f ∈ L1 (μ) nichtnegativ, so wird μ(dx)f (x)δx := f μ definiert, wobei f μ das Maß mit Dichte f bezüglich μ ist. Dies ist konsistent, denn für messbares A ⊂ E ist dann μ(dx)f (x)δx (A) = μ(dx)f (x)δx (A) = μ(dx)f (x) A (x) = f μ(A). 0 0 Lemma 22.8. Sei μ ∈ M1 (R) mit x μ(dx) = 0 und σ 2 := x2 μ(dx) < ∞. Dann existiert ein W-Maß θ ∈ M1 ((−∞, 0) × [0, ∞)) mit v −u μ = θ(d(u, v)) δu + δv . (22.8) v−u v−u 0 Es ist σ 2 = − uv θ(d(u, v)). Beweis. Wir setzen m :=

0

[0,∞)

v μ(dv) = −

0

(−∞,0)

θ(d(u, v)) := m−1 (v − u) μ(du)μ(dv)

u μ(du) und

für u < 0 und v ≥ 0.

Dann ist

−1

θ(d(u, v)) = m

μ(du)

(−∞,0)

= m−1

(−∞,0)

[0,∞)

μ(dv) (v − u)

μ(du) [m − uμ([0, ∞))]

= m−1 mμ((−∞, 0) + mμ([0, ∞)) = 1.

Es ist also tatsächlich θ ein W-Maß. Weiter gilt −u v δu + δv θ(d(u, v)) v−u v−u −1 =m μ(du) μ(dv) (vδu − uδv ) (−∞,0) [0,∞) = μ(du) δu + μ(dv) δv = μ. (−∞,0)

Aus (22.8) folgt direkt 2 2 σ = μ(dx) x = θ(d(u, v))

[0,∞)

−u 2 v 2 u + v = − θ(d(u, v)) uv. 2 v−u v−u

482


Beweis (Satz 22.5). Wir nehmen zunächst an, dass X nur die zwei Werte u < 0 v und v ≥ 0 annimmt: P[X = u] = v−u = 1 − P[X = v]. Sei

τu,v = inf t > 0 : Bt ∈ {u, v} . D

¨ Nach Ubung 21.2.4 ist E[Bτu,v ] = 0 also Bτu,v = X, sowie E[τu,v ] = −uv.

Sei nun X beliebig mit E[X] = 0 und σ 2 := E[X 2 ] < ∞. Setze μ = PX und θ = θμ wie in Lemma 22.8. Ferner sei Ξ = (Ξu , Ξv ) eine Zufallsvariable mit Werten in (−∞, 0) × [0, ∞) und Verteilung θ. Sei F = (Ft )t≥0 , wobei Ft := σ(Ξ, Bs : s ∈ [0, t]) ist. Setze τ := τΞu ,Ξv . Auf Grund der Stetigkeit von B und wegen τ ≤ τu,v , falls u < Ξu und v > Ξv , ist für jedes t ≥ 0

Ξ ∈ (u, 0) × [0, v) ∩ {τu,v ≤ t} ∈ Ft . {τ ≤ t} = u,v∈Q u x], also insgesamt Bτ = X. Weiter ist E[τ ] = −E[Ξu Ξv ] = − θ(d(u, v)) uv = σ 2 . 2 Ergänzung: Beweis von Bemerkung 22.6 Wir beweisen hier, dass man im Skorohod’schen Einbettungssatz tatsächlich ohne randomisierte Stoppzeiten auskommt, also eine Stoppzeit bezüglich der von der Brown’schen Bewegung B erzeugten Filtration wählen kann. Mit anderen Worten, man kann die Stoppzeit τ wählen, ohne dass man auf zusätzliche Zufallsvariablen, wie Ξ im obigen Beweis, zurückgreifen muss. Ein eleganter Beweis, der allerdings auf Methoden der stochastischen Analysis basiert, findet sei bei Azéma und Yor, siehe [6]. Wir folgen hier einer elementaren Route, die auf Ideen von Dubins zurückgreift. ¨ 21.2.4 ist Für u < 0 < v sei τu,v = inf{t > 0 : Bt ∈ {u, v}}. Nach Ubung E[Bτu,v ] = 0 und E[τu,v ] = −uv.

Die Idee ist, dass man X als Summe von unkorrelierten Zufallsvariablen (nämlich Martingaldifferenzen) mit Zweipunktverteilungen schreibt, wobei die Abstände zwischen diesen Punkten immer kleiner werden.


483

Für n ∈ N und σ ∈ {−, +}n setzen wir (σ, +) := (σ1 , . . . , σn , +) ∈ {−, +}n+1 . Für σ ∈ {−, +}0 := {∅} setzen wir (∅, +) = (+). Analog verfahren wir für (σ, −). Wir definieren sukzessive Mengen Aσ und Punkte μσ für σ ∈ {−, +}n , n ∈ N0 durch A∅ := R,

μ∅ := E[X],

A(σ,−) := Aσ ∩ (−∞, μσ ), A(σ,+) := Aσ ∩ [μσ , ∞), ) * μ(σ,+) := E X X ∈ A(σ,+) , (σ,−)

μ

) * E X X ∈ A(σ,−) , := μσ ,

* ) falls P X ∈ A(σ,−) > 0, sonst.

Man beachte, dass die Abbildung σ → μσ monoton ist in der lexikographischen Ordnung ((σ, −) ≤ σ ≤ (σ, +) für jedes σ).

Setze

und G∞

Gn := σ {X ∈ Aσ }, σ ∈ {−, +}m , m ≤ n für n ∈ N0 , := σ( n∈N Gn ). Dann ist Xn := E[X Gn ] für n ∈ N0 ,

ein Martingal bezüglich der Filtration (Gn )n∈N0 . Nach der Jensen’schen Ungleichung ist E[Xn2 ] ≤ E[X 2 ] < ∞ für jedes n ∈ N0 . Nach dem L2 -Martingalkonvergenzsatz (Satz 11.10) gilt daher n→∞ Xn −→ X∞ := E[X G∞ ] f.s. und in L2 . (22.9)

Für x ∈ R und n ∈ N sei σ(n, x) = (σ1 (n, x), . . . , σn (n, x)) ∈ {−, +}n (eindeutig) so gewählt, dass x ∈ Aσ(n,x) . Offenbar ist dann σm (n, x) = σm (n′ , x) für alle n, n′ ≥ m, also existiert ein (eindeutiges) σ(x) ∈ {−, +}N mit σ(n, x) = (σ1 (x), . . . , σn (x)) (der projektive Limes der σ(n, x), n ∈ N). Es ist dann x ∈ Aσ(x) := A(σ1 (x),...,σn (x)) . n Ferner ist := μ(σ1 (x),...,σn (x)) = μσ(x) n

σ(x)

Setze fn (x) := μn

⎧ ⎨ sup Aσ(x) n+1 , ⎩

σ(x)

inf An+1 ,

falls σn+1 = − falls σn+1 = +.

, f∞ = lim inf fn (x). Dann ist n→∞

fn (X) = E[X Gn ]

fast sicher für jedes n ∈ N ∪ {∞}.

(22.10)

484


Wir nehmen daher im Folgenden an, dass wir die Version Xn := fn (X), n ∈ N ∪ {∞} fest gewählt haben. Offenbar sind fn , n ∈ N, und f∞ monoton wachsend. ∞ σ(x) Schließlich setzen wir noch Aσ(x) := n=1 An . 1. Schritt Wir zeigen, dass X∞ = X f.s. Sei zunächst |X| ≤ C f.s. für ein C > 0. Wir berechnen ' ) *( E[(Xn − Xn−1 )2 ] = E E (Xn − Xn−1 )2 Gn−1 ' ) *2 ( ≥ E E |Xn − Xn−1 | Gn−1 ' ) *2 ( = E E |X − Xn−1 | Gn−1 ) ) *2 ≥ E |X − Xn−1 |]2 ≥ (2C)−2 E (X − Xn−1 )2 Auf Grund der Martingaleigenschaft ist ) * ) * ) * E (X − Xn )2 = E (X − Xn−1 )2 − E (Xn − Xn−1 )2 . * ) Setzen wir an := E (X − Xn )2 /(4C 2 ), so folgt a0 ≤ 1 und an ≤ an−1 − a2n−1


Induktiv erhalten wir an ≤ 1/(n + 1), denn es ist a1 ≤ max x(1 − x) = 41 , und x∈[0,1]

für n ≥ 2 ist wegen an−1 ≤ 1/2 an ≤

max

x∈[0,an−1 ]

x(1 − x) = an−1 (1 − an−1 ) ≤

1 n−1 n−1 = . ≤ 2 n2 n −1 n+1

n→∞

Es folgt Xn −→ X in L2 und damit X∞ = X fs.

Sei nun X nicht mehr notwendigerweise beschränkt. Für K > 0 setzen wir ⎧ X, falls |X| ≤ K, ⎨ E[X |X > K], falls X > K, X K := ⎩ E[X |X < −K], falls X < −K.

Offenbar ist P[X = X K ] ≤ E[X 2 ]/K 2 und E[X K |A] = E[X |A] für jedes Intervall A mit A ⊂ [−K, K], A ⊃ (−∞, −K) oder A ⊃ [K, ∞). Definieren wir (XnK )n∈N0 ∪{∞} wie oben, jedoch für X K statt X, so ist also Xn = XnK falls |Xm | ≤ K für alle m ≤ n. Mit der Doob’schen Ungleichung folgt ) * P[X∞ = X] ≤ P X K = X] + P[sup{|Xn | : n ∈ N} ≥ K ≤ 2E[X 2 ]/K 2 .


485

2. Schritt Wir zeigen: die Folge (Xn )n∈N0 ist ein Markovprozess mit (inhomo¨ genen) Ubergangswahrscheinlichkeiten (σ,∓) μ ) − μσ (σ,±) Gn ] = (σ,+) P Xn+1 = μ , falls Xn = μσ . (22.11) μ − μ(σ,−) Hierdurch ist die Verteilung von (Xn )n∈N0 natürlich eindeutig festgelegt.

Offenbar ist (Xn )n∈N0 ein Markovprozess, weil σ(Xn ) = Gn per Konstruktion gilt. ¨ Aus der Martingaleigenschaft E[Xn+1 |Xn = μσ ] = μσ ergeben sich die Ubergangswahrscheinlichkeiten. 3. Schritt

Wir definieren Stoppzeiten τ0 = 0 und

τn+1 := inf t ≥ τn : Bt ∈ μσ : σ ∈ {−, +}n+1 ,

sowie τ := supn∈N τn . Wegen der Monotonie von σ → μσ liegt für σ ∈ {−, +}n ̺ n+1 in (μ(σ,−) , μσ ) und (μσ , μ(σ,+) . Also ist ) kein weiteres μ , ̺ ∈ {−, +} P[Bτn+1 ∈ {μ(σ,−) , μ(σ,+) }Bτn = μσ ] = 1. Nach dem Optional Sampling Theo¨ rem (Ubung 21.1.3) ist E[Bτn+1 Fτn ] = Bτn und damit (σ,∓) μ ) − μσ (σ,±) Fτn ] = (σ,+) , falls Bτn = μσ . P Bτn+1 = μ μ − μ(σ,−) ¨ Also ist (Bτn )n∈N0 ein Markovprozess mit den selben Ubergangswahrscheinlichkeiten wie (Xn )n∈N0 , und damit gilt D

(Bτn )n∈N0 = (Xn )n∈N0 . D

n→∞

Also gilt auch Bτn −→ Bτ fast sicher und Bτ = X. Ferner ist E[τ1 ] = −μ− μ+ = Var[X1 ]. Sukzessive erhält man E[τn ] =

n

m=1

Var[Xm − Xm−1 ].

Da (Xn )n∈N ein Martingal ist, sind die Differenzen unkorreliert, also E[τ ] =

∞

n=1

Var[Xn+1 − Xn ] = lim Var[Xn ] = Var[X], n→∞

nach (22.9) und wegen X = X∞ . Damit ist der Beweis von Bemerkung 22.6 erbracht. 2

486


22.3 Satz von Hartman-Wintner Ziel dieses Abschnitts ist der Beweis des Gesetzes vom iterierten Logarithmus für u.i.v. Zufallsvariablen Xn , n ∈ N mit zweiten Momenten, der auf Hartman und Wintner (1941) (siehe [68]) zurückgeht. (In der einfacheren Situation, wo die Xn Bernoulli Zufallsvariablen sind, hat bereits Khinchin (1923) die obere Abschätzung im Gesetz vom iterierten Logarithmus gefunden.) Satz 22.9 (Hartman-Wintner, Gesetz vom iterierten Logarithmus). Seien X1 , X2 , . . . u.i.v. reelle Zufallsvariablen mit E[X1 ] = 0 und Var[X1 ] = 1. Sei Sn = X1 + . . . + Xn , n ∈ N. Dann gilt Sn lim sup √ = 1 f.s. 2n log log n n→∞

(22.12)

Wir beweisen den Satz, indem wir ihn auf das Gesetz vom iterierten Logarithmus für die Brown’sche Bewegung zurückführen. Zu diesem Zweck fassen wir die Partialsummen Sn als Werte der Brown’schen Bewegung B zu gewissen Stoppzeiten τ1 ≤ τ2 ≤ . . . auf. Dass dies funktioniert, sichert der Skorohod’sche Einbettungssatz. Beweis. Nach Korollar 22.7 gibt es auf einem geeigneten Wahrscheinlichkeitsraum ein Filtration F und eine Brown’sche Bewegung B, die ein F-Martingal ist, D sowie Stoppzeiten τ1 ≤ τ2 ≤ . . ., sodass (Sn )n∈N = (Bτn )n∈N . Ferner sind (τn − τn−1 )n∈N u.i.v. mit E[τn − τn−1 ] = Var[X1 ] = 1. Nach dem Gesetz vom iterierten Logarithmus für die Brown’sche Bewegung (siehe Satz 22.1) ist Bt = 1 f.s. lim sup √ 2t log log t t→∞ Es reicht also zu zeigen, dass Bt − Bτ⌊t⌋ lim sup √ = 0 f.s. 2t log log t t→∞ n→∞

Nach dem starken Gesetz der großen Zahl (Satz 5.17) gilt n1 τn −→ 1 f.s. Sei also ε > 0 und t0 = t0 (ω) so groß, dass τ⌊t⌋ 1 ≤ ≤1+ε 1+ε t

für jedes t ≥ t0 .

Setze Mt :=

sup s∈[t/(1+ε), t (1+ε)]

|Bs − Bt |.

Mt = 0. Betrachte die Folge tn = (1 + Es reicht zu zeigen, dass lim sup √ 2t log log t t→∞ n ε) , n ∈ N, und setze

22.3 Satz von Hartman-Wintner

Mn′ :=

sup s∈[tn−1 ,tn+2 ]

487

|Bs − Btn−1 |.

Dann ist (nach der Dreiecksungleichung) für t ∈ [tn , tn+1 ] Mt ≤ 2Mn′ . Setze δ := (1 + ε)3 − 1. Dann ist tn+2 − tn−1 = δtn−1 . Brown’sche Skalierung und das Spiegelungsprinzip (Satz 21.19) ergeben nun ( ' 3 P Mn′ > 3δtn−1 log log tn−1 ( ' 3 = P sup |Bs | > 3 log log tn−1 s∈[0,1]

≤ 2P

'

sup Bs >

s∈[0,1]

3

3 log log tn−1

(

( 3 log log tn−1 2 3 ≤3 exp − log log tn−1 2 3 log log tn−1 '

= 4 P B1 >

≤ n−3/2

3

(Lemma 22.2)

für n hinreichend groß.

Die Wahrscheinlichkeiten lassen sich also u¨ ber n summieren, und das Lemma von Borel-Cantelli liefert √ 2Mn′ Mt ≤ lim sup 3 ≤ 2 3δ. lim sup √ t log log t n→∞ t→∞ tn−1 log log tn−1

Lassen wir nun ε → 0 gehen, so geht δ = (1 + ε)3 − 1 → 0, und der Beweis ist vollständig. 2

23 Große Abweichungen

Wir haben (bis auf das Gesetz vom iterierten Logarithmus) bislang zwei Typen von Grenzwertsätzen für Partialsummen Sn = X1 + . . . + Xn , n ∈ N, von identisch verteilten, reellen Zufallsvariablen (Xi )i∈N mit Verteilungsfunktion F gesehen: (1) (Schwache) Gesetze der großen Zahl besagen (unter gewissen Annahmen an die Familie (Xi )i∈N ), dass für jedes x > 0 ) * n→∞ P Sn − n E[X1 ] ≥ xn −→ 0. (23.1) Hieraus abgeleitet erhalten wir für die empirischen Verteilungsfunktionen Fn : n→∞ n x → n1 i=1 (−∞,x] (Xi ) die stochastische Konvergenz Fn − F ∞ −→ 0. Wir wollen dies umformulieren zu: Für jede Verteilungsfunktion G = F und jedes ε > 0 mit ε < F − G∞ gilt ) * n→∞ P Fn − G∞ < ε −→ 0.

(23.2)

(2) Zentrale Grenzwertsätze besagen (unter wieder anderen Annahmen an die Familie (Xi )i∈N ), dass für x ∈ R ) √ * n→∞ x P Sn − n E[X1 ] ≥ x n −→ 1 − Φ 3 , (23.3) Var[X1 ] wobei Φ : t → N0,1 ((−∞, t]) die Verteilungsfunktion der Standardnormalverteilung ist.

Der typische Wert von Sn ist jeweils n E[X1 ]. Gleichung√(23.3) macht präzise Aussagen u¨ ber mittelgroße Abweichungen (der Ordnung n) vom typischen Wert. Hieraus folgt natürlich, dass die Wahrscheinlichkeit für große Abweichungen (der Ordnung n) vom typischen Wert gegen 0 geht, also (23.1). In diesem Kapitel wollen wir die Konvergenzgeschwindigkeit in (23.1) bestimmen (Satz von Cramér), beziehungsweise in (23.2) (Satz von Sanov). Wir folgen in Teilen den Darstellungen [32] und [74].

490


23.1 Satz von Cramér Seien X1 , X2 , . . . u.i.v. mit PXi = N0,1 . Dann ist für jedes x > 0

√ ) √ * 2 1 e−n x /2 , P[Sn > xn] = P X1 > x n = 1 − Φ x n = (1 + εn ) √ 2πn n→∞

wobei (nach Lemma 22.2) εn −→ 0 gilt. Es gilt also ) * 1 x2 log P Sn > xn = − n→∞ n 2 lim

für jedes x > 0.

(23.4)

Man könnte versucht sein zu glauben, dass ein Zentraler Grenzwertsatz die Aussage (23.4) auch für alle zentrierten u.i.v. Folgen (Xi ) mit endlicher Varianz liefert. Dies ist allerdings falsch, wie der folgende Satz zeigt. Die großen Abweichungen werden eben stärker durch die Schwänze der Verteilung von Xi beeinflusst, als dies bei den mittleren Fluktuationen der Fall ist, die durch die Varianz komplett determiniert werden. Der folgende Satz zeigt dies exemplarisch anhand der Bernoulli-Verteilung. Satz 23.1. Seien X1 , X2 , . . . u.i.v. mit P[X1 = −1] = P[X1 = 1] = 21 . Dann gilt für jedes x ≥ 0 1 lim log P[Sn > xn] = −I(x), (23.5) n→∞ n wobei die Ratenfunktion I gegeben ist durch 1+z 1−z falls z ∈ [−1, 1], 2 log(1 + z) + 2 log(1 − z), (23.6) I(z) = ∞, falls |z| > 1. Bemerkung 23.2. Wir verstehen hierbei 0 log 0 = 0, wodurch I stetig wird in [−1, 1] mit I(−1) = I(1) = log 2. Man bemerke: I ist strikt konvex auf [−1, 1] mit I(0) = 0; I ist monoton wachsend auf [0, 1] und monoton fallend auf [−1, 0].3 Beweis. Für x = 0 und x > 1 ist die Aussage trivial. Für x = 1 ist P[Sn ≥ n] = 2−n , daher gilt auch hier (23.5) trivialerweise. Es reicht also, x ∈ (0, 1) zu betrachten. Es ist Sn2+n ∼ bn,1/2 binomialverteilt, also * ) n −n . P Sn ≥ xn = 2 k k≥(1+x)n/2

Wir setzen an (x) = ⌈n(1 + x)/2⌉ für n ∈ N und erhalten, weil k → fallend ist für k ≥ n2 : 2 1 n n Qn (x) := max : an (x) ≤ k ≤ n = . an (x) k

n k

monoton

(23.7)

23.1 Satz von Cramér

491

Wir machen die Abschätzung ) * 2−n Qn (x) ≤ P Sn ≥ xn ≤ (n + 1) 2−n Qn (x).

(23.8)

Die Stirling’sche Formel

1 n −n √ n e 2πn = 1 n→∞ n! lim

liefert nun lim

n→∞

1 log Qn (x) n 1 n! = lim log n→∞ n an (x)! · (n − an (x))! nn 1 log a (x) n→∞ n an (x) n · (n − an (x))n−an (x)

= lim

= lim

n→∞

= lim

n→∞

=−

n − an (x)

an (x) log(n) − log an (x) − log n − an (x) n n 1+x + log(n) log 2 1−x 1−x + log(n) − log 2 2

1+x log(n) − 2

1+x 1+x 1−x 1−x log − log = −I(x) + log 2. 2 2 2 2

Wegen (23.8) folgt hieraus (23.5).

2

Ein allgemeines Verfahren zur Bestimmung der Ratenfunktion I (unter gewissen restriktiven Annahmen an die Verteilung von (Xi )) liefert der Satz von Cramér [30]. Satz 23.3 (Cramér (1938)). Seien X1 , X2 , . . . u.i.v. reelle Zufallsvariablen mit logarithmischer momentenerzeugender Funktion ) * Λ(t) := log E etX1 < ∞ für jedes t ∈ R. (23.9)

Sei

Λ∗ (x) := sup tx − Λ(t) t∈R

für x ∈ R,

die Legendre-Transformierte von Λ. Dann gilt für jedes x > E[X1 ] lim

n→∞

) * 1 log P Sn ≥ xn = −I(x) := −Λ∗ (x). n

(23.10)

492


Beweis. Indem wir gegebenenfalls Xi − x betrachten, können wir E[Xi ] < 0 und ˜ i := Xi − x und Λ˜ und Λ˜∗ wie oben für X ˜i x = 0 annehmen. (Ist nämlich X ∗ ∗ ˜ ˜ ˜ definiert, so ist Λ(t) = Λ(t) − t · x und daher Λ (0) = supt∈R (−Λ(t)) = Λ (x).)

Setze ϕ(t) := eΛ(t) und

∗

̺ := e−Λ

(0)

= inf ϕ(t). t∈R

Nach (23.9) und dem Differentiationslemma (Satz 6.28) ist ϕ unendlich oft differenzierbar, und die ersten beiden Ableitungen sind ) * ) * ϕ′ (t) = E X1 etX1 und ϕ′′ (t) = E X12 etX1 .

Also ist ϕ strikt konvex und ϕ′ (0) = E[X1 ] < 0.

Sei zunächst der Fall P[X1 ≤ 0] = 1 betrachtet. Dann ist ϕ′ (t) < 0 für jedes t ∈ R und ̺ = lim ϕ(t) = P[X1 = 0]. Es folgt t→∞

P[Sn ≥ 0] = P[X1 = . . . = Xn = 0] = ̺n und damit die Behauptung. Sei nun P[X1 < 0] > 0 und P[X1 > 0] > 0. Dann ist lim ϕ(t) = ∞ = t→∞

lim ϕ(t). Da ϕ strikt konvex ist, besitzt ϕ eine eindeutige Minimalstelle τ ∈ R,

t→−∞

also

ϕ(τ ) = ̺

und

ϕ′ (τ ) = 0.

Wegen ϕ′ (0) < 0 ist τ > 0. Mit Hilfe der Markov’schen Ungleichung (Satz 5.11) erhalten wir die Abschätzung ) * ) * P[Sn ≥ 0] = P eτ Sn ≥ 1 ≤ E eτ Sn = ϕ(τ )n = ̺n .

Wir erhalten so die obere Schranke: lim sup n→∞

1 log P[Sn ≥ 0] ≤ log ̺ = −Λ∗ (0). n

Im Rest des Beweises müssen wir also die umgekehrte Ungleichung zeigen: lim inf n→∞

1 log P[Sn ≥ 0] ≥ log ̺. n

(23.11)

Wir verwenden eine Methode der exponentiellen Größenverzerrung der Verteilung μ := PX1 von X1 , die untypische Werte typisch macht, damit man sie besser untersuchen kann. Wir definieren also die Cramér-Transformierte μ ˆ ∈ M1 (R) von μ durch μ ˆ(dx) = ̺−1 eτ x μ(dx) für x ∈ R. ˆ1, X ˆ 2 , . . . unabhängig und identisch verteilt mit P ˆ = μ Seien X ˆ. Dann ist Xi

23.1 Satz von Cramér

) ˆ * 1 ϕ(t) ˆ := E etX1 = ̺

Also ist

etx eτ x μ(dx) =

R

493

1 ϕ(t + τ ). ̺

) ˆ 1 ] = ϕˆ′ (0) = 1 ϕ′ (τ ) = 0, E X ̺ ) ′′ ˆ 1 ] = ϕˆ (0) = 1 ϕ′′ (τ ) ∈ (0, ∞). Var X ̺

ˆ1 + . . . + X ˆ n , so ist Setzen wir Sˆn = X μ(dx1 ) · · · μ(dxn ) P[Sn ≥ 0] = {x1 +...+xn ≥0}

−τ x1

= ˆ(dxn ) ̺e μ ˆ(dx1 ) · · · ̺ e−τ xn μ {x1 +...+xn ≥0}

' ˆ = ̺n E e−τ Sn

ˆn ≥0} {S

(

.

Wir erhalten also (23.11), wenn wir zeigen können, dass lim inf n→∞

' 1 ˆ log E e−τ Sn n

ˆn ≥0} {S

(

(23.12)

≥ 0.

Nach dem Zentralen Grenzwertsatz (Satz 15.37) ist für c > 0 ' ' ( ( 1 1 ˆ ˆ log E e−τ Sn {Sˆn ≥0} ≥ log E e−τ Sn {0≤Sˆn ≤c√n } n n ' Sˆ ( √ 1 n −τ c n P √ ∈ [0, c] ≥ log e n n √

−τ c n 1 n→∞ + lim log N0,Var[X1 ] ([0, c]) −→ lim n→∞ n→∞ n n = 0. 2 Beispiel 23.4. Ist PX1 = N0,1 , so ist

) * Λ(t) = log E etX1 = log

Weiter ist

1 √ 2π

∞

2

etx e−x

−∞

/2

dx

z2 t2 = . Λ (z) = sup tz − Λ(t) = sup tz − 2 2 t∈R t∈R ∗

Die Ratenfunktion stimmt also mit der aus (23.4) u¨ berein.

=

t2 . 2

3

Beispiel 23.5. Ist PX1 = 21 δ−1 + 12 δ1 , so ist Λ(t) = log cosh(t). Der Maximierer t∗ = t∗ (z) aus dem Variationsproblem für Λ∗ erfüllt die Gleichung z = Λ′ (t∗ ) = tanh(t∗ ). Also ist

494


Λ∗ (z) = zt∗ − Λ(t∗ ) = z arc tanh(z) − log cosh(arc tanh(z)) . 1 1+z log für z ∈ (−1, 1) und 2 1−z

1 1 cosh arc tanh(z) = √ . =3 2 1−z (1 − z)(1 + z)

Nun ist arc tanh(z) =

Es folgt

z 1 1 z log(1 + z) − log(1 − z) + log(1 − z) + log(1 + z) 2 2 2 2 1−z 1+z log(1 + z) + log(1 − z). = 2 2 Dies ist aber gerade die Ratenfunktion aus Satz 23.1. Λ∗ (z) =

3

e−|x| ¨ Ubung 23.1.1. Sei X eine reelle Zufallsvariable mit Dichte f (x) = c−1 , 1 + |x|3 ∞ e−|x| dx. Man untersuche die logarithmische momentenerzeuwobei c = 3 −∞ 1 + |x| gende Funktion Λ auf Unstetigkeitsstellen und skizziere den Graphen von Λ. ♣

23.2 Prinzip der großen Abweichungen Wir wollen in diesem Abschnitt die Idee des Satzes von Cramér, die Wahrscheinlichkeiten seltener, oder untypischer, Ereignisse vermittels einer exponentiellen Rate und einer Ratenfunktion zu quantifizieren, in einen formalen Rahmen stellen. In diesem Rahmen kann die gesamte Theorie großer Abweichungen entwickelt werden; der Leser sei etwa auf die Bücher [32], [33] oder [74] verwiesen. Sei E ein polnischer Raum mit vollständiger Metrik d. Wir schreiben Bε (x) = {y ∈ E : d(x, y) < ε} für die offene Kugel um x ∈ E mit Radius ε > 0.

Eine Abbildung f : E → R = [−∞, ∞] heißt halbstetig von unten, falls für jedes a ∈ R die Niveaumenge f −1 ([−∞, a]) ⊂ E abgeschlossen ist. (Speziell sind also stetige Abbildungen stets halbstetig von unten. Allerdings ist (0,1) : R → R ¨ halbstetig von unten, jedoch nicht stetig.) Aquivalent hierzu ist die Bedingung, dass limε↓0 inf f (Bε (x)) = f (x) ist für jedes x ∈ E. (Man beachte, dass inf f (A) = inf{f (x) : x ∈ A}.) Ist K ⊂ E kompakt und nichtleer, so nimmt f auf K das Infimum an. In der Tat: Für den Fall, wo f (x) = ∞ für jedes x ∈ K ist, ist die Aussage trivial. Sei nun inf f (K) < ∞. Ist an ↓ inf f (K) streng monoton fallend, so ist K∩f −1 ([−∞, an ]) = ∅ kompakt für jedes n ∈ N, also ist auch der unendliche Schnitt nichtleer ∞ f −1 ([−∞, an ]) = ∅. f −1 (inf f (K)) = K ∩ n=1

23.2 Prinzip der großen Abweichungen

495

Definition 23.6 (Ratenfunktion). Eine von unten halbstetige Funktion I : E → [0, ∞] heißt Ratenfunktion. Sind alle Niveaumengen I −1 ([−∞, a]), a ∈ [0, ∞), kompakt, so nennen wir I eine gute Ratenfunktion.

Definition 23.7 (Prinzip großer Abweichungen). Sei I eine Ratenfunktion und (με )ε>0 eine Familie von W-Maßen auf E. Wir sagen, dass (με )ε>0 ein Prinzip großer Abweichungen (kurz: LDP für Large Deviations Principle) mit Ratenfunktion I erfüllt, falls (LDP 1) lim inf ε log(με (U )) ≥ − inf I(U ) für jedes offene U ⊂ E, ε→0

(LDP 2) lim sup ε log(με (C)) ≤ − inf I(C) ε→0

für jedes abgeschlossene C ⊂ E.

Wir sagen, dass eine Familie (Pn )n∈N von W-Maßen auf E ein LDP mit Rate rn ↑ ∞ und Ratenfunktion I erfüllt, falls (LDP 1) und (LDP 2) für die Folge εn = 1/rn und für μ1/rn = Pn gelten. Oftmals werden die Bedingungen (LDP 1) und (LDP 2) kurz untere Schranke und obere Schranke genannt. In vielen Fällen ist die untere Schranke leichter zu zeigen als die obere. Bevor wir zeigen, dass der Satz von Cramér im Wesentlichen schon ein LDP ist, bringen wir noch zwei mehr technische Aussagen. Satz 23.8. Die Ratenfunktion in einem LDP ist eindeutig. Beweis. Es erfülle (με )ε>0 das LDP mit Ratenfunktionen I und J. Dann ist für jedes x ∈ E und δ > 0 I(x) ≥ inf I(Bδ (x))

≥ − lim inf ε log με (Bδ (x)) ε→0

≥ − lim sup ε log με Bδ (x) ε→0

δ→0 ≥ inf I Bδ (x) −→ J(x).

Es folgt I(x) ≥ J(x) und analog J(x) ≥ I(x).

2

Lemma 23.9. Sei N ∈ N, und seien aiε , i = 1, . . . , N , ε > 0, nichtnegative Zahlen. Dann gilt N lim sup ε log aiε = max lim sup ε log(aiε ). ε→0

i=1

i=1,...,N

ε→0

496


Beweis. Summe und Maximum unterscheiden sich höchstens um den Faktor N : max

i=1,...,N

ε log(aiε ) ≤ ε log

N i=1

aiε ≤ ε log(N ) + max

i=1,...,N

ε log(aiε ).

Maximum und Limes (superior) vertauschen, also ist max lim sup ε log(aiε ) = lim sup ε log max aiε i=1,...,N

ε→0

i=1,...,N

ε→0

≤ lim sup ε log ε→0

N i=1

aiε

≤ lim sup ε log(N ) + max lim sup ε log(aiε ) i=1,...,N

ε→0

= max lim sup i=1,...,N

ε→0

ε→0

ε log(aiε ).

2

Beispiel 23.10. Wir nehmen an, dass die Bedingungen aus dem Satz von Cramér (Satz 23.3) gelten. Es seien also X1 , X2 , . . . u.i.v. reelle Zufallsvariablen mit Λ(t) = log(E[etX1 ]) < ∞ für jedes t ∈ R. Ferner sei Sn = X1 + . . . + Xn für jedes n. Wir wollen zeigen, dass aus dem Satz von Cramér folgt, dass Pn := PSn /n ein LDP mit Rate n und guter Ratenfunktion I(x) = Λ∗ (x) := supt∈R (tx − Λ(t)) erfüllt. Ohne Einschränkung können wir annehmen, dass E[X1 ] = 0 ist. Die Funktion I ist u¨ berall endlich, stetig, strikt konvex und hat die eindeutige Minimalstelle bei I(0) = 0. Der Satz von Cramér besagt, dass limn→∞ n1 log(Pn ([x, ∞))) = −I(x)

für x > 0 und (aus Symmetriegründen) limn→∞ x < 0. Offenbar ist für x > 0

1 n

log(Pn ((−∞, x])) = −I(x) für

1 log Pn ((x, ∞)) n→∞ n 1 log Pn ([x + ε, ∞)) = − inf I(x + ε) = −I(x) ≥ sup lim ε>0 ε>0 n→∞ n

−I(x) ≥ lim

1 log Pn ((−∞, x)) = −I(x). n Die Familie (Pn )n∈N erfüllt die Bedingungen (LDP 1) und (LDP 2) also zumindest für unbeschränkte Intervalle. Hiermit ist die Hauptarbeit getan, der Rest besteht darin, mit Standardargumenten (LDP 1) und (LDP 2) für beliebige offene, beziehungsweise abgeschlossene Mengen zu zeigen. und für x < 0 analog lim

n→∞

Sei zunächst C ⊂ R abgeschlossen. Wir definieren x+ := inf C ∩ [0, ∞) und x− = sup C ∩ (−∞, 0]. Aufgrund der Monotonie von I auf (−∞, 0] und [0, ∞) folgt inf I(C) = I(x− ) ∧ I(x+ ) (mit der Konvention I(−∞) = I(∞) = ∞). Ist x− = 0 oder x+ = 0, so ist inf(I(C)) = 0, und (LDP 2) gilt trivialerweise. Sei nun also x− < 0 < x+ . Wir erhalten mit Hilfe von Lemma 23.9

23.2 Prinzip der großen Abweichungen

lim sup n→∞

497

1 log Pn (C) n

1 log Pn (−∞, x− ] + Pn [x+ , ∞) ≤ lim sup n n→∞

1 1 log Pn [x+ , ∞) = max lim sup log Pn (−∞, x− ] , lim sup n n→∞ n n→∞

− + = max − I(x ), −I(x ) = − inf I(C).

Damit ist (LDP 2) gezeigt.

Sei nun U ⊂ R offen. Sei x ∈ U , x > 0, (falls es solch ein x gibt). Dann existiert ein ε > 0 mit (x − ε, x + ε) ⊂ U ∩ (0, ∞). Nun ist lim

n→∞

Es folgt lim inf n→∞

1 log Pn (x − ε, ∞) = −I(x − ε) > −I(x + ε) n

1 log Pn [x + ε, ∞) . = lim n→∞ n

1 1 log Pn (U ) ≥ lim log Pn ((x − ε, x + ε)) n→∞ n n

1 log Pn (x − ε, ∞) − Pn [x + ε, ∞) = lim n→∞ n

1 log Pn (x − ε, ∞) = −I(x − ε) ≥ −I(x). = lim n→∞ n

Analog folgt dies auch für x ∈ U ∩ (−∞, 0), also ist lim inf n→∞

1 log Pn (U ) ≥ inf I(U \ {0}) = inf I(U ), n

wobei wir im letzten Schritt ausgenutzt haben, dass U offen und I stetig ist. Damit ist die untere Schranke (LDP 1) gezeigt. 3 Tatsächlich kann man auf die Bedingung, dass Λ(t) < ∞ für alle t ∈ R gilt, verzichten. Da offenbar Λ(0) = 0 ist, ist Λ∗ (x) ≥ 0 für jedes x ∈ R. Die Abbildung Λ∗ ist eine konvexe Ratenfunktion, jedoch im Allgemeinen keine gute Ratenfunktion. Wir zitieren die folgende Verstärkung des Satzes von Cramér (siehe [32, Theorem 2.2.3]). Satz 23.11 (Cramér). Sind X1 , X2 , . . . u.i.v. reelle Zufallsvariablen, dann erfüllt (PSn /n )n∈N ein LDP mit Ratenfunktion Λ∗ . ¨ Ubung 23.2.1. Sei E = R. Man zeige, dass με := N0,ε ein LDP mit guter Ratenfunktion I(x) = x2 /2 erfüllt. Man zeige ferner, dass in der oberen Schranke (LDP 2) strikte Ungleichheit auftreten kann. ♣

498


¨ Ubung 23.2.2. Sei E = R. Man zeige, dass με := N0,ε2 ein LDP mit guter Ratenfunktion I(x) = ∞ · R\{0} (x) erfüllt. Man zeige ferner, dass in der unteren Schranke (LDP 1) strikte Ungleichheit auftreten kann. ♣ ¨ Ubung 23.2.3. Sei E = R. Man zeige, dass με := 12 N−1,ε + 21 N1,ε ein LDP mit ♣ guter Ratenfunktion I(x) = min( 21 (x + 1)2 , 21 (x − 1)2 ) erfüllt. ¨ Ubung 23.2.4. Man berechne Λ und Λ∗ für den Fall, wo X1 ∼ expθ für θ > 0 und interpretiere die Aussage von Satz 23.11 für diesen Fall. Man prüfe, dass Λ∗ die eindeutige Nullstelle bei E[X1 ] hat. (Ergebnis: Λ∗ (x) = θx − log(θx) − 1 falls x > 0 und = ∞ sonst.) ♣ ¨ Ubung 23.2.5. Man berechne Λ und Λ∗ für den Fall, wo X1 Cauchy verteilt ist und interpretiere die Aussage von Satz 23.11 für diesen Fall. ♣ ¨ Ubung 23.2.6. Sei Xλ ∼ Poiλ für jedes λ > 0. Man zeige, dass με := PεXλ/ε ein LDP mit guter Ratenfunktion I(x) = x log(x/λ) + λ − x für x ≥ 0 (und = ∞ sonst) erfüllt. ♣ ¨ Ubung 23.2.7. Sei (Xt )t≥0 die Irrfahrt auf Z in stetiger Zeit, die mit Rate 12 einen Schritt nach rechts springt und mit Rate 12 einen Schritt nach links springt. Man zeige, dass (PεX1/ε )ε>0 ein LDP erfüllt mit der konvexen guten Ratenfunktion √ ♣ I(x) = 1 + x arcsinh(x) − 1 + x2 .

23.3 Satz von Sanov Dieser Abschnitt ist an die Darstellung in [32] angelehnt. Wir wollen hier ein Prinzip der großen Abweichungen vorstellen, das nicht auf einem linearen Raum basiert, wie der Satz von Cramér, sondern für empirische Verteilungen unabhängiger Zufallsvariablen mit Werten in einer endlichen Menge Σ, die meist Alphabet genannt wird, annehmen. Sei μ ein W-Maß auf Σ mit μ({x}) > 0 für jedes x ∈ Σ. Seien ferner X1 , X2 , . . . u.i.v. Zufallsvariablen mit Werten in Σ und Verteilung PX1 = μ. Wir wollen ein Prinzip großer Abweichungen für die empirischen Maße n

1 δX ξn (X) := n i=1 i herleiten. Man beachte, dass nach dem Gesetz der großen Zahl P-fast sicher gilt, n→∞ dass ξn (X) −→ μ. Als Zustandsraum ergibt sich also E = M1 (Σ), ausgestattet mit der Metrik d(μ, ν) = μ − νT V der Totalvariation. (Da Σ nur endlich viele

23.3 Satz von Sanov

499

Punkte enthält, sind in E die vage Konvergenz, die schwache Konvergenz und die Konvergenz in Totalvariation identisch.) Es sei weiterhin En := μ ∈ M1 (Σ) : nμ({x}) ∈ N0 für jedes x ∈ Σ der mögliche Wertebereich der Zufallsvariablen ξn (X).

Wir erinnern an den Begriff der Entropie von μ

H(μ) := − log μ({x}) μ(dx).

Ist ν ∈ M1 (Σ), so definieren wir die relative Entropie (oder Kullback-Leibler Information nach [101]) von ν gegeben μ durch ν({x}) H(ν |μ) := log ν(dx). (23.13) μ({x}) Da μ({x}) > 0 ist für alle x ∈ Σ, ist der Integrand ν-f.s. endlich und damit ist auch das Integral endlich. Eine einfache Anwendung der Jensen’schen Ungleichung ¨ liefert, dass H(μ) ≥ 0 und H(ν |μ) ≥ 0 ist (siehe Lemma 5.26 und Ubung 5.3.3), sowie H(ν |μ) = 0 genau dann, wenn ν = μ ist. Außerdem ist offenbar

H(ν |μ) + H(ν) = − log μ({x}) ν(dx). (23.14) Da die Abbildung ν → Iμ (ν) := H(ν |μ) stetig ist, ist Iμ eine Ratenfunktion.

Lemma 23.12. Für jedes n ∈ N und ν ∈ En gilt (n + 1)−#Σ e−n H(ν | μ) ≤ P[ξn (X) = ν] ≤ e−n H(ν | μ) .

(23.15)

Beweis. Wir betrachten die Menge möglicher Werte für das n-Tupel (X1 , . . . , Xn ), sodass ξn (X) = ν ist: n 1 δk i = ν . An (ν) := k = (k1 , . . . , kn ) ∈ Σ n : n i=1

Für jedes k ∈ An (ν) ist (vergleiche (23.14)) P[ξn (X) = ν] = #An (ν) P[X1 = k1 , . . . , Xn = kn ] = #An (ν) μ({x})nν({x}) x∈Σ

= #An (ν) exp n ν(dx) log μ({x})

= #An (ν) exp − n[H(ν) + H(ν |μ)] .

500


Seien nun Y1 , Y2 , . . . u.i.v. Zufallsvariablen mit Werten in Σ und Verteilung PY1 = ν. Dann ist wie in der Rechnung für X (wegen H(ν |ν) = 0) 1 ≥ P[ξn (Y ) = ν] = #An (ν) e−nH(ν) , also #An (ν) ≤ enH(ν) . Hieraus folgt die zweite Ungleichung in (23.15).

Die Zufallsvariable n ξn (Y ) ist multinomialverteilt mit Parametern (nν({x}))x∈Σ , also ist die Abbildung En → [0, 1], ν ′ → P[ξn (Y ) = ν ′ ] maximal in ν ′ = ν. Es folgt #An (ν) = enH(ν) P[ξn (Y ) = ν] ≥

enH(ν) ≥ (n + 1)−#Σ enH(ν) . #En

Hieraus folgt die erste Ungleichung in (23.15).

2

Wir kommen jetzt zum Hauptsatz dieses Abschnitts, dem Satz von Sanov (siehe [142] und [143]). Satz 23.13 (Sanov (1957)). Seien X1 , X2 , . . . u.i.v. Zufallsvariablen mit Werten in der endlichen Menge Σ und mit Verteilung μ. Dann erfüllt die Familie (Pξn (X) )n∈N der Verteilungen der empirischen Maße ein LDP mit Rate n und Ratenfunktion Iμ = H( · |μ). Beweis. Für jedes A ⊂ E ist nach Lemma 23.12 ) * P ξn (X) ∈ A = P[ξn (X) = ν] ν∈A∩En

≤

e−nH(ν | μ)

ν∈A∩En

≤ #(A ∩ En ) exp − n inf Iμ (A ∩ En )

≤ (n + 1)#Σ exp − n inf Iμ (A) .

Es folgt lim sup n→∞

1 log P[ξn (X) ∈ A] ≤ − inf Iμ (A), n

also die obere Schranke im LDP (sogar für allgemeines A). Analog erhalten wir mit der ersten Ungleichung aus Lemma 23.12 ) *

P ξn (X) ∈ A ≥ (n + 1)−#Σ exp − n inf Iμ (A ∩ En )

und damit

lim inf n→∞

) * 1 log P ξn (X) ∈ A ≥ − lim sup inf Iμ (A ∩ En ). n n→∞

(23.16)

23.3 Satz von Sanov

501

Man beachte, dass wir für diese Ungleichung im Infimum nicht einfach A ∩ En durch A ersetzen können. Wir zeigen vielmehr, dass dies für offenes A zumindest asymptotisch geht. Sei also A ⊂ E offen. Für ν ∈ A gibt es ein ε > 0 mit Bε (ν) ⊂ n→∞ A. Für n ≥ (2 #Σ)/ε ist En ∩ Bε (ν) = ∅, also existiert eine Folge νn −→ ν mit νn ∈ En ∩ A für hinreichend großes n ∈ N. Da Iμ stetig ist, gilt lim sup inf Iμ (A ∩ En ) ≤ lim Iμ (νn ) = Iμ (ν). n→∞

n→∞

Da ν ∈ A beliebig war, folgt lim supn→∞ inf Iμ (A ∩ En ) = inf Iμ (A).

2

Beispiel 23.14. Sei Σ = {−1, 1} und μ = 12 δ−1 + 12 δ1 die Gleichverteilung auf Σ. Schreiben wir m = m(ν) = ν({1}) − ν({−1}), dann ist die relative Entropie von ν ∈ M1 (Σ) H(ν |μ) =

1−m 1+m log(1 + m) + log(1 − m). 2 2

Dies ist genau die Ratenfunktion, die wir bereits aus Satz 23.1 kennen.

3

Wir wollen den Zusammenhang zwischen den LDPs von Sanov und von Cramér, der im letzten Beispiel angedeutet wurde, nun formal herstellen, indem wir eine Variante des Satzes von Cramér für Rd -wertige Zufallsvariablen, die nur endlich viele Werte annehmen, aus dem Satz von Sanov herleiten. Beispiel 23.15. Sei Σ ⊂ Rd endlich und μ ein W-Maß auf Σ. Seien ferner X1 , X2 , . . . u.i.v. Zufallsvariablen mit Werten in Σ und Verteilung ) PX1* = μ sowie Sn = X1 + . . . + Xn fü r jedes n ∈ N. Wir setzen Λ(t) = log E et,X1 für t ∈ Rd und Λ∗ (x) = supt∈Rd t, x! − Λ(t) für x ∈ Rd .

Wir zeigen, dass PSn /n n∈N ein LDP mit Rate n und Ratenfunktion Λ∗ erfüllt. Es sei ξn (X) das empirische Maß von X1 , . . . , Xn . Sei E := M1 (Σ). Definiere die Abbildung m : E → Rd , ν → x ν(dx) = x ν({x}), x∈Σ

die ν das erste Moment zuordnet. Offenbar ist dann n1 Sn = m(ξn (X)). Für x ∈ Rd und A ⊂ Rd seien Ex := m−1 ({x}) = {ν ∈ E : m(ν) = x} und EA = m−1 (A) = {ν ∈ E : m(ν) ∈ A}. Die Abbildung ν → m(ν) ist stetig, also ist EA offen (beziehungsweise abgeschlossen), falls A offen (beziehungsweise ˜ := inf Iμ (Ex ) (wobei Iμ (ν) = H(ν |μ) die relative abgeschlossen) ist. Mit I(x) Entropie ist) gilt nach dem Satz von Sanov für offenes U ⊂ Rd lim inf n→∞

1 1 log PSn /n (U ) = lim inf log Pξn (X) m−1 (U ) n→∞ n n

˜ ). ≥ − inf I m−1 (U ) = − inf I(U μ

502


Analog ist für abgeschlossenes C ⊂ Rd lim sup n→∞

1 ˜ log PSn /n (C) ≥ − inf I(C). n

˜ Mit anderen Worten: (PSn /n )n∈N erfüllt ein LDP mit Rate n und Ratenfunktion I. Es ist also nur noch zu zeigen, dass I˜ = Λ∗ gilt. Man beachte, dass t → Λ(t) differenzierbar (mit Ableitung Λ′ ) und strikt konvex ist. Daher besitzt das Variationsproblem für Λ∗ (x) einen eindeutigen Maximierer t∗ (x). Genauer gilt Λ∗ (x) = t∗ (x), x! − Λ(t∗ (x))

und Λ∗ (x) > t, x! − Λ(t) für alle t = t∗ (x), sowie Λ′ (t∗ (x)) = x.

Nach der Jensenschen Ungleichung ist für jedes ν ∈ M1 (Σ) Λ(t) = log et,y μ(dy) t,y μ({y}) = log e ν(dy) ν({y}) μ({y}) ≥ log et,y ν(dy) ν({y}) = t, m(ν)! − H(ν |μ)

mit Gleichheit genau dann, wenn ν = νt , wo νt ({y}) = μ({y})et,y−Λ(t) . Also ist t, x! − Λ(t) ≤ inf H(ν |μ) ν∈Ex

mit Gleichheit, falls νt ∈ Ex . Nun ist aber m(νt ) = Λ′ (t), also ist νt∗ (x) ∈ Ex und damit ˜ Λ∗ (x) = t∗ (x), x! − Λ(t∗ (x)) = inf H(ν |μ) = I(x). 3 ν∈Ex

Das Beweisprinzip, das wir im letzten Beispiel verwandt haben, um das LDP mit Ratenfunktion I˜ herzuleiten, wird Kontraktionsprinzip genannt. Wir formulieren es als Satz. Satz 23.16 (Kontraktionsprinzip). Die Familie (με )ε>0 von W-Maßen auf E erfülle ein LDP mit Ratenfunktion I. Ist F ein topologischer Raum und m : E → F ˜ stetig, so erfüllen die Bildmaße (με ◦ m−1 )ε>0 ein LDP mit Ratenfunktion I(x) = −1 inf I(m ({x})).

23.4 Varadhan’sches Lemma und Freie Energie Wir nehmen an, dass (με )ε>0 eine Familie von W-Maßen ist, die ein LDP mit Ratenfunktion I erfüllt. Wir wissen also, dass die Masse von με für kleine ε > 0 mehr und

23.4 Varadhan’sches Lemma und Freie Energie

503

mehr um die Nullstellen von I herum konzentriert liegt. In der statistischen Physik ist es oftmals von Interesse, Funktionen bezüglich με (wobei 1/ε als Systemgröße“ ” verstanden wird) zu integrieren, die ihren größten Wert nicht in den Nullstellen von I annehmen, und die zudem noch exponentiell mit 1/ε skalieren. Es soll also die 0 Asymptotik von Zεφ := eφ(x)/ε με (dx) für ε → 0 untersucht werden. Unter harmlosen Stetigkeitsannahmen tragen zu dem Integral hauptsächlich diejenigen Punkte x bei, für die φ(x) groß ist, die aber gleichzeitig nicht zu unwahrscheinlich sind, also diejenigen x, für die φ(x) − I(x) die größten Werte annimmt. Die Beiträge messen wir durch die gekippten W-Maße μφε (dx) = (Zεφ )−1 eφ(x)/ε με (dx), für die wir ein LDP herleiten. Als Anwendung folgern wir das Prinzip der Minimierung der freien Energie in der statistischen Physik und analysieren speziell den Weiss’schen Ferromagneten. Satz 23.17 (Varadhan’sches Lemma (1966)). Sei I eine gute Ratenfunktion und (με )ε>0 eine Familie von W-Maßen, die ein LDP mit Ratenfunktion I erfüllt. Sei ferner φ : E → R stetig und erfülle die Bedingung (23.17) inf lim sup ε log eφ(x)/ε {φ(x)≥M } με (dx) = −∞. M >0

ε→0

Dann gilt lim ε log

ε→0

eφ(x)/ε με (dx) = sup φ(x) − I(x) .

(23.18)

x∈E

Bemerkung 23.18. Die Bedingung (23.17) folgt aus der etwas griffigeren Bedingung, dass es ein α > 1 gibt mit (23.19) lim sup ε log eαφ/ε dμε < ∞. ε→0

In der Tat: Für jedes M ∈ R ist φ(x)/ε e(φ(x)−M )/ε {φ(x)≥M } με (dx) ε log e {φ(x)≥M } με (dx) = M + ε log ≤ M + ε log eα(φ(x)−M )/ε με (dx) = −(α − 1)M + ε log eαφ(x)/ε με (dx). Hieraus und aus (23.19) folgt sofort (23.17).

3

Beweis. Wir zeigen mit unterschiedlichen Argumenten, dass die rechte Seite in (23.18) eine untere Schranke und eine obere Schranke für die linke Seite ist.

504


Für jedes x ∈ E und r > 0 ist lim inf ε log eφ/ε dμε ≥ lim inf ε log

Untere Schranke ε→0

ε→0

eφ/ε dμε

Br (x) r→0

≥ inf φ(Br (x)) − I(x) −→ φ(x) − I(x). Obere Schranke ε FM :=

Für M > 0 und ε > 0 definieren wir eφ(x)/ε με (dx) und GεM :=

{φ≥M }

eφ(x)/ε με (dx).

{φ<M }

Wir setzen ε FM := lim sup ε log FM

und

ε→0

GM := lim sup ε log GεM . ε→0

Nach Lemma 23.9 gilt für jedes M > 0 lim ε log eφ(x)/ε με (dx) = FM ∨ GM . ε→0

Da nach Voraussetzung inf M >0 FM = −∞ gilt, reicht es zu zeigen, dass

sup GM ≤ sup φ(x) − I(x) . M >0

(23.20)

x∈E

Sei δ > 0. Für jedes x ∈ I gibt es ein r(x) > 0 mit

inf I B2r(x) (x) ≥ I(x) − δ und sup φ B2r(x) (x) ≤ φ(x) − δ.

Sei a ≥ 0. Da I eine gute Ratenfunktion ist, ist die Niveaumenge K := I −1 ([0, a]) kompakt. Wir finden also endlich viele Punkte x1 , . . . , xN ∈ I −1 ([0, a]), sodass N i=1 Br(xi ) (xi ) ⊃ K. Es gilt daher GεM

≤

φ(x)/ε

e

με (dx) +

{φ<M }∩K c

i=1

≤ eM/ε με (K c ) + = e(M +ε log(με (K

N

c

N i=1

eφ(x)/ε με (dx)

{φ<M }∩Br(xi ) (xi )

e(φ(xi )∧M +δ)/ε με Br(xi ) (xi )

)))/ε

+

N

e(φ(xi )∧M +δ+ε log(με (Br(xi ) (xi ))))/ε .

i=1

Es folgt nach Lemma 23.9 und dem LDP

max φ(xi ) − I(xi ) + 2δ i=1,...,N

≤ (M − a) ∨ sup φ(x) − I(x) + 2δ.

GM ≤ (M − a) ∨

x∈E

Indem wir erst δ ↓ 0 und dann a ↑ ∞ gehen lassen, folgt (23.20).

2


505

Satz 23.19 (Gekipptes LDP). Es erfülle (με )ε>0 ein LDP mit der guten Ratenfunktion I. Ferner0 sei φ : E → R stetig und erfülle die Bedingung (23.17). Wir definieren Zεφ := eφ/ε dμε und μφε ∈ M1 (E) durch μφε (dx) = (Zεφ )−1 eφ(x)/ε με (dx).

Ferner definieren wir I φ : E → [0, ∞] durch

I φ (x) = sup φ(z) − I(z) − φ(x) − I(x) .

(23.21)

z∈E

Dann erfüllt (μφε )ε>0 ein LDP mit der Ratenfunktion I φ .

¨ Beweis. Dies bleibt dem Leser zur Ubung u¨ berlassen. (Vergleiche [33, Aufgabe 2.1.24], siehe auch [42, Abschnitt II.7].) 2 Wir wollen das Varadhan’sche Lemma im Kontext der statistischen Physik betrachten. Sei hierzu Σ ein polnischer Raum, den wir als Raum der möglichen Zustände eines einzelnen Teilchens auffassen wollen. Ferner sei λ ∈ M1 (Σ) eine Verteilung, die wir als a priori Verteilung eines Teilchens ohne Berücksichtigung der Energie auffassen wollen. Ist Σ endlich oder eine beschränkte Menge eines Rd , so ist λ typischerweise die Gleichverteilung auf Σ. Wenn wir n ununterscheidbare Teilchen unabhängig nach λ auf Positionen z1 , . . . , zn ∈ Σ setzen, so können wir den Zun stand dieses Ensembles als x := n1 i=1 δzi beschreiben. Mit μ0n ∈ M1 (M1 (Σ)) bezeichnen wir die so gewonnene a priori Verteilung von x.

Wir machen nun die Annahme, dass sich die Energie Un (x) eines Zustandes schreiben lässt als Un (x) = nU (x), wo U (x) als die mittlere Energie eines Teilchens bei Gesamtzustand x interpretiert wird. Es sei T ≥ 0 die Temperatur des Systems und β := 1/T die so genannte inverse Temperatur. Eine wichtige Rolle in der statistischen Physik spielt die Zustandssumme oder Partitionsfunktion β Zn := e−βUn dμ0n . Ein Postulat der statistischen Physik besagt, dass der Zustand x nach der Boltzmann-Verteilung verteilt ist: μβn (dx) = (Znβ )−1 e−βUn (x) μ0n (dx)

(23.22)

Das Varadhan’sche Lemma (genauer: das gekippte LDP) und der Satz von Sanov erlauben uns, die Brücke zum Variationsprinzip für die freie Energie zu schlagen. Wir nehmen nun an, dass Σ eine endliche Menge ist und λ = UΣ die Gleichverteilung auf Σ. Nach dem Satz von Sanov erfüllt (μ0n )n∈N ein LDP mit Rate n und

506

23 Große Abweichungen 0.01 0.008 0.006 0.004 0.002

–0.8

–0.6

–0.4

–0.2

0

0.2

–0.002

0.4 m

0.6

0.8

–0.004 –0.006 –0.008

beta=0.9 beta=1.0 beta=1.1

Abb. 23.1. Die verschobene freie Energie F β (m) − F β (0) des Weiss’schen Ferromagneten ohne a¨ ußeres Feld (h = 0).

Ratenfunktion I(x) = H(x|λ), wo H(x|λ) die relative Entropie von x bezüglich λ ist. Nach (23.14) ist H(x|λ) = log(#Σ) − H(x), wo H(x) die Entropie von x ist.

Wir definieren die freie Energie (oder das Helmholtz-Potential) pro Teilchen als F β (x) := U (x) − β −1 H(x).

Der Satz u¨ ber das gekippte LDP liefert nun, dass die Folge der Boltzmann-Verteilungen (μβn )n∈N ein LDP erfüllt mit Rate n und Ratenfunktion I β (x) = F β (x) −

inf

y∈M1 (Σ)

F β (y).

Für großes n ist die Boltzmann Verteilung auf diejenigen x konzentriert, die die freie Energie minimieren. Dies können für unterschiedliche Temperaturen (also Werte von β) sehr unterschiedliche Zustände sein. Daher treten bei kritischen Temperaturen Phasenübergänge auf, und chemische Reaktionen laufen bei unterschiedlichen Temperaturen in unterschiedlichen Richtungen ab. Beispiel 23.20. Wir betrachten den Weiss’schen Ferromagneten. Dies ist ein mikroskopisches Modell für Magnetismus, das davon ausgeht, dass jedes von n magnetischen Teilchen eine von den zwei nAusrichtungen σi ∈ Σ = {−1, +1} hat. Die mittlere Magnetisierung m = n1 i=1 σi beschreibt den Zustand des Systems vollständig (da die Teilchen ununterscheidbar sind) und ist die relevante makroskopische Messgröße. Die Grundidee ist, dass es energetisch günstiger ist, wenn Teilchen magnetisch parallel ausgerichtet sind, als wenn sie antiparallel ausgerichtet


507

0.1

0.05

–1

–0.8

–0.6

–0.4

–0.2

0.2

0.4

m

0.6

0.8

1

–0.05

–0.1

beta=0.9 beta=1.0 beta=1.1 beta=1.5

Abb. 23.2. Die verschobene freie Energie F β (m) − F β (0) des Weiss’schen Ferromagneten mit a¨ ußerem Feld h = 0.04.

sind. Wir wollen die räumliche Struktur der Wechselwirkung ignorieren und annehmen, dass jedes Teilchen mit jedem anderen in gleicher Weise wechselwirkt (mean field Annahme). Außerdem wollen wir annehmen, dass es ein a¨ ußeres Magnetfeld der Stärke h gibt. Bis auf Konstanten ist die Energie pro Teilchen daher 1 U (m) = − m2 − hm. 2 Die Entropie des Zustands m ist H(m) = −

1 + m 1 − m 1 − m 1+m log − log . 2 2 2 2

Die freie Energie pro Teilchen ist also '1 + m 1 + m 1 − m 1 − m ( 1 F β (m) = − m2 − hm + β −1 log log + . 2 2 2 2 2 Um die Minimalstellen von F β zu bestimmen, berechnen wir die Ableitung !

0=

d β dm F (m)

= −m − h + β −1 arctanh(m).

Wir erhalten so für m die Gleichung m = tanh(β(m + h)).

(23.23)

508


Im Fall h = 0 hat (23.23) stets die Lösung m = 0. Ist β ≤ 1, so ist diese Lösung eindeutig, und F β hat das globale Minimum in m = 0. Ist β > 1, so besitzt (23.23) β,0 β,0 zwei weitere Lösungen mβ,0 − ∈ (−1, 0) und m+ = −m− , die nur numerisch bestimmt werden können. β,0 In diesem Fall besitzt F β in 0 ein lokales Maximum und in m± globale Minima. Da für große n nur noch solche Werte angenommen werden, für die F β minimal ist, liegt die Verteilung konzentriert um 0, falls β ≤ 1 und konzentriert um mβ,0 ± , falls β,0 = m β > 1. Im letzterem Fall ist die betragsmäßige Magnetisierung mβ,0 ± + > 0. ¨ Wir haben also einen Phasenubergang zwischen einer Phase bei hoher Temperatur (β ≤ 1), wo keine Magnetisierung auftritt, und niedriger Temperatur (β > 1), wo so genannte spontane Magnetisierung auftritt (das heißt ohne Einwirkung eines a¨ ußeren Feldes).

Ist h = 0, so besitzt F β in m = 0 keine Minimalstelle. Vielmehr ist F β asymmetrisch und besitzt ein globales Minimum mβ,h mit selbem Vorzeichen wie h, sowie für großes β noch eine weiteres lokales Minimum mit dem entgegengesetzten Vorzeichen. Die exakten Werte für die Magnetisierung können wieder nur numerisch bestimmt werden. Wir können mβ,h jedoch für hohe Temperaturen (β klein) approximativ bestimmen, indem wir die Näherung tanh(β(m + h)) ≈ β(m + h) verwenden. Wir erhalten so h h mβ,h ≈ −1 = für T → ∞, (23.24) β −1 T − Tc wo die Curie-Temperatur Tc = 1 die kritische Temperatur für das Auftreten von spontaner Magnetisierung ist. Die Beziehung (23.23) heißt Curie-Weiss’sches Gesetz. 3 1 m

h=0.2 h=0.04 h=0.001

0.8

0.6

0.4

0.2

beta 0

0.5

1

1.5

2

2.5

3

3.5

Abb. 23.3. Weiss’scher Ferromagnet: Magnetisierung mβ,h + als Funktion von β.

24 Der Poisson’sche Punktprozess

Poisson’sche Punktprozesse können als ein Grundbaustein zur Konstruktion sehr unterschiedlicher stochastischer Objekte verwendet werden, wie etwa unbegrenzt teilbare Verteilungen, Markovprozesse mit komplexer Dynamik, Objekte der stochastischen Geometrie und so fort. Wir geben in diesem Kapitel kurz den allgemeinen Rahmen zufälliger Maße an, konstruieren den Poisson’schen Punktprozess und charakterisieren ihn durch seine Laplace-Transformierte. Als Anwendungen konstruieren wir einen Subordinator und zeigen, dass der Poisson’sche Punktprozess das invariante Maß von Systemen ¨ unabhängiger Irrfahrten ist. Uber den Zusammenhang zu Subordinatoren schlagen wir im dritten Abschnitt die Brücke zu den in der Populationsgenetik wichtigen Poisson-Dirichlet und GEM Verteilungen.

24.1 Zufällige Maße Sei E im Folgenden ein lokalkompakter, polnischer Raum (etwa E = Rd oder E = Zd ) mit Borel’scher σ-Algebra B(E). Sei

Bb (E) = B ∈ B(E) : B ist relativ kompakt

das System der beschränkten Borel’schen Mengen und M(E) der Raum der RadonMaße auf E (siehe Definition 13.3).

Definition 24.1. Wir bezeichnen mit M = σ(IA : A ∈ Bb (E)) die kleinste σAlgebra auf M(E), bezüglich der alle Abbildungen IA : μ → μ(A),

A ∈ Bb (E),

messbar sind. Wir schreiben B+ (E) für die Menge der messbaren Abbildungen E → [0, ∞] und BbR (E) für die Menge der beschränkten, 0 messbaren Abbildungen E → R mit kompaktem Träger. Das Integral If (μ) := f dμ ist für jedes f ∈ B+ (E) wohldefiniert und für jedes f ∈ BbR (E) wohldefiniert und endlich.

510


Satz 24.2. Sei τv die vage Topologie auf M(E). Dann ist M = B(τv ) = σ(If : f ∈ Cc (E)) = σ(If : f ∈ Cc+ (E)). ¨ Beweis. Ubung! (Siehe [83, Lemma 4.1].)

2

= σ(IA : A ∈ Bb (E)). K Sei M(E) der Raum aller Maße auf E mit σ-Algebra M Offenbar ist M = M die Spur-σ-Algebra von M auf M(E). Wir brauchen M(E)

diesen etwas größeren Raum, um zufällige Maße so zu definieren, dass fast sicher wohldefinierte Operationen wieder zufällige Maße ergeben. Definition 24.3. Ein zufälliges Maß auf E ist eine Zufallsvariable X auf einem und mit P[X ∈ K Wahrscheinlichkeitsraum (Ω, A, P) mit Werten in (M(E), M) M(E)] = 1.

Satz 24.4. Sei X ein zufälliges Maß auf E. Dann ist die Mengenfunktion E[X] : B(E) → [0, ∞], A → E[X(A)] ein Maß. Wir nennen E[X] das Intensitätsmaß von X. X heißt integrierbar, falls E[X] ∈ M(E). Beweis. Offenbar ist E[X] endlich additiv. Seien A, A1 , A2 , . . . ∈ B(E) mit An ↑ A. Betrachte die Zufallsvariablen Yn := X(An ) und Y = X(A). Dann gilt Yn ↑ Y , n→∞ also nach dem Satz u¨ ber monotone Konvergenz E[X](An ) = E[Yn ] −→ E[Y ] = E[X](A). Mithin ist E[X] stetig von unten und damit ein Maß (nach Satz 1.36). 2 Satz 24.5. Die Verteilung PX eines zufälligen Maßes X ist eindeutig bestimmt sowohl durch die Verteilungen von

(If1 , . . . , Ifn ) : n ∈ N; f1 , . . . , fn ∈ Cc+ (E) (24.1) als auch von

(IA1 , . . . , IAn ) : n ∈ N; A1 , . . . , An ∈ Bb (E) paarweise disjunkt .

(24.2)

Beweis. Das Mengensystem

I = (If1 , . . . , Ifn )−1 (A) : n ∈ N; f1 , . . . , fn ∈ Cc+ (E), A ∈ B([0, ∞)n )

ist schnittstabil und nach Satz 24.2 ein Erzeuger von M. Also ist das Maß PX eindeutig durch die Werte auf I festgelegt. Die Aussage folgt analog für

(IA1 , . . . , IAn ) : n ∈ N; A1 , . . . , An ∈ Bb (E) .

so existieren 2n − 1 paarweise disjunkte MenSind A1 , . . . , An ∈ Bb (E) beliebig, gen B1 , . . . , B2n −1 mit Ai = k: Bk ⊂Ai Bk für jedes i = 1, . . . , n. Die Verteilung von (IA1 , . . . , IAn ) lässt sich aus der von (IB1 , . . . , IB2n −1 ) berechnen. 2

24.1 Zufällige Maße

Im Folgenden sei i =

511

√ −1.

Definition 24.6. Wir bezeichnen mit ' ( LX (f ) = E exp − f dX , die Laplace-Transformierte von X und mit ' ( ϕX (f ) = E exp i f dX ,

f ∈ B+ (E),

f ∈ BbR (E),

die charakteristische Funktion von X. Satz 24.7. Die Verteilung PX eines zufälligen Maßes X ist eindeutig bestimmt sowohl durch die Werte der Laplace-Transformierten LX (f ), f ∈ Cc+ (E), als auch durch die Werte der charakteristischen Funktion ϕX (f ), f ∈ Cc (E). Beweis. Dies folgt aus Satz 24.5 und dem Eindeutigkeitssatz für charakteristische ¨ Funktionen (Satz 15.8) beziehungsweise Laplace-Transformierte (Ubung 15.1.2) n von Zufallsvariablen auf [0, ∞) . 2 Definition 24.8. Wir sagen, dass ein zufälliges Maß X auf E unabhängige Zuwächse hat, falls für je endlich viele paarweise disjunkte Mengen A1 , . . . , An die Zufallsvariablen X(A1 ), . . . , X(An ) unabhängig sind. Korollar 24.9. Die Verteilung eines zufälligen Maßes X auf E mit unabhängigen Zuwächsen ist durch (PX(A) , A ∈ Bb (E)) eindeutig bestimmt. Beweis. Dies folgt direkt aus Satz 24.5.

2

Definition 24.10. Sei μ ∈ M(E). Ein zufälliges Maß X mit unabhängigen Zuwächsen heißt Poisson’scher Punktprozess (PPP) mit Intensitätsmaß μ, falls für jedes A ∈ Bb (E) gilt, dass PX(A) = Poiμ(A) . Wir schreiben dann PPPμ := PX ∈ M1 (M(E)) und sagen kurz, dass X ein PPPμ ist. Bemerkung 24.11. Die Definition des PPP (und die Konstruktion im folgenden Satz) funktioniert auch, wenn (E, E, μ) lediglich ein σ-endlicher Maßraum ist. Die Charakterisierung mit Hilfe von Laplace-Transformierten und charakteristischen Funktionen ist allerdings etwas einfacher im hier betrachteten Fall lokalkompakter, polnischer Räume. 3 Satz 24.12. Zu jedem μ ∈ M(E) existiert ein Poisson’scher Punktprozess X mit Intensitätsmaß μ.

512


Beweis. Da μ ∈ M(E) ist, ist μ σ-endlich. Sei also En ↑ E mit μ(En ) < ∞ für jedes n ∈ N. Setze μ1 = μ(E1 ∩ · ) und μn = μ((En \ En−1 ) ∩ · ) ngige Poisson’sche Punktprozesse mit Intenfür n ≥ 2. Sind X1 , X2 , . . . unabhä ∞ sitätsmaßen μ1 , μ2 , . . ., so hat X = n=1 Xn das Intensitätsmaß E[X] = μ, also ¨ ist X ein zufälliges Maß (siehe Ubung 24.1.1). Außerdem sieht man leicht, dass X unabhängige Zuwächse hat und PX(A) = PX1 (A) ∗ PX2 (A) ∗ . . . = Poiμ1 (A) ∗ Poiμ2 (A) ∗ . . . = Poiμ(A) . Also ist X ∼ PPPμ .

Es reicht also, den Fall μ(E) ∈ (0, ∞) zu betrachten, den wir im Folgenden annehmen wollen. Setze ν = μ( · )/μ(E) ∈ M1 (E). Seien N, Y1 , Y2 , . . . unabhängige Zufallsvariablen mit N ∼ Poiμ(E) und PYi = ν für jedes i ∈ N. Wir definieren X(A) =

N

A (Yn )

n=1

für A ∈ B(E).

Die Zufallsvariablen A (Y1 ), A (Y2 ), . . . sind unabhängig und Berν(A) -verteilt, also ist X(A) ∼ Poiμ(A) (siehe Satz 15.14(iii)). Seien A1 , A2 , . . . ∈ B(E) paarweise disjunkt und n ' tl ψ(t) = E exp i l=1

n (

=1+ ν(Al ) ei tl − 1 , Al (Y1 ) l=1

t ∈ Rn ,

die charakteristische Funktion von ( A1 (Y1 ), . . . , An (Y1 )). Sei ferner ϕ die charakteristische Funktion von (X(A1 ), . . . , X(An )) und ϕl die von X(Al ) für l = 1, . . . , n, also ϕl (tl ) = exp(μ(Al )(eitl − 1)). Nach Satz 15.14(iii) ist n ' ( ϕ(t) = E exp i tl X(Al ) l=1

= exp μ(E)(ψ(t) − 1) n n

it l = exp μ(Al ) e − 1 = ϕl (tl ). l=1

l=1

Also sind X(A1 ), . . . , X(An ) unabhängig. Es folgt X ∼ PPPμ .

2

¨ Ubung 24.1.1. Seien X1 , X2 , . . . zufällige Maße und λ1 , λ2 , . . . ∈ [0, ∞) sowie ∞ X := n=1 λn Xn . Man zeige, dass X genau dann ein zufälliges Maß ist, wenn P[X(B) < ∞] = 1 für jedes B ∈ Bb (E). Man folgere: Ist X eine Zufallsvariable

K mit Werten in M(E), M(E) und E[X] ∈ M(E), so ist X ein zufälliges Maß. ♣ ¨ Ubung 24.1.2. Sei τw die Topologie der schwachen Konvergenz auf M1 (E) und = σ(τw ). ♣ σ(τw ) die Borel’sche σ-Algebra auf M1 (E). Man zeige: M M1 (E)

24.2 Eigenschaften des Poisson’schen Punktprozesses

513

24.2 Eigenschaften des Poisson’schen Punktprozesses Satz 24.13. Sei μ ∈ M(E) atomlos, also μ({x}) = 0 für jedes x ∈ E, und sei X ein zufälliges Maß auf E mit P[X(A) ∈ N0 ∪ {∞}] = 1 für jedes A ∈ B(E). Dann sind a¨ quivalent: (i) X ∼ PPPμ

(ii) X ist fast sicher doppelpunktfrei, also P[X({x}) ≥ 2 für ein x ∈ E] = 0, und P[X(A) = 0] = e−μ(A) Beweis. (i) =⇒ (ii)

für jedes A ∈ Bb (E).

(24.3)

Das ist klar.

(ii) =⇒ (i) Sind A1 , . . . , An ∈ Bb (E) paarweise disjunkt, so ist ) * ) * P X(A1 ) = 0, . . . , X(An ) = 0 = P X A1 ∪ . . . ∪ An = 0

= e−μ(A1 ∪...∪An ) n n −μ(Al ) = e = P[X(Al ) = 0]. l=1

l=1

:= X(A)∧1 unabhängig für disjunkte Mengen Also sind die Zufallsvariablen X(A) A. Der Rest des Beweises geht wie im Beweis von Satz 5.34. Sei A ∈ Bb (E). ¨ Wähle A0 ⊂ A mit μ(A0 ) = μ(A)/2 (das geht nach Ubung 8.3.1, weil μ atomlos ist) und setze A1 = A \ A0 . Wähle nun in gleicher Weise Ai,0 , Ai,1 ⊂ Ai für i = 0, 1 und sukzessive disjunkte Mengen Ai,0 , Ai,1 ⊂ Ai für i ∈ {0, 1}n−1 mit μ(Ai ) = 2−n μ(A) für jedes i ∈ {0, 1}n . Setze i ). X(A Nn (A) := i∈{0,1}n

Da X doppelpunktfrei ist, gilt Nn (A) ↑ X(A) fast sicher. Andererseits ist nach Voraussetzung Nn (A) ∼ b2n ,2−n μ(A) für n ∈ N, also konvergiert die charakteristische Funktion

2n n→∞

ϕNn (A) (t) = 1 + 2−n μ(A)(eit − 1) −→ exp μ(A)(eit − 1) = ϕPoiµ(A) (t). n→∞

Mithin gilt PNn (A) −→ Poiμ(A) , also X(A) ∼ Poiμ(A) .

Sind nun A1 , . . . , Ak ∈ Bb (E) paarweise disjunkt, so sind die analog konstruierten Nn (A1 ), . . . , Nn (Ak ) unabhängig, also sind auch die Limiten X(Al ) = limn→∞ Nn (Al ), l = 1, . . . , k unabhängig. 2

514


Satz 24.14. Sei μ ∈ M(E) und X ein Poisson’scher Punktprozess mit Intensitätsmaß μ. Dann hat X die Laplace-Transformierte

−f (x) f ∈ B+ (E), μ(dx) e −1 , LX (f ) = exp und die charakteristische Funktion

if (x) μ(dx) e −1 , ϕX (f ) = exp

f ∈ BbR (E).

n Beweis. Es reicht, die Aussage für Elementarfunktion f = l=1 αl Al mit komplexen Zahlen α1 , . . . , αn und paarweise disjunkten Mengen A1 , . . . , An ∈ Bb (E) zu zeigen. (Die Aussagen für allgemeines f folgen dann mit den u¨ blichen Approximationsargumenten.) Für solches f ist aber , + n n ( ' * )

e−αl X(Al ) = E e−αl X(Al ) E exp − If (X) = E l=1

=

n l=1

l=1

exp μ(Al ) e−αl − 1

= exp

n l=1

= exp

μ(Al ) e−αl − 1

−f (x) −1 . μ(dx) e

2

Korollar 24.15 (Momente des PPP). Sei μ ∈ M(E) und X ∼ PPPμ . 0 0 (i) Ist f ∈ L1 (μ), so ist E[ f dX] = f dμ. 0 0 (ii) Ist f ∈ L2 (μ) ∩ L1 (μ), so ist Var[ f dX] = f 2 dμ.

Beweis. Ist f ∈ L1 (μ), so vertauschen für die 0 charakteristische Funktion Inted ϕX (tf ) = iϕX (tf ) f (x) eitf (x) μ(dx), also ist (nach gral und Differentiation dt Satz 15.31) * 1 d ) ϕX (tf ) = f dμ. E If (X) = i dt t=0

Ist f ∈ L1 (μ) ∩ L2 (μ), so lässt sich das Argument iterieren

+ 2 , d2 2 itf (x) itf (x) , ϕX (tf ) = −ϕX (tf ) f (x) e μ(dx) + f (x) e μ(dx) dt2

* ) d2 also gilt E If (X)2 = − dt 2 ϕX (tf )

t=0

= If 2 (μ) + If (μ)2 .

2


515

Satz 24.16 (Abbildungssatz). Seien E und F lokalkompakte, polnische Räume und φ : E → F eine messbare Abbildung. Sei μ ∈ M(E) mit μ ◦ φ−1 ∈ M(F ) und X ein PPP auf E mit Intensitätsmaß μ. Dann ist X ◦ φ−1 ein PPP auf F mit Intensitätsmaß μ ◦ φ−1 . Beweis. Für f ∈ B+ (F ) ist LX◦φ−1 (f ) = LX (f ◦ φ) = exp = exp

−f (φ(x))

e

− 1 μ(dx)

−f (y) −1 e −1 μ◦φ (dy) .

Die Aussage folgt nun aus Satz 24.16 und Satz 24.7.

2

0Satz 24.17. Sei ν ∈ M((0, ∞)) und X ∼ PPPν auf (0, ∞). Setze Y := x X(dx). Dann sind a¨ quivalent (i) P[Y < ∞] > 0,

(ii) P[Y < ∞] = 1,

0 (iii) ν(dx) 1 ∧ x < ∞.

Gelten (i)–(iii), so ist Y eine unbegrenzt teilbare, nichtnegative Zufallsvariable mit Lévy-Maß ν. 0 0 Beweis. Sei Y∞ = [1,∞) x X(dx) und Yt := (t,1) x X(dx) für t ∈ [0, 1). Offenbar ist Y = Y0 + Y∞ . Außerdem ist offenbar P[Y∞ < ∞] > 0 ⇐⇒ P[Y∞ < ∞] = 1 ⇐⇒ ν([1, ∞)) < ∞. (24.4) 0 Gilt (iii), so ist E[Y0 ] = (0,1) x ν(dx) < ∞, also Y0 < ∞ f.s. (und wegen (24.4) auch Y < ∞ f.s.). Gilt andererseits (iii) nicht, so ist Y∞ = ∞ f.s. oder E[Y0 ] = ∞. Während für Y∞ die Erwartung unendlich sein kann, auch wenn Y∞ f.s. endlich ist, ist dies für Y0 nicht möglich, denn Y0 setzt sich im Gegensatz zu Y∞ nicht aus wenigen großen, sondern aus vielen kleinen Beiträgen zusammen, sodass ein Gesetz der großen Zahl gilt. Konkret ist nach Korollar 24.15 x2 ν(dx) ≤ x ν(dx) = E[Yt ] < ∞ Var[Yt ] = (t,1)

(t,1)

für jedes t ∈ (0, 1), also nach der Chebyshev’schen Ungleichung + , 4 Var[Yt ] t→0 E[Yt ] P Yt < −→ 0. ≤ 2 E[Yt ]2 Also ist Y0 = supt∈(0,1) Yt ≥ E[Y0 ]/2 = ∞ fast sicher.

516


Es gelten nun (i) – (iii). Nach Satz 24.14 hat Y die Laplace-Transformierte

−tx −tY E[e ] = exp ν(dx) e −1 .

Nach der Lévy-Khinchin Formel (Satz 16.14) ist Y unbegrenzt teilbar mit LévyMaß ν. 2

Beispiel 24.18. Nach Korollar 16.10 existiert zu jeder nichtnegativen unbegrenzt teilbaren Verteilung μ mit Lévy-Maß ν ein stochastischer Prozess (Yt )t≥0 mit unabhängigen stationären Zuwächsen und Yt ∼ μ∗t (also mit Lévy-Maß tν). Diesen Prozess können wir hier direkt konstruieren: Sei X ein PPP auf (0, ∞) × [0, ∞) mit Intensitätsmaß ν ⊗ λ (wo λ das Lebesgue-Maß ist). Setze Y0 = 0 und x X(d(x, s)). Yt := (0,∞)×(0,t]

Nach dem Abbildungssatz ist X( · × (s, t]) ∼ PPP(t−s)ν , also ist Yt − Ys unbegrenzt teilbar mit Lévy-Maß (t−s)ν. Die Unabhängigkeit der Zuwächse ist evident. Man beachte, dass t → Yt rechtsstetig und monoton wachsend ist.

Der so konstruierte Prozess Y heißt Subordinator mit Lévy-Maß ν.

3

Wir können das Vorgehen des letzten Beispiels verallgemeinern, indem wir als Zeitmenge allgemeinere Mengen als [0, ∞) zulassen. Definition 24.19. Ein zufälliges Maß Y heißt unbegrenzt teilbar, wenn für jedes n ∈ N u.i.v. zufällige Maße Y1 , . . . , Yn existieren mit Y = Y1 + . . . + Yn . Satz 24.20. Sei ν ∈ M((0, ∞) × E) mit A (t) (1 ∧ x) ν(d(x, t)) < ∞

für jedes A ∈ Bb (E),

und sei α ∈ M(E). Sei X ein PPPν und Y (A) := α(A) + x A (t) X(d(x, t))

für A ∈ B(E).

Dann ist Y ein unbegrenzt teilbares zufälliges Maß mit unabhängigen Zuwächsen. Für A ∈ B(E) hat Y (A) das Lévy-Maß ν( · × A). Wir nennen ν das kanonische Maß und α den deterministischen Anteil von Y . Beweis. Das folgt direkt aus Satz 24.16 und Satz 24.17.

2


517

0 Bemerkung 24.21. Wir können Y schreiben als Y = α + xδt X(d(x, t)), wo δt die Einheitsmasse in t ∈ E ist. Wenn wir nun statt x δt allgemeinere Maße χ ∈ M(E) zulassen, so erhalten wir eine Darstellung Y =α+ χ X(dχ), M(E)

0 wo X ∼ PPPν auf M(E) und ν ∈ M(M(E)) mit ν(dχ)(χ(A)∧1) < ∞ für jedes A ∈ Bb (E). Man kann zeigen, dass dies die allgemeinste Form eines unbegrenzt teilbaren Maßes auf E ist. Wir nennen ν das kanonische Maß von Y und α den deterministischen Anteil. Y ist charakterisiert durch die Laplace-Transformierte, die der Lévy-Khinchin Formel genügt:

− 0 f dχ 3 −1 . LY (f ) = exp − f dα + ν(dχ) e Satz 24.22 (Färbungssatz). Sei F ein weiterer lokalkompakter, polnischer Raum und μ ∈ M(E) atomlos sowie (Yx )x∈E u.i.v. Zufallsvariablen mit Werten in F und Verteilung ν ∈ M1 (F ). Dann ist Z(A) := A ∈ B(E × F ), A (x, Yx ) X(dx), ein PPPμ⊗ν auf E × F . ¨ Beweis. Ubung!

2

Wir wollen die Aussage des Färbungssatzes in nahe liegender Weise verallgemeinern: Die Annahme, dass das Maß μ atomlos ist, sorgt schließlich nur dafür, dass X keine Doppelpunkte hat, also für jede Einheitsmasse, die X produziert, eine andere Zufallsvariable Yx zur Verfügung steht. Außerdem wollen wir für jeden Punkt x eine eigene Verteilung von Yx erlauben. Seien also E, F lokalkompakte, polnische Räume, μ ∈ M(E) und κ ein sto0 chastischer Kern von E nach F mit μκ := μ(dx)κ(x, · ) ∈ M(F ). Seien (Yx,t )x∈E, t∈[0,1] unabhängige Zufallsvariablen mit Verteilungen PYx,t = κ(x, · ) für x ∈ E und t ∈ [0, 1]. ˜ als den PPP auf E × [0, 1] mit Wir definieren zu X ∼ PPPμ das Lifting X D Intensitätsmaß μ ⊗ λ , wo λ das Lebesgue-Maß ist. Offenbar ist dann X = [0,1]

˜ · × [0, 1]). Das zufällige Maß X ˜ können wir also als Realisierung von X aufX( fassen, wobei wir den einzelnen Punkten von X willkürlich eine Markierung mit Werten aus [0, 1] gegeben haben, um sie zu unterscheiden. Wir setzen nun ˜ t)) A (Yx,t ) für A ∈ B(F ). X κ (A) := X(d(x,

518


Satz 24.23. X κ ist ein zufälliges Maß mit PX κ = PPPμκ . Beweis. Offenbar ist X κ (A) fast sicher ein Maß. Für A ∈ Bb (F ) ist + , ˜ E[X κ (A)] = E X(d(x, t)) κ(x, A) = (μκ)(A) < ∞ nach Voraussetzung, also ist X κ (A) < ∞ fast sicher, und damit ist X κ ein zufälliges Maß. Wir berechnen die Laplace-Transformierte von X κ . Sei g(x) := ˜ doppelpunktfrei ist) − log E[e−f (Yx,t ) ]. Dann ist (weil X + , ˜ LX κ (f ) = E exp − X(d(x, t)) f (Yx,t ) ⎤ ⎡ ⎤ ⎡ e−f (Yx,t ) ⎦ = E ⎣ E[e−f (Yx,t ) ]⎦ = E⎣ ˜ (x,t): X({(x,t)})=1

⎡

= E⎣

˜ (x,t): X({(x,t)})=1

˜ (x,t): X({(x,t)})=1

⎤

e−g(x) ⎦ = LX (g)

−f (Yx,t ) ]−1 = exp μ(dx) E[e

−f (y) −1 = exp μ(dx) κ(x, dy) e

= exp μκ(dy) e−f (y) − 1 .

2

Beispiel 24.24 (PPP als invariante Verteilung). Als Anwendung des letzten Satzes betrachten wir einen stochastischen Prozess auf E = Zd oder E = Rd , der aus unabhängigen Irrfahrten besteht. Wir nehmen also an, dass wir u.i.v. Zufallsvariablen Zni , i, n ∈ N mit Verteilung ν ∈ E haben. Wir nehmen zudem an, dassdas i-te n Teilchen unseres Irrfahrtenprozesses zur Zeit n die Position Sni := S0i + l=1 Zli i hat, wobei S0 ein willkürlicher, eventuell zufälliger, Startpunkt ist. Wenn wir die Teilchen als ununterscheidbar annehmen, reicht es, die Teilchen an jedem Ort zusammenzuzählen. Wir betrachten also Xn (A) :=

∞ i=1

i A (Sn )

für A ⊂ E.

Jedes Xn ist ein Maß auf E und, wenn wir die Teilchen anfangs nicht zu sehr konzentrieren, lokal endlich, also ein zufälliges Maß. Nehmen wir an, dass X0 ∼ PPPμ für ein μ ∈ M(E) ist. Wir setzen κ(x, · ) = δx ∗ν und schreiben κn für die n-fache D Anwendung von κ, also κn (x, · ) = δx ∗ ν ∗n . Wir erhalten so X0κ = X1 . In der Tat: Das unabhängige Bewegen der einzelnen Teilchen in der Definition von X0κ

24.3 Die Poisson-Dirichlet-Verteilung∗

519

ist genau die Dynamik der unabhängigen Irrfahrten. Da nun auch X1 ein PPP ist, D erhalten wir iterativ Xnκ = Xn+1 und damit Xn ∼ PPPμκn = PPPμ∗ν ∗n . Speziell D

ist X0 = Xn genau dann, wenn μ ∗ ν = μ gilt. Offenbar ist dies richtig, wenn E = Zd und μ das Zählmaß oder E = Rd und μ das Lebesgue-Maß. Ist beispielsweise E = Zd , so kann man unter relativ schwachen Annahmen an ν zeigen, dass das Zählmaß μ = λ die einzige Lösung von μ ∗ ν = μ ist. In dem Fall ist jedes invariante Maß eine Konvexkombination von PPPs mit verschiedenen Intensitätsmaßen θλ. 3 ¨ Ubung 24.2.1. Man zeige die Aussage von Korollar 24.15 ohne charakteristische Funktionen direkt u¨ ber die Approximation mit Elementarfunktionen. ♣ ¨ Ubung 24.2.2. Man zeige den Färbungssatz (Satz 24.22).

♣

24.3 Die Poisson-Dirichlet-Verteilung∗ Ziel dieses Abschnitts ist die Lösung des folgenden Problems: Wir brechen einen Stock der Länge 1 an einer zufälligen (uniform verteilten) Stelle in zwei Stücke und legen das linke Stück (mit der Länge W1 ) beiseite. Mit dem restlichen Stock verfahren wir in gleicher Weise und legen das linke Stück der Länge W2 beiseite. Sukzessive sammeln wir die Bruchstücke mit Längen W1 , W2 , W3 , . . . Wie sieht die gemeinsame Verteilung von (W1 , W2 , . . .) aus? Ferner wollen wir die Zahlen W1 , W2 , . . . der Größe nach umsortieren und W(1) ≥ W(2) ≥ . . . nennen. Wie sieht die Verteilung von (W(1) , W(2) , . . .) aus? Und schließlich: was hat dies mit Poisson’schen Punktprozessen zu tun? Zur Beantwortung der Fragen müssen wir etwas weiter ausholen. Wir hatten gesehen, wie die Beta-Verteilung in natürlicher Weise bei dem Pólya’schen Urnenmodell als Grenzverteilung der Frequenzen der beiden Kugelfarben auftritt. Offenbar kann man das Pólya’sche Modell auch mit n ≥ 2 Farben betrachten. Die Grenzverteilung ist dann die n-dimensionale Verallgemeinerung der Beta-Verteilung, nämlich die so genannte Dirichlet-Verteilung. Definition 24.25. Sei n ∈ {2, 3, . . .} und θ1 , . . . , θn > 0. Die Dirichlet-Verteilung Dirθ1 ,...,θn ist die Verteilung auf dem (n − 1)-dimensionalen Simplex Δn := {(x1 , . . . , xn ) ∈ [0, 1] : x1 + . . . + xn = 1}, die für messbares A ⊂ Δn definiert ist durch Dirθ1 ,...,θn (A) = A (x1 , . . . , xn ) fθ1 ,...,θn (x1 , . . . , xn ) dx1 · · · dxn−1 , wobei fθ1 ,...,θn (x1 , . . . , xn ) =

Γ (θ1 + . . . + θn ) θ1 −1 x · · · xθnn −1 . Γ (θ1 ) · · · Γ (θn ) 1

520


Die Parameter θ1 , . . . , θn entsprechen (falls ganzzahlig) den Anzahlen der Kugeln der einzelnen Farben, die ursprünglich in der Urne liegen. Wenn wir nun nicht ganz so genau hinschauen und Kugeln zweier Farben, etwa n−1 und n zusammenfassen, so sollten wir als Grenzverteilung für die Frequenzen Dirθ1 ,...,θn−2 ,θn−1 +θn erhalten. Sei (Mt )t≥0 der Moran-Gamma-Subordinator, also ein stochastischer Prozess mit rechtsstetigen, monoton wachsenden Pfaden t → Mt und unabhängigen, stationären, Gamma-verteilten Zuwächsen: Mt − Ms ∼ Γ1,t−s für t > s ≥ 0. Einen wichtigen Zusammenhang zwischen der Dirichlet-Verteilung und M liefert der folgende Satz. Satz 24.26. Seien n ∈ N und θ1 , . . . , θn > 0 sowie Θ := θ1 + . . . + θn . Seien X ∼ Dirθ1 ,...,θn und Z ∼ Γ1,Θ unabhängige Zufallsvariablen. Dann sind die Zufallsvariablen Si := Z · Xi , i = 1, . . . , n unabhängig und Si ∼ Γ1,θi . n−1 n Beweis. Sei im Folgenden stets xn := 1 − i=1 xi und s = j=1 sj . Sei Δ′n := n−1 {x1 , . . . , xn−1 > 0 : i=1 xi < 1}. Die Verteilung von (X1 , . . . , Xn−1 , Z) hat (für x ∈ Δ′n und z ≥ 0) die Dichte f (x1 , . . . , xn−1 , z) =

n

j=1

θ −1

xj j

/Γ (θj ) z Θ−1 e−z .

Betrachte die Abbildung F : Δ′n−1 × (0, ∞) → (0, ∞)n , (x1 , . . . , xn−1 , z) → (zx1 , . . . , zxn ). Die Abbildung ist invertierbar mit Umkehrabbildung F −1 : (s1 , . . . , sn ) → (s1 /s, . . . , sn−1 /s, s). Die Ableitung von F hat die Determinante det(F ′ (x1 , . . . , xn−1 , z)) = z n−1 . Nach der Transformationsformel für Dichten (Satz 1.101) hat (S1 , . . . , Sn ) die Dichte f (F −1 (s1 , . . . , sn )) | det(F ′ (F −1 (s1 , . . . , sn )))| n

sΘ−1 e−s = (sj /s)θj −1 /Γ (θj ) sn−1 j=1

g(s1 , . . . , sn ) =

=

n

j=1

(sj /s)θj −1 e−sj /Γ (θj ) .

Dies ist aber die Dichte von unabhängigen Gamma-Verteilungen.

2

i Korollar 24.27. Ist ti := j=1 θj für i = 0, . . . , n, so sind die Zufallsvariablen X = ((Mti − Mti−1 )/Mtn , i = 1, . . . , n) und S := Mtn unabhängig und X ∼ Dirθ1 ,...,θn sowie S ∼ Γ1,tn . Korollar 24.28. Sei (X1 , . . . , Xn ) ∼ Dirθ1 ,...,θn . Dann sind X1 ∼ βθ1 , ni=2 θi und (X2 /(1 − X1 ), . . . , Xn /(1 − X1 )) ∼ Dirθ2 ,...,θn unabhängig.


521

Beweis. Sei M wie in Korollar 24.27. Dann ist X1 = Mt1 /Mtn ∼ βθ1 ,tn −θ1 und −1 Mtn −Mt1 + 1 nur von Mt1 und Mtn − Mt1 abhängig. Andererseits ist X1 = Mt 1

X2 Xn ,..., 1 − X1 1 − X1

=

Mtn − Mtn−1 Mt2 − Mt1 ,..., Mtn − Mt1 Mtn − Mt1

unabhängig von Mt1 und nach Korollar 24.27 auch unabhängig von Mtn − Mt1 sowie Dirθ2 ,...,θn -verteilt. 2 Korollar 24.29. Seien V1 , V2 , . . . unabhängig und Vi ∼ βθi ,θi+1 +...+θn sowie Vn = 1. Dann ist

V1 , (1 − V1 )V2 , (1 − V1 )(1 − V2 )V3 , . . . ,

n−2 i=1

(1 − Vi ) Vn ∼ Dirθ1 ,...,θn .

Beweis. Das folgt durch Iteration der Aussage von Korollar 24.28.

2

Eine natürliche Fragestellung ist, was passiert, wenn wir immer mehr Farben differenzieren (statt zusammenzufassen). Wir wollen der Einfachheit halber eine symmetrische Situation annehmen, bei der θ1 = . . . = θn = θ/n für ein θ > 0 ist. Wir betrachten also Dirθ;n := Dirθ,...,θ für θ > 0. Ist X n = (X1n , . . . , Xnn ) ∼ Dirθ/n;n , so ist aus Symmetriegründen E[Xin ] = 1/n n→∞ für jedes n ∈ N und i = 1, . . . , n. Offenbar gilt also (X1n , . . . , Xkn ) =⇒ 0 für jedes k ∈ N. Eine Möglichkeit, einen nicht-trivialen Grenzwert zu erhalten ist, die n n Werte der Größe nach zu ordnen X(1) ≥ X(2) ≥ ... Definition 24.30. Sei θ > 0 und (Mt )t∈[0,θ] ein Moran-Gamma-Subordinator. Seien m1 ≥ m2 ≥ . . . ≥ 0 die der Größe nach sortierten Sprunghöhen von M und m ˜ i = mi /Mθ , i = 1, 2, . . . Die Verteilung der Zufallsvariablen (m ˜ 1, m ˜ 2 , . . .) auf S := {(x1 ≥ x2 ≥ . . . ≥ 0) : x1 + x2 + . . . = 1} heißt Poisson-DirichletVerteilung PDθ mit Parameter θ > 0. ∞ ˜ i = 1 ist. Sei hierzu Genau genommen müssen wir noch nachweisen, dass i=1 m Y ein PPP auf (0, ∞) × (0, θ] mit Intensitätsmaß ν ⊗ λ, wo λ das Lebesgue-Maß ist und ν(dx) = e−x x−1 dx das Lévy-Maß der Γ1,1 -Verteilung. Wir können M definieren durch Mt := (x,s): Y ({x,s})=1, s≤t x. Nun ist m1 = sup{x ∈ (0, ∞) : Y ({x} × (0, θ]) = 1} und sukzessive mn = sup{x < mn−1 : Y ({x} × (0, θ]) = 1} für n ≥ 2. Durch Vertauschung der Summationsreihenfolge erhalten wir also ∞ Mθ = n=1 mn . n→∞

n ,X n ,...) −→ PDθ . Satz 24.31. Ist X n ∼ Dirθ/n;n für n ∈ N, so gilt P(X(1) (2)

522


Beweis. Die Idee ist, die Zufallsvariablen X n , n ∈ N, so durch die Zuwächse des Moran-Gamma-Subordinators (Mt )t∈[0,θ] darzustellen, dass aus der Verteilungskonvergenz eine fast sichere Konvergenz wird. Es sei also Xin = (Mθi/n − Mθ(i−1)/n )/Mθ . Nach Korollar 24.27 ist X n ∼ Dirθ/n;n . Seien t1 , t2 , . . . ∈ (0, θ] n die Positionen der Sprünge m1 ≥ m2 ≥ . . . Offenbar ist X(1) ≥m ˜ 1 für jedes n. n Ist n so groß, dass |t1 − t2 | > θ/n ist, so ist X(2) ≥ m ˜ 2 . Sukzessive erhalten wir n n lim inf n→∞ X(i) ≥m ˜ i fast sicher. Nun ist aber (mit der Festsetzung X(i) = 0 für ∞ n i > n) i=1 X(i) = 1 für jedes n ∈ N. Nach dem Lemma von Fatou ist daher 1=

∞ i=1

Es folgt

m ˜i ≤

n limn→∞ X(i)

∞ i=1

n lim inf X(i) ≤ lim inf n→∞

n→∞

∞

n X(i) = 1.

i=1

=m ˜ i fast sicher.

2

Anstatt die Werte von X n strikt der Größe nach zu ordnen, können wir ein anderes Verfahren anwenden, das Konvergenz der Verteilungen sichert. Stellen wir uns vor, dass wir in einer Population ein genetisches Merkmal haben, das wir unterschiedlich fein messen können. Wenn wir n unterschiedliche Werte unterscheiden wollen, so soll Xin den Anteil der Bevölkerung mit dem Merkmal i bezeichnen. Wir greifen nun sukzessive zufällig Individuen aus der Population heraus. Das erste Individuum habe den Typ I1n . Mit I2n bezeichnen wir den Typ des ersten Individuums, das nicht vom Typ I1n ist. Sukzessive sei Ikn der Typ des ersten Individuums, n das nicht von einem der Typen I1n , . . . , Ik−1 ist. Wir betrachten nun den Vektor ˆ n = (X ˆ n, . . . , X ˆ nn ), wo X ˆ n = X nn . Da die Wahrscheinlichkeit für I1 = i proX 1 Ik k ˆ n den portional zur Größe der Sub-Population mit Merkmal i ist, nennen wir X sukzessive größenverzerrt gezogenen Vektor. ˆ n a¨ ndert sich nicht, wenn wir die Reihenfolge der X n , . . . , X n Die Verteilung von X n 1 n n verändern. Speziell können wir statt X n die Ordnungsstatistik (X(1) , . . . , X(n) ) ˆ n als sukzessive größenverzerrt gezogenen Vektor. wählen und erhalten ebenfalls X ˆ Insbesondere können wir für X ∼ PDθ den sukzessiv größenverzerrten Vektor X ˆ n n→∞ ˆ definieren. Gilt X n ∼ Dirθ/n;n , so folgt aus Satz 24.31 sofort, dass X =⇒ X. ˆ ausrechnen. Hiermit können wir die Verteilung von X Satz 24.32. Sei θ > 0 und seien X n ∼ Dirθ/n;n , n ∈ N, sowie X ∼ PDθ . Seien ferner V1 , V2 , . . . u.i.v. Zufallsvariablen auf [0, 1] mit Dichte x → θ(1 − x)θ−1 . Wir

k−1 setzen Z1 = V1 und Zk = ur k ≥ 2. Dann gilt: i=1 (1 − Vi ) Vk f¨ ˆ n n→∞ ˆ (i) X =⇒ X.

D ˆ= (ii) X Z.

Die Verteilung von Z heißt GEMθ -Verteilung (für Griffiths-Engen-McCloskey).


523

Beweis. Die Aussage (i) wurde bereits in der Diskussion vor dem Satz gezeigt. Um ˆ n und zeigen, dass sie gegen die (ii) zu zeigen, berechnen wir die Verteilung von X von Z konvergiert. ˆ n,1 der Vektor X n,1 = (X nn , X2 , . . . , X nn , X nn , . . . , Xnn ), bei dem nur Sei X I1 I1 −1 I1 +1 die erste Koordinate größenverzerrt gezogen wurde. Wir zeigen: ˆ n,1 ∼ Dir(θ/n)+1,θ/n,...,θ/n . X

(24.5)

n

(θ/n)−1 Sei f (x) = Γ (θ)/Γ (θ/n)n · k=1 xk die Dichte von Dirθ/n;n . Die Dichte n,1 n,1 f von X berechnen wir durch Zerlegung nach dem Wert i von I1n : f n,1 (x) =

n

x1 f (x2 , . . . , xi , x1 , xi+1 , . . . , xn ) = n x1 f (x)

i=1

= =

n nΓ (θ) θ/n (θ/n)−1 x xi 1 Γ (θ/n)n i=2

n Γ (θ + 1) (θ/n)−1 θ/n x . x Γ ((θ/n) + 1) Γ (θ/n)n−1 1 i=2 i

D ˆ n,1 = Dies ist aber die Dichte von Dir(θ/n)+1,θ/n,...,θ/n . Nach Korollar 24.28 ist X (V1n , (1 − V1n )Y1 , . . . , (1 − V1n )Yn−1 ), wobei V1n ∼ β(θ/n)+1,θ(n−1)/n und Y = (Y1 , . . . , Yn−1 ) ∼ Dirθ/n;n−1 unabhängig sind. Indem wir das Gezeigte nun auf Y anwenden, erhalten wir sukzessive D ˆn = X Z n,

wobei Z1n = V1n

und

Zkn =

k−1 i=1

(1 − Vin ) Vkn

(24.6)

für k ≥ 2,

n und wobei V1n , . . . , Vn−1 unabhängig sind und Vin ∼ β(θ/n)+1,θ(n−i)/n . Nun prüft n→∞ man aber leicht nach, dass β(θ/n)+1,θ(n−i)/n −→ β1,θ für jedes i ∈ N, und β1,θ n→∞ hat die Dichte x → θ(1 − x)θ−1 . Es gilt also Vin =⇒ Vi für jedes i und damit n→∞ ˆ n n→∞ Z n =⇒ Z und X =⇒ Z. Zusammen mit (i) folgt hieraus die Aussage (ii). 2

Unsere eingangs gestellte Frage nach den Größen W1 , W2 , . . . der Bruchstücke von sukzessiv uniform verteilt zerbrochenen Stöcken ist damit geklärt: Der Vektor (W(1) , W(2) , . . .) ist PD1 -verteilt, und (W1 , W2 , . . .) ist GEM1 -verteilt. Der China-Restaurant Prozess Wir wollen eine weitere Situation kennen lernen, in der die Poisson-DirichletVerteilung in natürlicher Weise auftaucht. Da die technischen Details etwas knifflig

524


werden, begnügen wir uns damit, die Situation zu beschreiben und zwei wichtige Sätze anzugeben. Eine exzellente und vollständige Beschreibung findet sich in [121]. Wir betrachten ein China-Restaurant mit abzählbar vielen (natürlich runden) nummerierten Tischen, an denen jeweils beliebig viele Gäste Platz finden. Anfangs sei das Restaurant leer. Nacheinander treffen (abzählbar viele) Gäste ein. Der erste Gast setzt sich an den (natürlich freien) Tisch mit der Nummer Eins. Sitzen bereits n Gäste an k Tischen, so hat der (n + 1)-te Gast die Möglichkeit, sich entweder an einen der k besetzten Tische zu setzen, oder sich an den freien Tisch mit der kleinsten Nummer zu setzen. Wir wollen annehmen, dass die Wahl zufällig erfolgt und dass sich der Gast an den l-ten besetzten Tisch (mit Nln Gästen) mit Wahrscheinlichkeit (Nln − α)/(n + θ) setzt, mit Wahrscheinlichkeit (θ + kα)/(n + θ) jedoch den ersten noch freien Tisch besetzt. Hierbei sind α ∈ [0, 1] und θ > −α. Bezeichnet Nln die Anzahl der Gäste zur Zeit n am l-ten besetzten Tisch, so nennen wir (N n )n∈N = (N1n , N2n , . . .)n∈N den China-Restaurant Prozess mit Parametern (θ, α). Ist speziell α = 0, so können wir den China-Restaurant Prozess auch so interpretieren: Die Wahrscheinlichkeit, sich links neben einen der Gäste zu setzen (also an dessen Tisch) beträgt 1/(n + θ), die Wahrscheinlichkeit, einen neuen Tisch zu besetzen dagegen θ/(n + θ). Um das asymptotische Verhalten von N n /n = (N1n /n, N2n /n, . . .) zu beschreiben, müssen wir die Poisson-Dirichlet-Verteilung und die GEM Verteilung um einen Parameter erweitern. Definition 24.33. Sei α ∈ [0, 1) und θ > −α. Seien V1 , V2 , . . . unabhängig und Vi ∼ β1−α,θ+iα . Wir definieren Z = (Z1 , Z2 , . . .) durch Z1 = V1 und

k−1 Zk = ur k ≥ 2. Dann heißt GEMα,θ := PZ die GEMi=1 (1 − Vi ) Vk f¨ Verteilung mit Parametern (α, θ). Die Verteilung des nach Größe sortierten Vektors (Z(1) , Z(2) , . . .) heißt Poisson-Dirichlet-Verteilung mit Parametern (α, θ), oder kurz PDα,θ . Explizite Formeln für die Dichte der endlichdimensionalen Verteilungen von PDα,θ finden sich etwa in [124]. Man bemerke, dass wir im Falle α = 0 die bisherigen einparametrigen Verteilungen GEMθ = GEM0,θ und PDθ = PD0,θ zurückgewinnen. Satz 24.34. Seien α ∈ [0, 1), θ > −α und (N n )n∈N der China-Restaurant Prozess n→∞ mit Parametern (α, θ). Dann gilt PN n /n −→ PDα,θ . Beweis. Siehe [122] oder [121, Theorem 25].

2

¨ Ahnlich wie für die einparametrige Poisson-Dirichlet-Verteilung gibt es eine Darstellung von PDα,θ durch die nach Größe geordneten Sprünge eines geeigneten Subordinators. Sei im Folgenden α ∈ (0, 1) und (Mt )t∈[0,1] ein α-stabiler Subordinator, also ein Subordinator mit Lévy-Maß ν(dx) = x−α−1 dx. Seien ferner


525

m1 ≥ m2 ≥ . . . ≥ 0 die Sprünge von M und m ˜ i = mi /M1 für i ∈ N, und m ˜ = (m ˜ 1, m ˜ 2 , . . .). Wir zitieren den folgenden Satz aus [121, Section 4.2]. Satz 24.35. Sei α ∈ (0, 1). (i) Es gilt m ˜ ∼ PDα,0

(ii) Ist θ > −α, so ist PDα,θ ≪ PDα,0 = P[m ˜ ∈ · ] mit PDα,θ (dx) =

M1−θ P[m ˜ ∈ dx]. E[M1−θ ]

¨ Ubung 24.3.1. Sei (X, 1 − X) ∼ Dirθ1 ,θ2 . Man zeige, dass dann X ∼ βθ1 ,θ2 Betaverteilt ist. ♣ ¨ Ubung 24.3.2. Sei X = (X1 , . . . , Xn ) ∼ Dirθ1 ,...,θn . Man zeige: (i) Für jede Permutation σ auf {1, . . . , n} ist (Xσ(1) , . . . , Xσ(n) ) ∼ Dirθσ(1) ,...,θσ(n) . (ii) Es gilt (X1 , . . . , Xn−2 , Xn−1 + Xn ) ∼ Dirθ1 ,...,θn−2 ,θn−1 +θn .

♣

¨ Ubung 24.3.3. Sei (N n )n∈N der China-Restaurant Prozess mit Parametern (0, θ). (i) Man zeige für θ = 1: (a) P[N1n = k] = 1/n für jedes k = 1, . . . , n. n = kl−1 ] = 1/(n − (k1 + . . . + kl−1 )) für (b) P[Nln = kl |N1n = k1 , . . . , Nl−1 kl = 1, . . . , n − (k1 + . . . + kl−1 ).

(c) Man folgere die Aussage von Satz 24.34 für den Fall α = 0 und θ = 1.

(ii) Man zeige für θ > 0: n→∞

(a) n P[N1n = ⌊nx⌋] −→ θ(1 − x)θ−1 für x ∈ (0, 1). ) * n→∞ n (b) n P Nln = ⌊nxl ⌋|N1n = ⌊nx1 ⌋, . . . , Nl−1 = ⌊nxl−1 ⌋ −→ (θ/yl )(1 − xl /yl )θ−1 für x1 , . . . , xl ∈ (0, 1) mit yl = 1 − (x1 + . . . + xl−1 ) > xl .

(c) Man folgere wie in (i) die Aussage von Satz 24.34 für α = 0 und θ > 0. ♣

25 Das Itô-Integral

Das Itô-Integral erlaubt es, stochastische Prozesse bezüglich der Zuwächse einer Brown’schen Bewegung oder etwas allgemeinerer Prozesse zu integrieren. Wir entwickeln das Itô-Integral zunächst für die Brown’sche Bewegung und dann für für verallgemeinerte Diffusionsprozesse. Im dritten Abschnitt leiten wir die Itô-Formel her. Diese Substitutionsformel für das Itô-Integral erlaubt es, in konkreten Fällen, mit dem Itô-Integral wirklich zu rechnen. Wir wenden die Itô-Formel im vierten Abschnitt an, um eine stochastische Lösung des Dirichlet-Problems zu formulieren. Hiermit zeigen wir im fünften Abschnitt, dass die Brown’sche Bewegung (wie die symmetrische einfache Irrfahrt) in niedrigen Dimensionen rekurrent ist, in hohen Dimensionen hingegen transient.

¨ 25.1 Das Itô-Integral bezuglich der Brown’schen Bewegung Sei W = (Wt )t≥0 eine Brown’sche Bewegung auf dem Raum (Ω, F, P) bezüglich der Filtration F, die die u¨ blichen Bedingungen erfüllt (siehe Definition 21.23). Das heißt, W ist eine Brown’sche Bewegung und ist ein F-Martingal. Das Ziel dieses Abschnittes ist es, für eine möglichst große Klasse von sinnvollen Integranden H : Ω × [0, ∞) → R, (ω, t) → Ht (ω) ein Integral t ItW (H) = Hs dWs 0

(ItW (H))t≥0

zu definieren, sodass ein stetiges F-Martingal ist. Da fast alle Pfade s → Ws (ω) der Brown’schen Bewegung lokal unendliche Variation haben, ist W (ω) nicht die Verteilungsfunktion eines signierten Lebesgue-Stieltjes-Maßes auf [0, ∞). Daher können wir ItW (H) nicht im klassischen Rahmen der Integrationstheorie definieren. Die grundlegende Idee, um dieses Integral zu konstruieren, besteht darin, es im Sinne eines L2 -Grenzwertes zu etablieren. Hierzu betrachten wir zunächst ein elementares Beispiel. Beispiel 25.1. Es seien X1 , X2 , . . . u.i.v. Zufallsvariablen mit P[Xn = 1] = P[Xn = −1] = 12 . Sei (hn )n∈N eine Folge reeller Zahlen. Unter welchen Bedingungen an (hn )n∈N ist die Reihe

528


R :=

(25.1)

hn Xn

n∈N

ur jedes ω absolut. wohldefiniert? Ist n∈N |hn | < ∞, so konvergiert die Reihe f¨ In diesem Falle tritt kein Problem auf. Wie steht es aber, wenn nur die schwächere 2 h < ∞ gilt? In diesem Falle konvergiert die Summierbarkeitsbedingung n∈N n Reihe in (25.1) nicht mehr für jedes ω, allerdings gilt E[hn Xn ] = 0 für jedes ∞ N ∞ n ∈ N und n=1 Var[hn Xn ] = n=1 h2n < ∞. Also ist RN := k=1 hk Xk , n ∈ N, konvergent im L2 -Sinne (für N → ∞). Wir können daher die Reihe R in (25.1) als L2 -Limes der Partialsummen RN definieren. Dabei ist zu beachten, dass (zumindest formal) bei den approximierenden Summen die Reihenfolge derSum∞ manden eine Rolle spielt. Wir haben also gewissermaßen n=1 anstatt n∈N konstruiert. Eine a¨ quivalente Betrachtung, die allerdings einen leicht anderen Geschmack hat und von der formalen Beschreibung her auf das Kommende hinweist, ist die folgende. Mit ℓ2 bezeichnen wir den Hilbertraum ∞ der quadratsummierbaren Folgen reeller Zahlen mit Skalarprodukt h, g! = n=1 hn gn und Norm g = g, g!1/2 . Sei der Folgen, die nur endlich viele Glieder ungleich Null haben. ℓf der Unterraum Dann ist R(h) = n∈N hn Xn für h ∈ ℓf wohldefiniert (als endliche Summe). Wegen * * 2 ) ) Var hn Xn = hn = h2 E R(h)2 = Var[R(h)] = n∈N

f

2

n∈N

f

ist die Abbildung R : ℓ → L (P) eine Isometrie. Da ℓ ⊂ ℓ2 dicht liegt, können wir R stetig auf ℓ2 fortsetzen. Ist also h ∈ ℓ2 und (hN )N ∈N eine Folge in ℓf N →∞ N →∞ mit hN − h −→ 0, so ist R(hN ) −→ R(h) im L2 -Sinne. Speziell ist N hn := hn {n≤N } , n ∈ N, N ∈ N, eine approximierende Folge für h, und es gilt N R(hN ) = n=1 hn Xn . Daher ist die oben beschriebene Approximation von R 3 mit den Partialsummen RN als Spezialfall in dieser Konstruktion enthalten.

Das Programm für die Konstruktion des Itô-Integrals ItW (H) sieht nun so aus: Zunächst betrachten wir elementare Integranden H, für die die Abbildung t → Ht (ω) eine Treppenfunktion ist, sodass das Integral als endliche Summe definiert werden kann. Danach erweitern wir das Integral wie in Beispiel 25.1 auf Integranden, die sich in einem gewissen L2 -Sinne durch elementare Integranden approximieren lassen. Definition 25.2. Wir bezeichnen mit E den Vektorraum der Abbildungen H : Ω × [0, ∞) → R von der Form Ht (ω) =

n

hi−1 (ω)

(ti−1 ,ti ] ,

i=1

wobei n ∈ N, 0 = t0 < t1 < . . . < tn und hi−1 beschränkt und Fti−1 -messbar ist für jedes i = 1, . . . , n.

25.1 Das Itô-Integral bezüglich der Brown’schen Bewegung

529

Wir nennen E den Vektorraum der elementaren vorhersagbaren Prozesse und versehen E mit einer (Pseudo-)Norm · E durch H2E =

+ n * ) E h2i−1 (ti − ti−1 ) = E

∞

0

i=1

, Hs2 ds .

Definition 25.3. Für H ∈ E und t ≥ 0 definieren wir ItW (H) =

n i=1

und W I∞ (H) =

hi−1 Wti ∧t − Wti−1 ∧t

n i=1

hi−1 Wti − Wti−1 .

Offenbar ist für jede beschränkte Stoppzeit τ n ) * ) * E IτW (H) = E hi−1 (Wtτi − Wtτi−1 ) i=1

n ) ) ** E hi−1 E Wtτi − Wtτi−1 Fti−1 = 0, = i=1

da die gestoppte Brown’sche Bewegung W τ nach den Optional Stopping Theorem ein F-Martingal ist. ) Also ist (wieder nach dem OST) (ItW (H))* t≥0 ein FW W W Martingal. Speziell ist E ItW (H) − I (H) I (H) − I (H) = 0 für ti tj+1 tj i+1 i = j, also gilt n ' * ) W 2 ( 2 E I∞ (H) = E ItW (H) − ItW (H) i i−1 i=1

n '

2 ( E h2i−1 Wti − Wti−1 =

=

i=1 n i=1

(25.2)

* ) E h2i−1 (ti − ti−1 ) = H2E .

Aus diesen Betrachtungen folgt sofort: W : E → L2 (Ω, F, P) ist eine isometrische lineaSatz 25.4. (i) Die Abbildung I∞ re Abbildung (bezüglich · E und · 2 ).

(ii) Der Prozess ItW (H) t≥0 ist ein L2 -beschränktes, stetiges F-Martingal.

Beweis. Lediglich die Linearität ist noch zu zeigen. Dies ist aber trivial.

2

530


W Die Idee ist nun, die Abbildung I∞ von E auf einen geeigneten Abschluss E von E stetig fortzusetzen. Als Unterraum von welchem Raum sollen wir aber E abschließen? Eine minimale Forderung ist die Messbarkeit von (ω, t) → Ht (ω) (bezüglich F ⊗ B([0, ∞)) sowie die Adaptiertheit von H.

Definition 25.5. Ein stochastischer Prozess X = (Xt )t≥0 mit Werten in einem polnischen Raum E heißt (i) produktmessbar, falls (ω, t) → Xt (ω) messbar ist bezüglich F ⊗ B([0, ∞))– B(E),

(ii) progressiv messbar, falls für jedes t ≥ 0 die Abbildung Ω × [0, t], (ω, s) → Xs (ω) messbar ist bezüglich Ft ⊗ B([0, t])–B(E),

(iii) vorhersagbar (oder previsibel), falls (ω, t) → Ht (ω) messbar ist bezüglich der vorhersagbaren σ-Algebra P auf Ω × [0, ∞):

P := σ X : X ist linksstetiger, adaptierter Prozess .

Bemerkung 25.6. Jedes H ∈ E ist vorhersagbar. Diese Eigenschaft sichert, dass I M (H) für jedes (auch unstetiges) Martingal M ein Martingal ist. Da wir jedoch hier nicht die Integrationstheorie für unstetige Martingale entwickeln wollen, ist der Begriff der Vorhersagbarkeit für uns im Folgenden nicht so wichtig. 3 Bemerkung 25.7. Ist H progressiv messbar, so ist H offenbar auch produktmessbar und adaptiert. Mit etwas mehr Aufwand kann man die partielle Umkehrung zeigen: Ist H adaptiert und produktmessbar, so gibt es eine progressiv messbare Modifikation von H. (Siehe etwa [113, Seite 68ff].) 3 Satz 25.8. Ist H adaptiert und f.s. rechtsstetig oder linksstetig, so ist H progressiv messbar. Insbesondere ist jeder vorhersagbare Prozess progressiv messbar. ¨ Beweis. Siehe Ubung 21.1.4.

2

Wir betrachten E als Unterraum von ' E0 := H : produktmessbar, adaptiert und H2 := E

0

∞

( Ht2 dt < ∞ .

Sei E der Abschluss von E in E0 . Satz 25.9. Ist' H progressiv messbar (etwa linksstetig oder rechtsstetig und adap0∞ 2 ( tiert) und E 0 Ht dt < ∞, so ist H ∈ E.

'0 ( ∞ Beweis. Sei H progressiv messbar und E 0 Ht2 dt < ∞. Es reicht zu zeigen, dass für jedes T > 0 eine Folge (H n )n∈N in E existiert mit

25.1 Das Itô-Integral bezüglich der Brown’schen Bewegung

+ E

T

(Hs − Hsn )2 ds

0

Schritt 1.

,

n→∞

531

(25.3)

−→ 0.

Sei zunächst H stetig und beschränkt. Setze H0n = 0 und

Htn = Hi2−n T

falls i2−n T < t ≤ (i + 1)2−n T für ein i = 0, . . . , 2n − 1 n→∞

und Htn = 0 für t > T . Dann ist H n ∈ E, und es gilt Htn (ω) −→ Ht (ω) für alle t > 0 und ω ∈ Ω. Nach dem Satz von der majorisierten Konvergenz gilt (25.3). Schritt 2. Sei nun H progressiv messbar und beschränkt. Es reicht zu zeigen, dass es stetige, adaptierte Prozesse H n , n ∈ N, gibt, für die (25.3) gilt. Sei t∧T n Ht := n Hs ds für t ≥ 0, n ∈ N. (t−1/n)∨0

Dann ist H n stetig und adaptiert und durch H∞ beschränkt. Nach dem Haupt¨ satz der Differential- und Integralrechnung (siehe Ubung 13.1.7) gilt n→∞

Htn (ω) −→ Ht (ω)

für λ − fast alle t ∈ [0, T ] und für jedes ω ∈ Ω. (25.4)

Nach dem Satz von Fubini und dem Satz u¨ ber majorisierte Konvergenz gilt daher , + T

2 n→∞ n 2 Hs (ω) − Hsn (ω) (P ⊗ λ)(d(ω, s)) −→ 0. (Hs − Hs ) ds = E 0

Ω×[0,T ]

* )0∞ Schritt 3. Sei nun H progressiv messbar und E 0 Ht2 dt < ∞. Es reicht zu zeigen, dass es eine Folge (H n )n∈N von beschränkten, progressiv messbaren Prozessen gibt, sodass (25.3) gilt. Offenbar kann hierzu aber Htn = Ht {|Ht | 0. 0

Lemma 25.15. Für jedes H ∈ )E0loc existiert * eine Folge (τn )n∈N von Stoppzeiten τ mit τn ↑ ∞ fast sicher und E 0 n Hs2 ds < ∞, also mit H (τn ) ∈ E für jedes n ∈ N. Beweis. Setze

1 2 t 2 τn := inf t ≥ 0 : Hs ds ≥ n . 0

Nach der Definition von Eloc gilt τn ↑ ∞ fast sicher und nach Konstruktion ist = (τ ) =2 )0 * =H n = = E τn Hs2 ds ≤ n. 2 0 Definition 25.16. Sei H ∈ Eloc und (τn )n∈N wie in Lemma 25.15. Wir definieren für t ≥ 0 das Itô-Integral als den fast sicheren Grenzwert t t Hs dWs := lim Hs(τn ) dWs . (25.5) n→∞

0

0

Satz 25.17. Sei H ∈ Eloc . (i) Der Grenzwert in (25.5) ist wohldefiniert, stetig in t und (f.s.) unabhängig von der Wahl der Folge (τn )n∈N . )0τ 2 * Hs ds < ∞, so ist das gestoppte Itô-Integral (ii) Ist τ ein Stoppzeit mit E 0 0 τ ∧t 2 Hs dWs ein L -beschränktes, stetiges Martingal. 0 t≥0 0 * )0T t H dW ein (iii) Ist speziell E 0 Hs2 ds < ∞ für jedes T > 0, so ist s s 0 t≥0

quadratintegrierbares, stetiges Martingal.

Beweis. (i) Nach Lemma 25.13 ist auf dem Ereignis {τn ≥ t} t t Hs dWs = Hs(τn ) dWs . 0

0

Also existiert der Limes, ist stetig und unabhängig von der Wahl der Folge (τn )n∈N . (ii) Dies folgt direkt aus Satz 25.11. (iii) Da wir τn = n wählen können, folgt dies aus (ii).

2

534


)0T * Satz 25.18. Sei H progressiv messbar und E 0 Hs2 ds < ∞ für alle T > 0. Dann definiert t Mt := Hs dWs , t ≥ 0, 0

ein quadratintegrierbares, stetiges Martingal, und t 2 2 (Nt )t≥0 := Mt − Hs ds 0

t≥0

ist ein stetiges Martingal mit N0 = 0. Beweis. Es reicht zu zeigen, dass N ein Martingal ist. Offenbar ist N adaptiert. Sei τ ein beschränkte Stoppzeit. Dann ist + , τ ) * 2 2 E Nτ = E Mτ − Hs ds 0

+ =E

0

∞

Hs(τ )

dWs

2 ,

+ −E

0

∞

,

(τ ) 2 Hs ds = 0.

¨ Nach dem Optional Stopping Theorem (siehe Ubung 21.1.3(iii)) ist N damit als Martingal erkannt. 2 Wir erinnern an den Begriff des lokales Martingals und der quadratischen Variation aus Kapitel 21.10. 0t Korollar 25.19. Ist H ∈ Eloc , so ist das Itô-Integral Mt = 0 Hs dWs ein stetiges 0t lokales Martingal mit quadratischem Variationsprozess M !t = 0 Hs2 ds.

0t Beispiel 25.20. (i) Wt = 0 1 dWs ist ein quadratintegrierbares Martingal, und (Wt2 − t)t≥0 ist ein stetiges Martingal. * )0T 0t 2 (ii) Wegen E 0 Ws2 ds = T2 < ∞ für alle T ≥ t := 0 W s dWs ein 0 ist M 0t 2 2 stetiges, quadratintegrierbares Martingal, und Mt − 0 Ws ds ist ein t≥0

stetiges Martingal.

0t (iii) Sei H progressiv messbar und beschränkt sowie Mt := 0 Hs dWs . Dann ist M progressiv messbar (weil stetig und adaptiert) und + T 2 , T s ) 2* T 2 H2∞ 2 E Ms ds = E Hr dr ds ≤ . 2 0 0 0 0 Kt := t Ms dWs ein quadratisch integrierbares, stetiges Martingal Alsoist M 0 0 K2 − t M 2 dWs und M ist ein stetiges Martingal. 3 t s 0 t≥0

25.2 Itô-Integral bezüglich Diffusionen

535

¨ 25.2 Itô-Integral bezuglich Diffusionen Ist H=

n

hi−1

n

hi−1 Mti ∧t − Mti−1 ∧t

i=1

so ist das elementare Integral ItM (H) =

i=1

(ti−1 ,ti ]

∈ E,

(25.6)

ein Martingal (beziehungsweise lokales Martingal), wenn M ein Martingal (beziehungsweise lokales Martingal) ist, und es gilt n n * * ) ) * ) M (H))2 = E h2i−1 (Mti − Mti−1 )2 = E h2i−1 ( M !ti − M !ti−1 ) E (I∞ i=1

i=1

+ =E

0

, ∞ 2 Ht d M !t ,

falls der Ausdruck auf der rechten Seite endlich ist. Grob gesprochen können wir die Prozedur, mit der wir das Itô-Integral für die Brown’sche Bewegung in Abschnitt 25.1 für Integranden H ∈ E definiert hatten, wiederholen, um ein Integral bezüglich M für eine große Klasse von Integranden zu definieren. Für die Definition der Norm auf E müssen wir im Prinzip nur dt (die quadratische Variation der Brown’schen Bewegung) durch d M !t ersetzen: , + ∞ Ht2 d M !t . H2M := E 0

Das Problem besteht nicht darin, das elementare Integral auf E fortzusetzen, sondern darin zu prüfen, welche Prozesse in E liegen. Für unstetige Martingale etwa müssen die Integranden vorhersagbar sein, damit das Integral ein Martingal wird (abgesehen von der Schwierigkeit, dass wir die Existenz einer quadratischen Variation für solche Martingale nicht etabliert haben und dies in diesem Rahmen auch nicht tun werden). Dies hatten wir in Kapitel 9.3 schon für den Fall diskreter Zeit gesehen. Haben wir nun ein stetiges Martingal M mit stetiger quadratischer Variation M ! vorliegen, so tritt immer noch folgendes Problem auf: Im Beweis von n→∞ Satz 25.9 wurde in Schritt 2 benutzt, dass Htn (ω) −→ Ht (ω) für Lebesgue-fast alle t und alle ω gilt, um zu zeigen, dass progressiv messbare H in E liegen. Ist d M !t nun nicht absolutstetig bezüglich des Lebesgue-Maßes, so reicht dies aber nicht aus, um die Konvergenz der Integrale bezüglich d M !t zu folgern. Im Fall absolutstetiger quadratischer Variation hingegen geht der Beweis glatt durch. Wie in Abschnitt 25.1 erhalten wir:

536


Satz 25.21. Sei M ein stetiges lokales Martingal mit absolutstetiger quadratischer 0T Variation M ! und H progressiv messbar mit 0 Hs2 d M !s < ∞ f.s. für je0t des T ≥ 0. Dann ist das Itô-Integral Nt := 0 Hs dMs wohldefiniert und ist 0t 2 ein stetiges lokales Martingal mit quadratischer Variation N ! = Hs d M !s . t 0 = (τ ) = n = = Für jede Folge (τn )n∈N mit τn ↑ ∞ und H < ∞ und jede Familie = m→∞M = (H n,m , n, m ∈ N) ⊂ E mit =H n,m − H (τn ) =M −→ 0 gilt t Hs dMs = lim lim ItM (H m,n ) für alle t ≥ 0 stochastisch. n→∞ m→∞

0

Als gewisse Verallgemeinerung erhalten wir den folgenden Satz. Satz 25.22. Seien M 1 und M 2 stetige lokale Martingal mit absolutstetiger qua0T dratischer Variation. Sei H i progressiv messbar mit 0 (Hsi )2 d M i !s < ∞ für 0t alle i = 1, 2 und T < ∞. Sei Nti := 0 Hsi dMsi für i = 1, 2. Dann sind N 1 und N 2 stetige lokale Martingale mit quadratischer Kovariation N i , N j !t = 0t i j Hs Hs d M i , M j !s . Sind M 1 und M 2 unabhängig, so ist N 1 , N 2 ! ≡ 0. 0 Beweis. Seien zunächst H 1 , H 2 ∈ E. Dann gibt es Zahlen 0 = t0 < t1 < . . . < tn und Ftk -messbare beschränkte Abbildungen hik , i = 1, 2, k = 0, . . . , n − 1 mit n Hti (ω) = hik−1 (ω) (tk−1 ,tk ] (t). k=1

Es folgt

Nti Ntj =

n

k,l=1

hik−1 hjl−1 Mtik ∧t − Mtik−1 ∧t Mtjl ∧t − Mtjl−1 ∧t .

Die Summanden mit k = l sind jeweils lokale Martingale. Für jeden einzelnen Summanden mit k = l ist hik−1 hjk−1 Mtik ∧t − Mtik−1 ∧t Mtjk ∧t − Mtjk−1 ∧t

− M i , M j !tk ∧t − M i , M j !tk−1 ∧t t≥0

ein lokales Martingal. Wegen n

k=1

hik−1 hjk−1

i

j

i

j

M , M !tk ∧t − M , M !tk−1 ∧t =

0

t

Hsi Hsj d M i , M j !s

0t ist Nti Ntj − 0 Hsi Hsj d M i , M j !s t≥0 ein stetiges lokales Martingal.

Der Fall allgemeiner progressiv messbarer H 1 , H 2 , die die Integrierbarkeitsbedingung erfüllen, folgt durch die u¨ blichen L2 -Approximationsargumente.

Sind M 1 und M 2 unabhängig, so ist M 1 , M 2 ! ≡ 0.

2

25.2 Itô-Integral bezüglich Diffusionen

537

Wir betrachten im Folgenden Prozesse, die sich als Itô-Integral bezüglich einer Brown’schen Bewegung schreiben lassen, und geben für diese Prozesse einen detaillierteren Beweis von Satz 25.21 an. Definition 25.23. Sei W eine Brown’sche Bewegung und σ und b progressiv 0t messbare stochastische Prozesse mit 0 σs2 +|bs | ds < ∞ fast sicher für alle t ≥ 0. Dann nennen wir den Prozess X mit t t Xt = σs dWs + bs ds für t ≥ 0 0

0

einen verallgemeinerten Diffusionsprozess (oder kurz: verallgemeinerte Diffusion) mit Diffusionskoeffiezenten σ und Drift b. Haben σ und b speziell die Gestalt σs = σ ˜ (Xs ) und bs = ˜b(Xs ) für gewisse ˜ Abbildungen σ ˜ : R → [0, ∞) und b : R → R, so nennen wir X eine Diffusion (im engeren Sinne). Im Gegensatz zu verallgemeinerten Diffusionen sind Diffusionen im engeren Sinne unter gewissen Regularitätsannahmen an die Koeffizienten stets Markovprozesse, wie wir noch sehen werden (vergleiche Satz 26.8, 26.10 und 26.26). 0t Eine Diffusion X hat stets die Gestalt X = M + A, wobei Mt = 0 σs dWs 0t 2 ein stetiges lokales Martingal mit quadratischer Variation M !t = 0 σs ds ist 0t (nach Korollar 25.19) und At = 0 bs ds ein stetiger Prozess von lokal endlicher Variation. Offenbar ist für H aus (25.6)

t

Hs dMs =

0

n i=1

=

n i=1

hi−1 Mti ∧t − Mti−1 ∧t hi−1

ti ∧t

σs dWs =

ti−1 ∧t

t

(Hs σs ) dWs .

0

0T 0T Für progressiv messbares H mit 0 Hs2 d M !s = 0 (Hs σs )2 ds < ∞ für alle T ≥ 0 definieren wir daher das Itô-Integral t t Hs dMs := (Hs σs ) dWs . 0

0

Wir erhalten ohne Weiteres, speziell ohne auf Satz 25.21 zurückzugreifen, den folgenden Satz. Satz 25.24. Sei X = M + A eine verallgemeinerte Diffusion mit σ und b wie in Definition 25.23 und H progressiv messbar mit

538


T

0

und

Hs2 σs2 ds < ∞

f.s.

für alle T ≥ 0

(25.7)

|Hs bs | ds < ∞

f.s.

für alle T ≥ 0,

(25.8)

T

0

so ist der durch t t t t t Yt := Hs dXs := Hs dMs + Hs dAs := Hs σs dWs + Hs bs ds 0

0

0

0

0

definierte Prozess Y eine verallgemeinerte Diffusion 0mit Diffusionskoeffizienten t (Hs σs )s≥0 und Drift (Hs bs )s≥0 . Speziell ist Nt := 0 Hs dMs ein stetiges lo0t 2 0t kales Martingal mit Variationsprozess N !t = 0 Hs d M !s = 0 Hs2 σs2 ds.

¨ Ubung 25.2.1. Sei M ein stetiges lokales Martingal mit absolutstetiger quadratischer Variation M ! (etwa eine verallgemeinerte Diffusion), und sei H progres0T siv messbar und stetig mit 0 Hs2 d M !s < ∞ für jedes T ≥ 0. Sei ferner P = (P (n) )n∈N eine zulässige Zerlegungsfolge (siehe Definition 21.56). Zeige:

0

T

Hs dMs = lim

n→∞

n t∈PT

Ht (Mt′ − Mt )

stochastisch für alle T ≥ 0.

♣

25.3 Die Itô-Formel Dieser und die beiden folgenden Abschnitte sind inhaltlich an ein Vorlesungsskript von Hans Föllmer angelehnt. Ist t → Xt eine differenzierbare Abbildung mit Ableitung X ′ und F ∈ C 1 (R) mit Ableitung F ′ , so gilt die klassische Substitutionsformel t t F (Xt ) − F (X0 ) = F ′ (Xs ) dXs = F ′ (Xs )Xs′ ds. (25.9) 0

0

Diese Formel bleibt richtig, wenn X stetig und von lokal endlicher Variation ist (siehe Kapitel 21.10), also die Verteilungsfunktion eines absolutstetigen signierten Maßes auf [0, ∞) ist. Dann existiert die Ableitung X ′ als Radon-Nikodym Ableitung fast u¨ berall, und man kann leicht zeigen, dass (25.9) auch in diesem Fall gilt. Die Pfade der Brown’schen Bewegung W sind nirgends differenzierbar (Satz 21.17 von Paley-Wiener-Zygmund) und haben (folglich) u¨ berall lokal unendliche Variation. Wir können also eine einfache Substitutionsformel wie in (25.9) nicht erwarten, und in der Tat sieht man leicht ein, dass sie falsch sein muss: Wählen wir

25.3 Die Itô-Formel

539

0t F (x) = x2 , so ist die rechte Seite in (25.9) (mit X durch W ersetzt) 0 2Ws dWs , also ein Martingal. Die linke Seite hingegen ist Wt2 , also ein Submartingal, das erst durch Subtraktion von t zu einem Martingal wird. In der Tat ist dieses fehlende t der zusätzliche Term, den wir in der Substitutionsformel für Itô-Integrale, der so genannten Itô-Formel, bekommen. Eine (etwas haarsträubende) Heuristik führt uns erstaunlicherweise auf die richtige Spur: √ Für kleine t ist Wt ungefähr von der √ Größe t. Wenn wir nun formal dWt = dt schreiben und für F ∈ C 2 (R) eine Taylor-Entwicklung bis zur zweiten Ordnung durchführen, so erhalten wir 1 1 dF (Wt ) = F ′ (Wt ) dWt + F ′′ (Wt ) (dWt )2 = F ′ (Wt ) dWt + F ′′ (Wt ) dt, 2 2 oder als Integral geschrieben F (Wt ) − F (W0 ) =

t

F ′ (Ws ) dWs +

0

t

0

1 ′′ F (Ws ) ds. 2

(25.10)

(Für gewisse diskrete Martingale haben wir eine analoge Formel schon in Beispiel 10.9 hergeleitet.) Hauptanliegen dieses Abschnittes ist es zu zeigen, dass diese Formel, die Itô-Formel für die Brown’sche Bewegung genannt wird, in der Tat korrekt ist. Die weitere Diskussion in diesem Abschnitt hängt nicht explizit davon ab, dass wir bezüglich der Brown’schen Bewegung integrieren, sondern benutzt lediglich, dass die Funktion, bezüglich der wir integrieren, stetige quadratische Variation hat (entlang einer geeigneten zulässigen Zerlegungsfolge P = (P n )n∈N )), für die Brown’sche Bewegung nämlich W !t = t.

Sei im Folgenden also P = (P n )n∈N eine zulässige Zerlegungsfolge (siehe DefiP n nition 21.56 für die Definition und die Notation CqV = CqV , PTn , PS,T , t′ und so weiter) und X ∈ C([0, ∞)) mit stetiger quadratischer Variation (entlang P) T → X!T = VT2 (X) = lim (Xt′ − Xt )2 . n→∞

t∈PT

P Für die Brown’sche Bewegung ist W ∈ CqV fast sicher für jede zulässige Zerlegungsfolge (Satz 21.64) und W !T = T . Für stetige lokale Martingale M kann ¨ man immerhin durch Ubergang zu einer geeigneten Teilfolge P ′ von P sicherstelP′ len, dass M ∈ CqV fast sicher gilt (Satz 21.70).

Sei also P fest gewählt und X ∈ CqV eine (deterministische) Funktion.

Satz 25.25 (Pfadweise Itô-Formel). Sei X ∈ CqV und F ∈ C 2 (R). Dann existiert für alle T ≥ 0 der Limes T F ′ (Xs ) dXs := lim F ′ (Xt )(Xt′ − Xt ), (25.11) 0

und es gilt die Itô-Formel

n→∞

n t∈PT

540


F (XT ) = F (X0 ) =

T

F ′ (Xs ) dXs +

0

1 2

T

F ′′ (Xs ) d X!s .

(25.12)

0

Dabei ist das rechte Integral in (25.12) als klassisches (Lebesgue-Stieltjes-) Integral zu verstehen. ¨ Bemerkung 25.26. Ist M ein stetiges lokales Martingal, so ist nach Ubung 25.2.1 0T ′ F (Mt )(Mt′ − das Itô-Integral 0 F (Ms ) dMs der stochastische Limes von n t∈PT

Mt ) für n → ∞. Tatsächlich stimmt also für X = M (ω) das pfadweise Integral in (25.11) mit dem Itô-Integral (f.s.) u¨ berein. Speziell gilt für das Itô-Integral der Brown’schen Bewegung die Itô-Formel (25.10). 3 Beweis (von Satz 25.25). Wir müssen zeigen, dass der Limes in (25.11) existiert und dass (25.12) gilt. Für n ∈ N und t ∈ PTn (mit Nachfolger t′ ∈ PTn ) liefert die Taylor-Formel F (Xt′ ) − F (Xt ) = F ′ (Xt )(Xt′ − Xt ) + 12 F ′′ (Xt ) · (Xt′ − Xt )2 + Rtn , (25.13)

wobei wir das Restglied

Rtn = F ′′ (ξ) − F ′′ (Xt ) · 12 (Xt′ − Xt )2

(für eine geeignete Zwischenstelle ξ zwischen Xt und Xt′ ) wie folgt abschätzen. Da X stetig ist, ist C := {Xt : t ∈ [0, T ]} kompakt und F ′′ gleichmäßig C stetig. Zu jedem ε > 0 gibt es also ein δ > 0 mit |F ′′ (Xr ) − F ′′ (Xs )| < ε

für alle r, s ∈ [0, T ] mit |Xr − Xs | < δ.

Da auch X gleichmäßig stetig ist auf [0, T ] und die Feinheit |P n | der Zerlegung nach 0 geht für n → ∞, gibt es (zu jedem δ > 0) ein Nδ , sodass sup sup |Xt′ − Xt | < δ.

n n≥Nδ t∈PT

Also ist für n ≥ Nδ und t ∈ PTn |Rtn | ≤

1 ε (Xt′ − Xt )2 . 2

Summieren wir in (25.13) u¨ ber t ∈ PTn , so erhalten wir F (Xt′ ) − F (Xt ) = F (Xt ) − F (X0 ) n t∈PT

und

n t∈PT

|Rtn | ≤ ε

n t∈PT

(Xt′ − Xt )2

n→∞

−→ ε X!t < ∞.


Da ε > 0 beliebig war, gilt also

n t∈PT

541

n→∞ ¨ |Rtn | −→ 0. Es gilt (siehe Ubung 21.10.2)

T 1 n→∞ 1 F ′′ (Xt )(Xt′ − Xt )2 −→ F ′′ (Xs ) d X!s . 2 2 0 n

t∈PT

Daher muss auch die Summe des verbleibenden Terms in (25.13) konvergieren, das heißt, es existiert der Limes in (25.11). 2 Als direkte Folgerung erhalten wir die Itô-Formel für das Itô-Integral bezüglich Diffusionen. ¨ Diffusionen). Sei Y = M + A, wobei Mt = 25.27 (Itô-Formel0 fur 0Satz t t σ dW und A = b ds, eine (verallgemeinerte) Diffusion ist (siehe Des s t 0 0 s finition 25.23). Sei F ∈ C 2 (R). Dann gilt die Itô-Formel 1 t ′′ F ′ (Ys ) dAs + F (Ys ) d M !s 2 0 0 0 t t 1 F ′ (Ys )bs + F ′′ (Ys )σs2 ds. = F ′ (Ys )σs dWs + 2 0 0 (25.14) Speziell gilt für die Brown’sche Bewegung t 1 t ′′ ′ F (Ws ) dWs + F (Wt ) − F (W0 ) = F (Ws ) ds. (25.15) 2 0 0 F (Yt ) − F (Y0 ) =

t

F ′ (Ys ) dMs +

t

Als Anwendung der Itô-Formel bringen wir eine Charakterisierung der Brown’schen Bewegung als stetiges lokales Martingal mit einer bestimmten quadratischen Variation. Satz 25.28 (Lévy’sche Charakterisierung der Brown’schen Bewegung). Sei X ∈ Mloc,c mit X0 = 0. Dann sind a¨ quivalent (i) (Xt2 − t)t≥0 ist ein lokales Martingal,

(ii) X!t = t für alle t ≥ 0,

(iii) X ist eine Brown’sche Bewegung. Beweis (iii) =⇒ (i) (i) ⇐⇒ (ii)

Das ist klar.

Das ist klar, weil der quadratische Variationsprozess eindeutig ist.

(ii) =⇒ (iii) Es reicht zu zeigen, dass Xt − Xs ∼ N0,t−s gegeben Fs für t > s ≥ 0. Wegen des Eindeutigkeitssatzes für charakteristische Funktionen reicht es zu √ zeigen, dass (mit i = −1) für A ∈ Fs und λ ∈ R gilt: * ) 2 ϕA,λ (t) := E eiλ(Xt −Xs ) A = P[A] e−λ (t−s)/2 .

542


Wir wenden die Itô-Formel separat auf Real- und Imaginärteil an und erhalten t 1 t 2 iλXr iλXt iλXs iλXr e −e = dr. iλe dXr − λ e 2 s s Es folgt * ) E eiλ(Xt −Xs ) Fs − 1 , , + t + t 1 eiλ(Xr −Xs ) dr Fs . i λ eiλ(Xr −Xs ) dXr Fs − λ2 E =E 2 s s 0t 0t Nun sind Mt := Re s i λ eiλ(Xr −Xs ) dXr und Nt := Im s i λ eiλ(Xr −Xs ) dXr , 0t t ≥ s, stetige lokales Martingale mit M !t = s λ2 sin(λ(Xr − Xs ))2 dr ≤ λ2 (t − 0t s) und N !t = s λ2 cos(λ(Xr − Xs ))2 dr ≤ λ2 (t − s). Nach Korollar 21.76 sind M und N daher Martingale, also gilt , + t i λ eiλ(Xr −Xs ) dXr Fs = 0. E s

Der Satz von Fubini liefert (wegen A ∈ Fs ) ) * ϕA,λ (t) − ϕA,λ (s) = E eiλ(Xt −Xs ) A − P[A] t t * ) 1 1 E eiλ(Xr −Xs ) A dr = − λ2 ϕA,λ (r) dr. = − λ2 2 2 s s Das heißt, ϕA,λ ist die Lösung des linearen Anfangswertproblems ϕA,λ (s) = P[A]

und

d 1 ϕA,λ (t) = − λ2 ϕA,λ (t). dt 2 2

Die eindeutige Lösung hiervon ist ϕA,λ (t) = P[A] e−λ

(t−s)/2

.

2

Als Folgerung aus dem Satz erhalten wir, dass wir jedes lokale Martingal, dessen quadratischer Variationsprozess absolutstetig (als Funktion der Zeit) ist, als ItôIntegral bezüglich einer Brown’schen Bewegung schreiben können. Satz 25.29 (Itô’scher Martingal-Darstellungssatz). Sei M ein stetiges lokales Martingal mit absolutstetiger quadratischer Variation t → M !. Dann gibt es, eventuell auf einer Erweiterung des Wahrscheinlichkeitsraums, eine Brown’sche Bewegung W mit tL d M !s dWs für alle t ≥ 0. Mt = ds 0 Beweis. Wir nehmen an, dass auf dem Wahrscheinlichkeitsraum eine Brown’sche K definiert ist, die unabhängig von M ist. (Gegebenenfalls muss der Bewegung W Wahrscheinlichkeitsraum hierzu erweitert werden.) Sei


ft := lim n M !t − M !t−1/n n→∞

543

für t > 0.

t Dann ist f eine progressiv messbare Version der Radon-Nikodym Ableitung dM dt . 0T Klar ist 0 {ft >0} ft−1 d M !t = T < ∞ für jedes T > 0, also sind die folgenden Integrale wohldefiniert, und t t −1/2 K dMs + Wt := {fs >0} fs {fs =0} dWs 0

0

ist als Summe stetiger lokaler Martingale selber eines. Nach Satz 25.22 ist t t −1 f d M ! + W !t = s {fs >0} s {fs =0} ds 0 0 t t −1 f f ds + = s {fs >0} s {fs =0} ds 0

0

= t.

Nach Satz 25.28 ist W damit als Brown’sche Bewegung erkannt. Andererseits ist t t t 1/2 −1/2 1/2 K 1/2 fs dW s fs dWs = dMs + {fs >0} fs {fs =0} fs 0 0 0 t = {fs >0} dMs . 0

0t

0t Nun ist aber Mt − 0 {fs >0} dMs = 0 {fs =0} dMs ein stetiges lokales Martin0t gal mit quadratischer Variation 0 {fs =0} d M !s = 0, also fast sicher gleich Null. 0 t 1/2 2 Also ist Mt = 0 fs dWs , wie gewünscht.

Wir kommen nun zu einer mehrdimensionalen Verallgemeinerung der (pfadweisen) d der Raum der stetigen Abbildungen X : [0, ∞) → Rd , Itô-Formel. Sei hierzu CqV 1 d t → Xt = (Xt , . . . , Xt ), sodass für k, l = 1, . . . , d die quadratische Kovariation (siehe Definition 21.58) X k , X l ! existiert und stetig ist. Ferner sei C 2 (Rd ) der Raum der zweimal stetig differenzierbaren Funktionen F auf Rd mit partiellen Ableitungen ∂k F und ∂k ∂l F , k, l = 1, . . . , d. Mit ∇F bezeichnen wir den Gradienten und mit △ = (∂12 + . . . + ∂d2 ) den Laplace-Operator. d und F ∈ Satz 25.30 (Mehrdimensionale pfadweise Itô-Formel). Sei X ∈ CqV 2 d C (R ). Dann gilt

F (XT ) − F (X0 ) = Dabei ist

0

0

T

1 ∇F dXs + 2

T

∇F (Xs ) dXs :=

T

0

d

k=1

0

d

k,l=1

∂k ∂l F (Xs ) d X k , X l !s .

T

∂k F (Xs ) dXsk .

544


¨ Beweis. Das geht wie im eindimensionalen Fall. Die Details verbleiben zur Ubung. 2 Korollar 25.31 (Produktregel). Sind X, Y, X − Y, X + Y ∈ CqV , so gilt T T XT YT = X0 Y0 + Ys dXs + Xs dYs + X, Y !T für alle T ≥ 0. 0

0

Beweis. Nach Voraussetzung (und der Polarisationsformel) existiert X, Y !. Nach Satz 25.30 mit F (x, y) = xy folgt die Aussage. 2 Sei nun Y = M + A eine d-dimensionale verallgemeinerte Diffusion, also t d t k k,l l k σs dWs und At = bks ds für t ≥ 0, k = 1, . . . , d. Mt = l=1

0

0

Dabei ist W = (W 1 , . . . , W d ) eine d-dimensionale Brown’sche Bewegung und σ k,l (beziehungsweise bk ) sind progressiv messbare, lokal quadratisch integrierbare (beziehungsweise lokal integrierbare) stochastische Prozesse für k, l = 1, . . . , d. 0t Wegen W k , W l !t = t · {k=l} ist Y k , Y l !t = M k , M l !t = 0 ak,l s ds, wobei ak,l s :=

d

σsk,i σsi,l

i=1

d die Kovarianzmatrix der Diffusion M ist. Speziell ist M ∈ CqV fast sicher. Wir erhalten als Korollar zur mehrdimensionalen pfadweisen Itô-Formel:

Satz 25.32 (Mehrdimensionale Itô-Formel). Sei Y wie oben und F ∈ C 2 (Rd ). Dann gilt F (YT ) − F (Y0 ) =

=

0

T

∇F (Ys ) dYs +

d

k,l=1

+

0

d 1 T ∂k ∂l F (Ys ) d M k , M l !s 2 0 k,l=1

t

σsk,l

∂k F (Ys ) dWsl

+

d

t

0

k=1

bks ∂k F (Ys ) ds (25.16)

d 1 t k,l as ∂k ∂l F (Ys ) ds. 2 0 k,l=1

Speziell gilt für die Brown’sche Bewegung F (Wt ) − F (W0 ) =

d

k=1

0

t

∂k F (Ws ) dWsk +

1 2

0

t

△ F (Ws ) ds.

(25.17)


545

Korollar 25.33. Der Prozess (F (Wt ))t≥0 ist genau dann ein lokales Martingal, wenn F harmonisch ist (also △ F ≡ 0 gilt). d 0 t Beweis. Ist F harmonisch, so ist F (Wt ) = F (W0 ) + k=1 0 ∂k F (Ws ) dWsk als Summe von Itô-Integralen ein stetiges lokales Martingal. 0t Ist andererseits F ein lokales Martingal, so ist auch 0 △ F (Ws ) ds als Differenz von stetigen lokalen Martingalen ein stetiges lokales Martingal. Da t → 0t 0t △ F (W ) ds von endlicher Variation ist, ist △ F (Ws ) ds = 0 für alle t ≥ 0 s 0 0 fast sicher (nach Korollar 21.72). Also ist △ F ≡ 0. 2 Korollar 25.34 (Zeitabhängige Itô-Formel). Ist F ∈ C 2,1 (Rd × R), so gilt F (WT , T ) − F (W0 , 0) d T = ∂k F (Ws , s) dWsk + k=1

0

0

T

1 ∂d+1 + (∂12 + . . . + ∂d2 ) F (Ws , s) ds. 2

Beweis. Wende Satz 25.32 an auf Y = (Wt1 , . . . , Wtd , t)t≥0 .

2

¨ ¨ Itô-Integrale). Sei X ∈ CqV und sei g : Ubung 25.3.1 (Satz von Fubini fur [0, ∞)2 → R stetig und im Inneren nach der zweiten Koordinate stetig differenzierbar mit Ableitung ∂2 g. Man zeige mit Hilfe der Produktregel (Korollar 25.31) t s s t g(u, v) du dXv = g(u, v) dXv du. 0

0

und

0

s

0

0

v

g(u, v) du

dXv =

0

s

0

s

g(u, v) dXv

u

du.

♣

¨ Ubung 25.3.2 (Stratonovich-Integral). Sei P eine zulässige Zerlegungsfolge, X ∈ P und f ∈ C 1 (R) mit Stammfunktion F . Man zeige: Für jedes t ≥ 0 ist das CqV Stratonovich-Integral T Xt′ + Xt f (Xt ) ◦ dXt := lim f Xt′ − Xt n→∞ 2 0 n t∈PT

wohldefiniert, und es gilt die klassische Substitutionsregel F (XT ) − F (X0 ) =

0

T

F ′ (Xt ) ◦ dXt .

Man zeige, dass im Gegensatz zum Itô-Integral das Stratonovich-Integral bezüglich eines stetigen lokalen Martingals im Allgemeinen kein lokales Martingal ist. ♣

546


25.4 Dirichlet-Problem und Brown’sche Bewegung ¨ Ahnlich wie für diskrete Markovketten (vergleiche Kapitel 19.1) lässt sich die Lösung des Dirichlet-Problems in einem Gebiet G ⊂ Rd durch eine am Rande von G gestoppte d-dimensionale Brown’sche Bewegung beschreiben. Sei im Folgenden G ⊂ Rd eine offene, beschränkte Menge. Definition 25.35 (Dirichlet-Problem). Sei f : ∂G → R stetig. Eine Funktion u : G → R heißt Lösung des Dirichlet-Problems auf G mit Randwert f , falls u stetig ist und in G zweimal stetig differenzierbar, sowie △ u(x) = 0 u(x) = f (x)

für x ∈ G, für x ∈ ∂G.

(25.18)

Für hinreichend glatte Gebiete existiert stets eine Lösung des Dirichlet-Problems (siehe etwa [80, Korollar 4.3.3]). Gibt es eine Lösung, so ist sie stets eindeutig (wie aus Satz 25.37 folgt). Sei im Folgenden W = (W 1 , . . . , W d ) eine d-dimensionale Brown’sche Bewegung bezüglich der Filtration F, die den u¨ blichen Bedingungen genügt. Wir schreiben Px und Ex für Wahrscheinlichkeiten und Erwartungswerte, wenn W in W0 = x = (x1 , . . . , xd ) ∈ Rd gestartet wird. Ist A ⊂ Rd offen, so ist

τAc := inf t > 0 : Wt ∈ Ac ¨ eine F-Stoppzeit (siehe Ubung 21.4.4). Da G beschränkt ist, ist G ⊂ (−a, a) × d−1 ¨ R für gewisses a > 0. Also ist τGc ≤ τ((−a,a)×Rd−1 )c . Nach Ubung 21.2.4 1 (angewandt auf W ) ist für x ∈ G ) * ) * Ex τGc ≤ Ex τGc ≤ τ((−a,a)×Rd−1 )c = (a − x1 )(a + x1 ) < ∞. (25.19) Speziell ist τGc < ∞ Px -fast sicher, also ist WτGc eine Px -fast sicher wohldefinierte Zufallsvariable mit Werten in ∂G. Definition 25.36. Für x ∈ G bezeichnen wir mit μx,G = Px ◦ Wτ−1 Gc das harmonische Maß auf ∂G. Satz 25.37. Ist u eine Lösung des Dirichlet-Problems auf G mit Randwert f , so ist ) * u(x) = Ex f (WτGc ) = f (y) μx,G (dy) für x ∈ G. (25.20) ∂G

Insbesondere ist die Lösung des Dirichlet-Problems stets eindeutig.

25.4 Dirichlet-Problem und Brown’sche Bewegung

547

Beweis. Sei G1 ⊂ G2 ⊂ . . . eine Folge offener Mengen mit x ∈ G1 , Gn ↑ G und Gn ⊂ G für jedes n ∈ N. Speziell ist also jedes Gn kompakt und damit ∇u auf Gn beschränkt. Wir schreiben kurz τ := τGc und τn := τGcn . Da u harmonisch ist (das heißt, △ u = 0), ist nach der Itô-Formel u(Wt ) = u(W0 ) +

0

t

∇u(Ws ) dWs =

d

∂k u(Ws ) dWsk

für t < τ. (25.21)

k=1

Speziell ist M := (u(Wt ))t∈[0,τ ) ein lokales Martingal bis τ (aber im Allgemeinen kein Martingal). Für t < τn ist (∂k u(Ws ))2 ≤ Cn := sup ∇u(y)22 < ∞

für jedes k = 1, . . . , d.

y∈Gn

Also ist

+ E

τn

2

(∂k u(Ws ))

0

,

≤ Cn Ex [τn ] ≤ Cn E[τ ] < ∞

nach (25.19). Nach Satz 25.17(ii) ist daher der gestoppte Prozess M τn ein Martingal für jedes n ∈ N und damit Ex [u(Wτn )] = Ex [Mτn ] = Ex [M0 ] = u(x).

(25.22)

n→∞

Da W stetig ist und τn ↑ τ gilt, gilt Wτn −→ Wτ ∈ ∂G, aufgrund der Stetigkeit von u also auch n→∞ u(Wτn ) −→ u(Wτ ) = f (Wτ ). (25.23)

Da u stetig ist und G kompakt, ist u beschränkt. Nach dem Satz u¨ ber majorisierte Konvergenz folgt aus (25.23) auch die Konvergenz der Erwartungswerte, also (zusammen mit (25.22)) ) * ) * u(x) = lim Ex u(Wτn ) = Ex f (Wτ ) . 2 n→∞

¨ Ubung 25.4.1. Sei G = R × (0, ∞) die offene, obere Halbebene des R2 und x = (x1 , x2 ) ∈ G. Man zeige, dass τGc < ∞ fast sicher gilt und dass das harmonische Maß μx,G auf R ∼ = ∂G die um x1 verschobene Cauchy-Verteilung mit Größenparameter x2 ist: μx,G = δx1 ∗ Caux2 . ♣ ¨ Ubung 25.4.2. Sei d ≥ 3 und G = Rd−1 × (0, ∞) ein offener Halbraum des Rd sowie x = (x1 , . . . , xd ) ∈ G. Man zeige, dass τGc < ∞ fast sicher gilt und dass das harmonische Maß μx,G auf Rd−1 ∼ = ∂G die folgende Dichte hat: μx,G (dy) Γ (d/2) xd 3 = d/2 2 dy π (x1 − y1 ) + . . . + (xd−1 − yd−1 )2 + x2d

♣

¨ Ubung 25.4.3. Sei r > 0 und Br (0) ⊂ Rd die offene Kugel um den Ursprung mit Radius r. Man bestimme für x ∈ Br (0) das harmonische Maß μx,Br (0) . ♣

548


25.5 Rekurrenz und Transienz der Brown’schen Bewegung Die symmetrische einfache Irrfahrt (Xn )n∈N auf Zd ist nach dem Satz von Pólya (Satz 17.39) genau dann rekurrent (besucht also jeden Punkt unendlich oft), wenn d ≤ 2 ist. Ist d > 2, so ist die Irrfahrt transient und verlässt jede endliche Menge A ⊂ Zd schließlich. Wir können dieses Verhalten beschreiben durch lim inf Xn = 0 f.s.

⇐⇒

d≤2

lim Xn = ∞ f.s.

⇐⇒

d > 2.

n→∞

und n→∞

Hauptergebnis dieses Abschnitts ist es, dass eine a¨ hnliche Dichotomie auch für die Brown’sche Bewegung gilt. Satz 25.38. Sei W = (W 1 , . . . , W d ) eine d-dimensionale Brown’sche Bewegung. (i) Ist d ≤ 2, so ist W rekurrent in dem Sinne, dass lim inf Wt − y = 0 f.s. t→∞

für jedes y ∈ Rd .

Insbesondere liegt der Pfad {Wt : t ≥ 0} dicht in Rd fast sicher.

(ii) Ist d > 2, so ist W transient in dem Sinne, dass

lim Wt = ∞ f.s.,

t→∞

und für jedes y ∈ Rd \ {0} ist inf{Wt − y : t ≥ 0} > 0 fast sicher. Die Grundidee für den Beweis des Satzes besteht darin, mit Hilfe von geeigneten Dirichletproblemen und dem Ergebnis von Abschnitt 25.4 die Wahrscheinlichkeiten dafür auszurechnen, dass W gewisse Kugeln

BR (x) := y ∈ Rd : x − y < R trifft. Sei 0 < r < R < ∞ und Gr,R der Anulus

Gr,R := BR (0) \ B r (0) = x ∈ Rd : r < x < R .

Zur Erinnerung: Für abgeschlossenes A ⊂ Rd schreiben wir τA = inf{t > 0 : Wt ∈ A} für die Stoppzeit des ersten Eintretens in A. Wir schreiben

τs := inf t > 0 : Wt = s und τr,R = inf t > 0 : Wt ∈ Gr,R .

Bei Start in W0 ∈ Gr,R ist offenbar τr,R = τr ∧ τR . Auf dem Rand von Gr,R definieren wir die Funktion f durch

25.5 Rekurrenz und Transienz der Brown’schen Bewegung

f (x) =

1,

falls x = r,

0,

falls x = R.

549

(25.24)

Sei ur,R : Gr,R → R definiert durch ur,R (x) =

V (x) − V (R) , V (r) − V (R)

wobei V : (0, ∞) → R die Newton’sche Potentialfunktion ist ⎧ s, falls d = 1, ⎪ ⎪ ⎨ log(s), falls d = 2, V (s) = Vd (s) = ⎪ ⎪ ⎩ 2−d −s , falls d > 2.

(25.25)

Man prüft leicht nach, dass ϕ : Rd \ {0} → R, x → Vd (x) harmonisch ist (also △ ϕ ≡ 0 erfüllt). Also ist ur,R die Lösung des Dirichlet-Problems auf Gr,R mit Randwert f . Nach Satz 25.37 ist für x ∈ Gr,R ) * ) * ) * Px τr,R = τr = Px Wτr,R = r = Ex f (Wτr,R ) = ur,R (x). (25.26) Satz 25.39. Für r > 0 und x, y ∈ Rd mit x − y > r gilt ⎧ 1, falls d ≤ 2, ) * ⎨ 2−d Px Wt ∈ Br (y) für ein t > 0 = ⎩ x−y , falls d > 2. r Beweis. Ohne Einschränkung sei y = 0. Dann ist

Px [τr < ∞] = lim Px [τr,R = τr ] = lim R→∞

R→∞

=

V (x) − V (R) V (r) − V (R) 1,

falls d = 2,

Vd (x) Vd (r) ,

falls d > 2,

denn limR→∞ Vd (R) = ∞, falls d ≤ 2 und = 0, falls d > 2.

2

Beweis (von Satz 25.38). Unter Verwendung der starken Markoveigenschaft der Brown’schen Bewegung erhalten wir für r > 0 + , ' (

Wt < r für ein t > τR Px lim inf Wt < r = Px t→∞

s∈(0,r) R>x

= sup

inf

= sup

inf

s∈(0,r) R>x

s∈(0,r) R>x

) * Px Wt ≤ s für ein t > τR ) * Px PWτR [τs < ∞] .

550


Nach Satz 25.39 ist aber (wegen WτR = R für R > x) 1, falls d ≤ 2, PWτR [τs < ∞] = (s/R)d−2 , falls d > 2. Also ist

' ( P lim inf Wt < r = t→∞

1,

falls d ≤ 2,

0,

falls d > 2.

Hieraus folgt aber die Aussage des Satzes.

2

Definition 25.40 (Polare Menge). Eine Menge A ⊂ Rd heißt polar, falls ) * Px Wt ∈ A für alle t > 0 = 1 für alle x ∈ Rd .

Satz 25.41. Ist d = 1, so ist nur die leere Menge polar. Ist d ≥ 2, so ist {y} polar für jedes y ∈ Rd . Beweis. Für d = 1 ist die Aussage klar, wegen lim sup Wt = ∞

und

t→∞

lim inf Wt = −∞ f.s. t→∞

Aufgrund der Stetigkeit von W wird also jeder Punkt y ∈ R immer wieder getroffen. Sei nun d ≥ 2. Ohne Einschränkung sei y = 0. Ist x = 0, so ist ) * ) * Px τ{0} < ∞ = lim Px τ{0} < τR R→∞ ) * = lim inf Px τr,R = τr R→∞ r>0

(25.27)

= lim inf ur,R (x) = 0, R→∞ r>0

r→0

weil Vd (r) −→ −∞, falls d ≥ 2.

Ist hingegen x = 0, so gilt wegen der starken Markoveigenschaft der Brown’schen Bewegung (und weil P0 [Wt = 0] = 0 ist für alle t > 0) ) * ) * P0 τ{0} < ∞ = sup P0 Ws = 0 für ein s ≥ t t>0 ) * = sup P0 PWt [τ{0} < ∞] = 0, t>0

wobei wir im letzten Schritt (25.27) ausgenutzt haben.

2

26 Stochastische Differentialgleichungen

Stochastische Differentialgleichungen beschreiben die zeitliche Entwicklung von gewissen stetigen Markovprozessen mit Werten in Rn . Im Gegensatz zu klassischen Differentialgleichungen ist nicht nur die Ableitung einer Funktion angegeben, sondern zudem ein Term, der zufällige Fluktuationen beschreibt, die als Itô-Integral bezüglich einer Brown’schen Bewegung kodiert werden. Je nach dem, ob man die konkrete Brown’sche Bewegung als treibende Kraft des Rauschens ernst nimmt oder nicht, spricht man von starken oder schwachen Lösungen. Wir entwickeln im ersten Abschnitt die Theorie der starken Lösungen unter Lipschitz-Bedingungen an die Koeffizienten. Im zweiten Abschnitt lernen wir das (lokale) Martingalproblem als Methode zur Etablierung schwacher Lösungen kennen. Im dritten Abschnitt stellen wir die Methode der Dualität zur Sicherung der Eindeutigkeit von Lösungen an Beispielen vor. Da die Theorie der stochastischen Differentialgleichungen ein sehr weites Feld ist und die Dinge sehr schnell sehr technisch werden, bringen wir nur kursorisch ein paar der wichtigsten Ergebnisse, zum Teil ohne Beweis, um sie dann an Beispielen zu illustrieren.

26.1 Starke Lösungen Wir betrachten eine stochastische Differentialgleichung (SDGL) von dem Typ X0 = ξ, dXt = σ(t, Xt ) dWt + b(t, Xt ) dt.

(26.1)

Dabei ist W = (W 1 , . . . , W m ) eine m-dimensionale Brown’sche Bewegung, ξ n eine von W μ, unabhängige R -wertige Zufallsvariable mit Verteilung

σ(t, x) =

σij (t, x) i=1,...,n eine reelle n × m Matrix sowie b(t, x) = bi (t, x) i=1,...,n ein j=1,...,m

n-dimensionaler Vektor. Die Abbildungen (t, x) → σij (t, x) und (t, x) → bi (t, x) seien messbar.

Unter einer Lösung X von (26.1) wollen wir natürlich einen stetigen, adaptierten stochastischen Prozess X mit Werten in Rn verstehen, der die folgende Integralgleichung erfüllt

552


Xt = ξ +

t

σ(s, Xs ) dWs +

0

t

b(s, Xs ) ds

0

P − f.s. für alle t ≥ 0.

(26.2)

Koordinatenweise ausgeschrieben heißt dies Xti = ξ i +

m j=1

0

t

σij (s, Xs ) dWsj +

t

bi (s, Xs ) ds

für alle i = 1, . . . , n.

0

Nun ergibt sich folgendes Problem: An welche Filtration F soll X adaptiert sein? Soll F die Filtration sein, die von ξ und W erzeugt ist, oder darf F eine größere Filtration sein? Aus der Theorie der gewöhnlichen Differentialgleichungen ist bekannt, dass es, je nach Differentialgleichung, Lösungen geben kann, die aber nicht eindeutig sind (beispielsweise für f ′ = |f |1/3 ). Wenn F größer als die von W erzeugte Filtration ist, können wir weitere Zufallsvariablen definieren, die unter mehreren Lösungen eine aussuchen. Wir haben also mehr Möglichkeiten, eine Lösung anzugeben als wenn F = σ(W ) ist. In der Tat wird sich herausstellen, dass man in manchen Fällen u¨ berhaupt erst eine Lösung einer SDGL angeben kann, wenn man eine größere Filtration zulässt. Grob gesprochen nennen wir X eine starke Lösung von (26.1), wenn (26.2) gilt und X an F = σ(W ) adaptiert ist, hingegen eine schwache Lösung, wenn X an eine größere Filtration F adaptiert ist, bezüglich der W aber immer noch ein Martingal ist. Schwache Lösungen behandeln wir in Abschnitt 26.2. Definition 26.1 (Starke Lösung). Wir sagen, dass die stochastische Differentialgleichung (SDGL) (26.1) eine starke Lösung X hat, falls es eine Abbildung F : Rn × C([0, ∞); Rm ) → C([0, ∞); Rn ) gibt mit den Eigenschaften (i) (x, w) → F (x, w) ist für jedes t ≥ 0 messbar bezüglich B(Rn ) ⊗ Gtm – Gtn , wobei (für k = m oder k = n) Gtk := σ(πs : s ∈ [0, t]) die von den Koordinatenabbildungen πs : C([0, ∞); Rk ) → R, w → w(s) erzeugte σ-Algebra ist. (ii) Der Prozess X = F (ξ, W ) erfüllt (26.2). Bedingung (i) besagt, dass der Pfad (Xs )s∈[0,t] nur von ξ und (Ws )s∈[0,t] abhängt und sonst von keinen Informationen. Insbesondere ist X an Ft = σ(ξ, Ws : s ∈ [0, t]) adaptiert und progressiv messbar, sodass das Itô-Integral in (26.2) wohldefiniert ist, falls σ und b nicht zu stark wachsen für große x. Bemerkung 26.2. Offenbar ist eine starke Lösung einer SDGL stets eine verallgemeinerte n-dimensionale Diffusion. Sind die Koeffizienten σ und b unabhängig von t, so ist die Lösung eine n-dimensionale Diffusion. 3 Bemerkung 26.3. Sei X eine starke Lösung und F wie in Definition 26.1. ist W ′ eine m-dimensionale Brown’sche Bewegung auf einem Raum (Ω ′ , F ′ , P ′ ) mit Filtration F′ , und ist ξ ′ unabhängig von W ′ und F0′ -messbar, so erfüllt X ′ = F (ξ ′ , W ′ ) die Integralgleichung (26.2), ist also eine starke Lösung von (26.1) mit W ′ statt W .

26.1 Starke Lösungen

553

Die Existenz einer starken Lösung hängt also nicht von der konkreten Realisierung der Brown’schen Bewegung oder der Filtration F ab. 3 Definition 26.4. Wir sagen, dass die SDGL (26.1) eine eindeutige starke Lösung hat, falls es ein F wie in Definition 26.1 gibt, sodass gilt: (i) Ist W eine m-dimensionale Brown’sche Bewegung auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit Filtration F und ξ eine F0 -messbare von W unabhängige Zufallsvariable mit P ◦ ξ −1 = μ, dann ist X := F (ξ, W ) eine Lösung von (26.2). (ii) Für jede Lösung (X, W ) von (26.2) gilt X = F (ξ, W ). Beispiel 26.5. Seien m = n = 1 und b ∈ R sowie σ > 0. Der Ornstein-Uhlenbeck Prozess t

Xt := ebt ξ + σ

e(t−s)b dWs ,

0

t ≥ 0,

(26.3)

ist eine starke Lösung der SDGL X0 = ξ und

dXt = σ dWt + b Xt dt. In der Terminologie von Definition 26.1 ist (im Sinne des pfadweisen Itô-Integrals bezüglich w) t

F (x, w) =

t → ebt x +

e(t−s)b dw(s)

0

für alle w ∈ CqV (also mit stetiger quadratischer Variation). Wegen P[W ∈ CqV ] = 1, können wir F (x, w) = 0 setzen für w ∈ C([0, ∞); R) \ CqV . ¨ In der Tat gilt nach dem Satz von Fubini für Itô-Integrale (Ubung 25.3.1) ξ+

0

t

σ dWs +

t

b Xs ds s t t bs b(s−r) = ξ + σWt + b e ξ ds + σb e dWr ds 0 0 0 t t

= ξ + σWt + ebt − 1 ξ + σ b eb(s−r) ds dWr 0

= ebt ξ +

t 0

= Xt .

0

r

σ + eb(t−r) − 1 σ dWr

Man kann zeigen (siehe Satz 26.8), dass diese Lösung auch (stark) eindeutig ist. 3 Beispiel 26.6. Seien α, β ∈ R. Die eindimensionale SDGL X0 = ξ und dXt = α Xt dWt + β Xt dt

(26.4)

554


hat die starke Lösung

α2 Xt = ξ exp α Wt + β − t . 2 In der Terminologie von Definition 26.1 ist σ(t, x) = αx, b(t, x) = βx und α2 t F (x, w) = t → x exp α w(t) + β − 2 für alle w ∈ C([0, ∞); R) und x ∈ R. In der Tat ist nach der zeitabhängigen ItôFormel (Korollar 25.34) t t α2 1 2 αXs dWs + β− Xs ds. Xt = ξ + + α 2 2 0 0 Auch in diesem Fall gilt starke Eindeutigkeit der Lösung (siehe Satz 26.8). Der Prozess X heißt geometrische Brown’sche Bewegung und dient beispielsweise zur Modellierung von Aktienkursen im so genannten Black-Scholes Modell. 3 Wir geben nun ein einfaches Kriterium für die Existenz und Eindeutigkeit starker Lösungen an. Für eine n × m Matrix A definieren wir die Hilbert-Schmidt Norm n E n

A2i,j . (26.5) A = Spur A AT = i=1 j=1

Für b ∈ Rn verwenden wir die euklidische Norm b. Da alle Normen auf endlichdimensionalen Vektorräumen a¨ quivalent sind, spielt es keine wesentliche Rolle, welche Norm wir genau benutzen. Allerdings vereinfacht die hier eingeführte Norm die Rechnungen, wie das folgende Lemma zeigt.

Lemma 26.7. Sei t → H(t) = (Hij (t))i=1,...,n, j=1,...,m progressiv messbar und )0T 2 * (t) dt < ∞ für alle i, j. Dann gilt E 0 Hij += = E = =

0

T

=2 , + = H(t) dWt = = E =

T

0

, H(t)2 dt ,

(26.6)

wobei H die Hilbert-Schmidt Norm aus (26.5) bezeichnet. m 0 t Beweis. Für i = 1, . . . , n ist Ii (t) := j=1 0 Hij (s) dWsj ein stetiges Martingal 0 t m 2 (s) ds. Daher ist mit Variationsprozess Ii !t = 0 j=1 Hij + ) * 2 E (Ii (T )) = E

0

m T j=1

,

2 Hij (s)

ds.


555

Die linke Seite in (26.6) ist aber gleich + n ) * 2 E (Ii (T )) = E

T

0

i=1

n m

,

2 Hij (s)

i=1 j=1

ds.

Die Behauptung folgt nun aus der Definition von H(s)2 .

2

Satz 26.8. Seien b und σ Lipschitz-stetig in der ersten Koordinate. Das heißt, es existiere eine Konstante K > 0, sodass für alle x, x′ ∈ Rn und t ≥ 0 gilt, dass σ(x, t) − σ(x′ , t) + b(x, t) − b(x′ , t) ≤ K x − x′ .

(26.7)

Ferner gelte die Wachstumsbedingung σ(t, x)2 + b(t, x)2 ≤ K 2 (1 + x2 )

für alle x ∈ Rn , t ≥ 0.

(26.8)

Dann existiert für jeden Anfangswert X0 = x ∈ Rn eine eindeutige starke Lösung X der SDGL (26.1). Diese Lösung ist ein Markovprozess und im Falle, wo σ und b nicht von t abhängen, ein starker Markovprozess. Als Hilfsmittel brauchen wir ein Lemma. Lemma 26.9 (Gronwall). Seien f, g : [0, T ] → R integrierbar und C > 0 so, dass t f (t) ≤ g(t) + C f (s) ds für alle t ∈ [0, T ]. (26.9) 0

Dann ist

f (t) ≤ g(t) + C

t

eC(t−s) g(s) ds

für alle t ∈ [0, T ].

0

Ist speziell g(t) ≡ G konstant, so ist f (t) ≤ GeCt für alle t ∈ [0, T ]. Beweis. Seien F (t) =

0t 0

f (s) ds und h(t) = F (t) e−Ct . Dann ist nach (26.9)

d h(t) = f (t) e−Ct − CF (t) e−Ct ≤ g(t) e−Ct . dt Integration liefert F (t) = eCt h(t) ≤

t

eC(t−s) g(s) ds.

0

Einsetzen in (26.9) liefert f (t) ≤ g(t) + CF (t) ≤ g(t) + C

0

t

g(s) eC(t−s) ds.

2

556


Beweis (von Satz 26.8). Es reicht zu zeigen, dass eine eindeutige starke Lösung bis T für jedes T < ∞ existiert.

Eindeutigkeit Wir zeigen zunächst die Eindeutigkeit der Lösung. Seien X und X ′ Lösungen von (26.2). Dann ist t t

′ ′ Xt − X t = b(s, Xs ) − b(s, Xs ) ds + σ(s, Xs ) − σ(s, Xs′ ) dWs . 0

0

Daher ist

Xt −

Xt′ 2

= t = =

=2 ′ = ≤ 2= b(s, Xs ) − b(s, Xs ) ds= = 0

= t =2 = =

′ = + 2= σ(s, Xs ) − σ(s, Xs ) dWs = = .

(26.10)

0

Für den ersten Summanden in (26.10) verwenden wir die Cauchy-Schwarz’sche Ungleichung, für den zweiten hingegen Lemma 26.7 und erhalten so t ' =2 ( = ) * E Xt − Xt′ 2 ≤ 2t E =b(s, Xs ) − b(s, Xs′ )= ds 0 t ' =2 ( = +2 E =σ(s, Xs ) − σ(s, Xs′ )= ds. 0

* ) Schreiben wir f (t) = E Xt − Xt′ 2 und C := 2(T + 1)K 2 , so erhalten wir 0t f (t) ≤ C 0 f (s) ds. Das Lemma von Gronwall (mit g ≡ 0) liefert daher f ≡ 0. Existenz Wir wenden eine Variante des Picard’schen Iterationsverfahrens an. Für jedes N ∈ N0 definieren wir iterativ einen Prozess X N durch Xt0 ≡ x und t t

N N −1 Xt := x + b s, Xs ds + σ s, XsN −1 dWs für N ∈ N (26.11) 0

0

Wegen der Wachstumsbedingung (26.8) kann man sukzessive zeigen: T ' T ' =2 ( = = =2 ( E =XtN = dt ≤ 2(T + 1) K 2 T + E =XtN −1 = dt 0

≤ 2T (T + 1) K

2 N

0

1 + x2 < ∞,

Also ist in jedem Schritt das Itô-Integral wohldefiniert. Wir betrachten nun die Differenzen XtN +1 − XtN = It + Jt , wobei It :=

0

t

σ(s, XsN ) − σ(s, XsN −1 ) dWs

N ∈ N.


und Jt :=

t

557

b(s, XsN ) − b(s, XsN −1 ) ds.

0

Indem wir die Doob’sche L2 –Ungleichung auf das nichtnegative Submartingal (It 2 )t≥0 , Lemma 26.7 sowie (26.7) anwenden, erhalten wir + , * ) E sup Is 2 ≤ 4 E It 2 s≤t

+

= 4E

t

0 t

≤ 4K 2

0

= = =σ(s, XsN ) − σ(s, XsN −1 )=2 ds

'= =2 ( E =XsN − XsN −1 = ds

,

(26.12)

Für Jt bekommen wir mit der Cauchy-Schwarz’schen Ungleichung t = = 2 =b(s, XsN ) − b(s, XsN −1 )=2 ds. Jt ≤ t 0

Also ist

+ , + t , = = 2 N N −1 =2 = b(s, Xs ) − b(s, Xs ) ds E sup Js ≤ t E s≤t

≤ tK

Setzen wir

2

0 t

0

'= =2 ( E =XsN − XsN −1 = ds.

(26.13)

+ , = =2 ΔN (t) := E sup =XsN − XsN −1 = , s≤t

2

so erhalten wir mit C := 2K (4 + T ) ∨ 2(T + 1)K 2 (1 + x2 ) t N +1 Δ (t) ≤ C ΔN (s) ds für N ≥ 1 0

und Δ1 (t) ≤ 2t

t 0

b(s, x)2 ds + 2

t 0

σ(s, x)2 ds

≤ 2(T + 1)K 2 1 + x2 · t ≤ C t

nach der Wachstumsvoraussetzung (26.8). Per Induktion folgt ΔN (t) ≤ folgt mit der Markov’schen Ungleichung + , ∞ ∞ = N = N −1 =2 −N = P sup Xs − Xs >2 2N ΔN (t) ≤ N =1

s≤t

≤

N =1 ∞ N =1

(Ct)N N!

(2Ct)N ≤ e2Ct < ∞. N!

. Es

558

26 Stochastische Differentialgleichungen N →∞

Nach dem Lemma von Borel-Cantelli folgt sups≤t XsN − XsN −1 2 −→ 0 fast sicher. Mithin ist fast sicher (X N )N ∈N eine Cauchy-Folge in dem Banachraum (C([0, T ]), · ∞ ). Also konvergiert X N fast sicher gleichmäßig gegen ein X. Gleichmäßige Konvergenz impliziert Konvergenz der Integrale, also ist X eine starke Lösung von (26.2). Markoveigenschaft Die starke Markoveigenschaft folgt direkt aus der starken Markoveigenschaft der Brown’schen Bewegung, die die SDGL antreibt. 2 Wichtige Beispiele für diesen Satz haben wir oben schon kennen gelernt. Viele interessante Probleme führen jedoch auf stochastische Differentialgleichungen, bei denen die Koeffizienten nicht Lipschitz-stetig sind. Im eindimensionalen Fall kann man mit speziellen Vergleichsmethoden zeigen, dass es ausreicht, dass σ Hölderstetig von der Ordnung 21 in der Ortsvariablen ist. Satz 26.10 (Yamada-Watanabe). Wir )betrachten die eindimensionale Situation * m = n = 1. Es gebe K < ∞ und α ∈ 21 , 1 , sodass für alle t ≥ 0 und x, x′ ∈ R gilt b(t, x) − b(t, x′ ) ≤ K |x − x′ | und σ(t, x) − σ(t, x′ ) ≤ |x − x′ |α .

Dann besitzt die SDGL für jedes X0 ∈ R eine eindeutige starke Lösung X, und X ist ein starker Markovprozess.

Beweis. Siehe [161] oder [86, Proposition 5.2.13] für Existenz und Eindeutigkeit der Lösung. Die starke Markov-Eigenschaft folgt aus Satz 26.26. 2 Beispiel 26.11. Betrachte die eindimensionale SDGL E

dXt = γ Xt+ dWt + a b − Xt+ dt

(26.14)

mit Startwert X0 = x ≥ 0, wobei γ > 0 und a, b ≥ 0 Parameter sind. Die Be√ dingungen von Satz 26.10 sind mit α = 21 und K = γ + a erfüllt. Die eindeutige starke Lösung X hat offenbar die Eigenschaft, nichtnegativ zu bleiben, wenn X0 ≥ 0 ist. (Tatsächlich kann man sogar zeigen dass Xt > 0 für alle t > 0 gilt, falls 2ab/γ ≥ 1, und dass Xt die Null mit Wahrscheinlichkeit 1 beliebig häufig trifft, falls 2ab/γ < 1. Siehe etwa [78, Beispiel IV.8.2, Seite 237]. Vergleiche Beispiel 26.16.) Dieser Prozess wird je nach Kontext gelegentlich als Feller’sche Verzweigungsdiffusion mit Immigration oder als Cox-Ingersoll-Ross Modell für die zeitliche Entwicklung von Zinsraten bezeichnet. Wir berechnen für den Fall a = b = 0 mit der Itô-Formel, dass t 3 λ2 t −λXs Xs ds = λ e−λXs γXs dWs e−λXt − e−λx − γ e 2 0 0


559

1.5

1

0.5

0

5

10

15

20

25

30

Abb. 26.1. Cox-Ingersoll-Ross Diffusion mit Parametern γ = 1, b = 1 und a = 0.3. Der Pfad trifft die Null immer wieder, da 2ab/γ = 0.6 < 1 ist. 2.5

2

1.5

1

0.5

0

5

10

15

20

25

30

Abb. 26.2. Cox-Ingersoll-Ross Diffusion mit Parametern γ = 1, b = 1 und a = 2. Der Pfad trifft die Null nie, da 2ab/γ = 4 ≥ 1 ist.

ein Martingal ist. Indem wir Erwartungswerte bilden, erhalten wir für die LaplaceTransformierte ϕ(t, λ, x) = Ex [e−λXt ] die Differentialgleichung * d λ2 ) γλ2 d ϕ(t, λ, x) = γ E Xt e−λXt = − ϕ(t, λ, x). dt 2 2 dλ

Diese partielle Differentialgleichung hat mit dem Anfangswert ϕ(0, λ, x) = e−λx die eindeutige Lösung

560


λ x . ϕ(t, λ, x) = exp − (γ/2)λt + 1

¨ Dies ist aber (für γ = 2) genau die Laplace-Transformierte der Ubergangswahrscheinlichkeiten des Markov-Prozesses, den wir in Satz 21.48 definiert hatten und den wir im Satz von Lindvall (Satz 21.51) als Grenzwert von reskalierten GaltonWatson Verzweigungsprozessen kennen gelernt haben. 3

26.2 Schwache Lösungen und Martingalproblem Im letzten Abschnitt haben wir starke Lösungen der stochastischen Differentialgleichung dXt = σ(t, Xt ) dWt + b(t, Xt ) dt (26.15) kennen gelernt. Diese zeichnen sich dadurch aus, dass jedem Pfad der Brown’schen Bewegung W genau ein Pfad der Lösung X zugeordnet wird. Wir wollen nun zum Begriff der schwachen Lösung kommen, bei der zusätzliche Information (das heißt zusätzlicher Zufall) in die Lösung mit eingehen kann. Definition 26.12 (Schwache Lösung einer SDGL). Eine schwache Lösung von (26.15) mit Startverteilung μ ∈ M1 (Rn ) ist ein Tripel

L = (X, W ), (Ω, F, P), F , wobei gilt:

– (Ω, F, P) ist ein Wahrscheinlichkeitsraum,

– F = (Ft )t≥0 ist eine Filtration auf (Ω, F, P), die die u¨ blichen Bedingungen erfüllt,

– W ist eine Brown’sche Bewegung auf (Ω, F, P) und bezüglich F ein Martingal. – X ist stetig und adaptiert (also progressiv messbar), – P ◦ (X0 )−1 = μ, – sowie Xt = X 0 +

0

t

σ(s, Xs ) dWs +

t

b(s, Xs ) ds

P-f.s.

(26.16)

0

Eine schwache Lösung L heißt (schwach) eindeutig, falls für jede weitere Lösung L′ mit Startverteilung μ gilt: P′ ◦ (X ′ )−1 = P ◦ X −1 . Bemerkung 26.13. Offenbar ist eine schwache Lösung einer SDGL stets eine verallgemeinerte n-dimensionale Diffusion. Sind die Koeffizienten σ und b unabhängig von t, so ist die Lösung eine n-dimensionale Diffusion. 3

26.2 Schwache Lösungen und Martingalproblem

561

Bemerkung 26.14. Offenbar wird durch jede starke Lösung von (26.15) eine schwache Lösung definiert. Die Umkehrung ist falsch, wie wir im folgenden Beispiel sehen werden. 3 Beispiel 26.15. Betrachte die SDGL (mit Startwert X0 = 0) (26.17)

dXt = sign(Xt ) dWt , wobei sign =

−

(0,∞)

die Vorzeichenfunktion ist. Es gilt genau dann

(−∞,0)

Xt = X 0 +

t

sign(Xs ) dWs

0

wenn Wt =

t

dWs =

0

für alle t ≥ 0,

(26.18)

t

sign(Xs ) dXs

0

für alle t ≥ 0.

(26.19)

Folgendermaßen gelangen wir zu einer schwachen Lösung von (26.17). Sei X eine Brown’sche Bewegung auf einem Wahrscheinlichkeitsraum (Ω, F, P) und F = σ(X). Definieren wir W durch (26.19), dann ist W ein stetiges F-Martingal mit quadratischer Variation W !t =

1

(sign(Xs ))2 ds = t.

0

Nach der Lévy’schen Charakterisierung (Satz 25.28) ist W damit eine Brown’sche Bewegung. Also ist ((X, W ), (Ω, F, P), F) eine schwache Lösung von (26.3).

Um zu zeigen, dass es keine starke Lösung gibt, nehmen wir eine beliebige schwache Lösung her und zeigen, dass X nicht an σ(W ) adaptiert ist. Da X nach (26.18) ein stetiges Martingal mit quadratischer Variation X!t = t ist, ist X eine Brown’sche Bewegung. Seien Fn ∈ C 2 (R) konvexe gerade Funktionen mit Ableitungen Fn′ und Fn′′ , sodass n→∞ sup Fn (x) − |x| −→ 0, x∈R

|Fn′ (x)| ≤ 1 für alle x ∈ R und Fn′ (x) = sign(x) für |x| >

0

und damit

0

t

t

1 n.

Insbesondere gilt

2 n→∞ Fn′ (Xs ) − sign(Xs ) ds −→ 0 f.s. n→∞

Fn′ (Xs ) dXs −→

t

sign(Xs ) dXs

in L2 .

(26.20)

0

Indem wir gegebenenfalls zu einer Teilfolge u¨ bergehen, können wir annehmen, dass in (26.20) fast sichere Konvergenz gilt.

562


Weil Fn′′ gerade ist, gilt t t Wt = sign(Xs ) dXs = lim Fn′ (Xs ) dXs n→∞ 0 0 1 t ′′ F (Xs ) ds = lim Fn (Xt ) − Fn (0) − n→∞ 2 0 n 1 t ′′ = |Xt | − lim Fn (|Xs |) ds. n→∞ 2 0 Da die rechte Seite nur von |Xs |, s ∈ [0, t] abhängt, ist W an G := (σ(|Xs | : s ∈ [0, t])) adaptiert. Also ist σ(W ) ⊂ G σ(X), und damit ist X nicht an σ(W ) adaptiert. 3 Beispiel 26.16. Sei n ∈ N und B = (B 1 , . . . , B n ) eine n-dimensionale Brown’sche Bewegung mit Start in y ∈ Rn . Setze x := y2 , Xt := Bt 2 = (Bt1 )2 + . . . + (Btn )2 und n t 1 √ Wt := Bsi dBsi . X s 0 i=1

Dann ist W ein stetiges lokales Martingal mit W !t = t für jedes t ≥ 0 und t3 Xt = x + nt + Xs dWs . 0

√ Das heißt, (X, W ) ist eine schwache Lösung der SDGL dXt = 2Xt dWt + n dt. X wird auch n-dimensionaler Bessel-Prozess genannt. Nach Satz 25.41 trifft B (und damit X) den Ursprung für ein t > 0 genau dann, wenn n = 1 ist. Offenbar kann man X auch für nicht-ganzzahlig n ≥ 0 definieren. Man kann zeigen, dass X genau dann die Null trifft, wenn n ≤ 1 ist. Vergleiche Beispiel 26.11. 3 Für den Zusammenhang von Existenz und Eindeutigkeit von schwachen Lösungen und starken Lösungen zitieren hier lediglich den Satz von Yamada und Watanabe.

Definition 26.17 (Pfadweise Eindeutigkeit). Wir sagen, dass die Lösung der SDGL (26.15) mit Startverteilung μ pfadweise eindeutig ist, falls für jedes μ ∈ M1 (Rn ) und je zwei schwache Lösungen (X, W ) und (X ′ , W ) auf dem selben Raum (Ω, F, P) mit der selben Filtration F gilt: P[Xt = Xt′ für alle t ≥ 0] = 1. Satz 26.18 (Yamada und Watanabe). Es sind a¨ quivalent: (i) Die SDGL (26.15) hat eine eindeutige starke Lösung. (ii) Für jedes μ ∈ M1 (Rn ) hat (26.15) eine schwache Lösung, und es gilt pfadweise Eindeutigkeit. Gelten (i) und (ii), so ist die Lösung schwach eindeutig.


Beweis. Siehe [161], [140, Seite 151ff] oder [78, Seite 163ff].

563

2

Beispiel 26.19. Sei X eine schwache Lösung von (26.17). Dann ist auch −X eine schwache Lösung, das heißt, es gilt keine pfadweise Eindeutigkeit (obwohl man zeigen kann, dass die Lösung schwach eindeutig ist, siehe Satz 26.25). 3 Wir betrachten den eindimensionalen Fall m = n = 1. Ist X eine Lösung (stark oder schwach) von (26.15), so ist t Mt := Xt − b(s, Xs ) ds 0

ein stetiges lokales Martingal mit quadratischer Variation M !t =

t

σ 2 (s, Xs ) ds.

0

Wir werden sehen, dass hierdurch eine schwache Lösung von (26.15) charakterisiert ist (jedenfalls unter milden Wachstumsbedingungen and σ und b). Sei für alle t ≥ 0 und x ∈ Rn die n×n Matrix a(t, x) symmetrisch und nichtnegativ definit, und sei (t, x) → a(t, x) messbar. Definition 26.20. Wir sagen, dass ein n-dimensionaler stetiger Prozess X eine Lösung des lokalen Martingalproblems zu a und b mit Startverteilung μ ∈ M1 (Rn ) (kurz: LMP(a, b, μ)) ist, falls P ◦ X0−1 = μ ist und für jedes i = 1, . . . , n Mti

:=

Xti

−

0

t

bi (s, Xs ) ds,

t ≥ 0,

ein stetiges lokales Martingal ist mit quadratischer Kovariation t aij (s, Xs ) ds für alle t ≥ 0, i, j = 1, . . . , n. M i , M j !t = 0

Wir sagen, dass die Lösung von LMP(a, b, μ) eindeutig ist, wenn für je zwei Lösungen X und X ′ gilt: P ◦ X −1 = P ◦ (X ′ )−1 . Mit σ T bezeichnen wir die transponierte Matrix zu σ. Offenbar ist a = σσ T dann eine nichtnegativ semidefinite symmetrische n × n Matrix. Satz 26.21. X ist genau dann eine Lösung von LMP(σσ T , b, μ), wenn es (gegebenenfalls auf einer Erweiterung des Wahrscheinlichkeitsraums) eine Brown’sche Bewegung W gibt, sodass (X, W ) eine schwache Lösung von (26.15) ist. Insbesondere existiert genau dann eine eindeutige schwache Lösung der SDGL (26.15) mit Startverteilung μ, wenn LMP(σσ T , b, μ) eindeutig lösbar ist.

564


Beweis. Wir zeigen die Aussage nur für den Fall m = n = 1. Der allgemeine Fall erfordert ein paar Betrachtungen u¨ ber Wurzeln von nichtnegativ semidefiniten symmetrischen Matrizen, die jedoch für die Stochastik keine tiefere Einsicht bringen. Wir verweisen hier lediglich auf [86, Proposition 5.4.6]. ⇐= “ Ist (X, W ) eine schwache Lösung, dann löst X nach Korollar 25.19 das ” lokale Martingalproblem. =⇒ “ Sei X eine Lösung von LMP(σ 2 , b, μ). Nach Satz 25.29 existiert auf einer ” ˜ , sodass Erweiterung des Wahrscheinlichkeitsraums eine Brown’sche Bewegung W 0t ˜ Mt = 0 σ(s, Xs ) dWs gilt. Setzen wir t ˜ s, Wt := sign(σ(s, Xs )) dW 0

so ist Mt =

0t 0

σ(s, Xs ) dWs , also (X, W ) eine schwache Lösung von (26.15). 2

Ein lokales Martingalproblem ist in gewissem Sinne eine sehr natürliche Art und Weise, um eine stochastische Differentialgleichung zu schreiben, nämlich als: X hat lokal die Ableitung (Drift) b und zusätzlich zufällige normalverteilte Fluktuationen von der Größenordnung σ. Eine konkrete Brown’sche Bewegung taucht hier gar nicht mehr auf, und bei den meisten Problemen ist ihr Auftreten auch eher artifiziell. Genau wie man bei der ¨ Beschreibung von Markovketten meist nur die Ubergangswahrscheinlichkeiten angibt, nicht aber die konkrete Realisierung, wie dies etwa in Satz 17.17 beschrieben wird, möchte man bei vielen stetigen (Zeit und Ort) Prozessen nur die Größe der Fluktuationen angeben, nicht aber eine konkrete Realisierung. Technisch gesehen ist die Formulierung von stochastischen Differentialgleichungen als lokale Martingalprobleme sehr bequem, weil sie Zugang zu einer Reihe von Techniken schafft wie Martingalungleichungen und Approximationssätze für Martingale, mit denen sich Existenz und Eindeutigkeit von Lösungen etablieren lässt. Wir zitieren hier nur zwei wichtige Ergebnisse. Satz 26.22 (Existenz von Lösungen). Es seien (t, x) → b(t, x) und (t, x) → a(t, x) stetig und beschränkt. Dann existiert für jedes μ ∈ M1 (Rn ) eine Lösung X des LMP(a, b, μ). Beweis. Siehe [140, Theorem V.23.5].

2

Definition 26.23. Wir sagen, dass das LMP(a, b) gut gestellt ist, wenn es für jedes x ∈ Rn eine eindeutige Lösung X von LMP(a, b, δx ) gibt. Bemerkung 26.24. Erfüllen σ und b die Lipschitzbedingungen wie in Satz 26.8, so ist das LMP(σσ T , b) gut gestellt. Dies folgt aus Satz 26.8 und Satz 26.18. 3


565

Im Folgenden gelte stets: (t, x) → σ(t, x) bzw. (t, x) → a(t, x) ist beschränkt auf kompakten Mengen. (26.21) ¨ Diese Bedingung sichert die Aquivalenz des lokalen Martingalproblems zu dem etwas gebräuchlicheren Martingalproblem (siehe [86, Proposition 5.4.11]). Satz 26.25 (Eindeutigkeit im Martingalproblem). Es gelte (26.21). Für jedes x ∈ Rn existiere eine Lösung X x von LMP(a, b, δx ), deren Verteilung wir mit Px := P ◦ (X x )−1 bezeichnen.

Für je zwei Lösungen X x und Y x von LMP(a, b, δx ) gelte P ◦ (XTx )−1 = P ◦ (YTx )−1

für jedes T ≥ 0.

(26.22)

Dann ist LMP(a, b) gut gestellt, und der kanonische Prozess X ist ein starker Markovprozess bezüglich (Px , x ∈ Rn ). Ist a = σσ T , so ist X unter Px die eindeutige schwache Lösung der SDGL (26.15). Beweis. Siehe [48, Theorem 4.4.1 und Problem 49] und [86, Proposition 5.4.11].2 Eine wesentliche Stärke dieses Satzes liegt darin, dass wir die Eindeutigkeit nicht des gesamten Prozesses, sondern in (26.22) nur der eindimensionalen Randverteilungen prüfen müssen. Wir werden in Abschnitt 26.3 Beispiele dafür angeben, wie dies ausgenutzt werden kann. Die Frage nach der Existenz von Lösungen einer stochastischen Differentialgleichung (oder a¨ quivalent: eines lokalen Martingalproblems) ist leichter zu beantworten als die Frage nach der Eindeutigkeit von Lösungen. Wir wissen bereits, dass Eindeutigkeit unter Lipschitzbedingungen an die Koeffizienten b und σ (nicht σσT !) gilt (nach Satz 26.8 und Satz 26.18), da hier starke Eindeutigkeit der Lösungen gilt. Eine vielleicht auf den ersten Blick verwirrende Erkenntnis ist, dass der Zufall stabilisierend wirken kann, dass also eine deterministische Differentialgleichung, deren Lösung nicht eindeutig ist, durch stochastische Störterme eindeutig lösbar werden kann. Dazu folgendes eindimensionale Beispiel: dXt = sign(Xt ) |Xt |1/3 dt + σ dWt , X0 = 0.

(26.23)

Ist σ = 0, so haben wir es mit einer deterministischen Differentialgleichung zu tun, die ein Kontinuum √ von Lösungen mit Parametern v ∈ {−1, +1} und T ≥ 0 hat, nämlich Xt = v 2 2 (t − T )3/2 {t>T } . Ist σ > 0, so wird die Instabilität der Gleichung (26.23) an x = 0 durch Verrauschen aufgelöst. Wir zitieren hier den folgenden Satz für den zeitunabhängigen Fall aus [140, Satz V.24.1] (siehe auch [149, Kapitel 10]).

566


Satz 26.26 (Stroock-Varadhan). Sei aij : Rn → R stetig und bi : Rn → R messbar für i, j = 1, . . . , n. Es gelte (i) a(x) = (aij (x)) ist symmetrisch und strikt positiv definit für jedes x ∈ Rn ,

(ii) es gibt ein C < ∞, sodass für alle x ∈ Rn

aij (x) ≤ C 1 + x2 und

und i, j = 1, . . . , n gilt

bi (x) ≤ C 1 + x .

Dann ist LMP(a, b) gut gestellt, und die SDGL (26.15) hat eine eindeutige starke Lösung, die ein starker Markovprozess ist. Die Lösung X hat die starke FellerEigenschaft: x → Ex [f (Xt )] ist stetig für jedes t > 0 und jedes beschränkte, messbare f : Rn → R. Konkrete Beispiele geben wir in Abschnitt 26.3 an. Wir wollen hier nur festhalten, dass wir eine spezielle Methode entwickelt haben, um Markovprozesse zu konstruieren, nämlich als Lösung einer stochastischen Differentialgleichung oder eines lokalen Martingalproblems. Im Rahmen von Modellen in diskreter Zeit haben wir in ¨ Kapitel 17.2 und speziell in Ubung 17.2.1 bereits Markovketten als Lösungen von Martingalproblemen charakterisiert. Dass dort die Angabe der Drift und der quadratischen Variation ausreichte, um den Prozess eindeutig zu bestimmen, lag daran, dass wir die Möglichkeiten für das Ziel eines Schrittes auf drei Punkte begrenzt hatten. Hier hingegen ist die entscheidende Begrenzung die Stetigkeit der Prozesse. ¨ Ubung 26.2.1. Sei der zeithomogene eindimensionale Fall (m = n = 1) betrachtet. Seien σ und b so, dass es für jedes X0 ∈ R eine eindeutige schwache Lösung von dXt = σ(Xt ) dWt + b(Xt ) dt existiert und ein starker Markovprozess ist. Ferner gebe es ein x0 ∈ R mit x ∞ 2b(r) 1 exp dr dr < ∞. C := 2 2 x0 σ (r) −∞ σ (x) (i) Man zeige: Das Maß π ∈ M1 (R) mit Dichte x 2b(r) π(dx) 1 = C −1 2 exp dr 2 dx σ (x) x0 σ (r) ist eine invariante Verteilung für X. (ii) Für welche Werte von b hat der Ornstein-Uhlenbeck Prozess dXt = σ dWt + bXt dt eine invariante Verteilung? Man bestimme diese Verteilung und vergleiche das Ergebnis mit dem, was nach expliziter Rechnung mit der Darstellung in (26.3) zu erwarten war. (iii) Man bestimme die invariante Verteilung der Cox-Ingersoll-Ross SDGL (26.14) (alias Feller’sche Verzweigungsdiffusion).

26.3 Eindeutigkeit schwacher Lösungen via Dualität

567

(iv) Seien γ, c > 0 und θ ∈ (0, 1). Man zeige, dass die invariante Verteilung der Lösung X der folgenden SDGL auf [0, 1] 3 dXt = γXt (1 − Xt ) dWt + c(θ − Xt ) dt gegeben ist durch die Betaverteilung β2cγ/θ, 2cγ/(1−θ) .

♣

3 ¨ Ubung 26.2.2. Sei γ > 0. Seien X 1 und X 2 Lösungen von dXti = γXti dWti , wo W 1 und W 2 zwei unabhängige Brown’sche Bewegungen sind, mit Startwerten X01 = x10 > 0 und X02 = x20 > 0. √ Man zeige, dass Z := X 1 + X 2 eine schwache ♣ Lösung ist von Z0 = 0 und dZt = γZt dWt .

26.3 Eindeutigkeit schwacher Lösungen via Dualität Mit dem Satz von Stroock und Varadhan haben wir ein starkes Kriterium für die Existenz und Eindeutigkeit von Lösungen von stochastischen Differentialgleichungen. In vielen Fällen ist jedoch gerade die Bedingung der lokal gleichgradigen Elliptizität von a (Bedingung (i) in Satz 26.26) nicht erfüllt. Dies trifft insbesondere dann zu, wenn die Lösungen nur auf Teilmengen von Rn definiert sind. Wir werden hier ein mächtiges Hilfsmittel kennen lernen, das in vielen Spezialfällen schwache Eindeutigkeit von Lösungen sichert. Definition 26.27 (Dualität). Seien X = (X x , x ∈ E) und Y = (Y y , y ∈ E ′ ) Familien von stochastischen Prozessen mit Werten in den Räumen E beziehungsweise E ′ und so, dass X0x = x f.s. und Y0y = y f.s. für alle x ∈ E und y ∈ E ′ . Wir sagen, dass X und Y dual zueinander sind mit Dualitätsfunktion H) : E × E ′ → * C, ′ x falls f¨ u r alle x ∈ E, y ∈ E und t ≥ 0 die Erwartungswerte E H(X , y) und t ) * E H(x, Yty ) existieren und gleich sind: ) * ) * E H(Xtx , y) = E H(x, Yty ) .

Wir nehmen im Folgenden an, dass σij : Rn → R und bi : Rn → R beschränkt auf kompakten Mengen sind für alle i = 1, . . . , n, j = 1, . . . , m. Wir betrachten die zeithomogene stochastische Differentialgleichung dXt = σ(Xt ) dWt + b(Xt ) dt.

(26.24)

Satz 26.28 (Eindeutigkeit via Dualität). Für jedes x ∈ Rn existiere eine Lösung des lokalen Martingalproblems zu (σσ T , b, δx ). Es gebe eine Familie (Y y , y ∈ E ′ ) von Markovprozessen mit Werten in dem Messraum (E ′ , E ′ ) und eine messbare Abbildung H : Rn × E ′ → C, sodass für jedes y ∈ E ′ , x ∈ Rn und t ≥ 0 der Erwartungswert E[H(x, Yty )] existiert und endlich ist. Ferner sei (H( · , y), y ∈ E ′ ) eine trennende Funktionenklasse für M1 (Rn ) (siehe Definition 13.9).

568


Für jedes x ∈ Rn und jede Lösung X x von LMP(σσ T , b, δx ) gelte die Dualitätsgleichung E[H(Xtx , y)] = E[H(x, Yty )]

für alle y ∈ E′ , t ≥ 0.

(26.25)

Dann ist das lokale Martingalproblem zu (σσ T , b) gut gestellt, also besitzt (26.24) eine eindeutige schwache Lösung und diese ist ein starker Markovprozess. Beweis. Nach Satz 26.25 reicht es zu prüfen, dass für jedes x ∈ Rn , jede Lösung X x von LMP(σσ T , b, δx ) und jedes t ≥ 0 die Verteilung P ◦ (Xtx )−1 eindeutig ist. Da (H( · , y), y ∈ E ′ ) eine trennende Funktionenklasse ist, folgt dies aber aus (26.16). 2 Beispiel 26.29 (Wright-Fisher Diffusion). Betrachte die Wright-Fisher SDGL 3 (26.26) dXt = [0,1] (Xt ) γ Xt (1 − Xt ) dWt ,

wobei γ > 0 ein Parameter ist. Nach Satz 26.22 existiert für jedes x ∈ R eine ˜ W ) von (26.26). X ˜ ist ein stetiges lokales Martingal mit schwache Lösung (X, quadratischer Variation t : ; ˜ ˜ s ) ds. ˜ s (1 − X ˜ s ) [0,1] (X X t= γX 0

1

0.8

0.6

0.4

0.2

0

0.2

0.4

0.6

0.8

1

1.2

Abb. 26.3. Simulation einer Wright-Fisher Diffusion mit Parameter γ = 1.

˜ t ∈ [0, 1]} und X := X ˜ τ der in τ gestoppte Prozess. Dann Sei τ := inf{t > 0 : X ist X ein stetiges, beschränktes Martingal mit t γXs (1 − Xs ) [0,1] (Xs ) ds, X!t = 0


569

also ist (X, W ) eine Lösung von (26.26). Nach Konstruktion ist Xt ∈ [0, 1] für alle ˜ 0 ∈ [0, 1] ist. t ≥ 0, falls X0 = X ˜ t ∈ [0, 1]}. Ist X ˜ 0 ∈ [0, 1], so ist τ ′ > 0, weil X ˜ stetig ist. Sei τ ′ := inf{t > 0 : X : ′ ′; ′ ˜ τ ein stetiges lokales Martingal ist mit X ˜ tτ = X ˜ τ ≡ 0, ist X ˜ 0 für alle Weil X ′ ˜ ˜ t ≥ 0. Daraus folgt aber, dass Xt = X0 ist für alle t < τ . Wiederum aufgrund der ˜ folgt, dass τ ′ = ∞ ist und X ˜t = X ˜ 0 für alle t ≥ 0. Stetigkeit von X ˜ 0 = x ∈ [0, 1] zu zeigen. Sei Es reicht also, die Eindeutigkeit der Lösung für X hierzu Y = (Yt )t≥0 der Markovprozess auf N mit Q-Matrix ⎧

m ⎪ ⎨ γ 2 , falls n = m − 1, q(m, n) = −γ m falls n = m, 2 , ⎪ ⎩ 0, sonst. Wir zeigen die Dualität von X und Y bezüglich H(x, n) = xn : ) * ) * Ex Xtn = En xNt für alle t ≥ 0, x ∈ [0, 1], n ∈ N. (26.27) * ) ) * Setze mx,n (t) = Ex Xtn und g x,n (t) = En xNt . Nach der Itô-Formel ist Xtn − xn −

0

t

γ

t 3 n Xsn−1 (1 − Xs ) ds = nXsn−1 γ Xs (1 − Xs ) dWs 2 0

ein Martingal. Indem wir Erwartungswerte bilden, erhalten wir die folgende Rekursionsgleichung für die Momente von X mx,1 (t) = x mx,n (t) = xn + γ

t

x,n−1 n m (s) − mx,n (s) ds. 2 0

(26.28)

Dieses System linearer Differentialgleichungen ist offenbar eindeutig rekursiv (in n) lösbar. Für h > 0 und t ≥ 0 gilt wegen der Markov-Eigenschaft von Y ) * ) ) ** g x,n (t + h) = En xYt+h = En EYh xYt n ) * = Pn [Yh = m] Em xYt =

m=1 n m=1

Pn [Yh = m] g x,m (t).

570


Es folgt ' ( d x,n g (t) = lim h−1 g x,n (t + h) − g x,n (t) h↓0 dt n

= lim h−1 Pn [Yh = m] g x,m (t) − g x,n (t) h↓0

=

n

m=1

q(n, m) g

x,m

(26.29)

(t)

m=1

n g x,n−1 (t) − g x,n (t) . =γ 2 Offenbar ist g x,1 (t) = x für alle x ∈ [0, 1] und t ≥ 0 und g x,n (0) = xn . Das heißt, g x,n löst (26.28), und daher gilt (26.27). Nach Satz 15.4 ist die Familie (H( · , n), n ∈ N) ⊂ C([0, 1]) trennend für M1 ([0, 1]), also sind die Bedingungen von Satz 26.28 erfüllt, und X ist die eindeutige schwache Lösung von (26.26) und ist ein starker Markovprozess. 3 Bemerkung 26.30. Das Martingalproblem für die Wright-Fisher Diffusion sieht fast genauso aus wie das diskrete Martingalproblem für das Moran-Modell (siehe Beispiel 17.22) M N = (MnN )n∈N0 mit Populationsgröße N : M N ist ein Martingal mit Werten in der Menge {0, 1/N, . . . , (N − 1)/N, 1} quadratischem Variationsprozess n−1 : N; 2 N M n= 2 Mk 1 − MkN . N k=0

N

In jedem Schritt kann M nur entweder am Ort bleiben oder um 1/N nach oben ¨ oder unten springen. In Ubung 17.2.1 hatten wir gesehen, dass dadurch der Prozess M N schon eindeutig beschrieben ist. Man kann zeigen, a¨ hnlich wie in Satz 21.51 ˜ tN = für Verzweigungsprozesse, dass die zeitlich reskalierten Moran-Prozesse M N M⌊N 2 t⌋ gegen die Wright-Fisher Diffusion mit γ = 2 konvergieren. Die WrightFisher Diffusion tritt also als Limes-Modell eines genealogischen Modells auf und beschreibt die Genfrequenz (das heißt, den relativen Anteil) eines bestimmten Allels in einer Population, die durch die Generationenfolge in zufälliger Weise fluktuiert. 3 Beispiel 26.31 (Feller’sche Verzweigungsdiffusion). Sei (ZnN )n∈N0 ein GaltonWatson Verzweigungsprozess mit kritischer, geometrischer Nachkommenverteilung pk = 2−k−1 , k ∈ N0 und Z0N = N für jedes N ∈ N. Dann ist Z N ein diskretes Martingal, und es gilt ∞ ' 2 N ( N N N E ZnN − Zn−1 pk k 2 − 1 = 2 Zn−1 . Zn−1 = Zn−1 k=0


571

3

2

1

0

1

2

3

4

5

Abb. 26.4. Simulation einer Feller’schen Verzweigungsdiffusion mit Parameter γ = 1.

Daher hat Z N die quadratische Variation n−1

Z N !n = Sei nun

2ZkN .

k=0

1

N N ZN ZtN := t − N −1 ⌊tN ⌋ Z⌊tN ⌋+1 − Z⌊tN ⌋ + n ⌊tN ⌋

N eine linear interpolierte Version von N −1 Z⌊tN ⌋ . Nach dem Satz von Lindvall N →∞

(Satz 21.51) gibt es einen stetigen Markovprozess Z, sodass Z N −→ Z in Verteilung gilt. Da man zeigen kann, dass auch die Momente konvergieren, gilt, dass Z ein stetiges Martingal ist und quadratische Variation Z!t =

t

2Zs ds

0

hat. Tatsächlich hatten wir in Beispiel 26.11 bereits gezeigt, dass Z die Lösung der SDGL 3 (26.30) dZt = 2Zt dWt

mit Start in Z0 = 1 ist. Dort hatten wir auch gezeigt, dass Z dual ist zu Yty = −1 tγ 1 mit H(x, y) = e−xy . Hieraus folgt die Eindeutigkeit der Lösung von 2 + y

(26.30) und die starke Markoveigenschaft von Z.

3

Man kann einwenden, dass in den Beispielen 26.29 und 26.31 nur eindimensionale Situationen betrachtet wurden, für die wir nach dem Satz von YamadaWatanabe (Satz 26.10) sowieso schon um die Eindeutigkeit sogar einer starken

572


Lösung wissen. Die wahre Stärke der Methode der Dualität kann sich also erst in höherdimensionalen Problemen entfalten. Hierzu betrachten wir als Beispiel eine Erweiterung von Beispiel 26.29. Beispiel 26.32 (Wechselwirkende Wright-Fisher Diffusionen). Die Wright-Fisher Diffusion aus Beispiel 26.29 beschreibt die Fluktuationen der Genfrequenz eines Allels in einer großen Population. Wir wollen nun mehrere Populationen betrachten, die auf den Punkten i ∈ S := {1, . . . , N } leben, und miteinander durch Migration, die durch Wechselwirkungsraten r(i, j) ≥ 0 quantifiziert wird, in Wechselwirkung stehen. Als Modell für die Genfrequenzen Xt (i) am Ort i zur Zeit t stellen wir daher die folgende N -dimensionale SDGL für X = (X(1), . . . , X(N )) auf: dXt (i) =

N 3

γ Xt (i)(1 − Xt (i)) dWti + r(i, j) Xt (j) − Xt (i) dt. (26.31) j=1

Dabei ist W = (W 1 , . . . , W N ) eine N -dimensionale Brown’sche Bewegung. Diese SDGL hat nach Satz 26.22 schwache Lösungen, jedoch greift keines unserer allgemeinen Kriterien für schwache Eindeutigkeit. Wir werden daher die schwache Eindeutigkeit vermittels Dualität zeigen. Es ist, a¨ hnlich wie in Beispiel 26.29, nicht schwer zu zeigen, dass Lösungen von (26.31), die in X0 = x ∈ E := [0, 1]S starten, in [0, 1]S bleiben. Die Diagonalterme r(i, i) tauchen in (26.31) nicht auf, daher können wir sie noch beliebig festsetzen und wählen r(i, i) = − j =

i r(i, j). Sei Y = (Yt )t≥0 der Markovprozess auf E ′ := S N0 mit der folgenden Q-Matrix ⎧ ϕ(i) r(i, j), falls η = ϕ − {i} + {j} für ⎪ ⎪ ⎪ ⎪ gewisse i, j ∈ S, i = j, ⎪ ⎪ ⎪

ϕ(i) ⎨ γ 2 , falls η = ϕ − {i} für ein i ∈ S, q(ϕ, η) = ⎪

⎪ ϕ(i) ⎪ ⎪ , falls η = ϕ, ϕ(i)r(i, i) − γ ⎪ 2 ⎪i∈S ⎪ ⎩ 0, sonst.

Dabei bezeichnet ϕ ∈ E ′ einen generischen Zustand mit ϕ(i) Teilchen am Ort i ∈ S, und {i} ∈ E ′ bezeichnet den Zustand mit genau einem Teilchen am Ort i. Der Prozess Y beschreibt ein System von Teilchen, die unabhängig voneinander mit Rate r(i, j) vom Ort i zum Ort j springen. Sind mehrere Teilchen an einem Ort

Paare von Teilchen mit der selben Rate γ zu einem i, so verschmilzt jedes der ϕ(i) 2 Teilchen. Die gängige genealogische Interpretation dieses Prozesses ist, dass er (in umgekehrter Zeit) die Ahnenlinien einer Stichprobe von je Y0 (i) Individuen ein den Orten i ∈ S, beschreibt. Durch Migration wechseln die Linien den Ort. Haben zwei Individuen den selben Vorfahren, so verschmelzen zwei Linien. Offenbar ist für einen gemeinsamen Vorfahren notwendig aber nicht hinreichend, dass beide Linien am selben Ort sind.


573

Für x ∈ Rn und ϕ ∈ E ′ schreiben wir xϕ := i∈S x(i)ϕ(i) . Wir zeigen, dass X und Y dual zueinander sind mit der Dualitätsfunktion H(x, ϕ) = xϕ : Ex [Xtϕ ] = Eϕ [xYt ]

für alle ϕ ∈ S N0 , x ∈ [0, 1]S , t ≥ 0.

(26.32)

Sei mx,ϕ (t) := Ex [Xtϕ ] und g x,ϕ (t) := Eϕ [xYt ]. Offenbar hat H die Ableitungen

ϕ−2 {i} . Nach der ∂i H( · , ϕ)(x) = ϕ(i)xϕ− {i} und ∂i ∂i H( · , ϕ)(x) = 2 ϕ(i) 2 x Itô-Formel ist t

ϕ− ϕ(i)r(i, j) Xs (j) − Xs (i) Xt {i} ds Xtϕ − X0ϕ − 0 i,j∈S

−

i∈S

0

t

ϕ−2 ϕ(i) Xs (i)(1 − Xs (i)) Xs γ 2

{i}

ds

ein Martingal. Indem wir Erwartungswerte bilden, erhalten wir ein System von linearen Integralgleichungen mx,0 (t) = 1 mx,ϕ (t) = xϕ + +

0

t

0 i,j∈S

t

γ

ϕ(i)r(i, j) mx,ϕ+

ϕ(i) i∈S

2

mx,ϕ−

{j} − {i}

(s) − mx,ϕ (s) ds

(26.33)

{i} (s) − mx,ϕ (s) ds.

Dieses System von Gleichungen lässt sich per Induktion u¨ ber n = i∈I ϕ(i) eindeutig lösen. Wir wollen die Lösung jedoch nicht explizit ausrechnen, sondern nur zeigen, dass sie mit g x,ϕ (t) u¨ bereinstimmt, indem wir zeigen, dass g ein a¨ quivalentes System von Differentialgleichungen löst. Für g erhalten wir wie in (26.29) d x,ϕ g (t) = q(ϕ, η) g x,ϕ (t) dt η∈E ′ = r(i, j) g x,ϕ+ {j} −

{i}

i,j∈S

ϕ(i) g x,ϕ− + γ 2 i∈S

{i}

(t) − g x,ϕ (t)

(26.34)

(t) − g x,ϕ (t) .

Zusammen mit dem Startwert g x,0 (t) = 1 und g x,ϕ (0) = xϕ ist das System (26.34) von Differentialgleichungen a¨ quivalent zu (26.33). Also gilt die Dualität (26.32), und damit ist die SDGL (26.31) eindeutig schwach lösbar. (Tatsächlich kann man zeigen, dass es eine eindeutige starke Lösung gibt, sogar wenn S abzählbar unendlich ist und r gewisse Regularitätsannahmen erfüllt, beispielsweise die Q-Matrix 3 einer Irrfahrt auf S = Zd ist, siehe [144].)

574


¨ Ubung 26.3.1 (Aussterbewahrscheinlichkeit der Feller’schen Verzweigungsdif√ fusion). Sei γ > 0 und Z die Lösung von dZt := γZt dWt mit Anfangswert Z0 = z > 0. Man zeige mit Hilfe der Dualität 2z Pz [Zt = 0] = exp − . (26.35) γt Man bestimme mit Hilfe von Lemma 21.44 die Wahrscheinlichkeit, dass ein GaltonWatson Verzweigungsprozess X mit kritischer, geometrischer Nachkommenverteilung und X0 = N ∈ N bis zur Zeit n ∈ N ausgestorben ist und vergleiche das Ergebnis mit (26.35). ♣

Literatur

1. M. Aizenman, H. Kesten und C. M. Newman. Uniqueness of the infinite cluster and continuity of connectivity functions for short and long range percolation. Comm. Math. Phys., 111(4):505–531, 1987. 2. M. Aizenman, H. Kesten und C. M. Newman. Uniqueness of the infinite cluster and related results in percolation. In Percolation theory and ergodic theory of infinite particle systems (Minneapolis, Minn., 1984–1985), volume 8 of IMA Vol. Math. Appl., pages 13–20. Springer, New York, 1987. ´ 3. David J. Aldous. Exchangeability and related topics. In Ecole d’été de probabilités de Saint-Flour, XIII—1983, volume 1117 of Lecture Notes in Math., pages 1–198. Springer, Berlin, 1985. 4. Krishna B. Athreya und Peter E. Ney. Branching Processes. Springer-Verlag, Berlin, 1972. 5. Jacques Azéma und Marc Yor. Le problème de Skorokhod: compléments a` “Une solution simple au problème de Skorokhod”. In Séminaire de Probabilités, XIII (Univ. Strasbourg, Strasbourg, 1977/78), volume 721 of Lecture Notes in Math., pages 625– 633. Springer, Berlin, 1979. 6. Jacques Azéma und Marc Yor. Une solution simple au problème de Skorokhod. In Séminaire de Probabilités, XIII (Univ. Strasbourg, Strasbourg, 1977/78), volume 721 of Lecture Notes in Math., pages 90–115. Springer, Berlin, 1979. 7. Martin Barner und Friedrich Flohr. Analysis. II. de Gruyter Lehrbuch. Walter de Gruyter & Co., Berlin, 2. Auflage, 1989. 8. Martin Barner und Friedrich Flohr. Analysis. I. de Gruyter Lehrbuch. Walter de Gruyter & Co., Berlin, 4. Auflage, 1991. 9. Heinz Bauer. Maß - und Integrationstheorie. de Gruyter Lehrbuch. Walter de Gruyter & Co., Berlin, 2. Auflage, 1992. 10. Heinz Bauer. Wahrscheinlichkeitstheorie. de Gruyter Lehrbuch. Walter de Gruyter & Co., Berlin, 5. Auflage, 2002. 11. Leonard E. Baum und Melvin Katz. Convergence rates in the law of large numbers. Trans. Amer. Math. Soc., 120:108–123, 1965. 12. M Baxter und R. Rennie. Financial Calculus. Cambridge University Press, Cambridge, 1997. 13. Andrew C. Berry. The accuracy of the gaussian approximation to the sum of independent variates. Trans. Amer. Math. Soc., 49:122–136, 1941. 14. Patrick Billingsley. Convergence of probability measures. John Wiley & Sons Inc., New York, 1968. 15. Patrick Billingsley. Weak convergence of measures: Applications in probability. Society for Industrial and Applied Mathematics, Philadelphia, Pa., 1971. Conference Board of the Mathematical Sciences Regional Conference Series in Appl. Mathematics, No. 5.

576

Literatur

16. Patrick Billingsley. Probability and measure. Wiley Series in Probability and Mathematical Statistics. John Wiley & Sons Inc., New York, 3. Auflage, 1995. A WileyInterscience Publication. 17. Patrick Billingsley. Convergence of probability measures. Wiley Series in Probability and Statistics: Probability and Statistics. John Wiley & Sons Inc., New York, 2. Auflage, 1999. A Wiley-Interscience Publication. 18. K. Binder und D. W. Heermann. Monte Carlo simulation in statistical physics, An introduction, volume 80 of Springer Series in Solid-State Sciences. Springer-Verlag, Berlin, 3. Auflage, 1997. 19. R. M. Blumenthal. An extended Markov property. Trans. Amer. Math. Soc., 85:52–72, 1957. 20. Salomon Bochner. Vorlesungen u¨ ber Fouriersche Integrale. Chelsea Publishing Company, New York, 1932. Nachdruck von 1948. 21. Leo Breiman. Probability. Addison-Wesley Publishing Company, Reading, Mass., 1968. 22. Brockhaus. Die Enzyklopädie in 24 Bänden. F.A. Brockhaus, Mannheim, 20. Auflage, 1998. 23. Jörg Brüdern. Einführung in die analytische Zahlentheorie. Springer-Verlag, Berlin Heidelberg, 1995. 24. Dirk Brüggemann. Starke Gesetze der großen Zahlen bei blockweisen Unabhängigkeitsbedingungen. Dissertation, Universität zu Köln, 2002. 25. R. M. Burton und M. Keane. Density and uniqueness in percolation. Comm. Math. Phys., 121(3):501–505, 1989. 26. Gustave Choquet und Jacques Deny. Sur l’équation de convolution µ = µ ∗ σ. C. R. Acad. Sci. Paris, 250:799–801, 1960. 27. Yuan Shih Chow und Henry Teicher. Probability theory: Independence, interchangeability, martingales. Springer Texts in Statistics. Springer-Verlag, New York, 3. Auflage, 1997. 28. K. L. Chung und W. H. J. Fuchs. On the distribution of values of sums of random variables. Mem. Amer. Math. Soc., 1951(6):12, 1951. 29. Peter Clifford und Aidan Sudbury. A model for spatial conflict. Biometrika, 60:581– 588, 1973. 30. Harald Cramér. Sur un nouveau théorème-limite de la théorie des probabilités. Actualités Scientifiques et Industrielles, 763:5–23, 1938. Colloque consacré a` la théorie des probabilités. 31. Freddy Delbaen und Walter Schachermayer. A general version of the fundamental theorem of asset pricing. Math. Ann., 300(3):463–520, 1994. 32. Amir Dembo und Ofer Zeitouni. Large deviations techniques and applications, volume 38 of Applications of Mathematics (New York). Springer-Verlag, New York, 2. Auflage, 1998. 33. Jean-Dominique Deuschel und Daniel W. Stroock. Large deviations, volume 137 of Pure and Applied Mathematics. Academic Press Inc., Boston, MA, 1989. 34. J. Dieudonné. Foundations of Modern Analysis, volume X of Pure and Applied Mathematics. Academic Press, New York und London, 1960. 35. Monroe D. Donsker. An invariance principle for certain probability limit theorems. Mem. Amer. Math. Soc.,, 1951(6):12, 1951. 36. Peter G. Doyle und J. Laurie Snell. Random walks and electric networks, volume 22 of Carus Mathematical Monographs. Mathematical Association of America, Washington, DC, 1984.

Literatur

577

37. R. M. Dudley. Real analysis and probability, volume 74 of Cambridge Studies in Advanced Mathematics. Cambridge University Press, Cambridge, 2002. Revidierter Nachdruck der Originalausgabe von 1989. 38. Richard Durrett. Probability: theory and examples. Duxbury Press, Belmont, CA, 2. Auflage, 1996. 39. Aryeh Dvoretzky, Paul Erd˝os und Shizuo Kakutani. Nonincrease everywhere of the Brownian motion process. In Proc. 4th Berkeley Sympos. Math. Statist. and Prob., Vol. II, pages 103–116. Univ. California Press, Berkeley, Calif., 1961. 40. Dmitri Egoroff. Sur les suites des fonctions measurables. C. R. Acad. Sci, Paris, 152:135–157, 1911. 41. Robert J. Elliott und P. Ekkehard Kopp. Mathematics of financial markets. Springer Finance. Springer-Verlag, New York, 1999. 42. Richard S. Ellis. Entropy, large deviations, and statistical mechanics, volume 271 of Grundlehren der Mathematischen Wissenschaften. Springer-Verlag, New York, 1985. 43. Jürgen Elstrodt. Maß- und Integrationstheorie. Springer-Verlag, New York, 3. Auflage, 1999. 44. P. Erd˝os und R. L. Graham. On a linear diophantine problem of Frobenius. Acta Arith., 21:399–408, 1972. 45. Carl-Gustav Esseen. On the liapounoff limit of error in the theory of probability. Ark. Mat. Astr. och Fys., 28A(9):1–19, 1942. 46. Nasrollah Etemadi. An elementary proof of the strong law of large numbers. Z. Wahrsch. Verw. Gebiete, 55(1):119–122, 1981. 47. Alison Etheridge. A course in financial calculus. Cambridge University Press, Cambridge, 2002. 48. Stewart N. Ethier und Thomas G. Kurtz. Markov processes, Characterization and convergence. Wiley Series in Probability and Mathematical Statistics: Probability and Mathematical Statistics. John Wiley & Sons Inc., New York, 1986. 49. Steven N. Evans und Xiaowen Zhou. Identifiability of exchangeable sequences with identically distributed partial sums. Electron. Comm. Probab., 4:9–13 (electronic), 1999. ¨ 50. William Feller. Uber den zentralen Grenzwertsatz der Wahrscheinlichkeitstheorie I. Mathematische Zeitschrift, 40:521–559, 1935. ¨ 51. William Feller. Uber den zentralen Grenzwertsatz der Wahrscheinlichkeitstheorie II. Mathematische Zeitschrift, 42:301–312, 1937. 52. William Feller. An introduction to probability theory and its applications. Vol. I. John Wiley & Sons Inc., New York, 3. Auflage, 1968. 53. William Feller. An introduction to probability theory and its applications. Vol. II. John Wiley & Sons Inc., New York, 2. Auflage, 1971. 54. James Allen Fill. An interruptible algorithm for perfect sampling via Markov chains. Ann. Appl. Probab., 8(1):131–162, 1998. 55. James Allen Fill, Motoya Machida, Duncan J. Murdoch und Jeffrey S. Rosenthal. Extension of Fill’s perfect rejection sampling algorithm to general chains. In Proceedings of the Ninth International Conference “Random Structures and Algorithms” (Poznan, 1999), volume 17, pages 290–316, 2000. 56. Hans Föllmer und Alexander Schied. Stochastic finance, volume 27 of de Gruyter Studies in Mathematics. Walter de Gruyter & Co., Berlin, 2002. 57. Peter Gänssler und Winfried Stute. Wahrscheinlichkeitstheorie. Springer-Verlag, Berlin, 1977. 58. Hans-Otto Georgii. Stochastik. de Gruyter Lehrbuch. Walter de Gruyter & Co., Berlin, 2003.

578

Literatur

59. Alison L. Gibbs und Francis Edward Su. On choosing and bounding probability metrics. International Statistical Review, 70(3):419–435, 2002. 60. M. L. Glasser und I. J. Zucker. Extended Watson integrals for the cubic lattices. Proc. Nat. Acad. Sci. U.S.A., 74(5):1800–1801, 1977. 61. B. V. Gnedenko und A. N. Kolmogorov. Limit distributions for sums of independent random variables. Addison-Wesley Publishing Co., Reading, Mass.-London-Don Mills., Ont., 1968. 62. Geoffrey Grimmett. Percolation, volume 321 of Grundlehren der Mathematischen Wissenschaften. Springer-Verlag, Berlin, 2. Auflage, 1999. 63. Geoffrey R. Grimmett und David R. Stirzaker. Probability and random processes. Oxford University Press, New York, 3. Auflage, 2001. 64. E. Grosswald. The Student t-distribution of any degree of freedom is infinitely divisible. Z. Wahrscheinlichkeitstheorie und Verw. Gebiete, 36(2):103–109, 1976. 65. Olle Häggström. Finite Markov chains and algorithmic applications, volume 52 of London Mathematical Society Student Texts. Cambridge University Press, Cambridge, 2002. 66. Takashi Hara und Gordon Slade. Mean-field critical behaviour for percolation in high dimensions. Comm. Math. Phys., 128(2):333–391, 1990. 67. J. Michael Harrison und Stanley R. Pliska. Martingales and stochastic integrals in the theory of continuous trading. Stochastic Process. Appl., 11(3):215–260, 1981. 68. Philip Hartman und Aurel Wintner. On the law of the iterated logarithm. Amer. J. Math., 63:169–176, 1941. 69. W.K. Hastings. Monte Carlo sampling methods using Markov chains and their applications. Biometrika, 57:97–109, 1970. 70. Edwin Hewitt und Kenneth A. Ross. Abstract harmonic analysis. Vol. II: Structure and analysis for compact groups. Analysis on locally compact Abelian groups. Die Grundlehren der mathematischen Wissenschaften, Band 152. Springer-Verlag, New York, 1970. 71. Edwin Hewitt und Leonard J. Savage. Symmetric measures on Cartesian products. Trans. Math. Soc., 80:470–501, 1955. 72. C.C. Heyde. On a property of the lognormal distribution. J. Royal Stat. Soc. B, 29:392– 393, 1963. 73. Friedrich Hirzebruch und Winfried Scharlau. Einführung in die Funktionalanalysis. Bibliographisches Institut, Mannheim, 1971. B. I.-Hochschultaschenbücher, No. 296. 74. Frank den Hollander. Large deviations, volume 14 of Fields Institute Monographs. American Mathematical Society, Providence, RI, 2000. 75. Richard A. Holley und Thomas M. Liggett. Ergodic theorems for weakly interacting infinite systems and the voter model. Ann. Probability, 3(4):643–663, 1975. 76. Barry D. Hughes. Random walks and random environments. Vol. 1. Oxford Science Publications. The Clarendon Press Oxford University Press, New York, 1995. Random walks. 77. Barry D. Hughes. Random walks and random environments. Vol. 2. Oxford Science Publications. The Clarendon Press Oxford University Press, New York, 1996. Random environments. 78. Nobuyuki Ikeda und Shinzo Watanabe. Stochastic differential equations and diffusion processes, volume 24 of North-Holland Mathematical Library. North-Holland Publishing Co., Amsterdam, 2. Auflage, 1989. 79. Albrecht Irle. Finanzmathematik. Teubner Studienbücher Mathematik. B. G. Teubner, Stuttgart, 1998.

Literatur

579

80. Jürgen Jost. Partielle Differentialgleichungen. Springer, Berlin, 1998. 81. G. S. Joyce. Singular behaviour of the lattice Green function for the d-dimensional hypercubic lattice. J. Phys. A, 36(4):911–921, 2003. 82. Shizuo Kakutani. Examples of ergodic measure preserving transformations which are weakly mising but not strongly mixing. In Recent advances in topological dynamics (Proc. Conf., Yale Univ., New Haven, Conn., 1972; in honor of Gustav Arnold Hedlund), pages 143–149. Lecture Notes in Math., Vol. 318. Springer, Berlin. 83. Olav Kallenberg. Random measures. Akademie-Verlag, Berlin, 4. Auflage, 1986. 84. Olav Kallenberg. Foundations of Modern Probability. Probability and Its Applications. Springer Verlag, New York, Berlin, 2. Auflage, 2002. ˇ Rubinˇste˘ın. On a space of completely additive functions. 85. L. V. Kantoroviˇc und G. S. Vestnik Leningrad. Univ., 13(7):52–59, 1958. 86. Ioannis Karatzas und Steven E. Shreve. Brownian motion and stochastic calculus, volume 113 of Graduate Texts in Mathematics. Springer-Verlag, New York, 2. Auflage, 1991. 87. Ioannis Karatzas und Steven E. Shreve. Methods of mathematical finance, volume 39 of Applications of Mathematics (New York). Springer-Verlag, New York, 1998. 88. Gerhard Keller. Equilibrium states in ergodic theory, volume 42 of London Mathematical Society Student Texts. Cambridge University Press, Cambridge, 1998. 89. Gerhard Keller. Wahrscheinlichkeitstheorie. Vorlesungsskript. Universität Erlangen, 2003. 90. John L. Kelley. General topology. Springer-Verlag, New York, 1975. Nachdruck der Ausgabe von 1955 [Van Nostrand, Toronto, Ont.], Graduate Texts in Mathematics, No. 27. 91. Richard W. Kenyon, James G. Propp und David B. Wilson. Trees and matchings. Electron. J. Combin., 7:Research Paper 25, 34 pp. (electronic), 2000. 92. Harry Kesten. Sums of stationary sequences cannot grow slower than linearly. Proc. Amer. Math. Soc., 49:205–211, 1975. 93. Harry Kesten. The critical probability of bond percolation on the square lattice equals 1 . Comm. Math. Phys., 74(1):41–59, 1980. 2 94. Harry Kesten und Bernt P. Stigum. A limit theorem for multidimensional GaltonWatson processes. Ann. Math. Statist., 37:1211–1223, 1966. ¨ 95. Aleksandr Khintchine. Uber dyadische Brüche. Mathematische Zeitschrift, 18:109– 116, 1923. 96. J. F. C. Kingman. Poisson processes, volume 3 of Oxford Studies in Probability. The Clarendon Press Oxford University Press, New York, 1993. Oxford Science Publications. 97. A. N. Kolmogorov. Sulla determinazione empirica di una legge di distibuzione. Giornale Istituto Italiano degli Attuari, 4:83–91, 1933. 98. Ralf Korn und Elke Korn. Optionsbewertung und Portfolio-Optimierung. Friedr. Vieweg & Sohn, Braunschweig, 1999. 99. Ulrich Krengel. Ergodic theorems, volume 6 of de Gruyter Studies in Mathematics. Walter de Gruyter & Co., Berlin, 1985. 100. Ulrich Krengel. Einführung in die Wahrscheinlichkeitstheorie und Statistik, volume 59 of Vieweg Studium: Aufbaukurs Mathematik. Friedr. Vieweg & Sohn, Braunschweig, 2003. 101. S. Kullback und R. A. Leibler. On information and sufficiency. Ann. Math. Statistics, 22:79–86, 1951.

580

Literatur

102. Thomas Kurtz, Russell Lyons, Robin Pemantle und Yuval Peres. A conceptual proof of the Kesten-Stigum theorem for multi-type branching processes. In Classical and modern branching processes (Minneapolis, MN, 1994), volume 84 of IMA Vol. Math. Appl., pages 181–185. Springer, New York, 1997. 103. Paul Lévy. Théorie de l’Addition des Variables Aléatoires. Gauthier-Villars, Paris, 1937. 104. Paul Lévy. Processus Stochastiques et Mouvement Brownien. Suivi d’une note de M. Loève. Gauthier-Villars, Paris, 1948. 105. Jarl Waldemar Lindeberg. Eine neue Herleitung des Exponentialgesetzes in der Wahrscheinlichkeitsrechnung. Mathematische Zeitschrift, 15:211–225, 1922. 106. Jarl Waldemar Lindeberg. Sur la loi de Gauss. C.R. Acad. Sci. Paris, 174:1400–1402, 1922. 107. Torgny Lindvall. Convergence of critical Galton-Watson branching processes. J. Appl. Probability, 9:445–450, 1972. 108. Russell Lyons, Robin Pemantle und Yuval Peres. Conceptual proofs of L log L criteria for mean behavior of branching processes. Ann. Probab., 23(3):1125–1138, 1995. 109. Russell Lyons und Yuval Peres. Probability on Trees. 2005. Vorabversion im Internet unter http://mypage.iu.edu/ rdlyons/prbtree/prbtree.html. 110. Neal Madras. Lectures on Monte Carlo methods, volume 16 of Fields Institute Monographs. American Mathematical Society, Providence, RI, 2002. 111. Dimitri E. Menchoff. Sur les séries des fonctions orthogonales (première partie). Fund. Math., 4:92–105, 1923. 112. N. Metropolis, A.W. Rosenbluth, M.N. Rosenbluth, A.H. Teller und E. Teller. Equation of state calculations by fast computing machines. Journal of Chemical Physics, 21:1087–1092, 1953. 113. Paul-A. Meyer. Probability and potentials. Blaisdell Publishing Co. Ginn and Co., Waltham, Mass.-Toronto, Ont.-London, 1966. 114. Ferenc Móricz und Károly Tandori. An improved Menshov-Rademacher theorem. Proc. Amer. Math. Soc., 124(3):877–885, 1996. 115. Rajeev Motwani und Prabhakar Raghavan. Randomized algorithms. Cambridge University Press, Cambridge, 1995. 116. Alfred Müller und Dietrich Stoyan. Comparison methods for stochastic models and risks. Wiley Series in Probability and Statistics. John Wiley & Sons Ltd., Chichester, 2002. 117. J. R. Norris. Markov chains. Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge University Press, Cambridge, 1998. Nachdruck der Originalausgabe von 1997. 118. Raymond E.A.C. Paley, Norbert Wiener und Antoni Zygmund. Note on random functions. Math. Zeit., 38:647–688, 1933. 119. Ronald F. Peierls. On Ising’s model of ferromagnetism. Proc. Cambridge Phil. Soc., 36:477–481, 1936. 120. Valentin V. Petrov. Sums of independent random variables. Springer-Verlag, New York, 1975. Ergebnisse der Mathematik und ihrer Grenzgebiete, Band 82. ´ ´ e de Probabilités de 121. Jim Pitman. Combinatorial stochastic processes. In Ecole d’Et´ Saint-Flour 2002, Erscheint in: Lecture Notes in Math. (Im Internet erhältlich unter www-stat.berkeley.edu/users/pitman). 122. Jim Pitman. Exchangeable and partially exchangeable random partitions. Probab. Theory Related Fields, 102(2):145–158, 1995.

Literatur

581

123. Jim Pitman und Marc Yor. Bessel processes and infinitely divisible laws. In Stochastic integrals (Proc. Sympos., Univ. Durham, Durham, 1980), volume 851 of Lecture Notes in Math., pages 285–370. Springer, Berlin, 1981. 124. Jim Pitman und Marc Yor. The two-parameter Poisson-Dirichlet distribution derived from a stable subordinator. Ann. Probab., 25(2):855–900, 1997. 125. Jim Pitman und Marc Yor. On the distribution of ranked heights of excursions of a Brownian bridge. Ann. Probab., 29(1):361–384, 2001. ¨ 126. George Pólya. Uber eine Aufgabe der Wahrscheinlichkeitsrechnung betreffend die Irrfahrt im Straßennetz. Math. Ann., 84:139–160, 1921. 127. George Pólya. Sur quelques points de la théorie de probabilités. Ann. Inst. H. Poincaré, 1:117–161, 1931. 128. Yu. V. Prohorov. Convergence of random processes and limit theorems in probability theory. Teor. Veroyatnost. i Primenen., 1:177–238, 1956. Russisch mit englischer Zusammenfassung. 129. James Propp und David Wilson. Coupling from the past: a user’s guide. In Microsurveys in discrete probability (Princeton, NJ, 1997), volume 41 of DIMACS Ser. Discrete Math. Theoret. Comput. Sci., pages 181–192. Amer. Math. Soc., Providence, RI, 1998. 130. James Gary Propp und David Bruce Wilson. Exact sampling with coupled Markov chains and applications to statistical mechanics. In Proceedings of the Seventh International Conference on Random Structures and Algorithms (Atlanta, GA, 1995), volume 9, pages 223–252, 1996. 131. James Gary Propp und David Bruce Wilson. How to get a perfectly random sample from a generic Markov chain and generate a random spanning tree of a directed graph. J. Algorithms, 27(2):170–217, 1998. 7th Annual ACM-SIAM Symposium on Discrete Algorithms (Atlanta, GA, 1996). 132. Philip E. Protter. Stochastic integration and differential equations, volume 21 of Applications of Mathematics (New York). Springer-Verlag, Berlin, 2. Auflage, 2004. Stochastic Modelling and Applied Probability. 133. Boto von Querenburg. Mengentheoretische Topologie. Springer-Verlag, Berlin, 1976. Korrigierter Nachdruck der ersten Auflage, Hochschultext. 134. Hans Rademacher. Einige Sätze u¨ ber Reihen von allgemeinen Orthogonalfunktionen. Math. Ann., 87:112–138, 1922. 135. Pál Révész. Random walk in random and non-random environments. World Scientific Publishing Co. Pte. Ltd., Hackensack, NJ, second Auflage, 2005. 136. D. Revuz. Markov chains, volume 11 of North-Holland Mathematical Library. NorthHolland Publishing Co., Amsterdam, 2. Auflage, 1984. 137. Daniel Revuz und Marc Yor. Continuous martingales and Brownian motion, volume 293 of Grundlehren der Mathematischen Wissenschaften. Springer-Verlag, Berlin, 3. Auflage, 1999. 138. R. Tyrrell Rockafellar. Convex analysis. Princeton Mathematical Series, No. 28. Princeton University Press, Princeton, N.J., 1970. 139. L. C. G. Rogers und David Williams. Diffusions, Markov processes, and martingales. Vol. 1: Foundations. Cambridge Mathematical Library. Cambridge University Press, Cambridge, 2000. Nachdruck der zweiten Auflage von 1994. 140. L. C. G. Rogers und David Williams. Diffusions, Markov processes, and martingales. Vol. 2: Itô calculus. Cambridge Mathematical Library. Cambridge University Press, Cambridge, 2000. Nachdruck der zweiten Auflage von 1994. 141. Walter Rudin. Analysis. Oldenbourg Verlag, Müu¨ nchen, Wien, 1988. 142. Ivan Nicolaevich Sanov. On the probability of large deviations of random magnitudes. Mat. Sb. N. S., 42 (84):11–44, 1957. Russisch.

582

Literatur

143. Ivan Nicolaevich Sanov. On the probability of large deviations of random variables. In Select. Transl. Math. Statist. and Probability, Vol. 1, pages 213–244. Inst. Math. Statist. and Amer. Math. Soc., Providence, R.I., 1961. 144. Tokuzo Shiga und Akinobu Shimizu. Infinite-dimensional stochastic differential equations and their applications. J. Math. Kyoto Univ., 20(3):395–416, 1980. 145. Albert N. Shiryaev. Probability, volume 95 of Graduate Texts in Mathematics. ¨ Springer-Verlag, New York, 2. Auflage, 1996. Ubersetzung der ersten russischen Ausgabe von 1980. 146. N.V. Smirnov. Sur les e´ carts de la courbe de distribution empirique. Matematicheskij Sbornik, Rossijskaya Akademiya Nauk, Moscow, 2:3–16, 1939. Russisch mit französicher Zusammenfassung. 147. Frank Spitzer. Principles of random walks. Springer-Verlag, New York, 2. Auflage, 1976. Graduate Texts in Mathematics, Vol. 34. 148. Daniel W. Stroock und S. R. Srinivasa Varadhan. Diffusion processes with boundary conditions. Comm. Pure Appl. Math., 24, 1971. 149. Daniel W. Stroock und S. R. Srinivasa Varadhan. Multidimensional diffusion processes, volume 233 of Grundlehren der Mathematischen Wissenschaften. Springer-Verlag, Berlin, 1979. 150. J. J. Sylvester. Mathematical questions with their solutions. Educational Times, 41:171– 178, 1884. ¨ 151. Károly Tandori. Uber die orthogonalen Funktionen. I. Acta Sci. Math. Szeged, 18:57– 130, 1957. ¨ 152. Károly Tandori. Uber die Divergenz der Orthogonalreihen. Publ. Math. Debrecen, 8:291–307, 1961. 153. Károly Tandori. Bemerkung u¨ ber die paarweise unabhängigen zufälligen Größen. Acta Math. Hungar., 48(3-4):357–359, 1986. 154. S. R. S. Varadhan. Asymptotic probabilities and differential equations. Comm. Pure Appl. Math., 19:261–286, 1966. 155. G. N. Watson. Three triple integrals. Quart. J. Math., Oxford Ser., 10:266–276, 1939. 156. Dirk Werner. Funktionalanalysis. Springer-Verlag, Berlin, 2000. 157. David Williams. Probability with martingales. Cambridge Mathematical Textbooks. Cambridge University Press, Cambridge, 1991. 158. David Bruce Wilson und James Gary Propp. How to get an exact sample from a generic Markov chain and sample a random spanning tree from a directed graph, both within the cover time. In Proceedings of the Seventh Annual ACM-SIAM Symposium on Discrete Algorithms (Atlanta, GA, 1996), pages 448–457, New York, 1996. ACM. 159. Sewall Wright. Evolution in Mendelian populations. Genetics, 16:97–159, 1931. 160. A. M. Yaglom. Certain limit theorems of the theory of branching random processes. Doklady Akad. Nauk SSSR (N.S.), 56:795–798, 1947. 161. Toshio Yamada und Shinzo Watanabe. On the uniqueness of solutions of stochastic differential equations. J. Math. Kyoto Univ., 11:155–167, 1971. 162. K¯ osaku Yosida. Functional analysis. Classics in Mathematics. Springer-Verlag, Berlin, 1995. Nachdruck der sechsten Auflage von 1980. 163. Ofer Zeitouni. Random walks in random environment. In Lectures on probability theory and statistics, volume 1837 of Lecture Notes in Math., pages 189–312. Springer, Berlin, 2004.

Notation

Indikatorfunktion der Menge A

A

2Ω

Potenzmenge, 1

#A

Kardinalität der Menge A

A

c

Komplement Ω \ A der Menge A ⊂ Ω, 1 Schnittmenge

A∩B

A∪B

Vereinigungsmenge

A⊎B

disjunkte Vereinigungsmenge (eigentlich ist hierin eine Aussage enthalten)

A⊂B

A ist (nicht notwendigerweise echte) Teilmenge von B

A\B

Differenzmenge

A×B

kartesisches Produkt von A und B

A△B

symmetrische Differenz zweier Mengen, 29

A

Teilmenge von 2Ω , typischerweise eine σ-Algebra, 1

A

B

A⊗A B(E)

Spur-Mengensystem auf B, 10 ′

Produkt der σ-Algebren A und A, 260 Borel’sche σ-Algebra von E, 8

Berp

Bernoulliverteilung, 43

βr,s

Beta-Verteilung mit Parametern r und s, 46

bn,p

Binomialverteilung, 44, 289

b− r,p

negative Binomialverteilung, 44, 289

C(E), Cb (E), Cc (E) Raum der stetigen (beschränkten) Funktionen, bzw. mit kompakten Träger, 236 CqV

Funktionen mit stetiger quadratischer Variation, 467

C

Menge der komplexen Zahlen, 78

Caua

Cauchy Verteilung, 289

584

Notation

Cov[X, Y ]

Kovarianz der Zufallsvariablen X und Y , 98

CPoiν

zusammengesetzte Poisson-Verteilung, 317

δx

Dirac-Verteilung, 12

E[X]

Erwartungswert der Zufallsvariablen X, 97

E[X; A]

=E[X

E[X |F]

bedingter Erwartungswert, 169

expθ

Exponentialverteilung, 45, 289

F = (Ft )t∈I

Filtration, 185

f.s, f.ü.

fast sicher und fast u¨ berall, 31

G(x, y)

Greeenfunktion einer Markovkette, 351

Γθ,r

Gammaverteilung mit Größenparameter θ > 0 und Formparameter r > 0, 46, 289

γp = b− 1,p

geometrische Verteilung mit Parameter p, 44

ggT(M )

größter gemeinsamer Teiler aller m ∈ M ⊂ N, 366

A ],

167

diskretes stochastisches Integral von H bezüglich X, 192

H ·X I

Menge der invarianten Verteilungen einer Markovkette, 360

i.i.d.

independent and identically distributed, 55

Im(z)

Imaginärteil von z ∈ C, 281

n

Lebesgue-Maß, n-dimensionales, 25

λ, λ

Lip(E) p

p

Raum der Lipschitz-stetigen Funktionen auf E, 237

L ,L

Lebesgue’sche Räume p-fach integrierbarer Funktionen, 89, 139, 140

L(X)

Verteilung der Zufallsvariablen X

Mloc,c

Raum der stetigen lokalen Martingale, 470

μ∗ν

Faltung der Maße μ und ν, 60, 266

M(E), Mf (E), M≤1 , M1 (E) Menge der (endlichen bzw. (Sub-)W-) Maße auf E, 17, 235 μ⊗ν ⊗n

Produkt der Maße μ und ν, 27, 264

μ

n-faches Produktmaß, 264

μ∗n

n-fache Faltungspotenz, 60

μ≪ν

μ ist absolutstetig bezüglich ν, 151

Notation

μ⊥ν

μ ist singulär bezüglich ν, 151

N, N0

N = {1, 2, 3, . . .}, N0 = N ∪ {0}

585

μ und ν sind a¨ quivalent, 151

μ≈ν

Normalverteilung, 45, 289

Nμ,σ2 M dμ dν

Radon-Nikodym-Ableitung 152

Ω

Raum der Elementarereignisse, auf dem P definiert ist

P

generisches Wahrscheinlichkeitsmaß

P[A|B], P[A|F] PX = P ◦ X

−1

Poiλ n

(n)

p (x, y) = p

bedingte Wahrscheinlichkeiten, 166, 169 Verteilung der Zufallsvariablen X, 42 Poissonverteilung mit Parameter λ ≥ 0, 45, 289

¨ (x, y) n-Schritt-Ubergangswahrscheinlichkeiten einer Markovkette, 340

n , PTn PS,T

siehe Seite 467

ϕX

charakteristische Funktion der Zufallsvariablen X, 288

ψX

Erzeugendenfunktion der Zufallsvariablen X, 75

Q

Menge der rationalen Zahlen

R

Menge der reellen Zahlen

R = R ∪ {−∞, +∞} Zweipunktkompaktifizierung der reellen Zahlen Realteil von z ∈ C, 281

Re(z)

sign(x)

=

(0,∞) (x)

−

(−∞,0) (x),

Vorzeichen von x ∈ R, 37

σ( · )

von · erzeugte σ-Algebra oder Filtration, 6, 34, 185

τxk

Zeit des k-ten Besuches einer Markovkette in x, 349

T (·)

terminale σ-Algebra, 61 uniforme Verteilung auf A, 12, 33, 289

UA

u.i.v. 1

unabhängig und identisch verteilt, 55 2

V (G), V (G)

Variation und quadratische Variation von G, 466, 467

Var[X]

Varianz der Zufallsvariablen X, 97

X! f (t) ∼ g(t), t → a X∼μ

quadratischer Variationsprozess von X, 200, 467, 471, 475 : ⇐⇒

limt→a f (t)/g(t) = 1

Die Zufallsvariable X hat Verteilung μ, 42

x ∨ y, x ∧ y, x+ , x− Maximum, Minimum, Positivteil, Negativteil reeller Zahlen, 37

586

Notation

⌊x⌋, z

Abgerundetes und Aufgerundetes von x, 36

⌈x⌉

komplex konjugierte Zahl zu z ∈ C, 281

Z

Menge der ganzen Zahlen

D

Gleichheit in Verteilung, 42

= D

n→∞

−→ , =⇒

Konvergenz der Verteilungen, 243

n→∞

n→∞

n→∞

fdd

fdd

=⇒ ,

−→ Konvergenz der endlichdimensionalen Verteilungen, 453

¨ Glossar englischer Ausdrucke

a.a. = almost all a.e. = almost everywhere a.s. = almost surely array (of random variables) backward martingale bond, edge Brownian motion central limit theorem completion compound Poisson conductivity continuous convolution decompostition density derivative distribution dominated convergence dynamical system expectation (conditional) ergodic theorem event exchangeable extension theorem flow (electric) iff = if and only if i.i.d. = independent and identically distributed increment indistinguishable integer (number) joint distribution large deviation

fast alle fast u¨ berall fast sicher Schema von Zufallsvariablen Rückwärtsmartingal Kante (eines Graphen) Brown’sche Bewegung Zentraler Grenzwertsatz Vervollständigung zusammengesetzt Poisson Leitfähigkeit stetig Faltung Zerlegung Dichte Ableitung Verteilung majorisierte Konvergenz Dynamisches System Erwartungswert (bedingter) Ergodensatz Ereignis austauschbar Fortsetzungssatz, Erweiterungssatz Fluss (elektrischer) dann und nur dann, wenn unabhängig und identisch verteilt Zuwachs ununterscheidbar ganze Zahl gemeinsame Verteilung große Abweichung

588

Glossar englischer Ausdrücke

law level set Markov chain (strong) Markov property map marginal (distribution) mean measurable space measure measure preserving mixing modulus (of a number) modulus of continuity null array partition function p.d.f. = probability distribution function p.g.f. = probability generating function phase transition predictable, previsible probability random walk random variable representation semigroup σ-field size-biased (sampling) tight trace transition kernel uniform distribution uniformly integrable urn model (probability) weight vertex w.p. = with probability

Verteilung Niveaumenge Markovkette (starke) Markoveigenschaft Abbildung Randverteilung Mittelwert Messraum Maß maßerhaltend mischend Absolutbetrag (einer Zahl) Stetigkeitsmodul asymptotisch vernachlässigbares Schema Zustandssumme Verteilungsfunktion Erzeugendenfunktion Phasenübergang previsibel, vorhersagbar Wahrscheinlichkeit Irrfahrt Zufallsvariable Darstellung Halbgruppe σ-Algebra größenverzerrtes Ziehen einer Stichprobe straff Spur ¨ Ubergangskern Gleichverteilung gleichgradig integrierbar Urnenmodell (Wahrscheinlichkeits-)gewicht Punkt/Knoten eines Graphen

Namensregister

Banach, Stefan, 1892 (Krakau) – 1945 (Lemberg, Ukraine), 147 Bayes, Thomas, 1702 (London) – 1761 (Tunbridge Wells, England), 166 Bernoulli, Jakob, 1654 (Basel) – 1705 (Basel), 18 Bienaymé, Irénée-Jules, 1796 (Paris) – 1878 (Paris), 100 Blackwell, David, 1919, 103 Bochner, Salomon, 1899 (Krakau) – 1982 (Houston, Texas), 298 Boltzmann, Ludwig, 1844 (Wien) – 1906 (Duino bei Triest), 378 Borel, Emile, 1871 (Saint-Affrique, Frankreich) – 1956 (Paris), 8 Brown, Robert, 1773 (Montrose, Scotland) – 1858 (London), 436 Cantelli, Francesco Paolo, 1875 (Palermo) – 1966 (Rom), 51 Carathéodory, Constantin, 1873 (Berlin) – 1950 (München), 19 Cauchy, Augustin Louis, 1789 (Paris) – 1857 (bei Paris), 101 Cesàro, Ernesto, 1859 (Neapel) – 1906 (Torre Annunziata, Italien), 62 Chebyshev, Pafnutij Lvovich (Qebyxev, Pafnuti Lvoviq), 1821 (Okatavo, Russland) – 1894 (Sankt Petersburg), 104 Cramér, Harald, 1893 (Stockholm) – 1985 (Stockholm), 312 Curie, Pierre, 1859 (Paris) – 1906 (Paris), 508 Dieudonné, Jean Alexandre 1906 (Lille, Frankreich) – 1992 (Paris), 282

Dirac, Paul Adrien Maurice, 1902 (Bristol) – 1984 (Tallahassee, Florida), 12 Dirichlet, Lejeune, 1805 (Düren) – 1859 (Göttingen), 391 Doob, Joseph Leo, 1910 (Cincinnati, Ohio) – 2004 (Urbana, Illinois), 199 Dynkin, Eugene, 1924 (Sankt Petersburg), 4 Egorov, Dmitrij Fedorovich (Egorov, Dmitri Fedoroviq), 1869 (Moskau) – 1931 (Kasan), 130 Esseen, Carl-Gustav, 1918 (Linköping, Schweden) – 2001 (Uppsala ?), 311 Fatou, Pierre, 1878 (Lorient, Frankreich) – 1929 (Pornichet, Frankreich), 91 Feller, William, 1906 (Zagreb) – 1970 (New York), 306 Fischer, Ernst, 1875 (Wien) – 1954 (Köln), 147 Fourier, Jean Baptiste Joseph, 1768 (Auxerre, Frankreich) – 1830 (Paris)., 286 Fréchet, Maurice René, 1878 (Maligny, Frankreich) – 1973 (Paris), 147 Fubini, Guido, 1879 (Venedig) – 1943 (New York), 264 Galton, Francis, 1822 (bei Birmingham) – 1911 (Grayshott House, England), 81 Gauß, Carl-Friedrich, 1777 (Braunschweig) – 1855 (Göttingen), 45 Gibbs, Josiah Willard, 1839 (New Haven, Connecticut) – 1903 (New Haven, Connecticut), 381 Green, George, 1793 (Nottingham) – 1841 (Nottingham), 351

590

Namensregister

Hahn, Hans, 1879 (Wien) – 1934 (Wien), 156 Helly, Eduard, 1884 (Wien) – 1943 (Chicago), 250 Hesse, Ludwig Otto, 1814 (Königsberg) – 1874 München, 144 Hewitt, Edwin, 1920 (Everett, Washington), 228 Hilbert, David, 1862 (Königsberg) – 1943 (Göttingen), 147 Hopf, Eberhard, 1902 (Salzburg) – 1983, 418 Hölder, Otto Ludwig, 1859 (Stuttgart) – 1937 (Leipzig), 146 Ionescu-Tulcea, Cassius, 1923, 273 Ising, Ernst, 1900 (Köln) – 1988 (Peoria, Illinois), 377 Itô, Kiyosi, 1915 (Hokusei-cho, Japan), 449 Jensen, Johan Ludwig, 1859 (Nakskov, Dänemark) – 1925 (Kopenhagen), 144 Jordan, Camille, 1838 (bei Lyon) – 1922 (Paris), 158 Kesten, Harry, 1931, 70 Khinchin, Aleksandr Jakovlevich (Hinqin, Aleksandr kovleviq) 1894 (Kondrovo, Russland) – 1959 (Moskau), 320 Kirchhoff, Gustav Robert, 1824 (Königsberg) – 1887 (Berlin), 394 Kolmogorov, Andrej Nikolaevich (Kolmogorov, Andre Nikolaeviq), 1903 (Tambow, Russland) – 1987 (Moskau), 63 Laplace, Pierre-Simon, 1749 (Beaumonten-Auge, Normandie) – 1827 (Paris), 137 Lebesgue, Henri Léon, 1875 (Beauvais, Oise, Frankreich) – 1941 (Paris), 18 Legendre, Adrien-Marie, 1752 (Paris) – 1833 (Paris), 491 Levi, Beppo, 1875 (Turin, Italien) – 1961 (Rosario, Santa Fe, Argentinien), 91 Lévy, Paul Pierre, 1886 (Paris) – 1971 (Paris), 296, 480

Lindeberg, Jarl Waldemar, 1876 – 1932, 305 Lipschitz, Rudolph, 1832 (Königsberg) – 1903 (Bonn), 237 Lusin, Nikolai Nikolaevich (Lusin, Nikola Nikolaeviq), 1883 (Irkutsk, Russland) – 1950 (Moskau), 238 Lyapunov, Aleksandr Mikhajlovich (Lpunov Aleksandr Mihaloviq), 1857 (Jaroslavl, Russland) – 1918 (Odessa), 305 Markov, Andrej Andreevich (Markov, Andre Andreeviq), 1856 (Ryazan, Russland) – 1922 (Sankt Petersburg), 104 Menshov, Dmitrij Evgen’evich (Menxov, Dmitri Evgenъeviq), 1892 (Moskau) – 1988 (Moskau), 117 Minkowski, Hermann, 1864 (Alexotas, heute: Kaunas, Litauen) – 1909 (Göttingen), 146 Neumann, John von, 1903 (Budapest) – 1957 (Washington D.C.), 152 Nikodym, Otton Marcin, 1889 (Zablotow, Galizien, Ukraine) – 1974 (Utica, New York), 152 Ohm, Georg Simon, 1789 (Erlangen) – 1854 (München), 394 Ornstein, Leonard Salomon, 1880 (Nijmegen) – 1941 (Utrecht), 553 Paley, Raymond E.A.C., 1907 (Bournemouth, England) – 1933 (Banff, Alberta), 439 Parseval, Marc-Antoine, 1755 (Rosières-aux-Salines, Frankreich) – 1836 (Paris), 447 Pascal, Blaise, 1623 (Clermont-Ferrand, Frankreich) – 1662 (Paris), 44 Plancherel, Michel, 1885 (Bussy (Fribourg), Schweiz) – 1967 (Zürich?), 287 Poisson, Siméon Denis, 1781 (Pithiviers, Frankreich) – 1840 (bei Paris), 45 Pólya, George, 1887 (Budapest) – 1985 (Palo Alto), 297

Namensregister

591

Prohorov, Yurij Vasil’evich (Prohorov, ri Vasilьeviq), 1929, 248

Thomson, William (Lord Kelvin), 1824 (Belfast) – 1907 (Largs, Ayrshire, Schottland), 398

Rademacher, Hans, 1892 (HamburgWandsbek) – 1969 (Haverford, Pennsylvania), 117 Radon, Johann, 1887 (Tetschen, Böhmen) – 1956 (Wien), 152 Riemann, Georg Friedrich Bernhard, 1826 (Breselenz, Kreis Lüchow-Dannenberg) – 1866 (Selasca, Italien), 50 Riesz, Frigyes, 1880 (Györ, Ungarn) – 1956 (Budapest), 147

Uhlenbeck, George Eugene, 1900 (Batavia, heutiges Jakarta) – 1988 (Boulder, Colorado), 553

Saks, Stanislav (Saks, Stanislav), 1897 (Kalish, Russland (heute Polen)) – 1942 (Warschau, von der Gestapo ermordet), 220 Savage, Jimmie Leonard, 1917 (Detroit, Michigan) – 1971 (New Haven, Connecticut), 228 Schwarz, Hermann Amandus, 1843 (Hermsdorf, Schlesien) – 1921 (Berlin), 101 Slutzky, Evgenij Evgen’evich (Slutzky, Evgeni Evgenъeviq), 1880 (Novoe, Gouvernement Jaroslavl, Russland) – 1948 (Moskau), 243 Stieltjes, Thomas Jan, 1856 (Zwolle, Overijssel) – 1894 (Toulouse), 26 Stone, Marshall Harvey, 1903 (New York) – 1989 (Madras, Indien), 282

Varadhan, S.R. Srinivasa, 1945 (Madras, Indien), 503 Watson, George Neville, 1886 (Westward Ho, England) – 1965 (Leamington Spa, England), 358 Watson, Henry William, 1827 (bei London) – 1903 (bei Coventry), 81 Weierstraß, Karl, 1815 (Ostenfelde, Westfalen) – 1897 (Berlin), 282 Weiss, Pierre-Ernest, 1865 (Mulhouse, Frankreich) – 1940 (Lyon), 506 Wiener, Norbert, 1894 (Columbia, Missouri) – 1964 (Stockholm), 453 Wintner, Aurel Friedrich, 1903 (Budapest) – 1958 (Baltimore), 486 Wright, Sewall, 1889 (Melrose, Massachusetts) – 1988 (Madison, Wisconsin), 343 Yaglom, Akiva Moiseevich (glom, Akiva Moiseeviq), 1921 (Kharkov), 220 Zygmund, Antoni, 1900 (Warschau) – 1992 (Chicago), 439

Sachregister

0-1 Gesetze – Blumenthal 438 – für invariante Ereignisse – Hewitt-Savage 228 – Kolmogorov 63 ∅-stetig 15

427

abgeschlossen 8 Abschluss 234 absolutstetig 151 absorbierend 350 adaptiert 185 additiv 11 Algebra 3, 282 Anziehungsbereich einer Verteilung 329 aperiodisch 366 Approximationssatz für Maße 29 a¨ quivalente Maße 151 a¨ quivalentes Martingalmaß 196 Arbitrage 196 Arkussinus-Gesetz 442 asymptotisch vernachlässigbar 305 Aufkreuzung 211 a¨ ußeres Maß 21 austauschbar 221 austauschbare σ-Algebra 223 Auswertungsabbildung 451 Azuma’sche Ungleichung 192 Banachraum 147 bedingte – Erwartung 169 – Unabhängigkeit 229 – Verteilung 176 – Wahrscheinlichkeit 166, 169 Benford’sches Gesetz 422 Bernoulli-Maß 29 Bernoulli-Verteilung 43

Bernstein-Chernov Abschätzung 106 Bernstein-Polynom 106 Berry-Esseen, Satz von 311 beschränkt in Lp 132 Bessel-Prozess 562 Beta-Verteilung 46, 232, 303, 519 – Momente 104 Bienaymé-Gleichung 100 Bildmaß 40 binäres Modell 195 Binomialverteilung 44 Black-Scholes Formel 197 Black-Scholes Modell 554 Blackwell-Girshick 103 Blumenthal’sches 0-1 Gesetz 438 Bochner 298 Boltzmann-Verteilung 378, 505 Borel-Cantelli Lemma 51 – bedingte Version 219 Borel-Maß 235 Borel’scher Raum 179 Borel’sche σ-Algebra 8 Borel’sches Paradoxon 182 Box-Muller Methode 60 Brown’sche Bewegung 279, 436 – Existenzsatz 436 – kanonische 453 – Lévy Charakterisierung 541 – Skalierungseigenschaft 437 Brown’sche Brücke 437, 450 Brown’sches Blatt 451 càdlàg 444 Call 196 Carathéodory 19 Cauchy-Schwarz’sche Ungleichung – bedingte 174 Cauchy-Verteilung 46, 289, 547

101

594

Sachregister

Cesàro-Limes 62 CFW 315 Chapman-Kolmogorov’sche Gleichung 277, 340 charakteristische Funktion 285, 511 – Inversionsformel 286 Chebyshev Polynom 387 Chebyshev’sche Ungleichung 104 China-Restaurant Prozess 524 Cholesky-Faktorisierung 313 Chung-Fuchs, Satz von 357, 424 Claim 196 Continuous Mapping Theorem 245 Cox-Ingersoll-Ross Modell 558 Cox-Ross-Rubinstein’sches Modell 197 Cramér-Lundberg’sche Ungleichung 207 Cramér-Transformierte 492 Cramér-Wold Device 312 Curie-Temperatur 378, 508 Curie-Weiss’sches Gesetz 508 detaillierte Balance 392 Diagonalfolgenargument 250 dicht 234 Dichte 13, 26, 45, 57, 89, 150 Dichtetransformationsformel – mehrdimensional 41 Differentiationslemma 137 Diffusionsprozess 537 Dirac-Maß 12 Dirichlet-Problem 546 – diskretes 391 Dirichlet’sches Prinzip 398 Dirichlet-Verteilung 519 domain of attraction 329 Donsker, Satz von 456 Doob’sche Regularisierung 444 Doob’sche Ungleichung 210 Doob–Zerlegung 199 Dreireihensatz 310 Drift 537 Dualität 567 Dualraum 160 dynamisches System 416 Dynkin-System 4 einfache Irrfahrt 393 Einheitsmasse 12 Einschluss- Ausschlussformel

15

Einschränkung 10 Eintrittszeit 349 elektrischer Fluss 394 Elementarfunktion 39 empirische Verteilung 231 empirische Verteilungsfunktion 111 Entropie 112, 114, 499 – relative 499 Ereignis 17, 42 – invariantes 71 Ergodensatz – Individueller (Birkhoff) 419 – Statistischer (von Neumann) 420 ergodisch 416 Erwartungswert 97 Erzeugendenfunktion 75 Erzeuger 6 erzeugte σ-Algebra 6, 34 Etemadi – Ungleichung von 118 Euler’sche Primzahlformel 50 Explosion 347 Exponentialverteilung 45 Faktorisierungslemma 40 Falle 390 Faltung – Dichten 266 – diskrete Verteilungen 59 – Maße auf Rn 60, 266 Faltungshalbgruppe 280 Färbungssatz 517 fast alle 31 fast sicher 31 fast u¨ berall 31 Fatou, Lemma von 91 Feinheit 467 Feller-Eigenschaft 445 – starke 566 Feller-Prozess 446 Feller’sche Halbgruppe 445 Feller’sche Verzweigungsdiffusion 558, 570 Filtration 185 – rechtsstetige 444 – u¨ bliche Bedingungen 444 de Finetti, Satz von 229, 257 Fischer-Riesz, Satz von 147 Fluchtwahrscheinlichkeit 399

463,

Sachregister Fluss 394 Fortsetzungssatz für Maße 19, 23 Fourier-Inversionsformel 286 freie Energie 506 Frobenius Problem 367 f.s. siehe fast sicher f.ü. siehe fast u¨ berall Fubini, Satz von 265 – für Itô-Integrale 545 ¨ – für Ubergangskerne 270 Funktionaler Zentraler Grenzwertsatz

456

Galton-Watson-Prozess 81 – Reskalierung 460 Gambler’s Ruin 205, 385 Gamma-Verteilung 46 – Lévy-Maß 322 – Subordinator 520 Gedächtnislosigkeit der Exponentialverteilung 168 GEM-Verteilung 522, 524 gemeinsame Verteilung 56 gemeinsame Verteilungsfunktion 56 Generator 345 geometrische Brown’sche Bewegung 554 geometrische Verteilung 44 Gesetz der großen Zahl – Konvergenzraten 115 – schwaches 104 – starkes 104, 108, 227 gestoppter Prozess 204 Gewichtsfunktion 13 Gibbs-Sampler 381 gitterverteilt 294 gleichgradig gleichmäßig stetig 295 gleichgradig integrierbar 130 Gleichverteilung 12, 33 gleitendes Mittel 185, 416 Graph 64 Greenfunktion 351, 391 – Tabelle 359 Gronwall Lemma 555 große Abweichungen 491 größenverzerrte Verteilung 256 Haar-Funktionen 448 Hahn’scher Zerlegungssatz Halbring 3 halbstetig von unten 494

156

595

haploid 343 harmonische Funktion 360, 390 harmonisches Maß 546 Hartman-Wintner, Satz von 486 Hauptsatz der Differential- und Integralrechnung 239 heat bath algorithm 381 Hedge 196 Helly, Satz von 250 Helmholtz-Potential 506 Hilbertraum 147 Hilbert-Schmidt Norm 554 Hilbert-Schmidt Operator 271 Hölder’sche Ungleichung 146 Hölder-stetig 430 Hopf 418 hypergeometrische Verteilung 45 identisch verteilt 42 i.i.d. siehe u.i.v. Indikatorfunktion 5 Inhalt 12 Inneres 234 integrierbar 86 Integral 83, 84, 86, 87 – Riemann 93 – stochastisches 449, 450 integrierbar 97 – quadrat 97 – stochastischer Prozess 184 Intensitätsmaß 510 invariantes Ereignis 416 Invarianzprinzip von Donsker 457 inverse Temperatur 505 Inversionsformel 286 Irrfahrt 334 – auf einem Graphen 393 – Greenfunktion (Tabelle) 359 – in zufälliger Umgebung 414 – Range 423 – Rekurrenz 353 – Satz von Chung-Fuchs 424 – Satz von Pólya 353 – symmetrische 184 Ising-Modell 377, 382 Iterierter Logarithmus – Brown’sche Bewegung 477 – Hartman-Wintner 486 ItoFormel

596

Sachregister

– Itô-Formel – – mehrdimensional 544 Itô-Formel 539 – diskrete 202 – pfadweise 539 Itô-Integral 531 – Produktregel 544 – Satz von Fubini 545 Jensen’sche Ungleichung Jordan, Satz von 158

144, 172

kanonische Brown’sche Bewegung 453 kanonischer Prozess 261 kanonisches Maß 320, 323, 516 Kantenperkolation 65, 389 Kaufoption 196 Kelvin siehe Thomson Kesten-Stigum, Satz von 220 Khinchin’sches Gesetz vom iterierten Logarithmus 486 Kirchhoff’sches Gesetz 394 Kolmogorov-Chentsov, Satz von 432 Kolmogorov’sche Ungleichung 116 Kolmogorov’scher Dreireihensatz 310 Kolmogorov’scher Erweiterungssatz 275 Kolmogorov’sches 0-1 Gesetz 63 Kolmogorov’sches Kriterium für schwache Relativkompaktheit 455 Kolmogorov-Smirnov Test 459 komplementstabil 1 konkave Funktion 142 Kontraktionsprinzip 502 Konvergenz – dem Maße nach 126 – fast sichere 126 – fast u¨ berall 126 – im Mittel 127 – im p-ten Mittel 140 – in Verteilung 243 – majorisierte 135 – schnelle 128 – schwache 78, 240 – stochastische 126 – vage 240 – von Verteilungsfunktionen 244 konvexe Funktion 142 konvexe Menge 141 Koordinatenabbildung 260

Kopplung 67, 369 Kopplung aus der Vergangenheit 383 korreliert 98 Kovarianz 98 Kovarianzfunktion 437 Kullback-Leibler Information 499 Ladungsverteilung 156 λ-System siehe Dynkin-System langsam variierend 329 Laplace-Operator 543 Laplace-Raum 12 Laplace-Transformation 137, 284, 461, 511 Large Deviations siehe Prinzip großer Abweichungen LDP siehe Prinzip großer Abweichungen Lebesgue-Borel-Maß siehe LebesgueMaß Lebesgue-Integral 89 Lebesgue-Maß 25, 32 Lebesgue’scher Konvergenzsatz 135 Lebesgue’scher Zerlegungssatz 152 Lebesgue-Stieltjes Integral 466 Lebesgue-Stieltjes-Maß 26 Legendre-Transformierte 491 Leistung (elektrisches Netzwerk) 397 Leitfähigkeit 393 Lévy-Abstand 246 Lévy-Khinchin Formel 320, 323 – für zufällige Maße 517 Lévy-Maß 320, 323 – allgemeine stabile Verteilung 328 – Cauchy-Verteilung 326 – Gamma-Verteilung 322 – symmetrische stabile Verteilung 327 Lévy’scher Stetigkeitsmodul 480 Lévy’scher Stetigkeitssatz 296 Limes inferior 5 Lindeberg-Bedingung 305 Lipschitz-stetig 237 logarithmische momentenerzeugende Funktion 491 Log-Normalverteilung 284 lokal beschränkt 193 lokal endlich 235 lokales Martingal 470 lokalisierende Folge 470 lokalkompakt 234

Sachregister Lokalzeit 201 Lp –beschränkt 132 Lusin 238 LV 156 Lyapunov-Bedingung

305

Markoveigenschaft – elementare 333 – schwache 334 – starke 338 Markovkern 175 Markovkette 334 – aperiodische 366 – diskrete 340 – invariante Verteilung 360 – invariantes Maß 360 – irreduzibel 352 – Konvergenzgeschwindigkeit 383 – Konvergenzsatz 375 – Kopplung 370 – Monte Carlo Methode 376 – nullrekurrent 350 – Periode eines Punktes 366 – positiv rekurrent 350 – rekurrent 350 – reversible 392 – schwach irreduzibel 352 – transient 350 – unabhängiges Verschmelzen 371 Markovprozess 334 Markov’sche Halbgruppe 277 Markov’sche Ungleichung 104 – bedingte 174 Martingal 188 – Konvergenzsatz (L1 ) 213 – Konvergenzsatz (Lp ) 214 – Konvergenzsatz (f.s.) 212 – Konvergenzsatz (rückwärts) 226 – Konvergenzsätze (RCLL) 446 – lokales 470 – quadratische Variation 200 – Rückwärts- 226 Martingaldarstellungssatz 542 Martingalproblem 563 – diskretes 344 – gut gestelltes 564 Martingaltransformierte 192 Maß 12 – a¨ ußeres 21

– Bernoulli 29 – Borel 235 – Einschränkung 32 – harmonisches 546 – invariantes 360 – Lebesgue 25 – lokal endliches 235 – Produkt- 29, 276 – Radon 235 – reguläres 235 – σ-endliches 12 – signiertes 156 – stationäres 360 – Wahrscheinlichkeits- 12 Maßraum 17 maßtreue Abbildung 416 Maximal-Ergodenlemma 418 MCMC 376 mean field 507 mehrstufiges Binomialmodell 197 Mellin-Transformierte 287 messbar – Abbildung 33 – Borel 8 – Lebesgue 32 – µ– 22 – Menge 17 Messraum 17 – Isomorphie 179 Metrik – auf C([0, ∞)) 451 – Lévy 246 – Prohorov 240 – stochastische Konvergenz 127 – vollständige 234 – Wasserstein 370 metrisierbar 234 Metropolis-Algorithmus 377 Minkowski’sche Ungleichung 146 mischend 426 Modifikation 429 Momente 97 – absolute 97 Momentenproblem 301 monoton 11 Monotonieprinzip von Rayleigh 396 Monte Carlo Simulation 111 Moran-Gamma-Subordinator 520

597

598

Sachregister

Moran-Modell 343 de Morgan’sche Regeln moving average 416

2

negative Binomialverteilung 44, 77 Niveaumenge 494 Normalverteilung 45 – mehrdimensionale 45, 312 Nullmenge 31 nullrekurrent 350 offen 8 Ohm’sches Gesetz 394 Optional Sampling Theorem 203, 208 – stetige Zeit 435 Optional Stopping Theorem 204 – stetige Zeit 435 Ornstein-Uhlenbeck Prozess 553 orthogonale Polynome 388 orthogonales Komplement 148 Parseval’sche Gleichung 447 partiell stetig 296 Partitionsfunktion 378, 505 Pascal-Verteilung 44 perfekte Simulation 382 Periode 366 Perkolation 64, 389 Petersburger Spiel 92, 185, 193 Pfad 431 pfadweise eindeutig 562 Phasenübergang 378, 508 π-System siehe schnittstabil Plancherel’sche Gleichung 287 Poisson-Approximation 79 Poisson-Dirichlet-Verteilung 521, 524 Poissonprozess 120, 335 Poisson’sche Summationsformel 443 Poisson’scher Punktprozess 511 Poisson-Verteilung 45 – zusammengesetzte 317 polare Menge 550 Polarisationsformel 468 polnischer Raum 180, 235 Pólya, Satz von 297, 353 Pólya’sches Urnenmodell 232, 276, 519 – verallgemeinertes 347, 349 Portemanteau-Theorem 242 positiv rekurrent 350

positiv semidefinit 298 Präfixcode 113 Prämaß 12 previsibel 185, 530 Prinzip großer Abweichungen 495 Produktmaß 27, 29, 264, 274, 276 produktmessbar 530 Produktraum 260 Produkt-σ-Algebra 260 Produkttopologie 260 progressiv messbar 530 Prohorov 248 Prohorov-Metrik 240, 375 projektive Familie 274 projektiver Limes 275 Propp-Wilson Algorithmus 382 Punkte trennend 282 Punktperkolation 65 Q-Matrix 345 Quader 9 quadratintegrierbar 97 quadratische Variation 468 quadratischer Kovariationsprozess 475 quadratischer Variationsprozess 200, 471 Quellenkodierungssatz 114 Radon-Maß 235 Radon-Nikodym-Ableitung 152 Rand 234 random walk in random environment 414 Ratenfunktion 490, 495 Rayleigh’sches Monotonieprinzip 396 RCLL 444 Rechteckzylinder 262 Reflexionsprinzip 339 – Brown’sche Bewegung 442 reguläre Version der bedingten Verteilung 176 Regularität von Maßen 31, 235 Rejection Sampling 182 rekurrent 350 relativ kompakt 234 replizierbar 196 reversibel 377, 392 Riemann-Integral 93 Riemann’sche Zetafunktion 50 Ring 3 risikoneutral 196

Sachregister Rückwärtsmartingal

226

Satz – Approximation von Maßen 29 – Arzelà-Ascoli 454 – Beppo Levi 91 – Berry-Esseen 311 – Bochner 298 – Borel-Cantelli Lemma 51 – – bedingte Version 219 – Carathéodory 19, 23 – Choquet-Deny 374 – Chung-Fuchs 357, 424 – Continuous Mapping Theorem 245 – Cramér 491, 497 – Donsker 457 – Dreireihen 310 – Egorov 130 – Etemadi 108 – Fatou’sches Lemma 91 – de Finetti 229, 257 – Fischer-Riesz 147 – Fortsetzung zu Maßen 19, 23 – Fubini 265 – Fubini für Itô-Integrale 545 ¨ – Fubini für Ubergangskerne 270 – Glivenko-Cantelli 111 – große Abweichungen 491 – Hahn’scher Zerlegungssatz 156 – Hartman-Wintner 486 – Hauptsatz der Differential- und Integralrechnung 239 – Helly 250 – Hewitt-Savage 228 – Ionescu-Tulcea 273 – iterierter Logarithmus 478, 486 – Jordan’scher Zerlegungssatz 158 – Kantorovich-Rubinstein 370 – Kesten-Stigum 220 – Kolmogorov-Chentsov 432 – Kolmogorov’sche Ungleichung 116 – Kolmogorov’scher Dreireihensatz 310 – Kolmogorov’scher Erweiterungssatz 275 – Kolmogorov’sches Kriterium für schwache Relativkompaktheit 455 – Lebesgue’scher Zerlegungssatz 152 – Lévy-Khinchin 320, 323 – Lindeberg-Feller 306

– – – – – – – – – – – – – – – – – – –

599

Lusin 238 majorisierte Konvergenz 135 Martingalsdarstellung 542 monotone Konvergenz 91 Optional Sampling 203, 208 Optional Sampling, stetige Zeit 435 Optional Stopping 204 Optional Stopping, stetige Zeit 435 Paley-Wiener-Zygmund 439 π–λ 7 Poisson-Approximation 79 Pólya 297, 353 Portemanteau 242 Prohorov 248 Quellenkodierungssatz 114 Rademacher–Menshov 117 Radon-Nikodym 152, 217 Rayleigh’sches Monotonieprinzip 396 reguläre bedingte Verteilungen 176, 180 – Sanov 500 – Shannon 112 – Skorohod’sche Einbettung 480 – Slutzky 243 – Stetigkeitssatz von Lévy 296 – Stone-Weierstraß 282 – Stroock-Varadhan 566 – Thomson’sches Prinzip 398 – Varadhan’sches Lemma 503 – Yamada-Watanabe 558 Schauderfunktionen 448 Schema von Zufallsvariablen 305 schnittstabil 1 schwache Konvergenz 240 schwache Lösung 560 schwache Topologie 240 SDGL siehe stochastische Differentialgleichung Semiring 3 separabel 234 Shannon 112 Shift 417 σ-additiv 11 σ-Algebra 2 – austauschbare 223 – der τ -Vergangenheit 187 – invariante 416 – Produkt- 260

600

Sachregister

– terminale 61, 224 σ-kompakt 234 σ-Ring 3 σ-subadditiv 12 signiertes Maß 156 singulär 151 Skalarprodukt 147 Skorohod’scher Einbettungssatz 480 Slutzky, Satz von 243 Spannung 394 Spektrallücke 384 Spiegelungsprinzip 339 Spielstrategie 193 Spin 377 Spur 10 stabile Verteilung 298, 327 – im weiteren Sinne 328 Standardabweichung 97 starke Lösung 552 starke Lösung 552 starke Markoveigenschaft 338 stationär 415 stetig von oben/ unten 15 Stetigkeitslemma 136 Stetigkeitsmodul, Lévy’scher 480 Stetigkeitssatz, Lévy’scher 296 Stirling’sche Formel 301, 491 stochastisch größer 369 Stochastische Differentialgleichung – pfadweise Eindeutigkeit 562 – schwache Lösung 560 – starke Lösung 552 – starke Lösung unter LipschitzBedingungen 555 stochastische Differentialgleichung 551 stochastische Kerne – Produkt 268 stochastische Matrix 341 stochastische Ordnung 369 stochastischer Kern 175 – Halbgruppe 277 – konsistente Familie 276 – Verkettung 269 stochastischer Prozess 183 – adaptiert 185 – Dualität 567 – Explosion 347 – Galton-Watson 81, 219

– Gauß’scher 184, 437 – gestoppter 204 – integrierbarer 184 – Markoveigenschaft 333 – Modifikation 429 – Pfad 431 – Poisson 335 – previsibel 530 – previsibler 185 – produktmessbar 530 – progressiv messbar 530 – starke Markoveigenschaft 338 – stationärer 184 – stationäre Zuwächse 184 – unabhängige Zuwächse 184 – ununterscheidbar 429 – Version 429 – vorhersagbar 530 – vorhersagbarer 185 stochastisches Integral 449, 450 – diskretes 192 Stone-Weierstraß, Satz von 282 Stoppzeit 186 straff 248 Stratonovich-Integral 545 Streuung 97 Stromstärke 394 Student’sche t-Verteilung 316 Sub-Wahrscheinlichkeitsmaße 236 subadditiv 11 subharmonisch 360 Submartingal 188 Subordinator 516 Supermartingal 188 symmetrische Differenz 29 symmetrische einfache Irrfahrt 184 tail σ-field siehe terminale σ-Algebra terminale σ-Algebra 61, 224 Thomson’sches Prinzip 398 Topologie 8 – schwache 240 – vage 240 topologischer Raum 8 total beschränkt 235 totale Wahrscheinlichkeit 166 totalstetig 154 Totalvariationsnorm 158 Transformationsformel 41

Sachregister transient 350 translationsinvariant 342 trennende Familie 237 Tschebyscheff siehe Chebyshev Turmeigenschaft 170 t-Verteilung 316 ¨ Ubergangskern 175 ¨ Ubergangsmatrix 340 ¨ Ubergangswahrscheinlichkeiten 334 u¨ bliche Bedingungen 444 u.i.v. 55 unabhängige Inkremente siehe unabhängige Zuwächse unabhängige Kopie 369 unabhängige Zuwächse 511 Unabhängigkeit – bedingte 229 – von Ereignissen 49 – von Mengensystemen 53 – von Zufallsvariablen 55 unbegrenzt teilbar 315 – zufälliges Maß 516 Ungleichung – Azuma 192 – Bernstein-Chernov 106 – Cauchy-Schwarz 101 – Chebyshev 104 – Doob 210 – Etemadi 118 – Hölder 146 – Jensen 144 – Kolmogorov 116 – Markov siehe Chebyshev – Minkowski 146 – Young 146 uniforme Verteilung 33 unkorreliert 98 Unstetigkeitsstellen 11 ununterscheidbar 429 vage Konvergenz 240 vage Topologie 240 Varadhan’sches Lemma 503 Varianz 97 Variation 466 – p 468 – quadratische 468 Verkettung von Kernen 269

601

Version 429 Verteilung 42 – Anziehungsbereich 329 – Bernoulli 43 – Beta 46, 232, 303, 519 – binomial 44 – Boltzmann 378 – Cauchy 46, 289, 547 – compound Poisson 317 – Exponential- 45 – Gamma 46, 303 – GEM 522, 524 – geometrische 44 – hypergeometrische 45 – negativ binomial 44, 77 – Normal 45 – Pascal 44, 77 – Poisson 45 – Poisson-Dirichlet 519, 521, 524 – stabile 327 – t- 316 – uniforme 12, 33 – zusammengesetzt Poisson 317 – zweiseitig exponential 289 Verteilungsfunktion 21, 27 – einer Zufallsvariablen 42 – empirische 111 Vervollständigung 32 Verwerfungsmethode 182 Verzweigungsprozess 81, 219 Vitali-Menge 9 vollständig 32, 234 vorhersagbar 185, 530 voter model siehe Wählermodell Wahrscheinlichkeitsmaß 12 Wahrscheinlichkeitsraum 17 Wahrscheinlichkeitsvektor 13 Wald’sche Identität 99 Wasserstein Metrik 370 Watson Integral 358 Weierstraß’scher Approximationssatz 106 Weiss’scher Ferromagnet 506 Widerstand 393 Wiener-Prozess 453 W-Maß siehe Wahrscheinlichkeitsmaß Wright’sches Evolutionsmodell 343 Wright-Fisher Diffusion 568 – wechselwirkende 572

602

Sachregister

Wählermodell

216

Young’sche Ungleichung

146

Zentraler Grenzwertsatz 304 – Berry-Esseen 311 – Lindeberg-Feller 306 – mehrdimensional 313 zentriert 97

Zerlegungsfolge, zulässige 467 zufälliges Maß 510 Zufallsvariable 42 zulässige Zerlegungsfolge 467 zusammengesetzte Poissonverteilung Zustandssumme 378, 505 Zweistufenexperiment 259 Zylindermenge 18, 262 Zählmaß 13

317

Wahrscheinlichkeitstheorie German

Wahrscheinlichkeitstheorie

Wahrscheinlichkeitstheorie