de Gruyter Lehrbuch Wengenroth · Wahrscheinlichkeitstheorie
Jochen Wengenroth
Wahrscheinlichkeitstheorie
≥
Walter de Gruyter Berlin · New York
Prof. Dr. Jochen Wengenroth De´partement de Mathe´matiques Universite´ de Lie`ge Grande Traverse 12 (Baˆt. B37) 4000 Lie`ge Belgien E-Mail:
[email protected] 앝 Gedruckt auf säurefreiem Papier, das die US-ANSI-Norm über Haltbarkeit erfüllt. 앪
ISBN 978-3-11-020358-5 Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. 쑔 Copyright 2008 by Walter de Gruyter GmbH & Co. KG, 10785 Berlin. Dieses Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Printed in Germany. Einbandgestaltung: Martin Zech, Bremen. Druck und Bindung: AZ Druck und Datentechnik GmbH, Kempten.
Für Annette, Hannah und Philipp.
Vorwort
Es gibt keine Wahrscheinlichkeit – so beginnt Bruno de Finetti sein Werk über Wahrscheinlichkeitstheorie. Und auch wenn diese Äußerung mindestens stark übertrieben ist, bietet sie gute Gelegenheit, den Zweck dieser Theorie zu beschreiben. Wahrscheinlichkeitstheorie ist nicht die Analyse eines objektiven Sachverhalts, den man Zufall nennen könnte. Ein Verfechter der gegenteiligen Ansicht wird sagen, dass etwa das Ergebnis eines Münzwurfs oder einer Lottoziehung prinzipiell unvorhersehbar sei und durch eben diesen Zufall „gesteuert“ werde – was immer das auch sein mag: Karl Popper spricht von propensities und stellt sich darunter wohl etwas ähnliches wie magnetische Kräfte vor, von denen einige in die eine Richtung ziehen und manche in die andere, so dass das Ergebnis ein Mittel der wirkenden Kräfte ist. Diesem Verfechter kann man mit dem Argument begegnen, dass Indeterminiertheit überhaupt nichts mit der Funktion von Münzwürfen oder Lottoziehungen zu tun hat: Ob die Würfel noch rollen oder aber im Würfelbecher schon gefallen sind, so dass ein Glücksspieler das Ergebnis nicht sieht, spielt für sein Wettverhalten gar keine Rolle – er braucht so oder so ein vernünftiges Modell, in dem er die Situation beschreiben und seine Strategie planen kann. Ob es nun Indeterminiertheit und Zufall gibt, und allein schon die Frage, ob sich diese Begriffe überhaupt definieren lassen, ist ein alter philosophischer Streit, zu dem wir hier nichts beitragen wollen – die Wahrscheinlichkeitstheorie braucht diese Begriffe nicht, und allein, dass Laplace sowohl Mitbegründer der Wahrscheinlichkeitstheorie als auch mit seinem Laplaceschen Dämon der Vertreter des Determinismus schlechthin war, ist ein Indiz dafür. Der Streit ist für die mathematische Behandlung der Wahrscheinlichkeit deshalb belanglos, weil sie Modelle zur Verfügung stellt, die von nur einem einzigen völlig unstrittigen Aspekt des Wahrscheinlichkeitsbegriffs ausgehen. Jede philosophische Auffassung ist dann auf die logischen Konsequenzen der Wahrscheinlichkeitstheorie verpflichtet. Trotzdem wollen wir noch kurz die weiteren außermathematischen Aspekte des Begriffs ansprechen. Wenn man wie de Finetti die objektive Existenz von Wahrscheinlichkeit bestreitet, kann man sie als sozusagen psychologisches Phänomen verstehen. Auch falls alle vergangenen und zukünftigen Tatsachen im Prinzip determiniert sind und von einer Intelligenz, die so umfassend ist wie der schon erwähnte Laplacesche Dämon, berechnet werden können, steht außer Frage, dass die menschliche Intelligenz bestenfalls Teilinformationen erkennen und verarbeiten kann. Man muss das Feld dann freilich nicht der Psychologie überlassen, sondern kann Kriterien formulieren, wie mit Teilinformationen rational umzugehen ist – wobei rational hier in einem sehr strengen Sinn gemeint ist, nämlich als Vermeidung logischer Widersprüche.
viii
Vorwort
In de Finettis Konzeption wird der rationale Umgang mit unsicheren Informationen durch die Analyse von Wetten auf Ereignisse wie etwa Ergebnisse von Fußballspielen operationalisiert, und er zeigt, dass allein die Vermeidung von Wettsystemen, die zu einem sicheren Verlust führen, Bedingungen impliziert, die stringent genug für die mathematische Theorie sind. Wir wollen dies nicht im Detail sondern nur an einem Beispiel ausführen. Bei de Finetti bedeutet, einem Ereignis die Wahrscheinlichkeit von 1=4 zuzuordnen, die Bereitschaft, einen Wetteinsatz von 0,25 e zu leisten, wenn bei Eintritt des Ereignisses 1 e ausgezahlt wird, und außerdem gegen jeden Einsatz von mehr als 0,25 e bei Eintritt selbst 1 e auszuzahlen. Jemandem der dem gegenteiligen Ereignis eine andere Wahrscheinlichkeit zuordnet als 3=4 – also zum Beispiel 1=2 – kann man dann ein System von Wetten vorlegen, bei dem er mit Sicherheit Geld verliert: Er müsste je 1 e auf A und das gegenteilige Ereignis B D Ac setzen und für (etwas mehr) als 2 e Einsatz auf A und 3 e auf B (sozusagen als Bank) Wetten akzeptieren. Im Fall von A bekäme er 4 e ausgezahlt und müsste selbst 8 e zahlen (mit einem Netto-Verlust von 1 e) und im Fall von B bekäme er 2 e und müsste 6 e zahlen (was ebenfalls zu einem Netto-Verlust von 1 e führt). Diesen Spezialfall der Additivität von Wahrscheinlichkeiten werden wir im 1. Kapitel wiedersehen und im 3. Kapitel in der Linearität von Erwartungswerten. Eine ähnlich Form der Rationalität finden wir auch im 10. Kapitel bei einer finanzmathematischen Anwendung: Der Preis einer „zufälligen“ Auszahlungsfunktion wird dadurch bestimmt, wie man an diese Funktion am billigsten mit einer sicheren nachbilden kann. Der subjektivistische Aspekt, der bei de Finetti im Vordergrund steht, spielt auch im allgemeinen Verständnis von Wahrscheinlichkeit eine wichtige Rolle – selbst wenn man nicht gleich Haus und Hof verwetten will, wenn man eine Aussage über zu erwartende Ereignisse macht. Dennoch ist man seiner Aussage in einem gewissen Sinn verpflichtet (dem Deutschen fehlt leider ein so schöner Begriff wie commitment) – ein Wetterexperte, der eben im Fernsehen eine Regenwahrscheinlichkeit von 1 % verkündet hat (ohne übrigens zu sagen, was genau er damit meint), würde sich mit Schirm und Schal sehr suspekt machen. Daneben gibt es einen „frequentistischen“ Aspekt, der darauf beruht, dass sich viele Situationen, in denen von Wahrscheinlichkeit die Rede ist, durch ihre „Wiederholbarkeit“ auszeichnen. Es wird oft als Erfahrungstatsache bezeichnet, dass sich die relativen Häufigkeiten von oft ausgeführten Experimenten einem Grenzwert annähern. Richard von Mises hat versucht, den Begriff Wahrscheinlichkeit als diesen Grenzwert zu definieren. Und auch wenn dieser Versuch furios gescheitert ist – sowohl auf der philosophischen Seite, weil bei ihm der physikalische Sinn von Ereignis, das insbesondere zu einem bestimmten Zeitpunkt stattzufinden hat, verloren geht, als auch auf der mathematischen, weil seine Definition von zufälligen oder in seiner Terminologie regellosen Folgen als haltlos nachgewiesen wurde – spielt dieser Aspekt sowohl in der Alltagssprache als auch im praktischen Umgang etwa bei Versicherungen eine wichti-
ix
Vorwort
ge Rolle. Wir werden ihn in den Grenzwertsätzen der Wahrscheinlichkeitstheorie und insbesondere im Gesetz der großen Zahlen wiederfinden, allerdings nicht im Zusammenhang mit der ganz verschiedenen Definition sondern als eine der beeindruckenden Konsequenzen. Auch die oben angedeuteten propensities von Popper treffen wir in einer gewissen Form im Zentralen Grenzwertsatz im 5. Kapitel wieder: viele kleine unabhängige Einflüsse führen zu einer spezifischen Verteilung von Wahrscheinlichkeiten. Die mathematisch-axiomatische Theorie der Wahrscheinlichkeit wurde von Andrei N. Kolmogorov begründet: Sie vermeidet alle inhaltlichen und philosophischen Probleme, indem sie nicht definiert, was Wahrscheinlichkeit ist, sondern indem sie die Regeln beschreibt, denen der Begriff genügt. Kolmogorovs Terminologie war nicht neu sondern zum großen Teil der bereits existierenden Maßtheorie entlehnt. Man betrachtet eine Familie A von Teilmengen der Menge der möglichen Konstellationen ! 2 und verlangt von einer Wahrscheinlichkeitsverteilung P W A ! Œ0; 1 die als -Additivität bezeichnete Bedingung P
[ n2N
X An D P .An / n2N
für alle sich paarweise ausschließenden An 2 A sowie P ./ D 1. Für A 2 A heißt dann P .A/ Wahrscheinlichkeit von A. Der Begriff Wahrscheinlichkeit eines Ereignisses ist also relativ zu der Abbildung P und deshalb nur innerhalb des Modells sinnvoll. Für die Frage nach der Bedeutung von Wahrscheinlichkeit mag dieser axiomatische Zugang auf den ersten Blick enttäuschend sein. Auf den zweiten jedoch erahnt man vielleicht auch den Nutzen für die philosophische Frage: Bevor nicht ein Modell, also die Abbildung P , spezifiziert ist, hat der Begriff Wahrscheinlichkeit gar keine feststehende Bedeutung, und aller Streit rührt von unterschiedlichen impliziten Annahmen her. Die Angabe von P erfordert, diese Annahmen zu explizieren, und falls Einigkeit über das Modell herrscht, lässt sich der Streit durch Leibniz’ berühmte Aufforderung entscheiden: calculemus! Bei allen inhaltlichen Interpretationen ist mindestens die endliche Additivität P .A1 [ [ An / D P .A1 / C C P .An / für disjunkte Ereignisse unstrittig, und obgleich manche Teile der Wahrscheinlichkeitstheorie auch mit dieser schwächeren Eigenschaft auskämen, erlaubt erst die Bedingung für abzählbare Disjunktionen eine elegante mathematische Theorie. Wir geben an dieser Stelle den heiklen Punkt in Hinblick auf die Anwendungen und Interpretationen zu – mit der Bitte an den Leser, dieses Problem dann wieder zu vergessen. In der Theorie wird stets verlangt, dass der Definitionsbereich A von P schnittstabil ist, das heißt aus A 2 A und B 2 A folgt A \ B 2 A. Während man die Additivität von P mit Rationalitätsforderungen wie zum Beispiel bei de Finetti
x
Vorwort
begründen kann, ist dies für die Schnittstabilität keineswegs so klar. Man kann wohlbegründete Vermutungen über die Erfolgsaussichten des FC A am nächsten Wochenende als auch über die der Borussia B haben und die vielleicht sogar mit Wahrscheinlichkeiten quantifizieren – und sich mit gutem Grund eines Urteils darüber enthalten, dass beide Mannschaften gewinnen, zum Beispiel, weil man nicht weiß, ob sie gegeneinander spielen. Und selbst wenn man das weiß, ist überhaupt nicht evident oder gar durch Rationalitätsforderungen festgelegt, wie das gemeinsame Eintreten zweier Ereignisse zu bewerten ist. Die Modelle der Wahrscheinlichkeitstheorie sind für jemanden, der nicht einmal weiß, ob A gegen B spielt, also nicht gemacht. Wem dieses Beispiel zu banal ist, denke an einen Arzt, der sich durchaus über zwei mögliche Nebenwirkungen seiner Behandlung im Klaren ist aber nicht darüber, wie die beiden genau zusammenhängen. Wir werden also stets voraussetzen, dass jemand, der sich zutraut, zwei Ereignisse A und B vernünftig zu bewerten, auch über deren Konjunktion ein rationales Urteil abgeben kann. Und auch wenn wir den Leser eben gebeten haben, diesen heiklen Punkt wieder zu vergessen – man darf durchaus im Gedächtnis behalten, dass die Modellierung ungewisser Situationen eine anspruchsvolle Aufgabe ist. Soviel beziehungsweise so wenig zur Philosophie der Wahrscheinlichkeit, und nun zur Motivation für dieses Buch. Bis vor gar nicht so langer Zeit wurden wahrscheinlichkeitstheoretische Modelle vor allem in der Statistik benutzt, um zu entscheiden, welches einer Klasse von Modellen am wenigsten unplausibel ist (die holprige Formulierung ist Poppers Logik der Forschung geschuldet, nach der sich eine Theorie oder ein Modell nicht verifizieren sondern bloß als unpassend herausstellen lassen). Die dafür benötigte „klassische“ Wahrscheinlichkeitstheorie ließ sich inklusive der Grundlagen der Maßtheorie in einer an deutschen Universitäten üblichen zweisemestrigen Vorlesung darstellen, so dass womöglich sogar noch etwas Zeit für statistische Anwendungen oder Ausblicke auf die „moderne“ Theorie stochastischer Prozesse blieb. Deren Hauptergebnis (nämlich die Itô-Formel in Kapitel 9), das in seiner Bedeutung mit dem Hauptsatz der Differential- und Integralrechnung der Analysis vergleichbar ist und eine herausragende Rolle bei Anwendungen zum Beispiel in der Finanzstochastik spielt, war dann selbst in einfachen Versionen weit jenseits des behandelten Stoffs und blieb als Thema einer spezialisierten Vorlesung über stochastische Prozesse und somit Studierenden mit diesem speziellen Interesse vorbehalten. Dieses Buch ist ein Versuch, die gesamte für dieses Hauptergebnis benötigte Wahrscheinlichkeitstheorie in einem Umfang darzustellen, der tatsächlich in zwei Semestern zu bewältigen ist, und ohne dabei auf zentrale Ergebnisse der klassischen Theorie zu verzichten. Allerdings ist der vorliegende Text ein Buch und kein Vorlesungsmanuskript, letzteres würde deutlich mehr Redundanz enthalten und sich auch stilistisch ziemlich unterscheiden. Die häufig benutzten Mittel, eine elaborierte Theorie kurz darzustellen – nämlich
Vorwort
xi
entweder die Grundlagen bloß anzudeuten und für die Details auf die Literatur zu verweisen oder sie gar als Übungsaufgaben getarnt dem Leser zu überlassen – sind in vielerlei Hinsicht unbefriedigend, und man wird feststellen, dass dieses Buch (an manchen Stellen vielleicht sogar etwas übertrieben) eigenständig (oder self-contained) ist: Alles was nicht mit Sicherheit im ersten Jahr eines Mathematikstudiums gelehrt wird, findet sich hier mit Beweis. Dadurch werden Überraschungen vermieden wie man sie gelegentlich in dicken Lehrbüchern findet, die – häufig im Zusammenhang mit Anwendungen des dargestellten Materials – in lockerem Ton einige Ergebnisse über das xyz herbei zaubern, die man ja in jedem Buch über die abc-Theorie nachlesen kann. Was hier im Wesentlichen benötigt wird, sind der Umgang mit Reihen (mit positiven Summanden, was alle Konvergenzfragen auf den Unterschied zwischen beschränkten und unbeschränkten Partialsummenfolgen reduziert), Stetigkeit und partielle Differenzierbarkeit reeller Funktionen, die Hauptachsentransformation der linearen Algebra und die Terminologie metrischer Räume (die findet man zwar im Anhang, der aber nicht als Einführung für jemanden zu verstehen ist, der davon noch nie gehört hat). Vor allem aber ein souveräner Umgang mit den Grundbegriffen der Mengenlehre und insbesondere der Urbildabbildung (einem Leser, der sich seiner selbst vergewissern will, sei die allererste Übungsaufgabe empfohlen) sowie der Wunsch und die Bereitschaft, alle Aussagen im Text zu verifizieren: Ich habe mich bemüht, den Leser dabei nicht allein zu lassen, zum Beispiel, indem ich auf die so beliebte Wendung wie „es ist leicht einzusehen, dass : : :“ verzichtet und die eingesparte halbe Zeile für einen Hinweis auf das benötigte Argument benutzt habe. Auch wenn Irrtümer natürlich nicht ausgeschlossen sind, halte ich die manchmal nicht ausgeführten Details wie die Verifikation der Voraussetzungen bei der Anwendung eines Satzes in fast allen Fällen für sehr leicht. Um bei der Behandlung des Themas weder auf tiefer liegende Ergebnisse noch einige Anwendungen zu verzichten, wurden oft Zugänge und Beweise gewählt, die vielleicht nur in einigen Details neu sind aber in ihrer Gesamtheit zu einem deutlichen Unterschied zu der „klassischen Darstellung“ führen. Zwei stilistische Mittel zur stringenten Darstellung, die dieses Buch deutlich von einem Vorlesungsmanuskript unterscheiden, sind einerseits der Verzicht auf eine starke Untergliederung. Abgesehen von den nummerierten Sätzen, die sozusagen das logische Gerüst der Theorie bilden, finden sich Beispiele und Definitionen im laufenden Text, wobei letztere fett gedruckt und im Index mit Verweis auf die Seitenzahl gesammelt sind. Andererseits erweist sich die etwas ungewöhnlich Benutzung von a b als definitorische im Unterschied zur behaupteten Gleichheit als sehr nützlich, auch um bloß vorübergehende Bezeichnungen einzuführen, was Wendungen wie „wobei wir a mit b bezeichnen“ erspart. Die Kürze der Darstellung hat neben ihren Vorzügen – insbesondere ist so viel leichter ein Überblick über die vielen theoretischen Zusammenhänge zu erreichen als bei einer breiteren Darstellung – natürlich ihren Preis: Einerseits verlangt sie vom
xii
Vorwort
Leser ein hohes Maß an Konzentration, und andererseits kommen manche wichtige Themen der Wahrscheinlichkeitstheorie nur am Rande vor. Als größtes Versäumnis betrachte ich dabei eine ziemliche Vernachlässigung zeitdiskreter stochastischer Prozesse und zweitens das Fehlen von Markov-Prozessen, die nur in der Form von Prozessen mit unabhängigen Zuwächsen vorkommen. Bevor es zur Sache geht, möchte ich den Herren T. Kalmes, H. Luschgy und W. Sendler für eine Reihe kritischer Anmerkungen und hilfreicher Diskussionen danken sowie Ch. Becker und N. Kenessey, die sowohl Teile des Manuskripts gelesen als auch als Hörer meiner Vorlesungen keine Unsauberkeiten haben durchgehen lassen, insbesondere Herr Becker hat seinen Finger in jede wunde Stelle gelegt. Schließlich bedanke ich mich herzlich bei Lisa Schmitt, die das Manuskript in LATEX umgesetzt hat.
Liège, Mai 2008
Jochen Wengenroth
Inhaltsverzeichnis
Vorwort
vii
1
Ereignisse und Modelle
2
Unabhängigkeit und Modellierung
18
3
Integration
34
4
Konvergenz von Zufallsvariablen
61
5
Verteilungskonvergenz und Fourier-Transformation
82
6
Bedingte Verteilungen
102
7
Stochastische Prozesse
125
8
Martingale
152
9
Stochastische Integration
172
1
10 Anwendungen der stochastischen Integration
200
A Metrische Räume
224
Lesehinweise
229
Symbolverzeichnis
231
Index
235
Kapitel 1
Ereignisse und Modelle
Wir führen in diesem Kapitel das Vokabular der Wahrscheinlichkeitstheorie ein, das aus suggestiven Sprechweisen für mengentheoretische Zusammenhänge besteht. Wir betrachten stets eine Menge von Konstellationen ! 2 , die zum Beispiel die möglichen Resultate eines Experiments beschreiben. Teilmengen von nennen wir dann Ereignisse (von ). selbst heißt das sichere Ereignis, und die leere Menge heißt unmögliches Ereignis. Zum Beispiel kann man mit der Menge D f1; 2; : : : ; 6g die Ergebnisse des Wurfs mit einem Würfel beschreiben, und A D f1; 3; 5g ist das Ereignis, dass die gewürfelte Zahl ungerade ist. Eine Menge A von Ereignissen von – also eine Teilmenge der Potenzmenge P ./ – heißt -Algebra (über ), falls das sichere Ereignis Element von A ist, mit jedem Ereignis A 2 A auch das gegenteilige Ereignis Ac D n A Element von A ist, und für jede Folge .An /n2N von Ereignissen An 2 A auch die Vereinigung S n2N An 2 A ist. Die Ereignisse A 2 A nennen wir A-zulässige Ereignisse oder auch A-messbar und das Paar .; A/ einen Messraum. Oft ist es suggestiv, eine -Algebra A als ein System von Informationen anzusehen in dem Sinn, dass man von den A-zulässigen Ereignissen weiß, ob sie eingetreten sind. Dann kann man die drei Axiome als Rationalitätsforderungen verstehen (wobei die Bedingung für abzählbare Disjunktionen statt für endliche ein Preis für die elegante mathematische Theorie ist). In diesem Sinn beschreiben die minimale -Algebra f¿; g und die maximale -Algebra P ./ vollständige Ignoranz beziehungsweise Allwissenheit. Für eine Menge fA˛ W ˛ 2 I g von -Algebren über ist \ ^ ^ A˛ D fA W A 2 A˛ für alle ˛ 2 I g fA˛ W ˛ 2 I g A˛ ˛2I
˛2I
wieder eine -Algebra und zwar die (bezüglich der Inklusion) größte, die in allen A˛ enthalten ist (interpretiert man V A˛ als Informationssysteme verschiedener Personen, so wäre dieses Minimum ˛2I A˛ der „common sense“). Ist E irgendeine Menge von Ereignissen von , so ist ^ .E/ .E/ fA W A -Algebra mit E Ag die minimale -Algebra über , die E umfasst. E heißt dann ein Erzeuger von .E/. Diese erzeugte -Algebra ist also durch E eindeutig bestimmt, aber andererseits gibt es in der Regel sehr viele verschiedene Erzeuger.
2
Kapitel 1 Ereignisse und Modelle
.E/ lässt sich nur in sehr speziellen Situationen konkret beschreiben. Zum Beispiel ist .fAg/ D f¿; A; Ac ; g für jedes Ereignis A . Das rechte Mengensystem ist nämlich eine -Algebra, die fAg umfasst, und andererseits enthält jede -Algebra mit A auch Ac und sowieso ¿ und . Ist D f1; : : : ; 6g die Menge der möglichen Resultate eines Würfelwurfs und A D f2; 4; 6g, so beschreibt .fAg/ die Information, ob die Augenzahl gerade ist. Mit dem gleichen Argument wie eben kann man .E/ für eine (höchstens) abzählbare Zerlegung E D fA An paarweiS n W n 2 Ng von beschreiben, das heißt fallsS se disjunkt mit D n2N An sind: Mit der Bezeichnung A.J / n2J An für c c J S N gilt dann .E/ S D fA.J / W J Ng. Wegen D A.N/, A.J / D A.J / und n2N A.Jn / D A. n2N Jn / ist nämlich das rechte Mengensystem eine -Algebra, die alle An D A.fng/ enthält, und jede -Algebra enthält mit allen An auch die abzählbaren Vereinigungen A.J /. Ist E D fB1T ; : : : ; Bn g TP ./ endlich und definieren wir für s 2 f0; 1gn die Mengen As sj D1 Bj \ sj D0 Bjc , so ist EQ fAs W s 2 f0; 1gn g eine Zerlegung von , weil jedes ! 2 Element genau derjenigen Menge As mit sj D 1 falls Q weil Bj die ! 2 Bj und sj D 0 falls ! … Bj ist. Außerdem gilt .E/ D .E/, Vereinigung aller As mit sj D 1 ist. Also erhalten wir die Darstellung n[ o .E/ D As W J f0; 1gn : s2J
Selbst für abzählbares E kann man die erzeugte -Algebra im Allgemeinen nur durch einen „transfiniten“ Prozess konstruktiv beschreiben. Wir werden aber eine solche „Konstruktion“ nie benutzen, sondern kommen immer mit der abstrakten aber einfachen Definition als Minimum aller -Algebren, die E enthalten, aus. Mit Hilfe des Minimums können wir nun auch das Maximum [ _ _ A˛ fA˛ W ˛ 2 I g A˛ ˛2I
˛2I
als die kleinste -Algebra, die alle A˛ umfasst, definieren. Schon das Beispiel An S N .fng/ zeigt, dass ˛2I A˛ selbst im Allgemeinen keine -Algebra ist. In der Interpretation als rationale Informationssysteme heißt das, dass die Vereinigung (also zum Beispiel eine AnhäufungW von Internetseiten) nicht rational V zu sein braucht. Für I D f1; : : : ; ng schreiben wir ˛2I A˛ D A1 _ _ An und ˛2I A˛ D A1 ^ ^ An . Ist mit einer Metrik d versehen (die für uns wichtigen Definitionen und Ergebnisse über metrische Räume findet man im Anhang), so heißt B.; d / .fA W A offeng/ Borel- -Algebra über . Sind speziell D Rn und d die euklidische Metrik, so schreiben wir die Borel-Algebra als Bn und im Fall n D 1 als B B1 . Die Borel- -Algebra Bn enthält
3
Kapitel 1 Ereignisse und Modelle
insbesondere alle Mengen, die sich durch „abzählbare Prozesse“ mittels Komplementund Durchschnittbildung aus offenen Mengen beschreiben lassen, und es ist mühsamer, Ereignisse zu finden, die nicht Bn -zulässig sind, als in den meisten Fällen die Zulässigkeit konkreter Mengen zu zeigen. Für eine -Algebra A heißt eine Abbildung W A ! Œ0; C1 ein Maß auf A oder .; A/ und .; A; / heißt dann Maßraum, falls 1 [ X .¿/ D 0 und An D .An / n2N
nD1
für alle Folgen .An /n2N paarweise disjunkter Ereignisse An 2 A (weil alle Summanden positiv sind, steht die Konvergenz der Reihe im Intervall Œ0; C1 nicht in Frage). heißt ein Wahrscheinlichkeitsmaß oder eine Verteilung und .; A; / heißt dann Wahrscheinlichkeitsraum oder Modell, falls ./ D 1 gilt. Üblicherweise werden wir ein Wahrscheinlichkeitsmaß mit dem Symbol P bezeichnen. Die Normiertheit impliziert zusammen mit der -Additivität angewendet auf A1 D und An D ¿ für n 2 übrigens schon das erste Axiom P .¿/ D 0. Wir sehen hier die zweite wichtige Funktion von -Algebren für die Theorie, nämlich als Definitionsbereiche von Maßen. Maße , die nur die Werte 0 und 1 annehmen, spezifizieren für jedes A-zulässige Ereignis A, dass es eingetreten ist, falls .A/ D 1, beziehungsweise dass es nicht eingetreten ist, falls .A/ D 0. Das Dirac-Maß ² 1; a 2 A ıa .A/ 0; a … A in einem Punkt a 2 ist das typische Beispiel für diese Situation. Dies ist also der Grenzfall eines allgemeinen Wahrscheinlichkeitsmaßes, das jedem A 2 A die „Eintrittssicherheit“ zuordnet. Endliche Additivität wäre dann wiederum eine Rationalitätsforderung und die -Additivität ist auch hier der Tribut an die Eleganz der Theorie. Wir interessieren uns vornehmlich für Verteilungen, allgemeine Maße sind aber oft ein wichtiges Hilfsmittel und als Instrument zur Bestimmung von Längen, Flächen und Volumina auch in anderen Bereichen der Mathematik von zentraler Bedeutung. Bevor wir erste Beispiele für Verteilungen angeben, beweisen wir die grundlegenden Eigenschaften von Maßen. Für eine Folge von S Ereignissen An schreiben wir dabei An " A und ATn # A falls An AnC1 und A D n2N An beziehungsweise AnC1 An und A D n2N An . Satz 1.1 (Einmaleins der Maßtheorie) Für einen Maßraum .; A; / und A; B; An 2 A gelten folgende Aussagen: S n n P Ak D .Ak /. 1. Sind A1 ; : : : ; An paarweise disjunkt, so gilt kD1
kD1
4
Kapitel 1 Ereignisse und Modelle
2. .A [ B/ C .A \ B/ D .A/ C .B/. 3. Für A B ist .BnA/ C .A/ D .B/. 4. Für A B ist .A/ .B/. S 1 P 5. An .An /. nD1
n2N
6. An " A impliziert .An / ! .A/. 7. An # A und .A1 / < 1 implizieren .An / ! .A/. Die Eigenschaften in 1. und 4.–7. heißen Additivität, Monotonie, Sub- -Additivität und Stetigkeit von unten beziehungsweise oben. Beweis. 1. folgt aus der -Additivität mit Ak D ¿ für k > n. Diese endliche Additivität impliziert die dritte Aussage, da A und B n A disjunkt mit Vereinigung B sind. 4. folgt aus 3. und der Positivität, und wegen A [ B D A [ .Bn.A \ B// liefert die Anwendung von 3. auf A \ B B die zweite Aussage. 6. folgt aus der Monotonie, falls .An / D 1 für ein n 2 N gilt. Andernfalls sind Bn An n An 1 mit A0 ¿ paarweise disjunkt, und mit 3. folgt .A/ D
[ n2N
Bn D
1 X nD1
.Bn / D lim
N !1
N X nD1
.An / .An
1/
D lim .AN /: N !1
S P 2. impliziert induktiv . nkD1 Ak / nkD1 .Ak / und damit folgt 5. aus der Stetigkeit von unten. Wegen A1 nAn " A1 nA folgt 7. aus 6. und 3. Um Verteilungen auf der Potenzmenge A D P ./ einer n-elementigen Menge zu definieren, muss man nicht die 2n Wahrscheinlichkeiten P .A/ für A angeben. Wegen der Additivität reicht die Definition von P .f!g/ für jedes ! 2 . Mit der P P Bezeichnung !2A f .!/ supf !2E f .!/ W E A endlichg für f W A ! Œ0; 1 gilt allgemeiner: Satz 1.2 (Diskrete Modelle) Seien .;PA/ ein Messraum und f W ! Œ0; C1 eine Abbildung. Dann ist durch .A/ !2A f .!/ ein Maß auf A definiert. Ist höchstens abzählbar, so ist jedes Maß auf P ./ von dieser Form. Beweis. .¿/ D 0 folgt aus der Definition der leeren Summe als 0, und die Additivität folgt aus der unbedingten Konvergenz von Reihen mit positiven Summanden. Für gegebenes Maß auf P ./ liefert bei abzählbarem wegen der Additivität f .!/ .f!g/ die gewünschte Darstellung.
5
Kapitel 1 Ereignisse und Modelle
In der Situation von Satz 1.2 heißt f eine Zähldichte von , und heißt diskret. Das zu f D 1 gehörige Maß heißt Zählmaß auf . Das Zählmaß auf N und die Ereignisse An D fn; n C 1; n C 2; : : :g # ¿ zeigen, dass Satz 1.1.7 ohne die Voraussetzung .A1 / < 1 im Allgemeinen falsch ist. P Diskrete Verteilungen können wir nun durch Zähldichten f mit !2 f .!/ D 1 definieren. Für endliches heißt das Maß mit Zähldichte f .!/ 1=jj LaplaceVerteilung auf . Sie ist das paradigmatische Modell für Situationen wie dem Würfeln, in denen alle Konstellationen als gleichmöglich angesehen werden. Speziell auf D f0; 1g heißt die Laplace-Verteilung auch Bernoulli-Verteilung. Die Verteilung auf D f0; : : : ; ng mit Zähldichte f .k/ kn p k .1 p/n k für festes p 2 Œ0; 1 wird mit B.n; p/ bezeichnet und heißt Binomialverteilung mit Parametern n und p. Wie wir noch begründen werden, ist sie ein angemessenes Modell für die „Verteilung der Treffer mit Wahrscheinlichkeit p in n unabhängigen Experimenten“. Die Verteilung auf D N0 mit Zähldichte f .n/ e n =nŠ heißt PoissonVerteilung mit Parameter 0 und wird mit Po./ bezeichnet. Wir werden später sehen, dass sie ein Modell für die „Verteilung seltener Ereignisse“ liefert. Als Modell für „Wartezeiten auf Ereignisse mit Wahrscheinlichkeit p“ dient die geometrische Verteilung Ge.p/ auf D N mit Zähldichte f .n/ .1 p/n 1 p. Für nicht abzählbares liefert die Definition ² P .A/
0; falls A abzählbar 1; sonst
auf A fA W A oder Ac abzählbar g eine (nicht diskrete) Verteilung, die gelegentlich als trennendes Beispiel dient (A ist eine -Algebra, weil die abzählbare Vereinigung abzählbarer Mengen wieder abzählbar ist, und P ist eine Verteilung, weil für paarweise disjunkte Ereignisse in A höchstens eines abzählbares Komplement besitzt). Schon mit diskreten Verteilungen lassen sich überraschende Beispiele untersuchen. Wir können die j -te Komponente einer Konstellation ! D .!1 ; : : : ; !n / 2 f1; : : : ; N gn im Fall N D 365 als Geburtstag des j -ten Kinds einer Klasse mit n Schülern oder im Fall N D 49 6 als Ergebnis der j -ten von bislang n durchgeführten Lottoziehungen „6 aus 49“ interpretieren. Seien P die Laplace-Verteilung auf und A f.!1 ; : : : ; !n / 2 : es gibt i ¤ j mit !i D !j g. In der Interpretation als Geburtstage von Kindern einer Schulklasse beschreibt A das Ereignis, dass zwei Kinder am selben Tag Geburtstag feiern. Durch Induktion nach n erhalten wir, dass Ac genau N.N 1/ .N n C 1/ Elemente hat, und wegen jj D N n folgt P .A/ D 1
P .Ac / D 1
N.N
1/
.N
Nn
n C 1/
D1
nY1 kD0
1
k : N
6
Kapitel 1 Ereignisse und Modelle
Die einfache Ungleichung exp.x/ 1 C x für x 2 R (die zum Beispiel aus dem Mittelwertsatz folgt) liefert dann P .A/ 1
exp
n X1 kD0
k D1 N
n.n 1/ : 2N
exp
Weil P .A/ 1=2 schon für n.n 1/ 2N log 2 gilt (also n 23 für N D 365 und n 4404 für N D 49 6 ), wird dieses Beispiel manchmal Kollisionsparadoxon genannt. Eine nützliche Verallgemeinerung von Satz 1.1.2 ist: Satz 1.3 (Siebformel) S Seien .; A; / ein Maßraum und A1 ; : : : ; An 2 A mit . jnD1 Aj / < 1. Dann gilt n [ X \ Aj D . 1/jS jC1 Aj ; j D1
j 2S
wobei über alle nicht-leeren Teilmengen S f1; : : : ; ng summiert wird. In der Siebformel werden also alle .Aj / mit positivem Vorzeichen, alle .Aj \ Ak / mit negativem Vorzeichen und allgemeiner die Maße aller Schnitte von k verschiedenen Mengen mit dem Vorzeichen . 1/kC1 addiert. Weil nach Voraussetzung .Aj / < 1 für alle j 2 f1; : : : ; ng gilt, ist diese Summe tatsächlich definiert. Beweis. Für n D 1 ist nichts zu beweisen und für n 2 folgt aus Satz 1.1.2 und zweimalige Anwendung der Siebformel für n 1 Ereignisse n [ n[1 Aj D .An / C Aj j D1
n[1 Aj \ An
j D1
j D1
X
D .An / C
\ . 1/jS jC1 Aj j 2S
¿¤S f1;:::;n 1g
X ¿¤T f1;:::;n 1g
. 1/jT jC1
\
Aj
j 2T [fng
und dies stimmt mit der rechten Seite in der Siebformel für A1 ; : : : ; An überein.
Eine klassische Anwendung der Siebformel ist das Rencontre-Problem. Wir betrachten die Laplace-Verteilung P auf der Menge der Permutationen ff W f1; : : : ; ng ! f1; : : : ; ng bijektivg und suchen die Wahrscheinlichkeit der Menge der Permutationen mit mindestens einem Fixpunkt. Die Konstellationen lassen sich etwa als Ergebnisse von Verlosungen auf einer Weihnachtsfeier interpretieren, zu der jeder Gast ein Geschenk mitbringt. Gesucht ist dann die Wahrscheinlichkeit dafür,
7
Kapitel 1 Ereignisse und Modelle
dass mindestens einem Gast das selbst mitgebrachte Geschenk zugelost wird. Für Aj ff 2 W f .j / D j g und ein k-elementiges S f1; :T : : ; ng liefert die Restriktion auf f1; : : : ; ng n S eine bijektive Abbildung zwischen j 2S Aj und der Menge der Permutationen auf S c . Weil es kn Teilmengen von f1; : : : ; ng mit k Elementen gibt, folgt mit der Siebformel ! n n n n [ X X 1 X 1 kC1 n P Aj D . 1/k =kŠ . 1/ .n k/Š D . 1/kC1 D 1 kŠ nŠ k j D1
kD1
kD1
kD0
Weil dies sehr schnell gegen 1 e 1 konvergiert, hängt die gesuchte Wahrscheinlichkeit unerwarteter Weise „kaum“ von n ab. Während der Raum der Konstellationen in den bisherigen Beispielen der Situation angepasst war, erscheint die Wahl der Laplace-Verteilung allenfalls plausibel, wenn nicht gar willkürlich. Im Laplace-Modell werden nämlich sehr spezifische Annahmen über die Wahrscheinlichkeiten getroffen, die nicht – wie manchmal suggeriert wird – daraus abgeleitet werden können, dass man für die zu modellierende Situation keine spezifischen Informationen hat. Wir werden nun sehen, dass eine Verteilung auf einer -Algebra A schon durch jeden schnittstabilen Erzeuger E (das heißt für alle A; B 2 E gilt A \ B 2 E/ eindeutig bestimmt ist, dies setzt der Willkür immerhin eine Grenze. Dafür benötigen wir ein Hilfsmittel, das wir immer wieder benutzen werden. Ein Mengensystem D P ./ heißt Dynkin-System (über ), falls es das sichere Ereignis enthält, mit jedem Ereignis auch das gegenteilige und mit jeder Folge paarweise disjunkter Ereignisse auch die Vereinigung. Insbesondere ist also jede -Algebra ein Dynkin-System, und wegen [
An D
n2N
[
An \ Acn
1
\ \ Ac1
n2N
sind schnittstabile Dynkin-Systeme schon -Algebren. Genau wie im Fall von Algebren ist für E P ./ durch ı.E/ ı .E/
\
fD Dynkin-System mit E Dg
das minimale Dynkin-System, das E umfasst, definiert. Satz 1.4 (Dynkin-Argument) Für jedes schnittstabile Mengensystem E P ./ gilt .E/ D ı.E/. Beweis. Weil jede -Algebra ein Dynkin-System ist, gilt ı.E/ .E/. Also müssen wir zeigen, dass ı.E/ eine -Algebra ist, und wegen des oben gesagten reicht der Nachweis, dass ı.E/ schnittstabil ist.
8
Kapitel 1 Ereignisse und Modelle
Für B 2 ı.E/ definieren wir DB fA 2 ı.E/ W A \ B 2 ı.E/g. Dann ist jedes dieser Mengensysteme ein Dynkin-System, wobei die Stabilität bezüglich Komplementbildung wegen B \ Ac D .B c [ A/c D .B c [ .A \ B//c aus der Disjunktheit von B c und A \ B folgt, die beide ı.E/ angehören. Für B 2 E gilt dann E DB , weil für A 2 E sogar A \ B 2 E gilt. Also ist auch ı.E/ DB , weil DB ein Dynkin-System ist. Für alle A 2 ı.E/ und B 2 E haben wir also B \ A 2 ı.E/ und damit E DA gezeigt. Wieder weil DA ein Dynkin-System ist, folgt damit ı.E/ DA für jedes A 2 ı.E/, so dass ı.E/ wie gewünscht schnittstabil ist. Für spätere Zwecke beweisen wir die oben erwähnte Eindeutigkeitsaussage für Verteilungen in etwas größerer Allgemeinheit. Wir nennen ein Maß W A ! Œ0; C1 -endlich auf E A (und nur -endlich, falls E D A), falls es Ereignisse En 2 E gibt mit En " und .En / < C1 für jedes n 2 N. Endliche Maße , das heißt Maße mit ./ < 1, sind also auf jedem Mengensystem -endlich, das eine Folge En " enthält. Das Zählmaß auf einer überabzählbaren Menge ist ein Beispiel für ein nicht endliches Maß. Satz 1.5 (Maßeindeutigkeit) Seien und zwei Maße auf A, die auf einem schnittstabilen Erzeuger E von A übereinstimmen und -endlich auf E sind. Dann gilt D . Beweis. Sei .En /n2N eine Folge in E mit .En / D .En / < 1 und En " . Für jedes n 2 N ist dann Dn fA 2 A W .A \ En / D .A \ En /g ein Dynkin-System (die Komplementstabilität folgt aus .Ac \ En / C .A \ En / D .En / < 1). Weil und auf dem schnittstabilen Erzeuger E übereinstimmen, gilt E Dn , und mit dem Dynkin-Argument folgt A D .E/ D ı.E/ Dn für jedes n 2 N. Mit der Stetigkeit von unten erhalten wir für A 2 A .A/ D lim .A \ En / D lim .A \ En / D .A/: n!1
n!1
Das Beispiel D P vor dem Kollisionsparadoxon und D 2P zeigt, dass man selbst für endliche Maße auf die Voraussetzung, dass auf E -endlich ist, nicht verzichten kann (auf dem Erzeuger E fA W A abzählbarg sind und beide gleich 0). Sind allerdings und beide Wahrscheinlichkeitsmaße, so genügt die Übereinstimmung auf einem schnittstabilen Erzeuger E, weil dann auch E [ fg schnittstabil ist und und dort übereinstimmen. Eine wichtige Anwendung von Satz 1.5 ist, dass Verteilungen P auf der Borel- Algebra B über R durch ihre Verteilungsfunktion F W R ! R, F .x/ P .. 1; x/ eindeutig bestimmt sind: Weil sich jedes offene Intervall als [ .a; b/ D . 1; b 1=n n . 1; a n2N
9
Kapitel 1 Ereignisse und Modelle
darstellen lässt und jede offene Menge abzählbare Vereinigung von Intervallen (etwa allen enthaltenen Intervallen mit rationalen Endpunkten) ist, gilt fA R offeng .f. 1; x W x 2 Rg/. Also ist die Menge f. 1; x W x 2 Rg ein schnittstabiler Erzeuger von B. Genauso zeigt man, dass etwa f. 1; x/ W x 2 Qg ein Erzeuger von B ist. Eine weitere Möglichkeit zur Einschränkung der oben monierten Beliebigkeit bei der Wahl von Modellen besteht darin, Verteilungen aus „elementareren“ herzuleiten. Zum Beispiel wäre jede Angabe einer Zähldichte für die „Anzahl der Richtigen beim Lotto n aus N “ ziemlich willkürlich. Plausibler ist die Annahme der LaplaceVerteilung aller „Ziehungen“ in fZ f1; : : : ; N g W jZj D ng. Für jeden „Tipp“ T 2 und jedes k 2 f0; : : : ; ng ist durch Z 7! .Z \ T; Z \ T c / eine Bijektion zwischen Ak fZ 2 W jZ \ T j D kg, also dem Ereignis „k Richtige“, und fR T W jRj D kg fF T c W jF j D n kg definiert. Wegen jj D Nn folgt
P .Ak / D
n N n k n k : N n
Durch diesen Ausdruck wird die Zähldichte der (speziellen) hypergeometrischen Verteilung H.N; n/ auf der Potenzmenge von f0; : : : ; ng definiert. Wie in diesem Beispiel lassen sich Ereignisse oft sehr bequem durch Abbildungen auf dem Raum der Konstellationen beschreiben, und in der Wahrscheinlichkeitstheorie ist es üblich, diese Abbildung mit Großbuchstaben vom Ende des lateinischen Alphabets zu bezeichnen (was für Studierende mit Kenntnissen aus der Grundvorlesung über Analysis zunächst gewöhnungsbedürftig ist). Wir hätten etwa das Ereignis A D f.!1 ; : : : ; !n / 2 W es gibt i ¤ j mit !i D !j g aus dem Kollisionsparadoxon auch als A D f! 2 W X.!/ < ng mit der Abbildung X.!1 ; : : : ; !n / jf!1 ; : : : ; !n gj beschreiben können. Wir benutzen für eine Abbildung X W ! X und ein Ereignis B X außer der üblichen Bezeichnung X 1 .B/ f! 2 W X.!/ 2 Bg für das Urbild auch die kürzere Schreibweise fX 2 Bg und analog fX 2 B; Y 2 C g D fX 2 Bg \ fY 2 C g oder fX D Y g D f! 2 W X.!/ D Y.!/g für zwei Abbildungen X; Y auf . Falls X W ! X bijektiv ist, stimmt das Urbild mit dem Bild unter der meist ebenfalls mit X 1 bezeichneten Umkehrabbildung überein, so dass die leider häufige Verwechslung zwischen Umkehr- und Urbildabbildung im Fall bijektiver Abbildungen nicht zu Fehlern führt. Verwechslungen von X 1 mit dem multiplikativen Inversen x 1 D 1=x von reellen Zahlen sind hingegen kaum zu befürchten. n Folgendes Beispiel zeigt die Prägnanz Pn obiger Schreibweisen. Seien f0; 1g , Xj .!1 ; : : : ; !n / !j und X.!/ j D1 Xj .!/. Interpretieren wir die j -te Komponente einer Konstellation als Erfolg (!j D 1) beziehungsweise Misserfolg (!j D 0) in der j -ten Wiederholung eines Versuchs, so beschreibt X.!/ die Anzahl der Erfolge.
10
Kapitel 1 Ereignisse und Modelle
Für die Laplace-Verteilung P auf und k 2 f0; : : : ; ng gilt dann [ P .fX D kg/ D P fXj D 1 für j 2 S g \ fXj D 0 für j … S g jS jDk
D
X jS jDk
! n 1=2n D 1=2n ; k
weil fXj D 1 für j 2 S g \ fXj D 0 für j … S g einelementig ist. Dies ist die Zähldichte von B.n; 1=2/. Für jede Abbildung X W ! X haben wir durch B 7! X 1 .B/ die Urbildabbildung P .X/ ! P ./ definiert, und für B P .X/ nennen wir das Bild X 1 .B/ D fX 1 .B/ W B 2 Bg unter der Urbildabbildung auch kürzer Urbild von B. Mit B ist auch X 1 .B/ eine -Algebra. Um wie im Beispiel eben Wahrscheinlichkeiten von Ereignissen A D X 1 .B/ messen zu können, müssen sie natürlich im Definitionsbereich des Wahrscheinlichkeitsmaßes liegen. Für zwei Messräume .; A/ und .X; B/ nennen wir deshalb eine Abbildung X W ! X messbar oder genauer .A; B/-messbar, falls X 1 .B/ A gilt. Dann schreiben wir auch: X W .; A/ ! .X; B/ ist messbar. Ist ein Maß auf A, so heißt X ı X 1 Bildmaß von unter X. Für B 2 B gilt also X .B/ D .X 1 .B// D .fX 2 Bg/ und oft schreiben wir dafür auch .X 2 B/. Für ein Wahrscheinlichkeitsmaß P nennen wir P X die Verteilung von X (unter P ). In dieser Situation heißt X auch .X; B/-wertige Zufallsgröße (auf .; A; P /) und wir schreiben X P X , was insbesondere dann nützlich ist, wenn P X eine bekannte Verteilung ist. X B.n; p/ bedeutet also P X D B.n; p/ und X heißt dann auch B.n; p/-verteilt. .Rn ; Bn /-wertige Zufallsgrößen heißen n-dimensionale Zufallsvektoren und im Fall n D 1 auch Zufallszahlen oder Zufallsvariablen. Zwei Zufallsgrößen X; Y heißen identisch verteilt, falls sie die gleiche Verteilung besitzen (X; Y müssen also gleichen Wertebereich haben, können aber auf verschiedenen Wahrscheinlichkeitsräumen definiert sein). Auch wenn die dadurch definierte d
Äquivalenzrelation „weit von der Identität entfernt ist“, schreiben wir dann X D Y (das d steht für „distribution”), X und Y sind also verteilungsgleich. Ist zum Beid
d
spiel X B.1; 1=2/, so gilt X D X 2 D 1 X. Dieses einfache Beispiel zeigt, dass d d d d aus X D XQ und Y D YQ weder .X; Y / D .XQ ; YQ / noch X C Y D XQ C YQ folgt. Dabei sind .X; Y / und X C Y „argumentweise“ als .X; Y /.!/ D .X.!/; Y .!// und .X C Y /.!/ D X.!/ C Y.!/ definiert. Bei der Notation X B.n; p/ werden sowohl der Raum der Konstellationen als auch das Wahrscheinlichkeitsmaß P ignoriert. Der Grund dafür ist (ein metaphysisch
11
Kapitel 1 Ereignisse und Modelle
zart besaiteter Leser möge die folgenden Zeilen ruhig überspringen, sie sind für die mathematische Theorie belanglos), dass es für die Stochastik in der Regel keine Rolle spielt, wie die Konstellationen zustande kommen, etwa ob die Lottomaschine samstags mit einem Rad oder mittwochs mit einem Gebläse betrieben wird. Auch ist es unerheblich, dass die realen Konstellationen viele weitere Eigenschaften haben können, die im Modell nicht berücksichtigt werden. Zum Beispiel werden beim Lotto die Kugeln nacheinander gezogen, was wir im Beispiel zur hypergeometrischen Verteilung ignoriert haben. Eine sehr vage aber vielleicht nützliche Vorstellung ist manchmal, als sehr groß anzunehmen – etwa als Menge „aller möglichen Weltläufe“ – und P als „den Zufall, der den aktuellen Weltverlauf steuert“. Die Verteilungen P X von Zufallsvariablen liefern also Kenntnisse über das unzugängliche P . Zurück zur Sache. Die Messbarkeit einer Abbildung ist eine technisch (und auch bei der Interpretation als Information) wichtige Eigenschaft, die glücklicherweise meistens leicht zu verifizieren ist. Nützlich sind dabei oft folgende Aussagen. Satz 1.6 (Urbild -Algebren) Seien X W ! X eine Abbildung und E P .X/. Dann ist die vom Urbild erzeugte -Algebra das Urbild der erzeugten -Algebra, also .X
1
.E// D X
1
.X .E//:
Beweis. X 1 .X .E// ist eine -Algebra über , die X 1 .E/ und daher auch die erzeugte -Algebra .X 1 .E// umfasst. Andererseits ist G fB X W X 1 .B/ 2 .X 1 .E//g eine -Algebra über X, die E und damit auch X .E/ umfasst. Wegen dieses Satzes muss man für den Nachweis der Messbarkeit einer Abbildung X W .; A/ ! .X; B/ nur fX 2 Bg 2 A für alle Mengen eines Erzeugers von B überprüfen. Wir haben im Zusammenhang mit der Definition der Verteilungsfunktion nach Satz 1.5 gezeigt, dass E f. 1; x W x 2 Rg ein Erzeuger der Borel- -Algebra B ist. Mit Satz 1.6 erhalten wir also, dass eine Abbildung X W ! R genau dann .A; B/-messbar, wenn fX xg 2 A für alle x 2 R gilt. Diese Kriterium impliziert zum Beispiel, dass jede monotone Funktion X W R ! R bezüglich der Borel- -Algebra messbar ist, weil dann Urbilder von Intervallen wieder Intervalle sind. Satz 1.7 (Komposition und Messbarkeit) Sind X W .; A/ ! .X; B/ und Y W .X; B/ ! .Y; C / beide messbar, so ist auch die Komposition Y ı X W .; A/ ! .Y; C/ messbar. Für jedes Maß auf A gilt Y ıX D .X /Y . Beweis. Für B 2 B gilt .Y ı X / 1 .B/ D f! 2 W Y .X.!// 2 Bg D f! 2 W X.!/ 2 Y 1 .B/g D X 1 .Y 1 .B//.
12
Kapitel 1 Ereignisse und Modelle
Gelegentlich tritt die Situation auf, dass Y bloß auf dem Bild M X./ X definiert ist. Wir betrachten dann die Spur- -Algebra B \ M fB \ M W B 2 Bg. Fassen wir X als Abbildung ! M auf, so bleibt wegen X 1 .B \ M / D X 1 .B/ für alle B 2 B die Messbarkeit erhalten. Ist dann Y W .M; B\M / ! .Y; C / messbar, so folgt die Messbarkeit der Komposition Y ı X aus Satz 1.7. In der Situation von Borel- -Algebren erhalten wir als Anwendung der letzten beiden Sätze: Satz 1.8 (Messbarkeit und Stetigkeit) 1. Sind A und B die Borel- -Algebren über den metrischen Räumen beziehungsweise X, so ist jede stetige Abbildung von nach X auch messbar. 2. Seien X ein metrischer Raum mit Borel- -Algebra B und Xn W .; A/ ! .X; B/ messbar, so dass für jedes ! 2 der Grenzwert X.!/ limn!1 Xn .!/ existiert. Dann ist X ebenfalls .A; B/-messbar. Beweis. 1. Ist E die Menge der offenen Teilmengen von X, so folgt mit Satz 1.6 die Beziehung X 1 .B/ D X 1 .X .E// D .X 1 .E// A, weil stetige Urbilder offener Mengen offen sind. 2. Für jede Teilmenge B von X ist durch f .x/ dist.x; B/ inffd.x; b/ W b 2 Bg eine stetige Abstandsfunktion definiert. Sind nämlich x 2 X, " > 0 und b 2 B mit d.x; b/ dist .x; B/ C ", so folgt für jedes y 2 X f .y/
f .x/ d.y; b/
d.x; b/ C " d.y; x/ C ":
Durch Grenzübergang " ! 0 und Rollentausch erhalten wir, dass f sogar eine Kontraktion ist, das heißt jf .x/ f .y/j d.x; y/. Ist nun B X abgeschlossen, so gilt \ [ \ fX 2 Bg D ff ı X D 0g D f lim f ı Xn D 0g D ff ı Xm < 1=kg: n!1
k2N n2N mn
Wegen 1. und Satz 1.7 ist daher fX 2 Bg 2 A. Weil die Menge der abgeschlossenen Teilmengen die Borel- -Algebra erzeugt, folgt aus Satz 1.6 die Messbarkeit von X.
Messbarkeit ist also nicht nur eine schwächere Eigenschaft als Stetigkeit, sie hat auch viel bessere Permanenzeigenschaften (für die Stetigkeit der Grenzfunktion in der Situation 1.8.2 müsste man etwa gleichmäßige Konvergenz voraussetzen). Ein weiteres Beispiel für die guten Permanenzeigenschaften ist die fallweise Beschreibung von Abbildungen: Sind Xn W .; A/ ! .X; B/ messbar und An 2 A S paarweise disjunkt mit n2N An D , so ist durch Y .!/ Xn .!/, falls ! 2 An ,
13
Kapitel 1 Ereignisse und Modelle
wieder eine .A; B/-messbare Abbildung definiert, weil fY 2 Bg D fXn 2 Bg für alle B 2 B gilt. Im Sinn der Information beschreibt .X / X
1
S
n2N
An \
.B/ D ffX 2 Bg W B 2 Bg
die durch die Zufallsgröße X gelieferte Information. Wir nennen .X / auch die von X erzeugte -Algebra. In dieser Notation kommt B nicht vor, und wir verwenden sie daher nur, wenn B durch den Kontext gegeben ist (beispielsweise ist .X / D X 1 .Bn /, falls X ein n-dimensionaler Zufallsvektor ist). .X / ist also die minimale -Algebra über , so dass X messbar ist. Der Wert x D X.!/ gibt Auskunft über die „unzugängliche“ Konstellation ! 2 (typischerweise sind Zufallsgrößen weit von der Injektivität entfernt, so dass X.!/ D x für sehr viele ! 2 gilt) und .X / besteht aus den Ereignissen A D fX 2 Bg für die man bei Kenntnis von x D X.!/ die Frage nach ! 2 A entscheiden kann. Auch die Messbarkeit einer Abbildung Y W .; .X // ! .Y; C/ lässt sich im Sinn der Information interpretieren: Kennt man den Wert x D X.!/, so kann man für jedes C 2 C entscheiden, ob Y.!/ 2 C gilt. Wir werden darüber hinaus nach Satz 3.3 noch sehen, dass man ein . .X/; C/-messbares Y in den meisten Fällen als Y D h ı X mit einem messbaren h W .X; B/ ! .Y; C/ faktorisieren kann, das heißt Y hängt in einem sehr konkreten Sinn von X ab. Sind allgemeiner .X˛ ; B˛ / für W ˛ 2 I Messräume und X˛ W ! X˛ Abbildungen, so ist .X˛ W ˛ 2 I / ˛2I .X˛ / die kleinste -Algebra, so dass alle X˛ messbar sind. Sie beschreibt die von allen X˛ gemeinsam gelieferte Information. Satz 1.9 (Universelle Eigenschaft, Abzählbarkeit) Seien .X˛ ; B˛ / Messräume für ˛ 2 I und X˛ W ! X˛ Abbildungen. 1. Ist .M; M/ ein Messraum, so ist eine Abbildung F W M ! genau dann .M; .X˛ W ˛ 2 I //-messbar, wenn alle Kompositionen X˛ ı F W .M; M/ ! .X˛ ; B˛ / messbar sind. S 2. .X˛ W ˛ 2 I / D J abzählbar .X˛ W ˛ 2 J /. Beweis. 1. Ist F messbar, so folgt die Messbarkeit aller X˛ ı F S aus Satz 1.7. Ande1 rerseits bedeutet die Messbarkeit aller Kompositionen, dass F . ˛2I .X˛ // M W gilt, und wegen Satz 1.6 folgt die .M; ˛2I .X˛ //-Messbarkeit von F . 2. Das Mengensystem R auf der rechten Seite ist in .X˛ W ˛ 2 I / enthalten und S enthält seinerseits ˛2I .X˛ /. Wir müssen also zeigen, dass R eine -Algebra ist. S Sind An 2 .X˛ W ˛ 2 Jn / mit abzählbaren Mengen J I , so ist J n n2N Jn S wieder abzählbar und damit folgt n2N An 2 .X˛ W ˛ 2 J / R. Ein sehr wichtiges Beispiel für die Erzeugung von -Algebren durch Abbildungen ist die Produktbildung. Sind .X˛ ; B˛ / für ˛ 2 I Messräume, so besteht das karteQ sische Produkt ˛2I X˛ aus allen Familien oder I -Tupeln .x˛ /˛2I mit x˛ 2 X˛
14
Kapitel 1 Ereignisse und Modelle
S für alle ˛ 2 I . Dabei ist ein I -Tupel .x˛ /˛2I als die Abbildung f W I ! ˛2I X˛ mit f .˛/ x˛ definiert, der einzige Unterschied zur üblichen Notation etwa in der Analysis ist, dass das Argument als Index geschrieben wird. Q Q Falls I D f1; : : : ; ng, schreiben wir auch ˛2I X˛ n˛D1 X˛ X1 Q Xn , und falls X˛ D X für alle ˛ 2 I , benutzen wir das Symbol X I D ˛2I X˛ . Wie üblich schreiben wir X n X f1;:::;ng für das n-fache Produkt und X nm X f1;:::;ngf1;:::;mg für den Raum aller nm Matrizen. Außerdem nennen wir N-Tupel Folgen. Q Für J I definiert die Restriktion f ! 7 f j eine Abbildung W J I;J ˛2I X˛ ! Q Q ˛2J X˛ . Die Auswertungsabbildung ˇ W ˛2I X˛ ! Xˇ , ˇ .f / f .ˇ/ nennen wir die (kanonische) Projektion auf die Komponente Xˇ . N Die Produkt- -Algebra B . W ˛ 2 I / ist also die minimale ˛ ˛ ˛2I Q Algebra über X , so dass alle Projektionen messbar sind. Wir schreiben auch ˛ ˛2I N N Q .X ; B / für den Messraum . X ; B /, ˛ ˛ ˛ ˛ und im Fall gleicher Fak˛2I ˛2I ˛2I I toren B˛ D B benutzen wir die Bezeichnungen B und B n B f1;:::;ng (wobei die Verwechselungsgefahr mit dem kartesischen Mengenprodukt gering ist). Für überabzählbares I impliziert Satz 1.9.2, dass jedes Ereignis A 2 B I nur von abzählbar vielen Komponenten abhängt, das heißt, es gibt J I abzählbar und B 2 B J mit A D I;J1 .B/. Damit folgt zum Beispiel, dass A ff W R ! R W f stetigg 1 nicht BR -zulässig ist. Andernfalls wäre A D R;J .B/ mit einem abzählbarem J R J und B 2 B . Durch f .x/ 1 für alle x 2 R und ² 1; falls x 2 J g.x/ 0; falls x … J sind Funktionen definiert mit R;J .g/ D R;J .f / 2 B, was g 2 A und damit Stetigkeit von g impliziert. Dies widerspricht der Tatsache, dass jedes nicht-leere offene Intervall (als überabzählbare Menge) Elemente von J c enthält. QnFür metrische Räume .X1 ; d1 /; : : : ; .Xn ; dn / versehen wir das Produkt X d1 .x; y/ maxfdj .xj ; yj / W 1 j ng j D1 Xj mit der Produktmetrik Nn und schreiben .X; d1 / j D1 .Xj ; dj /. Bezeichnen wir die offenen Kugeln in Xj und X Q mit Bj .x; "/ beziehungsweise B.x; "/, so gilt für x D .x1 ; : : : ; xn / also B.x; "/ D jnD1 Bj .xj ; "/. Wir nennen einen metrischen Raum separabel, falls es eine abzählbare Menge gibt, die dicht ist, das heißt ihr Abschluss ist der ganze Raum. Für solche Räume zeigen wir jetzt, dass die Borel- -Algebren mit Produkten kommutieren: Satz 1.10 (Produkte von Borel- -Algebren) Für separable metrische Räume .Xj ; dj / ist B
n O j D1
.Xj ; dj / D
n O j D1
B.Xj ; dj /:
Kapitel 1 Ereignisse und Modelle
15
Beweis. Der Beweis beruht darauf, dass die Borel- -Algebra eines separablen metrischen Raums .X; d / von dem System aller Kugeln erzeugt wird. Für eine abzählbare dichte Menge S ist nämlich jede offene Menge A die abzählbare Vereinigung aller in A enthaltenen Kugeln B.y; "/ mit y 2 S und rationalem " > 0: Für x 2 A gibt es ein rationales " > 0 mit B.x; 2"/ A und ein y 2 S mit d.x; y/ < ", und deshalb ist x 2 B.y; "/ B.x; 2"/ A. Das System aller offenen Mengen – und damit auch die Borel- -Algebra – ist daher .fB.x; "/ W x 2 X; " > 0g/ enthalten. Qn in der -AlgebraN n Wegen B.x; "/ D B .x ; "/ 2 j j j D1 j D1 B.Xj ; dj / sind die Kugeln des Produktraums im Produkt der Borel- -Algebren. Für abzählbare dichte Teilmengen Sj von Xj ist das Produkt S1 Sn wiederum abzählbarNund dicht bezüglich der Produktmetrik. Wegen obiger Aussage folgt daher B. jnD1 .Xj ; dj // Nn j D1 B.Xj ; dj /. Andererseits sind die Projektionen j W X ! Xj stetig und daher messbar, und dies impliziert die umgekehrte Inklusion. Satz 1.10 für Xj D R versehen mit der vom Betrag erzeugten Metrik liefert Bn D B1 ˝ ˝ B1 D Bn W Die Produktmetrik d1 hat zwar nicht die selben Kugeln wir die euklidische Metrik p d2 , aber wegen d1 .x; y/ d2 .x; y/ nd1 .x; y/ erzeugen die beiden Metriken die selben offenen Mengen. Für einen Zufallsvektor X W .; A/ ! .Rn ; Bn / sind die Komponenten k ı X W .; A/ ! .R; B/ messbar, also Zufallsvariablen, und umgekehrt ist wegen der universellen Eigenschaft für Zufallsvariablen X1 ; : : : ; Xn W .; A/ ! .R; B/ durch X.!/ .X1 .!/; : : : ; Xn .!// ein Zufallsvektor definiert. Ist S W .Rn ; Bn / ! .Rm ; Bm / messbar (wegen Satz 1.8.1 gilt dies insbesondere für alle stetigen Abbildungen), so ist die Komposition S ı .X1 ; : : : ; Xn / W .; A/ ! .Rm ; Bm / wiederum messbar. Insbesondere sind also Summen und Produkte von Zufallsvariablen wieder Zufallsvariablen, und wegen Satz 1.8.2 stimmt das auch für konvergente Reihen. Auf die Separabilität in Satz 1.10 kann man übrigens nicht verzichten. Weil wir dies aber nirgends benutzen werden, ist der Rest dieses Abschnitts für S den Fortgang der Theorie entbehrlich. Für einen Messraum .X; B/ ist B ˝ B D .E/ ˝ .E/, wobei über alle abzählbaren E B vereinigt wird – diese Vereinigung ist nämlich eine -Algebra. Falls die Diagonale f.x; x/ W x 2 Xg ein B ˝ B-zulässiges Ereignis ist, gibt es daher ein abzählbares E B mit 2 .E/ ˝ .E/. Weiter ist G fA X X W für alle x 2 X ist fy 2 X W .x; y/ 2 Ag 2 .E/g eine -Algebra, die fE F W E; F 2 Eg und damit auch .E/ ˝ .E/ enthält, und damit folgt fxg D fy 2 X W .x; y/ 2 g 2 .E/ für alle x 2 X. Für x ¤ y gibt es deshalb E 2 E mit x 2 E und y … E oder x … E und y 2 E, weil anderenfalls .E/ in der -Algebra fA X W fx; yg A oder fx; yg Ac g enthalten wäre, was fxg 2 .E/ widerspricht. Für E D fEn W n 2 Ng ist daher durch f D .fn /n2N mit fn .x/ 1 für x 2 En und fn .x/ 0 für x … En eine injektive Abbildung f W X ! f0; 1gN definiert.
16
Kapitel 1 Ereignisse und Modelle
Ist nun X so groß, dass es keine Injektion nach f0; 1gN gibt – also zum Beispiel X P .f0; 1gN / – so folgt … B ˝ B. Für die diskrete Metrik d.x; y/ 1 für x ¤ y und d.x; x/ 0 ist andererseits bezüglich der Produktmetrik abgeschlossen, so dass 2 B..X; d / ˝ .X; d // ¤ B.X; d / ˝ B.X; d /.
Aufgaben 1.1. Zeigen Sie für eine Abbildung X W ! X, dass die Umkehrabbildung X 1 W P .X/ ! P ./ genau dann injektiv (beziehungsweise surjektiv) ist, wenn X surjektiv (beziehungsweise injektiv) ist. 1.2. Zeigen Sie für -Algebren A1 ; : : : ; An über einer Menge , dass fA1 \ \An W Aj 2 Aj g ein schnittstabiler Erzeuger von A1 _ _ An ist. 1.3. Seien eine Menge und E fA W A endlichg. Bestimmen Sie die von E erzeugte -Algebra. 1.4. Zeigen Sie für -Algebren A; B; C über einer Menge .A ^ B/ _ .A ^ C/ A ^ .B _ C/ und, dass im Allgemeinen keine Gleichheit gilt. P 1.5. Für Abbildungen X1 ; : : : ; Xn W ! R seien Sk jkD1 Xj . Betrachten Sie auf R die Borel- -Algebra, und zeigen Sie .X1 ; : : : ; Xn / D .S1 ; : : : ; Sn /. 1.6. Seien X; Y W .; A/ ! .X; B/ messbare Abbildungen. Zeigen Sie fX D Y g 2 A, falls .X; B/ polnisch (dieser Begriff wird im Anhang erklärt, wo man auch einen für die Aufgabe nützlichen Satz findet) oder auch bloß ein separabler metrischer Raum mit seiner Borel- -Algebra ist, und geben Sie ein Beispiel an, in dem diese Menge kein zulässiges Ereignis ist. 1.7. Zeigen Sie, dass eine unendliche -Algebra A nicht abzählbar ist. Nehmen Sie T dazu das Gegenteil an, und folgern Sie, dass für ! 2 durch M! !2A2A A Elemente von A definiert sind, die entweder gleich oder disjunkt sind. Zeigen Sie außerdem, dass fM! W ! 2 g unendlich ist. 1.8. Für n N sei fZ f1; : : : ; N g W jZj D ng wie im Beispiel zur hypergeometrischen Verteilung mit der Laplace-Verteilung versehen. Weiter sei f1; : : : ; N g D Sr j D1 Mj eine Zerlegung in paarweise disjunkte mj -elementige Mengen Mj (man denke etwa an eine Urne mit N Kugeln, die je eine von r verschiedene Farben haben). Für kj mj mit k1 C C kr D n sei Ak1 ;:::;kr fZ 2 W jZ \ Mj j D kj für alle 1 j rg: Zeigen Sie P .Ak1 ;:::;kr / D
m1 mr N k1 kr = n .
Kapitel 1 Ereignisse und Modelle
17
1.9. Seien .; A/ ein Messraum und W A ! Œ0; 1/ additiv, das heißt .A [ B/ D .A/ C .B/ für alle disjunkten A; B 2 A. Zeigen Sie, dass genau dann ein Maß ist, wenn An # ¿ stets .An / ! 0 impliziert. 1.10. Sei P eine Verteilung auf .R; B/ mit P .B/ 2 f0; 1g für alle B 2 B. Zeigen Sie, dass P ein Dirac-Maß ist. Verallgemeinern Sie die Aussage auf Verteilungen auf polnischen Räumen. 1.11. Sei P eine Verteilung auf einem Messraum .X; B/ mit fxg 2 B für alle x 2 X. Zeigen sie, dass fx 2 X W P .fxg/ > 0g (höchstens) abzählbar ist. 1.12. Zeigen Sie für eine Verteilung P auf .R; B/, dass die Sprungstellen der zugehörigen Verteilungsfunktion genau die Punkte x 2 R mit P .fxg/ > 0 sind. 1.13. Bestimmen Sie in der Situation des Rencontre-Problems die Wahrscheinlichkeiten der Ereignisse Ak ff 2 W jfx 2 f1; : : : ; ng W f .x/ D xgj D kg. 1.14. Zeigen Sie, dass das Maximum A 7! maxf.A/; .A/g zweier Maße auf einem Messraum .; A/ im Allgemeinen kein Maß ist. 1.15. Sei M eine gerichtete Menge von Maßen auf einem Messraum .; A/, das heißt für alle ; 2 M existiert ein 2 M mit maxf.A/; .A/g .A/ für alle A 2 A. Zeigen Sie, dass durch %.A/ supf.A/ W 2 M g ein Maß auf A definiert ist. 1.16. Zeigen Sie für einen Maßraum .; A; /, dass durch N fN W N A oder N c A für ein A 2 A mit .A/ D 0g eine -Algebra definiert ist, so dass sich zu einem eindeutig bestimmten Maß auf A _ N fortsetzen lässt. (Der Maßraum .; A _ N ; / heißt Vervollständigung von .; A; /.) Zeigen Sie dazu, dass es zu jedem A 2 A _ N Ereignisse B; C 2 A gibt mit .A n B/ [ .B n A/ C und .C / D 0 und dass dann .A/ .B/ wohldefiniert ist. 1.17. Seien .X˛ ; B˛ / Messräume und X˛ W ! X˛ für ˛ 2QI Abbildungen. Zeigen Sie .X˛ W ˛ 2 I / D .X / für X N .X˛ /˛2I W ! ˛2I X˛ , wobei dieses Produkt mit der Produkt--Algebra ˛2I B˛ versehen ist.
Kapitel 2
Unabhängigkeit und Modellierung
Wir haben im ersten Kapitel gesehen, dass sich Ereignisse oft durch Zufallsgrößen beschreiben lassen und dass man für die Berechnung der Wahrscheinlichkeiten von Ereignissen fX 2 Bg nicht das Wahrscheinlichkeitsmaß P selbst, sondern nur die Verteilung P X benötigt. Wir werden bei der Modellierung tatsächlich meistens nur an der Verteilung P X interessiert sein, der Wahrscheinlichkeitsraum .; A; P / wird unerheblich sein. Typischerweise setzt sich dabei die Zufallsgröße aus NKomponenten X˛ zusammen, das heißt, X ist eine messbare Abbildung .; A/ ! ˛2I .X˛ ; B˛ / mit X˛ D ˛ ı X. Eine Familie .X˛ /˛2I von Zufallsgrößen X˛ W .; A/ ! .X˛ ; B˛ / heißt unabhängig (oder genauer: stochastisch unabhängig bezüglich P ), falls P
\ ˛2J
Y fX˛ 2 B˛ g D P .X˛ 2 B˛ / ˛2J
für alle endlichen Mengen J I und alle B˛ 2 B˛ gilt. Wir werden im 6. Kapitel sehen, dass stochastische Unabhängigkeit tatsächlich so charakterisiert werden kann, dass Unabhängigkeit im üblichen Sinn der Umgangssprache benutzt wird (nämlich dass Änderungen eines „Parameters“ keinen Einfluss auf das Resultat haben). Für den Moment verzichten wir auf dürre Erklärungen und fassen Unabhängigkeit als einfachste Möglichkeit zur Modellierung der Verteilung von Familien von Zufallsgrößen auf, deren Nützlichkeit sich schon bald herausstellen wird. Die Definition hängt nur N von der Verteilung der zusammengesetzten Zufallsgröße X D .X˛ /˛2I W .;T A/ ! ˛2I .X˛ ; B˛ / ab, weil die linke Seite der definierenden Gleichung mit P X . ˛2J ˛ 1 .B˛ // übereinstimmt und jeder Faktor auf der rechten Seite mit P X .˛ 1 .B˛ //. Wir haben im 1. Kapitel vor Satz 1.6 gesehen, dass die Verteilung eines Zufallsvektors .X; Y / im Allgemeinen nicht durch die Verteilungen von X und Y festgelegt ist. Für eine unabhängige Familie .X˛ /˛2I hingegen ist die gemeinsame Verteilung P .X˛ /˛2I wegen des durch die Ver˚ TMaßeindeutigkeitssatzes 1 .B // W J I endlich, B 2 teilungen der X eindeutig bestimmt, da ˛ ˛ ˛ ˛2J ˛ N B˛ ein schnittstabiler Erzeuger von ˛2I B˛ ist. Ist I endlich (für I D f1; : : : ; ng sagen T wir auch X1 ; : : : ; Xn sind unabhängig), so müssen wir bloß Schnitte der Form ˛2I fX˛ 2 B˛ g untersuchen, ist nämlich J I , so folgt die Bedingung für „J -Schnitte“ aus der für I -Schnitte mit B˛ D X˛ für ˛ … J .
19
Kapitel 2 Unabhängigkeit und Modellierung
Analog zur Definition für Zufallsgrößen heißt eine Familie .E˛ /˛2I Q von MengenT systemen E˛ A unabhängig (bezüglich P ), falls P . ˛2J A˛ / D ˛2J P .A˛ / für alle endlichen J I und alle A˛ 2 E˛ gilt. Für endliches I folgt die Bedingung für J -Schnitte allerdings nur dann aus der für I -Schnitte, wenn es für jedes ˛ 2SI entweder A˛;n 2 E˛ mit A˛;n " X˛ oder paarweise disjunkte A˛;n 2 E˛ mit n2N A˛;n D X˛ gibt (im ersten Fall können wir die Stetigkeit von unten und im zweiten Fall die -Additivität benutzen). Falls etwa ein E˛ D f¿g ist, so ist die Bedingung für I -Schnitte immer erfüllt. Für E˛ D .X˛ / D ffX˛ 2 Bg W B 2 B˛ g erhalten wir wieder die Definition der Unabhängigkeit von Zufallsgrößen, und falls E˛ D fA˛ g, nennen wir auch die Familie .A˛ /˛2I der Ereignisse unabhängig. Bei Formulierungen wie „seien X1 ; : : : ; Xn unabhängige Zufallsgrößen“ wird auf das zugrunde liegende Wahrscheinlichkeitsmaß P nur sehr indirekt Bezug genommen (der Begriff Zufallsgröße wird nur im Kontext von Wahrscheinlichkeitsräumen benutzt). Trotzdem sollte man nicht vergessen, dass Unabhängigkeit ein „stochastischer Begriff“ ist, dessen Definition von P abhängt. Ist P D ıa das Dirac-Maß in einem Punkt a 2 , so sind alle Familien von Zufallsgrößen unabhängig bezüglich P , weil beide Seiten der definierenden Gleichungen entweder den Wert 1 oder 0 ergeben, je nachdem ob X˛ .a/ 2 B˛ für alle ˛ 2 J gilt oder nicht. Im „nicht-stochastischen“ Grenzfall ist stochastische Unabhängigkeit also immer gegeben. Typischerweise wird die Unabhängigkeit von Zufallsgrößen nicht verifiziert, sondern beim Modellieren vorausgesetzt. Das n-malige Werfen einer Münze, die mit Wahrscheinlichkeit p auf Kopf fällt, modellieren wir durch unabhängige Zufallsvariablen X1 ; : : : ; Xn , die jeweils mit Wahrscheinlichkeit p beziehungsweise 1 p die Werte 1 und 0 annehmen, das heißt also Xj B.1; p/. Dann gilt für k 2 f0; : : : ; ng P
n X
Xj D k
D P
j D1
[ \ jSjDk
D
X Y jS jDk j 2S
fXj D 1g \
fXj D 0g
j 2S c
j 2S
P .Xj D 1/
\
! n k P .Xj D 0/ D p .1 k c
Y j 2S
p/n
k
:
Die Summe von n unabhängigen B.1; p/-verteilten Zufallsvariablen ist also B.n; p/verteilt. Wir sehen an diesem Beispiel, dass bei der Modellierung der Raum der Konstellationen und das Wahrscheinlichkeitsmaß P keine besondere Rolle spielen, sondern lediglich als bequeme Notation bei der Rechnung verwendet werden. Die Angabe eines konkreten f0; 1gn mit der Zähldichte Qn Wahrscheinlichkeitsraums ! 1 ! j j f .!1 ; : : : ; !n / j D1 p .1 p/ und der Zufallsvariablen Xj .!1 ; : : : ; !n / !j hätten das Wesentliche des Modells (nämlich die Unabhängigkeit von X1 ; : : : ; Xn und deren Verteilungen) eher verschleiert denn erhellt.
20
Kapitel 2 Unabhängigkeit und Modellierung
Es ist in der Regel ziemlich aufwändig, die Unabhängigkeit einer Familie von Zufallsgrößen mittels der Definition zu beweisen. Eine Vereinfachung liefert: Satz 2.1 (Unabhängigkeit von Erzeugern) Seien .; A; P / ein Wahrscheinlichkeitsraum und .E˛ /˛2I eine unabhängige Familie schnittstabiler Mengensysteme. Dann ist auch ..E˛ //˛2I unabhängig. Beweis. Sei J D f˛1 ; : : : ; ˛n g I n-elementig. Für A2Q2 E˛2 [ fg; : : : ; An 2 T E˛n [ fg ist dann D fA1 2 .E˛1 / W P . jnD1 Aj / D jnD1 P .Aj /g ein DynkinSystem, weil n n n n \ \ \ \ P Ac1 \ Aj D P Aj n Aj D P Aj j D2
j D2
D
n Y
P .Aj /
j D2
j D1 n Y
P
j D2
P .Aj / D P .Ac1 /
j D1
n \
Aj
j D1 n Y
P .Aj /:
j D2
Weil E˛1 D schnittstabil ist, folgt mit dem Dynkin-Argument .E˛1 / D. Wegen der Bemerkung über I - und J -Schnitte haben wir also die Unabhängigkeit von .E˛1 /; E˛2 ; : : : ; E˛n gezeigt. Induktiv folgt damit, dass .E˛1 /; : : : ; .E˛n / unabhängig sind. Aus diesem Satz erhalten wir zum Beispiel, dass Zufallsvariablen X1 ; : : : ; Xn genau dann unabhängig sind, wenn P .X1 x1 ; : : : ; Xn xn / D
n Y
P .Xj xj /
j D1
für alle .x1 ; : : : ; xn / 2 Rn gilt. Die durch die linke Seite der Gleichung definierte Funktion heißt gemeinsame Verteilungsfunktion Nn der X1 ; : : : ; Xn und die Funktion auf der rechten Seite ist das Tensorprodukt j D1 FXj der Verteilungsfunktionen FXj von Xj . Satz 2.2 (Zusammenlegen) Seien .; A; P / ein Wahrscheinlichkeitsraum und .G˛ /˛2I eine unabhängige Familie von -Algebren W G˛ A. Für eine Menge K und paarweise disjunkte Mengen I.ˇ/ I ist dann . ˛2I.ˇ / G˛ /ˇ 2K wiederum unabhängig. T Beweis. Eˇ Wf ˛2J.ˇ / G˛ W J.ˇ/ I.ˇ/ endlich; G˛ 2 G˛ g sind schnittstabile Erzeuger von ˛2I.ˇ T / G˛ , so dass .Eˇ /ˇ 2K unabhängig ist: Sind nämlich J K endlich und Aˇ ˛2J.ˇ / G˛ 2 Eˇ , so folgt wegen der Disjunktheit der J.ˇ/ \ \ \ Y Y Y G˛ D P .G˛ / D P .Aˇ /: Aˇ D P P ˇ 2J
ˇ 2J ˛2J.ˇ /
ˇ 2J ˛2J.ˇ /
ˇ 2J
21
Kapitel 2 Unabhängigkeit und Modellierung
Eine typische Anwendung des letzten Satzes ist etwa, dass P die Unabhängigkeit von Zufallsvariablen X1 ; : : : ; Xn die Unabhängigkeit von Y jmD1 Xj und Z Pn j DmC1 Xj impliziert: Die von Y erzeugte -Algebra ist nämlich wegen der Stetigkeit der Addition in .X1 / _ _ .Xm / enthalten, und analog gilt .Z/ .XmC1 / _ _ .Xn /. Damit hätte man die Aussage vor Satz 2.1 über Summen unabhängiger B.1; p/-verteilter Zufallsvariablen auch induktiv (und mit etwas geringerem „kombinatorischen Aufwand“) beweisen können. Eine einfach zu beweisende aber oft benutzte Konsequenz der Unabhängigkeit ist das folgende 0-1-Gesetz. Für eine Folge .An /n2N von Ereignissen bestehen lim sup An n!1
\ [
Am
und
lim inf An n!1
n2N mn
[ \
Am
n2N mn
aus den Konstellationen, die zu unendlich vielen beziehungsweise fast allen (das heißt allen bis auf endlich viele) An gehören. Für eine Folge T .Xn /n2N von Zufallsvariablen ist zum Beispiel fXn konvergiert gegen Xg D ">0 lim infn!1 An;" mit An;" fjXn X j < "g. Satz 2.3 (Borel–Cantelli-Lemma) Seien .; A; P / ein Wahrscheinlichkeitsraum und An 2 A. Dann gelten: 1 P 1. P lim sup An D 0, falls P .An / < 1. n!1
nD1
1 P 2. P lim sup An D 1, falls P .An / D 1 und .An /n2N unabhängig ist. n!1
nD1
S Beweis. 1. Wegen mn Am # A lim supn!1 An folgt aus der Stetigkeit von oben und der Sub- -Additivität P .A/ D lim P
[
n!1
mn
1 X Am lim P .Am / D 0: n!1
mDn
T 2. Wegen Satz 2.1 ist .Acn /n2N unabhängig, und aus mn Acm " Ac folgt mit der Stetigkeit von unten und der reellen Ungleichung 1 x e x c
P .A / D
D
lim P
n!1
\
Acm
mn
lim lim
n!1 p!1
p Y mDn
1
p \
Acm
P .Am / lim lim exp
D lim lim P n!1 p!1
mDn
n!1 p!1
p X
P .Am / D 0:
mDn
22
Kapitel 2 Unabhängigkeit und Modellierung
Einen wichtigen Spezialfall des Borel–Cantelli-Lemmas erhalten wir für eine unabhängige Folge .An /n2N von Ereignissen mit P .An / D P .Am / D p > 0, die wir – obwohl wir noch gar nicht wissen, ob es eine solche Folge überhaupt gibt – als Modell für die „unendlichfache Wiederholung eines Experiments“ auffassen können. Dann können wir Satz 2.3.2 als „Murphy’s law“ interpretieren: Alles, was schief gehen kann, geht mit Wahrscheinlichkeit 1 unendlich oft schief. Ein allgemeineres aber dafür weniger spezifisches Ergebnis ist: Satz 2.4 (Kolmogorovs 0-1-Gesetz) Seien .; A; P / ein Wahrscheinlichkeitsraum und .An /n2N eine V unabhängige FolW ge von -Algebren An A. Dann gilt für jedes Ereignis A 2 n2N mn Am entweder P .A/ D 0 oder P .A/ D 1. V W Die Ereignisse in A1 n2N mn Am heißen terminal (bezüglich .An /n2N ) oder im Englischen auch tail events (eine wörtliche Übersetzung dessen ist zum Glück nicht üblich). Typische terminal Ereignisse sindTA D lim S supn!1 An mit An 2 An , weil für jedes n 2 N die Darstellung A D mn km Ak gilt, der man A 2 W mn Am direkt ansieht. Für eine Folge .Xn /n2N von Zufallsvariablen sind zum Beispiel f.Xn /n2N beschränktg; fX1 C C Xn konvergiertg oder fXn > 0 unendlich oftg terminal bezüglich . .Xn //n2N , weil die Ereignisse jeweils nur vom „Ende“ der Folge abhängen. W Beweis. Für jedes n 2 W N sind A1 _ _ An und m>n Am wegen Satz 2.2 unabhängig. S Aus A1 m>n Am folgt daher die Unabhängigkeit der W Mengensysteme n2N A1 _ _ An und A1 , und Satz 2.1 impliziert, dass n2N An und W A1 unabhängig sind. Für A 2 A1 n2N An und B A 2 A1 folgt also P .A \ A/ D P .A/P .A/ und daher P .A/ 2 f0; 1g. Für eine unabhängige Folge .Xn /n2N von Zufallsvariablen erhalten wir insbesonP dere, dass P .f n1 jnD1 Xj konvergiertg/ entweder 0 oder 1 ist, und wir werden in Satz 4.10 (und unabhängig davon noch zweimal in Satz 6.12 und nach Satz 8.7) tatsächlich zeigen, dass diese Wahrscheinlichkeit gleich 1 ist, falls die Zufallsvariablen identisch verteilt sind und eine (im 3. Kapitel noch zu definierende) „Integrierbarkeitsvoraussetzung“ erfüllen. Dieses als starkes Gesetz der großen Zahlen bezeichnete Resultat ist fundamental für die Interpretation und Anwendbarkeit des Wahrscheinlichkeitsbegriffs: Es liefert eine theoretische Begründung der „Erfahrungstatsache“ dass die Mittel der Ergebnisse von wiederholt ausgeführten Experimenten konvergieren. Insofern ist es auch eine Rechtfertigung, wiederholt ausführbare Experimente mit unabhängigen Zufallsgrößen zu modellieren. Dabei ist natürlich Existenz eine Minimalforderung für jedes vernünftige Modell, weshalb wir im Folgenden untersuchen, ob es zu vorgegebenen Verteilungen Q˛ auf
23
Kapitel 2 Unabhängigkeit und Modellierung
Messräumen .X˛ ; B˛ / einen Wahrscheinlichkeitsraum .; A; P / und eine unabhängige Familie .X˛ /˛2I von Zufallsgrößen mit P X˛ D Q˛ gibt. Diese Frage ist nicht nur für die Modellbildung zentral sondern auch für die Theorie selbst. Nur wenn wir zeigen können, dass es unabhängige B.1; p/-verteilte Zufallsvariablen überhaupt gibt, können wir das Beispiel vor Satz 2.1 benutzen, um Aussagen über die B.n; p/Verteilung zu gewinnen. Ist I endlich und sind Q˛ Verteilungen auf abzählbaren Mengen X Q˛ mit Zähldichten f˛ , so ist die Frage leicht zu beantworten: Durch f ..x / / ˛ ˛2I ˛2I f˛ .x˛ / ist Q eine Zähldichte auf ˛2I X˛ definiert, und für das zugehörige Wahrscheinlichkeitsmaß P auf P ./ sind die Projektionen X˛ ˛ unabhängig mit P X˛ D Q˛ . Für x˛ 2 X˛ gilt nämlich \ Y P fX˛ D x˛ g D P .f.x˛ /˛2I g/ D f ..x˛ /˛2I / D P .X˛ D x˛ /; ˛2I
˛2I
und wegen Satz 2.1 und der Bemerkung über I - und J -Schnitte nach der Definition der Unabhängigkeit von Mengensystemen folgt die Unabhängigkeit von .X˛ /˛2I . Selbst für X˛ D f0; 1g und Q˛ D B.1; 12 / funktioniert diese einfache Q Konstruktion bei Q unendlicher Indexmenge I D N nicht mehr: f ..x˛ /˛2N / D ˛2N f˛ .x˛ / D ˛2N 1=2 ist dann stets 0, also keine Zähldichte eines Wahrscheinlichkeitsmaßes. Trotzdem gilt der folgende Satz, mit dessen Hilfe wir sämtliche Existenzfragen für stochastische Modelle beantworten werden. Trotz der Plausibilität des Satzes – man ist versucht zu sagen: „Wir nehmen einfach eine faire Münze und werfen sie immer wieder“ – ist der Beweis der schwierigste dieser ersten Kapitel.
Satz 2.5 (Bernoulli-Folgen) Es gibt eine unabhängige Folge von B.1; 12 /-verteilten Zufallsgrößen.
Beweis. Seien f0; 1gN , rn W ! f0; 1gn die Restriktionen und Qn die LaplaceVerteilungenSauf Bn P .f0; 1gn /. Auf dem schnitt- und Nkomplementstabilen Erzeuger E n2N rn 1 .Bn / der Produkt- -Algebra A n2N P .f0; 1g/ ist durch Q.rn 1 .B// Qn .B/ eine Q Abbildung wohldefiniert. Ist nämlich rn 1 .B/ D rm1 .C / für n m, so gilt C D B n 0, so gibt es Em 2 E mit T m2N Em und P .T / C "
1 X mD1
Q.Em / D
1 X mD1
Q.Em \ E/ C
1 X
Q.Em n E/
mD1
P .T \ E/ C P .T n E/; S weil m2N Em \ E und m2N Em n E Obermengen von T \ E beziehungsweise T n E sind. Damit folgt E D, und mit dem Dynkin-Argument erhalten wir A D .E/ D ı.E/ D. Daher ist P ein Wahrscheinlichkeitsmaß auf A, und es bleibt nur noch zu zeigen, dass P auf E mit Q übereinstimmt: S Für E 2 E gilt P .E/ Q.E/, weil E E [ n2 ¿, und damit folgt auch P .E c / Q.E c /, also P .E/ D 1 P .E c / 1 Q.E c / D Q.E/. S
Der obige Beweis beinhaltet alle wesentlichen Argumente eines allgemeinen Maßfortsetzungssatzes von Carathéodory, den man in jedem Buch über Maßtheorie findet. Allerdings erscheinen bei uns diese Argumente (insbesondere das Kompaktheitsargument) in besonders einfacher Form, weshalb wir zum Beispiel die benötigte Version des Satzes von Tychonov leicht zeigen können. Die in Satz 2.5 konstruierte Bernoulli-Folge dient als „paradigmatisches“ Modell für eine unendliche Folge von Münzwürfen, und wir werden alle Existenzprobleme für Modelle mit Hilfe dieser Folge lösen. Als erste Anwendung erhalten wir: Satz 2.6 (Gleichverteilung auf Œ0; 1) Es gibt eine unabhängige Folge .Xn /n2N von Zufallsvariablen Xn , so dass für alle n 2 N und jedes Intervall I Œ0; 1 die Länge von I mit P .Xn 2 I / übereinstimmt. Die Verteilung P X1 heißt Gleichverteilung auf Œ0; 1 und wird mit U.0; 1/ bezeichnet. Die Länge `.I / eines Intervalls I 2 fŒa; b; Œa; b/; .a; b; .a; b/g mit a b ist dabei natürlich in jedem Fall b a. Wir werden im Folgenden benutzen, dass die Länge additiv ist, das heißt, ist I ein Intervall mit Endpunkten a b, das disjunkte Vereinigung von Intervallen I1 ; : : : ; In mit Endpunkten aj bj ist, so gilt `.I / D `.I1 / C C `.In /. Wir verlassen uns dabei nicht auf die Anschauung, sondern nummerieren die als nicht leer angenommenen Intervalle, so dass a1 an gilt, und erhalten dann bj D aj C1 für 1 j n 1 sowie a D a1 und bn D b, weil
26
Kapitel 2 Unabhängigkeit und Modellierung
sonst die Ij entweder nicht disjunkt beziehungsweise Teilmengen von I (falls in einer der Bedingungen >) oder nicht überdeckend wären (falls in einer der Bedingungen < stünde). Also gilt n X j D1
`.Ij / D
n X
bj
aj D bn
an C
j D1
n X1
aj C1
aj D bn
a1 D `.I /:
j D1
Beweis. Mit einer bijektiven Abbildung ' W N N ! N erhalten wir aus einer Bernoulli-Folge .Zn /n2N auf einem Wahrscheinlichkeitsraum .; A; P / eine „Bernoulli-Matrix“, also eine unabhängige Familie .Yn;m /.n;m/2N 2 von Zufallsvariablen Yn;m Z'.n;m/ B.1; 1=2/ für alle n; m 2 N. Dann ist ..Yn;m /m2N /n2N wegen Satz 2.2 eine unabhängige Folge von Bernoulli-Folgen .Yn;m /m2N . Nach Satz 1.8.2 P mY sind durch Xn 1 2 n;m Zufallsvariablen .; A/ ! .R; B/ definiert, und mD1 weil wieder nach Satz 1.8.2 .Xn / .Yn;m W m 2 N/ gilt, ist .Xn /n2N eine unabhängige Folge von Zufallsvariablen. .Yn;m /m2N ist also die Folge der Ziffern in einer Binärdarstellung von Xn , und um die Binärdarstellung eindeutig festzulegen, betrachten wir An lim supfYn;m D 0g D fYn;m D 0 für unendlich viele m 2 Ng: m!1
Wegen P .Yn;m D 0/ D 1=2 impliziert das Borel–Cantelli-Lemma P .An / D 1. Pj Pj Ist J Œ i D1 2 i ıi ; 2 j C i D1 2 i ıi / mit ıi 2 f0; 1g ein „dyadisches Intervall“ der Länge `.J / D 2 j , so folgt P .Xn 2 J / D P .An \ fXn 2 J g/ D P .An \ fYn;1 D ı1 ; : : : ; Yn;j D ıj g/ D P
j \
fYn;i D ıi g D
i D1
j Y
P .Yn;i D ıi / D 2
j
D `.J /:
i D1
Weil jedes Intervall I D Œa; b/ mit Endpunkten in fj 2 k W j 2 N0 ; k 2 Ng disjunkte Vereinigung von dyadischen Intervallen ist, gilt auch in diesem Fall P .Xn 2 I / D `.I /. Sind schließlich K ein beliebiges Intervall und " > 0, so gibt es I0 K I1 mit Intervallen I0 ; I1 wie eben und `.I1 / `.I0 / < ", und damit erhalten wir jP .Xn 2 K/ `.K/j < " durch Fallunterscheidung für den Betrag. Wir haben als Anwendung von Satz 1.5 gesehen, dass jede Verteilung Q auf der Borel- -Algebra B über R durch die zugehörige Verteilungsfunktion F W R ! Œ0; 1, F .x/ D Q.. 1; x/ eindeutig festgelegt ist. F ist monoton wachsend, und aus der Stetigkeit von oben beziehungsweise unten erhalten wir, dass F rechtsseitig stetig ist mit limx! 1 F .x/ D 0 und limx!C1 F .x/ D 1. Wir nennen nun (wie wir gleich sehen werden aus gutem Grund) jede monoton wachsende und rechtsstetige Funktion F mit F .x/ ! 0 für x ! 1 und F .x/ ! 1
Kapitel 2 Unabhängigkeit und Modellierung
27
für x ! 1 eine Verteilungsfunktion auf R. Wegen dieser Eigenschaften ist fx 2 R W F .x/ yg für jedes y 2 .0; 1/ ein Intervall der Form Œa; 1/, und wir bezeichnen die Abbildung F W .0; 1/ ! R, F .y/ minfx 2 R W F .x/ yg als die zu F gehörige Quantilfunktion oder auch inverse Verteilungsfunktion (ist F W R ! .0; 1/ bijektiv, so ist F tatsächlich die Umkehrfunktion). Für x 2 R und y 2 .0; 1/ gilt also F .x/ y genau dann, wenn F .y/ x. Satz 2.7 (Korrespondenzsatz) Seien F eine Verteilungsfunktion auf R und Y eine U.0; 1/-verteilte Zufallsvariable mit Werten in .0; 1/. Dann ist F die Verteilungsfunktion von P F ıY . Beweis. Weil E f. 1; x W x 2 Rg ein Erzeuger von B ist, folgt mit Satz 1.6 und fF xg D .0; F .x/ \ .0; 1/, dass F W ..0; 1/; B \ .0; 1// ! .R; B/ messbar ist. Wie wir im Anschluss von Satz 1.7 gesehen haben, ist daher auch F ıY messbar und für x 2 R folgt P .F ı Y x/ D P .Y F .x// D P .Y 2 .0; F .x// D F .x/. Ist YQ irgendeine U.0; 1/-verteilte Zufallsvariable, so gilt P .YQ … .0; 1// D 0 und durch ² YQ ; falls YQ 2 .0; 1/ Y 1=2; falls YQ … .0; 1/ ist eine U.0; 1/-verteilte Zufallsvariable mit Werten in .0; 1/ definiert. Wir haben diesen Wertebereich nur deshalb vorausgesetzt, damit F ı Y auf dem ganzen Raum definiert ist. Mit Hilfe der letzten beiden Sätze können wir die vor Satz 2.5 gestellte Existenzfrage für jede Folge .Qn /n2N von Verteilungen auf .R; B/ lösen: Ist .YQn /n2N eine unabhängige Folge von U.0; 1/-verteilten Zufallsvariablen und definieren wir Yn wie eben, so ist durch .Xn /n2N .Fn ı Yn /n2N eine unabhängige Folge von Zufallsvariablen definiert mit Xn Qn , wobei Fn die zu Qn gehörige Verteilungsfunktion ist. Dieses Resultat stimmt allgemeiner für eine Folge .Qn /n2N von Verteilungen auf Borel- -Algebren Bn von vollständigen metrischen und separablen Räumen Xn (wir nennen dann .Xn ; Bn / einen polnischen Messraum). Im Satz A.3 des Anhangs werden wir nämlich beweisen, dass es zu jedem der polnischen Messräume .Xn ; Bn / eine Menge Bn 2 B und eine bijektive Abbildung Tn W Xn ! Bn gibt, so dass sowohl Tn W .Xn ; Bn / ! .Bn ; B \ Bn / als auch die Umkehrabbildung Sn W .Bn ; B\Bn / ! .Xn ; Bn / messbar sind (Tn heißt dann Borel-Isomorphismus). Definieren wir dann QQ n .A/ D Qn .Tn 1 .A \ Bn // und wählen eine unabhängige Folge .YQn /n2N mit YQn QQ n , so können wir wie oben YQn zu Yn mit Werten in Bn modifizieren. Dann ist .Xn /n2N .Sn ı Yn / eine unabhängige Folge von .Xn ; Bn /wertigen Zufallsgrößen mit P Xn D .P Yn /Sn D .QnTn /Sn D QnSn ıTn D Qn : Wir haben also gezeigt:
28
Kapitel 2 Unabhängigkeit und Modellierung
Satz 2.8 (Existenz unabhängiger Folgen) Für jede Folge von Verteilungen Qn auf polnischen Räumen .Xn ; Bn / gibt es einen Wahrscheinlichkeitsraum .; A; P / und eine unabhängige Folge .Xn /n2N von Zufallsgrößen Xn W .; A/ ! .Xn ; Bn / mit Xn Qn . Der Satz ist insbesondere auf die wichtige Situation .Xn ; Bn / D .Rd ; Bd / anwendbar. Für diesen Fall erhalten wir später mit Satz 6.7 einen Beweis, der keinerlei Ergebnisse über polnische Räume benutzt. Aus einer U.0; 1/-Verteilung, also einem Wahrscheinlichkeitsmaß auf B, das jedem Intervall I Œ0; 1 seine Länge zuordnet, können wir leicht ein Maß auf B konstruieren, das diese Eigenschaft für jedes (endliche) Intervall besitzt. Satz 2.9 (Existenz des Lebesgue-Maßes) Q Q Für jedes n 2 N gibt es genau ein Maß n auf Bn mit n jnD1 Ij D jnD1 `.Ij / für alle Intervalle Ij R. n heißt n-dimensionales Lebesgue-Maß, und 1 bezeichnen wir auch mit . Kartesische Produkte I D I1 In von Intervallen Ij nennen wir n-dimensionale Intervalle, und vol.I / `.I1 / `.In / heißt Volumen von I . Beweis. Weil jede offene Teilmenge von R abzählbare Vereinigung von offenen Intervallen mit rationalen Endpunkten ist, bilden diese Intervalle einen Erzeuger von B. Wegen Bn D B˝ ˝B bilden daher die kartesischen Produkte von Intervallen einen schnittstabilen Erzeuger von Bn . Für ein Maß n wie im Satz gilt n .. m; m/n / D .2m/n < 1, also ist n auf dem Erzeuger -endlich und die Eindeutigkeit folgt aus Satz 1.5. Es bleibt also die Existenz zu beweisen. Nach Satz 2.6 gibt es unabhängige U.0; 1/-verteilte Zufallsvariablen Y1 ; : : : ; Yn auf einem Wahrscheinlichkeitsraum .; A; P /, und für den zusammengesetzten Zufallsvektor Y .Y1 ; : : : ; Yn / und jedes n-dimensionale Intervall T Q I D I1 In mit Ij Œ0; 1 erhalten wir P Y .I / D P . jnD1 fYj 2 Ij g/ D jnD1 P .Yj 2 Ij / D vol.I /. Für z 2 Zn ist Wz .z; z C 1n ein „Würfel“. Bezeichnen wir den konstanten Zufallsvektor ! 7! z wieder mit z, so erhalten wir P Y Cz .I / D vol.I / für alle Intervalle I Wz . Für A 2 Bn definieren wir nun n .A/ P n-dimensionalen Y Cz .A \ Wz /, wobei die Summationsreihenfolge wegen der Positivität der z2Zn P Summanden keine Rolle spielt. Da alle P Y Cz Maße auf Bn sind, ist auch n ein n n Maß. Weil fWQ z W z 2 Z g eine Zerlegung von R ist, folgt für jedes n-dimensionale n Intervall I D j D1 Ij mit der -Additivität von n und der Additivität der Länge n .I / D
X z2Zn
n .I \ Wz / D
X z1 2Z
X zn 2Z
n
n Y j D1
Ij \ .zj ; zj C 1
29
Kapitel 2 Unabhängigkeit und Modellierung
D
X z1 2Z
D
n Y
:::
n X Y
`.Ij \ .zj ; zj C 1/ D
zn 2Z j D1
n X Y
`.Ij \ .zj ; zj C1 /
j D1 zj 2Z
`.Ij / D vol.I /:
j D1
Wir haben hier übrigens die Additivität des n-dimensionalen Volumens mit bewiesen – wer schon versucht hat, diese „elementare“ Tatsache ohne Appell an die Anschauung zu beweisen, wird das zu schätzen wissen. Definiert man die Länge eines unbeschränkten reellen Intervalls als 1 und die Produkte 01 10 0, so folgt die definierende Eigenschaft n .I / D vol.I / für beliebige n-dimensionale Intervalle I wegen I \ . m; m/n " I aus der Stetigkeit von unten. Insbesondere ist n .H / D 0 für alle (abgeschlossenen) Hyperebenen der Form H fx 2 Rn W xj D cg mit c 2 R. Das n-dimensionale Lebesgue-Maß spielt eine ausgezeichnete Rolle in der Stochastik, und wir beweisen jetzt einige „geometrische“ Eigenschaften, die seine Besonderheit ausmachen. Für z 2 Rn ist durch Tz .x/ x C z die Translation um z definiert. Weil für ein n-dimensionales Intervall I auch Tz 1 .I / ein n-dimensionales Intervall mit gleichem Volumen ist, folgt aus der Eindeutigkeitsaussage im Satz 2.8 die Translationsinvarianz n ı Tz 1 D n des Lebesgue-Maßes. Dadurch ist n bis auf Multiplikation mit Konstanten auch schon eindeutig bestimmt (wobei für ˛ 0 das Produkt ˛n natürlich durch .˛n /.A/ ˛.n .A// definiert ist): Satz 2.10 (Translationsinvarianz) Ein Maß auf Bn mit ˛ ..0; 1n / < 1 ist genau dann translationsinvariant, wenn D ˛n gilt. n Beweis. Der der mn Würfel ˚ 1 Vereinigung QnEinheitswürfel1 W .0; 1 ist disjunkte m 1 n Wm;z j D1 .zj ; zj C m mit z 2 Zm 0; m ; : : : ; m . Wegen Wm;z D P 1 n T z .Wm;0 / folgt ˛ D z2Zm .Wm;z / D m .Wm;0 /, und mit n .Wm;0 / D 1=mn erhalten wir .WQ m;z / D ˛n .Wm;z / für alle m 2 N und z 2 Zm . Sind nun I D jnD1 .˛j ; ˇj ein n-dimensionales Intervall mit rationalen ˛j ˇj und m der Hauptnenner von f˛j ; ˇj W 1 j ng, so ist I die disjunkte Vereinigung aller in I enthaltenen Wm;z , und mit der Additivität von und n folgt .I / D ˛n .I /. Weil die Menge all dieser Intervalle ein Erzeuger von Bn ist, folgt D ˛n aus dem Eindeutigkeitssatz.
Wir nennen eine Abbildung T W Rn ! Rn Bewegung, falls kT .x/
T .y/k D kx yk P für alle x; y 2 Rn gilt, wobei kxk . jnD1 xj2 /1=2 die euklidische Norm bezeichnet.
30
Kapitel 2 Unabhängigkeit und Modellierung
Satz 2.11 (Bewegungsinvarianz des Lebesgue-Maßes) Für jede Bewegung T W Rn ! Rn gilt Tn D n . Beweis. Sind S eine Bewegung und z S.0/, so ist T Tz ı S eine Bewegung mit T .0/ D 0. Aus Tn D n folgt dann auch Sn D T
z ıT
D .Tn /T
z
D Tn
z
D n :
Also reicht es, den Satz für Bewegungen T mit T .0/ D 0 zu beweisen. Wir zeigen zuerst, dass T linear ist, was einigen Lesern aus der Linearen Algebra bekannt sein wird. Wegen T .0/ D 0 gilt kT .x/k D kxk, und aus der „Parallelogrammgleichung“ 2 / erhalten wir dann kT .x/ C T .y/k D kx C kx C yk2 C kx yk2 D 2.kxk2 C kykP yk. Mit dem Skalarprodukt hx; yi jnD1 xj yj und der „Polarisierungsidentität“ 4hx; yi D kx C yk2 kx yk2 folgt dann die Winkeltreue hT .x/; T .y/i D hx; yi und damit kT .x C y/
T .x/
D kT .x C y/k2 D kx C yk2
T .y/k2 2hT .x C y/; T .x/ C T .y/i C kT .x/ C T .y/k2
2hx C y; x C yi C kx C yk2 D 0;
also die Additivität. Analog erhalten wir die Homogenität aus kT .˛x/
˛T .x/k2 D kT .˛x/k2
2˛hT .˛x/; T .x/i C ˛ 2 kT .x/k2 D 0:
Aus T .x/ D T .y/ folgt stets kx yk D 0, also ist T eine injektive lineare Abbildung Rn ! Rn , und weil T .Rn / die Dimension n hat, ist T auch surjektiv. Wir zeigen nun die Translationsinvarianz von Tn . Für jedes z 2 Rn gibt es y 2 Rn mit T .y/ D z, und für x 2 Rn gilt damit .Tz ı T /.x/ D T .x/ C T .y/ D T .x C y/ D .T ı Ty /.x/; T ıT
T
und wir erhalten Tz D Tnz ıT D n y D .ny /T D Tn D . Wegen Satz 2.10 müssen wir schließlich noch ˛ ..0; 1n / D 1 zeigen. Für K fx 2 Rn W kxk2 ng gilt T 1 .K/ D K und wegen .0; 1n K erhalten wir zunächst ˛ .K/ D n .T 1 .K// D n .K/ < 1, also ˛n .K/ D .K/ D n .K/ und daher ˛ D 1. Satz 2.12 (Transformation unter affinen Abbildungen) Seien A 2 Rnn regulär, b 2 Rn und T .x/ D Ax C b. Dann gilt Tn D j det Aj
1 . n
Beweis. Weil jede lineare Abbildung auf Rn stetig ist, folgt die Messbarkeit von T aus Satz 1.8. Wegen der Translationsinvarianz können wir b D 0 annehmen. Identifizieren wir Matrizen A 2 Rnn mit den zugehörigen linearen Abbildungen x 7! Ax, so ist wegen hQx; Qxi D hx; Qt Qxi D hx; xi jede orthogonale Matrix Q eine Bewegung.
31
Kapitel 2 Unabhängigkeit und Modellierung
Durch Hauptachsentransformation finden wir ein orthogonales Q, so dass Qt At AQ eine Diagonalmatrix mit positiven Diagonalelementen ist. Für deren Wurzel D ist dann S AQD 1 orthogonal mit S t AQ D D. Bezeichnen wir die Diagonalelemente von D mit dj , so ist für jedes Intervall Ij R die Menge Jj Q fx 2 R W dj x 2 Ij g wieder ein Intervall mit `.Jj / D jdj j 1 `.Ij /, also folgt für I D jnD1 Ij D n .I / D n
n Y
n Y Jj D jdj j
j D1
1
`.Ij / D j det Dj
n .I /:
j D1
Der Eindeutigkeitssatz impliziert nun D n D j det Dj der Orthogonalität von Q und S
1 , und aus Satz 2.11 folgt mit n
Q A AQ D S D SD A n D .n / D n n D .n / D j det Dj
D j det Dj
1
1
n D j det Aj
1
n :
1 S n
In der Situation von Satz 2.12 ist fAx W x 2 Œ0; 1n g das Urbild unter der linearen (also messbaren) Umkehrabbildung von A, also ist die Menge Bn -zulässig und wir erhalten j det Aj D n .fAx W x 2 Œ0; 1n g/, das heißt, der Betrag der Determinante ist das Maß des „Parallelepipeds“ A.Œ0; 1n /. Falls A nicht regulär ist, ist fAx W x 2 Œ0; 1n g in einer Hyperebene H enthalten, für die wegen der Bewegungsinvarianz und dem Beispiel nach Satz 2.9 n .H / D 0 gilt. Die Bn -Messbarkeit von A.Œ0; 1n / folgt in dieser Situation aus der topologischen Tatsache, dass stetige Bilder kompakter Mengen kompakt und daher abgeschlossen sind. Obige Interpretation der Determinante stimmt also auch für singuläre Matrizen. Um das Maß von komplizierteren Mengen berechnen zu können, benötigen wir Integrationstechniken, die wir im nächsten Kapitel entwickeln. Wir zeigen jetzt noch, dass es ein Maß mit den geometrischen Eigenschaften von n auf der Potenzmenge P .Rn / nicht geben kann. Dies benötigen wir zwar nicht explizit für die Wahrscheinlichkeitstheorie, aber es rechtfertigt den Aufwand den wir in diesem Kapitel betrieben haben: Ein translationsinvariantes Maß auf P .R/, das Intervallen ihre Länge zuordnet, wäre (insbesondere für die Geometrie aber auch für die Wahrscheinlichkeitstheorie) ein hervorragendes Modell – mit dem einzigen aber entscheidenden Nachteil mangelnder Existenz. Andererseits zeigt das folgende Argument, dass manchmal etwas technisch anmutende Messbarkeitsvoraussetzungen unverzichtbar sind. Insbesondere erhalten wir, dass die Borel- -Algebra B nicht mit der Potenzmenge übereinstimmt. Die Äquivalenzrelation x y, falls x y 2 Q, erzeugt eine Zerlegung fM˛ W ˛ 2 I g von R in paarweise disjunkte nicht leere Äquivalenzklassen M˛ mit einer geeigneten Indexmenge I . Nach Definition der Relation gilt M˛ C Q D fx C q W x 2 M˛ ; q 2 Qg D M Q˛ , also M˛ \ Œ0; 1 ¤ ¿. Mit Hilfe des Auswahlaxioms finden wir .x˛ /˛2I 2 ˛2I M˛ \ Œ0; 1 und definieren E fx˛ W ˛ 2 I g Œ0; 1. Weil E mit jeder Äquivalenzklasse nur ein Element gemeinsam hat, ist
32
Kapitel 2 Unabhängigkeit und Modellierung
.E C q/q2Q eine paarweise disjunkte Familie von Mengen. Wir nehmen nun die Existenz eines translationsinvarianten Maßes auf P .R/ an, das Intervallen ihre Länge zuordnet. Weil dieses Maß auf B mit dem Lebesgue-Maß übereinstimmt, bezeichnen wir es wiederum mit . Aus der Monotonie des Maßes erhalten wir dann .E/ 1. Wegen der Translationsinvarianz gilt .E C q/ D .E/ für alle q 2 Q, und aus X .E C q/ D .E C Q \ Œ0; 1/ .Œ0; 2/ D 2 q2Q\Œ0;1
folgt .E/ D 0. Andererseits gilt aber E C Q D R, weil jedes x 2 R in einer Äquivalenzklasse M˛ enthalten, also zu x˛ äquivalent ist. Damit folgt der Widerspruch [ X 1 D .R/ D E Cq D .E C q/ D 0: q2Q
q2Q
Wir wollen dieses Kapitel mit einer Bemerkung über Unabhängigkeit und Modellierung schließen. Auch wenn wir häufig zum Beispiel über stochastisch unabhängige Folgen von Zufallsvariablen Aussagen machen, ist es bei der Modellierung ungewisser Situationen oft kritisch, Annahmen über das zugrunde liegende Wahrscheinlichkeitsmaß oder auch nur über die Verteilungen der Zufallsvariablen zu treffen. Will man etwa die Wirksamkeit eines neuen Medikaments untersuchen und traktiert verschiedene Testpersonen mit dem Mittel, so hat die Annahme der Unabhängigkeit der Personen, die mit Zufallsgrößen X1 ; : : : ; Xn modelliert werden, eine gewisse Plausibilität. Nimmt man noch P Xj D P X1 für alle j an, so verfolgt man das Ziel, die Verteilung P X1 zu bestimmen. Als Daten hat man dabei die Werte xj D Xj .!/ für ein einziges ! 2 zur Verfügung, und angesichts dieser knappen Information kann man häufig nicht mehr erwarten, als gewisse Kennzahlen wie zum Beispiel den „Schwerpunkt“ oder das „Mittel“ der Verteilung P X1 zu bestimmen. Auch von solchen Kennzahlen handelt das nächste Kapitel.
Aufgaben 2.1. Bestimmen Sie für eine unabhängige Folge von B.1; p/-verteilten Zufallsvariablen Xn die Verteilungen von Mn maxfX1 ; : : : ; Xn g; mn minfX1 ; : : : ; Xn g und Y minfn 2 N W Xn D 1g mit min ¿ 1. 2.2. Bestimmen Sie die Verteilungen vom Minimum und vom Maximum zweier unabhängiger geometrisch verteilter Zufallsvariablen. 2.3. Zeigen Sie, dass Summen unabhängiger Poisson-verteilter Zufallsvariablen wieder Poisson-verteilt sind. 2.4. Zeigen Sie, dass eine Zufallsvariable genau dann von sich selbst unabhängig ist, wenn es eine Konstante c 2 R gibt mit P .X D c/ D 1.
Kapitel 2 Unabhängigkeit und Modellierung
33
2.5. Finden Sie (etwa auf D f1; : : : ; 4g mit der Laplace-Verteilung) Zufallsvariablen X; Y; Z, die nicht stochastisch unabhängig sind, so dass jeweils zwei davon unabhängig sind. S 2.6. Für n 2 N seien An f.j=2n ; .j C 1/=2 n W j 2 f1; : : : ; 2n g ungeradeg. Zeigen Sie für die Gleichverteilung P D U.0; 1/, dass die durch Xn IAn definierten Rademacher-Funktionen eine Bernoulli-Folge bilden. 2.7. Zeigen Sie, dass es auf .R; B/ kein translationsinvariantes Wahrscheinlichkeitsmaß gibt. 2.8. Bestimmen Sie die inverse Verteilungsfunktion der Exponentialverteilung. 2.9. Zeigen Sie, dass inverse Verteilungsfunktionen immer linksstetig sind. 2.10. Sei X eine Zufallsvariable mit stetiger Verteilungsfunktion F .x/ D P .X x/. Zeigen Sie F ı X U.0; 1/. d
2.11. Zeigen Sie sin.2U / D cos.2U ) für U U.0; 1/. 2.12. Sei 4 ein Dreieck, also die konvexe Hülle dreier Punkte a; b; c 2 R2 . Zeigen Sie 4 2 B2 und berechnen Sie (etwa durch Reduktion auf den Fall a D 0, b D .0; 1/ und c D .1; 0/) die „Fläche“ 2 .4/. 2.13. Finden Sie für " > 0 eine dichte und offene Teilmenge A" von R mit .A" / ". Dabei hilft die Tatsache, dass Q abzählbar ist. Leser, die mit dem Satz von Baire und der damit T zusammenhängenden Terminologie vertraut sind, können dann folgern, dass B n2N A1=n eine Menge von „zweiter Kategorie“ (also groß im Sinn der Topologie) ist, die .B/ D 0 erfüllt (also im Sinn des Lebesgue-Maßes klein ist).
Kapitel 3
Integration
R Die Idee zur Konstruktion eines Integrals X d für eine messbare Abbildung X W .; A/ ! .R; B/ und ein Maß auf A ist sehr einfach: Für Indikatorfunktionen ² 1; ! 2 A IA .!/ 0; ! … A definieren wir das Integral als Maß der Indikatormenge A, durch lineare Fortsetzung erweitern wir die Definition auf Funktionen, die nur endlich viele Werte annehmen, und erhalten schließlich durch Approximation das Integral für eine möglichst große Klasse von Integranden. Dieses Vorgehen ist sehr ähnlich wie beim „Regelintegral“, das in manchen Lehrbüchern der Analysis behandelt wird. Dort sind die „Grundbausteine“ Indikatorfunktionen von Intervallen, deren Integral ist die Länge des Intervalls, Linearkombinationen der Grundbausteine heißen Treppenfunktionen, und durch gleichmäßige Approximation erhält man das Integral für Regelfunktionen, die definitionsgemäß gleichmäßige Grenzwerte von Treppenfunktionen sind. Beim klassischen Riemann-Integral approximiert man nicht gleichmäßig sondern bezüglich der „Halb˚Rb norm“ kf k inf a h.x/dx W h Treppenfunktion mit jf j h . Der hier benutzte Integralbegriff unterscheidet sich durch eine allgemeinere Klasse von Grundbausteinen und dadurch, dass wir monoton approximieren. Wir betrachten bis auf Weiteres einen Maßraum .; A; / und nennen eine messbare Funktion X W .; A/ ! .R; B/ elementar, falls sie nur endlich viele positive Werte annimmt. Sind ˛1 ; : : : ; ˛n 0 alle Werte (die wir ohne weitere Erwähnung stets als paarweise verschieden annehmen), so definieren wir das (elementare) Integral Z n X X d ˛j .X D ˛j /; j D1
wobei wir wie bisher 01 D 0, a1 D 1 für a > 0 und a C 1 D 1 für a 2 Œ0; 1 benutzen. Physikalisch lässt sich dieses Integral als Schwerpunkt des (diskreten) Bildmaßes R X interpretieren, und für ein Wahrscheinlichkeitsmaß D P ist X dP das mit den Wahrscheinlichkeiten P .X D ˛j / gewichtete Mittel der Werte (weil ˛1 ; : : : ; ˛n alle Werte von X sind, ist die Summe der Gewichte P .X D ˛j / gleich 1). Ist zum Beispiel P X die Laplace-Verteilung auf f1; : : : ; ng, so gilt Z n n X X X dP D jP .X D j / D j=n D .n C 1/=2: j D1
j D1
35
Kapitel 3 Integration
Ist P X D H.N; n/ die hypergeometrische Verteilung, die zur Modellierung der Trefferanzahl beim Lotto n aus N dient, so erhalten wir mit Hilfe der Tatsache, dass die Summe über alle Werte der Zähldichte von H.N 1; n 1/ gleich 1 ist, ! ! ! 1 Z n X n N n N X dP D j j n j n j D0
D
D
N n
!
1
N n
!
1
n X n n j j D1
1 1
!
N .n
1 1/
.n .j
1/ 1/
!
! 1 n Dn : 1 N
N n n
Satz 3.1 (Linearität und Monotonie) R R R 1. Sind X; Y elementar und a; b 0, so gilt aX C bY d D a X d C b Y d. R R 2. Sind X; Y elementar mit X Y , so ist X d Y d. Beweis. 1. Sind ˛1 ; : : : ; ˛n und ˇ1 ; : : : ; ˇm die Werte von X beziehungsweise Y , so hat Z X C Y Werte 1 ; : : : ; p mit f 1 ; : : : ; p g D f˛i C ˇj W 1 i n; 1 j mg. Weil die Ereignisse fX D ˛i ; Y D ˇj g paarweise disjunkt sind, folgt mit der Additivität von Z Z d D
p X
k .Z D k / D
kD1
D
p X
˛i .X D ˛i / C
iD1
m X n X
˛i .X D ˛i ; Y D ˇj / C
iD1 j D1
D
.˛i C ˇj /.X D ˛i ; Y D ˇj /
kD1 ˛i Cˇj D k
n X m X
n X
X
ˇj .X D ˛i ; Y D ˇj /
j D1 i D1 m X
Z ˇj .Y D ˇj / D
Z X d C
Y d:
j D1
R R Für a D 0 ist 0 der einzige Wert von aX , und es gilt aX d D 0 D a X d. Für a > 0 sind a˛1 ; : : : ; a˛n die Werte von aX , und es folgt Z Z n n X X aX d D a˛j .aX D a˛j / D a ˛j .X D ˛j / D a X d: j D1
2. Y
j D1
X ist elementar und mit der Additivität folgt Z Z Z Z X d X d C Y X d D Y d:
36
Kapitel 3 Integration
R Eine wichtige Eigenschaft des elementaren Integrals ist, dass X d nur von den X Zahlen .X R D ˛j / also vom Bildmaß abhängt. Dies kann man etwa zur Berechnung von X dP einer B.n; p/-verteilten Zufallsvariable P nutzen. Sind X1 ; : : : ; Xn unabhängige B.1; p/-verteilte Zufallsvariablen, so gilt jnD1 Xj B.n; p/ und daher Z n Z X X dP D Xj dP D np: j D1
Für p D n=N stimmt dies mit dem Integral einer H.N; n/-verteilten Zufallsvariable überein, was nicht weiter bemerkenswert wäre – es sei denn, man interpretiert die B.n; p/- und H.n; N /-Verteilungen als Modelle für das n-fache Ziehen mit beziehungsweise ohne Zurücklegen von Kugeln aus einer Urne mit n weißen und N n schwarzen Kugeln und fragt nach dem „mittleren Wert“ für die Anzahl der weißen gezogenen Kugeln. Der ist also in beiden Modellen gleich. Es erweist sich als bequem, den Integralbegriff für Funktionen mit Werten in R R[f 1; 1g zu definieren – auch wenn wir meistens am Integral reellwertiger Funktionen interessiert und die nun folgenden Vereinbarungen etwas langweilig sind. Man merke sich, dass 1 1 und 1=1 nicht definiert werden und die übrigen Operationen der „Intuition entsprechen“. Wir setzen zunächst durch 1 a C1 für a 2 R die Ordnungsrelation fort und definieren 1 C a a C 1 1 für a 2 . 1; 1 und 1 C a a C . 1/ 1 für a 2 Œ 1; 1/. Weiter setzen wir 10 0. 1/ 0, 1a a1 1, 1a a. 1/ 1 und a=0 1 für a > 0 sowie 1a a1 1, 1a a. 1/ 1 und a=0 1 für a < 0 und schließlich a=1 a= 1 0 für a 2 R. Diese Fortsetzungen sind so gewählt, dass Assoziativ- und Distributivgesetze immer dann gelten, wenn alle Ausdrücke definiert, das heißt zum Beispiel nicht von der Form 1 C 1 oder 0=0 sind. Wir schreiben im Folgenden „a C b ist definiert“, falls das Paar .a; b/ im Definitionsbereich der fortgesetzten Addition liegt, das heißt fa; bg ¤ f 1; 1g. Um der Gefahr zu entgehen, nicht-definierte Ausdrücke zu benutzen, ist es oft günstig, statt a=b die Schreibweise ab 1 zu benutzen, wobei b 1 1=b. Für a D b 2 f0; 1; 1g ist der Wert dann jeweils 0. Wir betrachten auf R die Metrik d.x; y/ j arctan.x/ arctan.y/j mit der Konvention arctan.˙1/ D ˙ (statt des arctan kann man jede stetige streng monotone Funktion betrachten, die reelle Grenzwerte für x ! ˙1 besitzt). Die „Kugeln“ B.x; "/ mit reellem Mittelpunkt und kleinem Radius sind dann – wie beim Betragsabstand auf R – offene Intervalle um x. Wir bezeichnen die zugehörige Borel- -Algebra mit B D B.R; d / und erhalten
B D .fŒ 1; b/ W b 2 Rg/: Die Intervalle Œ 1; b/ sind nämlich Kugeln mit Mittelpunkt
1, und andererseits
37
Kapitel 3 Integration
enthält die -Algebra auf der rechten Seite alle offenen reellen Intervalle [ .a; b/ D Œ 1; b/ n Œ 1; a C n1 / n2N
und auch die Kugeln .a; 1 D n2N R n Œ 1; a C n1 / mit Mittelpunkt 1. Weil jede bezüglich d offene Menge als abzählbare Vereinigung von Kugeln dargestellt werden kann, ist B in der rechten -Algebra enthalten. Genau wie im Fall reellwertiger Funktionen ist wegen Satz 1.6 eine Abbildung X W ! R genau dann .A; B/-messbar, wenn fX bg 2 A für alle b 2 R gilt. Damit erhalten wir, dass mit X und Y auch X C Y messbar ist, falls für jedes ! 2 die Summe X.!/ C Y.!/ existiert. Die Menge aller messbaren Abbildungen X W .; A/ ! .R; B/ bezeichnen wir mit M.; A/ und mit MC .; A/ die Menge der positiven X 2 M.; A/. Für X 2 MC .; A/ definieren wir nun das Integral (bezüglich ) durch Z nZ o X d sup Y d W Y elementar mit Y X : S
Die Monotonie des elementaren Integrals überträgt sich direkt auf das Integral und impliziert, dass die Definition für Elementarfunktionen mit der alten übereinstimmt, was die Benutzung des gleichen Symbols rechtfertigt. Wir zeigen nun einen einfachen aber sehr oft benutzten Satz über das Vertauschen von Grenzwerten und Integralen. Für Funktionen Xn ; X W ! R schreiben wir dabei Xn " X, falls Xn .!/ XnC1 .!/ und Xn .!/ ! X.!/ für jedes ! 2 .
Satz 3.2 (Monotone Konvergenz, Levi) Z Für Folgen Xn 2 MC .; A/ mit Xn " X gilt lim
Z Xn d D
n!1
lim Xn d.
n!1
Beweis. Die Messbarkeit von X folgt aus Satz 1.8.2 oder auch aus fX xg D T n2N fXn xg für alle x 2 R. R R Wegen der Monotonie des Integrals existiert c lim R n!1 Xn d X d, und für die umgekehrte Ungleichung zeigen wir c Y d für jedes elementare Y X . Seien dazu ˛1 ; : : : ; ˛m die Werte von Y , ı < 1 und An fXn ıY g. Wegen Xn " X gilt dann An " also auch An \ fY D ˛j g " fY D ˛j g, und mit der Stetigkeit von unten, der Additivität des elementaren Integrals und der Monotonie des Integrals folgt Z m X ı Y d D lim ı˛j .An \ fY D ˛j g/ n!1
j D1
Z D
lim
n!1
Z ıY IAn d lim
weil ıY IAn Xn . Mit ı ! 1 folgt daraus
n!1
R
Y d c.
Xn d;
38
Kapitel 3 Integration
Ist X eine Zufallsvariable mit abzählbarP vielen Werten ˛n 0, n 2 N, so ist n X R der monotone P1 Limes der Folge Xn D j D1 ˛j IfXD˛j g und Levis Satz liefert X dP D j D1 ˛j P .X D ˛j /. Ist etwa X Poisson-verteilt mit Parameter 0, so folgt damit Z X dP D
1 X
je
j
=j Š D e
j D0
1 X
j
1
=.j
1/Š D :
j D1
Wegen des folgenden Approximationssatzes kann man Levis Satz oft benutzen, um sehr leicht Eigenschaften des elementaren Integrals auf das allgemeine Integral zu übertragen. Satz 3.3 (Approximation) Für jedes X 2 MC .; A/ gibt es Elementarfunktionen Yn mit Yn " X. Beweis. Wir definieren Yn fallweise als Yn k2 n für X 2 Œk2 n ; .k C 1/2 n / und k 2 f0; : : : ; n2n 1g und Yn n für X n. Dann sind Yn elementar mit YnC1 Yn 2 fk=2nC1 W 0 k 2nC1 g und 0 X Yn 2 n für X n. Daher gilt Yn " X . Satz 3.3 ist sogar eine Charakterisierung der Funktionen in MC .; A/. Damit erhalten wir auch eine sehr „anschauliche“ Beschreibung von MC .; .Y // für ein messbares Y W .; A/ ! .Y; C/: Eine Abbildung X 0 ist genau dann bezüglich .Y / messbar, wenn es h 2 MC .Y; C/ gibt mit X D h ıPY . Für Elementarfunktionen P Xn D jmD0 ˛j IfY 2Cj g haben die Funktionen hn D jmD0 ˛j ICj die Eigenschaft Xn D hn ı Y , und falls Xn " X, folgt X D .supn2N hn / ı Y . Satz 3.4 (Lemma von Fatou) Z Für Folgen Xn 2 MC .; A/ gilt lim inf n!1
Z Xn d
lim inf Xn d: n!1
S
Beweis. Seien Yn infmn Xm . Wegen fYn < ag D mn fXm < ag sind Yn 2 MC .; A/ mit Yn " Y lim infn!1 Xn , und mit Satz 3.2 und der Monotonie des Integrals folgt Z Z Z Z lim inf Xn d D lim inf Xm d lim inf Xm d D lim inf Xn d: n!1
n!1
mn
n!1 mn
n!1
Selbst falls die Folge .Xn /n2N in Satz 3.4 punktweise konvergiert, gilt im Allgemeinen keine Gleichheit: Für R das Zählmaß auf N und Xn D Ifng gelten limn!1 Xn D 0 und limn!1 Xn d D 1. Dieses einfache Beispiel ist eine gute Gedächtnisstütze, welche der Ungleichungen oder im Fatou-Lemma die richtige ist.
39
Kapitel 3 Integration
Um schließlich das Integral einer nicht positiven Abbildung X W .; A/ ! .R; B/ zu definieren, bezeichnen wir mit X C X _ 0 D maxfX; 0g und X X _ 0 den Positivteil beziehungsweise Negativteil von X. X D XC X R Wegen R nennen wir X 2 M.; A/ integrierbar (bezüglich ), falls X CRd < 1 oder X d < 1 gelten. (Häufig wird in der Literatur gefordert, dass X ˙ d beide endlich sind, was zu der sprachlich etwas seltsamen Situation führt, dass man nicht-integrierbare Funktionen integriert. Unser Begriff wird dann oft Quasi-Integrierbarkeit genannt.) Wegen X ˙ R jXj und der Monotonie des Integrals ist insbesondere jedes X 2 M.; A/ mit jXjd < 1 integrierbar. Für integrierbares X 2 M.; A/ heißt in naheliegender Weise Z Z Z X d D X C d X d
das Integral von X bezüglich . Satz 3.5 (Integrationsregeln) Seien X; Y 2 M.; A/ integrierbar und a; b 2 R. R R 1. Sind aX C bY und a X d C b Y d definiert, so ist aX C bY integrierbar mit Z Z Z aX C bY d D a X d C b Y d: R R Falls aX für a 2 f˙1g integrierbar ist, gilt ebenfalls aX d D a X d. R R 2. X Y impliziert X d Y d. R R 3. j X dj jXjd. R 4. jXjd D 0 gilt genau dann, wenn .X ¤ 0/ D 0. R 5. j X dj < 1 impliziert .jX j D 1/ D 0. Beweis. 1. Sind X; Y positiv und .Xn /n2N ; .Yn /n2N Folgen elementarer Funktionen mit Xn " X und Yn " Y , so erhalten wir aus Xn C Yn " X C Y wegen Satz 3.2 und der Linearität des elementaren Integrals Z Z Z Z Z X C Y d D lim Xn d C Yn d D X d C Y d: n!1
Im allgemeinen Fall gilt .X C Y /C .X C Y / D X C Y D X C X C Y C Y , was .X C Y /C C X C Y D .X C Y / C X C C Y C und damit Z Z Z Z Z Z C C .X CY / dC X dC Y d D .X CY / dC X dC Y C d
40
Kapitel 3 Integration
impliziert. Dies liefert die Additivität des Integrals, falls alle Integrale der Positiv- und Negativteile Rvon X und Y reell sind, weil dann wegen .X C Y /C X C C Y C auch das Integral .X C Y /C d reell R R ist. R C R C Falls X dR D 1 oder R Y d D 1 müssen X d und Y d reell sein, weil sonst X Rd C Y d nicht definiert wäre. RWegen obiger Identität gilt R in d C R diesem Fall also .X C Y / d D 1 und damit R C X C Y d DR X C d D Y d D 1. Analog folgt die Additivität, falls X d D 1 oder Y R R 1. Die Homogenität aX d D a X d folgt für positives X und a 0 mit dem Approximationssatz und monotoner Konvergenz und im allgemeinen Fall wieder durch Zerlegen X D X C X . 2. Durch Z.!/ Y.!/ X.!/, falls X.!/ < 1, und Z.!/ 0, falls R X.!/ D 1, ist eine Funktion Z 2 MC .; A/ definiert mitRX C Z D Y . Falls X d R D 1 ist die zu beweisende Aussage klar, und wegen Z d 0 ist andernfalls X R R R R R d C Z d definiert, und mit der Additivität folgt X d X dC Z d D Y d. 3. Ebenfalls mit der Additivität erhalten wir wegen jXj D X C C X Z Z Z ˇ ˇZ ˇ Z ˇZ ˇ ˇ ˇ ˇ C C X dˇ X d C X d D jX jd: ˇ X dˇ D ˇ X d 4. FallsR .jX j > 0/ D 0, folgt aus jX j 1IfjX j>0g R mit der Monotonie des Integrals jXjd 1.jX j > 0/ D 0. Ist andererseits jXjd D 0, so impliziert die Stetigkeit von unten für die Mengen An fjXj 1=ng " fjXj > 0g Z Z .jX j > 0/ D lim .An / D lim n n1 IAn d lim sup n jXjd D 0: n!1
n!1
n!1
5. FallsR .X C D 1/ > 0 liefern X C 1IfX C D1g und die Monotonie des Integrals X C d 1.X C D 1/ D 1. Das gleiche Argument beweist den Fall .X D 1/ > 0. Eine wichtige Konsequenz aus Satz 3.5.4 ist, dass sich weder Integrierbarkeit noch das Integral einer Funktion ändern, wenn wir sie auf einer Menge B 2 A mit .B/ D 0 abändern (so dass die Messbarkeit erhalten bleibt): Wegen der Additivität gilt für integrierbares X nämlich Z Z Z Z X d D XIB c d C XIB d D XIB c d; R R weil j XIB c dj jXIB c jd D 0. Deshalb ist es auch sinnvoll von der Integrierbarkeit und dem Integral von Funktionen X zu reden, die bloß auf einer Menge A 2 A mit .Ac / D 0 definiert und .A \ A; B/-messbar sind. Wir nennen ein Ereignis A -fast sicher (oder auch bloß fast sicher, wenn das Maß durch den Kontext gegeben ist), falls es ein zulässiges Ereignis B 2 A
41
Kapitel 3 Integration
mit .B/ D 0 und B c A gibt. Wir sagen dann auch A gilt -fast sicher, und für Ereignisse wie fX D Y g schreiben wir X D Y -fast sicher oder X.!/ D Y.!/ für -fast alle ! 2 , falls fX D Y g -fast sicher gilt. Ein A-zulässiges Ereignis A gilt genau dann fast sicher, wenn .Ac / D 0 ist, und nur gelegentlich benötigen wir nicht zulässige Ereignisse. Die Sub--Additivität von Maßen impliziert, dass abzählbare Durchschnitte (oder „Konjunktionen“) fast sicherer Ereignisse wiederum fast sicher sind. R In dieser Sprechweise besagen Satz 3.5.4, dass jXjd D 0 genau dann gilt, R wenn X D 0 -fast sicher, und Satz 3.5.5, dass X -fast sicher reellwertig ist, falls X d R R reell ist. R Falls also X Rd und YR d reell sind, ist X C Y -fast sicher definiert und es gilt X C Y d D X d C Y d. Einer der wichtigsten allgemeinen Grenzwertsätze sowohl der Stochastik als auch der Analysis ist: Satz 3.6 (Dominierte Konvergenz, Lebesgue) RSeien Xn ; X; Y 2 M.; A/ mit RXn ! X Rund jXn j Y -fast sicher sowie Y d < 1. Dann existiert lim Xn d D X d. n!1
Beweis. Nach Abändern der Funktionen auf der Menge [ B fXn 6! Xg [ fjXn j > Y g [ fY D 1g n2N
mit .B/ D 0 können wir annehmen, dass die Voraussetzungen auf ganz erfüllt sind. Mit der Linearität des Integrals und zweifacher Anwendung des Lemmas von Fatou auf Xn C Y 0 und Y Xn 0 erhalten wir dann Z Z Z Z Z X d D lim inf Xn C Y d Y d lim inf Xn C Y d Y d n!1 n!1 Z Z Z Z D lim inf Xn d lim sup Xn d D Y d lim inf Y Xn d n!1 n!1 n!1 Z Z Z Y d Y X d D X d: Also gilt lim infn!1
R
Xn d D lim supn!1
R
Xn d D
R
X d.
Das Beispiel nach Satz 3.4 zeigt, dass auch der Satz von Lebesgue ohne die „Dominiertheit“ jXn j Y imRAllgemeinen falsch ist. Sind ein endliches Maß, jXn jd < 1 und gilt Xn ! X gleichmäßig auf , so ist die Konvergenz Xn ! X auch dominiert: Falls jXn .!/ X.!/j 1 für alle n n0 und ! 2 R gilt, folgt jXn j YP 2 CR maxfjXk j W k 2 f1; : : : ; n0 gg für alle 0 n 2 N, und es gilt Y d 2./ C nkD1 jXk jd < 1. Ist f W Œa; b ! R eine Regelfunktion, also gleichmäßiger Grenzwert einer Folge von Treppenfunktionen, so erhalten wir wegen .Œa; b/ < 1 insbesondere, dass das
42
Kapitel 3 Integration
Rb R Regelintegral a f .x/dx mit dem Lebesgue-Integral f IŒa;b d übereinstimmt (für Treppenfunktionen folgt diese Übereinstimmung aus der Linearität und .I / D `.I / für jedes Intervall I ). Im Vergleich zum Regelintegral ist das Integral bezüglich des Lebesgue-Maßes viel angenehmer beim Studium von Grenzprozessen – auch dann, wenn man sich nur für Integrale zum Beispiel stetiger Funktionen interessiert (die wegen der gleichmäßigen Stetigkeit auf kompakten Intervallen immer Regelfunktionen sind). Um eine der typischen Anwendungen das Satzes von Lebesgue bequem formulieren zu können, definieren wir Z L1 .; A; / fX W .; A/ ! .R; B/ messbar W jX jd < 1g: Im 4. Kapitel werden wir Eigenschaften dieses Raums ausführlich untersuchen. Für eine Abbildung f W X Y ! Z und x 2 X bezeichnen wir die Abbildung y 7! f .x; y/ mit f .x; / und für y 2 Y analog die Abbildung x 7! f .x; y/ mit f .; y/. Satz 3.7 (Parameterintegrale) Seien J ein Intervall und f W J ! R eine Abbildung mit f .x; / 2 L1 .; A; / für jedes x 2 J , so dass f .; !/ für jedes ! 2 eine auf J differenzierbare Abbildung mit Ableitung f 0 .; !/ ist. FallsRes g 2 L1 .; A; / gibt mit jf 0 .x; !/j g.!/ für .x; !/ 2 J , ist x 7! f .x; /d differenzierbar mit Ableitung x 7! R alle f 0 .x; /d. Beweis. Seien x 2 J , ."n /n2N eine Nullfolge mit "n ¤ 0 und x C "n 2 J sowie gn .!/ "n 1 .f .x C "n ; !/
f .x; !//:
Dann ist f 0 .x; / D limn!1 gn als Grenzwert messbarer Funktionen wieder messbar. Wegen des Mittelwertsatzes gibt es D .n; !/ mit gn .!/ D f 0 .; !/, was jgn .!/j g.!/ impliziert. Mit der Linearität des Integrals und dominierter Konvergenz erhalten wir daher Z Z Z Z "n 1 f .x C "n ; /d f .x; /d D gn d ! f 0 .x; /d: Mit Satz 3.7 kann man manchmal ganz konkrete Integrale berechnen, die mit den „klassischen“ Techniken Substitutionsregel und partielle Integration nicht ohne Wei2y y ty y teres zu bestimmen sind. Sei etwa f .y/ e y e . Für f .t; y/ e y e und R F .t/ I.0;1/ f .t; /d verifiziert man leicht die Voraussetzungen von Satz 3.7 d e ty durch Vertauschen von Lebesgueund erhält wegen f 0 .t; y/ D e ty D dy t und Regel-Integral Z Z n F 0 .t / D I.0;1/ f 0 .t; /d D lim e ty dy D 1=t n!1 0
für R t > 0. Wegen F .1/ D 0 folgt F .t / D I.0;1/ f d D F .2/ D log.2/.
log.t /, und das gesuchte Integral ist daher
43
Kapitel 3 Integration
Satz 3.8 (Substitutionsregel) Sei T W .; A/ ! .X; B/ messbar. Eine Abbildung X 2 M.X; B/ ist genau dann TR integrierbar, wenn X ı T bezüglich integrierbar ist, und dann gilt Rbezüglich T X d D X ı T d. Beweis. Für eine Indikatorfunktion X D IB gilt Z Z IB dT D T .B/ D .T 1 .B// D IT
Z 1 .B/
d D
IB ı T d:
P Falls X D nkD1 ˇk IBk elementar ist (mit den Werten ˇk von X und Bk fX D ˇk g lässt sich jedes elementare X so darstellen), folgt mit der Linearität Z
X dT D
n X
Z ˇk
kD1
IBk dT D
n X
Z ˇk
Z IBk ı T d D
X ı T d:
kD1
Sind nun X positiv und Xn elementar mit Xn " X, so sind auch Xn ı T elementar mit Xn ı T " X ı T und mit monotoner Konvergenz folgt Z Z Z Z T T X d D lim Xn d D lim Xn ı T d D X ı T d: n!1
n!1
Ist X beliebig, so folgt aus .X ı T /˙ D X ˙ ı T und R schließlich .X ı T /˙ d die Behauptung im allgemeinen Fall.
R
X ˙ dT D
Das obige Beweisprinzip, also sukzessiv von Indikatorfunktionen über elementare und positive Funktionen auf alle integrierbaren Funktionen zu schließen, nennen wir Standardschluss der Integrationstheorie. Bei den meisten Anwendungen bedarf lediglich der Fall von Indikatorfunktionen eines speziellen Arguments. Die anderen Schritte lassen sich fast immer gleich, nämlich mit dem Approximationssatz, monotoner Konvergenz und der Zerlegung X D X C X behandeln. Für das n-dimensionale Lebesgue-Maß n und eine bijektive affine Transformation T .x/ D Ax C b mit invertierbarem A 2 Rnn und b 2 Rn gilt j det AjTn D n wegen Satz 2.12, also erhalten wir für integrierbares X 2 M.Rn ; Bn / Z Z .X ı T /j det Ajd n D X d n : Diese spezielle Substitutionsregel gilt allgemeiner für „C 1 -umkehrbare“ Abbildungen T , wobei det A durch die Jacobi-Determinante ersetzt wird. Das werden wir aber nur im sehr viel einfacheren Fall n D 1 und für stetige Integranden benötigen, diese Version folgt sofort aus dem Hauptsatz der Integralrechnung, dessen üblicher Beweis auch für das Integral bezüglich funktioniert:
44
Kapitel 3 Integration
R Sei f W Œa; b ! R messbar mit IRŒa;b jf jd < 1. Ist f stetig in einem Punkt x 2 Œa; b, so ist F .z/ IŒa;z f d differenzierbar in x mit F 0 .x/ D f .x/. Wir untersuchen die Differenzenquotienten für t > 0, das gleiche Argument liefert dann auch den linksseitigen Grenzwert. Es gilt ˇ1 Z ˇ ˇ ˇ j.F .x C t / F .x//=t f .x/j D ˇ I.x;xCt .y/.f .y/ f .x//d .y/ˇ t sup jf .y/ f .x/j; xyxCt
und wegen der Stetigkeit konvergiert dieser Ausdruck gegen 0. Weil wegen des Mittelwertsatzes dieR Differenz zweier Funktionen mit gleicher Ableitung konstant ist, erhalten wir also IŒa;b f d D F jba F .b/ F .a/ für jedes stetige f und jede Stammfunktion F von f . Aus dem Hauptsatz folgt sofort die partielle Integrationsregel Z Z ˇb 0 ˇ IŒa;b f gd D fg a IŒa;b fg 0 d für stetig differenzierbare Funktionen f und g. R Für positives f folgt mit monotoner Konvergenz IŒ n;n f d ! f d , also können wir auch solche Integrale mit Stammfunktionen berechnen. Für ein Ereignis A 2 A und eine Funktion X W B ! R, die auf einer Obermenge B A definiert ist und deren Einschränkung auf A bezüglich .A \ A; B/-messbar ist, definieren wir (als letzte Erweiterung des Integralbegriffs) das Integral über eine Menge A durch Z Z A
X d
IA X d;
falls IA X bezüglich integrierbar ist (IA X ist natürlich auf Ac gleich 0, egal ob und ˙ wie X dort R definiert ist). Falls X 2 M.; A/ integrierbar ist, folgt aus .IA X / ˙ X , dass A X d für jedes A 2 A existiert. Aus anderer Perspektive liefert also ein integrierbares f W .; A/ ! .R; B/ eine R durch .A/ A f d definierte Abbildung W A ! R. Wir benutzen hier die Bezeichnung f statt wie bisher X, weil die typische Rolle von f eine andere als die einer Zufallsvariablen X sein wird. Sind AnP2 A paarweise disjunkt mit Vereinigung S A A , so ist IA f D limm!1 m n n2N nD1 IAn f , und falls f positiv ist oder R jf jd < 1 erfüllt, ist diese Konvergenz monoton beziehungsweise dominiert, P weil j m I f j jf j für alle m 2 N gilt. In diesen Fällen implizieren die Sätze nD1 An von Levi beziehungsweise Lebesgue
[ n2N
An D lim
m!1
Z X m nD1
IAn f d D
1 X nD1
.An /:
45
Kapitel 3 Integration
Für f 2 MC .; A/ ist also W A ! Œ0; C1 ein Maß auf .; A/, und wir nennen f eine -Dichte von und benutzen die Bezeichnung Z f ; so dass f .A/ D f d für A 2 A: A
Ist das Zählmaß auf , so sind die nach Satz 1.2 bezeichneten Zähldichten tatsächlich -Dichten. d Oft benutzt man für -Dichten auch das Symbol f D d , was allerdings etwas irreführend sein kann, weil wegen Satz 3.5.4 jedes messbare g mit f D g -fast sicher dieselbe Abbildung liefert, das heißt, f ist durch und nicht eindeutig bestimmt. Allerdings sind Dichten fast sicher eindeutig:
Satz 3.9 (Eindeutigkeit von Dichten) Seien f; g 2 R R M.; A/ bezüglich eines -endliches Maßes integrierbar, so dass f d A A gd für alle A 2 A. Dann gilt f g -fast sicher. Beweis. Wir nehmen .f > g/ ¤ 0 an und finden wegen der -Endlichkeit A 2 A mit A ff > gg und 0 < .A/ < 1. Wegen der Stetigkeit von unten gibt es dann n 2 N und B 2 A mit B ff ^n > g _. n/g und 0 < R .B/ < 1. R Für die positive Funktion h .f g/IB folgt dann Rwegen n.B/ f d BR B gd n.B/ R aus der Linearität des Integrals 0 hd D B f d B gd 0, und Satz 3.5.4 impliziert den Widerspruch .h ¤ 0/ D .B/ D 0. Durch Angabe einer -Dichte können wir leichtRneue Maße auf .; A/ definieren, wobei f genau dann eine Verteilung ist, wenn f d D 1 gilt. Die in Satz 2.6 konstruierte Gleichverteilung U.0; 1/ können wir nun als Maß f mit der -Dichte f D I.0;1/ auffassen. Ist allgemeiner B 2 Bn mit 0 < n .B/ < 1, so heißt U.B/ n .B/ 1 IB n Gleichverteilung auf B. Für f .x/ e x I.0;1/ .x/Rmit einem Parameter > 0 erhalten wir mit Hilfe einer Stammfunktion das Integral f d D 1. Das Wahrscheinlichkeitsmaß Exp./ f heißt Exponentialverteilung mit Parameter . Sie dient oft als Modell für Wartezeiten, weil für eine Exp./-verteilte Zufallsvariable X und x; y 0 Z P .X > x C y/ D f d D e .xCy/ D P .X > x/P .X > y/ .xCy;1/
gilt, was man als „Gedächtnislosigkeit der Exponentialverteilung“ bezeichnet. Eine -Dichte einer Verteilung auf .R; B/ kann man häufig dadurch bestimmen, dass man die zugehörige Verteilungsfunktion F zu differenzieren versucht. Ist beispielsweise F stetig und stückweise stetig differenzierbar (das heißt, es gibt eine endliche Menge E R, so dass F auf jedem Intervall I E c stetig differenzierbar ist), so ist wegen des Hauptsatzes der Integralrechnung f F 0 IE c eine -Dichte.
46
Kapitel 3 Integration
Ist etwa X U. 2 ; 2 / eine gleichverteilte Zufallsvariable, so erfüllt die Verteilungsfunktion F von Y sin X für t 2 . 1; 1/
1 C arcsin t 2 und F .t/ D 0 für t 1 sowie F .t/ D 1 für t 1. Durch Differenzieren erhalten wir also die -Dichte f .x/ p 1 2 I. 1;1/ .x/ der Verteilung von sin X. 1 x Die gleiche Methode kann man für Maße auf .Œ0; 1/; B \ Œ0; 1// anwenden, obwohl dann die Bezeichnung Verteilungsfunktion für t 7! .Œ0; t / nicht gebräuchlich ist. Ist T k k die euklidische Norm auf Rn und Tn , so erhalten wir (zum Beispiel aus Satz 2.12 mit der Transformation x 7! rx) für r 0 F .t/ D P .X arcsin t / D
.Œ0; r/ D n .fT rg/ D r n n .fT 1g/: Bezeichnen wir das Maß der n-dimensionalen Einheitskugel mit Vn n .fy 2 Rn W kyk 1g/ – wir werden Vn übrigens schon bald berechnen können –, so erhalten wir kk durch Differenzieren, dass f .r/ nVn r n 1 I.0;1/ .r/ eine -Dichte von D n ist. Mit Hilfe des folgenden Satzes kann man damit oft Integrale bezüglich n berechnen, falls der Integrand nur von der Norm abhängt. Satz 3.10 (Integration mit Dichten) Für f 2 MC .; A/ ist eine Abbildung X 2 M.; A/ genau dann bezüglich f R integrierbar, R wenn das Produkt Xf bezüglich integrierbar ist. In diesem Fall gilt X d D Xf d. Beweis. Für Indikatorfunktionen X D IA gilt Z Z Z IA d D .A/ D f d D IA f d: A
Sowohl die Messbarkeit von Xf als auch die Aussage des Satzes folgen per Standardschluss. Weil fast alle konkreten Integrale bezüglich einer Verteilung mit Dichte berechnet werden, ist folgende Anwendung des Transformationssatzes 2.12 oft hilfreich. Sind X D .X1 ; : : : ; Xn / ein n-dimensionaler Zufallsvektor mit P X D fX n und T .x/ D Ax C b eine bijektive affine Transformation, so besitzt die Verteilung von Y T ı X die n -Dichte 1 fY .x/ fX .A 1 .x b//: j det Aj Für B 2 Bn folgt nämlich mit der Substitutionsregel, Satz 3.10 und Satz 2.12 Z Z P .Y 2 B/ D IB ı T dP X D .IB ı T / fX ı T 1 ı T d n Z Z 1 D fX ı T 1 dTn D fX ı T 1 d n : j det Aj B B
47
Kapitel 3 Integration
d In der Situation 3.10 ist die Schreibweise f D d sehr suggestiv. Die Formel lautet R d R dann X d d D X d, das heißt, man darf hier „kürzen“. Ähnlich plausibel ist
die Regel
d d d d
D
d , d
die wir nun beweisen.
Satz 3.11 (Kettenregel) Für f; g 2 MC .; A/ gilt f .g / D fg . Beweis. Für A 2 A folgt durch zweimalige Anwendung von Satz 3.10 Z Z f .g /.A/ D IA f d.g / D IA fgd D fg .A/:
Bevor wir uns mit einer der wichtigsten Integrationstechniken befassen, machen wir noch einige Anmerkungen zu den bisher verwendeten Bezeichnungen. Die Symbolik R X d für das Integral hat eher historische als logisch oder mathematisch zwingende Gründe. Bei gegebenem Maßraum .; A; / ist das Integral eine Abbildung von der Menge der integrierbaren Funktionen in die Menge R, und üblicherweise bezeichnet man diese Abbildung mit einem suggestiv gewählten Namen und setzt das Argument, also ein integrierbares X , in Klammern dahinter. R Weil sich Mengen und Indikatorfunktionen eineindeutig entsprechen und wegen IA d D .A/, ist es nahe liegend, für obige Abbildung wieder das Symbol zu R benutzen, also .X / X d (wir werden aber auf diese ultimativ kurze Schreibweise meistens verzichten). P Genau so, wie man bei der Addition a1 C C an D jnD1 aj einen Summationsindex benutzt, ist es oft hilfreich, eine Integrationsvariable einzuführen. Ist ! oder ~ irgendein im Kontext nicht benutztes Symbol, so schreiben wir auch Z Z Z X.!/d.!/ X.~/d.~/ X d: A
Wir können also etwa
A
A
x 2 =2
p1 e d .x/ D 1 formulieren (und in Satz 3.16 auch 2 R 2 1 p e x =2 zu definieren, um dann f d D 1 auszu2
R
beweisen) ohne f .x/ sagen. Der Nutzen von Integrationsvariablen zeigt sich auch, wenn eine Funktion f W X Y ! R gegeben ist und wir etwa bei festem x 2 X die Funktion y 7! R f R .x; y/ integrieren wollen. Anstatt wie in Satz 3.7 f .x; /d können wir jetzt auch f .x; y/d.y/ schreiben. Wir zeigen gleich die Messbarkeit solcher Abbildungen. Für spätere Zwecke tun wir dies nicht nur für ein gegebenes Maß , sondern für „messbare Familien“ von Maßen. Für zwei Messräume .; A/ und .X; B/ nennen wir eine Abbildung K W B ! Œ0; 1 einen Kern von .; A/ nach .X; B/, falls für jedes ! 2 durch B 7! K.!; B/ ein Maß auf A definiert und für jedes B 2 B die Abbildung ! 7! K.!; B/ bezüglich .A; B/-messbar ist. Falls alle Maße K.!; / Verteilungen sind, nennen wir K einen Markov-Kern.
48
Kapitel 3 Integration
Fassen wir (entgegen der bisher suggerierten Vorstellung) ! 2 als einen Parameter auf, so ist ein Markov-Kern also eine messbar parametrisierte Familie von Wahrscheinlichkeitsmaßen auf .X; B/. Fast alle bisher betrachteten Beispiele von Verteilungen sind von dieser Form (abgesehen davon, dass der Parameter anders bezeichnet wurde): Die Binomialverteilungen B.n; p/ auf .X; B/ D .N0 ; P .N0 // hängen vom Parameter .n; p/ 2 N Œ0; 1 ab, die Exponentialverteilungen Exp./ von 2 Œ0; 1/ und so fort. Dass die Abhängigkeit vom Parameter messbar ist, folgt fast immer aus dem nachfolgenden Satz. Wir haben schon angedeutet, dass bei der Modellierung unsicherer Situationen die „Modellklasse“ entweder zwangsläufig (wie anders als durch eine B.1; p/-Verteilung sollte man eine Situation mit nur zwei möglichen Ausgängen modellieren?) oder wie etwa bei Wartezeiten durch allgemeine Überlegungen nahegelegt ist. Im 5. Kapitel werden wir den „zentralen Grenzwertsatz“ als ein sehr allgemeines Argument für die Wahl einer bestimmten Modellklasse kennen lernen. Wenn die Ergebnisse von Rechnungen in Modellen nicht von Parametern abhängen sollen (für manche Anwender scheint deren Interpretation zu schwierig zu sein), kann man sich entweder auf einen Parameter festlegen oder aber mit einer (freilich wiederum zu rechtfertigenden) Verteilung auf dem Parameterraum mitteln. Bevor wir dies im Satz 3.13 durchführen, klären wir die damit verbundenen Messbarkeitsfragen. Ein Kern K von .; A/ nach .X; B/ heißt -endlich, falls es En 2 B mit En " X gibt, so dass supfK.!; En / W ! 2 g < 1 für alle n 2 N gilt, das heißt, .K.!; //!2 ist eine „gleichmäßig -endliche“ Familie von Maßen auf B. Satz 3.12 (Messbarkeit von Schnitten) Für einen -endlichen Kern K von .; A/ nach .X; B/, f 2 MC . X; A ˝ B/ und R jedes !0 2 ist x 7! f .!0 ; x/ eine .B; B/-messbare Abbildung, und ! 7! X f .!; x/dK.!; x/ ist .A; B/-messbar.
Beweis. Seien En 2 B mit En " X und supfK.!; En / W ! 2 g < 1 sowie Dn fM 2 A ˝ B W die Aussage des Satzes stimmt für fM IM IEn g: Wir zeigen zuerst, dass Dn Dynkin-Systeme über X sind. Aus fX .!; x/ D R IEn .x/ und fX .!; x/dK.!; x/ D K.!; En / erhalten wir X 2 Dn . Die Komplementstabilität folgt damit wegen fM c D fX fM aus der Linearität des Integrals und der Tatsache, dass Differenzen messbarer Funktionen wieder messbar sind – wegen K.!; En / < 1 sind dabei die auftretenden S Funktionen reellwertig. Sind MP 2 D paarweise disjunkt mit Vereinigung M n k k2N Mk , so implizieren fM D k2N fMk und Levis Satz, dass M 2 Dn gilt. Ist nun M D A B mit A 2 A und B 2 B, so gilt fM .!; x/ D IA .!/IB\En .x/, und damit folgt A B 2 Dn . Weil solche Produktmengen einen schnittstabilen Erzeuger von A ˝ B bilden, impliziert das Dynkin-Argument A ˝ B Dn für jedes
49
Kapitel 3 Integration
n 2 N. Für M 2 A ˝ B erhalten wir dann aus IM D limn!1 IM IEn und monotoner Konvergenz, dass die Aussage des Satzes für alle Indikatorfunktionen und mit Standardschluss schließlich für alle f 2 MC . X; A ˝ B/ stimmt. Für einen Kern K von .; A/ nach .X; B/ und ein Maß auf dem „Parameterraum“ .; A/ können wir jetzt leicht ein Maß auf .X; B/ definieren, indem wir bezüglich integrieren. Dadurch erhalten wir sogar ein „gemeinsames Modell“: Satz 3.13 (Produktmaße) Seien K ein -endlicher Kern von .; A/ nach .X; B/ und ein Maß auf A. Für M 2 A ˝ B ist durch Z Z ˝ K.M / IM .!; x/dK.!; x/d.!/
X
R ein Maß auf A ˝ B definiert mit ˝ K.A B/ D A K.!; B/d.!/ für alle A 2 A; B 2 B. Für -endliches ist ˝ K durch diese Eigenschaft eindeutig bestimmt. Die definierende Formel bedeutet, dass zuerst (bei festem ! 2 ) das Integral von IM .!; / bezüglich des Maßes K.!; / gebildet wird und dann das von ! abhängende Ergebnis bezüglich integriert wird. Das Maß ˝ K heißt Produkt von mit K. Für einen Markov-Kern und M D A X gilt dann .A/ D ˝ K.A X/. Für M D B erhalten wir andererseits die „über den Parameter gemittelte Verteilung“ Z K.B/ ˝ K. B/ D K.!; B/d.!/:
Für ! 2 gilt damit K.!; B/ D .ı! K/.B/. R Beweis. Wegen Satz 3.12 ist ! 7! IM .!; x/dK.!; x/ eine positive messbare Abbildung, so dass ˝ K wohldefiniert ist. Die -Additivität erhalten wir durch zweifache Anwendung des Satzes von Levi. Für M D A B ist Z Z IM .!; x/dK.!; x/ D IA .!/ IB .x/dK.!; x/ D IA .!/K.!; B/ R und dies zeigt ˝ K.A B/ D A K.!; B/d.!/. Für An 2 A mit An " und .An / < 1 sowie En 2 B mit En " X und sup!2 K.!; En / < 1 ist ˝ K.An En / .An / sup!2 K.!; En / < 1. Wegen An En " X ist also ˝ K auf dem schnittstabilen Erzeuger fA B W A 2 A; B 2 Bg von A ˝ B -endlich, und die Eindeutigkeitsaussage folgt aus Satz 1.5. Als Beispiel betrachten wir bei festem n 2 N die Binomialverteilungen K.x; / B.n; x/ auf .X; B/ .N; P .N// mit x 2 Œ0; 1 und bilden das Produkt mit der
50
Kapitel 3 Integration
Gleichverteilung U.0; 1/. Für die Wahrscheinlichkeiten pk K.fkg/ erhalten wir für 0 k < n durch partielle Integration !Z Z n pk D B.n; x/.fkg/d .x/ D x k .1 x/n k d .x/ k Œ0;1 Œ0;1 ! ˇ Z ˇ1 n k n x kC1 n kˇ D x kC1 .1 x/n k 1 d .x/ .1 x/ C ˇ k kC1 k C 1 Œ0;1 0 !Z n D x kC1 .1 x/n .kC1/ d .x/ D pkC1 : k C 1 Œ0;1
Durch Integration des Parameters x der B.n; x/-Verteilungen bezüglich der Gleichverteilung erhalten wir also eine Laplace-Verteilung. Satz 3.14 (Integration für Produktmaße) Seien K ein -endlicher Kern von .; A/ nach .X; B/, ein Maß R auf A und f 2 M. X; A ˝ B/ bezüglich ˝ K integrierbar. Durch g.!/ f .!; x/dK.!; x/ ist -fast sicher eine -integrierbare Funktion definiert mit Z Z Z f d ˝ K D f .!; x/dK.!; x/d.!/:
X
Beweis. Für Indikatorfunktionen ist die Formel gerade die Definition des Produkts R ˝ K.M / D IM d ˝ K, und für positives f folgt die Behauptung mit Standardschluss. R Sei nun Rf bezüglich ˝ K integrierbar und etwa f C d ˝ K < 1. Durch g˙ .!/ fR ˙ .!; x/dK.!; R x/ sind wegen SatzR3.12 .A; B/-messbare Funktionen definiert mit g˙ d D f ˙ d ˝ K. Wegen gC d < 1 und Satz 3.5.5 gilt gC < 1 -fast sicher, so dass h gC g -fast sicher definiert ist mit Z Z Z C h D f .; x/d˝K.; x/ f .; x/d˝K.; x/ D f .; x/d˝K.; x/ D g
-fast sicher wegen der Linearität des Integrals aus R Satz 3.5.1R(wir behaupten R übrigens nicht, dass gC der Positivteil von g sei). Weil gC d g d D f d ˝ K definiert ist, folgt wieder mit Satz 3.5.1 die Behauptung. Ist ein -endliches Maß auf .X; B/ und K.!; B/ .B/ der konstante Kern von .; A/ nach .X; B/, so ist für ein Maß auf .; A/ das Produktmaß von und durch ˝ ˝ K definiert. Für -endliches ist es wegen Satz 3.13 durch ˝.AB/ D .A/.B/ eindeutig bestimmt. Wir werden übrigens bald sehen, dass diese „Produktformel“ in enger Beziehung zur Unabhängigkeit steht (den genauen Zusammenhang zwischen stochastischer Unabhängigkeit und der Tatsache, dass der konstante Kern nicht vom Parameter ! 2 abhängt, klären wir im 6. Kapitel).
51
Kapitel 3 Integration
Wir definieren noch das Produkt von endlich vielen -endlichen Maßen j auf .j ; Aj / rekursiv durch n O
j
n 1 O
j ˝ n :
j D1
j D1
Nn Qn Weil dieses Produkt durch j D1 j .A1 An / D j D1 j .Aj / eindeutig bestimmt ist, erhalten wir die Assoziativität 1 ˝ .2 ˝ 3 / D .1 ˝ 2 / ˝ 3 . Für jedes n-dimensionale Intervall I D I1 In gilt n O
n n Y Y 1 .I / D 1 .Ij / D `.Ij / D n .I /;
j D1
j D1
j D1
und Nn mit der Eindeutigkeitsaussage im Existenzsatz 2.9 für das Lebesgue-Maß folgt j D1 1 D n . Wegen der Assoziativität erhalten wir daraus n ˝ m D nCm . Sind und zwei -endliche Maße auf .; A/ beziehungsweise .X; B/, so können wir einerseits das Produktmaß ˝ auf .; A/ ˝ .X; B/ und andererseits das Produktmaß ˝ auf .X; B/ ˝ .; A/ definieren. Die Permutation W X ! X , .!; x/ .x; !/ ist bijektiv und sowohl als auch die Umkehrabbildung 1 sind wegen 1 .B A/ D A B und Satz 1.6 messbar. Weil ˝ und ˝ durch ˝ .A B/ D .A/.B/ D ˝ .B A/ eindeutig bestimmt sind, gilt . ˝ / D ˝ . Aus Satz 3.14 erhalten wir damit einen der nützlichsten Sätze der Analysis und Stochastik: Satz 3.15 (Iterierte Integration, Fubini) Seien .; A; / und .X; B; / -endliche Maßräume und f 2 M. X; A ˝ B/ bezüglich ˝ integrierbar. Dann gilt Z Z Z Z Z f d ˝ D f .!; x/d.x/d.!/ D f .!; x/d.!/d.x/:
X
X
R R Die Voraussetzung f C d ˝ < 1 oder f d ˝ < 1 überprüft man oft dadurch, dass man den Satz für die positiven Funktionen f C und f benutzt. In vielen Anwendungen des Satzes ist entscheidend, dass man die Integrationsreihenfolge vertauschen kann – das Produktmaß braucht man dabei oft gar nicht. Beweis. Mit dem konstanten Kern K.!; / D folgt die erste Identität aus Satz 3.14. Damit und mit der Substitutionsregel erhalten wir wegen . ˝ / D ˝ Z Z Z Z Z f .!; x/d.!/d.x/ D .f ı /d ˝ D f d. ˝ / D f d ˝ : X
52
Kapitel 3 Integration
Als eine erste Anwendung berechnen wir nun die Maße der n-dimensionalen Kugeln K.n; r/ fy 2 Rn W kyk rg, die uns noch zur Bestimmung der -Dichte von kk n fehlen: Z Vn n .K.n; 1// D IK.n;1/ .z/d 1 ˝ n 1 .z/ Z Z D IK.n 1;p1 x 2 / .y/d n 1 .y/d .x/ Œ 1;1
Z D
Z
x 2 /.n
.1
1/=2
IK.n
1;1/ .y/dn 1 .y/d .x/
Œ 1;1
Z D Vn
.1
1
x 2 /.n
1/=2
d .x/:
Œ 1;1
Für n D 2 erhalten wir mit den Substitutionen x D sin ' und x D cos ' wegen sin2 C cos2 D 1 die „Fläche“ des Einheitskreises Z Z Z 2 2 sin2 .'/d .'/ D : V2 D 2 cos .'/d .'/ C cos .'/d.'/ D Œ
2;2
Œ
2;2
Œ
2;2
Sind in der Situation von Fubinis Satz f 2 MC .; A/ und g 2 MC .X; B/, so ist die durch f ˝ g.!; x/ f .!/g.x/ definierte Abbildung eine ˝ -Dichte von .f / ˝ .g /. Mit dieser Produktdichte gilt also .f ˝ g/ . ˝ / D .f / ˝ .g /: R Ebenfalls mit Satz 3.15 erhalten wir eine Interpretation des Integrals X d einer Funktion X 2 MC .; A/ bezüglich eines -endlichen Maßes als „Fläche“ des Subgraphen G f.x; !/ 2 Œ0; 1/ W x X.!/g: Wegen der universellen Eigenschaft aus Satz 1.9.1 ist .x; !/ ! .x; X.!// messbar, was G 2 B ˝ A impliziert, und mit IG .x; !/ D IŒ0;X.!/ .x/ D IŒx;1/ .X.!// folgt durch iteriertes Integrieren und Vertauschen der Integrationsreihenfolge Z Z ˝ .G/ D .X x/d .x/ D X d: Œ0;1/
Eine ähnliche Anwendung ist die Bestimmung des zum Produkt F G von zwei stetigen Verteilungsfunktionen gehörigen Wahrscheinlichkeitsmaßes. Bezeichnen wir das gemäß Satz 2.7 durch eine Verteilungsfunktion F eindeutig bestimmte Wahrscheinlichkeitsmaß P mit dF , so gilt die Produkt- oder partielle Integrationsregel d.F G/ D F dG C G dF:
53
Kapitel 3 Integration
Für P D dF; Q D dG und z 2 R ist nämlich Z Z F Q.. 1; z/ D F .x/dQ.x/ D . 1;z
Z I. . 1;z
Z Z D
Z I.
1;z .x/IŒy;1/ .x/dQ.x/dP .y/ D
Q.Œy; z/dP .y/
Z D
1;x .y/dP .y/dQ.x/
Z G.z/ . 1;z
G.y/dP .y/ D F .z/G.z/
G.y/dP .y/; . 1;z
wobei wir für die vorletzte Identität die Stetigkeit von G ausgenutzt haben. Die partielle Integrationsregel gilt (mit demselben Beweis) für Maße und auf .R; B/, so dass .I / und .I / für alle Intervalle I D . 1; x endlich sind. Der einzige Unterschied ist, dass dann die Bezeichnung Verteilungsfunktion nicht üblich ist. Außerdem ist noch erwähnenswert, dass es reicht, in jedem Punkt z 2 R die Stetigkeit einer der beiden Verteilungsfunktionen zu fordern. Um die mit Abstand wichtigste Verteilung der gesamten Wahrscheinlichkeitstheorie einzuführen, zeigen wir nun wiederum mit dem Satz von Fubini: Satz 3.16 (Gauß-Dichte) Für alle 2 R und
2
Z > 0 gilt
exp
/2
.x
2 2
d .x/ D
p
2 2 .
Beweis. Mit Hilfe der affinen Transformation x 7! .x /= folgt der Satz aus dem Fall D 0 und 2 D 1. Wegen exp. x 2 =2/ exp. y 2 =2/ D exp. .x 2 C y 2 /=2/ D exp. k.x; y/k2 =2/ erhalten wir durch iteriertes Integrieren mit der Substitutionsregel, der Dichte von kk 2 , die wir vor Satz 3.10 berechnet haben, und der Stammfunktion von r exp. r 2 =2/ Z
2 Z Z exp. x 2 =2/d.x/ D exp. x 2 =2/d .x/ exp. y 2 =2/d.y/ Z Z kk 2 D exp. kzk =2/d2 .z/ D exp. r 2 =2/d2 .r/ Z D exp. r 2 =2/2V2 r d.r/ D 2V2 D 2:
.0;1/
Die Verteilung N.; 2 / auf .R; B/ mit der -Dichte '; 2 .x/ p
1
2 2
exp
.x
/2
2 2
heißt Gauß- oder Normalverteilung mit Parametern und 2 . Aus der Bemerkung nach Satz 3.10 folgt, dass für eine N.0; 1/-verteilte Zufallsvariable X , 2 R und
54
Kapitel 3 Integration
¤ 0 die Zufallsvariable Y X C wiederum normalverteilt ist mit Parametern und 2 . Da wir nun wieder im Zentrum der Wahrscheinlichkeitstheorie angelangt sind, ist es höchste Zeit anzumerken, dass die Integrationstheorie nicht nur für viele stochastische R Zusammenhänge als Hilfsmittel gebraucht wird, sondern dass das Integral X dP bezüglich eines Wahrscheinlichkeitsmaßes eine wichtige stochastische Bedeutung als „Mittelwert“ oder „Schwerpunkt“ der Verteilung P X hat. Für eine bezüglich P integrierbare Zufallsvariable X W .; A/ ! .R; B/ heißt Z Z E.X/ X dP D x dP X .x/ Erwartungswert von X. R
Hier wird also wie nach Satz 3.11 angesprochen die Integration als Abbildung aufgefasst und mit dem Symbol E bezeichnet. Falls die Verteilung P nicht durch den Kontext gegeben ist, schreibt man gelegentlich auch EP .X /. Für X Exp./ erhalten wir mit dem Beispiel nach Satz 3.15 (oder auch mit partieller Integration) Z Z E.X / D P .X x/d .x/ D e x d .x/ D 1=: Œ0;1/
.0;1/
Diese Tatsache benutzt man bei der Modellierung von Wartezeiten, falls man vernünftige Annahmen über die „mittlere Wartezeit“ machen kann, um festzulegen. Für unabhängige Exp. /-verteilte Zufallsvariablen X1 ;P : : : ; Xn erhalten wir für das Maximum Y X1 _ _ Xn wegen 1 z n D .1 z/ jnD01 z j Z Z 1 .1 e x /n d .x/ 1 P .Y < x/d .x/ D E.Y / D Œ0;1/
Œ0;1/
Z D
e Œ0;1/
x
n X1 j D0
.1
e
n n 1 1X 1 1X1 / d .x/ D : D j j C1
x j
j D0
j D1
Benutzt man Xj als Modell für die Haltbarkeit einer Sicherung, so zeigt diese Rechnung, dass die erwartete Haltbarkeit von n unabhängigen Sicherungen bloß logarithmisch und nicht etwa linear in n wächst (wie der „gesunde Menschenverstand“ vielleicht glaubt). Für eine N.0; 1/-verteilte Zufallsvariable X erhalten wir mittels Stammfunktion Z 1 x 2 C E.X / D p e x =2 d .x/ D p 2 2 Œ0;1/
und genauso E.X / D p1 , also gilt E.X / D 0. Wenn man schon weiß, dass 2 dieser Erwartungswert existiert (etwa indem man die Dichte '0;1 nach oben durch C.1 C jxj/ 3 mit einer geeigneten Konstanten C abschätzt), kann man auch mit der
55
Kapitel 3 Integration
Symmetrie der Verteilung argumentieren: X ist ebenfalls N.0; 1/-verteilt und die Linearität des Integrals impliziert daher E.X / D E. X / D E.X / D 0. Mit partieller Integration folgt außerdem Z ˇC1 Z ˇ 2 2 E.X / D x '0;1 .x/d .x/ D x'0;1 .x/ˇ C '0;1 .x/d .x/ D 1: 1
Weil Y X C für 2 R und ¤ 0 eine N.; 2 /-verteilte Zufallsvariable ist und der Erwartungswert nur von der Verteilung abhängt, erhalten wir mit der Linearität E.Y / D und E.Y 2 / D 2 C 2 für jede N.; 2 /-verteilte Zufallsvariable Y. Bevor wir zu weiteren Anwendungen des Satzes von Fubini kommen, geben wir noch ein Beispiel ohne Erwartungswert. R 1 einer Zufallsvariablen C1 D ist f .x/ 1 1 d.x/ D arctan j Wegen 1Cx 2 1 1Cx 2 eine -Dichte eines Wahrscheinlichkeitsmaßes auf B, der sogenannten Cauchy-Verteilung. Ist X eine Zufallsvariable mit P X D f , so folgt mit Satz 3.10 Z Z 1 x C E.X / D xf .x/d .x/ d.x/ Œ1;1/ 1 C x 2 Œ0;1/ Z 1 1 d.x/ D C1 2 Œ1;1/ x
und genauso E.X / D C1. Also ist X nicht integrierbar. Satz 3.17 (Unabhängigkeit und Produktmaße) Für j 2 f1; : : : ; ng seien Xj W .; A/ ! .Xj ; Bj / Zufallsgrößen auf einem Wahrscheinlichkeitsraum .; A; P /. n N X1 ; : : : ; Xn sind genau dann unabhängig, wenn P .X1 ;:::;Xn / D P Xj gilt. j D1
Beweis. Einerseits gilt für alle Bj 2 Bj n O
P Xj .B1 Bn / D
j D1
n Y j D1
P Xj .Bj / D
n Y
P .Xj 2 Bj /:
j D1
Andererseits ist die Unabhängigkeit von X1 ; : : : ; Xn durch die erste Gleichheit in n Y j D1
P .Xj 2 Bj / D P
n \
fXj 2 Bj g D P .X1 ;:::;Xn / .B1 Bn /
j D1
charakterisiert. Also sind X1 ; : : : ; Xn genau dann unabhängig, wenn P .X1 ;:::;Xn / und Nn X j P auf dem schnittstabilen Erzeuger fB1 Bn W Bj 2 Bj g und damit j D1 N auf jnD1 Bj übereinstimmen.
56
Kapitel 3 Integration
Wegen dieses Satzes können wir zu Verteilungen Q1 ; : : : ; Qn auf Messräumen .Xj ; Bj / unabhängige Zufallsvariablen Xj Qj ohne den allgemeinen ExistenzQ N satz 2.8 durch Produktbildung konstruieren: .; A; P / . jnD1 Xj ; jnD1 Bj ; Nn j D1 Qj / ist ein Wahrscheinlichkeitsraum, so dass die Projektionen Xj j wegen Satz 3.17 unabhängig sind mit Xj Qj . Mit Satz 3.17 lässt sich auch der Zusammenhang zwischen der Unabhängigkeit einer Folge .Xn /n2N und deren paarweiser Unabhängigkeit (das heißt Xn und Xm sind für alle n ¤ m unabhängig) klären. Mit der Laplace-Verteilung P auf D f0; 1; 2; 3g und Xj D If0;j g für j 2 f1; 2; 3g sieht man, dass paarweise Unabhängigkeit im Allgemeinen eine echt schwächere Bedingung ist. Mit Satz 3.17 und der Assoziativität des Produkts erhalten wir aber, dass eine Folge .Xn /n2N von Zufallsgrößen genau dann unabhängig ist, wenn für jedes n 2 N die zusammengesetzte Zufallsgröße .X1 ; : : : ; Xn / von XnC1 unabhängig ist. -endliche Maße 1 ; : : : ; m auf .Rn ; Bn / und die durch S.x1 ; : : : ; xm / PFür m n m n j D1 xj definierte Summenabbildung S W .R / ! R definieren wir die Faltung von 1 ; : : : ; m durch 1 m .1 ˝ ˝ m /S : Für eine positive messbare Abbildung f W .Rn ; Bn / ! .R; B/ folgt mit der Substitutionsregel und Fubinis Satz Z Z Z f d1 m D f .x1 C C xm /d1 .x1 / dm .xm /:
Sind X1 ; : : : ; Xm unabhängige n-dimensionale Zufallsvektoren, so gilt wegen Satz 3.17 n X Xj .P .X1 ;:::;Xn / /S D P X1 P Xn ; j D1
das heißt, die Faltung der „Randverteilungen“ P Xj ist die Verteilung der Summe. Satz 3.18 (Faltungsformel) Seien ; zwei R-endliche Maße auf .Rn ; Bn / mit D f n . Dann besitzt die n -Dichte x 7! f .x y/d.y/. Falls außerdem D g n , ist Z f g.x/ f .x y/g.y/d n .y/ eine n -Dichte von . Beweis. Für A 2 Bn folgt durch Substitution, iteriertes Integrieren, Einsetzen der Dichte, der Translationsinvarianz des Lebesgue-Maßes und Vertauschen der Integrationsreihenfolge
57
Kapitel 3 Integration
Z Z .A/ D
Z Z IA .x C y/d.x/d.y/ D
Z Z D
IA .z/f .z
IA .x C y/f .x/d n .x/d.y/ Z Z y/d n .z/d.y/ D f .z y/d.y/d n .z/: A
Die Formel .f n / .g n / D .f g/ n folgt nun mit Satz 3.10.
Für unabhängige Exp./-verteilte Zufallsvariablen X1 ; : : : ; Xn erhalten wir mit der Pn Faltungsformel und vollständiger Induktion j D1 Xj n; mit
n; .x/
n xn .n 1/Š
1
e
x
I.0;1/ .x/:
˛
Allgemeiner ist durch die -Dichte ˛; .x/ .˛/ x ˛ 1 e x I.0;1/ .x/ die Gammaverteilung ˛; mit Parametern ˛ > 0 und > 0 definiert. Dabei ist .˛/ R ˛ 1 e y d.y/ die Gammafunktion, und mit der Substitution y D x folgt, y .0;1/ dass ˛; tatsächlich ein Wahrscheinlichkeitsmaß auf B ist. Es gilt .1/ D 1 und wegen partieller Integration .˛ C 1/ D ˛.˛/ also insbesondere .n/ D .n 1/Š für n 2 N. Für ˛; ˇ > 0 und x > 0 folgt mit der Substitution y D tx Z
˛; ˇ; .x/ D
˛; .x y/ ˇ; .y/d .y/
˛Cˇ e D .˛/.ˇ/
x
Z
˛Cˇ D x ˛Cˇ .˛/.ˇ/
y/˛
.x
1 ˇ 1
y
d .y/
.0;y/
1
e
x
Z .1
t /˛
1 ˇ 1
t
d.t /:
.0;1/
R B.˛; ˇ/ .0;1/ .1 t/˛ 1 t ˇ 1 d .t / heißt Betafunktion. Weil ˛; ˇ; und
˛Cˇ; Dichten von Wahrscheinlichkeitsmaßen sind, erhalten wir durch Integration obiger Gleichung .˛/.ˇ/ D .˛ C ˇ/B.˛; ˇ/ und damit ˛; ˇ; D ˛Cˇ; . Die Familie der Gammaverteilungen enthält nicht nur Faltungen Exp. / Exp./ als Spezialfall. Sei X eine N.0; 1/-verteilte Zufallsvariable mit Verteilungs2 funktion ˆ.z/ P .X z/. Ist F die Verteilungsfunktion von P X , so gilt F .z/ D p p p p 0 für z 0 und F .z/ D P .X 2 z/ D P .X 2 Œ z/ z; z/ D ˆ. z/ ˆ. für z > 0. F ist also stetig und auf R n f0g stetig differenzierbar mit
p p 1 z/ D z '0;1 . z/ C z 1=2 '0;1 . 2 . 1 / z 1=2 D p e z=2 D p 2 1 ; 1 .z/ für z > 0: 2 2 2
F 0 .z/ D
1 z 2
1=2
1=2
p '0;1 . z/
58
Kapitel 3 Integration
Weil F 0 und 1 ; 1 Dichten von Verteilungen sind, folgt insbesondere . 12 / D 2 2
p ,
und wir erhalten X 2 1 ; 1 . Für unabhängige N.0; 1/-verteilte Zufallsvariablen P 2 2 X1 ; : : : ; Xn folgt dann jnD1 Xj2 n ; 1 . Diese Verteilung spielt in der Statistik 2 2
eine wichtige Rolle und heißt auch n2 -Verteilung. Zum Abschluss dieses Kapitels behandeln wir ein paradox anmutendes Beispiel über die „Haltbarkeit von Rekorden“, man denke dabei etwa an die Jahreshochwasser eines Flusses. Sei .Xn /n2N eine unabhängige Folge identisch verteilter positiver Zufallsvariablen, so dass Q P X1 eine stetige Verteilungsfunktion F besitzt. Wir definieren T inffn 2 W Xn > X1 g mit inf ¿ 1 als den ersten Zeitpunkt, zu dem X1 übertroffen wird. T nimmt Werte T in N [ f1g an, und für m 2 gilt fT > mg D fX2 X1 ; : : : ; Xm X1 g D m nD2 fXn X1 g, was insbesondere die Messbarkeit von T impliziert. Die Ereignisse fXn X1 g sind nicht unabhängig, wohl aber die Ereignisse fXn xg für festes x 2 R. Für A f.x1 ; : : : ; xm / 2 Rm W x2 x1 ; : : : ; xn x1 g 2 Bn folgt mit der Charakterisierung der Unabhängigkeit in Satz 3.17 und iteriertem Integrieren P .T > m/ D P .X1 ;:::;Xm / .A/ D P X1 ˝ P .X2 ;:::;Xm / .A/ Z Z D IA .x1 ; x2 ; : : : ; xm /dP .X2 ;:::;Xm / .x2 ; : : : ; xm /dP X1 .x1 / Z D
P
m \
fXn xg dP X1 .x/ D
Z Y m
nD2
Z D
F .x/m
P .Xn x/dP X1 .x/
nD2 1
dP X1 .x/ D
Z
Fm
1
Z dQ D
ym
1
dQF .y/
wegen der Substitutionsregel. Um dieses Integral zu berechnen, zeigen wir, dass QF die Gleichverteilung auf .0; 1/ ist. Für jedes Y U.0; 1/ gilt F ı Y Q wegen des Korrespondenzsatzes 2.7, wobei F .y/ D inffx 2 R W F .x/ yg die inverse Verteilungsfunktion ist. Wegen der Stetigkeit nimmt F jeden Wert y 2 .0; 1/ an, was F ı F .y/ D y impliziert. Damit folgt Y D F ı F ı Y QF . Durch Einsetzen der Dichte von U.0; 1/ erhalten wir nun Z P .T > m/ D
ym .0;1/
1
d.y/ D
1 m
für alle m 2 N, insbesondere hängt also die Verteilung von T nicht von der Verteilung der Zufallsvariablen X1 ab. Die Stetigkeit von oben liefert P .T D 1/ D 0, und außerdem folgt P .T D m/ D P .T > m
1/
P .T > m/ D
1 m.m 1/
für m 2.
59
Kapitel 3 Integration
Mit der Bemerkung nach Levis Satz 3.2 erhalten wir die „erwartete Haltbarkeit des ersten Rekords“ E.T / D
1 X mD2
mP .T D m/ D
1 X mD2
1
m
1
D C1:
Aufgaben 3.1. Zeigen Sie, dass die Indikatorfunktion des Limes superior einer Folge von Mengen mit dem Limes superior der Indikatorfunktionen übereinstimmt. 3.2. Sei .; A; P / ein Wahrscheinlichkeitsraum. Zeigen Sie, dass durch d.A; B/ P .A4B/ mit der symmetrischen Differenz A4B .AnB/[.B nA/ eine vollständige Halbmetrik auf A definiert ist. (Sowohl für die Dreiecksungleichung als auch die Vollständigkeit ist die Tatsache jIA IB j D IA4B hilfreich.) Wann ist d ein Metrik? 3.3. Formulieren Sie die Sätze von Levi, Lebesgue und Fubini für das Zählmaß auf .N; P .N// als Aussagen über Reihen. 3.4. Bestimmen Sie die Erwartungswerte E.X/ und E.X 2 / einer Poisson-verteilten Zufallsvariablen X . Berechnen Sie diese Erwartungswerte ebenfalls für geometrisch, exponential-, U.0; 1/- und ˛; -verteilte Zufallsvariablen. P1 n 3.5. Zeigen Sie, dass X nD0 . 1/ R IŒn;nC1/ nicht bezüglich des LebesgueMaßes integrierbar ist und dass limr!1 Œ0;r X d existiert. 3.6. Zeigen Sie durch Differenziation der Verteilungsfunktion, dass für unabhängige X; Y N.0; 1/ der Quotient Z X=Y Cauchy-verteilt ist. Zeigen Sie dazu mit R Hilfe des Satzes von Fubini P .X=Y t; Y > 0/ D .0;1/ ˆ.ty/'.y/d .y/ mit der N.0; 1/-Dichte ' und zugehöriger Verteilungsfunktion ˆ, und benutzen Sie für die Differenziation dieses Parameterintegrals Satz 3.7. R 3.7. Finden Sie Xn 2 MC .R; B/ mit Xn d D 1 für alle n 2 N, so dass die Folge gleichmäßig gegen 0 konvergiert. 3.8. Seien .; A; / eine Maßraum, I R und f t 2 M.; A/ für t 2 I , Rso dass die Abbildung t 7! f t .!/ für jedes ! 2 stetig ist. Zeigen Sie, dass t 7! f t d stetig ist, falls es g 2 L1 .; A; / mit jf t j g für alle t 2 I gibt. 3.9. Seien X1 ; : : : ; Xn unabhängige exponentialverteilte Zufallsvariablen. Bestimmen Sie -Dichten der Verteilungen von maxfX1 ; : : : ; Xn g und minfX1 ; : : : ; Xn g. 3.10. Seien .X; B; / und .Y; C; / -endliche Maßräume, f 2 MC ..X; B/ ˝ .Y; C// und g 2 MC .X; B/. Zeigen Sie, dass durch K.x; / f .x; / ein Kern von .X; B/ und .Y; C/ definiert ist und dass für Q g das Maß Q ˝ K die ˝ -Dichte h.x; y/ f .x; y/g.x/ besitzt (falls Q und K -endlich sind).
60
Kapitel 3 Integration
3.11. Zeigen Sie, dass durch K.˛; / Exp.˛/ ein Markov-Kern von ..0; 1/; B \ .0; 1// nach .R; B/ definiert ist, und berechnen Sie für P Exp.1/ eine -Dichte der Verteilung Q P K. 3.12. Zeigen Sie, dass nicht -endlich ist. 3.13. Bestimmen Sie -Dichten von Q Q und Q Q Q für die Gleichverteilung Q D U.0; 1/. 3.14. Zeigen Sie N.0; 1/ N.0; 1/ D N.0; 2/ und U.0; 1/ B.1; 12 / D U.0; 2/.
3.15. Berechnen Sie für unabhängige X; Y N.0; 1/ die Erwartungswerte der Zufallsvariablen jX C Y j, X ^ Y und X _ Y . 3.16. Seien X; Y unabhängige Zufallsvariablen mit X Exp.˛/ und Y Exp.ˇ/. Berechnen Sie P .X < Y /. R R 2 2 3.17. Zeigen Sie c .0;1/ e x =2 d .x/ D y .0;1/ e .xy/ =2 d .x/ für alle y > 0 und dann mit dem Satz von Fubini (und natürlich ohne Satz 3.16 zu benutzen) c 2 D =2. R 3.18. Zeigen Sie limr!1 .0;r/ sinx x d.x/ D 2 . Benutzen Sie dazu die Identität R 1 xt d.t/, iterierte Integration und für den Grenzübergang dominierte x D .0;1/ e Konvergenz.
3.19. Seien f W R ! R stetig differenzierbar und X eine Zufallsvariable mit f ıX 2 L1 . Zeigen Sie (wie im Beweis der partiellen Integrationsregel) Z Z E.f ı X f .0// D f 0 .t/P .X > t/d .t/ f 0 .t /P .X < t/d.t /: .0;1/
. 1;0/
Kapitel 4
Konvergenz von Zufallsvariablen
Viele Situationen, in denen von Wahrscheinlichkeiten die Rede ist, zeichnen sich durch ihre „Wiederholbarkeit“ aus. Man kann eine Münze immer wieder werfen, und es ist plausibel anzunehmen, dass sich die Würfe gegenseitig nicht beeinflussen. Wir untersuchen deshalb in diesem Kapitel dieP Konvergenz von Zufallsvariablen Xn und 1 insbesondere die Folge der „Zeitmittel“ n jnD1 Xj . Dabei spielen verschiedene Konvergenzbegriffe und Metriken eine Rolle. Wir beginnen mit einem Abstandsbegriff, der eng mit der Integrationstheorie des letzten Kapitels zusammenhängt. Für einen Maßraum .; A; /, X 2 M.; A/ und 1 p < 1 definieren wir Z 1=p kX kp jXjp d
mit der Vereinbarung 11=p 1 sowie kX k1 inffC 0 W jXj C -fast sicherg mit inf ¿ 1. Ist Cn > kX k1 eine Folge mit Cn ! kXk1 , so erhalten wir 1 [ X .jX j > kX k1 / D fjX j > Cn g .jX j > Cn / D 0; n2N
nD1
also gilt jXj kXk1 -fast sicher. Das Infimum in der Definition ist also ein Minimum. Für 1 p 1 und a 2 R gilt die Homogenität kaX kp D jajkX kp , und wir zeigen nun auch die Dreiecksungleichung. Satz 4.1 (Hölder- und Minkowski-Ungleichung) Seien X; Y 2 M.; A/ und p; q 2 Œ1; 1 mit p1 C kX kp kY kq und kjX j C jY jkp kXkp C kY kp .
1 q
D 1. Dann gelten kXY k1
Beweis. Für p D 1 (und analog q RD 1) folgt aus jXj kX k1 fast sicher und der Monotonie des Integrals kXY k1 kX k1 jY jd D kXk1 kY k1 . Falls kX kp kY kq D 0, ist wegen Satz 3.5.4 jXY j D 0 -fast sicher und daher kXY k1 D 0. Für kX kp kY kq D 1 ist nichts zu zeigen, und es bleibt also der wesentliche Fall 1 < p; q < 1 und 0 < kX kp kY kq < 1. Wegen der Homogenität können wir dann kX kp D kY kq D 1 annehmen. Das entscheidende Argument ist nun die Konvexität der Exponentialfunktion. Für alle s; t 2 R gilt e s e t D exp p1 sp C q1 tq p1 exp.sp/ C q1 exp.tq/ D p1 .e s /p C q1 .e t /q ;
62
Kapitel 4 Konvergenz von Zufallsvariablen
was jxyj p1 jxjp C q1 jyjq für alle x; y 2 R impliziert. Die Monotonie und Additivität des Integrals liefern damit Z Z kXY k1 p1 jX jp d C q1 jY jq d D p1 kX kpp C q1 kY kqq D 1 D kXkp kY kq :
Die zweite Ungleichung folgt für p D 1 aus jXj kXk1 und jY j kY k1 -fast sicher, und sie ist im Fall p D 1 eine Identität. Für kX kp C kY kp D 1 ist nichts zu zeigen und andernfalls ist A kjXj C jY jkp < 1, weil .jX j C jY j/p .2 maxfjX j; jY jg/p D 2p .jXjp _ jY jp / 2p .jXjp C jY jp /: 1/ D p
Mit der schon bewiesenen Hölder-Ungleichung folgt wegen q.p Z p A D .jXj C jY j/.jX j C jY j/p 1 d D kX.jXj C jY j/p kXkp kjX j C
1
k1 C kY.jX j C jY j/p
jY jkpp=q p 1
D .kXkp C kY kp /A
C kY kp kjX j C
1
k1
jY jkpp=q
:
Wie schon vor Satz 3.7 für p D 1 definieren wir nun für p 2 Œ1; 1 Lp Lp .; A; / fX W .; A/ ! .R; B/ messbar W kXkp < 1g: Wegen der Minkowski-Ungleichung ist Lp für jedes 1 p 1 ein Vektorraum und k kp ist eine Halbnorm auf Lp , das heißt kaX kp D jajkX kp für a 2 R und X 2 Lp sowie kX C Y kp kX kp C kY kp . Allerdings impliziert kX kp D 0 nicht, dass X D 0 die Nullfunktion (also das Nullelement in Lp ) ist. Wegen Satz 3.5.4 gilt kX kp D 0 genau dann, wenn X D 0 -fast sicher. Die -fast sichere Gleichheit definiert eine Äquivalenzrelation, und wir bezeichnen (vorübergehend) die zu X 2 Lp gehörige Äquivalenzklasse mit XQ fY 2 Lp W X D Y -fast sicherg D fY 2 Lp W kX
Y kp D 0g:
Weil für X1 2 XQ und Y1 2 YQ auch X1 C Y1 D X C Y -fast sicher gilt, sind durch XQ C YQ X C Y und aXQ aX für a 2 R eine Addition und skalare Multiplikation für Lp Lp .; A; / fXQ W X 2 Lp g definiert. Q und wegen der unteren DreiecksLp ist also ein Vektorraum mit Nullelement 0, ungleichung jkX kp kY kp j kX Y kp haben äquivalente Funktionen gleiche Q p kXkp eine Abbildung Lp ! Œ0; 1/ wohlp-Normen. Deshalb ist durch kXk definiert. k kp ist wiederum homogen und erfüllt die Dreiecksungleichung, und für Q p D 0 gilt nun XQ D 0, Q das heißt, k kp ist eine Norm auf Lp . kXk Wir bezeichnen die Elemente von Lp meistens wieder mit X und schreiben kkp D k kp . Auch wenn manche Leser das vergessen haben sollten: So etwas macht man
B
e
63
Kapitel 4 Konvergenz von Zufallsvariablen
schon in der Schule, wenn man mit Brüchen n=m (also Klassen der durch n=m p=q, falls nq D mp, definierten Äquivalenzrelation) rechnet. Entscheidend dabei ist, dass man nur Eigenschaften betrachtet, die unabhängig vom Repräsentanten einer Äquivalenzklasse sind (also nicht etwa Eigenschaften wie „ungerader Nenner“ im Schulbeispiel). Die Halbnormen k kp liefern einen ersten wichtigen Konvergenzbegriff. Für messbare Abbildungen X; Xn W .; A/ ! .R; B/ schreiben wir Xn ! X in Lp , falls kXn Xkp ! 0. Für 1 p < 1 nennen wir dies auch Konvergenz im p-ten Mittel. Xn ! X in L1 ist äquivalent zu Xn ! X gleichmäßig -fast sicher, aber diese Konvergenzart spielt in der Stochastik kaum eine Rolle. Falls ./ < 1, gilt für messbares X W .; A/ ! .R; B/ und 1 p < q < 1 wegen der Hölder 1 1 Ungleichung für q q p D1 C pq 1=p
kX kp D kI jX jp k1
1=p
kI k
q
q p
1=p
kjX jp kq=p D ./1=p
1=q
kX kq ;
und diese Ungleichung gilt auch für q D 1. Für p < q und endliches Maß gilt also Lq Lp und Konvergenz in Lq impliziert Konvergenz in Lp . Wegen der Dreiecksungleichung ist jede in Lp konvergente Folge .Xn /n2N eine Cauchy-Folge, das heißt, für jedes " > 0 gibt es ein N 2 N, so dass kXn Xm kp < " für alle n; m N . Umgekehrt gilt: Satz 4.2 (Vollständigkeit von Lp ) Jede Cauchy-Folge .Xn /n2N in Lp .; A; / konvergiert in Lp .; A; /. Beweis. Wegen der Cauchy-Eigenschaft gibt es natürliche Zahlen n.k C 1/ > n.k/ mit kXn X kp 1=2k für alle n; m n.k/, und wir definieren Y 2 M.; A/ Pm1 durch Y kD1 jXn.kC1/ Xn.k/ j. Für p < 1 folgt mit monotoner Konvergenz und der Minkowski-Ungleichung kY kp D
lim
m!1 1 X
Z X m
jXn.kC1/
Xn.k/ j
p
!1=p d
kD1
kXn.kC1/
Xn.k/ kp 1;
kD1
und die gleiche Abschätzung gilt auch für p D 1. Wegen Satz 3.5.5 ist .Y D 1/ D 0, und indem wir (ohne die Bezeichnung zu ändern) alle Funktionen auf fY D 1g zu 0 modifizieren, können wir durch X Xn.1/ C
1 X kD1
.Xn.kC1/
Xn.k/ /
64
Kapitel 4 Konvergenz von Zufallsvariablen
eine .A; B/-messbare Abbildung definieren. Für jedes k 2 N gilt für diese „TeleP1 skopreihe“ X Xn.k/ D j Dk .Xn.j C1/ Xn.j / /, und wie eben erhalten wir kX
Xn.k/ kp
1 X
kXn.j C1/
Xn.j / kp
j Dk
Ist nun " > 0 und .1=2/k kX
Xn kp kX
2
1 X
1=2j D 2
kC1
:
j Dk
< ", so gilt für alle n n.k/ Xn.k/ kp C kXn.k/
Xn kp 1=2k
1
C 1=2k < ";
das heißt Xn ! X in Lp .
Die Vollständigkeit von Lp spielt oft eine zentrale Rolle in Existenzbeweisen, etwa im Satz 4.15 unten. Die folgende (beinahe triviale) Ungleichung ermöglicht, Konvergenz in Lp mit anderen Konvergenzbegriffen zu vergleichen. Satz 4.3 (Chebychev–Markov-Ungleichung) p Für X 2 M.; A/, 1 p < 1 und " > 0 gilt .jXj "/ " p kX kp : R R p Beweis. "p .jX j "/ D "p IfjX j"g d jXjp d D kXkp . Für kXn
Xkp ! 0 folgt aus dieser einfachen Ungleichung .jXn
X j "/ ! 0 für jedes " > 0:
Wir nennen die Bedingung -stochastische Konvergenz und schreiben Xn ! X.
Für Xn ! X und Xn ! Y folgt mit Stetigkeit von unten und der Sub-Additivität .X ¤ Y / D lim .jX "!0
Y j > "/
lim lim sup .jXn "!0 n!1
X j "=2/ C .jXn
Y j "=2/ D 0:
Wie im Fall der Lp -Konvergenz sind also auch stochastische Grenzwerte -fast sicher eindeutig. Die Bezeichnung stochastische Konvergenz ist für nicht-normierte Maße unüblich (in der Literatur wird oft die Bezeichnung „Konvergenz nach Maß“ benutzt), und wir beschränken uns nun auf Wahrscheinlichkeitsmaße. Wir schreiben L0 L0 .; A; P / fX W .; A/ ! .R; B/ messbarg für die Menge aller Zufallsvariablen (wegen jXj0 D 1 ist dies konsistent mit der Bezeichnung Lp für p 1/ und L0 D L0 .; A; P / für den Vektorraum der Äquivalenzklassen P -fast sicher gleicher Zufallsvariablen.
65
Kapitel 4 Konvergenz von Zufallsvariablen
Satz 4.4 (Metrisierbarkeit der stochastischen R Konvergenz) Für X; Y; Z 2 L0 .; A; P / und %.X; Y / 1^jX Y jdP gilt die DreiecksungleiP
chung %.X; Z/ %.X; Y / C %.Y; Z/, und Xn ! X ist äquivalent zu %.Xn ; X / ! 0. Beweis. Wegen 1 ^ .jXj C jY j/ .1 ^ jXj/ C .1 ^ jY j/ folgt %.X; Z/ %.X; Y / C %.Y; Z/ aus der Dreiecksungleichung für den Betrag und der Additivität des Integrals. Für " 2 .0; 1/ liefert die Chebychev–Markov-Ungleichung P .jXn
Xj "/ D P .1 ^ jXn
X j "/ "
1
%.Xn ; X /:
Also impliziert %.Xn ; X/ ! 0 die stochastische Konvergenz. Andererseits gilt für jedes " > 0 und n 2 N Z Z %.Xn ; X/ D 1 ^ jXn XjdP C 1 ^ jXn XjdP fjXn X j " D lim P . sup jXm X j > "/ D 0 n!1
n!1
mn
mn
für alle " > 0. Insbesondere impliziert die fast sichere Konvergenz die stochastische, und wegen P der Sub- -Additivität ist die als vollständige Konvergenz bezeichnete Bedingung 1 Xj > "/ < 1 für alle " > 0 hinreichend für die fast nD1 P .jXn sichere Konvergenz. Eine einfache aber oft nützliche Eigenschaft der Konvergenz in halbmetrischen Räumen .X; d / ist, dass eine Folge .xn /n2N genau dann gegen x konvergiert, wenn jede Teilfolge von .xn /n2N eine weitere gegen x konvergente Teilfolge besitzt: Weil jede Teilfolge wieder gegen x konvergiert, ist die Bedingung notwendig, und falls .xn /n2N nicht gegen x konvergiert, gibt es " > 0, so dass J fn 2 N W d.xn ; x/ "g unendlich ist, und für jede unendliche Menge K J konvergiert auch .xn /n2K nicht gegen x. Satz 4.6 (Teilfolgenkriterium) P
Für X; Xn 2 L0 .; A; P / gilt Xn ! X genau dann, wenn jede Teilfolge eine weitere Teilfolge besitzt, die fast sicher gegen X konvergiert. Beweis. Weil fast sichere die stochastische Konvergenz impliziert, ist die Bedingung P
nach obiger Bemerkung hinreichend. Ist andererseits Xn ! X und .Xn /n2J eine Teilfolge, so gibt es n.j / 2 J mit n.j / > n.j 1/ und P .jXn X j 21j / 1=2j für alle n 2 J mit n n.j /. Dann ist K fn.j / W j 2 J g eine unendliche Teilmenge, so dass für alle " > 0 X X X P .jXn.j / Xj "/ P .jXn.j / X j "/ C 1=2j < 1; j 2J
2
j >"
das heißt, .Xn /n2K konvergiert sogar vollständig gegen X. P
2
j "
P
Wegen Satz 4.6 impliziert Xn ! X für stetiges f W R ! R wiederum f ı Xn ! f ı X (für nicht gleichmäßig stetiges f ist diese sehr plausible Aussage allein mit der Definition nur sehr schwer zu beweisen). Eine weniger erfreuliche Anwendung von Satz 4.6 ist, dass die fast sichere Konvergenz (für die meisten Wahrscheinlichkeitsräume .; A; P /) keine Konvergenz in einem halbmetrischen Raum ist. Wegen der Bemerkung vor Satz 4.6 wären sonst nämlich stochastische und P -fast sichere Konvergenz äquivalent. Falls es unabhängige ErP P eignisse An 2 A mit P .An / ! 0 und 1 nD1 P .An / D 1 gibt, gilt Xn IAn ! 0 wegen P .jXn j "/ D P .An / ! 0 für jedes " 2 .0; 1, aber andererseits hat
67
Kapitel 4 Konvergenz von Zufallsvariablen
fXn 6! 0g D lim supn!1 An wegen des Borel–Cantelli-Lemmas 2.3 Wahrscheinlichkeit 1. Für ein explizites Beispiel wählen wir etwa gemäß Satz 2.6 eine unabhängige Folge .Yn /n2N von U.0; 1/-verteilten Zufallsvariablen auf einem Wahrscheinlichkeitsraum .; A; P / und setzen An fYn 1=ng. Um den genauen Zusammenhang zwischen Lp -Konvergenz und stochastischer Konvergenz zu klären, bemerken wir zuerst, dass für die Gleichverteilung auf dem Raum .Œ0; 1; B \ Œ0; 1/ und ˛ > 0 die Folge Xn n˛ IŒ0;1=n fast sicher und damit auch stochastisch R gegen 0 konvergiert, und dass Xn ! 0 in Lp genau dann gilt, wenn kXn kp D n˛ . IŒ0;1=n d/1=p D n˛ 1=p ! 0, also wenn ˛ < 1=p. Für ˛ D p 1 P
erhalten wir also Beispiele von Folgen in Lp mit Xn ! 0 und kXn kp D 1 für alle n 2 N. Eine Menge M L1 .; A; P / heißt gleichgradig integrierbar, falls Z lim sup jXjdP D 0: r!1 X2M
fjXjrg
Für X 2 L1 folgt aus jX jIfjXjrg ! 0 und dem Satz von Lebesgue, dass fX g und damit auch jede endliche Teilmenge von L1 gleichgradig integrierbar ist, weil mit M und K auch M [ K diese Bedingung erfüllt. Außerdem ist dann auch die als Minkowski-Summe bezeichnete Menge M C K fX C Y W X 2 M; Y 2 Kg gleichgradig integrierbar, weil fjX C Y j rg fjXj jY j; jY j r=2g [ fjY j jXj; jX j r=2g und daher Z
Z jX C Y jdP fjXCY jrg
Z 2jY jdP C
fjY jr=2g
2jX jdP:
fjXjr=2g
Schließlich sind mit M auch aM faX W X 2 M g für a 2 R und die Menge fY 2 L1 .; A; P / W es gibt X 2 M mit jY j jXjg gleichgradig integrierbar. Satz 4.7 (Stochastische und Lp -Konvergenz) Seien 1 p < 1 und X; Xn 2 Lp .; A; P /. Dann gilt Xn ! X in Lp genau P
dann, wenn Xn ! X und fjXn jp W n 2 Ng gleichgradig integrierbar ist. Beweis. Die Lp -Konvergenz impliziert wegen Satz 4.3 die stochastische, und wir zeigen erst, dass jXn X jp gleichgradig integrierbar ist. Ist " > 0, so gibt es ein p N 2 N mit kXn Xkp < " für n N , und es gibt r > 0, so dass Z jXn X jp dP < " für 1 n < N: ˛.n; r/ fjXn X jp rg
Aus ˛.n; r/ kXn
p
Xkp folgt dann ˛.n; r/ < " für alle n 2 N.
68
Kapitel 4 Konvergenz von Zufallsvariablen
Wegen jXn jp .jXn Xj C jX j/p 2p .jXn X jp C jXjp / folgt die gleichgradige Integrierbarkeit von fjXn jp W n 2 Ng aus obiger Bemerkung über MinkowskiSummen gleichgradig integrierbarer Mengen. Mit dem gleichen Argument folgt aus der gleichgradigen Integrierbarkeit der Menge fjXn jp W n 2 Ng die von fjXn X jp W n 2 Ng. Wegen Satz 4.6 und der vorangehenden Bemerkung können wir annehmen, dass Xn ! X P -fast sicher gilt, und mit Z Z kXn Xkpp D jXn Xjp dP C jXn X jp IfjXn X jp 1. Dies folgt aus Z Z 1 p jXjdP D r jXjr p 1 dP r 1 p kX kpp : fjX jrg
fjXjrg
Aus diesem Kriterium erhalten wir insbesondere, dass für eine Lp -beschränkte Folge und 1 q < p stochastische und Lq -Konvergenz äquivalent sind. Die Theorie der Lp -Räume ist am einfachstenR und „ergiebigsten“ im Fall p D 2, weil k k2 durch das Skalarprodukt hX; Y i X Y dP erzeugt wird. Wir werden gleich einige allgemeine Aussagen über Hilbert-Räume zeigen, wollen aber vorher die damit verbundenen stochastischen Begriffe einführen, die in der Wahrscheinlichkeitstheorie und vor allem in der Statistik eine ausgezeichnete Rolle spielen. Für X; Y 2 L2 .; A; P / heißen Kov.X; Y / E .X E.X //.Y E.Y // Kovarianz; Var.X / Kov.X; X / D E .X E.X //2 Varianz und Kor.X; Y / .Var.X/Var.Y //
1=2
Kov.X; Y / Korrelationskoeffizient.
p Im Sinn der Halbnorm k k2 misst also die Standardabweichung Var.X / D kX E.X /k2 die Abweichung vom Erwartungswert. Wegen der Hölder-Ungleichung ist
k.X
E.X//.Y
E.Y //k1 kX
E.X /k2 kY
E.Y /k2 ;
so dass Kov.X; Y / wohldefiniert ist und jKor.X; Y /j 1 gilt. Aus der Linearität des Erwartungswerts folgen die Verschiebungsformel Kov.X; Y / D E.X Y /
E.X/E.Y /
69
Kapitel 4 Konvergenz von Zufallsvariablen
und die Bilinearität der Kovarianz, das heißt, für jedes X 2 L2 ist Y 7! Kov.X; Y / linear. Damit folgt die häufig benutzte Identität Var
n X
n X X Xj D Var.Xj / C 2 Kov.Xi ; Xj /:
j D1
i <j
j D1
Die L2 -Zufallsvariablen X und Y heißen unkorreliert, falls Kov.X; Y / D 0, und für paarweise unkorrelierte X1 ; : : : ; Xn 2 L2 gilt die Gleichheit von Bienaimé n n X X Var Xj D Var.Xj /: j D1
j D1
R Wegen E.X/ D x dP X .x/ und E.X 2 / D x 2 dP X .x/ hängt die Varianz Var.X/ nur von der Verteilung P X ab, und das gleiche Argument zeigt, dass die Kovarianz nur von der gemeinsamen Verteilung P .X;Y / abhängt. Wir haben vor Satz 3.16 für eine N.; 2 /-verteilte Zufallsvariable Y ausgerechnet, dass 2 D Var.Y / gilt. Die Parameter von N.; 2 / sind also der Erwartungswert und die Varianz 2 . Für X Exp. / erhalten wir mit partieller Integration Z ˇ1 Z 2 2 2 x 2 xˇ E.X / D x e d .x/ D x e 2xe x d .x/ D E.X/; ˇ C 0 .0;1/ .0;1/ R
also Var.X/ D E.X 2 / E.X /2 D 1= 2 . Der folgende Satz zeigt, dass unabhängige Zufallsvariablen X; Y 2 L2 unkorreliert sind. Das ist sowohl für konkrete Rechnungen als auch für die Theorie fundamental. Sind etwa X1 ; : : : ; Xn unabhängige B.1; p/-verteilte Zufallsvariablen, so liefert Satz 4.8 mit der Gleichheit von Bienaimé n n X X Var Xj D Var.X1 / D np.1 p/: j D1
j D1
Wegen X1 C C Xn B.n; p/ folgt damit Var.X/ D np.1 verteilte Zufallsvariable.
p/ für jede B.n; p/-
Satz 4.8 (Multiplikationssatz) Für unabhängige Zufallsvariablen X; Y 2 L1 gilt E.X Y / D E.X /E.Y /. Beweis. Für positive X und Y folgt wegen P .X;Y / D P X ˝ P Y durch iteriertes Integrieren Z Z E.XY / D xy dP .X;Y / .x; y/ D xy dP X ˝ P Y .x; y/ Z Z D xy dP X .x/dP Y .y/ D E.X/E.Y /:
70
Kapitel 4 Konvergenz von Zufallsvariablen
Wegen der Stetigkeit ist der Betrag .B; B/-messbar, was / impliR .jX j/ X .X Y ziert. Deshalb sind auch jXj; jY j unabhängig, und es gilt jxyjdP ˝ P .x; y/ D E.jXj/E.jY j/ < 1. Also ist Fubinis Satz auch in der allgemeinen Situation anwendbar. Der folgende Satz interpretiert Varianz und Korrelationskoeffizient als Maße dafür, wie gut sich X 2 L2 durch eine Konstante – wie sich herausstellt, ist dies gerade der Erwartungswert – beziehungsweise eine affine Funktion in der Variablen Y , die sogenannte Ausgleichsgerade, approximieren lässt: Satz 4.9 (Ausgleichsgerade) q
Seien X; Y 2 L2 , a gelten:
1. min kX 2R
2. min kX a;b2R
k22 D kX
Var.X/ Var.Y /
Kor.X; Y / und b E.X/
a E.Y /. Dann
E.X/k22 D Var.X/.
.aY C b/k22 D kX
.a Y C b /k22 D Var.X /.1
Kor.X; Y /2 /.
Beweis. kX k22 D kXk22 2E.X/ C 2 ist für D E.X / minimal. Wenden wir dies bei festem a 2 R auf X aY an, so ist kX .aY C b/k2 für b D E.X / aE.Y / minimal, und das Minimum ist wegen der Bilinearität der Kovarianz Var.X aY / D Var.X/ 2aKov.X; Y / C a2 Var.Y /. Minimieren bezüglich a liefert die Behauptung.
Der nun folgende Satz ist zwar relativ leicht zu beweisen, aber von herausragender Bedeutung für Interpretationen und Anwendungen der Wahrscheinlichkeitstheorie. Satz 4.10 (Gesetz der großen Zahlen in L2 ) Für paarweise unkorrelierte Xn 2 L2 .; A; P / mit C supn2N Var.Xn / < 1 gilt n ˇ 1 X ˇ P ˇ .Xj n j D1
und
n 1X .Xj n
ˇ C ˇ E.Xj //ˇ " 2 für alle " > 0, n"
E.Xj // ! 0 gilt sowohl in L2 als auch P -fast sicher.
j D1
P Beweis. Seien Yj Xj E.Xj / und Zn n1 jnD1 Yj . Mit der Chebychev– Markov-Ungleichung und der Gleichheit von Bienaimé folgt "2 P .jZn j "/ kZn k22 D n
2
Var
n X j D1
Yj D n
2
n X
Var.Yj / n
1
C ! 0:
j D1
P1 Es bleibt die fast sichere Konvergenz zu zeigen. Wegen nD1 P .jZn2 j "/ P 2 < 1 konvergiert Z C ="2 1 n sogar vollständig und daher auch fast sicher n2 nD1
71
Kapitel 4 Konvergenz von Zufallsvariablen
gegen 0. Für n 2 N sei nun m.n/ maxfm 2 N W m2 ng, so dass m.n/2 Pm.n/2 1 n < .m.n/ C 1/2 . Dann gilt jZn j j m.n/ 2 j D1 Yj j C jRn j und wir müssen noch 1 Pn zeigen, dass Rn n j Dm.n/2 C1 Yj fast sicher gegen null konvergiert. Erneut mit der Chebychev–Markov-Ungleichung und der Gleichheit von Bienaimé folgt für " > 0
"2 P .jRn j "/ Var.Rn / D
1 n2
n X j Dm.n/2 C1
Var.Yj / C
n
m.n/2 n2
m.n/ .m.n/ C 1/2 1 m.n/2 D 2C 2 2C n 3=2 : n n2 P 3=2 folgt R ! 0 P -fast sicher wieder wegen Wegen der Konvergenz von 1 n nD1 n der vollständigen Konvergenz. C
Satz 4.10 ist insbesondere auf unabhängige Folgen .Xn /n2N identisch verteilter Zufallsvariablen mit X1 2 L2 .; A; P / anwendbar. Dann gilt nämlich E.Xn / D E.X1 / und Var.Xn / D Var.X1P / für alle n 2 N, und das Gesetz der großen Zahlen besagt, dass das „Zeitmittel“ n1 jnD1 Xj fast sicher gegen den „theoretischen Mittelwert“ E.X1 / konvergiert. Wir werdenP später in Satz 6.13 und unabhängig davon noch 1 einmal in Satz 8.7 beweisen, dass n jnD1 Xj ! E.X1 / fast sicher auch unter der schwächeren Voraussetzung X1 2 L1 .; A; P / gilt. Das Gesetz der großen Zahlen ist nicht nur für die Wahrscheinlichkeitstheorie fundamental, sondern hat auch Anwendungen in nicht-stochastischen Zusammenhängen. Wir illustrieren dies durch:
Satz 4.11 (Weierstraßscher Approximationssatz) Für jede stetige Funktion f W Œ0; 1 ! R gibt es eine Folge .pn /n2N von Polynomen mit supx2Œ0;1 jf .x/ pn .x/j ! 0. Beweis. Wir zeigen die Behauptung mit Hilfe der Bernstein-Polynome ! n X n j pn .x/ f .j=n/ x .1 x/n j : j j D0
Für " > 0 gibt es wegen der gleichmäßigen Stetigkeit von f ein ı > 0 mit jf .x/ f .y/j < "=2 für alle jx yj < ı. Seien K supx2Œ0;1 jf .x/j, n " 1 ı 2 K, x 2 Œ0; 1 und X1 ; : : : ; Xn unabhängige B.1; x/-verteilte Zufallsvariablen auf einem P Wahrscheinlichkeitsraum .; A; P /. Wegen Sn jnD1 Xj B.n; x/ folgt dann n n 1X X E f ı Xj D f .j=n/P .Sn D j / D pn .x/: n j D1
j D1
72
Kapitel 4 Konvergenz von Zufallsvariablen
Für A fjx jf .x/
Sn =nj < ıg erhalten wir damit wegen E.Sn =n/ D x Z Z pn .x/j jf .x/ f .Sn =n/jdP C jf .x/ f .Sn =n/jdP Ac
A
n ˇ 1 X ˇ "=2 C 2KP ˇ Xj n
ˇ ˇ xˇ ı
j D1
2K "=2 C 2 Var.X1 / "=2 C K=2nı 2 < "; nı
weil Var.X1 / D x.1
x/ 1=4.
Der gleiche Beweis zeigt, dass jedes stetige f W Œ0; 1m ! R gleichmäßiger Grenzj j wert einer Folge von Linearkombinationen der „Monome“ x11 xmm ist, und durch Transformation mit einer affinen Abbildung erhält man den Weierstraßschen Satz für alle stetigen Funktionen f W I ! R auf kompakten m-dimensionalen Intervallen. Wir wollen nun einige Folgerungen aus der Vollständigkeit von L2 .; A; / ziehen, und dies ist in einer abstrakteren Situation einfacher als im konkreten Fall. Eine reellwertige, symmetrische und bilineare Abbildung H H ! R, .x; y/ 7! hx; yi auf einem Vektorraum H über R heißt Skalarprodukt, falls hx; xi 0 für alle x 2 H . Symmetrie und Bilinearität bedeuten dabei hx; yi D hy; xi beziehungsweise hx; ay C bzi D ahx; yi C bhx; zi für alle x; y; z 2 H und a; b 2 R. Meistens wird in der Literatur darüber hinaus gefordert, dass hx; xi D 0 nur für das Nullelement x D 0 gilt. Diese Definitheit benötigt man aber für Existenzaussagen wie im folgenden Satz nicht, und wir lassen den Fall hx; xi D 0 auch für x ¤ 0 zu, um das wichtige Beispiel H D L2 .; A;p / nicht auszuschließen. hx; xi eine Halbnorm auf H definiert ist. Die Wir zeigen nun, dass durch kxk p 2 Homogenität folgt aus kaxk D a hx; xi D jajkxk. Für x; y 2 H und 2 R folgt mit der Bilinearität durch „Ausmultiplizieren“
0 kx C yk2 D hx; xi C 2hx; yi C 2 hy; yi: Durch Minimieren bezüglich , also D hx; yi=hy; yi für y ¤ 0, folgt zunächst die Cauchy–Schwarz-Ungleichung jhx; yij kxkkyk, und mit D 1 folgt damit kx C yk2 .kxk C kyk/2 . Addition beziehungsweise Subtraktion der Gleichungen für D 1 und D 1 liefern außerdem die Parallelogrammgleichung kx C yk2 C kx
yk2 D 2.kxk2 C kyk2 /
und die Polarisierungsidentität kx C yk2 kx yk2 D 4hx; yi. H heißt Halb-Hilbert-Raum, falls die Halbmetrik d.x; y/ kx yk vollständig ist. Wir nennen H einen (echten) Hilbert-Raum, falls außerdem kxk D 0 nur für x D 0 gilt.
73
Kapitel 4 Konvergenz von Zufallsvariablen
Wegen Satz 4.2 ist L2 .; A; / für jeden Maßraum .; A; / ein Halb-HilbertR Raum mit dem Skalarprodukt hX; Y i D X Y d. Die zentrale Folgerung aus der Vollständigkeit ist der folgende Approximationssatz. Die „topologischen“ Begriffe wie Abgeschlossenheit und Konvergenz beziehen sich natürlich auf die Halbmetrik kx yk. Eine Menge A H heißt konvex, falls mit a; b 2 A und 2 Œ0; 1 auch aC.1 /b 2 A gilt. Durch dist.x; A/ inffkx yk W y 2 Ag ist der Abstand von x zu A definiert. Satz 4.12 (Bestapproximation) Seien H ein Halb-Hilbert-Raum und ¿ ¤ A H abgeschlossen und konvex. Dann gibt es für jedes x 2 H ein a 2 A mit kx ak D dist.x; A/. Diese Bestapproximation ist eindeutig, falls H ein echter Hilbert-Raum ist. Beweis. Sei .yn /n2N eine Folge in A mit kx yn k ! d dist.x; A/. Mit der Parallelogrammgleichung für x yn und x ym und der Homogenität folgt kyn
ym k2 D 2.kx
2kx
yn k2 C kx
y m k2 /
4kx
yn k2 C 2kx
y m k2
4d 2 :
. 21 yn C 12 ym /k2
Daher ist .yn /n2N eine Cauchy-Folge, die wegen der Vollständigkeit von H und der Abgeschlossenheit von A gegen ein Element a 2 A konvergiert. Wegen kx ak kx yn k C kyn ak folgt kx ak D d . Ist b 2 A ein weiteres Element mit kx bk D d , so folgt aus obiger Rechnung mit yn D a und ym D b, dass ka bk2 D 0 gilt. Für einen Hilbert-Raum impliziert dies a D b. Elemente x; y eines Vektorraums mit Skalarprodukt heißen orthogonal zueinander, falls hx; yi D 0. Für eine Teilmenge A H heißt x orthogonal zu A und wir schreiben dann x ? A, falls hx; ai D 0 für alle a 2 A. Die Menge A? fx 2 H W x ? Ag heißt Orthogonalkomplement von A. Wegen der Linearität und Stetigkeit der Abbildungen x 7! hx; T ai (letztere folgt aus jhx; ai hy; aij D jhx y; aij ? kx ykkak/ ist A D a2A fx 2 H W hx; ai D 0g ein abgeschlossener Teilraum von H . Satz 4.13 (Orthogonalprojektion) Seien H ein Halb-Hilbert-Raum und L H ein abgeschlossener Teilraum. 1. Für x 2 H und z 2 L gilt kx
zk D dist.x; L/ genau dann, wenn x
z ? L.
2. Ist H ein echter Hilbert-Raum, so gibt es genau eine Abbildung P W H ! L mit kx P .x/k D dist.x; L/ für alle x 2 H . P ist linear mit P ı P D P , kP .x/k kxk und x P .x/ ? L für alle x 2 H . Beweis. 1. Falls kx
zk D dist.x; L/ d , folgt für alle y 2 L und t 2 R
d 2 kx
.z C ty/k2 D d 2
2thx
z; yi C t 2 kyk2 ;
74
Kapitel 4 Konvergenz von Zufallsvariablen
was hx z; yi D 0 impliziert (weil sonst das Polynom t 7! t 2 kyk2 2t hx z; yi für kyk ¤ 0 zwei verschiedene Nullstellen hätte). Falls andererseits x z ? L, folgt für alle y 2 L kx
yk2 D kx
zCz
yk2 D kx
zk2 C kz
yk2 kx
zk2 :
2. Wegen Satz 4.12 gibt es genau eine Abbildung P W H ! L mit kx dist.x; L/. Wegen des ersten Teils gilt x P .x/ ? L, was kxk2 D kx
P .x/ C P .x/k2 D kx
P .x/k D
P .x/k2 C kP .x/k2 kP .x/k2
impliziert. Für y 2 L gilt P .y/ D y, und dies liefert P .P .x// D P .x/. Für x; y 2 H und a; b 2 R ist aP .x/ C bP .y/ 2 L und ax C by
.aP .x/ C bP .y// D a.x
P .x// C b.y
P .y// 2 L? :
Wegen der ersten Aussage folgt damit die Linearität.
Wir können jetzt Satz 4.9 als Aussagen über Orthogonalprojektionen interpretieren: E.X / ist die Bestapproximation in L fX 2 L2 W X P -fast sicher konstantg und die Varianz kX E.X /k22 ist das Quadrat des „Approximationsfehlers“. Analog ist a Y C b die Bestapproximation in L faY C b W a; b 2 Rg. Als letztes allgemeines Ergebnis zeigen wir nun einen Darstellungssatz für stetige lineare Funktionale auf einem Halb-Hilbert-Raum. Wie oben gesehen, ist für jedes a 2 H die Abbildung x 7! hx; ai linear und stetig, und umgekehrt gilt: Satz 4.14 (Rieszscher Darstellungssatz) Seien H ein Halb-Hilbert-Raum und ' W H ! R linear und stetig. Dann gibt es ein a 2 H mit '.x/ D hx; ai für alle x 2 H . Beweis. Wegen der Stetigkeit ist L fx 2 X W '.x/ D 0g in H abgeschlossen. Falls L D H , hat a D 0 die Darstellungseigenschaft, und andernfalls gibt es b 2 H mit '.b/ D 1. Wegen Satz 4.12 und 4.13.1 gibt es z 2 L mit b z ? L. Für jedes x 2 H ist x '.x/b 2 L, so dass 0 D hx
'.x/b; b
zi D hx; b
zi
'.x/hb; b
zi:
Für x D b z folgt hb; b zi D kb zk2 ¤ 0, und mit a kb erhalten wir '.x/ D hx; ai für alle x 2 H .
zk
2 .b
z/
Als Anwendung des Darstellungssatzes charakterisieren wir nun, wann ein Maß auf A eine Dichte bezüglich eines anderen Maßes besitzt. Wir nennen absolutstetig bezüglich und schreiben dann , falls für jedes Ereignis A 2 A mit .A/ D 0 auch .A/ D 0 gilt. R Ist D f und .A/ D 0, so folgt f .A/ D A f d D 0 aus Satz 3.5.4, das heißt, Absolutstetigkeit ist notwendig für die Existenz einer Dichte. Umgekehrt gilt:
75
Kapitel 4 Konvergenz von Zufallsvariablen
Satz 4.15 (Radon–Nikodym) Seien und zwei -endliche Maße auf .; A/ mit . Dann gibt es eine positive messbare Funktion f W .; A/ ! .R; B/ mit D f . Beweis (nach von Neumann). Wir nehmen zunächst an, dass Rund endliche R Maße sind und setzen C . Mit Standardschluss folgt dann X d D X d C R X d für alle X 2 L1 .;R A; /. Auf H L2 .; A; / ist wegen der HölderUngleichung durch '.X / X d eine stetige lineare Abbildung definiert, und wegen des Darstellungssatzes gibt es Z 2 L2 .; A; / mit Z Z X d D hX; Zi D XZ d für alle X 2 L2 .; A; /: R Für X D IfZ N / f d n K
lim sup 1 m!1
m!1 K
m!1
P .kY k C "m kX k > N / 1
:
w
Ist nun Q0 f n , so folgt P Y C"m X ! Q0 aus Satz 5.1, und wegen Satz 5.3.2 gilt w andererseits P Y C"m X ! P Y D Q. Die Eindeutigkeit der Grenzverteilung liefert also Q D Q0 D f n . Mit Hilfe der Umkehrformel können wir zum Beispiel die Fourier-Transformierte 1 der Cauchy-Verteilung f mit f .x/ D 1 1Cx 2 bestimmen (die man üblicherweise mit dem Residuensatz berechnet). Dazu betrachten wir die Doppel-Exponentialverteilung Q g mit g.x/ 21 e jxj und berechnen mit dem Hauptsatz der Integralrechnung
90
Kapitel 5 Verteilungskonvergenz und Fourier-Transformation
1 O Q.u/ D 2
Z
1 D 2
. 1;0
e .iuC1/x d .x/ C
1 1 C iu C 1 iu 1
D
1 2
Z
e .i u
1/x
d .x/
Œ0;1/
1 : 1 C u2
Insbesondere ist QO 2 L1 .R; B; I C/, und die Umkehrformel liefert Z Z 1 1 i ux O e iux f .u/d .u/: e Q.u/d .u/ D g.x/ D 2 2
Also ist e jxj die Fourier-Transformierte von f . Dieses Beispiel zeigt, dass die Differenzierbarkeitsaussage aus Satz 5.4.5 ohne die Integrierbarkeitsvoraussetzung im Allgemeinen falsch ist. Satz 5.6 (Lévys Stetigkeitssatz und Eindeutigkeit) w Für Verteilungen Qm und Q auf .Rn ; Bn / gilt Qm ! Q genau dann, wenn O QO m .u/ ! Q.u/ für alle u 2 Rn . Insbesondere ist Q durch QO eindeutig bestimmt. O Beweis. Die Notwendigkeit von QO m .u/ ! Q.u/ folgt aus der Definition der schwai hu;xi chen Konvergenz und der Euler-Formel e D coshu; xiCi sinhu; xi. Für m 2 N0 seien andererseits X und Ym unabhängige Zufallsvektoren auf einem Wahrscheinlichkeitsraum .; A; P / mit Ym Qm , Y0 Q und X D .X1 ; : : : ; Xn / mit unabhängigen N.0; 1/-verteilten Komponenten. Für ˛ > 0 haben die Verteilungen P Ym C˛X D P Ym P ˛X wegen der Umkehrformel n -Dichten Z gm;˛ .x/ .2/ n e ihu;xi QO m .u/ .˛u/d n .u/; wobei wie vorhin .u/ D exp. kuk2 =2/ die charakteristische Funktion von X ist. Mit dominierter Konvergenz folgt gm;˛ .x/ ! g0;˛ .x/ für alle x 2 Rn und damit d
d
Ym C ˛X ! Y0 C ˛X wegen SatzR5.1 und 5.2. UmR Ym ! Y0 zu zeigen, müssen wir wegen des Portmanteau-Theorems f ıYm dP ! f ıY0 dP für jedes gleichmäßig stetige f 2 Cb .Rn / zeigen. Zu " > 0 wählen wir ı > 0 mit jf .y C x/ f .y/j < "=6 n für alle kxk ı und R y 2 R , ˛ > 0 mit P .k˛Xk > ı/ "=12kf k1 und schließlich m0 2 N, so dass j f ı .Ym C ˛X / f ı .Y0 C ˛X /dP j "=3 für alle m m0 . Für m m0 folgt wie im Beweis zu Satz 5.3 ˇZ ˇ ˇ ˇ f ı Y f ı Y dP ˇ ˇ m 0 Z "=3 C jf ı .Ym C ˛X / f ı Ym j C jf ı .Y0 C ˛X / f ı Y0 jdP "=3 C 4kf k1 P .k˛Xk > ı/ C 2"=6 ": Die Eindeutigkeitsaussage folgt nun aus der Eindeutigkeit der Grenzverteilung.
91
Kapitel 5 Verteilungskonvergenz und Fourier-Transformation
Mit Hilfe der Eindeutigkeitsaussage in Satz 5.6 kann man oft die Verteilungen von Summen unabhängiger Zufallsvariablen, also die Faltung der Verteilungen der Summanden, leicht berechnen. Für X B.n; p/ gilt wegen des Binomialsatzes ! n X iuj n 'X .u/ D e p j .1 p/n j D .pe i u C 1 p/n : j j D0
Sind nun X; Y unabhängig mit X B.n; p/ und Y B.m; p/, so folgt mit Satz 5.4.3 'XCY .u/ D 'X .u/'Y .u/ D .pe iu C 1 p/nCm ; und der Eindeutigkeitssatz impliziert X C Y B.n C m; p/. Genauso können wir nun die Faltung von Normalverteilungen berechnen. Sind X; Y unabhängig mit X N.; 2 / und Y N.m; s 2 /, so folgt 'X CY .u/ D 'X .u/'Y .u/ D e iu e
2 u2 =2 imu
e
e
s 2 u2 =2
D e i.Cm/u e
. 2 Cs 2 /u2 =2
:
Wegen des Eindeutigkeitssatzes gilt daher X C Y N. C m; 2 C s 2 /, wobei die Besonderheit darin liegt, dass X C Y überhaupt normalverteilt ist, die Parameter ergeben sich auch aus der Linearität des Erwartungswerts und der Gleichheit von Bienaimé. Außer für solche Rechnungen (deren Ergebnisse man auch mit etwas größerer Mühe mit der Faltungsformel 3.18 hätte zeigen können) hat der Satz 5.6 weitreichende Konsequenzen für die Wahrscheinlichkeitstheorie. Satz 5.7 (Fourier-Charakterisierung der Unabhängigkeit) Seien .; A; P / ein Wahrscheinlichkeitsraum und Xj W .; A/ ! .Rnj ; Bnj / Zufallsvektoren. X1 ; : : : ; Xm sind genau dann unabhängig, wenn für alle uj 2 Rnj '.X1 ;:::;Xm / ..u1 ; : : : ; um // D
m Y
'Xj .uj /:
j D1
Qm
Beweis. Nach Satz 5.4.2 ist .u1 ; : : : ; um / 7! j D1 'Xj .uj / die Fourier-Transformierte von P X1 ˝ ˝ P Xm . Wegen der Eindeutigkeit der Fourier-Transformation ist die Bedingung im Satz also äquivalent zu P .X1 ;:::;Xm / D P X1 ˝ ˝ P Xm , was nach Satz 3.16 die Unabhängigkeit charakterisiert. Der folgende Satz ermöglicht oft, mehrdimensionale Probleme auf eindimensionale zurückzuführen. Seinen Charme gewinnt er auch aus der Tatsache, dass die Aussage – die mit charakteristischen Funktionen nichts zu tun hat – ohne Fouriertransformation „so gut wie nicht“ beweisbar ist. Satz 5.8 (Cramér–Wold-Technik) d
Für n-dimensionale Zufallsvektoren Xm und X gilt Xm ! X genau dann, wenn d
hv; Xm i ! hv; Xi für alle v 2 Rn mit kvk D 1.
92
Kapitel 5 Verteilungskonvergenz und Fourier-Transformation
Beweis. Für u ¤ 0 und v kuk 1 u gilt Z 'Xm .u/ D e i kukhv;Xm i dP D 'hv;Xm i .kuk/:
Die Normalverteilung spielte in den Beweisen der Umkehrformel und des Stetigkeitssatzes eine ausgezeichnete Rolle. Wir werden jetzt sehen, dass sie nicht nur für die Beweise zentral ist, sondern in vielen Situationen als Grenzverteilung auftritt. Satz 5.9 (Klassischer zentraler Grenzwertsatz) Sei .Xn /n2N eine unabhängige Folge identisch verteilter Zufallsvariablen Xn 2 L2 .; A; P /. Dann gilt n 1 X .Xj p n
d
E.Xj // ! X
j D1
mit einer N.0; Var.X1 //-verteilten Zufallsvariablen X. Beweis. Wir können E.Xj / D 0 annehmen und setzen 2 Var.X1 /. Mit Satz 5.4.4 p und 5.4.3 erhalten wir ' p1 Pn Xj .u/ D 'X1 .u= n/n für alle u 2 R. Mit Hilfe j D1 n p n 2 n/ ! e u =2 . Nach der Taylorentwicklung von ' 'X1 zeigen wir nun '.u= R Satz 5.4.5 istR' zweimal differenzierbar mit ' 0 .0/ D i X1 dP D iE.X1 / D 0 und ' 00 .u/ D i 2 X12 e i hu;X1 i dP . Wegen des Satzes von Lebesgue ist ' 00 stetig, und es gilt ' 00 .0/ D E.X12 / D 2 . Wir erhalten damit '.u/ D 1 2 u2 =2 C o.u/ mit einer Funktion o W R ! R, so dass o.u/=u2 ! 0 für u ! 0. Für jedes u 2 R folgt nun p p n 2 u2 =2 C o.u= n/n n '.u= n/ D 1 ! exp. 2 u2 =2/: n Weil dies die Fourier-Transformierte von N.0; 2 / ist, folgt die Behauptung aus Lévys Stetigkeitssatz.
Der zentrale Grenzwertsatz ist sowohl theoretische Rechtfertigung für Normalverteilungsannahmen als auch ein Hilfsmittel für viele Rechnungen. Ist etwa .Xn /n2N eine unabhängige Folge von B.1; p/-verteilten Zufallsvariablen, P so kann man wegen S jnD1 Xj B.n; p/ für a < b die Wahrscheinlichkeiten P P .S 2 .a; b/ D a<j b jn p j .1 p/n j im Prinzip bestimmen, aber für große natürliche Zahlen n 2 N lässt sich die Summe selbst numerisch schlecht berechnen. Andererseits gilt X n
n 1 X Xj p Xj 2 .a; b D p 2 .a ; b p n p.1 p/ j D1 j D1
mit a
p a np np.1 p/
und entsprechenden b , und wegen des zentralen Grenzwert-
93
Kapitel 5 Verteilungskonvergenz und Fourier-Transformation
satzes ist ˆ.b / ˆ.a / eine Näherung für die gesuchte Wahrscheinlichkeit, wobei ˆ die Verteilungsfunktion von N.0; 1/ ist (weil a und b von n abhängen, ist dies allerdings bloß eine Plausibilität und kein Beweis – hängen aber a und b von n ab, so dass a und b konstant sind, liefert der zentrale Grenzwertsatz tatsächlich eine Konvergenzaussage). In Zeiten, als es noch keine Computer gab, enthielt so gut wie jedes Buch über Statistik eine Wertetabelle für ˆ. Pn Als weitere Anwendung betrachten wir die Partialsummen Sn kD1 Xk einer unabhängigen Folge identisch verteilter Zufallsvariablen Xn . Die Folge .Sn /n2N dient etwa als Modell für den Kontostand eines Spielers, der in jeder Spielrunde den Einsatz Xn gewinnt (wobei negative Gewinne Verluste sind). Mit etwas mehr theoretischer Courage kann man Sn auch als einfaches Modell für den Kurs einer Aktie ansehen. Das Kolmogorovsche 0-1-Gesetz impliziert, dass die Wahrscheinlichkeit, im Laufe der Zeit beliebig hohe Kontostände zu haben, entweder 0 oder 1 ist. Falls X1 2 L2 .; A; P / mit E.X1 / D 0 (dann könnte man das Spiel als fair p d bezeichnen) und 2 Var .X1 / > 0 erhalten wir Sn = n ! X N.0; 2 /, und p Satz 5.2 liefert P .Sn = n > "/ ! 1 ˆ."= /, was für " ! 0 gegen 1=2 konvergiert. Mit der Stetigkeit von oben folgt
S 1 c n P sup Sn D 1 D lim P sup Sn c lim sup lim sup P p p D : c!1 2 n n c!1 n!1 n2N n2N
Das 0-1-Gesetz impliziert also P .supn2N Sn D 1/ D 1. Leider kann man dieses erfreuliche Ergebnis auch auf . Xn /n2N anwenden und erhält P .infn2N Sn D 1/ D 1. Wir nennen einen n-dimensionalen Zufallsvektor X D .X1 ; : : : ; Xn / multivariat normalverteilt (oder auch n-dimensional normalverteilt), falls für jedes u 2 Rn die Pu t Zufallsvariable hu; Xi D u X D j D1 uj Xj eindimensional normalverteilt ist, wobei wir das Dirac-Maß ıa in einem Punkt a 2 R als Normalverteilung mit Varianz 0 auffassen, das heißt, wir definieren N.a; 0/ ıa . Sind Y D .Y1 ; : : : ; Yn / ein Zufallsvektor mit unabhängigen N.0; 1/-verteilten Komponenten, A 2 Rmn und b 2 Rm , so ist X AY C b m-dimensional normalverteilt. Für u 2 Rm besitzt nämlich hu; Xi D ut AY C ut b wegen Satz 5.4.4 die charakteristische Funktion 'hu;X i .s/ D e ishu;bi 'Y .At us/ D e ishu;bi exp
t 2 2 1 2 kA uk s
;
wegen des Eindeutigkeitssatzes ist hu; Xi also N.ut b; kAt uk2 /-verteilt. Wir werden im Beweis des nächsten Satzes sehen, dass jede multivariate Normalverteilung wie in diesem Beispiel dargestellt werden kann. Dabei benutzen wir eine Folgerung der Hauptachsentransformation, dass nämlich jede symmetrische positiv semidefinite Matrix Q 2 Rnn eine Darstellung Q D AAt besitzt.
94
Kapitel 5 Verteilungskonvergenz und Fourier-Transformation
Satz 5.10 (Fourier-Charakterisierung der Normalverteilung) Ein Zufallsvektor X D .X1 ; : : : ; Xn / ist genau dann n-dimensional normalverteilt, wenn es 2 Rn und eine symmetrische positiv semidefinite Matrix Q 2 Rnn mit 'X .u/ D e i hu;i exp. 12 hu; Qui/ für alle u 2 Rn gibt. In diesem Fall ist Xj 2 L2 .; A; P /, D E.X / der Erwartungsvektor und Q D Kov.X / die Kovarianzmatrix von X .
Beweis. Für normalverteiltes X ist jede Komponente Xj D hej ; Xi eindimensional normalverteilt, und insbesondere gilt Xj 2 L2 .; A; P /. Mit E.X / und Q Kov.X/ erhalten wir für u 2 Rn Z 1 'X .u/ D e i hu;X i dP D 'hu;X i .1/ D e iE.hu;X i/ exp 2 Var.hu; Xi/ ;
was wegen E.hu; Xi/ D hu; i und Var.hu; X i/ D ut Kov.X/u die behauptete Darstellung liefert. Sei andererseits Y D .Y1 ; : : : ; Yn / ein Zufallsvektor mit unabhängigen N.0; 1/verteilten Komponenten. Ist A 2 Rnn mit Q D AAt , so ist nach obigem Beispiel AY C ein n-dimensional normalverteilter Zufallsvektor mit 'AY C .u/ D e i hu;i 'Y .At u/ D e i hu;i e
1 t 2 2 kA uk
D e i hu;i e
1 2 hu;Qui :
d
Wegen des Eindeutigkeitssatzes gilt also X D AY C , und daher ist X multivariat normalverteilt mit E.X/ D AE.Y / C D und Kov.X / D Kov.AY / D AKov.Y /At D AAt D Q. Für einen n-dimensional normalverteilten Zufallsvektor X mit E.X / D und Kov.X/ D Q hängt wegen des eben bewiesenen Satzes die Verteilung P X nur von und Q ab, und wir definieren N.; Q/ P X . Die Klasse der multivariaten Normalverteilungen zeichnet sich durch eine Reihe von Besonderheiten aus. Aus der Definition erhalten wir zum Beispiel sofort, dass für jede affine Abbildung T W Rn ! Rm das Bildmaß N.; Q/T wieder eine multivariate Normalverteilung ist. Satz 5.11 (Unkorreliertheit im Normalverteilungsmodell) Für Zufallsvektoren Xj D .Xj;1 ; : : : ; Xj;nj /, so dass X D .X1 ; : : : ; Xm / ein n D P m j D1 nj -dimensional normalverteilter Zufallsvektor ist, sind X1 ; : : : ; Xm genau dann unabhängig, wenn für alle i ¤ j und k 2 f1; : : : ; ni g, ` 2 f1; : : : ; nj g die Zufallsvariablen Xi;k und Xj;` unkorreliert sind. Beweis. Mit Xi und Xj sind auch die Komponenten Xi;k und Xj;` unabhängig und als normalverteilte Zufallsvariablen im L2 . Daher folgt die Unkorreliertheit aus dem Multiplikationssatz 4.8.
95
Kapitel 5 Verteilungskonvergenz und Fourier-Transformation
Ist andererseits die Bedingung im Satz erfüllt, so ist die Kovarianzmatrix Q Kov.X/ D .K.Xi ; Xj //i;j 2f1;:::;mg von der Form 0 1 Q1 : 0 :: A QD@ 0 Qm mit Qj Kov.Xj /. Für uj 2 Rnj und u .u1 ; : : : ; um / folgt mit Satz 5.10 'X .u/ D e i hu;E.X/i exp
1 2
m X
huj ; Qj uj i
j D1
D
m Y
e
i huj ;E.Xj /i
exp
1 2 huj ; Qj uj i
j D1
D
m Y
'Xj .uj /;
j D1
und Satz 5.7 liefert die Unabhängigkeit von X1 ; : : : ; Xm .
Als Anwendung dieses Satzes zeigen wir, dass für unabhängige identisch normal1 Pn verteilte Zufallsvariablen X1 ; : : : ; Xn das Stichprobenmittel X n j D1 Xj und P die Stichprobenvarianz S 2 n 1 1 jnD1 .Xj X /2 unabhängig sind. Der Zufallsvektor Y .X1 X; : : : ; Xn X ; X/ D AX mit einer geeigneten Matrix A 2 R.nC1/n und X .X1 ; : : : ; Xn / ist nämlich .n C 1/-dimensional normalverteilt, und für jedes j 2 f1; : : : ; ng sind Xj X und X unkorreliert, weil
E.X` Xk / D E.X12 / für ` D k und E.X` Xk / D .E.X1 //2 für ` ¤ k; was E..Xj
X /X/ D
n 1X E.Xj Xk / n kD1
n 1 X E.X` Xk / D 0 n2 k;`D1
impliziert. Also sind .X1 X; : : : ; Xn X / und X unabhängig und damit auch S 2 und X , weil die von S 2 erzeugte -Algebra in .X1 X ; : : : ; Xn X/ enthalten ist. Die Unabhängigkeit von Stichprobenmittel und -varianz im Normalverteilungsmodell ist von fundamentaler Bedeutung für die Statistik. Wegen des starken Gesetzes der großen Zahlen benutzt man X und S 2 als „Schätzung“ für den (unbekannten) Erwartungswert E.X1 / und die Varianz Var.X1 / (dabei hat S 2 gegenüber der eben1 Pn falls plausiblen Schätzung n j D1 .Xj X /2 den Vorteil der „Erwartungstreue“ 2 E.S / D Var.X1 //. Für die Belange der Statistik benötigt man die Verteilung von f .X; S 2 / für messbare Funktionen f W R2 ! R, die man ohne die Unabhängigkeit von X und S 2 nicht berechnen könnte. Bevor wir weitere Eigenschaften der Normalverteilung untersuchen, ein warnendes Beispiel: Satz 5.11 besagt nicht, dass unkorrelierte normalverteilte Zufallsvariablen unabhängig sind. Seien dazu X; Z unabhängige Zufallsvariablen mit X N.0; 1/
96
Kapitel 5 Verteilungskonvergenz und Fourier-Transformation d
und P .Z D ˙1/ D 1=2. Wegen X D
X gilt für Y XZ und B 2 B
P .Y 2 B/ D P .X 2 B; Z D 1/ C P . X 2 B; Z D 1 2 P .X
D
2 B/ C
1 2P.
1/
X 2 B/ D P .X 2 B/;
also ist Y ebenfalls N.0; 1/-verteilt. Wegen E.XY / D E.X 2 Z/ D E.X 2 /E.Z/ D 0 sind X und Y unkorreliert. Schließlich sind X; Y nicht unabhängig, weil sonst auch X 2 und Y 2 D X 2 unabhängig wären. Satz 5.12 (Multivariate Gaußdichte) Die n-dimensionale Normalverteilung N.; Q/ besitzt genau dann eine n -Dichte, wenn Q invertierbar ist. In diesem Fall ist ;Q .x/ ..2/n det Q/ 1=2 exp 12 hx ; Q 1 .x /i
eine n -Dichte von N.; Q/. Beweis. Seien X D .X1 ; : : : ; Xn / ein Zufallsvektor mit unabhängigen N.0; 1/-verteilten Komponenten und A 2 Rnn mit Q D AAt . Wie wir vor Satz 5.10 gesehen haben, gilt dann AX C N.; Q/. Wegen der Unabhängigkeit der Komponenten hat P X D X X1 ˝ ˝ P Xn die n -Dichte '0;1 ˝ ˝ '0;1 D 0;E mit der Einheitsmatrix E. Mit Q ist nun auch A invertierbar und wegen der Bemerkung nach Satz 3.10 hat N.; Q/ die n -Dichte j det1 Aj 0;E .A 1 .x // D ;Q .x/. Ist andererseits Q und damit At singulär, so gibt es u 2 Rn n f0g mit At u D 0. Für die Hyperebene H fx 2 Rn W hu; x i D 0g gilt dann P .AX C 2 H / D P .hu; AXi D 0/ D 1 und n .H / D 0, so dass N.; Q/ nicht absolutstetig bezüglich n ist.
Der zentrale Grenzwertsatz wird von Anwendern oft als Argument bemüht, um Größen, die sich aus „vielen unabhängigen Einflüssen zusammensetzen“ durch Normalverteilungen zu modellieren. Außer seiner Vagheit ist bei diesem Argument auch die in Satz 5.9 gemachte Voraussetzung der identischen Verteilung der Einflüsse häufig wenig plausibel. Deshalb zeigen wir nun, dass Summen unabhängiger „kleiner“ Zufallsvariablen auch ohne weitere Verteilungsannahmen asymptotisch normalverteilt sind. Satz 5.13 (Lindebergs zentraler Grenzwertsatz) Für jedes n 2 N seien Xn;1 ; : : : ; Xn;m.n/ unabhängige L2 -Zufallsvariablen mit Pm.n/ E.Xn;j / D 0 und j D1 Var.Xn;j / D 1, so dass die Lindeberg-Bedingung E
m.n/ X
2 Xn;j IfjXn;j j>"g ! 0
für alle " > 0
j D1
erfüllt ist. Dann gilt Sn
m.n/ P j D1
d
Xn;j ! X N.0; 1/.
97
Kapitel 5 Verteilungskonvergenz und Fourier-Transformation
Beweis. Wir zeigen zuerst, dass das Maximum der Varianzen cn;j Var.Xn;j / gegen null konvergiert, das heißt, die Summanden sind im Sinn der L2 -Norm klein. Für jedes " > 0 gilt Z 2 2 max cn;j D max Xn;j IfjXn;j j"g C Xn;j IfjXn;j j>"g dP 1j m.n/
1j m.n/ 2
" C
Z m.n/ X
2 Xn;j IfjXn;j j>"g dP;
j D1
und wegen der Lindeberg-Bedingung konvergiert dies gegen "2 . Seien nun 'n;j 'Xn;j die charakteristischen Funktionen und t 2 R fest. Dann Pm.n/ gilt wegen Satz 5.4.3 und j D1 cn;j D 1 j'Sn .t/
e
t 2 =2
ˇ m.n/ ˇY jDˇ 'n;j .t / j D1
m.n/ Y
e
ˇ m.n/ X j'n;j .t / ˇ
cn;j t 2 =2 ˇ
e
cn;j t 2 =2
j;
j D1
j D1
weil für alle komplexen : : : ; m mit Betrag kleiner oder gleich 1 ; : : : ; zm ; 1 ;P Q Zahlen zQ m m j j j gilt: Der Fall m D 2 1 die Ungleichung j jmD1 zj j j D1 j D1 jzj folgt wegen der Dreiecksungleichung aus z1 z2 1 2 D z1 .z2 2 / C 2 .z1 1 /, und damit ergibt sich der Fall m > 2 induktiv. 2 Um die Summanden j'n;j .t / e cn;j t =2 j weiter abzuschätzen, benutzen wir die (mit partieller Integration zu beweisende) Taylorentwicklung e
ix
m X
x
Z
k
.ix/ =kŠ D 1=mŠ
kD0
i m e i s .x
s/m ds:
0
Für m D 1 und m D 2 erhalten wir daraus je ix
.1 C ix/j jxj2 =2 sowie
je ix
.1 C ix
x 2 =2/j jxj3 =6 jxj3
und wegen der Dreiecksungleichung damit auch je ix .1Cix x 2 =2/j jxj2 ^jxj3 . 2 Wegen E.Xn;j / D 0 und E.Xn;j / D cn;j folgt daraus mit ˛ 1 _ jt j3 j'n;j .t /
ˇZ ˇ ˇ ˇ 2 .1 cn;j t 2 =2/j D ˇ e i tXn;j .1 C i tXn;j t 2 Xn;j =2/dP ˇ Z Z 3 2 2 jtXn;j j ^ jtXn;j j dP ˛ Xn;j .1 ^ jXn;j j/dP Z Z 2 2 ˛ Xn;j dP C ˛ Xn;j jXn;j jdP fjXn;j j>"g
2 ˛E.Xn;j IfjXn;j j>"g /
fjXn;j j"g
C ˛"cn;j
98
Kapitel 5 Verteilungskonvergenz und Fourier-Transformation
für jedes " > 0. Indem wir für jedes " > 0 die Lindeberg-Bedingung anwenden und dann " ! 0 betrachten, folgt damit m.n/ X
j'n;j .t /
.1
cn;j t 2 =2/j ! 0 für n ! 1:
j D1
Aus e x .1 x/ D x 0, und damit folgt m.n/ X
je
cn;j t 2 =2
Rx 0
.1
e
s .x
s/ds erhalten wir e
x
x/ x 2 =2 für
.1
cn;j t 2 =2/j
j D1
m.n/ t4 X 2 t4 cn;j 4 4
j D1
max
1j m.n/
cn;j
m.n/ X
cn;j ! 0
j D1
wegen max1j m.n/ cn;j ! 0. Wir haben damit 'Sn .t / ! e Lévys Stetigkeitssatz folgt die Behauptung.
t 2 =2
gezeigt, und mit
Satz 5.13 beinhaltet übrigens den klassischen zentralen Grenzwertsatz 5.9: Für eine unabhängige Folge .Xn /n2N identisch verteilter L2 -Zufallsvariablen mit Var.X1 / 2 > 0 ist die Lindeberg-Bedingung für m.n/ n und die Zufallsvariablen Xn;j .n 2 / 1=2 .Xj E.Xj // erfüllt, weil E
n X
2 Xn;j IfjXn;j j>"g D
2
E .X1
E.X1 //2 IfjX1
p E.X1 /j> n"g
j D1
wegen Lebesgues Satz gegen 0 konvergiert. Mit Hilfe der Cramér–Wold-Technik erhalten wir leicht eine mehrdimensionale Versionen des zentralen Grenzwertsatzes: Satz 5.14 (Multivariater zentraler Grenzwertsatz) Für jedes n 2 N seien Xn;1 ; : : : ; Xn;m.n/ unabhängige d -dimensionale L2 -ZufallsPm.n/ vektoren mit E.Xn;j / D 0 und j D1 Kov.Xn;j / D Q 2 Rd d , so dass E
m.n/ X
kXn;j k2 IfkXn;j k>"g ! 0
für alle " > 0:
j D1
Dann gilt Sn
m.n/ P
d
Xn;j ! X N.0; Q/.
j D1
Ist .Xn /n2N eine unabhängige Folge identisch verteilter L2 -Zufallsvektoren, so n P d .Xj E.Xj // ! N.0; Kov.X1 //. gilt p1n j D1
99
Kapitel 5 Verteilungskonvergenz und Fourier-Transformation
Pm.n/ d Beweis. Wegen Satz 5.8 müssen wir hu; Sn i D j D1 hu; Xn;j i ! N.0; hu; Qui/ für jedes u 2 Rn zeigen. Falls hu; Qui D 0, ist Var.hu; Sn i/ D 0, und dann ist hu; Sn i fast sicher 0. Andernfalls können wir Satz 5.13 auf XQ n;j hu; Qui 1 hu; Xn;j i anwenden. Wegen jhu; Xn;j ij kukkXn;j k folgt nämlich die Lindeberg-Bedingung für XQ n;j aus der Bedingung für kXn;j k. Die zweite Aussage folgt aus der ersten oder wiederum mit der Cramér–WoldTechnik aus dem klassischen zentralen Grenzwertsatz.
Aufgaben 5.1. Berechnen Sie die Fourier-Transformierte einer Poisson-verteilten Zufallsvariablen. 5.2. Zeigen Sie mit Hilfe des Eindeutigkeitssatzes, dass die Faltung von Poisson-Verteilungen wieder eine Poisson-Verteilung ist. w
5.3. Zeigen Sie den Poissonschen Grenzwertsatz B.n; pn / ! P o./ für npn ! mit Hilfe von Lévys Stetigkeitssatz. 5.4. Seien P; Q zwei Verteilungen auf .Rn ; Bn / mit P .H / D Q.H / für alle Halbräume H fx 2 Rn W hu; xi cg mit u 2 Rn und c 2 R. Zeigen Sie P D Q. 5.5. Zeigen Sie in der Situation von Satz 5.13, dass die Lyapunov-Bedingung m.n/ X
E.jXn;j j2Cr / ! 0 für ein r > 0
j D1
die Lindeberg-Bedingung impliziert. 5.6. Sei .Xn /n2N eine unabhängige Folge von nicht fast Psicher konstanten Zufallsvariablen mit jXn j c mit einer Konstanten c und sn jnD1 Var.Xj / ! 1. Zeigen Sie (mit Hilfe der vorangehenden Aufgabe) n 1 X .Xj p sn
d
E.Xj // ! X N.0; 1/:
j D1
5.7. Sei I D I1 [ [ Im eine disjunkte Zerlegung eines n-dimensionalen Intervalls I in disjunkte Intervalle Ij , so dass jedes Ij mindestens eine Seite mit ganzzahliger Länge besitzt. Zeigen Sie, dass auch I eine Seite mit ganzzahliger Länge hat. Falls Sie dazu eine Idee brauchen, lösen Sie zunächst die folgende Aufgabe. 5.8. Für f 2 L1 .Rn ; Bn ; n / ist die Fourier-Transformierte durch Z O f .u/ e i hu;xi f .x/d n .x/
100
Kapitel 5 Verteilungskonvergenz und Fourier-Transformation
definiert. Zeigen Sie, dass die Fourier-Transformation linear ist, beweisen Sie einen Eindeutigkeitssatz, und berechnen Sie die Fourier-Transformierte von Indikatorfunktionen von n-dimensionalen Intervallen. Charakterisieren Sie damit, wann ein Intervall mindestens eine Seite mit ganzzahliger Länge hat. d
5.9. Zeigen Sie für einen n-dimensionalen Zufallsvektor X, dass X D dann gilt, wenn die charakteristische Funktion 'X reellwertig ist.
X genau
5.10. Sei ' die charakteristische Funktion eines Zufallsvektors X. Zeigen Sie (etwa d
mit Hilfe einer von X unabhängigen Zufallsgröße Y D X und Z X Y ), dass auch j'j2 eine charakteristische Funktion ist. p d 5.11. Seien X; Y 2 L2 .; A; P / unabhängig mit .X C Y /= 2 D X . Zeigen Sie, dass X normalverteilt ist. Benutzen Sie dazu eine unabhängige Folge .Xn /n2N mit P n d Xn D X, und untersuchen Sie Yn p1 n j2D0 Xj . 2
5.12. Bestimmen Sie mit Hilfe von Satz 5.4.5 und der Reihenentwicklung der Exponentialfunktion alle Momente E.X n / einer Zufallsvariablen X N.0; 1/. 5.13. Zeigen Sie für eine stetige Funktion g W Rn ! Rk und eine Folge von Zufallsd
d
vektoren Xm ! X, dass g ı Xm ! g ı X gilt. 5.14. Zeigen Sie für eine gleichgradig integrierbare Folge .Xm /m2N von Zufallsvekd
toren mit Xm ! X , dass E.Xm / ! E.X / gilt. Betrachten Sie dazu die Funktionen fr .x/ r _ .x ^ r/. 5.15. Seien .Xn /n2N eine unabhängige Folge von P o.1/-verteilten Zufallsvariablen, P Y N.0; 1/ und Sm p1m jmD1 .Xj 1/. Zeigen Sie E.Sm / ! E.Y / und folp gern Sie daraus die Stirlingsche Formel nŠ 2 n. ne /n (wobei an bn bedeutet, dass der Quotient gegen 1 konvergiert). w
w
5.16. Seien Qm und m Verteilungen auf .Rn ; Bn / mit Qm ! Q und m ! . w w Zeigen Sie Qm ˝ m ! Q ˝ und Qm m ! Q . d
d
d
5.17. Zeigen Sie, dass aus Xm ! X und Ym ! Y im Allgemeinen nicht Xm CYm ! X C Y folgt. Beweisen Sie diese Verteilungskonvergenz, falls entweder Y fast sicher konstant ist, oder X und Y und für jedes m 2 N auch Xm und Ym stochastisch unabhängig sind. 5.18. Zeigen Sie für n 2 R und n 0, dass N.n ; n2 / genau dann schwach gegen eine Verteilung Q konvergiert, wenn n ! und n2 ! 2 . In diesem Fall ist Q D N.; 2 /. Die Hinlänglichkeit sowie die Notwendigkeit von n2 ! 2 folgen aus Lévys Stetigkeitssatz. Zeigen Sie für die Notwendigkeit von n ! zunächst mit Hilfe der
Kapitel 5 Verteilungskonvergenz und Fourier-Transformation
101
Chebychev–Markov-Ungleichung P .jXj < r/ Var.X /=.jE.X /j r/2 für jedes X 2 L2 und 0 < r < jE.X /j und dann mit Satz 5.2.3, dass n beschränkt ist. Dann folgt n ! durch Betrachten aller konvergenten Teilfolgen aus der Hinlänglichkeit der Bedingung und der Eindeutigkeit der Grenzverteilung. 5.19. Zeigen Sie mittels Fourier-Transformation, dass die Laplace-Verteilungen auf den Mengen f0; n1 ; n2 ; : : : ; 1g schwach gegen U.0; 1/ konvergieren und folgern Sie daraus Z n 1 X f jn ! f .x/d.x/ für alle f 2 Cb .R/: nC1 Œ0;1 j D0
5.20. Sei X eine Zufallsvariable mit j'X .t/j D 1 für ein t ¤ 0. Zeigen Sie, dass es a; b 2 R gibt mit P .aX C b 2 Z/ D 1.
Kapitel 6
Bedingte Verteilungen
Wir haben im 3. Kapitel für eine messbar parametrisierte Familie von Verteilungen und ein Wahrscheinlichkeitsmaß auf dem Parameterraum durch Integration das Produktmaß als ein gemeinsames Modell sowohl für den Parameter als auch die Verteilungsfamilie eingeführt. In diesem Kapitel ist das Vorgehen umgekehrt: Wir fassen die Werte y einer Zufallsgröße Y als Information – oder Parameter – der Verteilung P X auf und wollen eine Parametrisierung von P X bezüglich y so konstruieren, dass wir als „integriertes Modell“ die Verteilung von .Y; X/ erhalten. Solange nichts anderes gesagt wird, betrachten wir stets einen Wahrscheinlichkeitsraum .; A; P / und Zufallsgrößen X und Y mit Werten in Messräumen .X; B/ beziehungsweise .Y; C/. Sei K ein Markov-Kern von .Y; C/ nach .X; B/, also eine Abbildung K W Y B ! Œ0; 1, so dass K.y; / für jedes y 2 Y eine Verteilung auf .X; B/ und K.; B/ für jedes B 2 B bezüglich .C ; B/-messbar ist. Wir nennen P X j Y K eine bedingte Verteilung von X unter Y und schreiben dann P .X 2 B j Y D y/ P X j Y Dy .B/ K.y; B/, falls Z P .X 2 B j Y D y/dP Y .y/ für alle B 2 B und C 2 C P .X 2 B; Y 2 C / D C
(wegen des Maßeindeutigkeitssatzes reicht diese Bedingung auch für schnittstabile Erzeuger von B und C, die X beziehungsweise Y enthalten). Wegen Satz 3.14 bedeutet dies gerade P Y ˝ P X j Y D P .Y;X/ , und insbesondere ist Z P X .B/ D P .X 2 B j Y D y/dP Y .y/; also P Y P X j Y D P X : Wir nennen P .X 2 B j Y D y/ bedingte Wahrscheinlichkeit von fX 2 Bg unter der Hypothese Y D y. Diese Bezeichnung ist allerdings nicht ganz ungefährlich, weil P X j Y durch P; X und Y nicht eindeutig festgelegt ist: Falls P .Y 2 C / D 0, ist die charakterisierende Gleichung immer erfüllt, egal wie die Verteilung K.y; / für y 2 C definiert ist. Diese Ambiguität tritt nicht auf, wenn die Hypothese Y D y positive Wahrscheinlichkeit hat: Falls C D fyg 2 C und P .Y D y/ > 0, liefert die charakterisierende Gleichung P .X 2 B; Y D y/ D P .Y D y/P .X 2 B j Y D y/, also P .X 2 B j Y D y/ D
P .X 2 B; Y D y/ : P .Y D y/
Insbesondere für diskrete Verteilungen kann man also die bedingte Verteilung einfach durch eine Formel definieren – wenn man denn die gemeinsame Verteilung kennt.
103
Kapitel 6 Bedingte Verteilungen
Oft sind aber Annahmen über P X j Y Dy viel plausibler als über P .X;Y / , so dass die Schlichtheit der Formel etwas trügerisch ist. Zum Beispiel könnte P X j Y Dy die Verteilung der Ergebnisse eines medizinischen Tests in Abhängigkeit vom Gesundheitszustand des Patienten beschreiben. Falls man außerdem die die „A-priori-Verteilung“ (oder Hintergrundverteilung) P Y kennt, kann man dann P .X;Y / mit obiger Formel berechnen, die man dann wiederum benutzen kann, um die „A-posteriori-Verteilung“ P Y j X Dx zu bestimmen. Nehmen X und Y im einfachsten Fall nur die Werte 0 und 1 an (die als negatives oder positives Testergebnis beziehungsweise gesund oder krank interpretiert werden), so erhalten wir aus P .X D 1/ D P .Y D 1/P .X D 1 j Y D 1/ C P .Y D 0/P .X D 1 j Y D 0/ die Bayes Formel P .Y D 1 j X D 1/ D
P .Y D 1/P .X D 1 j Y D 1/ : P .Y D 1/P .X D 1 j Y D 1/ C P .Y D 0/P .X D 1 j Y D 0/
Typischerweise sind dabei die „A-priori-Wahrscheinlichkeit“ ˛ P .Y D 1/ für Krankheit sehr klein, die „Erkennungswahrscheinlichkeit“ P .X D 1 j Y D 1/ groß (also nahe 1) und die „Falsche-Alarm-Rate“ ˇ P .X D 1 j Y D 0/ ebenfalls klein. Die Wahrscheinlichkeit für Krankheit bei positivem Testergebnis ist dann also P .Y D 1 j X D 1/
1 ; 1 C ˇ=˛
und die hängt nicht bloß von der Falschen-Alarm-Rate ab (wie selbst Mediziner leider immer wieder irren), sondern von ihrem Verhältnis zur A-priori-Wahrscheinlichkeit. An diesem einfachen Beispiel sieht man schon die zwei Seiten bedingter Verteilungen: Einerseits kann man bedingte Wahrscheinlichkeiten zu gemeinsamen Modellen „integrieren“ und andererseits gemeinsame Verteilungen zu bedingten Verteilungen „disintegrieren“. Solange wir nichts über die Existenz bedingter Verteilungen wissen (die zeigen wir Q Q in Satz 6.6), interpretieren wir Aussagen wie zum Beispiel P X j Y D P X j Y so, dass jede bedingte Verteilung von X unter Y auch eine bedingte Verteilung von XQ unter YQ ist (wobei dann also keine Existenz behauptet wird). Bevor wir gleich ein Reihe von Methoden und Beispielen zur Disintegration behandeln, zeigen wir zunächst, inwieweit bedingte Verteilungen eindeutig sind. Bei festem B 2 B ist K.; B/ eine P Y -Dichte des Maßes P .X 2 B; Y 2 / und als solche P Y fast sicher eindeutig wegen Satz 3.9. In den meisten Fällen ist diese Eindeutigkeit sogar „gleichmäßig in B“:
104
Kapitel 6 Bedingte Verteilungen
Satz 6.1 (Eindeutigkeit) Falls B einen abzählbaren Erzeuger E besitzt, gilt für je zwei bedingte Verteilungen K und KQ von X unter Y PY
˚
Q y 2 Y W K.y; B/ D K.y; B/ für alle B 2 B
D 1:
Beweis. Indem wir zu dem System aller endlichen Schnitte übergehen, können wir E als schnittstabil annehmen. Wegen des Maßeindeutigkeitssatzes ist dann fy 2 Y W T Q Q K.y; / D K.y; /g D B2E fy 2 Y W K.y; B/ D K.y; B/g 2 C, und wegen der Y Q B/g/ D 1 für jedes Eindeutigkeit von Dichten aus Satz 3.9 gilt P .fK.; B/ D K.; B 2 E. In der Praxis versucht man „Versionen“ der nur P Y -fast sicher eindeutigen bedingten Verteilungen so zu bestimmen, dass die Abhängigkeit vom Parameter möglichst einfach ist – also zum Beispiel nicht bloß messbar, wie in der Definition von MarkovKernen gefordert, sondern etwa stetig (falls Y ein metrischer Raum ist). Oft ist dann P X j Y Dy durch diese zusätzliche Forderung für alle y 2 Y eindeutig festgelegt. Wir betrachten jetzt einige konkrete Situationen, in denen man bedingte Verteilungen leicht angeben kann: Im Extremfall X D f .Y / der Abhängigkeit mit einer messbaren Abbildung f W Y ! X ist wegen Z P .X 2 B; Y 2 C / D
C
IB ı f dP
Y
Z D
ıf .y/ .B/dP Y .y/ C
durch P X j Y Dy D ıf .y/ eine bedingte Verteilung von X unter Y gegeben. Ist andererseits Y D g.X/ mit einem messbaren g W X ! Y, so ist es plausibel anzunehmen, dass P X j Y Dy .fg D yg/ D 1 für alle y 2 Y mit fg D yg 2 B 2 gilt. Für g W R ! R, x 7! x 2 legt dies die Vermutung nahe, dass P X j X Dy für p p p yg ist, die dem Ereignis f yg die positives y eine diskrete Verteilung auf f y; 2 Wahrscheinlichkeit P .X 0/ zuordnet. Definiert man noch P X j X Dy D ı0 für y < 0, so kann man tatsächlich die definierenden Gleichungen leicht verifizieren. Im entgegengesetzten Fall, dass X und Y unabhängig sind, liefert die Charakterisierung in Satz 3.16 durch P .Y;X/ D P Y ˝ P X , dass der konstante Kern K.y; / P X genau dann eine bedingte Verteilung von X unter Y ist, wenn X und Y stochastisch unabhängig sind. Dies ist die im 2. Kapitel versprochene Charakterisierung der stochastischen Unabhängigkeit als Unabhängigkeit der Familie P X j Y Dy vom Parameter y. Allgemeiner erhalten wir aus dem Zusammenhang von Unabhängigkeit und Produktmaßen:
105
Kapitel 6 Bedingte Verteilungen
Satz 6.2 (Unabhängige Komponenten) Q Q Seien P X j Y und P X j Y bedingte Verteilungen von X unter Y beziehungsweise XQ unter YQ . Falls .X; Y / und .XQ ; YQ / unabhängig sind, gilt Q
Q
Q
Q
Q P .X;X/ j .Y;Y /D.y;y/ D P X j Y Dy ˝ P X j Y DyQ :
Q und CQ 2 CQ ist wegen P .Y;YQ / D P Y ˝ P YQ Beweis. Für B 2 B, C 2 C, BQ 2 B Z Q Q .Y;YQ / Q P X j Y Dy ˝ P X j Y DyQ .B B/dP .y; y/ Q C CQ
Q D P .Y 2 C; X 2 B/P .YQ 2 CQ ; XQ 2 B/ Q D P ..Y; YQ / 2 C CQ ; .X; XQ / 2 B B/: Q und fC CQ W C 2 C; CQ 2 Cg Q schnittstabile Erzeuger Weil fB BQ W B 2 B; BQ 2 Bg Q Q von B ˝ B beziehungsweise C ˝ C sind, folgt mit dem Dynkinargument, dass der Q wie in der Definition gefordert bezüglich „Produktkern“ bei festem M 2 B ˝ B Q C ˝ C messbar ist, und dass er eine bedingte Verteilung von .X; XQ / unter .Y; YQ / definiert. Die folgende sehr einfache Transformationsregel liefert damit weitere Möglichkeiten, bedingte Verteilungen zu berechnen. Satz 6.3 (Transformation) Q B/ Q messbar, so gilt Ist P X j Y eine bedingte Verteilung und f W .X; B/ ! .X; f ıX j Y Dy X j Y Dy 1 P DP ıf . Q gilt P .f ı X 2 B; Y 2 C / D P .X 2 f Beweis. Für B 2 B R X j Y Dy 1 .f .B//dP Y .y/: C P
1 .B/; Y
2 C/ D
Wir erhalten jetzt eine sehr plausible Methode zur Berechnung bedingter Verteilungen: Hängt Z vermöge Z D f .X; Y / von den unabhängigen Variablen X und Y ab und ist der Wert y von Y bekannt, so setze man ihn einfach in die Formel ein: Satz 6.4 (Bedingen durch Einsetzen) Für unabhängige Zufallsgrößen X; Y und messbares f W .X; B/˝.Y; C/ ! .Z; D/ ist durch P f .X;Y / j Y Dy P f .X;y/ eine bedingte Verteilung von f .X; Y / unter Y definiert. Beweis. Wegen der Unabhängigkeit und Satz 6.2 ist P .X;Y / j Y Dy D P X ˝ P Y j Y Dy D P X ˝ ıy ; und mit der Transformationsregel folgt P f .X;Y / j Y Dy D P .X;Y / j Y Dy ıf
1
D .P X ˝ıy /ıf
1
D P .X;y/ ıf
1
D P f .X;y/ :
106
Kapitel 6 Bedingte Verteilungen
Mit Hilfe dieser Methode zeigen wir eine weitere bemerkenswerte Eigenschaft der multivariaten Normalverteilungen, nämlich Stabilität unter Bedingen: Für einen .n C m/-dimensional normalverteilten Zufallsvektor .X; Y / ist P X j Y Dy für P Y -fast alle y 2 Rm wieder eine n-dimensionale Normalverteilung. Wir suchen dafür zunächst A 2 Rnm , so dass Y und Z X sind, was wegen Satz 5.11 äquivalent ist zu K.Z; Y / D K.X; Y /
AY unabhängig
AK.Y; Y / D 0:
Falls Kov.Y / D K.Y; Y / regulär ist, löst A K.X; Y /Kov.Y / 1 diese Gleichung. Im allgemeinen Fall finden wir durch Hauptachsentransformation eine orthogonale Matrix S 2 Rmm , so dass S Kov.Y /S t D Kov.S Y / eine Diagonalmatrix mit Diagonalelementen d1 ; : : : ; dm ist. Dann ist YQ SY wieder normalverteilt und die Komponenten YQj mit Var.YQj / D dj D 0 sind fast sicher konstant, so dass die entsprechenden Spalten .Kov.Xi ; YQj //1in von K.X; SY / D K.X; Y /S t gleich 0 sind. Für die Diagonalmatrix C mit Diagonalelementen ² dj 1 ; falls dj ¤ 0 cj 0; sonst ist dann A K.X; Y /S t CS eine Lösung obiger Gleichung. Wegen der Unabhängigkeit von Y und Z finden wir jetzt die bedingte Verteilung von X D Z C AY durch Einsetzen: P X j Y Dy D P ZCAy ist also n-dimensional normalverteilt mit Kovarianzmatrix Kov.Z C Ay/ D K.Z; X/
K.Z; Y /At D K.Z; X / D K.X; X /
At K.Y; X /:
Im Fall m D n D 1 mit s 2 Var.Y / > 0 und 2 Var.X / ist also P X j Y Dy normal mit Erwartungswert E.X / D s %E.Y y/ und Varianz Var.X/.1 %2 /, wobei % der Korrelationskoeffizient von X und Y ist. Sind X und Y nicht unabhängig, so ist die Varianz der bedingten Verteilung echt kleiner als die Varianz von X . In diesem Sinn liefert die bedingte Verteilung also eine „genauere Information“ als die unbedingte Verteilung. Eine weitere einfache Möglichkeit zur konkreten Bestimmung bedingter Verteilungen liefert:
Satz 6.5 (Bedingte Dichten) .X;Y / die ˝ Sind und Maße auf .X; B/ beziehungsweise .Y; C/, so dass R P Dichte f 2 MC .X Y; B ˝ C/ besitzt. Dann ist fY .y/ X f .x; y/d.x/ eine -Dichte von P Y , und f .x; y/ fX j Y Dy .x/ fY .y/
ist eine -Dichte von P X j Y Dy .
107
Kapitel 6 Bedingte Verteilungen
Beweis. Wegen Satz 3.13 ist fY 2 MC .Y; C/, und für C 2 C liefert iteriertes Integrieren Z Z Z fY d D f .x; y/d.x/d.y/ C C X Z D f d ˝ D P .X;Y / .X C / D P Y .C /: XC
Also gilt P Y D fY und insbesondere fY > 0 P Y -fast sicher. Für B 2 B und C 2 C erhalten wir daher Z Z Z Z fX j Y Dy .x/d.x/dP Y .y/ D fX j Y Dy .x/d.x/fY .y/d.y/ C
B
C \ffY >0g B
Z D
Z f .x; y/d.x/d.y/ C \ffY >0g B
D P .X;Y / .B C \ ffY > 0g/ D P .X;Y / .B C /:
Als Anwendung von Satz 6.5 betrachten wir unabhängig identisch verteilte ZufallsP variablen X1 ; : : : ; XnC1 f und Sk jkD1 Xj . Wegen des Satzes von Fubini Q besitzt .X1 ; : : : ; XnC1 / die nC1 -Dichte f ˝ ˝f .x1 ; : : : ; xnC1 / D nC1 kD1 f .xk /. Mit T .y1 ; : : : ; ynC1 / .y1 y0 ; : : : ; ynC1 yn / und y0 0 gilt .S1 ; : : : ; SnC1 / D T 1 .X1 ; : : : ; XnC1 /, und wir erhalten mit der Bemerkung Q nach Satz 3.10 eine nC1 Dichte der Verteilung von .S1 ; : : : ; SnC1 / als g.y/ jnC1 yj 1 /. Die FalD1 f .yj tungsformel 3.18 liefert eine -Dichte der Verteilung von SnC1 , und nach Satz 6.5 ist dann g.y1 ; : : : ; yn ; s/ h.y1 ; : : : ; yn / f f .s/
eine n -Dichte von P .S1 ;:::;Sn / j SnC1 Ds . Speziell für Xj Exp./ erhalten wir f .x/ D e x I.0;1/ .x/ und wie am nC1 Schluss des dritten Kapitels f f .s/ D nC1; .s/ D nŠ s n e s I.0;1/ .s/. Dann ist also h.y1 ; : : : ; yn / D snŠn IMs .y1 ; : : : ; yn /
mit Ms f.y1 ; : : : ; yn / 2 .0; s/n W yj 1 < yj für alle j g. Es ist bemerkenswert, dass diese bedingte Verteilung nur von s aber nicht von abhängt. Außerdem erhalten wir für die bedingte Verteilung mit Hilfe von unabhängigen U1 ; : : : ; Un U.0; s/ und U .U1 ; : : : ; Un / die Darstellung P .S1 ;:::;Sn / j SnC1 Ds D P RıU mit der „Ordnungsabbildung“ R W Rn ! Rn , die jedem Vektor seine „monotone Permutation“ zuordnet: Für jedes y 2 Rn gibt es nämlich höchstens eine Permutation
108
Kapitel 6 Bedingte Verteilungen
mit .y.1/ ; : : : ; y.n/ / 2 Ms , und daher gilt P P .R.U / 2 B/ D P ..U.1/ ; : : : ; U.n/ / 2 B \ Ms / D nŠP U .B \ Ms / wegen der Permutationsinvarianz von P U . Wir zeigen nun die Existenz bedingter Verteilungen für Zufallsgrößen X mit Werten in polnischen Räumen. Wie wir Rschon bemerkt haben, besagt die definierende Gleichung P .X 2 B; Y 2 C / D C P .X 2 B j Y D y/dP Y .y/, dass für jedes B 2 B durch K.; B/ D P .X 2 B j Y D / eine P Y -Dichte des Maßes P .X 2 B; Y 2 / gegeben ist. Auch wenn wir diese im Allgemeinen nicht so leicht wie zum Beispiel in der Situation von Satz 6.5 berechnen können, folgt die Existenz aus dem Satz von Radon–Nikodym. Das Problem ist dann, ob man „Versionen“ der nur P Y -fast sicher eindeutigen Dichten so finden kann, dass K ein Markov-Kern ist. Satz 6.6 (Existenz bedingter Verteilungen) Für Zufallsgrößen X mit Werten in einem polnischen Raum .X; B/ und beliebige Zufallsgrößen Y existiert eine bedingte Verteilung von X unter Y . Beweis. Wir betrachten zunächst den Fall .X; B/ D .R; B/. Für r 2 Q ist durch r .C / P .X r; Y 2 C / ein Maß auf .Y; C/ mit r P Y definiert, und wegen des Satzes von Radon–Nikodym gibt es hr 2 MC .Y; C/ mit r D hr P Y . Wegen r s für r s und Satz 3.9 gilt dann P Y -fast sicher hr hs , und weil P .X r; Y 2 C / für r ! ˙1 gegen P .Y 2 C / beziehungsweise 0 konvergiert, strebt hr für r ! ˙1 P Y -fast sicher gegen 1 beziehungsweise 0. Daher gelten ˚ C0 y 2 Y W r 7! hr .y/ monoton mit Limes 1 und 0 für r ! ˙1 2 C und P .Y 2 C0 / D 1. Für y 2 C0 ist dann durch F .y; x/ infx 0.
111
Kapitel 6 Bedingte Verteilungen
3. Für jedes n -integrierbare f 2 M.Rn ; Bn / ist Z Z Z f d n D nVn f .ry/r n 1 d.y/d .r/ .0;1/
S
mit Vn n .fk k 1g/:
Beweis. 1. Es gibt viele Möglichkeiten für die Konstruktion von : Ist zum Beispiel 1 X N.0; E/ mit der Einheitsmatrix E, so hat P kX k X wegen der Invarianz von N.0; E/ die geforderte Eigenschaft. Die Eindeutigkeit zeigen wir mit Hilfe der Fourier-Transformation. Wegen Satz 5.4.3 ist O wiederum invariant unter Orthogonaltransformationen, und insbesondere ist O reellwertig, weil .u/ O D . O P u/ D .u/. O Für den Laplace-Operator jnD1 Dj Dj gilt e i hx;i D kxk2 e i hx;i , und mit Satz 5.4.5 folgt Z .u/ O D kxk2 e i hx;ui d.x/ D .u/: O S
Wir zeigen jetzt, dass O durch diese Differenzialgleichung und die Invarianz eindeutig bestimmt ist. Sei dazu f .t/ .t O e1 / mit dem ersten Einheitsvektor e1 2 Rn . Weil n es für jedes v 2 R mit kvk D 1 ein orthogonales T mit T e1 D v gibt, erhalten wir f .kuk/ D .kuke O O für alle u 2 Rn . Damit folgt 1 / D .u/ f .kuk/ D
.u/ O D .u/ O D
n X
Dj .f 0 .kuk/uj =kuk/
j D1
D
n X
f 00 .kuk/uj2 =kuk2 C f 0 .kuk/.kuk
uj2 =kuk/=kuk2
j D1
D f 00 .kuk/ C f 0 .kuk/.n
1/=kuk:
Also gilt f 00 .t / C f 0 .t/.n 1/=t D f .t/ für alle t > 0 und wegen f .t / D f . t / auch für alle t < 0. Um zu zeigen, dass f durch diese Differentialgleichung und die „Anfangsbedingung“ f .0/ D 1 und f 0 .0/ D 0 eindeutig bestimmt ist, entwickeln wir P1 i tx m 1 e D mD0 .ix1 / t m =mŠ, und weil die Reihe für t in einem kompakten Intervall gleichmäßig konvergiert, folgt mit dominierter Konvergenz f .t/ D
1 X mD0
am t
m
Z mit am
.ix1 /m d.x/=mŠ: S
Wegen jam j 1=mŠ hat die Potenzreihe unendlichen Konvergenzradius, und die Differenzialgleichung liefert 1 X
..m C 2/.m C n/amC2 C am /t m D 0 für alle t ¤ 0:
mD0
112
Kapitel 6 Bedingte Verteilungen
Also sind alle Koeffizienten dieser Reihe gleich 0, und wegen a0 D 1 und a1 D 0 sind dadurch alle am und damit auch f und O eindeutig bestimmt. 2. Durch Übergang zu Q.A/ P .A \ fX ¤ 0g/=P .fX ¤ 0g/ können wir X ¤ 0 fast sicher annehmen, so dass kX k 1 X fast sicher Werte in S annimmt. Wegen .kX k; kX k
1
d
X/ D .kTX k; kTX k
1
TX / D .kXk; kX k
1
TX /
1
ist P kXk X j kXk invariant unter orthogonalen Transformationen, und wegen der ers1 1 ten Aussage ist daher P kXk X j kXk D P kXk X . Also sind kX k und kX k 1 X stochastisch unabhängig. Wegen dieser Unabhängigkeit finden wir nun die bedingte Verteilung von X D kXkkXk 1 X unter kX k D t durch Einsetzen, also 1 1 P X j kXkDt .B/ D P t kX k X .B/ D P kX k X 1t B D 1t B ;
wobei die letzte Gleichung wegen der Invarianz der Verteilung von kX k 1 X aus der ersten Aussage folgt. 3. Für X N.0; E/ und g W .0; 1/ S ! Rn , g.r; y/ ry folgt aus der Unabhängigkeit von kX k 1 X und kX k Z Z Z 1 X g.kX k;kX k 1 X/ hdP D hdP D h ı gdP .kXk;kXk X / Z Z D h.ry/d.y/dP kX k .r/ .0;1/
S
für alle P X -integrierbaren Funktionen h. Mit der n -Dichte '.x/ .2/ n=2 exp. kxk2 =2/ von P X liefert das Beispiel vor Satz 3.10 die 1 -Dichte .r/ .2/ n=2 exp. krk2 =2/nVn r n 1 I.0;1/ .r/ von P kX k , und mit h f =' folgt die Behauptung. Auch wenn es nicht immer ohne Weiteres möglich ist, bedingte Verteilungen wie im Normalverteilungsmodell oder mit Satz 6.5 konkret zu berechnen, kann man manchmal zum Beispiel mit Hilfe von Invarianzeigenschaften wenigstens Erwartungswerte bezüglich bedingter Verteilungen bestimmen. Ist P X j Y eine bedingte Verteilung und f 2 M.X; B/ bezüglich P X integrierbar, so liefert Satz 3.14 Z Z Z E.f ı X/ D f .x/dP .Y;X/ .y; x/ D f .x/dP X j Y Dy .x/dP Y .y/; wobei insbesondere die faktorisierte bedingte Erwartung Z E.f ı X j Y D y/ f dP X j Y Dy von f ı X unter der Hypothese Y D y für P Y -fast alle y 2 Y existiert und eine P Y -integrierbare Abbildung in M.Y; B/ definiert.
113
Kapitel 6 Bedingte Verteilungen
Wegen der Transformationsregel P f ıX j Y Dy D P X j Y Dy ı f 1 und der Substitutionsregel reicht es, im Folgenden den Fall f ı X D X mit einem integrierbaren X 2 M.; A/ zu untersuchen. Für h.y/ E.X j Y D y/, falls dieses Integral existiert, und h.y/ 0 sonst heißt die Komposition E.X j Y / D h ı Y bedingte Erwartung von X unter Y . E.X j Y / ist als Komposition bezüglich .Y / messbar, und wegen der Substitutionsregel ist E.X j Y / bezüglich P integrierbar. Wegen der bloß P Y -fast sicheren Eindeutigkeit der bedingten Verteilung ist auch der bedingte Erwartungswert nur P fast sicher eindeutig. Wir vereinbaren daher, Identitäten oder Ungleichungen für bedingte Erwartungen stets als P -fast sicher aufzufassen. Der folgende Satz enthält sowohl wichtige Interpretationen bedingter Erwartungen als auch offensichtliche Verallgemeinerungen der Integrationsregeln des 3. und 4. Kapitels. Man beachte, dass M.; .Y // aus .Y /-messbaren Abbildungen besteht: Satz 6.10 (Eigenschaften bedingter Erwartungen) Seien X; XQ ; Xn 2 M.; A/ integrierbar und Y; YQ W .; A/ ! .Y; C/ messbar. 1. Für ein integrierbares Z 2 M.; .Y // Rgilt Z D E.X j Y / beziehungsweise R Z E.X j Y / genau dann, wenn A Z dP D A X dP (beziehungsweise ) für alle A 2 .Y /. 2. Für Z 2 M.; .Y //, so dass ZX integrierbar ist, gilt E.ZX j Y / D ZE.X j Y /. 3. Für X 2 L2 gilt kX E.X j Y /k2 D minfkX Zk2 W Z 2 L2 .; .Y /; P /g. Q B und Y jB D YQ jB fast sicher für ein B 2 .Y / \ .YQ /, so gilt 4. Falls X jB D Xj Q E.X j Y / D E.X j YQ / auf B. 5. Für X 0 gilt E.X j Y / 0. 6. Sind ˛; ˇ 2 R und ˛X1 C ˇX2 und ˛E.X1 j Y / C ˇE.X2 j Y / fast sicher definiert, so gilt E.˛X1 C ˇX2 j Y / D ˛E.X1 j Y / C ˇE.X2 j Y /. 7. Sind M Rn konvex, ' W M ! R konvex und messbar und X D .X1 ; : : : ; Xn / 2 L1 .; A; P I Rn / mit Werten in M , so gilt E.'.X1 ; : : : ; Xn / j Y / '.E.X1 j Y /; : : : ; E.Xn j Y //: 8. Für 0 Xn " X gilt E.Xn j Y / ! E.X j Y / P -fast sicher. 9. Für Xn 0 gilt E.lim inf Xn j Y / lim inf E.Xn j Y /. n!1
n!1
10. Falls Xn ! X und jXn j Z P -fast sicher für ein Z 2 L1 .; A; P /, gilt E.Xn j Y / ! E.X j Y / P -fast sicher. Die Aussagen des Satzes nennen wir Radon–Nikodym-(Un-)Gleichungen, Pullout, Approximationseigenschaft, Lokalisierungs-Eigenschaft, Positivität, Linearität und bedingte Versionen der Jensen-Ungleichung, des Satzes von Levi, des FatouLemmas beziehungsweise des Satzes von Lebesgue.
114
Kapitel 6 Bedingte Verteilungen
Die Radon–Nikodym-Gleichungen charakterisieren bedingte Erwartungen durch .Y /-Messbarkeit und E.IA E.X j Y // D E.IA X / für alle A 2 .Y /, das heißt, die „über A gemittelten Werte“ von X und E.X j Y / sind gleich. Insbesondere hängt E.X j Y / bloß von .Y / ab, also der durch Y „gelieferten Information“. Eine Zufallsgröße YQ mit .YQ / D .Y / könnte man eine „alternative Codierung“ nennen, dann hängt also E.X j Y / nicht von der Codierung der Information ab. Liest man im Pull-out E.ZX j Y / D ZE.X j Y / die .Y /-Messbarkeit von Z, so dass Z als bekannt bei gegebener Information Y angesehen wird, können also „bekannte Faktoren“ aus der bedingten Erwartung herausgezogen werden. Dies wird manchmal auch mit „taking out what is known“ beschrieben. Der dritte Teil besagt, dass E.X j Y / die beste L2 -Approximation an X ist, die nur auf der Information Y beruht. Wegen des Projektionssatzes 4.13 ist X 7! E.X j Y / also die Orthogonalprojektion auf den Raum der (Äquivalenzklassen fast sicher gleicher) .Y /-messbaren L2 -Funktionen. Beweis. 1. Für A D fY 2 C g 2 .Y / mit C 2 C gilt mit h.y/ E.X j Y D y/ Z
Z
A
E.X j Y /dP D Z Z
D
C
Z fY 2C g
h ı Y dP D
x dP X j Y Dy .x/dP Y .y/ D
hdP Y C
Z
xIC .y/dP .Y;X/ .y; x/ D
Z X dP fY 2C g
wegen Satz 3.14. Also löst E.X j Y / die Radon–Nikodym-Gleichungen. Löst Z 2 M.; .Y // die entsprechenden Ungleichungen, so folgt aus Satz 3.9 (für das Wahrscheinlichkeitsmaß Q P j.Y / ), dass Z E.X j Y / Q-fast sicher und damit auch P -fast sicher gilt. 2. Wegen des Beispiels nach dem Approximationssatz 3.3 lässt sich Z D f ı Y mit einem f 2 M.Y; C / faktorisieren (nach Satz 3.3 haben wir nur den Fall Z 0 gezeigt, sind aber Z ˙ D f˙ ı Y mit f˙ 2 MC .Y; C/ und fZ D ˙1g D fY 2 C˙ g mit disjunkten C˙ 2 C, so liefert f IffC 0, N 2 N mit fjXj>N g jXjdP "=2 und C 2N " 1 E.jXj/. Wegen der Jensen-Ungleichung ist jE.X j G˛ /j E.jXj j G˛ /, und für die Ereignisse A˛ fE.jX j j G˛ / C g 2 G˛ folgt mit den Radon–Nikodym-Gleichungen und der Chebychev-Ungleichung Z A˛
Z E.jXj j G˛ /dP D "=2 C NC
1
Z
A˛
jXjdP
fjXj>N g
jXjdP C NP .A˛ /
Z E.jXj j G˛ /dP D "=2 C NC
1
E.jXj/ ":
Zum Abschluss dieses Kapitels übersetzen wir noch die Charakterisierung der Unabhängigkeit durch P X j Y D P X in eine Bedingung für bedingte Erwartungen. Dazu nennen wir eine Menge M messbarer Funktionen von .X; B/ nach C verteilungsbestimmend für R R .X; B/, falls für Wahrscheinlichkeitsmaße P und Q auf .X; B/ mit f dP D fR dQ für alle f 2 M stets P D Q gilt. Dabei setzen wir die Existenz der Integrale f dP bezüglich aller Wahrscheinlichkeitsmaße voraus, das heißt, M besteht aus „universell integrierbaren“ Funktionen. Für jeden schnittstabilen Erzeuger E von B ist wegen des Maßeindeutigkeitssatzes fIE W E 2 Eg verteilungsbestimmend, und für metrisches .X; d / mit Borel-Algebra B ist Cb .X/ verteilungsbestimmend wegen der Eindeutigkeit schwacher Grenzwerte. Weil Verteilungen auf .X I ; B I / durch die endlichdimensionalen Projektionen eindeutig bestimmt sind, folgt damit auch, dass M D ff ı J W J T endlich, f 2 Cb .X J /g verteilungsbestimmend für .X I ; B I / ist. Den Eindeutigkeitssatz der Fourier-Transformation können wir nun so formulieren, dass fe i hu;i W u 2 Rn g verteilungsbestimmend für .Rn ; Bn / ist.
122
Kapitel 6 Bedingte Verteilungen
Satz 6.15 (Unabhängigkeit und bedingte Erwartungen) Zwei Zufallsgrößen X und Y mit Werten in .X; B/ beziehungsweise .Y; C/ sind genau dann unabhängig, wenn E.f .X / j Y / D E.f .X // für alle Funktionen f einer für .X; B/ verteilungsbestimmenden Klasse gilt. Beweis. Die Notwendigkeit der Bedingung folgt aus der Unabhängigkeit von f .X / und Y . Durch Q.A/ P .A \ fY 2 C g/=P .Y 2 C / ist andererseits für C 2 C mit P .Y 2 C / > 0 ein Wahrscheinlichkeitsmaß auf .; A/ definiert, und die Radon– Nikodym-Gleichungen liefern Z Z Z 1 f dQX D f .X /dP D E.f .X// D f dP X P .Y 2 C / fY 2C g
für alle f der verteilungsbestimmenden Klasse. Also gilt P X D QX und damit P .X 2 B/ D P .X 2 B; Y 2 C /=P .Y 2 C / für alle B 2 B. Falls es in der Situation von Satz 6.15 Reine bedingte Verteilung von X unter Y gibt, folgt wegen E.f .X / j Y D y/ D f dP X j Y Dy aus der Bedingung sofort P X j Y D P X und damit die Unabhängigkeit.
Aufgaben 6.1. Seien .X; B/; .Y; C/ und .Z; D/ Messräume, K ein Markov-Kern vom Produkt .Y; C/ ˝ .Z; D/ nach .X; B/ und M ein Markov-Kern von .Z; D/ nach .Y; C/. Zeigen Sie dass für A 2 C ˝ B durch Z Z M ˝ K.z; A/ IA .y; x/dK..y; z/; x/dM.z; y/ ein Markov-Kern von .Z; D/ nach .Y; C / ˝ .X; B/ definiert ist. 6.2. Zeigen Sie für Zufallsgrößen X; Y; Z mit Werten in .X; B/; .Y; C/ und .Z; D/ das Assoziativgesetz P Y j Z ˝ P X j .Y;Z/ D P .Y;X/ j Z : 6.3. Seien X Exp.˛/, t 0 und Y X ^ t. Zeigen Sie P X
t j Y Dt
D P X.
6.4. Sei .X; Y / ein auf K fx 2 R2 W kxk2 1g gleichverteilter Zufallsvektor. Bestimmen Sie P X j Y , und zeigen Sie ohne Rechnung E.X j Y / D 0. 6.5. Zeigen Sie mit Hilfe von Satz 6.9, dass das n-dimensionale Lebesgue-Maß n durch die Invarianz unter linearen Orthogonaltransformationen, die „Skalierungseigenschaft“ n .rA/ D r n n .A/ für alle A 2 Bn und r > 0 sowie die Normiertheit n .fk k 1g/ D Vn eindeutig bestimmt ist.
123
Kapitel 6 Bedingte Verteilungen
6.6. Zeigen Sie für Zufallsgrößen X; Y , p; q 1 mit G A die bedingte Hölder-Ungleichung
1 p
C q1 D 1 und eine -Algebra
1=p 1=q E.jXY j j G / E.jXjp j G / E.jXjq j G / : 6.7. Seien G eine endliche Gruppe von messbaren Abbildungen auf .; A; P / mit P ıg 1 D P für alle g 2 G und G .g W g 2 G/. Zeigen Sie für jede integrierbare Zufallsvariable X 1 X E.X j G / D X ı g: jGj g2G
S 6.8. Seien .; A; P / ein Wahrscheinlichkeitsraum und D n2N An eine disjunkte Zerlegung mit Ereignissen An 2 A und P .An / > 0. Zeigen Sie für G .fAn W n 2 Ng/ und eine integrierbare Zufallsvariable X Z X 1 X dP: E.X j G / D ˛n IAn mit ˛n P .An / An n2N
6.9. Seien X 2 L2 .; A; P / und Y eine Zufallsgröße. Zeigen Sie kX
E.X j Y /k22 D E.X 2 /
E.E.X j Y /2 / D Var.X /
Var.E.X j Y //:
6.10. Für X 2 L2 .; A; P / und eine Zufallsgröße Y heißt Var.X j Y / E..X
E.X j Y //2 j Y /
bedingte Varianz von X unter Y . Zeigen Sie die Verschiebungsformel Var.X j Y / D E.X 2 j Y / und E.Var.X j Y // D kX
E.X j Y /2
E.X j Y /k22 .
6.11. Berechnen Sie Var.X j Y / und Var.E.X j Y // für eine N.0; 1/-verteilte Zufallsvariable X und Y jXj 1 X. 6.12. Zeigen Sie, dass die Lokalisierungseigenschaft aus Satz 6.10.4 ohne die Voraussetzung B 2 .Y / \ .YQ / im Allgemeinen falsch ist. 6.13. Zeigen Sie in der Situation von Satz 6.5 die Bayes-Formel fX j Y Dy .x/ D
fX .x/ fY j XDx .y/: fY .y/
6.14. Seien Xn 2 L1 .; A; P / mit Xn ! X in L1 und G A eine -Algebra, so dass E.Xn j G / ! XQ in L1 . Zeigen Sie, dass dann E.X j G / D XQ gilt.
124
Kapitel 6 Bedingte Verteilungen
6.15. Konstruieren Sie positive Zufallsvariablen Yn ; Zn (auf einem geeigneten Produkt von Wahrscheinlichkeitsräumen) mit folgenden Eigenschaften: (i) .Yn /n2N und .Zn /n2N sind unabhängig, (ii) E.Yn / ! 0 und Yn konvergiert nicht fast sicher gegen 0, (iii) E.Zn / D 1 und lim supn!1 fZn ¤ 0g D ¿. Zeigen Sie, dass dann durch Xn Yn Zn eine Folge von Zufallsvariablen definiert ist mit Xn ! 0 fast sicher und in L1 , so dass E.Xn j G / für G .Yn W n 2 N/ nicht fast sicher gegen 0 konvergiert. 6.16. Zeigen Sie, dass das starke Gesetz der großen Zahlen für alle integrierbaren Zufallsvariablen gilt. Wenden Sie dazu für alle c 0 Satz 6.13 auf Xn˙ ^ c an.
Kapitel 7
Stochastische Prozesse
Wir untersuchen in den folgenden Kapiteln Familien X D .X t / t 2T von .X; B/wertigen Zufallsgrößen X t auf einem Wahrscheinlichkeitsraum .; A; P / mit einer Indexmenge T R, also Zufallsgrößen X W .; A/ ! .X; B/T D .X T ; B T / D N t 2T .X; B/. So eine Zufallsgröße heißt stochastischer T -Prozess auf .; A; P / in .X; B/ (wobei wir Attribute, die durch den Kontext klar sind oft auslassen). Abgesehen von diesen Bezeichnungen haben wir also schon ab dem zweiten Kapitel Prozesse (meistens im „zeitdiskreten“ Fall T D N) studiert. Ab jetzt beziehen wir aber sowohl die Metrik als auch die Ordnung der als Zeit interpretierten Indexmenge T in die Untersuchung ein. Falls der Zustandsraum .X; B/ ebenfalls metrisch ist (in den meisten Fällen betrachten wir .X; B/ D .Rn ; Bn //, können wir dann für ! 2 nach Stetigkeitseigenschaften der Abbildungen X.!/ W T ! X fragen. Um die Tatsache zu betonen, dass die Werte von X Abbildungen von T nach X sind, nennen wir .X; B/T auch Pfadraum und die Werte X.!/ heißen Pfade des Prozesses. Die von R induzierte Ordnung auf T ermöglicht, zwischen Vergangenheit, Gegenwart und Zukunft zu unterscheiden, und erlaubt etwa die Frage, ob die Verteilung von .X t / t s nur von der „Gegenwart“ Xs oder auch der „Vergangenheit“ .X t / t<s des Prozesses abhängt. Neben dem Prozess X , der den zeitlichen Verlauf eines „stochastischen Systems“ beschreibt, betrachten wir oft einen „Informationsprozess“ Y D .Y t / t 2T in einem Messraum .Y; C/, und untersuchen dann Verteilungseigenschaften von X relativ zu der von Y gelieferten Information. Wie wir im vorherigen Kapitel gesehen haben, sind bedingte Erwartungen unabhängig von der Codierung der Information und hängen bloß von den erzeugten -Algebren ab. Entscheidend wird für uns sein, keine (relevanten) Informationen zu vergessen: Bezeichnet F t die -Algebra der bis zur Zeit t gesammelten Information, so fordern wir also Fs F t für alle s t (mit s; t 2 T – diesen selbstverständlichen Zusatz lassen wir im Folgenden stets aus). Eine Familie F D .F t / t 2T von -Algebren F t A mit dieser Eigenschaft heißt T -Filtration in A. Falls 1 … T ist es (meistens aus Notationsgründen) praktisch, W F1 t 2T F t zu definieren. Für einen Prozess Y D .Y t / t 2T definieren wir die von Y erzeugte Filtration durch F .Y / ..Ys W s t// t 2T . Ein Prozess X heißt an die Filtration F adaptiert, falls .X t / F t für alle t 2 T gilt, das heißt, die Werte von Xs für s t sind Teil der Information zur Zeit t. Mit der Bezeichnung F G für zwei Filtrationen F und G , falls F t G t für
126
Kapitel 7 Stochastische Prozesse
alle t 2 T , bedeutet F -Adaptiertheit also F .X / F , und F .X / ist die kleinste Filtration bezüglich der X adaptiert ist. Wir betrachten jetzt ein erstes Beispiel für eine Unabhängigkeit der Zukunft des Prozesses von der Vergangenheit: Für einen F -adaptierten Prozess X in einem separablen normierten Raum heißen X t Xs für s t Zuwächse des Prozesses, und X hat F -unabhängige Zuwächse, falls .X t Xs / und Fs für alle s t unabhängig sind. Für alle B 2 B gilt dann P .X t 2 B j Fs / D P .X t 2 B j Xs /: Mit f W .X; B/ ˝ .; Fs / ! .X; B/, .x; !/ 7! x C Xs .!/, und der identischen Abbildung Y W .; A/ ! .; Fs / ist wegen der Unabhängigkeit von X t Xs und Y und Satz 6.4 über das Bedingen durch Einsetzen P .X t 2 B j Y D y/ D P .f .X t Xs ; Y / 2 B j Y D y/ D P .f .X t Xs ; y/ 2 B/; für P -fast alle y 2 , so dass P .X t 2 B j Fs / D p ı Xs mit der Abbildung p.x/ P .X t Xs C x 2 B/. Ganz genauso erhalten wir P .X t 2 B j Xs D x/ D p.x/. Die Eigenschaft P .X t 2 B j Fs / D P .X t 2 B j Xs / bedeutet, dass die (Verteilung der) Zukunft nur von der Gegenwart aber nicht von der Vergangenheit abhängt, und Prozesse mit dieser Eigenschaft heißen Markov-Prozesse. Der erste Teil des folgenden Satzes zeigt, dass dies nicht bloß für jeden einzelnen Zeitpunkt sondern für die gesamte Zukunft gilt. Satz 7.1 (Unabhängige Zuwächse) Seien X ein T -Prozess in einem separablen normierten Raum und F eine Filtration. 1. Falls X F -unabhängige Zuwächse hat, sind Fs und .X t s 2 T unabhängig.
Xs W t s/ für jedes
2. X hat genau dann F .X/-unabhängige Zuwächse, wenn für alle t0 tm die Zufallsgrößen X t0 ; X t1 X t0 ; : : : ; X tm X tm 1 unabhängig sind. S Beweis. 1. Weil E sDs0 sm ..Xs1 Xs0 ; : : : ; Xsm Xsm 1 // ein schnittstabiler Erzeuger von .X t Xs W t s/ ist, reicht es wegen Satz 2.1, die Unabhängigkeit von Fs und .Xs1 Xs0 ; : : : ; Xsm Xsm 1 / für alle s D s0 sm zu beweisen. Wegen des Beispiels nach Satz 3.17 über den Zusammenhang von Unabhängigkeit und Produktmaßen folgt dies aus der Tatsache, dass Fs _ .Xs1 Xs0 ; : : : ; Xsk Xsk 1 / Fsk und .XskC1 Xsk / für jedes k 2 f1; : : : ; m 1g unabhängig sind. 2. Die Notwendigkeit der Bedingung folgt mit der Umkehrung des eben benutzten Arguments. Sind andererseits die Bedingung der zweiten Aussage erfüllt und s t, so sind .Xs0 /, .Xs1 Xs0 /; : : : ; .Xsm Xsm 1 /, .X t Xs / für alle s0 sm D s unabhängig. Durch Zusammenlegen folgt die Unabhängigkeit von .X t Xs / und .Xs0 / _ .Xs1
Xs0 / _ _ .Xsn
Xsn 1 / D .Xs0 ; : : : ; Xsm /:
Die Vereinigung all dieser Mengensysteme ist schnittstabil und erzeugt F .X /s , und wegen Satz 2.1 folgt daraus die F .X /-Unabhängigkeit der Zuwächse.
127
Kapitel 7 Stochastische Prozesse
Im Fall T D N besagt Satz 7.1, dassPein Prozess .Xn /n2N genau dann F .X /unabhängige Zuwächse hat, wenn Xn D jnD1 .Xj Xj 1 / mit X0 0 ein Partialsummenprozess mit unabhängigen Summanden Zn Xn Xn 1 ist. P Ist umgekehrt Sn D jnD1 Zj mit fast sicher positiven Zufallsvariablen Zj , so heißt der durch X t supfn 2 N0 W Sn tg für t 0 definierte Prozess X .X t / t 0 zugehöriger Zählprozess. Interpretiert man Zj etwa als Lebensdauer eines Bauteils (das sofort nach Ausfall durch ein neues mit Lebensdauer Zj C1 ersetzt wird) oder als Bearbeitungszeit eines Auftrags (etwa an einen Computerprozessor), so zählt X t , wie viele Bauteile bis zur Zeit t ausgefallen beziehungsweise Aufträge bis zur Zeit t erledigt sind. Für s < t ist der Zuwachs X t Xs die Anzahl der im Zeitintervall .s; t ausgefallenen Bauteile. d
Falls die Folge .Zn /n2N unabhängig ist mit Zn D Z1 und P .Z1 > 0/ > 0, gibt es " > 0 mit P .Z1 > "/ > 0 und das Borel–Cantelli-Lemma impliziert dann P .lim supn!1 fZn > "g/ D 1. Also gilt in diesem Fall Sn ! 1 fast sicher, so dass alle X t fast sicher reellwertig sind. Der zu einer unabhängigen Folge .Zn /n2N mit Zn Exp./ gehörige Zählprozess heißt Poisson-Prozesse mit Rate > 0. Der folgende Satz erklärt insbesondere diese Bezeichnung. Satz 7.2 (Poisson-Prozess) Jeder Poisson-Prozess X D .X t / t 0 mit Rate hat F .X /-unabhängige Zuwächse, und für alle s < t ist X t Xs Poisson-verteilt mit Parameter .s t /. Beweis. Nach Satz 7.1 müssen wir für alle t0 t1 tm die Unabhängigkeit von X t0 ; X t1 X t0 ; : : : ; X tm X tm 1 zeigen, und wegen X0 D 0 fast P sicher können wir dabei t0 D 0 annehmen. Seien k1 ; : : : ; km 2 N0 und n jmD1 kj . Wir T berechnen die Wahrscheinlichkeit von A jmD1 fX tj X tj 1 D kj g durch Bedingen und ein kombinatorisches Argument. Nach Definition des Zählprozesses gilt A D f.S1 ; : : : ; Sn / 2 B; SnC1 > tm g mit B f.y1 ; : : : ; yn / 2 Rn W jfy1 ; : : : ; yn g \ .tj
1 ; tj j
D kj für 1 j mg;
und mit der Definition bedingter Verteilungen folgt Z P ..S1 ; : : : ; Sn / 2 B j SnC1 D s/dP SnC1 .s/: P .A/ D .tm ;1/
Nach Satz 6.5 haben wir mit Hilfe bedingter Dichten und unabhängiger U.0; s/verteilter Zufallsvariablen U1 ; : : : ; Un die bedingte Verteilung von .S1 ; : : : ; Sn / unter der Hypothese SnC1 D s als P RıU mit U .U1 ; : : : ; Un / und der Ordnungsabbildung R W Rn ! Rn bestimmt. Das Ereignis B 2 Bn ist permutationsinvariant und daher auch R-invariant, so dass P RıU .B/ D P U .R 1 .B// D P U .B/
128
Kapitel 7 Stochastische Prozesse
gilt. Um diese Wahrscheinlichkeit zu berechnen, definieren wir die Menge P P.k1 ;:::;km / .f1; : : : ; ng/ der .k1 ; : : : ; km /- Partitionen von f1; : : : ; ng durch P f.N1 ; : : : ; Nm / W Nj f1; : : : ; ng paarweise disjunkt mit jNj j D kj g: Damit erhalten wir eine disjunkte Zerlegung m \ \
[
BD
fy 2 Rn W yi 2 .tj
1 ; tj g:
.N1 ;:::;Nm /2P j D1 i 2Nj
Mit der Darstellung [ P D f.A; N2 ; : : : ; Nm / W .N2 ; : : : ; Nm / 2 P.k2 ;:::;km / .f1; : : : ; ng n A/g jAjDk1 nŠ und Induktion nach m folgt jP j D k1 Šk , und die Unabhängigkeit von U1 ; : : : ; Un mŠ liefert nun m m Y tj tj 1 kj nŠ Y .tj tj 1 /kj : D n P .U 2 B/ D jP j kj Š s s
j D1
j D1
nC1
Mit der nach Satz 3.18 berechneten -Dichte nC1; .s/ D nŠ s n e s I.0;1/ .s/ von P SnC1 erhalten wir Z m Y .tj tj 1 /kj nC1 P .A/ D e s d .s/ kj Š .tm ;1/ j D1
D
m Y j D1
..tj
tj 1 //kj e kj Š
.tj tj
1/
;
Q P weil n D jmD1 kj und tm D jmD1 .tj tj 1 /. Damit folgen sowohl die Verteilungsaussage (für m D 1) als auch die Unabhängigkeit der Zuwächse. Zählprozesse sind ein wichtiges Beispiel dafür, wie ein Prozess aus expliziten Annahmen über seine „Entstehung“ konstruiert wird und wie dann Verteilungsaussagen und Aussagen über die Pfade (nach Konstruktion sind die Pfade monoton wachsend und rechtsseitig stetig) nachgewiesen werden können. Oft geht man bei der Modellbildung aber umgekehrt vor und fordert aufgrund allgemeiner Überlegungen oder Beobachtungen Verteilungseigenschaften (wie zum Beispiel unabhängige Zuwächse und deren Verteilung) sowie Eigenschaften der Pfade (etwa Monotonie oder Stetigkeit) eines Prozesses. Dann stellt sich natürlich direkt die Frage, ob ein Prozess mit den gewünschten Eigenschaften auf einem geeigneten
129
Kapitel 7 Stochastische Prozesse
Wahrscheinlichkeitsraum existiert. Wir beantworten zunächst die Frage, welche Verteilungseigenschaften eines Prozesses gefordert werden können. Für einen Prozess X D .X t / t 2T in .X; B/ haben die Verteilungen QI P .X t / t2I auf .X; B/I für J I die Eigenschaft QI I;J D QJ mit den Restriktionsabbildungen I;J W X I ! J X , f 7! f jJ . Diese Verträglichkeitsbedingung für alle I; J 2 P0 .T / fI T W I endlich und nicht leerg ist bei einen polnischen Zustandsraum auch schon hinreichend für die Existenz: Satz 7.3 (Existenz von Prozessen, Kolmogorov) Seien .X; B/ ein polnischer Messraum und .QI /I 2P0 .T / eine Familie von Vertei lungen QI auf .X I ; B I / mit QI I;J D QJ für alle J I . Dann gibt es einen Wahrscheinlichkeitsraum .; A; P / und einen Prozess X D .X t / t 2T in .X; B/ mit P .X t / t2I D QI für alle I 2 P0 .T /. Beweis. Seien S D ftn W n 2 Ng eine abzählbare Teilmenge von T mit paarweise verschiedenen tn 2 T und Pn Qft1 ;:::;tn g . Nach Satz 6.8 gibt es dann .X; B/-wertige Zufallsgrößen Yn auf einem geeigneten Wahrscheinlichkeitsraum mit .Y1 ; : : : ; Yn / Pn für alle n 2 N. Bezeichnen wir die Verteilung der Folge .Yn /n2N mit QS und P1 .T / f¿ ¤ S T W S abzählbarg, so erfüllt die Familie .QS /S2P1 .T / wiederum die Verträglichkeitsbedingung des Satzes: Sind nämlich R; S 2 P1 .T / mit R S , so stimmen QR und QSS;R auf dem 1 schnittstabilen Erzeuger fR;J .A/ W J 2 P0 .R/; A 2 B J g überein und sind deshalb gleich. Für B 2 B T gibt es nach Satz 1.9.2 ein R 2 P1 .T / und A 2 B R mit B D 1 T;R .A/, und wir definieren P .B/ QR .A/. Wegen obiger Verträglichkeitsbedin1 Q und gung ist P W B T ! Œ0; 1 wohldefiniert, weil für B D T;R .A/ D 1Q .A/ T;R S R [ RQ 1 Q D Q Q .A/: Q QR .A/ D QS .S;R .A// D QS .S;1RQ .A// R 1 Sind Bn D T;R .An / 2 B T paarweise disjunkt mit Rn 2 P1 .T / und An 2 B Rn , n S 1 so ist S n2N Rn 2 P1 .T / und Cn S;R .An / sind wiederum paarweise n 1 disjunkt mit Bn D T;S .Cn /. Damit folgt [ [ X X P Bn D QS Cn D QS .Cn / D P .Bn /: n2N
n2N
n2N
n2N
Also ist P ein Wahrscheinlichkeitsmaß auf .; A/ .X; B/T , und die Projektionen X t T;ft g definieren einen Prozess mit P .X t / t2I D QI für alle I 2 P0 .T /. Ein Prozess X D .X t / t 2T in .R; B/ heißt Lp -Prozess, falls X t 2 Lp für alle t 2 T , und ein L1 -Prozess X mit E.X t / D 0 für alle t 2 T heißt zentriert. Schließlich
130
Kapitel 7 Stochastische Prozesse
nennen wir X einen Gauß-Prozess, falls für alle endlichen Teilmengen I von T der Zufallsvektor .X t / t 2I multivariat normalverteilt ist. Um den Kolmogorovschen Existenzsatz 7.3 auf Gauß-Prozesse anzuwenden, definieren wir für einen L2 -Prozess X D .X t / t 2T die Kovarianzfunktion kX W T T ! R durch kX .s; t / Kov.Xs ; X t /. Wir nennen eine Abbildung k W T T ! R P symmetrisch, falls k.s; t / D k.t; s/ für alle s; t 2 T , und positiv semidefinit, falls s;t2T zs k.s; t/z t 0 für alle z D .z t / t 2T 2 RT mit ft 2 T W z t ¤ 0g endlich. Satz 7.4 (Existenz von Gauß-Prozessen) Für eine Abbildung k W T T ! R sind äquivalent: 1. k ist symmetrisch und positiv semidefinit. 2. Es gibt einen L2 -Prozess mit Kovarianzfunktion k. 3. Es gibt einen zentrierten Gauß-Prozess mit Kovarianzfunktion k. Beweis. Für endliches I T ist mit k auch die Matrix AI .k.s; t //s;t 2I symmetrisch und positiv semidefinit, und die Familie .N.0; AI //I 2P0 .T / erfüllt die Voraussetzungen von Satz 7.3. Ist dann .X t / t 2T ein Prozess mit .X t / t 2I N.0; AI / für alle I 2 P0 .T /, so gilt Kov.Xs ; X t / D k.s; t / für alle s; t 2 T . Weil normalverteilte Zufallsvariablen in L2 sind, folgt Pdie zweite Bedingung aus der dritten, und wegen Kov.X ; X / D Kov.X ; X / und s t t s s;t 2T zs Kov.Xs ; X t /z t D P Var. t2T z t X t / 0 impliziert die zweite Bedingung die erste. Bevor wir gleich konkrete Kovarianzfunktionen betrachten, beweisen wir einen Satz, der die herausragende Rolle von Gauß-Prozessen in der Stochastik begründet. Wir benutzen hier Lindebergs Satz 5.13, einen weiteren, sehr kurzen Beweis erhalten wir nach Satz 10.3 als Anwendung der stochastischen Integration. Satz 7.5 (Gauß-Prozesse, Lévy) Jeder L2 -Prozess .X t / t 0 mit unabhängigen Zuwächsen, X0 D 0 und stetigen Pfaden ist ein Gauß-Prozess. Beweis. Wir beweisen zuerst die Stetigkeit der Erwartungswertfunktion t 7! E.X t /. Für tn ! t mit E.X tn / ! c 2 R müssen wir dazu c D E.X t / zeigen (falls nämlich E.X tn / nicht gegen E.X t / konvergiert, gibt es eine Teilfolge mit Grenzwert c ¤ E.X t /). Für r s gilt wegen der Unabhängigkeit der Zuwächse Var.Xr / C Var.Xs Xr / D Var.Xs /, so dass die Varianzfunktion monoton wächst und Var.X tn / beschränkt ist. Also ist X tn E.X tn / in L2 beschränkt und wegen der Bemerkung nach Satz 4.7 damit gleichgradig integrierbar. Außerdem liefert die Stetigkeit der Pfade X tn E.X tn / ! X t c. Das Lemma von Fatou impliziert E.jX t cj/ lim infn!1 E.jX tn E.X tn /j/ < 1; und aus Satz 4.7 folgt die L1 -Konvergenz von
131
Kapitel 7 Stochastische Prozesse
X tn E.X tn / gegen X t c. Dies impliziert 0 D E.X tn E.X tn // ! E.X t / c, also c D E.X t /. Durch eventuellen Übergang zu X t E.X t / können wir im Folgenden E.X t / D 0 annehmen. Wir zeigen nun, dass alle Zuwächse normalverteilt sind, für t0 t1 tm ist dann .X t0 ; : : : ; X tm / als lineare Transformation von .X t0 X0 ; : : : ; X tm X tm 1 / multivariat normalverteilt. Seien also s < t, 2 Var.X t Xs / und für j n n;j
1 XsCj.t
s/=n
XsC.j
1/.t s/=n
:
P Dann sind n;1 ; : : : ; n;n als Zuwächse unabhängig mit jnD1 n;j D 1 .X t Xs /. ˚ Pn 2 Wir werden zeigen, dass j D1 n;j W n 2 N gleichgradig integrierbar ist. Für P 2 jedes " > 0 ist dann auch die Menge aller Zn jnD1 n;j Ifjn;j j>"g gleichgradig integrierbar mit Zn ! 0 wegen der gleichmäßigen Stetigkeit der Pfade auf Œs; t. Satz 4.7 impliziert dann E.Zn / ! 0, und Lindebergs Grenzwertsatz 5.13 liefert 1 .X t P d Xs / D jnD1 n;j ! N.0; 1/. Indem wir eventuell den Wahrscheinlichkeitsraum vergrößern (nämlich zum Prod dukt .; A; P /˝.; A; P //, finden wir einen von X unabhängigen Prozess XQ D X, Q und wir definieren analog den n;j sowie n;j n;j Qn;j . Dann gilt Pzu P Pn n;j n n 2 2 Q j D1 n;j n;j , und wegen j D1 n;j j D1 n;j C 2
E
n X
n;j Qn;j
2
j D1
D Var
n X
n X 2 2 Q n;j n;j D E.n;j /E.Qn;j /1
j D1
j D1
˚ P ist 2 jnD1 n;j Qn;j W n 2 N L2 -beschränkt und damit gleichgradig integrierbar. ˚ P Also reicht es, die gleichgradige Integrierbarkeit von Sn jnD1 2n;j W n 2 N zu d
d
beweisen. Wegen n;j D n;j gilt .n;j ; 2n;j / D . n;j ; 2n;j /, und die Unabhängigkeit von n;1 ; : : : ; n;n impliziert d
.n;j ; n;k ; 2n;1 ; : : : ; 2n;n / D . n;j ; n;k ; 2n;1 ; : : : ; 2n;n / für alle j ¤ k und damit E.n;j n;k j 2n;1 ; : : : ; 2n;n / D 0. Also folgt E
n X
n;j
2 ˇ 2 2 2 ˇ ; : : : ; 2 n1 n;n D E.Sn j n;1 ; : : : ; n;n / D Sn :
j D1
P Weil jnD1 n;j D 1 .X t XQ t Xs C XQ s / nicht von n abhängt, folgt die gleichgradige Integrierbarkeit von fSn W n 2 Ng aus Satz 6.14.
Für einen L2 -Prozess .X t / t 2T mit unabhängigen Zuwächsen und Varianzfunktion 2 .t/ Var.X t / lässt sich die Kovarianzfunktion leicht berechnen: Für s t ist
132
Kapitel 7 Stochastische Prozesse
nämlich kX .s; t/ D Kov.Xs ; X t
Xs / C Kov.Xs ; Xs / D Var.Xs / D 2 .t ^ s/:
Ein Poisson-Prozess Y mit Rate 1 hat wegen Var.Ys / D s die Kovarianzfunktion k.s; t / D s ^ t , die wegen Satz 7.4 auch Kovarianzfunktion eines zentrierten GaußProzesses X D .X t / t 0 ist. Wir nennen einen zentrierten Gauß-Prozess mit Kovarianzfunktion kX .s; t / D t ^s eine schwache Brownsche Bewegung – für „echte“ Brownsche Bewegungen verlangen wir zusätzlich stetige Pfade. Man beachte aber, dass die Literatur in dieser Bezeichnungsfrage nicht einheitlich ist. Für eine schwache Brownsche Bewegung hat X0 Erwartungswert 0 und Varianz kX .0; 0/ D 0, also gilt X0 D 0 fast sicher. Für t0 tn und j < k gilt wegen der Bilinearität der Kovarianz Kov.X tj
X tj
1
; X tk
X tk 1 /
D kX .tj ; tk /
kX .tj
D tj
tj C tj
tj
1
1 ; tk / 1
kX .tj ; tk
1/
C kX .tj
1 ; tk 1 /
D 0;
und wegen Satz 7.1.2 und Satz 5.11 folgt daraus die F .X /-Unabhängigkeit der Zuwächse. Weil .X t ; Xs / zweidimensional normalverteilt ist und Var.X t Xs / D t s, gilt X t Xs N.0; t s/ für s t , insbesondere hängt also die Verteilung der Zuwächse (wie beim Poisson-Prozess) nur von der Zeitdifferenz t s ab. Ist andererseits X D .X t / t 0 ein Prozess mit unabhängigen Zuwächsen, X0 D 0 fast sicher und X t Xs N.0; t s/ für s t , so ist X eine schwache Brownsche Bewegung. X ist nämlich zentriert und außerdem ein Gauß-Prozess, weil .X t0 ; : : : ; X tn / für t0 tn eine lineare Transformation des normalverteilten Zufallsvektors .X t0 X0 ; : : : ; X tm X tm 1 / ist. Mit der Bilinearität der Kovarianz folgt schließlich Kov.Xs ; X t / D s ^ t. Wir untersuchen nun Pfadeigenschaften stochastischer Prozesse X D .X t / t 2T in einem metrischen Zustandsraum .X; d / mit Borel- -Algebra B. Der Prozess heißt stetig beziehungsweise rechtsstetig, falls alle Pfade t 7! X t .!/ stetige beziehungsweise rechtsstetige Abbildungen von T nach X sind (wobei auf T natürlich die euklidische Topologie betrachtet wird). Als erste Schwierigkeit ergibt sich bei dieser Fragestellung, dass C.T; X/ ff W T ! X stetigg für nicht-abzählbares T nicht in der -Algebra B T ist, deren Ereignisse wegen Satz 1.9.2 durch Bedingungen an abzählbar viele Koordinaten beschrieben werden können. Wir wollen einen Prozess mit stetigen Pfaden trotzdem als C.T; X/-wertige Zufallsgröße auffassen.
133
Kapitel 7 Stochastische Prozesse
Dazu betrachten wir auf C.T;SX/ für ein Intervall T R und eine Folge .Ik /k2N von kompakten Intervallen mit k2N Ik D T die Metrik ı.f; g/
1 X
2
k
^ sup d.f .t/; g.t //: t 2Ik
kD1
Eine Folge fn in C.T; X/ ist genau dann konvergent beziehungsweise Cauchy bezüglich ı, wenn für jedes k 2 N die Folge der Restriktionen fn jIk gleichmäßig konvergiert beziehungsweise Cauchy ist. Für vollständiges .X; d / impliziert dies die Vollständigkeit von C.T; X/. Für einen separablen normierten Raum .X; k k/ ist C.T; X/ wiederum separabel: Für endliche Mengen E D ft0 < < tn g T und F D fx0 ; : : : ; xn g X wählen wir dazu stetige und stückweise affine Funktionen g D gE;F W T ! X mit g.tj / D xj . Die Menge all dieser Funktionen mit E T \ Q und F S für eine dichte abzählbare Menge S von X ist dann abzählbar und dicht. Sind nämlich f 2 C.T; X/, k 2 N und " > 0, so gibt es wegen der gleichmäßigen Stetigkeit von f jIk ein ı > 0, so dass kf .t/ f .s/k < "=4 für alle s; t 2 Ik mit jt sj < ı. Wir wählen nun rationale t0 < < tn in Ik mit jtj tj 1 j < ı und xj 2 S mit kf .tj / xj k < "=8 und betrachten die zugehörige stückweise affine Funktion g. Ist dann t 2 Œtj 1 ; tj mit t D tj 1 C .1 /tj , so folgt kg.t /
g.tj /k D kg.tj kxj
1/
C .1
/g.tj /
f .tj /k C kf .tj /
g.tj /k D kg.tj /
f .tj
1 /k
C kf .tj
1/
g.tj xj
1 /k
1k
"=2
und damit kf .t /
g.t/k kf .t/
f .tj /k C kf .tj /
xj k C kg.tj /
g.t /k < ":
Wir bezeichnen die zu C.T; X/ gehörige Borel- -Algebra mit B.T; X/. Für einen separablen Banach-Raum .X; k k/ ist .C.T; X/; B.T; X// also ein polnischer Messraum. Satz 7.6 (Stetige Spur- -Algebra) Für einen separablen normierten Raum .X; k k/ und ein Intervall T R gilt B.T; X/ D B T \ C.T; X/. Beweis. Die Projektionen t W C.T; X/ ! X sind stetig und wegen Satz 1.8.1 daher messbar. Dies impliziert B.T; X/ B T \ C.T; X/. Für die andere Inklusion reicht es, A 2 B T \ C.T; X/ für alle offenen Mengen zu zeigen, und weil jede offene Menge die abzählbare Vereinigung aller enthaltenen Kugeln K.f; "/ fı.f; / < "g mit f in einer abzählbaren dichten Teilmenge von C.T; X/ und " 2 QC ist, müssen wir K.f; "/ 2 B T \ C.T; X/ zeigen. Dazu definieren wir für f 2 C.T; X/ die
134
Kapitel 7 Stochastische Prozesse
Abbildung W X T ! R durch .g/ D
1 X
2
k
^ supfd.f .t /; g.t// W t 2 Ik \ Qg:
kD1
Als abzählbare Suprema sind die Summanden und damit auch bezüglich B T messbar, und weil für jede stetige Funktion das Supremum auf einer Menge gleich dem Supremum auf einer dichten Teilmenge ist, gilt .g/ D ı.f; g/ für alle g 2 C.T; X/. Dies zeigt K.f; "/ D fg 2 C.T; X/ W .g/ < "g 2 B T \ C.T; X/. Wegen dieses Satzes können wir einen stetigen Prozess X D .X t / t 2T in einem separablen Banach-Raum als Zufallsgröße .; A/ ! .C.T; X/; B.T; X// auffassen und dann zum Beispiel die Vollständigkeit von L0 .; A; P I C.T; X// bezüglich der fast sicheren oder der stochastischen Konvergenz benutzen (wir hatten schon früher angemerkt, dass der Beweis von Satz 4.5 keine anderen Eigenschaften als die Dreiecksungleichung und die Vollständigkeit benutzt). Für zwei stetige Prozesse ist fX D Y g ein A-zulässiges Ereignis, so dass X D Y fast sicher wie üblich äquivalent zu P .X D Y / D 1 ist. Im Allgemeinen bedeutet die fast sichere Gleichheit von zwei T -Prozessen X und Y , dass es A 2 A gibt mit P .A/ D 1 und X t .!/ D Y t .!/ für alle ! 2 A und alle t 2 T . Diese fast sichere Gleichheit wird in der Literatur oft Ununterscheidbarkeit genannt. Wir nennen zwei stochastische T -Prozesse X und Y auf .; A; P / Modifikationen voneinander, falls X t D Y t fast sicher für jedes t 2 T gilt. Für abzählbare I T gilt dann .X t / t 2I D .Y t / t 2I fast sicher, und weil P X durch die Verteilungen von d
.X t / t 2I eindeutig bestimmt ist, gilt dann auch X D Y . Die Eigenschaft, stetige Pfade zu besitzen, ist hingegen nicht invariant unter Modifikationen (also auch keine Eigenschaft von P X ): Durch X t 0 und Y t Iftg sind auf .; A; P / .R; B; N.0; 1// zwei R-Prozesse definiert, die wegen P .ftg/ D 0 Modifikationen voneinander sind. Dabei sind alle Pfade von X stetig, und alle Pfade von Y sind unstetig. Verteilungseigenschaften können also höchstens dann Pfadstetigkeit implizieren, wenn Modifikationen zugelassen werden. Satz 7.7 (Stetige Modifikationen, Kolmogorov) Für einen Prozess X D .X t / t2T in einem separablen Banach-Raum .X; k k/ mit T D R oder T D Œ0; 1/ und Konstanten a; b; c > 0 gelte E.kX t Xs ka / cjt sj1Cb für alle s; t 2 T . Dann besitzt X eine Modifikation mit stetigen Pfaden. Beweis. Wir konstruieren eine Modifikation von .X t / t2Œ0;1 , genauso kann man dann .X t / t 2Œk;kC1 für k 2 Z beziehungsweise k 2 N stetig modifizieren. Wir setzen Dn fk=2n W k 2 f0; : : : ; 2n gg und definieren Prozesse X n durch X tn X t für t 2 Dn und die Forderung nach stückweise affinen und stetigen Pfaden,
135
Kapitel 7 Stochastische Prozesse
also X tn D Xk=2n C .1 /X.k 1/=2n , falls t D k=2n C .1 /.k 2 Œ0; 1. Für t 2 Œ0; 1 und s 2 Dn mit jt sj 1=2n gilt dann kX tn
Xs k max kXk=2n
X.k
1k2n
1/=2n k
1/=2n mit
Zn :
Für n < m und t 2 Œ0; 1 wählen wir rekursiv sm 2 Dm ; : : : ; sn 2 Dn mit jt sm j < 1=2m und jsj C1 sj j < 1=2j für n j < m. Dann gelten jt sn j < 1=2n und wegen der Dreiecksungleichung kX tn
X tm k kX tn
Xsn k C
m X1
kXsj C1
Xsj k C kXsm
X tm k 2
j Dn
m X
Zj :
j Dn
Weil dieseP obere Schranke unabhängig von t 2 Œ0; 1 ist, folgt sup t 2Œ0;1 kX tn m X t k 2 j1Dn Zj , und wir zeigen jetzt, dass diese Reihenreste fast sicher gegen 0 konvergieren. Sei dazu 2 .0; ab /. Wegen monotoner Konvergenz ist
E
1 X
1 X .2 n Zn /a D 2 na E max kXs
nD0
0¤s2Dn
nD0 1 X
na
2
nD0
X 0¤s2Dn
E.kXs
Xs
2
n
a
Xs
k /c
2
1 X
n
ka
2. a
b/n
< 1:
nD0
P
n a Daher ist 1 und insbesondere konvergiert 2 n Zn nD0 .2 Zn / fast sicher endlich,P fast sicher gegen 0. Die Konvergenz der Reihe 2 n impliziert also die fast sichere Konvergenz der Reihe der Zn , so dass die Reihenreste fast sicher gegen 0 konvergieren. Wir haben gezeigt, dass .X n /n2N fast sicher eine Cauchy-Folge von Zufallsgrößen mit Werten in dem separablen Banach-Raum C.Œ0; 1; X/ ist, und daher besitzt X n einen fast sicheren Grenzwert Y W .; F / ! .C.Œ0; 1; X/; B.Œ0; 1; X//. Für t 2SDm und n m gilt X tn D X t und daher Y t D X t fast sicher für alle t 2 D D m2N Dm . Ist schließlich t 2 Œ0; 1 beliebig, so gibt es sn 2 D mit sn ! t, und aus P .kX t Xsn k "/ " a E.kX t Xsn ka / ! 0 P
folgt Ysm D Xsm ! X t . Wegen der Stetigkeit von Y gilt andererseits Ysm .!/ ! Y t .!/ für jedes ! 2 , und aus der fast sicheren Eindeutigkeit stochastischer Limiten folgt Y t D X t fast sicher, das heißt, Y ist eine stetige Modifikation von X. Für eine schwache Brownsche Bewegung X D .X t / t0 und s < t gilt d d p X t Xs D X t s D t sX1 ; also E.jX t Xs j4 / D jt sj2 E.X14 /;
und Satz 7.7 impliziert, dass X eine stetige Modifikation besitzt, die also eine schwache Brownsche Bewegung mit stetigen Pfaden ist. Einen solchen Prozess nennen wir (Standard-) Brownsche Bewegung.
136
Kapitel 7 Stochastische Prozesse
Allgemeiner heißt für eine Filtration F D .F t / t0 in A ein F -adaptierter stetiger Prozess B D .B t / t 0 in .Rn ; Bn / mit F -unabhängigen Zuwächsen, B0 D 0 fast sicher und B t Bs N.0; .t s/En / für s < t eine n-dimensionale F -Brownsche Bewegung (wobei En die Einheitsmatrix in Rnn bezeichnet). Im Fall F D F .B/ sprechen wir einfach von einer n-dimensionalen Brownschen Bewegung. Brownsche Bewegungen spielen in der Stochastik eine herausragende Rolle – sowohl als Modell für viele Situationen (der Botaniker R. Brown hat im 19. Jahrhundert eine Beschreibung der Bewegungen von Pollen gegeben, die man später als Pfade Brownscher Bewegungen interpretiert hat, L. Bachelier hat schon 1900 Börsenkurse und A. Einstein 1906 die Bewegungen mikroskopischer Teilchen in Flüssigkeiten mit Brownschen Bewegungen modelliert) als auch als zentrales Hilfsmittel zur Untersuchung stochastischer und analytischer Fragen. Satz 7.8 (Mehrdimensionale Brownsche Bewegungen) Für unabhängige Brownsche Bewegungen B 1 ; : : : ; B n ist B .B 1 ; : : : ; B n / eine n-dimensionale Brownsche Bewegung. Ist umgekehrt B eine n-dimensionale F Brownsche Bewegung, so sind die Komponenten B 1 ; : : : ; B n unabhängige eindimensionale F -Brownsche Bewegungen. Beweis. B ist stetig, und wegen der Unabhängigkeit von B t1 Bs1 ; : : : ; B tn Bsn für s < t ist B t Bs n-dimensional normalverteilt mit Erwartungsvektor 0 und Kovarianzmatrix .t s/En . Für 0 t0 t1 tm sind B t10 ; B t11
B t10 ; : : : ; B t1m
B t1m 1 ; B t20 ; : : : ; B t2m
B t2m 1 ; : : : ; B tn0 ; : : : ; B tnm
B tnm
1
unabhängig und durch Zusammenlegen folgt für j 2 f1; : : : ; mg die Unabhängigkeit der -Algebren .B t1j B t1j 1 ; : : : ; B tnj B tnj 1 / D .B tj B tj 1 /. Satz 7.1 impliziert die F .B/-Unabhängigkeit der Zuwächse. Seien nun B eine n-dimensionale F -Brownsche Bewegung und 0 t0 tm . Dann sind B t0 ; : : : ; B tm B tm 1 unabhängig, weil .B t0 ; : : : ; B tk B tk 1 / F tk und B tkC1 B tk für jedes k < m unabhängig sind. Als lineares Bild eines .m C 1/n-dimensional normalverteilten Zufallsvektors ist damit auch .B t0 ; : : : ; B tm / j multivariat normalverteilt. Aus der Unkorreliertheit von B ti und Bs für alle i ¤ j und s; t 0 folgt wegen Satz 5.11 die Unabhängigkeit der Komponenten. Die erste Aussage des Satzes stimmt übrigens auch für F -Brownsche Bewegungen, obwohl das auf den ersten Blick nicht plausibel erscheint: Für n D 2 und s t ist die paarweise Unabhängigkeit von Fs , .B t1 Bs1 / und .B t2 Bs2 / vorausgesetzt, und allein daraus kann man nicht auf die Unabhängigkeit von Fs und .B t Bs / D .B t1 Bs1 / _ .B t1 Bs1 / schließen. Einen Beweis der Aussage erhalten wir später nach Satz 10.2 mit Hilfe „stochastischer Analysis“.
137
Kapitel 7 Stochastische Prozesse
Satz 7.9 (Invarianzen Brownscher Bewegungen) Seien B eine n-dimensionale Brownsche Bewegung, A 2 Rnn orthogonal und c > 0. Dann sind .AB t / t 0 ; .c 1=2 Bct / t 0 und .B tCc Bc / t 0 wieder Brownsche Bewegungen. Außerdem stimmt .tB1=t / t 0 fast sicher mit einer Brownschen Bewegung überein. Beweis. In den ersten drei Fällen folgt die Unabhängigkeit der Zuwächse mit Satz 7.1 und die Verteilung der Zuwächse ergibt sich aus der Bilinearität für Kovarianzmatrizen. Die Stetigkeit folgt direkt aus der Stetigkeit von B. Sei nun X eine der Komponenten von .tB1=t / t 0 . Dann gilt Kov.Xs ; X t / D st.t
1
^s
1
/Ds^t
für alle s; t 0, so dass X eine schwache Brownsche Bewegung ist. Nach Satz 7.7 gibt es eine stetige Modifikation Y von X, so dass es A 2 A gibt mit P .A/ D 1 und X t .!/ D Y t .!/ für alle t 2 Q \ Œ0; 1/ und ! 2 A. Weil aber X auf .0; 1/ stetig ist, folgt X t .!/ D Y t .!/ für alle t 0. Der Prozess .tB1=t / braucht selbst nicht stetig zu sein. Ist nämlich BQ eine StandardBrownsche Bewegung und A 2 A mit P .A/ D 0, so ist durch B t D BQ t IAc C t 2 IA wieder eine Standard-Brownsche Bewegung definiert, und die Pfade t 7! tB1=t .!/ sind für ! 2 A unstetig. Aus diesem Grund werden für Brownsche Bewegungen manchmal nur fast sicher stetige Pfade verlangt. Mit Hilfe der Invarianzen aus Satz 7.8 lassen sich oft Aussagen über Brownsche Bewegungen beweisen: Weil .tB1=t / t 0 fast sicher stetig in 0 ist, gilt lim t !1 t 1 B t D 0 fast sicher. (In Satz 7.18 werden wir übrigens das Wachstumsverhalten sehr viel genauer beschreiben.) P Für eine eindimensionale Brownsche Bewegung B ist Bn D nkD1 .Bk Bk 1 / die Summe unabhängiger N.0; 1/-verteilter Zufallsvariablen. Als Folgerung aus dem zentralen Grenzwertsatz und dem Kolmogorovschen 0-1-Gesetz hatten wir nach Satz 5.9 gezeigt, dass deshalb fast sicher supn2N Bn D 1 und infn2N Bn D 1 gelten. Wegen des Zwischenwertsatzes wechselt daher fast jeder Pfad auf jedem Intervall Œs; 1/ unendlich oft das Vorzeichen. Weil dies auch für .tB1=t / t 0 gilt, wechselt fast jeder Pfad von B auf jedem Intervall Œ0; 1=s/ unendlich oft das Vorzeichen, und weil dies wiederum auch für die Brownsche Bewegung .B tCc Bc / t 0 gilt, sind auf jedem Intervall Œc; c C "/ fast alle Pfade unendlich oft größer und unendlich oft kleiner als Bc . Durch Vereinigen der zugehörigen Ausnahmemengen für c 2 QC folgt, dass fast alle Pfade von B nirgends monoton sind. Wir werden später weitere Eigenschaften Brownscher Bewegungen kennen lernen. Zunächst entwickeln wir aber die allgemeine Theorie stochastischer Prozesse ein Stück weiter. Sowohl für die Theorie als auch für die Interpretation stochastischer Modelle ist es wesentlich, Prozesse nicht nur für feste oder „deterministische“ Zeitpunkte t 2 T zu
138
Kapitel 7 Stochastische Prozesse
betrachten, sondern für Zeiten, die zum Beispiel vom Verlauf des Prozesses abhängen, etwa wann der Prozess erstmals in eine spezielle Menge des Zustandsraum eintritt. Eine Abbildung W ! T [ fC1g heißt T -Zufallszeit. Mit dem Wert C1 berücksichtigen wir den Fall, dass der durch beschriebene Zeitpunkt nie eintritt (falls 1 … T ). Für einen Œ0; 1/-Prozess X in .X; B/ und B 2 B ist ein wichtiges Beispiel die Eintrittszeit B .!/ infft 0 W X t .!/ 2 Bg mit inf ¿ C1. Für einen Œ0; 1/-Prozess X in .R; B/, mit dem man etwa den Kurs einer Aktie modellieren könnte, ist eine andere interessante Zufallszeit infft 0 W X t C 10 X t C1 g (das wäre ein guter Zeitpunkt, die Aktie zu kaufen, um sie eine Zeiteinheit später mit einem Gewinn von mindestens 10 Geldeinheiten wieder zu verkaufen). Für eine T -Zufallszeit und einen T -Prozess X ist auf f 2 T g durch X .!/ X.!/ .!/ der Wert des Prozesses zur Zeit (oder kurz -Wert) von X definiert. Bei der Untersuchung von Zufallszeiten und -Werten gibt es bei überabzählbarem T stets ein „technisches“ Problem, nämlich die Frage nach der Messbarkeit von und X . Diese Fragen werden wir meistens dadurch lösen oder umgehen, dass wir stetige oder rechtsstetige Prozesse betrachten. Es gibt aber auch ein grundsätzliches Problem, das sich ebenfalls als Messbarkeitsfrage formulieren lässt: Während man für die Eintrittszeit B die Frage, ob B .!/ < t gilt, aufgrund der Werte .Xs .!//s 0. Für die Eintrittszeit infft 0 W X t > 0g D 1IfZD0g ist dann f < 0g D ¿ und f < tg D fZ D 1g 2 F t für t > 0, das heißt, ist eine schwache Stoppzeit. Aber wegen f 0g D fZ D 1g … F0 ist keine echte Stoppzeit. Trotz seiner Schlichtheit zeigt dieses Beispiel einen etwas heiklen Punkt der Modellierung von Information durch Filtrationen: Obwohl F von einem stetigen Prozess erzeugt wird, gewinnt man sozusagen sprunghaft Information. Wir werden dieses Problem bald wieder aufgreifen.
139
Kapitel 7 Stochastische Prozesse
Vorher klären wir die Frage, welche Eintrittszeiten B D infft 2 T W X t 2 Bg Stoppzeiten sind. Anstatt allgemeine Voraussetzungen zu formulieren, unter denen B Werte in T [ fC1g annimmt, beschränken wir uns auf die wesentlichen Fälle T S D N0 und T D Œ0; 1/. Für einen N0 -Prozess X in .X; B/ gilt fB t g D nt fXn 2 Bg 2 .X0 ; : : : ; X t / D F .X / t für alle t 2 N0 und B 2 B, das heißt, im zeitdiskreten Fall T D N0 sind alle Eintrittszeiten F -Stoppzeiten, wenn X an F adaptiert ist. Satz 7.10 (Eintrittszeiten) Seien X ein Œ0; 1/-Prozess in einem metrischen Raum .X; d / mit Borel--Algebra B und B infft 0 W X t 2 Bg für B 2 B. 1. Für rechtsstetiges X und offenes B ist B eine schwache F .X /-Stoppzeit. 2. Für stetiges X und abgeschlossenes B ist B eine F .X /-Stoppzeit. Beweis. 1. Für t 0 gilt B .!/ < t genau dann, wenn Xs .!/ 2 B für ein s < t gilt, und wegen der Rechtsstetigkeit gibt es dann auch ein rationales r 2 .s; t / mit Xr .!/ 2 B. Also ist [ fB < tg D fXr 2 Bg 2 .Xr W r t /: Q3r tg D fdist.Xs ; B/ > 0g st
D
[
\
fdist.Xs ; B/ 1=ng 2 .Xs W s t /:
n2N Q3st
Für eine T -Filtration F nennen wir Fs auch -Algebra der Ereignisse vor s. Wegen fs t g 2 f¿; g für alle t 2 T gilt dann Fs D fA 2 F1 W A \ fs tg 2 F t für alle t 2 T g; und der Witz an dieser seltsam anmutenden Beschreibung von Fs ist, dass sie auch für T -Zufallszeiten statt s 2 T sinnvoll ist. Für eine F -Stoppzeit heißt F fA 2 F1 W A \ f tg 2 F t für alle t 2 T g -Algebra der Ereignisse vor . Die Bezeichnung -Algebra ist gerechtfertigt, weil aus Ac \ f t g D f tg n .A \ f t g/ die Komplementstabilität folgt, und ¿ 2 F sowie die abzählbare Vereinigungsstabilität offensichtlich sind. Der folgende Satz rechtfertigt insbesondere die Bezeichnung „Ereignisse vor “:
140
Kapitel 7 Stochastische Prozesse
Satz 7.11 (Stoppzeiten) Seien F eine T -Filtration und ; zwei F -Stoppzeiten. 1. W .; F / ! .R; B/ ist messbar.
2. ^ und _ sind F -Stoppzeiten mit f g 2 F ^ D F ^ F . 3. F \ f g D F ^ \ f g und F \ f D g D F \ f D g. 4. Für integrierbares Z 2 M.; A/ gilt E.E.Z j F / j F / D E.Z j F^ /. Beweis. 1. Wir müssen f ˛g 2 F für jedes ˛ 2 R zeigen. Für T \ Œ 1; ˛ D ¿ ist f ˛g D ¿, und sonst betrachten wir s sup T \ Œ 1; ˛ und sn 2 T mit sn " s sowie sn D s, falls s 2 T . Für jedes t 2 T ist dann [ f sn ^ tg 2 F t : f ˛g \ f t g D f s ^ t g D n2N
2. Wegen f ^ t g D f tg [ f t g und f _ tg D f tg \ f tg sind ^ und _ Stoppzeiten. Für A 2 F ^ und t 2 T gilt A \ f t g D A \ f ^ t g \ f t g 2 F t ; was A 2 F impliziert. Durch Rollentausch folgt auch A 2 F , also A 2 F ^ F . Andererseits gilt für A 2 F ^ F und t 2 T A \ f ^ tg D .A \ f t g/ [ .A \ f t g/ 2 F t : Dass f g 2 F^ gilt, zeigen wir im Beweis der dritten Aussage. 3. Für A 2 F und t 2 T gilt A \ f g \ f ^ tg D .A \ f t g/ \ f ^ t ^ tg 2 F t ; weil ^ t und ^ t bezüglich F t messbar sind. Also gilt A \ f g 2 F ^ , und für A D folgt f g 2 F ^ . Damit haben wir F \ f g F ^ \ f g gezeigt, und die umgekehrte Inklusion folgt aus F^ F . Der zweite Teil folgt aus dem ersten. 4. Auf f g gilt F D F ^ , und mit Pull-out und der Lokalisierungseigenschaft aus Satz 6.11.2 folgt If g E.E.Z j F / j F / D E.If g E.Z j F ^ / j F / D If g E.Z j F^ / wegen der F -Messbarkeit dieser Zufallsgröße. Andererseits gilt F D F ^ auf f g, und wie eben folgt If g E.E.Z j F / j F / D If g E.E.Z j F / j F ^ / D If g E.Z j F ^ / wegen der Glättungseigenschaft.
141
Kapitel 7 Stochastische Prozesse
Als Nächstes untersuchen wir die Messbarkeit von X für T -Prozesse X und Stoppzeiten . Für abzählbares T ist diese Frage leicht zu beantworten: Ist X an eine T Filtration F adaptiert und eine F -Stoppzeit, so gilt [ fX 2 Bg \ f tg D fXs 2 Bg \ f D sg 2 F t : st
Also ist X bezüglich F \ f 2 T g messbar. Für den allgemeinen Fall fassen wir einen T -Prozess X in .X; B/ als Abbildung T ! X, .!; t / 7! X t .!/ auf. X heißt A-produktmessbar, falls dies eine messbare Abbildung .; A/ ˝ .T; B \ T / ! .X; B/
ist. Aus der Messbarkeit von j t W ! T , ! 7! .!; t / folgt dann, dass jedes X t D X ı j t bezüglich A messbar ist. Wir werden gleich sehen, dass stetige Prozesse produktmessbar sind, und daher kann man zum Beispiel mit Fubinis Satz die „erwartete Verweildauer“ in einer Teilmenge B 2 B des Zustandsraums berechnen: Z E..ft 2 Œ0; 1/ W X t 2 Bg// D P .X t 2 B/d : Œ0;1/
Für eine Standard-Brownsche Bewegung B erhalten wir mit Satz 3.5.4 insbesondere .ft 2 Œ0; 1/ W B t D 0g/ D 0 fast sicher: Fast jeder Pfad von B hat also unendlich viele Nullstellen, aber die Nullstellenmenge ist im Sinn des Lebesgue-Maßes klein. Ein T -Prozess X in .X; B/ heißt bezüglich einer T -Filtration F progressiv messbar oder F -progressiv, falls für jedes t 2 T die Einschränkung XjT \Œ 1;t D .Xs /s2T \Œ 1;t ein F t -produktmessbarer Prozess ist. Wie oben gesehen ist dann jedes Xs mit s t bezüglich F t -messbar, das heißt X ist adaptiert, und X ist dann auch F1 -produktmessbar, weil für B 2 B und tn 2 T mit tn " sup T (so dass tn D sup T , falls sup T 2 T ) [ fX 2 Bg D f.!; t / 2 T \ Œ 1; tn W X t .!/ 2 Bg n2N
2
_
F tn ˝ B \ T F1 ˝ B \ T:
n2N
Satz 7.12 (Progressive Prozesse) Seien F eine T -Filtration und eine F -Stoppzeit. 1. Für T D Œ0; 1/ ist jeder rechtsstetige F -adaptierte Prozess progressiv. 2. Für progressive Prozesse X in .X; B/ ist X W .f 2 T g; F \ f 2 T g/ ! .X; B/ messbar.
142
Kapitel 7 Stochastische Prozesse
Beweis. 1. Für t 0 und n 2 N definieren wir Œ0; t-Prozesse X n durch Xsn Xk=2n für s 2 ..k 1/=2n ; k=2n \ Œ0; t . Dann ist XQ n W Œ0; t ! X bezüglich F t ˝ B\Œ0; t messbar mit XQ n .!; s/ ! XQ .!; s/ für alle .!; s/ wegen der Rechtsstetigkeit. Q Satz 1.8.2 impliziert damit die F t ˝ B \ Œ0; t -Messbarkeit von X. 2. Für t 2 T und B 2 B müssen wir fX 2 Bg \ f t g 2 F t zeigen. Dazu betrachten wir die durch .!/ D .!; .!/ ^ t / definierte Abbildung W ! T \ Œ 1; t . Die .F t ; F t ˝ B \ T \ Œ 1; t /-Messbarkeit von folgt wegen der universellen Eigenschaft der Produkt- -Algebra in Satz 1.9.2 aus der .F t ; B \ T \ Œ0; t /-Messbarkeit von ^ t. Als Verknüpfung ist daher X ^t D XQ ı eine .F t ; B/messbare Abbildung, und wegen fX 2 Bg \ f tg D fX ^t 2 Bg \ f tg folgt die Behauptung. Wir kommen nun auf das schon angesprochene Problem zurück, dass stetige Prozesse „unstetige“ Filtrationen erzeugen können, und den damit zusammenhängenden Unterschied zwischen schwachen und „echten“ Stoppzeiten. Dabei beschränken wir uns auf den Zeitbereich T D Œ0; 1/. Für V eine Filtration F D .F t / t 0 definieren wir eine Filtration F C durch F tC s>t Fs und nennen F rechtsstetig, falls C C C C F D F . Wegen .F / D F ist also F C rechtsstetig. Außerdem nennen wir F vollständig, falls die von den fast sicheren Ereignissen in F1 erzeugte -Algebra N fA 2 F1 W P .A/ 2 f0; 1gg in allen F t enthalten ist. Durch F t F t _ N ist dann die Vervollständigung F von F definiert. Wir zeigen jetzt, dass die Übergänge zu F beziehungsweise F C kommutieren, was insbesondere die (nicht ganz C eindeutige) Schreibweise F rechtfertigt.
Satz 7.13 (Vollständige und rechtsstetige Filtration) 1. Für jede Œ0; 1/-Filtration F gilt .F /C D F C . Eine Zufallszeit ist genau dann eine schwache F -Stoppzeit, wenn sie F C -Stoppzeit ist, und für F -Stoppzeiten < gilt .F C / F .
2. Für rechtsstetige Œ0; 1/-Prozesse X mit unabhängigen Zuwächsen gilt F .X/ D C F .X/ . C C .F /C . Seien nun Beweis. 1. Wegen F tC .F /C t und N .F / t gilt F C A 2 .F / t ; s > t und f IA . Wegen Satz 6.11.3 für den Wahrscheinlichkeitsraum .; F1 ; P jF1 / gilt dann f D E.f j F s / D E.f j Fs /. Daher gibt es F t C1=n -messbare Funktionen gn mit f D gn fast sicher. Dann ist auch f D lim supn!1 gn g fast sicher, und g ist F tC -messbar. Mit B fg D 1g 2 F tC gilt dann IA D IB fast sicher, und damit folgt A D .A\B/[.AnB/ D B n.B nA/[AnB 2 F tC _N D F tC . T C Wegen f t g D n2N f < t C 1=ng sind schwache S F -Stoppzeiten F -StoppC zeiten, und F -Stoppzeiten sind wegen f < t g D n2N f t 1=ng schwache F -Stoppzeiten.
143
Kapitel 7 Stochastische Prozesse
Für Stoppzeiten < ; A 2 .F C / gilt A 2 F , weil für t 0 [ A \ f tg D A \ f < t 1=ng \ f tg 2 F t : n2N
2. Wir zeigen zuerst mit Satz 6.15 für die verteilungsbestimmende Klasse der stetigen beschränkten Funktionen auf dem Zustandsraum X, dass X auch F .X /C unabhängige Zuwächse hat. Seien also f 2 Cb .X/ und s < t. Für n .t s/ 1 sind F .X /C s F .X /sC1=n und X t XsC1=n unabhängig, und mit der bedingten Version des Satzes von Lebesgue folgt E.f .X t
Xs / j F .X/C s / D D
lim E.f .X t
XsC1=n / j F .X /C s /
lim E.f .X t
XsC1=n // D E.f .X t
n!1 n!1
Xs //:
Wir beweisen jetzt P .A j F .X /C t / D P .A j F .X / t / für alle A 2 F .X /1 . Für A 2 F .X /C stimmt dann I D P .A j F .X /C A t t / fast sicher mit der bezüglich F .X / t messbaren Abbildung P .A j F .X / t / überein, was A 2 F .X / t impliziert. Mit R t .Xs X t W s t / gilt F .X /1 D F .X / t _ R t , und wegen des Dynkin-Arguments reicht es, die obige Gleichheit für Elemente des schnittstabilen Erzeugers fA D B \ C W B 2 F .X/ t ; C 2 R t g zu zeigen. Nach Satz 7.1.1 sind R t und F .X/C t unabhängig, und wir erhalten mit Pull-out C P .B \ C j F .X/C t / D IB P .C j F .X / t / D IB P .C / D P .B \ C j F .X / t /:
Die Filtration F benutzt man zum Beispiel, um Aussagen über reellwertige Stoppzeiten auf bloß fast sicher reellwertige F -Stoppzeiten zu übertragen: Wegen f < 1g 2 F1 ist dann durch Q D If N C 1 folgt .b
1
a/Uab .X; t /
N X
Xj
Xj
j D1
1 X
X t ^j
X t ^j :
j D1
Mit monotoner Konvergenz folgt dann .b
a/E.Uab .X; t//
1 X
E.X t ^j /
E.X t ^j /:
j D1
Wegen des Optional-Sampling-Satzes ist a xj E.X t ^j / E.X t ^j / yj xj C1 E.X t /, und wir erhalten 1 X j D1
yj xj D
1 X j D1
[ ..xj ; yj / D .xj ; yj E.X t / a D E..X t a/C /: j 2N
Wegen X t 2 L1 ist der Erwartungswert E..X t a/C / stets endlich, so dass insbesondere Uab .X; t / fast sicher reellwertig ist. Das heißt also, dass „große Variationen“ bei Submartingalen höchstens endlich oft vorkommen. Im Kontrast dazu werden wir in Satz 8.13 zeigen, dass stetige Martingale „im Kleinen“ sehr stark variieren müssen. Satz 8.6 (Martingalkonvergenzsatz, Doob) Sei X ein Submartingal mit abzählbarem Zeitbereich und sup t 2T E.X tC / < 1. Dann gilt fast sicher, dass .X tm /m2N für jede monotone Folge tm in R konvergiert.
159
Kapitel 8 Martingale
Die Voraussetzung abzählbarer Zeit benötigen wir, um ein fast sicheres Ereignis A zu finden, so dass X tm .!/ für jedes ! 2 A und jede monotone Folge konvergiert. Für beliebiges T und eine monotone Folge kann man Satz 8.6 auf das Submartingal .X tm /m2N anwenden und erhält dann die fast sichere Konvergenz. Dann hängt allerdings das fast sichere Ereignis von der Folge tm ab. Der Konvergenzsatz gibt zunächst keine Auskunft über die Grenzwerte. Für zwei streng monoton wachsende (oder fallende) Folgen .sm /m2N und .tm /m2N mit gleichem Grenzwert gilt aber limm!1 Xsm D limm!1 X tm fast sicher: Es gibt nämlich eine monotone Folge .rm /m2N die sowohl mit .sm /m2N als auch mit .tm /m2N eine gemeinsame Teilfolge hat, und daher stimmen die Grenzwerte von Xsm und X tm mit dem von Xrm überein. Beweis. Mit monotoner Konvergenz liefert Satz 8.5 für alle a < b E sup Uab .X; t / sup E..X t t 2T
a/C /=.b
t 2T
a/ sup t2T
E.X tC / C jaj < 1; b a
also gilt sup t 2T Uab .X; t/ < 1 fast sicher. Ist A der Durchschnitt über diese fast sicheren Ereignisse mit a; b 2 Q, so gilt P .A/ D 1, und für jede monotone Folge .tm /m2N und jedes ! 2 A ist lim infm!1 X tm .!/ D lim supm!1 X tm .!/. Der Martingalkonvergenzsatz liefert uns nun die nach Satz 6.10 schon versprochene Stetigkeit bedingter Erwartungen bezüglich der bedingenden -Algebra: Satz 8.7 (Stetigkeit bedingter Erwartungen) Seien .Gn /n2N eine monotone Folge von -Algebren und X 2 Lp .; A; P / mit 1 W p < 1. Dann gilt E.X j Gn / ! E.X j G1 / fast sicher undVin Lp mit G1 n2N Gn , falls sie n2N Gn , falls die Folge .Gn /n2N monoton wächst, und G1 monoton fällt. Beweis. Falls Gn monoton wächst, ist durch Xn E.X j Gn / ein Martingal bezüglich der Filtration .Gn /n2N definiert mit jXn jp E.jX jp j Gn / wegen der bedingten Jensen-Ungleichung. Wegen Satz 6.14 ist daher fjXn jp W n 2 Ng gleichgradig integrierbar. Außerdem folgt E.XnC / kXn k1 kXn kp kX kp , und der Martingalkonvergenzsatz liefert die fast sichere Konvergenz von Xn gegen ein X1 . Das Lemma von Fatou zeigt E.jX1 jp / lim infn!1 E.jXn jp / E.jXjp /, so dass X1 fast sicher reellwertig ist. Wegen der gleichgradigen Integrierbarkeit folgt nun mit Satz 4.7 auch die Lp -Konvergenz von Xn gegen X1 . Weil Lp -Konvergenz die in L1 impliziert, erhalten wir für A 2 Gm Z Z Z Z X1 dP D lim Xn dP D lim E.X j Gn /dP D X dP A
n!1 A
n!1 A
A
R wegen A 2 Gn für n m. Mit dem Dynkin-Argument folgt nun, dass A X1 dP D R S W X dP für alle A 2 . G / D G gilt, also ist X D E.X j G1 /. 1 m2N m m2N m A
160
Kapitel 8 Martingale
Ist Gn monoton fallend, so ist durch X t D E.X j G t / ein Martingal mit Zeitbereich N definiert, und der Beweis ist derselbe wie eben (abgesehen davon, dass man das Dynkin-Argument nicht benötigt). Für eine unabhängige P Folge .Yn /n2N identisch verteilter Lp -Zufallsvariablen mit E.Y1 / D 0 gilt n1 jnD1 Yj D E.Y1 j Gn / mit Gn .Sn ; SnC1 ; : : :/ und Sn Pn 1 Pn j D1 Yj , so dass Satz 8.7 die fast sichere und Lp -Konvergenz von n j D1 Yj , also einen weiteren Beweis des starken Gesetzes der großen Zahlen, impliziert. Dass der Grenzwert fast sicher gleich 0 ist, haben wir mit Hilfe des Kolmogorovschen 0-1Gesetzes im Beweis zu Satz 6.13 gezeigt. Die bisher entwickelte Martingaltheorie und insbesondere Satz 8.7 haben auch „nicht-stochastische“ Anwendungen, von denen wir hier eine vorstellen wollen. Die Grundbausteine unserer Integrationstheorie aus Kapitel 3 waren Indikatorfunktionen IA mit beliebigen A 2 A. Für die Integration bezüglich Maßen auf .Rd ; Bd / ist ein nahe liegender Gedanke, mit Indikatorfunktionen d -dimensionaler Rechtecke statt beliebiger Borel-Mengen zu beginnen. Wir zeigen nun, dass sich Lp -Funktionen fast sicher und in Lp durch sehr spezielle Elementarfunktionen approximieren lassen, wodurch sich nachträglich die beiden Ansätze als „gleichwertig“ herausstellen. Wir nennen ein Maß auf .Rd ; Bd / lokalendlich, falls .B/ < 1 für alle beschränkten B 2 Bd . Für k D .k1 ; : : : ; kd / 2 Zd und n 2 N definieren wir noch Q Œk=2n ; .k C 1/=2n / jdD1 Œkj =2n ; .kj C 1/=2n /.
Satz 8.8 (Approximation durch Treppenfunktionen) Seien ein lokalendliches Maß auf .Rd ; Bd /; 1 p < 1 und f 2 Lp .Rn ; Bn ; /. Dann gibt es Linearkombinationen fn der Indikatorfunktionen IŒk=2n ;.kC1/=2n / , k 2 Zd , so dass fn ! f fast sicher und in Lp .Rd ; Bd ; / gilt. Beweis. Wir zeigen die Aussage über die Lp -Konvergenz, die fast sichere Konvergenz folgt dann mit Satz 4.6 (angewendet auf die unten konstruierten Wahrscheinlichkeitsmaße P ) durch Übergang zu Teilfolgen. Für Am Œ m; md gilt f IAm ! f in Lp wegen dominierter Konvergenz, also müssen wir noch für festes m 2 N die Funktion f IAm wie im Satz beschrieben approximieren. Für .Am / > 0 betrachten wir dazu das durch P .B/ .B \Am /=.Am / definierte Wahrscheinlichkeitsmaß und die -Algebren Gn .fŒk=2n ; .k C1/=2n / W k 2 Zd g/ für n 2 N. Weil sich die Gn erzeugenden Intervalle als Vereinigung von Intervallen aus GnC1 darstellen lassen, ist dann Gn GnC1 , und weil S jede offene Menge die abzählbare Vereinigung aller enthaltenen Mengen B 2 n2N Gn ist, W gilt G1 n2N Gn D Bd . Satz 8.7 impliziert also E.f j Gn / ! E.f j G1 / D f in Lp .Rd ; Bd ; P /, und wegen P .Acm / D 0 und Am 2 Fn folgt dann fn IAm E.f j Fn / D E.f IAm j Fn / ! f IAm in Lp .Rd ; Bd ; P /. Als Gn -messbare Funktion ist fn auf jedem Intervall Œk=2n ; .k C 1/=2Rn / konstant, also wie im Satz gefordert. Wegen P D .A/ 1 IA und Satz 3.10 ist jhjp dP D R .Am / 1 Am jhjp d, so dass fn ! f IAm auch in Lp .Rd ; Bd ; / gilt.
161
Kapitel 8 Martingale
Die bedingten Erwartungen im obigen Beweis lassen sich übrigens leicht berechn nen: Wegen der Radon–Nikodym-GleichungR für A Œk=2n ; .k C R 1/=2 / ist der Wert 1 1 von fn auf diesem Intervall gleich P .A/ A f dP D .A/ A f d. Indem man diese Werte durch rationale Zahlen approximiert, findet man in der Situation von Satz 8.8 auch rationale Linearkombinationen mit den beschriebenen Eigenschaften. Insbesondere sind also für lokalendliche Maße auf .Rd ; Bd / die Räume Lp .Rd ; Bd ; / separabel, und Lp .Rd ; Bd ; / sind separable Banach-Räume. Bevor wir uns wieder der Martingaltheorie zuwenden, erwähnen wir noch, dass durch .A/ jA \ Qj ein -endliches aber nicht lokalendliches Maß auf .R; B/ definiert ist. Die Aussage von Satz 8.8 ist für dieses Maß falsch. Um wie im Beweis zu Satz 8.7 aus der fast sicheren Konvergenz auf Lp -Konvergenz zu schließen, benötigt man gleichgradige Integrierbarkeit. Wir nennen einen Prozess .X t / t2T gleichgradig integrierbar, falls die Menge fX t W t 2 T g gleichgradig integrierbar ist. Satz 8.9 (Gleichgradig integrierbare Martingale) 1. Ein F -Martingal oder positives F -Submartingal X ist genau dann gleichgradig integrierbar, wenn es Y 2 L1 .; F1 ; P / gibt mit X t D E.Y j F t / beziehungsweise X t E.Y j F t / für alle t 2 T . 2. Für ein F -Submartingal X und eine monoton fallende Folge .tn /n2N in T mit infn2N E.X tn / > 1 ist fX tn W n 2 Ng gleichgradig integrierbar. Beweis. 1. Die Hinlänglichkeit der Bedingung X t D E.Y j F t / beziehungsweise 0 X t E.Y j F t / folgt aus Satz 6.14. Ist andererseits X gleichgradig integrierbar, so gilt sup t 2T EX tC sup t 2T EjX t j < 1, und der Martingalkonvergenzsatz liefert die fast sichere Konvergenz X tn ! Y für eine Folge tn " sup T (mit tn D sup T , falls T ein größtes Element besitzt). Wegen RSatz 4.7 gilt X tn ! RY dann auch Rin L1 . Für jedes m 2 N und A 2 F tm folgt dann A Y dP D limn!1 A X tn dP A X tm dP mit Gleichheit im Martingalfall. Dies zeigt E.Y j F tm / X tm mit Gleichheit, falls X Martingal, und ist schließlich t 2 T beliebig und tm t, so folgt die behauptete Aussage mit der Glättungseigenschaft. 2. Durch Umbenennen können wir T D ftn W n 2 Ng D N annehmen. Nach Voraussetzung ist Y t E.X t j F t 1 / X t 1 0, und deshalb konvergiert die Reihe P S t 1 Y t . Außerdem liefern Levis Satz und die Glättungseigenschaft E.S / D
X
E.X t /
E.X t
1/
t1
D E.X1 /
lim E.X t / D E.X1 /
t! 1
inf E.X t / < 1:
t 2T
P Für die Reihenreste R t Ng st Ys gilt 0 R t S , so dass fR t W t 2 gleichgradig integrierbar ist. Außerdem ist durch M t X t R t wegen E.M t
162
Kapitel 8 Martingale
M t 1 j F t 1 / D E.Y t Y t 1 j F t 1 / D 0 ein Martingal definiert, das wegen der ersten Aussage des Satzes (mit Y M 1 / gleichgradig integrierbar ist. Weil sich gleichgradige Integrierbarkeit wegen einer Bemerkung vor Satz 4.7 auf Summen überträgt, ist fX t D M t C R t W t 2 Ng gleichgradig integrierbar. In der Situation von Satz 8.9.1 nennt man das Martingal oder Submartingal abschließbar, weil mit X1 Y durch .X t / t 2T [f1g ein (Sub-) Martingal mit „abgeschlossenem“ Zeitbereich T [ f1g definiert ist. Bei dieser Bezeichnung ist zu beachten, dass die Abschließbarkeit nicht eine Eigenschaft von Prozessen ist, die zusätzlich Martingale oder Submartingale sind: Ein abschließbares Submartingal, das außerdem ein Martingal ist, braucht kein abschließbares Martingal zu sein. Ohne die Positivität ist die Aussage des Satzes für Submartingale nicht richtig: Für eine unabhängige Q Folge .Yn /n2N von B.1; p/ verteilten Zufallsvariablen ist durch Xn p n jnD1 Yj ein Martingal, also insbesondere ein Submartingal definiert T mit Xn Y 0. Wegen P . n2N fYn D 1g/ D 0 konvergiert Xn fast sicher gegen Y . Wegen E.Xn / D 1 und E.Y / D 0 gilt diese Konvergenz aber nicht in L1 , so dass .Xn /n2N wegen Satz 4.7 nicht gleichgradig integrierbar ist. Dieses Beispiel zeigt auch, dass die zweite Aussage von Satz 8.9 nicht für monoton wachsende Folgen gilt. Wir interessieren uns ab jetzt nur noch für den Zeitbereich T D Œ0; 1/. Um zum Beispiel den Optional-Sampling-Satz auf Stoppzeiten zu verallgemeinern, die nicht bloß abzählbar viele Werte annehmen, braucht man schon für dessen Formulierung, dass etwa X progressiv messbar ist (um Satz 7.12 anzuwenden), andernfalls ist gar nicht klar, dass X überhaupt eine Zufallsvariable ist. Dies ist nur ein Grund für die Bedeutung des folgenden Satzes. Satz 8.10 (Regularisierungssatz, Doob) C Für jedes F -Martingal X D .X t / t 0 gibt es ein rechtsstetiges F -Martingal Y mit X t D E.Y t j F t / für alle t 0. Ist F rechtsstetig, so besitzt X eine rechtsstetige Modifikation.
Beweis. Weil X C ein Submartingal ist, gilt sup t n E.X tC / E.XnC /, so dass wir den Martingalkonvergenzsatz auf die Submartingale XjQ\Œ0;n anwenden können. Durch Schneiden der von n 2 N abhängenden fast sicheren Ereignisse finden wir A 2 F1 mit P .A/ D 1, so dass X tm .!/ für jede monoton fallende Folge rationaler Zahlen und jedes ! 2 A konvergiert. Deshalb ist durch Y t limQ3s#t Xs IA ein Prozess definiert (das heißt, wir definieren Y t .!/ limn!1 Xsn .!/ für ! 2 A und eine streng monotone Folge sn # t mit sn 2 Q, und der Grenzwert hängt dann nicht von der speziellen Folge .sn /n2N ab). Wegen P .A/ D 1 sind Xs IA bezüglich F s D Fs _ N messbar, und daher ist Y C an F adaptiert. Für eine streng monotone Folge tn # t ist fX tn W n 2 N g wegen Satz 8.9 gleichgradig integrierbar, so dass X tn ! Y t auch in L1 gilt. Damit folgt C E.Y t j F t / D X t . Diese Gleichheit impliziert auch, dass Y ein F -Martingal ist: Für s < t und eine rationale Folge sn # s folgt mit Glättung und Satz 6.11.3
163
Kapitel 8 Martingale C
E.Y t j F s / D E.Y t j FsC / D E.E.Y t j F t / j FsC / D E.X t j FsC /
D
lim E.X t j Fsn / D Ys
n!1
wegen Satz 8.7. Die Rechtsstetigkeit von Y folgt aus der Definition: Für eine streng monotone Folge tn # t gibt es rationale sn 2 .tn ; tn 1 /, so dass jY tn Ysn j beliebig klein ist, und wegen Xsn ! Y t wird jY t Y tn j beliebig klein. C Ist schließlich F rechtsstetig, so gilt X t D E.Y t j F t / D E.Y t j F t / D Y t , also ist Y eine Modifikation von X.
Ist in der Situation des Regularisierungssatzes X selbst rechtsstetig, so gilt X D Y C fast sicher, so dass X ein F -Martingal ist und damit auch ein F C -Martingal, weil X an F C adaptiert ist. Satz 8.10 wird in der Literatur oft als Grund dafür angegeben, bloß rechtsstetige Martingale zu betrachten. Außerdem werden oft alle Filtrationen als rechtsstetig und vollständig vorausgesetzt. Manchmal stehen diese (oder ähnliche) als usual conditions bezeichneten Annahmen auch nur im „Kleingedruckten“. Der in Satz 8.10 konstruierte Prozess hat außer der Rechtsstetigkeit die Eigenschaft, dass linksseitige Grenzwerte lims"t Ys stets existieren. Für solche Prozesse findet man diverse Akronyme wie rcll (für right continuous left limits), cadlag (continu à droite, limites à gauche) oder corlol (continuous on the right limits on the left). Wie wir schon im Anschluss an die Maximal-Ungleichungen bemerkt haben, lassen sich für rechtsstetige Prozesse viele Aussagen für Martingale mit abzählbarer Zeit direkt auf den Fall T D Œ0; 1/ übertragen. Als eines der wichtigsten Resultate zeigen wir:
Satz 8.11 (Optional-Sampling in stetiger Zeit) Seien X D .X t / t 0 ein rechtsstetiges F -Submartingal und ; zwei Stoppzeiten. Falls u für ein u 0 oder X gleichgradig integrierbar ist, gilt E.X j F / X ^ mit Gleichheit, falls X ein Martingal ist. Für gleichgradig integrierbares X betrachten wir dabei den in Satz 8.9 beschriebenen Abschluss .X t / t 2Œ0;1 mit dem fast sicheren Grenzwert X1 limn!1 Xn . Dann ist also X auch auf f D 1g definiert. Beweis. Wir setzen zunächst u voraus und definieren für n 2 N Stoppzeiten n und n durch n .k C 1/=2n für 2 .k=2n ; .k C 1/=2n und n .k C 1/=2n für 2 .k=2n ; .k C 1/=2n . Wegen u hat m nur endlich viele Werte und Satz 8.2 impliziert Xn ^m E.Xm j Fn / für alle n; m 2 N. Wegen n # folgt mit der Rechtsstetigkeit und Satz 8.7 ^ X ^m E Xm j F n ; n2N
164
Kapitel 8 Martingale
und damit X ^m E.Xm j F / wegen der Monotonie von V E. j F /, der F -Messbarkeit von X ^m , der Glättungseigenschaft und F n2N Fn . Wieder wegen des Optional-Sampling-Satzes in abzählbarer Zeit ist durch Z m Xm ein Submartingal mit Zeitbereich N definiert, und wegen E.Z m / E.X0 / und Satz 8.9.2 ist fXm W m 2 Ng gleichgradig integrierbar. Daher gilt Xm ! X nicht bloß punktweise (wegen der Rechtsstetigkeit) sondern auch in L1 , und mit den Radon–Nikodym-Ungleichungen folgt X ^ E.X j F /. Ist nun X gleichgradig integrierbar, so gilt Xn ! X1 fast sicher und in L1 und t dann ist .X t / t 2Œ0;1 ein Submartingal. Mit der „Zeittransformation“ '.t / 1Ct und '.1/ 1 sowie XQ t X' 1 .t/ , FQ t F' 1 .t / , Q ' ı und Q ' ı 1 wird dann die Aussage für gleichgradig integrierbares X auf dem Fall 1 zurückgeführt.
Wie im Fall abzählbarer Zeit ist der Optional-Sampling-Satz für nicht beschränkte Stoppzeiten falsch. Für eine F -Brownsche Bewegung B und a > 0 hatten wir nach Satz 7.16 die Verteilung der Stoppzeit a infft 0 W B t D ag und insbesondere E.a / D 1 ausgerechnet. Weil a fast sicher endlich ist, gilt Ba D a fast sicher, also a D E.Ba / ¤ E.B0 / D 0: Wir berechnen jetzt den Erwartungswert der Stoppzeit a ^ a . Dazu betrachten wir das F -Martingal .B t2 t/ t 0 . Für beschränkte Stoppzeiten liefert der Optional-Sampling-Satz E.B2 / D 0, und mit monotoner sowie dominierter Konvergenz folgt dann E./ D lim E. ^ n/ D lim E.B2^n / D E.B2 / D a2 ; n!1
n!1
weil B2^n ! B2 D a2 und B2^n a2 , so dass Lebesgues Satz über dominierte Konvergenz tatsächlich anwendbar ist. Für einen Prozess X D .X t / t 2T und eine T -Zufallszeit definieren wir den in gestoppten Prozess X .X t^ / t 2T . Bei dieser Bezeichnung sind Verwechslungen mit Potenzen, Indizes oder dem Positivteil kaum zu befürchten. Sind F eine Filtration, X progressiv messbar und eine Stoppzeit, so ist X wieder an F adaptiert (diese Situation wird bei uns immer der Fall sein). Die Pfade von X sind bis zur Zeit gleich denen von X und ab dann konstant, so dass mit X auch X stetig oder rechtsstetig ist. Satz 8.12 (Optional-Stopping) Für ein rechtsstetiges F -Martingal X D .X t / t 0 und eine Stoppzeit ist X wieder ein F -Martingal. Die entsprechende Aussage gilt für Submartingale.
165
Kapitel 8 Martingale
Beweis. Weil für s t die Stoppzeit ^ t beschränkt ist, liefert der Optional-Sampling-Satz E.X t j Fs / D E.X ^t jFs / D X ^t ^s D Xs : Durch Stoppen kann man häufig Aussagen über Martingale mit sehr restriktiven Wachstumsannahmen auf allgemeine Martingale übertragen. Wir illustrieren dies anhand eines Begriffs, der im folgenden Kapitel eine zentrale Rolle spielen wird. Für eine Funktion f W Œ0; 1/ ! R, t 0 und eine Partition Z D f0 t0 tnC1 g (das heißt Z ist eine endliche Teilmenge von Œ0; t , durch die etwas ungewöhnliche Notation erhalten die Elemente der Größe nach geordnete Bezeichnungen) schreiben wir S.Z; f /
n X
jf .tj C1 /
f .tj /j und
S ˙ .Z; f /
j D0
n X
.f .tj C1 /
f .tj //˙
j D0
(wobei wie üblich x ˙ Positiv- und Negativteil bezeichnen) und definieren die Variation von f bis zur Zeit t durch Vf .t/ supfS.Z; f / W Z Œ0; t endlichg: Entsprechend sind die Positiv- und Negativvariation Vf˙ .t / von f definiert, indem S.Z; f / durch S C .Z; f / beziehungsweise S .Z; f / ersetzt wird. Ausnahmsweise bezeichnet hier also VfC nicht den Positivteil (also das Maximum mit der Nullfunktion) der Funktion Vf , wegen Vf 0 besteht aber auch kein Bedarf, den Positivteil dieser Funktion zu betrachten. Wir nennen f von endlicher Variation, falls Vf .t / < 1 für alle t > 0. Sowohl S.Z; f / als auch S ˙ .Z; f / sind bezüglich Z monoton wachsend, so dass es stets eine Folge von Partitionen gibt, so dass die zugehörigen Folgen gegen die Suprema konvergieren. Wegen jxj D x C C x und x D x C x folgt damit Vf .t / D VfC .t / C Vf .t / und
f .t/
f .0/ D VfC .t /
Vf .t/:
Für rechtsstetiges f sind Vf˙ .t / gleich den Suprema über alle S ˙ .Z; f / mit Z Œ0; t \ fk=2n W k 2 N0 g (dafür approximiert man zunächst Vf˙ .t / durch S ˙ .Z; f / und dann die Werte f .tj / durch geeignete f .k=2n //. Mit dem gleichen Argument zeigt man, dass mit f auch Vf˙ auf fVf˙ < 1g stetig oder rechtsstetig sind. Typische Beispiele für endliche Variation liefern einerseits monotone Funktionen – dann ist Vf .t / D jf .t / f .0/j – und andererseits Funktionen f mit beschränkten Differenzenquotienten j f .t/t sf .s/ j C – dann ist Vf .t/ C t. Wegen des Mittelwertsatzes gilt das insbesondere für differenzierbare Funktionen mit beschränkter Ableitung. Ist nun X D .X t / t 0 ein Prozess, so definieren wir VX .t / pfadweise, das heißt, VX .t/.!/ ist die Variation von s 7! Xs .!/. Dann hat also X endliche Variation, falls alle Pfade von endlicher Variation sind.
166
Kapitel 8 Martingale
Satz 8.13 (Variation stetiger Martingale) Jedes stetige Martingal X mit endlicher Variation ist fast sicher konstant. Beweis. Wir können (durch Übergang zu X t X0 ) annehmen, dass X0 D 0 gilt, und wir setzen zunächst VX .t /.!/ C für alle t 0 und ! 2 mit einer Konstanten C > 0 voraus. Insbesondere ist dann jX t j D jX t X0 j VX .t / C , also ist X ein L2 -Martingal. Aus der Unkorreliertheit der Zuwächse folgt für t 0, n 2 N und Zn ftn;j jt =.n C 1/; 0 j n C 1g E.X t2 /
D Var.X t / D Var
n X
X tn;j C1
X tn;j D
j D0
D E
n X
.X tn;j C1
j D0
n X
Var.X tn;j C1
X tn;j /
j D0
X tn;j /2 E max jX tn;j C1 0j n
X tn;j jS.X; Zn / :
Der Integrand im letzten Erwartungswert ist durch C 2 beschränkt und konvergiert wegen der gleichmäßigen Stetigkeit der Pfade gegen 0. Mit dominierter Konvergenz folgt dann E.X t2 / D 0, also X t D 0 fast sicher. Für den allgemeinen Fall definieren wir nun Stoppzeiten n infft 0 W VX .t/ ng: Weil man das Supremum in der Definition von VX durch ein abzählbares ersetzen kann, ist VX adaptiert und außerdem stetig, so dass Satz 7.10.2 anwendbar ist und deshalb n tatsächlich Stoppzeiten sind. Weil VX nach Voraussetzung reellwertig ist, gilt n ! 1. Außerdem sind VX n , und damit auch X n auf Œn ; 1/ konstant, was VX n .t/ n liefert. Wegen des Optional-Stopping-Satzes sind X n Martingale, und mit dem Spezialfall folgt für jedes t 0 also X tn D 0 fast sicher. Wegen n ! 1 impliziert dies X t D limn!1 X tn D 0 fast sicher. Durch Schneiden abzählbar vieler fast sicherer Ereignisse folgt X jQ\Œ0;1/ D 0 fast sicher, und die Stetigkeit impliziert schließlich X D 0 fast sicher. Die Reduktion im obigen Beweis durch Stoppen nennt man Lokalisieren. Diese Methode liefert sogar etwas mehr als die Aussage für stetige Martingale. Wir nennen einen rechtsstetigen F -adaptierten Prozess X D .X t / t 0 ein lokales F -Martingal, falls es eine monotone Folge von Stoppzeiten n gibt mit n ! 1 fast sicher, so dass die zentrierten und gestoppten Prozesse .X X0 /n (echte) F Martingale sind. Dabei identifizieren wir X0 mit dem zeitlich konstanten Prozess t 7! X0 . Die Folge .n /n2N heißt dann lokalisierend. Die Menge aller stetigen lokalen F -Martingale bezeichnen wir mit CM loc .F /. Dadurch ist ein Vektorraum definiert: Sind .n /n2N beziehungsweise .n /n2N lokalisierend für X; Y 2 CMloc .F / und a; b 2 R, so gilt %n D n ^ n ! 1 fast sicher,
167
Kapitel 8 Martingale
und .aX C bY
.aX0 C bY0 //%n D a..X
X0 /n /n C b..Y
Y0 /n /n
ist wegen des Optional-Stopping-Satzes eine Linearkombination von F -Martingalen und damit selbst ein F -Martingal. Aus Satz 8.13 folgt sofort, dass jedes X 2 CMloc .F / mit endlicher Variation fast sicher konstant ist: Für t > 0 und n 2 N ist X t ^n X0 D .X X0 /t n fast sicher 0 und wegen n ! 1 folgt X t D limn!1 X ^n D X0 fast sicher. Der Unterschied zwischen stetigen lokalen Martingalen und echten Martingalen ist etwas subtil, wird sich aber als entscheidend für viele Anwendungen der stochastischen Integration des folgenden Kapitels herausstellen. Einer der Unterschiede zwischen lokalen und echten Martingalen ist, dass man für lokale Martingale keinerlei Integrierbarkeitsvoraussetzung hat. Ist zum Beispiel X 2 CM loc .F / und Y0 eine F0 -messbare Zufallsvariable, so ist durch Z t Y0 X t stets ein lokales F -Martingal definiert: Ist n lokalisierend für X und n 1IfjY0 jng , so gilt %n n ^ n ! 1, und mit Pull-out folgt für s t E..Z
%
Z0 / t n j Fs / D Y0 IfjY0 jng E..X
X0 /t n j Fs / D .Z
Z0 /%s n :
Satz 8.14 (Doob-Bedingung) Ein lokales Martingal X ist genau dann ein Martingal, wenn für jedes t 0 die Menge fX ^t W Stoppzeitg gleichgradig integrierbar ist. Beweis. Für ein rechtsstetiges Martingal gilt X ^t D E.X t j F ^t / wegen des Optional-Sampling-Satzes für jede Stoppzeit . Mit Satz 6.14 folgt dann die gleichgradige Integrierbarkeit. Andererseits liefert die Bedingung X0 2 L1 , und für eine lokalisierende Folge n folgt aus Satz 4.7, dass .X X0 /t n ! X t X0 nicht nur fast sicher sondern auch in L1 gilt. Daher ist X X0 ein Martingal, und wegen X0 2 L1 ist auch X ein Martingal. Die Doob-Bedingung ist insbesondere erfüllt, wenn es Y 2 L1 mit jX t j Y für alle t 0 gibt. Wir werden im übernächsten Kapitel nach Satz 10.5 ein Beispiel dafür sehen, dass man diese Dominiertheit nicht durch die gleichgradige Integrierbarkeit von X ersetzen kann: Für eine dreidimensionale Brownsche Bewegung B und a 2 R3 n f0g ist durch X D kB ak 1 ein gleichgradig integrierbares lokales Martingal definiert, das kein echtes Martingal ist. Für stetige lokale Martingale X kann man die lokalisierende Folge n immer als n infft 0 W jX t j ng wählen, so dass die Prozesse .X X0 /n sogar durch 2n beschränkt sind. Ist nämlich n eine lokalisierende Folge für X, so ist sie wegen des Optional-Stopping-Satzes und ..X X0 /n /m D ..X X0 /m /n auch für X n lokalisierend. Wegen j.X X0 /t n j 2n und Satz 8.14 sind .X X0 /n dann schon echte Martingale. Weil diese spezielle Folge n aus F .X /-Stoppzeiten besteht, folgt insbe-
168
Kapitel 8 Martingale
sondere, dass jedes stetige lokale F -Martingal X auch ein lokales F .X /-Martingal ist. Durch Lokalisieren kann man nicht bloß viele Eigenschaften von Prozessen mit restriktiven Wachstumseigenschaften auf allgemeinere Klassen übertragen, sondern auch Definitionen, die zunächst nur für eine kleine Klasse sinnvoll sind. Weil diese „lokalen Definitionen“ im nächsten Kapitel eine große Rolle spielen, formulieren wir das Prinzip in folgendem Satz: Satz 8.15 (Lokalisierung) Seien n F -Stoppzeiten mit n " 1 fast sicher. 1. Ein stetiger adaptierter Prozess X mit X n 2 CMloc .F / für alle n 2 N ist schon ein lokales Martingal. 2. Zwei stetige adaptierte Prozesse X, Y sind fast sicher gleich, falls X n D Y n fast sicher für alle n 2 N. 3. Für stetige F -adaptierte Prozesse X.n/ mit X.n C 1/n D X.n/n fast sicher gibt es einen – bis auf fast sichere Gleichheit eindeutig bestimmten – stetigen F adaptierten Prozess X mit X n D X.n/n für alle n 2 N.
Beweis. 1. Für m infft 0 W jX t j mg sind wegen des Optional-Stopping-Satzes durch Zn;m .X X0 /n ^m echte Martingale definiert mit Zn;m ! .X X0 /m für n ! 1 und jZn;m j 2m. Mit dominierter Konvergenz folgt, dass .X X0 /m echte Martingale sind. T 2. Wegen n ! 1 sind fX D Y g und n2N fX n D Y n g fast sicher gleich. T 3. Für A n2N fX.n/n D X.n C 1/n g 2 F1 gilt P .A/ D 1, so dass durch X t .!/ IA .!/X.n/ t .!/ für n .!/ t ein stetiger F -adaptierter Prozess wohldefiniert ist, der die Bedingung der dritten Aussage erfüllt. Die Eindeutigkeit folgt aus der zweiten Aussage.
Zum Abschluss dieses Kapitels definieren wir für 1 p < 1 die Vektorräume CM p .F / f.X t / t 0 stetiges F -Martingal W sup kX t kp < 1g t 0
der stetigen Lp -beschränkten Martingale. Durch jjjX jjjp sup t 0 kX t kp sind Halbnormen definiert, so dass jjjX jjjp D 0 genau dann gilt, wenn X D 0 fast sicher. Satz 8.16 (Vollständigkeit von CMp ) Für 1 < p < 1 und X 2 CM p .F / gilt jjjXjjjp k sup t 0 jX t jkp
p p 1 jjjXjjjp .
Außerdem ist CMp .F / vollständig.
Beweis. Die Aussage über die Normen folgt aus der Maximal-Ungleichung in Satz 8.4, wegen der Stetigkeit kann man dort die Suprema über s t durch abzählbare
169
Kapitel 8 Martingale
ersetzen, und mit monotoner Konvergenz folgt dann p kXn kp n!1 p 1
k sup jX t jkp D lim k sup jXs jkp lim n!1
t0
0sn
p p 1 jjjX jjjp :
Für den Beweis der Vollständigkeit betrachten wir eine Cauchy-Folge .X n /n2N0 p .F /. Weil es reicht, die Konvergenz einer Teilfolge zu beweisen, können wir in PCM 1 n X n 1 jjjp < 1 annehmen. Wegen der Norm-Ungleichung und mononD1 jjjX P n toner Konvergenz ist dann Z 1 sup X tn 1 j 2 Lp , und insbesondere t 0 jX t nD1 ist A fZ < 1g 2 F1 ein fast sicheres Ereignis. Durch X t limn!1 X tn IA ist nun ein F -adaptierter Prozess definiert mit
sup jX tn t 0
Xt j
1 X kDnC1
sup jX tk t 0
X tk
1
j Z:
Als gleichmäßige Grenzwerte sind alle Pfade von X stetig, und weil X tn ! X t auch in Lp gilt, ist X ein Martingal. Schließlich folgt mit dominierter Konvergenz jjjX n
X jjjp ! 0:
Wir werden im nächsten Kapitel vor allem CM 2 .F / benutzen, weil es dann ein Skalarprodukt gibt, dessen Halb-Norm die gleichen konvergenten und Cauchy-Folgen hat wie jjj jjj2 : Jedes X 2 CM2 .F / ist wegen der L2 -Beschränktheit gleichgradig integrierbar und wegen Satz 8.9 daher von der Form X t D E.X1 j F t / für den fast sicheren Grenzwert X1 D limn!1 Xn . Wegen der Norm-Ungleichung aus Satz 8.16 ist dann
kX1 k2 k sup jX t jk2 2jjjX jjj2 D 2 sup kE.X1 j F t /k2 2kX1 k2 t 0
t 0
wegen der bedingten Jensen-Ungleichung. Durch hX; Y i E.X1 Y1 / ist also ein Skalarprodukt definiert, dessen zugehörige Halb-Norm gerade kX1 k2 ist. Bei Anwendungen des Rieszschen Darstellungssatzes 4.14 auf dieses Skalarprodukt benutzen wir dann die Vollständigkeit von CMloc .F /.
Aufgaben 8.1. Seien X P D .Xn /n2N eine unabhängige Folge identisch verteilter Zufallsvariablen, Sn jnD1 Xj und eine F .X /-Stoppzeit. Zeigen Sie E.S / D E./E.X1 /, falls entweder X1 0 oder X1 2 L1 und 2 L1 . 8.2. Finden Sie eine unabhängige Folge von Zufallsvariablen PYn mit E.Yn / D 0 und P .fYn ! 0g/ D 0, und folgern Sie, dass durch Xn jnD1 Yj ein fast sicher divergentes Martingal definiert ist.
170
Kapitel 8 Martingale
8.3. Zeigen Sie, dass jedes L2 -beschränkte Martingal .Xn /n2N (wegen der Unkorreliertheit der Zuwächse) in L2 konvergiert. Finden Sie ein L1 -beschränktes Martingal, das nicht in L1 konvergiert. 8.4. Zeigen Sie für p > 1 und X 2 CMp .F /, dass X t ! X1 sowohl fast sicher als auch in Lp gelten. 8.5. Zeigen Sie, dass für jedes stetige Martingal .X t / t 0 die Abbildung Œ0; 1/ ! L1 , t 7! X t stetig ist. 8.6. Seien Y eine nicht fast sicher konstante Zufallsvariable mit E.Y / D 0 und X t Y I.1;1/ .t/. Zeigen Sie, dass X D .X t / t 0 ein F .X /-Martingal ist, das keine rechtsstetige Modifikation besitzt und das kein F .X /C -Martingal ist. 8.7. Für einPF -Submartingal X D .Xn /n2N seien n Xn Xn 1 mit X0 0 und An jnD1 E.j j Fj 1 /, wobei F0 f¿; g. Zeigen Sie, dass durch Mn Xn An ein zentriertes F -Martingal definiert ist. Zeigen Sie außerdem, dass diese Doob-Zerlegung X D M C A durch folgende Eigenschaften fast sicher eindeutig ist: M ist ein zentriertes Martingal, An ist Fn 1 -messbar, und A ist monoton wachsend. 8.8. Seien F eine N-Filtration eines Wahrscheinlichkeitsraums .; A; P / und Q eine Verteilung auf F1 mit QjFn D Zn P jFn für alle n 2 N. Zeigen Sie, dass Z D .Zn /n2N ein F -Martingal ist, das genau dann gleichgradig integrierbar ist, wenn Q P jF1 . 8.9. Bestimmen Sie in der Situation der vorherigen Aufgabe für .; A/ .Œ0; 1/; B \ Œ0; 1//, Q U.0; 1/ und Fn .fŒ j2n1 ; 2jn / W j 2 Zg/ eine Verteilung P , so dass die Folge der Dichten nicht gleichgradig integrierbar ist.
8.10. Zeigen Sie (mit Hilfe der expliziten Darstellung endlich erzeugter -Algebren vom Anfang des ersten Kapitels), dass man bedingte Erwartungen bezüglich endlicher -Algebren durch eine Formel definieren kann. Benutzen Sie dann Satz 8.7 für einen weiteren Beweis der Existenz bedingter Erwartungswerte E.X j Y / für Zufallsgrößen Y mit Werten in polnischen Räumen. 8.11. Seien .; A; P / ein Wahrscheinlichkeitsraum, so dass A einen abzählbaren Erzeuger besitzt. Zeigen Sie (ähnlich wie im Beweis zu Satz 8.8), dass Lp .; A; P / für jedes p 2 Œ1; 1/ separabel ist. 8.12. Zeigen Sie für eine Brownsche Bewegung B, dass durch X t 1t B t ein Martingal mit dem Zeitbereich . 1; 0 definiert ist und folgern Sie daraus 1t B t ! 0 fast sicher für t ! 1.
8.13. Zeigen Sie, dass jedes positive lokale Martingal X mit X0 2 L1 ein in L1 beschränktes konvergentes Supermartingal ist.
Kapitel 8 Martingale
171
8.14. Seien B eine Brownsche Bewegung, infft 0 W B t D 1g, X 1 B und W Œ0; 1/ ! Œ0; 1 definiert durch .t / .1 tt/C (wobei X1 wegen der vorherigen Aufgabe definiert ist). Zeigen Sie, dass durch Y t X.t/ ein lokales Martingal definiert ist, das kein echtes Martingal ist.
Kapitel 9
Stochastische Integration
Jeder Integralbegriff beruht auf einem Approximations- und Fortsetzungsprozess: Für einen „Integrator“ X und eine Klasse „elementarer Integranden“ definiert man zunächst ein „elementares Integral“ und versucht dann unter Beibehaltung der Eigenschaften des elementaren Integrals, die Definition durch Approximation der Integranden auf eine größere Klasse fortzusetzen. In diesem Kapitel sind sowohl Integranden als auch Integratoren stochastische Prozesse. Trotzdem beginnen wir – sozusagen als Nachtrag zu Kapitel 3 – mit einer nichtstochastischen Situation (wobei wir allerdings schon eine für Prozesse übliche Notation benutzen). Als Integrator betrachten wir eine Abbildung X W Œ0; 1/ ! R, wobei wir das Argument t 2 Œ0; 1/ als Index schreiben. Die P elementaren Integranden bestehen aus monotonen Follinksstetigen Treppenfunktionen H t D 1 nD0 an I.tn ;tnC1 .t/ mit P1 gen tn ! 1 und an 2 R. Für eine weitere Treppenfunktion G D nD0 bn I.sn ;snC1 und ˛; ˇ 2 R sind ˛H C ˇG und HG linksstetig und auf den Intervallen .rn ; rnC1 konstant (mit rnC1 minfsk ; tk W k 2 N0 g n fr0 ; : : : ; rn g/, also wieder Treppenfunktionen. Für H wie oben definieren wir das elementare Stieltjes-Integral von H bezüglich X durch Z t Z t 1 X .H X/ t HdX Hs dXs an .X t ^tnC1 X t ^tn /: 0
0
nD0
Diese Definition ist unabhängig von der speziellen Darstellung von H , und wegen tn ! 1 hat die Reihe bloß endlich viele von null verschiedene Summanden. R 1Falls sie auch für t D 1 konvergiert, bezeichnen wir den Wert mit .H X/1 0 HdX . Damit gilt .H X/ t D .HI.0;t X/1 D .H X t /1 , wobei X t die in t gestoppte Funktion Xst D X t ^s bezeichnet. Das elementare Integral ist sowohl bezüglich H (bei festem X) als auch bezüglich X (bei festem H ) linear, dies bezeichnen wir als Bilinearität. Eine nahe liegende Idee zur Vergrößerung der Klasse der Integranden ist, Funktionen H W Œ0; 1/ ! R gleichmäßig (oder gleichmäßig auf kompakten Intervallen) durch Treppenfunktionen H.n/ zu approximieren. Falls dann .H.n/X/ t konvergiert, würde man den Grenzwert wieder Integral von H bezüglich X nennen. Für X t D t erhält man so das Regelintegral. Für dieses Vorgehen benötigt man die Stetigkeit des Integrals .H X/ t bezüglich der gleichmäßigen Konvergenz auf Œ0; t, das heißt, für jede Folge H.n/ von Treppenfunktionen mit supst jH.n/s j ! 0 gilt .H.n/ X/ t ! 0. Für supst jH.n/s Hs j ! 0
173
Kapitel 9 Stochastische Integration
ist dann nämlich .H.n/ X / t eine Cauchy-Folge in R und deshalb konvergent. Wir zeigen jetzt, dass diese Idee genau für Integratoren mit endlicher Variation erfolgreich ist: Satz 9.1 (Existenz des Stieltjes-Integrals) Für t > 0 ist das Integral .H X / t genau dann stetig bezüglich der gleichmäßigen Konvergenz auf Œ0; t , wenn VX .t / < 1 gilt. P Beweis. Für VX .t / < 1 und H D 1 nD0 an I.tn ;tnC1 gilt 1 ˇZ t ˇ X ˇ ˇ HdX ˇ jan jjX t ^tnC1 ˇ 0
nD0
X t ^tn j sup jHs jVX .t /; st
und damit folgt die Stetigkeit bezüglich der gleichmäßigen Konvergenz P auf Œ0; t . Für eine Partition Z D f0 t0 < < tmC1 D t g und H m nD0 an I.tn ;tnC1 mit den Vorzeichen an sign.X tnC1 X tn / (wobei sign.x/ x 1 jxj, was nach unseren Konventionen sign.0/ D 0 bedeutet) ist andererseits S.Z; X / D .H X / t , was VX .t / supf.H X/ t W supst jHs j 1g impliziert. Wegen der Stetigkeit ist dieses Supremum dann endlich: Andernfalls gäbe es Treppenfunktionen H.n/ mit supst jH.n/s j 1 und cn .H.n/ X / t ! 1, und weil cn 1 H.n/ auf Œ0; t gleichmäßig gegen null konvergiert, folgt der Widerspruch 1 D .cn 1 H.n/ X / t ! 0. Für eine Funktion X mit endlicher Variation gibt es wegen dieses Satzes für jedes t > 0 genau eine stetige Fortsetzung des Integrals auf die Menge der Funktionen, die sich auf Œ0; t gleichmäßig durch Treppenfunktionen approximieren lassen. Diese Fortsetzung nennen wir wieder Stieltjes-Integral. Für rechtsstetiges X gibt es eine andere Methode, die direkt zu einer größeren Klasse von Integranden führt: Mit X sind auch die Positiv- und Negativvariationen VXC und VX rechtsstetig und außerdem monoton mit VX˙ .0/ D 0. ˙ Mit Hilfe des Korrespondenzsatzes 2.7 finden wir dann Maße X auf .R; B/ mit ˙ ˙ ˙ X .Œ0; t / D VX .t / für alle t 0. Falls lim t !1 VX .t/ D 1, folgt dies direkt aus Satz 2.7, und andernfalls wenden wir Satz 2.7 für jedes n 2 N auf Fn˙ .t / VX˙ .0 _ .t ^ n//=VX˙ .n/ an, für die zugehörigen Verteilungen Pn˙ sind dann durch ˙ ˙ ˙ ˙ ˙ n D VX .n/Pn Maße definiert mit nC1 .A \ Œ0; n/ D n .A/ wegen des Maß˙ eindeutigkeitssatzes, und durch X .A/ limn!1 ˙ n .A/ finden wir die gesuchten Maße. Für H I.r;s gilt wegen X X0 D VXC VX t
Z 0
HdX D X t ^s X t ^r D VXC .t ^ s/ VXC .t ^ r/ Z Z C D H dX H dX ; Œ0;t
Œ0;t
VX .t ^ s/ C VX .t ^ r/
174
Kapitel 9 Stochastische Integration
und wegen der Linearität des ersten und letzten Ausdrucks gilt diese Identität für alle TreppenfunktionenR H . Wir nennen eine Borel-messbare Funktion H bezüglich ˙ X integrierbar, falls Œ0;t jH jdX für alle t 0 endlich sind, und definieren das Lebesgue–Stieltjes-Integral von H bezüglich X durch t
Z .H X/ t
0
t
Z HdX
0
Z Hs dXs
Œ0;t
C H dX
Z Œ0;t
H dX :
C Sind H positiv und X X X ein Maß (was für monoton wachsendes X der Fall ist, im Allgemeinen nennt man X ein „signiertes Maß“), so ist .H X / t D H X .Œ0; t /, wobei H X wie in Kapitel 3 das Maß mit X -Dichte H bezeichnet. Dieser Zusammenhang erklärt die Notation H X für das Integral. Bevor wir gleich die wesentlichen Eigenschaften für das Lebesgue–Stieltjes-Integral beweisen, „verallgemeinern“ wir das Integral auf Prozesse H und X: Ist X rechtsstetig mit endlicher Variation (das heißt, alle Pfade X.!/ sind rechtsstetig mit endlicher Variation) und sind die Pfade H.!/ jeweils bezüglich X.!/ integrierbar, so nennen wir H bezüglich X integrierbar und definieren das Lebesgue–StieltjesIntegral von H bezüglich X pfadweise als .H X / t .!/ D .H.!/ X.!// t .
Satz 9.2 (Lebesgue–Stieltjes-Integral) Seien X; Y rechtsstetige Prozesse mit endlicher Variation und H; G bezüglich X und bezüglich Y integrierbar sowie a; b 2 R. 1. H X ist rechtsstetig mit VH X .t / .jH j VX / t . Mit X ist auch H X stetig. 2. .aH CbG/X D a.H X /Cb.G X / und H .aX CbY / D a.H X /Cb.H Y /. 3. G ist genau dann bezüglich H X integrierbar, wenn GH bezüglich X integrierbar ist, und dann gilt G .H X / D GH X . 4. Sind X oder Y stetig, so gilt X Y C Y X D X Y 5. Für jedes 0 gilt .H
X /
DH
X
D
H
X
X0 Y0 . D HIŒ0; X.
6. Sind X an eine Filtration F adaptiert und H bezüglich F progressiv messbar, so ist H X wiederum F -progressiv, also insbesondere F -adaptiert. Die Aussagen in 2. bis 5. nennen wir Bilinearität, Kettenregel, partielle Integration und Stoppregeln. Beweis. Weil die ersten fünf Aussagen sich bloß auf die Pfade beziehen, unterdrücken wir die !-Abhängigkeit in der Notation. 2. Der erste Teil der zweiten Aussage folgt direkt aus der Linearität des Integrals C bezüglich der Maße X und X . ˙ ˙ und für a < 0 gilt ˙ Für a 0 ist aX D aX aX D aX (die entsprechenden Aussagen für die Variationen ergeben sich direkt aus der Definition, und mit dem
175
Kapitel 9 Stochastische Integration
Maßeindeutigkeitssatz folgen Sie für die zugehörigen Maße). Damit erhalten wir H .aX/ D a.H X /. Wegen X X0 CY Y0 D VXC VX CVYC VY gilt G .X CY / D G X CG Y für alle Indikatorfunktionen G, und mit Standardschluss folgt, dass H bezüglich X C Y integrierbar ist mit H .X C Y / D H X C H Y . 5. Die Variationen des gestoppten Prozesses erfüllen VX˙ .t / D VX˙ .t ^ /, und ˙ ˙ wegen des Maßeindeutigkeitssatzes folgt X .A/ D X .A \ Œ0; /. Damit erhalten wir H X D H X D HIŒ0; X D .H X / . C 1. Das Maß X C X besitzt die Verteilungsfunktion VXC C VX D VX , so dass R R C j.H X / t j Œ0;t jH jdX C Œ0;t jH jdX D .jH j VX / t gilt. Für eine Partition Z D f0 D t0 < < tmC1 D t g folgt aus 5. und der Linearität S.H X; Z/ D
m X
j.H X / tnC1
m ˇZ t ˇ X ˇ ˇ HI.tn ;tnC1 dX ˇ .H X / tn j D ˇ
nD0
m Z X nD0 0
nD0 t
t
Z jH jI.tn ;tnC1 d VX D
0
0
jH jd VX :
Für das Supremum über alle Partitionen erhalten wir VH X jH j VX . R Für s t folgt damit und der 5. Aussage j.H X / t .H X /s j D jHI.s;t Xj jH jI.s;t dVX , und die Rechtsstetigkeit folgt dann aus dem Satz von Lebesgue, weil jH jI.s;tn ! 0 für jede Folge tn # s gilt. Mit X ist auch VX stetig, so dass R jH jdVX D 0. Für jede Folge sn " t erhalten wir dann wieder mit dominierter ft g Konvergenz .H X /sn ! .H X/ t , also die Linksstetigkeit von H X . 3. Durch Zerlegen in X X0 D VXC VX in Positiv- und Negativvariation und H D H C H in Positiv- und Negativteil können wir X als monoton wachsend und C C H als positiv annehmen. Dann ist H eine X -Dichte von H X und die Kettenregel in 3. stimmt mit der Aussage von Satz 3.10 überein. 4. Wegen der Bilinearität beider Seiten der Formel können wir wie eben durch Zerlegen X und Y als monoton wachsend annehmen und erhalten die partielle Integrationsformel aus der vor Satz 3.16 (als Anwendung des Satzes von Fubini) bewiesenen. 6. Wir haben vor Satz 8.13 gesehen, dass für rechtsstetiges X die Variationen VX˙ .t / die Suprema über S ˙ .X; Z/ mit Partitionen Z fk=2n W k 2 N0 g \ Œ0; t sind. Alle S ˙ .X; Z/ sind dann F t -messbar, so dass VX˙ .t/ als abzählbare Suprema wieder F t ˙ ˙ ˙ messbar sind. Für 0 s t hängen X.!/ ..s; t / D VX.!/ .t / VX.!/ .s/ daher F t -messbar von ! ab. ˙ Das System fA 2 B \ Œ0; t W ! 7! X.!/ .A/ sind F t -messbarg ist wegen der -Additivität von Maßen ein Dynkin-System, das also den schnittstabilen Erzeuger f.s; t W 0 s tg von B \ Œ0; t enthält, und wegen des Dynkin-Arguments deshalb mit B \ Œ0; t übereinstimmt. ˙ Wir haben damit gezeigt, dass durch K ˙ .!; A/ X.!/ .A/ endliche Kerne von .; F t / nach .Œ0; t; B \ Œ0; t / definiert sind. Für positives und progressives H folgt
176
Kapitel 9 Stochastische Integration
R R daher aus Satz 3.14, dass .H X / t D Hs dK C .; s/ Hs dK .; s/ bezüglich F t C messbar ist. Weil mit H auch H und H progressiv sind, erhalten wir, dass H X an F adaptiert ist und wegen der ersten Aussage außerdem rechtsstetig. Satz 7.12 impliziert dann, dass H X sogar F -progressiv ist. Wegen Satz 8.13 haben stetige Martingale nur dann endliche Variation, wenn sie fast sicher konstant sind, das heißt also, dass stetige Martingale und insbesondere Brownsche Bewegungen als Integratoren für das pfadweise Lebesgue–StieltjesIntegral gänzlich ungeeignet sind! Die Grundidee der stochastischen Integration (und damit die Lösung dieses Dilemmas) ist sehr einfach: Statt der pfadweisen Konvergenz elementarer Integrale untersuchen wir wahrscheinlichkeitstheoretische Begriffe, also stochastische, fast sichere oder Lp -Konvergenz, und für ein Martingal als Integrator erhalten wir diese für den Fortsetzungsprozess benötigte Konvergenz mit Hilfe der Martingaltheorie des vorherigen Kapitels. Für das Stieltjes-Integral haben wir P vorhin linksstetige Treppenfunktionen betrachtet, also Funktionen der Form H D 1 nD0 an I.tn ;tnC1 . Der Grund für diese Wahl ist, dass für ein Maß mit Verteilungsfunktion F dann ..s; t/ D F .t/ F .s/ gilt. Für die Stochastik ergibt sich daraus der Nachteil, dass an nicht der Wert von H zur Zeit tn ist, sondern dass an D H tnC1 gilt. Ist obige Verteilungsfunktion stetig, so gilt ..s; t/ D .Œs; t //, und daher können wir dann genauso gut rechtsstetigePTreppenfunktionen betrachten. Für eine solche Funktion H , das heißt also H D 1 nD0 an IŒtn ;tnC1 / mit tn " 1, und (um Widersprüche zu der früheren Definition zu vermeiden) eine stetige Funktion X W Œ0; 1/ ! R definieren wir wieder t
Z .H X / t
0
t
Z HdX
0
Hs dXs
1 X
an .X t ^tnC1
X t ^tn /:
nD0
Wir betrachten ab jetzt immer eine Filtration F D .F t / t 0 und bezeichnen mit T .F / die Menge aller F -Treppenprozesse, das heißt F -adaptierte Prozesse, deren Pfade rechtsstetige Treppenfunktionen sind. Für einen stetigen Prozess X und H 2 T .F / definieren wir R t dann den Integralprozess H X pfadweise und schreiben wie oben .H X/ t D 0 Hs dXs . Die Menge T .F / ist ein Vektorraum und das pfadweise definierte Integral ist wie vorhin bilinear. Um wie beim Stieltjes-Integral gleichmäßige Konvergenz zu untersuchen, definieren wir jjjY jjj1 supfjY t .!/j W ! 2 ; t 0g für einen Prozess Y . Mit T .F / bezeichnen wir den Vektorraum aller gleichmäßigen Grenzwerte von Treppenprozessen, also die Menge aller Prozesse H , so dass es H.n/ 2 T .F / mit jjjH H.n/jjj1 ! 0 gibt. Dabei müssen weder H noch H.n/ beschränkt sein, sondern bloß die Differenzen. Im folgenden Satz benutzen wir für Zufallszeiten und stochastische Intervalle Œ; / f.!; t/ W .!/ t < .!/g und die dazu gehörigen Indikatorprozesse
177
Kapitel 9 Stochastische Integration
.IŒ;/ / t .!/ IŒ.!/;.!// .t /. Für diese sehr einfachen Treppenprozesse haben also alle Pfade (höchstens) zwei Sprungstellen. Satz 9.3 (Treppenprozesse) Für jeden P Treppenprozess H 2 T .F / gibt es F -Stoppzeiten n nC1 ! 1 mit H D 1 nD0 Hn IŒn ;nC1 / . Jeder stetige adaptierte Prozess ist Element von T .F /.
Beweis. Wir bezeichnen die Sprungstellen von H mit n , also 0 0 und nC1 infft n W H t ¤ Hn g, und zeigen induktiv, dass n Stoppzeiten sind. Wegen H t D H tn für t < n ist nC1 die Eintrittszeit des rechtsstetigen Prozesses H H n in die offene Menge f0gc , also nach Satz 7.10.1 eine schwache F -Stoppzeit. Außerdem ist fnC1 D t g D fnC1 tg \ fH t ¤ H tn g 2 F t , so dass nC1 eine (echte) F -Stoppzeit ist. Auf Œn .!/; nC1 .!// ist H.!/ konstant mit Wert Hn .!/, was die erste Aussage beweist. Für einen stetigen adaptierten Prozess X und " > 0 definieren wir Stoppzeiten 0 0 und nC1 infft n W jX t Xn j "g. Wie eben ist nC1 Eintrittszeit von X X n in die diesmal abgeschlossene Menge . "; "/c , also tatsächlich eine F -Stoppzeit wegen Satz 7.10.2. Für t 2 Œn ; nC1 / ist dann jX t Xn j ", und wegen der gleichmäßigen Stetigkeit der P1Pfade auf kompakten Intervallen gilt n .!/ ! 1 für jedes ! 2 . Durch H H jjj1 " definiert. Die nD0 Xn IŒn ;nC1 / ist also ein Treppenprozess mit jjjX Adaptiertheit von H folgt dabei wegen fH t 2 Bg D
[
fXn 2 Bg \ fn t < nC1 g
n2N0
aus fXn 2 Bg 2 Fn für alle B 2 B und Fn \ fn t g F t .
Für einen Integrator X 2 CM 2 .F /, also ein L2 -beschränktes stetiges F -Martingal, zeigen wir jetzt, dass das elementare Integral wiederum eine Martingaleigenschaft hat, sowie die Stetigkeit der Integration T .F / ! CM 2 .F /; H 7! H X, wobei wir auf T .F / die gleichmäßige Konvergenz und auf CM 2 .F / die Halbnorm jjjX jjj2 D supfkX t k2 W t 0g vom Ende des 8. Kapitels betrachten.
Satz 9.4 (Itô-Integral für Treppenprozesse) 1. Für X; Y 2 CM loc .F / und H 2 T .F / sind H X und .H X /Y stetige lokale Martingale.
H .X Y /
2. Für X 2 CM 2 .F / und ein beschränktes H 2 T .F / ist H X 2 CM 2 .F / mit jjjH Xjjj2 jjjH jjj1 jjjX X0 jjj2 .
178
Kapitel 9 Stochastische Integration
P Beweis. 1. Wegen Satz 9.3 ist H D 1 nD0 Hn IŒn ;nC1 / mit Stoppzeiten n " 1. P Die zugehörigen Partialsummen bezeichnen wir mit H.N / N nD0 Hn IŒn ;nC1 / . PN n N nC1 Wegen .H X / D nD0 Hn .X X / D H.N / X und Satz 8.15.1 reicht es zu zeigen, dass H.N / X lokale Martingale sind. Für festes n N ist M Hn .X nC1 X n / ein stetiger Prozess, der wegen M t D Hn ^t .X t nC1 X tn / adaptiert ist, und deshalb sind %m D infft 0 W jM t j C jX t j mg Stoppzeiten mit %m ! 1. Für eine zweiwertige Stoppzeit folgt dann mit Glättung, Pull-out und dem Optional-Sampling-Satz %
%
m E.M%m / D E.Hn E.XnC1 ^
Xnm^ j Fn // D 0:
Wegen des Martingaltests 8.3 sind daher M %m Martingale, so dass M und als Linearkombination auch H.N / X lokale Martingale sind. Für die zweite Aussage berechnen wir .H X/Y D
1 X
Hn .X nC1
X n /Y nC1
nD0
D
1 X
Hn ..X Y /nC1
1 X
.X Y /n /
nD0
Hn X n .Y nC1
Y n /
nD0
D H .X Y / G Y; P1 wobei G nD0 Hn Xn IŒn ;nC1 / ein Treppenprozess ist. Wegen der schon bewiesenen Aussage ist also .H X/Y H .X Y / D G Y ein lokales Martingal. 2. Für X 2 CM 2 .F / und jjjH jjj1 < 1 erfüllt nun H.N / X selbst den Martingaltest (die Rechnung ist dieselbe wie eben), und wegen der Dreiecksungleichung ist k.H.N / X/ t k2 < 1, so dass H.N / X ein L2 -Prozess ist. Wegen des OptionalSampling-Satzes sind daher die Zuwächse .H.N / X / t ^nC1 .H.N / X / t ^n D Hn .X t nC1 X tn / und aus gleichem Grund X t nC1 X tn jeweils unkorreliert. Wegen nC1 n E.Hn .X t X t // D 0 folgt damit N X
E..H.N / X /2t / D Var..H.N / X / t / D
Var.Hn .X t nC1
X tn //
nD0
jjjH jjj21
N X
Var.X t nC1
X tn / jjjH jjj21 Var.X t
X0 /
nD0
D jjjH jjj21 E..X t
X0 /2 / jjjH jjj21 jjjX
X0 jjj22 :
Insbesondere ist .H.N / X/ t in L2 beschränkt und daher gleichgradig integrierbar, so dass .H.N / X/ t ! .H X/ t nicht nur fast sicher, sondern auch in L1 gilt. Daher ist H X ein echtes Martingal. Die Ungleichung für jjjH Xjjj2 folgt schließlich aus der für jjjH.N / Xjjj2 mit dem Lemma von Fatou.
179
Kapitel 9 Stochastische Integration
Wegen des zweiten Teils von Satz 9.4 können wir nun für Integratoren X 2 CM 2 .F / die Integration auf T .F / fortsetzen: Für H 2 T .F / und eine Folge H.n/ 2 T .F / mit jjjH H.n/jjj1 ! 0 ist .H.n/ H.1// X eine Cauchy-Folge im CM 2 .F / CM 2 .F / und wegen der Vollständigkeit aus Satz 8.16 existiert ein (fast sicher eindeutiger) Grenzprozess limn!1 .H.n/ H.1// X 2 CM 2 .F /. Das Itô-Integral von H bezüglich X definieren wir damit als
H X H.1/ X C lim .H.n/ n!1
H.1// X:
Dies ist eine „fast sichere Definition“, und wir vereinbaren deshalb, alle Aussagen über Integralprozesse stets als fast sicher aufzufassen. Die Definition von H X hängt nicht von der speziellen Folge H.n/ ab, so dass es insbesondere kein Konsistenzproblem mit der pfadweisen Definition für H 2 T .F / gibt. Der erste Teil von Satz 9.4 impliziert H X 2 CM loc .F /, und für beschränktes H 2 T .F / ist H X 2 CM 2 .F /. Außerdem überträgt sich die Bilinearität des „elementaren“ Integrals auf die Fortsetzung. Bevor wir gleich Eigenschaften dieses „Itô-Regelintegrals“ beweisen, wollen wir durch Lokalisieren die Klasse der Integratoren vergrößern: Für X 2 CM loc .F / gibt es Stoppzeiten n " 1, so dass .X X0 /n 2 CM 2 .F / (zum Beispiel n infft 0 W jX t j ng), und für n 2 N und H 2 T .F / gilt dann .H .X X0 /nC1 /n D H .X X0 /n : Für H 2 T .F / stimmt dies wegen der pfadweisen Definition, und für H 2 T .F / folgt die Aussage dann aus der Stetigkeit des Stoppens, das heißt, für jede konvergente Folge M.n/ ! M in CM 2 .F / und jede F -Stoppzeit gilt auch M.n/ ! M in CM 2 .F /. Wegen Satz 8.15.3 gibt es also einen fast sicher eindeutig bestimmten stetigen F adaptierten Prozess H X mit .H X/n D H .X X0 /n für alle n 2 N, den wir wiederum als Itô-Integral von H bezüglich X bezeichnen. Weil das Integral bezüglich konstanter Integratoren gleich 0 ist (für Treppenprozesse folgt dies sofort aus der Definition, und die Eigenschaft überträgt sich natürlich beim Grenzübergang), gilt für X 2 CM 2 .F / stets H X D H .X X0 /, so dass es wiederum kein Konsistenzproblem gibt. Die Definition von H X ist wegen Satz 8.15.2 unabhängig von der speziellen Folge n mit .X X0 /n 2 CM2 .F /.
Satz 9.5 (Itô-Regelintegral) Seien X 2 CM loc .F / und H 2 T .F /.
1. H X 2 CM loc .F /.
2. Das Itô-Integral ist bilinear. 3. Für jede F -Stoppzeit gilt .H X / D H X D H X D HIŒ0; / X.
4. Ist X an eine Filtration G F adaptiert und H 2 T .G /, so stimmt H X fast sicher mit einem G -adaptierten stetigen Prozess überein.
180
Kapitel 9 Stochastische Integration
Beweis. Wie eben seien n ! 1 Stoppzeiten mit .X X0 /n 2 CM 2 .F /. 3. Für H 2 T .F / folgen die Aussagen direkt aus der pfadweisen Definition, und für X 2 CM 2 .F / überträgt sich die Eigenschaft .H X / D H X auf H 2 T .F / wegen der Stetigkeit des Stoppens. Mit jjjH.n/ H jjj1 ! 0 konvergieren auch jjjH.n/ H jjj1 und jjjH.n/IŒ0; / HIŒ0; / jjj1 gegen 0, und wir erhalten .H X/ D H X D HIŒ0; / X . Für X 2 CMloc .F / gilt nach Definition des Integrals .H X /n D H .X X0 /n und daher
..H X/ /n D ..H X /n / D .H .X D H .X
X0 /n / D H .X
X0 /^n
X0 /n D .H X /n :
Mit Satz 8.15.2 folgt also .H X / D H X . Genauso erhalten wir die anderen Identitäten. 1. Diese Aussage folgt aus Satz 8.15.1, weil .H X /n D H .X X0 /n lokale Martingale sind. 2. Für Integratoren in CM 2 .F / folgt die Bilinearität aus der Bilinearität des elementaren Integrals und der Stetigkeit der Addition und Multiplikation mit reellen Zahlen in CM 2 .F /. Für Integratoren X; Y 2 CM loc .F / überträgt sich die Bilinearität, indem man (etwa durch Bilden des Minimums) eine lokalisierende Folge n findet mit .X X0 /n 2 CM2 .F / und .Y Y0 /n 2 CM2 .F /. 4. Für H 2 T .G / ist H X bezüglich G adaptiert, und für ein G -adaptiertes X 2 CM 2 .F / und H.n/ 2 T .G / mit jjjH.n/ H jjj1 ! 0 ist .H.n/ H.1// X eine Cauchy-Folge in CM 2 .G /, weil X auch ein G -Martingal ist. Ein Grenzwert in CM 2 .G / ist dann auch ein Grenzwert in CM 2 .F /, so dass H X fast sicher mit einem Element von CM 2 .G / übereinstimmt. Für X 2 CM loc .G / sind n D infft 0 W jX t j ng Stoppzeiten bezüglich G , so dass H .X X0 /n fast sicher mit Elementen von CM 2 .G / übereinstimmen. Wegen H X D limn!1 H .X X0 /n folgt damit, dass H X fast sicher mit einem G -messbaren Prozess übereinstimmt.
Die vierte Aussage des Satzes impliziert, dass das Itô-Integral nicht von der Filtration F abhängt, solange der Integrator ein lokales F -Martingal ist und der Integrand gleichmäßiger Grenzwert von F -Treppenprozessen ist. Man kann übrigens auch die Kettenregel H .G X/ D HG X zuerst für Treppenprozesse und damit für gleichmäßige Grenzwerte beweisen. Wir werden aber später einen angenehmeren Beweis erhalten und verzichten daher zum jetzigen Zeitpunkt auf die Kettenregel. Das bisherige Vorgehen war sehr ähnlich wie beim Stieltjes-Integral mit dem einzigen Unterschied, dass nicht pfadweise Konvergenz sondern L2 -Konvergenz der elementaren Integrale untersucht wurde. Der folgende Satz begründet den fundamentalen Unterschied zwischen dem klassischen Stieltjes-Integral und dem stochastischen Integral:
181
Kapitel 9 Stochastische Integration
Satz 9.6 (Covariation und partielle Integration) Für X; Y 2 CMloc .F / sei ŒX; Y X Y X0 Y0 X Y
Y X.
1. ŒX; Y ist ein stetiger F -adaptierter Prozess mit fast sicher endlicher Variation, so dass XY ŒX; Y 2 CM loc .F / und ŒX; Y 0 D 0.
2. Durch die Eigenschaften in 1. ist ŒX; Y fast sicher eindeutig bestimmt. 3. ŒX; Y D ŒY; X D 41 .ŒX C Y
ŒX
Y / und ŒX; Y C Z D ŒX; Y C ŒX; Z.
4. Für jede F -Stoppzeit gilt ŒX; Y D ŒX ; Y D ŒX ; Y .
5. ŒX ŒX; X ist fast sicher monoton wachsend. Der Prozess ŒX; Y heißt Covariation von X und Y oder auch Kompensator (weil er XY zu einem lokalen Martingal „kompensiert“). Manchmal findet man auch die Bezeichnung „Klammerprozess“. ŒX D ŒX; X heißt quadratische Variation von X. Wie schon für Integrale vereinbaren wir, auch Aussagen über Covariationen immer als fast sicher zu lesen. Die Formel XY
X0 Y0 D X Y C Y X C ŒX; Y
heißt partielle Integrationsformel der stochastischen Integration. Sie unterscheidet sich also von der für das Lebesgue–Stieltjes-Integral aus Satz 9.2.6 durch das Auftreten der Covariation. Die Aussagen in 3. nennen wir Symmetrie, Polarisierungsidentität und Bilinearität. Bevor wir den Satz beweisen, betrachten wir als erste Anwendung eine F -Brownsche Bewegung B. Weil durch M t B t2 t ein stetiges Martingal mit M0 D 0 definiert ist, gilt ŒB t D t wegen der Eindeutigkeitsaussage des Satzes. Wir werden übrigens in Satz 10.2 sehen, dass Brownsche Bewegungen die einzigen stetigen lokalen Martingale mit der quadratischen Variation ŒB t D t sind. Mit der partiellen Integrationsformel können wir jetzt erstmals ein Itô-Integral berechnen: Z t
2.B B/ t D 2
0
B dB D B t2
t
für alle t 0:
Beweis. Wegen Satz 9.3 gilt X; Y 2 T .F /, so dass die Integrale X Y und Y X definiert sind. 2. Die Eindeutigkeit folgt aus der Version von Satz 8.13 für stetige lokale Martingale: Für einen weiteren stetigen adaptierten Prozess Z mit endlicher Variation und X Y Z 2 CM loc .F / ist nämlich ŒX; Y Z 2 CM loc .F / und außerdem mit endlicher Variation und daher (zeitlich) konstant. 3. Die Aussagen folgen mit der Bilinearität des Itô-Integrals direkt aus der Definition der Covariation.
182
Kapitel 9 Stochastische Integration
4. Die erste Identität folgt direkt aus der Stoppregel .X Y / D X Y in Satz 9.5.3, und wegen der Bilinearität müssen wir jetzt noch ŒX ; Y Y D 0 zeigen, also X .Y Y / X .Y Y / .Y Y / X D 0: Aus H X D H X folgt .Y Y / X D 0 X D 0, und aus X D XIŒ0; / C X IŒ;1/ erhalten wir X Y D X Y C X .Y Y /, also X .Y Y / D X .Y Y / D X .Y Y /. 5. Wir nehmen X zunächst als beschränkt an und betrachten für N 2 N wie im P1 Beweis zu Satz 9.3 die Approximationen H.N / nD0 XN;n IŒN;n N;nC1 / mit N;0 0 und N;nC1 infft P0 W jX t XN;n j D 1=2N g. Wegen N;n ! 1 N;nC1 2 für n ! 1 ist dann X t2 X02 D 1 / .X t N;n /2 für jedes t 0. Mit nD0 .X t a2 b 2 2b.a b/ D .a b/2 folgt damit Q.N / t X t2
X02
2.H.N / X / t D
1 X
.X t N;nC1
X t N;n /2 0:
nD0
Weil .H.N / X / t in L2 und damit auch stochastisch gegen .X X / t konvergiert, gibt es eine Teilfolge Nk mit Q.Nk / t ! ŒX t fast sicher. Also sind ŒX t und damit auch .ŒX t / t2QC fast sicher positiv. Als stetiger Prozess ist daher ŒX fast sicher positiv. Für F -Stoppzeiten folgt aus den Stoppregeln in 4. und der Bilinearität
ŒX
ŒX D ŒX ; X D ŒX
ŒX ; X D ŒX ; X
X C ŒX ; X
X
ŒX ; X D ŒX
X :
Für s t liefert dies ŒX t ŒX s D ŒX tt ŒX st D ŒX t X s t 0, also die Monotonie der quadratischen Variation. Für allgemeines X 2 CM loc .F / betrachten wir die lokalisierende Folge n infft 0 W jX t X0 j ng. Wegen der Stoppregel aus 4. sind dann ŒX n D ŒX n monoton wachsend, und wegen n ! C1 ist daher auch im allgemeinen Fall ŒX fast sicher monoton. 1. Wegen Satz 9.5.1 ist XY ŒX; Y D X0 Y0 C X Y C Y X 2 CM loc .F /, und es gilt ŒX; Y 0 D 0, weil .X Y /0 D .Y X/0 D 0. Wegen der Polarisierungsidentität und der 5. Aussage hat ŒX; Y als Differenz zweier fast sicher monotoner Prozesse fast sicher endliche Variation.
Die Covariation spielt eine herausragende Rolle in der stochastischen Integration, und die partielle Integrationsformel wird sowohl benutzt, um wie eben für die Brownsche Bewegung Integrale zu berechnen, als auch, um Covariationen zu bestimmen. Entscheidend für unsere Integrationstheorie ist, dass wir nun einen Zusammenhang zwischen lokalen Martingalen – die als Integratoren für das Itô-Integral dienen – und Prozessen mit endlicher Variation haben – bezüglich der wir das Lebesgue–StieltjesIntegral definieren können. Weil der Durchschnitt dieser beiden Klassen bloß zeitlich
183
Kapitel 9 Stochastische Integration
konstante Prozesse X D X0 enthält (für die stets H X D 0 gilt, egal ob man das Lebesgue–Stieltjes- oder das Itô-Integral betrachtet), ist H X für geeignetes H und X 2 CMloc .F / oder X mit endlicher Variation immer fast sicher eindeutig definiert. Satz 9.7 (Eigenschaften der Covariation) Seien X; Y; Z; X.n/ 2 CMloc .F /. 1. Für alle H 2 T .F / gilt ŒH X; Y D H ŒX; Y .
2. X 2 CM 2 .F / gilt genau dann, wenn X0 2 L2 und ŒX 1 lim t !1 ŒX t 2 L1 . Für X; Y 2 CM2 .F / ist XY ŒX; Y ein gleichgradig integrierbares (echtes) Martingal. P
3. ŒX.n/1 ! 0 gilt genau dann, wenn X.n/ sup jX.n/ t t 0
P
X.n/0 j ! 0.
4. Für ŒX-integrierbares H und ŒY -integrierbares G gilt q jHGj VŒX;Y .H 2 ŒX /.G 2 ŒY /:
Die Formel ŒH X; Y D H ŒX; Y nennen wir Fundamentalidentität der stochastischen Integration. Die 4. Aussage des Satzes ist die sogenannte Kunita–WatanabeUngleichung. Beweis. 2. Für zeitlich konstante Prozesse Z gelten X Z D 0 und Z X D Z.X X0 /, und damit folgen ŒX; Z D XZ X0 Z0 X Z Z X D 0 und wegen der Bilinearität ŒX X0 D ŒX. Wir können daher im Folgenden X0 D 0 annehmen. Die Existenz von ŒX1 folgt aus der Monotonie der quadratischen Variation. Ist n lokalisierend für X 2 ŒX 2 CM loc .F /, so folgt mit n ^ n ! 1 und monotoner Konvergenz 2 2 E.ŒX1 / D lim E.ŒXnn / D lim E .ŒX n Xn2 /n CXn^ D lim E.Xn^ /: n n n!1
n!1
n!1
Für X 2 CM 2 .F / ist also E.ŒX1 / k sup t0 jX t jk22 4jjjXjjj22 < 1 wegen Satz 8.16. Also sind dann ŒX1 und Z ŒX 1 C sup t 0 jX t j2 2 L1 . Wegen jX t2 ŒX t j Z ist X 2 ŒX als dominiertes lokales Martingal ein echtes Martingal und außerdem gleichgradig integrierbar. Für X; Y 2 CM 2 .F / folgt dann mit der Polarisierungsidentität, dass X Y ŒX; Y ein gleichgradig integrierbares Martingal ist. Seien nun ŒX1 2 L1 und n lokalisierend für X 2 ŒX . Mit Fatous Lemma und der Normungleichung aus Satz 8.16 folgt E.sup X t2 / lim inf k sup jX tn jk22 4 sup sup kX tn k22 t 0
n!1
t0
D 4 sup sup E n2N t0
n2N t0
.X t2
n
ŒX t /
C ŒX t n
4E.ŒX 1 /:
184
Kapitel 9 Stochastische Integration
Also ist sup t 0 jX t j 2 L2 L1 , und X ist als dominiertes lokales Martingal ein echtes. 3. Mit der Bezeichnung X sup t 0 jX t X0 j folgt die dritte Aussage direkt aus den (für alle "; ı > 0 noch zu zeigenden) Lenglart-Ungleichungen P .ŒX 1 ı/
"2 C P .X "/ ı
und
P .X ı/
4" C P .ŒX1 "/: ı2
Dabei können wir wieder X0 D 0 annehmen. Für den Beweis der ersten Ungleichung definieren wir infft 0 W jX t j "g, so dass fX < "g f D 1g. Wegen jX j " und der zweiten Aussage ist M .X 2 ŒX / ein echtes gleichgradig integrierbares Martingal, und mit E.M1 / D 0 folgt E.ŒX / D E.ŒX 1 / D E..X 2 /1 / "2 : Mit der Chebychev–Markov-Ungleichung aus Satz 4.3 erhalten wir damit P .ŒX1 ı/ D P .ŒX1 ı; D 1/ C P .ŒX 1 ı; < 1/ P .ŒX ı/ C P . < 1/
"2 C P .X "/: ı
Für die zweite Ungleichung sei infft 0 W ŒX t "g. Wegen ŒX 1 D ŒX1 " ist X 2 CM 2 .F / mit k sup jX t jk22 4E.ŒX 1 / wegen der im Beweis der zweiten Aussage gezeigten Ungleichung. Wieder mit der Chebychev–MarkovUngleichung folgt dann P .X ı/ D P .X ı; D 1/ C P .X ı; < 1/ 4" 1 2 k sup jX t jk22 C P . < 1/ 2 C P .ŒX 1 "/: ı ı t 0
1. Für H 2 T .F / hat H ŒX; Y endliche Variation, und wegen Satz 9.4.1 und 9.5.1 ist .H X/Y
H ŒX; Y D .H X/Y
H .XY / C H .XY
ŒX; Y / 2 CM loc .F /:
Die Eindeutigkeitsaussage in Satz 9.6.2 impliziert daher ŒH X; Y D H ŒX; Y . Wegen der Linearität dieser Formel in H müssen wir sie jetzt noch für beschränktes H 2 T .F / zeigen. Durch Lokalisierung mit der Folge
N infft 0 W jX t j C jY t j C VŒX;Y .t / N g können wir dabei X; Y 2 CM2 .F / und VŒX;Y N sowie X0 D Y0 D 0 annehmen. Seien H.n/ 2 T .F / mit jjjH.n/ H jjj1 ! 0. Dann konvergiert H.n/ X in CM 2 .F / gegen H X, so dass wegen der dritten Aussage und der Polarisierungsidentität sup t 0 jŒ.H.n/ H / X; Y t j stochastisch gegen null konvergiert.
185
Kapitel 9 Stochastische Integration
Andererseits konvergiert H.n/ ŒX; Y .!/ für jedes ! 2 gleichmäßig gegen H ŒX; Y .!/ weil ˇZ t ˇ Z 1 ˇ ˇ H.n/ H d ŒX; Y .!/ˇ jH.n/ H jd VŒX;Y .!/ jjjH.n/ H jjj1 N: sup ˇ t 0
0
0
Aus der fast sicheren Eindeutigkeit stochastischer Grenzwerte folgt H ŒX; Y D ŒH X; Y . 4. Für s t und 2 Q gilt fast sicher 0 ŒX CY t ŒX CY s D .ŒX t ŒX s /C2.ŒX; Y t ŒX; Y s /C2 .ŒY t ŒY s /: Wegen der Stetigkeit in gilt dies dann auch fast sicher für alle 2 R, und Minimieren bezüglich liefert jŒX; Y t ŒX; Y s j .ŒX t ŒX s /1=2 .ŒY t ŒY s /1=2 fast sicher. Wieder wegen der Stetigkeit gibt es dann ein fast sicheres Ereignis A 2 F1 , so dass diese Ungleichungen auf A für alle s t gelten. Für eine Partition ft0 tnC1 g von Œs; t folgt dann auf A mit der Cauchy– Schwarz-Ungleichung n X
jŒX; Y tj C1
ŒX; Y tj j
j D0
n X
ŒX tj C1
ŒX tj
n 1=2 X
j D0
D .ŒX t
ŒY tj C1
ŒY tj
1=2
j D0 1=2
ŒX s /
.ŒY t
ŒY s /1=2 :
Für das Supremum über alle Partitionen von Œs; t erhalten wir damit VŒX;Y .t/
VŒX;Y .s/ .ŒX t
ŒX s /1=2 .ŒY t
ŒY s /1=2 :
Für festes ! 2 A seien nun ; und % die lokalendlichen Maße auf Œ0; 1/ mit Verteilungsfunktionen ŒX.!/; ŒY .!/ und VŒX;Y .!/ . Obige Ungleichung besagt dann 1=2 %.J / .J /.J / für alle Intervalle J D .s; t . Für h; g 2 L2 .Œ0; 1/; B \ Œ0; 1/; C C %/ gibt es wegen Satz 8.7 Linearkombinationen hn und gn von Indikatorfunktionen IJ.k/ mit J.k/ P Œk=2n ; .k C 1/=2n / die in P L2 gegen h beziehungsweise g konvergieren. Für hn D k2E ak IJ.k/ und gn D k2E bk IJ.k/ gilt dann wieder wegen der Cauchy–Schwarz-Ungleichung Z X 1=2 X 1=2 X bk2 .J.k// ak bk %.Jk / ak2 .J.k// hn gn d% D k2E
D
Z
k2E
h2n d
1=2 Z
k2E
1=2 gn2 d :
Weil die Konvergenz in L2 . R C C %/R die in L2 ./; R L2 ./ und L2 .%/ impliziert, folgt durch Grenzübergang hgd% . h2 d/1=2 . g 2 d/1=2 . Für h; g … L2 betrachten wir schließlich hn .jhj ^ n/IŒ0;n und entsprechend definierte gn . Dann R R R folgt jhgjd% . h2 d/1=2 . g 2 d/1=2 mit monotoner Konvergenz.
186
Kapitel 9 Stochastische Integration
Weil H und G progressiv sind, folgt aus Satz 3.12 die Messbarkeit aller Pfade, und die behauptete Ungleichung gilt für alle ! 2 A. Der Name und die Eigenschaften der Covariation erinnern zurecht an die Kovarianz von L2 -Zufallsvariablen. Präzisiert wird dieser Zusammenhang durch folgenden Satz 9.8 (Unabhängigkeit und Covariation) 1. Für unabhängige X; Y 2 CMloc .F / gilt ŒX; Y D 0. 2. Für X; Y 2 CM 2 .F / mit ŒX; Y D 0 sind Xs unkorreliert.
X0 und Y t
Y0 für alle s; t 0
3. Für jeden F -adaptierten, stetigen und zentrierten L2 -Prozess X mit unabhängigen Zuwächsen und X0 D 0 ist ŒX t D Var.X t / für alle t 0. Beweis. 1. Wegen Satz 9.5.4 können wir F t D F .X / t _ F .Y / t und durch Lokalisieren X; Y 2 CM 2 .F / annehmen. Weil .X t / _ F .X /s und .Y t / _ F .Y /s für s t unabhängig sind, liefert Satz 6.2 E.X t Y t j F .X /s _ F .Y /s / D E.X t j F .X /s /E.Y t j F .Y /s / D Xs Ys : Also ist X Y ein Martingal, und die Eindeutigkeitsaussage in Satz 9.6 zeigt ŒX; Y D 0. 2. Wir können X0 D Y0 D 0 und s t annehmen. Wegen Satz 9.7.2 ist X Y D X Y ŒX; Y ein echtes Martingal, was E.X t Y t / D 0 impliziert. Für s t erhalten wir dann mit der Glättungseigenschaft und Pull-out E.Xs Y t / D E.E.Xs Y t j Fs // D E.Xs E.Y t j Fs // D E.Xs Ys / D 0: Also sind Xs und Y t unkorreliert. 3. Wegen der Unabhängigkeit der Zuwächse ist X ein L2 -Martingal, und für jede konvergente Folge .tn /n2N ist supn2N jX tn j 2 L2 wegen der Maximalungleichung 8.4.2, so dass mit dominierter Konvergenz die Stetigkeit der Varianzfunktion v.t / Var.X t / folgt. Für F F .X / und s < t liefert die Unabhängigkeit der Zuwächse v.t / D Var.X t Xs C Xs X0 / D Var.X t Xs / C v.s/ und damit E.X t2 Xs2 j Fs / D E .X t Xs /2 C 2Xs .X t Xs / j Fs D Var.X t
Xs / D v.t/
v.s/:
Also ist X 2 v ein stetiges F .X /-Martingal. Weil nach Satz 9.5.4 die quadratische Variation nicht von der Filtration abhängt, folgt ŒX t D Var.X t / aus der Eindeutigkeitsaussage in Satz 9.6.2. Die Fundamentalidentität ŒH X; Y D H ŒX; Y aus Satz 9.7.1 spielt im Weiteren eine zentrale Rolle. Einerseits hilft sie bei ganz konkreten Rechnungen. Für eine
187
Kapitel 9 Stochastische Integration
Brownsche Bewegung B können wir zum Beispiel die quadratische Variation des Martingals B t2 t berechnen: Z t 2 2 ŒB ŒB t D Œ2B B D 4.B ŒB/ t D 4 Bs2 ds: 0
Andererseits liefert sie auch wichtige theoretische Aussagen: Für X 2 CM 2 .F / und ein beschränktes H 2 T .F / gilt H X 2 CM 2 .F /, und wegen Satz 9.7.2 ist .H X/2 ŒH X ein echtes Martingal. Für t 0 folgt damit
E..H X/2t / D E..H X/2t ŒH X t / C E.ŒH X t / D E..H 2 ŒX/ t / Z t D E Hs2 d ŒX s : 0
Diese Formel bezeichnet man als Itô-Isometrie, die man benutzen kann, um die Klasse der R 1 Integranden zu vergrößern: Sind H.n/ 2 T .F / und H ein Prozess, so dass E. 0 .H.n/ H /2 d ŒX / gegen null konvergiert, so ist H.n/ X eine Cauchy-Folge in CM 2 .F /, und man kann das Integral von H bezüglich X als den Grenzwert in CM 2 .F / definieren. Eine ähnliche Methode, die einem die etwas mühsame Beschreibung der Grenzwerte im obigen Sinn erspart, beruht ebenfalls auf der Formel ŒH X; Y D H ŒX; Y . Deren rechte Seite ist für alle progressiv messbaren Prozesse H sinnvoll, die geeignete Wachstumsbedingungen erfüllen (also zum Beispiel beschränkt sind) und man kann nun versuchen, das Integral H X durch die Formel zu definieren. Für X 2 CMloc .F / definieren wir dazu den Raum der X-integrierbaren Prozesse Z t n o L.X / H ist F -progressiv und für alle t 0 ist H 2 d ŒX < 1 P -fast sicher : 0
Satz 9.9 (Existenz des Itô-Integrals) Für X 2 CMloc .F / und H 2 L.X / existiert ein fast sicher eindeutig bestimmter Prozess H X 2 CM loc .F / mit .H X /0 D 0 und ŒH X; Y D H ŒX; Y für alle Y 2 CM loc .F /. Für H 2 T .F / stimmt H X mit dem Itô-Regelintegral überein.
Der nach diesem Satz fast sicher eindeutige Prozess H X 2 CM loc .F / heißt Itô-Integral von H bezüglich X, und wir schreiben weiterhin Z t Z t .H X/ t HdX Hs dXs : 0
0
Beweis. Wir zeigen zuerst die Eindeutigkeit: Für N; M 2 CMloc .F / mit N0 D M0 D 0 und ŒN; Y D ŒM; Y für alle Y 2 CM loc .F / folgt mit Y D N M und der Bilinearität der Covariation ŒN M D 0. Wegen Satz 9.7.2 ist N M 2 CM 2 .F / und .N M /2 ist ein echtes Martingal. Die Konstanz der Erwartungswertfunktion
188
Kapitel 9 Stochastische Integration
liefert dann E..N M /2t / D E..N M /20 / D 0, also N t D M t fast sicher für jedes t 0. Wegen der Stetigkeit von N und M gilt dann auch N D M fast sicher. R1 Die Existenz zeigen wir zuerst für H 2 L.X / mit E. 0 H 2 d ŒX / < 1. Auf das Skalarprodukt hX; Y i D E.X1 Y1 / vom Ende des achten Kapitels können wir wegen der Vollständigkeit von CM 2 .F / den Rieszschen Darstellungssatz R1 4.14 anwenden. Dazu definieren wir durch '.Y / E. 0 H d ŒX; Y / eine lineare Abbildung CM 2 .F / ! R. Wegen der Kunita–Watanabe-Ungleichung und der Cauchy–Schwarz-Ungleichung ist ˇ ˇ Z 1 Z 1 ˇ ˇ 1=2 E ˇ H d ŒX; Y ˇ E jH jd VŒX;Y E .H 2 ŒX /1=2 .ŒY / 1 1 0
0
1=2 1=2 1=2 E .H 2 ŒX/1 E.ŒY 1 / D E.H 2 ŒX /1 kY1
Y0 k2 ;
weil nach Satz 9.7.2 E..Y 2 ŒY /1 / D E.Y02 / gilt. Die gleiche Abschätzung gilt dann für j'.Y /j, so dass '.Y / tatsächlich wohldefiniert und stetig ist. Die Linearität folgt aus der Bilinearität der Covariation und der Linearität des Lebesgue–StieltjesIntegrals bezüglich des Integrators. Der Rieszsche Darstellungssatz liefert also Z 2 CM 2 .F / mit Z 1 E H d ŒX; Y D '.Y / D hY; Zi D E.Y1 Z1 / für alle Y 2 CM 2 .F /: 0
H ŒX; Y ist ein stetiger adaptierter Prozess mit endlicher Variation und für jede zweiwertige Stoppzeit ist wegen der Stoppregeln in Satz 9.6.4 E..H ŒX; Y / / D E..H ŒX; Y /1 / D E..H ŒX; Y /1 / D E.Y1 Z1 / D E.Y E.Z1 j F // D E.Y Z /
wegen des Optional-Sampling-Satzes. Der Martingaltest liefert, dass ZY H ŒX; Y ein echtes Martingal ist, und wegen der Eindeutigkeit der Covariation ist ŒZ; Y D H ŒX; Y für alle Y 2 CM 2 .F /. Wegen der Stoppregeln überträgt sich diese Identität auf alle Y 2 CMloc .F /. Für allgemeines H 2 L.X / ist H 2 ŒX ein adaptierter stetiger Prozess, so dass n infft 0 W .H 2 ŒX/ t ng Stoppzeiten mit n ! 1 sind. Wegen
.H 2 ŒX n /1 D .H 2 ŒX /1n n existieren also eindeutig bestimmte H X n 2 CM 2 .F /, so dass ŒH X n ; Y D H ŒX n ; Y für alle Y 2 CM loc .F /. Wegen der Stoppregeln für die Covariation gilt dann
Œ.H X nC1 /n ; Y D ŒH X nC1 ; Y n D H ŒX nC1 ; Y n D H ŒX nC1 ^n ; Y D ŒH X n ; Y ;
189
Kapitel 9 Stochastische Integration
was wegen der Eindeutigkeit .H X nC1 /n D H X n impliziert. Wegen Satz 8.15.3 gibt es also ein Z D H X 2 CM loc .F / mit .H X /n D H X n für alle n 2 N, und wie eben folgt damit ŒH X; Y n D .H ŒX; Y /n für alle n 2 N, also ŒH X; Y D H ŒX; Y . R1 2 Es lohnt sich anzumerken, dass wir für H 2 L.X / mit E. 0 H d ŒX/ < 1 gezeigt haben, dass das Itô-Integral nicht bloß ein lokales F -Martingal ist, sondern dass H X 2 CM 2 .F / gilt. Wegen E.ŒH X1 / D E..H 2 ŒX/1 / folgt dies auch ohne „Beweisanalyse“ mit Satz 9.7.2. Wegen der Stoppregeln Raus dem gleich folgenden Satz 9.10.3 erhalten wir dann, t dass für H 2 L.X/ mit E. 0 H 2 d ŒX/ < 1 für alle t 0 der Integralprozess H X ein echtes L2 -Martingal ist. Bevor wir gleich Eigenschaften des Itô-Integrals beweisen, fassen wir die bisher entwickelte stochastische Integrationstheorie noch einmal zusammen: Für einen Integrator X 2 CM loc .F / haben wir das Itô-Regelintegral analog zum Stieltjes-Integral definiert, wobei die pfadweise Konvergenz durch einen stochastischen Konvergenzbegriff (nämlich eine L2 -Konvergenz für X 2 CM 2 .F // ersetzt wurde. Die Integrale H X sind dann stetige lokale F -Martingale, und als Integranden erhalten wir insbesondere alle stetigen Prozesse. Statt der gewöhnlichen partiellen Integrationsregel gilt dann X Y C Y X D XY X0 Y0 ŒX; Y , wobei die Covariation ŒX; Y ein Prozess mit endlicher Variation und daher ein geeigneter Integrator für das Lebesgue– Stieltjes-Integral ist. Die Fundamentalidentität ŒH X; Y D H ŒX; Y charakterisiert das Itô-Integral, und mit einem Hilbert-Raum-Argument haben wir gezeigt, dass es für jedes H 2 L.X / einen Prozess H X 2 CMloc .F / gibt, der diese Identität erfüllt. Abgesehen von zeitlich konstanten Prozessen sind die beiden Klassen von Integratoren – nämlich CM loc .F / und stetige adaptierte Prozesse mit endlicher Variation – disjunkt. Für eine einheitliche Theorie nennen wir einen Prozess
X DM CA mit M 2 CMloc .F / und einem stetigen adaptierten A mit endlicher Variation und A0 D 0 ein F -Semimartingal. Wegen Satz 8.13 ist die als Doob–Meyer-Zerlegung bezeichnete Darstellung fast sicher eindeutig, und wir nennen M den Martingalanteil und A den systematischen Anteil von X. Als letzte Abkürzung für einen Raum von Prozessen bezeichnen wir mit SM.F / die Menge aller F -Semimartingale. Für X; Y 2 SM.F / mit Zerlegungen X D M C A und Y D N C B definieren wir die Covariation ŒX; Y ŒM; N und die quadratische Variation ŒX ŒX; X D ŒM . Die quadratische Variation hängt also nicht vom systematischen Anteil ab. Für H 2 L.X/ fH 2 L.M / W H ist A-integrierbarg nennen wir H X H M CH A weiterhin Itô-Integral von H bezüglich X und schreiben wie früher
190
Kapitel 9 Stochastische Integration t
Z .H X / t
0
t
Z H dX
Hs dXs : 0
H X ist also wiederum ein Semimartingal mit Martingalanteil H M und systematischem Anteil H A. Allein aus den Definitionen erhalten wir für H 2 L.X / und G 2 L.Y / ŒH X; G Y D H .G ŒX; Y / D HG ŒX; Y wegen der Kettenregel für das Lebesgue–Stieltjes-Integral. Satz 9.10 (Eigenschaften des Itô-Integrals) Seien X; Y stetige F -Semimartingale. 1. Für H; G 2 L.X / gilt .H C G/ X D H X C G X und für H 2 L.X / \ L.Y / ist H .X C Y / D H X C H Y . 2. Für G 2 L.X / und einen progressiven Prozess H ist HG 2 L.X / genau dann, wenn H 2 L.G X/, und dann ist H .G X / D HG X. 3. Für H 2 L.X / und jede Stoppzeit ist H 2 L.X /, und es gilt H X D .H X / D H X D HIŒ0; X D HIŒ0; / X. 4. Es gilt X 2 L.Y / und X Y C Y X D X Y
X0 Y0
ŒX; Y .
5. Für H.n/; H; G 2 L.X/ mit H.n/ t ! H t fast sicher und jH.n/ t j G t für alle ˇZ s ˇ P ˇ ˇ t 0 gilt sup ˇ H.n/ H dX ˇ ! 0. st
0
Die Aussagen des Satzes nennen wir Bilinearität, Kettenregel, Stoppregeln, partielle Integrationsregel und dominierte Konvergenz. Beweis. Wir benutzen stets die Zerlegungen X D M C A und Y D N C B. 1. Die Bilinearität bezüglich der systematischen Anteile haben wir in Satz 9.2 schon gezeigt. Wegen der Cauchy–Schwarz-Ungleichung ist t
Z 0
2
.H C G/ d ŒM
t
Z
2
H d ŒM 0
1=2
C
t
Z
2
G d ŒM
1=2 2
;
0
so dass H C G 2 L.M / gilt. Weiter ist H M C G M 2 CM loc .F / mit
ŒH M C G M; Y D ŒH M; Y C ŒG M; Y D H ŒM; Y C G ŒM; Y D .H C G/ ŒM; Y für alle Y 2 CM loc .F /, so dass mit der Eindeutigkeit aus Satz 9.9 .H C G/ M D H M C G M folgt.
191
Kapitel 9 Stochastische Integration
Für H 2 L.M / \ L.N / ist wegen ŒM C N D ŒM C 2ŒM; N C ŒN und der Kunita–Watanabe-Ungleichung Z t Z t Z t Z t 2 2 H d ŒM C N H d ŒM C 2 HH d VŒM;N C H 2 d ŒN 0
0
0
0
1=2
.H 2 ŒM t /1=2 C .H 2 ŒN / t
2
;
was H 2 L.M C N / zeigt. Die Formel H .M C N / D H M C H N folgt genau wie eben aus der Bilinearität der Covariation und der Eindeutigkeitsaussage in Satz 9.10. 2. Für die systematischen Anteile ist dies die Kettenregel aus Satz 9.2, und deren Anwendung auf ŒM liefert .HG/2 ŒM D H 2 .G 2 ŒM / D H 2 ŒG M . Damit folgt die Äquivalenz von HG 2 L.M / und H 2 L.G M /. Für Y 2 CM loc .F / ist
ŒH .G M /; Y D H ŒG M; Y D H .G ŒM; Y / D HG ŒM; Y wiederum wegen der Kettenregel. Also folgt aus der Eindeutigkeit H .G M / D HG M . Mit der Bilinearität erhalten wir damit H .G X/ D H .G M C G A/ D H .G M / C H .G A/ D HG M C HG A D HG .M C A/: 3. X D M C A ist ein stetiges Semimartingal und wegen ŒM D ŒM ist H 2 L.X /. Für den systematischen Anteil haben wir die ersten drei Identitäten in ˙ Satz 9.2 gezeigt, und die letzte folgt mit der Stetigkeit von A aus A .fg/ D 0. Für den Martingalanteil folgen die Regeln aus den Stoppregeln für die Covariation und das Stieltjes-Integral sowie der Eindeutigkeitsaussage in Satz 9.9: Für Y 2 CMloc .F / ist nämlich
Œ.H X/ ; Y D ŒH X; Y D .H ŒX; Y / D H ŒX; Y und dies stimmt mit H ŒX ; Y D ŒH X ; Y überein. Wegen Satz 9.2.5 gilt außerdem .H ŒX; Y / D HIŒ0; ŒX; Y D ŒHIŒ0; X; Y , und wegen der Stetigkeit von ŒX; Y ist HIŒ0; ŒX; Y D HIŒ0; / ŒX; Y D ŒHIŒ0; / X; Y . 5. Für das Integral bezüglich des systematischen Anteils folgt die Aussage mit LeRt besgues Satz für die zu VA gehörigen Maße. Wegen G 2 L.M / ist 0 G 2 d ŒM fast sicher endlich und mit Rdominierter Konvergenz für die zu ŒM gehörigen Maße folgt t Œ.H.n/ H / M t D 0 .H.n/ H /2 d ŒM ! 0 fast sicher. Satz 9.7.3 (angewendet auf die in t gestoppten Prozesse .H.n/ H / M t / liefert ˇZ s ˇ P ˇ ˇ H.n/ H dM ˇ ! 0: sup ˇ st
0
192
Kapitel 9 Stochastische Integration
4. Die Bilinearität der Covariation für lokale Martingale überträgt sich direkt auf Semimartingale, und weil beide Seiten der partiellen Integrationsformel bilinear sind, folgt der allgemeine Fall durch Polarisierung aus dem mit X D Y , das heißt, wir müssen 2X X D X 2 X02 ŒX zeigen. Außerdem können wir X0 D 0 annehmen: Für den konstanten Prozess X0 ist nämlich X0 X D X0 .X X0 /, und dann folgt der allgemeine Fall mit .X X0 /.X X0 / D X .X X0 / X0 .X X0 / D X X X0 X aus dem speziellen. Wegen der Bilinearität ist die partielle Integrationsformel für X D M C A äquivalent zu 2M M C 2.A M C M A/ C 2A A D M 2 ŒM C 2MA C A2 , und wegen der partiellen Integrationsregeln aus Satz 9.2.6 und 9.6 müssen wir noch A M C M A D MA beweisen. Durch Lokalisieren können wir dabei annehmen, dass A und M durch eine Konstante beschränkt sind. Für festes r > 0 und n 2 N betrachten wir mit tk kn r die Approximationen
A.n/ D
n X1
A tk IŒtk ;tkC1 /
und M.n/ D
kD0
n X1
M tkC1 IŒtk ;tkC1 / :
kD0
Dann gilt .A.n/ M /r C .M.n/ A/r D
n X1
A tk .M tkC1
M tk / C M tkC1 .A tkC1
M tkC1 A tkC1
M t k A t k D Mr A r :
A tk /
kD0
D
n X1 kD0
Wegen der Stetigkeit von A und M gelten A.n/ ! AIŒ0;r/ und M.n/ ! MIŒ0;r/ . Mit dominierter Konvergenz für das Lebesgue–Stieltjes-Integral bezüglich VA folgt P
.M.n/ A/r ! .M A/r und mit der fünften Aussage .A.n/ M /r ! .A M /r . Aus der fast sicheren Eindeutigkeit stochastischer Grenzwerte erhalten wir also schließlich .A M /r C .M A/r D Mr Ar . Die partielle Integrationsregel besagt, dass das Produkt von zwei stetigen Semimartingalen X D M C A und Y D N C B wieder ein Semimartingal ist mit Martingalanteil X N C Y M C X0 Y0 und systematischem Anteil X B C Y A C ŒM; N . Im Gegensatz zu lokalen Martingalen ist also die Menge der Semimartingale stabil unter Produktbildung. Wir sehen gleich, dass SM.F / unter sehr viel allgemeineren Transformationen stabil ist. Als das zentrale Ergebnis der modernen Wahrscheinlichkeitstheorie beweisen wir jetzt nämlich die Itô-Formel
f .X/ D f .X0 / C f 0 .X / X C 21 f 00 .X / ŒX
für X 2 SM.F / und zweimal stetig differenzierbares f W R ! R.
193
Kapitel 9 Stochastische Integration
Wie im Hauptsatz der Differenzial- und Integralrechnung (der als Spezialfall mit X t D t in der Itô-Formel enthalten ist) können wir also f .X / durch Integrale über f 0 .X / und f 00 .X / darstellen. Insbesondere zeigt die Itô-Formel, dass f .X / für X D M C A wieder ein Semimartingal ist mit Martingalanteil f .X0 / C f 0 .X / M und systematischem Anteil f 0 .X / A C 21 f 00 .X/ ŒX . Für viele Anwendungen benötigt man eine mehrdimensionale Version. Dafür bezeichnen wir mit SM.F /n fX D .X 1 ; : : : ; X n / W X j 2 SM.F /g die Menge aller Rn -wertigen stetigen Semimartingale. Für X 2 SM.F /n ist dann durch ŒX .ŒX j ; X k /j;k2f1;:::;ng die Covariationsmatrix definiert. Für H 2 L.X / fH D .H 1 ; : : : ; H n / W H j 2 L.X j /g definieren wir das Itô-Integral
H X
n X
H j X j 2 SM.F /:
j D1
Q Analog definieren wir das Integral für X 2 P SM.F /I und H 2 i2I L.X i / für beliebige endliche Mengen I durch H X i 2I H i X i . Für eine offene Menge U Rn und differenzierbares f W U ! R ist f 0 D .D1 f; : : : ; Dn f / der Gradient und f 00 D .Di Dj f /i;j 2f1;:::;ng die Hesse-Matrix, falls die zweiten partiellen Ableitungen existieren. Mit diesen Notationen erhalten wir die Produktregeln .fg/0 D f 0 g C fg 0
und .fg/00 D f 00 g C 2f 0 g 0 C fg 00 ;
wobei f 0 g 0 .Dj f; Dk g/j;k2f1;:::;ng . Die Bezeichnungen sind so gewählt, dass sich die mehrdimensionale Itô-Formel äußerlich nicht von der eindimensionalen unterscheidet. Satz 9.11 (Itô-Formel) Seien X D .X 1 ; : : : ; X n / 2 SM.F /n mit Werten in einer offenen Menge U Rn und f W U ! R eine Funktion mit stetigen partiellen Ableitungen erster Ordnung und stetigen partiellen Ableitungen Dj Dk f für alle j; k mit ŒXj ; Xk ¤ 0. Dann ist f .X/ D f .X0 / C f 0 .X / X C 21 f 00 .X / ŒX :
Pn In dem Ausdruck f 00 .X/ ŒX D j;kD1 Dj Dk f .X / ŒX j ; X k brauchen die j k partiellen Ableitungen Dj Dk f mit ŒX ; X D 0 nicht zu existieren, dann definieren wir das Integral Dj Dk f .X/ ŒX j ; X k natürlich trotzdem als den Nullprozess. Für die Produktabbildung f .x; y/ D xy erhalten wir aus der Itô-Formel die partielle Integrationsregel, und wir werden sehen, dass wenigstens der „stochastische Anteil“ des Beweises im Wesentlichen aus der partiellen Integrationsformel besteht.
194
Kapitel 9 Stochastische Integration
Vorher betrachten wir noch als Anwendung die sehr einfache Funktion f .x/ exp.x/. Für X 2 SM.F / ist auch X 12 ŒX ein Semimartingal und die Itô-Formel liefert für das Doléans-Exponential E.X / exp.X 21 ŒX /
E.X/
E.X/0 D E.X/ .X
1 2 ŒX /
C 21 E.X / ŒX
1 2 ŒX
D E.X / X;
weil ŒX 21 ŒX nur vom Martingalanteil abhängt. Das Doléans-Exponential ist übrigens durch E.X/ E.X0 / D E.X/ X und E.X/0 D exp.X0 / eindeutig bestimmt: Wie eben liefert die Itô-Formel für Z E.X/ 1 D exp. X C 12 ŒX / die Gleichung Z Z0 D Z .ŒX X/, so dass Z denselben Martingalanteil wie Z X hat. Für Y 2 SM.F / mit Y Y0 D Y X und Y0 D exp.X0 / folgt mit partieller Integration, dem Verschwinden von Integralen bezüglich konstanter Integratoren und der Kettenregel
ZY
Z0 Y0 D Z Y C Y Z C ŒZ; Y D Z .Y X / C Y .Z .ŒX D ZY X C Y Z ŒX
X // C Œ Z X; Y X
YZ X
ZY ŒX; X D 0:
Beweis der Itô-Formel. Wir zeigen zuerst den Fall U D Rn . Wir nennen (nur für diesen Beweis) die Abbildungen, für die die Aussage des Satzes richtig ist, Itô-Funktionen. Wegen der Linearität der Ableitung und des Integrals bilden diese Funktionen einen Vektorraum, der sowohl die konstanten Funktionen als auch die Projektionen .x1 ; : : : ; xn / 7! xj enthält. Wir zeigen jetzt, dass für zweimal stetig differenzierbare Itô-Funktionen f und g auch das Produkt Itô-Funktion ist. Mit partieller Integration, dem Verschwinden des Integrals bezüglich konstanter Integratoren, der Unabhängigkeit der Covariation von den systematischen Anteilen und der Kettenregel erhalten wir nämlich f .X/g.X/
f .X0 /g.X0 / D f .X / g.X/ C g.X / f .X / C Œf .X /; g.X /
D f .X/ .g 0 .X/ X C 21 g 00 .X / ŒX / C g.X / .f 0 .X / X C 12 f 00 .X / ŒX /
C Œf 0 .X/ X; g 0 .X/ X D .f .X /g 0 .X/ C g.X /f 0 .X // X C 21 .fg 00 .X/ C 2f 0 g 0 .X / C gf 00 .X // ŒX
D .fg/0 .X/ X C 21 .fg/00 .X/ ŒX :
Damit folgt, dass alle Polynome Itô-Funktionen sind. Wir zeigen gleich, dass es für f wie im Satz und M f.j; k/ 2 f1; : : : ; ng2 W ŒXj ; Xk ¤ 0g Polynome fm gibt, so dass fm ; fm0 und alle partiellen Ableitungen Dj Dk fm für .j; k/ 2 M auf allen kompakten Mengen gleichmäßig gegen f; f 0 beziehungsweise Dj Dk f konvergieren. Durch Bilden einer Teilfolge können wir dann annehmen, dass dm jfm
fjC
n X j D1
jDj .fm
f /j C
X .j;k/2M
jDj Dk .fm
f /j
195
Kapitel 9 Stochastische Integration
P1 m beschränkt ist. Dann sind d auf fx 2 Rn W kxk mg durch 1=2 mD1 dm und Pm P r d C jf j C j D1 jDj f j C .j;k/2M jDj Dk f j stetig, so dass G r.X / 2 L.X/ gilt. Mit der dominierten Konvergenz aus Satz 9.10.5 und der Eindeutigkeit stochastischer Limiten folgt dann, dass mit allen fm auch f eine Itô-Funktion ist. Für die noch ausstehende Approximation gibt es im Fall n D 1 ein sehr einfaches Argument: Durch zweifache Anwendung R x R y des Hauptsatzes der Differenzialrechnung folgt f .x/ D f .0/ C f 0 .0/x C 0 0 f 00 .z/dzdy, und indem man f 00 durch Polynome q approximiert, R x R y erhält man die gewünschten Approximationen p.x/ D f .0/ C f 0 .0/x C 0 0 q.z/dzdy. Der Fall n > 1 ist etwas aufwändiger. Wir benötigenR zunächst eine positive Funktion ' 2 C 2 .Rn / mit kompaktem Träger f' ¤ 0g und ' d n D 1: Die Ableitungen von h.t/ exp. 1=t/ sind von der Form pj .1=t/h.t / mit Polynomen pj (was induktiv aus der Produktregel folgt), und daher konvergieren alle Ableitungen von h für t ! 0 gegen 0. Mit einer geeigneten Konstanten c > 0 ist durch '.x/ h.1 kxk2 /=c für kxk < 1 und '.x/ 0 für kxk 1 sogar eine C 1 -Funktion mit den gewünschten Eigenschaften definiert. 1 Durch 'k .x/ k n '.kx/ sind wiederum R positive C -Funktionen mit Träger in der Kugel B.0; 1=k/ D fk k 1=kg und 'k d n D 1 definiert. Der Beweis beruht nun darauf, dass man ein gleichmäßig stetiges f durch die Faltung Z Z .f 'k /.x/ f .y/'k .x y/d n .y/ D f .x y/'k .y/d n .y/
gleichmäßig approximiert, weil für " > 0 und jf .x/ f .x y/j " für kyk 1=k ˇ ˇZ ˇ ˇ .f .x y/ f .x//'k .y/dn .y/ˇ jf 'k .x/ f .x/j D ˇ B.0;1=k/
Z
"'k .y/dn .y/ D ":
Entscheidend bei diesem Vorgehen ist, dass man alle Ableitungen D ˛ f , die existieren und gleichmäßig stetig sind, ebenfalls approximiert: Satz 3.7 über Parameterintegrale liefert nämlich D ˛ .f 'k / D D ˛ f 'k . Hat nun f wie im Satz zusätzlich Träger in einer Kugel B.0; r/, so haben alle geforderten partiellen Ableitungen ebenfalls Träger in B.0; r/ und sind insbesondere gleichmäßig stetig. Für eine Folge von Polynomen qk , so dass qk 'k auf B.0; 2r/ gleichmäßig gegen 0 konvergiert (solche Polynome gibt es wegen des Weierstraßschen Approximationssatzes 4.10), erhalten wir dann, dass f qk und D ˛ .f qk / gleichmäßig auf B.0; r/ gegen f beziehungsweise D ˛ f konvergieren. Außerdem sind f qkPwiederum Polynome: Für q.x/ D x ˛ liefert Ausmultiplizieren q.x y/ D c x ˇ y ˛ ˇ mit Koeffizienten c˛;ˇ 2 R, so dass R ˇ ˛ ˛ˇ ˛ ˇ P f q.x/ D ˇ ˛ c˛;ˇ B.0;r/ f .y/y d n .y/x ˇ ein Polynom ist.
196
Kapitel 9 Stochastische Integration
Schließlich müssen wir noch zeigen, dass wir f und D ˛ f auf beliebigen Kugeln B.0; r/ durch g beziehungsweise D ˛ g approximieren können, so dass g Träger zum Beispiel in B.0; r C 2/ hat. Dazu benutzen wir wieder R die Funktionen ' von oben: ' IB.0;rC1/ ist eine C 1 -Funktion mit .x/ D B.0;rC1/ '.x y/d n .y/ D 0 für kxk r C 2, weil dann kx yk > 1 für y 2 B.0; r RC 1/, und .x/ D 1 für kxk r, weil dann kx yk > 1 für y … B.0; rC1/, so dass Rn '.x y/d n .y/ D 1. Dann stimmen f und g f und damit auch die Ableitungen auf B.0; r/ sogar überein. Für U ¤ Rn betrachten wir die Stoppzeiten k infft 0 W dist.X t ; U c / k1 g und C 1 -Funktionen gk mit gk .x/ D 1 für dist.x; U c / 1=2k und gk .x/ D 0 für x … U (solche Funktionen finden wir wie eben, indem wir eine stetige Funktion hk mit hk .x/ D 1 für dist.x; U c / 1=3k und hk .x/ D 0 für dist.x; U c / 1=4k mit 'j falten). Für die (außerhalb von U durch 0 fortgesetzten) Funktionen fk fgk und die gestoppten Semimartingale X k erhalten wir mit dem schon bewiesenen Fall
fk .X k /
fk .X0 / D fk0 .X k / X k C 21 fk00 .X k / ŒX k :
Der Prozess auf der linken Seite dieser Gleichung stimmt mit .f .X / f .X0 //k überein, weil gk .X t / D 1 für t < k gilt. Wegen der Stoppregeln aus Satz 9.10.3 ist fk0 .X k / X k D fk0 .X/IŒ0;k / X D f 0 .X /IŒ0;k / X D .f 0 .X/ X /k ; und aus gleichem Grund ist fk00 .X k / ŒX k D .f 00 .X / ŒX /k . Wegen k ! 1 folgt damit die Itô-Formel auch in der allgemeinen Situation. Für eine n-dimensionale Brownsche Bewegung B D .B 1 ; : : : ; B n / gilt wegen Satz 9.8 und der Unabhängigkeit der Komponenten ŒB j ; B k D 0 für j ¤ k und daher ŒB t D tEn mit der n-dimensionalen Einheitsmatrix En . Für geeignetes f nimmt die Itô-Formel also die Form f .B t / D f .0/ C
n Z X j D1 0
t
Dj f .Bs /dBsj C
1 2
t
Z
f .Bs /ds 0
P an, wobei f jnD1 Dj Dj f den Laplace-Operator bezeichnet. Weil f .B/ genau dann ein lokales Martingal ist, wenn der systematische Anteil verschwindet, liefert die Itô-Formel sehr leicht Aussagen der klassischen Analysis, die mit Brownschen Bewegungen anscheinend gar nichts zu tun haben. Wir nennen eine Funktion f 2 C 1 .U / mit Dj2 f 2 C.U / auf einem offenen U Rn harmonisch, falls f D 0. Mit bezeichnen wir im folgenden Satz das Oberflächenmaß auf der euklidischen Sphäre S fx 2 Rn W kxk D 1g aus Satz 6.9.
197
Kapitel 9 Stochastische Integration
Satz 9.12 (Harmonische Funktionen) 1. Eine messbare und auf kompakten Mengen beschränkte Funktion f W U ! R mit R offenem U Rn ist genau dann harmonisch, wenn S f .x C ru/d .u/ D f .x/ für alle r > 0 mit K.x; r/ fy 2 Rn W kx yk rg U . Dann ist f 2 C 1 .U /. 2. Jede beschränkte harmonische Funktion f W Rn ! R ist konstant. Die Bedingung im ersten Teil heißt Mittelwerteigenschaft, und die zweite Aussage ist der Satz von Liouville. Beweis. 1. Sei zunächst f 2 C 1 .U / mit Dj2 f 2 C.U /. Für eine n-dimensionale Brownsche Bewegung B und r > 0 sei r;B infft > 0 W kB t k D rg. Wegen sup t 0 jB t1 j D 1 fast sicher, ist eine fast sicher endliche Stoppzeit. Außerdem ist kB k r, so dass B 2 CM 2 .F / mit F F .B/ gilt. Aus der Beschränktheit von f 0 .x C B / erhalten wir mit Satz 9.7.2 oder der Bemerkung nach dem Beweis von Satz 9.9, dass f 0 .x C B / B ein L2 -beschränktes Martingal ist. Aus der Itô-Formel folgt damit Z t 1 E.f .x C B t // D f .x/ C 2 E f .x C Bs /ds 0
R und mit dominierter Konvergenz E.f .x C B // D f .x/ C 21 E. 0 f .x C Bs /ds/. R 1 Außerdem ist E.f .x C B // D f .x C ru/dP r B und wegen r;B D r;T .B/ und d
1
B D T .B/ für alle orthogonalen T 2 Rnn ist P r B eine unter Orthogonaltransformationen invariante Verteilung mit P .k 1r B k D R1/ D 1. Wegen der Eindeutigkeitsaussage in Satz 6.9.1 ist daher E.f .x C B // D S f .x C ru/d.u/. Ist nun f harmonisch, so folgt die behauptete Mittelwerteigenschaft, und ist f nicht harmonisch, so gibt es eine Kugel K.x; r/ U Rauf der f entweder strikt positiv oder strikt negativ ist. Wegen > 0 ist dann E. 0 f .x C Bs /ds/ ¤ 0, so dass f die Mittelwerteigenschaft nicht hat. Es bleibt also zu zeigen, dass aus der Mittelwerteigenschaft f 2 C 1 .U / folgt. Für " > 0 sei Rdazu ' 2 C 1 .R/ eine positive Funktion mit '.r/ D 0 für r … 1 .0; "/ und nVn 0 r n 1 '.r/d.r/ D 1, wobei Vn wie früher das Lebesgue-Maß der n-dimensionalen Einheitskugel bezeichnet. Für .x/ '.kxk/ und x 2 U mit K.x; "/ U folgt mit der Polarkoordinatentransformation aus Satz 6.9.3 Z .f /.x/ D f .x y/ .y/d n .y/ Z Z D nVn f .x ru/ .ru/d.u/r n 1 d 1 .r/ .0;1/
Z D nVn
S
Z f .x .0;1/
ru/d.u/'.r/r n
S
Wegen des Satzes 3.7 über Parameterintegrale ist f
1
d1 .r/ D f .x/:
unendlich oft differenzierbar.
198
Kapitel 9 Stochastische Integration
2. Sei wieder B eine n-dimensionale F -Brownsche Bewegung. Wegen der ItôFormel ist f .B/ D f .0/ C f 0 .B/ B ein stetiges lokales Martingal und außerdem beschränkt, also als echtes gleichgradig integrierbares Martingal von der Form f .B t / D E.f .B/1 j F t /, V wobei f .B/1 D lim t !1 f .B t / bezüglich der Vervollständigung von G t >0 .Bs W s > t / messbar ist. Nach Satz 7.9 stimmt Q .tB1=t / t 0 fast sicher mit einer V Brownschen Bewegung B überein, für die dann G Q mit der Vervollständigung von t>0 .Br W r < t / übereinstimmt. Wegen Satz 7.13.2 (oder des im Anschluss gezeigten Blumenthalschen 0-1-Gesetzes) ist
Q 0 G D F .B/
C
Q 0 D f¿; g; D F .B/
und daher ist f .B/1 fast sicher gleich einer Konstanten c 2 R. Dann ist aber auch f .B1 / D E.f .B/1 j F1 / D c fast sicher, so dass A ff ¤ cg eine wegen der Stetigkeit von f offene Menge mit P .B1 2 A/ D N.0; E/.A/ D 0 ist, was A D ¿ impliziert.
Aufgaben 9.1. Für unabhängige Zufallsvariablen ; mit P . D ˙1/ D 12 und U.0; 1/ sei X IŒ;1/ . Zeigen Sie, dass X ein F .X /-Martingal ist und dass der (als Lebesgue– Stieltjes-Integral definierte) Integralprozess X X kein Martingal ist.
9.2. Zeigen Sie für X; Y 2 CM loc .F / die Ungleichung ŒX C Y 1=2 ŒX 1=2 C ŒY 1=2 . 9.3. Zeigen Sie für X 2 SM.F /, H 2 L.X/ und eine bezüglich F0 messbare Zufallsvariable H X D .H X/ D .H / X: P 9.4. Seien G.n/ 1 kD0 B.kC1/2 n I.k2 n ;.kC1/2 n mit einer Brownschen Bewegung B. Berechnen Sie die Erwartungswertfunktion der Prozesse G.n/ B. 9.5. Für eine Brownsche Bewegung B seien H IfB1 0g I.2;3 , X H B und Y G B. Zeigen Sie ŒH; G D 0 und, dass H; G nicht stochastisch unabhängig sind. 9.6. Sei C 1;2 .Œ0; 1/ Rn / die Menge aller Einschränkungen auf Œ0; 1/ Rn von Funktionen f W R Rn ! R mit stetiger partieller Ableitung nach der ersten „Zeitvariablen“ t und stetigen zweiten partiellen Ableitungen nach den „Raumvariablen“ x. Zeigen Sie für eine Brownsche Bewegung B und f 2 C 1;2 .Œ0; 1/ Rn /, dass X t f .t; B t / genau dann ein lokales Martingal ist, wenn f die (Rückwärts-) Wärmeleitungsgleichung D t f C 12 f D 0 erfüllt.
199
Kapitel 9 Stochastische Integration
9.7. Für eine n-dimensionale Brownsche Bewegung B und Prozesse U; V 2 L.B/ heißt X X0 C U B C V ŒB ein Itô-Prozess (bezüglich B). Zeigen Sie, dass die Menge aller Itô-Prozesse stabil unter C 1;2 .Œ0; 1/ Rn /-Abbildungen ist. 9.8. Sei F D F .B/ mit einer Brownschen Bewegung B. Zeigen Sie unter Vorgriff auf Satz 10.6, dass jedes lokale F -Martingal ein Itô-Prozess ist. Charakterisieren Sie, welche F -Semimartingale Itô-Prozesse sind.
9.9. Für X; Y 2 SM.F / heißt X Y X Y C 12 ŒX; Y Fisk–Stratonovich-Integral von X bezüglich Y . Zeigen Sie die partielle Integrationsregel
X Y C Y X D XY
X0 Y0
und für f 2 C 3 .R/ (mit Hilfe der Itô-Formel für f 0 ) f .X/ D f .X0 / C f 0 .X/ X: Für welche X 2 CM loc .F / ist X X wieder ein lokales Martingal? 9.10. Seien X; Y 2 SM.F /, t 0 und 0 D tn;0 tn;1 tn;mn D t eine Folge von Partitionen mit maxftn;j tn;j 1 W 1 j mn g ! 0. Zeigen Sie mit partieller Integration und dominierter Konvergenz mn X
.X tn;j
X tn;j
1
/.Y tn;j
Y tn;j
P
1
/ ! ŒX; Y t :
j D1
9.11. Zeigen Sie für eine Brownsche Bewegung B und p > Integration t1p B t ! 0 fast sicher für t ! 1.
1 2
mit Hilfe partieller
Kapitel 10
Anwendungen der stochastischen Integration
Am Schluss des vorherigen Kapitels haben wir mit der Itô-Formel Aussagen über harmonische Funktionen bewiesen, und wir wollen nun umgekehrt stochastische Ergebnisse mit Hilfe harmonischer Funktionen zeigen. Dafür erweitern wir die Integrationstheorie zunächst auf komplexe Prozesse. Für ein zweidimensionales (lokales oder Semi-) Martingal .X; Y / bezüglich einer Filtration F nennen wir Z D X C iY ein komplexes (lokales oder Semi-) Martingal. Wir bezeichnen mit CM loc .F ; C/ und SM.F ; C/ die Menge der komplexen lokalen beziehungsweise Semimartingale. Der Martingalanteil von Z ist M C iN mit den Martingalanteilen M und N von X beziehungsweise Y . Das Itô-Integral definieren wir durch die Forderung nach C-Linearität, also L.X C iY / fH C iG W H; G 2 L.X/ \ L.Y /g und .H C iG/ .X C iY / H X
G Y C i.H Y C G X/:
Die Covariation von X C iY und XQ C i YQ definieren wir entsprechend durch Q ŒX C iY; XQ C i YQ ŒX; X
Q Y /: ŒY; YQ C i.ŒX; YQ C ŒX;
Die quadratische Variation von Z D X CiY ist ŒZ ŒZ; Z D ŒX ŒY C2iŒX; Y , also nicht monoton wachsend wie im reellen Fall. Abgesehen davon liefern die Sätze des 9. Kapitels angewendet auf Real- und Imaginärteile sofort die entsprechenden Aussagen für das komplexe Itô-Integral. Q D H ŒZ; Z Q und die Insbesondere gelten die Fundamentalidentität ŒH Z; Z partielle Integrationsregel Z ZQ
Q Z0 ZQ 0 D Z ZQ C ZQ Z C ŒZ; Z:
Für (geeignetes) f W C ! C können wir die Itô-Formel auf Real- und Imaginärteil von .x; y/ f .x C iy/ anwenden. Eine Besonderheit ergibt sich dabei, wenn f nicht bloß zweimal partiell stetig differenzierbar ist, sondern sogar komplex differenzierbar in einer offenen Menge U C, das heißt, für alle z0 2 U existiert f 0 .z0 / lim
z!z0
f .z/ z
f .z0 / : z0
201
Kapitel 10 Anwendungen der stochastischen Integration
Leser mit Kenntnissen der Funktionentheorie werden wissen, dass solche Funktionen dann schon unendlich oft differenzierbar sind (und sogar analytisch, das heißt, sie werden lokal durch ihre Taylor-Reihen dargestellt). Für unsere Zwecke benötigen wir aber keinerlei Funktionentheorie, und wir definieren deshalb den Raum H.U / der in U holomorphen Funktionen als Menge der zweimal komplex differenzierbaren Funktionen f W U ! C mit stetiger zweiter Ableitung f 00 . Mit gliedweiser Differenziation folgt, dass Potenzreihen im Inneren des Konvergenzkreises holomorph sind. Entscheidend für die komplexe Itô-Formel sind die Cauchy–Riemannschen Differenzialgleichungen: Für f 2 H.U / und .x; y/ f .x C iy/ gelten D1 D f 0
und D2 D if 0 :
Dies folgt direkt aus der Definition der komplexen Differenzierbarkeit, weil für z0 D x0 C iy0 und jede reelle Nullfolge hn 6D 0 .x0 C hn ; y0 /
.x0 ; y0 C hn /
f .z0 C hn / f .z0 / .x0 ; y0 / = hn D ! f 0 .z0 /; hn f .z0 C ihn / f .z0 / ! if 0 .z0 /: .x0 ; y0 / = hn D i ihn
Satz 10.1 (Komplexe Itô-Formel) Seien Z 2 SM.F ; C/ mit Werten in einer offenen Menge U C und f 2 H.U /. Dann ist f .Z/ D f .Z0 / C f 0 .Z/ Z C 12 f 00 .Z/ ŒZ.
Beweis. Um die Itô-Formel für Funktionen R2 ! R anzuwenden, betrachten wir g.x; y/ 0 liefert die Maximalungleichung 8.4.1 für die rechtsstetigen Submartingale jM V k Bj P sup jM t .V k B/ t j > r 1r E.jM1 .V k B/1 j/ ! 0: t 0
Nach Übergang zu einer Teilfolge wie in Satz 4.6 erhalten wir, dass die stetigen Prozesse V k B fast sicher gleichmäßig auf Œ0; 1/ gegen M konvergieren, so dass M fast sicher stetig ist. Es bleibt jetzt zu zeigen, dass jedes M 2 CM loc .F / mit M0 D 0 von der Form M D V B ist. Für m D infft 0 W jM t j mg sind M m sogar beschränkt, also von der Form M m D V m B. Außerdem ist V mC1 IŒ0;m B D .V mC1 B/m D .M mC1 /m D M m P m für alle m 2 N, und durch V 1 mD0 V I.m ;mC1 ist deshalb ein Prozess V 2 L.B/ definiert mit .V B/ m D M m für alle m 2 N. Satz 8.15.2 liefert dann V B D M.
210
Kapitel 10 Anwendungen der stochastischen Integration
Zusammen mit dem Regularisierungssatz 8.10 folgt in der Situation von Satz 10.6, dass jedes F .B/-Martingal M eine stetige Modifikation besitzt. Insbesondere können etwa kompensierte Poisson-Prozesse keine Martingale bezüglich einer von einer Brownschen Bewegung erzeugten Filtration sein. Bisher sind wir immer von einem Wahrscheinlichkeitsraum .; A; P / ausgegangen und haben dann stochastische Prozesse untersucht. Wir wollen nun andersherum für einen gegebenen Prozess X untersuchen, wie sich etwa Martingaleigenschaften bei Änderung des Wahrscheinlichkeitsmaßes verhalten. Zur besseren Unterscheidbarkeit reden wir dann von (lokalen) P -Martingalen und bezeichnen mit CMPloc .F / den Raum der stetigen lokalen P -Martingale. EP ./ beziehungsweise EP . j G / bezeichnen den (bedingten) Erwartungswert bezüglich P . Eine Verteilung Q auf F1 heißt lokalstetig bezüglich P , falls QjF t P jF t für alle t 0. Falls QjF t D Z t P jF t , heißt dann Z D .Z t / t 0 ein Dichteprozess von Q bezüglich P .
Satz 10.7 (Dichteprozesse) Seien Q eine bezüglich P lokalstetige Verteilung mit Dichteprozess Z und X D .X t / t 0 ein F -adaptierter Prozess. 1. X ist genau dann ein Q-Martingal, wenn ZX ein P -Martingal ist. 2. Q P jF1 gilt genau dann, wenn Z gleichgradig integrierbar ist. 3. Sind X und Z rechtsstetig, so ist QjF \f 0 und einen Kegel K gibt mit B.x0 ; "/ \ .x0 C K/ U c . Zarembas Kegelbedingung in 2. ist insbesondere in Punkten x0 2 @U erfüllt, in denen @U glatt ist, das heißt, es gibt " > 0 und eine in x0 differenzierbare Funktion g W B.x0 ; "/ ! R mit kg 0 .x0 /k D 1 und U \ B.x0 ; "/ D fg < 0g. Wegen x0 2 @U gilt dann nämlich g.x0 / D 0, und für h kxx xx00 k ; g 0 .x0 /i > ı ist
g.x/ kx
g.x/ g.x0 / ıC x0 k
g.x0 / hx x0 ; g 0 .x0 /i > 0; kx x0 k
falls kx x0 k hinreichend klein ist. Also ist die Kegelbedingung sogar für jeden Kegel um g 0 .x0 / erfüllt. Beweis. 1. Wir fassen B gemäß Satz 7.6 als Zufallsgröße mit Werten in dem polnischen Raum X C.Œ0; 1/; Rn / auf und definieren %. / infft 0 W .t/ 2 U c g
220
Kapitel 10 Anwendungen der stochastischen Integration
für 2 X. Als Eintrittszeit in die abgeschlossene Menge U c des durch t . / .t/ definierten stetigen Prozesses . t / t 0 ist % wegen Satz 7.10 eine F ./Stoppzeit. Auf der Menge f% < 1g ist dann wegen Satz 7.12 der „Austrittsort“ A. / .%. // D % . / eine bezüglich F ./1 \ f% < 1g messbare Abbildung. Definieren wir noch A. / z für %. / D 1 mit einem z … @U und f .z/ 0, so gilt mit diesen Bezeichnungen u.x/ D E.f .A.x C B//. Weil F ./1 in der Borel- -Algebra B.Œ0; 1/; Rn / enthalten ist und .x; !/ 7! x C B.!/ eine .Bn ˝ A; B.Œ0; 1/; Rn //-messbare Abbildung definiert, ist u wegen Satz 3.12 wohldefiniert und .Bn ; B/-messbar. Wir zeigen jetzt, dass u die Mittelwerteigenschaft aus Satz 9.12 erfüllt, wegen ju.x/j supfjf .y/j W y 2 @U g für alle x 2 U ist u dann harmonisch. Seien also x 2 U und r > 0 mit K.x; r/ U sowie infft > 0 W kB t k D rg. Für 2 X hängt der Austrittsort nicht vom Verlauf von bis zu Zeiten s < %. / ab, das heißt, es gilt A. / D A. .s C //. Wegen der starken Lévy-Eigenschaft aus Satz 7.14 sind d B und BQ B C B D B unabhängig, und wegen < %.x C B/ folgt mit der Glättungseigenschaft und Satz 6.4 über das Bedingen durch Einsetzen Z B Q j B // D E.f .A.x C y C B//dP Q u.x/ D E.E.f .A.x C B C B// .y/ Z D u.x C y/dP B .y/: Wegen der Invarianz der Verteilung von B unter Orthogonaltransformationen erfüllt also u die Mittelwerteigenschaft und ist daher harmonisch in U . Sei nun x0 ein regulärer Randpunkt von U , in dem f stetig ist. Für 2 X und s < %. / gilt %. / D sC%. .sC//, so dass die Ungleichung %. / sC%. .sC// für jedes s 0 gilt. Für 0 < s < t folgt dann wieder mit der Lévy-Eigenschaft und Bedingen durch Einsetzen P .%.x C B/ t/ P .%.x C BsC / t
s/
D P .%.x C Bs C .BsC Bs // t s/ Z D P .%.y C B/ t s/dP xCBs .y/: Für eine Folge xk ! x0 konvergieren die n -Dichten von P xk CBs D N.xk ; sEn / gegen die von P x0 CBs , und wegen Satz 5.1 konvergieren deshalb die Integrale. Mit obiger Identität für x D x0 folgt lim sup P .%.xk C B/ t / P .%.x0 C BsC / t
s/:
k!1
Für eine Folge sj # 0 sind die Ereignisse Aj f%.x0 C Bsj C / t fx0 C Br 2 U für sj r < tg fallend mit Durchschnitt \ Aj D f%.x0 C Br / 2 G für 0 < r < t g D fx t g: j 2N
sj g D
221
Kapitel 10 Anwendungen der stochastischen Integration
Mit der Stetigkeit von oben folgt daher lim sup P .%.xk C B/ t / P .x t / D 0: k!1
Wir haben damit gezeigt, dass %.xk C B/ stochastisch gegen 0 konvergiert, und durch Übergang zu einer Teilfolge können wir wegen Satz 4.6 annehmen, dass diese Konvergenz sogar fast sicher gilt. Für Elemente ! eines fast sicheren Ereignisses, x0 und 0 D xk k xk C B.!/ und tk %. k / gelten dann k A.xk C B/.!/ D
k .tk /
!
0 .0/
D
k .tk /
0 .tk /
C
0 .tk /
D xk
x0 C
0 .tk /
D x0 :
Wegen der Stetigkeit von f in x0 gilt dann f .A.xk C B// ! f .x0 / fast sicher, und mit dominierter Konvergenz folgt u.xk / ! f .x0 /. 2. Durch Verschieben (also Betrachten von U x0 / können wir x0 D 0 annehmen. Sei K D Ka;ı ein Kegel mit K \ B.0; "/ U c . Für jedes orthogonale T 2 Rnn gilt T .K Sa;ı / D KT .a/;ı , und wegen x 2 Kx;ı für kxk D 1 ist S fk k D 1g fKT .a/;ı W T orthogonalg. Weil S kompakt und Kb;ı offen sind, gibt es S orthogonale T0 ; : : : ; Tm mit T0 D En und S jmD0 KTj .a/;ı , also auch Rn n f0g Sm j D0 KTj .a/;ı . Für j infft > 0 W B t 2 KTj .a/;ı g gilt dann min0j m j D 0 fast sicher. d
Wegen der Invarianz Brownscher Bewegungen aus Satz 7.9 ist andererseits j D 0 für alle 1 j m, und damit folgt 1DP
min j D 0 D P
0j m
m [
fj D 0g
j D0
m X
P .j D 0/ D .mC1/P .0 D 0/:
j D0
Daher ist P .0 D 0/ D 1, und damit folgt die Regularität von x0 D 0.
Im Fall n D 2 ist die Kegelbedingung auch in dem „Grenzfall“, dass bloß ein Geradenstück G D fx0 Ca W 0 < < "g in U c liegt, hinreichend für die Regularität eines Randpunktes x0 : Durch Verschieben und Drehen können wir x0 D 0 und a D .1; 0/ annehmen. Seien ˙ infft > 0 W B t2 D 0; ˙B t1 0g. Weil die eindimensionale Brownsche Bewegung B 2 auf jedem Intervall .0; "/ fast sicher unendlich oft das Vorzeichen wechselt (das hatten wir im Anschluss an Satz 7.9 gesehen), ist C ^ D 0 d
d
fast sicher. Außerdem ist C D wegen . B 1 ; B 2 / D .B 1 ; B 2 /, und Satz 7.13.2 (oder das im Anschluss an Satz 7.13 formulierte Blumenthalsche 0-1-Gesetz) liefern P . C D 0/ 2 f0; 1g. Wegen 1 D P . C ^
D 0/ P . C D 0/ C P .
D 0/ D 2P . C D 0/
folgt damit P . C D 0/ D 1, und dies liefert die Regularität.
222
Kapitel 10 Anwendungen der stochastischen Integration
Aufgaben 10.1. Seien .X; Y; Z/ eine dreidimensionale Brownsche Bewegung, sign.x/ Q und jxj 1 x und ZQ sign.X1 /sign.Y1 /sign.Z1 /Z. Zeigen Sie, dass .X; Y /, .X; Z/ Q .Y; Z/ jeweils zweidimensional Brownsche Bewegungen sind. Gibt es eine Filtration Q ein lokales Martingal ist? F , bezüglich der .X; Y; Z/ 10.2. Seien B eine n-dimensionale Brownsche Bewegung, a 2 Rn n f0g und X B a. Zeigen Sie kX k
und, dass W kBk
1B
kak D kXk
1
X X C
n
1
2
kX k
1
ŒX
B eine eindimensionale Brownsche Bewegung ist.
10.3. Zeigen Sie, dass durch Hn .x; y/ D˛n .exp.˛x y˛ 2 =2//j˛D0 Polynome definiert sind mit .Dy C 12 Dx2 /Hn D 0. Folgern Sie daraus, dass Hn .M; ŒM / für M 2 CM loc .F / wieder lokale Martingale sind und dass Hn .B; ŒB/ für eine Brownsche Bewegung B echte Martingale sind. Berechnen Sie Hn für n 2 f1; 2; 3g.
10.4. Beweisen Sie die starke Lévy-Eigenschaft Brownscher Bewegungen aus Satz 7.14 mit Hilfe der Lévy-Charakterisierung aus Satz 10.2. 10.5. Seien p W C ! C ein nicht konstantes Polynom und B eine komplexe Brownsche Bewegung. Zeigen Sie, dass die Pfadmengen fp.B t .!// W t 0g fast sicher mit Pfadmengen Brownscher Bewegungen übereinstimmen. Folgern Sie dann aus der Rekurrenz von B, dass inffjp.z/j W z 2 Cg D 0 gilt und damit den Fundamentalsatz der Algebra. 10.6. Seien U C beschränkt und f 2 C.U / \ H.U / mit f j@U D 0. Zeigen Sie f D 0. Betrachten Sie dazu eine komplexe Brownsche Bewegung B, für z 2 U die Stoppzeit D infft 0 W z C B t 2 U c g und das stetige Martingal f .z C B /.
10.7. Zeigen Sie in der Situation von Satz 10.6 die Eindeutigkeit des Prozesses V , das heißt, aus V B D 0 für V 2 L.B/ folgt V D 0 fast sicher. 10.8. Seien B eine 3-dimensionale Brownsche Bewegung und M kB ak 1 kak 1 für ein a 2 Rn n f0g. Stellen Sie dieses lokale Martingal als M D V B mit einem Prozess V 2 L.B/ dar. Finden Sie dann (mit Hilfe von MQ kB C ak 1 kak 1 ) einen Prozess W 2 L.B/ mit W ¤ 0 und .W B/1 D 0. 10.9. Seien F D F eine P -vollständige Filtration und Q eine bezüglich P lokalstetige Verteilung auf F1 . Zeigen Sie, dass dann Q bezüglich P jF1 absolutstetig ist. (Diese Aussage ist ziemlich banal – zeigt aber die Unangemessenheit der usual conditions im Zusammenhang mit lokalstetigen Verteilungen.)
Kapitel 10 Anwendungen der stochastischen Integration
223
10.10. Seien Z ein stetiger Dichte-Prozess einer bezüglich P lokalstetigen Verteilung Q auf F1 und Y inffZ t W t 0g. Zeigen Sie Q.Y < ˛/ D ˛P .Y < ˛/, Y > 0 Q-fast sicher und QY D U.0; 1/, falls Y D 0 P -fast sicher. Zeigen Sie schließlich, dass Y für Z E.B/ mit einer Brownschen Bewegung B auf dem Pfadraum C.Œ0; 1// P -fast sicher gleich 0 ist. 10.11. Bestimmen Sie für eine Brownsche Bewegung B und a; b 2 R die Verteilung der Stoppzeit a;b infft 0 W B t bt D ag. Führen Sie das Problem mit Hilfe von Girsanovs Satz 10.10 auf den nach Satz 7.16 behandelten Fall b D 0 zurück. 10.12. Zeigen Sie für eine mehrdimensionale Brownsche Bewegung B, a ¤ 0 und M log.kB ak=kak/, dass E.M / Dichteprozess einer bezüglich F .B/1 absolutstetigen Verteilung ist. 10.13. Seien B eine Brownsche Bewegung, infft 0 W B t D 1g und M B . Zeigen Sie, dass E.M / ein echtes gleichgradig integrierbares Martingal ist aber E. M / nicht. Folgern Sie daraus, dass die Novikov-Bedingung E.exp. 12 ŒM 1 / < 1 aus Satz 10.9 für die Eigenschaft, dass E.M / ein gleichgradig integrierbares Martingal ist, nicht notwendig ist.
10.14. Zeigen Sie, dass jedes stetige lokale Martingal Z > 0 das Doléans-Exponential eines lokalen Martingals M ist. 10.15. Ein selbstfinanzierendes Portfolio D .G; H / heißt Arbitrage, falls für ein T > 0 und den zugehörige Wertprozess V die Eigenschaften V0 D 0, V t 0 für alle t 2 Œ0; T und P .VT D 0/ < 1 gelten, das heißt, man kann mit einem kostenlosen Portfolio ohne jedes Risiko mit positiver Wahrscheinlichkeit einen echten Gewinn erzielen. Zeigen Sie, dass es im Black–Scholes-Modell keine Arbitrage gibt. 10.16. Für K > 0 heißt eine Option der Form h .ST K/C eine europäische Call-Option mit Strike-Preis K. Bestimmen Sie im Black–Scholes-Modell den Preis einer solchen Option. 10.17. Finden Sie eine offene Menge in R3 , die Zarembas Kegelbedingung in einem regulären Randpunkt nicht erfüllt. 10.18. Bestimmen Sie alle in offenen Teilmengen von R harmonischen Funktionen und untersuchen Sie die Lösbarkeit des Dirichlet-Problems. 10.19. Untersuchen Sie das Dirichlet-Problem in Mengen Rn n fx1 ; : : : ; xm g. 10.20. Zeigen Sie für f 2 C 2 .Rn / mit kompaktem Träger und eine n-dimensionale Brownsche Bewegung mit Hilfe der Itô-Formel, dass durch u.t; x/ E.f .x C B t // eine Lösung des Cauchy-Problems D t u D 21 u, u.0; / D f gegeben ist.
Anhang
Metrische Räume
Wir erinnern in diesem Anhang zunächst an die grundlegenden Definitionen metrischer Räume und beweisen dann die Existenz von Borel-Isomorphismen zwischen polnischen Räumen und Borel-Mengen in R. Eine Abbildung d W X X ! Œ0; 1/ mit d.x; x/ D 0, d.x; y/ D d.y; x/ und der Dreiecksungleichung d.x; z/ d.x; y/ C d.y; z/ für alle x; y; z 2 X heißt Halbmetrik auf X , und .X; d / heißt dann halbmetrischer Raum. Falls außerdem d.x; y/ D 0 nur für x D y gilt, heißt .X; d / metrischer Raum. Aus der Dreiecksungleichung folgt mit Fallunterscheidung für den Betrag die untere Dreiecksungleichung jd.x; z/ d.y; z/j d.x; y/. Die Mengen Bd .x; "/ B.x; "/ fy 2 X W d.x; y/ < "g heißen Kugeln. Für eine Menge A X heißt AV fa 2 A W 9 " > 0 B.a; "/ Ag offener Kern von A, und Mengen A X mit A D AV heißen offen in .X; d /. Wegen der Dreiecksungleichung sind die Kugeln B.a; "/ offen, und dies impliziert V das heißt, AV ist die größte offene Teilmenge von A. die Offenheit von A, Die Komplemente offener Mengen heißen abgeschlossen in .X; d /. Für M X ist der Abschluss
M fx 2 X W 8 " > 0 B.x; "/ \ M ¤ ¿g das Komplement des offenen Kerns von M c und daher die kleinste abgeschlossene Obermenge von M . Eine Folge .xn /n2N 2 X N heißt in .X; d / konvergent gegen x 2 X und wir schreiben dann xn ! x, falls für alle " > 0 ein N 2 N existiert mit xn 2 B.x; "/ für alle n N . Dann gilt
M D fx 2 X W 9 .xn /n2N 2 M N mit xn ! xg: Die bisher eingeführten Begriffe hängen nur insofern von der Halbmetrik ab, als die Kugeln B.x; "/ von d abhängen. Ist also D eine weitere Halbmetrik auf X, so dass für alle " > 0 und x 2 X ein ı > 0 mit Bd .x; ı/ BD .x; "/ und BD .x; ı/ Bd .x; "/ existiert, so haben .X; d / und .X; D/ gleiche offene Mengen und gleiche konvergente Folgen. Anders verhält sich der folgende Begriff: Eine Folge .xn /n2N 2 X N heißt Cauchy-Folge in .X; d /, falls für alle " > 0 ein N 2 N existiert mit d.xn ; xm / < " für alle n; m N . Wegen der Dreiecksungleichung ist jede konvergente Folge eine Cauchy-Folge, und .X; d / heißt vollständig, falls umgekehrt jede Cauchy-Folge in .X; d / konvergiert.
225
Anhang Metrische Räume
Eine Abbildung f W X ! Y zwischen zwei halbmetrischen Räumen .X; d / und .Y; D/ heißt stetig in x 2 X , falls zu jedem " > 0 ein ı > 0 mit f .B.x; ı// B.f .x/; "/ existiert. Die Abbildung heißt stetig (auf X), falls sie in jedem Punkt stetig ist. Im Zusammenhang mit Borel- -Algebren ist wichtig, dass f genau dann stetig ist, wenn Urbilder offener Mengen stets offen sind: Sind nämlich f stetig, A Y offen und x 2 f 1 .A/, so gibt es " > 0 mit BD .f .x/; "/ A und daher ı > 0 mit Bd .x; ı/ f 1 .BD .f .x/; "// f 1 .A/, was die Offenheit von f 1 .A/ zeigt. Aus der Offenheit von BD .f .x/; "/ und x 2 f 1 .BD .f .x/; "// folgt andererseits, dass es ı > 0 mit B.x; ı/ f 1 .BD .f .x/; "// gibt, und dies impliziert die Stetigkeit in x. Für einen halbmetrischen Raum .X; d / und A X bezeichnen wir mit dA die Einschränkung von d auf A A. Jede in .X; d / offene Teilmenge von A ist auch in .A; dA / offen, aber andererseits ist A immer in .A; d / offen – das heißt also, dass Offenheit keine „interne“ Eigenschaft einer Menge ist, sondern von dem Raum abhängt, in dem die Menge betrachtet wird. Abzählbare Durchschnitte offener Mengen heißen Gı -Mengen, und es ist überraschend, dass dieser Begriff oft nicht von dem Raum abhängt, in dem die Menge betrachtet wird. Wir benötigen folgende Version dieser Tatsache: Satz A.1 (Vollständige Gı -Mengen, Sierpinski) Seien .X; d / ein vollständiger metrischer Raum, .Y; D/ ein metrischer Raum und f W X ! Y injektiv und stetig, so dass f 1 W f .X / ! X ebenfalls stetig ist. Dann ist f .X/ eine Gı -Menge in .Y; D/. Beweis. Die Stetigkeit der Umkehrabbildung f 8 x 2 X; n 2 N
1
impliziert folgende Bedingung:
9 ı.x; n/ 2 .0; 1=n/ 8 y 2 X
D.f .x/; f .y// < ı.x; n/ H) d.x; y/ < n1 : S 1 Damit sind Gn x2X BT D .f .x/; 2 ı.x; n// offen in .Y; D/ mit f .X / Gn für alle n 2 N, und wir zeigen n2N Gn f .X /, weshalb f .X/ dann eine Gı -Menge ist. T Für z 2 n2N Gn gibt es xn 2 X mit D.f .xn /; z/ < 12 ı.xn ; n/, und für n; m 2 N folgt mit der Dreiecksungleichung
D.f .xn /; f .xm // < 21 .ı.xn ; n/ C ı.xm ; m// ı.xn ; n/ _ ı.xm ; m/: 1 Nach Wahl der ı.x; n/ liefert dies d.xn ; xm / < n1 _ m , so dass .xn /n2N eine CauchyFolge in .X; d / ist. Wegen der Vollständigkeit gibt es x 2 X mit xn ! x, und die Stetigkeit von f impliziert f .xn / ! f .x/ in .Y; D/. Mit der Dreiecksungleichung folgt
D.z; f .x// D.z; f .xn // C D.f .xn /; f .x// < ı.xn ; n/ C D.f .xn /; f .x//;
226
Anhang Metrische Räume
und wegen ı.xn ; n/
" 2 .0; 1/ und n 2 N mit d.x; xn / < "=4 ist nämlich d.xn ; y/ > 34 ", so dass D.f .x/; f .y// 2 n "=2.
228
Anhang Metrische Räume
Also definiert f einen Borel-Isomorphismus zwischen .X; d / und .f .X /; Df .X / /, und wegen Sierpinskis Satz ist f .X / eine Gı -Menge in Œ0; 1N , also insbesondere B.Œ0; 1N ; D/-messbar. Mit einer bijektiven Abbildung ' W N N ! N finden wir einen Borel-Isomorphismus f0; 1gN ! f0; 1gNN , .˛n /n2N 7! .˛'.n;m/ /.n;m/2NN und damit und Satz A.2 einen Borel-Isomorphismus g W Œ0; 1N ! Œ0; 1. Die Einschränkung gjf .X / ist ein Borel-Isomorphismus zwischen f .X / und B g.f .X //, und damit ist auch T g ı f W X ! B ein Borel-Isomorphismus. Wegen f .X / 2 B.Œ0; 1N ; D/ ist schließlich B 2 B.
Lesehinweise
Es gibt eine schier endlose Anzahl hervorragender Bücher über Wahrscheinlichkeitstheorie. Anstatt einer umfangreichen Liste führen wir nur einige wenige Werke auf. Das Referenzbuch schlechthin ist nicht ganz leicht zu lesen, beinhaltet dafür aber fast alles was man über Wahrscheinlichkeitstheorie wissen kann. Ich hoffe, dass das vorliegende Buch eine gute Vorbereitung darstellt. [1] Kallenberg, Olav, Foundations of modern probability, zweite Auflage, SpringerVerlag, New York, 2002. Einige „Klassiker“ der Theorie sind: [2] Bauer, Heinz, Wahrscheinlichkeitstheorie, fünfte Auflage, Walter de Gruyter, Berlin, 2002. [3] Chung, Kai Lai, A course in probability theory, dritte Auflage, Academic Press, Inc., San Diego, CA, 2001. [4] Loève, Michel, Probability theory I & II, vierte Auflage, Springer-Verlag, New York, Heidelberg, 1977 & 1978. [5] Shiryaev, Albert N., Probability, zweite Auflage, Springer-Verlag, New York, 1996. Stochastische Prozesse (und deren Anwendungen in der Finanzstochastik) findet man unter anderem in: [6] Doob, Joseph L., Stochastic processes, Nachdruck des Originals von 1953, John Wiley & Sons, Inc., New York, 1990. [7] Hunt, Phil J. und Kennedy, Joanne E., Financial derivatives in theory and practice, überarbeitete Auflage, John Wiley & Sons, Ltd., Chichester, 2004. [8] Karatzas, Ioannis und Shreve, Steven E., Brownian motion and stochastic calculus, zweite Auflage, Springer-Verlag, New York, 1991. [9] Protter, Philip E., Stochastic integration and differential equations, zweite Auflage, Springer-Verlag, Berlin, 2004. [10] Øksendal, Bernt, Stochastic differential equations, sechste Auflage, SpringerVerlag, Berlin, 2003. [11] Revuz, Daniel und Yor, Marc, Continuous martingales and Brownian motion, dritte Auflage, Springer-Verlag, Berlin, 1999.
230
Lesehinweise
Maßtheorie und reelle Analysis werden in folgenden Büchern dargestellt: [12] Bauer, Heinz, Maß- und Integrationstheorie, zweite Auflage, Walter de Gruyter, Berlin, 1992. [13] Elstrodt, Jürgen, Maß- und Integrationstheorie, vierte Auflage, Springer-Verlag, Berlin, 2005. [14] Rudin, Walter, Real and complex analysis, dritte Auflage, McGraw-Hill Book Co., New York, 1987. Elementare Einführungen in die Stochastik findet man schließlich in: [15] Henze, Norbert, Stochastik für Einsteiger, sechste Auflage, Vieweg, Wiesbaden, 2006. [16] Jacod, Jean und Protter, Philip, Probability essentials, zweite Auflage, SpringerVerlag, Berlin, 2003.
Symbolverzeichnis
W
A˛ , A1 _ _ An Maximum von -Algebren, Seite 2
V
A˛ , A1 ^ ^ An Minimum von -Algebren, Seite 1
˛2I ˛2I
R
X d
R A
X d
Integral, Seite 34 Integral über A, Seite 44
jjjXjjjp
Supremum der p-Normen, Seite 168
kXkp
p-Norm, Seite 61
kxk
(euklidische) Norm, Seite 29
An " A, An # A aufsteigende Vereinigung, fallender Durchschnitt, Seite 3 x _ y, x ^ y
Minimum und Maximum reeller Zahlen
jAj
Anzahl der Elemente von A
B.; d /, B, Bn Borel -Algebren, Seite 2 B.T; X/
Borel--Algebra auf C.T; X/, Seite 133
B\M
Spur--Algebra, Seite 12
B.n; p/
Binomialverteilung, Seite 5
C
komplexe Zahlen
C.T; X/ loc
Raum stetiger Funktionen, Seite 132
CM .F /
Raum der stetigen lokalen Martingale, Seite 166
CMp .F /
Raum der stetigen Lp -beschränkten Martingale, Seite 168
Dj , D ˛
j -te partielle Ableitung, D1˛1 Dn˛n
ı.E/
erzeugtes Dynkin-System, Seite 7
ıa
Dirac-Maß, Seite 3
@A
topologischer Rand, Seite 77
E.X /
Doléans-Exponential, Seite 194
E.X /
Erwartungswert, Erwartungsvektor, Seite 54
E.X j G /
bedingte Erwartung, Seite 117
E.X j Y D y/, E.X j Y / bedingte Erwartungen, Seite 112 Exp. /
Exponentialverteilung, Seite 45
f g
Faltung von Funktionen, Seite 56
232
Symbolverzeichnis
'; 2
Normalverteilungsdichte, Seite 53
'X
charakteristische Funktion, Seite 86
f
Maß mit -Dichte f , Seite 45
F
C
rechtsstetige Filtration, Seite 142
F
vervollständigte Filtration, Seite 142
FQ P
lokale Vervollständigung, Seite 211
F
-Algebra der Ereignisse vor , Seite 139
˛;
Gammaverteilung, Seite 57
Ge.p/
geometrische Verteilung, Seite 5
H.U /
Raum der holomorphen Funktionen, Seite 201
H X,
R
HdX Integral von Prozessen, Seite 172
IA
Indikatorfunktion, Seite 34
=z
Imaginärteil von z
IŒ;/
Indikatorprozess, Seite 177
K.X; Y /, Kov.X/ Matrix der Kovarianzen, Seite 77 Kor.X; Y /
Korrelation, Seite 68
Kov.X; Y /
Kovarianz, Seite 68
L.X /
Raum der X-integrierbaren Prozesse, Seite 187
L1 .; A; / Raum integrierbarer Funktionen, Seite 42 Lebesgue-Maß auf R und Rn , Seite 28
, n
lim supn!1 An , lim infn!1 An Limes superior und inferior, Seite 21 Lp Lp .; A; / Raum p-fach integrierbarer Funktionen, Seite 62 Lp .X/
Raum X-wertiger Lp -Funktionen, Seite 76
M.; F /, MC .; F / Räume messbarer Abbildungen, Seite 37 natürliche Zahlen, N [ f0g
N; N0 N.; Q/ 2
multivariate Normalverteilung, Seite 94
N.; /
Normalverteilung, Seite 53
Faltung von Maßen, Seite 56
Absolutstetigkeit, Seite 74
P ./
Potenzmenge, Seite 1
Po./ Nn
Poisson-Verteilung, Seite 5
j D1
j , ˝ Produkt von Maßen, Seite 51
Symbolverzeichnis
N
B˛ , A ˝ B Produkt--Algebra, Seite 14
˛2I
Nn
Tensorprodukt von Funktionen, Seite 20
K
gemittelte Verteilung, Seite 49
j D1 fj
˝K Produktmaß, Seite 49 Q ˛2I X˛ , X Y kartesisches Produkt, Seite 13 f ˝g X
Tensorprodukt, Produktdichte, Seite 52 X
P ,
Verteilung einer Zufallsgröße, Bildmaß, Seite 10
Q; QC QO
rationale Zahlen, fq 2 Q W q > 0g
w
Fourier-Transformierte, Seite 86
Qm ! Q
schwache Konvergenz, Seite 83
R
R [ f 1; 1g, Seite 36
R
reelle Zahlen