Empirische Prozesse

Empirische Prozesse Lutz D¨ umbgen Med. Universität zu L¨ ubeck 2 Dieses Skriptum erstellte ich f¨ ur eine gleichnami...

Author: Dümbgen Lutz

296 downloads 1087 Views 775KB Size Report

This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form

DOWNLOAD PDF

Empirische Prozesse Lutz D¨ umbgen Med. Universität zu L¨ ubeck

2 Dieses Skriptum erstellte ich f¨ ur eine gleichnamige Kursusvorlesung, die ich im Sommer 1997 in Heidelberg anbot. Es ging hervor aus meiner Ausarbeitung einer Spezialvorlesung “Empirische Prozesse” von D.W. M¨ uller im Sommersemester 88, welche sich an Pollard (1984) anlehnte. Seitdem hatte ich es aktualisiert und um Teile ergänzt, die meines Erachtens f¨ ur Studenten der Mathematischen Statistik wissenswert sind. Insbesondere wird die allgemeine Theorie der Konvergenz in Verteilung komplett behandelt, wobei ich aber bewusst auf die Einf¨ uhrung von “messbaren Einh¨ ullenden” verzichtete, da dies meines Erachtens die Theorie unnötig kompliziert macht. Bei Ulrich Erlenmaier, Sandra Freitag, Markus Fuchs, Martin Kania, Wiebke Schreiber und Uwe Wehrspohn bedanke ich mich herzlich f¨ ur gute Fragen, zahlreiche Korrekturen und Verbesserungsvorschläge. Vielen Dank auch an Robert B. Johns f¨ ur seine Hilfe mit den Abbildungen. F¨ ur weitere Fehlermeldungen und Kommentare bin ich jederzeit dankbar. L¨ ubeck, im März 2000,

Lutz D¨ umbgen

Inhalt 1 Einfu ¨ hrung

7

1.1

Empirische Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

1.2

Partialsummenprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

1.3

Abstrakter Rahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9

2 Der klassische empirische Prozess, I: Die Quantiltransformation

11

3 Uniforme Konsistenz via Bracketing

17

4 Symmetrisierungen

19

4.1

Die erste Symmetrisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.2

Die zweite Symmetrisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4.3

Entsymmetrisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

5 Der klassische empirische Prozess, II: Eine Exponentialungleichung

25

6 Exponentialungleichungen

29

7 Mengenindizierte empirische Prozesse

35

7.1

Glivenko-Cantelli-Klassen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

7.2

ˇ Vapnik-Cervonenkis-Klassen . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

8 Abstrakte Gesetze der großen Zahlen 3

45

4

INHALT 8.1

¨ Uberdeckungszahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

8.2

Ein allgemeines Resultat u ¨ber uniforme Konsistenz . . . . . . . . . . . . . . 46

8.3

Funktionenklassen und zufällige signierte Maße . . . . . . . . . . . . . . . . 49

8.4

Verfeinerungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

8.5

Anwendung auf Dichteschätzung . . . . . . . . . . . . . . . . . . . . . . . . 58

9 Verteilungskonvergenz

61

9.1

¨ Außere Erwartungswerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

9.2

Definition und Eigenschaften der Verteilungskonvergenz . . . . . . . . . . . 63

9.3

Gleichmäßige Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

9.4

Schwache Konvergenz (in Wahrscheinlichkeit) . . . . . . . . . . . . . . . . . 73

9.5

Straffheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

10 Funktionale Grenzwerts¨ atze

85

11 Der klassische empirische Prozess, III: Brownsche Bewegung und Bru ¨ cke

91

11.1 Stochastische Gleichstetigkeit auf [0, 1] . . . . . . . . . . . . . . . . . . . . . 91 11.2 Donskers Invarianzprinzipien . . . . . . . . . . . . . . . . . . . . . . . . . . 93 11.3 Anwendung auf getrimmte Mittelwerte . . . . . . . . . . . . . . . . . . . . . 96 11.4 Verteilungen von Funktionalen von Gaußprozessen . . . . . . . . . . . . . . 100 11.4.1 Maximum und Supremumsnorm der Brownschen Br¨ ucke . . . . . . . 100 11.4.2 Lineare und quadratische Funktionale von Gaußprozessen . . . . . . 105 11.5 Der uniforme Quantilprozess 12 Chaining

. . . . . . . . . . . . . . . . . . . . . . . . . . 108 111

12.1 Maximalungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 12.2 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 12.2.1 Prozesse mit Lipschitz-stetigen Pfaden . . . . . . . . . . . . . . . . . 116 12.2.2 Eine Maximalungleichung f¨ ur empirische Prozesse . . . . . . . . . . 118

INHALT

5

12.2.3 Ein Funktionaler Zentraler Grenzwertsatz . . . . . . . . . . . . . . . 119 12.2.4 Empirische Prozesse und P -Br¨ ucken . . . . . . . . . . . . . . . . . . 122 12.2.5 Partialsummenprozesse und P -Bewegungen . . . . . . . . . . . . . . 123 12.2.6 Vorzeichentests f¨ ur lineare Regression . . . . . . . . . . . . . . . . . 124 13 Kombinatorische Prozesse

131

14 Zensierte Daten

141

Literatur

147

Notation

149

6

INHALT

Kapitel 1

Einfu ¨ hrung 1.1

Empirische Prozesse

Seien X1 , X2 , . . . , Xn unabhängige, identisch verteilte Zufallsvariablen mit Werten in einem meßbaren Raum X und Verteilung P . Ein Schätzer f¨ ur P ist die empirische Verteilung Pbn :=

n 1X δX ; n i=1 i

dabei bezeichnet δx das Dirac-Maß im Punkt x. F¨ ur eine Menge D ⊂ X beziehungsweise eine Funktion f : X → R ist also Pbn D = Pbn (D)

=

Pbn f = Pbn (f ) :=

n 1X 1{Xi ∈ D}, n i=1

Z

f (x) Pbn (dx) =

n 1X f (Xi ). n i=1

Die Frage ist nun, wie präzise dieser Schätzer Pbn ist.

Konsistenz: Bekanntlich gilt f¨ ur jede feste Funktion f aus L1 (P ), der Menge aller bez¨ uglich P integrierbaren Funktionen: Pbn f → P f = P (f ) :=

Z

f (x) P (dx)

in Wahrscheinlichkeit (bzw. fast sicher) nach dem schwachen (bzw. starken) Gesetz der großen Zahlen. (Sofern nichts anderes gesagt wird, beziehen sich asymptotische Aussagen immer auf den Fall, daß n → ∞.) Aber viele statistische Verfahren basieren auf Pbn f f¨ ur unendlich viele Funktionen f , und die punktweise Konvergenz ist nicht ausreichend. Sei 7

¨ KAPITEL 1. EINFUHRUNG

8

daher F eine Familie von Funktionen f ∈ L1 (P ). Eine der zentralen Fragen, mit denen wir uns beschäftigen ist: Unter welchen Voraussetzungen an P und F gilt: kPbn − P kF := sup |Pbn f − P f | →p 0 ? f ∈F

Asymptotische Normalit¨ at: F¨ ur jede Funktion f ∈ L2 (P ), dem Raum aller bez¨ uglich P quadratintegrierbaren Funktionen, folgt aus dem Zentralen Grenzwertsatz, daß √

L

n(Pbn f − P f )

→w N 0, P (f 2 ) − (P f )2 .

Dabei steht ‘→w ’ f¨ ur schwache Konvergenz (siehe auch Kapitel 9), und N (µ, σ 2 ) ist die Normalverteilung mit Mittelwert µ und Varianz σ 2 . Eine naheliegende Frage ist nun, unter welchen Voraussetzungen an P und eine Familie F ⊂ L2 (P ) ein Wahrscheinlichkeitsmaß L existiert, so daß √ b nkPn − P kF →L L ? Wenn ja, wie kann man L charakterisieren? Gilt eine analoge Aussage f¨ ur andere Funk√ b tionale von n(Pn − P ) wie beispielsweise Z

n(Pbn f − P f )2 M (df )

mit einem Maß M auf F ? √ Stochastische Prozesse (zufällige Funktionen) wie (Pbn f )f ∈F oder n(Pbn f − P f ) f ∈F nennt man empirische Prozesse indiziert durch die Funktionenklasse F. Ein wichtiger Spezialfall sind mengenindizierte empirische Prozesse (Pbn D)D∈D , wobei D eine Familie von meßbaren Teilmengen von X ist.

1.2

Partialsummenprozesse

Eine zweite wichtige Klasse von stochastischen Prozessen sind Partialsummenprozesse. Dabei betrachtet man feste Punkte xn1 , xn2 , . . . , xnn ∈ X und unabhängige, identisch verteilte (reellwertige) Zufallsvariablen Y1 , Y2 , Y3, . . . mit ur eine Erwartungswert Null. F¨ b b Familie F von Funktionen auf X sei dann Sn = Sn (f ) definiert durch f ∈F

Sbn (f ) := cn mit einer Normierungskonstanten cn > 0.

n X i=1

Yi f (xni )

1.3. ABSTRAKTER RAHMEN

9

Jedes xni kann zum Beispiel ein Zeitpunkt sein, zu dem ein Messwert µni +Yi ermittelt wird, wobei die µni feste Zahlen sind. Angenommen man berechnet zu verschiedenen Zeitpunkten t die Summe (oder den Mittelwert) der bisherigen Messwerte. In diesem Falle bietet es sich an, obigen Prozess Sbn indiziert durch die Menge D aller Intervalle ] − ∞, t] zu untersuchen. In anderen Anwendungen (z.B. Bildverarbeitung) ist xni ein Punkt im Rd .

1.3

Abstrakter Rahmen

Man kann sowohl empirische Prozesse als auch Partialsummenprozesse in einen abstrakten Rahmen einbetten. Seien nämlich φn1 , φn2 , . . . , φnn unabhängige stochastische Prozesse auf einer beliebigen Indexmenge T . Dann betrachten wir den stochastischen Prozess Zn :=

n X

φni

i=1

auf T . Die in Abschnitt 1.1 gestellten Fragen lauten nun: Uniforme Konsistenz? Unter welchen Voraussetzungen konvergiert kZn −IE Zn k in Wahrscheinlichkeit gegen Null? Grenzverteilungen? Unter welchen Voraussetzungen konvergiert die Verteilung eines gegebenen Funktionals f (Zn ) schwach gegen ein Wahrscheinlichkeitsmaß L? Wie kann man letzteres charakterisieren?

der punktweise Erwartungswert von Zn , und f¨ ur eine Dabei ist IE Zn = IE Zn (t) t∈T Funktion x : T → R setzen wir kxk = kxkT := supt∈T |x(t)|. In den Abschnitten 1.1 beziehungsweise 1.2 ist T = F und φni (f ) :=

1 f (Xi ) n

1 oder φni (f ) := √ (f (Xi ) − P f ) n

beziehungsweise φni (f ) :=

1 Yni f (xni ). n

10

¨ KAPITEL 1. EINFUHRUNG

Kapitel 2

Der klassische empirische Prozess, I: Die Quantiltransformation In Abschnitt 1.1 sei X = R. Die Wahrscheinlichkeitsverteilung P wird durch ihre Verteilungsfunktion R 3 r 7→ F (r) := P (] − ∞, r]) eindeutig bestimmt. Weitere Eigenschaften von F sind: F ist monoton wachsend und rechtsseitig stetig; F (r −) := lims↑r,s6=r F (s) = P (] − ∞, r[), also F (r) − F (r −) = P {r}; limr→−∞ F (r) = 0 und limr→∞ F (r) = 1. Ein naheliegender Schätzer f¨ ur F ist die empirische Verteilungsfunktion n 1X Fbn (r) := Pbn (] − ∞, r]) = 1{Xi ≤ r}. n i=1

Angenommen, die wahre Verteilungsfunktion F ist unbekannt, und man möchte testen, ob F gleich einer hypothetischen Verteilungsfunktion Fo ist. Eine mögliche Testgröße hierf¨ ur ist die Kolmogorov-Smirnov-Teststatistik kFbn − Fo kR . Dies f¨ uhrt direkt zu der Frage, ob Fbn ein konsistenter Schätzer f¨ ur F und wie die Größe b kFn − F kR verteilt ist. 11

12KAPITEL 2. DER KLASSISCHE EMPIRISCHE PROZESS, I:DIE QUANTILTRANSFORMATION Bevor wir diesen Fragen nachgehen, betrachten wir Simulationen von Fbn f¨ ur den Fall einer Standardnormalverteilung P = N (0, 1). Abbildung 2.1 zeigt die Prozesse Fbn und √ b n(Fn − F ) f¨ ur n = 10, 50, 200, 500. Diese Beispiele lassen vermuten, daß kFbn − F k in Wahrscheinlichkeit gegen Null konvergiert. Man gewinnt sogar den Eindruck, daß die √ Verteilung des Prozesses n(Fbn − F ) einen Grenzwert besitzt, wobei dieses Konzept noch definiert werden muss. ¨ Diese Uberlegungen beziehen sich auf den Stichprobenumfang n. Was die Abhängigkeit von F betrifft, kann man den Prozess Fbn und davon abgeleitete Objekte sehr elegant standardisieren. Das Hilfsmittel hierf¨ ur ist die Quantiltransformation oder Quantilfunktion F −1 (u) := min {r ∈ R : F (r) ≥ u}

(u ∈ ]0, 1[)

von P bzw. F . Man kann leicht zeigen, daß F −1 monoton wachsend und linksseitig stetig ist, wobei F −1 (u +) := lim F −1 (v) = max {r ∈ R : F (r −) ≤ u}. v↓u,v6=u

Ferner gilt f¨ ur u ∈ ]0, 1[ und r ∈ R: F (F −1 (u)) ≥ u, F (F −1 (u)) = u (2.1)

F −1 (u) ≤ r

falls P {F −1 (u)} = 0,

genau dann, wenn u ≤ F (r),

Die letztgenannte Eigenschaft nutzen wir wie folgt aus: Seien U1 , U2 , . . . , Un unabhängige, nach U[0, 1] verteilte Zufallsvariablen. Dabei ist U[a, b] die uniforme Verteilung auf [a, b]; das heißt, U[a, b](A) := Leb(A ∩ [a, b])/(b − a) mit dem Lebesguemaß Leb(·) auf R. Aus Eigenschaft (2.1) folgt, daß Xi := F −1 (Ui ) ∼ F, denn IP{F −1 (Ui ) ≤ r} = IP{Ui ≤ F (r)} = F (r). Mithilfe dieser speziellen Konstruktion der Variablen Xi und der empirischen Verteilungsfunktion b n (t) := G

n 1X 1{Ui ≤ t} n i=1

der Variablen U1 , U2 , . . . , Un ist dann b n (F (r)). Fbn (r) = G

Insbesondere ist b n − id k b kFbn − F kR = kG F (R) ≤ kGn − id k[0,1] , b n − id k kFbn − F kR = kG [0,1]

falls F stetig ist.

13 Dabei ist id(r) := r. Aufgrund dieser Darstellung von empirischen Veteilungsfunktionen gen¨ ugt es im wesentb n zu untersuchen. lichen, den uniformen empirischen Prozess G

Aufgaben Aufgabe 2.1 Warum wird P durch seine Verteilungsfunktion eindeutig charakterisiert? Aufgabe 2.2 Man beweise die Stetigkeitseigenschaften von F und F −1 . Aufgabe 2.3 Sei |x| F (dx) < ∞. F¨ ur 0 < u < 1 sei hu (r) := ur+ + (1 − u)r− . Zeigen Sie, daß die Menge der Minimalstellen der Funktion R

r 7→

Z

hu (x − r) F (dx)

gleich [F −1 (u), F −1 (u +)] ist. Hinweis: Die genannte Funktion ist konvex. Berechnen Sie ihre links- und rechtsseitigen Ableitungen. Aufgabe 2.4 Man zeige, daß im Falle einer stetigen Verteilungsfunktion F gilt: Z

R

Z

R

h(Fbn (t), F (t)) F (dt) =L

h(Fbn (t), F (t)) Fbn (dt) =L

Z

[0,1]

Z

[0,1]

b n (u), u) du, h(G b n (u), u) G b n (du) h(G

f¨ ur messbare Funktionen h : [0, 1]2 → R (vorausgesetzt, die Integrale sind wohldefiniert). Aufgabe 2.5 Seien U(1,n) < U(2,n) < · · · < U(n,n) die Ordnungsstatistiken der Variablen U1 , U2 , . . . , Un ; das heißt, {U(1,n) , U(2,n) , . . . , U(n,n) } = {U1 , U2 , . . . , Un }. [a] Zeigen Sie, daß die Verteilung des Vektors U(·,n) := (U(i,n) )1≤i≤n die Dichte n

f (u) := n! 1 0 < u1 < u2 < · · · < un < 1

o

bez¨ uglich des Lebesguemaßes auf Rn hat. [b] Zeigen Sie, daß mit U(0,n) := 0 und U(n+1,n) := 1 gilt:

U(k,n) − U(k−1,n)

1≤k≤n+1

=L

!

Yk Pn+1 i=1

Yi

1≤k≤n+1

14KAPITEL 2. DER KLASSISCHE EMPIRISCHE PROZESS, I:DIE QUANTILTRANSFORMATION

1 1

0.8 0.5 0.6 0 0.4 -0.5 0.2

-1 0 -3

-2

-1

0

1

2

3

-3

-2

-1

0

1

2

3

-3

-2

-1

0

1

2

3

-3

-2

-1

0

1

2

3

-3

-2

-1

0

1

2

3

1 1

0.8 0.5 0.6 0 0.4 -0.5 0.2

-1 0 -3

-2

-1

0

1

2

3

1 1

0.8 0.5 0.6 0 0.4 -0.5 0.2

-1 0 -3

-2

-1

0

1

2

3

1 1

0.8 0.5 0.6 0 0.4 -0.5 0.2

-1 0 -3

-2

-1

0

1

2

3

√ Abbildung 2.1: Realisationen von Fbn und n(Fbn − F ) f¨ ur n = 10, 50, 200, 500, wobei P = N (0, 1)

15 mit unabhängigen, exponentialverteilten Zufallsvariablen Y1 , Y2 , . . . , Yn+1 ; das bedeutet, IP{Yi > t} = e−t f¨ ur t ≥ 0. [c] Zeigen Sie, daß max

1≤k≤n+1

U(k,n) − U(k−1,n)

n+1 →p 1. log(n + 1)

Aufgabe 2.6 Sei F eine stetige Verteilungsfunktion. [a] Berechnen Sie den Erwartungswert von n

Z

(Fbn − F )2 dF.

[b] Berechnen Sie den Erwartungswert von n X i=1

2

Fen (Xi ) − F (Xi ) ,

wobei Fen := n(n + 1)−1 Fbn . Hinweis: Seien U(1,n) < U(2,n) < · · · < U(n,n) uniforme Ordnungsstatistiken wie in Aufgabe 2.5. Dann ist die Variable U(j,n) Beta-verteilt mit Parametern j und n + 1 − j (Beweis ?)1 . Berechnen Sie nun ihren Erwartungswert und ihre Varianz.

1

Die Beta-Verteilung mit Parametern a, b > 0 hat Lebesgue-Dichte 1{0 < u < 1}ua−1 (1 − u)b−1 .

16KAPITEL 2. DER KLASSISCHE EMPIRISCHE PROZESS, I:DIE QUANTILTRANSFORMATION

Kapitel 3

Uniforme Konsistenz via Bracketing Der folgende Satz liefert ein einfaches, aber oft erfolgreiches Kriterium, um uniforme Konsistenz von Pbn nachzuweisen. Letzteres bedeutet, daß kPbn − P kF in Wahrscheinlichkeit gegen Null konvergiert. Dabei wird die Klasse F durch endliche Teilmengen approximiert. Satz 3.1 Angenommen, zu jedem > 0 existieren m ∈ N und Funktionen g1 , h1 , g2 , h2 , . . . , gm , hm in L1 (P ), so daß gilt: F¨ ur alle j ≤ m ist gj ≤ hj und P (hj − gj ) ≤ ; zu jedem f ∈ F existiert ein j ≤ m mit gj ≤ f ≤ hj . Dann konvergiert IE kPbn − P kF gegen Null1 . Beweis: F¨ ur g1 , h1 , g2 , h2 , . . . , gm , hm mit den genannten Eigenschaften gilt: Ist f ∈ F mit gj ≤ f ≤ hj , so ist (Pbn − P )f

(Pbn − P )f

≤ Pbn hj − P gj

= (Pbn − P )hj − P (hj − gj )

≤ (Pbn − P )hj + , ≥ Pbn gj − P hj

≥ (Pbn − P )gj − .

1 Wir ignorieren hier die Frage der Messbarkeit von kPbn −P kF . Der Beweis wird zeigen, daß kPbn −P kF ≤ Yn mit Zufallsvariablen Yn , so daß IE Yn → 0.

17

18

KAPITEL 3. UNIFORME KONSISTENZ VIA BRACKETING

Folglich ist IE kPbn − P kF ≤

m X

j=1

IE (Pbn − P )gj +

m X

j=1

IE (Pbn − P )hj + → ,

denn nach dem schwachen Gesetz der großen Zahlen konvergiert IE |(Pbn − P )a| gegen Null f¨ ur jedes feste a ∈ L1 (P ). 2 Mithilfe dieses Kriteriums kann man im Spezialfall X = R zeigen, daß IE kFbn − F kR → 0. o

Denn kFbn − F kR = kPbn − P kF mit F = {1]−∞,r] : r ∈ R . Ohne Einschränkung sei F stetig; siehe Kapitel 2. F¨ ur > 0 sei dann m := d1/e und hj := 1]−∞,F −1 (j/m)] ,

gj := hj−1

mit hm := 1, h0 := 0. Diese Funktionen g1 , h1 , g2 , h2 , . . . , gm , hm erf¨ ullen die Voraussetzungen von Satz 3.1.

Aufgaben Aufgabe 3.1 Wie könnte man die Funktionen gj , hj in Satz 3.1 wählen, wenn man nachweisen will, daß IE kFbn − F kR → 0, ohne Stetigkeit von F vorauszusetzen? Aufgabe 3.2 Sei P = U([0, 1]2 ), die Gleichverteilung auf dem Einheitsquadrat, und F = n o 2 1C : C ⊂ R abgeschlossen und konvex . Zeigen Sie, daß IE kPbn − P kF → 0.

Zusatz: Beweisen Sie die gleiche Aussage f¨ ur Verteilungen P , welche absolutstetig bez¨ uglich des Lebesgue-Maßes sind.

Kapitel 4

Symmetrisierungen In diesem Kapitel geht es darum, f¨ ur stochastische Prozesse Z auf einer Menge T die Supremumsnorm kZk = kZkT nach oben abzuschätzen, indem man Z mit geeigneten Prozessen Ze vergleicht, deren Verteilung man mitunter besser handhaben kann.

Um sicherzustellen, daß Zufallselemente wie kZkT messbar sind, nehmen wir stets an, daß T abzählbar ist. In der Regel kann man sich mithilfe eines einfachen Approximationsargumentes auf diesen Fall zur¨ uckziehen.

4.1

Die erste Symmetrisierung

Oftmals ist kZ −Z 0 k einfacher zu behandeln als kZk, wenn Z 0 eine unabhängige Kopie von Z ist. Falls eine solche Kopie nicht existiert, kann man den urspr¨ unglichen WahrscheinT lichkeitsraum (Ω, A, IP) mit Z : Ω → R in den Produktraum (Ω × Ω, A ⊗ A, IP ⊗ IP) einbetten vermöge Z(t)(ω1 , ω2 ) := Z(t)(ω1 ),

Z 0 (t)(ω1 , ω2 ) := Z(t)(ω2 ).

Das nächste Lemma beschreibt zwei von vielen Möglichkeiten, wie man von kZ − Z 0 k auf kZk schließen kann, wobei Z 0 nicht unbedingt die gleiche Verteilung wie Z haben muss. Lemma 4.1 Seien Z, Z 0 unabhängige stochastische Prozesse auf T . [a] Angenommen, es existieren Konstanten δ, β > 0, so daß n

IP |Z 0 (t)| ≤ δ

o

≥ β

f¨ ur beliebige t ∈ T . Dann ist n

IP kZk > η

o

n

≤ β −1 IP kZ − Z 0 k > η − δ 19

o

f¨ ur alle η ≥ 0.

20

KAPITEL 4. SYMMETRISIERUNGEN

[b] Angenommen, IE Z 0 ≡ 0. Dann ist IE Ψ(kZk) ≤ IE Ψ(kZ − Z 0 k) f¨ ur beliebige konvexe, monoton wachsende Funktionen Ψ : [0, ∞) → [0, ∞]. Beweis von Lemma 4.1: F¨ ur Teil [a] sei ohne Einschränkung T ⊂ N, und sei τ = τ (Z) :=

(

n

min t ∈ T : |Z(t)| > η min(T )

o

falls kZk > η, sonst.

Dann ist τ eine T -Zufallsvariable, so daß kZk > η genau dann, wenn |Z(τ )| > η. Nun ist n

IP kZ − Z 0 k > η − δ

o

n

≥ IP |Z(τ ) − Z 0 (τ )| > η − δ

o

n

≥ IP |Z(τ )| > η und |Z 0 (τ )| ≤ δ

o

= IE IP |Z(τ )| > η und |Z 0 (τ )| ≤ δ Z

= IE 1{|Z(τ )| > η} IP |Z 0 (τ )| ≤ δ Z ≥ IE 1{|Z(τ )| > η}β n

o

= β IP kZk > η . F¨ ur den Beweis von Teil [b] benötigt man die Jensensche Ungleichung: F¨ ur ein WahrscheinR lichkeitmaß RQ auf Rmit R |x| Q(dx) < ∞ und eine konvexe Funktion h : R → ] − ∞, ∞] ist stets h x Q(dx) ≤ h(x) Q(dx). Vermöge Ψ(−r) := Ψ(r) f¨ ur r > 0 wird Ψ eine gerade, konvexe Funktion auf R. Nun ist

IE Ψ kZk

= IE sup Ψ Z(t) t∈T

= IE sup Ψ IE Z(t) − Z 0 (t) Z t∈T

≤ IE sup IE Ψ Z(t) − Z 0 (t) Z t∈T

≤ IE IE sup Ψ Z(t) − Z 0 (t) Z t∈T

= IE Ψ(kZ − Z 0 k)

4.2

2

Die zweite Symmetrisierung

Nun betrachten wir den speziellen Prozess Zn = φn1 , φn2 , . . . , φnn ,

Pn

i=1 φni

φ0n1 , φ0n2 , . . . , φ0nn ,

aus Abschnitt 1.3. Seien ξ1 , ξ2 , . . . , ξn

4.2. DIE ZWEITE SYMMETRISIERUNG

21

stochastisch unabhängig, wobei L(φ0ni ) = L(φni )

und L(ξi ) = U{−1, 1}.

Die Zufallsfolge (ξ1 , ξ2 , . . . , ξn ) ist eine sogenannte Rademacher-Folge. Die erste Symmetrisierung, angewandt auf Z = Zn (oder Z = Zn − IE Zn ) und Z 0 = Zn0 (oder Z 0 = Zn0 − IE Zn0 = Zn0 − IE Zn ), f¨ uhrt zu dem Prozess n X

Zn − Zn0 =

(φni − φ0ni ).

i=1

Da f¨ ur alle i ≤ n die Prozesse φni und φ0ni identisch verteilt sind, ist mit (φ00ni , φ000 ni )

:=

(

(φni , φ0ni ) falls ξi = 1, (φ0ni , φni ) falls ξi = −1,

000 0 0 das Tupel (φ00n1 , . . . , φ00nn , φ000 n1 , . . . , φnn ) genauso verteilt wie (φn1 , . . . , φnn , φn1 , . . . , φnn ). Deshalb ist

Zn − Zn0 =L

n X

(φ00ni − φ000 ni ) =

n X i=1

i=1

Zn − Zn0 =L

ξi (φni − φ0ni ) = Zno − Zeno ,

n X

(φ00ni − φ000 ni )

n X

ξi (φni − φ0ni )

i=1

=

i=1 Zno −

= wobei Zno :=

n X

ξi φni

i=1

Zeno ,

und Zeno :=

n X

ξi φ0ni .

i=1

Diese Prozesse Zno und Zeno sind zwar nicht unabhängig, aber identisch verteilt. Hieraus ergeben sich folgende Ungleichungen. Lemma 4.2 [a] F¨ ur beliebige η ≥ 0 ist n

IP kZn − Zn0 k > η

o

n

o

≤ 2 IP kZno k > η/2 .

[b] F¨ ur beliebige konvexe, monoton wachsende Funktionen Ψ : [0, ∞[ → [0, ∞] ist

IE Ψ kZn − Zn0 k

≤ IE Ψ 2kZno k .

22


Beweis: Da kZn − Zn0 k =L kZno − Zeno k ≤ kZno k + kZeno k, ist n

IP kZn − Zn0 k ≥ η

o

n

o

n

o

≤ IP kZno k ≥ η/2 + IP kZeno k ≥ η/2 n

o

= 2 IP kZno k ≥ η/2 , und

IE Ψ kZn − Zn0 k

1

≤ IE Ψ

2kZno k + 2kZeno k

2 1 1 IE Ψ(2kZno k) + IE Ψ(2kZeno k) ≤ 2 2 = IE Ψ(2kZno k). 2

Nach der zweiten Symmetrisierung kann man mit der bedingten Verteilung von Zno gegeben φn1 , φn2 , . . . , φnn arbeiten. Das heißt, die φni werden als feste Funktionen auf T betrachtet, und nur noch die ξi sind zufällig.

4.3

Entsymmetrisierung

Eine naheliegende Frage ist, ob die Abschätzungen bei den zwei Symmetrisierungen sehr konservativ sind. Mit anderen Worten, haben kZn k (oder kZn − IE Zn k) und kZno k ähnliche Eigenschaften? Zumindest im Falle identisch verteilter Prozesse φni kann man folgende Aussage machen. Lemma 4.3 Angenommen, die Prozesse φn1 , φn2 , . . . , φnn sind identisch verteilt, und IE φn1 = IE Zn /n ist wohldefiniert in RT . Dann gilt f¨ ur beliebige konvexe, monoton wachsende Funktionen Ψ : [0, ∞[ → [0, ∞] und 0 < λ < 1: 1

IE Ψ

2

kZn − IE Zn k 2

≤ λ IE Ψ

λ

≤ IE Ψ kZno k

kZn − IE Zn k + (1 − λ) IE Ψ

1 1−λ

Pn

i=1 ξi

n

k IE Zn k .

Speziell f¨ ur Ψ := id ergibt sich Korollar 4.4 n X

IE kZn − IE Zn k/2 ≤ IE kZno k ≤ 2 IE kZn − IE Zn k + IE

i=1

ξi /n k IE Zn k

1 ≤ 2 IE kZn − IE Zn k + √ k IE Zn k. n

4.3. ENTSYMMETRISIERUNG

23

√ Falls also k IE Zn k = o( n), dann ist IE kZn − IE Zn k = o(1) genau dann, wenn IE kZno k = o(1). Beweis von Lemma 4.3: Die erste Ungleichung folgt aus den Symmetrisierungslemmata 4.1 und 4.2. F¨ ur die zweite Ungleichung seien I := {i ≤ n : ξi = 1} und J := {j ≤ n : ξj = −1} = {1, . . . , n} \ I. Dann ist Zno =

n X

ξi (φni − IE φn1 ) +

X

(φni − IE φn1 ) −

i=1

=

n X

ξi IE φn1

i=1

i∈I

X

(φnj − IE φn1 ) + Yn IE Zn

j∈J

= Z(I) − Z(J) + Yn IE Zn , wobei Yn := ni=1 ξi /n und Z(M ) := i∈M (φni − IE φn1 ). Doch Zn − IE Zn = Z(I) + Z(J) , und Z(I) , Z(J) sind stochastisch unabhängig und zentriert, gegeben I. Man kann also das Symmetrisierungslemma 4.1 auf die bedingte Verteilung von (Z, Z 0 ) = (Z(I) , −Z(J) ) beziehungsweise (Z, Z 0 ) = (Z(J) , −Z(I) ) gegeben I anwenden und erhält P

P

2 λ 2 |Y | λ n IE Ψ kZ(I) k + IE Ψ kZ(J) k + (1 − λ) IE Ψ k IE Zn k 2 λ 2 λ 1−λ 2 λ 2 λ ≤ IE Ψ kZ(I) + Z(J) k + IE Ψ kZ(J) + Z(I) k 2 λ 2 λ |Y | n + (1 − λ) IE Ψ k IE Zn k 1−λ 2 |Y | n = λ IE Ψ kZn − IE Zn k + (1 − λ) IE Ψ k IE Zn k . 2 λ 1−λ

IE Ψ(kZno k) ≤

24


Kapitel 5

Der klassische empirische Prozess, II: Eine Exponentialungleichung Seien X1 , X2 , . . . , X2n unabhängige Zufallsvariablen mit Verteilungsfunktion F , und seiPn P2n b0 en Fbn (t) := i=1 1{Xi ≤ t}/n und Fn (t) := i=n+1 1{Xi ≤ t}/n die empirischen Verteilungsfunktionen der ersten beziehungsweise letzten n Variablen. Mithilfe der ersten Symmetrisierung beweisen wir nun folgende Ungleichung, welche zeigt, daß sogar kFbn − F kR = Op (n−1/2 ). Satz 5.1 F¨ ur beliebige n ∈ N und η ≥ 0 ist o n√ IP nkFbn − F kR ≥ η ≤ 4 exp −(η − 1)2 . Im Hinblick auf die erste Symmetrisierung betrachten wir nun kFbn − Fbn0 kR . Diese Statistik kann man auch als Teststatistik f¨ ur das Zwei-Stichproben-Problem auffassen. Dabei testet man die Hypothese, daß X1 , X2 , . . . , X2n identisch verteilt sind, gegen die Alternative, daß L(Xi ) =

(

P f¨ ur i ≤ n, P 0 f¨ ur i > n,

wobei P 0 6= P . Die exakte Verteilung von kFbn − F kR und kFbn − Fbn0 kR wurde von Kolmogorov beziehungsweise Smirnov bereits in den 30er Jahren studiert. Der kombinatorische Beweis des nachfolgenden Satzes geht auf Gnedenko und Koroljuk (1961) zur¨ uck. Satz 5.2 (Smirnov, Gnedenko-Koroljuk). F¨ ur beliebige n ∈ N und ganze Zahlen 0 ≤ m ≤ n ist n 2n . 2n mo IP sup(Fbn − Fbn0 )(r) ≥ ≤ . n+m n n r∈R 25

26KAPITEL 5. DER KLASSISCHE EMPIRISCHE PROZESS, II:EINE EXPONENTIALUNGLEICHUNG Gleichheit gilt, wenn F stetig ist. Korollar 5.3 F¨ ur beliebige n ∈ N und γ ≥ 0 ist n

IP kFbn − Fbn0 kR > γ

o

≤ exp(1 − nγ 2 ).

Beweis von Satz 5.1: F¨ ur alle r ∈ R ist IE Fbn (r) = F (r) und Var[Fbn (r)] =

F (r)(1 − F (r)) 1 ≤ . n 4n

Aus Tshebyshevs Ungleichung folgt somit, daß n 1 o 3 IP |(Fbn0 − F )(r)| ≤ √ ≥ . n 4

Dann liefert das Symmetrisierungslemma 4.1 [a] die Ungleichung n η o 4 n η − 1o IP kFbn − F kR > √ ≤ IP kFbn − Fbn0 kR > √ n 3 n

(5.1)

f¨ ur beliebige η ≥ 0. (Da die Funktionen Fbn , Fbn0 , F rechtsseitig stetig sind, kann man R durch die Menge der rationalen Zahlen ersetzen.) F¨ ur η ≥ 1 ist die rechte Seite von (5.1) nicht größer als 4 exp 1 − (η − 1)2 < 4 exp(−(η − 1)2 ). 3 F¨ ur 0 ≤ η < 1 ist letztere Schranke ohnehin größer als Eins. 2 Beweis von Korollar 5.3: Zum einen ist n

IP kFbn − Fbn0 kR > γ n

o

≤ IP sup(Fbn − Fbn0 ) > γ R

n

o

n

+ IP sup(Fbn0 − Fbn ) > γ R

o

o = 2 IP sup(Fbn − Fbn0 ) > γ . R

Außerdem nimmt die Variable supR (Fbn − Fbn0 ) nur Werte in {0, 1/n, 2/n, . . . , 1} an. Deshalb gen¨ aß Satz 5.2 ist dann nugt es, γ = m/n mit o m ∈ {1, 2, . . . , n} zu betrachten. Doch gem¨ 0 b b IP supR (Fn − Fn ) ≥ γ nicht größer als

2n . 2n = n+m n =

m−1 Y

n−i n+1+i

i=0 m−1 Y i=0

n − i . (1 + γ) n+i

27 m−1 X

= exp

log

i=1 m−1 X

≤ exp −2

1 − i/n

1 + i/n

− log(1 + γ)

i/n − log(1 + γ)

i=1

= exp −m(m − 1)/n − log(1 + γ)

= exp −nγ 2 + γ − log(1 + γ) ≤ exp(1 − nγ 2 )/2.

Dabei benutzen wir die Tatsachen, daß log (1 − r)/(1 + r) ≤ −2r und r − log(1 + r) ≤ 1 − log(2) f¨ ur 0 ≤ r ≤ 1. 2 Beweis von Satz 5.2: Mithilfe der Quantiltransformation in Kapitel 2 kann man zeigen, daß es gen¨ ugt, stetige Verteilungsfunktionen F zu betrachten. Insbesondere sind dann die Variablen X1 , X2 , . . . , X2n fast sicher paarweise verschieden. Nun seien X(1) < X(2) < . . . < X(2n) die entsprechenden Ordnungsstatistiken1 . Ferner sei Ei :=

(

1 falls X(i) = Xj f¨ ur ein j ≤ n, −1 falls X(i) = Xj f¨ ur ein j > n.

Nun kann man zeigen, daß der Vektor E auf der Menge aller e ∈ {−1, 1}2n mit 2n i=1 ei = 0 gleichverteilt ist. Hierf¨ ur muss man sich nur klarmachen, was mit E passiert, wenn man die urspr¨ unglichen Variablen Xi durch Xπ(i) ersetzt, wobei π eine beliebige feste Permutation von {1, 2, . . . , 2n} ist. F¨ ur t < X(1) oder t ≥ X(2n) ist (Fbn − Fbn0 )(t) = 0. F¨ ur X(k) ≤ t < X(k+1) , 1 ≤ k < 2n, ist P

n(Fbn − Fbn0 )(t)

=

n(Fbn − Fbn0 )(X(k) )

=

2n X

1{Xi ≤ X(k) } 1{i ≤ n} − 1{i > n}

=

2n X

1{X(j) ≤ X(k) }Ej

k X

Ej

i=1

j=1

=

j=1

=: Sk . Mit S0 := 0 ist folglich n

1

IP sup n(Fbn − Fbn0 ) ≥ m R

Also {X(i) : 1 ≤ i ≤ 2n} = {Xi : 1 ≤ i ≤ 2n}.

o

n

= IP

o

max Sk ≥ m .

0≤k≤2n

28KAPITEL 5. DER KLASSISCHE EMPIRISCHE PROZESS, II:EINE EXPONENTIALUNGLEICHUNG Um letztere Wahrscheinlichkeit zu berechnen, wenden wir das Spiegelungsprinzip an. Der Partialsummenvektor S := (Sk )0≤k≤2n ist gleichverteilt auf der Menge W0 , wobei allgemein n

W :=

o

s = (sk )0≤k≤2n : s0 = 0, |sk − sk−1 | = 1 f¨ ur 1 ≤ k ≤ 2n ,

Wm := {s ∈ W : s2n = 2m}. Ein Vektor s in W gehört zu Wm genau dann, wenn f¨ ur die Zahl x der positiven Zuwächse sk − sk−1 gilt: x − (2n − x) = 2m, also x = n + m. Folglich ist #Wm =

2n . n+m

Dabei bezeichnet #M die Kardinalität einer Menge M . Nun definieren wir

τ (s) := min {k : sk = m} ∪ {2n + 1} , sek :=

(

sk falls k ≤ τ (s), sτ (s) − (sk − sτ (s) ) falls k ≥ τ (s),

se := (se0 , se1 , . . . , se2n ).

n

Mit anderen Worten, die Punkte (k, sk ) ∈ R2 werden f¨ ur k ≥ τ (s) an der Geraden (x, y) ∈ o

R2 : y = m gespiegelt. Diese Abbildung W 3 s 7→ se ∈ W ist bijektiv, und n

o

se : s ∈ W0 , max sk ≥ m

Daher ist IP

n

max Sk ≥ m

0≤k≤2n

1≤k≤2n

o

= #Wm /#W0 =

= Wm .

2n . 2n . n+m n

2

Aufgaben Aufgabe n√ 5.1 Berechnen Sie im Falle einer stetigen Verteilungsfunktion F den Grenzwert ur feste η ≥ 0. von IP n supR (Fbn − Fbn0 ) ≥ η} f¨ Aufgabe 5.2 Sei W gleichverteilt auf der Menge n

o

w = (wk )0≤k≤n : w0 = 0, |wk − wk−1 | = 1 f¨ ur 1 ≤ k ≤ n .

[a] Berechnen Sie mithilfe des Spiegelungsprinzips die Wahrscheinlichkeit, daß max Wk ≥ m.

0≤k≤n

Wie verhält sich diese Wahrscheinlichkeit asymptotisch, wenn m = mn und n → ∞? [b] Berechnen Sie f¨ ur ganze Zahlen a < b die Wahrscheinlichkeit, daß WI = b und WJ = a f¨ ur geeignete Indizes 0 ≤ I < J ≤ n.

Kapitel 6

Exponentialungleichungen Zunächst sei an Tshebyshevs Ungleichung erinnert, wonach IP{Y ≥ η} ≤ IE Y + /η f¨ ur reelle Zufallsvariablen Y und Konstanten η > 0. Diese Schranke ist oft sehr konservativ. Ersetzt man jedoch Y und η durch erY und erη , wobei r > 0, dann ist die resultierende Schranke oftmals erstaunlich präzise. Dies demonstrieren wir zunächst f¨ ur eine standardnormalverteilte Zufallsvariable Y . Bekanntlich ist IP{Y ≥ η} =

exp(−η 2 /2) √ (1 + o(1)) = exp(−η 2 /2 + o(η 2 )) 2πη

(η → ∞)

Andererseits ist IP{Y ≥ η} ≤ inf IE exp(rY )/ exp(rη) = inf exp(r2 /2 − rη) = exp(−η 2 /2) r>0

r>0

f¨ ur beliebige η ≥ 0. Andere Beispiele werden in Aufgabe 6.2 behandelt. Die Theorie der großen Abweichungen (large deviations) erklärt genauer, weshalb diese Methode zu recht präzisen Abschätzungen f¨ uhrt. Satz 6.1 (Hoeffding 1963). Seien Y1 , Y2 , . . . , Yn unabhängige, reelle Zufallsvariablen, so daß f¨ ur 1 ≤ i ≤ n gilt: IE Yi = 0 und ai ≤ Yi ≤ bi mit Konstanten ai < 0 < bi . Dann ist n nX

IP

Yi ≥ η

o

≤ exp −2η

2

i=1

n .X i=1

29

(bi − ai )2

∀ η > 0.

30

KAPITEL 6. EXPONENTIALUNGLEICHUNGEN

Korollar 6.2 F¨ ur beliebige reelle Zahlen c1 , c2 , . . . , cn und η ≥ 0 ist n n X

IP

i=1

ξi ci ≥ η

o

η2 ≤ 2 exp − Pn 2 . 2 i=1 ci

21

Das Korollar folgt aus Hoeffdings Ungleichung, angewandt auf Yi := ±ξi ci ,

bi = −ai := |ci |.

Man beachte, daß ni=1 c2i gleich der Varianz von ni=1 ξi ci ist. Eine allgemeine Exponentialungleichung, welche explizit Varianzen ber¨ ucksichtigt, ist P

P

Satz 6.3 (Bennett 1962). Seien Y1 , Y2 , . . . , Yn unabhängige, reelle Zufallsvariablen, so daß IE Yi = 0 und Yi ≤ M < ∞ Ferner sei

Pn

i=1 Var(Yi ) n nX

IP

f¨ ur 1 ≤ i ≤ n.

≤ V < ∞. Dann ist

Yi ≥ η

o

≤ exp −

i=1

wobei B(x) :=

η2 B(M η/V ) 2V

f¨ ur beliebige η > 0,

(1 + x) log(1 + x) − x . x2 /2

Korollar 6.4 Seien Y1 , Y2 , . . . , Yn unabhängige, identisch verteilte Zufallsvariablen mit IE Yi = 0,

Yi ≤ M < ∞

und

Var(Yi ) ≤ σ 2

f¨ ur alle i = 1, 2, . . . , n.

Dann ist n o η 2 ηM n 1 X Yi ≥ η ≤ exp − 2 B √ 2 IP √ n i=1 2σ nσ

f¨ ur beliebige η > 0.

Anmerkung 6.5 Die Funktion B hat folgende Eigenschaften: B(x) ist stetig und monoton fallend in x > 0; xB(x) ist monoton wachsend in x > 0; limx↓0 B(x) = 1; B(x) = (2 + o(1)) log(x)/x f¨ ur x → ∞.

31 Anmerkung 6.6 F¨ ur beliebige x > 0 ist 1 . 1 + x/3

B(x) ≥

Setzt man dies in Korollar 6.4 ein, erhält man die Bernstein-Ungleichung. Beweis der Hoeffding-Ungleichung: Nach Tshebyshevs Ungleichung ist n nX

IP

Yi ≥ η

o

≤ IE exp −tη + t

i=1

n X

Yi

= exp(−tη)

i=1

n Y

IE exp(tYi )

i=1

f¨ ur beliebige t > 0. Nun ist Yi − ai tbi bi − ai bi − ai bi − Yi Yi − ai exp(tai ) + exp(tbi ), bi − ai bi − ai

exp(tYi ) = exp ≤

b − Y i i

tai +

und wegen IE Yi = 0 ist bi −ai exp(tai ) + exp(tbi ) = e−uλ (1 − λ) + λeu , bi − ai bi − ai

IE exp(tYi ) ≤

wobei λ := −ai /(bi − ai ) ∈ ur den Logarithmus der rechten (0, 1) und u := t(bi − ai ) > 0. F¨ Seite, L(u) := −uλ + log (1 − λ) + λeu , gilt: λ , (1 − λ)e−u + λ λ λ 1 − ≤ 1/4 (1 − λ)e−u + λ (1 − λ)e−u + λ

L0 (u) = −λ + L00 (u) =

wegen der bekannten Ungleichung x(1 − x) ≤ 1/4 f¨ ur beliebige x ∈ R. Folglich ist L(u) = L(0) + uL0 (0) + u2 L00 (u∗ )/2 = u2 L00 (u∗ )/2 ≤ u2 /8 f¨ ur eine geeignete Zwischenstelle u∗ ∈ (0, u). Setzt man diese obere Schranke exp(u2 /8) f¨ ur IE exp(tYi ) in die erste Ungleichung des Beweises ein, dann zeigt sich, daß n nX

IP

Yi ≥ η

o

≤ exp −tη + t2

i=1

und f¨ ur t = 4η

.P

n i=1 (bi

n X

(bi − ai )2 /8 ,

i=1

− ai )2 folgt die gew¨ unschte Abschätzung.

2

Beweis der Bennett-Ungleichung: Mithilfe eines Reskalierungsargumentes sieht man, daß es gen¨ ugt, den Fall M = 1 zu betrachten. Wie wir später zeigen werden, ist (6.1)

n X

IE exp t

i=1

Yi

≤ exp V (et − 1 − t)

f¨ ur alle t > 0.

32


Nun folgt aus Tshebyshevs Ungleichung, daß n nX

IP

Yi ≥ η

o

≤ inf exp V (et − 1 − t) − tη t>0

i=1

= exp V (eto − 1 − to ) − to η

= exp −

η 2 η B , 2V V

wobei to = log(1 + η/V ). Beweis von (6.1): Zu zeigen ist im wesentlichen, daß f¨ ur festes t > 0 und eine beliebige Zufallsvariable Y mit IE Y = 0, Y ≤ 1 und endlicher Varianz σ 2 gilt:

IE exp(tY ) ≤ 1 + σ 2 (et − 1 − t)

≤ exp σ 2 (et − 1 − t)

.

Falls |Y | ≤ 1, folgt dies einfach aus IE exp(tY ) = 1 +

∞ X

tk IE Y k /k!

k=2

≤ 1+σ

2

∞ X

tk /k!

k=2

= 1 + σ 2 (et − 1 − t). Im allgemeinen ist die Sache etwas komplizierter. F¨ ur ein beliebiges Polynom p zweiten Grades hängt IE p(Y ) nur von σ ab. Nun konstruieren wir ein solches Polynom p derart, daß ety ≤ p(y) f¨ ur beliebige y ≤ M . Dann ist nämlich IE exp(tY ) ≤ IE p(Y ), und letzterer Erwartungswert hängt nur von p, t und σ 2 ab. F¨ ur µ > 0 sei q(x) := 1 + x + µ−2 (eµ − 1 − µ)x2 . Dann ist q(x)

(

> ex f¨ ur x ∈ ] − ∞, µ[\{0}, = ex f¨ ur x ∈ {0, µ}.

Denn einerseits ist x

q(x) − e

2

= (x /2)

∞ X

(µk−2 − xk−2 )/k! > 0

k=2

f¨ ur 0 < x < µ. Andererseits ist q(x) = 1 + x + (1 + )x2 /2 f¨ ur ein > 0, weshalb ∂ (q(x) − ex ) = 1 + (1 + )x − ex ≤ x < 0 ∂x

33 f¨ ur x < 0. F¨ ur yo < 1 sei nun µ := t(1 − yo ) und

p(y) := etyo q t(y − yo ) . Dann ist p(y)

(

> ety f¨ ur y ∈ ] − ∞, 1[\{yo }, = ety f¨ ur y ∈ {yo , 1}.

Folglich ist IE exp(tY ) ≤ IE p(Y ), und Gleichheit gilt genau dann, falls L(Y ) auf {yo , 1} konzentriert ist. Doch die ersten zwei Momente von Y implizieren dann, daß notwendig yo = −σ 2 und IP{Y = yo } = 1/(1 + σ 2 ), IP{Y = 1} = σ 2 /(1 + σ 2 ). Somit haben wir gezeigt, daß allgemein 2

IE exp(tY ) ≤ wobei

e−tσ + σ 2 et = 1 + σ 2 (et − 1 − t) − ∆(t), 1 + σ2 2

e−tσ + σ 2 et ∆(t) := 1 + σ (e − 1 − t) − . 1 + σ2 2

t

Doch ∆(0) = 0 und 2

∂ σ 2 e−tσ − σ 2 et ∆(t) = σ 2 (et − 1) + ∂t 1 + σ2 2 σ (1 − tσ 2 ) − σ 2 et ≥ σ 2 (et − 1) + 1 + σ2 4 t σ (e − 1 − t) = 1 + σ2 ≥ 0, weshalb ∆(t) ≥ 0 f¨ ur t ≥ 0.

2

Aufgaben Aufgabe 6.1 Sei Y standardnormalverteilt. Zeigen Sie, daß IP{Y ≥ η} ≤ exp(−η 2 /2)/(2 + η) f¨ ur beliebige η ≥ 0. Aufgabe 6.2 Berechnen Sie Exponentialungleichungen f¨ ur IP{Y ≥ IE Y + η}

und

IP{Y ≤ IE Y − η}

im Falle einer Gamma-, Poisson- und binomialverteilten Zufallsvariable Y .

34


Kapitel 7

Mengenindizierte empirische Prozesse Hier betrachten wir (Pbn D)D∈D mit einer Familie D von meßbaren Teilmengen von X. Wir setzen generell voraus, daß D punktweise separabel ist. Das bedeutet, es gibt eine abzählbare Teilmenge Do von D, so daß f¨ ur alle D ∈ D eine Folge (Dk )k in Do existiert mit lim 1Dk (x) = 1D (x)

k→∞

f¨ ur alle x ∈ X.

Unter dieser Bedingung ist kνkD = kνkDo f¨ ur jedes endliche signierte Maß ν auf X. Schreibt + − man nämlich ν = ν − ν mit endlichen Maßen ν + , ν − , dann folgt aus dem Satz von der majorisierten Konvergenz, daß

|ν(D) − ν(Dk )| ≤ (ν + + ν − ) |1D − 1Dk |

→ 0

(k → ∞).

Daher kann man die Resultate aus Kapitel 4, welche eine abzählbare Indexmenge voraussetzen, anwenden.

7.1

Glivenko-Cantelli-Klassen

Das erste Ziel ist, notwendige und hinreichende Bedingungen zu finden, unter welchen kPbn − P kD →p 0. In letzterem Falle nennt man D eine Glivenko-Cantelli-Klasse f¨ ur P . Zuerst zwei wichtige Bezeichnungen: Sei E eine endliche Teilmenge von X. Dann sei ∆(E) = ∆(E, D) := #(D ∩ E) ≤ 2#E , wobei D ∩ E := {D ∩ E : D ∈ D}. Die Familie D zerlegt E vollständig, falls D ∩ E = {A : 35

36

KAPITEL 7. MENGENINDIZIERTE EMPIRISCHE PROZESSE

A ⊂ E}, was äquivalent ist zu ∆(E) = 2#E . Ferner sei n

V (E) = V (E, D) := max #A : A ⊂ E, A wird von D vollständig zerlegt =

n

o

o

max #A : A ⊂ E, ∆(A) = 2#A . n

o

Beispiel 7.1 Sei X = R und D = ] − ∞, t] : t ∈ R . F¨ ur nichtleere endliche Mengen Hier ist ∆(E) = #E + 1

und V (E) = 1. o

n

Beispiel 7.2 Sei X = R2 und D = Halbräume D ⊂ R2 . Dabei ist ein Halbraum eine Menge der Form {x ∈ R2 : x>u ≤ r} oder {x ∈ R2 : x>u < r}. Hier kann man leicht nachweisen, daß V (E) ≤ 3. Was kann man u ¨ber ∆(E) sagen? n

o

Beispiel 7.3 Sei X = Rd und D = konvexe Mengen D ⊂ Rd . Ist speziell E eine Teilmenge der Euklidischen Einheitssphäre {x ∈ Rd : x>x = 1}, dann ist ∆(E) = 2#E

und somit

V (E) = #E.

Denn f¨ ur A ⊂ E ist A = conv(A) ∩ E, wobei conv(A) die konvexe H¨ ulle von A bezeichnet. Der nachfolgende Satz und sein Korollar zeigen, daß die Funktionen ∆(·) und V (·) in engem Zusammenhang stehen. Satz 7.4 F¨ ur jede endliche Teilmenge E von X ist ∆(E) ≤

V (E)

X i=0

#E . i

Korollar 7.5 F¨ ur endliche Mengen E ⊂ X ist stets log(2)

#E V (E) log ∆(E) V (E) ≤ ≤ log e . #E #E #E V (E)

Nun kommen wir zur uniformen Konsistenz von Pbn .

7.1. GLIVENKO-CANTELLI-KLASSEN

37

b n := {X1 , X2 , . . . , Xn }. Folgende f¨ ˇ Satz 7.6 (Vapnik-Cervonenkis, Steele). Sei X unf Aussagen sind äquivalent:

kPbn − P kD →p 0;

(7.1)

IE kPbn − P kD

(7.2)

IE kPbno kD

(7.3)

→

0;

→

0;

b n )/n →p 0; log ∆(X

(7.4)

b n )/n →p 0. V (X

(7.5)

P Dabei ist Pbno := n−1 ni=1 ξi δXi mit einer von (Xi )i unabhängigen Rademacherfolge (ξi )i . b n) In den obigen Beispielen 7.1 und 7.2 ist Bedingung (7.5) offensichtlich erf¨ ullt, da V (X stets kleiner als eine feste Konstante ist. Folglich sind diese Klassen D eine GlivenkoCantelli-Klasse f¨ ur beliebige P . In einem späteren Abschnitt wird diese Aussage durch eine Exponentialungleichung ersetzt werden.

¨ Beweis von Satz 7.6: Die Aquivalenz von (7.2) und (7.1) folgt aus der Tatsache, daß b kPn − P kD ≤ 1. Ebenso ist auch (7.3) äquivalent zu kPbno kD →p 0.

(7.6)

¨ Die Aquivalenz von (7.2) und (7.3) ist eine direkte Konsequenz der Symmetrisierungsungleichungen in Korollar 4.4 und der Tatsache, daß k IE Pbn kD = kP kD ≤ 1.

¨ Die Aquivalenz von (7.4) und (7.5) folgt direkt aus Korollar 7.5.

Nun zeigen wir, daß aus (7.4) Aussage (7.6), also auch (7.3) folgt. Wegen n

o

IP kPbno kD ≥ gen¨ ugt es zu zeigen, daß

= IE IP kPbno kD ≥ X1 , . . . , Xn

IP kPbno kD ≥ X1 , . . . , Xn

→p 0

f¨ ur beliebige feste > 0. Nun ist

n 1 X o b kPn kD = max ξi ai n bn a∈A i=1 o

n

mit Abn := (1D (Xi ))1≤i≤n : D ∈ D ⊂ {0, 1}n , und b n ), #Abn = ∆(X n 1 X

IP

n

i=1

ξi ai ≥ X1 , . . . , Xn

n2

≤ 2 exp −

2

f¨ ur a ∈ {0, 1}n ;

38


siehe Korollar 6.2. Daher ist

IP kPbno kD ≥ X1 , . . . , Xn

IP n−1

X

≤

bn a∈A

n X i=1

ξi ai ≥ X1 , . . . , Xn

n2

b n ) exp − ≤ 2∆(X

2 b n ) log ∆(X = 2 exp −n − 2 n = op (1). 2

b n) ⊂ Schließlich zeigen wir noch, daß (7.3) Aussage (7.5) impliziert. Dazu sei Ibn = Ibn (X {1, . . . , n} mit

b n) #Ibn = #{Xi : i ∈ Ibn } = V (X

und ∆ {Xi : i ∈ Ibn }

= 2V (Xn ) . b

Ferner sei Z := Z0

1 X ξi δXi , n i∈Ibn

1 := − n

Nach Konstruktion der Menge Ibn ist 1 X

kZk = max M ⊂Ibn

n i∈M

ξi =

X

ξi δXi .

i∈{1,...,n}\Ibn n 1 X

n

ξi+ ∨

i=1

n 1 X

n

ξi−

≥

i=1

b n) V (X . 2n

Ferner sind Z und Z 0 stochastisch unabhängig und zentriert, gegeben X1 , . . . , Xn . Zusammen mit Symmetrisierungslemma 4.1 [b] folgt also, daß IE

b n) V (X 2n

≤ IE kZkD

= IE IE kZkD X1 , . . . , Xn

≤ IE IE kZ − Z 0 kD X1 , . . . , Xn = IE kPbno k.

2

Beweis von Satz 7.4: Ohne Einschränkung der Allgemeinheit sei X = E = {1, 2, . . . , n}, also ∆(E, D) = #D. Sei C eine beliebige Familie von Teilmengen von E, so daß gilt: (7.7)

F¨ ur beliebige C ∈ C und j ∈ E ist auch C \ {j} ∈ C.

7.1. GLIVENKO-CANTELLI-KLASSEN

39

In diesem Falle andig zerlegt. Somit ist C enthalten in n wird jede Menge C ∈ o C von C vollst¨ der Menge A ⊂ E : #A ≤ V (E, C) und #C ≤

V (E,C)

X

k=0

n . k

Nun zeigen wir, daß man D endlich oft durch neue Familien ersetzen kann, so daß #D unverändert bleibt, während V (E, D) nicht zunimmt, und am Ende Bedingung (7.7) erf¨ ullt ist. Angenommen, D erf¨ ullt Bedingung (7.7) nicht. Dann existiert ein j ∈ E mit n

D \ {j} : D ∈ D

Nun definieren wir

(

T (D) :=

o

6⊂ D.

D \ {j} falls D \ {j} 6∈ D, D sonst.

Man kann leicht zeigen, daß diese Abbildung injektiv ist. Ferner ist V (E, T (D)) ≤ V (E, D), wobei T (D) := {T (D) : D ∈ D}. Dazu gen¨ ugt es zu zeigen, daß A ⊂ E von D vollständig zerlegt wird, falls es von T (D) vollständig zerlegt wird. Ist j 6∈ A, dann folgt dies aus der Tatsache, daß A ∩ T (D) = A ∩ D f¨ ur beliebige D ∈ D. Ist j ∈ A, so existiert nach Voraussetzung zu jedem B ⊂ A ein D ∈ D mit B ∪ {j} = A ∩ T (D). Doch dann ist notwendig j ∈ T (D) = D und D \ {j} ∈ D. Folglich ist B =

(

A∩D falls j ∈ B, A ∩ (D \ {j}) falls j 6∈ B,

also B ∈ A ∩ D. Diese Prozedur wiederholen wir solange, bis Bedingung (7.7) erf¨ ullt ist. Daß dieser Fall nach endlich vielen Schritten eintrifft, folgt aus der Tatsache, daß X

#T (D)
p(n) f¨ ur alle n > V . Falls also ∆(E, D) ≤ p(#E) f¨ ur beliebige endliche Mengen E ⊂ X, so ist V (D) ≤ V . 2 Das folgende Lemma ist oft n¨ utzlich, wenn man nachweisen will, daß ein bestimmtes Mengensystem eine VC-Klasse ist, indem man es durch endlich viele Boolesche Operationen aus einfacheren Mengenfamilien aufbaut. Den Beweis u ¨berlassen wir dem Leser als ¨ Ubungsaufgabe. Lemma 7.8 Seien C, D Familien von Teilmengen von X. Dann ist

∆ E, {X \ D : D ∈ D}

= ∆(E, D),

∆ E, {C ? D : C ∈ C, D ∈ D}

≤ ∆(E, C)∆(E, D)

42


f¨ ur beliebige endliche Teilmengen E von X. Dabei bezeichnet ? eine der Verkn¨ upfungen ∩, ∪ oder \. 2 Hier ist ein anderes Kriterium f¨ ur die VC-Eigenschaft. Satz 7.9 Sei G ein endlichdimensionaler Vektorraum von reellen Funktionen auf X. Dann ist nn o o D := x ∈ X : g(x) ≥ 0 : g ∈ G eine VC-Klasse mit VC-Index V (D) ≤ dim(G). Beweis: Sei E ⊂ X mit #E > dim(G). Die Menge n

o

(g(x))x∈E : g ∈ G

E E ist ein Untervektorraum von R mit Dimension d ≤ dim(G) < dim(R ) = #E. Daher existiert ein γ = γ(x) in RE , so daß x∈E

X

f¨ ur alle g ∈ G

γ(x)g(x) = 0

x∈E

und γ(x) 6= 0 f¨ ur mindestens ein x ∈ E. Multipliziert man γ mit −1, falls nötig, dann ist E 0 :=

n

o

x ∈ E : γ(x) ≥ 0

6= E.

Doch E 0 6= {g ≥ 0} ∩ E f¨ ur beliebige g ∈ G. Denn anderenfalls wäre X

X

γ(x)g(x) ≥

γ(x)g(x) > 0.

x∈E\E 0

x∈E

Also wird E von D nicht vollständig zerlegt.

2

Beispiel 7.10 Sei G die Menge aller affin linearen Funktionen x 7→ g(x) = λ0 +

d X

λi xi

(λ0 , . . . , λd ∈ R)

i=1

n

o

auf Rd . Dann ist {g ≥ 0} : g ∈ G die Menge aller abgeschlossenen Halbräume (inklusive Rd und ∅) und stellt eine VC-Klasse mit Index V (D) ≤ d + 1. Betrachtet man stattdessen die Menge G aller Funktionen x 7→ g(x) = λ0 +

d X i=1

λi xi +

d X

i,j=1

λij xi xj

ˇ 7.2. VAPNIK-CERVONENKIS-KLASSEN

43 n

o

mit reellen Koeffizienten λi , λij = λji , dann ist {g ≥ 0} : g ∈ G die Menge aller abgeschlossenen Kegelschnitte (Ellipsen, Hyperboloide, Halbräume, Paraboloide) und zerlegt keine Teilmenge von Rd mit mehr als (d + 1)(d + 2)/2 Elementen. Hier ist noch eine Anmerkung zur punktweisen Separabilität von D: Lemma 7.11 Seien G und D wie in Satz 7.9. Ferner enthalte G eine strikt positive Funktion. Dann ist D punktweise separabel. Beweis: Sei G = span(v0 , v1 , v2 , . . . , vd ) mit v0 > 0. Die Menge Go aller Linearkombinationen von ahlbar und liefert eine Menge n v0 , v1 , v2 , . . . , vdomit rationalen Koeffizienten ist abz¨ Do := {g ≥ 0} : g ∈ Go mit den gew¨ unschten Eigenschaften. Seien nämlich λ0 , λ1 , . . . , λd beliebige reelle Zahlen. Dann wähle man Folgen (λik )k von rationalen Zahlen, so daß lim k|λik − λi | = 0

k→∞

f¨ ur 0 ≤ i ≤ d. Mit d X

g(x) :=

λi vi (x)

und gk (x) :=

i=0

d v0 (x) X + λik vi (x) k i=0

konvergiert dann (gk )k punktweise gegen g, und f¨ ur jedes x ∈ X gibt es eine Zahl ko (x), so daß gk (x) > g(x) falls k ≥ ko (x). Dies impliziert, daß n

o

lim 1 gk (x) ≥ 0

k→∞

n

o

= 1 g(x) ≥ 0


2

Aufgaben Aufgabe 7.1 Sei X = N und D die Menge aller Teilmengen von N. Beweisen Sie die uniforme Konsistenz von Pbn auf D mithilfe [a] elementarer Methoden oder Scheffés Theorems (s.u.). [b] des Satzes 7.6. Aufgabe 7.2 Beweisen Sie Lemma 7.8. Scheffés Theorem: Seien fn , f messbare Funktionen auf (Ω, A, µ), so daß gilt: lim sup n→∞

Z

|fn | dµ ≤

Z

lim µ{|fn − f | > } = 0

n→∞

|f | dµ < ∞, f¨ ur beliebige > 0.

44


Dann ist lim

n→∞

Z

|fn − f | dµ = 0.

Kapitel 8

Abstrakte Gesetze der großen Zahlen In diesem Kapitel werden die Resultate f¨ ur mengenindizierte empirische Prozesse auf den abstrakten Rahmen von Abschnitt 1.3 u ¨bertragen. Hierbei spielt die “Approximation” der Indexmenge T durch endliche Teilmengen eine zentrale Rolle.

8.1

¨ Uberdeckungszahlen

Sei (T , ρ) ein pseudometrischer Raum. Das heißt, ρ ist eine Funktion auf T × T , so daß f¨ ur beliebige s, t, u ∈ T gilt: ρ(s, t) = ρ(t, s) ≥ 0

mit Gleichheit, falls s = t,

ρ(s, t) ≤ ρ(s, u) + ρ(u, t). ¨ F¨ ur > 0 definieren wir nun die Uberdeckungszahl n

o

N (, T , ρ) := min #To : To ⊂ T und ρ(t, To ) ≤ f¨ ur alle t ∈ T ; dabei ist ρ(t, To ) := inf ρ(t, s). s∈To

Mit anderen Worten, N (, T , ρ) ist die kleinste Anzahl von abgeschlossenen Kugeln mit Radius bez¨ uglich ρ, welche die Menge T u ¨berdecken. Mitunter betrachtet man auch die Kapazität n

o

D(, T , ρ) := max #To : To ⊂ T und ρ(s, t) > f¨ ur verschiedene s, t ∈ To . 45

46

KAPITEL 8. ABSTRAKTE GESETZE DER GROSEN ZAHLEN

Wie man leicht nachweist, besteht zwischen beiden Zahlen folgender Zusammenhang: N (, T , ρ) ≤ D(, T , ρ) ≤ N (/2, T , ρ).

(8.1)

Eine hiervon abgeleitete Größe ist die metrische Entropie log N (, T , ρ)

oder log D(, T , ρ) .

¨ Hier ist ein wichtiges Beispiel f¨ ur die Abschätzung von Uberdeckungszahlen. Lemma 8.1 Sei (V, | · |) ein endlichdimensionaler normierter Vektorraum, versehen mit ρ(s, t) := |s − t|, und sei B := {t ∈ T : |t| ≤ 1} die entsprechende abgeschlossene Einheitskugel. Dann ist 2 dim(V) D(, B, ρ) ≤ 1 + f¨ ur beliebige > 0. Anmerkung 8.2 Hier kann man sogar zeigen, daß (8.2)

lim ↓0

log N (, B, ρ) = d; log(1/)

siehe Aufgabe 8.2. Beweis von Lemma 8.1: Ohne Einschränkung sei V = Rd . Sei Bo ⊂ B derart, daß ρ(s, t) > f¨ ur verschiedene s, t ∈ Bo . Dann sind die Kugeln t + (/2)B, t ∈ Bo , paarweise disjunkt und in der Menge (1 + /2)B enthalten. Folglich ist (1 + /2)d Leb(B) = Leb((1 + /2)B) ≥

X

Leb(t + (/2)B) = #Bo (/2)d Leb(B),

t∈Bo

also #Bo ≤ (1 + 2/)d .

8.2

2

Ein allgemeines Resultat u ¨ ber uniforme Konsistenz

Nun geben wir Bedingungen an, unter welchen IE kZn − IE Zn k gegen Null konvergiert. Mithilfe der zwei Symmetrisierungen wird dies zur¨ uckgef¨ uhrt auf die Behauptung, daß Pn o o IE kZn k → 0, wobei Zn := i=1 ξi φni wie in Kapitel 4.2. Die Zufallsvariable kZno k wird

¨ 8.2. EIN ALLGEMEINES RESULTAT UBER UNIFORME KONSISTENZ

47

durch kZno kTb approximiert, wobei Tbn eine zufällige, in der Regel endliche Teilmenge von n T ist. F¨ ur den Approximationsfehler gilt:

kZno k ≤ sup inf

t∈T s∈Tbn kZno kTb + n

≤

kZno kTb n

≤

|Zno (s)| + |Zno (t) − Zno (s)|

sup inf |Zno (t) − Zno (s)| t∈T

s∈Tbn

+ sup ρbn (t, Tbn ) t∈T

mit der zufälligen Pseudometrik

n X

ρbn (s, t) = ρbn (s, t | φn1 , . . . , φnn ) :=

|φni (s) − φni (t)|

i=1

auf T . Der Term kZno kTb wird dann mithilfe von Hoeffdings Ungleichung abgeschätzt. n

Satz 8.3 Der Erwartungswert von kZn − IE Zn k konvergiert gegen Null, falls f¨ ur eine Nullfolge (δn )n folgende zwei Bedingungen erf¨ ullt sind: (8.3)

IE

n X

kφni k = O(1) und

IE

n n X

o

1 kφni k > δn kφni k = o(1);

i=1

i=1

log N (u, T , ρbn ) = op (δn−1 ).

(8.4)

Dieser Satz beinhaltet zwei Spezialfälle: Zum einen konvergiert IE kZn − IE Zn k gegen Null, falls gilt: 8.30

lim

n∧K→∞

8.40

IE

n n X

1 kφni k >

i=1

Ko kφni k = 0, n

log N (u, T , ρbn ) = op

1

n

.

Zum anderen ist IE kZn −IE Zn k = o(1), falls f¨ ur beliebige u > 0 folgende zwei Bedingungen erf¨ ullt sind: 8.300

IE

n X

kφni k = O(1)

und

i=1

8.400

IE

n n X

o

1 kφni k > u kφni k = o(1) f¨ ur beliebige u > 0,

i=1

log N (u, T , ρbn ) = Op (1)

f¨ ur beliebige u > 0.

Beweis von Satz 8.3: Seien n

o

φeni := 1 kφni k ≤ δn φni

und Zen :=

n X i=1

φeni .

48


Dann ist

IE (Zn − IE Zn ) − (Zen − IE Zen ) ≤ 2 IE kZn − Zen k n n

X

= 2 IE ≤ 2

n X

o

1 kφni k > δn φni

i=1

n

o

IE 1 kφni k > δn kφni k

i=1

= o(1). Außerdem ist ρbn (s, t | φen1 , . . . , φenn ) ≤ ρbn (s, t | φn1 , . . . , φnn ) f¨ ur alle s, t ∈ T . Deshalb kann man ohne Einschränkung der Allgemeinheit annehmen, daß stets kφni k ≤ δn . f¨ ur eine Konstante K > 0. Nach Symmetrisierungslemma 4.1 [b] ist IE kZn − IE Zn k ≤ 2 IE kZno k. Ferner ist n X

IE kZno k2 ≤ IE

kφni kφnj k

i,j=1

=

n X

IE kφni k2 +

n X

1{i 6= j} IE kφni k IE kφnj k

i,j=1

i=1

≤ δn IE

n X

kφni k + IE

n X

kφni k

2

i=1

i=1

= O(1). F¨ ur beliebige > 0 ist somit IE kZno k ≤ + IE 1{kZno k > }kZno k ≤ +

q

= +O

IP{kZno k > } IE kZno k2

q

IP{kZno k > } ,

und es gen¨ ugt es zu zeigen, daß IP{kZno k > } gegen Null konvergiert. Dazu sei Tbn = Tbn (φn1 , . . . , φnn ) eine zufällige Teilmenge von T , so daß #Tbn = N

2

, T , ρbn

und

sup ρbn (t, Tbn ) ≤ t∈T

. 2

¨ 8.3. FUNKTIONENKLASSEN UND ZUFALLIGE SIGNIERTE MASE

49

Dann ist kZno k ≤ /2 + kZno kTb , wie schon am Anfang dieses Abschnitts gezeigt wurde. n Aus Korollar 6.2 folgt also, daß

IP kZno k ≥ φn1 , . . . , φnn

≤ ≤ ≤ ≤ ≤ = →p

da nach Voraussetzung

8.3

Pn

i=1 kφni k

φn1 , . . . , φnn n 2 X o IP |Zn (t)| ≥ φn1 , . . . , φnn 2 t∈T N , T , ρbn sup IP |Zno (t)| ≥ φn1 , . . . , φnn 2 2 t∈T 2 2N , T , ρbn sup exp − Pn 2 8 i=1 φni (t)2 t∈T 2 Pn 2N , T , ρbn exp − 2 8δn i=1 kφni k 2 1 Pn 2 exp − − δn log N (/2, T , ρbn ) δn 8 i=1 kφni k 0,

IP kZno kTb ≥

= Op (1).

2

Funktionenklassen und zuf¨ allige signierte Maße

¨ Sei F eine Familie von meßbaren Funktionen auf X. Ahnlich wie im vorigen Kapitel nehmen wir an, daß F punktweise separabel ist. Das bedeutet, es gibt eine abzählbare Teilmenge Fo von F, so daß f¨ ur alle f ∈ F eine Folge (fk )k in Fo existiert mit lim fk (x) = f (x)

k→∞


Unter dieser Bedingung ist die Einh¨ ullende F (x) := sup |f (x)| = sup |f (x)| f ∈F

f ∈Fo

von F meßbar, und f¨ ur jedes signierte Maß ν auf X mit |ν|F < ∞ ist kνkF = kνkFo ≤ |ν|(F ). Hier ist |ν| := ν + + ν − die Totalvariation von ν, wobei ν + und ν − den Positiv- beziehungsweise Negativteil von ψ = ψ + − ψ − bezeichnen. Nun sei Zn = ni=1 φni mit unabhängigen stochastischen Prozessen φni auf F. AngenomR men, φni ist ein zufälliges signiertes Maß auf X und φni (f ) = f dφni , so daß auch |ψni |F P

50


meßbar und fast sicher endlich ist. Der empirische Prozess Pbn und der Partialsummenprozess Sbn sind von dieser Form, nämlich φni = |φni | =

1 δX n i

und |φni |(F ) =

F (Xi ) , n

beziehungsweise |φni | = cn |Yi |δxni

φni = cn Yi δxni ,

und |φni |(F ) = cn |Yi |F (xni ).

Nun betrachten wir nochmals das Gesetz der großen Zahlen im vorigen Abschnitt. Da kφni kF ≤ |φni |(F ), ist Bedingung (8.3) dieses Satzes sicher erf¨ ullt, falls gilt: (8.5)

IE

n X

|φni |(F ) = O(1)

und

IE

i=1

n n X

o

1 |φni |(F ) > δn |φni |(F ) = o(1).

i=1

Diese Bedingung ist in der Regel leicht nachzuweisen: Im Falle der empirischen Prozesse ist n IE

X n

o

1 |φni |(F ) ≥ u |φni |(F ) = P 1{F > nu}F

i=1

f¨ ur beliebige u ≥ 0. Also ist (8.5) erf¨ ullt, falls P F < ∞ und nδn → ∞. Im Falle der Partialsummenprozesse mit cn = n−1 ist IE

n n X

o

1 |φni |(F ) ≥ u |φni |(F ) ≤

i=1

n n o 1X F (xni ) IE 1 |Y1 | > K |Y1 | n i=1

+

n n o KX 1 F (xni ) > nu/K F (xni ), n i=1

und (8.5) ist erf¨ ullt, falls nδn → ∞ und n n o 1X 1 F (xni ) > K F (xni ) = 0. K∧n→∞ n i=1

lim

Was Bedingung (8.4) anbelangt, so kann man ρbn wie folgt abschätzen: ρbn (f, g) =

n X cn |f − g| φni (f − g) ≤ M i=1

mit dem zufälligen Maß cn := M

n X

|φni |.

i=1

Definiert man also ρM (f, g) := M |f − g|


51

f¨ ur beliebige Maße M auf X, so ist N (u, F, ρbn ) ≤ N (u, F, ρM b ) ≤ N n

¨ mit den uniformen Uberdeckungszahlen

u cn F M

,F

n

o

N (, F) := max N ( M F, F, ρM ) : M Maß auf X . Daher folgt Bedingung (8.4) aus (8.5) und N (, F) < ∞

(8.6)

f¨ ur beliebige > 0.

¨ Nun beschreiben wir ein Resultat, mit dem man die Uberdeckungszahlen N (u, F) nach oben abschätzen kann. Dazu definieren wir den Subgraphen einer Funktion f als die Menge sgr(f ) := n

n

o

(x, r) ∈ X × R : r ≤ f (x) .

o

Ferner sei sgr(F) := sgr(f ) : f ∈ F . Satz 8.4 Angenommen die Menge sgr(F) ist eine VC-Klasse. Dann ist log N (u, F) ≤ V (sgr(F)) A(u) log

e

u

f¨ ur alle u ∈ ]0, 1]

mit universellen Konstanten

A(u) ≤ 5 ∧ 1 +

log log(e/u) + 2 . log(1/u)

Anmerkung 8.5 Eine Mengenfamilie D, also eine Familie von Indikatorfunktionen, ist VC-Klasse genau dann, wenn sgr(D) eine VC-Klasse ist, und zwar ist V (D) = V (sgr(D)). Anmerkung 8.6 Satz 8.4 impliziert, daß lim sup u↓0

log N (u, F) ≤ V (sgr(F)). log(1/u)

Vergleicht man mit der Anmerkung zu Lemma 8.1, dann wird verständlich, warum man auch von der VC-Dimension V (sgr(F)) spricht. Beweis von Satz 8.4: Sei V := V (sgr(F)) ≥ 1, denn anderenfalls besteht F ohnehin nur aus einer Funktion. Sei M ein beliebiges Maß auf X. Ist M F ∈ {0, ∞}, dann ist N (u M F, F, ρM ) = 1. Deshalb nehmen wir an, daß 0 < M F < ∞. Nun schätzen wir

52


die Kapazität D(u M F, F, ρM ) ≥ N (u M F, F, ρM ) nach oben ab. Sei Fo eine beliebige Teilmenge von F mit m := #Fo < ∞ und ρM (f, g) ≥ u M F

falls f, g ∈ Fo und f 6= g.

Nun konstruieren wir zufällige endliche Teilmengen E1 , E2 , E3 , . . . von X × R: Seien (X1 , R1 ), (X2 , R2 ), (X3 , R3 ), . . . ∈ X × R unabhängig und identisch verteilt, wobei 1 MF

IP{X1 ∈ B} =

Z

h

i

und L(R1 | X1 ) = U −F (X1 ), F (X1 ) .

F dM

B

n

o

Dann definiere En := (Xi , Ri ) : 1 ≤ i ≤ n , also #En ≤ n. Nun zeigen wir, daß ∆(En , sgr(F)) = m mit positiver Wahrscheinlichkeit, falls n hinreichend groß ist. F¨ ur beliebige f, g ∈ Fo mit f 6= g gilt: n

IP sgr(f ) ∩ En = sgr(g) ∩ En

o

n

= IP sgr(f ) ∩ {(X1 , R1 )} = sgr(g) ∩ {(X1 , R1 )}

on

on

=

1 − IP (X1 , R1 ) ∈ sgr(f )4 sgr(g)

n

=

1 − IE IP R1 ∈ [−∞, f (X1 )]4[−∞, g(X1 )] X1

|f (X1 ) − g(X1 )| n 2F (X1 ) ρM (f, g) n = 1− 2MF nu ≤ exp − . 2 =

n

1 − IE

Folglich ist n

o

IP ∆(En , sgr(Fo )) < m

≤

m

2

nu

exp −

2

< exp 2 log m −

nu ≤ 1, 2

falls n ≥ 4 log(m)/u. In diesem Falle existiert also eine höchstens n-elementige Teilmenge E von X × R, so daß ∆ E, sgr(Fo ) = m. Nach Satz 7.4 ist daher log m ≤ V log(en/V ), sofern n ≥ 4 log(m)/u, also d4 log(m)/ue 4 log(m)/u + 1 log m ≤ log e ≤ log e . V V V

Angenommen log m = aV log(e/u) f¨ ur ein festes a = a(m) ≥ 1. Dann ist 4 log(m)/u größer als 4, so daß a log

e

u

4 log(m)/u + 1

≤ log e

V


53

4 log(m) 5 ≤ log e + log − log V 4 e u + log log m + log(5) − log V = log u e ≤ log + log log m + 2 − log V u e e + log a + log log + 2, = log u u

also (8.7)

ax ≤ x + log a + log x + 2

mit x := log(e/u) ≥ 1. Im Falle a ≥ 2 impliziert dies, daß a − log a ≤ x − a(x − 1) + log x + 2 = log x − (a − 1)(x − 1) + 3 ≤ 3. Insbesondere ist a ≤ 5, denn a − log a ist isoton in a ≥ 1 und 5 − log 5 > 3. Andererseits folgt aus (8.7), daß a−1 ≤

log x + 2 log log(e/u) + 2 log x + log a − (a − 1) + 2 ≤ = . x−1 x−1 log(1/u)

2

Beispiel 8.7 Sei H : [0, ∞[ → R monoton wachsend (oder fallend). Mit X := Rd und F :=

n

H(b| · −θ|2 ) : b > 0, θ ∈ Rd

o

ist sgr(F) eine VC-Klasse mit Index V (sgr(F)) ≤ d + 3. Dies kann man besonders leicht einsehen, wenn man H zu einer isotonen Bijektion von ganz R fortsetzen kann. Dann ist nämlich

sgr H(b| · −θ|2 )

=

n

o

(x, r) ∈ Rd × R : b|θ|2 − 2bθ>x + bx>x − H −1 (r) ≥ 0

= {g ≥ 0}

mit einer Funktion g in dem (d + 3)-dimensionalen Vektorraum G, welcher von den Funktionen v0 (x, r) := 1, vi (x, r) := xi

f¨ ur 1 ≤ i ≤ d,

vd+1 (x, r) := x>x, vd+2 (x, r) := H −1 (r) aufgespannt wird. Nun folgt die Behauptung aus Satz 7.9. Im allgemeinen Fall muss man einen geeigneten Ersatz f¨ ur die Funktion H −1 finden. Sei E eine endliche Teilmenge von Rd × R, welche von sgr(F) vollständig zerlegt wird. Zu A ⊂ E existieren also bA > 0 und θA ∈ Rd mit

A = E ∩ sgr H(bA | · −θA |2 ) .

54

KAPITEL 8. ABSTRAKTE GESETZE DER GROSEN ZAHLEN n

o

Nun definieren wir die endliche Menge T := bA |x − θA |2 : (x, r) ∈ E, A ⊂ E . Dann ist

E ∩ sgr H(bA | · −θA |2 )

=

n

=

n

=

n

o

(x, r) ∈ E : r ≤ H(bA |x − θA |2 )

> > (x, r) ∈ E : bA θA θA − 2bA θA x + bA x>x − H(r) ≥ 0

(x, r) ∈ E : g(x, r) ≥ 0

o

o

mit einer Funktion g ∈ G := span{v0 , v1 , v2 , . . . , vd+2 }, wobei nun n

o

vd+2 (x, r) := H(r) := min t ∈ T : H(t) ≥ r . Aus Satz 7.9 folgt, daß #E ≤ d + 3.

¨ Das folgende Lemma beinhaltet n¨ utzliche Ungleichungen f¨ ur Uberdeckungszahlen von ¨ Funktionenklassen. Den Beweis u ¨berlassen wir dem Leser als Ubungsaufgabe. Lemma 8.8 Seien F und G Familien messbarer Funktionen auf X mit messbaren Einh¨ ullenden F beziehungsweise G, und sei M ein Maß auf X. F¨ ur beliebige u > 0 gilt: N (u, F ? G, ρM ) ≤ N (u/2, F, ρM )N (u/2, G, ρM ), n

wobei F ? G := f ? g : f ∈ F, g ∈ G bezeichnet. Ferner ist

o

und ? eine der Verkn¨ upfungen ∨, ∧, + oder −

N (u, FG, ρM ) ≤ N (u/2, F, ρG·M )N (u/2, G, ρF ·M ) mit der Familie FG := 1 ≤ q < ∞ ist

n

o

f g : f ∈ F, g ∈ G . Dabei ist H · M (B) :=

R

B

H dM . F¨ ur

N (u, F, ρM,q ) ≤ N uq , F, ρ(2F )q−1 ·M , wobei ρM,q (f, g) :=

R

|f − g|q dM

1/q

.

2

Anmerkung 8.9 (konvexe H¨ ullen) Mitunter kann man sich komplizierte Abschätzungen ¨ von Uberdeckungszahlen sparen, indem man eine Funktionenklasse darstellt als konvexe H¨ ulle einer einfacheren Funktionenklasse. Genauer gesagt, sei G die Menge aller punktweisen Limites von Funktionenfolgen in nX

f ∈F

λf f (x) : λ ∈ RF ,

X

f ∈F

o

|λf | ≤ 1 ,

8.4. VERFEINERUNGEN

55

und sei ν ein signiertes Maß auf X, so daß |ν|F < ∞. Dann ist kνkG = kνkF . Zum Beispiel erhält man die Menge G aller Funktionen von R nach [−1, 1] mit Totalvariation kleiner oder gleich Eins als ulle von n o Folgenabschluss der symmetrischen konvexen H¨ F := 1{· ≥ r} : r ∈ [−∞, ∞] .

8.4

Verfeinerungen

Das Gesetz der Großen Zahlen, Satz 8.3, kann man noch verfeinern, sofern Bedingung (8.4) durch eine stärkere Bedingung ersetzt wird. Im Beweis von Satz 8.3 tauchte in einer entscheidenden Ungleichung die Größe

exp − P n i=1

δ 2

φni (s) − φni (t)

auf, und die Summe wurde durch 4 maxi kφni k i kφni k nach oben abgeschätzt. Der entscheidende Schritt ist nun, diese grobe Abschätzung zu verbessern. P

Lemma 8.10 Angenommen kφni k ≤ δn f¨ ur alle i. Ferner sei Vn := sup IE t∈T

n X

φni (t)2 .

i=1

Dann ist n

IP sup

n X

t∈T i=1

φni (t)2 ≥ 8τ

o

≤

τ τ 2 IE exp log N , T , ρbn − 2 ∧ 1 1 − Vn /τ 16δn 8δn

f¨ ur beliebige τ > Vn . Satz 8.11 Unter den Voraussetzungen von Lemma 8.10 ist n

IP kZn − IE Zn k ≥ 3η

o

≤ 16 IE exp log N

τ

+ 8 IE exp log N f¨ ur beliebige η ≥

√

2Vn und τ ≥ 2Vn .

16δn

η

2

, T , ρbn −

, T , ρbn −

τ ∧1 2 8δn

η2 ∧1 64τ

56


Korollar 8.12 Die Voraussetzungen von Lemma 8.10 seien erf¨ ullt mit δn := 1/n, und f¨ ur beliebige n sei N (, T , ρbn ) ≤ A−B

f¨ ur beliebige ∈ ]0, 1]

fast sicher

mit Konstanten A, B > 0. F¨ ur hinreichend großes κ > 0 ist dann ∞ X

n

IP kZn − IE Zn k ≥ κ

q

log(n)Vn ∨

n=1

log n o < ∞. n

Beweis von Lemma 8.10: Die Grundidee des Beweises ist LeCams “square root trick”. Seien I := J SK

n

o

i ∈ {1, 2, . . . , n} : ξi = 1 ,

:= {1, 2, . . . , n} \ I, :=

X

φ2ni

f¨ ur K ⊂ {1, 2, . . . , n},

i∈K

S := S{1,2,...,n} = SI + SJ . Dann sind SI , SJ identisch verteilt, weshalb n

IP kSk ≥ 8τ

o

n

≤ 2 IP kSI k ≥ 4τ

o

n p √ o = 2 IP k SI k ≥ 2 τ .

Doch f¨ ur beliebige t ∈ T ist q

IP √

√

IE S (t) ξ1 , . . . , ξn I √ IE S(t) Vn SI (t) ≥ τ ξ1 , . . . , ξn ≤ ≤ ≤ ,

τ

τ

τ

und SI , SJ sind stochastisch unabhängig, gegeben ξ1 , . . . , ξn . Wendet man Symmetrisierungslemma 4.1 [a] auf diese bedingte Verteilung an, so folgt, daß n p √ o IP k SI k ≥ 2 τ ≤

n p p √ o 1 IP k SI − SJ k ≥ τ . 1 − V /τ

F¨ ur beliebige s, t ∈ T ist q q q q SI (s) − SJ (s) − SI (t) − SJ (t) q q q q ≤ SI (s) − SI (t) + SJ (s) − SJ (t) X 1/2 X

(φni (s) − φni (t))2

≤

i∈I

≤

n X

≤

q

2


+

i∈J


i=1

4δn ρbn (s, t).

1/2

1/2

8.4. VERFEINERUNGEN

57

Ist also Tbn = Tbn (φn1 , . . . , φnn ) eine Teilmenge von T mit τ τ #Tbn = N , T , ρbn und sup ρbn (t, Tbn ) ≤ , 16δn 16δ n t∈T so ist

√ τ φn1 , . . . , φnn √ p p τ ≤ IP k SI − SJ kTb ≥ φn1 , . . . , φnn n 2 √ q X q τ ≤ IP SI (t) − SJ (t) ≥ φn1 , . . . , φnn 2 t∈Tbn p p √ X ( SI (t) + SJ (t)) τ ≤ IP SI (t) − SJ (t) ≥ φn1 , . . . , φnn 2

p

IP k SI −

≤ =

t∈Tbn

X

t∈Tbn

X

t∈Tbn

SJ k ≥

p S(t)τ IP SI (t) − SJ (t) ≥ φn1 , . . . , φnn

2

p n X S(t)τ 2 IP ξi φni (t) ≥ φn1 , . . . , φnn

X

≤ 2

p

t∈Tbn

2

i=1

S(t)τ exp − Pn 8 i=1 φni (t)4

≤ 2 #Tbn exp −

τ . 8δn2

2

Beweis von Satz 8.11: Da Var[Zn (t)] ≤ Vn f¨ ur beliebige t ∈ T , folgt aus Symmetrisierungslemma 4.1 [a], daß n o n o 1 0 IP kZ − Z k ≥ 2η IP kZn − IE Zn k ≥ 3η ≤ n n 1 − Vn /η 2 n o 2 o ≤ (8.8) IP kZ k ≥ η . n 1 − Vn /η 2 Doch mit Xn := supt∈T

Pn

2 i=1 φni (t)

kann man wie im Beweis von Satz 8.3 zeigen, daß

IP kZno k ≥ η φn1 , . . . , φnn

≤ 2N

η

2 Zusammen mit Lemma 8.10 ergibt dies die Ungleichungen n

IP kZno k ≥ η

o

n

≤ IP Xn ≥ 8τ

, T , ρbn exp −

η2 . 8Xn

o

+ 2 IE exp log N

η

, T , ρbn −

η2 ∧1 64τ

2 τ 4 τ ≤ IE exp log N , T , ρbn − 2 ∧ 1 1 − Vn /τ 16δn 8δn 2 η η + 2 IE exp log N , T , ρbn − ∧1 . 2 64τ

58


Setzt man dies in (8.8) ein und setzt voraus, daß η 2 ∧ τ ≥ 2Vn , dann folgt die Behauptung. 2 Beweis von Korollar 8.12: Die Behauptung folgt aus Satz 8.11 vermöge

τ = τn := γτ Vn ∨ η = ηn :=

log n , n2

q

γη log(n)τn =

√

γτ γη

q

log(n)Vn ∨

log n n

mit hinreichend großen Konstanten γτ , γη > 0. Denn f¨ ur hinreichend großes n ist ηn2 ∧ τn ≥ 2Vn , und log N

nτ

log N

8.5

n

16

η

n

2

, T , ρbn −

, T , ρbn −

n 2 τn 8

≤ const. − B log

log n

−

γτ log n 8

n γτ ≤ const. + B − log n, 8 log n γ log n η ≤ const. − B log − n 64 γη ≤ const. + B − log n. 2 64

ηn2 64τn

Anwendung auf Dichtesch¨ atzung

Sei P ein Wahrscheinlichkeitmaß auf Rd mit Dichte p bez¨ uglich des Lebesgue-Maßes. Ein Kernschätzer f¨ ur p(x) ist pbn (x) :=

n 1X kn (x − Xi ) = n i=1

Z

kn (x − y)Pbn (dy), R

wobei kn eine willk¨ urlich gewählte Funktion ist, so daß kn (x) dx = 1. Mit anderen Worten, pbn ist die Dichte der Faltung von Pbn mit dem signierten Maß kn (x) dx. Mit pn (x) := IE pbn (x) ist

Speziell sei

pbn − p = (pn − p) + (pbn − pn ) =: “Bias” + “Fluktuation”. kn (x) :=

1 x k hdn hn

mit einer Bandbreite hn > 0. Je kleiner die Bandbreite hn , desto kleiner wird im allgemeinen der Bias sein, aber desto größer ist die Fluktuation.

¨ 8.5. ANWENDUNG AUF DICHTESCHATZUNG

59

Absch¨ atzung des Bias: Angenommen, p ist Lipschitz-stetig, also |p(x) − p(y)| ≤ L|x − y| f¨ ur beliebige x, y ∈ Rd

(8.9)

mit einer Konstanten L < ∞. Ferner sei (8.10)

Z

kkk ≤ 1,

k(z) dz = 1

und

Z

|z||k(z)| dz < ∞,

wobei k · k die Supremumsnorm u ¨ber T := Rd bezeichnet. Dann ist pn (x) − p(x) =

1 hdn

Z

k

x − y

hn

p(y) − p(x) dy =

so daß kpn − pk ≤ L

Z

Z

k(z) p(x − hn z) − p(x) dy,

|x||k(x)| dx hn = O(hn ).

Absch¨ atzung der Fluktuation: Angenommen, n

o

sgr(k(· − t)) : t ∈ Rd ist eine VC-Klasse;

(8.11)

siehe Beispiel 8.7. Nun definieren wir φni (x) := Dann ist pbn = h−d n Zn , kφni k ≤ 1/n, und IE

n X

φni (x)2 =

i=1

1 x − Xi k . n hn

x − X 2 1 1 IE k n hn x − y 2

=

1 n

Z

≤

Z

|k(z)| dz kpk

k

hn

p(y) dy hdn n

hd

n . n Man beachte, daß aus (8.9) die Endlichkeit von kpk folgt. Gemäß Satz 8.4 sind die Bedingungen von Korollar 8.12 erf¨ ullt, und zwar ist

= O

s

1 log n log n kpbn − pn k = d O hdn ∨ hn n n

fast sicher.

Dabei verwendeten wir das Borel-Cantelli-Lemma. Nun versuchen wir Bias und Fluktuation zu balancieren. Die Gleichung hn

impliziert, daß hn = log(n)/n

1/(d+2)

1 = d hn

s

hdn

log n n

, und es ergibt sich folgendes Resultat:

60


Korollar 8.13 Unter den Bedingungen (8.9), (8.10) und (8.11) ist kpbn − pk = O

falls

hn

log n 1/(d+2)

fast sicher,

n

. log n 1/(d+2)

n

→ c ∈ ]0, ∞[.

2

Aufgaben Aufgabe 8.1 Beweisen Sie die Ungleichungen (8.1). Aufgabe 8.2 Zeigen Sie, daß in Lemma 8.1 gilt: D(, B, ρ) ≥ c−d

f¨ ur 0 < ≤ 1

mit einer Konstanten c, welche von der Norm | · | abhängt. Aufgabe 8.3 Beweisen Sie Lemma 8.8 Aufgabe 8.4 Sei F die Menge aller Funktionen f auf [0, 1], so daß |f | ≤ 1 und |f (x) − f (y)| ≤ |x − y| f¨ ur beliebige x, y ∈ [0, 1], und sei ρ(f, g) := kf − gk[0,1] . Zeigen Sie, daß log N (, F, ρ) ≤ A−1

f¨ ur 0 < ≤ 1

mit einer Konstanten A > 0. Zusatz: F¨ ur β > 0 sei F(β) die Menge aller k-mal stetig differenzierbaren Funktionen f auf [0, 1], wobei k = k(β) := dβe − 1, so daß gilt: |f (`) | ≤ 1

f¨ ur 0 ≤ ` ≤ k,

|f (k) (x) − f (k) (y)| ≤ |x − y|β−k

f¨ ur beliebige x, y ∈ [0, 1].

Dabei ist f (`) die `-te Ableitung von f mit f (0) := f . Zeigen Sie, daß log N (, F(β) , ρ) ≤ A−1/β

f¨ ur 0 < ≤ 1

mit einer Konstanten A > 0. Aufgabe 8.5 Angenommen, der Kern k in Abschnitt 8.5 erf¨ ullt folgende Bedingungen: kkk ≤ 1,

Z

k(z) dz = 1,

Z

zk(z) dz = 0

und

Z

|z|2 |k(z)| dz < ∞.

Welche Konvergenzrate kann man f¨ ur kpbn − pk erzielen, wenn man voraussetzt, daß p differenzierbar ist mit Lipschitz-stetiger Ableitung ∇p : Rd → Rd ?

Kapitel 9

Verteilungskonvergenz In diesem Kapitel behandeln wir die allgemeine Theorie der Verteilungskonvergenz beziehungsweise der schwachen Konvergenz. Im Hinblick auf empirische Prozesse betrachten wir von Anfang an auch nicht-messbare Funktionen auf Wahrscheinlichkeitsräumen. Dieser Zugang geht auf Hoffmann-Jørgensen zur¨ uck und wurde unter anderem von R. Dudley weiterentwickelt.

9.1

¨ Außere Erwartungswerte

Sei (Ω, A, IP) ein Wahrscheinlichkeitsraum, und im folgenden seien X, Y, Z generische beschränkte Funktionen von Ω nach R. Der äußere Erwartungswert von Y ist definiert als n

o

IE∗ Y := inf IE X : X meßbar, X ≥ Y . Dies ist eine Verallgemeinerung der äußeren Wahrscheinlichkeit IP∗ B := inf{IP A : A ∈ A, A ⊃ B} einer Menge B ⊂ Ω, da IP∗ B = IE∗ 1B . Denn offensichtlich ist IE∗ 1B ≤ IP∗ B, und die umgekehrte Ungleichung folgt aus der Tatsache, daß f¨ ur messbare Funktionen X mit X ≥ 1B stets X ≥ 1{X ≥ 1}, und B ⊂ {X ≥ 1} ∈ A. Analog definiert man den inneren Erwartungswert von Y als n

IE∗ Y := sup IE X : X meßbar, X ≤ Y

o

= − IE∗ (−Y ),

(

1 − IP∗ (Ω \ B), IE∗ 1B .

und die innere Wahrscheinlichkeit von B ist gleich n

IP∗ B := sup IP A : A ∈ A, A ⊂ B 61

o

=

62

KAPITEL 9. VERTEILUNGSKONVERGENZ

Die folgenden Eigenschaften der äußeren Erwartung kann man leicht nachweisen. Lemma 9.1 Das Funktional Y 7→ IE∗ Y ist sublinear, das heißt, IE∗ (rY ) = r IE∗ Y

f¨ ur beliebige r ≥ 0,

IE∗ (Y + Z) ≤ IE∗ Y + IE∗ Z. Insbesondere ist IE∗ Y + IE∗ (−Y ) ≥ 0 mit Gleichheit, falls Y messbar ist. Ferner ist IE∗ Y ≤ IE∗ Z

falls Y ≤ Z,

IE∗ (r + Y ) = r + IE∗ Y

f¨ ur beliebige r ∈ R.

2

Lemma 9.2 Im Falle Y ≥ 0 ist ∗

IE Y =

Z

∞

0

∗

IP {Y ≥ r} dr =

Z

0

∞

IP∗ {Y > r} dr.

Beweis: Sei X : Ω → R meßbar mit X ≥ Y . F¨ ur jede Zahl k ∈ N ist ≤

∞ n 1X io 1 Y > , k i=0 k

X ≥

∞ n 1X io 1 X≥ . k i=1 k

Y

Folglich ist IE∗ Y

≤

∞ n io 1X IP∗ Y > k i=0 k

≤

∞ n 1X io 1 IP∗ Y > + k i=1 k k

≤

Z

IE X ≥

∞

1 IP∗ {Y > r} dr + , k 0 ∞ n io 1X IP X ≥ k i=1 k

≥

∞ n io 1X IP∗ Y ≥ k i=1 k

≥

Z

0

∞

1 IP∗ {Y ≥ r} dr − . k

F¨ ur k → ∞ und IE X ↓ IE∗ Y folgt die Behauptung.

2

9.2. DEFINITION UND EIGENSCHAFTEN DER VERTEILUNGSKONVERGENZ 63

9.2

Definition und Eigenschaften der Verteilungskonvergenz

Sei M eine Menge, versehen mit einer Metrik d und der entsprechenden Borel-σ-Algebra B(M). Zunächst f¨ uhren wir einige Bezeichnungen ein. Es seien C(M) :=

n

CLip (M) :=

n

C (M, [0, 1]) :=

n

o

stetige Funktionen auf M , o

Lipschitz-stetige Funktionen auf M , o

f ∈ C (M) : 0 ≤ f ≤ 1 ,

wobei C stellvertetend f¨ ur C oder CLip steht. Streng genommen hängen all diese Funktionenklassen von der Metrik d oder zumindest von der hiervon induzierten Topologie ab, doch wird diese Abhängigkeit nicht hervorgehoben. Desweiteren sei f¨ ur x ∈ M, ≥ 0 und S ⊂ M: d(x, S) :=

inf d(x, y)

y∈S

f¨ ur x ∈ M, S ⊂ M,

U (S, ) :=

n

o

B(S, ) :=

n

o

y ∈ M : d(y, S) < ,

y ∈ M : d(y, S) ≤ .

Bekanntlich ist d(·, S) Lipschitzstetig mit Konstante Eins. Daher sind die Mengen U (S, ) und B(S, ) offen beziehungsweise abgeschlossen. Speziell ist U (x, ) := U ({x}, ) und B(x, ) := B({x}, ) die offene beziehungsweise abgeschlossene Kugel um x mit Radius . Ein M-Zufallselement ist eine Abbildung von einem Wahrscheinlichkeitsraum nach M. Eine meßbare Abbildung von einem Wahrscheinlichkeitsraum nach M heißt M-Zufallsvariable. Im folgenden sei stets (Zn )n eine Folge von M-Zufallselementen, und Z sei eine M-Zufallsvariable. Definition 9.3 Die Folge (Zn )n konvergiert in Verteilung gegen Z, falls lim IE∗ f (Zn ) = IE f (Z)

n→∞

f¨ ur beliebige f ∈ Cb (M).

In Symbolen: Zn →L Z. Die Limesvariable Z ist in Verteilung eindeutig, das heißt: Ist Ze eine weitere M-Zufallse dann ist L(Z) e = L(Z). Aquivalent ¨ zu Zn →L Z ist, daß variable, so daß Zn →L Z, IE∗ f (Zn ) → IE f (Z) f¨ ur alle f ∈ Cb (M), denn IE(−f )(Z) ist gleich − IE f (Z). Insbesondere hat (Zn )n dann folgende Eigenschaft:

64


Definition 9.4 Die Folge (Zn )n heißt asymptotisch meßbar, falls lim

n→∞

IE∗ f (Zn ) − IE∗ f (Zn )

= 0


Man kann die Verteilungskonvergenz noch auf andere Arten charakterisieren, indem man nur Teilklassen von Cb (M), bestimmte Borelmengen oder halbstetige Funktionen betrachtet. Eine Funktion f : M → R heißt halbstetig von unten, falls f¨ ur beliebige r ∈ R die Menge {f > r} offen ist. Sie heißt halbstetig von oben, wenn −f halbstetig von unten ist. Satz 9.5 (Portmanteau-Theorem). Folgende Bedingungen sind äquivalent: (9.1) (9.2)

Zn →L Z; lim IE∗ f (Zn ) = IE f (Z) f¨ ur alle f ∈ CLip (M, [0, 1]);

n→∞

(9.3)

lim inf IP∗ {Zn ∈ U } ≥ IP{Z ∈ U } f¨ ur alle offenen U ⊂ M;

(9.4)

lim sup IP∗ {Zn ∈ A} ≤ IP{Z ∈ A}

n→∞

n→∞

(9.5)

f¨ ur alle abgeschlossenen A ⊂ M;

lim inf IE∗ f (Zn ) ≥ IE f (Z) n→∞

f¨ ur alle von unten halbstetigen, beschränkten f : M → R; (9.6)

lim sup IE∗ f (Zn ) ≤ IE f (Z) n→∞

f¨ ur alle von oben halbstetigen, beschränkten f : M → R; (9.7)

IP∗ {Zn ∈ B} → IP{Z ∈ B} f¨ ur alle B ∈ B(M) mit IP{Z ∈ ∂B} = 0.

¨ Beweis des Portmanteau-Theorems: Offensichtlich folgt (9.2) aus (9.1). Die Aquivalenz von (9.3) und (9.4) beziehungsweise von (9.5) und (9.6) ist leicht nachzuweisen. Ebenfalls trivial ist die Tatsache, daß (9.1) aus (9.5-9.6) folgt. Angenommen es gilt (9.2). F¨ ur eine beliebige offene Menge U ⊂ X und R > 0 sei fR (x) := R d(x, M \ U ) ∧ 1. Dann ist 1U ≥ fR ∈ CLip (M, [0, 1]), und lim inf IP∗ {Zn ∈ U } ≥ lim IE∗ fR (Zn ) = IE fR (Z). n→∞

n→∞

Doch f¨ ur R ↑ ∞ konvergiert die rechte Seite gegen IP{Z ∈ U }, und somit folgt (9.3). Angenommen es gilt (9.3). Ist f : M → [0, 1] von unten halbstetig, dann folgt aus Lemma 9.2, daß lim inf IE∗ f (Zn ) ≥ sup lim inf n→∞

k∈N

≥ sup

k∈N

n→∞

k n n 1X i oo IP∗ Zn ∈ f > k i=1 k

k n n 1X i oo lim inf IP∗ Zn ∈ f > k i=1 n→∞ k

9.2. DEFINITION UND EIGENSCHAFTEN DER VERTEILUNGSKONVERGENZ 65

≥ sup

k∈N

k n n i oo 1X IP Z ∈ f > k i=1 k

= IE f (Z). Zusammen mit Lemma 9.1 folgt hieraus Aussage (9.5). ¨ Zu zeigen bleibt die Aquivalenz von (9.3-9.4) und (9.7). Mit dem Abschluss B und dem Inneren B o von B ∈ B(M) folgt aus den Aussagen (9.3-9.4), daß lim sup IP∗ {Zn ∈ B} ≤ lim sup IP∗ {Zn ∈ B} ≤ n→∞

lim inf IP∗ {Zn ∈ B} n→∞

n→∞



IP{Z ∈ B} 

≥ lim inf IP∗ {Zn ∈ B o } ≥ IP{Z ∈ B o } 

= IP{Z ∈ B},

n→∞

sofern IP{Z ∈ ∂B} = 0. Umgekehrt gelte Aussage (9.7). oF¨ ur beliebige abgeschlossene n Mengen A ⊂ M sind die Mengen ∂B(A, ) ⊂ d(·, A) = , > 0, paarweise disjunkt. n

o

Folglich ist IP Z ∈ ∂B(A, ) = 0 f¨ ur alle bis auf abzählbar viele > 0. F¨ ur solche > 0 ist n o n o lim sup IP∗ {Zn ∈ A} ≤ lim sup IP∗ Zn ∈ B(A, ) = IP Z ∈ B(A, ) , n→∞

n→∞

und f¨ ur ↓ 0 ergibt sich Aussagen (9.3).

2

Als Korollar zum Portmanteau-Theorem ergibt sich ein Resultat, das in vielen statistischen Anwendungen von Nutzen ist: Korollar 9.6 F¨ ur n ∈ N sei Zen ein M-Zufallselement, das auf dem gleichen Wahrscheinlichkeitsraum wie Zn definiert ist. Angenommen (Zn )no konvergiert in Verteilung gegen n ∗ ur beliebige > 0. Dann Z, und d(Zn , Zen ) →p 0; das heißt, IP d(Zn , Zen ) > → 0 f¨ konvergiert auch Zen in Verteilung gegen Z.

Beweis: F¨ ur beliebige f ∈ CLip (M, [0, 1]) mit Lipschitzkonstante c und > 0 ist ∗ en ) IE f (Zn ) − IE∗ f (Z ≤ IE∗ f (Zn ) − f (Zen ) n n o o ≤ IE∗ 1 d(Zn , Zen ) ≤ f (Zn ) − f (Zen ) + IP∗ d(Zn , Zen ) >

≤ c + o(1).

2

Satz 9.7 (von der stetigen Abbildung). Angenommen Zn →L Z. Ferner sei H eine Abe so daß f¨ f d), bildung von M in einen weiteren metrischen Raum (M, ur eine Borelmenge Mo ⊂ M gilt: Z ∈ Mo , und H ist in jedem Punkt von Mo stetig. Dann konvergiert H(Zn ) in Verteilung gegen H(Z).

66


Anmerkung 9.8 Die Menge aller Unstetigkeitsstellen von H ist stets eine Borelmenge in M. Denn man kann sie schreiben als [

\

U (y, m−1 ) ∩ U (z, m−1 ).

[

`∈N m∈N y,z∈M:de(H(y),H(z))>`−1

Satz 9.7 ist ein Spezialfall eines allgemeineren Resultates. Satz 9.9 (Rubin). Angenommen Zn →L Z. Ferner seien Hn , n ∈ N, Abbildungen von e so daß f¨ f d), M in einen weiteren metrischen Raum (M, ur eine Borelmenge Mo ⊂ M gilt: Z ∈ Mo , und H(x) :=

lim

y→x,n→∞

Hn (y)

f stetig, und Hn (Zn ) konvergiert in existiert f¨ ur alle x ∈ Mo . Dann ist H : Mo → M Verteilung gegen H(Z). e vollst¨ f d) Anmerkung 9.10 Ist (M, andig, so ist auch die Menge Mo aller x ∈ M, so daß

H(x) :=

lim

y→x,n→∞

Hn (y)

existiert, eine Borelmenge in (M, d). Denn ein Punkt x gehört zu M \ Mo genau dann, wenn lim sup

sup

m→0,n→∞ y,z∈U (x,m−1 )

Folglich kann man M\Mo darstellen als

S

e n (y), Hn (z)) > 0. d(H

`∈N

T

m∈N

n∈N U`,m,n

mit den offenen Mengen

U (y, m−1 ) ∩ U (z, m−1 ).

[

U`,m,n :=

T

k≥n; y,z∈M : de(Hk (y),Hk (z))>`−1

Beweis von Satz 9.9: F¨ ur beliebiges festes > 0 ist Mo ⊂

[

V,m ,

m∈N

wobei V,m :=

n

x ∈ Mo :

sup y∈B(x,m−1 ),n≥m

o

e d(H(x), Hn (y)) ≤ .

e Insbesondere ist d(H(x), H(y)) ≤ , falls x ∈ V,m und y ∈ Mo ∩B(x, m−1 ). Dies impliziert f und die Stetigkeit von H. Ferner ergibt sich f¨ ur beliebige abgeschlossene Mengen Ae ⊂ M

9.2. DEFINITION UND EIGENSCHAFTEN DER VERTEILUNGSKONVERGENZ 67 m ∈ N, daß n

o

lim sup IP∗ Hn (Zn ) ∈ Ae n→∞

n

o

≤ lim sup IP∗ Zn 6∈ U (V,m , m−1 ) n→∞

n

o

+ lim sup IP∗ Hn (Zn ) ∈ Ae und Zn ∈ U (V,m , m−1 ) n→∞

n

o

n

o

n

o

n

o

≤ IP Z 6∈ V,m + lim sup IP∗ Hn (Zn ) ∈ Ae und Zn ∈ U (V,m , m−1 ) n→∞

n

e )), m−1 ≤ IP Z 6∈ V,m + lim sup IP∗ Zn ∈ B H −1 (B(A, n→∞

n

e )), m−1 ≤ IP Z 6∈ V,m + IP Z ∈ B H −1 (B(A,

o

o

.

Die zweite und vierte Ungleichung folgen aus dem Portmanteau-Theorem. Die dritte Ungleichung kann man wie folgt nachweisen: Ist Hn (Zn ) ∈ Ae und Zn ∈ U (V,m , m−1 ), dann e existiert ein x ∈ Vm mit Zn ∈ U (x, m−1 ). Insbesondere ist d(H(x), Hn (Zn )) ≤ , also −1 −1 e ) und Zn ∈ U H (B(A, e )), m H(x) ∈ B(A, . Doch wegen der Stetigkeit von H ist e )) = A ∩ Mo f¨ H −1 (B(A, ur eine abgeschlossene Menge A ⊂ M. Folglich ist n

o

n

e )), m−1 IP Z 6∈ V,m + IP Z ∈ B H −1 (B(A,

≤

n

o

n

o

o

IP Z 6∈ V,m + IP Z ∈ B(A , m−1 ) n

→ IP Z ∈ A

o

(m → ∞)

n

o

=

IP Z ∈ A ∩ Mo

=

e ) IP H(Z) ∈ B(A,

n

o

n

o

→ IP H(Z) ∈ Ae

( ↓ 0).

2

Eine typische Anwendungssituation von Satz 9.9 sind kompakt differenzierbare Funktionale. Seien M und Mo ⊂ M abgeschlossene lineare Teilräume von `∞ (T ), versehen mit der Supremumsnorm k · k = k · kT . F¨ ur ein festes F ∈ `∞ (T ) sei T ein Funktional auf dem b affinen Raum F + M. Ferner sei (Fn )n eine Folge von (F + M)-Zufallselementen, so daß gilt: √ Zn := n(Fbn − F ) →L Z mit einer Mo -Zufallsvariablen Z. Oftmals existiert der Grenzwert H(x) :=

lim

λ→∞,y→x

λ T F+

y − T (F ) λ

f¨ ur beliebige x ∈ Mo , wobei λ eine positive reelle Zahl und y eine Funktion aus M bezeichnen. Ist H linear auf Mo , dann nennt man T kompakt differenzierbar im Punkt F

68


tangential zu Mo . Mit Hn (y) :=

√ √ n T (F + y/ n) − T (F ) folgt dann aus Satz 9.9, daß

√ b n T (Fn ) − T (F ) = Hn (Zn ) →L H(Z).

Beispiel 9.11 Sei M = `∞ (T ) und T (G) := supt∈T G(t). Ferner sei ρ eine Metrik auf T . Angenommen, F erf¨ ullt folgende zwei Bedingungen: n

o

t ∈ T : F (t) = T (F )

K := sup

ist nichtleer und kompakt bez¨ uglich ρ;

F (t) < T (F ) f¨ ur beliebige δ > 0.

t∈T :ρ(t,K)≥δ

Dann ist lim

λ→∞,y→x

y − T (F ) = max x(t) t∈K λ

λ T F+

f¨ ur beliebige Funktionen x ∈ `∞ (T ), welche in jedem Punkt t ∈ K stetig sind. Beweis: F¨ ur beliebige δ > 0 gilt: λ

sup t∈T :ρ(t,K)≥δ

F+

y (t) − T (F ) λ

≤

λ

t∈T :ρ(t,K)≥δ

→ −∞ λ

sup t∈T :ρ(t,K) kxk/c gilt: λ

sup

F+

r≤T (F )−δ/λ

y (r) − T (F ) λ

≤

λ F T (F ) −

δ − p + kyk λ

→ −cδ + kxk (λ → ∞, y → x)

λ

inf

r≥T (F )+δ/λ

F+

y

λ

(r) − T (F )

δ − p − kyk λ (λ → ∞, y → x)

0,

und

y s T (F ) + − T (F ) → cs + x(T (F )) λ λ gleichmäßig in s ∈ [−δ, δ].

λ

F+

(λ → ∞, y → x) 2

Beispiel 9.13 (Die Länge des “Shorth”, Gr¨ ubel 1988) Seien T = R, F und M wie in Beispiel 9.12. F¨ ur G ∈ F + M sei nun n

T (G) := inf u − t : −∞ < t < u < ∞, G(u) − G(t) ≥

1o , 2

ein robustes “Skalenfunktional”. Ein Intervall [t, u] mit G(t)−G(u) ≥ 1/2 und u−t = T (G) ist ein “shorth” (shortest interval with probability at least one half) von G. Angenommen, F hat eine stetige Dichte f , welche auf ] − ∞, m(F )] strikt isoton, auf [m(F ), ∞[ strikt antiton ist. Dann hat f¨ ur jedes feste δ > 0 die Funktion r 7→ F (r + δ) − F (r − δ) ein eindeutiges Maximum an der Stelle rδ , so daß f (rδ + δ) = f (rδ − δ). Insbesondere ist T (F ) = 2δo , wobei ro = rδo und δo > 0 eindeutig charakterisiert werden durch f (ro + δo ) = f (ro − δo )

und F (ro + δo ) − F (ro − δo ) =

1 . 2

Hier kann man zeigen, daß (9.8)

lim

λ→∞,y→x

λ T F+

x(ro − δo ) − x(ro + δo ) y − T (F ) = λ f (ro + δo )

f¨ ur beliebige x ∈ M, welche in ro ± δo stetig sind (Aufgabe 9.1).

9.3

Gleichm¨ aßige Konvergenz

Sei F eine Familie von messbaren, beschränkten Funktionen f auf M. Der Satz von der stetigen Abbildung impliziert, daß IE∗ f (Zn ) → IE f (Z), falls Zn →L Z und f L(Z)-fast

70


u ¨berall stetig ist. Das kann man auch wie folgt formulieren: lim IP δ↓0

n

o

(f (x) − f (y)) >

sup

x,y∈U (Z,δ)

= 0


(Als Funktion von z ist supx,y∈U (z,δ) (f (x) − f (y)) von unten halbstetig.) Nun geht es um die Frage, unter welchen Voraussetzungen IE∗ f (Zn ) − IE f (Z) gleichmäßig in f ∈ F gegen Null konvergiert. Satz 9.14 (Billingsley, Topsøe 1967). Angenommen, IP{Z ∈ Mo } = 1 f¨ ur eine separable Borelmenge Mo ⊂ M. Folgende zwei Bedingungen an F und L(Z) sind äquivalent:

f ∈F

(9.10)

sup IE∗ f (Zn ) − IE f (Z) → 0

(9.9)

sup sup (f (x) − f (y)) < ∞

wann immer Zn →L Z.

und

f ∈F x,y∈M

lim sup IP δ↓0 f ∈F

n

o

(f (x) − f (y)) >

sup

x,y∈U (Z,δ)

= 0 f¨ ur beliebige > 0.

Dieser Satz verallgemeinert folgendes Resultat: Korollar 9.15 (Rao 1962) Angenommen, IP{Z ∈ Mo } = 1 f¨ ur eine separable Borelmenge Mo ⊂ M. Sei supf ∈F supx,y∈M (f (x) − f (y)) < ∞, und F sei in jedem Punkt x ∈ Mo gleichgradig stetig. Das heißt, lim

sup

δ↓0 f ∈F ,y∈U (x,δ)

f (y) − f (x) = 0

f¨ ur beliebige x ∈ Mo .

Dann folgt aus Zn →L Z, daß

sup IE∗ f (Zn ) − IE f (Z) → 0.

f ∈F

Ein spezielles Beispiel f¨ ur F in Korollar 9.15 ist die Klasse aller Funktionen f auf M mit |f (x)| ≤ 1 und |f (x) − f (y)| ≤ d(x, y) f¨ ur alle x, y ∈ M. Korollar 9.16 Angenommen, IP{Z ∈ Mo } = 1 f¨ ur eine separable Borelmenge Mo ⊂ M. Dann folgt aus Zn →L Z, daß

sup IP∗ {Zn ∈ A} − IP{Z ∈ U (A, )}

A⊂M

+

→ 0 f¨ ur beliebige > 0.

¨ 9.3. GLEICHMASIGE KONVERGENZ

71

Korollar 9.17 Angenommen, M = Rd und IP{Z ∈ ∂H} = 0 f¨ ur beliebige Halbräume H ⊂ Rd . Dann folgt aus Zn →L Z, daß sup Halbr¨ aume H⊂Rd

∗ IP {Zn ∈ H} − IP{Z ∈ H} → 0.

Beweis von Satz 9.14: Zunächst weisen wir die Notwendigkeit von (9.10) f¨ ur (9.9) nach. Angenommen die erste Teilbedingung von (9.10) ist nicht erf¨ ullt. Dann existieren Folgen (fn )n in F und (x1n )n , (x2n )n in M mit 1 ≤ rn := fn (x1n ) − fn (x2n ) → ∞. (1)

(2)

Nun seien (Zn )n und (Zn )n Folgen von Zufallsvariablen mit L(Zn(j) ) :=

1 1 L(Z) + √ δxjn . 1− √ rn rn

Beide Folgen konvergieren in Verteilung gegen Z, aber IE fn (Zn(1) ) − IE fn (Zn(2) ) =

√

rn → ∞.

Folglich kann dann auch (9.9) nicht erf¨ ullt sein. Angenommen, die zweite Teilbedingung von (9.10) ist nicht erf¨ ullt. Dann existiert ein o > 0 und eine Folge (fn )n in F mit n

IP

sup

(fn (x) − fn (y)) > o

x,y∈U (Z,1/n)

(1)

o

≥ o

f¨ ur alle n.

(2)

Nun seien Xn , Xn : M → M Abbildungen mit Xn(j) (z) ∈ U (z, n−1 )

und fn (Xn(1) (z)) − fn (Xn(2) (z)) ≥ (j)

1 sup (fn (x) − fn (y)) 2 x,y∈U (z,1/n)

(j)

(j)

f¨ ur beliebige z ∈ M. Dann sind Zn := Xn (Z) M-Zufallselemente mit d(Zn , Z) < n−1 , (j) also Zn →L Z nach Korollar 9.6. Aber Aussage (9.9) kann nicht erf¨ ullt sein, da

IE∗ fn (Zn(1) ) − IE∗ fn (Zn(2) ) ≥ IE∗ fn (Zn(1) ) − IE∗ fn (Zn(2) ) o o n ≥ IP sup (fn (x) − fn (y)) > o 2 x,y∈U (Z,1/n) ≥

2o . 2

Somit ist Bedingung (9.10) notwendig f¨ ur (9.9).

72

KAPITEL 9. VERTEILUNGSKONVERGENZ (j)

Eine Frage, der wir hier nicht nachgehen, ist: Kann man erreichen, daß die Xn messbar (j) sind? Dann wären die Zn sogar Zufallsvariablen. Angenommen es gilt (9.10). Die Wahrheit von Aussage (9.9) bleibt unverändert, wenn man jede Funktion f ∈ F mit einer Konstanten c > 0 multipliziert und eine Konstante af addiert. Daher nehmen wir ohne Einschränkung an, daß 0 ≤ f ≤ 1 f¨ ur alle f ∈ F. F¨ ur δ > 0 gibt es paarweise disjunkte Borelmengen Bδ,1 , Bδ,2 , Bδ,3 , . . . mit folgenden Eigenschaften: sup

δ , 2

d(x, y)
0 und f ∈ F: n

IE∗ f (Zn ) ≤ IP∗ Zn 6∈

o

[

Bδ,k +

k≤N

n

≤ IP∗ Zn 6∈

[

+

IP∗ {Zn ∈ Bδ,k } sup f (x), x∈Bδ,k

k≤N

Bδ,k

k≤N

X

X

o

X + IP∗ {Zn ∈ Bδ,k } − IP{Z ∈ Bδ,k } k≤N

IP{Z ∈ Bδ,k } sup f (x). x∈Bδ,k

k≤N

Ferner ist IE f (Z) ≥

X

IP{Z ∈ Bδ,k } inf f (x)

X

IP{Z ∈ Bδ,k } sup f (x) −

x∈Bδ,k

k≤N

=

x∈Bδ,k

k≤N

≥

IP{Z ∈ Bδ,k } sup (f (x) − f (y)) x,y∈Bδ,k

k≤N

n

X

IP{Z ∈ Bδ,k } sup f (x) − − IP

X

IP{Z ∈ Bδ,k } sup f (x) − − sup IP

x∈Bδ,k

k≤N

≥

X

x,y∈U (Z,δ)

x∈Bδ,k

k≤N

o

(f (x) − f (y)) >

sup

g∈F

n

sup

o

(g(x) − g(y)) > .

x,y∈U (Z,δ)

Denn f¨ ur beliebige z ∈ Bδ,k ist Bδ,k ⊂ U (z, δ), so daß aus supx,y∈Bδ,k (f (x) − f (y)) > folgt, daß auch supx,y∈U (z,δ) (f (x) − f (y)) > . Falls also Zn →L Z, so folgt aus dem Portmanteau-Theorem, daß

sup IE∗ f (Zn ) − IE f (Z)

f ∈F

≤

n

IP∗ Zn 6∈

o

[

Bδ,k +

k≤N

g∈F

k≤N

n

+ + sup IP

X IP∗ {Zn ∈ Bδ,k } − IP{Z ∈ Bδ,k }

sup

x,y∈U (Z,δ)

o

(g(x) − g(y)) >

9.4. SCHWACHE KONVERGENZ (IN WAHRSCHEINLICHKEIT) n

→ IP Z 6∈

[

o

Bδ,k + + sup IP f ∈F

k≤N

→ 0

n

sup

73 o

(f (x) − f (y)) >

x,y∈U (Z,δ)

(N → ∞; dann δ ↓ 0; dann ↓ 0).

Ersetzt man f ∈ F durch 1 − f , dann folgt analog, daß

lim sup sup IE f (Z)−IE∗ f (Zn ) n→∞

f ∈F

= lim sup sup IE∗ (1−f )(Zn )−IE(1−f )(Z) n→∞

f ∈F

≤ 0. 2

Beweis von Korollar 9.15: Aus der gleichgradigen Stetigkeit von F in jedem Punkt von Mo folgt, daß Mo ⊂

[n

z∈M:

sup f ∈F ,x,y∈U (z,δ)

δ>0

o

(f (x) − f (y)) ≤

f¨ ur beliebige > 0, und dies impliziert den zweiten Teil von Bedingung (9.10) f¨ ur beliebige Mo -Zufallsvariablen Z. 2 Beweis von Korollar 9.16: F¨ ur beliebiges festes > 0 und A ⊂ M ist

1A ≤ fA := 1 −

d(·, A) + ≤ 1U (A,) ,

und fA ist Lipschitz-stetig mit Konstante 1/. Folglich ist IP∗ {Zn ∈ A}−IP{Z ∈ U (A, )} ≤ IE∗ fA (Zn ) − IE fA (Z), und die Behauptung folgt aus Korollar 9.15, angewandt auf F := {fA : A ⊂ M}. 2 Beweis von Korollar 9.17: Nach Korollar 9.16 gen¨ ugt es zu zeigen, daß sup Halbr¨ aume H⊂Rd

n

IP Z ∈ U (H, ) \ H

o

→ 0

f¨ ur ↓ 0.

Diese Aussage ist Bestandteil von Aufgabe 9.2.

9.4

2

Schwache Konvergenz (in Wahrscheinlichkeit)

Seien P und Pn , n ∈ N, Wahrscheinlichkeitsmaße auf M. Dann konvergiert die Folge (Pn )n schwach gegen P , falls lim

n→∞

Z

f dPn =

Z

f dP


In Symbolen: Pn →w P . Mit Zufallsvariablen Z ∼ P und Zn ∼ Pn ist dies äquivalent zu Zn →L Z. Folglich kann man alle bisherigen Resultate u ¨ber Verteilungskonvergenz umformulieren in Resultate u ¨ber schwache Konvergenz.

74


Angenommen, man ersetzt die Pn durch zufällige Wahrscheinlichkeitsmaße Pen . Das bedeutet, jedes Pen ist eine Abbildung von einem Wahrscheinlichkeitsraum in die Menge der Wahrscheinlichkeitsmaße auf B(M). Eine naheliegende Verallgemeinerung der schwachen Konvergenz ist die schwache Konvergenz in Wahrscheinlichkeit: Die Folge (Pen )n konvergiert schwach gegen P in Wahrscheinlichkeit, wenn Z

f dPen →p

Z

f dP


In Symbolen: Pen →w,p P . Man kann alle bisherigen Resultate auf zufällige Folgen (Pen )n u ¨bertragen. Zum Beispiel besagt hier das Portmanteau-Theorem unter anderem, daß Pen →w,p P genau dann, wenn

+

Pen A − P A

→p 0

f¨ ur beliebige abgeschlossene Mengen A ⊂ M.

Ferner folgt aus der schwachen Konvergenz von (Pen )n gegen P in Wahrscheinlichkeit, daß Z Z e sup f dPn − f dP →p 0,

f ∈F

vorausgesetzt, P ist auf einer separablen Borel-Menge Mo ⊂ M konzentriert, und die Funktionenfamilie F erf¨ ullt Bedingung (9.10) mit Z ∼ P . Im Falle X = M konvergiert (Pbn )n schwach gegen P in Wahrscheinlichkeit. Denn f¨ ur 2 beliebige Funktionen f ∈ L (P ) ist IE Pbn f = P f

und

Var(Pbn f ) =

P (f 2 ) − (P f )2

.

2 = O(1/n).

Insofern bietet Satz 9.14 eine andere Möglichkeit, um uniforme Konsistenz von Pbn nachzuweisen.

9.5

Straffheit

Im folgenden sei Mo eine feste Borelmenge in M. Definition 9.18 Die Zufallsvariable Z heißt straff auf Mo , wenn zu jedem > 0 ein Kompaktum K ⊂ Mo existiert, so daß IP{Z 6∈ K} ≤ . Mit anderen Worten, es gibt eine σ-kompakte Teilmenge von Mo , die Z mit Wahrscheinlichkeit Eins enthält.

9.5. STRAFFHEIT

75

Definition 9.19 Die Folge (Zn )n heißt asymptotisch straff auf Mo , wenn zu jedem > 0 ein Kompaktum K ⊂ Mo existiert, so daß lim sup IP∗ {Zn 6∈ U } ≤ f¨ ur alle offenen U ⊃ K. n→∞

Im Falle von Mo = M spricht man einfach von “Straffheit” anstelle von “Straffheit auf Mo ”. Satz 9.20 (Prohorov, LeCam). Angenommen die Folge (Zn )n ist asymptotisch meßbar und asymptotisch straff auf Mo . Dann gibt es zu jeder Teilfolge von (Zn )n eine Teilteilfolge, welche in Verteilung gegen eine auf Mo straffe Zufallsvariable konvergiert. Eine naheliegende Frage ist, ob Straffheit beziehungsweise asymptotische Straffheit sehr spezielle Eigenschaften sind. Aus dem Portmanteau-Theorem folgt direkt, daß die Folge (Zn )n asymptotisch straff ist auf Mo , sofern sie in Verteilung gegen eine auf Mo straffe Zufallsvariable konvergiert. Unter gewissen Voraussetzungen an den Teilraum Mo ist jede Mo -Zufallsvariable notwendig straff, und es gibt auch ein einfacheres Kriterium f¨ ur asymptotische Straffheit. Satz 9.21 (Prohorov, LeCam). Sei Mo separabel und vollständig bez¨ uglich der Metrik d. (I) Angenommen zu jeder Teilfolge von (Zn )n existiert eine Teilteilfolge, welche in Verteilung gegen eine Mo -Zufallsvariable konvergiert. Dann ist (Zn )n asymptotisch straff auf Mo . Sind dar¨ uber hinaus alle Zn Mo -Zufallsvariablen, dann gibt es sogar zu jedem > 0 ein Kompaktum K ⊂ Mo mit sup IP{Zn 6∈ K} ≤ .

n∈N

(II) Angenommen zu jedem > 0 existiert ein Kompaktum K ⊂ Mo mit n

o

lim sup IP∗ Zn 6∈ U (K, ) n→∞

≤ .

Dann ist die Folge (Zn )n asymptotisch straff auf Mo . Beweis von Satz 9.20: F¨ ur ` ∈ N sei K` ⊂ Mo kompakt, so daß lim sup IP∗ {Zn 6∈ U } ≤ `−1 n→∞

f¨ ur alle offenen U ⊃ K` .

76


Erster Schritt: Zu jeder Teilfolge von (Zn )n existiert eine Teilteilfolge (Znk )k , so daß f¨ ur beliebige f ∈ Cb (M) der Grenzwert L(f ) := lim IE∗ f (Znk ) k→∞

existiert.

Beweis: Bekanntlich ist Cb (M), k · kK` separabel; siehe auch Lemma 10.2. Folglich kann man eine abzählbare Teilmenge G von Cb (M) konstruieren, so daß gilt: F¨ ur beliebige f ∈ Cb (M), ` ∈ N und > 0 existiert ein g ∈ G mit kf − gkK` ≤ und kgkM ≤ kf kM Nach dem zweiten Cantorschen Diagonalverfahren existiert zu jeder Teilfolge von (Zn )n ∗ eine Teilteilfolge (Znk )k , so daß die Folge IE g(Znk ) f¨ ur beliebige g ∈ G konvergiert.

k

Doch dann konvergiert sogar IE∗ f (Znk ) f¨ ur beliebige f ∈ Cb (M). Denn zu beliebigem k ` ∈ N und > 0 sei g ∈ G wie oben. Dann ist ∗ IE f (Zn ) − IE∗ g(Zn ) ≤ kf − gkU (K` ,δ) + 2kf kM /` + o(1)

f¨ ur beliebige δ > 0. Wegen der Kompaktheit von K` konvergiert kf − gkU (K` ,δ) gegen kf − gkK` f¨ ur δ ↓ 0. Folglich ist

lim sup IE∗ f (Znj ) − IE∗ f (Znk ) ≤ 2 + 4kf kM /`. j,k→∞

F¨ ur ` → ∞ und ↓ 0 folgt, daß IE∗ f (Znk )

k

eine Cauchyfolge ist, also konvergiert.

Zweiter Schritt: Das Funktional Cb (M) 3 f 7→ L(f ) aus dem ersten Schritt ist eine Linearform, so daß gilt: L(f ) ≥ 0, falls f ≥ 0, L(1) = 1, und (9.11)

L(f ) ≤ kf kK` + kf kM /` f¨ ur alle ` ∈ N und f ∈ Cb (M).

Beweis: Aus Lemma 9.1 folgt, daß L sublinear ist, das heißt, L(rf ) = rL(f ) und L(f +g) ≤ L(f ) + L(g) f¨ ur r ≥ 0 und f, g ∈ Cb (M). Denn alle Funktionale IE∗ f (Zn ) haben diese Eigenschaft. Außerdem ist offensichtlich L(f ) ≥ 0, falls f ≥ 0, und L(1) = 1. Doch die asymptotische Meßbarkeit von (Zn )n impliziert, daß stets L(f ) = −L(−f ). Zusammen mit der Sublinearität folgt daraus die Linearität von L. Aus der Konstruktion der Mengen ur alle ` ∈ N; siehe auch den Beweis des K` folgt, daß stets L(f ) ≤ kf kK` + kf kM /` f¨ ersten Schrittes. Dritter und letzter Schritt: Es existiert ein Wahrscheinlichkeitsmaß Q auf B(M), so daß L(f ) =

Z

f dQ f¨ ur alle f ∈ Cb (M),

9.5. STRAFFHEIT

77

und Q(M \ K` ) ≤ `−1 f¨ ur alle ` ∈ N. Insbesondere konvergiert (Znk )k in Verteilung gegen eine M-Zufallsvariable Z mit L(Z) = Q, welche auf Mo straff ist. Beweis: Aus (9.11) und dem Satz von Dini folgt, daß L(f ) =

lim L(fm )

m→∞

f¨ ur (punktweise) isotone Folgen (fm )m in Cb (M) mit Grenzwert f ∈ Cb (M). Denn f¨ ur beliebige ` ∈ N ist

lim sup L(f ) − L(fm ) m→∞

≤

lim sup kf − fm kK` + kf − f1 kM /` (nach (9.11))

=

kf − f1 kM /` (Satz von Dini)

m→∞

→ 0

f¨ ur ` → ∞.

Nach dem Satz von Daniell-Port-Stone aus der Maßtheorie existiert ein WahrscheinlichR keitsmaß Q auf B(M) mit L(f ) = ur alle f ∈ Cb (M). Insbesondere ist Q(M \ K` ) f dQ f¨ gleich dem Grenzwert limk→∞ L (kd(·, K` )) ∧ 1 ≤ `−1 . Zur Konstruktion von Q: F¨ ur offene Mengen U ⊂ M sei n

o

Q(U ) := sup L(f ) : f ∈ C(M), 0 ≤ f ≤ 1U . F¨ ur beliebige Mengen S ⊂ M definiert n

Q(S) := inf Q(U ) : U ⊃ S, U offen

o

ein äußeres Maß auf M, so daß alle Mengen in B(M) Q-messbar sind. Daß tatsächlich R ¨ L(f ) = f dQ f¨ ur alle f ∈ C(M, [0, 1]) folgt mithilfe von Lemma 9.2 aus folgender Uberlegung: F¨ ur beliebige k ∈ N ist L(f ) =

k 1X i i − 1 + L k f∧ − k i=1 k k

 Z ∞ k n   1X i − 1 o 1   Q f> ≤ Q({f > r}) dr + ,   ≤ k k k 0 i=1 Z ∞ k n o  X 1 i 1    Q f> ≥ Q({f < r}) dr − .   ≥ k k k 0

2

i=1

Beweis von Satz 9.21: Sei {xi : i ∈ N} eine dichte Teilmenge von Mo . Sowohl unter den Voraussetzungen von Teil (I) als auch unter denen von Teil (II) gibt es zu jedem δ > 0 ein N ∈ N mit n

lim sup IP∗ Zn 6∈ n→∞

N [

i=1

o

B(xi , δ)

≤ δ.

78


Im Falle von Teil (II) ist dies leicht zu zeigen. Angenommen es gelten die Voraussetzungen von Teil (I), aber es existieren ein δo > 0 und eine Auswahlfolge (nk )k , so daß n

IP∗ Znk 6∈

k [

o

B(xi , δo )

> δo

f¨ ur alle k ∈ N.

i=1

Nach Voraussetzung können wir außerdem annehmen, daß (Znk )k in Verteilung gegen eine S Mo -Zufallsvariable Zo konvergiert. Da Mo ⊂ ∞ i=1 U (xi , δo ), ist n

lim sup IP∗ Znk 6∈ k→∞

k [

o

B(xi , δo )

n

≤ IP Zo 6∈

i=1

N [

o

B(xi , δo )

< δo

i=1

f¨ ur ein hinreichend großes N ∈ N, im Widerspruch zu der Annahme an δo und (nk )k . F¨ ur ein beliebiges festes > 0 und f¨ ur k ∈ N sei also Nk ∈ N, so daß lim sup IP∗ {Zn 6∈ Bk } ≤ 2−k , n→∞

wobei Bk :=

SNk

i=1 B(xi , 1/k).

Die Menge K :=

∞ \

Bk

k=1

ist abgeschlossen und nichtleer, denn alle Bk sind abgeschlossen, und x1 ∈ K. Außerdem T ist K ⊂ k∈N B(Mo , 1/k) = Mo , da Mo abgeschlossen ist. Die folgende Behauptung impliziert, daß K kompakt ist: (9.12)

Zu jeder Folge (ym )m von Punkten ym ∈

Tm

k=1 Bk

existiert

eine Teilfolge, die gegen einen Punkt in K konvergiert. Beweis von (9.12): Aufgrund der Abgeschlossenheit aller Bk liegt jeder Häufungspunkt von (ym )m in K. Man muß also nur nachweisen, daß es eine konvergente Teilfolge gibt. Seien No := N, m0 := 0. F¨ ur k = 1, 2, 3, . . . wählen wir nun induktiv ik ∈ {1, 2, . . . , Nk }, so daß die Menge Nk :=

n

o

m ∈ Nk−1 : ym ∈ B(xik , 1/k) \ {mk−1 }

unendlich ist, und definieren mk := min(Nk ). Dies liefert eine Teilfolge (ymk )k , so daß gilt: ymj ∈ B(xik , 1/k)

f¨ ur j ≥ k.

ur alle k. Wegen Insbesondere ist diese Folge eine Cauchy-Folge mit d(ymk , Mo ) ≤ 1/k f¨ der Vollst¨ andigkeit von Mo konvergiert sie gegen einen Punkt y ∈ Mo .

9.5. STRAFFHEIT

79

Nun sei U eine beliebige offene Umgebung von K. Dann kann man aus (9.12) ableiten, T daß L ur ein hinreichend großes L ∈ N. Folglich ist k=1 Bk ⊂ U f¨ lim sup IP∗ {Zn 6∈ U } ≤ n→∞

L X

k=1

lim sup IP∗ {Zn 6∈ Bk } ≤ . n→∞

In dem Spezialfall, daß in (I) alle Zn Mo -Zufallsvariablen sind, kann man die Nk so wählen, daß IP{Zn 6∈ Bk } ≤ 2−k f¨ ur alle n, k ∈ N, und folglich ist IP{Zn 6∈ K} ≤ f¨ ur beliebige n ∈ N.

2

Schließlich sei noch ein erwähnt, daß man im Falle von Straffheit mithilfe des Satzes von Stone-Weierstrass die asymptotische Messbarkeit und Verteilungskonvergenz oft einfacher nachweisen kann. Auch die Gleichheit in Verteilung von M-Zufallsvariablen wird dadurch vereinfacht. Satz 9.22 Sei F eine Teilfamilie von Cb (M) mit folgenden Eigenschaften: mit f, g ∈ F ist auch f g ∈ F; f¨ ur beliebige verschiedene x, y ∈ Mo existiert ein f ∈ F mit f (x) 6= f (y). [a] Seien Z, Ze auf Mo straffe Zufallsvariablen mit e IE f (Z) = IE f (Z) f¨ ur alle f ∈ F.

(9.13) e Dann ist L(Z) = L(Z).

[b] Angenommen, die Folge (Zn )n∈N ist asymptotisch straff auf Mo . Ferner sei lim

n→∞

IE∗ f (Zn ) − IE∗ f (Zn )

= 0 f¨ ur alle f ∈ F.

Dann ist die Folge (Zn )n asymptotisch messbar. Zusätzlich existiere L(f ) := lim IE∗ f (Zn ) n→∞

f¨ ur alle f ∈ F. Dann konvergiert (Zn )n in Verteilung gegen eine auf Mo straffe Zufalldvariable Z.

80


Beweis: Sei G der von F ∪ {1} aufgespannte Vektorraum. Dann u ¨berträgt sich Eigenschaft (9.13) von F auf G. Aus Lemma 9.1 kann man ableiten, daß sich auch Eigenschaft (9.22) von F auf G u ¨berträgt. Zu beliebigem > 0 wählen wir nun ein Kompaktum K ⊂ Mo , so daß IP{Z 6∈ K} ∨ IP{Ze 6∈ K} ≤ in Teil [a], beziehungsweise n

o

lim sup IP∗ Zn 6∈ U (K, δ) n→∞

≤ f¨ ur beliebige δ > 0

in Teil [b]. Aus dem Beweis des Satzes von Stone-Weierstrass folgt, daß zu jeder Funktion f ∈ Cb (M) ein g ∈ G existiert, so daß kf − gkK ≤ und kgkM ≤ kf kM . Somit ist e 6∈ K} ≤ 2(1 + kf kM ), e ≤ 2kf − gkK + kf k IP{Z 6∈ K} + kf k IP{Z IE f (Z) − IE f (Z)

und f¨ ur δ > 0 gilt:

lim sup IE∗ f (Zn ) − IE∗ f (Zn ) n→∞

n

o

≤

2kf − gkU (K,δ) + 2kf kM lim sup IP∗ Zn 6∈ U (K, δ)

≤

2kf − gkU (K,δ) + 2kf kM

n→∞

→ 2(1 + kf kM ) (δ ↓ 0). Dies beweist Teil [a] und die asymptotische Messbarkeit von (Zn )n in Teil [b]. Angenommen, in Teil [b] existiert der Grenzwert L(f ) := limn→∞ IE∗ f (Zn ) f¨ ur alle f ∈ F. Aus Prohorovs Theorem und Teil [a] folgt die Existenz einer Zufallsvariablen Z ∈ M, so daß zu jeder Teilfolge von (Zn )n eine Teilteilfolge existiert, welche in Verteilung gegen Z konvergiert. Mit einem einfachen Widerspruchsbeweis zeigt man nun, daß dann auch die Folge (Zn )n selbst in Verteilung gegen Z konvergiert. 2 Dieser Satz vereinheitlicht eine ganze Reihe von Techniken, um schwache Konvergenz nachzuweisen. In manchen Fällen hat man noch das Gl¨ uck, daß die Konvergenz von IE∗ f (Zn ) und IE∗ f (Zn ) f¨ ur beliebige f ∈ F bereits die asymptotische Straffheit von (Zn )n impliziert. Beispiel 9.23 Sei M = Rd und F die Menge aller Funktionen f (x) = α sin(u>x) + β cos(u>x)

9.5. STRAFFHEIT

81

mit α, β ∈ R und u ∈ Rd . Diese Klasse F erf¨ ullt die Voraussetzungen von Satz 9.22. Angenommen, alle Zn sind messbar. F¨ ur beliebige u ∈ Rd existiere der Grenzwert `(u) := limn→∞ IE cos(u>Zn ), wobei ` im Nullpunkt stetig ist. Dann ist (Zn )n asymptotisch straff. Denn f¨ ur beliebige δ > 0 und Einheitsvektoren v ∈ Rd ist 1 lim n→∞ δ

Z

0

δ

sin(δv >Zn ) 1 IE cos(rv Zn ) dr = lim IE = C(δ, v) := > n→∞ δv x δ >

Z

δ

`(rv) dr,

0

wobei sin(0)/0 := 1. Doch sin(x)/x ≤ 1{|x| < 2} + 1{|x| ≥ 2}/2 = 1 − 1{|x| ≥ 2}/2, weshalb n 2o lim sup IP |v >Zn | ≥ ≤ 2 1 − C(δ, v) . δ n→∞ Mit einer Orthonormalbasis v1 , v2 , . . . , vd des Rd ergibt sich also, daß n

lim sup IP |Zn | ≥ n→∞

d X 2o ≤ 2 1 − C(δ, vi ) → 0 (δ ↓ 0), δ i=1

da nach Voraussetzung limu→0 `(u) = `(0) = 1. Zusammenfassend erhalten wir folgenden Stetigkeitssatz f¨ ur die Fourier-Transformierte1 Korollar 9.24 (Lévy-Cramér) Eine Folge (Zn )n von Rd -wertigen Zufallsvariablen konvergiert in Verteilung genau dann, wenn f¨ ur beliebige u ∈ Rd der Grenzwert √ ~`(u) := lim IE exp −1 u>Zn ∈ C n→∞

existiert, und wenn ~` im Nullpunkt stetig ist. Beispiel 9.25 Sei M = [0, ∞[ und F die Menge aller Funktionen f (x) = exp(−λx) mit λ > 0. Diese Familie erf¨ ullt die Voraussetzungen von Satz 9.22. Falls der Grenzwert `(λ) := limn→∞ IE∗ exp(−λZn ) f¨ ur alle λ ≥ 0 existiert, und falls ` im Nullpunkt stetig ist, dann ist (Zn )n asymptotisch straff. Denn n

IE∗ exp(−λZn ) ≥ 1 − (1 − exp(−1)) IP∗ Zn ≥

1o . λ

Dies liefert einen Stetigkeitssatz f¨ ur die Laplace-Transformierte2 von nichtnegativen Zufallsvariablen. 1

d Die Fourier-Transformierte oder √ charakteristische Funktion einer Zufallsvariablen Z ∈ R ist die Funkd > tion R 3 u 7→ IE exp −1 u Z ∈ C.

2 Die Laplace-Transformierte einer Zufallsvariablen Z ≥ 0 ist die Funktion [0, ∞[ 3 λ 7→ IE exp(−λZ) ∈ ]0, 1].

82


Korollar 9.26 Eine Folge (Zn )n von [0, ∞[-wertigen Zufallselementen konvergiert in Verteilung genau dann, wenn f¨ ur beliebige λ ≥ 0 gilt: `(λ) := lim IE∗ exp(−λZn ) = lim IE∗ exp(−λZn ), n→∞

n→∞

und ` ist im Nullpunkt stetig. Beispiel 9.27 Sei M = `∞ (T ), versehen mit der Supremumsnorm k · kT . Dann erf¨ ullt die Menge F aller Funktionen

f (x) := g (x(t))t∈To

mit endlichen Mengen To ⊂ T und beschränkten stetigen Funktionen g : To → R die Voraussetzungen von Satz 9.22. Hier ist asymptotische Straffheit schwieriger nachzuweisen; siehe Kapitel 10.

Aufgaben Aufgabe 9.1 Beweisen Sie die kompakte Differenzierbarkeit des Funktionals T in Beispiel 9.13, i.e. Aussage (9.8). n

Aufgabe 9.2 Sei P ein Wahrscheinlichkeitsmaß auf Rd mit der Eigenschaft, daß P x ∈ o

Rd : u>x = r = 0 f¨ ur beliebige u ∈ Rd und r ∈ R. Zeigen Sie, daß lim

sup

↓0 u∈Rd ,r∈R

n

o

P x ∈ Rd : r ≤ u>x ≤ r +

= 0.

Aufgabe 9.3 Man eigne sich aus einem Lehrbuch u ¨ber mengentheoretische Topologie oder Analysis den Satz von Stone-Weierstrass an. Der Beweis dieses Satzes liefert folgende Aussage: Sei K eine kompakte Teilmenge eines topologischen Raumes M, und sei F eine Algebra3 von beschränkten stetigen Funktionen auf M, welche die konstante Funktion 1 enthält und Punkte von K trennt. Das heißt, f¨ ur zwei verschiedene Punkte x, y ∈ K existiert ein f ∈ F mit f (x) 6= f (y). Dann existiert zu jedem g ∈ Cb (M) und > 0 ein f ∈ F mit kf kM ≤ kgkM und kf − gkK ≤ . Aufgabe 9.4 Sei M = M1 × M2 mit metrischen Räumen (M1 , d1 ) und (M2 , d2 ), und sei d((x1 , x2 ), (y1 , y2 )) := d1 (x1 , x2 ) ∨ d2 (x2 , y2 ). 3

das heißt, F ist ein Vektorraum und abgeschlossen unter Produktbildung

9.5. STRAFFHEIT

83

[a] Angenommen, Z ist straff. Zeigen Sie, daß (Zn )n genau dann in Verteilung gegen Z konvergiert, wenn limn→∞ IE f ∗ (Zn ) = IE f (Z) f¨ ur alle stetigen Funktionen f der Form f ((x1 , x2 )) = f1 (x1 )f2 (x2 ) mit fi ∈ C(Mi , [0, 1]). [b] Zeigen Sie, daß (Zn )n genau dann asymptotisch straff und asymptotisch messbar ist, wenn mit Zn = (Zn1 , Zn2 ) beide Folgen (Zn1 )n und (Zn2 )n asymptotisch straff und asymptotisch messbar sind. Aufgabe 9.5 Zeigen Sie, daß Nd (µn , Σn ) →w Nd (µ, Σ) genau dann, wenn µn → µ und Σn → Σ.

84


Kapitel 10

Funktionale Grenzwerts¨ atze Hier betrachten wir die Menge `∞ (T ) aller beschränkten Funktionen x : T → R versehen mit der Supremumsnorm k · k = k · kT . Das erste Resultat charakterisiert die separablen Teilmengen von `∞ (T ).

Lemma 10.1 Sei Mo eine separable Teilmenge von `∞ (T ). Dann existiert eine Pseudometrik ρ auf T , so daß gilt: (T , ρ) ist präkompakt, und alle Funktionen in Mo sind gleichmäßig stetig bez¨ uglich ρ. Die Menge aller bez¨ uglich ρ gleichmäßig stetigen Funktionen aus `∞ (T ) ist ebenfalls separabel.

Ein pseudometrischer Raum (T , ρ) heißt präkompakt, wenn man f¨ ur beliebige δ > 0 die Menge T mit endlich vielen Kugeln mit Radius δ bez¨ uglich ρ u ¨berdecken kann. Mit ¨ anderen Worten, f¨ ur beliebige δ > 0 ist die Uberdeckungszahl N (δ, T , ρ) endlich; siehe Abschnitt 8.1. Beweis von Lemma 10.1: Sei {xk : k ∈ N} eine dichte Teilmenge von Mo . Dann definieren wir ρ(s, t) =

X

|xk (s) − xk (t)| ∧ 2−k .

k∈N

Man kann zeigen, daß ρ eine Pseudometrik auf T ist. Ferner sind alle Funktionen xk gleichmäßig stetig bez¨ uglich ρ, denn aus ρ(s, t) ≤ δ ≤ 2−k folgt notwendig, daß |xk (s) − xk (t)| ≤ δ. Dann sind aber auch alle Funktionen in Mo gleichmäßig stetig bez¨ uglich ρ, denn die Menge aller bez¨ uglich ρ gleichmäßig stetigen Funktionen ist abgeschlossen in `∞ (T ). 85

¨ KAPITEL 10. FUNKTIONALE GRENZWERTSATZE

86

Zu zeigen ist nun, daß (T , ρ) präkompakt ist. F¨ ur > 0 wählen wir N ∈ N mit 2−N < /2. P Dann ist ρ(s, t) < k≤N |xk (s) − x(t)| + /2. Die Menge n

xk (t)

:t∈T

k≤N

o

ist eine beschränkte Teilmenge des RN , da alle Funktionen xk beschränkt sind. Folglich existiert eine endliche Teilmenge To von T , so daß min

s∈To

X

|xk (s) − xk (t)| ≤ /2

f¨ ur alle t ∈ T .

k≤N

Somit ist ρ(t, To ) < f¨ ur beliebige t ∈ T . Die Separabilität der Menge aller bez¨ uglich ρ gleichmäßig stetigen Funktionen wird in Lemma 10.2 gezeigt. 2 Im folgenden sei ρ eine feste Pseudometrik auf T , so daß (T , ρ) präkompakt ist, und T∗ sei eine dichte Teilmenge von T bez¨ uglich ρ. Ferner sei Cu (T ) die Menge aller bez¨ uglich ρ gleichmäßig stetigen Funktionen auf T . Mit dem Stetigkeitsmodul ω(x, δ) = ω(x, δ | ρ) :=

|x(s) − x(t)|

sup s,t∈T :ρ(s,t) δ↓0

n→∞

= 0


Nun kommen wir zum Hauptsatz dieses Abschnitts. Satz 10.5 Sei (Zn )n eine Folge von `∞ (T )-Zufallselementen. Dann sind folgende Aussagen äquivalent: (a) (Z ur beliebige endliche Mengen To ⊂ T∗ konvern )n ist stochastisch gleichstetig, und f¨ giert Zn |To in Verteilung gegen eine `∞ (To )-Zufallsvariable Y(To ) . n

(b) (Zn )n konvergiert in Verteilung gegen eine Cu (T )-Zufallsvariable Z.

Unter diesen Bedingungen ist L (Z(t))t∈To = L(Y(To ) ) f¨ ur alle endlichen Teilmengen To von T∗ . Beweis: Daß Bedingung (b) Bedingung (a) impliziert, folgt aus dem Satz von der stetigen Abbildung und dem Portmanteau-Theorem, denn x 7→ (x(t))t∈To und x 7→ ω(x, δ) sind

89 stetige Abbildungen auf `∞ (T ), wobei n

o

lim IP ω(Z, δ) ≥ δ↓0

= 0


Umgekehrt sei Bedingung (a) erf¨ ullt. Zu beliebigem > 0 existiert ein k ∈ N mit n

o

lim sup IP∗ ω(Zn , 1/k) ≥ n→∞

≤ /2.

Mit Tk und Πk aus dem Beweis von Lemma 10.2 ist also n

o

lim sup IP∗ kZn − Πk Zn k ≥ n→∞

≤ /2;

siehe (10.1). Doch Zn |Tk konvergiert in Verteilung gegen eine `∞ (Tk )-Zufallsvariable n Yk . Insbesondere existiert eine reelle Zahl R > 0 mit n

IP kYk kTk ≥ R n

Doch dann ist K := Πk y : kykTk ≤ R Stetigkeit von Πk , und n

o

IP∗ Zn 6∈ U (K, )

o

o

≤ /2.

eine kompakte Menge in Cu (T ) aufgrund der

n

o

n

n

o

n

≤ IP∗ kZn − Πk Zn k ≥ + IP∗ Πk Zn 6∈ K

o

≤ IP∗ kZn − Πk Zn k ≥ + IP∗ kZn kTk ≥ R

o

≤ + o(1), gemäß dem Portmanteau-Theorem. Nach Lemma 10.2 und Teil (II) von Satz 9.21 ist also (Zn )n asymptotisch straff auf Cu (T ). Doch nun folgt Aussage (b) aus Satz 9.22, angewandt auf die Menge F aller Funktionen der Form

f (x) = g (x(t))t∈To

mit endlichen Teilmengen To von T∗ und beschränkten stetigen Funktionen g auf RTo . 2 Skizze eines anderen Beweises von “(a) =⇒ (b)”: Man kanndie Resultate aus ullen Abschnitt 9.5 wie folgt umgehen. Die Limites Yk ∈ `∞ (Tk ) von Zn |Tk , k ∈ N, erf¨ n folgende Bedingung:

L(Yk ) = L Y` |Tk

f¨ ur 1 ≤ k < `.

Nach dem Existenzsatz von Kolmogorov existiert ein stochastischer Prozess Z auf T∗∗ := ur alle k ∈ N. Mit den Stetigkeitsmoduli ωk (·, ·) und ω∗∗ (·, ·) k Tk mit L Z|Tk = L(Yk ) f¨

S

¨ KAPITEL 10. FUNKTIONALE GRENZWERTSATZE

90

von Funktionen auf Tk beziehungsweise Tk gilt: ωk (·, ·) ↑ ω∗∗ (·, ·) f¨ ur k → ∞, weshalb n

o

IP ω∗∗ (Z, δ) >

= ≤ ≤

n

o

lim IP ωk (Z, δ) >

k→∞

n

o

lim lim sup IP∗ ωk (Zn , δ) ≥

k→∞

n→∞

n

o

lim sup IP∗ ω(Zn , δ) ≥ n→∞

→ 0

(δ ↓ 0).

Also hat Z fast sicher gleichmäßig stetige Pfade auf T∗∗ bez¨ uglich ρ. Zusammen mit Lemma fidis kann man also folgern, daß eine Cu (T )-Zufallsvariable Z existiert, so daß L Z|Tk = L(Yk ) f¨ ur alle k. F¨ ur f ∈ CLip (`∞ (T ), [0, 1]) mit Lipschitzkonstante L gilt demnach: ∗ IE f (Zn ) − IE f (Z)

≤ IE∗ |f (Zn ) − f (Πk Zn )| + IE |f (Z) − f (Πk Z)|

+ IE∗ f (Πk Zn ) − f (Πk Z)

= IE∗ |f (Zn ) − f (Πk Zn )| + IE |f (Z) − f (Πk Z)| + o(1) n

o

n

o

≤ 2L + IP∗ ω(Zn , 1/k) ≥ + IP ω(Z, 1/k) ≥ + o(1), und der limes superior der rechten Seite wird beliebig klein, f¨ ur geeignete k ∈ N und > 0. 2

Aufgaben Aufgabe 10.1 Seien λk (·, u), u ∈ Tk , die im Beweis von Lemma 10.2 definierten Gewichtsfunktionen. Zeigen Sie, daß sie Lipschitz-stetig sind. Versuchen Sie, eine möglichst gute Schranke f¨ ur die Lipschitz-Konstante zu finden. Aufgabe 10.2 Sei Sbn der Partialsummenprozess aus Abschnitt 1.2, und supf ∈F |f (xni )| sei f¨ ur alle i ≤ n endlich. Zeigen Sie, daß Sbn eine `∞ (F)-Zufallsvariable ist. Aufgabe 10.3 Zeigen Sie, daß die Abbildung R 3 y 7→ 1{y ≤ ·} ∈ `∞ (R) nicht Borel-messbar ist. Hinweis: Zeigen Sie, daß f¨ ur beliebige Mengen B ⊂ R die Menge der Indikatorfunktionen 1{y ≤ ·}, y ∈ B, abgeschlossen ist in `∞ (R). Verallgemeinerung: F¨ ur n ∈ N ist die Abbildung Rn 3 y 7→ messbar.

Pn

i=1 1{yi

≤ ·} nicht Borel-

Kapitel 11

Der klassische empirische Prozess, III: Brownsche Bewegung und Bru ¨ cke In diesem Kapitel betrachten wir die Funktionenräume `∞ ([0, 1]) und `∞ (R), wobei R mit der u ¨blichen Metrik ρ(s, t) := |t − s| versehen wird.

11.1

Stochastische Gleichstetigkeit auf [0, 1]

Lemma 11.1 Sei Z ein `∞ ([0, 1])-Zufallselement. F¨ ur beliebige 0 < δ ≤ 1 und η > 0 ist n

IP∗ ω(Z, δ/2) > 2η

o

≤

n o 2 sup IP∗ sup |Z(u) − Z(t)| > η . δ t∈[0,1[ u∈[t,t+δ]∩[0,1]

Beweis: F¨ ur 0 ≤ j ≤ j(δ) sei Ij := [jδ/2, (j + 1)δ/2] ∩ [0, 1], wobei j(δ) die größte ganze Zahl in [1, 2/δ[ ist. Zu u, v ∈ [0, 1] mit |u − v| < δ existiert stets ein j < j(δ) mit u, v ∈ Ij ∪ Ij+1 . Folglich ist j(δ)−1

n

IP∗ ω(Z, δ/2) > 2η

o

≤

X

IP∗

n

sup

u,v∈Ij ∪Ij+1

j=0

|Z(u) − Z(v)| > 2η

o

j(δ)−1

≤

X

j=0

≤

IP∗

n

sup

u∈Ij ∪Ij+1

|Z(u) − Z(jδ/2)| > η

o

n o 2 sup IP∗ sup |Z(u) − Z(t)| > η . δ t∈[0,1[ u∈[t,t+δ]∩[0,1]

2

Die Frage ist nun, wie man die rechte Seite der Ungleichung in Lemma 11.1 abschätzen kann. 91

¨ 92KAPITEL 11. DER KLASSISCHE EMPIRISCHE PROZESS, III:BROWNSCHE BEWEGUNG UND BRUCK Lemma 11.2 (Lévy). Sei Z ein stochastischer Prozess auf [a, b] mit rechtsseitig stetigen Pfaden und unabhängigen Zuwächsen; das heißt, f¨ ur a ≤ t < u ≤ b sind (Z(s))s∈[a,t] und Z(u) − Z(t) stochastisch unabhängig. F¨ ur beliebige η > 0 ist n

IP kZk[a,b] > η

o

n

o

n

o

≤ IP |Z(b)| > η/2 + sup IP |Z(b) − Z(t)| > η/2 . t∈[a,b]

Falls zusätzlich L(Z(b) − Z(t)) symmetrisch ist um Null f¨ ur alle t ∈ [a, b], dann ist sogar n

IP kZk[a,b] > η

o

n

o

≤ 2 IP |Z(b)| > η .

Beweis: Wegen der rechtsseitigen Stetigkeit der Pfade von Z gen¨ ugt es, die Behauptung mit kZkT anstelle von kZk[a,b] zu beweisen, wobei T ⊃ {a, b} eine beliebige endliche Teilmenge von [a, b] ist. Sei n

o

t ∈ T : |Z(t)| > η ∪ {∞} .

τ := min Dann ist

{kZkT > η} = {τ ∈ T } ⊂ n

n

o

n

o

τ ∈ T, |Z(b)| ≤ η/2 ∪ |Z(b)| > η/2 ,

o

und τ ∈ T, |Z(b)| ≤ η/2 ist gleich [n

τ = t, |Z(b)| ≤ η/2

o

⊂

t∈T

[

n

o

{τ = t} ∩ |Z(b) − Z(t)| > η/2 ,

t∈T

denn |Z(t)| > η auf {τ = t}. Folglich ist n

o

n

n

o

X

n

o

o

IP{kZkT > η} ≤ IP |Z(b)| > η/2 + IP τ ∈ T, |Z(b)| ≤ η/2 ≤ IP |Z(b)| > η/2 +

n

IP{τ = t} IP |Z(b) − Z(t)| > η/2

o

t∈T

n

o

≤ IP |Z(b)| > η/2 + sup IP |Z(b) − Z(t)| > η/2 . t∈[a,b]

n

o

Im Falle symmetrisch verteilter Zuwächse Z(b) − Z(t) ist IP Z(b) − Z(t) ≥ 0 ≥ 1/2 und n

o

IP Z(b) − Z(t) ≤ 0 ≥ 1/2, weshalb IP{τ = t} n

o

n

= IP τ = t, Z(t) > η + IP τ = t, Z(t) < −η n

o

o n

≤ 2 IP τ = t, Z(t) > η, Z(b) − Z(t) ≥ 0 + 2 IP τ = t, Z(t) < −η, Z(b) − Z(t) ≤ 0 n

o

n

≤ 2 IP τ = t, Z(b) > η + 2 IP τ = t, Z(b) < −η n

o

o

o

= 2 IP τ = t, |Z(b)| > η , und die gew¨ unschte Ungleichung folgt durch Aufsummieren u ¨ber alle t ∈ T .

2

11.2. DONSKERS INVARIANZPRINZIPIEN

11.2

93

Donskers Invarianzprinzipien

Definition 11.3 Ein Gaußprozess auf einer beliebigen Indexmenge T ist ein stochastischer Prozess Z auf T , so daß f¨ ur beliebige m ∈ N und t1 , t2 , . . . , tm ∈ T der Vektor m (Z(tj ))1≤j≤m ∈ R Gauß-verteilt ist. Ist IE Z ≡ 0, so nennt man den Prozess Z zentriert. Definition 11.4 Eine Brownsche Bewegung auf T = [0, b] oder T = [0, ∞[ ist ein zentrierter Gaußprozess W auf T mit fast sicher stetigen Pfaden und Kovarianzen IE W (t)W (u) = t ∧ u. Eine äquivalente Definition: Eine Brownsche Bewegung auf T ist ein zentrierter Gaußprozess W auf T mit fast sicher stetigen Pfaden und unabhängigen Zuwächsen, wobei W (0) = 0 fast sicher, und W (u) − W (t) ∼ N (0, u − t) f¨ ur 0 ≤ t < u ∈ T . Definition 11.5 Eine Brownsche Br¨ ucke ist ein zentrierter Gaußprozess B auf [0, 1] mit fast sicher stetigen Pfaden und Kovarianzen IE B(t)B(u) = (t ∧ u) − tu. Anmerkung 11.6 Die Existenz einer Brownschen Bewegung oder -Br¨ ucke ist nicht offensichtlich sondern folgt implizit aus den Sätzen 11.7 und 11.8. Wir weisen bereits auf folgende Eigenschaften und Zusammenhänge hin: Sei B eine Brownsche Br¨ ucke, und sei Y standardnormalverteilt und unabhängig von B. Dann definiert W (t) := B(t) + tY

eine Brownsche Bewegung auf [0, 1], t W (t) := (1 + t)B eine Brownsche Bewegung auf [0, ∞[. 1+t

Sei W eine Brownsche Bewegung auf [0, 1]. Dann definiert B(t) := W (t) − tW (1) eine Brownsche Br¨ ucke, weshalb man die Brownsche Br¨ ucke auch als tied-down Brownian motion bezeichnet. Sei W eine Brownsche Bewegung auf [0, ∞[, und seien σ > 0, v > u ≥ 0. Dann definiert f (t) := σ −1 W (σ 2 t), W f (t) := W

(

tW (1/t) falls t > 0, 0 falls t = 0,

f (t) := W (v + t) − W (v) W

¨ 94KAPITEL 11. DER KLASSISCHE EMPIRISCHE PROZESS, III:BROWNSCHE BEWEGUNG UND BRUCK jeweils eine Brownsche Bewegung auf [0, ∞[. Ferner definiert B(t) :=

W ((1 − t)u + tv) − (1 − t)W (u) − tW (v) √ v−u

eine Brownsche Br¨ ucke. Nun kommen wir zu den Sätzen von Donsker. Im ersten Fall betrachten wir Partialsummenprozesse n 1 X [0, 1] 3 t 7→ Wn (t) := √ 1{i ≤ nt}Yni . n i=1 Satz 11.7 (Donsker). Angenommen, f¨ ur jedes n sind Yn1 , Yn2 , . . . , Ynn unabhängig und identisch verteilt mit IE Yn1 = 0 und Var(Yn1 ) = 1. Ferner sei 2 2 ≥ n}Yn1 = 0 f¨ ur beliebige > 0. lim IE 1{Yn1

n→∞

Dann konvergiert (Wn )n in Verteilung gegen eine Brownsche Bewegung auf [0, 1]. b n aus Kapitel 2, Im zweiten Fall betrachten wir den uniformen empirischen Prozess G genauer gesagt, die Standardisierung

[0, 1] 3 t 7→ Bn (t) :=

√

b n (t) − t) = √1 n(G

n

n X

1{Ui ≤ t} − t .

i=1

Satz 11.8 (Donsker). Die Folge (Bn )n konvergiert in Verteilung gegen eine Brownsche Br¨ ucke. Beweis von Satz 11.7: Aus dem Lindebergschen Zentralen Grenzwertsatz kann man folgern, daß f¨ ur beliebige f ∈ Cb (R) gilt: (11.1)

lim

sup

n→∞ 0≤t 0.

Doch aus (11.1) folgt, daß f¨ ur 0 < δ ≤ 1 gilt: lim

sup

n→∞ 0 δ

o 1 n√ IP u − t |Y | > 0 / δ δ 2 1 ≤ exp − δ 2δ → 0 f¨ ur δ ↓ 0. 2

=

sup

Beweis von Satz 11.8: F¨ ur beliebiges festes n ist der Erwartungswert von Bn gleich Null, und IE Bn (t)Bn (u) = (t ∧ u) − tu. Aus dem multivariaten Zentralen Grenzwertsatz folgt, daß L (Bn (ti ))1≤i≤m →w Nm 0, (ti ∧ tj ) − ti tj 1≤i,j≤m

f¨ ur beliebige m ∈ N und t1 , t2 , . . . , tm ∈ [0, 1]. Zu zeigen bleibt also die stochastische Gleichstetigkeit von (Bn )n . Diese folgt direkt aus Lemma 11.9. 2 Lemma 11.9 F¨ ur 0 < δ ≤ 1 und η ≥ n

IP ω Bn ,

√

δ ist stets

o η2 3 δ 32 > 5η ≤ exp − + exp − nδ . 2 δ 4δ 8 p

Wählt man in Lemma 11.9 η = κδ log(e/δ) mit hinreichend großem κ, dann konvergiert die obere Schranke gegen Null f¨ ur δ → 0 und nδ/ log n → ∞. Bis auf die große Konstante κ beschreibt dies das exakte Verhalten von ω(Bn , ·), denn W. Stute (1982) zeigte, daß hier p ω(Bn , δ) = 2δ log(1/δ)(1 + op (1)). Beweis von Lemma 11.9: Wir betrachten zunächst Bn als stochastischen Prozess auf der Menge1 T aller Paare (s, t) ∈ [0, 1]2 mit 0 < t − s < δ/2 vermöge Bn (s, t) := Bn (t) − Bn (s). Dannn ist nämlich ω(B ur alle (s, t) ∈ T gilt: Var[Bn (s, t)] ≤ o n , δ) = kBn kT , und f¨ δ/2, also IP |Bn (s, t)| ≤ η ≥ 1/2. Mit einer unabhängigen Kopie Bn0 von Bn und dem P symmetrisierten Prozess Bno (t) := n−1/2 ni=1 ξi 1{Ui ≤ t} gilt also: n

IP ω Bn , 1

o n o δ δ > 5η ≤ 2 IP ω Bn − Bn0 , > 4η (Symmetrisierungslemma 4.1 [a]) 2 2

genauer gesagt, einer abz¨ ahlbaren dichten Teilmenge

¨ 96KAPITEL 11. DER KLASSISCHE EMPIRISCHE PROZESS, III:BROWNSCHE BEWEGUNG UND BRUCK n

≤ 4 IP ω Bno , ≤ = = ≤ ≤ ≤ ≤

o δ > 2η (Symmetrisierungslemma 4.2 [a]) 2

n o 8 sup IP sup |Bno (u) − Bno (t)| > η (Lemma 11.1) δ t∈[0,1] u∈[t,t+δ]∩[0,1] o 8 n IP sup |Bno (u)| > η δ u∈[0,δ] 8 IE IP sup |Bno (u)| > η U1 , . . . , Un δ u∈[0,δ] 16 IE IP |Bno (δ)| > η U1 , . . . , Un (Lemma 11.2) δ 32 η2 IE exp − (Hoeffdings Ungleichung) b n (δ) δ 2G η2 32 b n (δ) > 2δ} exp − + IP{G δ 4δ η2 B(1) 32 exp − + exp − nδ δ 4δ 2

(Bennetts Ungleichung),

und B(1) ≤ 3/4 nach Anmerkung 6.6.

11.3

2

Anwendung auf getrimmte Mittelwerte

Seien P und Pn Wahrscheinlichkeitsverteilungen auf R mit Verteilungsfunktionen F beziehungsweise Fn . Ferner sei Pbn die empirische Verteilung von unabhängigen Zufallsvariablen Xn1 , Xn2 , . . . , Xnn mit Verteilung Pn . Die Verteilungsfunktion von Pbn sei Fbn . Eine Standardmethode, um den empirischen Mittelwert zu “robustifizieren”, besteht darin, die Variablen Xni der Größe nach zu ordnen und die k(n) größten sowie die k(n) kleinsten Zahlen aus der Stichprobe zu entfernen, wobei k(n) := bnαc mit 0 < α < 1/2. Der Mittelwert dieser reduzierten Stichprobe ist ein getrimmter Mittelwert. Im Falle von paarweise verschiedenen Beobachtungen Xni ist dieser getrimmte Mittelwert bis auf einen Faktor 1 + O(1/n) gleich T (Pbn ), wobei allgemein T (P ) := (1 − 2α)−1

Z

1{α < F (x) ≤ β} x P (dx)

mit β := 1 − α. Es ist T (P ) = µ, falls P stetig und um µ symmetrisch ist. Satz 11.10 Angenommen (Pn )n konvergiert schwach gegen P , wobei F stetig und auf dem Intervall {0 < F < 1} streng isoton ist. Ferner sei

ω(Fn , 0+) = max P {x} x∈R

1 = o √ . n

11.3. ANWENDUNG AUF GETRIMMTE MITTELWERTE

97

Dann ist T (Pbn ) − T (Pn ) = (1 − 2α)−1

Z

1 H d(Pbn − Pn ) + op √ , n

wobei H(x) := 1{F (x) ≤ α}F −1 (α) + 1{α < F (x) ≤ β} x + 1{β < F (x)}F −1 (β). Die Funktion H ist stetig und beschr¨ ankt. Aus dem Lindebergschen Zentralen Grenzwertsatz folgt daher, daß √

Ln (Pn ) := L

n[T (Pbn ) − T (Pn )]

→w N 0, (1 − 2α)−2 VarX∼P [H(X)] .

Andererseits folgt aus den Voraussetzungen des Satzes, daß auch kFbn − F kR = op (1)

1 und ω(Fbn , 0+) = op √ n

(Aufgabe 11.2).

Folglich konvergiert auch Ln (Pbn ) schwach gegen N 0, (1−2α)−2 VarX∼P [H(X)] in Wahr-

scheinlichkeit, ist also ein konsistenter Schätzer f¨ ur Ln (Pn ). Die Verteilung Ln (Pbn ) ist ein Bootstrap-Schätzer f¨ ur Ln (Pn ) und kann auch wie folgt beschrieben werden: Sei Pbn∗ die ∗ , X ∗ , . . . , X ∗ mit empirische Verteilung von Zufallsvariablen Xn1 nn n2

∗ ∗ ∗ , Xn2 , . . . , Xnn L Xn1 Xn1 , Xn2 , . . . , Xnn

Dann ist

√

Ln (Pbn ) = L

= Pbn ⊗ Pbn ⊗ · · · ⊗ Pbn .

n[T (Pbn∗ ) − T (Pbn )] Xn1 , Xn2 , . . . , Xnn .

Der Beweis von Satz 11.10 beruht im wesentlichen auf folgender Ungleichung: Lemma 11.11 Sei Q ein weiteres Wahrscheinlichkeitsmaß auf R mit Verteilungsfunktion G. Sei Z t(P ) :=

1{α < F (x) ≤ β} x P (dx).

Falls kG − F k < α, so ist t(Q) − t(P ) =

Z

h d(Q − P ) + R,

wobei h(x) := 1{F (x) ≤ α}F −1 (α+) + 1{α < F (x) ≤ β} x + 1{β < F (x)}F −1 (β+).

¨ 98KAPITEL 11. DER KLASSISCHE EMPIRISCHE PROZESS, III:BROWNSCHE BEWEGUNG UND BRUCK und |R|

≤

∆ := δ :=

10(∆ + δ) ω(G − F, δ+) + ω(F, 0+) + 4δkG − F k,

max F −1 (u+) ,

u∈{α,β}

max

u∈{α,β}

F −1 (u + kG − F k)+ − F −1 (u − kG − F k)+

.

Beweis von Satz 11.10: Aus den Voraussetzungen an F und Fn folgt, daß kFn − F kR = o(1) und −1 δn := sup Fn ((u + r)+) − F −1 (u) = o(1). u∈{α,β},|r|≤n1/3

b n − id) ist ferner Fbn − Fn b n und Bn := √n(G Mit dem uniformen empirischen Prozess G verteilt wie n−1/2 Bn ◦ Fn , also

kFbn − Fn kR

=

Op (n−1/2 ),

ω(Fbn − Fn , δn ) =L n−1/2 ω(Bn ◦ Fn , δn )

≤

n−1/2 ω Bn , ω(Fn , δn )+

=

op (n−1/2 ).

Aus Lemma 11.11 folgt dann, daß T (Pbn ) − T (Pn ) = (1 − 2α)−1

Z

Hn d(Pbn − Pn ) + op (n−1/2 ),

wobei Hn (x) := 1{Fn (x) ≤ α}Fn−1 (α+) + 1{α < Fn (x) ≤ β}x + 1{β < Fn (x)}Fn−1 (β+). Doch aus kFn − F kR = o(1) kann man leicht ableiten, daß kHn − HkR = o(1), weshalb R R Hn d(Pbn − Pn ) = H d(Pbn − Pn ) + op (n−1/2 ). 2

Beweis von Lemma 11.11: Wir teleskopieren t(Q) − t(P ) =

Z

+

1{α < G(x) ≤ β} − 1{α < F (x) ≤ β} x Q(dx)

Z

1{α < F (x) ≤ β} x (Q − P )(dx)

und analysieren nun das erste Integral auf der rechten Seite. Es ist 1{α < G ≤ β} − 1{α < F ≤ β} = 1{α < G} − 1{β < G} − 1{α < F } + 1{β < F } = 1J1 (α) − 1J2 (α) − 1J1 (β) + 1J2 (β) ,

11.3. ANWENDUNG AUF GETRIMMTE MITTELWERTE

99

wobei J1 (u) := {F ≤ u < G}

und J2 (u) := {G ≤ u < F }

f¨ ur u ∈ {α, β}. Zum einen ist o   n o J2 (u) ⊂ {F − kG − F k ≤ u < F } = F ∈ ]u, u + kG − F k]  n o

J1 (u) ⊂ {F ≤ u < F + kG − F k} =

⊂

⊂

n

F ∈ ]u − kG − F k, u]

F ∈ ]u − kG − F k, u + kG − F k]

h

i

F −1 (u − kG − F k)+ , F −1 (u + kG − F k)+ .

Mit xu := F −1 (u+) gilt demnach f¨ ur beliebige δo > δ: Leb(Jk (u)) < δo

sup x − xu < δo

und

x∈Jk (u)

f¨ ur k = 1, 2. Insbesondere ist Q(Jk (u)) − P (Jk (u)) ≤ ωo := ω(G − F, δo ).

Ferner ist P (Jk (u)) ≤ kG − F k + 2ω(F, 0+) aufgrund der Tatsache, daß

(11.2) P {F ∈ K} − Leb(K) ≤ 2ω(F, 0+)

f¨ ur beliebige Intervalle K ⊂ [0, 1].

Alles in allem ist Z

Jk (u)

≤

x Q(dx) − xu P (Jk (u))

Z

Jk (u)

|x − xu | Q(dx) + ∆ Q(Jk (u)) − P (Jk (u))

≤ δo Q(Jk (u)) + ∆ Q(Jk (u)) − P (Jk (u))

≤ (∆ + δo )ωo + δo kG − F k + 2δo ω(F, 0+), und somit Z

1{α < G(x) ≤ β} − 1{α < F (x) ≤ β} x Q(dx)

= xα P (J1 (α)) − P (J2 (α)) − xβ P (J1 (β)) − P (J2 (β)) + R0 , wobei |R0 | ≤ 4(∆ + δo )ωo + 4δo kG − F k + 8δo ω(F, 0+).

¨ 100KAPITEL 11. DER KLASSISCHE EMPIRISCHE PROZESS, III:BROWNSCHE BEWEGUNG UND BRUCK Nun betrachten wir die Differenz P (J1 (u)) − P (J2 (u)). Es ist J1 (u) =

n

⊂

n

=

n

J1 (u) =

n

⊃

n

=

n

=

n

o

x ∈ J1 (u) : F (x) ≤ u < F (x) + (G − F )(x) F ≤ u < F + (G − F )(xu ) + ωo

o

o

F ∈ ]u − (G − F )(xu ) − ωo , u] , o

x : u − kG − F k < F (x) ≤ u < F (x) + (G − F )(x)

x : u − kG − F k ≤ F (x) ≤ u < F (x) + (G − F )(xu ) − ωo x : F (x) ≤ u < F (x) + (G − F )(xu ) − ωo

o

o

o

F ∈ ]u − (G − F )(xu ) + ωo , u] .

Analog zeigt man, daß n

o

F ∈ ]u, u − (G − F )(xu ) − ωo ]

⊂ J2 (u) ⊂

n

o

F ∈ ]u, u − (G − F )(xu ) + ωo ] .

Zusammen mit (11.2) folgt also, daß P (J1 (u)) − P (J2 (u)) − (G − F )(xu ) ≤ 2ωo + 4ω(F, 0+).

Ferner ist Z (G − F )(xu ) − 1{F ≤ u} d(Q − P ) ≤ max |Q{x} − P {x}| ≤ ωo , x∈R

und

R

R

1{F ≤ u} d(Q − P ) = − 1{u < F } d(Q − P ). Folglich ist

xα P (J1 (α)) − P (J2 (α)) − xβ P (J1 (β)) − P (J2 (β)) =

Z

1{F < α}xα + 1{β < F }xβ d(Q − P ) + R00 ,

wobei |R00 | ≤ 6∆ωo + 8∆ω(F, 0+). R

Insgesamt erhalten wir die Entwicklung t(Q) − t(P ) = h d(Q − P ) + R mit |R| ≤ 10(∆ + δo )(ωo + ω(F, 0+)) + 4δo kG − F k. F¨ ur δo ↓ δ ergibt sich die Behauptung. 2

11.4

Verteilungen von Funktionalen von Gaußprozessen

11.4.1

Maximum und Supremumsnorm der Brownschen Bru ¨ cke

Hier ermitteln wir die Verteilungen von maxt∈[0,1] B(t) und kBk[0,1] f¨ ur eine Brownsche Br¨ ucke B.

11.4. VERTEILUNGEN VON FUNKTIONALEN VON GAUSPROZESSEN

101

Satz 11.12 (starke Markov-Eigenschaft). Sei M ein stochastischer Prozess auf [0, ∞[ mit folgenden Eigenschaften: M (0) ≡ 0, und M hat rechtsseitig stetige Pfade; M hat unabhängige Zuwächse, wobei L(M (t + δ) − M (t)) = L(M (δ)) f¨ ur t, δ ≥ 0. Sei τ = τ (M ) eine Markovzeit. Das heißt, τ ist eine Zufallsvariable mit Werten in [0, ∞], so daß n o τ ≤ t ∈ σ M (s) : s ≤ t f¨ ur 0 ≤ t < ∞. Ferner sei M 0 eine unabhängige Kopie2 von M . Dann definiert 0

(

+

f(t) := M (t ∧ τ ) + M ((t − τ ) ) = M

M (t) f¨ ur t ≤ τ, M (τ ) + M 0 (t − τ ) f¨ ur t ≥ τ,

f mit den gleichen Eigenschaften wie M . einen stochastischen Prozess M

Beispiele f¨ ur solche Prozesse M sind der Standard-Poissonprozess und die Brownsche Bewegung auf [0, ∞[. Im letzteren Falle ist M symmetrisch, und man kann folgendes Resultat anwenden. Korollar 11.13 (Spiegelungsprinzip). Sei M ein stochastischer Prozess wie in Satz 11.12, so daß L(−M ) = L(M ). Sei τ = τ (M ) eine Markovzeit. Dann definiert

Mo (t) := M (t ∧ τ ) − M (t) − M (t ∧ τ )

=

(

M (t) f¨ ur t ≤ τ, 2M (τ ) − M (t) f¨ ur t ≥ τ,

einen stochastischen Prozess Mo mit den gleichen Eigenschaften wie M . Man sagt, der Prozess Mo geht aus M durch “Spiegelung an der Markovzeit τ ” hervor. fo wie M f mit −M 0 anstelle von M 0 Korollar 11.13 folgt aus Satz 11.12, indem man dort M f), und es ist definiert. Denn man kann leicht nachweisen, daß τ (M ) = τ (M

fo (t) = M f(t ∧ τ (M f)) − M f(t) − M f(t ∧ τ (M f)) . M

Beweis von Satz 11.12: Man sieht leicht, daß sich die Pfadeigenschaften von M und fu f ein stochastischer Prozess mit der gleichen M 0 auf M ¨bertragen. Zu zeigen bleibt, daß M Verteilung wie M ist. Zu diesem Zweck betrachten wir f¨ ur n ∈ N die Variablen τnn := −n n −n n 2 d2 τ e und τen := 2 b2 τ c. Auch τn ist eine Markovzeit, denn {τn ≤ t} = τ ≤ 2

gleiche Verteilung und gleiche Pfadeigenschaften wie M

¨ 102KAPITEL 11. DER KLASSISCHE EMPIRISCHE PROZESS, III:BROWNSCHE BEWEGUNG UND BRUCK o

2−n b2n tc . Ferner konvergiert (τn )n antiton und (τen )n isoton gegen τ mit τn − τen ≤ 2−n , falls τ < ∞. Wegen der rechtsseitigen Stetigkeit von M und M 0 ist M (t ∧ τ ) = lim M (t ∧ τn ) und M 0 ((t − τ )+ ) = lim M ((t − τen )+ ), n→∞

n→∞

f(t) messbar. Ferner ist also ist auch M n

o

IP M 0 ((t − τn )+ ) − M 0 ((t − τen )+ ) > ≤ =

∞ X

n

IP τn = 2−n k,

k=1 ∞ X

n

t∈[2−n (k−1),2−n k]

o

n

IP τn = 2−n k IP

k=1

≤

n

IP

→ 0

sup

t∈[0,2−n ]

o

|M 0 (t) − M 0 (2−n k)| >

sup sup

t∈[2−n (k−1),2−n k]

o

|M 0 (t) − M 0 (2−n k)| >

o

|M 0 (t) − M 0 (2−n )| >

(n → ∞)

fn wie M f mit τn anstelle von τ , dann konvergiert f¨ ur beliebige > 0. Definiert man also M fn (t))n stochastisch gegen M f(t), und es gen¨ fn genauso verteilt ist (M ugt zu zeigen, daß M wie M . Zu diesem Zwecke benutzen wir die Tatsache, daß f¨ ur beliebige k < ∞ gilt:

L (M (2−n k + t))t≥0 M (s) : s ≤ 2−n k

= L (M (2−n k) + M 0 (t))t≥0 M (s) : s ≤ 2−n k .

(11.3)

F¨ ur m ∈ N und 0 ≤ t1 < t2 < · · · < tm sowie Borelmengen B1 , B2 , . . . , Bm ⊂ R ist folglich n

o

fn (ti ) ∈ Bi f¨ IP M ur 1 ≤ i ≤ m

=

o

fn (ti ) ∈ Bi f¨ IP τn = 2−n k, M ur 1 ≤ i ≤ m

X

IP τn = 2−n k, M (ti ) ∈ Bi falls ti ≤ 2−n k,

0≤k≤∞

=

n

X

n

0≤k≤∞

M (2−n k) + M 0 (ti − 2−n k) ∈ Bi falls ti > 2−n k =

X

o

IE IP τn = 2−n k, M (ti ) ∈ Bi falls ti ≤ 2−n k,

0≤k≤∞

=

X

0≤k≤∞

IE IP τn = 2−n k, M (ti ) ∈ Bi f¨ ur 1 ≤ i ≤ m M (s) : s ≤ 2−n k (wegen (11.3))

=

X

n

o

IP τn = 2−n k, M (ti ) ∈ Bi f¨ ur 1 ≤ i ≤ m

0≤k≤∞

n

M (2−n k) + M 0 (ti − 2−n k) ∈ Bi falls ti > 2−n k M (s) : s ≤ 2−n k

o

= IP M (ti ) ∈ Bi f¨ ur 1 ≤ i ≤ m .

2


103

Satz 11.14 Sei B eine Brownsche Br¨ ucke. F¨ ur beliebige η > 0 ist n

IP max B(t) ≥ η

(11.4)

t∈[0,1]

n

IP kBk[0,1] ≥ η

(11.5)

o

= 2

o

= exp(−2η 2 ),

∞ X

(−1)k−1 exp(−2k 2 η 2 ).

k=1

Anmerkung 11.15 Man kann zeigen, daß eine Brownsche Br¨ ucke B fast sicher eine eindeutige Maximalstelle U = arg mint∈[0,1] B(t) besitzt, wobei U und maxt∈[0,1] B(t) stochastisch unabhängig sind mit U ∼ U[0, 1]; siehe Aufgabe 11.4. Beweis von Satz 11.14: Sei W eine Brownsche Bewegung auf [0, ∞[ und B(t) = W (t) − tW (1) f¨ ur t ∈ [0, 1]. Dann sind B und W (1) stochastisch unabhängig, weshalb

L (W (t))t∈[0,1] |W (1)| ≤

→w L(B)

f¨ ur ↓ 0.

Nach dem Portmanteau-Theorem ist also

n

lim IP φ(W ) ≥ η |W (1)| ≤

(11.6)

↓0

o

= IP φ(B) ≥ η ,

falls φ(B) 6= η fast sicher. Hierbei ist φ(x) = max[0,1] x oder φ(x) = kxk[0,1] . Angenommen, wir weisen nach, daß der Grenzwert in ur alle η > 0 existiert und in η stetig ist. n o (11.6) f¨ Aus der Monotonie von IP φ(B) ≥ η in η folgt dann die G¨ ultigkeit von (11.6) f¨ ur alle η > 0. Im Falle φ(x) = max[0,1] x sei n

o

τ = τ (W ) := inf r ≥ 0 : W (t) ≥ η . Spiegeln von W an der Stoppzeit τ liefert die Brownsche Bewegung Wo (t) := W (t ∧ τ ) − W (t) − W (t ∧ τ ) , und f¨ ur 0 < ≤ η gilt: n

o

IP max W ≥ η, |W (1)| ≤ [0,1]

n

o

= IP τ ≤ 1, |W (1)| ≤ n

o

= IP τ ≤ 1, |Wo (1) − 2η| ≤ n

o

= IP |Wo (1) − 2η| ≤ , denn aus |Wo (1) − 2η| ≤ ≤ η folgt bereits, daß τ (W ) = τ (Wo ) ≤ 1. Daher ist IP max W ≥ η |W (1)| ≤

[0,1]

=

n

o

IP |Wo (1) − 2η| ≤ n

o

IP |Wo (1)| ≤

N (0, 1)[2η − , 2η + ] N (0, 1)[−, ] → exp(−2η 2 ). =

¨ 104KAPITEL 11. DER KLASSISCHE EMPIRISCHE PROZESS, III:BROWNSCHE BEWEGUNG UND BRUCK Dies beweist Behauptung (11.4). Im Falle φ(x) = kxk[0,1] definieren wir Ak :=

n

Bk :=

n

o

x ∈ C([0, ∞[) : es ex. 0 ≤ t1 < t2 < · · · < tk ≤ 1 mit x(ti ) = (−1)i−1 η , o

x ∈ C([0, ∞[) : es ex. 0 ≤ t1 < t2 < · · · < tk ≤ 1 mit x(ti ) = (−1)i η .

Dann kann man leicht zeigen, daß kxk[0,1] ≥ η genau dann, wenn x ∈ A1 ∪ B1 . Genauer gesagt, existiert dann ein k(x) ∈ N mit x

   ∈ Ak ∩ Bk

f¨ ur 1 ≤ k < k(x), ∈ Ak 4Bk f¨ ur k = k(x),   ∈ 6 Ak ∪ Bk f¨ ur k > k(x).

Insbesondere kann man nun zeigen, daß n

1 kxk[0,1] ≥ η

o

=

∞ X

(−1)k−1 1{x ∈ Ak } + 1{x ∈ Bk }

k=1

und 0 ≤

N X

(−1)k−1 1{x ∈ Ak } + 1{x ∈ Bk }

≤ 2

f¨ ur alle N ∈ N.

k=1

Aus dem Satz von der majorisierten Konvergenz folgt also, daß n

o

IP kW k[0,1] ≥ η, |W (1)| ≤ =

∞ X

n

o

n

o

(−1)k−1 IP W ∈ Ak , |W (1)| ≤ + IP W ∈ Bk , |W (1)| ≤

k=1 ∞ X

= 2

n

o

(−1)k−1 IP W ∈ Ak , |W (1)| ≤ .

k=1

Nun sei n

o

τk := inf t ≥ 0 : W (t) = (2k − 1)η . Dann gilt f¨ ur 0 < ≤ η: n

o

IP W ∈ Ak , |W (1)| ≤ n

o

= IP es ex. 0 ≤ t1 < · · · < tk ≤ 1 mit W (ti ) = (−1)i−1 η, |W (1)| ≤ n

o

= IP es ex. 0 ≤ t1 < · · · < tk ≤ 1 mit W (ti ) = (2 + (−1)i−2 )η, |W (1) − 2η| ≤ (Spiegeln an τ1 ; man beachte, daß τ1 ≤ t1 .) n

o

n

o

= IP es ex. 0 ≤ t2 < · · · < tk ≤ 1 mit W (ti ) = (2 + (−1)i−2 )η, |W (1) − 2η| ≤ = IP es ex. 0 ≤ t2 < · · · < tk ≤ 1 mit W (ti ) = (4 + (−1)i−3 )η, |W (1) − 4η| ≤


105

(Spiegeln an τ2 ≤ t2 ) n

o

= IP es ex. 0 ≤ t3 < · · · < tk ≤ 1 mit W (ti ) = (4 + (−1)i−3 )η, |W (1) − 4η| ≤ .. .

(induktiv) n

o

= IP es ex. 0 ≤ tk ≤ 1 mit W (ti ) = (2k − 1)η, |W (1) − 2(k − 1)η| ≤ n

o

= IP es ex. 0 ≤ tk ≤ 1 mit W (ti ) = (2k − 1)η, |W (1) − 2kη| ≤ (Spiegeln an τk ≤ tk ) n

o

= IP |W (1) − 2kη| ≤ . Folglich ist

IP kW k[0,1] ≥ η |W (1)| ≤

=

2

→ 2

∞ X

k=1 ∞ X

(−1)k−1

N (0, 1)[2kη − , 2kη + ] N (0, 1)[−, ]

(−1)k−1 exp(−2k 2 η 2 )

f¨ ur ↓ 0.

k=1

Dabei ist zu beachten, daß stets N (0, 1)[2kη − , 2kη + ] ≤ exp −(2kη − )2 /2 ≤ exp −2k(k − 1)η 2 . N (0, 1)[−, ]

Man kann also den Grenz¨ ubergang summandenweise durchf¨ uhren. Dies liefert Behauptung (11.5). 2

11.4.2

Lineare und quadratische Funktionale von Gaußprozessen

Sei (T , ρ) ein präkompakter pseudometrischer Raum und X ein Gaußprozess auf T mit stetigen Pfaden. Dies impliziert, daß auch µ := IE X und K := Cov(X) gleichmäßig stetige Funktionen auf T beziehungsweise T ×T sind3 , was im wesentlichen aus Aufgabe 9.5 folgt. Ferner sei Q ein Wahrscheinlichkeitsmaß auf den Borelmengen in T . Lemma 11.16 Sei Y ein stochastischer Prozess auf T mit stetigen Pfaden, definiert auf dem Wahrscheinlichkeitsraum (Ω, A, IP). Dann ist die Abbildung T ×Ω 3 (t, w) 7→ Y (t)(w) Borel(T ) ⊗ A-messbar. Insbesondere ist n

o

IE Q t ∈ T : Y (t) = f (t)

=

Z

IP{Y (t) = f (t)} Q(dt)

3 µ(t) := IE X(t) und K(s, t) := Cov[X(s), X(t)]; T × T wird metrisiert verm¨ oge ρe((s, t), (s0 , t0 )) := ρ(s, s0 ) + ρ(t, t0 )

¨ 106KAPITEL 11. DER KLASSISCHE EMPIRISCHE PROZESS, III:BROWNSCHE BEWEGUNG UND BRUCK f¨ ur beliebige messbare Funktionen f auf T , und IE falls Y ≥ 0 oder

R

Z

Z

Y (t) Q(dt) =

IE Y (t) Q(dt),

IE |Y (t)| Q(dt) < ∞.

Beweis: F¨ ur n ∈ N sei (Bn1 , Bn2 , . . . , Bnk(n) ) eine Partition von T in Borelmengen Bni mit diam(Bni ) < n−1 . F¨ ur feste Punkte tni ∈ Bni ist k(n)

X

Yn (t) :=

1{t ∈ Bni }Y (tni )

i=1

ein stochastischer Prozess auf T mit |Yn (t)(w) − Y (t)(w)| ≤ ω(Y, n−1 ) → 0 f¨ ur beliebige (t, w) ∈ T × Ω. Außerdem ist Yn messbar als Funktion auf T × Ω, da k(n)

n

(t, w) ∈ T × Ω : Yn (t)(w) ≤ r

o

=

[

n

o

Bni × w ∈ Ω : Y (tni )(w) ≤ r .

i=1

Somit ist auch Y eine messbare Funktion auf T × Ω. Die weiteren Aussagen folgen nun aus dem Satz von Fubini. 2 Satz 11.17 F¨ ur beliebige g ∈ L1 (Q) ist Xg dQ normalverteilt mit Mittelwert µg dQ R und Varianz Kg ⊗ g dQ⊗2 . Dabei ist (a ⊗ b)(s, t) := a(s)b(t) f¨ ur Funktionen a, b auf T . R

R

Korollar 11.18 F¨ ur beliebige d ∈ N und g1 , g2 , . . . , gd ∈ L1 (Q) ist Z

Xgi dQ

1≤i≤d

∼ N

Z

µgi dQ

1≤i≤d

,

Z

Kgi ⊗ gj dQ⊗2

1≤i,j≤d

.

2

Eine mögliche Charakterisierung von Normalverteilungen auf Rd lautet wie folgt: Ein Zufallsvektor Y ∈ Rd ist normalverteilt genau dann, wenn `>Y ∈ R normalverteilt ist f¨ ur d beliebige ` ∈ R . Die Verallgemeinerung auf Banachräume lautet dann: Sei Y eine Zufallsvariable mit Werten in einem Banachraum (B, k·k). Man nennt Y normalverteilt, wenn LY normalverteilt ist f¨ ur beliebige stetige Linearformen L auf B. Speziell f¨ ur Cu (T ), k · kT besagt der Rieszsche Darstellungssatz, daß jede stetige Linearform L auf Cu (T ) von der R Form Lx = x dν mit einem endlichen signierten Maß ν auf T ist. Aus Satz 11.17 und Lemma 10.3 folgt somit: Korollar 11.19 Die Menge der normalverteilten Cu (T )-Zufallsvariablen ist identisch mit der Menge aller Gaußprozesse mit gleichmäßig stetigen Pfaden.


107

Satz 11.20 Sei X zentriert. Es existiert ein vollständiges Orthonormalsystem (φk )k von L2 (Q) und eine monoton fallende Folge (λk )k in [0, ∞[ mit Z

Ferner ist

P

k

λk =

R

Kφj ⊗ φk dQ⊗2 = 1{j = k}λk

f¨ ur alle j, k.

K(t, t) Q(dt) und Z

X 2 dQ =L

X

λk Zk2

k

mit unabhängigen, standardnormalverteilten Zufallsvariablen Z1 , Z2 , Z3 , . . .. Im Falle einer Brownschen Br¨ ucke B und der Gleichverteilung auf [0, 1] definiert √ φk (t) := 2 sin(kπt) ein vollständiges Orthonormalsystem von L2 [0, 1] mit Z

0

1Z 1 0

1{j = k} , π2 k2

φj (t)φk (u)K(t, u) dt du =

wobei hier K(t, u) = t ∧ u − tu. Wie im Beweis von Satz 11.20 zeigt man, daß 1

Z

0

2

B(t) dt =L

∞ 1 X Zk2 . π 2 k=1 k 2

Pk(n)

Beweis von Satz 11.17: Sei Xn (t) := i=1 1{t ∈ Bni }X(tni ) mit Bni und tni ∈ Bni wie R R im Beweis von Lemma 11.16. Dann konvergiert Xn g dQ in Verteilung gegen Xg dQ. Doch Z

Xn g dQ =

X

X(tni )

X

µ(tni )

g dQ

Bni

i

∼ N

Z

Z

g dQ,

Bni

i

X

K(tni , tnj )

i,j

Z

Bni ×Bnj

g ⊗ g dQ⊗2 ,

und aus der gleichmäßigen Stetigkeit von µ und K folgt, daß Mittelwert und Varianz dieser R R Normalverteilung gegen µg dQ beziehungsweise Kg ⊗ g dQ⊗2 konvergieren. 2 Beweis von Satz 11.20: Aus der Funktionalanalysis ist bekannt, daß Z

Sg(t) :=

(g ∈ L2 (Q))

K(t, u)g(u) Q(du)

einen kompakten linearen Operator von L2 (Q) nach L2 (Q) definiert. Da K(s, t) = K(t, s) f¨ ur alle s, t ∈ T , ist dieser Operator S symmetrisch und positiv semidefinit, denn Z

(Sg)h dQ =

Z

⊗2

Kg ⊗ h dQ

= Cov

Z

Xg dQ,

Z

Xh dQ

(

R

= (Sh)g dQ, ≥ 0 falls g = h.

¨ 108KAPITEL 11. DER KLASSISCHE EMPIRISCHE PROZESS, III:BROWNSCHE BEWEGUNG UND BRUCK Aus dem Spektralsatz f¨ ur kompakte, normale Operatoren auf Hilberträumen folgt die Existenz eines vollständigen Orthonormalsystems (φk )k von L2 (Q) mit Sφk = λk φk , wobei R λ1 ≥ λ2 ≥ λ3 ≥ · · · ≥ 0. Nach Korollar 11.18 sind die Variablen Xφk dQ, k ≥ 0, stochastisch unabhängig und normalverteilt mit Mittelwert Null und Varianz λk . Nach der Parsevalschen Gleichung ist somit Z

X 2 dQ =

X Z

Xφk dQ

2

=L

k

X

λk Zk2 .

k

Insbesondere ist X

λk = IE

Z

X 2 dQ =

Z

K(t, t) Q(dt)

k

nach Lemma 11.16.

11.5

2

Der uniforme Quantilprozess

Mithilfe von Satz 11.8 kann man auch einen funktionalen Grenzwertsatz f¨ ur den uniformen −1 b Quantilprozess Gn beweisen. F¨ ur u ∈ [0, 1] sei id(u) := u. √ b −1 −id) konvergiert im Raum `∞ ([0, 1]) Satz 11.21 (Bahadur-Kiefer). Die Folge n(G n n in Verteilung gegen eine Brownsche Br¨ ucke. Ferner ist

√

√ b

b −1 − id) + n(G

n(G n − id) = op (1). n

F¨ ur den Beweis dieses Satzes benötigen wir folgendes Resultat: Lemma 11.22 (Vervaat). Sei T eine Abbildung von `∞ ([0, 1]) nach `∞ ([0, 1]) mit T1 f ≤ T f ≤ T2 f , wobei n

T1 f (u) := inf t ∈ [0, 1] : f (t) ≥ u n

o

T2 f (u) := sup t ∈ [0, 1] : f (t) ≤ u

o

(mit inf(∅) := 1), (mit sup(∅) := 0).

F¨ ur beliebige x ∈ `∞ ([0, 1]) ist dann

T (id +x) − id ≤ kxk

und T (id +x) − id +x ≤ ω x, kxk+ .

b −1 = T1 G b n und G b n = T2 G b −1 . Daher folgt Satz 11.21 aus Satz 11.8 Man beachte, daß G n n b n − id. und Lemma 11.22, angewandt auf x = G

11.5. DER UNIFORME QUANTILPROZESS

109

Beweis von Lemma 11.22: F¨ ur beliebiges festes u ∈ [0, 1] und t ∈ [−u, 1 − u] ist (id +x)(u + t) = u + t + x(u + t)

(

> u falls t > kxk, < u falls t < −kxk.

Folglich ist T2 (id +x)(u) ≤ u + kxk und T1 (id +x)(u) ≥ u − kxk, also insbesondere kT (id +x) − id k ≤ kxk. Mit ωo := ω(x, kxk+) ist ferner

u + t + x(u + t) = u + t + x(u) + x(u + t) − x(u) (

> u falls |t| ≤ kxk und t > −x(u) + ωo , < u falls |t| ≤ kxk und t < −x(u) − ωo .

Dies zeigt, daß T2 (id +x)(u) ≤ −x(u) + ωo und T1 (id +x)(u) ≥ −x(u) − ωo , also insbesondere kT (id +x) − id +xk ≤ ωo . 2 Anmerkung 11.23 Mithilfe von Satz 11.8 und Lemma 11.9 ergibt sich sogar, daß

√

(log n)1/2 √ b −1

b n − id) + n(G − id) .

n(G

= Op n 1/4

n

Anmerkung 11.24 Mithilfe des Invarianzprinzips f¨ urPartialsummenprozesse, Satz 11.7, √ −1 b kann man auch direkt nachweisen, daß n(Gn − id) in Verteilung gegen eine Brownn P

sche Br¨ ucke konvergiert. Sei nämlich Wn (t) := n−1/2 i≤nt Yi mit unabhängigen, expo√ nentialverteilten Zufallsvariablen Y1 , Y2 , Y3 , . . .. Mit Rn := Yn+1 / n = op (1) ist dann P W (t) + √n t n i≤nt Yi −1 b √ Gn =L P = ; t∈[0,1] Y W (1) + n + Rn t∈[0,1] i n i≤n+1

siehe Aufgabe 2.5. Also konvergiert √ √ b n n(Gn −id) =L √ Wn (t)−tWn (t)−tRn = Wn −Wn (1) id +op (1) t∈[0,1] n + Wn (1) + Rn in Verteilung gegen W − W (1) id, eine Brownsche Br¨ ucke. Aus Lemma 11.5, angewandt −1 b − id und T = T2 , kann man nun Satz 11.21 sowie Satz 11.8 ableiten. auf x = G n

Aufgaben Aufgabe 11.1 Beweisen Sie die unter Anmerkung 11.6 aufgef¨ uhrten Eigenschaften der Brownschen Bewegung und -Br¨ ucke. (Vorsicht bei t 7→ tW (1/t)!) b Aufgabe √ 11.2 Seien F, Fn , Fn wie in Abschnitt √ 11.3. Zeigen Sie, daß aus ω(Fn , 0+) = b o 1/ n folgt, daß auch ω(Fn , 0+) = op 1/ n .

¨ 110KAPITEL 11. DER KLASSISCHE EMPIRISCHE PROZESS, III:BROWNSCHE BEWEGUNG UND BRUCK Aufgabe 11.3 Formulieren und beweisen Sie einen zentralen Grenzwertsatz analog zu Satz 11.10 f¨ ur folgendes Funktional: T (P ) :=

Z

.Z

xw(F (x)) P (dx)

w(F (x)) P (dx),

wobei w : [0, 1] → [0, ∞[ stetig differenzierbar ist mit {w > 0} = ]α, 1 − α[ f¨ ur eine Konstante 0 < α < 1/2. Aufgabe 11.4 Sei B eine Brownsche Br¨ ucke. (a) Zeigen Sie, daß n

o

IP B(t) ≥ (a(1 − t) + bt)η f¨ ur ein t ∈ [0, 1]

= exp(−2abη 2 )

f¨ ur beliebige η, a, b ≥ 0. f (t) := Hinweis: Verwenden Sie die Tatsachen, daß W (t) := (1 + t)B(t/(1 + t)) und W σ −1 W (σ 2 t) Brownsche Bewegungen auf [0, ∞[ definieren.

(b) Zeigen Sie, daß maxt∈[0,1] B(t) und T := arg maxt∈[0,1] B(t) stochastisch unabhängig sind, wobei T ∼ U[0, 1]. Hinweis: F¨ ur r ∈ [0, 1] betrachte man die bedingte Verteilung von B gegeben B(r). Bis auf affine Transformationen sind dann (B(t))t∈[0,r] und (B(t))t∈[r,1] unabhängige Brownsche Br¨ ucken.

Kapitel 12

Chaining 12.1

Maximalungleichungen

Sei Z ein stochastischer Prozess auf einem präkompakten pseudometrischen Raum (T , ρ). Wir nehmen stets an, daß entweder T abzählbar ist oder Z stetige Pfade bez¨ uglich ρ hat. Das Chaining ist eine Technik, mit der man kZk oder ω(Z, δ) nach oben abschätzen kann. Ein entscheidender Schritt ist dabei, das Maximum endlich vieler Zufallsvariablen P Y1 , Y2 , . . . , Ym abzuschätzen. Eine naive Schranke ist IE maxi≤m |Yi | ≤ i≤m IE |Yi |. Folgendes Lemma liefert eine Verfeinerung hiervon: Lemma 12.1 (Pisier). Sei ψ : R → [0, ∞[ eine gerade, konvexe Funktion mit ψ(0) = 0 und ψ 6≡ 0. F¨ ur beliebige m ∈ N und Zufallsvariablen Y1 , Y2 , . . . , Ym ist IE max |Yi | ≤ ψ −1 i≤m

n

m X

IE ψ(Yi ) ,

i=1

o

wobei ψ −1 (t) := sup r ≥ 0 : ψ(r) ≤ t f¨ ur t ≥ 0. Mithilfe dieses Lemmas kann man folgenden Satz beweisen: Satz 12.2 (Chaining, I). Sei ψ : R → [0, ∞[ wie in Lemma 12.1. F¨ ur beliebige s, t ∈ T sei Z(s) − Z(t)

≤ 1, falls ρ(s, t) > 0, ρ(s, t) Z(s) = Z(t) fast sicher, falls ρ(s, t) = 0. IE ψ

111

112

KAPITEL 12. CHAINING

(a) F¨ ur beliebige to ∈ T und δ(to ) := supt∈T ρ(t, to ) ist IE kZk ≤ IE |Z(to )| + 8

Z

δ(to )

0

Ψ−1 N (u, T , ρ) du.

(b) F¨ ur beliebige δ > 0 ist

IE ω Z, δ

≤ 16

Z

0

δ

Ψ−1 N (u, T , ρ)2 du.

Beweis von Lemma 12.1: Da ψ(r) eine isotone Funktion von |r| ist, folgt:

IE max |Yi | = IE ψ −1 max ψ(Yi ) i≤m

≤ ψ

−1

≤ ψ −1

i≤m

IE max ψ(Yi ) i≤m

m X

IE ψ(Yi ) ,

i=1

wobei die vorletzte Ungleichung eine Konsequenz der Jensenschen Ungleichung ist.

2

Beweis von Satz 12.2, Teil (a): Sei T = {to , t1 , t2 , . . .}, oder sei {to , t1 , t2 , . . .} eine dichte Teilmenge von T , und Z habe stetige Pfade. Nach dem Satz von der monotonen Konvergenz ist in beiden Fällen IE kZk = limk→∞ IE kZk{to ,t1 ,...,tk } . Deshalb kann man ohne Einschränkung annehmen, daß T endlich ist. Außerdem kann man annehmen, daß ρ(s, t) > 0 f¨ ur verschiedene s, t ∈ T . Nun sei T0 := {to }, und f¨ ur k ∈ No sei δk := 2−k δ(to ). F¨ ur k = 0, 1, 2, . . . wählen wir induktiv eine maximale Teilmenge Tk+1 von T , so daß gilt: Tk ⊂ Tk+1

und ρ(s, t) > δk+1

f¨ ur verschiedene s, t ∈ Tk+1 .

Die Maximalität von Tk f¨ ur k ≥ 1 und die Definition von δ(to ) = δ0 implizieren, daß ρ(t, Tk ) ≤ δk

f¨ ur alle t ∈ T und k ∈ No .

Insbesondere ist T0 ⊂ T1 ⊂ T2 ⊂ · · · ⊂ T` = T f¨ ur ein ` ∈ N. Eine andere wichtige Tatsache ist, daß #Tk ≤ D(δk , T , ρ) ≤ N (δk+1 , T , ρ)

f¨ ur alle k ∈ No .

F¨ ur jedes k ∈ No und t ∈ T wählen wir einen Punkt πk t ∈ Tk , so daß ρ(t, πk t) ≤ δk . Dann ist kZkTk+1 (12.1)

≤

max |Z(πk t)| + |Z(t) − Z(πk t)|

t∈Tk+1

≤ kZkTk + max |Z(t) − Z(πk t)|, t∈Tk+1

12.1. MAXIMALUNGLEICHUNGEN

113

und nach Lemma 12.1 ist IE max |Z(t) − Z(πk t)| = δk IE max t∈Tk+1

t∈Tk+1

|Z(t) − Z(πk t)| δk

≤ δk Ψ−1 (#Tk+1 )

≤ δk Ψ−1 N (δk+2 , T , ρ)

= 8(δk+2 − δk+3 )Ψ−1 N (δk+2 , T , ρ) ≤ 8

Z

δk+2

Ψ−1 N (u, T , ρ) du.

δk+3

Letztere Ungleichung folgt aus der Antitonie von ψ −1 (N (u, T , ρ)) in u > 0. Kombiniert man diese Ungleichungen f¨ ur k = 0, 1, 2, . . . , ` − 1, dann folgt, daß IE kZkT

≤ IE kZkT0 + 8

∞ Z X

δk+2

k=0 δk+3 Z δ(to )

≤ IE |Z(to )| + 8

0

Ψ−1 N (u, T , ρ) du

Ψ−1 N (u, T , ρ) du.

2

Beweis von Satz 12.2, Teil (b): Dieses Resultat folgt aus Teil (a), indem man das e teo ) ersetzt, wobei Tupel (T , ρ, Z, to ) durch (Te , ρe, Z, Te

ρe (s, t), (s0 , t0 )

:=

n

:=

o

(s, t) ∈ T × T : ρ(s, t) < δ ,

ρ(s, s0 ) + ρ(t, t0 ) ∧ ρ(s, t) + ρ(s0 , t0 ) ,

e t) := Z(s) − Z(t), Z(s,

teo := (to , to )

e teo ) ≡ 0. e und Z( f¨ ur ein beliebiges to ∈ T . Dann ist nämlich ω(Z, δ) = kZk Te

Man kann leicht zeigen, daß ρe eine Pseudometrik auf Te ist, und daß N (u, Te , ρe) ≤ N (u, T × T , ρe) ≤ N (u/2, T , ρ)2

f¨ ur alle u > 0.

In der Tat gilt letztere Ungleichung f¨ ur die “Manhattan-Metrik” dM [(s, t), (s0 , t0 )] := ρ(s, s0 ) + ρ(t, t0 ) anstelle von ρe. Ferner ist

ρe (s, t), (s0 , t0 )

= dM [(s, t), (s0 , t0 )] ∧ dM [(s, t), ∆] + dM [(s0 , t0 ), ∆]

mit der “Diagonalen” ∆ := {(t, t) : t ∈ T } von T . Eine mögliche anschauliche Deutung: Der Abstand dM misst Fußwege in Manhattan. Man kann zu Fuß von (s, t) nach (s0 , t0 )

114


gelangen und legt dabei den Weg dM [(s, t), (s0 , t0 )] zur¨ uck. Oder man läuft von (s, t) aus auf dem schnellsten Wege zur Diagonalen ∆, zum Beipiel nach (s, s) oder (t, t), fährt ein St¨ uck mit der U-Bahn entlang ∆ bis zum Punkt (s0 , s0 ) oder (t0 , t0 ), und läuft von dort aus nach (s0 , t0 ). Also beschreibt ρe den k¨ urzesten Fußweg bei möglicher U-Bahnbenutzung. Schließlich kann man mithilfe der Konvexität von Ψ zeigen, daß Z( e se) − Z( e t) e

IE Ψ

e ρe(se, t)

≤ 1

f¨ ur beliebige se, te ∈ Te ,

e teo ) ≤ δ, folgt aus Teil (a), wobei ψ(0/0) := 0 und ψ(a/0) := ∞ f¨ ur a > 0. Da supet∈Te ρe(t, daß e IE kZk ≤ 8 Te

Z

0

δ

Ψ−1 N (u/2, T , ρ)2 du = 16

Z

δ/2

0

Ψ−1 N (u, T , ρ)2 du.

2

Die Maximalungleichung von Lemma 12.1 kann man unter einer zusätzlichen Annahme an die Funktion ψ noch verfeinern. Dazu definieren wir f¨ ur eine Zufallsvariable Y die Orlicz-Norm n

o

kY kψ := inf r > 0 : IE ψ(Y /r) ≤ 1

(mit inf(∅) := ∞).

Dies ist eine Seminorm auf dem Vektorraum Lψ (IP) aller Zufallsvariablen Y auf (Ω, A, IP), so daß IE ψ(Y /r) < ∞ f¨ ur ein r > 0 (Aufgabe 12.1). F¨ ur den Spezialfall ψ(x) := |x|p erhält man den u ¨blichen Raum Lp (IP) und die Seminorm kY kp = (IE |Y |p )1/p . Lemma 12.3 Sei ψ : R → [0, ∞[ wie in Lemma 12.1, und es sei lim sup x,y→∞

ψ(x)ψ(y) < ∞. ψ(xy)

Dann existiert eine universelle Konstante C(ψ), so daß f¨ ur beliebige m ∈ N und Zufallsvariablen Y1 , Y2 , . . . , Ym gilt:

max |Yi | i≤m

ψ

≤ C(ψ)ψ −1 (m) max kYi kψ . i≤m

Dieses Lemma ergibt eine verbesserte Version von Satz 12.2: Satz 12.4 (Chaining, II). Sei ψ : R → [0, ∞[ wie in Lemma 12.3. F¨ ur beliebige s, t ∈ T sei kZ(s) − Z(t)kψ ≤ ρ(s, t). Dann gilt f¨ ur eine universelle Konstante C(ψ):

12.1. MAXIMALUNGLEICHUNGEN

115

(a) F¨ ur beliebige to ∈ T und δ(to ) := supt∈T ρ(t, to ) ist

kZk

Z

≤ kZ(to )kψ + C(ψ)

ψ

δ(to )

0

Ψ−1 N (u, T , ρ) du.


ω Z, δ

≤ C(ψ)

ψ

Z

δ

0

Ψ−1 N (u, T , ρ)2 du.

Ein wichtiger Spezialfall f¨ ur ψ ist die Funktion ψo (x) := exp(x2 ) − 1. Hier kann man zeigen, daß IP{|Y | ≥ η} ≤ 2 exp(−Lη 2 ) f¨ ur alle η ≥ 0,

(12.2)

falls kY kψo ≤

q

1/L,

q

3/L falls IP{|Y | > η} ≤ 2 exp(−Lη 2 ) f¨ ur alle η ≥ 0 √ √ √ (Aufgabe 12.2). Es ist ψo−1 (r) = 1 + log r ≤ log r/ 1 + log 2, falls r ≥ 2. Aus Satz 12.4 kann man folgendes Resultat ableiten: kY kψo ≤

(12.3)

Korollar 12.5 Angenommen, Z hatnsubgaußsche Zuwächse obez¨ uglich ρ. Das bedeutet, f¨ ur beliebige s, t ∈ T und η ≥ 0 ist IP |Z(s) − Z(t)| > ρ(s, t)η ≤ 2 exp(−η 2 /2). F¨ ur eine universelle Konstante C gilt dann: (a) F¨ ur beliebige to ∈ T und δ(to ) := supt∈T ρ(t, to ) ist

kZk

ψo

≤ kZ(to )kψo + C

Z

0

δ(to ) q

log N (u, T , ρ) du.


ω Z, δ

ψo

≤ C

Z

0

δ

q

log N (u, T , ρ) du.

2

Beweis von Lemma 12.3: Ohne Einschränkung sei kYi kψ ≤ 1 f¨ ur alle i ≤ m. Nach Voraussetzung existieren Konstanten ro ≥ 0 und so ≥ 1, so daß ψ(x)ψ(y) ≤ so ψ(xy) f¨ ur alle x, y ≥ ro . Dann ist

.

IE ψ max |Yi | (ψ −1 (m) ∨ ro ) i≤m

.

≤ ψ(ro ) + so IE ψ max |Yi | ≤ ψ(ro ) + so .

i≤m

ψ(ψ −1 (m) ∨ ro )

116


Wegen ψ(0) = 0 und der Konvexität von ψ ist ψ(·/`) ≤ ψ/` f¨ ur beliebige ` ≥ 1. Folglich ist

max |Yi |

ψ

i≤m

≤ (ψ(ro ) + so )(ψ −1 (m) ∨ ro ) ≤ (ψ(ro ) + so ) (ro /ψ −1 (1)) ∨ 1 ψ −1 (m). 2

Beweis von Satz 12.4: Mit den gleichen Bezeichnungen wie im Beweis von Satz 12.2 folgt aus (12.1) und Lemma 12.3, daß

kZkTk+1

ψ

≤ kZkTk + δk ψ −1 N (δk+2 , T , ρ) ψ

Z

≤ kZkTk + 8 ψ

δk+2

δk+3

Ψ−1 N (u, T , ρ) du.

Nun argumentiert man wie im Beweis von Satz 12.2.

12.2

2

Anwendungen

Sei Zn = ni=1 φni mit unabhängigen stochastischen Prozessen φni auf einer abzählbaren Menge T . Anstelle von ρbn betrachten wir die zufällige Pseudometrik P

v u n uX ρbn,2 (s, t) = ρbn,2 (s, t | φn1 , . . . , φnn ) := t (φni (s) − φni (t))2 i=1

Pn

auf T . Sei nämlich Zno der symmetrisierte Prozess i=1 ξi φni . Gegeben φn1 , . . . , φnn , hat der Prozess Zno stetige Pfade und subgaußsche Zuwächse bez¨ uglich ρbn,2 . Diese Tatsache folgt aus Hoeffdings Ungleichung, Korollar 6.2, und wird nun in verschiedenen Situationen angewandt.

12.2.1

Prozesse mit Lipschitz-stetigen Pfaden

Angenommen, die Prozesse φni haben Lipschitz-stetige Pfade, und IE φni existiere in RT . F¨ ur x : T → R definieren wir |x(s) − x(t)| kxkLip := sup . ρ(s, t) s,t∈T :s6=t Dann gilt: Lemma 12.6 Es existiert eine universelle Konstante C < ∞, so daß v u n Z uX IE ω(Zn − IE Zn , δ) ≤ C t IE kφni k2(1−γ) kφni k2γ Lip i=1

f¨ ur beliebige δ > 0 und γ ∈ (0, 1].

0

δγ

r

log N (u1/γ , T , ρ) du

12.2. ANWENDUNGEN

117

Beweis: Nach Symmetrisierungslemma 4.1 [b] und 4.2 [b] ist IE ω(Zn − IE Zn , δ) nicht größer als 2 IE ω(Zno , δ). Wie schon erwähnt hat der symmetrisierte Prozess Zno subgaußsche Zuwächse bez¨ uglich ρbn,2 , gegeben φn1 , . . . , φnn . Außerdem ist (φni (s) − φni (t))2 = |φni (s) − φni (t)|2(1−γ) |φni (s) − φni (t)|2γ 2γ ≤ 41−γ kφni k2(1−γ) kφni k2γ Lip ρ(s, t) ,

weshalb ρbn,2 (s, t) ≤ ρˇn (s, t) := Dn ρ(s, t)γ

mit Dn

v u n X u := t41−γ kφi k2(1−γ) kφi k2γ Lip . i=1

Ferner ist ω(Zno , δ | ρ) ≤ ω(Zno , Dn δ γ | ρˇn ) und N (u, T , ρˇn ) ≤ N (u/Dn )1/γ , T , ρ . Daher folgt aus Korollar 12.5, daß

IE

ω(Zno , δ) φn1 , . . . , φnn

≤ C ≤ C

Z

Dn δ γ

Z

Dn δ γ

0

0

= CDn

Z

δγ

0

q

log N (u, T , ρˇn ) du

r

log N (u/Dn )1/γ , T , ρ du

q

log N (u1/γ , T , ρ) du,

und die Behauptung folgt durch Integration beider Seiten bez¨ uglich der Verteilung von (φn1 , . . . , φnn ). 2 Beispiel 12.7 Ein spezielles Anwendungsbeispiel sind empirische charakteristische Funktionen. Sei T eine beschränkte Teilmenge des Rd , und sei ρ(s, t) := |s−t|. F¨ ur unabhängige, d identisch verteilte Zufallsvariablen X1 , X2 , X3 , . . . ∈ R sei Zn (t, 1) := n−1/2

n X

cos(t>Xi ),

Zn (t, 2) := n−1/2

n X

sin(t>Xi ).

i=1

i=1

Falls IE |X1 | < ∞

f¨ ur ein > 0,

dann konvergiert (Zn −IE Zn )n im Raum `∞ (T ×{1, 2}) in Verteilung gegen einen zentrierten Gaußprozess Z mit gleichmäßig stetigen Pfaden bez¨ uglich der Metrik ρe((s, j), (t, k)) := |s − t| + |j − k|. Denn aus dem multivariaten Zentralen Grenzwertsatz folgt, daß die endlichdimensionalen Randverteilungen von Zn schwach gegen zentrierte Normalverteilungen

118


mit der gleichen Kovarianzfunktion wie Z1 konvergieren. Nach Satz 10.5 in Kapitel 10 gen¨ ugt es zu zeigen, daß die Folgen (Zn (·, 1))n und (Zn (·, 2))n stochastisch gleichstetig bez¨ uglich ρ sind. Dies folgt aber aus Lemma 12.6 angewandt auf φni (t) := n−1/2 cos(t>Xi ) beziehungsweise φni (t) := n−1/2 sin(t>Xi ). Denn kφni kT ≤ n−1/2 ,

kφi kLip ≤ n−1/2 |Xi | und N (u, T , ρ) ≤

1+

2diam(T ) d . u

−1 2γ Letztere Ungleichung folgt aus Lemma 8.1. Folglich ist kφni k2(1−γ) kφni k2γ Lip ≤ n |Xi | und s Z γs q d δ 2diam(T ) IE ω(Zn (·, j), δ) ≤ C IE |X1 |2γ log 1 + du. γ 0 u

12.2.2

Eine Maximalungleichung fu ¨ r empirische Prozesse

Sei F eine punktweise separable Familie von messbaren Funktionen f : X → [0, 1] mit 0 ∈ F. Ferner sei Z q 1

log N (u2 , F) du < ∞

J(F) :=

0

¨ mit den uniformen Uberdeckungszahlen N (·, F) aus Kapitel 8.3. Dann ist stets

√

nkPbn − P kF

ψo

≤ CJ(F)

mit einer universellen Konstanten C. Denn f¨ ur r > 0 folgt aus den beiden Symmetrisierungen, daß

√

≤ 2 kZno kF .

nkPbn − P kF ψo

Hier ist Zno (f ) := n

−1/2 Pn

i=1 ξi f (Xi )

ρbn,2 (f, g) =

ψo

und

q

Pbn (|f − g|2 ) ≤

q

Pbn |f − g|.

Folglich ist N (u, F, ρbn,2 ) ≤ N (u2 , F, ρPb ) ≤ N (u2 , F), und Korollar 12.5 ergibt n

IE ψo

kZ o k n F

CJ(F)

= IE IE ψo

kZ o k n F X1 , . . . , Xn ≤ 1.

CJ(F)

Es sei noch angemerkt, daß J(F) ≤ C 0 V [sgr(F)] mit der VC-Dimension V [sgr(F)] von sgr(F) und einer universellen Konstanten C 0 . Diese Ungleichung folgt direkt aus Satz 8.4.

12.2. ANWENDUNGEN

12.2.3

119

Ein Funktionaler Zentraler Grenzwertsatz

Neben ρbn,2 betrachten wir nun auch die Metrik ρn,2 (s, t) :=

q

IE ρbn,2 (s, t)2 .

Mit den Prozessen φeni (s, t) := φni (s)φni (t)

und

Zen :=

n X i=1

φeni

auf T × T kann man auch schreiben: ρbn,2 (s, t)2 = Zen (s, s) + Zen (t, t) − 2Zen (s, t).

Insbesondere ist kρb2n,2 − ρ2n,2 kT ×T ≤ 4kZen − IE Zen kT ×T .

Wir nehmen im folgenden an, daß die Prozesse φni und Zn “separabel” sind in folgendem Sinne: Es existiere eine abzählbare Teilmenge To von T , so daß kφni k, kZn − IE Zn k, ω(Zn − IE Zn , δ | ρn,2 ) unverändert bleiben, wenn man T durch To ersetzt. Lemma 12.8 Angenommen, die folgenden zwei Bedingungen sind erf¨ ullt: IE

n X

IE

n n X

kφni k2 = O(1) und

i=1

(12.4)

o

1 kφni k2 > u kφni k2 = o(1)

f¨ ur beliebige u > 0;

i=1

Z

(12.5)

δ

0

q

log N (u, T , ρbn,2 ) du →p 0

Daraus folgt, daß (12.6) (12.7) (12.8)

f¨ ur n → ∞, δ ↓ 0.

IE kZen − IE Zen kT ×T = o(1) und N (u, T , ρn,2 ) = O(1) f¨ ur alle u > 0;

ω Zn − IE Zn , δ ρn,2

→p 0

f¨ ur n → ∞, δ ↓ 0;

kZn − IE Zn k = Op (1).

Anmerkung 12.9 Seien die φni signierte Maße auf X und F eine punktweise separable Klasse von messbaren Funktionen auf X mit Einh¨ ullender F := supf ∈F |f |; siehe Abschnitt 8.3. Dann ist Voraussetzung (12.4) erf¨ ullt, falls IE

n X i=1

|φni |(F )2 = O(1)

und

IE

n X i=1

1{|φni |(F )2 > u} |φni |(F )2 = o(1) f¨ ur alle u > 0.

120


Setzt man zusätzlich noch voraus, daß J(F) :=

Z

0

1q

log N (u2 , F) du < ∞,

c dann ist auch Bedingung (12.5) erf¨ ullt. Denn ρbn,2 (f, g)2 ≤ ρM b (f, g) mit dem Maß Mn :=

2

0

δ

q

q

log N (u, F, ρbn,2 ) du ≤

cn (F ) M

q

cn (F ) = M

Z

p

δ/

bn (F ) q M

0

q

≤ f¨ ur 0 < u, δ ≤

cn (F ), F und weshalb N (u, F, ρbn,2 ) ≤ N u2 /M

i=1 |φni |(F ) |φni |,

Z

n

Pn

cn (F ) ∨ 1 M

δ

Z

0

log N (u2 , F) du

q

log N (u2 , F) du

1/2 n 2 |φ |(F ) . i=1 ni

P

Beweis von Lemma 12.8: Der erste Teil von Behauptung (12.6) folgt aus Satz 8.3, e T ×T = kφni k2 , was angewandt auf die Prozesse φeni anstelle von φni . Zum einen ist kφk Bedingung (8.3”) impliziert. Zum anderen folgt aus (12.5), daß N (u, T , ρbn,2 ) = Op (1)

(12.9)

f¨ ur alle u > 0,

denn f¨ ur 0 < δ ≤ u ist stets q

log N (u, T , ρbn,2 ) ≤ δ −1

Z

δ

0

q

log N (x, T , ρbn,2 ) dx.

Ferner ist

ρbn (s, t), (s0 , t0 ) φen1 , . . . , φenn ≤

n X

|φni (t)||φni (s) − φni (s0 )| + |φni (s0 )||φni (t) − φni (t0 )|

i=1

v u n uX ≤ t kφni k2 ρbn,2 (s, s0 ) + ρbn,2 (t, t0 ) , i=1

woraus man ableiten kann, daß

N u, T × T , ρbn (·, · | φen1 , . . . , φenn )

≤ N

u 2

pPn

i=1 kφni k

, T , ρbn,2 2

= Op (1).

Also ist auch Bedingung (8.4”) erf¨ ullt. Folglich ist IE kρb2n,2 − ρ2n,2 kT ×T ≤ 4 IE kZen − IE Zen kT ×T = o(1). Zusammen mit (12.9) folgt hieraus der zweite Teil von (12.6).

12.2. ANWENDUNGEN

121

Zur Behauptung (12.7): Da Var[Zn (s) − Zn (t)] ≤ ρn,2 (s, t)2 , kann man aus Symmetrisie√ rungslemma 4.1 [a] und 4.2 [a] ableiten, daß f¨ ur η ≥ 2δ > 0 gilt: n

IP ω(Zn − IE Zn , δ | ρn,2 ) ≥ 3η n

≤ 4 IP ω(Zno , δ | ρn,2 ) ≥ η

o

o

n

o

n

≤ 4 IP kρb2n,2 − ρ2n,2 kT ×T ≥ δ 2 + 4 IP ω(Zno , 2δ | ρbn,2 ) ≥ η n

o

o

≤ o(1) + 4 IP ω(Zno , 2δ | ρbn,2 ) ≥ η ,

gemäß (12.6). Doch gegeben φn1 , . . . , φnn hat Zno oder subgaußsche Zuwächse bez¨ uglich ρbn,2 , und nach Korollar 12.5 ist

IE ω(Zno , 2δ | ρbn,2 ) φn1 , . . . , φnn ≤ C

Z

2δ

0

q

log N (u, T , ρbn,2 ) du →p 0

f¨ ur n → ∞, δ ↓ 0.

Dies ergibt Behauptung (12.7). Zu beweisen bleibt (12.8). Gemäß (12.6) und (12.7) gibt es zu beliebigem > 0 eine Folge von Mengen Tn ⊂ T mit #Tn = O(1)

und

n

lim sup IP kZn − IE Zn k ≥ kZn − IE Zn kTn + 1 n→∞

o

≤ .

Doch nach (12.4) ist IE kZn − IE Zn kTn

≤

X

t∈Tn

IE Zn (t) − IE Zn (t) r

≤ #Tn sup Var[Zn (t)] t∈T

v u n u X t ≤ #Tn IE kφni k2 i=1

= O(1).

2

Satz 12.10 Angenommen, die Voraussetzungen von Lemma 12.8 sind erf¨ ullt. Desweiteren gebe es Funktionen H und K auf T × T , so daß (12.10)

k IE Zen − HkT ×T → 0

und k Cov(Zn ) − KkT ×T → 0.

Dann ist T präkompakt bez¨ uglich der Pseudometrik ρ(s, t) :=

q

H(s, s) + H(t, t) − 2H(s, t),

122


und (Zn − IE Zn )n konvergiert im Raum `∞ (T ) in Verteilung gegen einen zentrierten Gaußprozess W auf T mit Kovarianzfunktion K und gleichmäßig stetigen Pfaden bez¨ uglich ρ. Anmerkung 12.11 Im Falle von zentrierten Prozessen, IE φni ≡ 0 f¨ ur alle i, ist IE Zen ≡ Cov(Zn ). Tatsächlich bleibt Bedingung (12.4) g¨ ultig, wenn man die Prozesse φni jeweils durch φni − IE φni ersetzt (Aufgabe 12.3). Dagegen u ¨berträgt sich Bedingung (12.5) nicht automatisch auf die zentrierten Prozesse. Beweis von Satz 12.10: Aus (12.4) und (12.10) folgt zusammen mit dem Lindebergschen Zentralen Grenzwertsatz, daß die endlichdimensionalen Randverteilungen von Zn − IE Zn schwach gegen die entsprechenden Randverteilungen eines zentrierten Gaußprozesses mit Kovarianzfunktion K konvergieren. Aus (12.10) folgt, daß kρ2n,2 − ρ2 kT ×T = o(1). Zusammen mit (12.6) ergibt sich die Präkompaktheit von (T , ρ), und (12.7) impliziert die stochastische Gleichstetigkeit von (Zn − IE Zn )n bez¨ uglich ρ. Die Verteilungskonvergenz von (Zn − IE Zn )n ist also eine direkte Folge von Satz 10.5. 2

12.2.4

Empirische Prozesse und P -Bru ¨ cken

Wie in Kapitel 8.3 sei F eine punktweise separable Familie von meßbaren Funktionen auf X mit Einh¨ ullender F := supf ∈F |f |. Falls PF2 < ∞

und J(F) :=

Z

0

1q

log N (u2 , F) du < ∞,

√ dann konvergiert der empirische Prozess n(Pbn − P )(f ) im Raum `∞ (F) in Verteif ∈F lung gegen einen zentrierten Gaußprozess BP mit Kovarianzen

IE BP (f )BP (g) = P (f g) − P (f )P (g) und gleichmäßig stetigen Pfaden bez¨ uglich der Metrik ρ(f, g) :=

q

P ((f − g)2 ).

Dies folgt im wesentlichen aus Satz 12.10; siehe auch Anmerkung 12.9. Den Grenzprozess BP nennt man auch eine P -Br¨ ucke. √ Bei festem P hängen sowohl ρn,2 als auch Cov[ n(Pbn −P )] nicht von n ab. Lemma 12.8 und Satz 12.10 beinhalten aber auch folgendes Resultat: Sei Pbn die empirische Verteilung von

12.2. ANWENDUNGEN

123

unabhängigen Zufallsvariablen Xn1 , Xn2 , . . . , Xnn mit Verteilung Pn auf X. Sei J(F) < ∞, und es gelte: Pn (F 2 ) = O(1)

und Pn (1{F 2 > nu}F 2 ) = o(1) f¨ ur beliebige u > 0. sup f,g∈F ∪{1}

√

Pn (f g) − P (f g) = o(1).

Dann konvergiert n(Pbn − Pn )(f ) Br¨ ucke. Desweiteren gilt: IE Pbn (F 2 ) = O(1)

und sup

f ∈F

im Raum `∞ (F) in Verteilung gegen eine P -

IE Pbn (1{F 2 > nu}F 2 ) = o(1) f¨ ur beliebige u > 0;

f,g∈F ∪{1}

b Pn (f g) − P (f g) = op (1).

Dabei folgt letztere √ Tatsache aus (12.6). Man kann also die Verteilung von Statistiken, b die stetig von n(Pn − Pn )(f ) abhängen, konsistent schätzen, indem man die unf ∈F

bekannte Verteilung Pn durch Pbn ersetzt.

12.2.5

Partialsummenprozesse und P -Bewegungen

Sei F wie in Abschnitt 12.2.4, und sei Sbn (f ) := n−1/2

n X

Yi f (xni )

i=1

ein Partialsummenprozess wie in Abschnitt 1.2. Angenommen, folgende vier Bedingungen P sind erf¨ ullt mit Pn := n−1 ni=1 δxni : IE Y1 = 0 Pn (F 2 ) = O(1)

und

IE Y12 = 1;

und Pn (1{F 2 > nu}F 2 ) = o(1) f¨ ur beliebige u > 0. J(F) < ∞; sup Pn (f g) − P (f g) = o(1)

f,g∈F

f¨ ur ein Wahrscheinlichkeitsmaß P auf X. Dann konvergiert Sbn im Raum `∞ (F) in Verteilung gegen einen zentrierten Gaußprozess WP mit Kovarianzen IE WP (f )WP (g) = P (f g) und gleichmäßig stetigen Pfaden bez¨ uglich der Metrik ρ(f, g) :=

q

P ((f − g)2 ) = Var[WP (f ) − WP (g)].

Diesen Grenzprozess WP nennt man auch eine P -Bewegung. Ist 1 ∈ F, was man ohne Einschränkung annehmen kann, dann definiert BP (f ) := W (f )−P (f )W (1) eine P -Br¨ ucke, und BP , WP (1) sind stochastisch unabhängig.

124

12.2.6


Vorzeichentests fu ¨ r lineare Regression

Seien Yn1 , Yn2 , . . . , Ynn unabhängige Zufallsvariablen mit stetigen Verteilungsfunktionen Fni (r) := IP{Yni ≤ r}. Eine nichtparametrische Variante des linearen Modells ist die Annahme, daß f¨ ur gegebene d feste Vektoren xn1 , xn2 , . . . , xnn ∈ R und einen unbekannten Parameter θn ∈ Rd gilt: Fni (θn>xni ) =

(12.11) Mit

~ n (γ) := Z

n X

1 2

f¨ ur 1 ≤ i ≤ n

1{Yni ≤ γ >xni } −

i=1

ist allgemein ~ n (γ) = IE Z

n X

1 xni ∈ Rd 2

Fni (γ >xni ) −

i=1

1 xni . 2

~ n (γ) = 0 genau dann, wenn Fni (γ >xni ) = 1/2 Unter der Modellannahme (12.11) ist IE Z f¨ ur alle i ≤ n, und ~ n (θn ) =L 2Z

n X

ξi xni

i=1

mit einer Rademacher-Folge (ξ1 , ξ2 , . . . , ξn ). Ist also Bn (α) ⊂ Rd eine Menge mit n nX

IP

o

ξi xni ∈ Bn (α)

≥ 1 − α,

i=1

n

o

~ n (γ) ∈ Bn (α) einen Test der Hypothese “θn = γ” zum Niveau 1 − α, dann definiert 1 2Z n o ~ n (γ) ∈ Bn (α) ist ein Konfidenzbereich f¨ und Cn (α) := γ ∈ Rd : 2Z ur θn mit Konfidenzniveau 1 − α. ~ n : Rd → Nun betrachten wir das asymptotische Verhalten des vektorwertigen Prozesses Z Rd . Wir setzen voraus, daß (12.12)

n X

xni x> ni = I;

i=1

(12.13)

max |xni | = o(1). i≤n

√

Dabei sei |v| die Euklidische Norm v >v. Durch lineare Transformation der Vektoren xni und Dimensionsreduktion, falls nötig, kann man stets erreichen, daß Bedingung (12.12) erf¨ ullt ist. Insbesondere ist dann n X i=1

|xni |2 = d.

12.2. ANWENDUNGEN

125

Unter Bedingung (12.12) ist |xni |2 die “Hebelkraft” (leverage) des Design-Punktes xni . Bedingung (12.13) verbietet also die Existenz von “Hebelarmpunkten”. Lemma 12.12 Unter der Voraussetzung (12.12) ist

~ ~ n kR d

kZn − IE Z

ψo

≤ Cd

f¨ ur eine universelle Konstante C. Setzt man zusätzlich (12.13) voraus, dann gilt:

wobei

~ n − IE Z ~ n , δ ρn ω Z ρn (γ, γe ) :=

n X i=1

→p 0

f¨ ur n → ∞, δ ↓ 0,

|xni |2 Fni (γ >xni ) − Fni (γe >xni ) .

Unter den Annahmen (12.11), (12.12) und (12.13) folgt aus dem Lindebergschen Zentralen Grenzwertsatz, daß ~ n (θn ) →w Nd (0, I). L 2Z Daher ist Cn,r :=

n

~ n (γ)| ≤ r γ ∈ Rd : |Z

o

ein spezieller Konfidenzbereich f¨ ur θn mit asymptotischem Konfidenzniveau n

lim IP θn ∈ Cn,r

n→∞

o

= χ2d ([0, 4r2 ]).

Die Berechnung von Cn,r ist alles andere als trivial, obwohl wir gleich sehen werden, daß es sich unter gewissen Annahmen approximativ um eine Kugel mit Mittelpunkt θbn handelt. Dieser Punkt ist ein Schätzer θbn ∈ arg min Hn (γ)

mit Hn (γ) :=

γ∈Rd

n X

|Yni − γ >xni |.

i=1

Die Funktion Hn ist konvex, und man kann leicht zeigen, daß Hn (γ) → ∞ f¨ ur |γ| d ∞, da die Vektoren xni unter Bedingung (12.12) den Raum R aufspannen. Also arg min(Hn ) eine nichtleere, kompakte und konvexe Teilmenge des Rd . Ein Punkt gehört zu arg min(Hn ) genau dann, wenn DHn (θbn , δ) := lim t↓0

Hn (θbn + tδ) − Hn (θbn ) ≥ 0 t

f¨ ur alle δ ∈ Rd .

Doch man kann leicht nachweisen, daß DHn (θbn , δ) =

n X i=1

sign(θbn>xni − Yni )δ >xni +

~ n (θbn ) + = 2δ >Z

n X i=1

n X i=1

1{Yni = θbn>xni }|δ >xni |

1{Yni = θbn>xni }(δ >xni )− .

→ ist θbn

126


Aus DHn (θbn , δ) ∧ DHn (θbn , −δ) ≥ 0 folgt also, daß ~ n (θbn )| ≤ |Z

(12.14)

n X i=1

1{Yni = θbn>xni }|xni | ≤ d max |xni | i≤n

fast sicher;

siehe Aufgabe 12.4. Folglich ist θbn ∈ Cn,r , sofern d maxi≤n |xni | ≤ r. Lemma 12.13 Angenommen, es gelten (12.11), (12.12) und (12.13). Ferner sei Fni (θn>xni + ·) = F (·) mit einer Verteilungsfunktion F , so daß lim

y→0

Dann gilt: (12.15)

inf

v∈Rd :|v|≥b

(12.16)

sup v∈Rd :|v|≤b

Insbesondere ist (12.17)

F (y) − 1/2 = c > 0. y

~ Zn (θn + v) →p ∞

f¨ ur n → ∞, b → ∞;

~ ~ n (θn ) − cv = op (1) Zn (θn + v) − Z

f¨ ur beliebige b > 0.

~ n (θn ) + op (1), θbn = θn − c−1 Z

n

o

o := v ∈ Rd : |v − θ bn | ≤ c−1 r gilt: und f¨ ur Cn,r

n

o o IP Cn,r− ⊂ Cn,r ⊂ Cn,r+

o

→ 1 f¨ ur beliebige > 0.

Beweis von Lemma 12.12: Als Hilfsmittel betrachten wir reellwertige Prozesse φni (γ, λ) := 1{Yni ≤ γ >xni }λ>xni und Zn = ni=1 φni auf T := Rd × Sd−1 , wobei Sd−1 := {v ∈ Rd : |v| = 1}. Dann ist ~ n − IE Z ~ n )(γ) = (Zn − IE Zn )(γ, λ), also λ>(Z P

~ n − IE Z ~ n kRd = kZn − IE Zn kT . kZ

Nach den zwei Symmetrisierungen ist kZn − IE Zn k nicht größer als 2 kZno k . Ferner ψo ψo ist 2

e ρbn,2 (γ, λ), (γe , λ)

=

n X i=1 n X

≤ 2

i=1

2

e >xni ) 1{Yni ≤ γ >xni } − 1{Yni ≤ γe >xni } λ>xni + 1{Yni ≤ γe >xni }(λ>xni − λ

|xni |2 1{Yni ≤ γ >xni } − 1{Yni ≤ γe >xni } + 4

e c cn 1 = M − 1 H(γ) H(e γ ) + 2Mn (1)ρ(λ, λ),

n X i=1

e |xni |2 |λ − λ|

12.2. ANWENDUNGEN

127

wobei cn := 2 M

n X

|xni |2 δ(x> ,Yni )>, ni

i=1

H(γ) :=

n

o

v ∈ Rd+1 : (−γ >, 1)v ≤ 0 ,

e := |λ−λ|. e ρ(λ, λ)

cn (1) = 2d. Die Menge H(γ) geh¨ Man beachte, daß stets M ort zu der Familie der abd geschlossenen Halbräume in R . Letztere ist eine VC-Klasse mit VC-Index d + 1; siehe Beispiel 7.10. Aus Lemma 8.1 sowie Satz 8.4 folgt, daß

cn (1)ρ N u, Sd−1 , 2M

Folglich ist

N u, {1H(γ) : γ ∈ Rd }, ρM b

log N (u, T , ρbn,2 ) ≤ log N

3u2

5

n

≤

9d d

≤

6d 5(d+1)

u

f¨ ur 0 < u ≤ d,

cn (1)ρ + log N , Sd−1 , 2M

≤ (6d + 5) log

15d

u2

f¨ ur 0 < u ≤ d.

u

f¨ ur 0 < u ≤

√

2u2

5

d.

, {1H(γ) : γ ∈ Rd }, ρM b

n

Ferner ist φni (γn , ·) ≡ 0 f¨ ur alle i ≤ n und ein geeignetes γn = γn (Yn1 , . . . , Ynn ) ∈ Rd , P und ρbn,2 [(γn , ·), (·, ·)]2 ≤ ni=1 kφni k2 ≤ d. Aus Korollar 12.5, angewandt auf die bedingte Verteilung von Zno gegeben φn1 , . . . , φnn , folgt also, daß √

o

kZn k

ψo

≤ C 6d + 5

√

Z

d

s

log

0

15d

u2

du ≤ 4Cd

Z

1

r

log

0

15

u2

du.

¨ Mit obigen Uberlegungen folgt aus (12.12) und (12.13), daß die Voraussetzungen von Lemma 12.8 erf¨ ullt sind. Also gilt:

ω Zn − IE Zn , δ ρn,2

→p 0

f¨ ur n → ∞, δ ↓ 0.

Doch

so daß

2

e ρn,2 (γ, λ), (γe , λ)

~ n − IE Z ~ n , δ ρn ω Z

=

e ≤ 2ρn (γ, γe ) + 4d|λ − λ|,

sup γ,e γ ∈Rd ,λ∈Sd−1 :ρn (γ,e γ )xni ) −

1 xni , 2

128


~ n − IE Z ~ n )(θn + v) + ∆ ~ n (v) . Dann ist ~ n (θn + v) = (Z also Z ~ n (v)| − kZ ~ n − IE Z ~ n kRd = inf |∆ ~ n (v)| + Op (1). ~ n (θn + v)| ≥ inf |∆ inf |Z

|v|≥b

|v|≥b

|v|≥b

F¨ ur beliebige feste b > 0 folgt aus den Voraussetzungen an die Verteilungsfunktionen Fni und F , daß

n X

~ sup ∆ n (v) − cv =

|v|≤b

sup

|v|≤b i=1

F (v >xni ) −

= o(1),

~ inf ∆ n (v)

|v|≥b

≥

inf

~ n (rλ) λ>∆

inf

n X

r≥b,λ∈Sd−1

=

r≥b,λ∈Sd−1

=

inf

λ∈Sd−1

1 − cv >xni xni 2

F (rλ>xni ) −

i=1

n X

F (bλ>xni ) −

i=1

1 > λ xni 2

1 > λ xni 2

= cb + o(1). Hieraus folgt (12.15). Doch δn (b) := sup ρn (θn + v, θn ) = sup |v|≤b

|v|≤b

n X

1 |xni |2 F (v >xni ) − = o(1), 2 i=1

weshalb

~ ~ sup Z n (θn + v) − Zn (θn ) − cv

|v|≤b

≤

~ ~ sup ∆ n (v) − cv + ω Zn − IE Zn , δn (b) ρn

|v|≤b

= op (1).

~ n (θ + v) und der Ungleichung (12.14) folgt Aus diesen Entwicklungen f¨ ur den Prozess Z die Entwicklung (12.17) f¨ ur θbn . Ferner kann man leicht schließen, daß die Menge Cn,r approximativ gleich der Kugel n

1 ~ n (θn ) + cv| ≤ r Cn,r := θn + v ∈ Rd : |Z

o

~ n (θn ) = θbn + op (1). Also kann ist. Diese Kugel hat Radius c−1 r und Mittelpunkt θn − c−1 Z 1 wiederum durch C o approximieren. man Cn,r 2 n,r

Aufgaben Aufgabe 12.1 Sei m ein Maß auf einer σ-Algebra A auf Ω und ψ : R → [0, ∞] eine gerade, konvexe Funktion, so daß limx→0 ψ(x) = 0 und lim|x|→∞ ψ(x) = ∞. Es bezeichne

12.2. ANWENDUNGEN

129

Lψ (m) die Menge aller messbaren Funktionen f auf (Ω, A), so daß ψ(f /r) f¨ ur ein r > 0 ψ integrierbar ist bez¨ uglich m. Man zeige, daß L (m) ein Vektorraum und n

kf kψ := inf r > 0 :

Z

ψ(f /r) dm ≤ 1

o

eine Seminorm auf Lψ (m) ist. (Zusatz: Man zeige, daß Lψ (m) bez¨ uglich k · kψ vollständig ist.) Aufgabe 12.2 Beweisen Sie die Ungleichungen (12.2-12.3). Aufgabe 12.3 Zeigen Sie, daß d nX

1

i=1

yi > u

d oX

yi ≤ d

i=1

d n X

1 yi >

i=1

uo yi d

f¨ ur y ∈ Rd

und 1{µ ≥ u}µ ≤ 2 IE 1{Y ≥ u/2}Y

f¨ ur Zufallsvariablen Y mit Erwartungswert µ.

Leiten Sie hieraus die Behauptung von Anmerkung 12.11 ab. Aufgabe 12.4 Zeigen Sie, daß aus der Stetigkeit der Verteilungsfunktionen Fni in AbP schnitt 12.2.6 folgt, daß maxγ∈Rd ni=1 1{Yni = γ >xni } ≤ d fast sicher. Hinweis: F¨ ur beliebige S ⊂ {1, 2, . . . , n} kann man zeigen, daß n

# γ ∈ Rd : γ >xni = Yni f¨ ur alle i ∈ S (

o

= 1, falls die xni , i ∈ S, linear unabhängig sind, = 0fast sicher, falls die xni , i ∈ S, linear abhängig sind.

Aufgabe 12.5 Angenommen, in Abschnitt 12.2.6 ist Fni (θn>xni + ·) = F (·/σni ) mit Skalenfaktoren σni > 0 und einer Verteilungsfunktion F wie in Lemma 12.13. Formulieren und beweisen Sie eine Verallgemeinerung von Lemma 12.13.

130


Kapitel 13

Kombinatorische Prozesse Bisher wurden nur Prozesse Zn = ni=1 φni mit unabhängigen Summanden betrachtet. In diesem Abschnitt behandeln wir eine allgemeinere Klasse von Prozessen mit möglicherweise abhängigen Summanden, welche im Zusammenhang mit Permutationstests auftauchen. Sei Φn = (φnij )1≤i,j≤n eine Matrix bestehend aus unabhängigen stochastischen Prozessen φnij auf einer Menge T . Ferner sei Π = Πn eine von Φn unabhängige, uniform verteilte Permutation von {1, 2, . . . , n}. Nun betrachten wir den Prozess P

Sn :=

n X

φn i Π(i) .

i=1

Aus technischen Gr¨ unden verlangen wir, daß entweder T abzählbar ist oder die φnij feste Funktionen sind. Die bisher betrachteten Prozesse Zn passen in diesen Rahmen. Sei nämlich L(φnij ) = L(φni ) f¨ ur alle i, j. Dann ist L(Sn ) = L(Zn ). Auch im allgemeinen Fall ist nat¨ urlich L(Sn | Π) vom gleichen Typ wie L(Zn ), aber wir interessieren uns f¨ ur die unbedingte Verteilung von Sn . Beispiel 13.1 Sei ~a = (ai )1≤i≤n ein fester Vektor in Rn mit (13.1)

n X

ai = 0 und

i=1

n X

a2i = 1.

i=1

F¨ ur t ∈ [0, 1] definieren wir Bn (t) = Bn (t | ~a) :=

X

aΠ(i) .

i≤nt

Dieser Prozess Bn ist in Verteilung gleich Sn , wenn φnij (t) = 1{i ≤ nt}aj . 131

132

KAPITEL 13. KOMBINATORISCHE PROZESSE

Man kann leicht nachrechnen, daß IE Bn (t) = 0

und

IE Bn (s)Bn (t) =

n bnsc bntc bnsc bntc ∧ − n−1 n n n n

f¨ ur s, t ∈ [0, 1]; siehe auch Lemma 13.3. Also hat Bn approximativ die gleiche Kovarianzfunktion wie die Brownsche Br¨ ucke. Man beachte, daß die Kovarianzfunktion von Bn (· | ~a) nicht von a abhängt, (13.1) vorausgesetzt. Realisationen dieses Prozesses werden in Abbildung 13.1 gezeigt. Hier gilt folgender Grenzwertsatz: Satz 13.2 (Billingsley 1968). F¨ ur n ≥ 2 sei ~a = ~an = (an1 , an2 , . . . , ann )> ein Vektor aus Rn , welcher Bedingung (13.1) erf¨ ullt, so daß max |ani | = o(1).

(13.2)

i≤n

Dann konvergiert Bn (· | ~an ) in Verteilung gegen eine Brownsche Br¨ ucke.

2

Im folgenden werden wir eine Verallgemeinerung dieses Satzes beweisen. Zunächst berechnen wir die ersten und zweiten Momente von Sn . Falls existent seien Mn (t) :=

µnij (t)

Γn (t, u) :=

γnij (t, u)

mit

1≤i,j≤n

µnij (t) := IE φnij (t),

mit γnij (t, u) := Cov[φnij (t), φnij (u)].

1≤i,j≤n

F¨ ur A = (aij )i,j und B = (bij )i,j aus Rn×n sei hA, Bi := trace(A>B) =

X

aij bij

und |A| :=

q

hA, Ai.

i,j

Ferner sei 1 := (1)i,j ∈ Rn×n . Lemma 13.3 Angenommen, Mn : T → Rn×n existiert. Dann ist IE Sn =

1 hMn , 1i. n

Zusätzlich existiere Γn : T × T → Rn×n . Dann ist Cov[Sn (t), Sn (u)] =

E E 1D 1 D Γn (t, u), 1 + GMn (t), GMn (u) n n−1

wobei GA :=

aij −

ai+ a+j a++ − + . n n n 1≤i,j≤n

133 ¨ Den Beweis dieses Lemmas u Man beachte, ¨berlassen wir dem Leser als Ubungsaufgabe. n×n daß G die orthogonale Projektion von R auf den Teilraum n

(αi + βj )1≤i,j≤n : α, β ∈ Rn

o⊥

ist. Eine wesentliche Frage ist, ob und wie man den Prozess Sn symmetrisieren kann. Unser Ziel ist, den Erwartungswert von kSn − IE Sn k durch den Erwartungswert von kSno k nach oben abzuschätzen, wobei Sno :=

n X

ξi φn i Π(i)

i=1

mit einer von (Φn , Π) unabhängigen Rademacherfolge (ξi )i≥1 . Naive Anwendung der ersten Symmetrisierung f¨ uhrt zu dem Prozess n X

(φn i Π(i) − φn i Π0 (i) )

i=1

mit einer unabhängigen Kopie Π0 von Π. Aber es ist nicht klar, wie man nun die Rademachervariablen ξi ins Spiel bringen soll. Die tatsächliche Methode ist etwas komplizierter und f¨ uhrt zu folgendem Resultat: Lemma 13.4 (Symmetrisierung von Sn ). Angenommen, Mn : T → Rn×n existiert. F¨ ur eine beliebige gerade, konvexe Funktion ψ : R → [0, ∞[ ist

IE ψ kSn − IE Sn k

≤ IE ψ 9kSno k .

Beweis: Erster Schritt: Sei n ≥ 2 und m := bn/2c. (Der Fall n = 1 ist uninteressant und P wird durch Lemma 4.1 abgedeckt.) F¨ ur L ⊂ {1, 2, . . . , n} sei SL := i∈L φn i Π(i) . Dann kann man schreiben: Sn =

n X

φn i Π(i)

i=1

n − 1 −1

m−1

X

L:#L=m

1{i ∈ L} =

−1 X n n SL . m m L:#L=m

Folglich ist IE kSn − IE Sn k ≤

−1 X n n IE kSL − IE SL k ≤ 3 max IE kSL − IE SL k, L:#L=m m m L:#L=m

da n/m ≤ 3. Durch Umordnen der Zeilen von Φn kann man erreichen, daß (13.3)

IE kSn − IE Sn k ≤ 3 IE kSJ − IE SJ k,

134


wobei J := {1, . . . , m}. Zweiter Schritt: Wir definieren SJ∗ :=

X

φn i Π(m+i) .

i∈J

Die Prozesse SJ und SJ∗ sind identisch verteilt und (i.a.) abhängig. Gegeben Π(J) sind sie (i.a.) unterschiedlich verteilt aber unabhängig. Es ist SJ − SJ∗ =

X

(φn i Π(i) − φn i Π(m+i) ) =L

i∈J

X

ξi (φn i Π(i) − φn i Π(m+i) ),

i∈J

was man durch Bedingen auf die zweipunktigen Mengen {Π(i), Π(m + i)}, 1 ≤ i ≤ m, nachweisen kann. Mit IEo := IE(· | Φn , Π) gilt also f¨ ur beliebige c > 0:

IE ψ ckSJ − SJ∗ k

X

≤ IE ψ 2c

i∈J

ξi φn i Π(i)

X

= IE IEo ψ 2c

ξi φn i Π(i) + IEo

i6∈J

i∈J

n

X

≤ IE IEo ψ 2c ξi φn i Π(i)

X

ξi φn i Π(i)

(nach Lemma 4.1 [b])

i=1

= IE ψ 2ckSno k .

(13.4)

Dritter und letzter Schritt: Nun vergleichen wir kSJ − IE SJ k und kSJ − SJ∗ k. Mit IEo := IE(· | Π(J)) gilt: IEo SJ

=

1 X X µnij , m i∈J j∈Π(J)

IEo SJ∗

=

1 X X µnij , n − m i∈J j6∈Π(J)

IE SJ

=

n 1 XX m n−m µnij = IEo SJ + IEo SJ∗ . n i∈J j=1 n n

Mit Z := SJ − IE SJ und Z ∗ := SJ∗ − IE SJ folgt hieraus, daß IEo Z ∗ = −γ IEo Z

mit γ :=

m ∈ ]0, 1]. n−m

Gegeben Π(J) sind die Prozesse Z und Z ∗ stochastisch unabhängig. Folglich ist

IEo ψ 3kSJ − IE SJ k

= IEo ψ 3kZk

135

= IEo ψ 3 Z − IEo Z ∗ − γ IEo Z

≤ IEo ψ 3 Z − Z ∗ − γ IEo Z

(Lemma 4.1 [b])

≤ IEo ψ 3kZ − Z ∗ k + 3γk IEo Zk

3γ k IEo (Z − Z ∗ )k 1+γ 3 IEo ψ 3kZ − Z ∗ k + IEo kZ − Z ∗ k 2 9 1 9 2 IEo ψ kZ − Z ∗ k + ψ IEo kZ − Z ∗ k 3 2 3 2 9 ∗ IEo ψ kZ − Z k (nach Jensens Ungleichung) 2 9 IEo ψ kSJ − SJ∗ k . 2

= IEo ψ 3kZ − Z ∗ k + ≤ ≤ ≤ =

Integration beider Seiten bez¨ uglich der Verteilung von Π(J) liefert

IE ψ 3kSJ − IE SJ k

(13.5)

≤ IE ψ

9

2

kSJ − SJ∗ k .

Kombiniert man nun (13.3), (13.4) mit c = 9/2 und (13.5), dann folgt die behauptete Ungleichung. 2 Nun kann man die Argumente des Beweises von Satz 8.3 auf die Prozesse Sn u ¨bertragen: Satz 13.5 Der Erwartungswert von kSn − IE Sn k konvergiert gegen Null, falls f¨ ur eine Nullfolge (δn )n folgende zwei Bedingungen erf¨ ullt sind: (13.6) (13.7)

IE

n 1 X kφnij k = O(1) und n i,j=1

IE

n n o 1 X 1 kφnij k > δn kφnij k = o(1); n i,j=1

log N (u, T , ρbn ) = op (δn−1 ) f¨ ur beliebige u > 0,

wobei ρbn (s, t) := ρbn s, t (φn i Π(i) )1≤i≤n .

Auch der allgemeine funktionale Zentrale Grenzwertsatz, Lemma 12.8 und Satz 12.10, können auf Sn − IE Sn u ¨bertragen werden. Allerdings kann man die endlichdimensionalen Randverteilungen von Sn −IE Sn nicht mehr mit dem Lindebergschen Zentralen Grenzwertsatz behandeln. Der Einfachkeit halber formulieren und beweisen wir nur einen einfachen Spezialfall. Allgemeinere Resultate findet man in D¨ umbgen (1994). Satz 13.6 Sei F eine Familie von Funktionen auf einem messbaren Raum X mit messbarer Einh¨ ullender F := supf ∈F |f |. Ferner sei φnij (f ) = cn f (xnij ) mit festen Punkten

136


xnij ∈ X und einer Konstanten cn > 0. Angenommen, folgende drei Bedingungen sind erf¨ ullt:

(13.8)

n 1 X c2 F (xnij )2 = O(1) und n i,j=1 n

n n o 1 X 1 c2n F (xnij )2 > u c2n F (xnij )2 = o(1) f¨ ur beliebige u > 0; n i,j=1

Z

(13.9)

0

(13.10)

1q

log N (u2 , F) du < ∞;

k Cov(Sn ) − KkF ×F = 0 f¨ ur eine feste Funktion K auf F × F.

Dann ist F präkompakt bez¨ uglich der Pseudometrik ρ(f, g) :=

q

K(f, f ) + K(g, g) − 2K(f, g),

und Sn − IE Sn konvergiert in Verteilung im Raum `∞ (F) gegen einen zentrierten Gaußprozess W mit Kovarianzfunktion K und gleichmäßig stetigen Pfaden bez¨ uglich ρ. Satz 13.2 ist ein Spezialfall von Satz 13.6. Allgemein sei D eine VC-Klasse von messbaren Teilmengen eines messbaren Raumes T, seien zn1 , zn2 , . . . , znn feste Punkte in T, und sei (~an )n eine Folge von Vektoren wie in Satz 13.2. F¨ ur die empirische Verteilung Pn := Pn −1 n i=1 δzni und ein Wahrscheinlichkeitsmaß P auf T gelte: sup |Pn (D ∩ E) − P (D ∩ E)| → 0.

D,E∈D

Definiert man φnij (D) := 1{zni ∈ D}anj = fD (xnij ) mit xnij := (zni , anj ) und fD (z, a) := 1{z ∈ D}a, dann konvergiert Sn −IE Sn in Verteilung im Raum `∞ (D) gegen eine P -Br¨ ucke auf D. Beweis von Satz 13.6: Daß die endlichdimensionalen Randverteilungen von Sn − IE Sn gegen die entsprechenden Randverteilungen eines zentrierten Gaußprozesses mit Kovarianzfunktion K konvergieren folgt aus (13.8), (13.10) und Satz 13.7 unten. Die stochastische Gleichstetigkeit von (Sn − IE Sn )n bez¨ uglich ρ kann man wie folgt nachweisen: Zunächst weisen wir darauf hin, daß n X i=1

(GΦn )n i Π(i) = Sn −

E 1D Φn , 1 = Sn − IEn . n

(Letztere Gleichung ist nur richtig im Falle von festen Funktionen φnij !) Daher ersetzen wir von nun an φnij (f ) = f (xnij ) durch φnij (f ) := (GΦn (f ))ij =

Z

hnij f dmnij

137 mit dem Maß

mnij := cn δxnij +

n n n 1X 1X 1 X δxni` + δxnkj + 2 δxnk` n `=1 n k=1 n k,`=1

und einer Funktion hnij : X → [−1, 1]. Es ist kφenij k2 ≤ mnij (F )2 , und man kann zeigen, daß Bedingung 13.8 erf¨ ullt bleibt, wenn man F (xnij ) durch mnij (F ) ersetzt; siehe Aufgabe 12.3. Der Vorteil dieser Substitution liegt ur die Pseudometriken q darin, daß f¨ 2 ρbn,2 (f, g) := ρbn,2 (f, g | (φn i Π(i) )i ) und ρn,2 (f, g) := IE ρbn,2 (f, g) gilt: ρn,2 (f, g) = und nach (13.10) ist (13.11)

q

Var[Sn (f ) − Sn (g)],

kρ2n,2 − ρ2 kF ×F = o(1).

Nach dem Symmetrisierungslemma 13.4 ist IE ω(Sn − IE Sn , δ) ≤

9 IE ω(Sno , δ)

r

n

o

≤ 9 + 18 IE kSno k2 IP ω(Sno , δ) >

f¨ ur beliebige > 0. Folglich gen¨ ugt es zu zeigen, daß IE kSno k2 = O(1)

und ω(Sno , δ) →p 0 f¨ ur n → ∞, δ ↓ 0.

Gegeben Π hat der Prozess Son subgaußsche Zuwächse bez¨ uglich ρbn,2 , und mit cn := 2 M

n X

mn i Π(i) (F ) mn i Π(i)

i=1

ist ρbn,2 (f, g)2 ≤ ρM b (f, g), also n

Z

0

δq

q

log N (u, F, ρbn,2 ) du ≤

cn (F ) ∨ 1 M

Z

δ

0

q

log N (u2 , F) du

q

cn (F ); siehe auch Anmerkung 12.9. Wir nehmen ohne Einschr¨ f¨ ur 0 < δ ≤ M ankung an, 2 2 daß 0 ∈ F. Wegen y ≤ exp(y ) − 1 = ψo (y) folgt dann aus Korollar 12.5, daß

IE kSno k2 Π

IE ω(Sno , δ | ρbn,2 )2 Π

Z

cn (F ) ≤ C 2M

≤ C

2

0

1q

2

log N (u2 , F) du ,

Z c Mn (F ) ∨ 1

0

δ

q

2

log N (u2 , F) du .

cn (F )) = O(1), und IE ω(S o , δ | ρbn,2 )2 → 0 f¨ Also ist IE kSno k2 = O(IE M ur n → ∞ und δ ↓ 0. n Doch ähnlich wie im Beweis von Lemma 12.8 kann man aus Satz 13.5 ableiten, daß

IE kρb2n,2 − ρ2n,2 kF ×F ≤ 4 IE kSen − IE Sen kF ×F → 0,

138


2 wobei φenij (f, g) := φnij (f )φnij (g) und Sen := ni=1 φen i Π(i) . Denn kφenij kF ×F = kφnij k ≤ mnij (F )2 , und die zufällige Pseudometrik ρbn (f, g), (fe, ge) (φen i Π(i) )i ist nicht größer als

P

e ρM b (f, f ) + ρM b (g, ge) /2, also n

n

N u, F × F, ρbn (·, · | (φen i Π(i) )i )

≤ N

u cn (F ) M

,F

2

= Op (1).

2

Satz 13.7 (Hoeffding 1951) F¨ ur n ≥ 2 sei An = (anij )i,j ∈ Rn×n , so daß gilt: 1 |An |2 = O(1) und n

n 1 X 1{a2nij > u}a2nij = o(1) f¨ ur beliebige u > 0; n i,j=1

1 |GAn |2 → σ 2 . n P

Dann konvergiert L

n i=1 an i Π(i)

schwach gegen N (0, σ 2 ).

2

Aufgaben Aufgabe 13.1 Sei (~an )n eine Folge wie in Satz 13.2, und f¨ ur t ∈ [0, 1] sei φnij (t) := p n/kn 1{i ≤ kn t}anj mit eine Folge von Zahlen kn > 0, so daß kn → ∞ aber kn /n → 0. Zeigen Sie, daß (Sn − IE Sn )n in Verteilung konvergiert.

139

ai =

1{i ≤ n/2} − 1{i > n/2} √ n

ai =

1

1

0.5

0.5

0

0

-0.5

-0.5

-1

-1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1

1

0.5

0.5

0

0

-0.5

-0.5

-1

-1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1

1

0.5

0.5

0

0

-0.5

-0.5

-1

-1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1{i ≤ n/10} − 1{i > n/10}/9 p n/9

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Abbildung 13.1: Realisationen von Bn (· | a) f¨ ur n = 50 (erste Zeile), n = 200 (zweite Zeile), n = 500 (dritte Zeile)

140


Kapitel 14

Zensierte Daten In vielen Anwendungsbereichen wie Medizin oder Qualitätskontrolle muss man “zensier¨ te” Daten analysieren. Man interessiert sich f¨ ur die Verteilung von “Uberlebenszeiten”. Genauer gesagt, seien Xn1 , Xn2 , . . . , Xnn unabhängige Zufallsvariablen mit unbekannter Verteilung Fn auf [0, ∞]. Mit Fn bezeichnen wir auch die Verteilungsfunktion Fn (t) := IP{Xn1 ≥ t}; aus dem Zusammenhang wird klar, welche Interpretation von Fn gemeint ist. (In der ¨ Uberlebenszeitanalyse ist es u ¨blich, “≥” oder “>” anstelle von “≤” zu verwenden.) Nun betrachten wir feste Zahlen cn1 , cn2 , . . . , cnn aus [0, ∞], sogenannte Zensierungszeitpunkte. Anstelle von Xni beobachtet man nur Yni := Xni ∧ cni

und ∆ni := 1{Xni ≤ cni }.

¨ Beispiel 14.1 In medizinischen Anwendungen beschreibt Xni oftmals die Uberlebenszeit des i-ten Patienten nach einer bestimmten Operation, oder es ist die Zeit bis zum Auftreten von Abstoßungsreaktionen nach einer bestimmten Transplantation. F¨ ur Zensierung gibt es unterschiedliche Gr¨ unde. Beispielsweise könnte es sein, daß der i-te Patient nach einer Zeit cni tödlich verungl¨ uckt, oder daß er in eine andere Stadt umzieht und vor Ort nicht weiter untersucht wird. Wenn das Ereignis, welches durch Xni beschrieben wird bis dahin noch nicht eintrat, dann weiß man eben nur, daß Xni > cni . Beispiel 14.2 In der Qualitätskontrolle beschreibe Xni die Lebensdauer eines bestimmten Gerätes. Im einfachsten Falle ist cni die Zeit, vor welcher das i-te Gerät in Betrieb genommen wurde, und somit bekannt. Falls aber das Gerät schon fr¨ uher aus dem Betrieb 141

142

KAPITEL 14. ZENSIERTE DATEN

genommen wurde, obwohl es noch funktionierte, muß man mit einer anderen Zensierungszeit arbeiten. Sobald unvorhersehbare Zensierungsmechanismen auftreten können, muss man die cni als im allgemeinen unbekannt behandeln! Anmerkung 14.3 In vielen Arbeiten werden die Zensierungszeiten cni als Zufallsvariablen modelliert, wobei (Xni )i≤n und (cni )i≤n stochastisch unabhängig sind. Durch Bedingen auf (cni )i≤n kann man aber dieses Modell auf den hier betrachteten Fall fester Zensierungszeiten zur¨ uckf¨ uhren. Die Frage ist nun, inwieweit man Fn schätzen kann. Dazu betrachten wir die empirischen Verteilung(sfunktion)en b n := H b∆ H n

:=

Cn :=

n 1X δY n i=1 ni

b n (t) := und H

n 1X 1{Yni ≥ t}, n i=1

n 1X ∆ni δYni , n i=1 n 1X δc n i=1 ni

und Cn (t) :=

n 1X 1{cni ≥ t}. n i=1

Die beiden ersteren sind tatsächlich Funktionen der vorhandenen Daten, wohingegen Cn b n und H ∆ := IE H b ∆ ist im allgemeinen unbekannt ist. Mit Hn := IE H n n (14.1)

Hn (t) = Hn∆ (B) =

n 1X 1{cni ≥ t} IP{Xni ≥ t} = Cn (t)Fn (t), n i=1 n 1X IP{Xni ≤ cni , Xni ∈ B} = n i=1

Z

Cn (x) Fn (dx).

B

Betrachtet man diese Formeln genauer, dann erkennt man, daß Z

B

1 H ∆ (dx) = Hn (x) n

Z

B

1 Fn (dx) Fn (x)

n

o

falls B ⊂ x ∈ [0, ∞] : Cn (x) > 0 .

Tatsächlich handelt es sich bei dem Maß Λn mit Λn (dx) := Fn (x)−1 Fn (dx) um das sogenannte Hazard-Maß der Verteilung Fn . Noch geläufiger ist der Ausdruck “kumulative Hazard-Funktion” f¨ ur die entsprechende Verteilungsfunktion Λn (t) :=

Z

1{x ≤ t} Fn (dx). Fn (x)

Jede Verteilung auf [0, ∞] wird durch ihre kumulative Hazardfunktion eindeutig festgelegt. Wir demonstrieren dies nur im Falle einer stetigen Verteilung Fn . Dann ist nämlich Λn (t) =

Z

1

Fn (t)

1 du = − log Fn (t). u

143 Hat Fn eine Lebesgue-Dichte fn , so nennt man die Lebesgue-Dichte λn := fn /Fn von Λn die Hazard-Rate oder Hazard-Funktion von Fn . Im Falle einer stetigen Dichte fn ist

λn (t) = lim −1 IP Xni ≤ t + Xni ≥ t . ↓0

Ein naheliegender Schätzer f¨ ur Λn (t) ist der Nelson-Schätzer b n (t) := Λ

n 1{x ≤ t} b ∆ 1X ∆ni 1{Yni ≤ t} Hn (dx) = . b b n (Yni ) n i=1 Hn (x) H

Z

Der folgende Satz gibt Aufschluss u ¨ber seine asymptotischen Eigenschaften. Satz 14.4 (Bresley und Crowley 1974). Angenommen, (Fn )n und (Cn )n konvergieren schwach gegen Verteilung(sfunktion)en F beziehungsweise C. Ferner sei F stetig, und f¨ ur eine √feste Zahl T >0 sei F (T ) := F [T, ∞] > 0, C(T +) := C]T, ∞[ > 0. Dann konverb n − Λn )(t) giert n(Λ in Verteilung im Raum `∞ [0, T ] gegen einen Prozess W ◦ Γ. t∈[0,T ]

Dabei ist W eine Brownsche Bewegung auf [0, ∞[, und Γ(t) :=

Z

1{x ≤ t} F (dx). C(x)F (x)2

Beweis von Satz 14.4: Der Beweis ist ähnlich zu dem von Breslow und Crowley (1974). Ein anderer Zugang u ¨ber Punktprozesse und Martingale wird von Andersen et al. (1993) dargestellt. Zunächst schreiben wir b n (t) = Λ

=

Z

1{x ≤ t} b ∆ Hn (dx) − Hn (x)

Z

Z

1{x ≤ t} b ∆ Hn (dx) − Hn (x)

Z

wobei Rn1 (t) :=

Z

b n − Hn )(x) 1{x ≤ t}(H b ∆ (dx) H n b n (x)Hn (x) H

b n − Hn )(x) 1{x ≤ t}(H b ∆ (dx) + Rn1 (t), H n Hn (x)2

b n − Hn )(x)2 1{x ≤ t}(H b ∆ (dx). H n b n (x)Hn (x)2 H

√ b 1. Schritt: Nun untersuchen wir den Prozess Zn := n(H ankung n − Hn ). Ohne Einschr¨ der Allgemeinheit nehmen wir an, daß cn1 ≥ cn2 ≥ · · · ≥ cnn . Dann ist Zn (t) = =

n 1 X √ 1{cni ≥ t}1{Xni ≥ t} − Cn (t)Fn (t) n i=1 n 1 X √ 1{cni ≥ t} 1{Xni ≥ t} − Fn (t) n i=1

144

KAPITEL 14. ZENSIERTE DATEN =

X 1 √ 1{Xni ≥ t} − Fn (t) n i≤nC (t) n

= Zen (t, Cn (t)) mit dem Kiefer-M¨ uller-Prozess 1 X Zen (t, v) := √ 1{Xni ≥ t} − Fn (t) , n i≤nv

(t, v) ∈ [0, ∞] × [0, 1].

Mithilfe von Satz 12.10 kann man zeigen, daß der Prozess Zen in Verteilung im Raum `∞ ([0, ∞] × [0, 1]) gegen einen zentrierten Gaußprozess Ze mit stetigen Pfaden konvergiert. Folglich ist kZn k[0,∞] = Op (1). Hieraus folgt, zusammen mit lim inf n→∞ Hn (T ) > 0, daß kRn1 k[0,T ] ≤

kZn k2[0,∞] /n

1 = Op . √ n Hn (T )2 Hn (T ) − kZn k[0,∞] / n

2. Schritt: Nun werden wir zeigen, daß b n − Hn )(x) b n − Hn )(x) 1{x ≤ t}(H 1{x ≤ t}(H b ∆ (dx) = H Hn∆ (dx) + Rn2 (t) n 2 Hn (x) Hn (x)2 √ mit kRn2 k[0,T ] = op (1/ n). Zunächst kann man mithilfe von Satz 8.3 leicht nachweisen, daß Z 1{x ≤ t}g (x) n b ∆ − H ∆ )(dx) = op (1) ( H sup n n Hn (x)2 t∈[0,T ] Z

Z

f¨ ur beliebige messbare Funktionen gn auf [0, ∞], falls kgn k[0,∞] = O(1). Dies wollen wir eigentlich auf Zn anwenden, aber diese Funktion ist zufällig. Doch wegen der Separabilität von (C(T ), k·kT ), wobei T := [0, ∞]×[0, 1], gibt es zu jedem > 0 eine endliche Teilmenge G() von C(T ), so daß gilt: n

o

IP min kZe − gkT ≥ g∈G()

≤ .

Mit n

Gn () :=

o

[t 7→ g(t, Cn (t))] : g ∈ G()

ist dann #Gn () ≤ #G(), und aus dem Portmanteau-Theorem folgt, daß lim sup IP n→∞

n

o

min kZn − gk[0,∞] ≥

g∈Gn ()

≤ .

145 Also können wir schreiben: Z 1{x ≤ t}Z (x) n b ∆ − H ∆ )(dx) ( H sup n n 2

Hn (x)

t∈[0,T ]

≤ = ≤

2 ming∈Gn () kZn − gk[0,∞] + sup Hn (T )2 t∈[0,T ],g∈Gn ()

1{x ≤ t}g(x) b ∆ ∆ ( H − H )(dx) n n Hn (x)2

Z

2 ming∈Gn () kZn − gk[0,∞] + op (1) Hn (T )2 2 + op (1) Hn (T )2

mit asymptotischer Wahrscheinlichkeit mindestens 1 − . Da > 0 beliebig klein sein kann, folgt hieraus die Behauptung des zweiten Schrittes. Letzter Schritt: Wir wissen nun, daß b n − Λn )(t) (Λ

=

Z

1{x ≤ t} b ∆ Hn (dx) − Hn (x)

Z

b n − Hn )(x) 1{x ≤ t}(H Hn∆ (dx) − Λn (t) + Rn3 (t) Hn (x)2

=

Z

1{x ≤ t} b ∆ Hn (dx) − Hn (x)

Z

b n (x) 1{x ≤ t}H Hn∆ (dx) + Rn3 (t) Hn (x)2

=

n 1X ∆ni 1{Yni ≤ t} − n i=1 Hn (Yni )

Z

1{x ≤ t}1{x ≤ Yni } ∆ H (dx) + Rn3 (t), n Hn (x)2

√ wobei kRn3 k[0,T ] = op (1/ n). Mit anderen Worten, √

b n − Λn )(t) = n(Λ

n X

φni [0, t] +

√

nRn3 (t)

i=1

mit den zufälligen signierten Maßen 1 ∆ni φni (B) := √ 1{Yni ∈ B} − n Hn (Yni )

Z

B

1{x ≤ Yni } ∆ H (dx) n Hn (x)2

auf [0, T ]. Eine längere, aber elementare Rechnung zeigt, daß IE φni (B) = 0, Z 1 X 1{x ≤ cni }Fn ({x})2 1{x ≤ cni } e = 1 IE φni (B)φni (B) F (dx) − . n n B∩Be Hn (x)2 n Hn (x)2 Fn (x) Zusammen mit (14.1) folgt hieraus, daß Cov

n X i=1

φni [0, s],

n X i=1

φni [0, t]

=

n X i=1

e x∈B∩B

IE φni [0, s]φni [0, t]

146

KAPITEL 14. ZENSIERTE DATEN =

Z

[0,s∧t]

X 1 Fn ({x})2 Fn (dx) − Hn (x)Fn (x) Hn (x)Fn (x)2 x∈]0,s∧t]

→ Γ(s, t) :=

Z

[0,s∧t]

1 F (dx) C(x)F (x)2

gleichmäßig in s, t ∈ [0, T ]. Ferner gilt f¨ ur das Totalvariationsmaß |φni | von φni : max |φni |([0, T ])2 ≤ i≤n

Aus Satz 12.10 folgt somit, daß

P

1 4 = O . nHn (T )4 n

n i=1 φni [0, t]

t∈[0,T ]

in Verteilung im Raum `∞ [0, T ]

f mit Kovarianzfunktion Γ und gleichm¨ gegen einen zentrierten Gaußprozess W aßig stetigen p Pfaden bez¨ uglich ρ(s, t) := Γ(s, s) + Γ(t, t) − 2Γ(s, t) konvergiert. 2

Aufgaben Aufgabe 14.1 Man nehme an, daß alle Ze nsierungszeiten cni bekannt sind. Ein naheliegender Schätzer f¨ ur Fn (t) ist dann b n (t) H Fˇn (t) := Cn (t)

h

i

f¨ ur t ∈ Tn := 0, max cni . i≤n

Berechnen Sie die Kovarianzfunktion dieses Schätzers. Formulieren und beweisen Sie einen Zentralen Grenzwertsatz f¨ ur (Fˇn (t))t∈[0,T ] unter geeigneten Annahmen an die Folgen (Cn )n und (Fn )n . Aufgabe 14.2 Unter der Annahme, √ daß Fn stetig ist, beschreibe man einen Bootstrapb n − Λn )(t) Schätzer f¨ ur die Verteilung von n Λ . t∈[0,T ]

Hinweis: Man muss sich u ëberlegen, wie man Fn und Cn konsistent (auf [0, T ]) schätzen kann.

147

Literatur Hier werden nur Originalarbeiten genannt, die nicht schon in den angegebenen Lehrb¨ uchern behandelt werden. Andersen, P.K., O. Borgan, R.D. Gill and N. Keiding (1993). Statistical Models Based on Counting Processes. Springer, New York Billingsley, P. (1968). Convergence of Probability Measures. Wiley Billingsley, P. and F. Topsøe (1967). Uniformity in weak convergence. Z. Wahrschein. verw. Geb. 7, 1-16. Breiman, L. (1968). Probability. Addison-Wesley Breslow, N. and J. Crowley (1974). A large sample study and of the life table and product limits estimates under random censorship. Ann. Statist. 2, 437-453. D¨ umbgen, L. (1994). Combinatorial stochastic processes. Stochastic Process. Appl. 52, 75-92 Gr¨ ubel, R. (1988). The length of the shorth. Ann. Statist. 16, 619-628 Hoeffding, W. (1951). A combinatorial Central Limit Theorem. Ann. Math. Statist. 22, 558-566 Pollard, D. (1984). Convergence of Stochastic Processes. Springer Pollard, D. (1990). Empirical Processes: Theory and Applications. NSF-CBMS Regionial Conference Series in Probability and Statistics 2, Institute of Mathematical Statistics Rao, R.R. (1962). Relations between weak and uniform convergence of measures with applications. . Ann. Math. Statist. 33, 659-680 Shorack, G.R. & Wellner, J.A. (1986). Empirical Processes with Applications to Statistics. Wiley van der Vaart, A.W. and J.A. Wellner (1996). Weak Convergence and Empirical Processes. With Applications to Statistics. Springer

148

KAPITEL 14. ZENSIERTE DATEN

Notation Kapitel 1: Pbn = n−1

Pn

i=1 δXi

mit unabhängigen Zufallsvariablen Xi ∈ X mit Verteilung P

Sbn (f ) := cn ni=1 f (xni )Yi mit festen Punkten xni ∈ X und unabhängigen, identisch verteilten Zufallsvariablen Yi P

Zn :=

Pn

i=1 φni

mit unabhängigen Prozessen φni auf T

kxk = kxkT := supt∈T |x(t)| Kapitel 2: Pn

Fbn (t) := n−1

≤ t}

i=1 1{Xi

Pn

b n (v) := n−1 G blen Ui

i=1 1{Ui

≤ v} f¨ ur unabhängige, uniform auf [0, 1] verteilte Zufallsvaria-

Kapitel 4.2: Zno :=

Pn

i=1 ξi φni

mit einer von (φni )i unabhängigen Rademacherfolge (ξi )i .

Kapitel 8: n

N (, T , ρ) := min #To : To ⊂ T und ρ(t, To ) ≤ f¨ ur alle t ∈ T ρbn (s, t) :=

Pn

ρM (f, g) :=

i=1 |φni (s)

R

o

− φni (t)|

|f − g| dM n

o

N (, F) := max N ( M F, F, ρM ) : M Maß auf X mit F := supf ∈F |f | Kapitel 10: ω(x, δ) = ω(x, δ | ρ) := sups,t∈T :ρ(s,t)

Empirische Prozesse

Statistik stochastischer Prozesse 001

Stochastische Prozesse II 001

Chemielogistik: Markt, Geschftsmodelle, Prozesse

Stochastische Prozesse I 001

Stochastische Prozesse 001

Prozesse optimieren mit ITIL

Evolution. Prozesse, Mechanismen, Modelle GERMAN

Change Management - Prozesse strategiekonform gestalten

Prozesse und Dynamik des Netzwerkwandels

Multi-Channel-Marketing- Grundlagen, Instrumente, Prozesse

Stochastische Prozesse in der Oekonomie 001

Chemielogistik: Markt, Geschftsmodelle, Prozesse (German Edition)

Modellierung komplexer Prozesse durch naturanaloge Verfahren

Chemielogistik: Markt, Geschftsmodelle, Prozesse (German Edition)

Zur Frage einer Revision der Kriegsverbrecher-Prozesse

Prozesse optimieren mit ITIL, 2.Auflage

Investion Vertrauen: Prozesse der Vertrauensentwicklung in Organisationen

Zerspantechnik: Prozesse, Werkzeuge, Technologien, 12. Auflage

Stochastische Prozesse in der Modellierung 001

Konziliare Organisation: Strukturen, Prozesse, Personen und Beziehungen

Ökonomische Wirkungen einer Veräußerungsgewinnbesteuerung: Eine empirische Analyse

Circles of Support: Eine empirische Netzwerkanalyse

Secondary Buyouts: Eine empirische Untersuchung von Werttreibern

Empirische Analyse sozialer Probleme: Das wissenssoziologische Programm

Empirische Bildungsforschung: Strukturen und Methoden (Lehrbuch)

Empirische Wahlforschung: Ursprung, Theorien, Instrumente und Methoden

PR-Beratung: Theoretische Konzepte und empirische Befunde

Wirksamkeit strategischer Frühaufklärung: Eine empirische Untersuchung

Ökonomische Wirkungen einer Veräußerungsgewinnbesteuerung: Eine empirische Untersuchung

Empirische Forschung und Soziale Arbeit: Ein Studienbuch

Empirische Prozesse

Statistik stochastischer Prozesse 001

Stochastische Prozesse II 001

Chemielogistik: Markt, Geschftsmodelle, Prozesse

Stochastische Prozesse I 001

Stochastische Prozesse 001

Prozesse optimieren mit ITIL

Evolution. Prozesse, Mechanismen, Modelle GERMAN

Change Management - Prozesse strategiekonform gestalten

Prozesse und Dynamik des Netzwerkwandels

Multi-Channel-Marketing- Grundlagen, Instrumente, Prozesse

Stochastische Prozesse in der Oekonomie 001

Chemielogistik: Markt, Geschftsmodelle, Prozesse (German Edition)

Modellierung komplexer Prozesse durch naturanaloge Verfahren

Chemielogistik: Markt, Geschftsmodelle, Prozesse (German Edition)

Zur Frage einer Revision der Kriegsverbrecher-Prozesse

Prozesse optimieren mit ITIL, 2.Auflage

Investion Vertrauen: Prozesse der Vertrauensentwicklung in Organisationen

Zerspantechnik: Prozesse, Werkzeuge, Technologien, 12. Auflage

Stochastische Prozesse in der Modellierung 001

Konziliare Organisation: Strukturen, Prozesse, Personen und Beziehungen

Ökonomische Wirkungen einer Veräußerungsgewinnbesteuerung: Eine empirische Analyse

Circles of Support: Eine empirische Netzwerkanalyse

Secondary Buyouts: Eine empirische Untersuchung von Werttreibern

Empirische Analyse sozialer Probleme: Das wissenssoziologische Programm

Empirische Bildungsforschung: Strukturen und Methoden (Lehrbuch)

Empirische Wahlforschung: Ursprung, Theorien, Instrumente und Methoden

PR-Beratung: Theoretische Konzepte und empirische Befunde

Wirksamkeit strategischer Frühaufklärung: Eine empirische Untersuchung

Ökonomische Wirkungen einer Veräußerungsgewinnbesteuerung: Eine empirische Untersuchung

Empirische Forschung und Soziale Arbeit: Ein Studienbuch

Recommend Documents