Herausgeber: Prof. Dr. Holger Dette Prof. Dr. Wolfgang Hardle
.
Springer Berlin Heidelberg New York Hongkong London M...
338 downloads
2043 Views
64MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Herausgeber: Prof. Dr. Holger Dette Prof. Dr. Wolfgang Hardle
.
Springer Berlin Heidelberg New York Hongkong London Mailand Paris Tokio
Statistik und ihre Anwendungen
Azizi Ghanbari, S. Einfuhrung in die Statistik fur Sozial- und Erziehungswissenschaftler 2002 Brunner, E.; Munzel U. Nichtparametrische Datenanalyse 2003 Dehling, H.; Haupt, B. Einfuhrung in die Wahrscheinlichkeitstheorie und Statistik 2. Auflage 2004 Diimbgen, L. Stochastik fur Informatiker 2003 Falk, M.; Becker, R.; Marohn, F. Angewandte Statistik 2004 Franke, T; Hardle, W.; Hafner; C. Statistik der Finanzmarkte 2. Auflage 2004 Greiner, M. Serodiagnostische Tests 2003 Handl, A. Mulitvariate Analysemethoden 2003 Hilgers, R.-D.; Bauer, P.; Scheiber, V. Einfuhrung in die Medizinische Statistik 2003 Plachky, D. Mathematische Grundbegriffe der Stochastik 2002 Schumacher, M.; Schulgen, G. Methodik klinischer Versuche 2002 Steland, A. Mathematische Grundlagen der empirischen Forschung 2004
Herold Dehling Beate Haupt
Einfuhrung in die Wahrscheinlichkeitstheorie und Statistik 2. Auflage
6
Springer
Prof Dr. Herold Dehling Ruhr-Universitat Bochum Fakultat fiir Mathematik Universitatsstrage 150 44801 Bochum, Deutschland
DipLMath. Beate Haupt Laurentiushof Mittelstrage 4 34474 Diemelstadt-Wethen, Deutschland
BibliografischeInformationderDeutschenBibliothek DieDeutscheBibliothekkkkkkich"etdiese Publikation in derDeutschen Nationalbibliografie: detallliertebbliografificheDaten sindim Internet uber abrufbar
MathernaticsSubject Classification (2000): 6 0 ~ 0 1 , 6 2 ~ 0 1
ISBN 3-540-20380-X Springer-Verlag Berlin Heidelberg New York ISBN 3~540~43384~8 1. Auflage Springer~VerlagBerlin Heidelberg New York
springerde SpringerVerlagBerlinHeidelberg2003,2004 Printed in Germany
O
DieWiedergabevonGebrauchsname~Handelel"elmel",W~ww"bbbbich"""g" usw in diaem Werkbe~ ohnebesondere~ennreichnung"icht ru der ~ ~daO s o ~~c h e ~ a m~im e n sinnehder remtigt Warenreichen undMarkenschutr~Gesetzgebbbgals frei ru betrachten wsren und daher "on jeder man" benutrtwerden durften. Einbandgestaltung: d e s p &produrt!oq Heidelberg D~temrstellungdurch d m Auttt t t t t t V ~ r w ~ ~ d edidi igi Springer W E X ~ Makropakets Gedruckt auf ssurefieiem papier 40/314ZCK~543210
~
~
,
Lehre uns bedenken, dass wir sterben mtissen, auf dam wir klug werden. Ps. 90,12 Ein Gebet des Mose, in der ~bersetzungvon Martin Luther
fiir Birte, Wiete, Johannes, Geeske, Malte und Eike fiir Andrea, Ruben, Benjamin, Corinna, Selma und Peter
Vorwort zur 2. Auflage
Wir freuen uns, dass die in unserem Buch gegebene Darstellung der Grundlagen der Wahrscheinlichkeitstheorie und Statistik so viele Leser gefunden hat, dass bereits ein Jahr nach Erscheinen der 1.Auflage diese 2. Auflage gedruckt werden kann. Wir haben das Buch um ein Kapitel uber Testtheorie erweitert. Die anderen Kapitel haben wir unverandert libernommen, allerdings haben wir einige Druckfehler korrigieren kdnnen. Wir danken an dieser Stelle allen Lesern, die uns auf Fehler im Text aufmerksam gemacht haben, insbesondere Herrn Stephan Mertmann und Frau Natalie Neumeyer. SchlieDlich mochten wir ein Wort des Dankes hinzufugen, das wir leider im Vorwort zur 1. Auflage vergessen haben. Wir danken dem Verleger Ferdinand Verhulst fiir die groDztigige Ruckgabe des Copyrights an dem Buch ,Kansrekening - het zekere van het onzekere', Epsilon Verlag, Utrecht 1995, in dem groDe Teile des hier veroffentlichten Materials in niederlandischer Sprache erschienen waren.
Bochum, Wethen, im Januar 2004
Herold Dehling Beate Haupt
Vorwort zur 1. Auflage
Wahrscheinlichkeitstheorie und Statistik, oft auch mit dem Sammelbegriff St,ochastik genannt, sind noch recht junge Teilgehiete der Mathematik, die sich in den vergangenen 50 Jahren schnell einen festen Platz in der Mathematik-Aushildung an den Hochschulen gesichert haben. Einst entstanden aus dem Wunsch, Gewinn und Verlust bei Glucksspielen herechnen zu konnen, ist die Stochastik heute ein unverzichtbares Hilfsmittel zur Modellierung und Steuernng von Zufallsprozessen in Natur, Technik und im Wirtschafts- und Gesellschaftslehen. Gleichzeitig legt die Stochastik Verbindungen zu verschiedenen anderen Gebieten der Mathematik, etwa der Analysis, der Linearen Algebra nnd der Zahlentheorie, deren Methoden sie sich bedient und die sie gleichzeitig mit neuen Ansatzen hereichert. Der Reiz der Wahrscheinlichkeitstheorie lie@ in ihrer Position an der Schnit,tstelle zwischen hochaktuellen Anwendungen einerseits und klassischer grundlagenorientierter Mathematik andererseits. Stochastik eignet sich auch hervorragend fiir den Schulunterricht, wo sie heute vielfach neben der Analysis und der analytischen Geometrie als dritte Saule im Mathematik-Curriculum steht. Die Verhindungen zwischen konkreten Anwendungen und mathematischen Konzepten konnen das Interesse und die Freude der Schtiler an der Mathematik wecken und sie in Denk- und Arbeitsweisen der Mathematik einfiihren. Dieses Buch gibt eine systematische Einfuhrung in die grnndlegenden Ideen und Konzepte der Wahrscheinlichkeitstheorie. Die Darstellung ist elementar, d.h. ohne m&theoret,ische Hilfsmittel und unter Verzicht auf grol3tm6gliche Allgemeinheit. Der Weckung eines intnitiven Verstandnisses wird im Zweifelsfall der Vorzug vor mathematischer Strenge gegeben. Die wesentlichen Begriffe und Resultate werden zunachst fur diskrete Experimente eingefiihrt und dahei stets an Beispielen illustriert. Im zweiten Teil des Buches stehen stetige Zufallsvariahlen im Mittelpunkt. Dabei werden u.a. die wichtigsten Verteilungen der parametrischen Statistik eingeftihrt und die wesentlichen Rechentechniken behandelt. Ein Kapitel iiher Grundbegriffe der Schatztheorie sol1 die Bedentnng der Wahrscheinlichkeitstheorie in der Statistik aufzeigen und den ubergang in dieses wichtige Anwendungsgebiet der Wahrscheinlichkeitstheorie erleichtern. Das Buch sollte Lesern mit Vorkenntnissen im Umfang einer Analysis I-Vorlesung zug&nglich sein. An einigen Stel-
X
Vorwort
len benatigen wir allerdings Kenntnisse mehrfacher Integrale, wobei der Riemann'sche Integralbegriff ausreicht. Dieses Buch ist ursprunglich entstanden aus Manuskripten zu Vorlesungen, die der erstgenannte der Autoren in den vergangenen 15 Jahren an den Universitat,en Groningen, Cottbus und Bochum gehalten hat. Wir machten an dieser Stelle den vielen Kollegen danken, die bei der Entstehung dieses Buches behilflich waren. An erster Stelle mochten wir Niels Kalma nennen, der als Koautor an einer niederlandischen Ausgabe eines groflen Teils des bier verijffentlichten Materials in dem B u d ,Kansrekening - het zekere van het onzekere' (Epsilon-Verlag Utrecht, 1995) mitgearbeitet hat. Viele originelle Beispiele und interessante ubungsaufgaben in diesem Buch gehen auf seine Anregungen zuruck. Weiter danken wir Aart Stam, ans dessen Vorlesnngsskripten wir manche Anregung geschopft haben. Jan van Maanen hat uns in zahlreichen Gesprachen auf die Anfange der Wahrscheinlichkeitstheorie, vor allem bei Huygens, hingewiesen und uns auflerdem freundlicherweise die Auszuge aus Huygens' Tractatus de Ratiociniis in Ludo Aleae zur Verfugung gestellt. Micbel Dekking, Hans Dwarshuis, Willem Schaafsma und Aart Stam haben uns auf manche Fehler in der niederlejldischen Version des Textes aufmerksam gemacht und Anregungen zu einer besseren Darstellung gegeben. Wir danken Holger Dette ftir die Anregung, dieses Buch in der Reihe ,Statistik und ihre Anwendungen' des Springer-Verlags erscheinen zu lassen sowie dem Springer-Verlag fiir die verstandnisvolle Zusammenarbeit. Wir danken Ingeborg Beyer fiir ihre umfangreiche Arbeit, das Manu' X zu schreiben, Malte Dehling fur seine unermtidliche Hilfe skript in B& beim Losen von Computer-Problemen und Andrea HeineJungblut ftir ihre kreativen Beitrage zur grafischen Gestaltung des Buches. Wir danken Stephan Mertmann und Andrea Schweer fur Hinweise auf Fehler im Manuskript und Katrin Hofmann-Credner und Axel Munk fiir sorgfaltiges Lesen des g e samten Manuskripts, Hinweise auf zahlreiche Fehler und ftir Vorschlilge zu einer klareren Darstellung. Wir denken dankbar an Gundi und Dietmar. Wahrend wir an diesem Buch gearbeitet haben, haben wir viel an diejenigen gedacht, die sich den Inhalt dieses Buches erarbeiten wollen. So haben wir uns auch erlanbt, in der ersten Person Plural zu schreiben. Wir haben uberlegt, wie wir etwas uber die Grundlagen der Wabrscheinlichkeitstheorie und Statistik so aufschreiben konnen, dass Sie gerne und erfolgreich in dem Buch arbeiten magen. Wir haben viel gelernt dabei und wir wiinschen uns sehr, dass das Buch Ihnen beim Kennenlernen dieses Gebietes der Mathematik behilflich ist. Fur Hinweise auf eventuelle Fehler und fur Anregungen waren wir Ihnen sehr dankbar.
Bochum, Wethen, im Januar 2003
Herold Dehling Beate Haupt
Inhaltsverzeichnis
Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . ................................................ . Emle~tnng
1
1.1 1.2 1.3 1.4 1.5
V
Vorbetracbtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modellierung von Laplace-Experimenten . . . . . . . . . . . . . . . . . . . Die Axiome der Wahrscheinlicbkeitstheorie . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 1 4 7 11 18
2
.
Elementare Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Urnenmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Verteilen von Murmeln auf Zellen . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Binomiale und hypergeometriscbe Verteilungen . . . . . . . . . . . . . 2.4 Das Stimmzettel-Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 21 28 34 37 39
3
.
Unabhlingigkeit und bedingte Wahrscheinlichkeit . . . . . . . . . 3.1 UnabhXngige Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Modellierung von Produktexperimenten . . . . . . . . . . . . . . . . . . . 3.3 Bedingte Wabrscbeinlicbkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Ruinproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41 41 46 49 57 60
4
.
Znfallsvariablen und ihre Verteilungen . . . . . . . . . . . . . . . . . . . . 4.1 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Wichtige diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Die Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63 63 68 75 79
5
.
Erwartnngswert nnd Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Die Ungleichungen von Chebychev und Markov . . . . . . . . . . . . 5.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81 81 89 95 98
XI1
.
Inhaltsverzeichnis
Mehrdimensionale Verteilungen. . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Gemeinsame und marginale Verteilungen . . . . . . . . . . . . . . . . . . 6.2 Unabhangige Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4 Kovarianz und Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . . . 6.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
101 101 111 118 127 135
7. Analytische Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1 Die erzeugende Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Der Galton-Watson Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Die momenterzeugende Funktion . . . . . . . . . . . . . . . . . . . . . . . . . 7.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
137 137 144 148 153
6
8
.
Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1 Dichtefunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Wichtige stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3 Vert.eilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4 Transformation von Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
155 155 159 163 169 173 176
9
.
Mehrdimensionale stetige Verteilungen . . . . . . . . . . . . . . . . . . . 9.1 Gemeinsame und marginale Dichten . . . . . . . . . . . . . . . . . . . . . . 9.2 Unabhangigkeit stetiger Zufallsvariablen . . . . . . . . . . . . . . . . . . . 9.3 Die momenterzeugende Funktion . . . . . . . . . . . . . . . . . . . . . . . . . 9.4 Maximum, Minimum und Ordnungsstatistiken . . . . . . . . . . . . . 9.5 Geometrische Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . 9.6 Bedingte Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.7 Die mehrdimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . 9.8 Aufgahen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
177 177 187 193 194 198 202 206 210
Zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Motivation und Formulierung des ZGS . . . . . . . . . . . . . . . . . . . . Vom lokalen zum zentralen Grenzwertsatz . . . . . . . . . . . . . . . . . Der Satz von De Moivre und Laplace . . . . . . . . . . . . . . . . . . . . . Aufgahen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
213 213 216 221 226
11 Grundbegriffe der Schiitztheorie . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 Terminologie und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Einige Schatzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.4 Normalverteilte Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
227 227 233 241 246 248
.
10 Der 10.1 10.2 10.3 10.4
.
Inhaltsverzeichnis
.
XI11
12 Grundbegriffe der Testtheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.1 Einige Beispiele znr Einfiihrung . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2 Neyman-Pearson Formulierung der Testtheorie . . . . . . . . . . . . . 12.3 Das Neyman-Pearson Lemma . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.4 Tests bei normalverteilten Beobachtungen . . . . . . . . . . . . . . . . . 12.5 Konfidenzbereiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.6 Aufgahen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
249 249 253 258 266 269 272
13. Der 13.1 13.2 13.3 13.4 13.5
Poisson-Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ein Model1 fiir Schadensfalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die Verteilung der Sprungzeiten . . . . . . . . . . . . . . . . . . . . . . . . . . Das Inspektionsparadoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Der Poisson-Prozess als Punktprozess . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
273 273 276 280 282 285
14 Einige Konvergenzbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.1 Konvergenz von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . 14.2 Das starke Gesetz der groflen Zahlen . . . . . . . . . . . . . . . . . . . . . . 14.3 KonvergenzinL, . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.4 Konvergenz in Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.5 Aufgahen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
287 287 290 294 296 300
Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
301
.
1. Einleitung
1.1 Vorbetrachtungen
-
Die Wahrscheinlichkeitstheorie ist der Zweiz der Mathematik. der sich mit Zufallsexperimenten befasst, mit ihrer Beschreibung und der Aufdeckung von GesetzmBBigkeiten. Wir versuchen mathematische Modelle zu finden ftir Experimente, bei denen mehrere verschiedene Verlaufe moglich sind und deren Ergebnisse ganz oder teilweise vom Zufall abhangen. Dass dies uberhaupt moglich ist, darin lie@ das Geheimnis und der Reiz dieses Fachgebietes, das ganz im Spannungsfeld des scheinbaren Gegensatzes steht zwischen der Unvorhersagbarkeit des Ergehnisses hei einem Einzelexperiment und den Gesetzmafligkeiten bei vielfacher Wiederholung des Experimentes. Werfen wir einen Wurfel, so lasst sich nicht mehr sagen, als dass das Ergehnis eine Augenzahl zwischen 1 und 6 sein wird. Wiederholen wir das Wiirfelexperiment genugend oft, so stellen wir fest, dass der Anteil der Experimente, bei denen 1 , 2 , . . . , 6 gewiirfelt wird, einer festen GroBe zuzustreben scheint. Oder wir betracht,en die Lebenserwartung eines neugeborenen Kindes. Ob es 75, 80 oder 85 Jahre alt werden wird, kann niemand vorhersagen. Eine Lebensversicherung kann uns aber anhand von Sterbetafeln ausrechnen, welcher Anteil von Neugeborenen, 2.B. des Jahrgangs 2003, dieses Lehensalter erreichen wird. Der Erfolg von Lebensversicherungen beweist, dass diese Berechnungen brauchbar sind. Oder wir betrachten die Bewegung eines einzelnen Tintenmolekuls im Wasser. Diese Bewegung, wenn wir sie betrachten konnten, ist unvorhersaghar. Lassen wir jedoch einen Tropfen Tinte ins Wasser fallen, dann werden wir stets den gleichen Vorgang erleben, eine radiale Ausbreitung der Tinte mit derselben Geschwindigkeit. Und wir konnten vorhersagen, welcher Prozentsatz Tinte sich zu einem bestimmten Zeitpunkt in einem bestimmten Gebiet befindet. Als letztes Beispiel betrachten wir noch den radioaktiven Zerfall, etwa des Kohlenstoffisotops C14. Von einem einzelnen Atom lasst sich unmoglich der Zerfallszeitpunkt vorhersagen. Von einer makroskopischen Menge C14 Atomen hingegen wissen wir sehr genau, welcher Anteil davon nach 1000, 2000 oder 3000 Jahren zerfallen sein wird. Bereits vor uher 300 Jahren war Christiaan Huygens (1629-1695) sich dieses scheinharen Gegensatzes bewusst. In der Einleitung seines ,Tractatus de Ratiociniis in Ludo Aleae' (1657) schreibt er
2
1. Einleitung
Wenn bei den Spielen, welche allein vom Gliick entschieden werden, auch der Ausgang ungewiss ist, so lasst sich doch immer genau berechnen, um wieviel wahrscheinlicher ein Mitspieler gewinnt als verliert. Z.B.: Wenn Jemand, um zu gevinnen, rnit einem Wiirfel sechs Augen auf den ersten Wurf werfen muss, so ist es umgewiss, ob er gewinnt. Um wieviel wah,rscheinlicher es aber ist, dass er verliert, als dass er gewinnt, ist durch die Spielbedingung selbst bestimm.t und lasst sich durch Rechnung genau ermitteln. ( ~ h e r s e t z u n ~ von Robert Hausner (1899)) In jedem Fachgehiet giht es Fkagen, die sich so einfach formulieren lassen und deren Beantwortung ausbleibt, auszuhleihen scheint. Die allererste und dringlichste Frage in der Wahrscheinlichkeitstheorie ist natiirlich Was ist Wahrscheinlichkeit? Mit dieser grundlegenden, wesentlichen Frage hefinden wir uns an der Grenze unseres Fachgehietes. Wir konnten uns einer Beantwortung entziehen rnit dem Hinweis, dass diese Frage unzul%sig sei, so wie wir den Physiker nicht, fragen, was denn Mase sei, den Geometer nicht fragen, was eine Gerade sei, und den Mediziner nicht fragen, was ein Mensch sei. Andererseits hahen wir gewisse Vorstellungen von diesen Begriffen, die als Ausgangspunkt fiir die Beschaftigung rnit den jeweiligen Fachgehieten unerlasslich sind. Wir wollen nun fur den Begriff ,Wahrscheinlichkeiti verschiedene intuitive Vorstellungen betrachten. Wenn wir dabei auch keine vtjllig befriedigende Antwort auf die Ansgangsfrage finden werden, ist es doch wichtig, sie als offene Fkage zu behalten, nm uns der Grenzen unseres Fachgehietes hewusst zu bleiben. Von Wahrscheinlichkeiten sprechen wir hier nnr im Zusammenhang rnit Zufallsexperimenten, wobei wir es an dieser Stelle fiir den Begriff ,Zufall' bei unserer intuitiven Vorstellung belassen. Wir hetrachten nun drei konkrete Zufallsexperimente rnit der Frage nach den verschiedenen Bedeutungen von Wahrscheinlichkeit. 1. Wir werfen einen unverf&chten Wiirfel und fragen nach der Wahrscheinlichkeit, dass die Augenzahl gerade ist. Dahei sol1 unverfalscht heioen, dass der Wiirfel vijllig symmetrisch gehaut ist. 2. Wir wissen, dass die Stadt Bochum 400.000 Einwohner hat und dass davon 100.000 S u g e r sind. Wie groB ist die Wahrscheinlichkeit, dass ein zufallig ausgewiihlter Bochumer Sanger ist? 3. Wir werfen eine Heftzwecke in die Hohe nnd fragen nach der Wahrscheinlichkeit, dass die Heftzwecke rnit der Spitze nach ohen oder seitlich wieder aufl n gilt ( n ) k = 0, da mindestens ein Faktor des Produktes 0 ist, und damit If2111 = 0. Diese Identitat entspricht der Tatsache, dass es beim Ziehen ohne Zurucklegen nicht moglich ist, mehr Kugeln aus der Urne zu ziehen als am Anfang vorhanden waren. Im Falle k = n werden alle vorhandenen Kugeln aus der Urne gezogen. Jedes Element ( w l ,. . . ,w,) E 011ist dann eine Permutation der Elemente der Menge ( 1 , . . . ,n } . Nach Lemma 2.3 ist die Zahl der Permutationen von n Elementen ( n ) , = n . ( n - 1) . . . . . 2 . 1 .
Definition 2.5 Fur n E N definieren wir n! (sprich: n Fakultat) wie folgt
und fur n = 0 definieren wir O! := 1. Beispiel 2.6 Wir stehen vor einer verschlossenen Tur rnit einem Bund von n Schlusseln, von denen genau einer zum Turschloss passt. Da wir nicht wissen, welcher es ist, probieren wir die Schlussel nacheinander aus, bis wir den richtigen finden. Wir versuchen es rnit jedem Schlussel hochstens einmal und wir nummerieren die Schlussel so, dass der passende Schlussel die Nummer 1 erhalt. Jetzt modellieren wir fur jedes k rnit unserem Urnenmodell 011
24
2. Elementare Kombinatorik
das Znfallsexperiment, dass wir k der n Schliissel ausprobieren, d.h. k-faches Ziehen ohne Zurucklegen, mit Berucksichtigung der Reihenfolge. Also Qjnjk,) = {(wI,.. . ,wk) : wi E {I,. . . ,n}, w,
# wj fiir i # j } .
Wir suchen die Wahrscheinlichkeit des Ereignisses Ak, dass der k-te Schliissel passt,
Dawi # l f i i r i = l , ... ,k-l,gibtes(n-1).(n-2)...:((n-1)-(k-1)+1) Moglichkeiten fiir wl, . . . ,wk-1. Mit wk = 1 folgt IAkl = (n - 1) . (n - 2) . . . . . ((n - 1) - (k - 1) + 1) .1 = (n - 1) . (n - 2) . . . . . (n - k 1) = (n - l)k-l
+
und damit
Eine zweite LBsungsmoglichkeit finden wir, indem wir in Gedanken annehmen, dass erst die n Schliissel in einer Reihe angeordnet und anschlieflend in dieser Reihenfolge ausprobiert werden. Dann ist Q die Menge aller Permutationen (u(l), . . . ,u(n)) der Elemente der Menge {I,. . . ,n} und das gesuchte Ereignis Ah die Menge aller Permutationen mit u(k) = 1. Die Machtigkeit der Menge A; ist die Anzahl der Permutationen der (n - 1) Elemente der Menge 12,. . . , n,), also (n - I)!. So gilt also auch
111. Ziehen o h n e Zuriicklegen, o h n e Beriicksichtigung d e r Reihenfolge. Bei diesem Model1 kijnnen wir das Ziehungsergebnis durch die Menge der k gezogenen Kugeln heschreiben. Da wir ohne Zuriicklegen ziehen, kann jede Kugel hochstens einmal gezogen werden, und wir konnen alle k Kugeln auf einmal ziehen
Qrrr = {A C { I , . . . , n ) : IAI = k). Jedes Element aus Qrrr heifit Komhination von k aus n, uud IQrrrl ist somit die Anzahl aller Kombinationen von k aus n. Lemma 2.7 Fur die Machtigkeit der Menge Qrrr gilt
d.h. die Anzahl aller Teilmengen der Machtigkeit k aus einer Menge der Miichtigkeit n ist
9.
2.1 Urnenmodelle
25
Abb. 2.3. Ziehen ohne Zurucklegen, ohne Berucksichtigung der Reihenfolge
Beweis. Wir bestimmen die Machtigkeit von QIII mit Hilfe von QII, dessen Machtigkeit wir kennen. Wir definieren eine surjektive Abbildung von 011 nach QIII, indem wir jedem k-Tupel (wl,. . . ,wk) die Menge {wl,. . . ,wk) zuordnen. Die Urbilder eines Elements aus QIII sind dann alle k-Tupel, die wir als Permutationen der Elemente der Menge {wl, . . . ,wk) erhalten konnen, und davon gibt es genau k!. In QII gibt es also k!-ma1 so viele Elemente wie l = (n)k . in QIII, also IQIIII = In11 ,! k! Definition 2.8 (i) Fur r E R, n E N definieren wir den Binomialkoefizien(sprich: r uber n) wie folgt ten
(1)
(ii) F u r r E R, n E E, n durch
5 0 definieren wir den Binomialkoefizienten
(3 { :=
(1)
1 fur n = 0 0 fur n < 0.
Mit dieser Definition gilt 1 QIII 1 = (L) . Fur naturliche Zahlen n ist der Binomialkoeffizient )(: also die Anzahl aller Teilmengen der Machtigkeit k aus einer Menge der Machtigkeit n . Dies gilt auch fur negative ganze Zahlen sowie fur k > n, da in beiden Fallen per Definition )(: = 0 ist. Diese Tatsache wird uns spater in Berechnungen mit Binomialkoeffizienten helfen. Bemerkung 2.9 Fur k E (0,. . . , n ) und n E No gilt folgende Identitat
2. Elementare Kombinatorik
26
die oft als Definition der Binomialkoeffizienten verwandt wird. An dieser Darstellung erkennen wir, dass gilt
Beispiel 2.10 Mit Hilfe dieses Urnenmodells und Lemma 2.7 konnen wir die Newton'sche Binomialformel n
(x
+ y)" = C (i)xkyn-k k=O
+
+
beweisen. Wir schreiben dazu (x y)" als n-faches Produkt (x y)n = (x y) . . . . . (x y). Das Ausmultiplizieren entspricht dem Vorgang, dass wir k Faktoren wahlen, aus denen wir das x nehmen, und es verbleiben (n - k) Faktoren, aus denen wir das y nehmen. So erhalten wir die Terme xkYnpk. Die Anzahl dieser Terme entspricht der Anzahl der Moglichkeiten k Faktoren aus dem n-fachen Produkt auszuwahlen, und das sind (F).
+
+
Abb. 2.4. Ziehen mit Zuriicklegen, ohne Berucksichtigung der Reihenfolge
IV. Ziehen mit Zuriicklegen, ohne Berucksichtigung der Reihenfolge. Zunachst bemerken wir, dass dies ein merkwurdiges Model1 ist. Bei einem Ziehungsvorgang mit diesen Bedingungen konnen wir nicht alle k Kugeln auf einmal ziehen, aber die Reihenfolge sol1 keine Berucksichtigung finden. So merken wir uns nur die Tatsache, dass die i-te Kugel gezogen worden ist, dies ist zum Beispiel moglich mit einer Strichliste. Nun lassen sich die Ergebnisse in diesem Model1 als n-Tupel ( k ~. ,. . ,k,) beschreiben, wobei ki angibt, wie oft die i-te Kugel gezogen wurde. Da wir insgesamt k Kugeln aus der Urne mit n Kugeln ziehen wollen, ergeben sich ki = k, und der Ergebnisraum ist die Bedingungen ki E No und Cy=2=,
2.1 Urnenmodelle
Q r v = { ( k , . ,k ) :
kl+
27
...+ k , = k ]
Die Besonderheit dieses Urnenmodells besteht darin, dass wir, obwohl wir k Kugeln ziehen, in dem Ergebnisraum n-Tupel verwenden.
Lemma 2.11 Fur die Machtigkeit der Menge Q r v gilt
Beweis. Wir miissen die Anzahl der n-Tupel ( k l , ... , k,) nicht-negativer gmzer Zahlen ki bestimmen, fiir die gilt kl . . . + k, = k . Dazu denken wir uns jedes ki als eine Liste von ki Strichen, so entspricht etwa der 4 die Liste 1 1 1 1 . Wenn wir nun in obiger Gleichung alle k j durch die Strichlisten ersetzen, dann gibt es zwei verschiedene Zeichen, I und +, und zwar k Striche und (n - 1) Additionszeichen, also zusammen ( k n - 1) Zeichen. Jedes n-Tupel ist genau festgelegt durch die Setzung der Additionszeichen, und dafiir gibt es nach Lemma 2.7 genau Miiglichkeiten. Die letzte Identitiit folgt aus Bemerkung 2.9, d.h. jedes n-Tupel ist genauso festgelegt durch die Setzung der k Striche. 0
+
+
(ki:;l)
AbschlieBend fassen wir alle Lemmata in der ktirzesten Schreibweise in einem Satz zusammen.
Satz 2.12 Fur das zufallige k-malige Ziehen einer Kugel aus einer Urne mit n Kugeln gilt
Ziehen mit Zuriicklegen mit Beriicksichtigun,g der Reihenfolge ohne Beriieksichtigung der Rehenfolge
= nk
IQw =
Ziehen ohne Zuriicklegen IQrrl = (n)k
,
(k+n-I )
IQIIII=
(9
ubung 2.1 Beschreibe fiir das Ziehen von 2 Kugeln aus einer Urne rnit 5 Kugeln die Ergebnisraume Q I , ( 2 1 1 , Q I I I und Q I V . Bestimme die M~htigkeitendieser Mengen und vergleiche sie rnit den obigen Formeln. ubung 2.2 Wir werfen 3-ma1 rnit einem unverfdschten Wiirfel. Bestimme die Wahrscheinlichkeit, dass die hochste Augenzahl k ist, fiir k = 1,. . . ,6. ubung 2.3 Eine Urne enthilt 10 Kugeln rnit den Nummern 1,. . . , l o . Wir ziehen 4-mal ohne Zuriicklegen. (i) Wie groil ist die Wahrscheinlichkeit, dass nur Kugeln rnit ungeraden Nummern gezogen werden? (ii) Wie groil ist die Wahrscheinlichkeit, dass die kleinste gezogene Nummer k ist, fiir k = 1, ... , l o ?
28
2. Elementare Kombinatorik
bung 2.4 In den Aufiug eines 10-stockigen Hauses steigen im Erdgeschoss 7 Personen ein. Wie groi3 ist die Wahrscheinlichkeit, dass auf jeder Etage hochstens 1 Person aussteigt? bung 2.5 Wir werfen 6-ma1 mit einem unverfiilschten Wiirfel. Wie groJ3 ist die Wahrscheinlichkeit, dass 6 verschiedene Augenzahlen geworfen werden?
Zelle 1
Zelle i
Zelle n
Abb. 2.5. Verteilen von Murmeln auf Zellen
2.2 Verteilen von Murmeln auf Zellen Wir konnen Urnenmodelle naturlich nicht nur fur das Ziehen von Kugeln aus einer Urne verwenden, sondern fur alle Experimente, bei denen wir den Ergebnisraum bijektiv auf den Ergebnisraum eines der Urnenmodelle abbilden konnen. Wir betrachten in diesem Abschnitt exemplarisch das Verteilen von k Murmeln auf n Zellen. Zur Modellierung des Verteilungsvorgangs nehmen wir eine Urne mit n Zetteln, auf denen die Zahlen 1 , . . . ,n stehen. Wir ziehen k-ma1 einen Zettel aus der Urne und legen dann jeweils eine Murmel in die Zelle mit der Nummer des Zettels, siehe Abb. 2.5. Dabei konnen wir, wie im vorigen Abschnitt, vier Ziehungsarten unterscheiden. Ziehen wir mit oder ohne Zurucklegen des Zettels in die Urne, so bedeutet dies, dass wir mehrere oder nur hochstens eine Murmel in eine Zelle legen konnen. Wenn wir mit Berucksichtigung der Reihenfolge ziehen, so mussen die Murmeln von 1 bis k nummeriert sein, wenn wir ohne Berucksichtigung der Reihenfolge ziehen, so durfen die Murmeln nicht voneinander zu unterscheiden sein. In der Physik finden diese Modelle ihre Anwendung. Dann entspricht eine Zelle einem Teil des Phasenraumes und eine Murmel einem Teilchen. Je nachdem, ob die Murmeln unterscheidbar sind, d.h. nummeriert werden konnen, und ob in einer Zelle mehrere Murmeln sein konnen, wahlen wir Or, Orr, OIII oder Orv Die Vielzahl der Modelle fur das Verteilen von Murmeln auf Zellen mag verwirren, insbesondere die Unterscheidung zwischen Model1
2.2 Verteilen von Murmeln auf Zellen
29
QI und Qlv. Dabei ist es ganz wichtig zu bedenken, dass die Entscheidung fur eines der Modelle als Beschreibung nicht alleine von der Frage abhangt, ob die Murmeln unterscheidbar sind. Die Gleichwahrscheinlichkeit aller Ergebnisse ist Grundvoraussetzung fur alle Laplace-Experimente.
Beispiel 2.13 Wir konnen das Werfen zweier unverfalschter Munzen als Verteilen zweier Murmeln auf zwei Zellen, K und 2 , modellieren. Wir symbolisieren die Murmeln durch einen * und die Wande zwischen zwei Zellen durch einen I und betrachten die Ergebnisse *I* und * * I. Im Model1 RIV = {(kl, k2) : k1 E NO, k1 k2 = 21, wobei ki die Anzahl der Murmeln in der i-ten Zelle angibt, werden diese Ergebnisse durch ( 1 , l ) bzw. Im Model1 (2,O) dargestellt und haben beide dieselbe Wahrscheinlichkeit 01 = {(kl, k2) : 1 5 ki 5 21, wobei ki das Ergebnis des i-ten Wurfs angibt und 1 fur ,KopfL und 2 fur ,ZahlL steht, entspricht dem Ergebnis *I* das Ereignis {(1,2), ( 2 , l ) ) und hat somit die Wahrscheinlichkeit und das Ergebnis * * I entspricht dem Elementarereignis ((1,l)} und hat die Wahrscheinlichkeit $. Es ist eigentlich merkwurdig, dass es in der Natur Teilchen entspricht. gibt, deren Verteilung dem Model1
+
i.
k,
Im Model1 Orv wird jedes Ergebnis des Experimentes durch ein n-Tupel ( k l , . . . ,k,) beschrieben, wobei ki angibt, wie viele Murmeln in der i-ten Zelle liegen, und die Nebenbedingung k1+ . . . k, = k gilt. Da die Murmeln nicht unterscheidbar sind, geht es nur um die Anzahl der Murmeln. Wenn die Murmeln unterscheidbar sind, so verwenden wir das Model1 01. Dann entspricht jedem Ergebnis aus Model1 QIv ein Ereignis in QI, namlich die Menge aller Ergebnisse, bei denen in der i-ten Zelle ki Murmeln liegen. Im vorigen Abschnitt haben wir die Machtigkeit der Mengen QI, QII, 0111 und Olv bestimmt. Die Wahrscheinlichkeit des Ereignisses, dass ki Murmeln in der i-ten Zelle liegen, ist im Model1 Qlv dadurch sofort gegeben. Zur Bestimmung der Wahrscheinlichkeit dieses Ereignisses in QI mussen wir wissen, wie viele Moglichkeiten es gibt, k unterscheidbare Murmeln so auf n Zellen zu verteilen, dass k Murmeln in der i-ten Zelle liegen. Dazu benotigen wir folgendes Lemma.
+
Abb. 2.6. Aufteilung einer Menge in Teilmengen gegebener Machtigkeit
30
2. Elementare Kombinatorik
Lemma 2.14 Die Anzahl der Mgglichkeiten, eine Menge A der Machtigkeit k in n Teilmengen A1,. . . ,A, der Machtigkeiten k l , . . . , k, aufmteilen, wobei kl . . . k, = k , ist durch
+ +
k! k l ! . ... . k,! gegeben Bevor wir den Beweis dieses Lemmas gehen, fiihren wir eine neue Bezeichnung ein, die uns eine kiirzere Schreihweise der in (2.6) auftretenden GrijBe ermoglicht. Definition 2.15 Flir Zahlen k , k l , . . . , k, E % dejinieren wir den Multinomialkoefizienten wie folgt
Bemerkung 2.16 Das Ziehen von m Kugeln aus k , ohne Zuriicklegen und ohne Beriicksichtigung der Reihenfolge, lasst sich auch darstellen als Aufteilen einer Menge mit k Elementen in die beiden Teilmengen der gezogenen und der nicht gezogenen Kugeln. Diese Teilmengen haben die Machtigkeiten m bzw. k - m. Es giht also gemai3 Lemma 2.14
k
k! ( k , k - rn) = m ! ( k - m)! =
(L)
MBglichkeiten, und damit erhalten wir in diesem Spezialfall die Aussage von Lemma 2.7.
Beweis won Lemma 2.14. Auf folgende Weise konnen wir die Menge A aufteiMoglichlen: Wir wahlen die Teilmenge A1, lAll = k l , daftir haben wir keiten. Dann wahlen wir ails der Restmenge A \ A I , IA \ A1 1 = k - k ~ die , Moglichkeiten hahen. Die TeilTeilmenge A' mit lAzl = k', wofiir wir (":I) menge As, IA3I = k3. wahlen wir aus A\(AlUA'), IA\(A~UAZ)I = k - k l - k z , nnd dafiir giht es Moglichkeiten, usw. So erhalten wir
(il)
(k-2s-k2)
( ) -
("
"
. - "-1 , ' I ) , -k') kn ( k k! - kl - . . . - k,-l)! ( k - kl)! . ..' . kn!(k - kl - . . . - k,)! k l ! ( k - k l ) ! kZ!(k - kl - k')! k! k l ! . ..: k,!'
("
,
,
-
-
)
d a k l f ...+ k , = k . Wir wollen uns die Formel noch mit einem zweiten Beweis vertraut machen,
2.2 Verteilen von Murmeln auf Zellen
Abb. 2.7. Aufteilen von A in
A1,. . .
31
, A , durch Anordnen
da der Multinomialkoeffizient spater Grundlage fur weitere uberlegungen sein wird. Wir konnen die Menge A der Machtigkeit k in n Teilmengen Al, . . . ,A, der Machtigkeiten kl, . . . , k, aufteilen, indem wir alle Elemente der Menge A in einer Reihe anordnen und dann die ersten k1 Elemente zur Teilmenge Al, die nachsten k2 Elemente zur Teilmenge A2, usw., zusammenfassen. Es gibt k! Moglichkeiten, die k Elemente von A anzuordnen. Da es in Mengen keine Anordnung gibt, ergibt sich keine neue Aufteilung in Teilmengen, wenn sich die Anordnung nur innerhalb der ki Elemente der Teilmenge Ai unterscheidet. Fur die ki Elemente der Menge Ai gibt es ki! Anordnungen, die alle zur selben Aufteilung von A fuhren, also wegdividiert werden mussen. So erhalten wir 0 wieder die obige Formel. Mit Hilfe des Multinomialkoeffizienten konnen wir nun folgendes Lemma formulieren. Lemma 2.17 Fur das Verteilen won k unterscheidbaren Murmeln aufn ZelZen ist die Wahrscheinlichkeit, dass kl Murmeln in der 1-ten Zelle, . . . , k, Murmeln in der n-ten Urne landen
Beweis. Da die Murmeln unterscheidbar sind, verwenden wir Model1 01und mit Satz 2.12 und Lemma 2.14 erhalten wir diese Aussage. 0 Beispiel 2.18 In der statistischen Mechanik spielen die Modelle fur das Verteilen von Murmeln auf Zellen eine wichtige Rolle. Vereinfacht gesagt betrachtet man dort die Bewegung einer grofien Zahl von Teilchen, etwa von Gasmolekulen, in einem Zylinder. Die Zahl der Teilchen ist so grofl und es gibt so viele Wechselbeziehungen, dass es nicht mehr moglich und nicht mehr sinnvoll ist, die Bewegung jedes einzelnen Teilchens zu beschreiben. Man beschrankt sich dann auf statistische Aussagen iiber die Verteilung der Teilchen im Phasenraum. Dazu unterteilt man den Phasenraum in Zellen und fragt nach der Wahrscheinlichkeit, dass sich nl Teilchen in Zelle 1, nz Teilchen in Zelle 2, usw., befinden. Fur klassische Teilchen erweist sich RI, mit Laplace-Verteilung, als geeignetes Modell. In der Terminologie der statistischen Mechanik heiflt dies Maxwell-Boltzmann Statistik. Man nimmt an, dass die Teilchen unterscheidbar sind, gewissermaflen Ruckennummern tragen und dass alle Verteilungen der Teilchen auf die Zellen dieselbe Wahrscheinlichkeit
2. Elementare Kombinatorik
32
haben. So sind die beiden in Abb 2.8 angegebenen Verteilungen von k = 12 Murmeln auf n = 6 Zellen gleich wahrscheinlich. Jedes einzelne Ergebnis in diesem Model1 heiflt in der statistischen Mechanik ein Mikrozustand. Ein Mikrozustand ist aber nicht wahrnehmbar, weil die Teilchen eben keine Rtickennummern tragen, bzw. man diese nicht lesen kann. Makrozustande, d.h. die Anzahl der Teilchen in den verschiedenen Zellen, sind wahrnehmbar. Es w b e ein Fehler, nun fiir die Makrozustejlde QI" anzuwenden, denn die Erfahrung zeigt, dass, im Gegensatz zu den Mikrozustejlden, die Makrozustande nicbt alle gleich wahrscheinlich sein miissen. Das lasst sich erklaren, da verschiedene Makrozustande durch eine unterschiedliche Anzahl von Mikrozustejlden zustande kommen. So gibt es in unserem Beispiel nur genau einen Mikrozustand, der zu dem Makrozustand (12,0,0,0,0,0)ftihrt, aber ,) = Mikrozustejlde zu (2,2,2,2,2,2). Aufzrund dieses eroflen ~nterschiedsder Wahrscheinlichkeiten tritt der erste Makrozustand prakt,isch nicht anf.
-
(,,,,it
u
Abb. 2.8. Zwei Verteilungen von 1 2 nummerierten Murmeln auf 6 Zellen
Beispiel 2.19 Im Biiro einer Firma kommen wikhentlich erfahrungsgemBB 5 Eilauftrage an, die bearbeitet werden miissen. Wenn an jedem der Arbeitstage ein solder Auftrag ankiime, so wiirde sich die Arbeit gut verteilen. Oft kommen aber 3 Eilauftrage an einem Tag, an 2 Tagen je 1 Eilauftrag und an den iibrigen 2 Arbeitstagen gar keiner an. Wie groB ist die Wahrscheinlichkeit dieses Ereignisses unter der Voraussetzung, dass die EilauftrBge zufBllig ankommen? Wir wollen diese Rage mit Hilfe eines Modells des Verteilens von Murmeln auf Zellen beantworten. Dann entsprechen die Arbeitstage den Zellen mit den Nummern 1 bis 5, und die 5 unterscheidbaren Eilauftrage sind 5 Murmeln mit den Nummern 1 bis 5. Nun ziehen wir einen Zettel und legen eine Murmel in die entsprechende Zelle, d.h. dieser Eilauftrag ist an diesem Arbeitstag angekommen. Wir legen den Zettel wieder zuriick, da ja
2.2 Verteilen von Murmeln auf Zellen
33
der nachste Eilauftrag am gleichen Arbeitstag ankommen kann. Also sind die Bedingungen yon L?Ierfullt, und es gibt 55 = 3125 mogliche Ergebnisse, die wir als gleich wahrscheinlich betrachten. Von dieser entscheidenden Modellannahme kijnnen wir erst spater im Rahmen der Statistik untersuchen, ob sie realistisch ist. Die Wahrscheinlichkeit, dass mont,ags 3 Eilauftrage kommen, dienstags und mittwochs je 1 Eilauftrag und donnerstags und freitags = &. Da wir aber in unserer Fragestellung keiner, ist also ,!.,!. ::,,!,,! . die Wochentage nicht festgelegt hatten, ist dies noch keine Antwort. Eine andere Moglichkeit ware ja, dass 3 Eilauftrage am Mittwoch, je 1 Eilauftrag am Donnerstag und Freitag und keiner am Montag und Dienstag ankommen. Wie viele solcher Moglichkeiten gibt es? Dazu teilen wir die 5 Arheitstage in 3 Teilmengen der Machtigkeiten 2, 2 und 1 auf, wobei an den Tagen der ersten Teilmenge kein Eilauftrag ankommt, an den Tagen der zweiten Teilmenge je ein Eilauftrag und an dem einen Tag der letzten Teilmenge 3 Eilauftrage ankommen. Nach Lemma 2.14 gibt es - 30 Aufteilungen und somit =-E. In Tabelle 2.1 sind die ist die gesuchte Wahrscheinlichkeit 3 0 . Wahrscheinlichkeiten fur alle moglichen Aufteilungen zusammengestellt.
&
1 [?I, u, u, u)
(3.2.0.0.0)
5 10
#Kombinationen von Tagen~ahrscheinlichkeit 513125 &=5 = 20 100/3125 " != 20 20013125
&
1
Tabelle 2.1. Wahrscheinlichkeiten der moglichen Verteilungen von 5 Eilauftragen auf 5 Aheitstage, s. Beispiel 2.19
ubung 2.6 Welche Moglichkeiten giht es, eine Menge der Machtigkeit 5 in 3..Teilmengen A1,Az,Aa der Machtigkeiten kl = Isz = 2 und ks = 1 aufiuteilen? Uberpriife die Ergebnisse anschlie5end mit der Multinomialformel. ubung 2.7 Wir werfen 12-ma1einen unverfalschten Wiirfel. Wie gro5 ist die Wahrscheinlichkeit, dass jede Augenzahl genau 2-ma1 geworfen wird? ubung 2.8 Jemand empfangt zu Hause wochentlich 3 Briefe. Berechne die Wahrscheinlichkeiten der moglichen Aufteilungen auf die 6 Werktage einer Woche unter der Voraussetzung, dass die Briefe zufallig ankommen.
34
2. Elementare Kombinatorik
ubung 2.9 Wir ziehen aus einer Urne mit 4 nummerierten Kugeln 6-ma1 mit Zurucklegen. Wie grofi ist die Wahrscheinlichkeit, dass die Kugeln 1 und 2 je 2-ma1 und die anderen Kugeln je einmal gezogen werden? Wie grofi ist die Wahrscheinlichkeit, dass eine Kugel 6-ma1 gezogen wird?
2.3 Binomiale und hypergeometrische Verteilungen Wir knupfen an den Abschnitt 2.1 an. Zusatzlich zu den Gegebenheiten der Urnenmodelle haben die Kugeln aufier ihrer Nummer nun noch eine Farbe, rot oder weifi. Diese Urnenmodelle konnen wir etwa anwenden fiir Lotteriespiele, bei denen ja entscheidend ist, welche Zahlen wir angekreuzt haben. Diesen Nummern entsprechen die roten Kugeln. Da die Formeln fur die Wahrscheinlichkeitsverteilungen sich so besser merken lassen, fuhren wir nun neue Bezeichnungen ein. Wir haben eine Urne mit N Kugeln, wovon R Kugeln rot und die ubrigen ( N - R) Kugeln weifi sind. Aus dieser Urne ziehen wir eine Stichprobe von n Kugeln. Wie grofi ist die Wahrscheinlichkeit, dass r rote Kugeln in der Stichprobe sind? Die Antwort auf diese Frage ist naturlich abhangig von der Art der Ziehung, ob wir mit oder ohne Zurucklegen ziehen. In jedem Fall nehmen wir an, dass die Kugeln nummeriert sind und dass die roten Kugeln die Nummern 1 , . . . , R haben.
Abb. 2.9. Ziehen aus einer Urne mit roten und weifien Kugeln
Ziehen mit Zuriicklegen, binomiale Verteilung. Wir verwenden den Ergebnisraum RI mit Laplace-Verteilung. Das Ereignis, dessen Wahrscheinlichkeit wir suchen, entspricht der Menge
E, = {(wl, . . . , a n ) : I{i : wi
E (1,.. . , R}}I = r).
Um die Machtigkeit von E, zu berechnen, schreiben wir E, als Vereinigung disjunkter Ereignisse EI, wobei I c (1,. . . ,n} die Nummern der Ziehungen enthalt, bei denen eine rote Kugel gezogen wird. Also ist
EI = {(wl, . . . ,wn) : wi wi
E 11,. . . , R} fur i E E
I, {R + 1,.. . ,N} fur i E IC)
2.3 Binomiale und hypergeometrische Verteilungen
35
und weiter Er = U K { I,..,n},l~=v El. Es gilt lE11 = Rr(N - R)"-" fur jede Teilmenge I C { I , .. . ,n ) mit III = r. Da es ):( solcher Teilmengen gibt, folgt
Mit der Laplace-Verteilung und
If211
= N n erhalten wir
Da {Eo,. . . , E n ) eine disjunkte Zerlegung des Ergebnisraumes ist, wird durch p(r) := P(E,), r E {0,. . . ,n ) , eine Wahrscheinlichkeitsfunktion auf {O, . . . ,n ) definiert. Die zugehorige Wahrscheinlichkeitsverteilung auf 10,. .. , n ) heiBt binomiale Verteilung mit den Parametern n und Wir die Wahrscheinlichkeiten sind, bei bemerken, dass p := bzw. q := 1 einer einzelnen Ziehung eine rote bzw. eine weiBe Kugel zu ziehen. Mit diesen Definitionen gilt P(E,) = (F)prqn-T.Das ist allgemein die Formel fiir die Wahrscheinlichkeit, r Erfolge zu erzielen bei n Experimenten, die jeweils zwei mijgliche Ergebnisse, Erfolg oder Misserfolg, haben, wobei p die Wahrscheinlickeit fur ,Erfolg' und q die Wahrscheinlichkeit fiir ,Misserfolg' k t .
g
g.
g
Ziehen ohne Zuriicklegen, hypergeometrische Verteilung. In diesem Fall durfen wir annehmen, dass alle Kugeln gleichzeitig gezogen werden, und verwenden den Ergebnisraum QIII mit Laplace-Verteilung. Dem Ereignis, dass genau r Kugeln in der Stichprobe rot sind, entspricht dann die Menge
E = { A c { l .N : I A I = n , I A n { l , ..., R ) I = r , IA n { R 1 , . . . ,N)I = n - r ) .
+
E, enthdt alle Teilmengen von { I , .. . ,N ) , die die Machtigkeit n haben und r Elemente aus { I , . . . ,R ) und ( n - r ) Elemente aus { R f l ,. . . ,N) enthalten. Es gibt genau ):( Teilmengen von (1,.. . ,R ) der Machtigkeit r und (:If) Teilmengen von { R+ 1,. . . ,N ) der Machtigkeit ( n - r ) , die alle miteinander kombiniert werden konnen. Somit folgt R N-R 'E"= ( r ) ( n - r ) und aufgrund der Laplace-Verteilung und
P(Er) =
0111
(3(:If) (2
=):(
.
gilt
(2.9)
Da {Eo,. . . , E n ) eine disjunkte Zerlegung des Ergebnisraumes ist, wird durch p(r) := P(E,), r E {0,. . . ,n ) , eine Wahrscheinlichkeitsfunktion
36
2. Elementare Komhinatorik
auf {O, . . . ,n} definiert. Die zugeharige Wahrscheinlichkeitsverteilung auf {0, . . . ,n) heifit hypergeometrische Verteilung mit Parametern N , R und n. Wir konnen fur diesen Fall auch das Model1 QII verwenden. Dann entspricht dem Ereignis, dass genau r Kugeln in der Stichprobe rot sind, die Menge E, = {(wl,.. . ,w,) : I{i : wi E { I , .. . ,R)}I = T}. Wie bei der Herleitung der binomialen Verteilung schreiben wir E, = UICl ,n),lIl=r EI als Vereinigung der disjunkten Ereignisse EI = {(wl,.. . ,w,) : wi E { I , . . . ,R} fur i E I,wi E { R 1 , . .. ,N ) fur i E I C ) ,wobei I C { I , ... , n ) mit III = T. Es gilt
+
Da es, wie oben, ):( Moglichkeiten gibt, diese Indexmenge I zu wahlen, folgt = (N), nun IE71 = (:) . (R),(N - R),-, und wegen 10111
9
Mit der Identitat ):( = und den entsprechenden Identitaten fiir die anderen Terme l a s t sich diese Formel umschreiben als
und es ergibt sich wieder die hypergeometrische Verteilung. Wir erhalten also das gleiche Endergehnis, unabhejlgig davon, oh wir 011oder 011r anwenden.
Beispiel 2.20 Wir werfen n-ma1 eine unverfalscht,eMiinze und fragen nach der Wahrscheinlichkeit des Ereignisses Ek, dass wir dabei genau k-ma1 Kopf erhalten. Wir kiinnen dieses Experiment modellieren durch n-faches Ziehen mit Zurucklegen aus einer Urne mit zwei Kugeln, ,Kopf und ,ZahlL.Dann gilt nach (2.8)
ubung 2.10 Aus einer Urne mit 3 roten und 5 weii3en Kugeln ziehen wir 2-ma1 ohne Zuriicklegen. Wir definieren folgende Ereignisse A : ,die 1. gezogene Kugel ist weiB B : ,die 2. gezogene Kugel ist rot'. Berechne P(A), P ( A n B), P(ACn B) und dann P ( B ) .
2.4 Das Stimmzettel-Problem
37
bung 2.11 Wir werfen 12-mal mit einem unverfalschten Wiirfel. Wie groD ist die Wahrscheinlichkeit, k-ma1 eine 6 zu wiirfeln, fiir k = 0 , . . . ,12?
bung 2.12 Aus einer Urne mit 3 roten und 6 weiBen Kugeln ziehen wir 3-ma1 ohne Zuriicklegen. Bestimme die Wahrscheinlichkeiten aller meglichen Aufteilungen der Stichprohe in rote und weiae Kugeln. bung 2.13 Aus einer Urne mit 2 roten, 2 schwarzen und 2 weiDen Kugeln ziehen wir 3-ma1 ohne Zuriicklegen. Wie groD ist die Wahrscheinlichkeit, dass die Stichprobe von jeder Farhe genau eine Kugel enthalt?
2.4 Das Stimmzettel-Problem In diesem Ahschnitt beschaftigen wir uns mit einem schonen, nicht-trivialen Beispiel, in dem wir unsere Kenntnisse der Komhinatorik anwenden konnen. Es hat eine Wahl stattgefunden, bei der zwei Kandidaten, A und B, nominiert waren. Bei der Stimmauszahlung wird ein Stimmzettel nach dem anderen registriert, so dass man jederzeit weiB, welcher Kandidat gerade vorne liegt. Das Wahlergehnis ist schliefllich, dass A gewonnen hat, und zwar mit a Stimmen gegenuber b Stimmen fiir B (b < a). Wie groB ist jetzt die Wahrscheinlichkeit, dass A wahrend der gesamten Stimmauszahlung vorne lag?
Abb. 2.10. Stimmzettel-Problem mit b = 5, a = 6: grafische Darstellung des Ergehnisses BAABAABAABB als Pfad im Gitter lV2 von (0,O) nach (5,6) (links) und Reflektionsprinzip (rechts) Als erstes wollen wir den Ergebnisraum f2 beschreihen und seine Machtigkeit bestimmen. Wir konnen den Ahlauf der Stimmauszahlung grafisch darstellen als Pfad des Koordinatenpaares (Anzahl der Stimmen fiir B, Anzahl der Stimmen fur A) in p.Der Ergebnisraum f2 ist dann die Menge aller Pfade von (0,O)nach (b, a), die dadurch entstehen, dass wir stets von einem Gitterpunkt (x,y) nach (x 1, y) oder (x, y 1) gehen. Jedem Ergebnis ist
+
+
38
2. Elementare Kombinatorik
+
eineindeutig eine Teilmenge der Machtigkeit a aus der Menge { I , . . . , a b) zugeordnet, entsprechend den Zeitpunkten, zu denen Stimmen fiir A registriert werden. Also ist nach Lemma 2.7
Unter der Annahme, dass die Stimmzett,el in einer zufalligen Reihenfolge ausgezahlt werden, wahlen wir die Laplace-Verteilung auf Q. Nun definieren wir drei Teilmengen von Q, El: Menge aller Pfade, die ganz oberhalh der Diagonale liegen E2: Menge aller Pfade, die durch den Punkt (1,O) gehen E3: Menge aller Pfade, die durch den Punkt ( 0 , l ) gehen, aher nicht ganz oherhalb der Diagonalen hleihen. Der Menge El entspricht das Ereignis, dass A hei der Stimmauszahlung st,ets vorne liegt. Da die Pfade aus der Menge El durch den Punkt (0,l) gehen, bilden die Mengen E l , E2 und EQeine disjunkte Zerlegung von Q. Wir suchen die Machtigkeit von El und hemerken, dass
Folgende iiberraschende Identitat kann uns an dieser Stelle weiterhelfen.
Lemma 2.21 (Reflektionsprinzip) Die Machtigkeiten der Mengen Ez und E3 stimmen iiberein.
Beweis. Wir heweisen dieses Lemma, indem wir eine bijektive Ahbildung zwischen den Mengen Ez und E3 heschreiben. Wir betracht,en einen beliebigen Pfad aus E2. Da er durch den Punkt (1,O) geht und den Punkt (a, b) erreicht, muss er mindestens einmal die Diagonale schneiden. Wir wahlen den ersten Schnittpunkt, spiegeln den Pfad his zu diesem Punkt an der Diagonalen und lassen ihn weiter unver8ndert. Der neue Pfad geht durch (0,l) und liegt nicht ganz oherhalb der Diagonalen. Er ist somit Element von E3. Umgekehrt hat jeder beliebige Pfad aus E3 mindestens einen Beriihrungspunkt mit der Diagonalen. Und wenn wir einen solchen Pfad ebenso wie vorher his zu diesem Punkt spiegeln, so erhalten wir einen Pfad aus Ez. 0 Aufgrund dieser Abbildung gilt 1 Ez 1 = IE3 1. Satz 2.22 Die Wahrscheinlichkeit, dass A wiihrend der gesamten Stimmauszahlung vorne lag, ist
a-b P(E1) = a+b
2.5 Aufgaben
39
Beweis. Die Machtigkeit von Ez ktinnen wir analog zur Machtigkeit der Menge LJbestimmen, nur ist in E2 der erste Schritt des Pfades bereits vorgegeben. Es gilt also lE21= (a+:-1). Aus der Identitat (2.10) und Lemma 2.21 folgt
und schliefllich o+b-1 P(E1) = 1- 2(
eb)
= 1- 2
(a
+ b - l)! a! b!
a!(b - l)!(a
+
b a-b =1-2--b)! a+b- a+b
ubung 2.14 Wir betrachten eine Wahl mit dem Ergebnis a = 3 und b = 2. Gib alle mogliche,? Ablaufe der Stimmauszahlungan. In welchen Fallen lie@ A die ganze Zeit vorne? Uberpriife die Aussage von Satz 2.22.
2.5 Aufgaben Aufgabe 2.1 Beweise fur nicht-negative ganze Zahlen k, m, n die folgenden Identitaten fur Binomialkoeffizienten
6) cf 0 (7)( (ii)
k y = (m:n)
c,"=, (3) = 2" +
(iii) (1) ( ) = ( ) (,Pascal'sches Dreieck'). Verwende die Identitat (iii) und beweise mit vollstandiger Induktion, dass es )(; Teilmengen der Machtigkeit k von einer Menge der Machtigkeit n gibt.
Aufgabe 2.2 Beweise fiir nicht-negative ganzzahlige n folgende Identitat
5(;) j=O
(-1)j =
{
0 ftir n 2 1 1 fiir n = 0.
Aufgabe 2.3 (i) Aus einer Menge von N Ohjekten, die mit 1 bis N nummeriert sind, ziehen wir n Objekte ohne Zuriicklegen. Wie groB ist die Wahrscheinlichkeit, dass die grtiflte gezogene Nummer k. ist, fur 1 5 k 5 N? (ii) Beweise mit Hilfe von (i) die Identitat ~ f)(: = = ~
(c:).
Aufgabe 2.4 Zwei Personen werfen je n-ma1 eine unverfalschte Miinze. Zeige, dass die Wahrscheinlichkeit, dass beide gleich oft ,Kopf werfen (2[)2-2n ist. (Hinweis: Es gibt eine Losung ohne jeglichen Rechenaufwand!)
40
2. Elementare Kombinatorik
Aufgabe 2.5 Wie groD ist die Wahrscheinlichkeit, dass bei einem Treffen von n Personen mindestens 2 an demselhen Tag Gehurtstag haben? Wie grofi miissen wir n wiihlen, damit diese Wahrscheinlichkeit mindestens $ ist? Aufgabe 2.6 Frau B und Herr G gehen zu einem Abendessen, bei dem die N Gaste in einer zufalligen Reihenfolge an einen runden Tisch gesetzt werden. Wie groD ist die Wahrscheinlichkeit, dass beide nebeneinander sitzen diirfen? Aufgabe 2.7 Berechne fiir das Lottospiel ,6 aus 49' die Wahrscheinlichkeiten fiir ,6 Richtige', ,5 Richtige' und ,4 Richtige'. Aufgabe 2.8 Wir ziehen ohne Zuriicklegen aus einer Urne mit R rot,en und W weifien Kugeln. Bestimme die Wahrscheinlichkeit, dass die erste rote Kugel bei der k-ten Ziehung gezogen wird. Aufgabe 2.9 (Banach's Streichholzschachtelproblem) Stefan Banach (18921945), einer der groDen Mathematiker des 20. Jahrhunderts, hatte stets in seinen beiden Hosentaschen eine Streichholzschachtel. Zum Anziinden seiner Zigarette griff er zufallig in eine Hosentasche und nahm ein Streichholz aus der Schachtel. War die gewahlte Schachtel leer, so warf er beide weg und steckte sich zwei neue Schachteln ein. Berechne die Wahrscheinlichkeit, dass Banach k Streichholzer wegwirft, wenn jede volle Streichholzschachtel N Streichholzer enthalt. Aufgabe 2.10 Die 4 Mitglieder einer Familie erledigen reihum den Abwasch. Dieses Jahr hat ein Familienmitglied dabei 3 Teller zerbrochen und insgesamt sind 4 Teller zu Bruch gegangen. Berechne die Wahrscheinlichkeiten Kir alle moglichen Verteilungen der zerbrochenen Teller auf die spiilenden Familienmitglieder. 1st eines der Familienmitglieder wesentlich ungeschickter als die anderen? Aufgabe 2.11 Wir ziehen ohne Zuriicklegen n Kugeln aus einer Urne mit R roten, W weiBen und B blauen Kugeln. Wie groD ist die Wahrscheinlichkeit, dass in der Stichprobe r rote, w weifie und b blaue Kugeln sind? Aufgabe 2.12 Zu einer Theatervorstellung kommen n Besucher und jeder gibt seinen Regenschirm an der Garderobe ab. Nach der Vorstellung werden die Regenschirme zufallig an die Besucher ausgeteilt. Berechne die l?iahrscheinlichkeit p,, dass keiner der Besucher den eigenen Schirm erhalt. Zeige, existiert und bestimme den Grenzwert. dass lim,,,p,
3. Unabhangigkeit und bedingte
Wahrscheinlichkeit
In jeder Wissenschaft geht es nicht nur um die Besch&ftigung mit elementaren Ohjekten, sondern auch um die quantitative und qualitative Beschreibung ihrer Zusammenhange. Die Begriffe ,Unabhejlgigkeitl und ,bedingte Wahrscheinlichkeit' spielen dahei eine groBe Rolle in der Wahrscheinlichkeitstheorie.
3.1 Unabhsngige Ereignisse Beim Aufbau der Wahrscheinlichkeitstheorie betrachten wir die Eigenschaft der Unabhangigkeit in Bezug auf Ereignisse, Experimente und spater auch Zufallsvariablen. Wir uennen zwei Ereignisse A und B unabhangig voneinander, wenn das Eintreten von A die Wahrscheinlichkeit des Eintretens von B nicbt veradert. Far die frequentistische Interpretation von Wahrscheinlichkeiten konnen wir dies so verstehen, dass die relative Haufigkeit der Experimente, bei denen B eintritt in der Teilfolge der Experimente, bei denen A eintritt, genauso groD ist wie in der Gesamtfolge aller Experimente. Wenn wir mit na,ns und naris die Haufigkeiten des Eintretens von A, B hzw. A n B bezeichnen, so entspricht dieser Bedingung, dass lim,,, = limy. Dies motiviert uns zu folgender Definition. Definition 3.1 Sei (L',F,P) ein Wahrsch,einlichkeitsraum. Dann heiJen zwei Ereignisse A und B unabhdngig, wenn gilt
Fur die Interpretation von Wahrscheinlichkeit als relative Haufigkeit eines Merkmals in einer endlichen Grundgesamtheit L' konnen wir diese Definition auch einsehen. Dann bedeutet die Unabhejlgigkeit zweier Ereignisse, dass das Merkmal B in der Teilmenge A genauso oft eintritt wie in der Grundgesamtheit. Somit gilt !$f! = 4 und fur die Wahrscheinlichkeiten I*l P ( A n B ) = P ( A ) . P(B). Beispiel 3.2 (i) Wir werfen einen unverfitlschten Wiirfel und definieren die Ereignisse
42
3. Unabhangigkeit und bedingte Wahrscheinlichkeit
Abb. 3.1. Unabhangigkeit in einer endlichen Grundgesamtheit
A : ,die Augenzahl ist gerade' B : ,die Augenzahl ist durch 3 teilbar' Diese beiden Ereignisse sind unabhangig im Sinne der obigen Definition, denn es gilt P(A) = P ( B ) = und P ( A n B ) = (ii) Wir ziehen 2-ma1 mit Zurucklegen aus einer Urne mit 3 roten und 5 weifien Kugeln und betrachten die Ereignisse
k,
k.
A : ,die 1. gezogene Kugel ist rot' B : ,die 2. gezogene Kugel ist weifY.
E.
i,
= und P ( A n B ) = Dann gilt P(A) = Also sind = P(B) = die Ereignisse A und B unabhangig. (iii) Nun betrachten wir dasselbe Experiment wie in (ii), aber wir ziehen ohne Zurucklegen. Dann gilt P(A) = P ( B ) = und P ( A n B ) = siehe ubung 2.10. Also ist P ( A n B ) # P ( A ) . P ( B ) und die beiden Ereignisse A und B sind abhangig. Dies konnen wir intuitiv auch verstehen. Wenn wir nicht zurucklegen, hat das Ergebnis der ersten Ziehung Einfluss auf die Moglichkeiten der zweiten Ziehung.
E,
i,
Wir erweitern nun den Begriff der Unabhangigkeit auf mehr als 2 Ereignisse. Wenn wir nur P(A1 n . . . n A,) = P(A1) . . . . . P(A,) fordern wurden, dann ware jede Familie {Ai, i E I } von Ereignissen unabhangig, wenn eines der Ereignisse unmoglich ware. Dass eine paarweise Unabhangigkeit auch nicht ausreicht, zeigt das Beispiel in ubung 3.3. Definition 3.3 Die Ereignisse Al, . . . , A, heijlen unabhangig, wenn fur jedes k E (1,. . . , n ) und fur jede Auswahl von Indizes 1 5 il < . . . < ik 5 n gilt
P(Ail
n . . . n Ai,)
= P(Ai,)
. . . . . P(Aik).
(3.1)
3.1 Unabbangige Ereignisse
43
Mil dieser Definition gilt die wtinschenswerte Eigenschaft, dass eine Teilfamilie einer Familie unabhbgiger Ereignisse stets auch unabhangig ist. Das folgende Lemma ist eine Verallgemeinerung der einfachen Aussage, dass die Komplemente unahhangiger Ereignisse gleichfalls unabhangig sind. Ohwohl dies selhstverst8ndlich erscheinen mag, wollen wir dennoch einen exakten Beweis geben. Lemma 3.4 Es seien A1,. . . , A , unabhangige Ereignisse. Wir betrachten neue Ereignisse B I , . . . , B,, fiir die gilt
Bi = Ai oder Bi = A:. Dann sind B I , . . . ,B , unabhangige Ereignisse. Beweis. Wir zeigen, dass wir wieder eine Familie unahhangiger Ereignisse erhalten, wenn wir eines der Ereignisse durch sein Komplement ersetZen. Wiederholtes Ersetzen je eines Ereignisses durch sein Komplement liefert dann die Aussage des Lemmas. Nach eventueller Umindizierung der Ereignisse kiinnen wir annehmen, dass A1 durch A: ersetzt wird. Um zu zeigen, dass A;, A2, . . . , A , unabhangig sind, muss fur heliehige Indizes 1 5 il < . . . < ik 5 n die Identitat (3.1) nachgewiesen werden. 1st il # 1, so ist nichts zu zeigen. Es sei also 1 = il < i z < . . . < ik 5 n, dann gilt mit Satz 1.6 und der Unabhbgigkeit von Teilfamilien P(A; n A~ n . . . n A ~ , ) = P ( A ~ , ,... ~ A~ A ~ ~ ) - P ( A ~ ~ A ~ ~ ~ . . . ~ A ~ , ) = P ( A c ) . P ( A i , ) . . . . . P ( A c ) - P ( A 1 ) .P ( A b ) . . . . . P(Ai,) = ( 1 - P(A1)). P(Ai,) . . . . . P(Ai,) = P ( A : ) . P ( A i , ) . . . . . P(Ai,) und somit Identitat (3.1).
0
In der Zahlentheorie finden wir interessante Anwendungen fur Aussagen der Wahrscheinlichkeitstheorie.Es gibt die mathematische Disziplin ,Probabilistic Number Theory', zu deren bekanntesten Weghereitern die ungarischen Mathematiker Paul Turan (1910-1976)und Paul Erdos (1913-1996)gehoren. Viele d o n e Beispiele finden sich in dem Buchlein ,Statistical Independence in Probability, Analysis and Number Theory' von Mark Kac (1914-1984).Oft lassen sich mit wahrscheinlichkeitstheoretischen Argumenten erheblich kiirzere Beweise fiihren. Eines der besten Beispiele ist Turan's Beweis des Satzes von Hardy-Ramanujan, der im Wesentlichen sagt, dass die Zahlen 1,. . . ,N im Mittel loglog N verschiedene Primteiler hahen. Wir werden nun einen wahrscheinlichkeitstheoretischen Beweis der Produktformel fur die nach Leonhard Euler (1707-1783) benannte pFunktion geben, wohlwissend, dass es auch einen direkten Beweis dieser Formel gibt. Die Euler'sche p h n k t i o n ordnet jeder natiirlichen Zahl N die Anzahl der zu N teilerfremden Zahlen kleiner als N zu
44
3. Unabhangigkeit und bedingte Wahrscheinlichkeit
Die Euler'sche Produktformel sagt, dass
Zum Beweis dieser Formel betrachten wir jetzt den Ergebnisraum Q = {I,.. . ,N} mit der Laplace-Verteilung. In diesem Raum gilt
wobei Ak := {n E Q : kln}. Wir zeigen weiter, dass die Ereignisse A,, wobei p Primteiler von N ist, unabhangig sind. 1st k ein Teiler von N , so hat Ak Elemente, und somit gilt die Elemente k,2k,.. . , ( F ). k. Dies sind
F
Seien nun P I , . . . , p , verschiedene Primteiler von N . Dann gilt
und fiir die Wahrscheinlichkeiten
Damit ist die Unabhhgigkeit der Ereignisse A,, p Primteiler von N, gezeigt. Mit Lemma 3.4 folgt dann die Unabhangigkeit der Komplemente und somit kiinnen wir die Reihe der Identitaten in (3.2) fortsetzen und erhalten schliefllich
Bemerkung 3.5 Wir wissen nun, dass A,, , . . . ,A,_ unabhangige Ereignisse sind. Wir fassen zusammen. In unserem Model1 ist eine Zahl n mit Wahrscheinlichkeit durch k teilbar (dies entspricht der Tatsache, dass in der Folge 1,2,.. . jede k-te Zahl durch k teilbar ist), und fiir 2 verschiedene
3.1 Unahhangige Ereignisse
45
Primzahlen p und q sind die Ereignisse, dass eine Zahl n durch p bzw. q teilbar ist, unahhingig voneinander. Mark Kac formuliert dies in seinem Buch mit folgenden Worten ,we can say, using a picturesque but not a very precise language that the primes play a game of chance'. Man bemerke, dass wir in unseren Formulierungen miiglichst vorsichtig waren, denn wir betrachten nur den endlichen Raum { I , .. . ,N ) und die gefundenen Eigenschaften gelten nnr fiir Teiler von N . Am liehsten hatten wir eine Wahrscheinlichkeitsverteilung anf ganz N,die obige Eigenschaften erfiillt. Die Laplace-Verteilung setzt eine endliche Grundgesamtheit voraus und es gibt keine Gleichverteilung auf N, d.h. wir kiinnen nicht von einer zufallig gezogenen natiirlichen Zahl sprechen. Als Ersatz nimmt man den Limes der relativen Hanfigkeiten anf {I,.. . ,N } , d.h. der Teilmenge A N wird die ,Wahrscheinlichkeit' 1 P ( A ) = lim p ~ ( A n { l..., , N } ) = lim - l A n { l , . . . , N}l N+m
N t m
N
zugeordnet. Dieser Limes heiflt asymptotische Dichte der Menge A. Aber dieser Limes existiert nicht fiir alle Mengen A C N,und es gibt Mengen A und B , fiir die zwar P ( A ) und P ( B ) existieren, aher P ( A U B ) existiert nicht.
ubung 3.1 Es seien A , B und C drei unahhangige Ereignisse. Zeige, dass dann A U B und C unahhangig sind. ubung 3.2 Zeige, dass fiir unabhbgige Ereignisse A und B gilt P ( B \ A ) = P ( B ) ( l - P(A)). ubung 3.3 Wir werfen 2-ma1 eine unverfalschte Miinze und definieren folgende
Ereignisse A : ,heim 1. Wurf erscheint Kopf B : ,heim 2. Wurf erscheint Kopf
C : ,die Anzahl der Wiirfe, bei denen Kopf erscheint, ist geradec
Bestimme die Wahrscheinlichkeiten dieser Ereignisse und zeige, dass sie pameise unahhingig sind und dass A, B und C nicht unahhangig sind. ubung 3.4 Wir werfen 2-ma1 einen unverfalschten Wiirfel und definieren die Ereignisse A : ,die Augenzahl des 1. Wurfes ist gerade' B : ,die Summe beider Augenzahlen ist geradec Sind diese Ereignisse unahhangig? ubung 3.5 Zeige, dass fiir unabhingige Ereignisse AI, . . . ,A, gilt
(Hinweis: Es gilt e-" 2 1 - z fiir alle z E R.)
3. Unabhangigkeit und bedingte Wahrscheinlichkeit
46
3.2 Modellierung von Produktexperimenten Nachdem wir uns mit der Unabhangigkeit von Ereignissen beschaftigt haben, suchen wir nun ein Model1 fur eine Anzahl physisch unabhejlgiger Zufallsexperimente. Mit ,physisch unahhangig' meinen wir, dass die Experimente sich gegenseitig nicht beeinflussen, d.h. dass der Ausgang eines der Experimente keinen Einflnss auf den Ausgang der anderen Experimente hat. Fur ein Wurfelexperiment kann dies bedeuten, dass verschiedene Personen an verschiedenen Orten wiirfeln. Physikalische Experimente werden bei jeder Wiederholung von Anfang an neu und von einem anderen Mitarbeiter durchgefiihrt. Beim wiederholten Ziehen von Kugeln aus einer Urne hahen wir physische Unabhangigkeit, wenn wir die gezogene Kugel wieder zurucklegen und die Kugeln vor der nachsten Ziehung gut mischen. Ziehen ohne Zurucklegen ist dagegen ein klassisches Beispiel physisch abhhgiger Experimente, weil ja bei den Wiederholungen die bereits gezogenen Kugeln in der Urne fehlen. Das Modell, das wir suchen, sol1 die physische Unabhejlgigkeit in dem Sinne widerspiegeln, dass Ereignisse, deren Ergebnisse zu verschiedenen Experimenten geharen, innerhalh des Modells stochastisch unabhangig sind. Eine stochastische Unabhangigkeit zweier Ereignisse im Model1 sagt aber nichts uber die tatsachliche pbysische Unabhangigkeit dieser Ereignisse.
Beispiel 3.6 Wir betrachten das Werfen zweier unverfalschter Wurfel und definieren die Ereignisse
A : ,beim 1. Wurf wird eine 3 geworfen' B : ,die Augenzahl des 2. Wurfes ist gerade'. Ohne Rechnung wissen wir, dass die Wahrscheinlichkeit bei einem Wurf eine 3 zn werfen und die Wahrscheinlichkeit bei einem Wurfelwurf eine gerade Augenzahl zu werfen $ ist. Nun betrachten wir aber das Model1 mit Ergebnisraum (2=
{ ( w ~ , w z l) < : w, 56)
und Laplace-Verteilung als gemeinsames Model1 fur das zweimalige Werfen des Wiirfels. Es ist nicht a priori selbstverstejldlich, dass beim ubergang zu einem anderen Model1 die Wahrscheinlichkeiten gleich bleiben. Doch gilt hier A = { ( 3 , ~ 2:) 1 w2 61, also P ( A ) = = und B = {(wl,w2) : 1 wl 6,~E 2 { 2 , 4 , 6 ) } ,also P ( B ) = = $. Wir konnen auch eine Anssage uber die Unabhangigkeit der Ereignisse machen. Es ist A n B = { ( 3 , 2 ) (, 3 , 4 ) ,( 3 , 6 ) }und somit
0 gilt
d.h. die Wahrscheinlichkeit, dass B eintritt gegeben A, ist gleich der Wahrscheinlichkeit von B . Die Information, dass A eingetreten ist, hat also keinen Einfluss auf die Wahrscheinlichkeit, dass dann auch B eintritt. Umgekehrt folgt aus P(B1A) = P ( B ) mit Hilfe der Definition der bedingten Wahrscheinlichkeit P ( A n B ) = P ( A ) P(B1A) = P(A) P ( B ) , d.h. dass die Ereignisse A und B unabhangig sind.
Beispiel 3.12 (i) Fur ein Wurfelexperiment, bei dem 2-ma1 mit einem unverfalschten Wurfel geworfen wird, definieren wir die Ereignisse A : ,beim 1. Wurf wird eine 6 geworfen' B : ,die Augensumme ist 12'.
i
&
i.
ist dann P(B1A) = Dies entspricht der Mit P ( A ) = und P ( A n B ) = intuitiven uberlegung, dass, wenn wir bereits wissen, dass beim ersten Wurf eine 6 gewurfelt wurde, die Wahrscheinlichkeit, dass die Augensumme gleich 12 ist, gleich der Wahrscheinlichkeit ist, dass beim zweiten Wurf auch eine 6 geworfen wird. (ii) Wir ziehen 2-ma1 ohne Zurucklegen aus einer Urne mit R roten und (N - R ) weifien Kugeln. Wir definieren die Ereignisse A : ,die 1. gezogene Kugel ist rot' B : ,die 2. gezogene Kugel ist rot'
g,
E.
Dann gilt P ( A ) = P ( A n B ) = R(R-1) und somit P(B1A) = Auch dieses Resultat entspricht unserer Intuition, denn, wenn bei der ersten
3.3 Bedingte Wahrscheinlichkeiten
51
Ziehung eine rote Kugel gezogen wird, dann sind in der Urne danach noch (N - 1) Kugeln und davon sind (R - 1) rot. Satz 3.13 (Multiplikationsregel) Es seien Al, . . . ,A, Ereignisse mit P(A1 n . . . n A,-1)
# 0. Dann gilt P(A1 n . . . n A,) = P ( A l ) . P(A,IAl) . . . . . P(AnIAl n . . . n A,-,). (3.4)
Beweis. Wir wenden auf der rechten Seite von (3.4) auf jeden der Faktoren die Definition der bedingten Wahrscheinlichkeit an und erhalten so ein teleskopisches Produkt, d.h. dass sich jeweils Zahler und Nenner aufeinanderfolgender 0 Faktoren wegkurzen. Satz 3.14 (Satz von der totalen Wahrscheinlichkeit) Es sei B1, . . . , B, eine disjunkte Zerlegung des Ergebnisraumes 0 , d.h. 0 = B1 U . . . U B, und Bi n Bj = 0 fur i # j, und es gelte P ( B i ) > 0 fur alle i = 1 , . . . ,n. Dann gilt fur jedes Ereignis A c 0
Abb. 3.3. Satz von der totalen Wahrscheinlichkeit
Beweis. Die Mengen A n B1, . . . ,A n B, sind disjunkt und ihre Vereinigung ist A. Also gilt P ( A ) = EL=,P ( A n B,) = EL=,P(AIB,)P(B,). 0 Satz 3.15 (Bayes-Formel) Es sei B1, . . . , B, eine disjunkte Zerlegung von 0 und es gelte P(Bi) alle i = 1 , . . . , n. Dann gilt fur jedes Ereignis A C 0
> 0 fur
52
3. Unabhangigkeit und bedingte Wahrscheinlichkeit
Beweis. Nach Definition gilt P ( B i l A ) =
v,
und wir wenden im Nenner die Formel von der totalen Wahrscheinlichkeit an. 0 In den Aufzeichnungen des englischen Pfarrers Thomas Bayes (1702-1761) ,An essay towards solving a problem in the doctrine of chances', die im Jahre 1763 posthum herausgegehen wurden, erschien diese Formel zum ersten Mal. Wir wollen jetzt einige Beispiele geben fur die Anwendungen dieser drei Satze. Wie auch an anderen Stellen in der elementaren Wahrscheinlichkeitsrechnung, z.B. Satz 1.6, sind die Aussagen der Satze nicht sehr kompliziert und so auch die Beweise kurz. Ihre Bedeutung lie@ in der Anwendung in unterschiedlichen Zusammenhiingen. Wir heginnen mit einem Beispiel zur Multiplikationsregel. Mit ihrer Hilfe konnen wir Wahrscheinlichkeiten berechnen bei nacheinander ausgefiihrten Experimenten, indem wir fur alle Zwischensituationen die hedingten Wahrscheinlichkeiten P ( A k I A l fl . . . fl Am-,) ausrechnen.
Beispiel 3.16 Gegehen sei eine Urne mit R roten und ( N - R) weiDen Kugeln. Ein moglicher Ergebnisraum fiir das n-fache Ziehen ohne Zurucklegen ist
wobei 0 fiir weiD und 1 fiir rot steht. Wir definieren die Ereignisse
A?)
:
,die i-te gezogene Kugel ist weiD'
A
:
,die i-te gezogene Kugel ist rot'.
Dann konnen wir das Ergebnis ( w l ,. . . , w,) auch schreiben als Durchschnitt von A?,.. . ,A?, d.h. { ( w l , . . . ,w,)} = A? fl .. . fl A?. Mit Hilfe der Multiplikationsregel berechnen wir die Wahrscheinlichkeitsfunktion p(w1,. . . ,w,) := P ( { ( w l , . . . ,w,)}) und erhalten
p(wl,. . . ,w,) = P ( A Y 1 ). P ( A Y IA?)
. . .. . P(A>
IAy'
fl . . . fl A:;').
Zur Berechnung dieser hedingten Wahrscheinlichkeiten bedenken wir die Bedingungen, die sich nach den erst,en k Ziehungen ergehen. Die Urne enthiilt dann ( N - k ) Kugeln und davon sind ( R - c:=, wi) rot und k ( N -R - (k-xi= , w i ) ) weis. Damit folgt
Zur Veranschaulichung herechnen wir ftir den Fall, dass 4-ma1 gezogen wird, die Wahrscheinlichkeit des Ergebnisses w = ( 0 , 1 , 0 , 0 ) .Es gilt P ( A y ) =
9.
3.3 Bedingte Wahrscheinlichkeiten
53
Nach der ersten Ziehung befinden sich noch (N - 1) Kugeln in der Urne, von denen R rot und ( N - R - 1) weifl sind. Also ist P(A;IAy) = Anschlieflend sind ( R - 1) rote und ( N - R - 1) weifle Kugeln in der Urne, also P(A! IATnA;) = Vor der letzten Ziehung enthalt die Urne (R-1) rote und ( N - R - 2) weifle Kugeln, sodass P(A2IAy n A; n A!) = Die Anwendung der Multiplikationsregel ergibt dann
A.
w.
w.
Wenn wir diese uberlegungen verallgemeinern von 6maligem auf n-maliges Ziehen und r = xY=, wi die Anzahl der rot,en Kugeln in der Stichprobe ist, so erkennen wir als allgemeine Formel
Die Wahrscheinlichkeit einer bestimmten Stichprohe h h g t also nur von der Anzahl der roten Kugeln in der Stichprobe ab und nicht von der Reihenfolge, in der die Kugeln gezogen werden. So kijnnen wir mit der Identitat (3.7) auch die Wahrscheinlichkeit der Ereignisse
A,
: ,es
werden genau r rote Kugeln gezogen'
berechnen. Es giht ):( Ergebnisse (wl, . . . ,w,), bei denen r der wi's gleich 1 sind, und alle haben dieselhe Wahrscheinlichkeit. Also folgt
und mit p(r) := P(A,) ist dies wieder die hypergeometrische Verteilung auf {0, . . . ,n} mit Parametern N , R und n.
In Beispiel 3.16 haben wir die bedingten Wahrscheinlichkeiten
nicht mit der Definition berechnet, sondern wir haben Modelle fiir die Experimente ,Ziehen einer Kugel aus einer Urne mit ( R - x i k= , wi) roten und ( N - R - ( k - x i k= , wi)) weiflen Kugeln' gemacht. Man beachte, dass jedes dieser Experimente vom Ausgang der vorhergehenden Experimente abhejlgt. Aus diesen Modellen haben wir dann mittels der Multiplikationsregel ein gemeinsames Model1 far das Gesamtexperiment gemacht. Dies ist eine Analogie zur Vorgehensweise im vorigen Abschnitt, in dem wir, ausgehend von einer Anzahl physisch unabhejlgiger Experimente, Produktexperimente definiert haben. Es giht auch einen allgemeinen Satz, der besagt, dass man, wie im
54
3. Unabhangigkeit und bedingte Wahrscheinlichkeit
obigen Beispiel, ein Gesarntexperiment rnodellieren kann, indem man Modelle fiir bedingte Experimente macht. Dies ist ein Analogon zu Satz 3.9 uber Produktexperimente. Der Sa,t,zvon der t,otalen Wahrscheinlichkeit findet seine Anwendung in der Modellierung zweist,ufiger Experiment,e, bei denen in der ersten Stufe mit Hilfe eines Zufallsexperimentes festgelegt wird, welches von n moglichen Experimenten in der zweiten Stufe ausgefuhrt wird. Hier werden wir diesen Satz als Hilfsmittel anwenden, um aus den Modellen fiir die Teilexperimente eirl gerrleirlsarnes Model1 fur das Gesarr~texperirr~erlt zusarr~rr~er~zusteller~.
Abb. 3.4. Zie11e11aus einer zufdlig gewlhlten Urne
Beispiel 3.17 Wir haben 6 Urnen rnit jeweils 5 Kugeln. Die erst,e Urne enthalt, 5 weiRe Kugeln, die zweit,e Urne enthalt 4 w e i k Kugeln und eine rot,e Kugel, usw., die sechste Urne enthat, nur rote Kugeln, siehe Abb. 3.4. Mit Hilfe eines unverfalschten Wiirfels wahlen wir in der ersten Stufe zufallig eine Urne aus. In der zweiten Stufe ziehen wir dann ausschlieAlich aus dieser Urne und stets mit Zurucklegen. Wir definieren die Ereignisse
Bi: ,es wird aus der ?:-ten Urne gezogen' Al A2
: ,die 1. gezogene Kugel ist rot,' : ,die 2. gezogene Kugel ist rot'.
Wir frager~nun m c h P(A1) und r~achder bedir~gt~er~ T,JTal~rscl~einlichkeit P(A2 IAl), dass die zweite gezogene Kugel rot ist, gegeben, dass die erste gezogerle Kugel rot war? B1,. . . ,B6 bilder~eine disjunkte Zerlegung des Ergebnisraumes, u r d es gilt P ( B i ) = Gegeber~Bi wird in der zweiten Stufe aus einer Urne mit (1: - I) roten Kugeln gezogen und sornit gilt P(Al lBi)= -.5 Mit der Formel von der t,otalen Wahrscheinlichkeit folgt dann
i.
Diese dussage, dass es beim ersten Ziehen gleich wahrscheinlich ist, eine rote Kugel oder eine weifie Kugel zu ziehen, lasst sich auch mit einer Symmedie Kugelr~ triebet,racht,ungeinsehen. Wir kormten, als Gedar~ker~experirrle~~t, urnf%rben;die weiflen Kugelr~rot und die rote11 Kugeln weif3, und das Experiment bliebe gleich.
3.3 Bedingte Wahrscheinlichkeiten
55
Weiter gilt
Wir berechnen nun die Wahrscheinlichkeit, dass die erste und die zweite gezogene Kugel rot sind mit der Formel von der totalen Wahrscheinlichkeit. Gegeben Bi ziehen wir 2-ma1 mit Zurucklegen aus einer Urne mit ( i - 1) roten Kugeln und erhalten so P(A1 n AzIBi) = Hieraus folgt
(y)'.
und
Die bedingte Wahrscheinlichkeit, dass die zweite gezogene Kugel rot ist, gegeben, dass die erste gezogene Kugel rot ist, ist deutlich griiBer als welches die unbedingte Wahrscheinlichkeit ist, dass die zweit,e gezogene Kugel rot ist, siehe Aufgabe 3.3. Die beiden Ereignisse A1 und Az sind eben nicht unabhwgig. Die Information, dass die erste gezogene Kugel rot ist, vergr6Bert die Wahrscheinlichkeit, dass bei der zweiten Ziehung eine rote Kugel gezogen wird. Dies entspricht der Tatsache, dass das erste Ergebnis uns Informati* nen gibt uber die Urne, aus der wir ziehen, 2.B. kann das Ereignis A1 bei der ersten Urne nicht eintreten.
i,
Die Bayes-Formel findet ihre Anwendung bei Experimenten, bei denen wir die bedingten Wahrscheinlichkeiten P(AIB1),. . . ,P(AIB,) fiir eine disjunkte Zerlegung B1,.. . ,B, kennen und die Wahrscheinlichkeiten P(B1),. . . , P(B,). Wir kannen uns die Ereignisse B1,... ,B, denken als verschiedene Ursachen, die das Ereignis A hewirken. Und mit der BayesFormel kiinnen wir aus der Wirkung Ruckschlusse auf die Ursachen ziehen, d.h. die ,inversenCWahrscheinlichkeiten P(BilA) berechnen.
Beispiel 3.18 Wir hetrachten nochmal die Gegebenheiten des letzten Beispiels und stellen nun die Rage: Wie groB ist die bedingte Wahrscheinlichkeit, dass wir aus der i-ten Urne ziehen, gegeben, dass die erste gezogene Kugel rot ist? Mit der Bayes-Formel erhalten wir
Die Information, dass die erste gezogene Kugel rot ist, verschiebt also die Wahrscheinlichkeitsverteilung unter den Urnen von ( P ( B i )1, 5 i 5 6) = ( 61, 61, 61, 61, 16 , 1 ) zu (P(BilAl),l5 i 5 6) = also ZUgunsten der Urnen, die eine griiBere Anzahl roter Kugeln enthalten.
(&,A,&,&,&,&),
3. Unabhangigkeit und bedingte Wahrscheinlichkeit
56
Die Statistik ist der Teilhereich der Mathematik, der sich rnit Wahrscheinlichkeitsexperimenten befasst, deren Wahrscheinlichkeitsverteilung nicht vollstejldig bekannt ist. Wir haben bereits die hinomiale und die hypergeometrische Verteilung kennengelernt, die verschiedene Parameter enthalten. Die Verwendung von Parametern ist eine Moglichkeit, die fehlenden Informationen auszudriicken. In der Statistik versucht man nun, aufgrund des Ergehnisses des Experimentes eine Aussage iiber den Wert des unbekannten Parameters zu machen. Die Bayes-Formel ist die Grundlage fiir die Bayes'sche Statistik. In dieser Statistik wird der Parameter als Ergehnis eines weiteren Zufallsexperimentes aufgefasst, dessen Verteilung, die sogenannte a priori Verteilung, man kennt. Mit Hilfe der Bayes-Formel kombiniert man die a priori Verteilung rnit der Information iiber den Ausgang des Experimentes zu einer a posteriori Verteilung des Parameters. Das vorige Beispiel kijnnen wir auch auf diese Weise betrachten. Die Nummer der Urne, aus der wir ziehen, ist der unbekannte Parameter. A priori waren alle Urnen gleich wahrscheinlich, weil wir die Urne rnit einem unverfalschten Wiirfel ausgewahlt haben. Im Sprachgebrauch der Bayes'schen Statistik ist also die a priori Verteilung auf dem Parameterraum {I,.. . ,6} die Laplace-Verteilung . . . , 1st die gezogene Kuael rot, so erhalten wir rnit der Baves-Formel die a ~osterioriVerteiluna (0'""'") 115, 15, 15, 15, 15 . Das entscheidende Problem der Bayes'schen Statistik ist die Tatsache, dass man im Allgemeinen nicht wei0, wie der unbekannte Parameter gewahlt wurde und dass deswegen die Interpretation der a priori Verteilung unklar ist. Man versucht dann, subjektive Empfindungen iiber den wirklichen Parameterwert durch eine Wahrscheinlichkeitsverteilung auszudriicken. Diese Wahrscheinlichkeiten lassen sich weder rnit der frequentistischen Definition noch rnit der Interpretation von Wahrscheinlichkeit als relat,ive Haufigkeit eines Merkmals in einer endlichen Grundgesamtheit verbinden.
-
(i, i).
-
ubung 3.7 Wir haben eine Urne rnit R roten und W weiBen Kugeln. Wir zie-
hen eine Kugel und legen diese wieder zuriick zusammen rnit einer weiteren Kugel derselben Farbe. Dann ziehen wir ein zweites Mal. Berechne fiir die Ereignisse A : ,die 1. gezogene Kugel ist weiDL B : ,die 2. gezogene Kugel ist weiDL die Wahrscheinlichkeiten P(A), P(B1A) und P(B). Berechne die Wahrscheinlichkeit P(AIB). ubung 3.8 Fiir eine seltene Krankheit, an der 0,1%der Bevolkerung leidet, wurde ein Test entwickelt. Der Test falt fiir 99% aller Kranken positiv aus, aber auch fiir
1% aller Gesunden. Wie groB ist die Wahrscheinlichkeit, dass eine Person, fiir die der Test positiv ausfiel, wirklich krank ist?
3.4 Ruinproblem
57
ubung 3.9 Wir haben 2 Urnen rnit jeweils 5 Kugeln. Eine Urne enthalt 3 weiDe und 2 rote Kugeln, die andere Urne 2 we8e und 3 rote Kugeln. Wir wahlen zufdlig eine Urne aus und ziehen dann 2-ma1 ohne Zuriicklegen. Bestimme die Wahrscheinlichkeit, dass r rote Kugeln, r = 0,1,2, in der Stichprobe sind und die bedingte Wahrscheinlichkeit, dass aus der ersten Urne gezogen wurde, gegeben, dass zwei rote Kugeln in der Stichprobe sind.
3.4 Ruinproblem
. 10-
,, ,,
.. . .. .
,~~ , ' ~ ~,~ '..... . . .:. .... , ,~ ~ ~,,, ,, ,~ ~, ~, .... ~, ,,, ~ \, . .. ,, . I I I li 20 25
~
-
I
I 10
,
,
.
.
I 30
31
Abb. 3.5. Ruinprohlem: einige mogliche Spielverlaufe
Zwei Spieler, A und B, spielen ein Gliicksspiel, das in mehreren Runden gespielt wird. Gewinnt A eine Runde, so erhalt er einen Euro von B, verliert er, so muss er einen Euro an B zahlen. In jeder Runde hat A die Gewinnwahrscheinlichkeit p und B die Gewinnwahrscheinlichkeit q = 1 - p. Das gemeinsame Kapital der beiden Spieler ist K und davon besitzt A zu Beginn des Spiels den Anteil a. Das Spiel endet, sobald einer der Spieler pleite ist. Die Frage nach der Wabrscheinlichkeit, ob das Spiel rnit dem Ruin von A endet oder rnit dem Ruin von B, heiBt das Rninproblem. Es wird sich als sinnvoll erweisen, dass wir die Funktion ?r(x), x = 0,. . . ,K, betrachten, die die Wahrscheinlichkeit angibt, dass das Spiel rnit dem Ruin von A endet, wenn dieser das Anfangskapital x hat. Alle Betrage, a, K nnd x, sind nicht-negative ganze Zahlen. Wir definieren das Ereignis EA, dass A die 1. Runde gewinnt und das Ereignis E g , dass B die 1. Rnnde gewinnt. Diese beiden Ereignisse sind eine disjunkte Zerlegung des Ergebnisraumes, so dass wir die Formel von der totalen Wahrscheinlichkeit anwenden kijnnen P(,Spiel endet rnit dem Ruin von A') = P(,Spiel endet rnit dem Ruin von ALIEa). P ( E A )
+P(,Spiel endet rnit dem Ruin von A'IEg). P ( E B )
58
3. Unabhangigkeit und bedingte Wahrscheinlichkeit
Es gilt P ( E A ) = p und P ( E B ) = 1 - p. Wenn Spieler A die 1. Runde gewinnt, so hat er nach der l . Runde ein Kapital von ( x l ) . Daraus folgt, dass die bedingte Wahrscheinlichkeit, dass das Spiel rnit dem Ruin von A endet,, gegeben EA, gleich ?r(x 1) ist. Da das Gesamtkapital gleichbleibt, ist, die bedingte Wahrscheinlichkeit, dass das Spiel rnit dem Ruin von A endet, gegeben E B , gleich ?r(x- 1). Also erhalten wir folgende Gleichung
+
+
eine Differenzengleichung zweiten Grades rnit den Randbedingungen ~ ( 0=) 1 (A ist bereits zu Beginn pleite) und ?r(K)= 0 ( B ist bereits zu Beginn pleite). Satz 3.19 (i) Fur p # q ist die Wahrscheinlichkeit, dass das Spiel mit dem Ruin uon A endet, wenn A das Anfangskapital x hat, gegeben durch
(ii) F u r p = q = $ ist die entsprechende Wahrscheinlichkeit gegeben durch x ~ ( x=)1 - K
fur x = 0 , . .. ,K .
(3.10)
Beweis. Wir zeigen zuniichst, dass die Differenzengleichung (3.8) htjchstens eine Losung hat zu den vorgegebenen Randbedingungen ~ ( 0 = ) 1 und ?r(K) = 0. Wir nehmen an, dass es zwei verschiedene Losungen T I und ?r2 von (3.8) gibt rnit identischen Randwerten ?r1(0) = ~ ( 0 = ) 1 und ?rl ( K ) = ?rz(K) = 0. Auch ?r3(x) := m ( x ) - ?rl ( x ) ist dann eine Ltjsung ) 0. Wenn ?r3 nicht idenvon (3.8) rnit den Randwerten ?r3(0) = T ~ ( K= tisch 0 ist, dann gibt es ein relatives Extremum. Ohne Einschrejlkung der Allgemeinheit nehmen wir an, dass dies ein Maximum sei, d.h. es gibt ein xo E { I , . . . ,K - 1 ) rnit T ~ ( X O )2 ?r3(20 - 1) und ?rs(%o)2 ? r 3 ( ~ 0 I ) , wobei mindestens eine Ungleichung strikt ist. Daraus folgt rnit (3.8)
+
=
=
Dies ist ein Widerspruch, und so ist gezeigt, dass 713 0 und somit ?rl ?rz. Durch Einsetzen iiberpriifen wir, dass (3.9) bzw. (3.10) Losungen der Gleichung (3.8) sind. Fiir p = q = $ erhalten wir
und ~ ( 0=) 1 sowie ?r(K)= 0. Fiir p # q erhat man durch Einsetzen sofort die Randwerte ~ ( 0=) 1 und ?r(K)= 0. Weiter gilt
3.4 Ruinproblem
59
Uber den Beweis von Satz 3.19 hinaus kijnnen wir uns damit beschaftigen, wie wir alle Losungen der Differenzengleichung (3.8)finden konnen, und damit eine Idee bekommen, wie die Formel in Satz 3.19 hergeleitet wurde. Wir verwenden dazu den Ansatz ~ ( x=) A" fur ein geeignetes X E @. Es muss dann gelten
was aquivalent ist zu
E,
und Diese quadratische Gleichung hat 2 Losungen, XI = 1 und Xz = fur p # q erhalten wir nun 2 Losungen fiir (3.8),nejnlich ?rl(x) 1 und ?r2(5)
=
(:)=. Alle Linearkombinationen ~ ( x=) c l .
=
+ cz .m ( x ) sind
?rl (x)
ebenfalls L6sungen von (3.8). Die Festlegung der Randbedingungen ~ ( 0 und ) ?r(K)fuhrt uns zur Bestimmung der Koeffizienten c l und cz. Sie miissen das folgende Gleichungssystem erfiillen
Fur den Fall (i), d.h. q
# p, hat das System eine eindeutige Losung. Mit
~ ( 0 =) 1, ?r(K)= 0 erhalten wir c l Losung C2
+ cz = 1 und c l + ca (g)
K
= 0 und die
1
=
1-( 4 1 ~ ) ~
i,
Fur den Fall (ii), d.h. q = p = haben wir eine doppelte Nullstelle in X = 1, und darum liefert der Ansatz ~ ( x=) Ax nur eine Losung, nejnlich ?rl(x) 1.
=
60
3. Unabhangigkeit und bedingte Wahrscheinlichkeit
In einer doppelten Nullstelle 50 einer Fnnktion f gilt f (xo) = 0 und f'(x0) = 0. Damit konnen wir fur eine doppelte Nullstelle Xo von f (A) = pX2 - X + q zeigen, dass ?r2(x)= xX; eine weitere Losung ist, denn
"A; - p ( x =
xi-'
+ l)X;+' - q(x - 1)X;-l + 1)Xo - p(5 - 1 + 2)X; - q(x - 1 ) ) - 1) (Ao -PA; - q) + X ; - l ( X 0 - 2pX;)
( ( x- 1
= X;-'(x
= -x;-l(x - 1)f ( X 0 ) - X i f 1 ( X 0 ) = 0.
Auch die Linearkombinationen ?r(x)= cl ?ri(x)+ cz ?rz(x)sind Losungen von (3.8). Mit X = 1, ?rl 1, ?r2(x)= x suchen wir nun nach den Koeffizienten cl und cz, so dass ~ ( x=) C I c2 x die Randbedingungen des Ruinprohlems erfiillt. Das lineare Gleichungsystem cl = 1, cl+c2 K = 0 liefert die L6sungen 1 cl = l u n d c z = -x.
=
+
3.5 Aufgaben Aufgabe 3.1 Wir betrachten noch einmal das Problem der gerechten Aufteilung des Einsatzes bei einem vorzeitig abgebrochenen Glucksspiel, siehe Beispiel 1.4. Sei p(n,m) die Wabrscheinlichkeit, dass der erste Spieler gewinnt, wenn ihm noch n Punkte und seinem Mitspieler noch m Punkte fehlen. Zeige, dass fiir n , m 2 1 gilt
und berechne p(n, m ) fiir 0 5 n , m
53
Aufgabe 3.2 Wir betrachten nun ein Analogon zn Aufgabe 3.1 fiir drei Spieler A, B, C. In jeder Runde gewinnt jeder der Spieler mit Wabrscheinlichkeit den Punkt. Das Spiel wird vorzeitig abgebrochen zu einem Zeitpunkt, als Spieler A und B noch je einen Punkt und Spieler C noch 2 Punkte henotigen. Welche Aufteilung w&e jetzt fair? Huygens hat dieses Problem auch bearbeitet und in einer Tabelle aufgeschrieben, bei welchem Spielstand er welche Aufteilung als fair ansieht, siehe Abb. 3.6. Vergleiche die Resultate! Aufgabe 3.3 Wir haben ( N + 1) Urnen mit jeweils N Kugeln. Die i-te Urne enthalt (i - 1) rote Kugeln und ( N + 1 - i) weiRe Kugeln. Wir wablen zufallig eine Urne aus und ziehen dann ausschlieDlich aus dieser Urne und stets mit Zuriicklegen. (i) Berechne die bedingte Wabrscheinlichkeit, gegeben dass die ersten n gezogenen Kugeln rot sind, dass auch die ( n l)-te gezogene Kugel rot ist. Berechne den Limes fiir N + m. (Anhand dieses Modells hat Laplace die
+
Abb. 3.6. Faire Aufteilung des Eineatzes bei 3 Spielern fiir versehiedeue Punktest%.de zum Zeitpunkt des Spielabbruchs (Huygens, op.cit.)
Rage bewegt, wie PO% die Wahrscheinlichkeit ist, dass morgen die Sonne aufgehen wird.) (ii) Berechne die Wahrscheinlichkeit, dass die erste gezogene Kugel rot ist und die Wahrscheinlichkeit, dam die zweite gezogene Kugel rot ist.
Aufgabe 3.4 Wi werfen n-ma1 mit einem unverOUschten Wiirfel und bezeichnen mit p,, die Wahrscheinlichkeit,dass bei einer geraden Anzahl Wiirfen die Augenzahl6 geworfen wird. Beweise folgende Rekursionsformel 1 5 P n = 6(1 - ~n-1) -.%-I.
+6
Suche hiermit eine explizite Formel %f keiten unmittelbar berechnen lassen.
p,, mit der sich die Wahrscheinlich-
Aufgabe 3.5 Wir werfen n-md eine unverf3schte Miinze und bezeichnen mit p,, die Wahrscheinlichkeit, dasi in der Folge der WIirfe an einer Stelle dreimd nacheinander ,Kopf geworfen wird. Zeige, dass
Aufgabe 3.6 Wenn eine Familie zwei Kinder hat, so gibt es vier Moglichkeiten, ob dies Jnngen oder Mgdchen sind. Wir setzen voraus, dass d e Mijglichkeiten gleich wahrscheinlich sind und wir z u f Z einer vierkopfigen Familie
62
3. Unabhangigkeit und bedingte Wahrscheinlichkeit
begegnen. (i) Wie groD ist die bedingte Wahrscheinlichkeit, dass die Familie zwei Jungen hat, gegeben, dass mindestens eines der Kinder ein Junge ist? (ii) Wie groD ist die bedingte Wahrscheinlichkeit, dass die Familie zwei Madchen hat, gegeben, dass das itltere Kind ein Madchen ist?
Aufgabe 3.7 Wir haben 2 Beutel mit je 10 Apfeln. In dem ersten Beutel ist, ein angefaulter Apfel und in dem zweiten Beutel sind 2 angefaulte Apfel. Wir wahlen zufallig einen Beutel aus, nehmen einen Apfel heraus und freuen uns, dass dieser frisch ist. Wie groB ist die Wahrscheinlichkeit, dass der nachste, aus demselben Beutel genommene Apfel, auch frisch ist? Aufgabe 3.8 Das folgende Urnenmodell geht auf den ungarischen Mathematiker Georg P6lya (1887-1985) zuriick. Wir haben eine Urne mit einer roten und einer weiDen Kugel. Aus dieser Urne ziehen wir zufitllig eine Kugel und legen anschliefiend diese Kugel zusammen mit einer weiteren Kugel derselben Farbe zuruck in die Urne. Nun ziehen wir zufdlig aus der Urne, die nun drei Kugeln enthalt, und setzen dieses Verfahren fort. Das Ergebnis der ersten n Ziehungen knnnen wir durch ein n,-Tnpel (wl,. . . ,w,) mit wj E {O, 1) beschreiben, wobei wi = 0 und wi = 1 bedeutet, dass die i-te gezogene Kugel weiD bzw. rot ist. (i) Wie grofi sind die Wahrscheinlichkeiten der Ergebnisse (0,0,1,1,1) und ( L O , LO, I ) ? (ii) Suche eine allgemeine Formel fiir die Wahrscheinlichkeit von (wl, . . . , w,). (iii) Vor der a-ten Ziehung sind (n + 1) Kugeln in der Urne. Berechne die Wahrscheinlichkeit, dass k dieser Kugeln rot sind, fur k = 1,. . . , n . Aufgabe 3.9 Wir betrachten nun eine Abwandlung des P6lya'schen Urnenmodells. Wir haben eine Urne mil r roten und w weiBen Kugeln. Nach jeder Ziehung wird die gezogene Kugel zusammen mit c weiteren Kugeln derselben Farbe zmiickgelegt. Zeige, dass die Wahrscheinlichkeit, bei der n-ten Ziehung eine rote Kugel zu ziehen, & ist (Hinweis: Bedinge auf das Ergebnis der ersten Ziehung). Aufgabe 3.10 Bei einem Quiz kann der Gewinner am Ende noch ein Luxusauto als Zusatzpreis gewinnen. Das Auto steht hinter einer von drei Tiiren und, wenn der Kandidat die richtige Tiir auswahlt, gehort ihm das Auto. Das Verfahren ist stets so, dass der Kandidat zunachst auf eine Tiir zeigt und dass anschliefiend der Quizmaster, der die richtige Tur kennt, eine der beiden anderen Tiiren offnet,,hinter der sich das Auto nicht befindet. Der Kandidat erhtilt dann die Maglichkeit, seine erste Wahl zu bedenken und eine andere Tur auszuwiihlen. Bedenke folgendes Argument: ,Der Kandidat hat nach dem Hinweis des Quizmasters noch die Wahl zwischen zwei Turen, hinter denen das Auto stehen konnte. Die Wahrscheinlichkeit, die richtige Wahl zu treffen, ist fiir beide Tiiren dieselbe, und sie ist $. Also erhljht der Kandidat seine Gewinnchancen nicht, wenn er seine erste Wahl revidiert'.
4. Zufallsvariablen und ihre Verteilungen
In diesem Kapitel wollen wir unser Handwerkszeug um ein Instrument, die Zufallsvariablen, erweitern. Zufallsvariablen spielen eine wichtige Rolle bei der Beschreibung von Zufallsexperimenten, bei denen wir uns nicht fiir alle Einzelheiten des Ergebnisses interessieren, sondern fur eine zahlenmaige Zusammenfassung. Die Zufallsvariable ordnet jedem Ergebnis des Experimentes eine Zahl zu und fasst so das Ergebnis des Experimentes zusammen. So konnen wir ~bereinstimmun~en bei auflerlich sehr unterschiedlichen Experimenten entdecken und gewinnen Ordnung und ~bersichtfur die Vielfalt moglicher Zufallsexperimente.
4.1 Zufallsvariablen Einfach gesagt ist eine Zufallsvariable eine veranderliche GroDe, deren Wert vom Zufall a b h h g t . Innerhalb unseres Modells ( Q ,F,P ) entsprechen die Elemente w E Q den moglichen Ergebnissen des Zufallsexperimentes, so ist eine Zufallsvariable also eine Funktion X : f2 + R (spater auch Rn). Obwohl dies an dieser Stelle noch nicht einsichtig ist, erganzen wir noch die Fordernng der Messbarkeit von X .
Definition 4.1 Sei (fl,7,P ) ein Wahrscheinlichkeitsraum. (i) Eine Funktion X : Q + R heipt messbar, wenn fur alle cu E R gilt
+ R. In diskreten Wahrscheinlichkeitsr8umen ist die u-Algebra F im Allgemeinen (ii) Eine Zufallsvariable ist eine messbare finktion X
:Q
die Potenzmenge P ( Q ) , und dann ist jede Funktion X : Q + R messbar und somit eine Zufallsvariable. Noch ein Wort znr internationalen Schreibweise. Es ist ublich, Zufallsvariablen mit groflen lateinischen Buchstaben zu bezeichnen. Der Wert X ( w ) einer Zufallsvariablen X : Q + R wird mit dem entsprechenden Kleinbuchstaben, hier also x = X ( w ) , bezeichnet und heiDt Realisierung der Zufallsvariablen. Zufallsvariablen sind ein so uiitzliches Hilfsmitt,el bei der Beschreibnng von Ereignissen, dass wir nun oft dem ursprunglichen Ergebnisranm Q nnr
64
4. Zufallsvariablen und ihre Verteilungen
noch wenig Aufmerksamkeit schenken. Der grofie Vorteil von Zufallsvariablen ist, dass wir mit ihnen rechnen konnen, d.h. wir konnen sie addieren, subtrahieren, multiplizieren, usw. Als erstes Beispiel betrachten wir wieder das zweimalige Werfen eines unverfalschten Wurfels mit dem Ergebnisraum
+
Jetzt sind Xl(w) := wl, X2(w) := w2 und X := X1 X2 Beispiele fur Zufallsvariablen. Das Ereignis A : ,die Augensumme ist kleiner oder gleich 11' lasst sich dann beschreiben durch
und noch kurzer {X 5 11). Eine Zufallsvariable X definiert auf R eine Wahrscheinlichkeitsverteilung Px, indem wir jeder Teilmenge A c R die Wahrscheinlichkeit zuordnen, dass X einen Wert in A annimmt, d.h. Px(A) = P({w E R : X(w) E A)) = P(XP1(A)). Damit P ( X P 1(A)) definiert ist, muss XP1(A) ein Ereignis sein, d.h. in F liegen. Dies gilt unter der Voraussetzung, dass X messbar ist und dass A eine (Borel-)messbare Teilmenge von R ist. Wir wollen an dieser Stelle auf die exakte Definition der (Borel-)Messbarkeit verzichten. Fur unsere Zwecke reicht es zu wissen, dass alle Intervalle sowie alle offenen und alle abgeschlossenen Mengen messbar sind. Weiter sind Komplemente sowie abzahlbare Vereinigungen und Durchschnitte messbarer Mengen wieder messbar, d.h. die Klasse der messbaren Teilmengen von R bildet eine c-Algebra im Sinne der Definition 1.5. Dass Px wirklich eine Wahrscheinlichkeitsverteilung definiert, also den Kolmogorov'schen Axiomen genugt, ist Gegenstand von ubung 4.1.
Abb. 4.1. ubertragung der Wahrscheinlichkeitsverteilung von 0 nach R
Definition 4.2 Sei X eine Zufallsvariable auf dem Wahrscheinlichkeitsraum ( 0 , F,P ) . Dann heipt die Wahrscheinlichkeitsverteilung Px auf $ die durch
4.1 Zufallsvariablen
P x ( A ) := P ( { w : X ( w ) E A } ) , A
c R messbar,
65
(4.1)
definiert wird, die Verteilung uon X . Fiir P ( { w : X ( w ) E A } ) schreiben wir kurz P ( X E A ) . Wir kijnnen uns dabei bildlich vorstellen, dass die Zufallsvariable X die Wahrscheinlichkeit von 0 nach R ubertragt. Das Vorteilhafte ist nun, dass sehr verschiedene Zufallsvariablen, definiert anf unterschiedlichen Wahrscheinlichkeitsranmen, dieselbe Verteilung haben konnen. Da wir uns nur fiir die Verteilung von X interessieren, konnen wir somit sehr verschiedene Zufallsexperimente auf ein und dieselbe Situation zuruckfiihren. Im Rahmen dieser Einfiihrung wollen wir nur zwei verschiedene Arten von Verteilungen auf B betrachten, diskrete und stetige Verteilungen, womit wir alle gejlgigen Beispiele behandeln konnen.
Definition 4.3 Eine Zufallsvariable X he@ diskret, wenn es eine endliche oder abzahlbar unendliche Teilmenge D C R gibt mit P ( X E D ) = 1. Im Abschnitt 1.4 haben wir diskrete Wahrscheinlichkeitsverteilungen definiert. Eine Zufallsvariable ist also genau dann diskret, wenn ihre Verteilung diskret ist. Und ebenso wie wir dort gezeigt haben, dass diskrete Verteilungen vollstandig durch ihre Wahrscheinlichkeitsfunktion beschrieben werden konnen, gilt dies ftir dislffete Zufallsvariablen mit der Wahrscheinlichkeitsfunktion, die jeder mtjglichen Realisierung x die zugehorige Wahrscheinlichkeit P ( X = x ) zuordnet.
Definition 4.4 Es sei X eine diskrete Zufallsuariahle mit Wertebereich { X I 1, 2 , . . . }. Dann hei$t die Funktion p : X ( Q ) + R, definiert durch
die Wahrscheinlichkeitsf.nktion won X . Gelegentlich wird p ausgedehnt zu einer Funktion auf ganz R, indem. gesetzt wird p(x) = 0 fiir x E R \ X ( 0 ) . Mit dem Kolmogorov'schen Axiom ( A x 3 ) folgt aus (4.2)
d.h. wir konnen fur alle Ereignisse der Form { X E A } , A C $ mit Hilfe der Wahrscheinlichkeit,sfunktionp ( x ) die Wahrscheinlicbkeit berechnen. So benatigen und gebrauchen wir nicht mehr die Verteilung auf dem ursprtinglichen Ergebnisraum 0.
Beispiel 4.5 (i) Fiir das obige Beispiel des 2-maligen Werfens eines unverfalschten Wtirfels ist die durch X ( w ) = wl w ~ definierte Zufallsvariable diskret mit Wertebereich { 2 , . . . ,121. Mit ein wenig Rechnen erhalten
+
66
4. Zufallsvariablen und ihre Verteilungen
Tabelle 4.1. Wertetabelle der Wahrscheinlichkeitsfunktion der Augenzahl beim Wurf mit zwei unverfalschten Wiirfeln
wir die in Tabelle 4.1 zusammengestellten Werte der Wahrscheinlichkeitsfunktion. Das Stabdiagramm, siehe Abb. 4.2, ist eine iibersichtliche grafische Darstellung der Wahrscheinlichkeitsfunktion. Mit Hilfe der Wahrscheinlichkeitsfunktion konnen wir die Wahrscheinlichkeiten aller Ereignisse der Form {X E A} berechnen. So gilt in diesem Beispiel
Abb. 4.2. Wahrscheinlichkeitsfunktion fiir die Augenzahl bei 2-maligem Werfen
eines unverfdschten Wiirfels (ii) Fur ein beliebiges Ereignis A C Q definieren wir die Indikatorfunktion
l a ( w ) :=
1 fiir w E A 0 fiir w E Q \A.
Die Indikatorfunktion l a gibt also an, ob das Ereignis A eingetreten ist,. Diese Funktion ist eine diskrete Zufallsvariable mit dem Wertebereich {O, 1). Die zugehorige Wahrscheinlichkeitsfunktion ist gegeben durch p(0) = 1 - P ( A ) und p(1) = P ( A ) . In der Statistik werden Zufallsvariablen oft verwendet im Zusammenhang mit Ziehungen aus einer endlichen Grundgesamtheit. Wir nehmen an, dass Q = {w,, . . . ,W N } eine solche Grundgesamtheit ist und dass jedem Element w, E Q ein Wert xi E R zugeordnet wird. Dadurch wird dann eine Funktion
4.1 Zufallsvariablen
67
X : Q + R definiert, die gelegentlich auch Populationsvariahle genannt wird. Wir kijnnen dabei z.B. denken an die Bevolkerung Deutschlands ( 0 )und an das Lebensalter jedes Einwohners ( x i ) .Dem zufalligen Ziehen entspricht im Model1 die Laplace-Verteilung auf Q und dann wird X eine Zufallsvariable rnit Wahrscheinlichkeitsfunktion
Diese Wahrscheinlichkeitsfunktion gibt also die relative Haufigkeit der Anzahl van Individuen an, bei denen die Populationsvariahle den Wert x hat. Im Statistischen Jahrbuch eines jeden Landes finden wir zahlreiche Beispiele solcher Populationsvariablen rnit den zugehorigen Vert,eilungen.
Satz 4.6 Es sei X eine diskrete Zufallsvariable mit Wertebereich X ( Q ) = { x l ,x 2 , . . . }. Dann erfiillt die Wahrseheinliehkeitsfanktion p(x) folgende Bedingungen
Umgekehrt gibt es zu jeder Funktion p(x) mit diesen Eigensehaften eine Zufallsvariable mit Wahrscheinlichkeitsfunktion p. Beweis. Fiir das sichere Ereignis gilt P ( X E X ( Q ) ) = 1 und rnit Axiom (Ax3)folgt dann
Umgekehrt sei p(xi) eine Funktion rnit ohigen Eigenschaften. Wir wahlen als Ergehnisraum Q = { x l ,x z , . . . }, definieren darauf eine Wahrscheinlichkeitsverteilung durch P ( A ) := CZi,,p(xi) und die triviale Zufallsvariable X ( x i ) := xi. Dann ist die zugehorige Wahrscheinlichkeitsfunktion
Zur Vereinfachung der Schreibweise werden wir die verschiedenen Realisierungen der Zufallsvariahlen X nun nicht mehr durch einen Index unterscheiden, sondern C Z E A p ( xschreiben. ) Da wir hierbei nicht-negative Zahlen aufsummieren, spielt die Reihenfolge bei der Summation keine Rolle.
68
4. Zufallsvariablen und ihre Verteilungen
ubungen ubung 4.1 Zeige, dass die Verteilung einer Zufallsvariablen den Kolmogorov'schen
Axiomen geniigt. ubung 4.2 Sei X die Augenzahl beim einmaligen Wurf rnit einem unverfalschten Wiirfel. Bestimme Wertehereirh und Wahrscheinlichkeitsfunktion der Zufallsvariablen YI :=X' und Yz := - X . ubung 4.3 Wir werfen 3-ma1 rnit einer unverfalschten Miinze und bezeichnen rnit
X die Anzahl der Wiirfe, bei denen Kopf geworfen wurde. Bestimme den Wertebereich und die Wahrscheinlichkeitsfunktion von X . ubung 4.4 Wir ziehen 2-ma1 ohne Zuriicklegen aus einer Urne rnit 5 nummerier-
ten Kugeln und bezeichnen rnit X die kleinste gezogene Nummer. Bestimme den Wertebereich und die Wahrscheinlichkeitsfunktion von X.
4.2 Wichtige diskrete Verteilungen In diesem Abschnitt werden wir einige wichtige diskrete Verteilungen kennenlernen und untersuchen. Obwohl die zngrundeliegenden Experimente recht einfacher Art sind, fiihren uns die Zufallsvariablen zu durchaus interessanten Verteilungen nnd Zusammenhhgen.
Abb. 4.3. Wahrscheinlichkeitsfunktion der Laplace-Verteilung auf {I,.. . ,5)
Laplace-Verteilung. Die Verteilung einer Zufallsvariablen X heifit LaplaceVerteilung oder Gleichverteilung auf {I,.. . ,N ) , wenn gilt
Die Zufallsvariable, die definiert ist durch die Nummer der Kugel beim einmaligen, zufalligen Ziehen ans einer Urne rnit N Kugeln, hat eine LaplaceVerteilung auf {I,.. . ,N ) .
69
4.2 Wichtige diskrete Verteilungen
Nun betrachten wir verschiedene Verteilungen. mit , die im Zusammenhan~ Experimenten auftreten, die genau zwei mogliche Ergebnisse haben. Diese Experimente heifien Bernoulli-Experimente nach dem Schweizer Mathematiker Jakob Bernoulli (16541705). Die Ergebnisse eines Bernoulli-Experimentes nennen wir meist Erfolg (E) und Misserfolg (M), und wir bezeichnen die zugehiirigen Wahrscheinlichkeiten mit p far Erfolg und q fiir Misserfolg. Unter der Voraussetzung der Unabhangigkeit wablen wir fiir die n-fache Wiederhe lung eines solchen Experimentes als Model1 den Produktraum mit Ergebnisraum und Wahrscheinlichkeitsfunktion u
wobei k = I{i E { I , . . . ,n} : wi= E}I die Anzahl der Erfolge ist.
Abb. 4.4. Wahrscheinlichkeitsfunktion der Bernoulli(0.75)-Verteilung
Bernoulli-Verteilung. Wir definieren die Zufallsvariablen Xi,i = 1 , . . . ,n, durch 1 fur wi= E
Xi gibt an, oh das Ergebnis des i-ten Experimentes ein Erfolg oder ein Misserfolg ist. Diese Zufallsvariablen sind diskret mit Wertebereich { O , 1 ) und haben die Wahrscheinlichkeitsfunktion
Die zugehiirige Verteilung auf { 0 , 1 ) heifit Bernoulli-Verteilung mit Parameter p, kurz Bernoulli(p)-Verteilung.Fur viele Berechnungen ist eine geschlossene Darstellung der Wahrscheinlichkeitsfunktion als
~ ( k=) p k ( l - P ) ' - ~ , k E { O , l } , hilfreich.
(4.7)
70
4. Zufallsvariablen und ihre Verteilungen
Binomiale Verteilung. Durch S, := XI+. . .+X, wird eine Zufallsvariable definiert, die die Anzahl der Erfolge in den n Experimenten angibt. Wir wissen schon aus Beispiel 3.8, dass gilt
Die zugeharige Verteilung auf {O, . . . ,n} heiBt binomiale Verteilung mit Parametern n und p, kurz Bin(n,p)-Verteilung. Da p die Wahrscheinlichkeitsfunktion einer Zufallsvariablen S, ist, gelten die in Satz 4.6 formulierten Identitaten (4.3) und (4.4). Wir konnen (4.4) auch mit analytischen Metboden beweisen, indem wir die Newton'sche Biuomialformel verwenden
So erhalten wir einen neuen Beweis, dass durch (4.8) eine Wahrscheinlichkeitsfunktion p : {0, . . . ,n) + R definiert ist. In Abschnitt 2.3 haben wir in Identitat (2.8) schon einmal die binomiale Verteilung kennengelernt. Dort hatten wir eine Urne mit R roten und ( N - R) weiBen Kugeln, aus der wir n-facb mit Zuriicklegen gezogen haben. Wir kbnnen dies auch betrachten als n unabhangige Bernoulli-Experimente, wobei wir die Ziehung einer roten Kugel als Erfolg interpretieren. Dann hat die Anzahl roter Kueeln in der Stichprobe eine Bin(n, ; ) - ~ e r t e i l u n ~auf {O, . .. ,n,}.
-
AP
Abb. 4.5. Wahrscheinlichkeitsfunktion der binomialen Verteilung mit Parametern n = 20 und p = 0.75 (links) sowie der hypergeometrischen Verteilung mit Parametern N = 32, R = 24 und n = 20 (rechts)
Hypergeometrische Verteilung. Obwohl es sich dabei nicht um eine Folge unabhangiger Bernoulli-Experimente handelt, betrachten wir an dieser Stelle das Ziehen ohne Zurticklegen. Aus einer Urne mit N Kugeln, wovon R Kugeln rot und ( N - R) Kugeln weiD sind, ziehen wir ohne Zuriicklegen n
4.2 Wichtige diskrete Verteilungen
71
Kugeln und bezeichnen rnit X die Anzahl der roten Kugeln in der Stichprobe. Wir wissen schon aus Ahschnitt 2.3, Identitat (2.9), dass gilt
Man beachte, dass obige Formel far alle r E Z GUltigkeit hat, da gemtiB Definition 2.8 (f) = 0 fiir 1 < 0 und fiir 1 > k gilt. Diese Verteilung heiBt hypergeometrische Verteilung rnit Parametern N, R und n. Man kann zeigen, dass die hypergeometrische Verteilung rnit Parametern (N, [pN],n) ftir N + oo gegen eine Bin(n,p)-Verteilung konvergiert, siehe Aufgabe 4.1. Intuitiv heiBt dies, dass beim Ziehen ohne Znriicklegen aus einer Urne rnit einer grofien Anzahl Kugeln die Anzahl der roten Kugeln in der St,ichprobe approximativ binomialverteilt ist, wobei der Parameter p dem Anteil der roten Kugeln in der Urne entspricht.
Geometrische Verteilung. Wir betrachten ab jetzt wieder unabhtingige Bernoulli-Experimente. Fur eine unendliche Folge unahhangiger BernoulliExperimente definieren wir eine Zufallsvariable T, die die Anzahl der Misserfolge angibt, die vor dem ersten Erfolg auftreten. So ist bei MMME etwa T = 3. T ist eine diskrete Zufallsvariable rnit Wertebereich {O, 1,.. .}. Falls p > 0, hat T die Wahrscheinlichkeitsfunktion
Diese Verteilung heifit geometrische Verteilung auf No rnit Parameter p. Bei p = 0 wird nie ein Erfolg auftreten und dementsprechend ist T = oo,sodass wir dann keine Zufallsvariable im eigentlichen Sinne haben. Da p eine Wahrscheinlichkeitsfunktion ist, gilt C z o p ( k ) = 1. Mit Hilfe der = fur 1x1 < 1, Summenformel fur die geometrische Reihe, C:=oxn konnen wir dies auch analytisch nachweisen
Fiir geomet,risch verteilte Zufallsvariablen gibt es eine einfache Formel Kir die Wahrscheinlichkeit, dass T 2 k
Dies entspricht auch der unmittelharen Anschauung, da T 2 k bedeutet, dass die ersten k Experimente Misserfolge liefern, und dies hat die Wahrscheinlichkeit q k . Die Annahme einer geometrischen Verteilung ist naheliegend und wird haufig
72
4. Zufallsvariablen und ihre Verteilungen
gemacht bei Modellen, hei denen es um Lehensdauer geht. Dabei wird allerdings der ,ErfolgCgleichgesetzt etwa mit dem Tod eines Individuums oder dem Versagen eines Teils bei einer Maschine. In diesem Zusammenhang heiDt die Wahrscheinlichkeit P ( T k ) auch die ~herlebenswahrscheinlichkeit.Fur die geometrische Verteilung gilt die bemerkenswerte Identit,&
>
P(T>k+jlT>k)=P(T>j).
(4.11)
Bei Anwendung dieses Modells fur die menschliche Lebensdauer hedeutet dies, dass die Wahrscheinlichkeit, dass ein k Jahre alter Mensch noch mindestens j weitere Jahre leht, genauso groD ist wie die Wahrscheinlichkeit, dass ein Neugeborenes mindestens j Jahre alt wird. Denken wir an Maschinen, so ist die bedingte Wahrscheinlichkeit, dass ein Teil einer Maschine noch mindestens j Jahre funktioniert, wenn es hereits k Jahre funktioniert hat, genauso groD wie die Wahrscheinlichkeit, dass ein Ersatzteil mindestens j Jahre funktioniert. Eigenschaft (4.11) wird auch die Gedachtnislosigkeit der geometrischen Verteilung genannt. Bei der Verwendung dieser Lehensdauerverteilung lie@ die Vorstellung zugrunde, dass zu jedem Zeitahschnitt wieder neu ein Miiuzwurf ausgefuhrt wird, dessen Ausgang iiber das weitere Funktionieren oder Versagen des Maschinenteils entscheidet. Dahei ist die entscheidende Annahme, dass es keine Alterungserscheinungen gibt, d.h. dass die Wahrscheinlichkeit, dass das Teil noch einen Zeitahschnitt funktioniert, zu allen Zeitpunkten gleich ist. Interessanterweise t r i a diese Annahme Rir den radioaktiven Zerfall eines Elementes ZU.
Wir sind hei der Frage nach der Wartezeit auf den ersten Erfolg an die Grenzen unserer hisherigen Modellierungsmoglichkeiten gestoDen hzw. hahen sie uherschritten. Denn die Anzahl der Experimente, die wir bis zum ersten Erfolg henotigen, ist nicht notwendigerweise beschrankt, sodass ein Model1 fiir n-faches unahhangiges Wiederholen des Experimentes nicht ausreicht. Eigentlich hahen wir folgenden Ergehnisraum notig
n = { ( w , , w z , ...)
: wi E
{E,M)).
Diese Menge ist aher iiberabzithlhar, sodass neue Ansatze notig sind, um auf Q eine Wahrscheinlichkeitsverteilung definieren zu konnen. In den vorhergehenden uherlegungen hahen wir uns auf eine relativ kleine Klasse von Ereignissen beschrankt, namlich Ak := { ( w I ,W Z , . . .) : W I = . . . = wk = M ) , sodass die ~berahzahlbarkeitder Menge 6' kein direktes Problem wurde. Negativ-binomiale Verteilung. Wir hetrachten weiter eine unendliche Folge unahhangiger Bernoulli-Experimente und definieren eine Zufallsvariable X, die die Anzahl der Misserfolge angiht, die vor dem r-ten Erfolg eingetreten sind. Es bedeutet X = k also, dass hei den ersten ( r + k - 1) Experimenten k Misserfolge auftreten und dass das ( r + k)-te Experiment einen Erfolg liefert. Da es nur die zwei Ergebnisse Erfolg und Misserfolg giht, gilt
4.2 Wichtige diskrete Verteilungen
73
Abb. 4.6. Wahrscheinlichkeitsfunktion der geometrischen Verteilung mit Parameter p = 0.25 (links) und der negativ-binomialen Verteilung mit Parametern T = 4 und p = 0.4 (rechts)
Diese Verteilung heifit negativ-hinomiale Verteilung auf i% mit Parametern r und p. Wieder gilt gemU3 Satz 4.6, dass C E o p ( k ) = 1. Fur einen analytischen Beweis dieser Eigenschaft bentitigen wir folgende Summenformel fiir die sogenannte negativ-hinomiale Reihe ("L-')xk.
CEO
Lemma 4.7 Fur 1x1 < 1 und r = 1 , 2 , . . .
Mit Hilfe dieser Identitbt erhalten wir dann
Beweis won Lemma 4.7. Ausgehend von der Summenformel fur die geometrische Reihe liefert einmaliges Differenzieren 00
und (r - 1)-faches Differenzieren
00
74
4. Zufallsvariahlen und ihre Verteilungen
Dabei miissen wir bedenken, welche Voraussetzungen erfiillt sein miissen, damit wir Summation und Differenzieren vertauschen konnen. Aus der Analysis wissen wir, dass dies bei geometrischen Reihen C z oxk fiir 1x1 < 1 moglich ist. Nun folgt (4.13),wenn wir beide Seiten obiger Identitat durch ( r - I ) ! teilen. 0 Der Name pegativ-binomiale Verteilung' wird verstandlich, wenn wir die unendliche Reihe (4.13) folgendermaflen umschreiben. Wegen
lasst sich (4.13) auch folgendermaflen schreiben
fiir 1x1 < 1 und r E {O, 1 , . . . }. Diese Potenzreihe heiflt negativ-binomiale Reihe. Durch die Substitutionen - 2 H x und - r H r erhalten wir schliefllich die Potenzreihe
fiir 1x1 < 1 und r E { - I , - 2 , . . .}. Fiir r E No ist (4.14) die behnnte Newton'sche Binomialformel, denn dann bricht die unendliche Summe bei k = r ab. Damit ist gezeigt, dass (4.14) fiir alle ganzzahligen r gilt. Obwohl wir dies an dieser Stelle nicht benotigen, sei darauf hingewiesen, dass (4.14) sogar fiir alle r E R und 1x1 < 1 gilt. ubungen ubung 4.5 Zeige, dass fiir die Wahrscheinlichkeitsfunktion der hypergeometri= 1. schen Verteilung gilt C,Ezp(r) ubung 4.6 Wir werfen 12-ma1 einen unverfalschten Wiirfel und bezeichnen mit X die Anzahl der Wiirfe, bei denen eine 6 gewiirfelt wird. Wie pol3 ist die Wahrscheinlichkeit, mindestens 4-mal eine 6 zu werfen? ubung 4.7 Wir werfen einen unverfdschten Wiirfel. Mit X bezeichnen wir die Nummer des Wurfs, hei dem zum ersten Mal eine 6 geworfen wird. Bestimme die Wahrscheinlichkeitsfunktion von X und berechne die Wahrscheinlichkeit, dass die erste 6 erst n x h dem 12.Wurf geworfen wird. ubung 4.8 Wir haben 6 voneinander unterscheidhare Kugeln, die zufdlig auf 7 nummerierte Zellen verteilt werden, wobei mehrere Kugeln in einer Zelle liegen konnen. Mit X bezeichnen wir die hochste Nummer der besetzten Zellen. Bestimme den Wertehereich und die Wahrscheinlichkeitsfunktion von x.Bestimme dies auch fiir Yi,die Anzahl der Kugeln in der i-ten Zelle, und fiir Z = YI Yz Y3.
+ +
4.3 Die Poisson-Verteilung
75
ubung 4.9 Wir werfen eine unverfalschte Miinze so oft, his zum ersten Mal ,Kopf geworfen wird, aber hochstens 10-mal. Mit X bezeichnen wir die Anzahl der Wiirfe. Bestimme den Wertehereich und die Wahrscheinlichkeitsfunktion von X. ubung 4.10 Aus einer Urne mit 2 roten und 3 wei5en Kugeln ziehen wir ohne Zuriicklegen 3 Kugeln. Mit X hezeichnen wir die Anzahl der roten Kugeln in der Stichprobe. Bestimme den Wertebereich und die Verteilung von X.
4.3 Die Poisson-Verteilung Bei der praktischen Anwendung von Zufallsvariablen ergibt sich auch die Anfgabe, die Zahlenwerte der Verteilungsfunktionen im Einzelnen auszurechnen. Fiir grofle Werte von n ist dies fur die binomiale Verteilung nicht einfach, weil die Binomialkoeffizienten ( i )sehr grofl werden. Dieses Problem lciinnen wir liisen, indem wir Annaherungen zu Hilfe nehmen, die einfacher berechnet werden konnen. Wir beschaftigen uns zunachst mit einer Approximation, die nach dem franziisischen Physiker Simon-Denis Poisson (1781-1840) henannt ist. Die Poisson-Approximation findet ihre Anwendung fur grofle Werte von n und sehr kleine Werte von p, also fur seltene Ereignisse.
Abb. 4.7. Wahrscheinlichkeitsfunktion der Poisson-Verteilung mit Parameter X = 2 (links) und X = 5 (rechts)
Satz 4.8 (Poisson-Grenzwertsatz) E.9 sei (Xn)n21 cine Folge Bin,(n,p,)verteilter Zufallsvariablen. Falls ein X E (0, cn) ezistiert mit np, + X fur n + cn, so gilt fur alle k E Wo
DurchpA(k)= e c X $ w i d eine Wahrscheinlichkeitsfunktion a u f N definiert.
76
4. Zufallsvariablen und ihre Verteilungen
Beweis. Ftir ein festes k E NO ist der Wert der binomialen Wahrscheinlichkeitsfunktion gegehen durch
Nun gilt nach Voraussetzunglim,,, np, = X und somit lim,,,p, benutzen weiter die aus der Analysis hekannte Identitiit lim,,,(l e Z ,fur x, + x, und erhalten
= 0. Wir =
+ %)n
Mit der Reihenentwicklnng fiir die Exponentialfunktion CEO$ = eA erhalten wir C E o p A ( k )= 1. Nach Satz 4.6 ist p~ also eine Wahrscheinlichkeitsfunktion. 0 Definition 4.9 Die Verteilungp~auf NO n i t Wahrscheinlichkeitsf.nktion
hee$t Poisson-Verteilung mit Parameter X und wird mit Poisson(X) bezeichnet, X E (0, m).
Tabelle 4.2. Vergleich der Wahrscheinlichkeitsfunktionender binomialen und der Poisson-Verteilung
Fur die Anwendung spielt die Genauigkeit einer Approximation eine groJ3e Rolle. In Tahelle 4.2 haben wir Werte heider Verteilimgen zusammengestellt. Die Parameter sind jeweils so gewalt, dass die zu erwartende Anzahl von Erfolgen stets 2 ist. Wenn wir die Werte der binomialen Verteilung mit denen der Poisson-Verteilung vergleichen, so bemerken wir, dass die Gute der
4.3 Die Poisson-Verteilung
77
Abb. 4.8. Wahrscheinlichkeitsfunktionen der Bin(l0,O.Z)-Verteilung (links oben), der Bin(100,0.02)-Verteilung (rechts oben), der Bin(1000,0.002)-Verteilung(links unten) sowie der Poisson(2)-Verteilung (rechts unten)
Poisson-Approximation bereits bei einer kleinen Anzahl von Experimenten ausgezeichnet ist, siehe auch Abb. 4.8. Ein klassisches Beispiel fiir ein seltenes Ereignis ist die Anzahl von Druckfehlern auf einer Buchseite. Ausgehend davon, dass jeder Buchstabe eine geringe Wahrscheinlichkeit hat, etwap = 0.002, ein Druckfehler zu sein und dass es ingesamt 1000 Buchstaben pro Seite gibt, hat die Anzabl der Druckfehler auf einer Bnchseite eine Bin(1000,0.002)-Verteilung.Diese wird ausgezeichnet durch die Poisson(2)-Verteilung approximiert. In diesem Abschnitt haben wir die Poisson-Verteilung als Approximation der binomialen Verteilung betrachtet. In Kapitel 12 werden wir Modelle fiir zufallige, in Raum oder Zeit gleichmaflig vert,eilte Ereignisse betrachten, bei denen sich in natiirlicher Weise eine exakte Poisson-Verteilung ergibt. Znm Abschluss dieses Abschnitts wollen wir noch eine Aufgabenstellung betrachten, in der die Poisson-Verteilung als Approximation auftritt. In Aufgabe 2.12 haben wir die Aufteilung von n Regenschirmen auf n Besucher betrachtet. Es wurde dort die Wahrscheinlichkeit p, gesucht, dass keiner der Besucher seinen eigenen Schirm zuriickbekommt. Es gilt
78
4. Zufallsvariablen und ihre Verteilungen
Im Laplace-Raum berechnet sich die Wahrscheinlichkeit als Quotient der Anzahl der gunstigen und der Anzahl aller moglichen Falle. Also konnen wir mit Hilfe von bekannten Wahrscheinlichkeiten auch gesuchte Anzahlen ausrechnen, mit denen wir anschliefiend weitere Wahrscheinlichkeiten berechnen kiinnen. Das Resultat von Aufgabe 2.12 bedeutet, dass es n! . p , Maglichkeiten gibt, n Schirme auf n Besucher so zu verteilen, dass kein Schirm seinem rechtmafligen Besitzer zuriickgegeben wird. In mathematischer Sprache heiflt, dies, dass es n! p, Permutationen der Elemente von {1, . . . ,n } gibt, die keinen F i p u n k t haben. Das Ereignis, dass ein Besucher seinen eigenen Schirm zuriickerhalt, d.h. dass es einen Fixpunkt gibt, wird auch ,matchingLgenannt. Nun wollen wir die Verteilung der Anzahl matchings bestimmen. Es sei X die Zufallsvariable, die die Anzahl der Besucher angibt, die ihren eigenen Schirm zuruckbekommen. Dann gilt P ( X = 0) = p,. Die Wahrscheinlichkeit P ( X = k ) , dass genau k der Besucher ihren eigenen Schirm erhalten, lasst sich wie folgt herechnen. Es gibt )(; Moglichkeiten, k Schirme ihren rechtmafiigen Besitzern zuriickzugehen. Dann sind diese k Schirme verteilt. Die iibrigen ( n - k ) Schirme miissen auf die iibrigen ( n k ) Besucher so verteilt werden, dass kein Besucher seinen eigenen Schirm bekommt, wofiir es ( n - k)!pn-h Moglichkeiten gibt. Also gilt
Diese Resultate fassen wir in einem Satz zusammen,
Satz 4.10 (Matching-Verteilung) Die Wah,rscheinliehkeit, dass eine zufallige P e n u t a t i o n der Elemente von { I , . . . ,n ) keinen Fixpunkt h,at, ist
Die Wahrscheinlichkeit, dass eine zuf8fiilligeP e n u t a t i o n von { I , . . . ,n ) genau k Fixpunkte hat, ist $ p,-k. Die Anzahl aller Permutationen der Elemente von { I , . . . , n ) , die genau k Fixpunkte haben, ist g p n - k . Aus der Reihenentwicklung fur die Exponent,ialfunktion, CEO $ = em, folgt lim,, p, = e-'. Somit gilt
d.h. die Wahrscheinlichkeit, dass wir genau k Fipunkte haben, konvergiert gegen die Wahrscheinlichkeitsfunktion einer Poisson-Verteilung mit Parameter 1. Dieses Result,at konnen wir auch intuitiv einsehen. Interpretieren wir
4.4 Aufgaben
79
das Ereignis, dass der i-te Besncher seinen eigenen Schirm erh<,als Erfolg, so haben wir n Bernoulli-Experimente rnit Erfolgswahrscheinlichkeit :. Diese Experimente sind allerdings nicht unabhangig, sodass die Anzahl der Erfolge nicht exakt binomial verteilt ist und wir den Poisson-Grenzwertsatz 4.8 eigentlich nicht anwenden kannen. Ident,itat (4.17) zeigt aber, dass Satz 4.8 dennoch das richtige Resultat liefert. Dies kann man dadurch erkl&ren, dass die Abhejlgigkeit der Experimente fur groDe Werte von n geringer wird.
ubung 4.11 Erfahrungsgema fallen in einer Vordiplomsklausur 5% der Studierenden durch. In diesem Jahr nehmen 100 Studierende an der Klausur teil. Bestimme die Wahrscheinlichkeiten, dass 0,1,. . . ,10 Studierende durchfallen. Berechne jeweils den exakten Wert und die Poisson-Approximation. ubung 4.12 Eine Kalfeeverpackungsmaschine produziert rnit Wahrscheinlichkeit &, eine undichte Verpackung. Berechne den exakten Wert und die PoissonAppromation der Wahrscheinlichkeiten, dass sich in einer Partie von 50 Packungen k = 0, l , 2 , 3 undichte helinden.
p=
ubung 4.13 Einem Drucker unterlauft im Durchsrhnitt ein Fehler auf 1000 Buchstahen und eine Buchseite hat 2000 Buchstahen. Bestimme die Wahrscheinlichkeit, dass auf einer Buchseite 0,. . . , 6 oder mehr als 7 Druckfehler sind.
4.4 Aufgaben Aufgabe 4.1 Seien XN, N = 1,2,. . . Zufallsvariablen rnit einer hypergeometrischen Verteilung rnit Parametern ( N ,[pN],n) (mit [XI hezeichnen wir die groDte ganze Zahl kleiner oder gleich x). Zeige, dass lim P ( X N = k) =
N+m
d.h. dass die hypergeometrische Verteilung gegen eine binomiale Verteilung konvergiert.
Aufgabe 4.2 Es sei X eine Zufallsvariahle rnit Werten in P& und der Eigenschaft, dass
Zeige, dass X geometrisch verteilt ist.
Aufgabe 4.3 Aus einer Urne rnit N Kugeln, die rnit Nummern 1,.. . ,N nnmmeriert sind, ziehen wir ohne Znrucklegen n Kugeln. Mit X bezeichnen wir die kleinste gezogene Nummer. Bestimme die Verteilung von X .
80
4. Zufallsvariablen und ihre Verteilungen
Aufgabe 4.4 Eine Firma bekommt Warenlieferungen und entscheidet anhand von Stichproben, ob eine Lieferung abgewiesen wird. Fur eine Warenlieferung, die aus 100 Stuck besteht, wird eine Stichprobe von 10 Stiick genommen, und die Lieferung wird abgewiesen, wenn in der Stichprobe ein oder mehrere defekte Stiicke sind. Wie groD ist die Wahrscheinlichkeit, dass eine Lieferung von 100 Stiick, die 10 defekte Stiicke enthiilt, bei diesem Testverfahren abgewiesen wird? Wenn die Stucke fur die Stichprobe nacheinander gezogen werden, kann manchmal die Entscheidung schon vor der 10-ten Ziehung getroffen werden. Berechne die Wahrscheinlichkeit, dass bei der k-ten Ziehung die Entscheidung getroffen werden kann. Aufgabe 4.5 Wir betrachten die Grundgesamtheit der Haushalte in Bochum. Die Wahrscheinlichkeit, dass in einem Haushalt k Kinder wohnen, sei p k , k E NO. Wir wahlen jetzt zufallig ein Kind aus der Grundgesamtheit aller Kinder und bezeichnen mit X die Anzahl aller Kinder, die in dem zugehlirigen Haushalt leben. Bestimme die Wahrscheinlichkeitsfunktion dieser Zufallsvariablen. Aufgabe 4.6 Die Anzahl der Kinder in einem Haushalt sei Poisson-verteilt mit Parameter A, wobei fiir jedes Kind gilt, dass es mit gleicher Wahrscheinlichkeit ein Junge oder ein M&dchen ist. Bestimme die Verteilung der Zufallsvariablen, die durch die Anzahl der Jungen in einem Haushalt gegeben ist. Aufgabe 4.7 Zeige, dass die hinomiale Verteilung und die Poisson-Verteilung unimodal sind, d.h. dass ihre Wahrscheinlichkeitsfunktionenbis zu einem bestimmten Punkt xo monoton steigend sind und fur x 2 $0 monoton fallend. Bei welchen Werten nehmen die Wabrscheinlichkeitsfunktionen ihr Maximum an?
5. Erwartungswert und Varianz
Betrachten wir die Stabdiagramme der Wahrscheinlichkeitsfunktionen, so sehen wir sehr unterschiedliche Bilder. Diese Bilder konnen uns aufmerksam machen auf verschiedene Eigenschaften einer Verteiluug, wie Konzentration, Lage, Position, Schiefe oder Streuung. In diesem Kapitel werden wir zwei neue MaDzahlen fur Verteilungen einftihren, Erwartungswert und Varianz. Ftir die wichtigsten Verteilungen werden wir den Erwartungswert und die Varianz berechnen und zwei grundlegende Ungleichungen beweisen. Die meisten der Resultate in diesem Kapitel gelten fur beliebige Zufallsvariablen, auch wenn wir die Beweise und Definitionen hier nur fiir Zufallsvariablen mit einer diskreten Verteilung geben konnen. Bei Resultaten, die wirklich nur im diskreten Fall gelten, weisen wir entsprechend darauf hin.
5.1 Erwartungswert Da die Einfuhrung des Erwartungswertes ihren geschichtlichen Ursprung bei Gliicksspielen hat, wollen wir uns zunachst mit einem Spiel beschaftigen. Angenommen, wir konnten gegen Bezahlung eines Einsatzes an folgendem Gliicksspiel teilnehmen: Es wird ein nnverf&lschterWtirfel geworfen. Als Gewinn erhalten wir die geworfene Augenzahl in Euro. Wie viel Euro waren wir bereit, als Einsatz fiir dieses Spiel zu bezahlen? Das Problem bei dieser Rage liegt darin, dass es vom Zufall abhangt, wie viel wir fur unseren Einsatz bekommen. Die Gegebenheiten bei Gliicksspielen sind ganz anders als beim Einkauf in einem Laden. Dort konnen wir wissen, welchen Wert wir ftir den angegebenen Preis eines Artikels bekommen, z.B. eine Zeitschrift fiir 4 Euro. Welchen Wert wir bei unserem Glucksspiel bekommen, konnen wir nicht wissen, da dies ja vom Zufall a b h b g t . Wir konnen mit Wahrscheinlichkeit jeweils entweder 1 , 2 , 3 , 4 , 5oder 6 Euro gewinnen, d.h. im Mittel . 1 + . . . + . 6 = 3.5. Die so berechnete Zahl nennen wir den Erwartungswert des Spiels. Bei einer frequentistischen Interpretation von Wahrscheinlichkeit ist dies der mittlere Gewinn bei einer langen Folge von Wiederholungen des Spiels, und dies werden wir spater bestatigt finden durch das Gesetz der groDen Zahlen. Wenn wir also pro Spiel weniger als 3.50 Euro bezahlen mtissen, so werden wir langfristig Gewinn machen. Auf dieselbe Weise kiinnen wir auch fur das Lottospiel und die Gliicksspiele im Kasino die
82
5. Erwartungswert und Varianz
Erwartnngswexte ausrechnen und sind dann vielleicht erstaunt, dass 60 viele Menschen dabei mitspielen, obwohl der erwartete Gewinn kleiner ist als der Einsatz. 1st die kleine Chance eines groDen Gewinns so verlockend?
§ia,velbexpeEtcm,quomtn ocrum~kaequi FaciEmihi obtbgcre poGt,expeltado madicenda elt valcre*3, . n. Dann gilt
=("
-1
R-1 N-R )~(r-l)(n-r)
-1
=R("
n
n
R-1
N-R
N-1
R
z(r-l)(n-r)=~(E)-'(n-l)=nE> ~ = l
84
5 . Erwartungswert und Varianz
wobei wir am Schluss die binomiale Identitzt wendet haben, siehe Aufgabe 2.1.
(7)(k>)
= (n:m)
ver-
(v) Es sei X Poisson-verteilt mit Parameter A, d.h. P ( X = k) = e-" k E No. Dann gilt
fiir
x 00
E(X) =
k=O
ke-"
Xk k!
= Xe-A
x m
k=l
~ k - 1 -
(k - l)! =
5,
wobei wir die Reihenentwicklung der Exponentialfunktion, ex = C r = o verwendet haben. (vi) Es sei X geometrisch verteilt mit Parameter p, d.h. P ( X = k) = qkP fur k E No. Dann gilt 00
00
Dabei haben wir Lemma 4.7 fiir r = 2 verwendet, (vii) Es sei X negativ-binomial verteilt mit Parametern r und p, d.h. P ( X = k) = ('+ kk-l)p'qk fiir k E & . Dann gilt
An dieser Stelle haben wir die Summenformelfiir die negativ-binomiale Reihe (rik)qk= &, und immer wieder p = 1- q. verwendet,
CEO
Oft st,eheuwir vor dem Problem, den Erwartungswert einer Funktion Y = u(X) einer Zufallsvariablen X berechnen zu wollen, 2.B. E(X2) oder E(eX). Wenn wir dies mit der Definition tun, so bestimmen wir zuerst die Verteilung von Y, d.h. bei einer diskreten Zufallsvariablen, dass wir py(y) = P ( Y = y) berechnen, und dann folgt
Dieser Weg ist meist sehr umsthdlich, und wir klinnen ihn abktirzen, wenn wir den folgenden Satz anwenden. Es ist dies ein Spezialfall einer ganz allgemeinen Transformationsformel.
5.1 Erwartungswert
85
Satz 5.3 (Transformationsformel ftir den Erwartungswert) Es sei X eine diskrete Zufallsvariable mit Wahrscheinlichkeitsfunktion p u n d u : X ( 0 ) + R eine Abbildung mit C,,,(,) lu(x)l p(x) < oo. Dann gilt
Beweis. Die Wahrscheinlichkeitsfunktion von Y = u(X) ist gegeben durch
Dies setzen wir in die Definition von E(Y) ein und erhalten
womit die Behauptung des Satzes bewiesen ist.
0
Beispiel 5.4 Wir hetrachten eine Poisson(X)-verteilte Zufallsvariable. Mit Satz 5.3 kijnnen wir nun den Erwartungswert der Funktion e t x , t E $ herechnen, ohne die Verteilung von etx bestimmen zu miissen
Wir werden in Kapitel 7 die Bedeutung dieses Erwartungswertes, dessen Berechnung hier als Anwendungsheispiel der Transformationsformel diente, noch weiter kennenlernen.
Satz 5.5 (Dreiecksungleichung fiir den Erwartungswert) Es sei X eine Zufallsvariable, deren Erwartungswert existiert. Dann gilt
Beweis. Wir wenden Satz 5.3 mit u(x) = 1x1 an, sowie die Dreiecksungleichung ftir Summen reeller Zahlen und erhalten
86
5 . Erwartungswert und Varianz
Satz 5.6 (Linearitat des Erwartungswertes) Es seien X und Y zwei Zufalls-
uan'ablen, deren Ewartungswerte existieren. Dann gilt fir a, b E R (i) E ( a X ) = a E ( X ) (ii) E ( X Y) = E ( X ) E(Y) (iii) E(b) = b.
+
+
Beweis. (i) Mit u(x) = ax liefert die Transformationsformel, Satz 5.3,
=
(iii) Die konstante Zufallsvariable Y b hat nur eine mdgliche Realisierung. Ihre Wahrscheinlichkeitsfunktion ist gegeben durch p(b) = 1 und p(x) = 0 fiir x # b. (ii) Wir werden diese Aussage erst im nachsten Kapitel im Anschluss an die Tranformationsformel Satz 6.8 beweisen konnen und bis dahin nur fiir Beispiele benutzen. 0 Die Additivitat des Erwartungswertes, die Eigenschaft (ii), ist fiir Anwendungen von groDer Bedeutung. Mittels vollstiindiger Induktion k6nnen wir die Additivitat aucb auf jede endliche Summe von Zufallsvariablen ausdebnen E(XI+ ...
+ X,)
= EX1
+ ... + EX,
Wenn wir nun eine gegebene Zufallsvariable X als Summe von Zufallsvariablen X I , . . . ,X, mit einer einfacheren Verteilung und bekannten Erwartungswerten darstellen konnen, so konnen wir den Erwartungswert E X auch dann berechnen, wenn sich die Verteilung von X nur schwer oder gar nicht bestimmen lasst. Beispiel 5.7 (i) Sei X eine binomial verteilte Zufallsvariable mit Parametern n und p, die die Anzahl der Erfolge in n unabhangigen BernoulliExperimenten angibt. Wir definieren die Ereignisse Ai: ,das i-te Experiment liefert einen Erfolg' und die Zufallsvariablen la,. Dann gilt X = la, . . . la, und somit
+ +
E ( X ) = E(l.4,)
+. . . + E(la,.)
= P(A1)
+ . . . + P(A,)
= np.
So erhalten auf diesem anderen Weg ohne Rechenaufwand dasselbe Resultat wie in Beispiel 5.2(iii). (ii) Sei X eine hypergeometrisch verteilte Zufallsvariable mit Parametern N, R und n, die die Anzahl roter Kugeln in einer Stichprobe angibt, die wir dnrch n-faches Ziehen ohne Zuriicklegen aus einer Urne mit R roten und (N - R) weiDen Kugeln erhalten haben. Wir definieren die Ereignisse Ai: ,die i-te gezogene Kugel ist rot' und die Zufallsvariablen l a , . Dann gilt, X = l a , + . . . la, und E ( l a , ) = P(A,) = und wir erhalten auch hier ohne groBen Rechenaufwand das Resultat E ( X ) = n . $ von Beispiel 5.2(iv).
+
g,
5.1 Erwartungswert
87
(iii) In Abschnitt 4.3 haben wir die Anzahl X der matchings einer zufalligen Permutation der Zahlen 1,. . . ,n untersucht und in Satz 4.10 die Verteilung von X bestimmt. Auch hier gibt eine geeignete Darstellung von X als Summe von Zufallsvariablen mit einer einfachen Verteilung die Grundlage fiir eine schnelle Berechnung des Erwartungswertes E(X). Wir definieren die Ereignisse Ai: ,der i-te Besucher erhalt seinen eigenen Schirm' und die Zufallsvariablen l a , . Dann gilt X = la, . . . la" und P(Ai) = also folgt E ( X ) = n . = 1, d.h. im Schnitt erh< genau ein Besucher seinen eigenen Schirm zuruck.
+ +
k,
Beispiel 5.8 (i) In einer Urne sind R rote und ( N - R) weifie Kugeln. Wir ziehen zufdlig und ohne Zuriicklegen nacheinander jeweils eine Kugel aus der Urne. Es sei X die Anzahl der weinen Kugeln, die vor der ersten roten Kugel gezogen wurden. Die Wahrscheinlichkeitsfunktion von X ist P(X=k)=
-.N N- R
N-R-1 N -1
-R-k+l R .. . .. N N .-k+l N-k
-
(N-R)k.R (N)k+l
fur k = 0,. . . ,N - R. Dies konnen wir einsehen, wenn wir uns iiberlegen, dass X = k bedeut,et, dass bis zur k-ten Ziehung nur weiBe Kugeln, und zwar ohne Zurucklegen, gezogen werden und bei der (k+ 1)-ten Ziehung dann eine rote Kugel gezogen wird. Wir wollen jetzt E ( X ) berechnen. Die direkte Berechnung mit der Definition, N-R d.h. E ( X ) = C,=, k P ( X = k), ist langwierig. Wir suchen stattdessen eine Zerlegung von X als Summe von Zufallsvariablen, deren Erwartungswerte einfacher zu berechnen sind. Dazu nummerieren wir die weiflen Kugeln und definieren die Zufallsvariablen Yi, i = 1,. . . ,N - R, wie folgt 1wenn die i-te weiBe Kugel vor der 1. roten Kugel gezogen wird 0 sonst.
Es gilt X = Yl +. . .+ YN-R.Wir benatigen die Wahrscheinlichkeiten P(Y, = I ) , d.h. die Wahrscheinlichkeit, dass die i-te weifie Kugel vor der ersten roten Kugel gezogen wird. Zur Bestimmung dieser Wahrscheinlichkeit konnen wir, zumindest in Gedanken, die ubrigen weifien Kugeln aufier Betracht lassen. Wir konnen uns zum Beispiel vorstellen, dass die anderen weifien Kugeln eine neue Farbe bekommen, und dann geht es nur noch um die moglichen Anordnungen der R roten Kugeln und der einen, der i-ten, weifien Kugel. Der einzige giinstige Fall ist dabei, dass die i-te Kugel vor allen roten Kugeln gezogen wird und damit ist die Wahrscheinlichkeit P(Y, = 1) = Nach diesen vielen Gedankenschritten, deren Nachvollzug nicht trivial ist, kiinnen wir den Erwartungswert sehr leicht berechnen
&.
N-R
E(X) =
C P ( K = 1) = N - R
-
i=l
R+l'
88
5. Erwartungswert und Varianz
Im Folgenden wollen wir Identitat (5.4) noch auf einem anderen Wege herleiten, der eine neue Einsicht in die Problematik erlaubt. Dabei werden wir, zumindest in Gedanken, annehmen, dass wir nicht beim Ziehen der ersten roten Kugel das Experiment beenden, sondern dass wir solange ziehen, bis die Urne leer ist. Dann kiinnen wir uus die Menge der ( N - R) weiBen Kugeln
Abb. 5.2. Auftrilen der (N - R) wriilen Kugrln in (R + 1) Teilmengen
wie folgt aufgeteilt vorstellen in ( R + 1) Teilmengen. In der ersten Teilmenge sind die weiDen Kugeln, die vor der ersten roten Kugel gezogen werden, in der zweiten Teilmenge die weiDen Kugeln, die zwischen der ersten und der zweiten roten Kugel gezogen werden, u.s.w. bis zu der Menge der weiDen Kugeln, die nach der letzten roten Kugel gezogen werden. Wir wollen nun zeigen, dass diese (R + 1) Mengen im Mittel gleich groD sind. Dazu ftihren wir die Zufallsvariablen X I , . . . ,X R + ~ein, die die GroDen der (R 1) Teilmengen angeben. Es gilt fiir nicht-negative ganze Zahlen 0 5 kl, . . . , k ~ + 15 N - R mit kl . . . k ~ + = l N - R, dass
+
+ +
Mit der Terminologie des folgenden Kapitels ist dies die simultane Verteilung . sind alle moglichen Auswahlen der Ziehungen, bei von XI, . . . ,X R + ~Also denen die weiDen Kugeln gezogen werden, gleich wahrscheinlich. Wenn wir das Problem auffassen als Verteilung von ( N - R) weiBen Kugeln auf (R 1) Zellen, so zeigt (5.5), dass das Model1 01"(nicht unterscheidbare Kugeln, mehrere Kugeln in einer Zelle moglich) passend ist. Die Symmetrie in (5.5) liefert, dass die Zufallsvariablen XI,. . . ,X R + ~alle dieselbe Verteilung haben und damit auch denselben Erwartungswert. Aus XI . . . XR+l = N - R folgt weiter
+
+ +
w.
und somit E(X1) = (ii) Jetzt bet,rachten wir dieses Beispiel ftir den Fall, dass mit Zurticklegen gezogen wird. Wieder wollen wir den Erwartungswert der Zufallsvariablen X berechnen, die die Anzahl der weiBen Kugeln angibt, die vor der ersten
5.2 Varianz
89
roten Kugel gezogen werden. Beim Ziehen mit Zuriicklegen stellen die aufeinanderfolgenden Ziehungen unabhejlgige Experimente dar. Wenn wir nnr auf die Farbe der gezogenen Kugeln achten, so hat jedes Experiment zwei mijgliche Ergebnisse, rot (Erfolg) und weiD (Misserfolg). Also hahen wir eine Folge unabhagiger Bernoulli-Experimente mit Erfolgswahrscheinlichkeiten p = $, und X ist die Anzahl der Misserfolge vor dem ersten Erfolg. Wir haben im vorigen Kapitel gezeigt, dass X eine geometrische Verteilung hat und in Beispiel 5.2(vi) berechnet, dass E ( X ) = =
9.
ubung 5.1 Wir betrachten ausnahmsweise ein Wiirfelexperiment mit einem gefalschten Wiirfel. Sei X die gewiirfelte Augenzahl, und sei P(X = k) = a . k, fiir 1 5 k 5 6, und eine Konstante a 2 0. Bestimme den Wert der Konstanten a und den Erwartungswert von X. ubung 5.2 Aus einer Urne mit 2 roten und 3 weiilen Kugeln ziehen wir 2 Kugeln
ohne Zuriicklegen. Bestimme die Verteilung und den Erwartungswert der Zufallsvariahlen X, die die Anzahl der roten Kugeln in der Stichprobe angibt. AnschlieBend fiihren wir dieses Experiment 10-ma1 aus und legen nach jedem dieser Experimente die 2 Kugeln wieder zuriick. Sei Y die Anzahl der roten Kugeln unter den 20 gezogenen Kugeln. Berechne den Erwartungswert von Y. ubung 5.3 Wir werfen eine faire Miinze solange, his zum ersten Mal ,Kopf erscheint, aber hochstens 10-mal. Wir bezeichnen mit X die Anzahl der Wiirfe, bei denen ,ZahlGerscheint. Gesucht ist die Verteilung und der Erwartungswert von X. ubung 5.4 Wir betrachten das Experiment, dass n Kugeln zufallig auf N Zellen
verteilt werden, wobei mehrere Kugeln in einer Zelle liegen konnen. Bestimme den Erwartungswert der Zufallsvariable X, die die Anzahl der leeren Zellen angibt. ubung 5.5 Berechne fiir ein Wiirfelexperiment, bei dem 10 Wiirfel gleichzeitig geworfen werden, den Erwartungswert der Zufallsvariable X, die die Summe der
Augenzahlen angibt.
5.2 Varianz Definition 5.9 Es sei X eine Zufallsvariable, fur die E ( X - EX)' existiert. Dann definieren wir die Varianz uon X als
Als Symbol fur die Van'anz wird oft u2 bzw. der Varianz he@ Standardabweichung.
0%
uerwendet. Die Wurzel aus
Die Varianz ist per definitionem die mittlere quadratische Abweichung der Zufallsvariablen X von ihrem Erwartungswert und somit ein MaO far die Streuung. Es giht kein intrinsisches Argument, weshalb man gerade die quadratische Abweichung verwenden sollte und nicht die absolute Abweichung
90
5 . Erwartungswert und Varianz
oder eine hahere Potenz. Eine besondere Bedeutung bekommt die Varianz durch die mathematischen Eigenschaften von E(X2). So werden wir in Abschnitt 6.4 zeigen, dass durch eine Euklidische Norm anf dem Raum aller Zufallsvariablen definiert wird.
Satz 5.10 Es sei X eine Zufallsvariable. Dann gilt (i) Var(aX b) = a2Var(X),fur a, b, E B (ii) Var(X) = E ( X 2 ) - (E(X))'.
+
Beweis. (i) Aufgrund der Linearitkt des Erwartungswertes gilt E ( a X a E ( X ) b. Also folgt
+
+ b) =
(ii) Wir schreiben
wobei wir mebrfach Satz 5.6 angewendet haben.
0
Bemerkung 5.11 Wir konnen durch Anwendung von Satz 5.10 die folgende Identitat i t r reelle Zahlen xl, . . . ,x, herleiten
wobei 5 := Cy=l xi.Dazu betrachten wir eine Zufallsvariable X mit Werten {XI,.. . ,x,) und Laplace-Verteilung, d.h. P ( X = xi) = $. Fiir diese Zufallsvariable gilt E ( X ) = 5, E ( X 2 ) = Cy=l x; und Var(X) = Ci=l(xi -5)', sodass (5.6) aus Satz 5.10(ii) folgt. Dies ist ein Beispiel, dass eine analytische Identitat aus einer wahrscheinlichkeitstheoretischen hergeleitet werden kann, indem man eine geeignete Zufallsvariable betrachtet.
k
Satz 5.12 Fur eine Zufallsvariable X und a E B gilt
und somit E ( X - a)2 2 Var(X).
(5.8)
Gleichheit gilt in (5.8) genau dann, wenn a = E(X). Beweis. Da E ( X - E X ) = 0, gilt
+
E ( X - a ) 2 = E ( X - E X E X -a)' = E ( X - EX)^ + 2E((X - E X ) ( E X - a)) + E ( ( E X -a)') = E ( X - EX)' + 2(EX - a ) E ( X - E X ) + ( E X - a)' = E ( X - EX)^ + ( E X -a)'.
5.2 Varianz
Die Ungleichung (5.8) folgt direkt aus der Identittit (5.7).
91
0
So gewinnen wir mit der Varianz die interessante Minimumeigenschaft des Erwartungswertes, dass die mittlere quadratische Abweichung zwischen X und einer Konstanten a minimal wird fiir a = E X . Dies kann eine Begrundung sein, den Erwartungswert als Zent,rum der Verteilung einer Zufallsvariablen anfzufassen. Dabei ist wichtig zn bemerken, dass diese Minimumeigenschaft von E X nnr fiir die mittlere quadratische Abweichnng gilt. Die Bestimmung des Minimums von EIX - a[ fiihrt zu einer anderen KenngroDe einer Verteilung, dem Median. Definition 5.13 FCr eine Zufallsvariable X definieren wir das k-te Moment m k und das k-te zentrale Moment ck durch
Das k-te faktorielle Moment won X ist durch E ( X ( X - 1). . . . . ( X - k gegeben.
+ 1))
Mit dieser Definition ist E ( X 2 ) das 2. Moment von X und Var(X) das 2. zentrale Moment von X . Die haheren Momente spielen eine geringere Rolle. Das 3. und 4. zentrale Moment wird in der Statistik verwandt als KenngroDe fur Schiefe und Plattheit einer Verteilung. Die faktoriellen Momente haben ihre Bedeutung im rechentechnischen Zusammenhang. Wir werden bei vielen Beispielen feststellen, dass sich die faktoriellen Momente einfacher berechnen lassen als das k-te Moment. Da sich jedes k-te Moment als Funktion der ersten k faktoriellen Momente schreiben lasst, 2.B. E ( X 2 ) = E ( X ( X - 1)) + E X , konnen wir mit Satz 5.10(ii) die Varianzen der verschiedenen Verteilungen ausrechnen. Dabei wenden wir auch immer wieder die Transformationsforme1 fur Erwartungswerte an. Beispiel 5.14 (i) Sei X Laplace-verteilt auf {I,. . . ,N), so gilt
denn fur die Qnadratzahlen gilt
Ckl j2 = n ( n f 16) ( 2 n f 1 ) Weiter . folgt
(ii) Ftir eine Bernoulli-verteilte Zufallsvariable X mit Parameter p gilt E ( X 2 ) = 02(1- p) und somit
+ lZp= p
92
5 . Erwartungswert und Varianz
Var(X) = p - p2 = p(1- p) = pq. (iii) Zur Berechnung der Varianz einer hinomial verteilten Zufallsvariablen X mit Paramet,ern n und p hestimmen wir zunachst das 2. faktorielle Moment
Dabei sind wir analog vorgegangen wie in der Berechnung des Erwartungswertes einer hinomial verteilten Zufallsvariahlen. Weiter gilt nun
und somit Var(X) = n(n, - l ) p2
+ np - (np)2 = np - np2 = np(1-
p) = npq
(iv) Sei X hypergeometrisch verteilt mit Parametern N, R und n. Analog zur Berechnung des Erwartungswertes, hei der wir auch die binomiale Identitat, aus Aufgahe 2.1 benutzt hahen, gilt
Daraus folgt
=n
R ((R - l ) ( n - l ) N N2(N - 1)
+ N ( N - 1) - nR(N - 1))
5.2 Varianz
93
5
Wir haben eine Form gefunden, die sich ftir p = von der Varianz der binomialen Verteilung nur durch einen Korrekturfaktor unterscheidet. Das hedeutet, dass fiir n > 1die Varianz heim Ziehen ohne Zuriicklegen stets kleiner ist als beim Ziehen mit Zurticklegen. Fiir den Sonderfall n = N gilt sogar Var(X) = 0, und dies kiinnen wir auch direkt einsehen, denn in diesem Fall ziehen wir alle Kugeln und dann ist X R. (v) Fur eine Poisson-verteilte Zufallsvariahle X mit Parameter X gilt
=
und somit
(vi) Sei X geometrisch verteilt mit Parameter p, so gilt
Dabei haben wir Lemma 4.7 fiir r = 3 angewendet. Es folgt 2q2 + 9 E ( X 2 ) = E ( X ( X - 1)) + E X = p2 P und
(vii) Ftir eine negativ-binomial verteilte Zufallsvariable X mit Parametern r und p gilt
5. Erwartungswert und Varianz
94
Dabei haben wir wieder die Summenformel ftlr die negativ-binomiale Reihe verwendet. Nun folgt
und
5,
und das ist die Varianz einer geometrisch verteilFur r = 1 ist Var(X) = ten Zufallsvariable. In der Tat ist die geometrische Verteilung mit Parameter p ein Spezialfall der negativ-binomialen Verteilung mit Parametern r und p fur r = 1. Die Erwartungswerte nnd Varianzen der wichtigsten diskreten Verteilungen baben wir in Tabelle 5.1 zusammengestellt.
Wahrscheinlichkeitsfkt. E(X) Var(X) N + 1 N2-1 1 -{I,. . . , N} 2 12 pXql-' P Pq {0,1) {0, . . . , n) (:)pkqn-k bp ~ P P
Verteilung X(f2)
1
Laplace Bernoulli binomial
Tabelle 5.1. Wahrscheinlichkeitsfunktionen, Erwartungswerte und Varianzen
wichtiger diskreter Verteilungen
Mit Hilfe unserer Satze 5.6 und 5.10 konnen wir aucb Erwartungswerte und Varianzen von Verteilungen berechnen, die durch eine affin-lineare Transformation aus einer der Verteilungen in der obigen Liste bervorgehen. Als Beispiel betrachten wir eine Laplace-Verteilung auf {&, . . . , &}. Diese Verteilung erhalten wir, indem wir eine auf {I,. . . , N ) Laplace-verteilte Zufallsvariable Y durch ( N + 1) teilen. Es gilt dann E X = E = EY, und somit
(&)
&
5.3 Die Ungleichungen von Chebychev und Markov
95
Eine Laplace-Verteilung auf {&, . . . , &} kiinnen wir fiir grofle N als approximatives Model1 fur einen auf dem Interval1 [O,11 gleichverteilten Zufallsvorgang auffassen. Wir werden in Kapitel8 eine Gleichverteilung auf [O, 11 einfiihren und dann zeigen, dass diese Verteilung Erwartungswert $ und Varianz hat.
ubung 5.6 Wir werfen einmal einen unverfdschten Wiirfel und hezeichnen mit X die geworfene Augenzahl. Berechne Varianz und Standardabweichung von X. ubung 5.7 Es sei X eine Zufallsvariable mit Var(X) = 0. Zeige, dass es dann eine Konstante c gibt mit P(X = c) = 1. Wir sagen auch, dass X fast sicher eine
Konstante ist.
>
ubung 5.8 Es sei X eine N-wertige Zufallsvariable mit P ( X k) = $. Zeige, dass der Erwartungswert von X existiert und dass die Varianz nicht existlert.
5.3 Die Ungleichungen von Chebychev und Markov Wir werden zwei Ungleichungen kennenlernen, die von den bedeutenden russischen Mathematikern Pafnuty Lvovich Chebychev (1821-1894) und Andrey Andreyvich Markov (1856-1922) erstmals formuliert wnrden. Beide Ungleichungen sind in den meisten Beispielen nicht scharf, aber ihr grofler Vorteil lie@ in ihrer allgemeinen Gultigkeit. Dadurch werden sie unverzichtbares Hilfsmittel in verschiedenen theoretischen Berechnungen, vor allem des asymptotischen Verhaltens von Zufallsvariablen. Satz 5.15 (Markov-Ungleichung) Far eine Zufallsvariable X und eine reelle Zah,l a > 0 gilt
Beweis. Fiir s E R mit Is1 2 a gilt
!$ 2 1 und somit
Fiir die letzte Identitht haben wir wieder die Transformationsformel, Satz 5.3, verwendet. 0
96
5 . Erwartungswert und Varianz
Satz 5.16 (Chehychev-Ungleichung) Fiir eine Zufallsva~iableX und eine reelle Zahl a > 0 gilt
Beweis. Wir wenden die Markov-Ungleichung (5.9) auf die Zufallsvariable IX - EXI2 an und erhalten
0
Die Chehychev-Ungleichunggiht uns eine einfache Abschatzung der Wahrscheinlichkeiten fur Abweichungen einer Zufallsvariablen von ihrem Erwartungswert. Sie wird manchmal auch in der Form
geschrieben. Wir werden im Zusammenhang mit dem Zentralen Grenzwertsatz in Kapitel 10 zeigen, dass fiir eine Bin(n,p)-verteilte Zufallsvariable X und fur grofle Werte von n gilt P(IX - EX1 2 2ux) GZ 0.05. Die ChehychevUngleichung hingegen liefert nur die Obergrenze 0.25. Wir wollen nun an zwei Beispielen die Chebychev-Ungleichungfiir theoretische Berechnungen anwenden. Wir wissen, dass filr eine Bin(n,p)-verteilte Zufallsvariable Sn gilt E(Sn) = np und Var(Sn) = np(1- p). Daraus folgt
und mit der Chebychev-Ungleichung erhalten wir den folgenden Satz.
Satz 5.17 (Schwaches Gesetz der groflen Zahlen fur Bernoulli-Experimente) Es sei Sn die Zahl der Erfolge bei n unabhangigen Bernoulli-Experimenten. Dann gilt fiir jedes E > 0
und die rechte Seite konvergiert fiir n
+ oo gegen 0.
Die relative Hanfigkeit der Anzahl der Erfolge konvergiert also gegen die Erfolgswahrscheinlichkeit in dem Sinne, dass Abweichungen der relativen Haufigkeit von der Wahrscheinlichkeit p immer unwahrscheinlicher werden, wenn n gegen m strebt.
%
5.3 Die Ungleichungen von Chebychev und Markov
97
Bemerkung 5.18 Wir hetrachten jetzt ein heliehiges Wahrscheinlichkeitsexperiment, das wir mit dem Wahrscheinlichkeitsraum (L?, P ) modelliert hahen. Sei A C L? ein Ereignis, so erhalten wir ein Bernoulli-Experiment, indem wir die beiden Ergehnisse ,A tritt einC(Erfolg)bzw. ,Ac tritt einc (Misserfolg) festlegen. Die Erfolgswahrscheinlichkeit ist dann p = P(A). Ftir die n-fache, unahhiingige Wiederholung des Experimentes entspricht die Anzahl der Erfolge gerade der Anzahl der Experimente, hei denen A auftritt. Das Gesetz der groDen Zahlen hesagt in diesem Zusammenhang, dass die relative Haufigkeit des Auftretens von A gegen P(A) konvergiert, womit wir eine Verbindung zwischen dem axiomatischen Aufbau der Wahrscheinlichkeitstheorie und der frequent,istischen Interpretation von Wahrscheinlichkeit hahen.
+,
Zum Abschluss wollen wir ein Beispiel gehen, dass die Chebychev-Ungleichung auch in der Analysis angewendet werden kann. Zu jeder stetigen Funktion f : [O,11 + R ist das Bernstein-Polynom wie folgt definiert
Satz 5.19 Fur jede stetige Rmktion f : [O, 11 + R gilt f6r n
+ cc
d.h. die Folge der Bernstein-Polynome konvergiert gleichmajlig gegen f . Beweis. Wir wissen, dass fur eine Bin(n, x)-verteilte Znfallsvariahle gilt
%
gegen x Dies ist zusammen mit Satz 5.17 die entscheidende Beweisidee, da konvergiert. Wegen der Stetigkeit von f konvergiert auch f (%) gegen f (x). Es hleiht zu zeigen, dass daraus folgt Ef (%) + E ( f (x)) = f (x). Dass von der Konvergenz einer Folge von Zufallsvariahlen anf die Konvergenz ihrer Erwartnngswerte geschlossen werden kann, gilt unter gewissen Bedingungen sehr allgemein. Da uns entsprechende Satze an dieser Stelle noch nicht znr Verfiigung stehen, geben wir nun einen direkten Beweis. Es sei t > 0 gegehen. Wegen der Kompaktheit von [O,11 ist f gleichmiifiig stetig, und so giht es ein S > 0 , sodass fiir alle x, y E [O, 11 mit 12: - y1 5 6 gilt 1 f (x) - f (y)I 5 t. Also folgt mit der Dreiecksungleichung fur den Erwartungswert (5.3)
98
5. Erwartungswert und Varianz
Mit Hilfe der Chebychev-Ungleichung erhalten wir
und fiir genugend groBes n wird die rechte Seite
< 2t.
ubung 5.9 Es sei X eine Zufallsvariable rnit Werten in
N.Zeige, dass
(i) P ( X = 0) 5
(4
var(x) 0 2 - P ( X # 0) 5 E(X).
max(X1,. . . ,Xi-I), fur i = 2,. . . ,n. XI ist stets ein Rekord. Wir definieren die Znfallsvariable R als Gesamtzahl der Rekorde. (i) Bestimme den Wertehereich von R. Wie groB ist die Wahrscheinlichkeit, dass R ihren minimalen hzw. maximalen Wert annimmt? (ii) Berechne den Erwartungswert von R. (Hinweis: Definiere fur i = 1,.. . ,n die Zufallsvariablen
100
5 . Erwartungswert und Varianz
Ri =
1 wenn Xi ein Rekord ist 0 sonst
und berechne E(Ri) = P(Ri = I).) (iii) Zeige, dass fiir 6, E {O, I), i = 1 , . . . ,n , gilt
~ b e r s e t z u nd~e r Ausziige a u s Christiaan Huygens Traktat ,De Ratiociniis in Ludo Aleae'. (,Abhandlungen fiber die bei Gliieksspielen mogliehen Berehungen', Ubersetzung von Robert Hausner, erschienen 1899 im Band 107/108 in Ostwalds Klassiker der exakten Wissenschaft)
~ b e r s e t z u ndes ~ Tates auf Seite 8% Satz. Wenn ich die Summe a oder die Summe b erwarte, von denen ich die eine ebenso leicht wie die andere erhalten kann, so ist der Werth meiner Hofhung gleicb Um diesen Satz nicht nur zu beweisen, sondern ihn sogar von Grund aus aufzubauen, setze ich meine Hofhung gleich x . Dann muss ich, wenn ich x habe, die gleiche Hoffnung wieder erlangen konnen, sobald ich unter der gleichen Bedingung spiele. Gesetzt nun, ich spiele mit einem Andern unter der Bedingung, dass jeder von uns Beiden die Summe x einsetzt und der Gewinner des ganzen Einsatzes dem Verlierer die Summe a geben muss. Dieses Spiel ist vollig gerecht, und es ist klar, dass ich unter diesen Bedingungen die gleiche Erwartung habe, die Summe a zu erhalten, wenn ich namlich das Spiel verliere, als wie die Summe (22 - a), wenn ich gewinne (denn dann erhalte ich den ganzen Einsatz 2x, von welchem ich die Summe a meinem Mitspieler geben muss). Wenn nun aber 2x - a ebensoviel werth w&re als b, so hatte ich auf a dieselbe Hofhung wie auf b. Ich setze also 23. - a = b und erhalte dann x= als Werth meiner Hofhung. Der Beweis ist leicht. Wenn ich narnlich die Summe habe, so kann ich mit einem Andern, welcher ebenfalls einsetzen will, unter der Bedingung spielen, dass der Gewinner dem Verlierer die Summe a giebt. Auf diese Weise ist meine Hoffnung, a zu erhalten (wenn ich verliere), gleich der, b zu bekommen (wenn ich gewinne); im letzteren Fall erhalte ich namlich den ganze Einsatz a b, und von diesem habe ich dem Andern die Summe a zu geben.
9.
9
9
+
6. Mehrdimensionale Verteilungen
Wenn wir mehrere Zufallsvariablen gleichzeitig betracbten, wird Wahrscheinlichkeitstheorie noch spannender. Wir konnen dann die Verteilung von verschiedenen Funktionen der Zufallsvariablen, z. B. die Summe oder das Maximum, untersuchen. Wir werden in diesem Kapitel Zusammenhange zwischen Zufallsvariablen beschreihen und quantifizieren und als kleinen Hijhepunkt eine erste allgemeine Version des Gesetzes der grofien Zahlen kennenlernen. Die meisten der Resultate in diesem Kapitel gelten fur beliebige Zufallsvariablen, auch wenn wir die Beweise hier nur fur Zufallsvariablen mit einer diskreten Verteilung geben konnen. Bei Resultaten, die wirklich nur im diskreten Fall gelten, weisen wir entsprechend darauf hin.
6.1 Gemeinsame und marginale Verteilungen Zur Berechnung der Wahrscheinlicbkeit eines Ereignisses, das von mehreren Zufallsvariablen XI,. . . ,X, a b h h g t , reicht es nicht aus, die Verteilungen der einzelnen Zufallsvariablen zu kennen. Wenn wir etwa zwei auf {I,.. . ,6) Laplace-verteilte Zufallsvariablen haben, so klinnen wir ohne weitere Informationen 2.B. P(X1 Xz = 12) nicht berechnen. Wahlen wir als Laplace-Experiment das zweimalige, unabhangige Werfen eines unverfalschten Wiirfels und hezeichnen mit X1und Xzdie Augenzahl heim ersten bzw. zweiten Wurf, so ist P(X1 Xz= 12) = $. Definieren wir andererseits zwei Yz, wobei YI die Augenzahl beim ersten Laplace-verteilte Zufallsvariablen YI, z = Y I ,so ist P(Y1 Y z = 12) = 1 Wurf hezeichnet und Y 6.. Wir wollen nun Verteilungen von mehreren Zufallsvariablen beschreihen, d.h. wir hetrachten Zufallsvariablen XI, . .. ,X, auf einem Wahrscheinlichkeitsraum (LJ,.F P). , Wir kijnnen diese Zufallsvariablen auch auffassen als einen Zufallsvektor, also als messbare Funktion X : LJ + Rn. Messbarkeit bedeutet hier, dass fur jedes n-dimensionale Rechteck R = (al,bl] x . . .x (a,, b,] gilt, dass {w : X ( w ) E R } ein Ereignis ist, d.h. in .F liegt. Es lasst sich zei. . ,X,)t aquivalent ist gen, Bass die Messbarkeit eines Zufallsvektors (XI,. Diese Funktion X : IZ + R bezu der Messbarkeit aller Koordinaten Xi. ... ,x, auf Rn, wirkt dann eine Wahrscheinlichkeitsverteilung Px bzw. Px,, indem wir jeder Teilmenge A C Rn die Wabrscheinlichkeit zuordnen, dass X einen Wert in A annimmt, d.h. Px(A)= Px,,..., x, (A):= P(X-'(A)).
+
+
+
102
6. Mehrdimensionale Verteilungen
Damit P ( X P 1(A)) definiert ist, muss XP1 (A) E F gelten. Entsprechend den uberlegungen, die wir der Definition 4.2 vorangestellt haben, gilt dies, sofern X I , . . . ,X, messbar sind und A eine (Borel-) messbare Teilmenge des Rn ist. Auch an dieser Stelle verzichten wir auf eine exakte Definition der Messbarkeit. Fur unsere Zwecke reicht es zu wissen, dass alle Rechtecke sowie alle offenen und alle abgeschlossenen Mengen messbar sind. Weiter sind Komplemente sowie abzahlbare Vereinigungen und Durchschnitte messbarer Mengen wieder messbar, d.h. die Klasse der messbaren Teilmengen von R bildet eine a-Algebra im ~ i n n eder Definition 1.5.
Abb. 6.1. ~ b e r t r a g u n gder Wahrscheinlichkeitsverteilung von 52 nach EX2
Definition 6.1 Seien X I , . . . , X, Zufallsvariablen auf dem Wahrscheinlichkeitsraum ( 0 , F , P ) . Dann heij't die Wahrscheinlichkeitsverteilung Px bzw. Px, ,... J, auf Rn , die durch
Px (A) = Pxl ,... ,x, (A) := P((X1, . . . ,X,)
c Rn messbar , (6.1) dejiniert wird, die gemeinsame Verteilung von X I , . . . , X,. E
A), A
Die Wahrscheinlichkeitsverteilung auf 0 wird damit gewissermafien nach Rn ubertragen. Wir werden zunachst die gemeinsame Verteilung diskreter Zufallsvariablen betrachten, d.h. die Wertebereiche X l ( R ) , . . . ,X,(R) sind hochstens abzahlbar unendlich. Dann ist auch der Wertebereich des Zufallsvektors X , (XI, . . . ,X,) ( 0 ), hochstens abzahlbar unendlich. Definition 6.2 Seien X I , . . . , X, diskrete Zufallsvariablen. Dann heij't die Funktion p : X ( 0 ) + R, dejiniert durch
die gemeinsame Wahrscheinlichkeitsfunlction von X I , . . . , X, bzw. die Wahrscheinlichkeitsfunktion des Zufallsvektors (XI, . . . ,X,)t. Gelegentlich wird p ausgedehnt zu einer Funktion auf ganz Rn, indem gesetzt wird p(x) = 0 fur x E Rn \ X ( 0 ) .
6.1 Gemeinsame und marginale Verteilungen
103
Die zwei grundlegenden Eigenschaften, die wir fiir Wahrscheinlichkeitsfunktionen auf R1 in Satz 4.6 gezeigt haben, gelten auch fiir gemeinsame Wahrscheinlichkeitsfunktionen, d.h.
Wie im eindimensionalen Fall ist die Verteilung eines diskreten Zufallsvektors vollstandig durch die gemeinsame Wahrscheinlichkeitsfunktion beschriehen, fiir A c Rn denn es
1st der Wertehereich endlich und haben wir nur zwei Zufallsvariablen, so lasst sich die gemeinsame Verteilung vollstandig in einer Zdimensionalen Wertetabelle darstellen, siehe Tabelle 6.1. Zusatzlich haben wir an den Randern die Zeilen- und Spaltensummen pl (xi) := CElp(xi, yj) hzw. m pz(yj) := Ci=lp(xi, yj) angegeben. Zum Versthndnis dieser Terme betrachten wir als Beispiel die i-te Zeilensumme am rechten Rand. Die Ereignisse { X = xi,Y = yj}, j = 1,. . . ,n, sind eine disjunkte Zerlegung des Ereignisses { X = xi}, und ebenso sind die Ereignisse { X = xi,Y = yj}, i = 1 , . . . , m , eine disjunkte Zerlegung des Ereignisses {Y = yj}. So gilt
Also finden wir am rechten Rand in Tabelle 6.1 die Wahrscheinlichkeitsfunktion von X und am unteren Rand die Wahrscheinlichkeitsfunktion von Y.
Tabelle 6.1. Wertetabelle der Wahrscheinlichkeitsfunktion zweier Zufallsvariablen mit je endlich vielen Werten sowie der marginalen Wahrscheinlirhkeitsfunktionen
104
6. Mehrdimensionale Verteilungen
Wir nennen die Verteilungen von X und Y auch marginale Verteilungen der gemeinsamen Verteilung von X, Y. Entsprechend heiBen pl und pz auch marginale Wahrscheinlichkeitsfunktionen, beides abgeleitet vom englischen Wort fur Rand, margin.
Tabelle 6.2. Gemeinsame und marginale Wahrscheinlichkeitsfunktion der Augenzahl beim ersten Wurf sowie der Gesamtaugenzahl bei zwei Wiirfen mit einem unverfdschten Wiirfel, siehe Beispiel 6.3
Beispiel 6.3 Wir werfen 2-ma1 mit einem unverfalschten Wiirfel und bezeichnen mit X1 und X2 die Augenzahl beim ersten bzw. zweiten Wurf. In Tahelle 6.2 haben wir die gemeinsame Verteilung von X := X1 und Y := XI X2 dargestellt, indem wir alle Werte der gemeinsamen Wahrscheinlichkeitsfunktion angegeben haben. Die Vert,eilung am unteren Rand, die zweite der heiden eindimensionalen marginalen Verteilungen, ist die Verteilung von X1 + X2, wie wir sie bereits in Beispiel 4.5 (i) berechnet hahen.
+
Definition 6.4 Seien XI,. . . ,X, Zufallswariablen auf dem Wahrscheinlichkeitsraum ( Q , F , P ) und 1 5 i l < .. . < i k 5 n . Dann heiflt die gemeinsame Verteilung won Xi,, . . . ,Xi, eine k-dimensionale marginale Verteilung der gemeinsamen Verteilung won XI,. . . ,X,. Sind XI,. . . , X, diskrete Zufallswariablen, so heiflt die gemeinsame Wahrscheinlichkeitsfunktion won X i . . . ,X i marginale Wahrscheinlichkeitsfvnktion und wird mat pi ,,.. ,i, bezeichnet. Mit dem Attribut marginal wird nicht eine besondere Eigenschaft der marginalen Verteilung beschrieben, sondern ihre Beziehung zur gemeinsamen Verteilung von XI,. . . , X, znm Ausdruck gebracht. Die eindimensionalen marginalen Verteilungen ktjnnen wir durchnummerieren. Die i-t,e eindimensionale marginale Verteilung wird auch kurz die i-te marginale Verteilung oder i-te Marginale genannt.
105
6.1 Gemeinsame und marginale Verteilungen
Die zugehorigen marginalen Wahrscheinlichkeitsfunktionen erhalten wir aus der gemeinsamen Wahrscheinlichkeitsfunktion durch Summation iiber die komplementaren Indizes. Dies ist die Aussage des folgenden Satzes. Der Beweis ist analog zur Herleitung der Identitaten (6.4)und (6.5),welche den Fall n = 2 und k = 1 darstellen.
Satz 6.5 Es seien XI,. . . ,Xn diskrete Zufallsvariablen mit gemeinsamer Wahrscheinlichkeitsfunktion p(x1,.. . ,x,). Dann ist die Wahrscheinlichkeitsfunktion von Xi,, . .. ,Xi,gegeben durch
wobei die Indizes { j ~. .,. ,jn-k} das Komplement der Indizes { i l , . . . ,ik} in {I,.. . ,n } sind. Beispiel 6.6 Wir betrachten ein Experiment rnit k moglichen Ergebnissen, etwa 1,.. . , k , und den zugehorigen Wahrscheinlichkeit,enPI,.. . ,pk,wobei pi 2 0 und pl . . . pk = 1. Dieses Experiment wird n-fach unabhangig wiederholt. Wir bezeichnen rnit Ni die Anzahl der Experimente rnit dem Ergebnis i, i = 1, . . . , k , und fragen nach der gemeinsamen Verteilung von Nl, . . . ,Nk.Die Wahrscheinlichkeit fiir genau eine Reihenfolge der Ergebnisse
+ +
Ergebnis Strichliste (nach n Wiederholungen) Nk Nl = 3 N, = 7 N3 = 2
Abb. 6.2. Multinomiale Verteilung hei n unabhshgigen Wiederholungen eines Experimentes rnit le moglichen Ergebnissen
( i l , . . . ,in)ist gleich dem Produkt der zugehorigen Wahrscheinlichkeiten
pi, . . . . . pi- = p;' . .. . .p?
,
wobei ni die Anzahlen der Experimente rnit Ergebnis i darstellt, i = 1,. . . ,k . "! mogliBei einem gegebenen Vektor (nl, . . . ,n k ) gibt es (n,,,,n ,n,) = che Reihenfolgen der Ergebnisse, sodass nl-ma1 Ergebnis 1, nz-mal Ergebnis
106
6. Mehrdimensionale Verteilungen
2, usw., und nk-ma1 Ergebnis ic eintritt. So erhalten wir fiir (nl,. . . , n k )rnit 0 5 n i I n u n d n l + ...+n k = n PN, , . ,NI.(nl, . . . ,nk) = P(N1 = n l , . . . , Nk = nk)
Aufgrund der Definition 2.15 des Multinomialkoeffizienten gilt (6.6) sogar fiir alle n ~. .,. ,nk E Z. Die durch die Identitat (6.6) beschriebene gemeinsame Verteilung von Nl, . . . ,Nk heifit multinomiale Verteilung rnit Paramet,ern n und PI,. . . ,pk. Die Eigenschaft einer Verteilung, dass C ,,,,,. ,,, p(n1, . .. ,nk) = 1,ist eine einfache Anwendung der folgenden Identitat
auch Multinomialformel genannt. Wir konnen nun die eindimensionalen marginalen Verteilungen der multinomialen Verteilung rnit Satz 6.5 bestimmen, z.B. die erste Marginale
n,l
nz,... ,nr.
n - n~ nz, ... ,nk
Die erste Marginale von N ist also eine binomiale Verteilung rnit Parametern n nnd pl, d.h. dass Nl eine Bin(n,pl)-Verteilung hat. Diese Aussage konnen wir auch ganz ohne Berechnungen einsehen. In einer Interpretation, bei der bei jedem Experiment das erste Ergebnis als Erfolg und alle weiteren Ergebnisse als Misserfolge aufgefasst werden, ist Nl die Anzahl der Erfolge in n Bernoulli-Experimenten rnit Erfolgswahrscheinlichkeitpl. Wir wissen bereits aus Beispiel 3.8(ii), dass Nl dann Bin(n,pl) verteilt ist. Oft stehen wir vor der Anfgabe, bei gegebener Wahrscheinlichkeitsfunktion p x ,,... J, von X I , . . . ,Xn die gemeinsame Verteilung einer Anzahl von Fnnktionen Yl = u l ( X l , . . . ,X,), . . . ,Y, = u,(Xl,. . . , X,) zu bestimmen. Aus der Tatsache, dass YI = y1,. . . ,Y, = y, genau dann gilt, wenn X I , . . . ,X, W e r t e x ~.,. . ,x, rnit ul(x1,. . . ,x,) = y1,. . . ,u,(x1,. . . , x n ) = y, annimmt, folgt P(Y1 = y1, ... ,Y, = y,)
=
C
(m,... ,z,)EB(YI
mit B ( Y I , .. . ,y,)
PXI,... , X " ( X ~.>. .> 4
,... ,Y,)
= {(XI,.. . ,xn) : ui(x1,. . . ,x,) = yi, fur i = 1,.. . ,m}.
6.1 Gemeinsame und marginale Verteilungen
107
Tabelle 6.3. Gemeinsame Wahrscheinlichkeitsfunktion der Augenzahlen bei 2 unabhangigen Wiirfelexperimenten (links) und Wahrscheinlichkeitsfunktion der ma-
ximalen Augenzahl (rechts), siehe Beispiel 6.7(i)
Beispiel 6.7 (i) Es seien Xl und Xz die Augenzahlen beim 2-maligen Werfen eines unverfalschten Wiirfels. Links in Tabelle 6.3 ist die gemeinsame Wahrscheinlichkeitsfunktion p(i, j) = P(Xl = i , X 2 = j) dargestellt. Wir betrachten nun die Zufallsvariable Yl := max(X1, Xz) und suchen ihre Verteilung. Wir konnten friiher bereits berechnen, wie groD zum Beispiel die Wahrscheinlichkeit ist, dass die hochste geworfene Augenzahl 4 ist, indem wir die zu diesem Ereignis gehorige Teilmenge von (2 bestimmt haben. Jetzt konnen wir P(K = k) berechnen, indem wir alle Wabrscheinlichkeiten p(i, j) mit max(i, j) = k aufaddieren. In der linken Tabelle ergeben diese Paare ein umgekehrt L-formiges Gebiet. Die Summen sind in der rechten Tabelle dargestellt, und sie lassen sich mit der Formel P ( K = k) = k = 1,... ,6, schreiben. (ii) Weiter definieren wir die Zufallsvariahle Yz := X1 + Xz, d.h. die Augensumme bei 2-maligem Werfen eines unverfdschten Wiirfels. Die gemeinsame Wahrscheinlichkeitsfunktion p(k, 1 ) = P(Yl = k, Yz = 1) erhalten wir, indem
%,
Tabelle 6.4. Gemeinsame Wahrscheinlichkeitsfunktion "on Augensumme und
maximaler Augenzahl bei zwei unahhangigen Wiirfelexperimenten, siehe Beispiel 6.7(ii)
108
6. Mehrdimensionale Verteilungen
+
wir alle Paare ( i ,j ) mit max(i, j ) = k und i j = 1 aufaddieren. In der Wertetabelle sind dies die Paare, die in dem Durchschnitt des umgekehrt Lfijrmigen Gehiets und der Diagonalen i + j = 1 liegen. In Tabelle 6.4 haben wir die gemeinsame Wahrscheinlichkeitsfunktion von Yl und Yz darstellt. An den R a d e r n stehen die eindimensionalen marginalen Verteilungen von Yl und Yz. Es seien X1, . . . ,X, diskrete Zufallsvariahlen und es sei u : Rn + R eine Funktion. Dann ist Y = u(X1,. . . , X n ) eine neue diskrete Zufallsvariable. Wir konnen E(Y) herechnen, indem wir die Verteilung von Y bestimmen und dann die Definition des Erwartungswertes anwenden. Ehenso wie bei Funktionen einer einzelnen Zufallsvariahlen giht es auch fiir dieses Problem eine Transformat,ionsformel,die uns den umstbdlichen Weg erspart.
Satz 6.8 (Transformationsformel fiir den Erwartungswert) Es seien X1, . . . , X, diskrete Zufallsvariablen mit gemein,sarner Wahrscheinlichkeitsfunktion p und u : Rn + R eeine Funktion. Dann gilt
unter der Voraussetzung, dass die Reihe auf der rechten Seite absolut konuergiert. Beweis. Die Wahrscheinlichkeitsfunktion von Y = u(X1,. . . ,X,) ist gegehen durch
Dies setzen wir in die Definition von E(Y) ein und erhalten
Bei Verwendung von Vektornotation (xl, . . . ,x,) = x ist dieser Beweis genau derselhe wie fiir Funktionen einer Variablen, siehe Satz 5.3. 0 Die IdentitBt (6.7) heruht auf der Tatsache, dass es zwei verschiedene Moglichkeiten gibt, die Terme ,u(xl,. . . ,x,)p(xl, . . . ,x,), xi E Xi(Q), zu
6.1 Gemeinsame und marginale Verteilungen
109
uo
Abb. 6.3. Zwei Moglirhkeiten,
Czl,s2 u(zl,zZ)p(zl,z2)zu berechnen
summieren. Wir konnen die Summe einerseits direkt bilden iiber alle moglichen (XI,.. . ,x,). Die zweite Moglicbkeit besteht darin, die (XI,.. . ,x,) zuniicbst gemiifl der u(xl,. . . ,x,)-Werte zu ordnen, dann die zugehorigen p(x1,. . . ,xn)-Werte zu addieren, mit dem u-Wert zu multiplizieren und erst abschliefiend alles zu summieren, wie in Abb. 6.3 dargestellt. An dieser Stelle steht uns mit der Begriffshildung der gemeinsamen Verteilung das Hilfsmittel zur Verfugung, mit dem wir endlich den Beweis der Addit,ivitiit des Erwartungswertes fuhren konnen, siehe Satz 5.6 (ii). Wir betrachten also zwei diskrete Zufallsvariablen X und Y mit gemeinsamer Wabrscheinlichkeitsfunktion px,y(x, y) sowie die Ahbildung u(x, y) := x. G e m 3 der Transformationsformel Satz 6.8 gilt
Weiter wenden wir die Transformat,ionsformel auf u(x, y) = x erbalten
+ y an und
Dabei haben wir Identitat (6.8) sowie das Analogon fur E(Y) henutzt. Beispiel 6.9 Es seien N l , . . . ,Nk Zufallsvariablen, deren gemeinsame Verteilung eine multinomiale Verteilung mit Parametern n und PI,. . . ,pk ist. Wir konnen E(NiNj) wie folgt berechnen
Fur i # j gilt aufgrund der Definition des Multinomialkoeffizienten (2.6)
Mit Hilfe diesmr Idmntittit erhalten wir d a n n
Fiir den letzten Schritt haben wir die Multinomialformel und die Identitat P C,=, pi = 1 verwendet.
hungen ubung 6.1 Wir nrerfen 2-ma1 &en unverfjlschten Wiirfcl und bezeichnen rnit X hzw. Y die kleinste hzw. gr6Bte Augenzahl. Bestimme die gcmeinsame Verteilung von S , Y und stelle dirse in einer \Vc'crtetabellr dar. Bestimme die marginalen VWteilnngen. ubung 6.2 Eine Urne enthalt n weih, b schwarze und c rote Kugeln. Wir siehen z u f i l l i ~und ohne Zuriicklegen n Kngeln nnd heseichnen rnit X, I' und Z die Anzahlrn der wciBen, schwaraen nnd rotrn Kugeln in der Stichprohe. Bpstimme die gemrinsame Vertcilung vou S , Y, Z, die 1. marginale Verteilung, d.h. dir Vertcihmg von .Y,sowie E(.XY). ubung 6.3 W u hetrachten cine Folge unabhangiger Bernoulli-Experimente. Das Experiment wird so lange wiederholt, his zum zwciten Mal ein Erfolg eingetreten ist. Wiiir hezeichnen mit X die Anzahl dcr Misserfolge vor dcm crstcn Erfolg und mit Y die Anzahl der Misserfolge zwisd~endem ersten und dem zweiten Erfolg. Bestimmc die gemeinsame Wahrscheinlichkeitsfunktion von X',Ir. Obung 6.4 Jemand wiederholt ein Bernoulli-Experiment rnit Wahrscheinlichkeit X die Anzahl der Mkserfolge vor dem ersten Erfolg. Einn zweite P r w m fiihrt unahhangig davon dasselhe Experiment durch uud hezcichnet dic Anaahl der Misserfolge vor dem erstrn Erfolg mir Y. (i) Brstimmr dic gemeinsame Wa6rschcinlichkeitsfunktionvon A', 1.. (ii) Bestimme die Verteilung von U := min(S,Y). (iii) Sci V := max(X, Y). Bcstimme die gemcinsame Verteilung von U,V.
p solangr, his zum ersten hlal ein Erfnlg eintritt, und hezeichnet rnit
ubung 6.5 Es seicn XI und X2 die Augenzahlen beim 2-maligen We~feneines unverfilschten Wiirfcls. Bestimmc die gcn~einsameVerteilung von YI := mar(X1, X*) und Y2 := 1x1- A'2I sowie dic beiden Marginalen. ubung 6.6 Eine Urne enthalt a weiDe, b schwarze und e rote Kageln. Wir ziehen n-ma1 mit Zuriicklegm und heaeichnen rnit .Y,Y und Z die Anzahl der weism, schwaraen haw. rotm Kugeln in der Stichprohe. Bestimme die gemeinsame Verteilung von S,Y ,Z, die Vert,cilnng von X und die Verteihmg von Y + Z. Berechne E(XY).
6.2 Unabhangige Zufallsvariablen
111
ubung 6.7 Wir werfen 10-ma1 einen unverfalschten Wiirfel. Berechne die Wahrscheinlichkeit des Ereignisses, dass 5-md eine ungerade Zahl, 3-md eine 6 und je einmal eine 2 und eine 4 geworfen wid.
6.2 Unabhangige Zufallsvariablen Wir schlieoen jetzt wieder bei den Uberlegungen von Kapitel 3 an und betrachten Unabhejlgigkeitseigenschaften fiir Zufallsvariahlen.
Definition 6.10 Die Zufallsuarlablen X I , . . . ,X , heijlen (stochastisch) unabhangig, wenn fur alle Interualle I l , . . . , I , C B gilt
In vielen Fallen lassen wir das Adjektiv ,stochastisch' weg, sofern eine Verwechslung mit linearer Unabhhgigkeit der Fnnktionen Xi : 0 + R ausgeschlossen ist. Lemma 6.11 Die Zufallsvariablen X I , . . . ,X , sind genau dann unabhangig, wenn die Ereignisse { X I E I l } , . .. , { X , E I,) unabhangig sind fir alle Intervalle I l , . . . , I , C R.
Beweis. Aus der Unabhejlgigkeit der Ereignisse { X I E I l } , . . . , { X , E I,) folgt per definitionem die Identitat (6.9). Umgekehrt mussen wir zeigen, dass aus der Unabhangigkeit von X I , . . . ,X , folgt, dass fiir alle Indizes 1 5 il < . . . < ik 5 n gilt
Entsprechend den Voriiberlegungen zu Definition 3.3 ist es nicht trivial, dass (6.10) aus (6.9) folgt. Fiir eine feste Familie von Intervallen w&e dies auch falsch. Wir benijtigen die Forderung, dass die Identitat (6.9) fur alle Intervalle 11,. . . , I , c B gilt. Wir setzen I, = R fiir die komplementgren Indizes i E { I , . .. ,n } \ { i l , . . . ,ik) und erhalten
P(Xi1 € Ii ,,... ,Xik € I & )= P(X1 € I1 ,...
wobei wir P ( X i E R) = 1 verwendet haben.
,xn€ I,)
0
S t o ~ h ~ t i s c Unabhangigkeit he ist eine Eigenschaft der gemeinsamen Verteilung. Insbesondere kijnnen wir fiir diskrete Zufallsvariablen die stochastische Unabhangigkeit feststellen mit Hilfe der gemeinsamen Wahrscheinlichkeitsfunktion. Der folgende Satz prazisiert diese Aussage
112
6. Mehrdimensionale Verteilungen
S a t z 6.12 Die gemeinsame Wahrseheinliehkeitsfunktion unabhdngiger, diskreter Zufallsuariablen X , Y ist gleich dem Produkt der marginalen Wahrseheinliehkeitsfunktionen, d.h.
Hat umgekehrt die gem,einswne Wahrseheinlichkeitsfunktion eine Produktgestalt, d.h.
so sind X und Y unabhangige Zufallsvariablen mit den eindimensionalen marginalen Wahrseheinliehkeitsfunktionen p x ( x ) = cuip(x) und p y ( y ) = P $ ( y ) , wobei cu := (1, ip(x))-I und p := ( Z , $ ( y ) ) - l . Beweis. Sind X , Y unabhangige Zufallsvariablen, so folgt gemal3 Definition 6.10, dass fur beliebige x , y die Ereignisse { X = x} und {Y = y} unabhangig sind. Es gilt also
Gilt umgekehrt (6.12), so folgt wegen Satz 6.5
und somit ap = 1. Also hat X die marginale Wahrscheinlichkeitsfunktion
und Entsprechendes gilt fiir p y ( y ) . Damit folgt fur beliebige Teilmengen A, B c R, dass
= P ( X E A)P(Y E B),
und somit haben wir gezeigt, dass X und Y unabhwgige Zufallsvariablen 0 sind.
6.2 Unabbangige Zufallsvariablen
113
Bemerkung 6.13 (i) Die Aussage von Satz 6.12 gilt allgemein fur die gemeinsame Wahrscheinlichkeitsfunktion von n diskreten Znfallsvariablen. Der Beweis verlauft analog zum obigen Beweis. (ii) Oft wird Satz 6.12 so formuliert, dass diskrete Zufallsvariablen XI,. . . ,X, genau dann unabhejlgig sind, wenn ihre gemeinsame Wahrscheinlichkeitsfunktion das Produkt der eindimensionalen marginalen Wahrscheinlichkeitsfunktionen ist. Die von uns gewahlte Formulierung ist starker, da eine Produktgestalt mit beliebigen Faktoren ausreicht zum Nachweis der stochastischen Unabhangigkeit von X I , . . . ,X,. (iii) Wenn wir nun zu n unabhangigen Experimenten diskrete Zufallsvariablen X I , . . . ,X, so definieren, dass der Wert von Xi nur vom Ergebnis des i-ten Experimentes abhejlgt, so sind die Zufallsvariahlen X I , . . . ,X, unabhejlgig. Anf diese Weise finden wir eine groBe Anzahl von Beispielen fur unabhangige Zufallsvariablen. Wir werden darum oft darauf verzichten, ein Model1 fur den gemeinsamen Ergebnisranm mehrerer unabhangiger Experimente zn machen und stattdessen die Unabhiingigkeit der Zufallsvariablen znr Modellannahme erklaren. (iv) Fur unabhangige, diskrete Zufallsvariahlen X I , . . . ,X, und Funktionen f, : B + R sind auch die Znfallsvariablen fl(X1), .. . ,f,(Xn) unabhejlgig, denn es gilt P(fl(X1) €11, ... ,fn(Xn) € I n ) = W X 1 €fc1(I1), ... , x n = P(X1 E fc1(I1)) . . . . .P(X, E f,-l(ln)) = P(fl(X1) E 11). . . . .P(fn(Xn) E In). Dahei haben wir benutzt, dass die Identitiit (6.9) nicht nur fiir alle Intervalle, sondern fiir beliehige Mengen B1,. . . ,B, C B gilt. Fur n = 2 ist dies im Beweis von Satz 6.12 ausgefuhrt, und analog kann der Beweis fiir beliebiges n gefiihrt werden. Noch allgemeiner l b s t sich heweisen, dass auch Funktionen disjunkter Gruppen unabhejlgiger Zufallsvariablen, f (XI,. . . ,Xk) und .. . ,Xn), wieder unabhtingig sind. Wir verzichten an dieser Stelle g(Xk+~, anf einen Beweis und verweisen auf die Mafltheorie.
In vielen Anwendungen und in theoretischen Fragestellungen sucht man nach der Verteilung der Snmme einer Anzahl nnabhangiger Zufallsvariablen, etwa als Voraussetzung zur Bestimmung der Verteilung des Mittelwertes. Der folgende Satz gibt fiir zwei unabhangige diskrete Zufallsvariablen eine wichtige Formel fiir die Wahrscheinlichkeitsfunktion ihrer Summe.
Satz 6.14 (Faltungsformel fur Wahrscheinlichkeitsfunktionen) Es seien X und Y unabhiingige, diskrete Zufallsvariablen mit Wahrscheinlichkeitsfunktionen p bzw. q. Dann hat ihre Summe Z = X + Y die Wahrscheinlichkeitsfunktion ~ ( z= )
CP(X)Q(Z - 4 = C P b - Y)Q(Y). 5
9
(6.13)
114
6. Mehrdimensionale Verteilungen
Beweis. Das Ereignis { X + Y = t }lasst sich schreiben als disjunkte Vereinigung der Ereignisse { X = x , Y = y}, wobei x y = z und daher y = t - x. Damit und unter Verwendung der Definition von Unabhangigkeit erhalten wir
+
Analog erhalt man die zweite Identitat in (6.13). Wir ftlhren nun noch einen zweiten Beweis durch, weil darin eine Methode verwendet wird, die spater hei stetigen Zufallsvariablen eine wichtige Rolle spielen wird, siehe Beispiel 9.7. Wir bestimmen zunachst die gemeinsame Wahrscheinlichkeitsfunktion p x , z von X , Z . Da ( x ,y) H ( x , x y) eine hijektive Abbildung ist, gilt
+
Die gesuchte Wahrscheinlichkeitsfunktion von Z = X + Y ist nun die zweite marginale Wahrscheinlichkeitsfunktion, und diese berechnet sich gemai3 Satz 6.5 als
So haben wir, um die Verteilung einer Funktion u ( X , Y ) zu hestimmen, zunachst eine weitere Funktion w ( X ,Y ) definiert, dann die gemeinsame Verteilung von u ( X ,y ) ,u ( X ,Y ) bestimmt und schlieBlich die marginale Vertei0 lung von u ( X ,Y )berechnet. Mit der Identitat (6.13) wird eine Operation definiert, die zwei Wahrscheinlichkeitsfunktionen p x und py eine dritte Wahrscheinlichkeitsfunktion r zuordnet. Diese Operation heiBt Faltung und das Ergebnis heifit Faltungsprodukt der beiden Wahrscheinlichkeitsfunktionen. Als Symbol verwenden wir p x * p y . Sind X und Y Zufallsvariahlen mit Werten in &, so konnen wir die zugehorigen Wahrscheinlichkeitsfunktionen mit den Folgen (pi)i2o und (qi)i>o identifizieren, wobei pi := p x ( i )und qi := p y ( i ) , i E NO. Sind X und Y unabhangig, so hat ihre Summe eine Wahrscheinlichkeitsfunktion, die der Folge
6.2 Unabbangige Zufallsvariablen
115
entspricht. Die so definierte Folge (ri)i20heiflt Faltungsprodukt der Folgen (pi)i2o und (qi)izo und wird rnit dem Symbol (pi) * (pi) bezeichnet. In der Analysis dient das Faltungsprodukt zur Berechnung der Koeffizienten des Produktes zweier Potenzreihen.
Beispiel 6.15 (i) Es seien X und Y unabhangige Zufallsvariablen rnit einer Bin(n,p) bzw. Bin(m,p)-Verteilung. Mit Hilfe der Faltungsformel lksst sich die Wahrscheinlichkeitsfunktion der Summe X Y berechnen
+
Dabei haben wir die binomiale Identitat (i) aus Aufgabe 2.1 angewendet. Also hat die Zufallsvariable X Y eine Bin(n m,p)-Verteilung. Dieses Resultat konnen wir rnit folgenden uberlegungen auch intuitiv einsehen. Die Zufallsvariable X zahlt die Erfolge in n unabhangigen Bernoulli-Experimenten rnit Erfolgswahrscheinlichkeit p, und Y ist die Anzahl der Erfolge in weiteren m unabhkngigen Bernoulli-Experimenten rnit derselben Erfolgswahrscheinlichkeit. X + Y zahlt also die Erfolge in (n + m) Experimenten und hat somit eine Bin(n m,p)-Verteilung. Mit vollstandiger Induktion konnen wir diese Aussage erweitern auf eine Summe unabhangiger Bin(mi,p)-verteilter Zufallsvariablen Xi. Die Zufallsvariable S, = CT=l Xi ist dann binomial verteilt rnit Parametern m = CT=l mi und p. Fiir den Sonderfall ml = . . . = m, = 1 ist dies ein weiterer Beweis der bereits bei der Einfiihrung der Binomialvert,eilunggefundenen Tatsache, dass die Summe von n Bernoulli-verteilten Zufallsvariablen rnit Parameter p eine Bin(n,p)-Verteilung hat. (ii) Es seien nun X und Y unabhangige Poisson-verteilte Zufallsvariablen rnit Parameter X bzw. p. Dann hat ihre Summe X + Y die Wahrscheinlichkeitsfunktion
+
+
+
x -,c k
p(k) =
i=O
d.h. X
Xi e-xre
z!
(k - i)!
+ Y ist Poisson-verteilt rnit Parameter X + u.
116
6. Mehrdimensionale Verteilungen
Nach den Summen unabhwgiger Zufallsvariablen wenden wir uns jetzt dem Produkt zu. In diesem Fall gilt die einfache Tatsache, dass der Erwartungswert des Produktes zweier unabhangiger Zufallsvariablen gleich dem Produkt der Erwartungswerte ist.
Satz 6.16 Fur zwei unabhangige Zufallsvariablen X und Y gilt
sofern die Erwartungswerte E X und E Y existieren. Beweis. Es sei p(x, y ) die gemeinsame Wahrscheinlichkeitsfunktion von X und Y . So gilt
da ails Satz 6.12 folgt, dass p x , y ( x ,y) = p x ( x ) .p y ( y ) .
0
Satz 6.17 Far unabhiingige Zufallsvariablen XI,. . . , X n gilt
d.h. die Varianz einer Summe unabhangiger Zufallsvariablen ist gleieh der Summe der Varianzen. Beweis. Fiir 1 5 i # j 5 n gilt wegen der Unabhejlgigkeit und Satz 6.16 E ( ( X i - E X i ) ( X j - EX,)) = E ( X i - E X i ) E ( X j - EX,) = 0. Dann folgt 2
wobei wir an mehreren Stellen die Linearittit des Erwartungswert,es verwendet haben. 0 Nun haben wir das natige Handwerkszeug, um eines der groflen, klassischen Resultate der Wahrscheinlichkeitstheorie darzustellen und zu beweisen.
6.2 Unahhangige Zufallsvariablen
117
Es ist das (schwache) Gesetz der groflen Zahlen. Es sei (Xk)k>l eine Folge unahhzngiger, identisch verteilter Zufallsvariablen (als ~ b k i i r z u nschreihen ~ wir oft u i v . Zufallsvariablen, gelegentlich auch i i d . fiir independent, identically distributed). Wir betrachten die Partialsummen S, := XI . . . X, und die arithmetischen Mittel und berechnen die Erwartungswerte und Varianzen. Fur alle n gilt
+ +
%
E
(3 -
= -(EX1
+ ... + EX,)
= EXl:
%
Es ist also das Zentrum der Verteilung des arithmetischen Mittels gleich dem Erwartungswert einer Einzelheobachtung. Die Varianz ist gleich der Vaist rianz einer Einzelheobachtung, dividiert durch n. Die Verteilung von mit wachsendem n stets mehr in der Umgebung von EX1 konzentriert. Dies kiinnen wir mit Hilfe der Chehychev-Ungleichung noch prkisieren. Fur t > 0 gilt
%
Wir bemerken, dass fiir festes t > 0 der Term auf der rechten Seite gegen 0 lconvergiert. Damit hahen wir den folgenden Satz hewiesen.
Satz 6.18 (Schwaches Gesetz der groflen Zahlen) Es sei eine Folge unahhangiger, identisch verteilter (u.i.v.J Zufallsvariablen mit endlicher Varianz u? Dann gilt fiir alle t > 0
fiir n
+m
Das Attrihut schwach in dem Namen dieses Gesetzes bezieht sich auf die Art der Konvergenz, die auch Konvergenz in Wahrscheinlichkeit genannt wird. Wir werden in Kapitel 12 verschiedene Konvergenzbegriffe systematisch kennenlernen und dann dieses Attribut einordnen konnen.
ubung 6.8 Sei eine Folge unabhangiger Bernoulli-verteilter Zufallsvariablen mit Erfolgswahrscheinlichkeitp. Wir hezeichnen mit S1 die Anzahl der Misserfolge vor dem ersten Erfolg, mit S2 die Anzahl der Misserfolge zwischen dem ersten und dem zweiten Erfolg, und allgemein mit Sr die Anzahl der Misserfolge zwischen dem (k - 1)-ten und dem k-ten Erfolg. Bestimme die gemeinsame Wahrscheinlichkeitsfunktion von S1, . . . ,S, und zeige, dass SI,. . . ,S, stochastisch unabhshgig sind. Bestimme die marginalen Wahrscheinlichkeitsfunktionen.
118
bung
6. Mehrdimensionale Verteilungen 6.9 Es seien X und Y zwei unabhingige Zufallsvariablen mit Werten in
N und den Wahrscheinlichkeitsfunktionen p hzw. q. Zeige, dass
die Wahrscheinlichkeitsfunktion von X . Y ist. Berechne mit dieser Formel die Wahrscheinlichkeitsfunktion des Produktes der Augenzahlen beim 2-maligen unabhingigen Werfen eines unverfalschten Wiirfels.
bung 6.10 Es seien X und Y zwei unabhingige Zufallsvariablen, die beide geometrisch verteilt sind mit Parameter p. Bestimme die Verteilung von X Y.
+
ubung 6.11 Es seien X und Y zwei unabhingige Zufallsvariablen, die negativbinomial verteilt sind mit Parametern r und p bzw. s und p. Bestimme die Verteilung von X + Y. ubung 6.12 Wir ziehen zufallig und ohne Zuriicklegen aus einer Urne, die a weiDe und b schwarze Kugeln enthalt, 2 Kugeln und legen diese dann in die Urne zuriick. Diesen Vorgang wiederholen wir n-mal. Es sei X die Gesamtzahl der weiDen Kugeln von den so gezogenen 2n Kugeln. Bestimme den Erwartungswert und die Varianz von X .
6.3 Bedingte Verteilungen Analog zur Vorgehensweise in Kapitel 3 wenden wir uns nun der Beschreibung von Abhangigkeitseigenschaften in Bezug auf Zufallsvariablen zu. Es seien X und Y zwei Zufallsvariablen. Wenn wir die Realisierung x = X ( w ) bereits kennen und die Zufallsvariablen eben nicht unabhangig sind, so wird diese Information die Wahrscheinlichkeit der moglichen Realisierungen von Y beeinflussen. Es ist nicht mehr die absolute Wahrscheinlichkeit einer Realisierung von Y yon Interesse, sondern die bedingte Wahrscheinlichkeit unter der Voraussetzung, dass X = x. Im nzchsten Abschnitt werden wir noch eine weitere Beschreibung der Abhangigkeit yon Zufallsvariahlen kennenlernen. Definition 6.19 Es seien X und Y diskrete Zufallsvanablen und sei x geauf $ die jeder gehen mit P ( X = x) > 0. Die Wahr~cheinlichkeitsverteilun~g messbaren Teilmenge A C R die Wahrscheinlichkeit
zuordnet, h,ei$t hedingte Verteilung won Y gegeben X = x. Die bedingte Wah,rscheinlichkeitsfunktion won Y gegeben X = x wird definiert durch
und wird oft mit p(y lx) abgekiirzt
6.3 Bedingte Verteilungen
119
Abb. 6.4. Die bedingte Verteilung von Y gegehen X = xo ist die Verteilung der Zufallsvariablen Y, eingeschrankt auf die Teilmenge {X = xo}, versehen mit der bedingten Wahrscheinlichkeit P(.IX = xo).
Bemerkung 6.20 (i) Definition 6.19 kann gleichlautend auch fiir Zufallsvektoren formuliert werden, wobei sogar X und Y Werte in mumen verschiedener Dimension annehmen konnen. (ii) Die bedingte Wahrscheinlichkeitsfunktion ist eine Wahrscheinlichkeitsfunktion in dem Sinne, dass sie die Bedingungen von Satz 4.6 erfullt. Aus px(x) = P ( X = x) > 0 folgt
und aus der Definition der hedingten Wahrscheinlichkeit und Satz 6.5
(iii) Die bedingte Verteilung von Y gegeben X = x wird vollstandig heschrieben durch die bedingte Wahrscheinlichkeitsfunktion p(ylx), denn es gilt
Wenn wir die Zufallsvariable Y, die ja eine Abbildung von LJ auf R ist, beschranken auf die Teilmenge {X = x} C LJ und au£ dieser Teilmenge die WahrscheinlichkeitenP(.IX = x) einfuhren, so hat Y darauf die Wahrscheinlichkeitsfunktion p(y1x). (iv) Wir wollen schon an dieser Stelle darauf hinweisen, dass die Einfiihrung der hedingten Verteilung fiir nicht-diskrete Zufallsvariablen erhehlich aufwendiger ist. Das Problem hesteht darin, dass d a m P ( X = x) = 0 gelten uicht wird und somit die Definition von P ( Y E AIX = x) als P(:(=x";",fA) mehr moglich ist. In Kapitel 9 werden wir fiir stetige Zufallsvariablen noch
120
6. Mehrdimensionale Verteilungen
einen Ausweg finden. Eine allgemeine Definition kann nur rnit Hilfsmitteln der MaBtheorie gegeben werden. Die Beschiftigung rnit dem diskreten Fall bleibt aber auch dann wichtig fur ein intuitives Verstejldnis der bedingten Verteilung.
Tabelle 6.5. Bedingte Wahrscheinlichkeitsfunktionp(ylx) der Augensumme gegeben die Augenzahl beim 1. Wurf, siehe Beispiel 6.21(i)
Beispiel 6.21 (i) Wir werfen 2-ma1 einen unverfiilscbt,en Wiirfel nnd bezeichnen rnit X die Augenzahl beim ersten Wurf und rnit Y die Gesamtaugenzahl beider Wiirfe. In Tabelle 6.5 ist die bedingte Wahrscheinlichkeitsfunktion p(ylx) dargestellt. Wenn wir wissen, dass beim ersten Wurf eine 6 geworfen wurde, so konnen wir die bedingte Verteilung von Y in der letzten Zeile finden. Die bedingte Verteilung ist konzentriert auf 7,. . . ,12, und die Wahrscheinlichkeit jeder dieser Realisierungen von Y gegeben X = 6 ist (ii) Es seien X und Y unabhangige Bin(n,p) bzw. Bin(m,p)-vert,eilte Zufallsvariablen. Dann gilt fiir die bedingte Wahrscheinlichkeitsfunktion von X gegeben X Y = k
i.
+
+
d.h. die Verteilung von X gegeben X Y = k ist eine hypergeometrische Verteilung rnit Parametern (n + m), n und k. (iii) Es seien X und Y unabhangige Poisson-verteilte Zufallsvariablen rnit Parameter X bzw. p. Dann hat X gegeben X Y = n die bedingte Wahrscheinlichkeitsfunktion
+
6.3 Bedingte Verteilungen
121
+
d. h. die Verteilung von X gegeben X Y = n ist eine hinomiale Verteilung mit Parametern n und Zum intuitiven Verstandnis dieses Resultates kiinnen wir uns X und Y als die Anzahl der Druckfehler auf zwei verschiedenen Seiten eines Buches vorstellen. Es sei bereits bekannt, dass X Y , die Gesamtzahl der Fehler, gleich n ist. AnschlieDend stellen wir dann fiir jeden der n Fehler mit einem Bernoulli-Experiment mit Erfolgswahrscheinlichkeit fest, auf welcher Seite dieser Fehler erscheint. A+@
&.
+
"
Fiir zwei unabhhngige Zufallsvariablen X und Y erwarten wir intuitiv, dass Kenntnisse iiber die Realisierung von X uns keine Information iiber die Verteilung von Y liefern. So erhalten wir auch eine neue Charakterisierung fiir Unabhangigkeit, die im nikhsten Lemma formuliert ist. Lemma 6.22 Zwei Zufallsvariablen X und Y sind genau dann unabhiingig, wenn die bedingte Verteilung von Y gegeben X = x nicht von x abhangt.
Beweis. Sind X und Y unabhejlgige Zufallsvariablen, so gilt nach Satz 6.12 PX,Y( 2 ,y) = P X ( X ) P Y ( y ) und somit
H b g t umgekehrt f ( y ) := p(y1x) nicht von x ah, so folgt p x , y ( x , y ) = p x ( x ) f ( y ) ,und damit sind ebenfalls nach Satz 6.12 die Zufallsvariablen X und Y unabhhngig. 0 Definition 6.23 (i) Fur zwei diskrete Zufallsuariablen wird der bedingte Erwartvngswert won Y gegeben X = x definiert durch
(ii) Die bedingte Varianz von Y gegeben X = x wird definiert durch Var(Y1X = x ) := E ( [ Y - E ( Y I X = x)I21X = x ) .
(6.17)
So ist der bedingte Erwartungswert von Y gegeben X = x gleich dem Erwartungswert der bedingten Verteilung und die bedingte Varianz von Y gegeben X = x ist gleich der Varianz der bedingten Verteilung. Diese Uberlegungen
122
6. Mehrdimensionale Verteilungen
sind die Grundlage dafiir, dass wir alle Satze und Identithten, die wir bislang fiir Erwartungswerte und Varianzen bewiesen haben, aucb fiir den bedingten Erwartungswert und die bedingte Varianz von Y gegeben X = x zur Verfiigung haben. Um eine anschauliche Vorstellung vom bedingten Erwartungswert zu erhalten, klinnen wir uns E ( Y I X = x ) denken als den Mittelwert von Y auf der Menge { X = x}. Dabei nehmen wir einen gewogenen Mittelwert mit den auf 1normierten Gewichten
w.
Beispiel 6.24 Fur das 2-malige Werfen eines nnverftilschten Wurfels konnen wir den bedingten Erwartungswert von Y , der Gesamtaugenzahl, gegeben X = x , der Augenzahl beim ersten Wurf, in einer Tabelle darstellen.
Die hier berechneten Werte der bedingten Erwartung konnen wir auch intnitiv einsehen. Wenn wir etwa wissen, dass beim ersten Wurf eine 6 geworfen wurde, dann kiinnen wir als Gesamtaugenzahl6 + E X = 9.5 erwarten.
Abb. 6.5. Die bedingte Erwartung von Y gegeben X ist eine Zufallsvariable, die auf den Teilmengen {X = x } den konstanten Wert E(YIX = x ) hat.
Wir konnen den bedingten Erwartungswert von Y gegeben X = x auch als Funktion von x betrachten, d.h. g(x) = E(YIX = 2 ) . Indem wir diese Funktion mit der Zufallsvariablen X verkniipfen, erhalten wir eine neue Zufallsvariable.
Definition 6.25 Seien X und Y zwei diskrete Zufallsvariablen und g ( x ) := E ( Y I X = 2 ) . Dann heipt die Zufallsvariable g ( X ) die bedingte Erwartung von Y gegeben X , geschrieben E ( Y I X ) . Aufgleiche Weise definieren wir die
6.3 Bedingte Verteilungen
123
bedingte Varianz uon Y gegeben X , gesehrieben Var(YIX), indem wir die Funktion h(x) := Var(Y1X = x) mit der Zufallsuariablen X werknupfen. Als Funktionen auf 0 sind E(Y1X) sowie Var(Y1X) konstant auf den Mengen {X = x) und haben dort den Wert E(YIX = x) bzw. Var(Y1X = x), siehe Abb. 6.5. Satz 6.26 (Satz von der totalen Erwartung) Fur zwei Zufallsvariablen Xund Y gilt
d.h. der Erwartungswert der bedingten Erwartung von Y gegeben X ist gleieh dem Enuartungswert von Y. Beweis. Es sei g(x) = E(YIX = x) und somit E(Y IX) = g(X). Nach Satz 5.3 i t die bedingte Erwartung von und den Anmerkungen zur ~ b e r t r a ~ b a r k eauf Y gegeben X = x gilt
Fur den letzten Schritt haben wir Satz 6.8 angewendet.
0
In dem ohigen Beispiel des Wiirfelexperimentes konnen wir uns die Aussage des Satzes veranschaulichen. Mit Hilfe der Tabelle berechnen wir E(E(Y1X)) = i(4.5 5.5 6.5 7.5 8.5 9.5) = 7, und das ist der Erwartungswert von Y, der Gesamtaugenzahl bei 2 Wiirfen mit einem unverfdschten Wiirfel. Der Satz von der totalen Erwartung gibt uns die Moglichkeit, den Erwartungswert einer Zufallsvariable Y zu berechnen, indem wir eine andere Zufallsvariahle X zu Hilfe nehmen. Dieses Verfahren ist analog zum Satz von der totalen Wahrscheinlichkeit, siehe Satz 3.14. Ein Analogon des Satzes von der totalen Erwartung gilt fur die Varianz, die sich mit dem Erwartungswert der bedingten Varianz und der Varianz der bedingten Erwartung berechnen lasst.
+
+
+
+
+
Satz 6.27 Fur zwei Zufallsvariablen X und Y gilt
Beweis. Wir wenden die Identitkt (5.7) aufgrund der ~ b e r t r a ~ b a r k eauf i t den bedingten Erwartungswert von Y gegeben X = x und die bedingte Varianz von Y gegeben X = x an
124
6. Mehrdimensionale Verteilungen
Wir konnen beide Seiten dieser Gleichung als Funktionen g(x) und h ( x ) betrachten. Von den Zufallsvariablen, die durch Verkniipfung dieser Funktionen mit der Zufallsvariablen X entstehen, berechnen wir jeweils den Erwart,ungswert und erhalten (6.19). 0 Lemma 6.28 SeienX undY Zufallsvariablen, und f : R2 re Funktion. Dann gilt fur xo E R
+ R eine messba-
Sind X und Y unabhtjngige Zufallsvariablen, so gilt fur xo E R
Beweis. Intuitiv konnen wir E ( f ( X ,Y ) I X = x o ) auffassen als Mittelwert von f ( X ,Y )auf der Menge { X = xo), und dann ergibt sich obige Formel aus der Tatsache, dass auf dieser Menge gilt f ( X ,Y ) = f (xo,Y ) . Wir wollen aber einen exakten mathematischen Beweis geben. Es gilt P ( X = x , Y = ylX = $ 0 ) =
fiirxfx~ p(y1xo) fiir x = xo
So folgt mit Satz 6.8, iibertragen auf den bedingten Erwartungswert gegeben X =so,
E ( f ( X , Y ) I X = z o )=
x x
f ( x , y ) P ( X = x , Y = ylX=xo)
"rY
=
~ ( X O , Y ) P ( Y ~ X O= ) E ( f ( x o , Y ) I X= 2 0 ) .
Y
Sind X und Y unabhwgige Zufallsvariablen, so sind auch f ( x o ,Y ) und X 0 unabhangig und es gilt E ( f ( x o ,Y ) I X = xo) = E f (xo,Y ) . Setzen wir in obigem Satz f ( x ,y ) = y , so erhalten wir fiir zwei unabhangige Zufallsvariablen X und Y die Identitat
E(YIX = x ) = E Y , d.h. der bedingte Erwartungswert von Y gegeben X = x ist gleich der (unbedingten) Erwartung. Der folgende Satz, den wir durch Anwendung der obigen uberlegungen beweisen konnen, ist eine diskrete Version des bekannten Satzes von Fubini (Guido Fubini, 1897-1943).
Satz 6.29 Seien X wnd Y unabhangige Zufallsvariablen, f messbare Funktion und sei g(x) := E f ( x , Y ) . Dann gilt
sofern der Erwartungswert uon f ( X ,Y ) existiert
:
R2
+R
eine
6.3 Bedingte Verteilungen
125
Beweis. Die Identitat (6.20) folgt aus Lemma 6.28 zusammen mit dem Satz von der totalen Erwartung. Ein anderer Beweis verwendet die Transformationsformel Satz 6.8 und Satz 6.5 E f ( X > Y= )
C f ( ~ > Y ) P X , Y ( ~ ,=Y )C C f ( ~ > Y ) P Y ( Y p) x ( x ) ( ) = C g ( x ) p x ( x )= W X ) . Z,Y
2
Y
5
Dabei haben wir benutzt, dass die Reihenfolge der Summation fiir absolut 0 konvergente Reihen beliebig vertauscht werden kann. Die Aussage von Satz 5.12 konnen wir auch so interpretieren, dass der Erwartungswert E ( Y ) der beste konstante Vorhersager van Y ist unter der Forderung, die mittlere quadratische Abweichung zu minimieren. Der folgende Satz sagt, dass die bedingte Erwartung von Y gegeben X der beste Vorhersager von Y ist unter allen Funktionen von X . Auch hierbei ist die mittlere quadratische Abweichung das MaB. Im Allgemeinen wird E ( Y 1 X ) keine lineare Funktion sein. Im Ahscbnitt 6.4 uber Kovarianz und Korrelationskoeffizienten werden wir auch einen besten linearen Vorhersager von Y gegeben X = x kennenlernen. Da wir dabei die Menge der maglichen Vorhersager erheblicb einschranken, wird die Vorhersagequalitat i.a. schlecht,er sein. In der Anwendung haben lineare Vorhersager jedoch den groDen Vorteil, dass nicht eine ganze Funktion bestimmt werden muss, sondern nur zwei Parameter.
Satz 6.30 Fur zwei Zufallsuariablen X und Y und jede finktion gilt E ( Y - ip(X))'
> E ( Y - E(Y1X))'
ip : R
+R
(6.21)
und Gleichheit gilt fiir ip(x) = E ( Y I X = x). Beweis. GemaB dem Satz von der totalen Erwartung gilt E ( Y - ip(X))' = E ( g ( X ) ) wobei , g ( x ) := E ( ( Y -ip(X))'IX = x ) . Nach Lemma 6.28 ist weit,er g(x) = E ( ( Y -ip(x))'IX = x ) . Entsprechend ist E ( ( Y - E(Y1X))"X = x ) = E ( h ( X ) ) ,wobei h ( x ) := E ( ( Y - E ( Y IX = x ) ) ' [ X = x ) . Zum Nachweis von (6.21) reicht es nun zu zeigen, dass g ( x ) h ( x ) fiir jedes feste x gilt, d.h.
>
Dies ist aber gerade die Minimumeigenschaft (5.8) des Erwartungswertes, 0 tibertragen auf den bedingten Erwartungswert gegeben X = x. Als weitere Anwendung des Satzes von der totalen Erwartung wollen wir eine Formel von Abraham Wald (1900-1950) tiber den Erwartungswert der Summe einer zufalligen Anzahl von Zufallsvariablen beweisen. Es sei N eine
126
6. Mehrdimensionale Verteilungen
Zufallsvariable rnit Werten in &, und es sei (Xi)i>l eine Folge von Zufallsvariahlen, die alle denselben Erwartungswert habe; und unabhbgig yon N sind. Wir definieren die zufallige Summe
In der Physik betrachtet man das Phanomen, dass yon einer Strahlenquelle N Teilchen ausgesandt werden, von denen jedes einzelne rnit Wahrscheinlichkeit p yon einem Zihler registriert wird und rnit Wahrscheinlichkeit (1-p) unbemerkt bleibt. Setzen wir fiir das i-te Teilchen Xi = 1bzw. X , = 0, je nachdem, oh es registriert wird oder nicht, so ist SN die Gesamtzahl der registrierten Teilchen. In der Versicherungsmathematik treten solche zufalligen Summen als totale Schadenhohe auf, wobei N die Anzahl der Schaden in einem gegebenen Zeitabschnitt ist und Xi die H6he des i-ten Schadens. Wir berechnen nun E ( S N ) ,indem wir zunachst fiir ein festes n den bedingten Erwartungswert E(SNIN = n ) bestimmen. Wegen der Unabhangigkeit von N und X I , Xz, . . . gilt
Den totalen Erwartungswert erhalten wir, indem wir den Erwartungswert der Funktion g(n) := E(SNIN = n ) bestimmen
E ( S N )= E ( g ( N ) )= E ( N . E ( X 1 ) )= E(X1) . E ( N ) .
(6.23)
Dieses Resultat heiDt Wald'sche Identitat.
ubung 6.13 Wir werfen 2-mal einen unverfdschten Wiirfel und bezeichnen rnit X die Augenzahl beim ersten Wurf und rnit Y das Maximum der beiden Augenzahlen. (i) Bestimme die bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = k fiir k = 1 , ... ,6. (ii) Bestimme v(k) = E(YIX = k) fiir jedes k und anschlieflend E(v(X)). Vergleiche die beiden Erwartungswerte E(v(X)) und E(Y).
bung 6.14 Eine Quelle sendet eine Poisson(X)-verteilte Anzahl von Teilchen aus, die jeweils rnit einer Wabrscbeinlichkeit p van einem Zibler registriert werden. Bestimme die Verteilung der Anzahl registrierter Teilchen. Zeige, dass die Wald'sche Identitat (6.23) den Erwartungswert korrekt berecbnet. h u n g 6.15 Die Zufallsvariablen X I , . . . ,X, seien unabhangig und Poisson-verteilt mit Parametern XI,. . . ,A,. (i) Bestimme die Verteilung von S, = XI . . . X,. (ii) Bestimme die hedingte Verteilung von ( X I , .. . ,X,) gegeben Sn = s. (iii) Bestimme die bedingte Verteilung van X I gegeben S, = s. (iv) Bestimme die Funktion v(s) = E(XIIS, = s). Berechne E(u(S,)) und vergleiche rnit E(X1).
+ +
6.4 Kovarianz und Korrelationskoeffizient
127
ubung 6.16 Es seien XI,. . . ,X, unabhangige Bernoulli(p)-verteilte Zufallsvariablen. Bestimme die bedingte Verteilung von (XI,. . . ,X,) gegeben XI . .+X, = s. Wie last sich das Resultat intuitiv erfassen?
+.
6.4 Kovarianz und Korrelationskoeffizient In diesem Abschnitt werden wir uns damit beschaftigen, die Abhiingigkeit zweier Zufallsvariablen mit einer linearen Funktion zahlenmaig zu erfassen. Wir werden den Korrelationskoeffizienten definieren und zeigen, wie gut die Abhiingigkeit der Zufallsvariablen durch eine lineare Funktion beschrieben werden kann. Zum intuitiven Erfassen des Problems ist es hilfreich, zunachst eine endliche Grundgesamtheit zu betrachten. Sei zum Beispiel LJ die Gesamtheit aller Haushalte in Deutschland. Mit den beiden Zufallsvariablen X und Y erfassen wir das Jahreseinkommen und die jahrlichen Ausgaben fiir Urlaubsreisen eines jeden Haushaltes. Wenn wir nun die Paare (X(w), Y(w)), w E 0 , in ein Koordinatensystem eintragen, so kijnnen sich mindestens drei qualitativ verschiedene Situationen ergeben. Vom linken zum recht,en Bild nimmt der
Abb. 6.6. Lineare Abhangigkeit zwischen zwei Zufallsvariablen
Zusammenhang zwischen den Zufallsvariablen ab. In der Situation, die im linken Bild dargestellt k t , gibt es eine Gerade y = ax + b durch alle Punkte (X(w)),Y(w)),w E LJ, und somit eine lineare Ahbildung f (x) = ax b mit Y(w) = f (X(w)). Wir kijnnen also aus den Realisierungen der Zufallsvariablen X den Wert der Zufallsvariablen Y berechnen. Dies ist sehr niitzlich, insbesondere dann, wenn die Werte von Y schwer zu messen sind. Wir kijnnen den Y-Wert fehlerfrei vorhersagen, wenn wir den X-Wert kennen. Im mittleren Fall gibt es noch immer einen deutlichen Zusammenhang zwischen den Werten der beiden Zufallsvariablen. GroDe X-Werte gehen einhermit groDen Y-Werten. Wir erkennen eine lineare Abbildung f (x) = ax+b, die den Zusammenhang zwischen den X - und Y-Werten beschreibt. Es gilt zwar nicht mehr Y(w) = f (X(w)), aber die Differenz Y (w)- f (X(w))ist klein.
+
128
6. Mehrdimensionale Verteilungen
Die Bedeutung dieses Zusammenhangs kdnnen wir besser verstehen, wenn wir die Rage bedenken, wie wir eine Realisierung y = Y(w) optimal vorhersagen konnen. Wenn wir ausschlieDlich Informationen iiber eine Zufallsvariable Y haben, so wissen wir nach Satz 5.12, dass der Erwaxtungswert E Y die heste Vorhersage ist in dem Sinne, dass der erwartete quadratische Vorhersagefehler minimiert wird. Haben wir nun aber Informationen iiber den Zusammenhang von Y und einer zweiten Zufallsvariablen X , und kennen wir die Realisierung X(w), so konnen wir Y(w) durch f (X(w)) vorhersagen. Im ersten Fall ist der Vax(Y), im zweiten mittlere quadratische Vorhersagefehler E ( Y - EY)" Fall E ( Y - f (X))'. Ein MaB fiir den Zusammenhang von X und Y sollte diese beiden Vorhersagefehler miteinander vergleichen. Im rechten Bild ist die Gerade, die am besten zu den Daten passt, die Horizontale y = EY. Hier verbessern Informationen iiber die Realisierung X(w) nichts bei der Berechnung bzw. Vorhersage von Y. Definition 6.31 Fiir zwei Zufallsvariablen X und Y definieren wir die Kouan'anz Cov(X, Y) sowie den Kowelation,skoefSizienten px,y durch
Cov(X,Y) := E ( ( X - E X ) ( Y - EY))
(6.24)
Die Zufallsvan'ablen he?pen unkoweliert, wenn px,y = 0 Der Korrelationskoeffizient ist skaleninvaxiant, d.h. f(ir alle X > 0 gilt
Wenn wir also X oder Y in einer anderen Einheit messen, 2.B. in cm anstatt, in mm, so verejldert dies den Korrelationskoeffizienten nicht. Satz 6.32 Es seien X und Y zwei Zufallsvariablen. Dann gilt
Sind X und Y unabhangig, so ist px,y = 0, d.h. die Zufallsvan'ablen sind unkoweliert. Beweis. Identitat (6.26) folgt direkt aus den Definitionen von Kovarianz und Varianz. (6.27) folgt aus der Linearitat des Erwartungswertes. Diese Identitat ist eine Verallgemeinerung der Formel Var(X) = E ( X 2 ) - (EX)' und somit kann der Beweis analog zum Beweis von Satz 5.10 gefiihrt werden. Sind X und Y unabhhgig, so gilt E(XY) = E(X)E(Y) nach Satz 6.16, und damit 0 folgt aus (6.27), dass Cov(X, Y) = 0 und damit auch px,y = 0.
6.4 Kovarianz und Korrelationskoeffizient
129
Satz 6.33 Es seien X und Y zwei Zufallsvariablen mit positiven, endlichen Van'anzen a% und a$. Dann ist E ( Y - a x - b)' minimal fur *
UY
a =P X ax
, Y
und
b' = EY
-
UY
p x , y ~ ~ . ax
Fur den minimalen Wert gilt
Beweis. Fur festes a E R folgt aus Satz 5.12, dass E ( Y - a x - b)' minimal wird fur bX = E ( Y - a x ) = E Y - a E X und
Nun mtissen wir a E R so bestimmen, dass Var(Y - a x ) minimal wird. Dam schreiben wir Var(Y - a x ) um, sodass wir nach a differenzieren kljnnen. Wir verwenden die Definition von Varianz und Kovarianz und mehrfach die Linearitat des Erwartungswertes und erhalten Var(Y - a x ) = E((Y - a x ) - E ( Y - a x ) ) ' = E((Y - EY) - a ( X - EX))' = E((Y - EY)' - 2a(Y - E Y ) ( X - E X ) a 2 ( x -EX)') = E((Y - EY)') - 2aE((Y - EY)(X - E X ) ) U'E((X -EX)') = Var(Y) - 2aCov(X,Y) a2Var(x).
+
+
+
Die Nullstelle der ersten Ableitung liefert uns a* = Cov(X, Y)/Var(X) = =px,y. Mit Hilfe der obigen Identitat kkijnen wir nun auch den minimalen OX Wert berechnen. E(Y - a * X - b*)' = Var(Y - a * X )
Zusammen mit den einfuhrenden Betrachtungen dieses Abscbnittes erkennen wir mit Satz 6.33 den Zusammenhang zwischen der technischen Definition eines Korrelationskoeffizienten und der Frage, die Abhangigkeit zweier Zufallsvariablen mit einer linearen Funktion zahlenmaig zu erfassen. Die in b' ist der beste lineare VorSatz 6.33 bezeichnete Funktion f (2)= a'x hersager fur die Realisierung von Y, wenn bekannt ist, dass X den Wert
+
130
6. Mehrdimensionale Verteilungen
x annimmt. Das Vorzeichen von a' und somit von px,y besagt noch etwas Grundsatzliches uber die Abhagigkeit zwischen X und Y, denn a* ist die Steigung der Geraden. 1st a* positiv, so sind bei zunehmenden X-Werten zunehmende Y-Werte zu erwarten, ist a* negativ, so werden die Y-Werte bei zunehmenden X-Werten kleiner werden. Die Identitat (6.28) besagt, dass der mittlere quadratische Vorhersagefehler um den Faktor (1-p2XSy) kleiner wird gegeniiber dem trivialen Vorhersager EY, wenn wir die Information uber die Realisierung von X nnd den Zusammenhang zu X einbeziehen. Fur eine endliche Grundgesamtheit mit Laplace-Verteilung und moglichen Realisierungen (XI,yl), . . . , (XN,y ~entspricht ) die Aussage von Satz 6.33 der Minimierung von
Die Gerade y = a'x
+ h' heifit auch Kleinste Quadrate Regressionsgerade.
Beispiel 6.34 Ankniipfend an das Beispiel 6.6 aus dem Abschnitt 6.1 kijnnen wir die paarweisen Kovarianzen von Zufallsvariablen Nl, . . . ,Nk berechnen, die multinomial verteilt sind mit Parametern n und pl,. . . ,pk. Wir wissen, dass fiir i # j gilt E(NiNj) = n(n - 1)pipj und dass die Zufallsvariablen Ni eine Bin(n,pi)-Verteilung haben. Also gilt E(Ni) = npi und mit Identitat (6.27) Cov(Ni, Nj) = n(n - l)pipj - npinpj = -npipj
fiir i
# j.
Fur i = j gilt Cov(Ni,Ni) = Var(Ni) = npi(1 - pi). Dass die paarweise Kovarianz eine negative Zahl ist, konnen wir auch intuitiv verstehen, denn je mehr Experimente das Ergebnis i haben, desto weniger Experimente konnen das Ergebnis j haben, weil die Gesamtzahl der Experimente feststeht. Dies ist also ein Beispiel fur einen negativen Zusammenhang. Wir wollen jetzt untersuchen, wie Erwartungswerte und paarweise Kovarianzen eines Zufallsvektors sich unt,er linearen Transformationen verhalten. Dazu ist es zweckmafig, die Erwartungswerte und die paarweisen KovarianZen zu einem Vektor bzw. zu einer Matrix zusammenzufassen. Definition 6.35 Es seien X I , . . . ,X , reellwertige Zufallsuariablen undX := (XI,. . . ,X,)t. Dann heigen
und
Erzuartungswert bzw. Kouarianzmatrix des Zufallsvektors X .
6.4 Kovarianz und Korrelationskoeffizient
131
Satz 6.36 Sei X = (XI,. . . ,Xn)t ein Zufallsvektor mit Erwartungswert E X und Kouan'anzrnatrix Z x und seien A = ( a i j ) ~ ~ i ~ , E, ~ m ~ ~x n~ , sowie b E Rm. Dann gilt E(AX
+ b) = AE(X) + b
(6.29)
. E A ~= + A&At ~ Var(x1
+ . . . + X,)
n
=xvar(Xi)
i=l
+
x
(6.30) Cov(Xi,Xj).
(6.31)
l I 5 llxll. llyll fur Vektoren x , y in einem Euklidischen Raum rnit dem inneren Podukt < .,. > und der Norm bekannt sein. Wir haben nun den Raum aller Zufallsvallxll = riablen rnit E ( X 2 ) < w, auf dem ein inneres Produkt defiuiert ist dnrcb < X , Y >= E ( X . Y) Die Euklidische Norm einer Zufallsvariablen X in So hat die Cauchydiesem sogenannten La-Raum ist dann IlXll = Schwarz Ungleichung in Innenproduktraumen fiir Zufallsvariablen folgende Form.
Jm
m.
134
6. Mehrdimensionale Verteilungen
Satz 6.38 (Cauchy-Schwarz Ungleichung) Fiir Zufallsuariablen X und Y mit E ( X 2 ) < oo und E ( Y 2 )< m gilt
Gleiehh,eit gilt genau, dann, wenn es a , b E R, nieht beide = 0, mit aX+bY = 0 gibt, d.h. wenn X und Y linear abhangig sind mit Wahrscheinliehkeit 1. Beweis. Wir kannen 0.B.d.A annehmen, dass X # 0, da sonst (6.32) trivialerweise gilt. Wir betrachten die Funktion f ( a ) := E(Y - a x ) ' . Es gilt f ( a ) 2 0 und wir konnen rnit der Linearitat des Erwartungswertes umformen zu f ( a ) = E ( Y 2 )- 2 a E ( X Y ) + a 2 E ( X 2 ) . Die Nullstelle der 1. Ableitung f f ( a ) = - 2 E ( X Y ) 2 a E ( X 2 )liefert uns das Minimum a = ES folgt,
+
m.
und somit ( E ( X Y ) ) 25 E ( X 2 ) E ( Y 2 ) Das . Ziehen der Wurzel liefert (6.32). Auflerdem gilt f (b) = 0 genau dann, wenn es ein b gibt, sodass E ( Y - bX)' = 0,also Y = b X , d.h. X und Y sind linear abhhgig. 0 Nun wenden wir die Cauchy-Schwarz Ungleichung auf die Zufallsvariablen ( X - E X ) und (Y - E Y ) an und erhalten folgende wichtige Ungleichung fiir Kovarianzen.
Korollar 6.39 Es seien X , Y Zufallsvariablen mit endlichen Varianzen. Dann gilt
Dabei gilt die Gleiehheit genau dann, wenn es a , b, e E R gibt, nicht alle = 0 , sodass a x bY e = 0 mit Wahrseheinlichkeit 1. Weiter gilt
+ +
und IpxJ a x bY
= 1 genau dann, wenn es a , b,e E R gibt, nicht alle = 0,sodass
+ + c = 0 mit Wahrseheinlichkeit 1.
Wir konnen (6.34) auch direkt aus der Identitat (6.28) herleiten. Die linke Seite von (6.28) ist nicht-negativ und so muss gelt,en p$,y 5 1, denn die Varianz ist stets nicht-negativ. AuDerdem gilt p$,y = 1 genau dann, wenn die linke Seite von (6.28) gleich 0 ist, und das heilk, dass Y = a * X b*.
+
ubung 6.17 Aus einer Urne rnit n weisen, b schwarzen und c roten Kugeln ziehen wir zufdlig und ohne Zuriicklegen n Kugeln und bezeichnen rnit X die Anzahl der weisen und rnit Y die Anzahl der schwarzen Kugeln in der Stichprobe. Weiter definieren wir die Zufallsvariablen X; und Y , durch
6.5 Aufgaben X, :=
135
1 wenn die i-te gezogene Kugel we8 ist 0 wenn die i-te gezogene Kugel nicbt we8 ist 1 wenn die i-te gezogene Kugel schwarz ist 0 wenn die i-te gezogene Kugel nicbt schwarz ist
Berechne Cov(X;, Y
+ log 2 - log(1 + et')
= x log x
+ (1 - x) log(1-
x)
+ log 2
Die Funktion I(x) := x logx+ (1-x) log(1-x) +log 2 heiflt Entropiefunktion. Aus (7.10) erhalten wir so fiir x insgesamt die Ungleichung
>
Auf ahnliche Weise kann man fur x 5
A
.$ zeigen, dass
Die Wahrscheinlichkeit, dass Cr=,Xi einen Wert auflerhalb eines offenen Intervalls um den Punkt annimmt, nimmt also exponent,iellab.
i
7.4 Aufgaben
153
Bemerkenswert ist die Tatsache, dass die hier gegehene ohere Schranke fiir P ( i Cr=l Xi 5 x) in gewissem Sinne scharf ist, d.h. der Faktor I ( x ) im Exponenten lasst sich nicht verbessern. Man kann zeigen, dass fiir x $ gilt
>
und Analoges ftir x 5
4.
ubung 7.6 Zeige, dass die momenterzeugende Funktion einer Poisson(X)-verteilten Zufallsvariablen X gegeben ist durch m(t) = ex("*-'). Berecbne damit E ( X ) , E ( X 2 )und Var(X). ubung 7.7 Zeige, dass die momenterzeugende Funktion einer Laplace-Verteilung auf { I , . . . ,n ) gegehen ist durch
Berechne damit E(X), E ( x ~ ) und Var(X) ubung 7.8 Bestimme die momenterzeugende Funktion m,(t) einer Laplace-Verteilung auf {&, . . . , $} und den Grenzwert m(t) :=lim,,, m,(t), t E R. (Wir werden spater sehen, dass m(t) die momenterzeugende Funktion einer Gleichverteilung auf [O, 11 ist.) ubung 7.9 Zeige, dass das Maximum der Funktion
f (t) = t z +log 2 - log(1
+ et)
im Punkt t' = log & angenommen wird
7.4 Aufgaben Aufgabe 7.1 Sei (Xi)i>l eine Folge unabhangiger, identisch verteilter, Nowertiger ~ufallsvariahlen~uud sei N eine von (Xi)i2l unabhzngige, No-wertige Zufallsvariable. Beweise mit Hilfe der erzeugenden Funktion der Summe SN = cF=~ Xk die Wald'sche Formel. Aufgabe 7.2 Zeige, dass fiir die erzeugende Funktion g(t) einer No-wertigen Zufallsvariablen X mit E ( X 2 ) < cc gilt
154
7. Analytische Methoden
Aufgabe 7.3 Sei (Xj)j>l eine Folge unabhangiger, identisch verteilter, NOwertiger ~ufallsvariable~und sei N eine von (Xi)i2l unabhiingige, No-wertige Zufallsvariable. Zeige f(ir SN = Xk folgende Identitat
~ c = ~
Aufgabe 7.4 Beweise die folgenden Identitaten fiir den Erwartungswert fin = E(Z,) und die Varianz 5: = Var(Z,) eines Galton-Watson Prozesses
Aufgabe 7.5 Es seien X1, Xz, . . . Zufallsvariablen mit Werten in No und erzeugenden Funktionen g,(t). Weiter existiere fur t E [O, 11 der Grenzwert
g(t) := lim gn(t). nt,
Zeige, dass g die erzeugende Funktion einer Zufallsvariablen X ist und P ( X = k) = lim P(X, = k). nim
Aufgabe 7.6 Es sei (X,),?I eine Folge Bin(n,p,)-verteilter Zufallsvariablen mit lim,,, np, = X E (0, a). Berechne die erzeugende Funktion g, von X, und den Grenzwert g(t) = limn,, gn(t). Welche Schlussfolgerung kann man fiir limn,, P(X, = k) ziehen? (Hinweis: Verwende Aufgabe 7.5.)
8. Stetige Verteilungen
In Kapitel4 haben wir ganz allgemein Zufallsvariablen als messbare Funktionen mit Wertebereich in R sowie die zugehorigen Wahrscheinlichkeitsverteilungen auf R definiert. Direkt anschlieDend haben wir den Begriff der diskreten Zufallsvariablen eingefiihrt und uns in den folgenden Kapiteln ausftihrlich mit den Moglichkeiten, Eigenschaften und Zusammenhangen der Verteilungen diskreter Zufallsvariablen beschaftigt. Fur viele Zufallsexperimente, die wir modellieren wollen, benotigen wir aber ein Kontinuum an moglichen Werten fiir die zuhilfegenommenen Zufallsvariablen. Wir konnen dabei denken an die Lebensdauer einer Person, an den Durchmesser einer von einer Maschine produzierten Schraube oder an eine beliebige Zahl aus dem Intervall [0,1].Bei der Behandlung der diskreten Verteilungen haben wir eine gewisse Vollstandigkeit und Genauigkeit der mathematischen Beweise schaBen kiinnen, fiir die stetigen Verteilungen werden wir dem einfiihrenden C h a r d ter diese Buches entsprechend auch Aussagen vorstellen, fur deren Beweis wir auf weiterfiihrende Literatur zur MaDtheorie verweisen mussen.
8.1 Dichtefunktionen Fur diskrete Zufallsvariablen haben wir in Definition 4.4 die zugehlirige Wahrscheinlichkeitsfunktion eingefuhrt, und diese Funktion war Grundlage und Mittelpunkt der anschliefienden Betrachtungen. Bevor wir nun den Begriff ,Wahrscheinlichkeitsdichte'formal definieren, wollen wir eine heuristische Einfuhrung geben. Dafiir beginnen wir nochmal mit der Betrachtung eines Laplace-Raumes 0, also eines endlichen Ergebnisraumes, in dem alle Ergebnisse gleichwahrscheinlich sind. Auf 0 sei eine Zufallsvariable X : f2 + R definiert mit Wertebereich {al,. . . ,a k } .Die Verteilung von X wird vollstandig durch die Wahrscheinlichkeitsfunktion beschrieben, welche gegeben ist durch
1st k nicht allzu grofi, so konnen wir p gut mit Hilfe eines Stabdiagramms darstellen, wie wir dies im Kapitel4 fiir die wichtigen diskreten Verteilungen ausgefuhrt haben.
156
8. Stetige Verteilungen
1st die Machtigkeit k des Wertebereiches der Zufallsvariablen X dagegen sehr grol3, so ist ein Stabdiagramm nicht brauchbar, da die Werte p(ai) der Wahrscheinlichkeitsfunktion dann sehr klein sind. Wir suchen nun eine neue, approximative Beschreibung der Verteilung von X . Sei der Wertebereich von X im Interval1 (a,,O]enthalten, so teilen wir (a,/3] in m Teilintervalle (ti-l,ti], i = 1,. . . ,m, mit a = to < tl < . . . < t, = ,O auf. Wir betrachten den Anteil der Ergebnisse w , denen ein Wert X ( w ) E (ti-1, ti] zugeordnet wird, und wir definieren
Eine Moglichkeit, diese Wahrscheinlichkeiten grafisch darzustellen, konnte ein Stahdiagramm sein, bei dem iiber dem Mittelpunkt des Intervalls (ti-1, ti] ein Stab der Hohe p((ti-1, ti])gezeichnet wird. Gegen diese Darstellung gibt es zwei erhebliche Einwwde. Es wird so nicht deutlich, dass X nicht, in diesen Mittelpunkten konzentriert ist, sondern Werte im gesamten Intervall annimmt, und weiter sollte p((ti-1, ti])relativ zur L h g e des Intervalls (ti-I,ti] betrachtet werden.
Abb. 8.1. Histogramm bei zwei verschiedenen Intervalleinteilungen
Eine bessere Darstellung der in (8.1) definierten approximativen Verteilung einer diskreten Zufallsvariablen mit sehr groDem Wertebereicb ist ein Histogramm. Dafiir zeichnen wir uber jedem der Intervalle (tl-i,ti] ein zugehoriges Rechteck der Hohe i = 1,. . . ,m. Das Histogramm ist formal der Graph der Funktion
p(i,t~tf21),
und der Flacheninhalt des Rechtecks iiber dem Intervall (ti-l,ti] ist genau
~ ( ( t ti]). ~ - Die ~ , Wahrscheinlichkeit, dass X einen Wert in (ti,t j ]annimmt, d.h. P ( X E (ti,t,]),ist also in einem Laplace-Raum gleich der Flache unter dem Histogramm zwischen ti und t j
Wenn wir die approximative Darstellut~:: der "erteilung von S verhessern wollen, tntisseti wir die Inlervalleinteilung verreinern, siehe Abb. 8.1. Es scheint. dass h so in1 Limes in eine Funktion f iibergrht mit der Ejgr11schi~ftP(.X E (n! ~JI)= .f(a)rlx, fiir jr+s (1,: b E IW rnit o < b. Nach (ii(w:r~ i h c r l c : i ~ ~ ~ gfiir n ~ cirrr Laplaec-mrtciltr Zuf;tllxvariablc A gcbcn wir IIIUI clic dkcmcinc: Ucfi~rit,inucinor \~~ahfic~rci~l~ic~~li(:its(~ictlta f fiir bc1icl)igc Zufdlsvariablen.
j;r
P(a
< X 5 b) = Px((a, b ] ) =
1"
J(x)dz.
(8.2)
TZrir benutzenfiiv J such die Rezelchnrmngera l ) i c l ~ . t e f ~ ~ : ~oder , k ~ i oDichte. n Vertrdrrragerr mif. ciner Dichtr:$unktinn hr$cn xtetiqr: Vr!r?eibrrqcn.
B e m e r k i m g 8.2 (i) Zufallsvariablm mjt einer stetigen Vwteilung u ~ r d e t l kurz such stetige Zufillsl-ariahlm gnwnlt. Van brachte. dass diese Notation etwas ungmm ist, da ea sich hin. nicht urn einr I3gmschaft der ZufallsvwiiiI)l(:n: so~rd(:rnurrl cirw 'ig(msttraft, dr!r Wrtcil~mgh;lnrlclt. (ii) Beim Begrim' .integrierbarLin der obigeti Delinilion mag der Leser vorlZuIig an Riemann-inlegrierbar denkeen. Desser tuid u~~verxiclllt~ar in eine~iiexakten Aulbau der tf~alirscheinlicl~keilstheorie is1 allerdings der Lebesguesclie Inheg ~ abegriff'. l (iii) nie Verteilung Tun 'S legt. die Di~htefunktionnicht ganz eindeutig k t . t~~~ d ( ~ IVcrt. 1 (1~s111E,iw .$II(L:~I~:: von f in rmilitt~v i d w P ~ i n l c vcrii.n(kat tcgrz~ls(8.2) nicht. M ; I ~h r r n zr!igm, ~1i1.r~ z w i hnkt,iora:n f l ur~clf2, fiir die.
158
8. Stetige Verteilungen
(8.2) gilt, ,fast iiberall' iibereinstimmen. Diese Aussage kann in der Lebesgueschen Integrationstheorie prazisiert und bewiesen werden. (iv) Fiir eine Dichtefunktion f gilt stets JFw f (x)dx = 1 (ab jetzt schreiben wir J anstelle von Jyw). Umgekehrt definiert eine nicht-negative, integrierbare Funktion f mit dieser Eigenschaft eine Wahrscheinlichkeitsverteilung auf R Daher ist jede solche Funktion f eine Wahrscheinlichkeitsdichte. Zum intuitiven Versthdnis der Dichtefunktion f einer Zufallsvariablen
X k6nnen uns folgende Uberlegungen helfen. 1st f stetig in x und A x klein, so gilt P ( x < X 5 a: + A x ) = JCx+"" f (t)dt F;: A x . f ( 2 ) und 1 f ( x ) F;: -P(x Ax
<X 5 x
+ Ax).
(8.3)
Die Dichte ist also approximativ gleich der Wahrscheinlichkeit, dass X einen Wert im Intervall ( x ,x A x ] annimmt geteilt durch die Lange dieses Intervalls. Man kann eine solche Betrachtungsweise auch in der Physik finden bei dem Begriff ,MassendichteC,der definiert wird als Grenzwert von Masse pro Volumeneinheit. Die Beziehung einer diskreten Wahrscheinlichkeitsverteilung zu einer Wahrscheinlichkeitsverteilung mit Dichte ist vergleichbar dem Verhaltnis eines Systems diskreter Punktmassen zu einer stetigen Massenverteilung.
+
Abb. 8.3. Dichtefunktion f (z)und Realisierungen einer entsprechenden Zufalls-
variablen Sind XI,. . . ,X, unabhejlgige Zufallsvariablen mit derselben Dichtefunktion f , so gilt gemafl dem Gesetz der groflen Zahlen P ( x < Xl 5 x + A x ) w ,1111 5 i 5 n : x < Xi 5 x AX}^, und daher mit (8.3)
+
So erhalt f ( x )eine ganz konkrete Bedeutung als mathematische Idealisierung der empirischen Dichte der Realisierungen in einem kleinen Intervall. Wenn
8.2 Wichtige stetige Verteilungen
159
wir die Realisierungen als kleine Striche auf der Zahlengerade eintragen, erhalten wir Abb. 8.3. Bei diesen intuitiven uberlegungen muss man allerdings aufpassen. Man kann in (8.4) nicht unabhangig voneinander Ax + 0 und n + oo streben lassen. So erhdt man in (8.4) fiir Ax + 0 bei festem n stets den Limes 0. In welcher Weise man Ax am besten von n ahhangen lasst, ist ein nicht-triviales Problem, das in der Statistik als Dichteschatzung behandelt wird.
bung 8.1 Fiir welche Werte von c E R ist f(z)= w3110,,l(2)eine Dichtefunktion? Berechne P($ 5 X 5 +) sowie P ( X 5 a), a E R, fiir eine Zufallsvariable X mit dieser Dichte.
8.2 Wichtige stetige Verteilungen In Analogie zu Abschnitt 4.2, in dem wir die wichtigsten diskreten Verteilungen beschrieben haben, werden wir nun die bekanntesten stetigen Verteilungen einfiihren, indem wir die zugehorigen Dichtefunktionen angeben, den Graph der Dichte darstellen und Anmerkungen zu der jeweiligen Geschichte oder Anwendung machen. Oft bestehen BezUge zu den diskreten Verteilungen.
Gleichverteiluug. Die Gleichverteilung auf dem Intervall [a, b] C R ist definiert durch die Dichte
Dass f eine Dichtefunktion ist, d.h. nicht-negativ und f (x) dx = 1, ist offensichtlich.Als Symbol fiir diese Verteilung verwenden wir U(a, b ) , und wir schreiben X U(a, b ) , wenn X diese Verteilung hat. Die Gleichverteilung ist ein stetiges Analogon der Laplace-Verteilung. Fur jedes Interval1 I C [a,b] gilt P ( X E I) = &II, d.h. die Wahrscheinlichkeit einer Realisierung in I ist proportional zur Lange von I . Eine Gleichverteilung auf [a,b] wird als Model1 fiir die zufallige Wahl einer Zahl aus [a,b] verwendet. So konnen wir etwa den Rundungsfehler bei numerischen Berechnungen als gleichverteilt auf [-$, $1 modellieren. Wir bemerken noch, dass es wegen Bemerkung 8.2(ii) keinen Unterschied macht, ob wir die Endpunkte a, b zum Intervall dazunehmen oder nicht.
-
Normalverteilung. Die Normalverteilung mit den Parametern fi und u2, fi E R, u2 > 0,ist definiert durch die Dichte
Abb. 8.4. Dichte cincr Gleirhvertcilnng (links)und einer Normalvcrtcilung (rcchts)
Als Symbol fiir diese Verteilung verwenden wir N ( p , a'). Die Xorndverteilung hat eine grofie Bedelldung in dcr St.at,istik, d a viele in der Katur auftretende MessgroRen zwnindest approximativ normalverteilt sind. In einem spatere11 Kapitel werden wir hierfiir eine Erkleung geben konnen nut dem ,Zcntralen Grenzwertsat,zl,dcr in1 \Vesentlichcn besagt,, dass cine Snn~mcvon vielen, je kleinen, nnahh3ngigen Zufallsvariablen approximativ normalverteilt ist. Die Kormalvert,cilung wurde zuerst von Abraham de hloivre (1667-1754) als Approximation der binomialen Vert,eiImg fiir grofie Werte von n eingefiihrt,. Im Unterschied zur Poisson-Approximation ist dabei p fest. Carl Ricdrich GauU (1777-18.55) hat der Normalvert,eilung einen zent,ralen St,& lenwert. in der St,atistik gegeben, weshalb sie auc11 Gaufi-Verteilung heifit,. Die dazugehcrige Dirhtefunktion wird wegen der Form ihres Graphen auch GauO'scl~cGlockcnknrvc gcnnant. Auf dcm lctzten Zehnmarkschcin vor der Einfiihrung des Euro war nehen einem Portrat von Gad3 die GauOkhe Glocknlknrve ahgebiklet.
Abb. 8.5. Zehnrnarksclwin mit. Portrst \.on Gall%.
8.2 Wichtige stetige Verteilungen
161
Der Spezialfall fi = 0, u2 = 1 heifit Standardnormalverteilung. Die dazugehorige Dichtefunktion kommt so oft vor, dass dafur eine eigene Abkurzung verwendet wird,
Fiir den Umgang mit der Normalverteilung ist es eine Schwierigkeit, dass die Stammfunktion ihrer Wabrscheinlichkeitsdichte sich nicht durch elementare Funkt,ionen ausdrucken lasst. Es ist bereits eine nicht-triviale Aufgahe nachzuweisen, dass J ip(x)dx = 1 ist, d.h. dass ip eine Dichtefunktion ist. Ein Beweis dieser Identitiit wird in der Analysis gegeben.
Exponentielle Verteilung. Die exponentielle Verteilung mit Parameter X > 0 ist definiert durch die Dichte
Als Symbol fur diese Verteilung verwenden wir Exp(X). Die exponentielle Verteilung ist das stetige Analogon der geometrischen Verteilung und dient zur Modellierung von Lebensdauern. Fur eine Exp(X)-verteilte Zufallsvariable T und t 0 gilt
>
Daraus folgt p ( T
> s+tlT > t) = P ( TP2(sT+2tt')T z t ) -- P(T2s+t) - e-x(a+t)eAt P(T2t) -
=
e - X S = P ( T > s) fiir alle s, t > 0. Diese Identitiit hahen wir fiir ganzzahlige s, t schon bei der geometrischen Verteilung kennengelernt. Die dort im Anschluss an Identitat (4.11) gemachten Anmerkungen zur ,Gedachtnislosigkeit' gelten auch fiir die exponentielle Verteilung.
Abb. 8.6. Dichte einer exponentiellen Verteilung(1inks) und einer Gammaverteilung(rechts)
162
8. Stetige Verteilungen
Gammaverteilung, Chiquadrat-Verteilung. Die Gammaverteilnng mit den Parametern r > 0 und X > 0 ist definiert durch die Dichte
wobei die Gammafunktion definiert ist durch r ( t ) := Som~ ~ - l e - ~ td > x ,0. Als Symbol fiir die Gammaverteilung verwenden wir Gamma(r,A). Die Gammaverteilung ist das stetige Analogon der negativ-binomialen Verteilung. Dies konnen wir etwa sehen, wenn wir das Stabdiagrarnm der Wahrscheinlichkeitsfunktion mit dem Graphen der Dichtefunktion vergleichen. Ein tieferer Zusammenhang wird in Kapitel 11 bei der Behandlung der Poisson-Prozesse deutlich werden. Setzen wir r = 1, so sehen wir, dass die exponentielle Verteilung ein Spezialfall der Gammaverteilnng ist. Die Gam,ma(;, +)-Verteilung heiDt auch Chiquadrat-Verteilung mit n Freiheitsgraden, wofiir wir als Symbol X: verwenden, n E W.
Betaverteilung. Die Betaverteilung mit Parametern r > 0 nnd s definiert durch die Dichte
>
0 ist
-~dx. wobei die Betafunktion definiert ist durch B(r,s) := ~ ~ - ~ ( l - z ) ~Als Symbol fiir die Betaverteilung verwenden wir Beta(r, s). Betaverteilungen sind auf das Interval1 [O,11 konzentriert. In dem Spezialfall r = s = 1 erhalten wir die Gleichverteilnng auf [O,11. Durch geschickte Wahl der beiden Parameter konnen viele verschiedene Verteilungen auf [O, 11 durch Betaverteilungen approximiert werden. Die Betaverteilungen spielen in der Bayes-Statistik eine wicht,ige Rolle als apriori Verteilung der Erfolgswahrscheinlichkeit bei einem Bernoulli-Experiment.
Abb. 8.7. Dichte einiger Betaverteilungen (links) und der Cauchy-Verteilung
(rechts)
8.3 Verteilungsfunktion
163
Cauchy-Verteilung. Die Cauchy-Verteilung ist definiert durch die Dichte
Diese Verteilung findet Anwendung in der Modellierung von Zufallsexperimenten, bei denen seltene, extrem groBe Beohachtungswerte auftreten, etwa bei Schadensversicherungen gegen Naturkatastrophen. Die CauchyVerteilung hat die hemerkenswerte Eigenschaft, dass der Mktelwert von n unabhangigen Cauchy-verteilten Zufallsvariablen dieselbe Verteilung wie eine einzelne der Zufallsvariablen hat. Insbesondere gilt also hier das schwache Gesetz der groBen Zahlen nicht. Dies kijnnen wir so verstehen, dass der diesem Gesetz zngrunde liegende Effekt des Ausgleichs positiver und negativer Abweichungen vom Erwartungswert wegen des Auftretens dominanter Beohachtungen nicht greift.
ubung 8.2 Beweise folgende Identitaten fiir die Gammafunktion
+
(i) r ( t 1) = t r ( t ) fiir t E (0, w) (ii) r ( 1 ) = l und allgemein r ( k ) = (le - I)! fur k E W (iii) r ( + ) = J;;(Hinweis: henutze ~
e=
a - ). ~
~
~
~
ubung 8.3 ~berpriifedie Eigenschaft einer Dichte, dass J f(x)dx = 1 ist, fiir die Gleichverteilung, die exponentielle Verteilung, die Gammaverteilung sowie fur die Betaverteilung. ubung 8.4 Bestimme c E W so, dass die Funktion f , gegeben durch f(x) = c ~ - " ~ l , ~ ) ( x ) , eine Dichtefunktion ist, fur X > 1. Die zugehorige Verteilung heist ParetoVerteilung. Berechne die Wahrscheinlichkeiten P(2 X 5) und P ( X 4) fiir eine Pareto-verteilte Zufallsvaxiahle X mit X = 2.
<
ubung 8.5 Bestimme eine Stammfunktion der Dichtefunktion (8.11) der CauchyVerteilung und zeige, dass J f(x)dx = 1. Berechne P ( 2 < X 10) fiir eine Cauchyverteilte Zufallsvariable X.
0 existiert. Zeige, dass dann ElXlq fur alle q E [O,p] existiert. (Fur den Beweis darf zusatzlich angenommen werden, dass X entweder diskret oder stetig ist. Das Ergebnis gilt ganz allgemein.)
9. Mehrdimensionale stetige Verteilungen
Entsprechend den Gegehenheiten im diskreten Fall sind auch fiir Zufallsvariablen mit stetiger Verteilung zur Berechnung der Wahrscheinlichkeit von Ereignissen, die von mehreren Zufallsvariablen ahhangen, Informationen fiber die Verteilungen der einzelnen Zufallsvariablen nicht ausreichend. Diese Ausfuhrungen iiber mehrdimensionale stetige Verteilungen kniipfen auf zwei Weisen an vorhergehende Kapitel an. Zum einen an Kapitel 6 , in dem wir, noch vor der Einfiihrnng von stetigen Verteilungen, den ubergang von eindimensionalen zu mehrdimensionalen Verteilungen behandelt hahen. Alle Satze dort, die nicht ausdrticklich Wahrscheinlichkeitsfunktionen nennen, sind auch fur den stetigen Fall gultig. Zum anderen schlieDen wir bei Kapitel 8 an und haben nun weiterhin mit Dichtefunktionen und Integrationen anstelle von Wahrscheinlichkeitsfunktionen und Summationen zu tun. Zur Vereinfachung der Darstellung werden wir uns im Folgenden auf 2-dimensionale Verteilungen beschrwken.
9.1 Gemeinsame und marginale Dichten Definition 9.1 Eine inteon'erbare. nicht-neoative Funktion f : B2 + B hzrl(1 g~rrrc~r~comtH'nhrqr~h~rr~lrcl.k~rls~lrclrIr ilcr %r,Ji~ll~r~orinhlrrr X. \ ' od
und somit ist f x (up' (yl, y2)) I Ju-1 (91, yz) I die Dichte von (Yl , Y2).
0
Abb. 9.4. Transformation gemeinsamer Dichten
Die der Transformationsformel zugrundeliegende Intuition ist ein Analogon zum eindimensionalen Fall, wenn wir verwenden, dass die Oberflache von u-' (AR) fur ein kleines Rechteck AR um (yl, y ~ mit ) Flacheninhalt lARl gegeben wird durch I J,-l (yl, y2)I . IARI. Dann folgt aus der Approximation 9.2
= ~X(~-~(Y~,Y~))IJ~-~(Y~,Y~)I. Anknupfend an Kapitel 6 werden wir uns nun mit marginalen Verteilungen, einer Transformationsformel fur Erwartungswerte sowie der Kovarianz beschaftigen. Sind X , Y zwei Zufallsvariablen mit gemeinsamer Dichte
9.1 Gemeinsame und marginale Dichten
183
f (x, y), so heiflen die Dichten von X und Y die erste bzw. zweite marginale Dichte. Das folgende Lemma, ein Analogon zu Satz 6.5, gibt an, wie wir die Dichte von X bestimmen konnen, wenn wir die gemeinsame Dichte kennen. L e m m a 9.6 Es sei (X,Y) ein Zufallsvektor mit Dichtefunktion f(x, y). Dann ist die Dichte won X gegeben durch
und Entsprechendes gilt fiir fy(y). Beweis. Fiir a < b gilt
Aus dieser Identitiit folgt, dass
J f (x, y) dy die Dichte von X ist.
0
Abb. 9.5. Marginale Dichte "on X fiir eine Gleichverteilung auf dem Dreieck A,
siehe Beispiel 9.7(i) Beispiel 9.7 (i) Es sei (X, Y) gleichverteilt auf dem Dreieck
d.h. wegen IAl = $ hat (X,Y) die Dichte f(x, y) = 2 . l a ( x , y). Die Dichte von X ist dann die erste marginale Dichte und mit Lemma 9.6 erhalten wir
siehe Abb. 9.5. (ii) Es sei (XI, X2) gleichverteilt auf (0, I)', und es seien Zufallsvariablen K
184
9. h'lehrdimensionale stetige Verteihngen
und Yz d c h i c r t durch Yl :=
XI und2'l
:= Xz. Dann ist dic Abbiidung
x 2
u : R+ x R+ + R+ x R+ *nit ZL(ZI,ZZ) := ( ' l , ~ ? ) eine bijektive Abbildung, I 2 dercn Inverse gcgebcn ist durch v(yl, yz) = (yl y2,7jz). Die Jacobi-Matrix
'
, und sie hat die Determinante J,(yl, yz) = gz. 1) Es folgt mit der TransformationsformeI far gemeinsame Dichten ( 9 4 , da u und v stetig diffcrcnzicrbar sind,
dieser Abbildung ist
(0
wobei A das Gebiet der Punkte (y,, R)mit 0 < yl g2 < 1 und 0 < y2 < 1 ist,, d.h. A := {(YI,y2) : 0 < g2 < 1, 0 < y1 < l/yz). Dimes Gehiet ist genau das Bild von (0, unter der Abbildimg u, siehe 4bb. 9.6. Aus der gemeinsamen
t"' i 21 Abb. 9.6. Bild von (0,l)' unter der Ahbildung (x1,q) c, (-,x2)
a2
Dichte k6nnen wir nun mit Lemma 9.6 die Dichte von 15 bestimmen. Es ist die zweite Marginale der dnrch (9.5) gegehenen Dichte fiir 0 < ?/I ~ ~ A ( Y I , Y= z)~Y~
,fil''y 2 d ~
0 genau die Betafunktion B(r,s) definiert und fiir alle Dichten J f (w)dw = 1 gilt, erhalten wir als Zwischenschritt
Diese Identitat fur die Betafunktion, die wir hier mit Hilfsmitteln der Wahrscheinlichkeitsrechnung bewiesen haben, ist in der Analysis anf direktem Wege nicht so leicht zu beweisen.
9.2 Unabbangigkeit stetiger Zufallsvariablen
191
Wir kiinnen nun die Dichtefunktion f w damit weiter umformen und erhalten
Also hat W =
eine Beta(r, s)-Verteilung.
Im Folgenden wollen wir die Dichte einer Summe unahhangiger, stetiger Zufallsvariablen hestimmen.
Satz 9.13 (Faltungsformel ftir Dichten) Es seien X und Y unabhdngige Zufallsuariablen rnit Dichten f bzw. g. Dann hat ihre Summe Z = X Y die Dichte
+
Beweis. Wir bestimmen die Verteilungsfunktion von X + Y. Da X und Y unahhangig sind, hat (X, Y) die Dichte f (x)g(y), und es folgt
+
Also hat X Y die Dichte analog bewiesen werden.
Sf (t- y)g(y)dy und die zweite Identitat kann 0
Mit der Identitat (9.9) wird eine Operation definiert, die zwei integrierbaren Funktionen eine dritte Funktion zuordnet. Diese Operation heiBt Faltung und das Ergebnis heiDt Faltungsprodnkt der Funktionen f und g. Als Symbol verwenden wir f * g. Dies ist eine Analogie zu dem mit (6.13) definierten Faltungsprodukt fiir Wahrscheinlichkeitsfunktionen. Damit kiinnen wir Satz 9.13 kurz formulieren. Die Dichte der Summe zweier unabhbgiger Zufallsvariablen ist das Faltungsprodukt der einzelnen Dichten.
Beispiel 9.14 Es seien X und Y unabhangige Zufallsvariablen mit einer Gamma(r, A) bzw. Gamma(8, A)-Verteilung. Mit Hilfe der Faltungsformel lasst sich die Dichte der Summe X + Y berechnen
192
9. Mehrdimensionale stetige Verteilungen
Also hat X + Y eine Gamma(r+s, A)-Verteilung. Mit vollstejldiger Induktion konnen wir diese Aussage erweitern auf eine Summe von n Gamma(ri, A)verteilten Zufallsvariablen Xi. Die Zufallsvariable S, = Cr=lXi ist dann Gamma-verteilt mit Parametern r = Cy=ri und A. Fiir den Sonderfall rl = . . . = r, = 1erhalten wir die Aussage, dass die Summe von n unabhangigen Exp(A)-verteilten Zufallsvariablen Gamma(n, A)-verteilt ist. Analoge Zusammenhange gelten im diskreten Fall fiir die geometrische und die negativbinomiale Verteilung, siehe Ijbung 6.10 und 6.11. Es gibt einen tieferen und allgemeineren Zusammenhang. Die exponentielle bzw. die Gammaverteilung beschreiben die Wartezeit bis zum ersten bzw. n-ten Erfolg bei einer ,stetigen Folge von Bernoulli-Experimented, womit wir uns im Kapitel 11 iiber Poissonprozesse beschaftigen werden.
ubung 9.7 Es seien X und Y unabhkgige N(0, 1)-verteilte Zufallsvariablen. Bestimme die gemeinsame Dichte von (X, $) sowie die Dichte von $.
bung 9.8 Bestimme das Faltungsprodukt der Dichten zweier auf [O, 11 gleichverteilter Zufallsvariablen. ubung 9.9 Es seien X und Y unabhangige Zufdsvariablen. X sei N(0, 1)-verteilt und Y > 0 habe die Dichte f . Bestimme die Dichte von X . Y. ubung 9.10 Es seien X und Y unabhangige, auf [O, 11 gleichverteilte Zufallsvari* blen. Bestimme die Dichten von Y - X sowie yon X . Y. ubung 9.11 (i) Es seien X I , . . . , X, unabhangige, identisch verteilte Zufallsvariahlen mit Verteilungsfunktion F(z). Zeige, dass U := min(X1,. . . ,X,) und V := max(X1,. . . ,X,) die Verteilungsfunktionen Fu(u) = 1- (1 -F(u))" bzw. Fv(w) = ( F ( W ) )haben. ~ (ii) Bestimme die Dichten von U bzw. V unter der Voraussetzung, dass F die Dichte f hat.
9.3 Die momenterzeugende Funktion
193
9.3 Die momenterzeugende Funktion Im Abschnitt 7.3 haben wir fiir beliebige Zufallsvariablen die momenterzeugende Funktion m(t) = EetX definiert. Nun konnen wir ftir Zufallsvariablen mit stetiger Verteilung unter Verwendung der Transformationsforme1 (8.16) die momenterzeugende Funktion m einer Zufallsvariablen X mit Dichte f wie folgt berechnen
Die momenterzeugende Funktion ist ein sehr nutzliches Hilfsmittel bei der Bestimmung der Vert,eilung einer Summe unabhangiger Zufallsvariablen. Die Satze, die in Abschnitt 7.3 aufgefiihrt sind, gelten ftir beliebige Zufallsvariablen, insbesondere Satz 7.18, dass die momenterzeugende Funktion einer Summe unahhangiger Zufallsvariablen gleich dem Produkt der momenterzeugenden Funktionen ist. Beispiel 9.15 (i) Eine Gamma(r, A)-verteilte Zufallsvariable X hat die momenterzeugende Funktion
wobei wir fiir die letzte Identitat verwendet haben, dass der Integrand die Dichtefunktion der Gamma(r, X - t)-Verteilung ist. Diese Berechnungen gelten fiir t < A. Fur t X existiert die momenterzeugende Funktion nicht. Sind nun X und Y unabhbgige, Gamma(r, A) bzw. Gamma($, A)-verteilte Zufallsvariablen, so hat X Y nach Satz 7.18 die momenterzeugende Funktion
>
+
Dies ist die moment,erzeugende Funktion einer Gamma(r + s, A)-Verteilung, und mit der Aussage von Satz 7.17 konnen wir daraus folgern, dass X + Y eine Gamma(r 5, A)-Verteilung hat. (ii) Eine N ( 0 , 1)-verteilte Zufallsvariable X hat die momenterzeugende Funktion
+
194
9. Mehrdimensionale stetige Verteilungen
wobei wir fiir die letzte Identit& verwendet haben, dass &e-i(x-t)z die Dichtefunktion der N(t, 1)-Verteilung ist. Eine N(fi,u2)-verteilte Zufallsvariable Y kijnnen wir aucb schreiben als Y = u X + fi, wohei X eine N(0,l)Verteilung hat. Somit hat Y nacb Lemma 7.14 die momenterzeugende Funktion
Sind nun X und Y unabhhgige, N ( ~ I , U ?bzw. ) N ( ~ Z , U ~ ) - v e r t e iZufallslte variablen, so hat X Y nach Satz 7.18 die momenterzeugende Funktion
+
Dies ist die momenterzeugende Funktion einer N(p1 +fiz, u;+ui)-Verteilung. Mit der Aussage von Satz 7.17 kiinnen wir also daraus folgern, dass die Summe zweier unabhhgiger, normalverteilter Zufallsvariablen wieder normalverteilt ist, wobei beide Parameter jeweils aufaddiert werden miissen.
$1 gleichverteilten Zufallsvariablen und die momenterzeugende Funktion einer Verte~lung, die die Dichte f(x) = (1 - ~ x ~ ) l ~ ~ l ,hat. , l ( xZeige, ) dass die Summe X + Y der unabhbgigen, auf [-$, $1 gleichverteilten Zufallsvariablen X und Y die Dichtefunktion f hat. ubung 9.12 Bestimme die momenterzeugende Funktion einer auf [-$,
9.4 Maximum, Minimum und Ordnungsstatistiken Es seien X I , . . . ,X, reellwertige Zufallsvariablen. Fiir jedes feste w E Q haben wir die Moglichkeit, die Werte Xl(w), . . . ,X,(w) der GroDe nach zu ordnen. Wir definieren neue Zufallsvariablen X(k), die fiir jedes w E IZ den Wert haben, der an der k-ten Stelle der GroOenordnung steht, 1 5 k 5 a. Insbesondere gilt X(lj = min{X1,. . . ,X,) X(,) = max{Xl,. . . ,X,).
195
9.4 Maximum, Minimum und Ordnungsstatistiken
Definition 9.16 Die Zufallsvan'ablen Xll1,. . . ,XI,) heijlen die Ordnungsstatistik der Zufallsvan'ablen X I , . .. ,X,, wenn f i r jedes w E f2 gilt
und (Xlll(w), . . . ,Xln)(w)) = (Xcl (w), .. . ,X", (w)), wobei (UI, . .. ,on)eine Permutation von (1, . .. ,n ) ist. X(k) heijlt die k-te Ordnungsstatistik der Zufallsva~ablenX I , . . . ,X,. Eine andere Schreibweise fiir die Ordnungsstatistik ist (XnT1,.. . ,X,:,). Diese Schreihweise ist vor allem dann sinnvoll, wenn n variieren kann, da dabei die Abhhgigkeit von n deutlich zum Ausdruck kommt. Wir hestimmen nun die Verteilungsfunktion sowie die Dichte der einzelnen Ordnungsstatistiken.
Satz 9.17 Es seien XI,. . . ,X, unabhdngige, identisch ver-teilte Zufallsuariablen mit Verteilungsfunktion F . Dann ist die Verteilmgsfunktion Flklder k-ten Ordnvngsstatistik Xikl gegeben durch
Haben die Zufallsvariablen die Dichte f, so hat die k-te Ordnungsstatistik XI,) eine Dichte, welch,e gegeben ist durch
Beweis. Ftir jedes feste x gilt X(k)(w) 5 x genau dann, wenn mindestens k der Beohachtungswerte Xl(w), . . . ,X,(w) im Interval1 (-co, x] liegen. Betrachten wir nun zu jedem i E {1,. . . , n ) die Ereignisse {w : X,(w) x) (Erfolg) und {w : Xi(w) > x) (Misserfolg), so bedeutet dies, dass unter den n Bernoulli-Experimenten mindestens k Erfolge eintreten mtissen. Die Erfolgswahrscheinlichkeit ist P ( X i x) = F(x), und somit gilt
0 , sodass
(10.7)
220
10. Der Zentrale Grenzwertsatz
und so lasst sich das Integral auf der rechten Seite wie folgt abschatzen
Aufgrund der kompakten Konvergenz von g, gegen g konvergiert dieser Term 0 gegen 0. Wir wenden uns nun wieder der standardisierten Zufallsvariablen S; zu, deren Konvergenz in Verteilung Aussage des Zentralen Grenzwertsatzes ist. Aus (10.6) folgt
Lemma 10.6 Unter denselben Voraussetzungen wie i n Lemma 10.5 gilt fiir alle a , b E $ a b
c). Das entsprechendc Stichprobennnalogon ist
also der Anteil der Beobachtungen in der Stichprobe, die den Schwellwert iihrrschreiten. (iii) ,Gini's mean difference' ist ein Mae ftir die Streuung einer Verteilung und dcfinicrt dnrch
236
11. Grundhegriffe der Schatatheorie
wobei U und V ~inabhllngige,identisch verteilte Zufallswiablen mit der Vertcilung P sind. Zur Bcstimmung dcs Stichprobenanalogons fiir y vcrwcnden wir, dass ein Paar (U,1') unahhiingiger P,-verteilter Zufallsvwiablen die Wert e (Xi(w), X, (w)) mit Wahrscheinlichkeit $ annimmt, und somit wird das Stichprobcnanalogon 1
^i=EprzlU-VI=-; C IXi-XjI. nL l < i , j < n
Meist ersetzt man den Nenner n' durch n(n. - I), woclurch treuer SchBtzer fllr Gini's mean difference wird.
+ ein erwartungs-
Maximum Likelihood Methode. Wir betrachten ein statistisches Modell (Po)oGefiir die Vcrteilung cler Zufallsvariable X : f2 + X, bci dem die Verteilung Po durch eine Wa.hrscheinlichkeitstiinktion bzw. Dichte pe beschriehen wird.
Definition 11.9 (9 Bei gegebenem z E X definieren wir die Likelihoodfunktion L, : O + IES durch L m := P&) und die Loglakelih.oodfinktion durch J,(H) := log L,(H). (ii) Der Maximum Likelihood SchCtzer (ML-Schdtter) fir H ist derjenige 8- Wert, fiir den die Likelihoodfunktion ihr Maximum annimmt. (iii) Es sei g : O + eine Abbildung. Dann wird der Maximum Likelihood ) , d w c h Einsetzen Schiitzer fGr y = g(8) definiert d?rmh + M L := g ( 6 ~ ~ ,d.h. des ML-Sch,iittern fur 0 an g.
r
Die Maximum Likelihood Methode ist universe11 anwendbar und licfert SchXtzer, (lie in einem gewissen Sinne asymptotisch optimal sind. Abgesehen von einfachen Fallen kann man ML-SchXtzer leicler nur mit Hilfe numerischer Verfahren bestimmen. Doch zuntkhst betrachten wir Beispiele aus Abschnitt 11.1, in denen wir 6 M L analytisch finden k8nnen. In diesen Berechnungen nutzen wir aus, days der Logarithmns eine monotone Funktion ist und somit die Likelihoodfunktion und die Loglikelihoodfunktion an derselben Stelle ihr Maximum haben, und wir somit den MLSchXtzer sonah1 durch Maximierung der Liielihoodfunktion als auch durch Maximierung der Loglikelihoodfimktion bestimmen kiinnen. Beispiel 11.10 (i) Es sei X eine Bin(n,O)-verteilte Zufallsvariable, w@ bei H E [O,1 1 der unbekanute Parameter ist. Die Likelihood- und die LogLikelihoodfunktion sind dann gegeben durch
11.2 Einige Schatzverfahren
237
Den ML-SchXtzer flfr 8 finden wir durch Aufl6sen der Gleichung d x n-x -lz(@) = - - --0 db' 8 1-8
nach 8. Wir erhalten daraus durch einige Umformongen den ML-Sch&t,zer flr"11. = .: (ii) Irn exponentiellen Modell fiir die Lebensdauer von n Gliihlampen nehmen wir an, dass die gemessenen Werte 21,. . ,x,, Realisierungen von n nnabhangigen, EzP(i)-verteilten Zufallsvariahlen sind. Die Likelihood- und die Loglikelihoodfnnktion sind d a m gegeben durch
.
Zur Bestimmnng von
BAfI,
liisen wir wieder die Gleichung
nach 8. Wir erhalten daraus durch einige Umformungen B h l L = Cy=lz;. (iii) Im Model1 unahhzngiger, normalverteilter Messfehler sind die Likelihoodund die Loglikelihoodfunktion der Stichprobe (XI:. . . ,X,,)' gegeben durch
Wir bestimmen die ML-Schatzer fiir fi und u 2 ,indem wir die beiden partiellen Ahleitungen der Loglikelihoodfunktion gleich 0 set,zen,
nnd anschliessend dieses Gleichungssystem nach p und a? aufliisen. Durch = Cy=lxi. Aufliiscn dcr crstcn Glcichung nach IL crhaltcn wir Dies kiinnen wir in die zweite Gleichung einsetzen und findeu so 6LL = CY='=,(a;- 3)" Der ML-Schatzer fiir die Varianz ist nicht erwartungstren, da wir durch n anstclle von ( n - 1) tcilcn.
238
11. GrundbegrifTe der Schatztheorie
In den bisherigen Beispielen lieferte die Maximum Likelihood Methode Schatzer, die wir hereits vorher gefunden hatten, entweder ad hoc oder mittels anderer Schatzverfahren. In den nachsten beiden Beispielen ist das nicht mehr der Fall.
Beispiel 11.11 Seien X I , . . . ,Xn unabhangige, Gamma(r, A)-verteilte Zufallsvariablen. Die Dichte des Zufallsvektors ( X I , . . . ,X n ) t ist dann
und somit lautet die Loglikelihoodfunktion
Zur Bestimmung des Maximums von 1, setzen wir die partiellen Ahleitungen nach r und X gleich 0 und erhalten so
Dieses Gleichungssystem kann man leider nicht analytisch lasen, was vor allem am Auftreten des Terms r ' ( r ) liegt. In der Praxis verwendet man daher iterative numerische Verfahren zur Bestimmung der Lasung, etwa die Newton-Raphson Methode. Als Startpunkt fur die Iteration eignet sich dabei der Momentenmethode-Schatzer. Mit weiterfuhrenden Hilfsmitteln der Statistik kann man zeigen, dass der ML-Schatzer besser ist als der, den wir in Beispiel 11.7 mit Hilfe der Momentenmethode bestimmt hahen. Wir wollen noch einmal ankniipfen bei dem in Beispiel 11.2(iv) betrachteten Model1 fiir wiederholtes fehlerbehaftetes Messen einer physikalischen Konstante f i . In Beispiel ll.lO(iii) haben wir den Maximum Likelihood Schatzer bei normalverteilten Messfehlern hestimmt und dabei als Schatzer ftir p den Mittelwert Cy=lxierhalten. Das folgende Beispiel kann uns darauf aufmerksam machen, dass eine andere Annahme uber die Verteilung des Messfehlers zu einem vollig anderen Schatzer fuhrt. Beispiel 11.12 Wir schlieDen an hei Beispiel 11.2 (iv) und nehmen nun an, dass die Messfehler die Dichte
11.2 Einige Schatzverfahren
239
haben, wobei u > 0 ein unbekannter Parameter ist,. Die zugehorige Verteilung heisst doppelt-exponentielle oder auch Laplace-Verteilung, nicht zu verwechseln mil der diskreten Laplace-Verteilung. Die Zufallsvariablen Xi haben dann die Dichte f (xi) = &e-x"-'1/6, sodass die Likelihood- und die Loglikelihoodfunktion gegeben sind durch
Das iibliche Verfahren zur Bestimmung eines Maximums, die Ableitung gleich 0 zu setzen, scheitert hier a n der Nicht-Differenzierbarkeit von I,,, ... ,,,, . Wir betrachten zuerst das Problem, I,,,...,,n (p,u) bei festem u zu maximieren. Dies fiihrt auf die Aufgabe, bei gegebenen reellen Zahlen xl, . . . ,x, den Ausdruck
zu minimieren. Dies Minimierungsproblem wird gelost durch den Median med(x1,. . . ,x,) der Beobachtungswerte, siehe Definition 11.13 und Lemma 11.14. Nachdem wir das Maximum in p bei festem u gefunden haben, konnen wir das absolute Maximum bestimmen, indem wir die Loglikelihoodfunktion -nlog(Zu) - $ C:=l ixi - med(x)[ als Funktion von u minimieren. Wir setzen dazu die Ableitung nach u gleich 0 und erhalten nach einigen Umformungen 1
~ M = L -
C [xi - med(x) I, i=1
im englischen auch Median Absolute Deviation genannt.
Definition 11.13 Fur reelle Zahlen xl, . . . ,x, ist der Median definiert durch med(x1,. . . ,x,) :=
(~($1
+ z ( + + ~ ) ) falls n gerade falls n ungerade,
wobei x(l) I . . . 5 x(,) die Ordnungsstatistik ist. Lemma 11.14 Seien XI,. . . ,x, reelle Zahlen n i t Ordnungsstatistik X(I) I . . . I x(,). Dann hat die finktion f (p) := C:=l [xi - p [ ihr Minimum i m
240
11. GrundbegrifTe der Schatztheorie
Median med(x1,. .. ,x,). Ist n ungerade, so gibt es ein eindeutiges Minimum . Ist n gerade, so ist f (p) in [x(;), x(;)+~]konstant un,d nimmt Beueis. Wir bemerken, dass f (p) = x:== ', konnen wir f nmformen zu
IX(i)
-fiI gilt. Fur fi E
z(j+l))
(~(j),
Also ist f stiickweise linear, in den Intervallen ( x ( ~x) ,( ~ + ~monoton )) fallend fur j < 5, und monoton steigend fur j > 2 . 1st n eine gerade Zahl, so ist f konstant im Interval1 [X(;),X(;+~)]. Fiir fi < ~ ( ist~ f 1monoton fallend und fur fi > x(,, monoton steigend. Da f stetig ist, ist f also far gerades n monoton fallend in (-m,x;), konstant in (x;,x;+I) und monoton steigend in ( ~ ; + ~ , r n Fur ) . ungerades n ist f monoton fallend in (-co,xw) und 0 monoton steigend in (x*, w).
ubung 11.3 Es seien XI,. . . , X , unabhangige Poisson(h)-verteilte Zufallsvariablen, wobei h E (0, m ) ein unbekannter Parameter ist. Bestimme den Maximum Likelihood SchBtzer ;\ML fiir A. ubung 11.4 Seien X I , .. . ,X , unabhingige Zufallsvariablen mit Dichtefunktion pe(z) = (0 l)zello,ll(x),wobei 0 E (0, m ) ein unbekannter Parameter sei. (i) Berechne E e ( X 1 ) und bestimme einen Schatzer fiir 0 nach der Momentenmethode.
+
11.3 Lineare Regression
241
(ii) Bestimme den Maximum Likelihood Schatzer fiir 0. (iii) Bestimme die Dichte von -log(X~)sowie von - C:=, log(Xi) (iv) Berechne Bias und Risiko des ML-Schatzers.
11.3 Lineare Regression In diesem Abscbnitt betrachten wir Zufallsexperimente, deren Ergebnisse nicbt nur vom Zufall abhhgen, sondern auch vom Wert einer sogenannten erkliirenden Variablen. Wir wiederholen ein solcbes Znfallsexperiment bei verschiedenen Werten der erklarenden Variablen und fragen nach dem Zusammenhang zwischen den Werten der erklarenden Variablen und den Ergebnissen des Zufallsexperimentes. Wir konnen zum Beispiel an ein agrarwissenschaftliches Experiment denken, bei dem der Einfluss der Luftfeuchtigkeit auf die Tomatenernte im Gewacbshaus untersucht werden soll. Wenn wir mit Y das Ergebnis eines Experiments bezeichnen und mit x den Wert der erkkenden Variablen, dann beifit das durch die Gleichung
beschriebene Modell, wobei a,P E R und t eine N(0, u2)-verteilte Zufallsvariable ist, ein lineares Regressionsmodell. Das durch (11.6) spezifizierte Modell kann man so versteben, dass es zwischen der erklarenden Variable und dem Erwartungswert der Zufallsvariablen Y eine lineare Abbangigkeit gibt, denn es gilt E ( Y ) = a + px. Dass das Ergebnis des Experimentes vom Zufall beeinflusst wird, ist im Model1 durch die Zufallsvariable t wiedergegeben. In diesen Term ist alles aufgenommen, was wir bei unserem Experiment nicbt festlegen konnen, im obigen Beispiel etwa die auOeren Wetterbedingungen, die Bodenqualitat, genetische Variationen der Pflanzen oder die Sorgfalt der Mitarbeiter. Die durch y = cu p x beschriebene Gerade heifit Regressions-
+
Abb. 11.2. Lineares Regressionsmodell Y = a
+ px + e
11. GrundbegrifTe der Schatztheorie
242
gerade, die Parameter cu und p heiaen Regressionskoeffizienten. Das lineare Regressionsmodell ist das einfachste Model1 zur Beschreibung der Abhangigkeit eines Zufallsexperimentes von einer erklarenden Variablen. Wir weisen darauf hin, dass ein lineares Model1 immer nur in einem begrenzten Intervall von Werten der erklaenden Variablen angemessen ist und dass fiber dieses Intervall hinausgehende Extrapolationen zn Fehlinterpretationen fubren konnen. Dies kann man am Beispiel der Luftfeuchtigkeit im Gewachshaus leicht einsehen. Der Wissenschaftler, der ein solches Experiment ausfuhrt, kennt die Regressionskoeffizientennicht. Um a, p zu bestimmen, l&t er bei verschiedenen Werten XI,.. . ,x, der erklarenden Variablen unabhangige Experimente ausfiihren. Wir bezeichnen die zugehorigen Zufallsvariablen mit Yl, . . . ,Y, und erhalten fur das Gesamtexperiment das Model1
wobei ti unabhhgige, N(0,u2)-verteilte Zufallsvariablen sind. Die Zufallsvariablen Yl, . . . ,Y, sind somit unabhhgige, aber nicht identisch verteilte Zufallsvariablen. Grafisch kann man die Daten als Punktwolke der (xi, yi) in einem zweidimensionalen Koordinatensystem darstellen, siehe Abb. 11.3. Wegen der ti-Terme und damit wegen des Zufallseinflusses auf das Ergebnis unseres Experimentes liegen diese Punkte nicht alle auf der Regressionsgeraden. sondern um diese herum verstreut.
Abb. 11.3. Ergehnis eines linearen Regressionsexperirnentes
Das statistische Problem besteht nun darin, aus den Daten die Regressionsgerade zn schatzen. Zur Losung dieser Aufgabe wollen wir die Maximum Likelihood Methode verwenden, wofur wir zunachst die gemeinsame Dichte von YI, . . . ,Y, hestimmen. Fur jedes i E {I,. . . ,n ) hat Y , wegen (11.6) eine N ( a pxi,07)-Verteilung und somit die Dichte
+
11.3 Lineare Regression
243
Wegen der Unabhangigkeit der Experimente ist die gemeinsame Dichte von YI , . . . , Yn dann
Der Parameter ist in diesem Fall 0 = ( a ,P, u 2 )und der Parameterraum ist 0 = R2 x (0, m). Aus der gemeinsamen Dichte der Beobachtungen erhalten wir die Loglikelihoodfunktion
Zur Bestimmung des Maximums dieser Funktion gehen wir wieder wie in Beispiel 11.12 vor und halten zunachst u fest. Die Maximierung von 1 als Funktion von a, P fiihrt auf die Minimierung des Terms
Q(a,P) stellt die Summe der Quadrate der vertikalen Abstade zwischen den Datenpunkten und der Geraden y = a + px dar. Der Maximum Likelihood Ansatz fiihrt also dam, die Gerade zu suchen, fiir die diese Summe der vertikalen Abstandsquadrate minimal wird. Deshalb heiflt diese Methode Kleinste Quadrate Methode und der daraus resultierende Schatzer fiir die Regressionsgerade bzw. fur ihre Koeffizienten a , P heiflt Kleinste Quadrate Schatzer. Im folgenden Satz geben wir eine explizite Darst,ellung des Kleinste Quadrate Schatzers fur a und P. Satz 11.15 Die Kleinste Quadrate Schatzer fiir die Regressionskoefizienten p sind gegeben durch
a und
Beide Schiltzer sind erwartungstreu, d.h. E(&) = a und Varianzen sind gegeben durch Var(&) = u2 n
c:="=,.:
Cy=l(xi - .?)2
~ ( p =) P. Ihre
244
11. GrundbegrifTe der Schatztheorie
Beweis. Wir bestimmen den Kleinste Quadrate Schatzer far a und P, indem wir die partiellen Ableitungen von Q(a, P) uach a und P gleich 0 setzen. Dies fiihrt uns auf das lineare Gleichungssystem
e
n Mit den Abkiirzungen Z := $ Cy=, xi und := Xi=, y, folgt aus der ersten Gleichung a = y - PZ und damit die Identitat (11.8). Wir setzen dies in die zweite Gleichung ein, erhalten C;='=,(gi-c-/3(x, -5)) xi = 0 und bestimmen daraus p,
Fiir die beiden letzten Identitaten hahen wir benutzt, dass C ( x i - Z) = C ( y i - e) = 0. Durch Einsetzen der Zufallsvariablen Y, in die letzte Darstellung von b erhalten wir
) wir die Linearitat, des ErwartungswerZur Berechnung von ~ ( p verwenden = a Pxi sowie erneut C;='=,(xi - 5) = 0 und finden tes,
E(x) +
Aus 6 = Y - p3 =
C;=l
- bZ folgt weiter
) wir erneut die Darstellung (11.12) Zur Berechnung von ~ a r ( p verwenden sowie die Unabhangigkeit der Y, und Var(:) = u2 und finden damit
11.3 Lineare Regression
245
Zur Berechnung von Var(6) schreiben wir
Daraus erhalten wir
wobei wir erneut C:=l (xi -Z) = 0 verwendet haben. Wir benutzen schliel3lich - Z)2 = Cy=l x: - n(Z)' und erhalten (11.10). die Identitat x:=,(xi Wenn wir noch einmal auf die Bestimmung des Maximum Likelihood Schatzers fur die Regressionskonstanten zuruckblicken, so stellen wir fest, dass diese deshalb relativ einfach war, weil die ML Methode wegen der Form der normalen Dichtefunktion auf die Minimierung einer quadratischen Form fiihrte und damit letztlich auf ein lineares Gleichungssystem. Dass die Annahme der Normalverteilung in der Statistik oft zu einfachen Verfahren fuhrt, hat wohl als erster Gaul3 erkannt, auf den die herausragende Rolle der Normalverteilung in der Statistik zuruckgeht. Als weiteres Argument fur die haufige Verwendung der Normalverteilung in der Statistik diente GauD die Behauptung, dass Zufallseffekte eine Summe vieler ldeiner, unabhangiger Beitrage sind, was zusammen mit dem Zentralen Grenzwertsatz die Normalverteilungsannahme nahelegt. Laplace stellte die doppelt-exponentielle Dichtefunktion als Verteilung fiir t vor, wodurch die Maximum Likelihood Methode auf die Minimierung der Summe der absoluten vertikalen Absthde zur Geraden y = cu /3x fiihrt, d.h. zur Minimierung von
+
Dieses Minimierungsproblem kann nicht analytisch gelost werden. In der heutigen Zeit schneller Comput,er tritt dieser Aspekt etwas in den Hintergrund, und so besinnt man sich auf die Vorteile dieses Verfabrens. Sie liegen gegenuber der Kleinste Quadrate Methode vor allem in der geringeren Empfindlichkeit gegeniiber Abweichungen von den Modellannahmen. ~ b e die r Frage, wer die Kleinste Quadrate Methode entdeckt hat, gibt es einen beriihmten Priorittitenstreit. Zum ersten Ma1 publizierte die Methode 1805 der franzosische Mathematiker Adrien-Marie Legendre (1752-1833).
246
11. GrundbegrifTe der Schatztheorie
Allerdings behauptete Carl Friedrich Gaufl, dass er die Methode bereits vor 1800 benutzt, aber eine Veroffentlichung nicht fiir notig gehalten habe.
ubung 11.5 Wir betrachten das Modell (11.7), nehmen aher jetzt an, dass die ei eine N ( 0 , wfa2)-Verteilunghahen, wobei wi > 0 bekannte Gewichte sind. (i) Bestimme die Maximum Likelihood SchLzer fiir a ,3!, und a'.
(ii) Bestimme die Verteilung "on
&ML
und
~ M L .
11.4 Normalverteilte Stichproben In diesem Abschnitt wollen wir uns etwas ausfuhrlicher mit einer normalverteilten Stichprobe X I , . . . ,X, beschaftigen und dabei die gemeinsame Verteilung des Mittelwertes und der Varianz einer Stichprobe bestimmen. Satz 11.16 Es seien X I , . . . ,X, unabhangige, N ( b , u2)-werteilte Zufallswaraablen. Dann gilt Cr=L=1(X2 - X)' sind stochastisch un(i) X := C r = l Xi und s: := abhangig. (ii) X ist N(b, t(x)) 5 a > t(x)) > a.
(12.2)
Satz 12.9 Der in (12.2) definierte Test 4 hat Niveau a. Mit diesem Satz haben wir den Zugang des Abschnitts 12.1 in den Zngang dieses Abschnitts integriert. Fur den Beweis von Satz 12.9 benotigen wir das folgende Lemma. Lemma 12.10 Sei (Q,+, P ) ein Wah,rscheinlichkeitsraum und T eine Rwertige Zufallsvariable. Fiir a E (0,l) sei die Menge C, C R definiert durch C, := {u E R : P ( T
> u) 5 a}.
Dann gilt P ( T E C,) 5 a.
>
Beweis. Durch S(u) := P ( T w,) wird eine monoton fallende Funktion S : R + [O, 11 definiert. Dann folgt aus ul E C, und uz ul, dass uz E C,. Also ist C, ein Interval1 der Form [k,, m ) oder (k,,m), mit k, E R Im ersten Fall ist k, E C, und somit gilt
>
P ( T E C,) = P ( T
> k,)
5 a,
> +
Im zweiten Fall gilt u E C, fur alle u > k, und somit P ( T k, k) 5 a, fur alle n E N. Nun ist ({T k, ; } ) n E ~eine monoton steigende Folge von $1 = {T > k,). Damit folgt mit Satz 1.10 Mengen und Ur=l{T k,
> + > +
P ( T E C,) = P ( T > k,) = lim P ( T n+m
> k, + )n1
womit die Aussage des Lemmas in beiden Fallen gezeigt ist.
5 a, 0
Beweis von Satz 12.9. Fiir jedes OX E 8 0 gilt
Damit ist gezeigt, dass
4 ein Test znm Niveau a ist.
0
Bemerkung 12.11 Im Abschnitt 12.1 haben wir stets d e n p w e r t , definiert t(x)), betrachtet. Dieser Wert enthalt mehr durch p(x) = supsEooPs(T Information als der in (12.2) definierte Test 4. Wahrend 4(x) nur angibt, ob wir die Hypothese verwerfen, sagt p(x) etwas fiber die Deutlichkeit dieser Entscheidung aus. Viele Statistiker, und vor allem alle gangige statistische Software, geben daher stets den pWert des Tests an.
>
Beispiel 12.12 Sei S die im Beispiel 12.1 betrachtete Znfallsvariable, d.h. S hat eine Bin(20,O)-Verteilung. Die Hypothese lautet O = 0.2. Da die Fragestellung des Beispiels nahelegt, dass es, wenn uberhaupt, eine Veranderung
12.2 Neyman-Pearson Formulierung der Testtheorie
257
in Richtung einer haheren Durchfallquote gegeben hat, wahlen wir als Alternative A : 6' > 0.2. Also sind Bo = 10.2) und Q1 = (0.2,1], d.h. wir haben eine einfache Hypothese und eine zusammengesetzte Alternative. Wir betrachten zunacbst den Test 41(S) = also den Test mit Verwerfungsbereich C = { 8 , . . . ,201. Dieser Test hat die Giitefunktion
die wir in Abbildung 12.1 grafisch dargestellt haben. An der Giitefunktion
Abb. 12.1. Grafik der Giitefunktion des Tests $I(S) = lIs2q (unten) und des (ohen), siehe Beispiel 12.12 Tests +z(S) = 11~2,)
konnen wir beide Fehlerwahrscheinlichkeiten ablesen. Die Wahrscbeinlichkeit des Fehlers 1. Art betragt &, (0.2) = Po,z(S 2 8) n 0.03, vergleiche auch die Wertetabelle in Beispiel 12.1. Wir haben also einen Test zum Niveau n 3%. Die Wahrscheinlichkeit eines Fehlers 2. Art hejlgt von 0 E 01ab und lasst sich berechnen aus 1 - PI, (6') = Ps(S < 8). Fur 6' E 01und 6' + 0.2 folgt mit der Stetigkeit der Giitefunktion, dass &, (0) + pm,(0.2) und somit konvergiert die Fehlerwahrscheinlicbkeit 2. Art gegen 1 - &(0.2) n 97%. In Abhangigkeit von 6' ist die Feblerwahrscheinlichkeit 2. Art monoton fallend und fiir 0 + 1 konvergiert sie gegen 0. Der Fehler 1. Art hat also stets eine geringe Wahrscheinlichkeit, wahrend die Fehlerwahrscheinlichkeit 2. Art vom unbekannten Parameterwert 6' E 0 1 abhangt und fiir 0, die nahe an 00 liegen, sebr groD ist. Dieses Verhalten ist typisch fur Testprobleme, bei denen 00und 0 1 einen gemeinsamen Rand hahen. Wir betrachten noch einen weiteren Test, bei dem wir den Wert 7 zum Dieser Test hat die Verwerfungsbereich hinzunehmen, d.h. 42(S) = Gutefunktion
258
12. GrundbegrifTe der Testtheorie
die wir ehenfalls in Ahbildung 12.1 grafisch dargestellt hahen. Beim Vergleich der heiden Giitefunktionen fdlt auf, dass der Test 4~ eine groflere Wahrscheinlichkeit des Fehlers 1. Art hat als der Test 41, dafiir aher eine kleinere Wahrscheinlichkeit eines Fehlers 2. Art. Falls die Hypothese nicht, gilt, so wird dies durch den Test 4 2 schneller entdeckt als durch $1, aher um den Preis einer grafleren Fehlerwahrscheinlichkeit 1. Art.
ubung 12.1 Sei X eine N ( p , 1)-verteilte Zufallsvariable, wobei p E W ein unbekannter Parameter ist. Wir betrachten das Testproblem H : p 5 0 gegen A : p > 0
und den Test $(X) = 1{x2~}. Bestimme das Wiveau dieses Tests und berecbne die Giitefunktion. ubung 12.2 Sei X eine Ezp(ll0)-verteilte Zufallsvariable, wobei 0 E (0, co) ein unbekannter Parameter ist. Wir betrachten das Testproblem H : 0 5 1 gegen A : 0 > 1und den Test $(X) = l{x2,}. Bestimme das Niveau dieses Tests und berechne
die Giitefunktion. Wie groB ist die Wahrscheinlichkeit, dass der Test verwirft, wenn 0 = 4? ubung 12.3 Betracbte die TestgroBe S = C::, sgn(X? -x:) aus Beispiel 12.2. Bestimme das Niveau des Tests $(X) = lls2q fiir das Testproblem H : 0 =
4
gegen A : 0 >
und berecbne die Giitefunktion.
12.3 Das Neyman-Pearson Lemma Ziel der statistischen Testtheorie ist es, Tests mit moglichst kleinen Fehlerwahrscheinlichkeiten zu finden. Ein gleichzeitiges Minimieren heider Fehlerwahrscheinlichkeiten ist grundsatzlich nicht moglich. Um dies einzusehen, betrachten wir die heiden trivialen Tests, die entweder stets die Hypothese verwerfen oder stets nicht verwerfen, nnahhangig vom Ausgang des Experiments. Diese beiden Tests haben Fehlerwahrscheinlichkeit 1. Art hzw. 2. Art gleich 0, w&hrend es aufler in trivialen Fallen keinen Test giht, fiir den heide Fehlerwahrscheinlichkeiten 0 sind. Die von Neyman und Pearson vorgeschlagene Vorgehensweise hesteht darin, nur Tests zu betrachten, deren Fehlerwahrscheinlichkeit 1. Art unter einem vorgegebenen Schwellenwert liegt, und dann innerhalh der Klasse dieser Tests die Fehlerwahrscheinlichkeit 2. Art zn minimieren. Es erweist sich aus verschiedenen Griinden als sinnvoll, dass wir den Testbegriff der Definition 12.5 nun erweitern.
Definition 12.13 Ein randomisierter Test ist eine Abhildung $ : X + [O,11, wobei 4(x) die Wahrscheinlichkeit angiht, dass wir die Hypothese uerwerfen, wenn x beobachtet wurde. Die Funktion P4 : O + [O, 11, definiert durch &(O) := Es(4(X)), he@t Gutefinktion des Tests.
12.3 Das Neyman-Pearson Lemma
259
Bemerkung 12.14 (i) Nicht-randomisierte Tests gehljren zur Klasse aller Tests und die Interpretation der mljglichen Werte $(x) E {O, 1) ist im Einklang rnit der in Definition 12.13 gegebenen Interpretation fur (randomisierte) Tests. 1st 4(x) = 1, so wird die Hypothese rnit Wahrscheinlichkeit 1 verworfen und bei $(x) = 0 rnit Wahrscheinlichkeit 0. (ii) Bei einem randomisierten Test h w g t die Entscheidung uber die Ablehnnng der Hypothese nicht allein von der Beobachtung ab, sondern dariiber hinaus vom Ausgang eines weiteren Znfallsexperiments, bei dem rnit Wahrscheinlichkeit $(x) verworfen wird und rnit Wahrscheinlichkeit 1- d(x) nicht, d.h. es ist
(iii) Mit Hilfe des Satzes von der totalen Erwartung folgt aus (12.3) Ps(Hwird verworfen) = Es($(X)). Diese Darstellung der Wahrscheinlichkeit, dass die Hypothese verworfen wird, rechtfertigt die Definition der Gutefnnktion bei randomisierten Tests. Fur nicht-randomisierte Tests hatten wir in Definition 12.7 die Gutefunktion durch &(B) = Ps(4(X) = 1) definiert. Da ein nicht-randomisierter Test nur die Werte 0 und 1 annimmt,, gilt Es($(X)) = Ps($(X) = I), sodass beide Definitionen iibereinstimmen. In der mathematischen Statistik ist es iiblich, st,ets randomisierte Tests zu betrachten. Daher l a s t man das Attribut ,randomisiertLmeist weg und definiert Tests als Abbildungen $ : X + [O,11. Will man ausdrucklich nnr Tests rnit Wertebereich {O, 1) betrachten, so spricht man von nicht-randomisierten Tests. Wir schlieBen uns im Folgenden diesem Sprachgebrauch an. Definition 12.15 Sei (Pe)sEeein statistisches Model1 fur die Verteilung der Zufallsvariable X : f2 + X und sei dvrch H : B E Oo gegen A : 0 E 01 ein Testproblem gegeben. Fur ein gegebenes a E [O,11 bezeichnen wir mit @, die Klasse aller Tests zum Niueau a, d.h. @, := {$ : X
+ [O, 11 : sup E@(d(X))< a } RE%
Ein Test fl E @, heijt gleichmajig trennsch,arfster Test zum Niveau a, venn
fur alle 8 E 01 gilt. Liegt eine einjache Alternative uor, d.h. ist 01= {Bl), so heijt ein Test fl rnit der obigen Eigenschaft ein trennscharfster Test. Ein gleichmBBig trennschafster Test hat in allen B E 01die maximale Macht unter allen Tests zum Niveau a. Es gibt leider nur fiir relativ einfache Testprobleme gleichmaig trennscharfst,e Tests. Meist wird das Supremum auf
260
12. GrundbegrifTe der Testtheorie
der rechten Seite von (12.4)ftir verschiedene Werte aus 01 durch verschiedene Tests angenommen und es gibt damit keinen gleichmaflig trennschbfsten Test. In diesem Ahschnitt wollen wir das einfachste Testproblem betrachten, das Testen einer einfachen Hypothese H : 0 = 80 gegen eine einfache Alternative A : 8 = 01. Fiir diesen Fall haben Neyman und Pearson den trennschbfsten Test bestimmt, d.h. den Test rnit maximaler Macht bei festgelegt,em Niveau cu. Ihr Resultat ist auch von grofler Bedeutnng bei Testproblemen rnit zusammengesetzter Hypothese oder Alternative. Zur Vereinfachnng der Notation schreiben wir in diesem Abschnitt Po nnd Pl anstelle und entsprechend fiir die Erwartungswerte. Weiter nehvon Ps, hzw. PO,, men wir an, dass Po und PI entweder beide diskret oder beide stetig sind rnit Wahrscheinlichkeitsfunktion bzw. -dichte po bzw. pl.
S a t z 12.16 (Negman-Pearson Fundamentallemma) (i) Jeder Test der Form
mit k E [0,m) und y(x) E [O,11, ist fir das Testproblem H : P = Po gegen A : P = PI trennscharfster Test zum eigenen Niueau Eo(p(X)). (ii) Zu jedem cu E [O,11 gibt es einen Test 4 : X + [O,11 mit Eo(4(X)) = cu der Form
mit k E [0,m) und y E [O,11 Beweis. (i) Wir fiihren den Beweis fiir den Fall, dass Ponnd Plstetige Verteilnngen rnit Dichten po bzw. pl sind. Im diskreten Fall geht der Beweis analog, indem man die Integrale durch entsprechende Summenzeichen ersetzt. d.h. Sei also 4 : X + [O,11 ein weiterer Test zum selben Niveau Eo(fl(X)), Eo(d(X)) 5 Eo($?(X)). Wir werden nun zeigen, dass die Macht dieses Tests nicht grofier ist als die Macht des Tests $?, d.h. dass El ($(X)) 5 El (fl(X)).
12.3 Das Neyrnan-Pearson Lemma
261
Zum Beweis der letzten Ungleichung verwenden wir die Darstellung (12.5) sowie die Tatsache, dass 0 5 4 ( x ) I 1. Wir unterscheiden drei Falle, nejnlich p l ( z ) - kpo(z) > 0 , = 0 und < 0. Im ersten Fall ist f ( x ) = 1 und somit V ( x ) - 4 ( x ) 2 0. Im zweiten Fall ist der Integrand 0 . Im dritten Fall ist C ( x ) = 0 nnd somit C ( x ) - $ ( x ) 1 0. (ii) Es ist Po({x : po(x) = 0 ) ) = 0, sodass wir fUr die Berechnung des Niveaus und damit annehmen diirfen, dass p o ( z ) # 0. Wir definieren L ( z ) := #P lasst sich (12.6) schreihen als
4 )=
{
1 falls L ( x ) > k y falls L ( x ) = k 0 falls L ( x ) < k .
Nun gilt
E o ( d ( X ) )= P o ( L ( X ) > k ) + y P o ( L ( X ) = k ) .
(12.7)
Wir mussen jetzt zeigen, dass es ein k = k, und ein y = y, giht, sodass P o ( L ( X ) > k ) y P o ( L ( X ) = k ) = a. Wir definieren dazu
+
k, := infit : P o ( L ( X )I t ) 2 1 - a )
(12.8)
und zeigen, dass
p o ( L ( x ) > he) 5 a
I p o ( L ( x ) 2 4.
(12.9)
Wegen der Monotonie und Rechtsstetigkeit der Verteilungsfunktion, siehe Satz 8.5, ist { P o ( L ( X ) I t ) 1 - a } ein Interval1 der Form [ k , , ~ ) .Also gilt k, E { P o ( L ( X ) 5 t ) 2 1 - a } und P o ( L ( X ) 5 k,) 2 1 - a und P o ( L ( X )> Ice) 5 a. Fur alle t < k , gilt P o ( L ( X ) 5 t ) < 1 - a und somit folgt aus Satz 8.5(iii)
P o ( L ( X )< k,) =
t k y falls L(x) = Ic 0 falls L(x) < k.
d.h. dieser Test verwirft fiir grolle Werte der Prtifgrolle
L(x) heillt Likelihoodquotient, und der Test (12.6) heiflt Likelihoodquotiententest. Dieser unterscheidet sich von einem Neyman-Pearson Test nur dadurch, dass die Randomisierung y auf der Menge {x : pl(x) = kpo(x)} konstant ist. (iv) Fiir Teil (ii) des Neyman-Pearson Lemmas ist von entscheidender Bedeutung, dass wir randomisierte Tests zulassen. Ohne diese Moglichkeit wird es im Allgemeinen keinen Test der Form (12.5) gehen, dessen Niveau exakt gleich einem vorgegebenen cu ist. Beispiel 12.18 (i) Seien XI, . . . ,X, unabhhgige, Bernoulli(0)-verteilte Zufallsvariablen, wohei 0 E [O, 11 unhekannt ist. Es ist also X = {0, lIn und n
ps(xl,. . . ,x,) = n P 1 ( l i=l
= @:=,xi
(1 - o)n-C:=,
5i
siehe (4.7). Wir wollen das Testproblem H : 0 = Bo gegen A : 0 = 81 betrachten, wobei 00,01 E [O,11 zwei feste Parameterwerte sind mit 00 < 01. Der Likelihoodquotient ist in diesem Fall
xk. Der Neyman-Pearson Test verwirft fur grofle Werwobei s = te der Prufgrolle L(x1,. . . ,x,). Zur Bestimmung des kritischen Werts k und der Randomisierung y henotigen wir eigentlich die Verteilung von L(X1,. . . ,X,). In diesem Fall klinnen wir jedoch eine aquivalente Prtifgrijlle bestimmen, deren Verteilung nns bekannt ist. Dazu schreiben wir den Likelihoodquotient,en um
12.3 Das Neyman-Pearson Lemma
263
Aus 00 < 81 fol@ 8'(1-ao) > 1. Somit ist L(xl,. . . , x n ) eine strikt monoton wachsende Funktion von s = C t = l xk. Der Neyman-Pearson Test verwirft also fiir groBe Werte von S = C;=l Xk, d.h. ist von der Form 1 falls S > k 0 falls S < k.
Der kritische Wert k sowie die Randomisierung y sind so zu wahlen, dass der Test das gewunschte Niveau erhalt. (ii) Es seien X I , . . . ,Xn unabhejlgige N(p, a')-verteilte Zufallsvariablen, wobei a 2 > 0 bekannt ist und fi E R unbekannt. Wir hetrachten das Testproblem
wobei po, pl E R zwei feste Parameterwerte sind mit fro quotient ist in diesem Fall
< pl. Der Likelihood-
Analog zu (i) stellen wir fest, dass L(x1,. . . ,x,) wegen fio < fi1 eine xi ist und damit auch von strikt monoton steigende Fnnktion von I n Jii Ci=l(xi - po) = $(z
- po). Da die in diesem Beispiel betrachteten
Zufallsvariablen eine stetige Verteilung haben, ist P,, ($(X -fro) = k) = 0 fur jedes k, und somit kijnnen wir die Randomisierung vernachlassigen. Also lautet der Neyman-Pearson Test fur das hier betrachtete Testproblem 4(X) =
{
1 falls 0 falls
$(X - po) 2 k $(X - po) < k
Zu vorgegebenem Niveau a ist auch hier wieder k so zu wahlen, dass der resultierende Test Niveau a hat. Dm Bestimmen eines Tests zu einem vorgegebenen Niveau a zerfallt wie in den obigen Beispielen praktisch immer in 2 Teile. Zunachst bestimmt man eine geeignete Teststatistik T = t(X) mit der MaOgabe, die Hypothese fiir groBe Werte von T zu verwerfen, d.h. nur noch Tests der Form 1 falls T > k 0 falls T
k xi=,x, = k xi=,X, < k.
ubung 12.5 Seien X I , .. . ,X, Ezp(l/O)-verteilte Zufallsvariablen, wobei 0 E
(0, m ) ein unbebnnter Parameter ist. Bestimme die allgemeine Form des Likelihoodquotiententests fur H : 0 = 00 gegen A : 0 = 01, wobei 00 < 01 gegebene Parameterwerte sind. Zeige weiter, dass dieser Test sich schreiben last als 1 falls y falls 0 falls
x;=,X, > k xi=,xiXi >
und somit ist ein Test zum Niveau cu gegeben durch
{
1 falls
m(x) = o
falls
+(X *(X
2
-pa)
> t,-l;~-~
- fro)
< t,-l;l-,.
Dieser Test heifit der einseitige t-Test oder Student-t-Test Zweiseitige Alternative iiber fi bei unbekanntem a2. Wir betrachten das Testproblem
Ganz analog zum ubergang vom einseitigen auf den zweiseitigen Gau& test verwenden wir fiir dieses Testproblem wieder die in (12.14) definierte PriifgriiDe for das einseitige Testproblem bei unbekannter Varianz. Wir verwerfen fiir groBe positive und fiir groBe negative Werte von T und ersetZen in dem zweiseitigen GauDtest die t-Quantile durch die entsprechenden t-Quantile. Dann erhalten wir, dass durch
ein Test zum Niveau cu gegeben ist. Dieser Test heiDt zweiseitiger t-Test oder Student t-Test.
12.5 Konfidenzbereiche
269
ubungen ubung 12.7 Zeige, dass die folgende Beziehung zwischen den Quantilen der Ff,s
und der Fg,f-Verteilunggilt
12.5 Konfidenzbereiche Wir kniipfen an dieser Stelle an die in Kapitel 11behandelte Fragestellung an. Dort war ein statistisches Model1 (Ps)e,e fiir die Verteilung einer Zufallsvariablen X : Q + X gegehen sowie eine Abbildung g : O + r,und wir standen vor der Aufgabe, den Parameter y = g(0) zu schatzen. Mit der Definition 11.3 haben wir (Punkt-)Schatzer t : X + r eingefuhrt und diese im weiteren Verlauf des Kapitels untersucht. Gegeben die Beobachtung x = X(w), haben wir den Parameter g(0) durch den Punkt t(x) E r geschatzt. Dieses Verfahren liefert einen prkzisen Wert, wodurch aber nicht zum Ausdruck kommt, mit welcher Ungenauigkeit dieser Schatzwert behaftet ist. In dieser Situation helfen Bereichsschatzer, die uns zusatzlich eine Idee geben, in welchem Bereicb des Parameterraums wir den wahren Parameterwert zu erwarten baben. Ziel dieses Abschnitts sol1 es sein, dies zu prejisieren und Verfahren zur Bestimmung von Bereichsschiitzern anzugeben. Es gibt eine enge Beziehung zwischen Konfidenzbereichen und statistischen Tests, was uns veranlasst, die Theorie der Konfidenzhereiche in diesem Kapitel zu behandeln.
Definition 12.21 Es sei (PR)e6e ein statistisches Modell fiir die Verteilung der Zufallsuan'able X : Q + X und g : O + r eine Abbildung. (i) Eine Abbildung C , die jeder Beobachtung x E X eine Teilmenge C(x) C r zuordnet, heijlt Bereichsschatzer. (ii) Der Bereichsschiitzer C h,eijlt (1-a)-Konfidenzbereichfiir g(0), cu E [O,11, wenn
fiir alle 0 E O gilt. Ist r = W und C(x) fiir alle x E X ein Internall, so heijlt C aveh ein Konfidenzin,tervall.
Beispiel 12.22 (i) Seien XI, . . . ,X, unabhangige N(k, u2)-verteilte Zufallsvariablen, wobei u2 > 0 bekannt und ji E W ein unbekannter Parameter ist. Wir suchen zu vorgegebenem a E [O, 11 ein (1- a)-Konfidenzintervall fiir p. Nach Satz 11.16(ii) hat fi* eine N(0, 1)-Verteilung und somit gilt mit Wahrscheinlichkeit (1- a ) , dass
270
12. GrundbegrifTe der Testtheorie
Hier ist zl-e/z das (1 - a/2)-Quantil der N ( 0 , 1)-Verteilnng, siehe Definition 12.19. Durch Umformen von (12.17) erhalten wir, dass ebenfalls mit Wahrscheinlichkeit (1 - cu) gilt
Damit definiert die Abbildung, die jeder Beohachtung x = (XI,.. . ,x,) das Intervall C(x) := [Z - zl-,125,Z zl-u12+] zuordnet, ein (1 - a ) Konfidenzintervall fiir p. (ii) Wir betrachten dasselbe Model1 wie in (i), wobei jetzt auch die Varianz unbekannt ist. Wir suchen weiterhin nur ein Konfidenzintervall fiir p. Es ist, naheliegend, in dieser Situation in den obigen uberlegungen die unbekannte Varianz u2 durch den Schatzer s$ := Cy=l(Xi - X)' zu ersetzen, bzw. u durch sx = Jetzt hat T = fi? nach Satz 11.18 eine t,-lVerteilung, sodass mit Wahrscheinlichkeit (1 - a ) gilt, dass
+
&
a.
wobei t,-l,l-,~2 das (1-a/2)-Quantil der t,-1-Verteilnng ist. Durch Umformen von (12.18) erhalten wir, dass ebenfalls mit Wahrscheinlichkeit (1 - a ) gilt
Damit definiert die Abbildung, die jeder Beobachtung x = (XI,.. . ,x,) das Intervall C(x) := [Z - ~ t , - l ; l - e / 2 , Z ~ t , - l i l - e l z ] zuordnet, ein (1 - a ) Ji; r Konfidenzintervall fur p.
+
Bemerkung 12.23 Wir wollen noch einige uberlegungen zum Verstzndnis der Konfidenzintervalle anschliefien. Das Gebiet C(X) ist eine zufallige Teilmenge von r,die bei jeder Ausfiihrung des Experiments anders ist. Insbesondere wird der wahre Parameterwert y = g(0) manchmal von C ( X ) uberdeckt und manchmal nicht. Die Bedingung (12.16) gwantiert, dass g(0) mit einer Wahrscheinlichkeit mindestens (1 - a ) in C(X) liegt. Diese uherlegungen gelten vor Ausfiihrung eines Experiments. Nach der Ausftihrung ist C(x) ein festes Gehiet, das g(0) ent,weder iiberdeckt oder nicht. Da wir g(0) nicht kennen, kijnnen wir nicht entscheiden, was der Fall ist, aber es ist nicht sinnvoll, von der Wahrscheinlichkeit zu sprechen, dass g(0) in C(x) liegt.
Es gibt eine enge Beziehung zwischen Konfidenzbereichen und statistischen Tests, die wir im folgenden Satz vorstellen werden.
Satz 12.24 Sei (P.q).qEoein statistisches Modell fiir die Verteilung der Zufallsuan'ablen X : 0 + X und g : O + r eine Abbildung. Fiirfestes y E r
12.5 Konfidenzbereiche
271
sei 47 : X + {0,1) ein nicht-randomisierter Test zum Niueau cu far das Testproblem H : g(0) = y gegen A : g(0) # y. Dann wird durch
ein (1- cu)-Konfidenzinteruallfiir g(0) definiert. Beweis. Da 6, ein Test zum Niveau cu ist, gilt fiir alle '6 E 0,die die Hypothese g(0) = y erfullen, dass
Nach der in (12.19) gegebenen Definition von C gilt y E C ( X ) genau dann, wenn & ( X ) = 0 und somit folgt
womit die Aussage des Satzes hewiesen ist.
0
Bemerkung 12.25 Der in (12.19) definierte Konfidenzhereich enthalt fiir einen gegebenen Beobachtungswert x genau diejenigen y E r, die durch die Test,s (&)YEr nicht als mogliche Werte des Parameters g(0) verworfen wurden. Es enthalt also C(x) genau die Parameterwerte y E r, von denen wir nicht ausschliefien kiinnen, dass sie der wahre Wert von g(0) sind. Beispiel 12.26 Wir hetrachten noch einmal dasselbe Problem wie in Beispiel 12.22 (ii), d.h. die Bestimmung eines Konfidenzhereichs fur den Erwartuugswert einer Normalverteilung bei unhekannter Varianz. Um das in Satz 12.24 dargestellte Verfahren anwenden zu konnen, benotigen wir zu jedem PO E R einen Test ,m, fiir das Testproblem H : fi = fio gegen A : fi # fio. Fur dieses Testproblem haben wir in (12.15) den zweiseitigen t-Test eingefiihrt. Dieser Test verwirft genau dann nicht, wenn
Somit ist fio genau dann in C(x) wenn (12.20) gilt, d.h. wenn
und somit wird
Mit dem in Satz 12.24 dargestellten Verfahren haben wir also genau dasselbe Konfidenzintervall gefunden wie zuvor mit Hilfe von ad-hoc Ideen.
272
12. GrundbegrifTe der Testtheorie
12.6 Aufgaben Aufgabe 12.1 Seien X : Q + (O,ca), Y : Q + W zwei Zufallsvariablen und sei a E W fest. (i) Zeige , dass die durch
definierte Funktion f : W + W monoton steigend ist. (ii) Sei jetzt speziell Y eine N ( t , 1)-verteilte Zufallsvariable. Zeige, dass f ( t ):= 2 a) eine monoton steigende Funktion definiert.
P(5
Aufgabe 12.2 Gegeben sei ein statistisches Model1 (Ps)sE{o,l) fiir die Verteilung der Zufallsvariable X sowie das Testproblem H : P = Po gegen A : P = PI. Weiter seien beide Verteilungen, Po und PI entweder diskret, oder stetig. Bestimme den Test 4 : X + {O, I), der die Summe der beiden Fehlerwahrscheinlichkeiten, also
minimiert
13. Der Poisson-Prozess
In diesem Kapitel kniipfen wir an die Bemerkungen zur Bedeutung der Poisson-Verteilung in Abschnitt 4.3 und an das erste Kennenlernen von st* chastischen Prozessen beim Galton-Watson Prozess in Abschnitt 7.2 an. Wir werden den Poisson-Prozess definieren, das wichtigst,e Model1 zur Beschreibung zufdliger, in Zeit oder Raum gleichmaig verteilter Ereignisse. Wir kiinnen dabei denken an Zeitpunkte, zu denen Versicherungsschaden eintreten bzw. Telefongesprache in einer Zentrale eint,reffenoder an Orte, an denen eine seltene Pflanze wachst bzw. eine bestimmte Vogelart brutet.
13.1 Ein Model1 fiir SchadensElle Eine Versicherungsgesellschafthat uber viele Jahre Aufzeichnungen gemacht uber die Zeitpunkte, zu denen Schadensfdle gemeldet worden sind, siehe Abb. 13.1.Nun fragt die Versicherungsgesellschaft nach einem passenden ma-
Abb. 13.1. Zeitpunkte des Eintretens "on Schadensfallen in 4 aufeinanderfolgenden Jahren
thematischen Modell, mit dessen Hilfe sie die Anzahl der zu bearbeitenden Schaden im nachsten Quartal abschatzen kann. In dem Model1 kijnnen aufgrund der langjabrigen Erfahrungen der Versicherungsgesellschaft folgende Tatsachen als gegeben angenommen werden.
274
13. Der Poisson-Prozess
1. Die Meldungen erfolgen nacheinander, d.h. zu einem Zeitpunkt kann es nur maximal einen Schadensfall gehen. 2. Die gemeldeten Schadensfalle sind unabhangig voneinander, d.h. die Gesamtzahlen der gemeldeten Schadensfalle in disjunkten Zeitintervallen sind unabhhgig. 3. Die Meldungen der Schadensfdle sind gleichmaig in der Zeit verteilt, d.h. die mittlere Anzahl Schadensfalle in einem Zeitintervall ist proportional zur Lange des Zeitint,ervalls. Dni-chschnittlich werden taglich X Schadensfalle gemeldet. Wenn wir nun das Eintreten der Schadensfdle modellieren wollen, so lie@ die Idee nahe, dazu einen zeitstetigen Prozess ( X t ) t E ~unabhangiger, + Bernoulliverteilter Zufallsvariablen zu verwenden, wohei Xt = 1 bedeutet, dass zum Zeitpunkt t ein Schadensfall eintritt und Xt = 0, dass zum Zeitpunkt t kein Schadensfall eintritt. Dabei ergibt sich jedoch ein ahnliches Problem, wie wir es schon beim ubergang von diskreten zu stetigen Verteilungen kennengelernt haben. In diesem Model1 konnte nur p = P ( X t = 1) = 0 gewahlt werden, da es ftir p = P ( X t = 1) > 0 bereits in jedem endlichen Zeitintervall unendlich viele Schadensfdle gabe. Dass zu jedem festen Zeitpunkt t die Wahrscheinlichkeit, dass dann ein Schadensfall eintritt, gleich 0 ist, d.h. P ( X t = 1) = 0, steht nicht im Widerspruch zu P({es gibt ein t E (a,b]mit Xt = 1)) > 0. Wegen der ~berabzahlbarkeitdes Zeitintervalls (a,b] findet hier das Kolmogorov'sche Additivitatsaxiom keine Anwendnng. So wie die Verteilung einer stetigen Zufallsvariablen nicht durch die Angabe der Wahrscheinlichkeiten P ( X = x) beschriehen werden kann, so kann das Modell fiir die Zeitpunkte der Schadensfalle nicht durch P(Xt = 1) beschrieben werden. Obwohl ein zeitstetiger Prozess unabhangiger, Bernoulli-verteilter Zufallsvariahlen als mathematisches Objekt nicht existiert, gibt dieses Bild doch eine brauchbare Vorstellnng. Als ersten Schritt zu einem mathematischen Model1 stellen wir jetzt eine Approximation vor, wobei wir annehmen, dass Schadensfdle nur zu diskreten Zeitpunkten eintreten konnen.
Definition 13.1 Eine Folge unabhangiger, Bernoulli(p)-uerteilter Zufallsuariablen ( X t ) t E auf ~ einer abzahlbaren Indexmenge T he@ ein BernoulliProzess. Bei festem n E W betrachten wir nun einen Bernoulli-Prozess auf der ) : i E W } . I n Abb. 13.2 ist eine Realisierung eines Indexmenge T ( ~:= Bernoulli-Prozesses ftir n = 4 und p = 0.5 dargestellt. Die Kreuzchen auf der Zeitachse gehen jeweils die Zeitpunkte der Schadensfalle an. Hier wird also 4 m a l in jeder Zeiteinheit eine Munze geworfen, die entscheidet, ob zu diesem Zeitpunkt ein Schadensfall eintritt. Fiir einen Bernoulli-Prozess lasst sich die Gesamtzahl der Schadensfdle N ( ~ ) ( in I )einem Zeitintervall I = [a,b] berechnen als die Anzahl der ,ErfolgeC der Bernoulli-Experimente, die zu den Zeitpunkten si = in I ausgeftihrt werden,
{i
-
13.1 Ein Model1 fiir Schadensfdle
A 10-
275
t
5-
- ,.
C
t C
t
C
T
t A
'~
1
2
A
3
4
5
Abb. 13.2. Bernoulli-Prozess und zugehoriger Zahlprozess bei n = 4, p = 0.5
folgt, dass die Gesamtzahl Aus der Unabhangigkeit der Zufallsvariablen x?)
"
N ( ~ ) ( eine I ) Bin([nb]- [na],p)Verteilung hat. Die erwartete Anzahl Schadensfalle pro Zeiteinheit ist dann E ( N ( ~ ) [11) o , = np und aus der 3. Modellannahme folgt p = In der Tatsache, dass die Gesamtzahlen der Schadensfalle in disjunkten Intervallen unabhejlgige Zufallsvariablen sind, spiegelt sich die 2. Modellannahme wider. Der Bernoulli-Prozess erfiillt den ersten Teil der 3. Annahme jedoch nicht. Der Prozess ist nicht zeithomogen, weil in den Intervallen (?, ); keine Schadensfalle eintreten konnen. Bei groDem Wert von n wird dies aber kein praktisches Problem sein, da im Alltag die Zeitpunkte nicht so genau festgestellt werden. Wir interessieren uns nun besonders for groBe Werte von n und den ~ N es aus Grenziibergang n + m. Fiir den Bernoulli-Prozess ( x -! ~ ) ) ~ gibt den oben aufgefiihrten Griinden keinen sinnvollen ~renzGert.Daher fiihren wir an dieser Stelle den zugehorigen Zahlprozess ( ~ t ( ~ ' ) , , ~ +ein durch
k.
Dieser Bernoulli-Z&hlprozesserfasst fiir jedes t E IW die Gesamtzahl der Schadensfalle, die his zu diesem Zeitpunkt eingetreten sind. Wir kijnnen den Bernoulli-Prozess mit Hilfe der Sprungzeiten des Bernoulli-Zahlprozesseswieder zuruckgewinnen, siehe Abb. 13.2. Fur ein Interval1 ( a ,b] ist die Anzahl der und es gelten folgende Aussagen Schadensfalle gegeben durch Nb(n) fur den Bernoulli-Zahlprozess ( ~ t ( ~ ) ) ~ ~ ~ + .
NP),
1.
hat fur alle t E IW+ nicht-negative ganzzahlige Werte und N?) = 0. ist monoton steigend, rechtsstetig und es gilt Die Funktion t H aA'jn) := A',(") - A';?) E {0,1}.
276
13. Der Poisson-Prozess
N:?,
2. Fiir 0 = to 5 tl 5 . . . 5 tk sind die Zuwachse N):; i = 1,.. . ,k, unabhangige Zufallsvariablen. 3. Fiir 0 5 a < b < m hat Njn) - N P ) eine Bin(([nb]- [na]), A ) - ~ e r t e i l u n ~ . - [na]); = X(b - a), Nun gilt fiir den Grenziibergang lim,,,([nb] und damit sind alle Voraussetzungen des Poisson-Grenzwertsatzes, Satz 4.8, erfiillt. Also konvergiert die Verteilung des Zuwachses N?) - N?) gegen eine Poisson(X(b - a))-Verteilung. Diese uberlegungen konnen hinfiihren zu einem Konvergenzbegriff,der beschreibt, dass der obige Zahlprozess ( ~ t ( ~ ) ) ~ ~ ~ fiir groBe n gegen einen Prozess ( N t ) t E ~ konvergiert, + dessen Zuwiichse unabhangige, Poisson-verteilte Zufallsvariablen sind. Wir geben hier aber stattdessen einen axiomatischen Zugang und definieren, motiviert durch die obige Herleitung.
Definition 13.2 Ein stochastischer Prozess ( N t ) t E ~ he@ + Poisson-Prozess, wenn folgende Eigenschaften erfiillt sind 1. Nt hat fiir alle t E R+ nicht-negative ganzzahlige Werte und No = 0. Die Funktion t H Nt ist monoton steigend, rechtsstetig und ANt = Nt Nt- E { O , l ) . 2. Fur 0 = to 5 tl 5 . .. 5 t k sind die Zuwachse Nt, - Nt i = 1 , . . . , k, unabhangige Zufallsvariablen. 3. Fiir 0 5 a < b < m hat Nb - Na eine Poisson(X(b - a))-Verteilung.
Der Parameter X hei& Intensitatsparameter, oder Intensitat, des PoissonProzesses. Wir verwenden Poisson-Prozesse oft zur Beschreibung zufalliger, in der Zeit gleichmaflig verteilter Ereignisse. Neben den genannten Schadensfalen bei einer Versicherungsgesellschaft sind Beispiele die ankommenden Telefongesprache in einer Telefonzentrale bzw. der Auskunft oder das Eintreffen neuer Kunden an der Supermarktkasse.
ubung 13.1 Es sei (Nt)t,[o,,ol ein Poisson-Prozess mit Intensitat X = 1. Mit X I , .. . , Xlo bezeichnen wir die Anzahl der Ereignisse in den disjunkten Zeitintervallen (0,1],(1,2],.. . , (9,101.Bestimme die Verteilung von M = max(X1,. . . ,XIO). Bestimme die Wahrscheinlichkeit, dass XI = 4 und dass M = 4. ubung 13.2 Es sei (Nt)t,Io,lolein Poisson-Prozess mit Intensitat X = 1. Wir bezeichnen mit X die Anzahl der Intervalle der Form (i - 1, i], 1 2 i 5 10, in denen kein Ereignis eintritt. Bestimme die Verteilung von X und berechne E X .
13.2 Die Verteilung der Sprungzeiten Wir kljnnen einen Poisson-Prozess eindeutig durch den zugehljrigen Zzhlprozess ( N t ) t E ~beschreiben + und ebenso durch die Folge (Tk)kE~ der Zeitpunkte
13.2 Die Verteilung der Sprungzeiten
A
C C 7 C
10-
5-
277
--
C C
t
C
C X x
T
1
''
'.
t
, I
"
2
I
T
3
4
I
',
5
Abb. 13.3. Realisierung eines Poisson-Prozesses
TI, Tz, . . . , an denen der Z2hlprozess Sprunge macht. Diese Sprungzeiten sind genau die Zeitpunkte, zu denen ein Ereignis eintritt, siehe Abb. 13.3. Formell kiinnen wir Tk,k = 1,2,. . . , definieren als Wartezeit bis zum k-ten Sprung
In diesem Abschnitt werden wir uns nun mit der gemeinsamen Verteilung ~ und hestimmen dazu zunachst die marginalen der Folge ( T k ) k Ebeschaftigen Verteilungen.
Satz 13.3 Sei ein Poisson-Prozess und ( T k ) k Edie ~ zugehdrige Folge der Spmngzeiten. Dann hat fur jedes k E W die Zufallsvariable Tk eine Gam.ma(k, A) - Verteilung. Beweis. Wir bestimmen zunachst die Verteilungsfunktion von Tk. Fur t 5 0 gilt P(Tk 5 t) = 0. Fur t > 0 gilt Tk 5 t, d.h. das k-te Ereignis tritt genau dann vor dem Zeitpunkt t ein, wenn Nt k. Also hat Nt gemai3 Definition 13.2(3.) eine Poisson(At)-Verteilung, und es gilt
>
Damit ist die Verteilungsfunktion von Tk stetig und, auoer in t = 0, stetig differenzierbar. Also existiert nach Sat,z 8.7 die Dichte und lasst sich fiir t 0 wie folgt hestimmen
>
(At)? j=k
(j-1
j!
278
13. Der Poisson-Prozess
Fiir t 5 0 gilt fk(t) = 0 und so ist fk(t) die Dichte einer Gamma(k,X)Verteilung, denn es ist r ( k ) = (k - I)!. 0 Die Wartezeit bis zum Auftreten des k-ten Ereignisses in einem PoissonProzess hat also eine Gamma(k,X)-Verteilung und so gilt insbesondere, dass die Wartezeit bis zum Eintreten des ersten Ereignisses eine Exp(X)Verteilung hat. Wir haben den Poisson-Prozess eingeftihrt als stetiges Analogon des Bernoulli-Prozesses, und in diesem Sinne sind die exponeutielle und die Gamma-Verteilung stetige Analoga zur geometrischen bzw. negativbinomialen Verteilung, von denen wir in ubung 6.8 gezeigt haben, dass sie als Verteilungen der Wartezeiten in einem Bernoulli-Prozess eintreten. Dass die exponentielle und die Gamma-Verteilung als Wartezeit bis zum ersten bzw. k-ten Ereignis in einem Poisson-Prozess auftreten, weist noch auf einen tieferen Zusammenhang hin. Im folgenden Satz werden wir zeigen, dass die Wartezeiten zwischen je zwei Ereignissen unabhangige, Exp(p(X)verteilte Zufallsvariablen sind. Damit lasst sich Tk als Summe der k unabhejlgigen Zwischenwartezeiten Ti - Ti-1, i = 1,.. . , k, schreiben und hat, eine Gamma(k, A)-Verteilung, siehe Beispiel 9.14. Satz 13.4 Sei ( N t ) t E ~ein + Poisson-Prozess und ( T k ) k Edie ~ zugeh6rige Folge der Sprungzeiten. Dann sind die Wartezeiten misehen dem Eintreten zweier Ereignisse, also TI, Tz - TI, T3 - T2,. . . , unabhdngige, Exp(X)-verteilte Zufallsvan'ablen.
0
tl
t l + Ah
tz
Abb. 13.4. t~ < TI 5 tl
tz
+ Atz
ti
to
+ Atr
+ Atl, tz < Tz 5 tz + Atz,. . . , t i < Tk 5 t i +At&
Beweis. Wir bestimmen zunachst die gemeinsame Dichte f (tl, . . . ,tk) der Sprungzeiten TI,. . . ,Th. Aus 0 < TI < . . . < Tk folgt, dass f (tl,. . . ,tk) stets 0 ist, auaer ftir 0 < t l < . . . < tk. Wir betrachten jetzt t l , . . . ,tk mit 0 < t l < . . . < tk und wahlen Ati E R+ so klein, dass ti
+ Ati 5 ti+l
ftir i = 1,. . . , k - 1.
Dann gelten die Ungleichungen
genau dann, wenn keine Ereignisse in den Intervallen (0, tl], (tl +Atl, tz], . . . , (tk-l + A t k - ~tk] , eintreten, jeweils genau ein Ereiguis in den Intervallen
13.2 Die Verteilung der Sprungzeiten
(tl,ti+ At,], . . . , ( t k - I , v a l (tk,tk
tk-I
279
+ Atk-I] und mindestens ein Ereignis im Inter-
+ &]. Die entsprechende Wahrscheinlichkeit ist
Wir teilen jetzt durch At1 . . . A & , machen den Grenziihergang Ati gegen 0 und erhalten mit Hilfe von (9.2)
als gemeinsame Dichte von T I , .. . ,Tk. Die gemeinsame Dichte der Zwischenwartezeiten Sl := T I ,S2 := T.L - T I , .. . , Sk := Tk - Tk-1 bestimmen wir hieraus mit Hilfe der Transformationsformel fiir gemeinsame Dichten, Satz 9.5. Es ist Ti = S1 . . . Si, und somit hat die Jacobimat,rix Halbdiagonalform mit 1-en auf der Diagonalen und Determinante 1. Wir erhalten also
+ +
An der Produktgestalt der gemeinsamen Dichte erkennen wir mit Satz 9.11, 0 dass S I ,. . . ,Sk stochastisch unabhangig und Exp(X)-verteilt sind. Die Aussage des obigen Satzes konnen wir aus der sogenannten Erneuerungseigenschaft des Poisson-Prozesses verstehen. Bei jedem Ereignis startet der Poisson-Prozess wieder von neuem, unabhagig von allem was sich zuvor ereignet hat. Die Wartezeit auf das nachste Ereignis ist damit genauso verteilt wie die auf das erste Ereignis und unabhangig von den vorhergehenden Wartezeiten. Da der Poisson-Prozess (Nt)tEW+ und die Zwischenwartezeiten T i ,Tz - Ti, T3 - T2,. . . einander eindeutig bestimmen, konnen wir einen Poisson-Prozess simulieren, indem wir unahhangige, exponentiell verteilte Zufallsvariablen S1, S2,. . . nehmen und dann S1, S1 Sz, SI Sz S3,. . . als Sprungzeiten des Z&lprozesses (Nt)tEW+ verwenden.
+
+ +
ubung 13.3 Die Lehensdauer einer Gliihlampe sei Ezp(X)-verteilt. Jedesmal wenn eine Gliihlampe defekt ist, wird sie sofort durch eine neue Lampe ersetzt. Bestimme die Verteilung der Anzahl der Lampen, die bis zum Zeitpunkt t benotigt werden.
280
13. Der Poisson-Prozess
13.3 Das Inspektionsparadoxon Die Abfahrtszeiten der U-Bahn, mit der wir alle taglich zur Universitat fahren kiinnen, wollen wir als Poisson-Prozess betrachten. Dies ist, wie wir am Ende von Abschnitt 11.2. bemerkt haben, gleichbedeutend damit, dass die Zeiten zwischen den Ahfahrzeiten zweier aufeinanderfolgender U-Bahnen unabhhgig und exponentiell verteilt sind. Wir fragen nun fur die Fahrgiiste, die stets um 8.00 Uhr zur Haltestelle kommen und die nachste U-Bahn nehmen wollen, nach der Verteilung und dem Erwartungswert ihrer Wartezeit. Wir nehmen an, dass zwischen 24.00 Uhr und 4.00 Uhr keine U-Bahn fahrt, sodass der Poisson-Prozess jeweils um 4.00 Uhr neu beginnt. Die erste U-Bahn am Morgen fahrt dann ebenfalls nach Ablauf einer Wartezeit, die exponentiell verteilt ist. Macht es nun einen Unterschied fur die Wart,ezeit, ob wir um 4.00 Uhr oder um 8.00 Uhr an die Haltestelle kommen? Erste uberlegungen fiihren uns zu zwei sich widersprechenden Antworten. 0
Die Wartezeit um 8.00 Uhr muss ktirzer sein, weil wir im Durchschnitt genau in der Mitte zwischen zwei Abfahrtszeiten an der Haltestelle eintreffen und dann nur noch die halbe Zwischenzeit warten mussen. Die Wartezeit um 8.00 Uhr hat dieselbe Verteilung wie die Wartezeit um 4.00 Uhr, da die exponentielle Verteilung gedachtnislos ist, d.h. sie erinnert sich nicht daran, wieviel Zeit seit der Abfahrt der letzten U-Bahn vergangen ist.
Die weiteren ijberlegungen werden uns zeigen, welche Teile der Antworten sich auch im Model1 wiederfinden und welche wichtige Tatsache zur Aufliisung des Widerspruchs fiihrt. Die Verteilung der Wartezeiten zwischen den Abfahrtszeiten zweier U-Bahnen ist unterschiedlich, je nachdem oh wir die Wartezeit zwischen der Abfahrt der letzten U-Bahn vor 8.00 Uhr und der ersten nach 8.00 Uhr betrachten oder die Wartezeit etwa zwischen der 20-ten und der 21-ten U-Bahn. Lange Zwischenzeiten haben eine griiBere Wahrscheinlichkeit wahrgenommen zu werden. Dies ist der gleiche Effekt, den wir bereits bei der Betrachtung der lhgenproportional verzerrten Stichproben im Abschnitt uber geometrische Wahrscheinlichkeiten untersucht haben. + Poisson-Prozess mit Intensitat A und (Tk)k€~die Sei nun ( N t ) t E ~ ein zugehorige Folge der Sprungzeiten. Fur einen fest gewahlten Zeitpunkt to bezeichnen wir mit Tk(t,) den ersten Sprung nach dem Zeitpunkt to, d.h. k(to) := min{k : Tk 2 to}. Weiter definieren wir die Zufallsvariablen Ut, := to -Tk(to)-l und K, := Tk(t,)-to, wobei wir To = 0 setzen. Im Beispiel des UBahnbetriebs ist dann K, die Wartezeit bis zur nachstfolgenden Abfahrt der U-Bahn und Ut, die Zeit seit der letzten Abfahrt hzw. seit t = 0, wenn es noch keine Abfahrt gegeben hat. In einem anderen Zusammenhang, wenn etwa T k die Erneuerungszeiten einer Gluhlampe sind, heifit Ut, die verstrichene Lebensdauer und KOdie verbleibende Lebensdauer. Lemma 13.5 Ut, und i/t, sind unabhangige Zufallsvariablen. i/t, hat eine Exp(A)-Verteilung und Ut, hat die Verteilungsfunktion
13.3 Das Inspektionsparadoxon
Ft,(v,) =
281
{:
fiir u 5 0 1- ech" fiir 0 < u < to fiir u 2 to.
Beweis. Wir bestimmen zunachst die gemeinsame Verteilungsfunktion der Zufallsvariablen Ut, und K O ,d.h. P(Ut, I u , K 0 5 v), und unterscheiden dabei die FBlle v, < to und u 2 to. Ftir 0 < u < to gilt Ut, 5 u genau dann, wenn es in [to - u, to] mindestens eine Sprungzeit des Poisson-Prozesses gibt, d.h. wenn Nt,-, - Nt, 2 1. Fiir u 2 to gilt stets Ut, 5 u , da Ut, 5 to. Weiter gilt K , 5 v genau dann, wenn Nt,+, - Nt, 2 1. Da gema0 der Definition des Poisson-Prozesses die Ereignisse in disjunkten Zeitintervallen unahhangig sind, folgt fiir 0 I u < to W t ,
I % K OI v) = P(Nt,
- Nt,-u
2 l)P(Nt,+u
- Nt,
2 1)
= (1 - eCAu)(1- e-Aw),
und fiir u
2 to P ( U t , ~ ~ , K ~ ~ u ) = P ( ~ , ~ u XU ) .= l - e -
Beide FXlle kljnnen wir zusammenfassen zu WUt,
I u,K, 5 u) = [(l- e-Au)lro,to)(u)+ l ~ t ~ , ~ ) ( u ) e-"1. l(l-
An dieser Produktdarstellung der gemeinsamen Verteilungsfunktion erkennen wir, dass Ut, und K , unabhangig sind, dass KOeine exponentielle Verteilung hat und dass Ut, die im Lemma angegebene Verteilungsfunktion besitzt; siehe 0 ubung 9.2. Die Unstetigkeit in der Verteilungsfunktion von Ut, entspricht der Tatsache, dass wir zum Zeitpunkt to mit positiver Wahrscheinlichkeit noch stets auf die erste U-Bahn warten. Es ist Ut, = to gleichbedeutend mit Nt, = 0, und somit gilt gema0 der Definition des Poisson-Prozesses, dass P(Ut, = to) = P(Nt, = 0) = eCAto. Das obige Lemma liefert dieselbe Anssage, da die Sprunghljhe der Verteilungsfunktion im Punkt to gleich = e-"0 ist. So ist also Ut, eine Zufallsvariable, deren Verteilung 1-(1-e-"0) weder diskret noch stetig ist. Fiir t + cc konvergiert die Verteilung von Ut gegen eine Exp(A)Verteilung in dem Sinne, dass fiir alle u 2 0 lim P(Ut I u ) + 1- e-".
t+m
Da K ebenfalls exponentiell verteilt und unabhangig von Ut ist, hat die wahrgenommene Zwischenzeit Ut K im Limes also eine Gamma(2,A)-Verteilung In dieser Tatsache lie@ die Auflosung des Widermit Erwartungswert spruchs zwischen den beiden Antworten auf die Rage nach der Wartezeit des um 8:00 Uhr bei der U-Bahnhaltestelle eintreffenden Fahrgastes. Bei der ersten Antwort fehlte die uberlegung, dass die um 8:00 Uhr wahrgenommene Wartezeit im Mittel doppelt so lang ist wie die Wartezeit bis zur Abfahrt der ersten U-Bahn.
i.
+
282
13. Der Poisson-Prozess
Abb. 13.5. Ausschnitt aus einem homogenen Poisson-Prozess in der Ebene
13.4 Der Poisson-Prozess als Punktprozess Wir haben bislang zwei Beschreibungen eines Poisson-Prozesses kennenge+ , angibt, wieviele Ereignisse lernt, einmal durch den Zahlprozess ( N t ) t E ~ der in jedem der Intervalle (0, t] auftreten, und dann uber die Folge ( S k ) k E ~ der Wartezeiten zwischen je zwei Ereignissen. In diesem Abschnitt stellen wir noch eine dritte Moglichkeit vor, deren besondere Bedeutung darin besteht, dass sie eine Verallgemeinerung auf mehrdimensionale Poisson-Prozesse ermoglicht. Eine Menge von Punkten in Rf konnen wir auch als Massenverteilnng auffassen, indem wir jedem Punkt die Masse 1 zuordnen. In naturlicher Weise kann diese Verteilung beschrieben werden durch die Anzahl n.(A) der Punkte, die in jeder messbaren Menge A C R+ liegen. Werden die Punkte in Rf zufallig gewahlt, so lassen sich die Werte n,(A) modellieren durch Zufalls-
13.4 Der Poisson-Prozess als Punktprozess
283
variablen N(A), A C Rf, deren gemeinsame Verteilung das Verfahren der Punktauswahl beschreibt. Erfolgt diese Punktanswahl gemaO einem PoissonProzess, so lassen sich folgende Eigenschaften zeigen. 1. Ftir jede messbare Menge A C Rf ist N(A) Poisson(XIAl)-verteilt, wobei IAl die Lange (Lebesgue-Md) von A bezeichnet. 2. Fur paarweise disjunkte, messbare Mengen AI, . . . ,A, sind die Zufallsvariablen N(Al), . . . ,N(An) unabhangig.
Fur Intervalle sind diese Eigenschaften Teil der Definition eines PoissonProzesses. Dass sie auch fiir beliebige messbare Mengen gelten, werden wir in diesem Buch nicht ausfiihren. Einen Poisson-Prozess im Rn definiert man iiber die obigen Eigenschaften, wobei dann IAl Oberflache, Volumen bzw. allgemeiner das Lebesgue-MaO der Menge A C Rn bezeichnet. Beispiel 13.6 William Feller beschaftigt sich in seinem Bnch ,An Introduction to Probability Theory and its Applications' rnit einer Landkarte der Bombeneinschlage, die w a r e n d des 2. Weltkrieges den slidlichen Teil Londons getroffen haben. Er teilt das Gebiet in 576 Quadrate Ai rnit SeitenlZnge 500 m auf und zahlt dann die Bombeneinschlage fur jedes Quadrat. In Tabelle 13.1 sind diese Informationen aufgelistet nach der Anzahl Bombeneinschlage pro Quadrat. Wenn wir dies rnit einem Poisson-Prozess modellieren,
Tabelle 13.1. Verteilung der Bombeneinschlage auf 576 Planquadrate
so sind die Summen n(A,), i = 1 , . . . ,576, Realisierungen von 576 unabhangigen Poisson-verteilten Zufallsvariablen. Da wir den Intensit2tsparameter X nicht kennen, mussen wir ihn anhand der Daten schatzen. Wenn wir als Mdeinheit die Oberflache eines Planquadrats nehmen, folgt E(N(Ai)) = A, sodass die durchschnittliche Anzahl der Bombeneinschlage pro Planquadrat sich als Schatzer ftir X anbietet. Mit den gegebenen Daten folgt X = 0.9323. Wir erwarten dann, dass es 576.CX$ Planquadrate rnit k Einschlagen gibt, und haben diese Werte zum Vergleich in der Tabelle aufgenommen. Es besteht eine sehr gute ijberein~timmun~ zwischen den rnit Hilfe des Modells eines Poisson-Prozesses berechneten Werten und den gegebenen Daten. Einen homogenen Poisson-Prozess in R2 kijnnen wir uns vorst,ellen als Model1 fur die znfdlige Wahl von Punkten in R2. Wir sind bei der Beschaftigung rnit geometrischen Wahrscheinlichkeiten bereits auf das Problem gestoOen, dass es keine Gleichverteilung auf R gibt und wir somit kein Model1
284
13. Der Poisson-Prozess
ftir die zufulige Wahl eines Punktes in R haben. Dieselbe Problematik gilt fur R2, und auch hier wahlen wir den Weg, erst eine Gleichverteilung auf K K K K den endlichen Quadraten V := [-?,?I x [-?, zu definieren und anschliefiend den Grenzubergang K + w zu machen. Wir nehmen an, dass i = 1,.. . ,N gemafi wir N = XK%nabhiingige, zufallige Punkte (Xi, der Gleichverteilung auf V gewiihlt haben. Die Zahl N ist so gewahlt, dass wir im Durchschnitt X Punkte pro Einheitsquadrat erhalten. Diese Form der Abhangigkeit der Anzahl N der Punkte von K , der Seitenlange der Quadrate, ist wichtig, da wir sonst keinen sinnvollen Grenzwert beim ubergang K + oo erwarten kdnnen. Es seien nun A1,. . . ,A, disjunkte, beschrejlkte Mengen in R2 und sei N(Aj) die Anzahl der Punkte (Xi,Yi),i = 1,. . . ,N , die in A, liegen. Wir wahlen K so grofi , dass alle Mengen Ai in V liegen. Jeder der Punkte (Xi, Y,),i = 1 , . . . ,N , kann dann in eine der Mengen Ai fallen oder in die komplementtire Menge V \ (A1 U . . . U A,) und zwar mit Wahrscheinlichkeit IAnI)/K2. Damit hat der Vektor IAil/K 0 gilt
> t ) = 0,
P + X
Wir sagen, dass eine Eigenschaft E(w) fast uberall hzw. fur fast alle w E Q gilt, wenn P({w : E(w) gilt }) = 1. Die fast sichere Konvergenz ist ein ganz wichtiges Beispiel einer solchen Eigenschaft. So hetrachtet bedeutet X , 3 X , dass die Folge (X,(W)),>~fiir fast alle w E Q gegen X ( w ) konvergiert. Von der Einfuhrung her ist die fast sichere Konvergenz der einfachste unter den Konvergenzbegriffenin der Wahrscheinlichkeitstheorie, da er direkt abgeleitet wird von der Konvergenz einer Folge reeller Zahlen. Leider ist der Nachweis der fast sicheren Konvergenz meist nicht einfach zu geben. Konvergenz in Wahrscheinlichkeit bedeutet, dass die Wahrscheinlichkeit des Ereignisses {w : IX,(w) - X(w)l > t} fur n + oo gegen 0 konvergiert.
288
14. Einige KonvergenzbegifTe
Im folgenden Beispiel werden wir zeigen, dass dies nicht den Schluss zulasst, dass fiir festes wo E R der Abstand IX,(wo) - X(wo)l schliefllich kleiner als t wird. Obwohl die Ausnahmemengen {w : IX,(w) -X(w)l 2 t) immer kleiner 0 konvergiert, konnen sie doch R werden und ihre Wahrscheinlichkeit, gegen - durchlaufen und dabei unendlich oft ein gegebenes wo iiberdecken.
Abb. 14.1. Folge von Zufallsvariablen, die in Wahrscheinlichkeit, aber nicht fast sicher konvergiert
Beispiel 14.2 Wir geben jetzt ein Standardbeispiel, dass Konvergenz in Wahrscheinlichkeit nicht fast sichere Konvergenz impliziert. Als Wahrscheinlichkeitsraum wahlen wir R = [O, 11 mit der Gleichverteilung, und wir definieren die Zufallsvariablen X,, n 2 1, durch X,(w) :=
++
1 fur w E [j2Tk,( j + l)2-k] 0 sonst ,
wobei n = 2k mit k = 0,1,.. . und j = 0,. . . ,2k - 1. Jede natiirliche Zahl n l%st sicb eindeutig als n = Zk j mit k E No und j E {O,. . . , Zk - 1) darstellen, und somit ist die Folge (X,),?I eindeutig definiert. Fur X 0 ist die Folge der Wahrscheinlichkeiten (P(IX, - XI > 0)),>1 monoton fallend und wegen
+
=
14.1 Konvergenz von Zufallsvariablen
289
gilt limn,, P(IXn -XI > 0) = 0. Also konvergiert X, in Wahrscheinlichkeit 0. Andererseits ent,h<die Folge (X,(W)),~I gegen die Znfallsvariable X fur jedes w E L? unendlich viele 0-en und 1-en und konvergiert somit nicht.
=
Im folgenden Satz haben wir einige zur fast sicheren Konvergenz aquivalente Aussagen zusammengestellt, die in Konvergenzbeweisen hilfreich sein konnen. Die unterschiedlichen Formuliernngen dieser Aussagen beruhen eigentlich nur auf verschiedenen Formnlierungen der Konvergenz einer Zahlenfake (Xn(w)),?l. Satz 14.3 Es seien X undX1, XZ,. . . Zufallsuariablen auf dem Wahrscheinlichkeitsraum (L?, F,P ) . Dann sind folgende Aussagen aquiwalent (i) Xn konuergiert fast sicher gegen X . (ii) Fur alle t > 0 gilt
lim P(IXk -XI 5
fiir alle k 2 n) = 1.
(14.1)
P(IXk - X I > t fur unendlich viele k) = 0.
(14.3)
ntm
(ii?) Fur alle
t
t
> 0 gilt
(iu) Fiir alle t > 0 gilt
Beweis. Fiir die Aquivalenz von (ii) und (iii) betrachten wir die Ereignisse Ak(t) := {W : IXk(w) - X(w)I 5 r) sowie B,(t) :=
0 Ak(t) = {w : IXk(w) - X(w)I 5
E
fur alle k 2 n}.
k>n
Die Ereignisse (B,(t)),>l hilden eine aufsteigende Folge und somit folgt aus der Stetigkeit von ~ahricheinlichkeitsverteilun~en P(B,(t)) = lim P(IXk - XI 5 c fiir alle k 2 n). ntm
Damit ist die Aquivalenz von (ii) und (iii) gezeigt. Weiter gilt
= {w : fiir jedes n 2 1 giht es ein k 2 n mit w E A;} = {w : w E Ag fur unendlich viele k} = {w : IXk(w) - X(w)I
> E fur unendlich viele k}.
290
14. Einige KonvergenzbegifTe
Also sind (iii) und (iv) aquivalent. Zum Beweis der Aquivdenz von (i) und (iv) bemerken wir zunachst, dass aus der Identitat (14.3) fiir ein t > 0 folgt, dass diese Identitat fiir alle t' t auch gilt. Damit ist (iv) aquivalent mit der zunachst schwacheren Aussage, dass die Identitat (14.3) fiir alle t der Form t = f mit j E W gilt. Aber X,(w) konvergiert genau dann nicht gegen X(w), wenn es ein j gibt, sodass IX,(w) - X(w)l > $ fiir unendlich viele n, d.h.
>
Somit ist P(X, f , X ) = 0 genau dann, wenn fiir jedes j E W gilt IX, -XI
1
> :fiir unendlich viele n 3
Damit ist auch die Aquivalenz von (i) und (iv) gezeigt.
0
Die zweite Aussage des obigen Satzes verdeutlicht den Unterschied zwischen Konvergenz in Wahrscheinlichkeit und fast sicherer Konvergenz. Wahrend Konvergenz in Wahrscheinlichkeit fordert, dass P(IX, -XI I t ) + 1, muss fiir fast sichere Konvergenz gelten, dass
>
P(IXk - X I I t fiir alle k Da P(1-G - XI I t ) Aussage des folgenden Satzes.
> n), folgt daraus die
Satz 14.4 Fast sichere Konuergenz impliziert Konvergenz in Wahrschein-
lichkeit.
ubung 14.1 Es sei (X,),21 eine Folge ~oisson(i)-verteilterZufallsvariablen. Zeige, dass X ,
P
4 0.
14.2 Das starke Gesetz der groDen Zahlen Im Kapitel 6 hahen wir mit Hilfe der Chebychev-Ungleichung das schwache Gesetz der groBen Zahlen hewiesen, d.h. fur eine Folge (X,),?I unabhangiger, identisch verteilter Znfallsvariablen mit endlicher Varianz gilt, dass
14.2 Das starke Gesetz der gro5en Zahlen
291
In diesem Ahschnitt werden wir nun das starke Gesetz der groJ3en Zahlen beweisen, das sich genau an der Aussage iiher die Art der Konvergenz unterscheidet. Anstelle der Konvergenz in Wahrscheinlichkeit steht nun die stkkere Aussage der fast sicheren Konvergenz. Zunachst formulieren und beweisen wir ein klassisches Lemma, benannt nach den Mathematikern Emile Borel (1871-1956) und Francesco Paolo Cantelli (1875-1966), das die Grundlage der meisten Beweise fast sicherer Konvergenz ist. Lemma 14.5 (Borel-Cantelli Lemma) Sei (Ak)k>l - eine Folge won Ereignissen in dem Wahrscheinlichkeitsraum (Q, 7,P ) . (i) Gilt P(Ak) < oo, so folgt m
= P({w: w E Ak fiir unendlich viele k ) ) = 0.
(ii) Sind die Ereignisse (Ak)a>l - unabhangig mit
CEO=, P(Ak) = co, so gilt
Beweis. (i) Es gilt w E Ak far unendlich viele k genau dann, wenn ftir alle n E W gilt w E U E n A k oder Quivalent w E n= :l lJznAk. Da B, := Ak eine ahsteigende Folge von Ereignissen ist, folgt mit der Stetigkeit von Wahrscheinlichkeitsverteilungen
Uzn
da CEnP(Ak) eine konvergente Reihe ist. (ii) Wir bemerken zunachst, dass fiir eine beliebige Folge von Ereignissen (B,),>I gilt, dass P(n:=, B,) = 1 genan dann, wenn P(Bn) = 1 fiir alle n. Also ist zu zeigen, dass P ( U z n Ak) = 1 bzw. A;) = 0 fiir alle n . Wegen der Unahhangigkeit der Mengen A; gilt
P(nzn
wohei wir die Ungleichung 1 - x 5 e c X ,x E $ verwendet haben.
0
kann nach dem BorelFtir eine Folge unahhBngiger Ereignisse Ak nur Wahrscheinlichkeit 0 oder Cantelli Lemma das Ereignis 1 haben. Zu dieser Aussage giht es eine weitreichende Verallgemeinerung,
UFn
292
14. Einige KonvergenzbegifTe
das sogenannte 0-1-Gesetz von Kolmogorov. Dieses Gesetz sagt aus, dass Ereignisse, deren Eintreten fiir jedes n aufgrund der unabhhgigen Ereignisse A,, A,+1,. . . entschieden werden kann, stets die Wahrscheinlichkeit 0 oder 1 haben. Solche Ereignisse heiBen terminale Ereignisse. Auch im Borel-Cantelli Lemma werden Aussagen Uber ein terminales Ereignis gemacht. Es hangt fiir A k gilt. jedes n E W nur von A,, A,+1,. . . ab, oh w E n r = l
, :u
Lemma 14.6 Es seien X und XI,Xz, . . . Zufallsvariablen, und es gelte fiir alle t > 0 m
Cp(lx,-xl>t)<m. n=1
Dann konuergiert (X,),21 fast sicher gegen X. Beweis. Dies folgt aus dem Borel-Cantelli Lemma und Satz 14.3(iv).
0 P
Lemma 14.7 Es seien X und X1,Xz,. . . Zufallsvariablen mit X, + X. Dann gibt es eine Teilfolge (Xnk)k21, die fast sicher gegen X konvergiert.
Beweis. Da fiir jedes feste t > 0 gilt lim,,, P(IX, -XI > t) = 0, konnen 5 Dann gilt wir zu jedem k ein nk bestimmen, sodass P(IX,, -XI > fur jedes t > 0 und k >
i ) &.
Also konvergiert die Reihe CFo=, P(IX,, - XI > c ) fiir jedes t nnd daraus 0 folgt mit Lemma 14.6 die fast sichere Konvergenz von (X,,)k>l.
Satz 14.8 (Starkes Gesetz der groBen Zahlen) Es sei (X,),>I eine Folge unabhangiger, identisch verteilter Zufallsvariablen met EIXlI < m. Dann, gilt
Beweis. Wir geben hier einen Beweis unter der etwas starkeren Annahme, dass E(X:) < cu.Ein Beweis unter der schwachsten maglichen Voraussetzung, dass ElXll < m, ist wesentlich anfwendiger und sprengt den Rahmen dieses einfuhrenden Buches. Wir durfen ab jetzt annehmen, dass EX, = 0, da wir sonst Xi durch Xi-EX, ersetzen kannen. Damit gilt
14.2 Das starke Gesetz der gro5en Zahlen
293
denn E(X,XjXkX~)= 0, aufler wenn die Indizes paarweise gleich sind. Da E(X2X;) = (EX;)(EX?) fiir i # j , erhalten wir weiter
wobei C eine positive Konstante ist. Mit Hilfe der Markov-Ungleichung finden wir schliefilich
Mit Lemma 14.6 folgt daraus die fast sichere Konvergenz von gegen 0.
Cy=lXi 0
In der Statistik findet das Gesetz der groflen Zahlen Anwendung bei Konsistenzbeweisen fiir Schatzer. Vereinfacht gesagt heiflt ein Schatzer fiir g(0) konsistent, wenn dieser bei zunehmender Anzahl von Beobachtungswerten gegen den wahren Wert g(0) konvergiert. Genauer formuliert haben wir eine Familie {Po,0 € 0 ) von Wahrscheinlichkeitsverteilungen und eine Schatzerfolge t,(Xl,. . . ,X,). Diese Folge heifit konsistent, wenn gilt t,(Xl,. . . ,X,) + g(0). Je nach Art der Konvergenz unterscheidet man auch hier eine schwache oder starke Konsistenz.
Beispiel 14.9 (i) Sei (X,),>l eine Folge unabhangiger, identisch verteiker Zufallsvariablen, so ist der Mittelwert CE=,X n ein konsistenter Schatzer fiir E X l . Insbesondere ist fiir Exp(X)-verteilte Zufallsvariablen der Mittelwert ein konsistenter Schatzer fur
i.
(ii) Sei (Y,),21 eine Folge reellwertiger Zufallsvariahlen mit Y, % Y und sei f : R + R eine stetige Abbildung. Da fur jede reelle Zahlenfolge fs. (x,),~I mit lim,,, x, = x gilt lim,, f (x,) = f (x), folgt f (Y,) f f(Y). 1st also t,(Xl,. . . ,X,) eine konsistente Sch&t,zerfolgefiir g(0), so ist f (t,(Xl,. . . ,X,)) ein konsistenter Schatzer fiir f (g(0)). Oft erhalten wir die Schatzer t,(xl,. . . ,x,) fur alle n nach demselben Verfahren, etwa der Mittelwert oder die Varianz einer Stichprobe. Wir nennen dann auch das entsprechende Verfahren konsistent.
ubung 14.2 Es sei (Xn),>l eine Folge unabhzngiger, identisch verteilter Zufallsvariablen mit E(X:) < w. Zeige, dass
294
14. Einige KonvergenzbegifTe
Ubung 14.3 Es sei (X,),?I eine Folge unabhingiger, identisch verteilter Zufallsvariablen mit u2 =- Var(X1) < m. Zeige, dass fiir die Stichprobenvarianz 8% := & C;=,(Xx - x)' gilt, dass
Ubung 14.4 Es sei (X,),?l
eine Folge unabhangiger, identisch verteilter Zufallsvariablen mit VarXl < m. Zeige rnit Hilfe der Chebychev-Ungleichung und Lemma 14.6, dass & C?=,(X, - E X , ) -t 0 fiir a > 1.
14.3 Konvergenz in L, Wir fiihren noch einen weiteren Konvergenzbegriff ftir Zufallsvariablen ein, der auf einem Abstandsbegriff zwischen zwei Zufallsvariablen aufhaut, und werden dann die Zusammenhange zu den in Abschnitt 13.1 eingefiihrten Konvergenzbegriffen untersuchen. Definition 14.10 Es seien X und XI, X2,. . . Zufallsvariablen auf dem Wahrscheinlichkeitsraum ((2,F,P) und r E (0, co). Dann heifit (X,),?I in L, konuergent gegen X , wenn gilt lim E(IX, - XIT) = 0,
n+m
und wir schreiben X, & X , Lemma 14.11 Konuergenz in L, impliziert Konuergenz in Wahrscheinlichkeit.
Beweis. Mit Hilfe der Markov-Ungleichung erhalten wir
Wenn also X, 4 X , so konvergiert die rechte Seite gegen 0 und somit auch 0 P(IX, -XI > t), d.h. X, 5 X . Anhand zweier Beispiele werden wir nun zeigen, dass Konvergenz in L, weder hinreichend noch notwendig fiir fast sichere Konvergenz ist, d.h. fast sichere Konvergenz impliziert nicht Konvergenz in L, und umgekehrt. Beispiel 14.12 (i) Es sei (X,)21 die im Beispiel 14.2 definierte Folge von Zufallsvariablen. Diese Folge konvergiert, wie wir dort gezeigt haben, nicht, fast sicher, aber wohl in L,, denn es gilt
f i 1 r n = 2 ~ + j j, = 0 ,..., 2 k - l u n d k E N o . (ii) Wir betrachten als Wahrscheinlichkeitsraum verteilung und definieren die Zufallsvariablen
(2
= ( 0 , l ) mit der Gleich-
14.3 Konvergenz in L,
295
fur w E ( 0 , i ) ,( 1 3 ),
- w) fur w E
sonst, die in Abbildung 14.2 grafisch dargestellt sind. Fiir festes wo E [O, 11 gibt es
Abb. 14.2. Fast sicher konvergente Folge, die nicht in L, konvergiert
ein no E N,sodass fiir n 2 no gilt Xn(wo) = 0. Somit konvergiert (X,),?I fast tiberall gegen X 0. Andererseits gilt
=
und somit konvergiert (Xn),21 fiir r 2 1 nicht in L,. Wir konnen nun die Rage stellen, unter welchen zusatzlichen Bedingungen fast sichere Konvergenz die Konvergenz in L, impliziert, und diese Frage hangt eng zusammen mit der Frage, wann es moglich ist, bei einer Folge von Zufallsvariablen Grenzwert und Erwartungswert zu vertauschen. Dazu gibt es zwei wichtige Satze, die wir hier ohne Beweis nennen.
Satz 14.13 (Satz von der monotonen Konvergenz) Sei 0 5 XI 5 Xz 5 . . . eine monoton waehsende Folge nieht-negativer, reellwertiger Zufallsvariablen Xn(w). Dann gilt und sei X(w) := limn,, E ( X ) = lim E(X,). n i m
(14.4)
Satz 14.14 (Satz von der dominierten Konvergenz) Seien X undX1, XZ, Zufallsvariablen n i t Xn 3 X . Sei weiter Y eine nicht-negative Zufallsvariable mit E Y < oo un,d P(IXnI 5 Y) = 1 fiir alle n . Dann gilt E ( X ) = lim E(X,) nim
296
14. Einige KonvergenzbegifTe
Die Beweise dieser Aussagen sind Htjhepunkte der von Henri Lebesgue (1875-1941) begrundeten htegrationstheorie. Der Satz von der dominierten Konvergenz ist van Lebesgue selbst erstmalig veroffentlicht, der Satz von der monotonen Konvergenz wird sowohl Lebesgue als auch dem italienischen Mathematiker Beppo Levi (1875-1961) zugeschrieben. Zu dem Satz von der dominierten Konvergenz liisst sich das folgende Korollar tiber Konvergenz in L, formulieren.
Korollar 14.15 Es sei X , fit X und lX,I 5 Y fiir eine nichtnegative Zufallsuariable Y mit E ( Y r ) < co.Dann gilt X , X.
Beweis Wir definieren Z, := IX, - XI'. Dann gilt IZ,I 5 (2Y)? und Z, fit 0. Also folgt rnit dem Satz von der dominierten Konvergenz, dass E(Z,) = 0. 0 lim,,, Satz 14.16 Es sei 0 < r 5 s < m. Dann folgt aus der L,-Konvergenz die L,-Konvergenz. Beweis. Sei (X,),>I eine Folge von Zufallsvariablen, die in L, gegen X konvergiert. Dann gilt
wobei wir die Markov-Ungleichung verwendet haben und die Tatsache, dass x' 5 xs fur x 2 1. Da E(IX, - XI" + 0, gibt es ein n o E N,sodass fiir n 2 no die rechte Seite durch E beschrwkt ist. Also folgt X , A X . 0
ubung 14.5 Es sei (X,),21 eine Folge N(p,,q:)-verteilter
Zufallsvariablen. Gib notwendige und hinreichende Bedingungen fiir L,-Konvergenz von X, gegen X 0
an. ubung 14.6 Wir betrachten als Wahrscheinlichkeitsraum SZ = {I,.. . ,N) mit Laplace-Verteilung. Berechne fiir eine Zufallsvariable X : SZ + W den Erwartungswert EIXI' und zeige, dass in diesem Wahrscheinlichkeitsraum L,-Konvergenz und fast sichere Konvergenz dasselhe sind.
14.4 Konvergenz in Verteilung In den ersten Abschnitten dieses Kapitels haben wir uns mit Konvergenz von Folgen (X,),>l- von Zufallsvariablen beschaftigt und verschiedene Kon-
14.4 Konvergenz in Verteilung
297
vergenzbegriffe kennengelernt. Jetzt werden wir noch einen weiteren Konvergenzbegriff einfuhren, der auf einem Konvergenzverhalten von Wahrscheinlichkeitsverteilungen aufbaut. Wir bezeichnen die Verteilungsfunktionen mit denselben Buchstaben wie die zugehorigen Verteilungen, d.h.
Definition 14.17 (i) Die Folge (F,),?l von Verteilungen he@ sehwaeh konnergent gegen F , wenn fiir alle Stetigkeitspvnkte x uon F gilt lim F,(x) = F ( x ) ,
nim
und wir schreiben F, 3 F . (ii) Eine Folge (&),>I von Zufallsuan'ablen hei& konuergent in Verteilung gegen die Zufallsvariable X , wenn die Verteilung von X , sehwaeh gegen die 2, Verteilung von X konuergiert, und wir schreiben X , + X . 1st (X,),?I eine Folge von Zufallsvariablen, die in Verteilung gegen X konvergiert, und ist (Y,),>l - eine zweite Folge, wobei X , und Y, fur jedes n n dieselbe Verteilung haben, so gilt Y, + X . Die Konvergenz in Verteilung hangt also nur von den Verteilungen der einzelnen Zufallsvariablen ab. Dass dies ein deutlicher Unterschied zu den bislang definierten Konvergenzbegriffen ist, zeigt das folgende Beispiel. Beispiel 14.18 Sei (X,),zl die in Beispiel 14.2 definierte Folge. Wir definieren ftir k E No und j E {O, . . . , Z k - l } weitere Zufallsvariablen Y p + , := X p . Dann gilt P ( X p + , = 1) = P ( Y - Z k j = 1) = 2Tk und P(X2k+,- = 0) = P(&+, = 0 ) = 1 - 2-k. Also hat fur jedes n die Zufallsvariable Y, dieselhe Verteilung wie die Zufallsvariable X,. Wie wir bereits gesehen haben, konvergiert die Folge (X,),21 nicht fast sicher. Man kann aber anhand einer -
+
Abbildung, analog zu Abb. 14.1, einsehen, dass Y, 3 0. Die fast sichere Konvergenz einer Folge von Zufallsvariablen hangt also entscheidend von deren gemeinsamer Verteilung ab und nicht nur von den marginalen Verteilungen. Definition 14.19 Es sei X eine reellwertige Zufallsvariable. Dann heij3t
die eharakten'stische Funktion von X . Die Definition der charakteristischen Funktion verwendet den Erwartungswert einer komplexwertigen Zufallsvariablen, der so definiert ist, dass wir fur Real- und Imaginiirteil getrennt den Erwartungswert berechnen. Also gilt fiir Z = U + i V , wobei U und V reellwertige Zufallsvariablen sind, E Z := E U i E V . Fiir die charakteristische Funktion erhalten wir mit Hilfe der Euler'schen Ident,itat eit = cost i sint, dass gilt
+
+
298
14. Einige KonvergenzbegifTe
Charakteristische Funktionen haben viele Gemeinsamkeiten mit momenterzengenden Funktionen m x ( t ) = E(etx). Gegenuber momenterzeugenden Funktionen haben charakteristische Funktionen den Vorteil, dass sie fur jede Zufallsvariable fiir alle t existieren, da leitXI 5 1. Beispiel 14.20 (i) Es sei X Poisson(X)-verteilt. Dann ist die charakteristische Funktion
(ii) Es sei X Bin(n,p)-verteilt. Dann ist die charakteristische Funktion
(iii) Es sei X N ( p , u2)-verteilt. Dann ist die charakteristische Funktion
Formell erhalten wir dieses Ergebnis, indem wir in die momenterzeugende das Argument it einsetzen. Um diesen Schritt, Fnnktion m(t) = ePt+* auszufuhren, sind Hilfsmittel aus der Funktionentheorie erforderlich. L e m m a 14.21 Fur die charakteristische Funktion vx der Zufallsuariablen X gilt (i) ip,x+a(t) = eibtvx(at), far a, b E R. (ii) Ist das k-te Moment won X endlich, d.h. E(IXlk) < m, so ist ipx k-fach differenzierbar und
Insbesondere gilt g i p ( 0 ) = i k ~ ( x k ) Beweis. (i) Diese Identitat folgt aus der Linearitat des Erwartungswertes. (ii) Wir zeigen die Behauptung ftir die erste Ableitung. Ftir Ableitungen hijherer Ordnung zeigt man die Behauptung per Induktion nach k. Es gilt, zunachst
Die Zufallsvariable Zh := e i t x q auf der rechten Seite konvergiert fast, sicher gegen iXeitx. Aus der Ungleichung leis - 11 5 s, gtiltig ftir alle s E R, folgt weiter [Zhl 5 1x1. Wegen ElXl < m klinnen wir den Satz von der dominierten Konvergenz anwenden und erhalten &(t) = E(iXeitx).
14.4 Konvergenz in Verteilung
299
Satz 14.22 Die charakteristische finktion einer Summe zweier unabhdngiger Zufallsuariablen X und Y ist gleich dem Produkt der einzelnen charakteristischen finktionen, d.h.
Beweis. Der Erwartungswert eines Produktes unabhangiger Zufallsvariablen ist gleich dem Produkt der Erwartungswerte, und dies gilt auch fiir komplexwertige Zufallsvariablen. Somit folgt die Behauptung (14.5) aus der Identitat ,it(X+y) = eitXeitY 0 Ebenso wie fiir die erzeugende Funktion und die momenterzeugende Funktion gilt auch fur die charakteristische Funktion ein Eindeutigkeitssatz, den wir jetzt ohne Beweis nennen.
Satz 14.23 Zwei Zufallsvariablen X und Y, deren charakteristische Funktionen auf ganz R ubereinstimmen, haben dieselbe Verteilung. Der folgende Satz von Paul LQvy und Harald CramQr (1893-1985), den wir bier ebenfalls ohne Beweis nennen, gibt uns die Moglichkeit, Verteilungskonvergenz mittels analytischer Hilfsmittel zu beweisen, indem wir die Konvergenz der zugehorigen charakteristischen Funktionen beweisen.
Satz 14.24 (L6vy-CramQr)Seien X und X l , X 2 , . . . Zufallsuariablen. Dann 0 gilt X, t X genau dann, wenn ipx, (t) + ipx(t) fur alle t E R. Als schones Beispiel fiir die Anwendung analytischer Methoden werden wir nun den Zentralen Grenzwertsatz in einer allgemeinen Form beweisen.
Satz 14.25 Sei (Xk)kZ1 eine Folge unabhangiger, identisch verteilter Zufallsvariablen n i t p = EX1 und u2 = Var(Xl) < m. Dann gilt
Beweis. Es sei ip die charakteristische Funktion von XI - p und ip, die charakteristische Funktion von IC;==,(Xk - b). Dann gilt mit Lemma 14.21 J;; und Satz 14.22, dass ip,(t) = (ip(t/fi))n. Da E(X1 - p)' existiert, ist ip nach Lemma 14.21 zweifach differenzierbar mit ~ ' ( 0 )= iE(X1 - p ) = 0 und 'p1'(O) = i2E(X1 - p)2 = -2. Dann folgt mit der Taylor-Formel
Rechts steht die charakteristische Funktion einer N(0, u2)-Verteilung,und so 0 folgt der ZGS mit Hilfe des Satzes von L&y-CramQr.
300
14. Einige KonvergenzbegifTe
14.5 Aufgaben Aufgabe 14.1 Es sei (X,),>I eine Folge unabhangiger, identisch verteilter Zufallsvariablen mit EIXII < oo und EXl = 0. Zeige mit Hilfe charakteristiv scher Funktionen, dass Xk f &, wobei 60 die diskrete Verteilung auf IW ist, die dem Punkt 0 die Masse 1 giht.
EL,
Aufgabe 14.2 Es sei (X,),>I eine Folge Bin(n,p,)-verteilter Zufallsvariablen mit np, + X E (0, oo).Bestimme die charakteristische Funkt,ion ip, von X,. Zeige, dass lim,, ip,(t) = ip(t), wobei ip die charakteristische Funktion einer Poisson-Verteilung ist. Aufgabe 14.3 Sei (X,),>l
Zeige, dass dann X,
eine Folge von Zufallsvariablen mit X,
P + X.
0 + X.
Aufgabe 14.4 Es sei (x,),?~ eine konvergente Folge reeller Zahlen mit Limes z. Definiere Zufallsvariablen X, := z, und X := z und zeige, dass x, a x .
=
Aufgabe 14.5 Es sei X c eine konstante Zufallsvariable. Zeige, dass eine Folge (X,),>1 genau dann in Verteilung gegen X konvergiert, wenn sie in ~ahrscheinlichkeitgegen X konvergiert. Aufgabe 14.6 Zeige, dass ElXlp E r = l P(IX1 2 nllp) konvergiert. Aufgabe 14.7 Sei (X,),?I
< m genau dann gilt, wenn die Reihe
eine Folge unabhangiger, ident,isch verteilter Zu-
fallsvariablen. Zeige, dass EIXllp < m genau dann gilt, wenn A X ,
3 0.
Aufgabe 14.8 Es sei (X,),?l eine Folge unabhangiger, identisch verteilter Zufallsvariablen mit E(X:) < m. Zeige, dass dann gilt 1
max(X1,. . . ,X,)
-
fi
f.s. + 0.
Aufgabe 14.9 Fiir zwei Zufallsvariablen X und Y definieren wir einen Abstand durch do(X,Y) := E
(i) Zeige, dass do der Dreiecksungleichung geniigt, d.h. dass fiir Zufallsvariablen X, Y, Z gilt, dass Q(X, Y) 5 do(X, Z) do(Z, Y). P (ii) Zeige, dass X, +X genau dann gilt, wenn do(X,, X ) + 0.
+
Literaturverzeichnis
Ans der groilen Fulle an Biichern zur Wahrscheinlichkeitstheorie und mathematischen Stat,istik kijnnen wir an dieser Stelle nnr einige wenige nennen. Unsere Auswahl ist sehr suhjektiv und im Wesentlichen ein Querschnitt durch unsere privaten Bibliotheken. Wir unterscheiden zunachst nach der Art der Darstellung zwischen elementarer und fortgeschrittener Literatur, je nachdem ob die Begriffshildung der Mailtheorie verwendet wird oder nicht. Weiter unterscheiden sich die Bucher ganz erheblich nach dem Raum, den die Statistik einnimmt. I. Elementare Darstellungen. 1. K. L. Chung: Elementary Probability Theory with Stochastic Processes. 3rd edition, Springer Verlag, Berlin 1979. 2. M. Denker, W. A. Woyczynski: Introdu.ctory Statistics and Random Phenomena. Birkhanser Boston 1998. 3. W. Feller: An Introduction to Probability Theory and It.$ Applications, Vol. I. 3rd edition, J.Wiley, New York 1968. 4. H.-0. Georgii: Stochastik. De Gruyter Verlag 2002. 5. G. Grimmett, D. St,irzaker: Probability and Random Processes. 2nd edition, Oxford University Press 1992. 6. G. Grimmett, D. Welsh: Probability: an introduction. Oxford University Press 1986. 7. R. V. Hogg, A. T. Craig: Introduction to Mathematical Statistics. 4th edition, Macmillan 1978 8. U. Krengel: Einfuhrung in die Wahrscheinlichkeitstheorie und Statistik. 5. Auflage, Vieweg Verlag 2000. 9. D. Stirzaker: Elementary Probability. Cambridge University Press 1994.
Unter den oben genannten Buchern nimmt das Buch von Feller einen hesonderen Platz ein. Dieses Buch ist ohne Zweifel der Klassiker unter den modernen Lehrbtichern zur Wahrscheinlichkeitstheorie und auch heute, 50 Jahre nach dem Erscheinen der ersten Ansgabe, noch stets sehr zu empfehlen. 11. Fortgeschrittene Literatur.
1. H. Bauer: Wahrscheinlichkeitstheorie. 5. Auflage, De Gruyter Verlag 2001 2. P. Billingsley: Probability and Measure. 2nd edition, J. Wiley, New York 1986
302
Literaturverzeichnis
3. H. Cram&: Mathematical Methods of Statistics. Princeton University Press 1945. 4. R. M. Dudley: Real Analysis and Probability. Wadsworth 1989 5. R. Durrett: Probability: Theory and Examples. Wadsworth 1991 6. W. Feller: An Introduction to Probability Theory and Its Applications, Vol. II. 2nd edition, J. Wiley, New York 1971 7. P. Ganssler, W. Stute: Wahrscheinlichkeitstheorie. Springer Verlag 1973. Die ohigen Biicher entwickeln die Wahrscheinlichkeitstheorie und Statistik auf mafitheoretischer Grundlage. Dabei wird entweder Kenntnis der Ma& theorie vorausgesetzt oder die Grundlagen werden im Text vermittelt. Einen besonderen Platz nimmt in dieser Hinsicht das Buch von Billingsley ein, in dem MaBtheorie und Wahrscheinlichkeitsrechnung integriert dargestellt werden. Erwahnen wollen wir wieder das Buch von Feller, das eine Fiille an fortgeschrittenen Themen hehandelt, meist in einer exemplarischen Darstellung, und damit zu einem Klassiker der fortgeschrittenen Literatur geworden ist. Anf dem Gebiet der mathematischen Statistik ist Cramh in ahnlicher Weise ein Klassiker. 111. Literatur zur Mdtheorie. An verschiedenen Stellen im Text ha-
ben wir darauf hingewiesen, dass eine weiterfiihrende Beschaftigung mit der Wahrscheinlichkeitstheorie Grundkenntnisse der Mdtheorie erfordert. Wir nennen an dieser Stelle zwei Standardwerke der deutschsprachigen Literatur zn diesem Thema. 1. H. Baner: Ma$- und Integrationstheorie. 2. Auflage, De Gruyter 1992. 2. J. Elstrodt: Ma$- und Integrationstheorie. 3. Auflage, Springer Verlag 2002
IV. Historische Werke. 1. 2. 3. 4.
C. Huygens: De Ratiociniis in Ludo Aleae. Amsterdam 1657. Jakoh Bernoulli: Ars Conjectandi. Basel 1713. A. de Moivre: The doctrine of chances. 2nd edition, London 1738. A.N. Kolmogorov: Grundbegme der Wah,rscheinlichkeitsrechnung.Springer Verlag, Berlin 1933.
Von den vielen historischen Werken znr Wahrscheinlichkeitstheoriehahen wir diese vier Werke aus gutem Grund hervorgehohen. Die Biicher von Huygens und Kolmogorov standen zu ihrer Zeit jeweils am Anfang einer Entwicklung und haben nachfolgende Wissenschaftler entscheidend beeinflusst. Huygens' Traktat war der Beginn einer ernsthaften wissenschaftlichen Beschaftigung mit der Wahrscheinlichkeitsrechnung und Kolmogorov verschaffte der Wahrscheinlichkeitstheorie einen Platz als exakte, auf Axiomen aufgebaute mathematische Theorie. In den beiden anderen Biichern trat jeweils ein groBes Resultat der Wahrscheinlichkeitstheorie zum erst,en Ma1 auf. Bernoulli gab den ersten Beweis des Gesetzes der groBen Zahlen, De Moivre den ersten Beweis des zentralen Grenzwertsatzes fiir Bernoulli-verteilte Zufallsvariablen.
Sachverzeichnis
D'Alembert, Jean 8 Alternative 253 - einfache, zusammengesetzte 254 Banach, Stefan 40 Bayes, Thomas 52 - Formel 51 Bayes'sche Statistik 56 bedingte - Dichte 203 - Erwartung 122, 204 - Erwartungswert 121, 204 - Varianz 121, 123 - Verteilung 118, 203 - Wahrscheinlichkeit 49 - Wahscheinlichkeitsfunktion 118 Bereichsschatzer 269 Bernoulli, Jakoh 69 - Experiment 69 - Prozess 274 - Verteilung 69 Erwartungswert 83 erzeugende Funktiou 138 momenterzeugende Funktion 150 Varianz 91 Bernstein Polynom 97 Bertrand'sches Paradoxon 202 Beta-Verteilung 162 - Dichte 162 - Erwartungswert 175 - Varianz 175 Bias 230 Binomialkoeffizient 25 - Identitaten 39 Binomialformel von Newton 26 binomiale Verteilung 34, 70 - Erwartungswert 83 - erzeugende Funktion 138 - momenterzeugende Funktion 150 - Varianz 92 Binomialtest 250 Borel, Emile 291
Borel-Cantelli Lemma 291 Buffon'sches Nadelproblem 198 Cantelli, Francesco Paalo 291 Cauchy, Augustin Louis 133 - Verteilung 163 Dichte 163 Erwartungswert 174 Cauchy-Schwarz Ungleichung 134 charakteristische Funktion 297 Chebychev, Pafnuty Lvovich 95 - Ungleichung 96 Chiquadrat - Verteilung 162 - Test 252 Cram&, Harald 299 Dichtefunktion 157 gemeinsame 177 - marginale 182 dominierte Konvergenz 295 -
empirische Verteilungsfunktion 197 Ergehnis 4 - -raum 4 Erdos, Paul 43 Ereignis 4 - elementares 8 - -raum 6 erwartungstreu 230 Erwartungswert 82, 173 - Dreiecksungleichung 85 - Linearitat 86 - wichtiger diskreter Verteilungen 94 - wichtiger stetiger Verteilungen 175 erzeugende Funktion 137 Euler, Leonhard 43 Euler'sche p-Funktion 43 - Produktformel 44 exponentielle Verteilung 161 - Dichte 161 - Erwartungswert 175
304 -
Sachverzeichnis
Varianz 175
Faltungsformel fiir Wahrscheinlichkeitsfunktionen 113 - fiir Dichten 191 Faltungsprodukt 115, 191 Fehler 1. Art, 2. Art 254 Feller, William 213 Fermat, Pierre de 10 Fisher, Ronald Aylmer 247 F-Verteilung 247 Fubini, Guido 124 -
Galton, Francis 144 Galton-Watson Prozess 145 - Aussterhewahrscheinlichkeit 146 - Erwartungswert, Varianz 154 Gamm&Verteilung 162 - Dichte 162 - Erwartungswert 175 - momenterzeugende Funktion 193 - Varianz 175 G a d , Carl Friedrich 160 - Glockenkurve 160 - Verteilung 160 - Test 267 geometrische Verteilung 71 - Erwartungswert 84 - erzeugende Funktion 138 - momenterzeugende Funktion 151 - Varianz 93 Gesetz der groBen Zahlen - empirisches 4 - schwaches, fiir Bernoulli Zufallsvaria. hlen 96 - schwaches 117 - stakes 292 Gini's mean difference 235 Gleichverteilung 159 - Dichte 159 - Erwartungswert 173 - Varianz 175 Gosset, William Sealy 247 Giitefunktion 254 - randomisierte Tests 258 Huygens, Christian 1 hypergeometrische Verteilung 35, 71 - Erwartuneswert 84 " - Varianz 93, 131 Hypothese 253 - einfache, zusammengesetzte 254
Inklusions-Exklusionsformel 13 Inspektionsparadoxon 280 Kac, Mark 43 kleinste Quadrate - Methode 243 - Regression 130, 242 - Schatzer 243 Kolmogorov, Audrey Nikolaevich 11 - Axiomensystem 11 Komhination von k aus n 24 Konfidenzhereich 269 Konfidenzintervall 269 Konsistenz 293 Konvergenz - dominierte 295 - fast sichere 287 - in L, 294 - in Verteilune 297 - in Wahrschekchkeit 287 - monotone 295 - schwache 297 Korrelationskoefiient 128 Kovarianz 128 Kovarianzmatrix 130 L%ngenproportional verzerrte Stichprohe 200 Laplace, Pierre-Simon de 2 - Experiment 7 - Raum 7 - Wahrscheinlichkeitsdefinition 2 - Verteilung 7, 68, 239 Erwartungswert 83 momenterzeugende Funktion 153 Varianz 91 Lehensdauer - verbleihende 280 - verstrichene 280 Lehesgue, Henri 296 Legendre, Adrien-Marie 245 Levi, Beppo 296 LBvy, Paul 213 Likelihood - -funktion 236 - -quotient 262 verallgemeinerter 265 - -quotiententest 262 verallgemeinerter 265 Lineare Regression 241 Loglikelihoodfunktion 236 Lokaler Grenzwertsatz 218 marginale
Sachverzeichnis Dichte 182 Verteilung 104 - Wahrscheinlichkeitsfunktion 104 Markov, Audrey Andreyvich 95 - Ungleichung 95 matching Verteilung 78 - Erwartungswert 87 - Varianz 133 Maximum - Dichte 192, 196 - Verteilung 192 Maximum Likelihood - Methode 236 - Schatzer 236 Median 239 median absolute deviation 239 De Mi&, Antoine 10 Messbarkeit - von Funktionen 63 - von Mengen 64 Minimum - Dichte 192, 196 - Verteilung 192 De Moivre, Abraham 160 De Moivre-Laplace, Satz 224 Momente einer Verteilung 91 - zentrale 91 Momentenmethode 233 momenterzeugende Funktion 148, 193 monotone Konvergenz 295 Multinomial - -koeffizient 30 - -formel 106 multinomiale Verteilung 106 - Kovarianzmatrix 130 Multiplikationsregel 51 -
-
-
-
negativ-binomiale Reihe 73 negativ-binomiale Verteilung 73 - Erwartungswert 84 - erzeugende Funktion 138 - momenterzeugende Funktion 150 - Varianz 94 Neyman, Jerzy 253 Neyman-Pearson - Lemma 260 - Test 262 Niveau 254, 255 Normalverteilung 159 - Dichte 159 - Erwartungswert 173 - mehrdimensional 207 Dichte 207
-
305
Erwartungswert 207 Kovarianzmatrix 207 momenterzeugende Funktion 193 Varianz 175
Ordnungsstatistik 195 Dichte 195 - Verteilungsfunktion 195 -
Parameterraum 227 Pareto-Verteilung 163 - Dichte 163 - Erwartungswert 176 - Varianz 176 Pascal, Blaise 10 - Dreieck 39 Pearson, Egon Sharpe 253 Pearson, Karl 251 Permutation 23 Petersburger Paradoxon 99 Poisson, Simon-Denis 75 - Approximation 75 - Grenzwertsatz 75 - Prozess 276 - Verteilung 76 Erwartungswert 84 erzeugende Funktion 138 momenterzeugende Funktion 153 Varianz 93 Pdya, Georg 62 - Urnenmodell 62 Produkt - -experiment 46 - -raum 47 - -wahrscheinlichkeit 47 Priifgroae 253 Punktprozess 282 p-Wert 253 Quantil 264 -funktion 264
-
Reflektionsprinzip 38 Regressions - -gerade 242 - -koeffizient 242 Rekord 99 Risiko 230 Risikofunktion 231 Ruinproblem 57 a-Algebra 11 Schatzer 230 Schatzung 230
306
Sachverzeichnis
Schwarz, Hermann Amandus 133 standardisierte Zufallsvariable 214 Standardabweichune 89
tich hi robe 227
Mittelwert 232 Varianz 233 Stichprobenanalogon 235 Stichprohenraum 227 Stimmzettelproblem 37 Stirling Formel 222 Stochastischer Prozess 145 Student-t-Verteilung 247
-
Test 254 Binomial 250 - Chiauadrat 252 - ~ a u i 2 6 7 - Likelihoodquotient 262 verallgemeinerter 265 - Macht 255 - Neyman-Pearson 262 - Niveau 255 - randomisierter 258 - Student-t 268 - trennscharfster 259 gleichmaig 254 - Zeichen 252 totale Wahrscheinlichkeit, Satz 51 totale Erwartuna, -, Satz 123. 204 Transformationsformel - fur Erwartungswert 85, 108, 174, 185 - fiir Dichten 170, 181 Turan, Paul 43 t-Verteilung 247 -
u.i.v. Zufallsvariable 117 Unahhangigkeit - Ereignisse 41, 42 - Zufallsvariablen 111 unkorreliert 128 Urnenmodell 21 - Ziehen mit Zuriicklegen 22, 26 - Ziehen ohne Zuriicklegen 22, 24 - Ziehen mit Beriicksichtigung der Reihenfolge 22
-
Ziehen ohne Beriicksichtigung der Reihenfolge 24, 26
Varianz 89 wichtiger diskreter Verteilungen 94 - wichtiger stetiger Verteilungen 175 Variation von k aus n 22 Verteilung - aposteriori 56 - apriori 56 Verteilung einer Zufallsvariahlen 64 - hedingte 118, 203 - gemeinsame 102 - marginale 104, 183 Verteilungsfunktion 163 - empirische 197 - gemeinsame 180 - verallgemeinerte Inverse 264 Verwerfungsbereich 254 Verzerrung 230 -
Wahrscheinlichkeitsdefinition - axiomatische 11 - frequentistische 3 - Laplace 2 Wahrscheinlichkeitsdichte 157 - gemeinsame 177 Wahrscheinlichkeitsfunktion 17 Wahrscheinlichkeitsfunktion eine~ Zufallsvariablen 65 - gemeinsame 102 - marginale 104 Wahrscheinlichkeitsraum 11 - diskreter 17 Wahrscheinlichkeitsverteilung 12 - Stetigkeit 16 Wald, Abraham 125 - Identitat 126 Watson, Henry William 144
-
Zalprozess 275 Zentraler Grenzwertsatz 215 Zufallsvariable 63 - diskrete 65 - stetige 157 - Verteilung 64 - Wahrscheinichkeitsfunktion 65